数据分析的演变-那时,现在和以后

数据科学的宽松定义是分析业务数据,以便能够为业务产生可行的见解和建议。 分析的简单或复杂(也称为“数据科学复杂性”的水平)也会影响结果的质量和准确性。 复杂性实质上是3个主要数据科学组件的功能-技术技能,数学/统计技能以及定义和交付相关业务解决方案所需的业务敏锐度。 自从数据科学在过去的二十年中开始受到企业的欢迎以来,这三大支柱一直是数据科学的支柱,并且在将来甚至还会继续。 但是,未来已经改变或将会改变的是技术和统计技术领域的基础研发。 我还没有目睹其他许多行业以如此快的速度淘汰这些技能。 数据科学的独特之处在于,它要求数据科学家和咨询公司不断更新其技能,并对采用新的和即将到来的技能保持高度的未来主义。 本文试图探讨过去几十年中数据科学的工具/技术方面是如何发展的,更重要的是,这个迷人的技术和创新驱动领域的未来前景如何。 然后>现在>以后 当企业首次开始采用数据科学时,目标是找到比使用业务启发式方法获得的解决方案更准确和可靠的解决方案。 同时,尝试使解决方案足够简单,以免使业务用户不知所措。 为了简化实施/消耗,对技术的选择保持简单,对数学/统计也是如此,以简化开发和解释。 本质上,较早的用例比预期的具有更多探索性,因此也影响了工具/技术的选择。 另一个重要因素是产品的市场可用性,更重要的是具有这些技能的分析师。 数据处理 SAS在2000年代曾是该行业的主力军之一,涉及数据处理/ EDA工作,它为报告和建模构建后端数据。 少数公司也将SAS用于EDW,否则由IBM…

使用Python将数据从Google表格写入内部数据库

关于如何从数据库将数据读取到Google表格中有很多教程,但我最近发现自己需要做相反的事情:将仅在私有Google表格中可用的数据移到我们的数据库中。 这种做法可能与数据库管理的黄金标准相去甚远,但这是一种允许非技术用户创建和管理需要提取并链接到其他内部数据源,然后通过Looker,货车和Tableau。 此外,在数据科学工作中,我经常需要将Google表格中的数据提取到Pandas数据框中进行分析。 使用StringIO对于公开的Google表格很容易,但是我需要找到一种检索私人公司数据的方法。 在本教程中,我将介绍如何将Google表格读取到数据框中,然后将其写入数据库。 步骤1:从工作表写入到DataFrame 从Google表格中获取数据到Pandas的最简单方法是将表格导出为csv并使用read_csv函数。 但是,此过程可能很麻烦,并且会引起随时间变化的任何源数据的延迟。 另一种方法是使用Google API,但是对于这个简单的用例来说有点不堪重负。 我的首选方法是使用gspread,这是专为Google表格开发的python包装器。 您仍然需要使用/创建Google帐户的OAuth凭据进行身份验证,但是从那里开始,此过程非常简单。 以下是逐步说明: 打开终端并安装gspread和oauth2(如果尚未安装,则安装熊猫) 点安装gspread pip安装oauth2client 2.为您的Google帐户创建OAuth凭据。 打开开发人员控制台,然后选择或创建一个项目。…