数据分析的演变-那时,现在和以后

数据科学的宽松定义是分析业务数据,以便能够为业务产生可行的见解和建议。 分析的简单或复杂(也称为“数据科学复杂性”的水平)也会影响结果的质量和准确性。 复杂性实质上是3个主要数据科学组件的功能-技术技能,数学/统计技能以及定义和交付相关业务解决方案所需的业务敏锐度。 自从数据科学在过去的二十年中开始受到企业的欢迎以来,这三大支柱一直是数据科学的支柱,并且在将来甚至还会继续。 但是,未来已经改变或将会改变的是技术和统计技术领域的基础研发。 我还没有目睹其他许多行业以如此快的速度淘汰这些技能。 数据科学的独特之处在于,它要求数据科学家和咨询公司不断更新其技能,并对采用新的和即将到来的技能保持高度的未来主义。 本文试图探讨过去几十年中数据科学的工具/技术方面是如何发展的,更重要的是,这个迷人的技术和创新驱动领域的未来前景如何。 然后>现在>以后 当企业首次开始采用数据科学时,目标是找到比使用业务启发式方法获得的解决方案更准确和可靠的解决方案。 同时,尝试使解决方案足够简单,以免使业务用户不知所措。 为了简化实施/消耗,对技术的选择保持简单,对数学/统计也是如此,以简化开发和解释。 本质上,较早的用例比预期的具有更多探索性,因此也影响了工具/技术的选择。 另一个重要因素是产品的市场可用性,更重要的是具有这些技能的分析师。 数据处理 SAS在2000年代曾是该行业的主力军之一,涉及数据处理/ EDA工作,它为报告和建模构建后端数据。 少数公司也将SAS用于EDW,否则由IBM…

新的竞选活动,同样的问题:关于伯尼·桑德斯(Bernie Sanders)2020年竞选活动的数据怎么说

参议员伯尼·桑德斯今天宣布,他将再次竞选总统。 桑德斯(Sanders)因2016年总统大选而出名,他赢得了22个州和居住在海外的民主党人的主要选票。 由于他是著名人物并且正在奔跑,所以我认为值得检查数据说明他的情况。 由于他在佛蒙特州的美国参议院的选举通常没有竞争力,因此该分析将依赖早期的民意调查数据。 正确使用早期民意调查可能会很有用。 我将在此分析中使用的主要民意测验是2018年12月的CNN民意测验以及2月4日发布的蒙茅斯大学的民意测验。 这是两次具有良好记录的民意调查,这意味着数据应该可靠。 民意测验之间的数字是相对一致的,这也表明它们是可靠的。 两项民意调查均显示桑德斯参议员仅次于前副总统拜登。 与我以前的民意测验分析一样,候选人支持的构成比目前支持候选人的选民所占比例更为重要。 民意调查中的数字显示,桑德斯参议员的支持不成比例地来自年轻人。 CNN将选民分为四个年龄段,发现他在18岁至34岁的年龄段中最受好评。 这表明桑德斯目前在大学生中仍然很受欢迎,这是上一次他对他的主要支持。 这也表明桑德斯参议员在许多应届大学毕业生中仍然很受欢迎。 不幸的是,CNN没有按年龄组细分候选人的实际支持。 蒙茅斯民意调查的确按年龄段细分了候选人的支持率。 如果将原始采访次数和蒙茅斯用于支持参议员桑德斯支持的百分比按年龄划分,则大约86%的桑德斯支持者年龄在50岁以下(该百分比有一定误差)。 这有力地表明,大学生和应届大学毕业生正在支持桑德斯参议员。…

预测个人的活动水平

有很多因素可能会影响一个人的活动水平,从他们的睡眠量到工作日的进行方式。 在这种情况下,我最终找到了一个kaggle数据集,其中包含有关个人活动水平,睡眠时间,所采取步骤的数量等96天的数据。 我获取了这些数据,并决定根据他们在特定日期将要采取的步骤数量建立一个预测模型。 数据集由96行和7列组成。 以下是各列: 我从省略表示该人燃烧了0卡路里的行开始。 然后,我从日期列中提取月份,并创建了月份列,以便了解月份如何影响所采取的步骤数。 在下面,我创建了一个图表,说明情绪如何影响所采取的步骤数。 在这种情况下,情绪值100、200和300分别对应于“悲伤”,“中性”和“快乐”。 从下图可以明显看出,随着人的情绪改善,他们的活动水平也随之提高。 但是,仅凭情绪并不能很好地预测人的步数,因为步数从“中性”到“快乐”略有增加。 这是清理后数据集的最终版本: 我使用sklearn的重采样功能将所有数据重采样到1000行,然后将数据分为训练和测试集。 我将目标变量设置为等于step_count,并进行了80/20分割。 我最终使用回归技术在step_count上构建了预测模型,因为它都是数字。 不幸的是,我无法使用线性回归,套索,岭或弹性网获得不错的成绩。 并且,由于step_count列的基线准确性极低,因此使用分类毫无疑问。 最后,我尝试了一种特征消除技术SelectKBest,希望我只能选择2个或3个特征/预测变量,但是当我针对目标将所有特征的交叉验证得分与针对目标的选定特征进行交叉验证时,我最终获得了更高的分数,而我所有的功能都只有19%,这还不够。…

分析领域的职业道路

作为一名数据科学家,您的职业道路几乎与某个IT行业的人相似,或者更有可能取决于您所雇用的公司。 在任何公司领域及其遵循的各种政策的更传统,通用的意义上,攀登众所周知的阶梯的总体进程将几乎相同。 以下是各种潜在职位的列表,您作为数据分析专业人员会发现自己正在为此工作。 分析员 在分析领域,分析师的职位更像是初始职位或进入职位。 任何开始了分析师职业的专业人员都将有机会在团队中工作,从而有机会提高自己的领域专业知识,并有机会使用各种数据分析工具,如R编程,SAS编程,Hadoop等等。 要被雇用为分析师,您需要具有基本的但很强的统计知识。 除了具有对逻辑回归,聚类和决策树的透彻了解外,还要求候选人熟悉所有其他广泛使用的统计概念,包括概率,分布,卡方等。 资深分析师 为了进一步晋升到下一个重要职位,即高级分析师,候选人必须花费至少一年左右的时间。 以此名称工作的专业人员通常具有较丰富的领域知识,并且可以自由地独立从事各种项目,甚至可以自己领导一些较小的项目。 作为高级分析师,您将能够学习数据分析中的各种新策略和方法。 队长 顾问的团队负责人是这个角色,在数据分析领域中,花了大约2-4年的时间才能由专业人员转行。 这个角色通常涉及专业人士,他们要通过拥有自己的团队来展示自己的领导才能。 许多其他人选择成为主题专家或众所周知的中小型企业。 这些主题专家基本上应该为他们的公司提供新技术和方法,以改善当前流程。 该角色还期望一个人管理其项目的主要部分,包括代表公司与客户进行沟通。…

剑桥,我们有一个问题(与生俱来)

2017年3月,心理学家,剑桥大学心理计量学中心主任(现为斯坦福大学教授)米哈尔·科辛斯基在CeBIT的主题演讲中介绍了他的研究结果:在社交媒体背景下应用的心理计量学。 更准确地说,心理学计量学最常用的方法之一:五大(五个人格特质:开放,尽责,性格外向,友善和情感稳定—最初术语是神经质 ),通过它可以创造出巨大的 配置集群 (如果让我想起数字集群,这是对的,虽然对了,但它们仍然是两个不同的东西,即使是连续的)。 从九十年代开始就使用心理计量学,通过访谈,调查等方式,使用度量模型(作为名称)来确定人格特质。 M. Kosinski教授使用社交数据(尤其是Facebook)在更短的时间内获得了更准确的结果。 在视频中,他显示了一张图表,该图表分析了Facebook上某项实验的喜欢情况,并精确地确定了“个性”的特征:尤其是数百次喜欢时,他确认的准确性超过80%。 该视频称为“隐私的终结”,并且在线。 您还可以尝试使用一个网站:在applymagicsauce.com上使用Facebook登录。 部分基于斯坦福大学教授的研究,这家公司的活动令人回味无穷,名叫Cambridge Analytica-现在对您而言,其起源很明显。 据《卫报》称,涉及Facebook的大数据“丑闻”(链接到扎克伯格的帖子)在2016年美国大选,欧洲退欧公投以及其他案件中产生了影响。 正如扎克伯格本人所证实的那样,Facebook当然不是唯一的社交平台,但今天它是最著名的出于商业和政治目的交换数据(或“被黑客入侵”)的平台。 想不到,这与本文无关。 即使…在CA Twitter个人资料上进行的浏览可能是有启发性的,部分是因为他们的生物拼写为“行为微目标”,另一部分是为了跟随他们………