数据科学家。 第2篇,共3篇。

我需要一个吗? 在我之前的文章中讨论了数据科学家是什么,百万美元的问题是您需要一个吗? 不要相信炒作 我们中的许多人都记得,围绕大数据的大肆宣传达到董事会席卷而来的争夺战。 以前从未对数据或分析表现出浓厚兴趣的CEO突然开始要求知道他们的组织在“处理大数据”方面。 数据科学家似乎正在出现类似的趋势,高级管理人员要求企业聘请数据科学家解决所有问题。 这导致许多组织在没有充分考虑他们将要做什么以及是否实际需要它们的情况下聘用了数据科学家。 我遇到过数据科学家(或者至少是一些自称为数据科学家的人),他们被雇用来进行标准的BI仪表板开发和报告。 真是浪费 至关重要的是,不要被大数据/数据科学的炒作所笼罩,并认为数据科学家是解决您所有业务问题的灵丹妙药,或者无论您在何处拥有数据,都需要数据科学家。 尺寸不全 一个关键的考虑因素是您需要数据科学家与之合作的数据的性质。 对我来说,它的意义不在于尺寸,而在于结构和清洁度。 如果您的数据已经在关系数据库中很好地进行了结构化,那么数据分析师很有可能会使用它,并且不需要数据科学家。 如果您的数据脏了,结构松散或通常需要费劲的工作才能开始对其进行任何有用的处理,那么很可能需要数据科学家的编程技能。 (取消)构造问题 第二个关键考虑因素是您要解决的问题的性质。 如前所述,对我而言,数据分析师与数据科学家之间的主要区别在于,后者对于需要开发新颖解决方案的非结构化问题和方法更为满意。…

Alastair Majury关于数据科学家与业务分析师之间差异的评判

正如我之前在以前的博客以及本网站中所提到的,我既是数据科学家又是业务分析师。 尽管许多人将这两个位置视为同义词,但实际上它们是不同的。 诚然,它们彼此非常相似,并且确实具有相似的功能和目标。 但是,存在一些细微的差异,这些差异足以使职位彼此分开以至于被认为是分开的。 为了消除对该主题的任何困惑,我将简要概述这两种立场以及它们之间的区别和联系。 商业分析 为了尽可能简化,业务分析是对企业或公司(无论是非营利组织还是其他组织)进行难以置信的详细研究,确定其各种问题或薄弱环节,并针对这些问题设计有见地的解决方案的过程。 这些解决方案有多种形式。 软件开发,流程改进和组织技能都是潜在的关注领域。 大多数业务分析涉及IT。 数据科学 数据科学以最简单的形式涉及收集大量数据并开发见解并从中获取知识的过程或系统。 这两个区别在哪里? 虽然业务分析师和数据科学家都是掌握大量数据并利用它来做出明智的决策的大师,但他们都以不同的方式进行处理。 业务分析师倾向于筛选大量数据,并且对业务的过去,现在和将来的表现有深刻的了解; 另一方面,数据科学家会筛选大量数据,并开发一种视觉手段来更清晰地显示该信息。 他们还致力于设计算法,以支持业务决策。 简而言之,数据科学家致力于分析和解释数据,并为解决业务问题奠定了基础,而业务分析师则通过介绍如何使用数据来实际解决问题的方法,进一步迈出了一步。…

入门级数据科学职位的当前状态

该职位是基于在该领域工作的个人经验,并在过去三年中零星地采访了初中应聘者(没有博士学位,只有学士或硕士学位)。 这些想法是我自己的,在其他情况下可能并非如此。 我最近在Quora上回答了一个问题,即是否越来越难以进入数据科学,并且它引起了一些关注,这使我意识到,就(从我的观点)行业观点的当前状态可能不太清楚。近年来,“数据科学家”的位置大肆宣传。 几年前,众所周知,让数据科学家胜过竞争对手,仅仅是因为这是“ 21世纪最艰巨的工作”,而四大巨头则致力于进行所谓的“收购战”,甚至-毕业之前—领先的数据驱动公司为从事机器学习或应用统计或与数据科学相关的其他活动的学生提供了越来越多的丰厚收益。 当时,数据科学家的职位模糊不清。 这场“收购战”不是由需求驱动的,而是因为不让竞争对手要求这种被炒作的人才。 当然,四大巨头很可能知道他们在招聘什么,因为他们在那些领域中处于领先地位。 但是,高得离谱的高价位给学生提供了获得的机会,以及他们获得工作的难易程度,这导致了主流的炒作,那就是,只要拥有几年的大学经验,就可以在没有先验行业经验的情况下实现数据科学。 结果是大学对数据科学教育的需求激增。 大学遵循并启动了新的计划和专业化计划,以适应希望获得数据科学炒作的大量年轻人。 现在,大约正负一两年,这些课程的大量涌入的学生即将毕业,或多或少与大多数行业(该领域的领导者)同时毕业逐渐意识到他们实际上并没有得到他们的炒作,导致他们相信。 数据科学很难,需要多年在多个专业领域的经验。 如今,数据科学家已成为行业中的独角兽。 当然每个人都想要的东西,但实际上不可能找到; 否则他们会找到一个,但无法提供独角兽所值的市场价格。 取而代之的是,近年来发生的事情是定义更明确的专业角色,这些角色更容易指定期望和要求。 需求的这种定义使人们意识到这些职位的薪水过高,并且人才的供应每年都在增长。…

#bigdata 11e —数据的准确性

公司需要能够将数据量转化为竞争优势,创造价值并对业务产生影响。 有必要认识到“ V”(准确性)的重要性,这是IBM创造的表示可靠性的术语。 数据完整性方面的不确定性和其他歧义性是大数据的障碍。 质量,清洁,管理和治理的原则仍然是大数据中的关键学科。 庞大的数据量,不同的类型和格式使数据不准确且不受信任,尽管在大多数情况下,数据被视为准确可靠。 数据缺乏完整性的最常见情况是:来源不准确,软件错误,统计偏差,设备违规,访问安全性不足,来源不可靠,伪造,不确定性,缺乏更新,人为错误和不准确之处。 一位优秀的数据科学家知道,没有任何分析能够承受不良的数据质量,因此通常在准备数据时要花费多达75%的时间,以使数据真实可靠,以确保数据的后续分析。 好奇心 三分之二的业务领导者并不完全相信他们用于决策的信息。 数据分析项目中使用的低质量数据给美国经济造成了3.1万亿美元的损失。 到2020年,全球将产生40 ZettaBytes数据。 没有准确性,可以估计多少数据? 2.5世界上每天产生五千亿数据。 缺乏真实性将不使用这些数据中的多少? 组织需要分析结构化和非结构化的数据,其中许多是不确定和不准确的。 不确定性和不精确性的程度因情况而异,但应避免使用较差的方法,以便可以以很高的价格执行错误的分析。…