数据中最困难的问题

数据科学是一种越来越流行的专业,并且对数据分析师和数据工程师的需求正在迅速增长。 上周当我为Grace Hopper的Slack展台工作时,似乎来自应聘者的最常见问题之一是有关数据科学的工作。

大数据是关于将大量信息整理成可消化的,可操作的数据集。 这是关于在噪声中找到信号。 它满足了人类难以理解的渴望。 因此,当人们要求我解释数据工作是什么样的时候,许多人都在想象使用数据挖掘来构建复杂的模型。 当我向他们透露数据中最棘手的问题正在计算的秘密时,他们总是显得有些沮丧。

数数

计数是我们所有人都从小学习的东西。 幼儿可以数数。 大象可以数。 乌鸦可以数。 甚至sal也可以计数。 那么,数据科学团队为何不充满ra亵的柯文犬或光滑的两栖动物呢? 请允许我提出一个计数,其难度比乍看之下要困难。

我要问一个简单的问题,只要求您具有计数到有限整数的能力。 一旦您提出了您的电话号码,我将要求您写下来,然后向我证明它是正确的。 你准备好了吗? 开始了:

你有多少朋友?

写下您的电话号码。 好的,现在是有趣的部分。

我会得到相同的号码吗

  • 我是否问每个认识的人,他们是否认为您是他们的朋友?
  • 如果我问您算作朋友的人,您有几个朋友?
  • 如果我算一下您的Facebook朋友列表上的人数?
  • 如果我算一下您的Snapchat朋友列表上的人数?
  • 是否将您所有的工作朋友,所有学校的朋友和所有社会朋友加起来?
  • 如果我算上您上一次生日聚会的邀请人数?
  • 如果我算上邀请您参加上一次生日聚会的人数?
  • 如果我算上您去年与之互动的人,并减去所有工作和后勤互动?
  • 如果我数了你会告诉一个秘密的人数?
  • 如果我算一下您要帮助您搬家的人数?
  • 如果我算一下您将帮助迁移的人数?

大多数人将很难为每个问题提供完全相同的数字,因为对于每个示例,我们定义朋友是什么的方式都不同。

大象能做到这么容易?

同样,用户的定义会根据谁在问以及他们使用该号码的用途而有所不同。 本质主义者可能会说这是users表中的行数。 操作可以将用户定义为登录数。 财务可以将其定义为活动帐户的数量。 以及如何定义主动? 现在考虑您产品的用户数是您大多数其他数据所依赖的值。 然后带来额外的复杂性,其中许多值是从多个来源收集的,并且这些来源中的每一个都需要同意共同的定义,并且能够从其构成来源中准确计数,问题的范围开始变得清晰起来。

希望这个例子使您相信,计数实际上是一个值得您花费时间的具有挑战性的数据问题。 不幸的是,这可能意味着尚待时日,我们温柔的厚皮动物朋友才能与我们一起在大数据领域工作。