从行为分析到数据科学

伟大的公司创造伟大的产品。 我们赞扬Apple,Tesla,Nike和Netflix,因为它们的产品很棒。 他们之所以获胜,是因为他们确保产品创新不是被动的,而是可预测的。

好消息是,可以。 存在技术来了解用户在体验您的产品之前,之中和之后做什么(或不做什么)。

天文学家是达到此目的的一种手段-但让我们从头开始…

USERcycle时代

在成为天文学家之前,我们曾是USERcycle(用户分析平台)。 但是,我们意识到,我们所有的客户都有相同的问题:将数据输入他们的分析平台非常痛苦。 如果我们解决了这个问题怎么办? 我们可以成为用户事件(或点击流)数据收集的平台。

毕竟,用户事件数据有多种用途,这是低挂的成果。 每个人都有一个网站和应用程序。 一些公司拥有出色的产品经理,大多数没有。 而且,很少见到数据使用得当的情况。 我们认为它需要改变。

第一步是使用户行为分析更加容易。 但是,当我们的客户开始需要访问更多类型的数据并要求我们扩展点击流基础结构时,这种情况迅速发展。 那时,我们意识到产品的一个组成部分-Apache Airflow(我们已通过多种方式使用它)可以立即解决许多客户问题。

Airflow是由AirBnB的工程师创建的工作流管理系统,用于计划,部署和监视基于依赖项的数据管道。

我们首先将Apache Airflow暴露给我们的内部团队,以使他们能够更快地移动。 然后我们想到了,我们与精明的客户合作。 他们也有工程师。 他们可以从气流中获取价值吗? 快速答案似乎是肯定的,但是它始终与点击流数据结合在一起,而不是作为一个单独的实体。

在构建工具时,我们逐渐意识到,移动所有数据对于产品分析至关重要。坦率地说,没人擅长。 突然之间,我们成为了一个具有两个产品的整体数据中心:Clickstream模块和Apache Airflow模块。 我们正在成为现代数据工程的平台。

这种趋势仍在继续:我们进入生态系统的不同部分,为客户提供价值,他们指出了另一个问题。 每个问题都与移动数据有关。 因此,该平台的增长已经完全有机了,并且将继续如此。 任何工具都是一次性的; 不是数据工程能力。

当前,我们的有机增长包括将Clickstream模块进一步重构为纯开源,并使其更易于部署到私有云。 而且,当我们使用Apache Airflow来移动数据时,这并不是真正的亮点-出现了更好的技术。 因此,我们在Kafka上进行投资,以构建下一代实时ETL流模块。

我们将进行创新,但是我们必须这样做,以便其他人也可以这样做。

我们的第一个产品,良好的第一步

点击流现在相对简单。 您可能需要几分钟的开发时间,但设置速度很快。 对于任何公司来说,这都是一个完美的第一步(而且启动一项计划很容易)。 Clickstream的唯一重点是摄取-无需进行任何转换,处理或操作。 摄取是要解决的第一件事,因为如果您过早采用逻辑方法,您将没有正确的数据,并且一旦完成,就需要重新处理整个过程。

看一下我们当前的点击流界面:

当然,摄取市场更加成熟,因此机会之窗将尽快关闭。 但是到那时,可以通过“命令中心”访问Apache Airflow和Kafka Connect。任何阶段的公司都可以注册并访问其中一个,两个或三个“模块”。

您可以将我们视为一个平台,上面有多个应用程序,这意味着我们将使用相同的组件来驱动不同的应用程序,并可以自由共享这些(开放源代码)工具。 然后,组织将安装一个平台并获得不同的工具。 这是值得的,即使他们一开始不使用所有它们,因为部署是如此简单。 当它们确实增长时,工具就在那里。 他们要做的就是打开它。

这是我们新的命令中心界面的简要介绍:

因此,尽管对于像Segment这样的人来说,我们目前是一个不错的选择,但我们的功能还远远不止这些。 随着我们逐渐发展成为数据工程平台,我们将继续专注于客户的需求。 它可能正在建立数百个点击流集成,但也可能专注于操作与供应商无关的数据仓库或将第三方数据流式传输到私有数据湖。 关键在于要足够敏捷,以便为客户提供敏捷所需的东西。

归结为敏捷

这种敏捷的精益创业思想一直引起共鸣: 建造一些小东西,对其进行衡量,从中学习,做出改变 。 很多人都读过这本书,但大多数人都没有练习。 一旦少数处理数据的人脱身,对其他所有人来说就太迟了。 这就是技术的本质。 我们的工具围绕该概念。 我们希望人们能够快速尝试新工具。

前几天我在和一位朋友谈论这件事的必要性。 我们叫他乔。 他在一家企业公司工作,该公司刚刚与一家前五名咨询公司签署了一个为期三年的项目,以构建他们的Hadoop数据结构。 但是Joe和实际处理数据的人都知道这太慢了。 问题是,三年后关于他们业务的一切都会有所不同。 更不用说,乔今天必须交付价值。 因此,他拥有影子IT,可以敏捷地构建他们所需的东西。 无论是在阴影下还是在光线下,我们都希望使它变得容易。

关键是,我们必须让人们投入到愿景中去—当我们发现有人愿意跳出框框思考以创建出色的产品时,我们就为他们配备了他们不断发展所需的工具。 如今,无论您要构建产品还是提供服务,任何类型的业务都需要数据工程。 您需要数据来制定决策并提供价值。 但是,当其他人的核心能力不强时,您不应该花费时间来构建平台。

对我们来说敏捷

在实现这种敏捷性的同时,我们必须以与我们产品相同的方式进行操作。 但是,我们希望保持可靠的坚如磐石的核心。 我们的解决方案就是所谓的使用GraphQL编写的Houston API。 即使某个模块“退役”,该API仍然牢固。 无论前端或后端采用哪种技术,都是将前端和后端结合在一起的粘合剂。 一切都是可以互换的,但是数据工程中心仍然很强大。 客户可以依靠他们注册的技术。

顺便说一句,这也是由客户需求驱动的。 他们想要与API交互的选项,而完全忽略了前端,因此我们将其交给了他们。 他们可以将其系统写入我们的系统,并以编程方式创建管道。 它在GraphQL中的事实为您提供了修补工具并以开发人员的身份进行探索的工具。 这与我们的竞争对手有很大的不同。

那么谁需要天文学家?

团结一致并以灵活的方式运营(或希望运营)以进行更好的分析(不仅是产品和行为分析,还包括数据科学或更多)的公司非常适合我们。 或者,如果您喜欢这种数据工程的想法并且让“图书馆员”在您的组织中工作来决定数据的去向,那么我们非常适合。 一些公司愿意花费数百万美元来获取正确的数据结构,但是三年的咨询公司已不再是解决之道-如果步伐太快,这将是世界。 那些想要迭代成功的人非常合适。

另一种看待它的方式是这样的:如果您对今天的分析方式不满意,或者感到竞争对手施加压力,又等不起三年,那么天文学家可以为您提供帮助。 快速创新是许多公司不具备的能力,特别是在某些行业中。 大型咨询公司也没有配备。 这需要跳出思路,以惊人的速度解决非常实际的问题。

如果您的想法是“创新或死亡”,请立即开始。 立即免费注册,然后开始从您的网站或应用中获取点击流数据。 建立,评估,学习,做出改变。 随着您的成长(不可避免),我们将在那里。