简易趋势性分析报表-使用平均数与标准差

我现职主要是负责Data Pipeline与部分机器学习相关的工作,在监控整体服务运营绩效时,一直有个疑问是“单从纯量的图形来看时,我实在看不出每天都有什么不一样”以及「当不同事件相差数十倍时,我没办法在同一张表研磨两者各自的变化,更无法切割彼此间是否有什么关联」。 想了许久以后我那连入门都算不上的统计知识突然派上用场了,使用了最简单的平均数与标准差 。 我设计这图表时,根据观察会发现「每天半夜四点是使用者最少」,「中午与睡前是使用者最多」,因此造成基础假设「使用者在每天的同一个时间会有类似的行为”。 在这个假设下,图表呈现的结果是“这一小时与过去N天中的同一小时的平均数比例 ,相差多少个标准差 ”。 上图X轴为时间,Y轴是与当小时平均数正负多少标准差,而黄色跟随绿色是两个高相关性但数量差异很大的事件,从而图可以研磨各别事件的走势如何。 这两个事件理论上动作要十分相近,但是中间明显绿色线高出了黄色线很多,因此我们就可以去看看是否有什么突发事件或状况 ,而且也能对比这事件与过去N天的趋势走向为何。 「 花式SQL大法好 」,本篇是使用Grafana与MySQL,中间经过一连串复杂且花式的SQL查询XD 可行的方法我们成功发现以上系统隐藏性的错误 ,也可以快速的知道近期的趋势如何 ,只要设定你想观察的区间有多长。

想成为一名数据工程师吗? 这是你需要知道的

Bolt的数据工程师Gianluca Ciccarelli 一年多以前,我不知道什么是数据工程。 今天,我正在与欧洲领先的数据科学团队合作,成为全球发展最快的打车公司之一。 我帮助收集,过滤和转换原始数据,使其对Bolt(以前称为Taxify)的某些核心业务功能有用。 在这篇文章中,我将分享我对数据工程师每天面临的目标和挑战的了解。 加入Bolt之前,我一直是一名软件工程师。 我曾经对什么是数据科学和分析有一个大致的了解。 我不知道的是,为了有效地使用数据,遵守一些要求有多重要,以及工程师如何帮助使数据易于访问。 数据是一种资产 Bolt是一家相对较小的公司,但我们处理大量数据。 它使我们能够建立预测模型并使用它们来改善我们的服务。 对于骑手而言,这意味着我们可以更准确地估算出购车所需的时间。 例如,这还意味着我们根据供求关系提供公平的价格,这对驾驶员和骑手都有利。 我们将其提供给我们的商业智能工具,这些工具反过来有助于评估营销和用户体验实验的结果,并就我们的发展方向做出明智的决策。 我们可以为我们的欺诈预防团队提供足够的背景信息,以便他们就什么构成欺诈和什么不构成欺诈做出可靠的决定。 开发人员可以了解进入其API的流量是否以意外的方式流动,或者他们的正确操作是否需要更多硬件。 利用数据提供的可能性仅受我们的技能和创造力的限制。…

使用Apache Spark进行Adwords报表管理

GetYourGuide是旅游和活动的领先市场。 我们的访客寻找在目的地中要做的事情:从巴黎地下墓穴之旅到博物馆和景点的门票。 我们使命的关键组成部分是使客户的兴趣与库存中的惊人产品相匹配。 这意味着我们必须是客户所在的地方,而且经常出现在Google或Bing等搜索引擎上。 在GetYourGuide,我们熟悉Adwords(Google的付费搜索产品),以将访问者搜索查询与目的地中的相关产品进行匹配。 Adwords是一种非常复杂的产品,也是一种非常受数据驱动的产品。 我们最近探索了解决方案,以扩大我们下载和处理Adwords报告的方式:Adwords提供了一个关键数据集,用于监控诸如展示次数,点击次数等指标。 这些报告包含很多信息,我们的目标是尽可能快速,可靠地下载和处理它们。 幸运的是,Google Adwords提供了一个丰富的API来实现此目的,但是由于我们服务的目的地很多,我们使用的语言数量(GetYourGuide支持14种语言)以及Adwords API施加的限制,此问题需要一个创造性的解决方案和可扩展的解决方案。 初始点 在深入探讨之前,让我们回顾一下我们开始的设置: 我们最初的解决方案非常简单。 cron作业在服务器上启动了一个两步过程,其中每一步都是一个Python脚本。 第一步是连接到Adwords API,一次下载一个报告,然后写入生成的原始CSV文件。 第二步获取每个CSV文件并应用转换,例如添加列或过滤行。…