我们如何构建世界上最大的移动设备实时数据库

作为一家全球领先的归因公司,我们在Appsflyer中了解到,全球各地的客户始终都依赖我们的数据。 这意味着我们提供的数据必须是防弹的,最重要的是真实的。 我们知道存在欺诈数据,并向客户绘制了不正确的图片。 我们还知道我们需要制止这种情况,如果我们要这样做-我们将做大事,大事-在我们之前没人做过,并且会改变生态系统打击欺诈的方式。 因此,我们构建了DeviceRank。 DeviceRank是Appsflyer中的第一个此类项目-改变了我们查看数据的方式。 其目的是扫描通过我们的数据管道的每个设备的活动,并确定其当前和过去行为的模式,这些模式可能表明该设备已用于欺诈行为。 我们已经忽略了基于应用程序,媒体源和时区的所有标准隔离,并在最终用户(手持电话的人)创建数据时首次检查了数据; 它如何在现实世界中发生。 结论和发现绝对令人惊讶,并迅速使DeviceRank成为Appsflyer的畅销产品。 但是,知道哪些设备是欺诈性的,哪些不是欺诈性的,只能解决一半的问题-我们需要实时阻止来自这些设备的操作,否则我们什么也没做。 当面对我们将要创建的数据库规模时,使数据实时可访问性成为一个更加复杂的问题-每天大约增加1000万个新设备,并且许多其他设备的真实性等级也在不断变化。 DeviceRank推出一年后,其数据库拥有超过50亿个设备ID和排名,并且每天都在增长和变化。 首次尝试:布隆过滤器 实时管道可访问的每条记录都非常短:它仅包含一个(加密的)设备ID和一个表示其等级的字符(“ A”,“ B”,“ C”等)。…

硕士经验:MSDS冬季毕业生

我们赶上了寒假毕业生,以了解他们在该计划中的经验以及他们对未来的计划! 恭喜上个学期毕业的硕士研究生候选人:潘鼎,杰奎琳·古特曼,亚历山大·萨布莱罗雷斯,拉玛·克里希纳·拉朱·萨曼塔普迪和奥利维亚·杨! 我们在假期中与他们会面,以了解他们在纽约大学的时间以及他们下一步将去何处。 当回顾他们在纽约大学数据科学中心的经验时,我们的毕业生发现他们最喜欢该计划的是它的灵活性。 正如古特曼(Gutman)所解释的那样,灵活性使她能够“参与数据科学领域的广泛问题领域和研究问题,并在与我的职业目标最相符的专业领域中发展专业知识。” Yang补充说:“我也喜欢由不同行业的经验丰富的专业人士举办的讲座,”他指的是每周的公司信息讲座,其中许多公司如普华永道,麦肯锡公司和IBM向我们的学生介绍毕业后的可用工作机会。 例如,丁(Ding)最近收到IBM沃森(IBM Watson)的邀请,担任入门级数据科学家,而古特曼(Gutman)已经开始在纽约大学医学院担任全职数据科学家。 丁解释说,获得这些职位的关键因素是通过该计划的严格课程来加深他们的技术知识。 “我最喜欢机器学习课程。 我觉得那是真正使我进入数据科学领域的人。 该课程的结构非常好,教职工知识渊博,反应迅速。” 同样,古特曼(Gutman)引用了机器学习和推理课程作为她发展的关键,因为“这是我工作中最常回到的两门课程。” 推理课程也是Sablayrolles的最爱,他将继续攻读博士学位。 在计算机视觉。 “该课程确实深入了高级算法,但讲师会带我们逐步了解技术细节并帮助我们了解更广阔的前景。 作业也有实际的实际应用。” 另外,将在Factset…