数据科学项目中的先驱:回归基础

介绍 数据科学项目可以轻松进行数月,影响大量人员,最终被合并到昂贵的复杂网络系统中,难以分离依赖关系。 因此,最好从设计级别和概念系统中加载尽可能多的工作,以便我们避免以后难以逆转的错误。 由于从左到右的第一次迭代已完成,因此我们可以继续进行数据可能性和工具成为设计决策和数据驱动的实现方法的重要组成部分的工作。 该指南提案由六个相互连接的模块化构建块构成,但可以概括为: 1.项目指南面临的挑战,该指南应作为最终评估成功的目的。 2.我们要在这个项目中回应的主要问题。 3.指标(通常可以用算法的形式表示),这将帮助我们找到问题的基于数据的答案。 4.数据可视化解决方案,将帮助我们交流不断变化的代理商/决策者/利益相关者的指标。 5.产生和实施基础架构和可视化指标所需的分析和数据。 6.用于提供指标和视图的数据。 我们应该尽力在项目中尽早澄清六个构建基块和接口。 当您在项目的设计和实施过程中获得新的信息时,应该打开此信息如何影响项目的整体一致性和范围。 通常,最开始的构建块中的更改具有更多的级联后果,后来又在列表中进行了更改。 因此,在设计过程开始时,我们应特别注意全球挑战的定义和关键问题。 相反,用于对项目中的逻辑步骤建模的科学数据的常规方法通常会在后面开始。 这方面的一个示例是“数据收集=>数据分析=>解释”模型,其中只有管道末端才能了解项目提供的效用和潜在价值。 将此指南应用于实践…

大数据,更高的费率:为什么当前的汽车保险费率计算不公平

购买汽车保险可能是一个漫长的过程。 比较保险公司的费率并评估您是否能得到一个好的价格可能比应该的要复杂得多。 不同的公司似乎在以不同的价格提供相同的产品,但是为什么呢? 即使您认为自己已经达成协议,传统的保险公司也可能会随时间提高利率,最终您最终会支付更多费用。 您如何确定您实际上获得了合理的价格? 传统汽车保险价格都始于同一地点: 风险池 。 根据年龄和性别等人口统计信息对客户进行分类,然后公司根据有关其未来事故预测风险的统计数据进行猜测。 这意味着您获得的费率仅与公司选择在您的“个人资料”中包括的任何信息一样好。 而且,这些数据通常与实际驾驶方式无关。 您所支付的价格主要基于具有相似个人资料的其他人的历史风险。 有些风险因素是有道理的-例如,如果您以前曾提出过数项索赔,则将来可能再次提出索赔。 但是,其他方面,例如教育程度或是否驾驶进口车,与您的驾驶习惯关系不大,但仍会计入您的价格。 而最有用的风险衡量方法-您的实际驾驶行为-几乎没人会使用! 那么汽车保险随着时间的推移又如何发展? 这些年来,为优秀驾驶员提供的保费如何提高?对于汽车保险行业的保单购买者而言,下一步是什么? 这只是传统保险公司犯错的几个领域,以及像Root这样的现代,移动优先的保险公司如何为驾驶员提供最好的,最公平的保险和定价服务。…