数据科学项目中的先驱:回归基础

介绍

数据科学项目可以轻松进行数月,影响大量人员,最终被合并到昂贵的复杂网络系统中,难以分离依赖关系。 因此,最好从设计级别和概念系统中加载尽可能多的工作,以便我们避免以后难以逆转的错误。

由于从左到右的第一次迭代已完成,因此我们可以继续进行数据可能性和工具成为设计决策和数据驱动的实现方法的重要组成部分的工作。

该指南提案由六个相互连接的模块化构建块构成,但可以概括为:

1.项目指南面临的挑战,该指南应作为最终评估成功的目的。

2.我们要在这个项目中回应的主要问题。

3.指标(通常可以用算法的形式表示),这将帮助我们找到问题的基于数据的答案。

4.数据可视化解决方案,将帮助我们交流不断变化的代理商/决策者/利益相关者的指标。

5.产生和实施基础架构和可视化指标所需的分析和数据。

6.用于提供指标和视图的数据。

我们应该尽力在项目中尽早澄清六个构建基块和接口。 当您在项目的设计和实施过程中获得新的信息时,应该打开此信息如何影响项目的整体一致性和范围。

通常,最开始的构建块中的更改具有更多的级联后果,后来又在列表中进行了更改。 因此,在设计过程开始时,我们应特别注意全球挑战的定义和关键问题。

相反,用于对项目中的逻辑步骤建模的科学数据的常规方法通常会在后面开始。 这方面的一个示例是“数据收集=>数据分析=>解释”模型,其中只有管道末端才能了解项目提供的效用和潜在价值。

将此指南应用于实践

每个数据科学项目都是不同的,并且有一个特殊的解决方案或一个解决方案。 但是,从一开始就集体询问和回答正确的问题可能会很有帮助。 回答这些问题有助于确保每个人都在同一页上,并且有可能暴露隐藏的假设,而这些隐藏的假设显然是错误的,或者在利益相关者之间无法共享。 在这种情况下,对于前四个关键构建块,我们可以在任何实施工作之前确定一些要讨论的重要问题:

1)挑战

•挑战说明:首先,需要时间来制定清晰,精确的挑战表述,这在利益相关者之间是很有吸引力的,并且是共享的。 挑战的表述使得我们可以在项目结束时回来,并轻松确定项目是否可以帮助解决挑战。

•确定主要利益相关者:列出挑战的主要利益相关者,并简要描述他们的角色。 该列表可能包括来自不同部门的员工,客户,供应商,监管机构等。

•说明为解决该挑战而进行投资的合理“痛苦”:首先说明当前使用的当前状况(包括工具,方法,过程等)及其局限性。 接下来,描述所需的情况(描述为应对挑战的理想解决方案)

•预期以美元为单位来应对这一挑战的总净值:假设您可以实现“理想”的解决方案,请努力以货币形式量化组织可以为应对这一挑战而获取的价值。 这应表示为从当前情况到期望情况的变化的增量值,而不考虑开发成本。 这样做的目的是为可以合理应对挑战的发展预算和最大的努力提供背景。

•列出您的假设:明确您对预期情况的评估背后的内容,并计算预期增量值以移至所需位置

2)问题

•每个问题的描述:这是我们定义每个关键问题的地方,其答案是解决已确定挑战所需的输入。

应该描述问题,以便可以使用基于数据的算法来回答。 典型问题可能包含以下一个或多个数据维度:

–地点(地理/本地)

–当时间

–什么(对象/实体)

–谁(主题)

–如何(处理)

问题示例:为开发“ Y”产品的组件,我首先要解决的顶级组织是什么?它们在哪里?

•每个问题的目的:问题是描述性,预测性还是规定性的? 问题寻求的描述,预测或处方是什么?

•问题分类:根据项目的总体重要性对问题进行分类,以便在必要时可以对它们进行优先排序。

3)指标

•每个指标的描述:指标是针对提出的问题的算法解决方案。 尽管在早期我们可能无法定义完整的算法,但是我们可以在更高的抽象水平上表达它,这表明最有用和可实现的算法解决方案的种类。 例如,两个指标是:

–协作算法,根据地理位置,技术和关系的接近程度,为公司[X]提供了潜在协作者的分类列表。

–容量映射算法,根据与研发相关的关键术语的同时出现,确定给定部门中的主要技术集群

4)数据可视化。

•定义目标数据视图:在编写任何代码行或使用任何数据之前,应从数据科学项目将产生的可交付成果中受益的人员可以提供有关最有用的数据可视化格式的关键信息。 对他们有用。

一种简单但功能强大的方法是要求这些目标用户使用他们认为是传达第二点指标应产生的结果的最佳方式的视觉表示形式来绘制草图。

定义数据可视化时应考虑的其他重要功能包括简单性,熟悉性,直觉性以及对问题范围的适应性。

•每个数据可视化的特征:数据可视化解决方案的特征包括:

–所需的交互程度。

–必须同时显示的尺寸数。

•每个数据可视化的目的:可视化的目的可以是:

–探索:提供免费的手段来加深数据和分析关系,而无需事先定义特定的观点或问题

–叙述:数据可视化旨在向目标用户令人信服地传递预定义消息,并旨在基于数据提供可靠的论据

–综合:可视化的主要目的是集成复杂数据集的多个角度。 以直观且易于访问的格式进行数据压缩的关键功能。

–分析:可视化有助于将通常较大且复杂的数据集分为较小的部分,特征或尺寸,可以分别处理

包起来

数据科学项目倾向于在设计过程中过早强调项目的分析,可视化,数据和基础架构的元素。 这意味着在早期阶段花费很少的时间,与项目涉众共同定义挑战,确定正确的问题,并理解回答这些问题所必需和有用的指标和可视化的种类。

本文中提出的指南旨在通过一种新结构来共享从工作中获得的学习点,该新结构有助于指导数据驱动项目的早期阶段,并明确设计决策之间的相互依赖性。 该框架集成了设计元素和系统思考以及实际项目经验。

该框架的主要组件是在为EURITO(授权协议№770420)编写的工作中开发的。 EURITO是欧盟的研究与创新框架项目Horizo​​n 2020,旨在利用新数据源和高级分析来建立“相关,包容,及时,可靠和开放的创新指标”。

获得您所在位置的数据科学培训的专家级培训–钦奈的数据科学培训
班加罗尔的数据科学培训

浦那数据科学培训
Kalyan Nagar的数据科学培训

Marathahalli的数据科学培训
Anna Nagar的数据科学培训

OMR中的数据科学培训

Rajaji Nagar的数据科学培训

BTM中的数据科学培训
钦奈Python培训中的数据科学

在钦奈进行R培训的数据科学
在钦奈进行SAS培训的数据科学
Velachery的数据科学培训

Tambaram的数据科学培训

Jayanagar的数据科学培训
浦那数据科学培训
Kalyan Nagar的数据科学培训

钦奈的数据科学培训
班加罗尔的数据科学培训

钦奈的数据科学培训
电子城市中的数据科学培训
Indira Nagar的数据科学培训
Marathahalli的数据科学培训
BTM布局中的数据科学培训用于在线培训

数据科学在线培训
美国数据科学培训