数据准备101:Talend数据准备入门

由于需要将两者融合在一起,而您的CRM或SFA不会以相同的方式格式化数据字段,因此您在MS Excel中更改了客户名称或地址(如客户名称或地址)奴隶了几个小时? 我无法告诉您我在MS Excel中花费了几个小时来尝试清理数据或对数据进行整形以查看发送至ODS或CDW之前需要的数据。 作为前IT经理,我总是很尴尬地告诉我的企业主,他们对ODS中的字段进行重新格式化或拆分的简单请求将需要3周的时间进行开发,测试和部署到生产中。 在我看来,这太疯狂了。 我曾经和一位绅士一起工作过,比如说他的名字叫鲍勃(Bob),他在Excel和VBA脚本编写方面表现出色,以至于他的Excel工作表成为了应用程序,他的企业主非常喜欢,他们用他的Excel工作表代替了要清理的应用程序。 ,为销售团队塑造,融合和汇总我们的目标医生数据。 优秀的人们如何利用Excel宏和VBA脚本或完全创建Mario的可视化效果真是太疯狂了。 但是,我从不想成为Excel向导,但我打赌您也不会。 去年11月,我很早就使用了新的Talend数据准备工具的beta版,我必须告诉您,这将节省IT和商务人士数小时的时间。 我可以使用数据准备做什么? 使用Talend数据准备,我可以在几分钟内完成并看到我的数据这么多事情,否则将花我一生,以及大约3个其他工具可以完成。 数据发现 在数据准备工具中,我可以快速地对要使用的数据集进行一些令人印象深刻的数据发现。 它使用这些疯狂的酷语义库来告诉我字段是否属于某种类型,而我并不是说仅是文本或整数。 我正在谈论确定数据是国家字段,美国州还是日期字段(也可以是不同格式也没关系!)。 因此,当清理数据时,立即使用酷数据质量条查看数据是否完全符合应如何以及数据集中有多少数据与预期数据类型不匹配的问题。…

在受到关注…

创建一个新博客永远不会有足够的博客,因此,从[Viz,Data,Tableau,Story]中选一个词,再与[Jedi,Master,-inator,Zen,Wiz]中的一个词合并,即可获得新的博客名称-或者也许使用更具想象力的东西。 无论如何,与世界分享您的旅程,并确保您定期发布。 分享您沿途学习的技巧和窍门。 开始一个项目或博客系列社区中仍然有很多技巧和窍门,我们永远不会用完,其功能包括#MobileMonday,#TooltipTuesday,#WebEditWednesday,#ThemeThursday,#FontFriday,#ServerSaturday和#StorySunday可以在下周开始,我们还有余下的空间可以在下半年的每一天开始进行另外51次。 做一些新的推送边界,这是前所未有的。 创建让人们流连忘返的内容“哇,你是怎么做到的!”。 弯曲的注视,径向的注视,确保引人注目。 还是不…… 您看这里就是……。我错过了要被注意的重点。 人们会很快意识到,如果内容不是真正共享的,那么您自己也会很快失去动力。 很快被注意就变得陈旧,本身并没有回报。 因此,尽管上面的技巧都是很棒的事情,但它们应该是您旅途中的副产品,而不是将您带到目的地的手段。 在社区中共享应该是因为您想帮助其他人进行数据之旅,或者是想向他们学习。 以类似的方式,您选择贡献的方式和贡献方式应基于您认为自己可以为社区提供帮助和学习的方式,而不是基于他人在您之前所做的事情。 那我的旅程呢? 好吧,我当然不想因为我的贡献而被迫与他人竞争。 所以我会解决。 交给你…

不是枪杀案的流行

或者,“错误地描述现实不会导致跨文化合作。” 在我关于媒体的第一个故事中,我们讨论了一些中心媒体来源歪曲统计数据的方式,以支持“我们有枪支问题”和“更多枪支=更多杀人罪”的叙述,主要是通过将自杀和杀人罪混为一谈。一个无所不包的数字,但并没有使该合并变得清楚。 在第二个故事中,我们研究了这个“枪击死亡”数字的构成要素,该数字实际上是由男性自杀所主导的,我们讨论了对这个非常现实的问题的易于实施的改善措施。 如果有时间,请先阅读这些文章。 在这里,我们将尽可能地剥离枪械凶杀案的数字,以进行调查。 预防凶杀政策案 虽然预防自杀的理由十分明确,但坦率地说,为解决凶杀而进行结构性政策改革的理由还不太清楚。 我们一直是一个暴力国家,我们的凶杀率目前与历史低点有关 ,而不是高点。 通过观看媒体,您永远不会知道这一点,它通过兜售恐惧和焦虑来赚钱,但这是过去100年的快照: 在开始研究该图之前,我想指出一点。 我将Y截距设为零,即使我只有十万分之四的凶杀数据点也是如此。 这会浪费图形上的空白,但是显示原点可以防止您误认为数据。 在现代媒体尤其是有线新闻中,这种招数(移动原点以使读者混淆数据)非常流行。 福克斯新闻理应定期为此垃圾,但CNN和其他消息来源也这样做。 密切注意它,当您看到它时,请特别注意篡改图表随附的任何评论。 医生图的人通常试图向您出售一些东西。 直到1920年,凶杀案的攀登速度一直很慢,那时禁酒令周围出现了严重的高峰和高平稳期。…

Plotmypaws阶段2:更大的狗可视化

布莱恩(Bryn)是“第一阶段”的真正明星,这肯定使我的创意果汁流向了一个更大,更雄心勃勃的项目。 第一阶段的分析中有很多漏洞–基本上只是一个有趣的事情,但是我忍不住想想该项目如何随着更多种类的狗和品种的发展而发展。 多亏了我村里可爱的小伙子,还有一个迷你的“ Facebook市场营销活动”,我呼吁我们提供帮助,因此我能够大大扩大跟踪范围。 我自己(和我的追踪爱好者团队)目前已追踪了12条狗及其主人。 最近,我花了更多的时间来尝试理解狗在走路时的心态,这比其他任何事情都多,还有一些非常有趣的发现,包括另一次逃脱尝试! 虽然阶段2仍在进行中,但我一直在忙于生成更多的数据可视化效果,并从阶段1开始对样式进行了一些改进。 首先,让我向您介绍Plotmypaws第二阶段的新星: 每位主人和他们的狗都得到了追踪器(与第一阶段相同的模型),并被要求记录整个星期的6-7次步行。 幸运的是,所有的追踪器都归还了,这证明了一些巧妙的项圈工程涉及一个改良的零食袋和一些登山扣! 现在,让我们来看看12条狗在整个星期中的“舞蹈”…… 除了上述统计数据之外,我认为对一些不同距离段(离其所有者的距离)中walk狗的百分比百分比进行分析也很不错。 下图以深色列说明了这一点,深色列表示在长距离频段中花费的时间。 因此,有一些有趣的模式。 相对而言,戴斯蒙德(Desmond)和布林(Bryn)在较大的距离带中具有较高的百分比,这与贝蒂(Bertie),杰克(Jack)和黛西(Daisy)完全相反,后者在较大的步行路程中往往更靠近所有者。 回顾Desmonds的故事,不足为奇的是250m +乐队的人数激增,因为这将解释他对兽医的小冒险! 热图:…