大数据对数据中心热潮的直接影响
循证谎言
评估03:声音和氛围
赌美丽的游戏:第1部分
我通往数据科学的道路
马克·扎克伯格如何为参议院听证会做准备?
5个最受好评的数据库和SQL讲座
5个最受好评的数据库和SQL讲座

会议上总是出现两难的境地,即如何交谈,如何做出正确的房间决策。 得益于视频记录和会议访问者对会议的评价之后,我们可以解决此问题并确定哪些会议绝对值得参加。 在这里,我们收集了评分最高的 2016-2018年 里加开发日 视频。 数据库与SQL #5。 Tim Hall , @ oraclebase 使用RESTful Web服务和JSON使RDBMS再次相关 评分:4,75 / 5 作为#5。 与会者选择了世界上最受欢迎和最受尊敬的专家之一-Tim Hall博士。 他的课程充满了代码示例,在Tim处理它们的同时,他讲了他真实工作中的有趣故事。 本课程介绍使用各种工具(包括Oracle REST数据服务(ORDS),APEX_JSON和APEX_WEB_SERVICE软件包以及内置于Oracle Database 12c的JSON支持)向现有应用程序添加JSON支持的方法。 #4。 函数结果缓存—固定,Piet de Visser,@ pdevisser 评分:4,78 / 5 排名第四的人选择了独立发言人Piet de Visser。 人们在会议上留下了很多提示和技巧,可以立即在工作空间中应用。 对于那些过于复杂的系统而苦苦挣扎的开发人员,此演示文稿是必须的。 在对一个特别复杂的(基于PL / SQL的)系统进行故障排除时,Piet发现Function-Result-Cache不能像宣传的那样工作。 一位同事找到了原因,并设计了创新的解决方案。 #3。 开发人员会喜欢Oracle Database 18c的18(ish)事情, Chris Saxon , @ chrisrsaxon 评分:4,79 / 5 […]

Python中的简单线性回归
Python中的简单线性回归

“如果您不能简单地解释它,那么您将无法理解得足够。” 简单线性回归是一种统计方法,可让我们总结和研究两个连续(定量)变量之间的关系。 我希望今天能向自己证明我理解并可以通过使用Python从头开始编码而不使用Scikit Learn来演示线性回归。 我将从导入库-numpy和matplotlib开始。 我正在使用Anaconda,因此将内联使用%matplotlib来在笔记本中显示图表。 在本例中,我将创建自己的数据集,有意将其设置为具有线性关系。 我将使用numpy创建两个数组X和y 。 linspace函数将在我指定的间隔内返回均匀间隔的数字。 在括号中输入小数,大数和间隔数。 为此,我想要 我想给这些数组添加一些噪音 ,所以我将使用numpy的random.uniform函数创建一个变量。 这将从均匀分布返回样本。 在括号中输入下边界,上边界和输出形状。 使用matplotlib绘制X和y的基本散点图。 最佳拟合线是一条直线,它将穿过散点图上数据点的中心。 点与线越近,两个变量之间的相关性越强。 这种相关性可以是正的或负的。 我可以清楚地看到,两个变量之间存在很强的正相关性,例如X 增加,y也增加。 我想用数学证明这种相关性的强度。 直线的等式是y = mx + b ,其中m是直线的斜率, b是y截距 我已经有了X和y值,所以现在我需要计算m和b。 这些公式可以写为: 数学不是我最擅长的方面,因此对我而言,这些公式起初非常吓人。 旁注—如果有兴趣深入研究机器学习算法背后的数学知识,我强烈推荐Lazy Programmer的Udemy课程。 返回公式; 两者中的分母是相同的-X的总和减去X的平均值乘以X的总和。我将创建一个分母变量,而不是两次计算。 计算numpy中X平方和的最有效方法是计算点积。 现在我有了分母,我将写出m和b的分子。 m的分子是X乘以y(X和y的点积)的总和,减去y的平均值乘以X的总和。 b的分子是y的平均值乘以X的平方和(X的点积),再减去X的平均值乘以X的总和乘以y(X和y的点积)。 我现在可以将它们插入线性方程式,以计算预测的y值(最佳拟合线)。 使用matplotlib,我现在可以绘制最佳拟合线。 现在,我已经拟合了预测线,我想通过使用确定系数R平方来计算数据与该线的接近程度。 SSres:我将从计算残差之和开始-y轴上的实际数据点与其沿回归线的相应预测值之间的欧式距离。 我将这些距离平方; 原因是,如果我有一个值位于行(+5)上方五个单位,而另一个值位于行(-5)下方五个单位,则它们将互相抵消,并给人以数据更接近该线的印象确实是。 平方这些距离可确保它们均为正值。 SStot:然后,我想计算y轴上实际数据点之间的距离以及y的均值-再次对结果求平方。 因此R平方的公式是1 – SSres / SStot : […]

如何创建SurveyMonkey数据营销机构客户报告
如何创建SurveyMonkey数据营销机构客户报告

SurveyMonkey会生成许多有用的数据。 它提供免费的可自定义调查和一系列功能,有助于从调查答案和在线民意调查中获取见解。 营销代理商使用此工具作为其客户的促销活动的一部分。 但是,代理机构还必须向客户提供报告,以显示在SurveyMonkey的帮助下所做的工作以及该活动取得的结果。 那就是市场代理商需要SurveyMonkey报告的地方。 创建客户报告是任何营销人员的重要工作。 这需要很多时间。 Octoboard通过提供易于设置的指标报告来帮助营销机构管理成千上万的客户,这些报告可以自动计划和发送。 Octoboard的SurveyMonkey集成允许营销机构通过使用SurveyMonkey指标设置简单的仪表板来节省时间。 该仪表板很容易变成预定的客户报告。 如果您没有时间选择和添加指标,则可以使用现成的模板,这些模板也可以转换为自动报告。 您可以通过以下方法将SurveyMonkey添加到客户报告中: 监视客户的SurveyMonkey数据分析变得非常容易- 访问 Octoboard,通过单击“添加指标”按钮并在向导面板中按“下一步” , 连接客户的SurveyMonkey帐户。 而已! 调查列表-您最新的调查列表,其状态按响应计数排序 调查完成-调查完成统计 回应-随时间推移的调查回应:每日和总计 总答复-选定调查随时间推移的总答复 问题完成—所选调查的问题完成统计 页面完成-选定调查的页面完成统计信息 仪表板和报告是可配置的-您可以将SurveyMonkey数据与其他Web分析,社交媒体,电子邮件营销或财务指标结合起来。 最初于 2017年12月4日 发布在 www.octoboard.com 上。

通缉:事实检查员–肯尼亚内罗毕
通缉:事实检查员–肯尼亚内罗毕

非洲法规(CfA) 立即空缺 ,由一名事实检查员加入位于我们位于肯尼亚内罗毕的主要公民技术实验室的东非首个验证和事实检查计划 PesaCheck 。 CfA是非洲大陆最大的独立公民技术和数据新闻实验室联合会,该联合会建立了数字民主解决方案,使公民可以不受约束地访问可操作的信息 ,从而使他们能够做出明智的决定,并加强公民参与,以改善公共治理和问责制。 CfA在五个国家/地区设有实验室,在另外四个国家/地区设有附属实验室,这些实验室孵化了许多项目。 PesaCheck是《非洲守则》的孵化器,致力于验证东非各地公众人物经常引用的令人困惑的数字。 该倡议得到了innovateAFRICA基金,国际预算伙伴关系和《非洲守则》在肯尼亚,坦桑尼亚和乌干达的分支机构的支持。 关于角色 您将加入PesaCheck的事实检查团队 。 该团队负责检查和验证各种来源的陈述和内容,以帮助公众使用一系列新闻和数字工具将事实与小说区分开。 该团队与PesaCheck开展业务的每个国家/地区的研究人员紧密合作,以验证和发布信息并制作故事,然后将其发布在pesacheck.org上,并与各种媒体合作伙伴联合发布。 在履行职责时,您将努力使公众人物负责,并确保媒体在报道和报道公共利益问题方面准确无误。 你是谁 您具有数字新闻业的经验,并且对准确性和真实性有专心。 您会发现事实并非完全相符,而您的第一个直觉是仔细检查来源。 您会敏锐地关注新闻,拥有完善的废话检测器,公正,具有精湛的计算和分析能力,并能够分解复杂的问题并以任何听众都能理解的方式对其进行解释。 您在新闻编辑室中有一定的工作经验。 您是一个自我开创的人,会做独立的研究,要主动,超越一切,才能取得成果。 您可能正在寻找新的挑战,并寻求机会来提高自己的技能和职业。 你会做什么 确定可以并且应该进行事实检查的公共领域中的重要主张。 进行研究以验证或取消发现的主张,然后撰写解释性文章,介绍如何以易于理解的方式得出结论。 有助于编写培训材料,并组织教程和培训课程,以进行有关验证和事实检查基础的培训。 支持PesaCheck研究员检查和验证从各种来源识别出的索赔。 在《非洲守则》网络内进行先导性验证和事实核对。 研究围绕验证和事实检查的最新趋势和行业标准,以确保事实检查团队处于领先地位,并使用此信息来协助主编审查和记录最新最佳实践,以利于事实检查球队。 你得到了什么 强大的组织能力和在规定期限内交付成果的能力 可证明的数据新闻技能 强大的决策能力 在有限的时间内处理大量工作并提供一致结果的能力 对适当的作文习惯有很好的了解,可以帮助撰写和校对 优秀的书面和口头表达能力,以英语为主要工作语言,同时与斯瓦希里语 惊人的演讲技巧 批判性思维能力 在最小的监督下工作的能力 熟练使用Google文档,表格(Excel)和幻灯片(PowerPoint)。 非常需要Trello和Slack等管理工具的工作知识 加分如果…… 您具有相同的新闻背景或培训。 您有1年以上的工作经验。 怎样申请: 请在2019年4月12日之前填写此表:http://bit.ly/2Ulg6IU 。 关于联合会: 非洲法规(CfA)是非洲大陆最大的数据新闻学和公民技术实验室联合会,在四个国家设有实验室,在另外六个国家设有分支机构。 CfA管理着每年$ 1百万的novateateAFRICA.fund和$ 500,000每年ImpactAFRICA.fund,以及关键的数字民主资源,例如openAFRICA.net数据门户和GotToVote.cc选举工具包。 CfA的实验室还孵化了一系列引领潮流的计划,包括东非的PesaCheck事实检查计划,非洲大陆的非洲DRONE网络以及非洲的调查报告中心网络(ANCIR),该网络率先在整个非洲大陆开展了巴拿马调查。 CfA是国际新闻工作者中心(ICFJ)的一项举措。

有关WSO2 SP业务规则管理器的所有信息
有关WSO2 SP业务规则管理器的所有信息

作为我在WSO2实习的第一个项目,我有机会从事WSO2流处理器4的业务规则管理器的工作。 在流处理中,我们遇到了以下场景:从源接收数据,通过流发送数据,对其进行处理(可选地进行存储),最后将其发送到接收器以便发布到端点。 例如,我们将消耗来自外部Kafka来源 的温度传感器的读数 ,对其进行处理以识别温度是否高于20℃,并针对此类事件发送电子邮件警报 。 使用WSO2流处理器完成流处理后,我们将使用Siddhi处理这些事件。 我们编写Siddhi应用程序并进行部署,以执行它们各自的流处理任务。 什么是业务规则管理器? 对于业务用例,在处理流中的数据时可能涉及一个或有时涉及许多Siddhi应用程序。 当这些业务用例的需求发生变化时,可以通过适当地修改必要的Siddhi应用程序来适应这些变化。 可以由对Siddhi有所了解的任何人(通常是开发人员或数据科学家)来完成此操作。 在某些情况下,此类业务需求更改会频繁发生,而这些频繁的更改只是次要的调整。 作为一个非常基本的示例,让我们考虑监视公司的股票交换价值。 如果公司的股票交易量超过X ,您将收到一封电子邮件。 在此, X的值将随时间调整。 从头开始创建业务规则 选择选项“从头开始创建业务规则”。 之前的所有步骤都与从模板创建业务规则相同。 选择我们刚刚保存的templateGroup 。 选择ruleTemplate的输入类型,然后填写输入部分的值。 我将保留默认值。 看看如何在右边显示exposedStreamFields 。 4.选择一个输出 ruleTemplate然后为输出零件填写值。 在“ 映射”部分中,您将在输出列下看到输出 ruleTemplate每个exposedStreamField ruleTemplate字段。 每个输出字段都应从输入字段获取数据,因此,我们必须从输入 exposedStreamFields选择一个字段。 5.您可以添加自己的过滤器 ,并在规则逻辑下进行组合。 由于我们正在创建一个方案来过滤“ hillSide分支中的低存款” (请参阅步骤3中的业务规则名称) ,因此我将按以下方式输入过滤器 使用上述过滤器的1 AND 2 AND 3将导致以下过滤条件: (transaction == 'deposit') AND (amount < 5000) AND (branch […]

数据分析的演变-那时,现在和以后
数据分析的演变-那时,现在和以后

数据科学的宽松定义是分析业务数据,以便能够为业务产生可行的见解和建议。 分析的简单或复杂(也称为“数据科学复杂性”的水平)也会影响结果的质量和准确性。 复杂性实质上是3个主要数据科学组件的功能-技术技能,数学/统计技能以及定义和交付相关业务解决方案所需的业务敏锐度。 自从数据科学在过去的二十年中开始受到企业的欢迎以来,这三大支柱一直是数据科学的支柱,并且在将来甚至还会继续。 但是,未来已经改变或将会改变的是技术和统计技术领域的基础研发。 我还没有目睹其他许多行业以如此快的速度淘汰这些技能。 数据科学的独特之处在于,它要求数据科学家和咨询公司不断更新其技能,并对采用新的和即将到来的技能保持高度的未来主义。 本文试图探讨过去几十年中数据科学的工具/技术方面是如何发展的,更重要的是,这个迷人的技术和创新驱动领域的未来前景如何。 然后>现在>以后 当企业首次开始采用数据科学时,目标是找到比使用业务启发式方法获得的解决方案更准确和可靠的解决方案。 同时,尝试使解决方案足够简单,以免使业务用户不知所措。 为了简化实施/消耗,对技术的选择保持简单,对数学/统计也是如此,以简化开发和解释。 本质上,较早的用例比预期的具有更多探索性,因此也影响了工具/技术的选择。 另一个重要因素是产品的市场可用性,更重要的是具有这些技能的分析师。 数据处理 SAS在2000年代曾是该行业的主力军之一,涉及数据处理/ EDA工作,它为报告和建模构建后端数据。 少数公司也将SAS用于EDW,否则由IBM Netezza,Teradata和Oracle主导。 SPSS也因其易于使用的GUI界面以及它提供的解决方案套件(包括易于开发(但非常方便)的解决方案,如CHAID / PCA等)而找到了很好的用途。 预测建模 当建立统计模型时,所谓的“浅学习”技术是最常见的选择(由于产品和资源的可用性)。 这些主要包括用于有监督的线性回归,朴素贝叶斯,逻辑回归,CHAID,单变量和外源时间序列方法(如平滑,ARIMA,ARIMAX等)以及无监督用例的K-Means聚类,PCA等。 诸如IBM CPLEX或excel求解器之类的工具包由于易于实现而通常用于解决优化问题。 可视化 报表主要是在excel和VBA上开发和交付的,用于复杂功能。 Cognos,Micro策略是大型企业通常使用的其他一些企业工具。 寻求技能 由于上述工作的性质,所需的技能非常狭窄,并且仅限于现成的技能。 数据科学公司通常会雇用具有统计学学位的人员,并对他们进行必要的编程技能培训,以使其具备所需的编程技能,这些技能主要是SQL,SAS和VBA编程。 然后> 现在 >以后 数据处理 Python&R是当今数据科学家日常数据处理工作的主要技术。 它们是开源工具,具有庞大且不断发展的库,还具有与大数据平台以及可视化产品集成的能力。 R&Python具有同等的能力和多功能性,并且可以处理各种用例。 但是,一般而言,当主要目标是使用探索性分析或建模来获取业务见解时,R是首选。 由于其通用的编程功能,Python通常是开发其中嵌入了分析引擎的应用程序的首选。 这两个不仅在今天很受欢迎,而且还会在未来几年内停留。 一个重要的颠覆者是分布式处理框架领域,该领域由两个Apache Open Source Projects(Hadoop和Spark)率先提出。 Hadoop在2010年代初期迅速发展,并且仍然非常受欢迎。 首次引入时,与关系数据库系统相比,Hadoop的功能受到限制。 但是,由于它的低成本,灵活性,快速缩放的能力,但更重要的是随着许多基于地图/缩减功能的使能器(如Hive,PIG,Mahout等)的发展,它开始发挥作用,仍然是许多技术的选择每天产生TB数据的组织。 尽管Hadoop是分布式数据处理领域的先驱,但在使用诸如迭代数据处理,预测建模/机器学习(由于涉及多个步骤而又要进行迭代)和实时/流处理等案例时,Hadoop却缺乏性能。 这主要是因为MapReduce在每个步骤都读写数据,因此增加了延迟。 Apache Spark的出现解决了这一问题,Apache Spark是一种内存分布式框架,可将数据保存在内存中以执行完整的操作(弹性分布式数据集(RDD)的概念使其成为可能)。 […]

BOSC 2017第2天,第2部分#BOSC2017 #ISMBECCB
BOSC 2017第2天,第2部分#BOSC2017 #ISMBECCB

这是故事的一部分,在这里我总结了最后的BOSC闪电谈话,开放数据面板和FAIR宾果游戏。 在阅读本节之前 , 您可能希望阅读有关 BOSC 第1天 或 第2部分第1 部分的信息! 工具狗 在上一篇博文中,我在最近的闪电演讲中进行了部分讨论。 回过头来,我们被Kenzo-Hugo Hillion简短地谈论了ToolDog。 ToolDog为Elixir的生物信息学工具注册表中的工具提供了通用的描述性包装器。 您可以在F1000上看到有关它的海报。 BioThings SDK Wu Chunlei Wu在大会上进行了第二次BioThings演讲,重点是SDK,它为您提供了创建自己的BioThings API的工具。 站在巨人的肩膀上与超级细菌作战 凯·布林(Kai Blin)谈到了抗生素的可怕前景,它可能会在不久的将来完全停止工作-众所周知,抗生素经常被过度使用和滥用。 随后,他给了我们一线希望和鼓舞:我们正在努力寻找新的方法来对抗感染。 通常,这些是计算上的努力。 科学绝大多数使用什么软件栈? 它是开源的。 我们可能在这里只提供一行代码,在那儿提供拉取请求,甚至可能维护一个更大的程序包-但是如果没有开源软件的工作,未来可能会比以前更加黯淡。 开源三声欢呼! 我为午餐时间参加哪一次BoF(“羽毛之鸟”)而感到震惊。 一方面,有一个JOSS BoF,并且当天早些时候的JOSS演讲真的很有趣。 另一方面,eLife BoF听起来也非常有趣! 我抛开了脑筋,来到了eLife,Naomi Penfold进行了一次有针对性的会议,讨论了适当处理科学代码的方法,因为传统的发表论文模型可能会导致数据丢失和混淆,而代码无法重新使用。 -运行且检查不充分的代码,可能根本没有经过任何同行审查。 关于如何解决该问题以及期刊上有多少责任的讨论使我着迷。 最初,我认为严格限制软件质量和可重复性的期刊才是明智的,这是创建有效科学的必要步骤,但很快我就清楚地发现,我的观点有些天真-如果期刊太费力而无法提交论文给许多人人们只会去阅读不太严格的日记,因为质量较低的条会更容易通过。 Naomi在etherpad上实时获取了讨论摘要。 Brassica Information Portal是Annemarie Eckes向我们介绍的。 芸苔包括白菜,芥末,西兰花和油菜籽/低芥酸菜籽,以及其他美味食品。 该门户同时包含GUI和API,允许研究人员根据需要以编程或图形方式访问和更新数据。 这次小组讨论吸引了来自BOSC的几位发言人:Madeleine Ball,他在第一天作了Open Human主题演讲; Carole Goble,他在当天早些时候介绍了Bioschemas; Nick Loman,在主题演讲后作了主题演讲; Andrew […]

Web Scraping 101:2.处理异常和高级HTML解析
Web Scraping 101:2.处理异常和高级HTML解析

Internet上可用的数据非常混乱且格式不正确。 当从Internet上刮取数据时,这可能会导致一个重大问题,因为由于HTML格式不正确,刮板可能会遇到无数错误。 让我们看看一次抓取页面时可能发生的错误– urlopen()命令 此时, 可能会发生两件事 – 找不到服务器。 ( URLError ) 在服务器上找不到该页面,或者在检索该页面时发生错误。 ( HTTPError ) 可以使用“ urllib.error ”模块来处理这些情况,如下所示- 处理HTTPError和URLError 即使成功检索页面后,也会发生错误。 如果访问bs对象并查询不存在的标记,则bs对象将返回None对象。 如果您进一步尝试访问嵌套在不存在的标签(None对象)中的标签,则将返回AttributeError 。 因此, 我们需要检查 None 对象和 AttributeError 。 可以如下所示: 当使用Beautiful Soup抓取HTML时,这两个将成为最常用的功能。 bs.find(标签,属性,文本,关键字,recursive_function) —查找所需实体的第一个实例 bs.find_all(标记,属性,文本,关键字,recursive_function) —返回所需实体的所有实例 使用find() 和 find_all() 功能,我们可以根据标签的名称和属性来查找标签。 使用这些方法,我们可以在HTML树中导航并找到所需的元素。 在BS4中,子代与其他子代之间有一个区别- 子代恰好是父代下的一个标签,而子代可以位于父代下的树中的任何级别。 要仅查找子代后代,可以使用.children方法: 我们可以使用Descendants()方法以相同的方式查找后代。 为了找到同级兄弟(即与给定元素处于同一级别的元素),Beautiful Soup提供了next_sibling(s)和previous_sibling(s)方法: 本文就是这样。 在下一篇文章中,我将介绍Scraping最重要的部分之一- 正则表达式和Lambda表达式 ,并且我们将研究一些用于从Internet抓取HTML的基本抓取模型 。 和平了。