这个开源工具将可视化您的大量生物学数据集

Holly Bik(@hollybik)是加利福尼亚大学的助理教授。 Holly被选中与他们的项目Phinch一起加入本轮Mozilla开放领导者计划,该计划为生物数据创建了精美而有见地的可视化效果。 我采访了Holly,以了解有关Phinch的更多信息以及如何在Mozilla的Global Sprint 2018中提供帮助。 什么是Phinch? Phinch是用于大量生物数据集的交互式探索性数据可视化框架。 我们的项目团队代表研究科学家(例如,我本人,加州大学河滨分校的计算生物学家兼助理教授)和Pitch Interactive(位于加利福尼亚州奥克兰的数据可视化工作室)之间的跨学科合作,该项目目前由3年资助由Alfred P. Sloan基金会提供。 Phinch框架本身旨在促进复杂基因组数据集的快速和常规可视化,例如,数百万个代表人类微生物组中细菌的DNA序列或一滴海水中的单细胞原生生物。 这些是科学家现在每天生成的数据集。 但是,过滤和分析这些数据集目前需要认真的编程技能,并且通常需要数周或数月的编码才能可视化巨大的纯文本文件中的模式。 Phinch旨在提高数据分析工作流程这一部分的科学效率,使研究人员能够上传生物数据的标准文本文件(HDF5或JSON),并能够以可视格式立即处理数据和元数据。 我们还希望最终用户能够共享和导出这些可视化的数据集,并且我们正在致力于使下载,存储和导出可发布出版物的图像的功能。 Phinch原型框架当前以基于Web的门户存在(可在http://phinch.org上运行),但是作为Mozilla…

隐藏在您的Venmo和Instagram数据中的秘密

我们从爱丽丝所属的几个社区中可以获得什么见解? 这些社区有多密集? 这些社区似乎如何相互联系? 网络中有多少个人与特定社区没有关系? 仅使用朋友列表可以找到这些见解。 如果我们考虑用户之间的公共交易数据,我们可以更好地表明爱丽丝的社会纽带的力量-她付钱给谁,什么时候付钱,以及这些人如何互相付钱,等等。我们也可以将这些结合起来信息与其他数据集(如Instagram)! Instagram的 获取数据 如前所述,Instagram于2018年4月初关闭了其公共API。但是,开源社区的许多成员对Instagram的私有API进行了广泛的研究。 应用这项研究,您可以编写一些例程来批量访问以下Instagram数据:关注者,关注者,用户媒体以及用户媒体上的喜欢。 访问此数据的速度受到限制,但限制很高,就像Venmo一样,我们可以为Instagram创建虚拟帐户(虽然不那么容易)。 似乎这些虚拟帐户每小时被授予约3,000个请求,但您的里程可能会因Instagram的垃圾邮件检测算法而异。 Instagram可能会或可能不会使您验证电话号码。 如果确实可以让您进行验证,则电话号码验证是一种非常便宜的解决方法(链接源提供的验证费用为$ 0.06)。 如果我们以每小时3,000个请求的速度处理16个帐户,则每小时可获得不确定的总数48,000个请求,所有这些一次性价格为0.96美元! Instagram具有相当先进的垃圾邮件检测功能(即使我们所说的不是传统意义上的垃圾邮件)。 他们使用机器学习和所有高级技术,因此此处的实现细节对于将其扩展到成千上万的用户(分配请求的方式,从单独的帐户发送请求的速度等)非常重要。…