Reddit和柏拉图的形式理论

Reddit通过这篇文章让我想起了柏拉图的形式理论。 总而言之,除非它具有固有形式,否则您如何知道某物是什么。 哪个提出了问题:人工智能可以理解固有形式吗? 面对这一挑战,我试图确定一台计算机可以学习两个不同位置的固有形式:仅给出子目录的内容,就可以到达芝加哥或华盛顿特区。 我首先从reddit收集数据。 我使用Pushift API和一个函数(来自朋友)从芝加哥和DC子目录每30天每隔30天抓取1000条帖子。 这产生了35,000个芝加哥职位和33,760个DC职位(接近50/50!) 我筛选了从json中提取的所有78个变量,发现除了4个变量外,其余所有变量似乎都不相关或包含大部分NaN。 似乎它们对我的模型贡献最大的四个相关特征是职位标题,职位测试,作者的姓名和作者的才能。 我调整了一个TFIDF Vectorizer来对我的数据进行计数,发现调整我性能最高的模型(Logisitic回归,朴素贝叶斯和随机森林),并在投票分类器中将这三个模型都包括在内,其准确性得分为89%。 我又抽取了一个样本来遍历我的模型并评估其性能。 我从两个子Reddit中分别刮掉了10条帖子。 DC的帖子得分为10/10,而芝加哥的准确率为80%。 它对2个帖子进行了错误分类,其中一个帖子不可避免地从站点中删除。 另一个似乎可以预测DC,我认为基于对“旧城区”的引用。 为了清理这些最后的错误分类,有两种可能的途径可以在此模型中包含更多数据:包括帖子评论,和/或包括作者在其他子目录中的一些帖子。…

使用Python分解FERC记录元数据

能源部的抗灾能力NOPR 几周前,美国能源部突然对全球取消了NOPR。 拟议的规则制定通知(NOPR容易说,尽管它可能更像是一个错误)对于当前放松管制的能源市场可能具有很大的影响。 而不是解决此规则的细节及其潜在影响(我也对此感兴趣,但是有一种专业的纠结,因为我目前工作的公司与市场密切相关,并且确实提供了评论,可以找到评论)在此页面上),我将展示一种快速而肮脏的方法来使用Python评估注释的一般特征。 另外,此处提供的代码和其他内容也可以在github上找到。 网页抓取 通常,当从网页中提取纯文本时,您会变得有点脏。 通常,可以通过诸如beautifulsoup之类的包来帮助确定所需的内容以及从何处获取它,它非常适合将HTML的混乱(或汤类)解析为更易于管理的内容。 当您感到烦躁不安或需要与网页进行一些交互时,您可以通过表格寻求硒或机械化的动力(我在过去的工作中实际上是为FERC电子图书馆做的,以撤消他们备案的所有水电许可)。 在这种情况下,我们可能会很懒。 导航至:https://elibrary.ferc.gov/idmws/docket_search.asp该页面当前可能已通过直接链接断开,因此您也可以转到此处,然后单击“目录搜索”:https://www.ferc .gov / docs-filing / elibrary.asp 键入“ RM18–1”作为摘要,然后单击提交…

如何找到可靠的Web爬虫来源

毫无疑问,网络抓取是在目标市场上获得商业智能和见解的最佳方法。 通过制定数据支持的决策,许多公司已大大提高了整体绩效。 大数据及其可为您提供的有价值的见识对所有人都有好处,但这一切都取决于您获取的数据质量,而这是关键任务。 从理论上讲,任何人都可以创建网站并在网络上发布他们想要的内容。 您有责任评估源网站,以确保它们提供可从中受益的可信赖内容。 您从网上提取的数据将与从其抓取的来源一样好。 当您开始大数据之旅时,应格外小心地寻找可以找到可信赖数据的出色网站。 在选择网络抓取来源时,请牢记以下几点。 避免使用会阻止机器人的网站 尽管从使用IP阻止或类似技术阻止自动bot的站点上爬网和提取数据在技术上是可行的,但不建议在您的列表中包括此类网站。 除了与剪贴站点有关的法律风险(不鼓励自动剪贴)之外,当该站点将来可能实施更好的阻止机制时,您还存在丢失数据的风险。 使用这种网站作为来源将需要您付出更多的努力来克服它们所设置的障碍,但最终可能会导致数据不完整或无用。 最好让他们一个人呆着,寻找更好和可靠的来源来抓取数据。 链接过多的网站 链接是万维网的连接组织。 不言而喻,链接断开的网站太多,是网站抓取来源的错误选择。 这是网站管理员的疏忽的明确指示,这意味着您可能不太重视从网站提取的数据质量。 遇到链接断开时,Web抓取设置也将停止。…