干净数据的重要性

摘要 在这一部分中,我们提到拥有干净的数据集的重要性。 我们讨论如何清理自己的数据集,以及我们的想法和方法,以克服诸如过度拟合,不可用的值(数据)或对我们的实验产生负面影响的值等问题。 操纵干净的数据集可能是机器学习以及一般数据科学中最重要的先决条件之一。 在处理数据时,必须非常小心,因为任何误解都可能导致不良和不真实的结果。 就我们的数据集而言,它包括有关整个希腊资产(例如公寓,别墅,办公室等)的各种属性。 显而易见,对于许多资产,我们没有所有属性的值,或者其中一些值对我们的预测有负面影响。 这就是为什么我们必须做一些清洁工作! 首先,我们必须查看缺失值的百分比。 之后,我们详细说明了哪些属性对于我们的分析是必需的,哪些可以删除。 另一个困难是,在我们保留的那些属性上,我们应该用逻辑上的东西替换缺失的值,更重要的是,这些东西应该使其余数据在它们传输的信息方面不受影响(有时它是最频繁的值或平均)。 例如,雅典的公寓不能有塞萨洛尼基的经纬度。 此外,我们根据属性的值对属性进行了分类,并归纳为4组: 数字列(询问价格,面,成本,产量等) ID列(资产的唯一ID,合作者ID,资产类型ID等) 日期列(输入日期,更新日期等) 分类列(国家/地区,主要区域,次要区域,区域等) 通过使用干净的数据集,我们还减少了过拟合的问题。…