一、数据质量准则

在这里,我们归类成了“完全合一”4 项准则,按照以上原则,能解决数据清洗中遇到的大部分问题,使得数据标准、干净、连续,为后续数据统计、数据挖掘做好准备。 (1)完整性:单条数据是否存在空值,统计的字段是否完善。 (2)全面性:观察某一列的全部数值。比如在 Excel 表中,选中一列,可以看到该列的 平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,如数据定义、单位标 识、数值本身。 (3)合法性:数据的类型、内容、大小的合法性,比如数据中存在非 ASCII 字符等,性 别存在未知,年龄超过了 150 岁等。 (4)唯一性:数据是否存在重复记录,因为数据通常来自不同的渠道汇总,重复的情况 是常见的。行数据、列数据都需要是唯一的,比如一个人的信息不能重复记录多次,且一个 人的体重也不能在列指标中重复记录多次。