问:
数据清洗名词解释
答:
数据清洗主要涉及以下几个术语:
1. 缺失值(Missing Value) - 数据表中应该存在却没有记录的值。比如,对于某用户的购买记录,存在用户ID但商品名称为空。
2. 重复数据(Duplicate Data) - 数据表中重复的记录或值。例如一个用户的信息被录入了两次。
3. 噪声数据(Noise Data) - 表面上看似正确,但实际与其他数据不一致,可能存在错误的记录。如用户年龄显示为300岁。
4. 异常值(Outlier) - 与总体分布明显偏离的异常数据点。如其他商品价格在20-50元,但一个商品价格是3000元。
5. 不一致数据(Inconsistency) - 两个字段之间应该符合的逻辑关系,但实际上不一致。如性别显示为男,但孕妇标志为是。
6. 格式错误(Format Error) - 数据格式与规定不一致,如日期字段出现文本。
7. 完整性错误(Integrity Error) - 某个字段的取值违反了业务规则,如身份证号位数不足18位。
8. 规范化(Standardization) - 将数据转换为统一的格式,如日期统一转换为YYYY-MM-DD格式。
9. 去重(Deduplication) - 删除重复的数据记录。
10. 数据翻译(Data Mapping) - 将数据按业务需要进行转换,如将性别字段从文字转换为数字表示。