
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据清洗是目前大多数企业在做数据分析之前都需要经历的一个过程,而本文我们就通过案例分析来了解一下,数据清洗的常用方法都有哪些。
1、丢弃部分数据
丢弃,即直接删除有缺失值的行记录或列字段,以减少趋势数据记录对整体数据的影响,从而提高数据的准确性。但这种方法并不适用于任何场景,因为丢失意味着数据特征会减少,以下两个场景不应该使用丢弃的方法:数据集中存在大量数据记录不完整和数据记录缺失值明显的数据分布规则或特征。
2、补全缺失的数据
与丢弃相比,补充是一种更常用的缺失值处理方法,通过某种方法补充缺失的数据,形成完整的数据记录对后续的数据处理。分析和建模非常重要。
3、不处理数据
不处理是指在数据预处理阶段,不处理缺失值的数据记录。这主要取决于后期的数据分析和建模应用。许多模型对缺失值有容忍度或灵活的处理方法,因此在预处理阶段不能进行处理。
4、真值转换法
承认缺失值的存在,并将数据缺失作为数据分布规律的一部分,将变量的实际值和缺失作为输入维度参与后续数据处理和模型计算。然而,变量的实际值可以作为变量值参与模型计算,而缺失值通常不能参与计算,因此需要转换缺失值的真实值。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。