
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据清洗和数据质量优化都是我们在做数据分析之前会经常用到的一些优化方法,而本文我们就通过案例分析来简单了解一下,做好数据清洗需要注意哪些问题。
1、基本方案
核心思想:
读-洗-写入业务库持续服务;
读-洗-写入档案数据资产库;
业务数据清洗本质上理解起来并不难,即读取待清洗的数据源,经过清洗服务规范化处理后,再把数据放到指定的数据源,但是实际操作起来绝对叫人眼花撩到。
2、容器迁移
数据存储的方式本身就是多种选择,清洗数据要面对的一个问题就是:数据容器的迁移;
读数据源:文件、缓存、数据库等;
临时容器:清洗过程存储节点数据;
写数据源:清洗后数据注入的容器;
所以清洗数据的一步就是明确整个流程下要适配多少数据源,做好服务的基础功能设计与架构,这是支撑清洗服务的基础;
3、结构化管理
读取的清洗数据可能并不是基于库表管理的结构化数据,或者在数据处理过程中在中间临时容器存储时,为了方便下次操作取到数据,都需要对数据做简单的结构管理;
例如:通常读取文件的服务性能是很差,当数据读取之后在清洗的过程中,一旦流程中断,可能需要对数据重新读取,此时如果再次读取文件是不合理的,文件中数据一旦读取出来,应该转换成简单的结构存储在临时容器中,方便再次获取,避免重温处理文件的IO流;
常见数据结构管理的几个业务场景:
数据容器更换,需要重组结构;
脏数据结构删除或者多字段合并;
文件数据(Json、Xml等)转结构;
注意:这里的结构管理可能不是单纯的库表结构,也可能是基于库表存储的JSON结构或者其他,主要为了方便清洗流程的使用,以至终数据的写入。
4、标准化内容
标准化内容则是数据清洗服务中的一些基本准则,或者一些业务中的规范,这块完全根据需求来确定,也涉及到清洗数据的一些基本方法;
于业务本身的需求而言,可能常见几个清洗策略如下:
基于字典统一管理:事实上在系统中很多字段属性都是要基于字典去管理值的边界和规范,这样处理之后有利于数据的使用、搜索、分析等;
数据分析档案化:例如在某个业务模块需要用户实名认证,如果认证成功,基于手机号+身份证所读取到的用户信息则是变动极小,特别是基于身份证号分解出来的相关数据,这些数据则可以作为用户档案数据,做数据资产化管理;
业务数据结构重组:通常分析都会基于全局数据来处理,这就涉及到数据分分合合的管理,这样可能需要对部分数据结构做搬运,或者不同业务场景下的数据结构做合并,这样整体分析,更容易捕获有价值的信息数据;
然对于数据清洗本身来说,也是有一些基本策略:
数据基础结构的增、删、合并等;
数据类型的转变,或者长度处理;
数据分析中数值转换、缺失数据弥补或丢弃;
数据值本身的规范化处理,修复等;
统一字符串、日期、时间戳等格式;
在数据清洗的策略中并没有一个标准化的规范,这完全取决数据清洗后的业务需求,例如数据质量差,严重缺失的话可能直接丢弃,也可能基于多种策略做弥补,这完全取决于结果数据的应用场景。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。