
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在前几期的文章中给大家简单介绍了大数据技术应用以及数据仓库的一些基础知识等内容,而本文我们就再来了解一下,数据湖技术应用需要注意哪些问题。
1.数据流入。
数据流入是整个数据湖构建的起始,包括元数据的流入和业务数据流入两个部分。元数据流入包括数据源创建、元数据抓取两步,终会形成数据资源目录,并生成对应的安全设置与访问控制策略。解决方案提供专门的组件,获取外部数据源的相关元信息,该组件能连接外部数据源、检测数据格式和模式(schema),并在对应的数据资源目录中创建属于数据湖的元数据。业务数据的流入是通过ETL来完成的。
2.数据沉淀。
采用AmazonS3作为整个数据湖的集中存储,按需扩展/按使用量付费。
3.数据计算。
整个解决方案利用AWSGLUE来进行基本的数据处理。GLUE基本的计算形式是各类批处理模式的ETL任务,任务的出发方式分为手动触发、定时触发、事件触发三种。不得不说,AWS的各类服务在生态上实现的非常好,事件触发模式上,可以利用AWSLambda进行扩展开发,同时触发一个或多个任务,极大的提升了任务触发的定制开发能力;同时,各类ETL任务,可以通过CloudWatch进行很好的监控。
4.数据应用。
在提供基本的批处理计算模式之外,AWS通过各类外部计算引擎,来提供丰富的计算模式支持,例如通过Athena/Redshift来提供基于SQL的交互式批处理能力;通过EMR来提供各类基于Spark的计算能力,包括Spark能提供的流计算能力和机器学习能力。
5.权限管理。
AWS的数据湖解决方案通过LakeFormation来提供相对完善的权限管理,粒度包括“库-表-列”。但是,有一点例外的是,GLUE访问LakeFormation时,粒度只有“库-表”两级;这也从另一个侧面说明,GLUE和LakeFormation的集成是更为紧密的,GLUE对于LakeFormation中的数据有更大的访问权限。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。