认识达内从这里开始

认真做教育专心促就业

南昌达内IT培训数据中台业务实践应用都有哪些方法

发布：南昌达内IT培训
来源：互联网
时间：2022-10-17 11:09

随着互联网的不断发展，越来越多的企业都开始搭建自己的企业数据中台，而本文我们就通过案例分析来简单了解一下，数据中台业务实践应用都有哪些方法。

南昌达内IT培训数据中台业务实践应用都有哪些方法

1.数据存储

互联网行业大数据的主流存储框架是基于Hadoop的分布式文件系统HDFS。由于其具有高容错性和适合批处理数据的特点，适合部署在低廉的PC服务器上存储海量的数据，数据存储的性价比较高。

2.离线计算

在HDFS的基础上，Hadoop生态又开发了离线数据仓库计算引擎Hive。Hive基于MapReduce技术支持分布式批处理计算，同时支持以SQL操作的方式对存储在HDFS上的数据进行「类数据库」的操作、计算和统计分析。Hive适合海量数据的批处理操作场景，操作简单，容错性和扩展性好，缺点是高延迟、查询和计算都比较慢，因此Hive被广泛应用在离线计算场景中，尤其是对海量数据的批处理操作和分析场景中。

因为基于MapReduce技术涉及磁盘间高频的I/O操作，所以Hive的计算效率较低，时效很长。为了提高计算的效率，Hive社区增加了新的计算引擎，即Spark。与MapReduce相比，Spark的RDD计算引擎基于内存进行计算，计算和查询效率显著提升。

目前，主流的离线计算框架采用Hive和Spark结合的方式。在100个节点以下时，可以选用Hive作为数据仓库、Spark作为计算引擎。另外，对于海量数据场景(如节点数需要几百个甚至上千个时)，Hive的优势是稳定性和容错性好，可以用于处理海量数据的复杂计算。Spark的优势是计算速度快，缺点是容易出现内存泄漏和不足，从而导致计算缓慢或者任务失败。在海量数据场景中，出于稳定的要求，Spark一般用于处理数据仓库上层的查询、计算和分析操作，而底层的操作由Hive完成。重点推荐使用Hive和Spark工具。

3.实时计算

开源的实时计算框架比较多，如Spark、Storm和Flink等。与Storm相比，Spark的优势是用一个统一的框架和引擎支持批处理、流计算、查询、机器学习等功能。由于Spark的微批处理的设计机制，在处理流数据的时候，效率比Storm要低。整体而言，Spark体系更加成熟，易用性较好、社区文档和案例更加丰富，如果对于数据延迟要求是秒级，那么Spark更容易上手且能满足性能要求。

4.查询引擎

为了提高数据交互性查询的效率，在大数据时代根据不同的业务要求诞生了很多新的查询引擎，常见的查询引擎有HBase、Redis、MongoDB等。按照大类划分，查询引擎可以分为SQL交互式查询引擎和NoSQL交互式查询引擎。HBase、Redis、MongoDB都属于NoSQL交互式查询引擎。

【免责声明】：本内容转载于网络，转载目的在于传递信息。文章内容为作者个人意见，本平台对文中陈述、观点保持中立，不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销，赚更多好礼。

< 上一篇：南昌达内计算机培训云计算与大数据的作用都有哪些

下一篇：南昌达内IT培训机构大数据查询引擎都有哪些类型 >