
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据技术随着互联网的不断发展而逐渐深入到各个领域,而今天我们就通过案例分析来了解一下,大数据技术应用数据层基础分享。
随着存储信息数量的增长,数据存储一直都是要问题。这是任何与数据打交道的系统的基础——有许多技术可以存储海量的原始数据,这些原始数据可以来自传统的数据源,比如OLTP数据库,也可以来自更新的、更非结构化的数据源,比如日志文件、传感器、网站分析数据、文档档案数据和媒体档案数据。如你所见,这些领域差异巨大,有着各自的领域特点,而我们需要从所有这些领域收集数据。
一件重要的事情就是用于存储数据的格式,如何将其存储结构优化以及如何优地存储这些数据。当然,在此时你会想到大数据领域的常见格式,例如Parquet、CSV、Avro。另外,也可以考虑使用压缩工具,例如Bzip2、Snappy、Lzo等等。此外,优化工作基本上要么涉及适当的分区,要么是一些存储特定的东西。
支撑数据层的主要技术,当然是具有HDFS的Hadoop——一个非常的大规模文件系统。因为它的持久性和在传统设备上无限的扩容能力,它已经非常流行了。然而,近越来越多的数据被存储在云端,或者至少是混合云——企业正在从过时的本地存储系统迁移到类似AWSS3、GCPGCS或者是AzureBlob这样的托管服务。
对于SQL的解决方案,流行的应用是Hive或者Presto,或者是更有趣的数据仓库解决方案。我认为它们位于基础的SQL引擎之上。我们稍后会详细讨论。
对于NoSQL的解决方案,它要么是支持ACID的Cassandra、文档数据模型且数据大小可管理的MongoDB或者是用于可伸缩解决方案的AWSDynamoDB(如果你在AWSCloud上)。
对于图数据库,我只能想起Neo4j。它非常适用于存储图数据或者相关信息,比如一群人和他们之间的关系。对这类信息在传统的SQL数据库建模会是非常困难且低效的。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。