加入收藏 | 设为首页 | 会员中心 | 我要投稿 莱芜站长网 (https://www.0634zz.com/)- 云连接、建站、智能边缘云、设备管理、大数据!
当前位置: 首页 > 云计算 > 正文

一个理想的数据湖应有哪些功能

发布时间:2023-02-16 09:30:59 所属栏目:云计算 来源:互联网
导读:从数据库到数据仓库,最后到数据湖,随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%,将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会来看,数据湖架构显然是数据管理和治理的未来。
    从数据库到数据仓库,最后到数据湖,随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%,将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会来看,数据湖架构显然是数据管理和治理的未来。由于 Databricks发布了 Delta 2.0,该趋势可能会增长,该平台的所有 API 都将是开源的。此外Snowflakes在其峰会上宣布了一些改变游戏规则的功能,使数据湖成为该行业的支柱。治理、安全性、可扩展性以及对分析和交易数据的无缝分析,将会推动该领域创新。
 
  根据 Hay、Geisler 和 Quix(2016 年)的说法,数据湖的三个主要功能是从多个数据源提取原始数据,将其存储在安全的存储库中,并允许用户通过直接查询数据湖来快速分析所有数据。数据湖由三个部分[7]组成。数据存储、数据湖文件格式和数据湖表格式。所有这些都有助于实现上述功能,并作为数据湖的基石。 数据湖架构[8]通过其数据存储组件存储来自各种来源的数据,例如传统数据库、Web 服务器和电子邮件。数据湖文件格式用作数据处理单元,其中数据源以面向列的格式压缩以优化查询和探索。最后数据湖表格式通过将所有数据源聚合到一个表中来帮助进行数据分析。因此更新一个数据源将更新所有其他数据源,就好像它们都在一个表中一样。典型的数据存储平台包括 AWS S3、Google Cloud Storage 和 Azure数据湖。Apache Parquet 或 Avro 是一些通用的数据湖文件格式,Apache Hudi、Apache Iceberg 和 Delta Lake是众所周知的数据湖表格式。

  数据库操作语言 (DML)[16]是一组命令,可让用户操作数据库中的数据。例如 SQL 是一种 DML,允许用户编写 SELECT、INSERT、DELETE、UPDATE 和 MERGE 等命令来对数据执行特定操作。支持 DML 的数据湖通过让用户轻松保持源表和目标表之间的一致性,简化了治理和审计以及变更数据捕获 (CDC)。例如用户可以使用 UPDATE 命令以根据特定过滤器将源表中检测到的变更传递到目标表。
 
  构建和维护模式的灵活性
 
  数据湖相对于数据仓库的优势之一是数据湖提供了模式演变的灵活性[17]。数据仓库在存储特定数据集之前需要预定义的模式,而数据湖不需要这样的模式。有效的数据湖具有数据存储系统,可以自动从存储的结构化和非结构化数据源中推断模式。这种推断通常称为读取时模式而不是写入时模式,后者适用于数据仓库的严格模式结构。

  自动调整文件大小
 
  在处理大型文件系统(如大数据应用程序中的文件系统)时,文件大小会迅速增长。基于 Hadoop 数据集群的传统数据湖无法根据数据量调整文件大小。结果会导致系统创建很多文件,每个文件的大小都比较小,从而占用了大量不必要的空间。高效的数据湖应根据传入数据量自动调整文件大小。例如 Delta Lake/Apache Hudi 允许用户指定目标表的文件大小,或者让系统根据工作负载和表的整体大小自行调整大小。较大的表保证较大的文件大小,以便系统创建较少的文件。
 
  托管清理服务
 
  大多数数据湖架构中缺乏有效的数据清理机制是一个明显的弱点,会导致数据湖迅速变成数据沼泽。由于数据湖在没有预定义模式的情况下摄取数据,因此随着数据量和类型的增加,数据发现会变得复杂。因此,像 Snowflake这样的数据湖平台在数据摄取阶段施加了一定的约束,以确保传入的数据没有错误或不一致,否则可能会在以后导致分析不准确。
 
  索引管理
 
  索引表可以使数据湖加速查询执行,使用索引而不是遍历整个数据集来提供结果。在 SQL 查询中应用过滤器时,索引特别有用,因为它简化了搜索。元数据管理也可以发挥作用,因为它定义了数据表的特定属性以便于搜索。但是像 Snowflake 这样的数据湖不使用索引,因为在庞大的数据集上创建索引可能很耗时[27]。相反,它计算表的列和行的特定统计信息,并将这些信息用于查询执行。

  支持数据共享
 
  随着数字化步伐的不断加快,数据共享已成为当下的需求。由于数据被不同的团队用于多个用例,通过数据目录系统进行无缝数据共享对于数据驱动的决策制定和防止业务领域之间的孤岛是必要的。数据湖不仅应该提供跨平台无缝共享数据的方法,而且还应该安全可靠地这样做,因为由于访问控制薄弱,数据安全可能成为一个问题。

(编辑:莱芜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读