https://zhuanlan.zhihu.com/p/298428529
湖仓一体是一种开放式数据管理架构,集数据湖的灵活性和可扩展性优势以及数据仓库的数据结构和数据管理功能于一体。

数据仓库在过去的几十年发生了怎样的变化?
几十年来,组织将数据仓库(也称为企业数据仓库 (EDW))用于存储和管理推动业务洞见产生所需的数据。但多年来所产生数据的类型、来源和数量成倍增加。从企业内每日生成的业务数据的速度、类型和数量来看,传统数据仓库架构已无法完全跟上其节奏。此外,企业越来越多地采用人工智能 (AI) 和机器学习 (ML) 技术,这些工具所用的算法同样要求直接访问数据。

相关 HPE 解决方案、产品或服务
HPE Ezmeral Data Fabric

什么是数据湖?
数据湖是一种架构,可用于存储从所在企业多种业务应用程序、系统和设备所收集的海量非结构化数据和半结构化数据。数据湖通常会搭配使用低成本存储基础设施和以通用、开放文件格式保存数据的文件应用编程接口 (API)。换句话说,数据湖非常适用于大规模存储数据,供 AI 和 ML 算法取用,但是,它们并不会满足数据质量或治理要求。若组织或管理不善,向数据湖添加的数据很可能重复、不相关、杂乱无章。如此,数据湖就会沦为所谓的数据沼泽,企业难以从其中所含的数据中提取出富有意义的洞见。

相关主题
人工智能

Data Fabric

数据湖

机器学习

Spark

湖仓一体如何防止数据沼泽的形成?
湖仓一体除了灵活、可扩展性外,还具备独特结构和管理功能,可为数据科学团队提供数据使用的敏捷性,无需访问多个系统。湖仓一体也能够确保数据科学家能够取用可开展业务分析、AI 和 ML 项目的最完整和最新数据。

湖仓一体的优势有哪些?
湖仓一体架构能够提供诸多优势:

  1. 能够消除简单的提取、传输和加载 (ETL) 作业,因为查询引擎能够直接连接数据湖。
  2. 能够利用单一工具处理数据,减少数据冗余,不必利用多个工具管理多个平台上的数据。
  3. 能够直接连接多个 BI 和分析工具。
  4. 能够简化数据治理,因为敏感数据不再需要从一个数据池移到另一个,且可以从一个点进行管理。

有助于降低成本,因为可通过对象存储将数据存储在一个位置。

湖仓一体、数据仓库和数据湖有什么区别?
数据仓库
将取自多个不同来源的大型业务数据集聚合到一个单一、一致的数据存储区就构成了数据仓库。这些平台经过专门设计,能够对大量结构化数据执行分析。数据仓库系统会定期从多种商业智能 (BI) 系统提取数据,然后格式化并导入该数据,使其匹配数据仓库中已有数据的格式和标准。如此可让数据存储在条理清晰的文件或文件夹中,随时可用于报告和数据分析。

数据湖
数据湖能够大规模存储取自所有企业数据来源、采用原生格式的各类原始数据、结构化以及非结构化数据。数据会照原样添加到数据湖中,即不会为了与系统中的其他数据保持一致而对新数据进行重新格式化。为了让数据可供 AI 和 ML 系统和大数据分析之用,数据湖发挥了关键作用。

湖仓一体
湖仓一体是一种全新的开放式架构,能够兼顾拥有类似数据结构的数据湖所具备的灵活性和可扩展性优势,以及数据仓库的数据管理功能。此功能组合能够为数据科学团队提供敏捷性,让他们无需访问多个系统就能够使用数据。湖仓一体也能够确保数据科学家取用最完整、最新数据。

湖仓一体有哪些元素?
从高层级上看,湖仓一体架构主要有两层。湖仓一体平台管理将数据吸收到存储层(也就是数据湖)。处理层之后就能够使用各类工具来直接查询存储层中的数据,而不必将数据载入数据仓库或转换成专有格式。之后,数据就可供 BI 应用程序以及 AI 和 ML 工具使用。

这个架构提供数据湖的经济效益,此外,由于任何类型的处理引擎都能够读取此数据,因此,组织便能够灵活地提供备妥的数据,满足多种系统执行分析的目的。如此,完成处理和分析的性能更高、成本更低。

这个架构也允许多方并行读写系统中的数据,因为其支持遵守 ACID(原子性、一致性、隔离性、持久性)原则的数据库事务,详情如下:

原子性指的是处理事务时,要么全部事务都成功,要么一个事务都不成功。如果过程中发生中断,这个做法有助于防止数据丢失或损坏。

一致性能够确保事务以可预测、一致的方法完成。其能够确保全部数据是预定义规则下的有效数据,保持数据的完整性。

隔离性可保证事务完成之前,系统中的任何其他事务都不会影响某一个具体事务。这样就能够让多方同时从同一个系统读取数据,且不会互相干扰。

持久性可确保对系统中数据所作更改能够在事务完成后保留下来,即便系统出现故障也是如此。因事务所作的任何更改将会永久保存。

HPE 湖仓一体解决方案
HPE Ezmeral Unified Analytics 是一款云原生解决方案,是业内率先做到既能执行基于 Kubernetes 的 Apache Spark 分析,又能提供使用本地 Delta Lake 的统一湖仓一体的简便性。这项服务对原有数据和旧式应用程序进行更新改造,以优化从边缘到云的数据密集型工作负载,从而提供高级分析所需的可扩展性和灵活性。该服务从打造之初就充分考虑了开放和混合特性,其 100% 开源堆栈能够让组织的数据平台免受供应商束缚。

HPE Ezmeral Unified Analytics 针对本地部署和混合部署进行优化,使用开源软件来确保企业所需的数据可移植性,让组织无需再将所有数据存储于公有云之中。这款服务既具备出色的灵活性,又能针对企业的大型数据集或湖仓进行扩展,让客户能够随时随地以所需弹性完成高级分析。

HPE GreenLake 边缘到云平台提供统一的数据体验,可让团队安全地连接至数据目前所在位置,不必打乱现有数据访问模式。这个平台包括能够纵向扩展且已针对部署在本地的 Apache Spark 进行优化的湖仓一体平台。数据科学家能够将弹性、统一分析平台用于本地、边缘以及公有云中的数据和应用程序,协助其加速 AI 和 ML 工作流程。