【大数据技术标准推进委员会】2023年湖仓一体技术与产业研究报告
湖仓一体是指融合数据湖与数据仓库的优势,形成一体化、开放式数据处理平台的技术。通过湖仓一体技术,可使得数据处理平台底层支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝调度和管理,并使得上层通过统一接口进行访问查询和分析。
为给社会各界深入了解湖仓一体技术与产业提供有价值的参考。本报告聚焦于湖仓一体技术,详细梳理了体实践路径数据平台,研究分析了湖仓一体产业现状,发展历程、湖仓一并对湖仓一体未来发展进行了展望与研判。
近日,中国通信标准化协会大数据技术标准推进委员会(CCSATC601)牵头,联合行业专家共同编制的《湖仓一体技术与产业研究报告(2023)》(下文简称“报告”)发布,奇点云(杭州比智科技有限公司)深度参编。
报告聚焦于湖仓一体技术,详细梳理了数据平台的发展历程、数据湖与数据仓库的特性对比,介绍了湖仓一体的基本能力与实践路径,并对湖仓一体未来发展进行了展望与研判。
自2021年“湖仓一体”首次写入Gartner数据管理领域成熟度模型报告以来,随着企业数字化转型的不断深入,“湖仓一体”作为新型的技术受到了前所未有的关注,越来越多的企业视“湖仓一体”为数字化转型的重要基础设施。
为给社会各界深入了解湖仓一体技术与产业提供有价值的参考,信通院大数据技术标准推进委员会牵头编制了《湖仓一体技术与产业研究报告(2023)》,并于2023年大数据产业发展大会上正式发布。
数据仓库与数据湖是目前数据平台领域最常见的两种架构:
数据仓库规范性强,可针对结构化数据进行集中式存储和计算,但对处理日益增长的半结构化、非结构化数据有局限性;
数据湖能灵活支持多种类型数据存取,读取型(schemaonread)的数据分析形式有效提升了分析效率,但一致性、隔离性、数据质量为弱项,常出现因缺乏治理而退化为“数据沼泽”的情况。
可见,面临不同类型的数据与处理需求,数据仓库和数据湖各有专攻。而要想综合二者的优势,并非“数据仓库+数据湖”那么简单。
报告指出,“数据仓库+数据湖”的混合架构能满足结构化、半结构化、非结构化数据的高效处理需求,但存在四大弊端:
两种技术栈都有数据冗余,存储成本增加;
双系统间额外的ETL(抽取、转化、加载)流程导致时效性差;
迁移过程中易出现数据不一致问题,增加数据校验成本;
两种技术栈混合部署使得数据架构复杂,平台开发、运维的难度大,成本高。