暂无商品咨询信息 [发表商品咨询]
在数据量爆发式增长、AI与业务深度融合的当下,传统数据仓库与数据湖的割裂已成为企业数字化转型的瓶颈——数据冗余、性能不足、治理混乱等问题,让数据价值难以释放。而《湖仓架构:大规模数据平台的设计和实现》,正是为数据从业者带来的“破局之作”。本书作者Gaurav Ashok Thalpati深耕数据领域20年,其方法论历经多行业验证,为湖仓落地提供了权威支撑。
书中最难得的是“理论体系与实战落地”的完美平衡:既解析湖仓“存算分离”核心逻辑,对比Iceberg、Hudi等表格式差异,又提供从需求调研到灾备设计的全流程模板,配套AWS、Azure等云平台实操案例。从数据架构师的顶层设计,到工程师的管道搭建,再到管理者的成本优化,均能找到适配方案,堪称湖仓领域兼具深度与广度的必备典籍。
本书全面阐述了湖仓架构相关知识。首先介绍数据架构及其在构建数据平台中的作用,剖析湖仓架构的概念、特征和优势。接着对比传统架构(数据湖与数据仓库)和现代数据平台,明确湖仓架构在未来数据平台的重要地位。然后讲解行存储与列存储等概念,以及云对象存储、文件格式和表格式等组件,还给出设计存储时的考量因素。接着阐述数据目录、计算引擎在湖仓架构中的功能、类型选择和设计要点。在数据治理与安全方面,强调在湖仓架构中的统一治理和安全流程。之后提供了湖仓平台从前期准备到具体设计和实施的详细指南。最后探讨湖仓架构的未来发展趋势,如数据网格、混合事务与分析处理等。通过学习本书,读者可系统掌握湖仓架构知识,为相关实践提供有力支持。
目录<br />前言1<br />第1章 湖仓架构简介7<br />1.1 理解数据架构8<br />1.1.1 什么是数据架构8<br />1.1.2 数据架构如何帮助构建数据平台8<br />1.1.3 数据平台的核心组件10<br />1.2 为什么需要一个新的数据架构16<br />1.3 湖仓架构:一种新的模式17<br />1.3.1 湖仓:博采众长17<br />1.3.2 理解湖仓架构19<br />1.3.3 湖仓架构的特征22<br />1.3.4 湖仓架构的优势23<br />1.4 关键要点28<br />1.5 参考30<br />第2章 传统架构与现代数据平台31<br />2.1 传统架构:数据仓库与数据湖32<br />2.1.1 数据仓库基础32<br />2.1.2 数据湖基础36<br />2.2 现代数据平台39<br />2.2.1 在云端寻找答案40<br />2.2.2 独立方式41<br />2.2.3 组合方式42<br />2.2.4 现代数据平台的期望44<br />2.3 比较:数据仓库、数据湖、湖仓46<br />2.3.1 能力与局限性46<br />2.3.2 实施活动48<br />2.3.3 管理与运营49<br />2.3.4 业务成果50<br />2.4 湖仓架构:是未来数据平台的默认选择吗51<br />2.5 关键要点52<br />2.6 参考53<br />第3章 存储:湖仓架构的核心55<br />3.1 湖仓存储:关键概念55<br />3.1.1 行式存储与列式存储55<br />3.1.2 基于存储的性能优化56<br />3.2 湖仓存储组件57<br />3.2.1 云对象存储57<br />3.2.2 文件格式59<br />3.2.3 表格式67<br />3.3 关键设计考虑因素78<br />3.3.1 生态系统支持79<br />3.3.2 社区支持79<br />3.3.3 支持的文件格式80<br />3.3.4 支持的计算引擎81<br />3.3.5 支持的特性81<br />3.3.6 商业产品支持81<br />3.3.7 当前版本和未来版本82<br />3.3.8 性能基准测试82<br />3.3.9 比较83<br />3.3.10 共享特征83<br />3.4 关键要点83<br />3.5 参考85<br />第4章 数据目录86<br />4.1 理解元数据86<br />4.1.1 技术元数据87<br />4.1.2 业务元数据87<br />4.2 元存储与数据目录的协同工作方式88<br />4.3 数据目录的特性90<br />4.3.1 搜索、探索与发现数据90<br />4.3.2 数据分类90<br />4.3.3 数据治理与安全91<br />4.3.4 数据血缘91<br />4.4 统一数据目录92<br />4.4.1 竖井式元数据管理的挑战92<br />4.4.2 什么是统一数据目录92<br />4.4.3 统一数据目录的优势93<br />4.5 实施数据目录:关键设计考虑因素与选项94<br />4.5.1 使用HMS95<br />4.5.2 使用AWS服务95<br />4.5.3 使用Azure服务97<br />4.5.4 使用GCP服务100<br />4.5.5 使用Databricks101<br />4.6 关键要点103<br />4.7 参考104<br />第5章 湖仓架构的计算引擎106<br />5.1 湖仓架构的数据计算优势106<br />5.1.1 独立扩展106<br />5.1.2 跨区域、跨账户访问107<br />5.1.3 统一的批处理和实时处理107<br />5.1.4 增强的BI性能107<br />5.1.5 选择不同引擎类型的自由108<br />5.1.6 跨区域分析109<br />5.2 湖仓平台的计算引擎选项110<br />5.2.1 开源工具111<br />5.2.2 云服务113<br />5.2.3 第三方平台118<br />5.3 关键设计考虑因素120<br />5.3.1 开放表格式支持122<br />5.3.2 支持的版本和特性122<br />5.3.3 生态系统支持123<br />5.3.4 基于人物角色的偏好123<br />5.3.5 托管开源、云原生与第三方产品124<br />5.3.6 数据消费类工作负载125<br />5.4 关键要点127<br />5.5 参考128<br />第6章 湖仓架构中的数据(与AI)治理和安全130<br />6.1 什么是数据治理和数据安全130<br />6.2 数据治理和数据安全的优势132<br />6.3 湖仓架构中的统一治理和安全132<br />6.4 湖仓架构中的治理和安全流程133<br />6.4.1 元数据管理133<br />6.4.2 合规和法规134<br />6.4.3 数据与机器学习模型质量135<br />6.4.4 贯穿数据资产和AI资产的血缘136<br />6.4.5 数据资产与AI资产共享138<br />6.4.6 数据所有权138<br />6.4.7 审计和监控139<br />6.4.8 访问管理140<br />6.4.9 数据保护141<br />6.4.10 处理敏感数据143<br />6.5 你的角色是什么144<br />6.6 关键要点147<br />6.7 参考148<br />第7章 全景视图:设计与实施湖仓平台150<br />7.1 设计前的活动150<br />7.1.1 理解平台需求151<br />7.1.2 研究现有系统152<br />7.1.3 理解组织的愿景与数据战略153<br />7.1.4 组织研讨会和访谈153<br />7.2 选择合适的架构153<br />7.3 建立指导原则155<br />7.3.1 数据生态系统156<br />7.3.2 可扩展性和性能157<br />7.3.3 成本控制和优化157<br />7.3.4 平台运营157<br />7.3.5 治理和安全158<br />7.4 设计考虑因素与实施最佳实践158<br />7.4.1 架构蓝图158<br />7.4.2 数据摄取159<br />7.4.3 数据存储162<br />7.4.4 数据处理166<br />7.4.5 数据消费和交付169<br />7.4.6 通用服务171<br />7.5 设计参考175<br />7.5.1 分步设计指南175<br />7.5.2 设计问卷177<br />7.6 关键要点179<br />7.7 参考180<br />第8章 现实世界中的湖仓181<br />8.1 交付一个现实世界的湖仓181<br />8.2 估算与规划阶段182<br />8.2.1 估算183<br />8.2.2 规划183<br />8.3 分析与设计阶段184<br />8.3.1 分析现有系统184<br />8.3.2 数据建模185<br />8.3.3 确定技术栈186<br />8.4 实施与测试阶段188<br />8.4.1 历史数据迁移188<br />8.4.2 数据核对与测试190<br />8.4.3 逆向工程191<br />8.4.4 数据质量和敏感数据处理192<br />8.5 支持与维护阶段193<br />8.5.1 审计与跟踪193<br />8.5.2 灾难恢复策略193<br />8.5.3 旧系统下线195<br />8.6 交付参考196<br />8.6.1 项目交付成果196<br />8.6.2 参考架构198<br />8.7 关键要点201<br />8.8 参考202<br />第9章 未来的湖仓203<br />9.1 从仓库到湖仓:接下来是什么203<br />9.1.1 数据网格204<br />9.1.2 HTAP205<br />9.1.3 零ETL206<br />9.2 互操作性与新格式207<br />9.2.1 UniForm208<br />9.2.2 Apache XTable209<br />9.2.3 即将推出的文件格式和表格式210<br />9.3 公有云和私有云的托管平台211<br />9.3.1 Microsoft Fabric和其他平台212<br />9.3.2 私有云平台的托管湖仓架构214<br />9.4 湖仓中的AI216<br />9.5 关键要点217<br />9.6 本书总结218<br />9.7 参考219
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111789000 |
条码 | 9787111789000 |
编者 | [印]高拉夫·阿肖克·塔尔帕提(Gaurav Ashok Thalpati) 著 |
译者 | |
出版年月 | 2025-09-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 219 |
字数 | 293 |
版次 | 1 |
印次 | 1 |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]