openGauss
开源数据库
openGauss社区官网
开源社区
四高内核底座+两大架构创新,看openGauss 如何创数据库新未来
3 月 16 日,北京站 · 第101期 OSC 源创会在北京圆满举办。本期源创会以“数据库,2024 开炫”为主题,汇聚 openGauss、TDengine、Apache Doris、MatrixOne、Apache IoTDB 五大数据库。会上,华为 openGauss 数据库总工程师、openGauss 社区技术委员会委员贺承汉发表了《openGauss 全方位技术创新,共创数据库新未来》主题演讲,全方位介绍了 openGauss 的发展、基础内核能力以及两大创新架构。

贺承汉 华为 openGauss 数据库总工程师、openGauss 社区技术委员会委员
openGauss 由华为内部孵化,最早在 2001 年便以嵌入式内存数据库形态应用在内部的电信业务中。2019 年起,开始对外部开放,独立拓展市场,构筑合作伙伴生态,并兼容行业主流生态,完成主流行业对接。2020 年,openGauss 进入全面开源阶段,联合产业界共同推动 openGauss 开源发展。
贺承汉介绍,openGauss 采取的是技术自立,发展独立,长期演进的技术路线。openGauss 一直持续进行内核创新,构建高性能、高安全、高可用、高智能的内核。
性能方面,具备高性能、大并发、业务稳等特点,2 路鲲鹏达到 150WtpmC,4 路鲲鹏达到 230WtpmC。
安全方面,数据全生命周期安全可信,具有全密态、多方共识、数据防篡改等高安全特性。
可用方面,金融级可用,数据时刻可用,具有并行回放,同 DC 内 RTO<10s,单域最佳;Paxos 自治共识高可用架构,CM 故障自动切换,全域高可用。
智能方面,AI 辅助运维,具有智能索引推荐,慢 SQL 诊断等功能,提升运维效率;内核集成 20+ 原生 AI 算子,覆盖主流场景,做到会 SQL 就能用 AI。
以高性能、高可用、高智能、高安全内核为底座,openGauss 持续架构创新,打造数据基石,并打造了两大创新架构——资源池化架构 openGauss DataPod,全栈可观测、可跟踪、全加密 SQL 引擎插件化、开箱性能即最佳;插件化架构 openGauss DataKit,标准化插件接口,产业链共创,数据全生命周期管理,覆盖部署开发运维。
近 2 年来,openGauss 社区大力打造资源池化解决方案DataPod 。资源池化是采用存算分离架构的数据库解决方案,支持在多个计算节点上运行单个数据库。通过内存池化技术实现集群各节点数据实时一致,具体是由 DMS 模块实现,页面资源在集群各节点间协调共享,使计算节点不但可以从本地缓存的数据页面获取数据,还可以从其他计算节点的缓存中获取,从而降低了存储访问次数,提高了系统整体性能。
通过共享存储技术实现集群各节点共享一份数据,具体是由 DSS 模块实现。DSS使用卷组的概念将裸盘池化,一个卷组包含多个LUN,用户只看到卷组。卷组可以做数据库的表空间、日志目录等。同样也支持在卷组上创建目录和文件。
这种架构具有一定的优势,包括存算分离,内存和存储资源池化,计算资源和存储资源可以独立水平扩展;内存池化,各节点数据实时一致,支持强一致性业务;各节点共享数据,去除节点间日志复制开销,存储空间下降50%以上;支持大容量,支持大规模数据处理场景。
此外,DataPod 还支持算子下推,利用存储节点计算能力,加速复杂查询,这样可以大幅度消减存储层和计算层的网络 IO 流量,充分利用存储层 CPU 资源;支持多机并行查询,通过多机并行处理、节点间数据重分布,提升复杂查询性能,TPC-H&TPC-DS性能提升2倍;基于存储硬件复制能力实现集群容灾,适合金融核心生产业务多DC容灾场景。
另一个创新架构 DataKit 是 openGauss 数据全生命周期生产力工具,支持数据全生命管理,覆盖openGauss部署、数据开发、运维等阶段。DataKit 采用平台 + 插件的软件架构,平台提供基础的服务器、数据库实例等软硬件资源管理能力,插件基于被管理的资源扩展功能。平台与各个插件相互协作,形成高效的整体为 openGauss 服务。
DataKit 也是一个工具开发平台,支持用户根据插件接口和规范实现自己的特有功能,并且支持调用平台和其他插件的开放接口获取相应数据和功能,以实现快速构建特色功能。openGauss 社区提供安装部署、兼容性评估、数据迁移、数据开发、智能运维等功能插件,支持 MySQL 一站式迁移。
DataKit 中包含多个插件,可以满足不同需求。如兼容性评估插件,可以快速识别源库和应用程序中的不兼容 SQL,评估源库、运行中程序、MyBatis 配置文件中的 SQL 语句,避免人工反复排查。
DataKit-数据迁移插件可以一键式完成源库迁移到openGauss。同时还具备全程可观测、断点续传、任务可编排、多任务并发、高性能等特点。
DataKit-智能运维插件可以基于运维经验进行故障诊断,降低运维难度。如分析执行中的 SQL,采用 ebpf 等技术实时采集运行状态数据,分析问题根因,给出优化建议,可覆盖 67 条 SQL 调优经验,包括索引推荐、SQL 重写等。
