在刚刚结束的第十二届数据技术嘉年华上,CCF数据库专委会副主任、openGauss社区技术委员会主席、清华大学计算机系副主任李国良发表了《openGauss:聚焦数据库内核创新,共建开源数据库根社区》的主旨演讲。李国良提到,尽管经过50多年的发展,数据库发生了翻天覆地的变化,但数据库向下充分利用硬件资源发挥算力优势,向上支撑各种不同应用繁荣创新却是持续不变的。
CCF数据库专委会副主任,openGauss社区技术委员会主席,清华大学计算机系副主任、长聘教授 李国良
“从原来的单一模态到多模态发展、从原来基于人的信任机制到通过技术保证数据的安全性、从原来的集中式数据库到分布式数据库,数据库产业正随着技术的不断演进呈现多元融合的发展态势。”李国良如此说道。
然而,技术的创新应用不仅带来了数据库的繁荣发展,也使得我们不得不面临来自大容量高性能、高可用、智能优化、安全等方面的挑战。对此,李国良提到,一直以来,openGauss围绕核心技术的创新和探索、建立国产数据库的根社区、以引领性和创造性推动数据库产业发展三大使命持续创新和突破数据库领域核心技术。
围绕“四高”构筑企业级开源数据库竞争力
李国良表示,自2020年6月开源以来,openGauss一直围绕高性能、高可用、高智能、高安全突破创新数据库核心技术,构筑数据库内核创新竞争力,并向开源社区持续贡献核心技术,致力于打造企业级开源数据库。
例如,在高性能方面,从原位更新(in-place update 引擎)到全局的缓存管理、从计划管理到并行查询优化和并行度自适应等技术持续提升数据库性能;在高可用方面,通过资源池化共享存储、分布式共享内存,进一步提高资源利用率;在高智能方面,基于DBMind自治平台的多指标关联性分析,实现运维效率倍数提升;在高安全方面,通过软硬件协作处理,实现数据可用不可见等。
前不久,openGauss 5.0版本已经正式上线。该版本与之前的版本功能特性保持兼容,在内核能力、工具链、兼容性方面得到了全面增强。不仅如此,聚焦“四高”,openGauss 5.0版本也实现了全面优化和进阶。
在高性能方面,智能基数估计能够提升统计信息准确率;分层自适应并行查询技术能够结合数据库资源情况、实际执行环境可用资源负载情况,最大化当前SQL可用并行度。同时,还可以利用分层估算模型,合理利用资源,实现多层级并行度自适应调整;在线SQL Patch技术无需修改业务语句,通过调用数据库提供的接口,便可以对指定的查询语句模板进行hint调优,将复杂的SQL计划调优时间从数天降低到秒级,实现应用无需变更调整。
在高可用方面,基于Paxos的多层级高可用架构,支持Logger节点,降低部署成本;资源池化架构实现存储利用率倍增,多节点实时一致性数据读取;并行逻辑解码深度优化,使得多活场景下复制效率倍数提升。
在高智能方面,基于库内原生AI引擎的分层式混合洗牌算法通过添加算子的方式,在存取块和内存元组两个维度对I/O数据进行并行洗牌,在避免了完全数据洗牌的同时保证了机器学习算法的收敛速度,大大提升了效率。
在高安全方面,基于注意力机制的异常行为检测技术,能够精准捕捉攻击行为;基于标签的访问控制,保证机密数据管控安全,防护等级更高。
openGauss开源创新永不停歇
openGauss自开源以来,已经在技术、生态、商业和社区治理方面获得了快速发展。截至目前,已有230多家企业和机构加入社区,4500多名开发者参与社区贡献,下载量突破160万次,并且面向金融、政府、电信、能源、制造、交通等行业提供了500多个行业解决方案。
以某大型商业银行的数字银行变革实践为例,该银行从2019年底立项开始新一代分布式个人核心系统建设,并在2020年选型openGauss作为核心数据管理系统,经过3年的开发与建设,在2022年实现了原核心业务和用户全量平滑迁移到基于openGauss个人核心系统的目标,使得结息总时长降低82%,国际汇款交易时间缩短50%,有效支撑了6.5亿用户、18亿帐户、4万个网点的实时业务交易。
在李国良看来,这是全球首家大型商业银行基于通用硬件和开源数据库开发的个人核心交易系统。同时,也是新技术带来的新价值、新服务和新增长点。“通过持续的行业实践,希望不同行业的客户能够借助openGauss提升业务运行效率,并通过数据库内核安全可信的能力,保障业务持续稳定、安全可靠地运行。不仅如此,openGauss还希望通过积极推进产学研用,打造数据库根社区,与合作伙伴一起共同服务行业客户。”李国良如是说。
事实上,开源开放、协同创新是openGauss社区生态日渐繁荣的秘诀。而基于共建、共享、共治的理念,openGauss开源社区在社区孵化、治理等方面也在逐步升级与完善。与此同时, openGauss开源社区还通过联合企业、高校、独立开发者等多方力量,构建了开源数据库根社区,筑就了社区技术核心竞争力,将中国开源数据库推上了新的高度。
在笔者看来,作为IT系统的核心,数据库需要长期的战略投入、软硬件的技术积累、经得住考验的产品、完善的技术支持以及成熟开放的生态。这些是数据库厂商能否持续为客户提供更好的产品和服务的关键所在,也是数据库产业发展非常重要的一环。