您的位置: 财富时代网主页 > 资讯 > 正文 >

2022年分布式数据库发展趋势报告

发布时间:2022-12-01 11:39:09   来源:互联网   阅读:-

7月底,国家工业信息安全发展研究中心发布的2022版《分布式数据库发展趋势研究报告》后,我仔细阅读,从报告中了解到了很多关于国产分布式数据库开发的前沿信息。虽然国外有很多关于数据库行业发展的分析报告,但是他们的分析内容大多与我国的数据库行业相差甚远,我国的行业确实需要有自己的国家数据库行业研究报告。

该报告对国产分布式数据库的发展前景极为乐观。的确,从近年来国内外分布式数据库市场的趋势来看,其增长也相当迅速。对此,我也有同感。分布式数据库的未来有着非常广阔的前景。特别是在一些特殊业务场景的支持上,分布式数据库比传统的集中式数据库更有优势。

虽然国内外业界都一致认为分布式数据库必将迎来爆发式增长,但真正能让国产分布式数据库在未来的数据库竞争中获得优势的,还是分布式数据库在产品中满足用户应用场景需求的特性。分布式数据库只有满足用户的应用场景需求,在竞争中表现出真正的优势,才能在未来的数据库竞争中真正获得优势。今天我就根据分布式数据库发展趋势报告中的一些信息,以及我所了解的用户需求,来分析一下国产分布式数据库如何赢得这场竞争。

多年来,数据库行业一直在讨论的一个话题就是选择分布式数据库还是集中式数据库。这种讨论其实已经超出了企业应该选择什么样的数据库产品的话题。受互联网企业在数据库应用上的成功影响,大多数企业都对分布式数据库感兴趣。目前,在不同的企业和IT从业者中,分布式数据库及其在企业中的使用存在两个极端。有人认为企业数据库的应用必须使用分布式数据库,也有人认为分布式数据库无法在自己的企业中大规模应用。其实出现这两种极端认知是很正常的,因为不同的企业有不同的应用场景,所以会对分布式数据库有两种完全不同的看法。

探讨国产分布式数据库,首先要回答一个问题,就是分布式数据库在企业中解决了什么问题?或者说企业想用分布式数据库解决什么问题?其实并不是说客户天生就是用分布式数据库的,而是用户选择分布式数据库必须具备一些集中式数据库无法替代的能力,否则客户的选择就有问题。

我和很多金融企业的IT人员聊过他们选择数据库的依据。安全性、可靠性和高可用性是决定其数据库产品选择的最重要因素。即使这个数据库对SQL语句有一些限制,有一些性能问题,这些都不是大问题,都可以通过应用优化来解决。一旦安全性和可靠性得不到保证,金融系统最根本的安全就会受到极大的影响。国产分布式数据库的数据多副本存储和自动故障转移都是金融企业关心的问题。目前分布式数据库的三种主要形式都在这方面做了很大的努力。

形式1:分布式中间件+单机数据库通过数据库本身的主从复制实现数据的高可用性。国内这种形式的数据库有GoldenDBHotDBTDSQLStarDB等。openGaussShardingSphere组件集成后,也可以近似等价于这类分布式数据库;形式二:非对称计算节点+分布式存储本身实现了底层分布式存储上数据的多份拷贝,而只读备份数据库可以随时快速升级到主数据库,替换失效的主数据库,从而保证数据的可靠性。这种形式非常类似于集中式数据库。在国内数据库中,阿里PolarDB、腾讯TDSQL-C/TDSTOREdeng都采用这种形式;形式三:原生分布式数据库自然设计为数据的多份拷贝,通过分布式选举协议自动选择主机,实现透明故障转移。OceanBaseTiDBHubbleDb等国内数据库都采用这种形式。

从这三个方面来看,分布式中间件架构和非对称计算节点架构的故障转移时间会因为要复制的wal数量而变得不那么固定。如果当大量更新发生时发生切换,则可能出现长的切换延迟。相对而言,原生分布式数据库在控制复制方面更有优势。对于金融用户的高可用性需求来说,实现主副本在30秒内的保证切换,甚至进一步降低到10秒以内,是非常关键的。

事实上,金融用户所要求的高可用性也是许多其他行业用户选择分布式数据库的一个主要原因。此外,大多数选择分布式数据库的客户都被HTAP的能力所吸引。实际上,HTAP是否是伪需求的问题不需要讨论。无论是互联网企业还是传统企业,都涌现出大量的HTAP应用场景。而如何在一个数据库中实现AP/TP两种完全不同的工作负载,分布式数据库有着天然的优势。使用读取副本进行查询和分析,使用租户和资源管理器隔离用户之间的工作负载,使用行列混合存储或行列存储双副本,可以为各种HTAP场景提供强大的支持。

前几天,我和一个客户讨论数据库XC,他提出了一个要求。他们认为数据库新创对业务的风险相当大。能不能让一些数据库运行在X86节点上,一些运行在新创节点上?根据使用情况,逐步将X86节点离线,无缝切换到纯新创环境。事实上,这些需求也为我们的分布式数据库厂商提供了一些产品设计的思路。在这种特殊的历史环境下,具备这种能力的数据库必将获得大量的市场。

针对国产分布式数据库面临的挑战,报告提出了五点。先看前三点。一个是数据库迁移的兼容性。其实新创迁移会面临兼容性问题,因为过去我们的应用要么运行在ORACLESQLSERVERDB2等商业数据库上。,或者在开源的MySQLPostgreSQL等上。如果不考虑SQL语法的兼容性,那就是耍流氓,系统迁移的高成本也会制约数据库XC的迁移。另外,与集中式数据库不同,分布式数据库本身对SQL有一些天然的约束。一些分布式数据库受限表必须有分片键,或者对全局索引有一些限制。此外,事务隔离级别、每个事务的最大记录数、多表连接数以及SQL的复杂性都有一定的约束。一些分布式数据库不支持存储过程,或者存储过程的语法与商业数据库的功能之间存在很大差距。所有这些问题都会阻碍XC人的迁移。

安全实际上是一个更大的问题。目前大多数分布式数据库产品都使用大量开源代码,因此代码的安全性甚至代码的知识产权合规性都存在很大风险。而这些问题对于普通用户来说是极难把握的,需要我们管理部门出台切实可行的规范和审核评估办法,避免没有专业能力的用户去判断一些合规和法律问题。

实际上,这三个挑战并不能覆盖用户和用户应用场景对分布式数据库产品的需求。分布式数据库产品的文档完善性、可用性、可观察性、运维成本、售后服务水平都是客户非常关心的问题,这些也是目前大多数国产分布式数据库的问题。

另一个限制分布式数据库进入寻常百姓家的因素是成本。目前很多分布式数据库产品的最小部署单元还是太大,只能让一部分富客户成为玩家。分布式数据库的小型化一直是客户的期望,但目前我们很多分布式数据库厂商还是看不到客户的这种需求。目前,在诞生300多种国产数据库的时代,国产数据库在市场上滚动发展是必然趋势。只盯着一些大富豪客户恐怕不行。前阵子OceanBase 4.0发布的时候,推出了单机分布式数据库,让人眼前一亮。分布式数据库可大可小,大的可以支持大规模的互联网业务,小的可以在云平台的两台ECS虚拟机上构建主从式高可用集群。如果未来业务发展,可以顺利升级到真正的分布式环境。让很多中小企业也买得起。

还有一种分布式数据库,自然容易小型化,那就是计算节点不对称的分布式数据库。这种以日志就是数据库为概念的分布式数据库产品最早的例子是亚马逊的Aurora。今年4月,谷歌也推出了类似架构的AlloyDB。国内数据库方面,阿里的PolarDB-O/PolarDB-PG,腾讯的TDSQL-C/TDSTORE都采用了这种架构。虽然这些数据库在高可扩展性方面存在一些不足,但由于其小型化和易用性,在当前的一些用户场景中取得了良好的应用效果。

报告中还对分布式数据库的应用场景和生态提出了一些挑战。指出客服实验室场景与实际应用场景的性能差异非常尖锐。这也是我们用户在具体应用实践中遇到的问题。一些分布式数据库产品在实验室往往有漂亮的测试数据,但在应用实践中效果并不理想。这也是由实际应用场景的复杂程度决定的。大多数用户希望数据库能够帮助他们解决应用中的问题,而不是增加应用的投入来解决数据库的缺陷。这就需要分布式数据库厂商提供大量的技术手段,让用户可以面对各种应用厂商。通过HINTOUTLINES等技术手段优化执行计划,通过多模态引擎使各种非结构化数据的访问变得更加容易,引入DB4AI/AI4DB等技术,将大大扩展数据库的应用场景支持,使数据库更加易用。

最后,开源生态很重要。开源生态可以弥补目前国内数据库存在的R&D能力和服务支持能力不足的问题,也可以缓解用户转向开源数据库的成本压力。所以我很赞同开源是基础软件的必由之路的说法。

无论如何,国产分布式数据库要想在未来的国产数据库发展中占据主导地位,就必须下大力气更好地解决用户应用场景的痛点,更易用、成本更低、可观察性更好、售后服务支撑体系更强。我觉得在目前国产分布式数据库的长名单中,最后能成功的可能只是一个短名单。


推荐阅读:叶紫网

(正文已结束)

免责声明及提醒:此文内容为本网所转载企业宣传资讯,该相关信息仅为宣传及传递更多信息之目的,不代表本网站观点,文章真实性请浏览者慎重核实!任何投资加盟均有风险,提醒广大民众投资需谨慎!

关于我们 - 联系我们 - XML地图 - 网站地图TXT - 版权声明
Copyright.2002-2022  财富时代网 版权所有 本网拒绝一切非法行为 欢迎监督举报 如有错误信息 欢迎纠正