作者 | 金旺
来源 | 科技行者
IDC预测数据显示,2024年全球人工智能产业规模将达到6233亿美元,同比增幅高达21.5%。
中国信通院在相关分析报告中也指出,人工智能产业之所以能保持高速增长,除了大模型的涌现,另一个重要原因是生成式AI正在加速产业化。
要想推动以生成式AI为代表的人工智能技术在产业中快速落地应用,事关AI计算、存储等的基础设施技术升级就成了其中关键。
1月16日,OceanBase公共云产品总监陈小伟在OB Cloud见面会上透露,面向AP实时分析场景的首个LTS(长期支持)版本OceanBase 4.3.5 LTS版本即将上线OB Cloud。
这将成为OceanBase接下来支撑企业AI应用落地的一次重要产品更新。
01 构建现代数据架构,OB Cloud迎来AP更新
据中国信通院在《中国数字经济发展研究报告(2024年)》中公布数据显示,2023年我国数字经济规模达53.9万亿元,较上年增长3.7万亿元,占GDP比重达42.8%。
在数字经济规模持续增长背后,是数字化已成大势所趋,越来越多企业加入到了数字化转型浪潮中。
不过,在企业数字化转型过程中,尤其是中国数以千万计的中小企业,虽然得益于互联网技术红利,但也备受这些复杂技术维护和硬件成本投入的困扰。
于是,云服务就成了一个不错的选择。
OceanBase是在2022年推出的云数据库产品OB Cloud,并启动了云数据库战略。
彼时的OceanBase更多是为了屏蔽和简化互联网技术的复杂度,让企业在受益于互联网技术的同时,简化技术栈并降低维护成本。
在经过这两年持续技术更新后,OB Cloud在传统数据库云上迁移、高并发场景支持、TP&AP融合方面有了很好的表现,不仅服务了理想、上汽大众、vivo等超700家企业,也成为了OceanBase的第二增长曲线。
例如全球零售巨头宝洁正是在完成了多种数据库向1个OceanBase集群迁移后,ELT最高提速了324%,得益于技术栈整合和存储压缩技术,实现了40%的降本。
作为中国跨境物流领域头部企业,纵腾物流此前由于原有自建数据库对大规模数据处理和复杂查询的支持有限,数据准确性和及时性不足,严重影响了物流过程的顺利运行。
在将自建数据库切换到OB Cloud后,纵腾物流数据库整体拥有成本降低了56%,集团业务系统各项性能也得到了一定的提升。
时至今日,云数据库已然成为行业发展的一个主流趋势,据Flexera发布的《云状态报告 2023》数据显示,环境更复杂、决策较缓慢的大型企业已有50%的工作负载和数据在公有云上,中小企业比例更大,有超过三分之二的工作负载和63%的数据位于公有云中。
作为国内头部数据库厂商,OceanBase的OB Cloud客户数量在2024年更是实现了130%的增长。
也就在云服务成为大势所趋时,随着生成式AI成为各类应用构建的核心功能,在企业数字化转型过程中,人工智能技术开始加速在企业中得到应用。
来自Gartner的预测数据显示,到2026年,超过80%的企业将会使用生成式AI的API或部署生成式AI应用程序。
这时,企业对于数据库的实时分析能力提出了更高的需求。
1月16日,OceanBase公共云产品总监陈小伟在OB Cloud见面会上官宣,面向AP实时分析场景的首个LTS版本OceanBase 4.3.5 LTS即将上线OB Cloud。
相较于2024年10月OceanBase年度发布会上发布的4.3.3 GA版本,OceanBase4.3.5 LTS版本在性能、功能、兼容性和易用性上得到了全面的提升。
在功能层面,4.3.5 LTS版本引入了对嵌套物化视图的支持,并对全文索引和向量索引功能进行了完善。
这使得OceanBase数据库在应对多模数据分析时更加灵活高效,与此同时,数据导入导出的能力也得到了显著增强。
在向量索引方面,4.3.5 LTS版本在4.3.3版本基础上增强了向量索引功能,支持的最大向量维度从2000维提升到了4096维,进一步扩大了OceanBase的适用范围。
与此同时,4.3.5 LTS版本新增了对cosine距离算法的支持,用户可以在创建向量索引时指定此算法,并在查询时通过cosine_distance表达式进行过滤条件设置。
这让OceanBase得以高效处理基于向量的多模数据查询,为复杂的AI应用场景提供了更强的能力支持。
此外,4.3.5 LTS版本不仅对MySQL和Oracle场景的支持更加全面,还在表级恢复性能、旁路导入性能、DML性能和DDL性能方面都进行了不同程度的优化。
值得注意的是,作为首个面向AP实时分析场景的LTS版本,在OceanBase 4.3.5 LTS版本发布之前,面向AP实时分析场景的OceanBase数据库产品已经经历了从4.3.1 Beta版本到4.3.3 GA版本多次迭代,有上百家企业客户验证了OceanBase的AP能力,在OceanBase 4.3.3 GA版本中运行的实例也已经超过100个。
正因如此,OB Cloud得以在OceanBase 4.3.5 LTS版本中构建起面向现代企业数字化、智能化转型的数据架构,更好地应对实时数据分析、混合负载管理、多模数据处理等需求。
而这样的现代数据架构另一项重要能力,是支持企业业务的跨云部署。
02 跨云双活,消弭云上屏障
OceanBase首席科学家阳振坤曾指出,“今天全球有很多云平台,这些云平台提供了很好的数据库服务,但是他们都存在一个局限性,那就是每个云平台提供的数据库本质上只能在该云平台上使用。”
无论是基于故障、容灾方面的考虑,还是基于企业出海和全球化对于更多云的可选择性方面的考虑,企业业务往往需要在多个云上进行部署。
然而,即便是同样基于MySQL的数据库,不同云上的MySQL数据库往往有着诸多不同,因而,企业业务的跨云部署就成了一大难题。
作为云中立的数据库供应商,OceanBase早在2022年OB Cloud发布之初,就开始支持多云部署。
OB Cloud的跨云高可用方案为了解决单元基础设施不稳定问题,按业务需求不同,又分为跨云冷备和跨云热备两种模式:
跨云冷备是基于OB Cloud兼容不同云服务的对象存储系统的能力,通过数据备份+实时日志备份,提供快速的集群恢复服务;
跨云热备是OB Cloud直接通过OMS(数据迁移服务)打通不同云产品,在企业某项业务使用的云服务出现异常时,直接切换入口至备用云产品。
此外,OB Cloud的云内高可用方案,也为企业业务在节点、机房、地域多级之间提供了高可用保障:
在节点级高可用方案中,OB Cloud通过三副本Paxos保证企业业务不在相同机器,以避免机器级故障;
在机房级高可用方案中,OB Cloud是通过单地域三机房和单地域双机房+异地仲裁节点保证机房级高可用;
在地域级高可用方案中,OB Cloud则是通过数据备份+日志实时备份快速做集群恢复,实现异地冷备。
正是基于这样的云内高可用和跨云高可用方案,OB Cloud如今已经在美洲、欧洲、亚洲30多个地理区域的100多个可用区,支持阿里云、亚马逊云科技、谷歌云、华为云、腾讯云五大主流公有云基础设施,提供一致的云数据库服务。
例如映宇宙(原映客)一直与阿里云、腾讯云、亚马逊云科技等多个云厂商有着密切合作,这一方面是因为映宇宙不同业务对云产品的需求不同,另一方面也是因为多云部署有着更强的灵活性,也有更强的议价能力。
不过,由于各大云厂商数据库产品之间有着技术与合规壁垒的存在,能够进行多云部署,也就成了映宇宙选择OB Cloud的一个主要原因。
正是在选用OB Cluod后,映宇宙实现了多云下的统一技术栈,简化了运维流程,实现了超30%的降本。
映宇宙的多云部署更多是基于业务发展需求的考虑,此外,随着近年来云故障事件频发,多云部署方案的热度还在继续升温,越来越多企业基于对云上安全和容灾的考虑,开始基于多云方案部署核心业务系统。
也是在这时,在OceanBase 4.3.5 LST版本上新的同时,OB Cloud推出了跨云双活的主备库新特性,以满足企业跨云容灾的业务诉求。
以企业部署在阿里云上的实例为例,OB Cloud可以为该实例在AWS上创建备实例,以实现从阿里云到AWS之间的主备容灾诉求。
在这个过程中,通过基于日志备份的物理备库,将日志归档写入到主库所在同地域的对象存储中,备库通过公网来获取主库的备份归档日志,相较于以往的专线方案,这一方案无需额外打通成本,也无需管理复杂的VPC网络连接,降低了使用成本和技术架构的复杂性。
与此同时,通过在不同站点保留完整的数据副本,OB Cloud跨云双活架构大幅提升了系统的可靠性和抗风险能力,即使某一云产品出现不可用的极端情况,也能快速切换至其他云基础设施,确保服务不中断。
这让OceanBase成了国内首个实现跨云容灾的云数据库服务商。
03 人工智能时代,需要怎样的数据库?
2012-2023年这11年间,我国数字经济规模由2012年的11.2万亿元增长至2023年的53.9万亿元,数字经济规模扩张了3.8倍,数字经济占GDP比重高到42.8%。
在潜移默化中,数字经济已经成为全球经济增长的重要引擎。
与此同时,在生成式AI新模式的带动下,人工智能技术正在成为驱动全球经济发展的另一个重要变量。
人工智能技术的阶跃式发展背后带来的是数据量的暴增,据中国信通院研究报告显示,在2020年6月1750亿规模参数的GPT-3大模型发布后,大模型的知识密度在持续增强,平均每8个月翻一番。
尤其是在多模态大模型成为行业发展的主流趋势后,非结构化数据爆发式增长,对数据库提出了多模态需求。
陈小伟指出,人工智能时代非结构化数据的爆发式增长带来了三方面挑战:
第一,数据体量大,企业级的非结构化数据通常以PB、EB量级存在,存储和使用这些数据需要大量的存储和计算资源;
第二,数据格式多,包括文本、图片、音视频、日志等格式;
第三,数据理解困难,由于非结构化数据的多样性和复杂性,使得快速、准确地查询信息变得非常困难。
这时,OceanBase打造的多模一体化技术架构的优势就凸显了出来。
例如,OceanBase与支付宝“百宝箱”团队合作,基于LBS搭建了一个可以实现周边服务问答的智能体。
现在在支付宝的百宝箱中,你只需要对着它说出诸如“请推荐距离3000米内,评分4.5分以上,人均消费200元以内的潮汕牛肉火锅店”,它就可以自动将符合条件的火锅店推送给你。
在这个过程中,虽然仅仅是一次简单的问答交互,对于数据库而言,背后却涉及到了空间搜索和计算、标量过滤、向量检索在内一整套复杂流程和计算过程。
如果基于传统数据库方案,开发一个这样的AI应用需要使用多个数据库产品,由于不同数据库查询关注的维度有所不同,往往又需要基于不同数据库召回大量数据并在内存中对多路召回数据进行重新排序,这不仅会消耗大量内存和算力,还需要较长的开发周期。
由于OceanBase多模一体化数据库原生支持各类数据类型和索引,这类AI应用的数据库架构从多库简化到了一个库,支付宝“百宝箱”团队仅仅用了一个星期的时间就完成了这一应用从0到1的开发。
OceanBase CEO杨冰在2024年OceanBase年度发布会上曾指出,“在未来数智化时代,数据库技术由分走向合已经是一个必然趋势。”
在经过这十几年的技术研发、产品迭代,以及2000多家商业客户实际应用场景中的打磨,如今的OceanBase已经形成了面向数字化、智能化时代的数据架构,OB Cloud也完成了向一体化多模分布式数据库、一体化多云、一体化云平台、一体化数据库生态的进化。
而基于“一体化”数据架构的OB Cloud,不仅支撑了零售头部企业和中国超60%的千亿规模消费电子企业的数字化转型,在接下来人工智能大潮下,也将成为支撑更多企业数智化转型的一体化云数据库。
好文章,需要你的鼓励
2024 年12月26日,一加 Ace 5系列如期而至,为了给该旗舰机的游戏属性叠满buff,一加请来传奇电竞选手——Uzi(简自豪)助阵。
在AI时代,网络攻击已经发生了质的变化。Palo Alto Networks(派拓网络)大中华区总裁陈文俊直言,黑客们只需要使用生成式AI,就能快速制造出大量的攻击程序。更令人担忧的是,这些工具正在变得越来越容易获取——现在网上已经出现了免费的AI工具,任何人只要简单下载,就能生成攻击程序。