速途網(wǎng)5月17日消息(報道:李楠)今日,在OceanBase第三屆開發(fā)者大會上,OceanBase發(fā)布面向AI的應(yīng)用產(chǎn)品PowerRAG,該產(chǎn)品提供開箱即用的RAG應(yīng)用開發(fā)能力,是OceanBase面向AI時代的探索之一。作為AI戰(zhàn)略一號位、CTO楊傳輝表示,OceanBase正致力于構(gòu)建Data×AI能力,面向AI時代推動一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座的戰(zhàn)略演進。此前,CEO楊冰曾通過全員信宣布公司全面進入AI時代。

螞蟻集團CTO何征宇在大會現(xiàn)場表示,螞蟻集團將支持OceanBase在金融、醫(yī)療、生活等螞蟻AI的核心場景的突破,支持OceanBase去實踐DataxAI的理念和架構(gòu)創(chuàng)新。同時繼續(xù)支持OceanBase開源開放,把在Data×AI上的能力逐漸開放給行業(yè),為AGI的夢想添磚加瓦。
從一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座演進
AI時代帶來了新的數(shù)據(jù)難題,已成為行業(yè)共識。IDC報告指出,受生成式AI等技術(shù)驅(qū)動,預(yù)計2028年全球新生成數(shù)據(jù)量規(guī)模將達到393.9ZB,其中企業(yè)數(shù)據(jù)規(guī)模和增速尤為凸顯。于企業(yè)而言,數(shù)據(jù)倉庫的容量已實現(xiàn)質(zhì)的飛躍,結(jié)構(gòu)化數(shù)據(jù)存儲規(guī)?!巴黄芇B級邁向EB級”成為新常態(tài),這給數(shù)據(jù)存儲、管理與分析帶來嚴峻挑戰(zhàn)。
螞蟻集團CTO何征宇也在分享中指出,海量的互聯(lián)網(wǎng)數(shù)據(jù)成就了今天的大模型,但大模型幻覺問題的源頭也是數(shù)據(jù)問題。數(shù)據(jù)決定著大模型的能力上限,且依舊有四大挑戰(zhàn):一是數(shù)據(jù)的獲取成本顯著增加,二是嚴謹?shù)男袠I(yè)數(shù)據(jù)稀缺且流動困難,三是多模態(tài)數(shù)據(jù)需要更強的處理能力,四是數(shù)據(jù)的質(zhì)量評估難。
面對行業(yè)的真實需求,OceanBase正在大膽探索。楊傳輝認為,作為一個一體化分布式數(shù)據(jù)庫,OceanBase已經(jīng)具備了一定的AI時代數(shù)據(jù)處理能力,如分布式有效應(yīng)對海量數(shù)據(jù)的存儲計算、多模融合統(tǒng)一處理不同結(jié)構(gòu)數(shù)據(jù)、TP/AP一體化實現(xiàn)混合事務(wù)和實時分析處理。但大模型落地產(chǎn)生價值的核心在于數(shù)據(jù)與模型的一體化融合,這也是OceanBase提出的構(gòu)建Data×AI能力的關(guān)鍵。
基于這一能力,OceanBase致力于從一個一體化數(shù)據(jù)庫向一個一體化數(shù)據(jù)底座演進,通過一套引擎同時支持TP/AP/AI混合負載,支持向量數(shù)據(jù)庫,實現(xiàn)SQL與AI的混合檢索,這背后涉及OceanBase在Data與AI領(lǐng)域的工程與產(chǎn)品能力。
PowerRAG發(fā)布,提供開箱即用的RAG應(yīng)用開發(fā)能力

在楊傳輝描繪的一體化數(shù)據(jù)底座版圖中,OceanBase期望在未來實現(xiàn)從算力、基礎(chǔ)設(shè)施,到平臺層、應(yīng)用層、交付形態(tài)的全方位布局。
此次大會上,OceanBase首次發(fā)布面向AI的應(yīng)用產(chǎn)品PowerRAG,打造AI驅(qū)動的開箱即用的RAG服務(wù)。
楊傳輝介紹,傳統(tǒng)RAG應(yīng)用常用開發(fā)模式包括組件森林開發(fā)模式、RAG平臺模式等,但存在開發(fā)周期長、維護成本高、灰箱調(diào)試困難、性能難以優(yōu)化等問題。
OceanBase PowerRAG提供開箱即用的RAG應(yīng)用開發(fā)能力,打通應(yīng)用開發(fā)數(shù)據(jù)層、平臺層、接口層與應(yīng)用層的全流程,提供Document(文檔)和 Chat(對話)兩個核心API接口,幫助用戶實現(xiàn)文檔知識庫、智能對話、圖像比對、數(shù)據(jù)分析等多種AI應(yīng)用場景的快速開發(fā)。
“致力于成為AI時代的一體化數(shù)據(jù)底座,PowerRAG是OceanBase在應(yīng)用層面探索的第一步,未來還將在應(yīng)用層面、平臺層面不斷突破?!睏顐鬏x表示。
記者還了解到,過去十五年OceanBase誕生于雙11的海量交易場景并在螞蟻集團的金融場景中經(jīng)受磨礪打磨技術(shù),未來,螞蟻集團也將繼續(xù)向OceanBase開放核心AI場景,幫助OceanBase進一步攻堅AI關(guān)鍵能力,實現(xiàn)開放開源,為行業(yè)提供更多的AI創(chuàng)新服務(wù)。
向量性能已達開源向量數(shù)據(jù)庫業(yè)內(nèi)的領(lǐng)先水平

作為原生分布式數(shù)據(jù)庫,OceanBase原本就具有的企業(yè)級分布式數(shù)據(jù)庫能力為AI時代的海量數(shù)據(jù)處理分析打下基礎(chǔ)。在支持AI應(yīng)用落地的核心基礎(chǔ)設(shè)施——向量性能、混合檢索等層面,OceanBase也在持續(xù)探索,進一步加強SQL+AI能力。
大會現(xiàn)場,基于基準測試工具VectorDBBench,采用Performamce768D1M測試數(shù)據(jù)集,OceanBase與業(yè)內(nèi)三款領(lǐng)先的開源向量數(shù)據(jù)庫進行性能跑分測試。結(jié)果顯示,OceanBase的向量性能已經(jīng)達到開源向量數(shù)據(jù)庫業(yè)內(nèi)的領(lǐng)先水平。
面對AI時代的海量數(shù)據(jù),OceanBase還引入BQ量化算法(HNSW+BQ),大幅降低向量場景的內(nèi)存需求;引入針對JSON半結(jié)構(gòu)化數(shù)據(jù)的壓縮能力,降低AI場景中的半結(jié)構(gòu)化數(shù)據(jù)存儲成本。根據(jù)測試結(jié)果,在同等召回率與性能的情況下,引入BQ量化算法能夠?qū)崿F(xiàn)內(nèi)存成本較引入前降低 95%,而在TPC-H 10G數(shù)據(jù)集上,OceanBase的JSON壓縮比可達 MongoDB 的3倍。
此外,OceanBase已具備面向多種數(shù)據(jù)模型的混合檢索能力。在最新版本中,OceanBase混合檢索性能進一步增強,通過豐富的執(zhí)行策略、自研的向量算法庫、內(nèi)核級多?;旌喜樵兊葘崿F(xiàn)更快、更準、更易用的混合檢索。
目前,OceanBase已被客戶應(yīng)用于多個AI相關(guān)場景的開發(fā),如聯(lián)通軟研院基于OceanBase打造AI助手,in銀泰商業(yè)則基于OceanBase打造零售業(yè)智能問