2024年,數字經濟進入新階段,AI正走向前所未有的繁榮,數據作為關鍵生產要素的價值日益凸顯,“AI+企業數據”的應用席卷全球,正在重塑企業發展模式,成為企業未來發展的核心競爭力。
6月25日,數巔科技2024智領未來線上峰會暨新品發布會隆重召開,數巔科技發布了端到端的企業大模型解決方案以及生成式智能分析AskBI。數巔科技首席數據科學家張國賢對數巔企業大模型的核心功能做了深度分享,以下是他的演講實錄。
大語言模型在過去的一兩年迅猛發展,給市場上帶來了各種各樣的應用,相信大家一定都有所嘗試,比如大家耳熟能詳的ChatGPT,還有我們國內的Kimi等,不知道大家在使用中是否順滑?
然而,大語言模型在企業落地還面臨很多挑戰:
- 缺乏對不同業務場景個性化需求的適應能力。
- 難以融合企業內部復雜的數據或知識。
- 無法滿足特定業務的準確度需求,例如數據分析、財務報表等。
- 需要應對企業環境資源和政策法規等要求。
數巔科技將大語言模型和企業數據充分融合,讓其雙方相互促進。一方面,企業數據能夠充分運用到大語言模型的訓練和推理中;另一方面,大語言模型基于企業數據,能夠為企業提供更加精準的決策參考。這就是數巔企業大模型的設計思路。
數巔企業大模型的核心能力
數巔企業大模型的核心能力包括:
- 極強的工具調用能力:解決業務精準決策及場景通用性需求。
- 融合企業數據,極高準確率:充分融合企業數據,能夠根據業務理解進行任務拆解,實現超高準確率。
- 適合大模型的統一數據資產:國際領先的數據虛擬化引擎X-Engine能夠統一治理并靈活擴充數據資產,為大模型提供實時信息增量。
- 實用易落地:性價比高且體驗友好的企業級大模型能力讓實用落地成為可能。
![]()
數巔企業大模型
與市場上主流的大語言模型相比,數巔企業大模型有一個很大的不同,就是它擁有一個數據底座:數據虛擬化引擎X-Engine。X-Engine的關鍵能力之一是把企業內部和外部的結構化和非結構化數據充分融合起來,輸送到上面的數巔企業大模型里面去,來訓練數巔企業大模型,讓其充分運用企業數據。接下來我為大家詳細介紹數巔企業大模型的每一項核心能力。
數巔企業大模型Agent:極強的工具調用能力
我們可以根據客戶某個應用場景的需求,智能調用最合適的一系列工具。數巔企業大模型沉淀了非常多的工具,通過超強的工具調用能力,非常便捷地將Agent應用到各個場景中去。
- 封裝與集成:基于對業務的深刻理解,沉淀出足夠泛化的工具模版,通過自研封裝技術,將各種工具集成到一個統一的平臺中。不僅簡化了工具的使用過程,還提高了工具的可訪問性和易用性。
- 智能識別與選擇:基于對話數據與人工反饋數據,使用Tool Learning及企業內部知識微調大模型,著重打造超強的調用工具的能力。
- 自適應學習能力:數巔企業大模型Agent具備自適應學習能力,能夠根據用戶的行為和反饋不斷優化其工具選擇策略。
通過基于業務的任務拆解提升大模型準確度
之前提到,大語言模型在企業落地面臨一個非常大的挑戰,就是企業的很多需求對準確度要求非常高,市場上常見的通用大語言模型很難滿足這一點。數巔企業大模型主要通過以下兩點來應對:
- 通過對業務拆解,利用規范化模版實現數據資產的統一沉淀。
- 利用數萬沉淀行業樣本結合數據資產對模型進行微調和增強,實現精準提參。
舉個例子,當用戶提出一個問題:哪三個項目負責人的利潤最高?
這時,Agent首先要調用意圖識別模塊去識別用戶的意圖,分析出用戶是要做一個數據分析類的工作。然后Agent再去調用已經微調并增強的數巔企業大模型進行精確提參,可以提到問題相關的對應參數,包括我剛剛提到的dimension、metric、groupby、orderby、limit等。有了這些參數后,Agent就會去調用咱們的資產到SQL的這樣一個模塊,去實現我們的資產到SQL100%準確的轉換。最后,我們會調用可視化工具去查數,并把這個結果顯示出來。
首創基于數據虛擬化的檢索增強(RAG)技術,助力大模型持續學習和迭代
RAG在各種大模型,尤其是智能問答、外掛知識庫等應用上經常會被用到,數巔科技的RAG不同之處在于:
- 通過虛擬化引擎對結構化和非結構化數據進行召回融合。
- 設計針對全域數據的prompt模版,結合融合數據實現大模型準確推理。
- 數據虛擬化引擎X-Engine根據大模型輸出更新融合知識,持續迭代。
![]()
數據虛擬化引擎X-Engine重要的功能之一就是將企業內部和外部各種各樣的數據融合在一起。
企業內部有很多結構化的數據,比如歷史沉淀的一些表格、文檔;還有一些非結構化的數據,包括視頻、圖片、PPT、PDF文檔等。數巔企業大模型在訓練過程中本身也沉淀了一些prompt模板和樣例。數據虛擬化引擎X-Engine可以根據用戶的需求去自動融合企業內部的結構化數據和非結構化數據,并把這些增強的融合信息提供給數巔企業大模型;然后數巔企業大模型會根據我們的輸入產生結果。
如果有需要的話會再反饋給數據虛擬化引擎X-Engine,X-Engine會根據反饋的結果去進一步尋找用戶所需要的知識,把它融合并再次輸入到數巔企業大模型的input里面,實現這樣一個有效的迭代,直到數巔企業大模型能夠輸出一個準確的結果為止。
實用性企業級大模型能力
- 通過百億模型微調增強超過千億大模型準確率。大家都知道千億的大模型效果還是不錯的,但企業可能沒有足夠的資源去購買、去部署或者是在高并發的條件下去使用。數巔科技可以把百億級別的大模型通過微調和增強,讓它的準確度超過千億級的大模型,讓更多的企業能夠去使用這樣的大模型,并且滿足他們所需的精度要求。
- 全數據鏈路自動化、大模型微調及評估工具化讓大模型規模化落地成為可能。部署在toB企業中的大模型不是一成不變的,隨著企業在使用過程中數據的變化和使用方法的變化,它需要不斷迭代。為此,數巔科技構建了一整套自動化鏈路,當數巔企業大模型部署到企業中,我們會根據用戶的使用和反饋,不斷地通過我們的評估工具去評估它的效果,從而生成一些新樣本,去進行大模型的微調,以實現數巔企業大模型的自動演化。
- 無縫集成及高效處理企業級大批量數據。數據虛擬化引擎X-Engine可以融合企業內部和外部的一些數據,通過這樣的無縫銜接,也使讓用戶更加得心應手。
AskBI:基于自然語言交互的智能數據查詢及分析平臺
基于數巔企業大模型,我們構建了許多智能應用,其中之一就是AskBI,它是一個基于自然語言交互的智能數據查詢分析平臺,可以快速生成數據分析、圖文報表,數據分析準確率達95%以上。
想讓用戶使用某款數據分析平臺,就要確保其達到非常高的準確度,一般是90%以上;并且當結果出錯的時候,用戶能夠看得出來。數巔企業大模型通過我剛剛介紹的一系列的能力提升,準確度可以達到95%以上。它是如何實現的呢?
![]()
從上圖可以看到,AskBI的整個工作流程分為四部分:智能語言交互、業務指標體系、SQL準確生成以及數據報表和歸因洞察。通過這樣的拆分,Agent就可以通過一系列的工具來實現每一部分的超高精度的工作。
數巔企業大模型可以針對不同的場景進行訓練。
例如在金融場景,我們基于金融行業大量的數據樣本進行訓練。我們的模型是可以追溯的,用戶可以非常容易地了解到它為什么產生這樣一個結果。當用戶覺得產生的結果與預期不一致的時候,可以進行一些干預,從而得到一個更準確的結果。這種干預也會用于后續的對模型的提升中,讓模型越用越絲滑。
當我們通過這樣一個提參過程提出指標后,可以把指標100%準確地生成SQL。
與業界其他的指標平臺不同,我們的指標平臺是基于數據虛擬化技術的,我們在上面基于業務邏輯會構建很多指標等資產。因為這些指標和資產是基于業務邏輯的,所以可以非常容易適配到用戶的各個應用場景中,而無需再去定制化資產的各種邏輯,這就較容易實現AskBI的規模化應用。
當SQL生成后,我們需要滿足用戶具體的應用需求。
比如說有些用戶需要查數、看報表,有些需要看洞察。這就需要調用一些工具,包括數據報表的BI工具、洞察工具和歸因工具。數巔企業大模型經過多輪沉淀和錘煉,能夠非常靈活地幫助用戶去生成這些報表和洞察。
值得注意的一點是,當數據量非常大的時候,查數會非常非常慢。這就需要數據虛擬化引擎X-Engine的另外一個能力。X-Engine上層是一個虛擬化的資產,下面可能有一些虛擬的數據建模,例如虛擬表。我們會根據用戶具體的使用情況,比如之前使用的一些SQL,或者以前調用工具庫做的一些事情,去自動進行物化加速。在這種情況下,我們可以用非常少的資源,讓數巔企業大模型迅速在非常大的范圍去進行數據分析,實現非常高的效能。
AskBI助力某股份制銀行數字化轉型
為大家分享一個案例:數巔科技通過AskBI幫助一家股份制銀行實現了數字化轉型和降本增效。
![]()
如上圖,上面這一行是一個傳統的數據分析流程。當運營有一個數據需求,首先他需要自己梳理需求,之后與數據產品對接需求,之后還可能引入比如數據工程或者數據分析的員工去幫助他產生數、分析數,最后再把它交付出來。這個流程往往會以周計算,至少是一周以上。如果反饋的結果跟運營提出的需求不一致,或者運營又提出了一些新的想法,那又要重復這個流程。
這整個過程是非常低效、冗長的,不幸的是當前很多企業,包括我以前任職的一些企業,普遍還在采用這個方法。
現在AskBI可以讓這個難題迎刃而解。用戶可以直接通過自然語言與AskBI進行交互來提出需求,然后Agent會理解他的需求,進行任務的規劃,調用工具庫的一些工具去完成數據分析工作。當運營拿到反饋后,他可以根據自己的一些發現去進一步追問,這樣往復,分鐘級別就可以解決這個問題。AskBI讓整個流程變得非常流暢、高效。
通過使用AskBI,這家股份制銀行的收益是:
- 增效:提升數據分析質量及效率,統一3萬余個指標口徑。滿足數據需求所耗時間從1至2周縮短至1分鐘,自動化分析準確率達95%。
- 增收:人效提升95%,每年節省3000萬人力成本。業務自助分析提升營銷迭代效率,每年助力業務增收數億。