久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

悅數(shù)Graph RAG,早于微軟站上起跑線

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  



向量數(shù)據(jù)庫近年水花激蕩。

高效檢索高維向量數(shù)據(jù),對大模型訓練和推理至關重要。2023 年大模型狂奔以來,向量檢索——RAG(檢索增強生成)技術中的一個重要組成部分——也成為數(shù)據(jù)庫技術的核心焦點。

但隨著 RAG 的廣泛應用,其局限性也逐漸顯露:它只能對知識本身做向量化,難以理解獨立信息之間的鏈接,無法結合關系和語境,處理需要更深層次語義關系和上下文細微差別時的復雜查詢就顯無力。

如何解決這一困境?杭州悅數(shù)科技有限公司(下稱悅數(shù)) CTO 葉小萌帶領團隊,在 2023 年與 LlamaIndex 聯(lián)合提出 Graph RAG 設想,并快速分享這個概念的初步驗證。

圖數(shù)據(jù)庫的優(yōu)勢在于處理關聯(lián)關系,Graph RAG 通過知識圖譜,能更精確全面檢索相關信息,使模型能關聯(lián)上下文給出答復。這個概念起初在國內水花平平,但悅數(shù)組建團隊持續(xù)推動落地,去年 11 月推出悅數(shù) RAG 產(chǎn)品,實現(xiàn)了基于圖的檢索增強生成,幫助企業(yè)應對知識孤島問題。

微軟也于去年 7 月 2 日開源了 Graph RAG 研究項目,讓這一概念真正被大眾廣泛關注。但究其概念提出時間,悅數(shù)早于微軟。把圖庫與向量結合的這個團隊,起初只有一個人。開發(fā) Graph RAG 的難度幾何?致力于打造信創(chuàng)領域圖數(shù)據(jù)庫的悅數(shù),又需要多做些什么?葉小萌向雷峰網(wǎng)分享這些年的心路歷程。

悅數(shù)Graph RAG,早于微軟站上起跑線 悅數(shù) CTO 葉小萌

Graph RAG的先行者 一個人也是一支隊伍

談及悅數(shù)跟行業(yè)的差異化策略,葉小萌直言:技術。

大模型的出現(xiàn)在 2023 上半年帶火 RAG。葉小萌介紹道,要讓通過公域數(shù)據(jù)訓練的大模型了解私域數(shù)據(jù),就要先把私域數(shù)據(jù)保存下來,這是 RAG 技術的起點。而要快速在私域數(shù)據(jù)里找到關聯(lián)內容,就需要將圖片文字等知識內容向量化進行比較。

但在向量浪潮下,團隊看到其缺陷:向量數(shù)據(jù)庫只能對知識本身做向量化,難以呈現(xiàn)知識間的關聯(lián),也因此,擅長處理關聯(lián)關系的圖數(shù)據(jù)庫,在此大有可為。

在悅數(shù)團隊于 2023 年 8 月首次提出 Graph RAG 概念時,人們對這兩者的結合還難以想象。但悅數(shù)并未退卻,11 月組建團隊開始打造這款 RAG 產(chǎn)品。一年后推出了悅數(shù) RAG,目前已進入 PMF,預計今年能進行推廣。

對于團隊規(guī)模七八十人的創(chuàng)業(yè)公司而言,在原有產(chǎn)品上分出一條新的線并不容易。除了內核的圖庫外,做上層 RAG 的團隊,起初只有古思為一個人。

2023 年,市面上有的 RAG 三種結合方式在古思為看來“都不是很令人興奮”。學習 RAG 范式時,深耕圖庫多年的他敏銳捕捉到, RAG 利用無狀態(tài)大模型做上下文理解和推理時無法繞過知識圖譜,因為真實世界中知識組織結構都是網(wǎng)狀的。當時 RAG 的明顯缺陷能靠圖做 index 來補充,“Graph RAG 足夠復雜、足夠有想象力,值得投入”,悅數(shù)于是開始了 RAG 的研究。

古思為向雷峰網(wǎng) (公眾號:雷峰網(wǎng)) 回顧說,Graph RAG 就像一個小帳篷,里面能放很多東西,由此帶來的挑戰(zhàn)就是做抉擇。例如,圖的形式是選擇現(xiàn)有的知識圖譜進行事實檢測和推理,還是從不同類型知識中二次處理增強變成圖狀數(shù)據(jù),還是僅用圖狀結構生成總結?沒有足夠參考的情況下,每個決定都需反復斟酌。最終悅數(shù)取舍簡化后呈現(xiàn)的初步驗證反響不錯;而當時定下來的實現(xiàn)方式,現(xiàn)在依然是 Graph RAG 的默認常用方法。

后續(xù)概念的落地比想象中復雜。2024 年上半年,悅數(shù)開始提供抽象工具給用戶,但技術門檻令當時許多客戶難以自己搭建 pipeline。如何讓用戶即便對圖庫無感知也能有很好使用效果?兩三個月里跟四五十個客戶聊過后,團隊開始迭代一定程度開箱即用的方案,以消除用戶使用產(chǎn)品的心智負擔。

回顧起初的探索,對新技術狂熱的古思為笑說,自己當時已充分利用生成式 AI 參與工作,如在 2023 年 9 月就成了 cursor 的付費用戶,這讓他的效率翻二十倍,雖然是一個人做研發(fā),但又不完全是“一個人”。如今團隊中不同角色逐漸完備,很多工作都是通過 v0.dev 完成,“這在一兩年前不敢想象”。

如今,悅數(shù) RAG 已經(jīng)可以無縫銜接 deepseek,團隊也在基于蒸餾技術、圖上推理等功能進行 RAG 迭代,“做更多令人興奮、更有回報的事情”。

悅數(shù)Graph RAG,早于微軟站上起跑線 古思為和客戶講解產(chǎn)品

悅數(shù)走在前沿,不止在 RAG 的探索。2024 年 4 月,國際標準化組織(ISO)發(fā)布了國際標準圖查詢語言 GQL,是 ISO 在四十多年里制定的第二個數(shù)據(jù)庫查詢語言國際標準。這個標準制定開始于 2019 年,在其發(fā)布第一版、第二版草稿征求意見的過程中,悅數(shù)一直跟蹤投入研發(fā)。GQL 標準發(fā)布后的同年 11 月,悅數(shù)也推出悅數(shù)圖數(shù)據(jù)庫 v5.0 ,是全球第一款原生支持 GQL 的分布式圖數(shù)據(jù)庫產(chǎn)品。

開源的 NebulaGraph 經(jīng)過三四年場景打磨和產(chǎn)品驗證后,悅數(shù)基于 NebulaGraph 開始做企業(yè)級的商業(yè)化產(chǎn)品。在圖數(shù)據(jù)庫的增長勢頭下,悅數(shù)在 2023 年比 2022 年實現(xiàn)兩倍多增長,2024 年又比 2023 年增長近三倍,已接近收支平衡。


在圖庫進入信創(chuàng)名錄前 先做到“萬事俱備”

悅數(shù)走在成為信創(chuàng)品牌的路上,但“悅數(shù)不是為了做信創(chuàng)而做信創(chuàng)”,在葉小萌看來,這是個自然發(fā)生的過程:信創(chuàng)的重要特征中,首當其沖便是自主可控,而悅數(shù)圖數(shù)據(jù)庫的每一行代碼都是團隊親手寫下,悅數(shù)本身已有 IP 和代碼的自主權,是做信創(chuàng)的良好土壤。

不過,在 2027 年實現(xiàn) “2+8+N” 的數(shù)據(jù)庫 100% 國產(chǎn)替代目標下,數(shù)十種數(shù)據(jù)庫類型中,目前也只有關系型數(shù)據(jù)庫被收錄在冊,相對小眾、發(fā)展勢頭仍較年輕的圖數(shù)據(jù)庫還不在信創(chuàng)名錄之列。悅數(shù)能進入信創(chuàng)名錄、得到認證,是葉小萌的目標之一。而在此之前,他們要做的是匹配各種信創(chuàng)操作系統(tǒng)或硬件,先萬事俱備,再等東風吹來。

適配國產(chǎn)硬件生態(tài)并非易事。國產(chǎn)硬件起步較晚,國內 CPU 在近幾年才集中快速增長。一般較常用的芯片基于 x86 架構和 arm 架構,但現(xiàn)有主要六大國產(chǎn) CPU,龍芯、海光、兆芯、鯤鵬、申威、飛騰,其中有些比較小眾的架構如 MIPS,對團隊編譯適配提出更高的時間和人力要求。但葉小萌也看到,雖然國產(chǎn)與國外硬件在 x86 的差距仍較大,但 arm CPU 的級別已與國際化水平非常接近。

與國產(chǎn)操作系統(tǒng)的適配也存在挑戰(zhàn),尤其當國產(chǎn) OS 上游的 Linux 版本仍相對較老時。此外,悅數(shù)圖數(shù)據(jù)庫在去年 6 月通過中國信通院舉辦的“可信數(shù)據(jù)庫”圖數(shù)據(jù)庫性能測試,是國內首個全項完成該測試的圖數(shù)據(jù)庫產(chǎn)品,這也體現(xiàn)了悅數(shù)做信創(chuàng)匹配國標的決心。

悅數(shù)Graph RAG,早于微軟站上起跑線 悅數(shù)RAG產(chǎn)品界面

以信創(chuàng)為發(fā)展目標的悅數(shù),目前客戶也一半以上都有信創(chuàng)需求。

葉小萌觀察到,現(xiàn)在還愿意出大價格的企業(yè),許多是國央企或至少有國資背景的企業(yè),也因為此,政企領域的客戶競爭總是較為激烈,最甚是金融業(yè)——金融業(yè) IT 需求發(fā)展起步較早,每年預算高,大家都擠破頭往里卷。

在價格戰(zhàn)硝煙中,悅數(shù)盡量避免受到波及:投標時,悅數(shù)會避開除產(chǎn)品分數(shù)外其他分數(shù)(如價格分數(shù)、公司資質、評委打分等)占比過高的場景,也盡量避免卷入搶低價客戶的漩渦。葉小萌相信,產(chǎn)品價格得體現(xiàn)產(chǎn)品本身給客戶帶來的價值,卷技術對行業(yè)有利,但卷價格“沒法體現(xiàn)軟件產(chǎn)品的價值,很不可取”。


數(shù)據(jù)庫市場競爭如長跑 一二梯隊已漸顯

葉小萌畢業(yè)后不久,就扎進圖數(shù)據(jù)庫領域。

他在 2010 年底進入 Facebook,一年后開始做圖數(shù)據(jù)庫產(chǎn)品。2015 年左右,葉小萌回國,業(yè)務蒸蒸日上的螞蟻正準備引入圖庫做風控。彼時國內圖數(shù)據(jù)庫市場剛起步,業(yè)界產(chǎn)品難以滿足螞蟻數(shù)據(jù)量和查詢并發(fā)量的高需求。就這樣,葉小萌成了團隊負責人,開始了這款比 Facebook 的圖數(shù)據(jù)庫查詢模式更復雜的項目——畢竟后者應用場景單一,基本查詢需求都只跟社交網(wǎng)絡有關。

螞蟻曾將自研的圖數(shù)據(jù)庫囊括在金融解決方案中一起銷售。葉小萌與客戶溝通接觸時,發(fā)現(xiàn)很多銀行在數(shù)據(jù)庫、中間件上都有現(xiàn)成配置,但在如反洗錢、反欺詐等新場景上,對圖庫有新需求。當時圖數(shù)據(jù)庫囊括在螞蟻的成套方案中,無法單獨拆分給銀行使用,但葉小萌已從中嗅到圖數(shù)據(jù)庫的商機。

早期風控主要基于規(guī)則和簡單算法,隨著需求深度提升,傳統(tǒng)算法難以滿足,圖數(shù)據(jù)庫優(yōu)勢漸顯。葉小萌舉例說到,銀行放貸業(yè)務要判斷企業(yè)資質征信情況,便需要企業(yè)圖譜,了解企業(yè)間十幾二十層的控股關系,這種關聯(lián)是圖數(shù)據(jù)庫的擅長領域;此外,貸后監(jiān)控如資金流向等,也是圖數(shù)據(jù)庫能大展拳腳的地方。

悅數(shù)Graph RAG,早于微軟站上起跑線 葉小萌在產(chǎn)品發(fā)布會上演講

親歷圖數(shù)據(jù)庫市場成長的浪潮,葉小萌也感受到,這些年的市場教育已卓有成效。現(xiàn)在團隊接觸客戶不再需要介紹圖數(shù)據(jù)庫的定義功能,能直接從介紹行業(yè)經(jīng)驗和使用場景開始。

而作為從業(yè)者,他形容數(shù)據(jù)庫市場的競爭有如跑八百米,進程近半,“雖然不排除有人最后沖刺反超,但到四百米左右已經(jīng)可以分出第一梯隊和第二梯隊了”。如今,數(shù)據(jù)庫市場開始大浪淘沙,產(chǎn)品差距只會越來越明顯,他對此也抱有信心:淘汰完成后,最后能留下的玩家就是技術產(chǎn)品最好的。

技術狂人葉小萌領略過硅谷科技大公司的工程師文化,深受感染,希望能打造技術上最強的公司。也因為此,悅數(shù)的氛圍十分接近他心之所向的工程師文化——大家專注做技術、以技術為導向,員工自驅力很強。尤其創(chuàng)立初期,公司團隊里幾乎全都是程序員,大家的共同點是:非常理想化、相信圖數(shù)據(jù)庫未來可期。

不過,對葉小萌來說,創(chuàng)業(yè)最難的是突破邊界。浸潤技術領域多年的他,在 2023 年商業(yè)化后開始接觸客戶,面對的對象從電子屏幕轉變?yōu)槿恕!半娔X比較簡單,你發(fā)出指令它執(zhí)行就可以,但跟客戶見面聊天時,要觀察對方對自己講的話的反應、猜測他們背后的想法”,葉小萌感慨,自己仍走在突破自我的路上。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見 轉載須知 。

本文被轉載1次

首發(fā)媒體 雷鋒網(wǎng) | 轉發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 日本伊人久久 | 精品久久久久久久久免费影院 | 2012中文字幕中字视频 | 国产自在自拍 | 99re这里只有精品在线观看 | 亚洲视频999 | 成年男女免费视频网站 | 欧美一区二区三区四区视频 | 国产精品青青青高清在线观看 | 青草草在线观看 | 国产福利资源网在线观看 | 无码国产成人777爽死 | 免费一级欧美片在线观看 | 7777奇米影视 | 亚洲欧美日韩中文高清一 | 国产成人8x视频一区二区 | 成在线人免费视频一区二区三区 | 男人含玉势出嫁束器 | 日韩精品亚洲一级在线观看 | 亚洲国产区 | 湿好紧太硬了我太爽了 | xx×日本老太| 国产精品欧美韩国日本久久 | 91影视在线看免费观看 | 国产二区视频 | 精品国产免费观看一区高清 | 国产图色| 国产目拍亚洲精品一区二区三区 | 青青草原社区 | 欧美极品摘花过程 | 91精品国产高清久久久久久 | 爽好舒服快想要免费看 | 日韩免费一级 | 亚洲AV永久无码精品老司机蜜桃 | 国产精品热久久毛片 | 女bbbxxx毛片视频 | 午夜影院网站 | 日韩毛片在线视频 | 韩国免费视频 | 欧美操大逼视频 | 日本人妖视频 |