紅杉中國發(fā)布xbench，首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測(cè)試

砍柴網(wǎng) ? 3月前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

5月26日，隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進(jìn)入規(guī)模化應(yīng)用，被廣泛用于評(píng)估AI能力的基準(zhǔn)測(cè)試（Benchmark）卻面臨一個(gè)日益尖銳的問題：想要真實(shí)反映AI系統(tǒng)的客觀能力正變得越來越困難，這其中最直接的表現(xiàn)——基礎(chǔ)模型“刷爆”了市面上的基準(zhǔn)測(cè)試題庫，紛紛在各大測(cè)試榜單上斬獲高分甚至滿分。

因此，構(gòu)建一個(gè)更加科學(xué)、長效和反映AI客觀能力的評(píng)測(cè)體系，正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。

5月26日，紅杉中國宣布推出全新的AI基準(zhǔn)測(cè)試xbench，并發(fā)布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個(gè)由投資機(jī)構(gòu)發(fā)起，聯(lián)合國內(nèi)外十余家頂尖高校和研究機(jī)構(gòu)的數(shù)十位博士研究生，采用雙軌評(píng)估體系和長青評(píng)估機(jī)制的AI基準(zhǔn)測(cè)試。xbench將在評(píng)估和推動(dòng)AI系統(tǒng)能力提升上限與技術(shù)邊界的同時(shí)，重點(diǎn)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值，并長期捕捉Agent產(chǎn)品的關(guān)鍵突破。

紅杉中國發(fā)布xbench，首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測(cè)試

xbench基準(zhǔn)測(cè)試的特點(diǎn)包括：

xbench采用雙軌評(píng)估體系，構(gòu)建多維度測(cè)評(píng)數(shù)據(jù)集，旨在同時(shí)追蹤模型的理論能力上限與Agent的實(shí)際落地價(jià)值。該體系創(chuàng)新性地將評(píng)測(cè)任務(wù)分為兩條互補(bǔ)的主線：（1）評(píng)估AI 系統(tǒng)的能力上限與技術(shù)邊界；（2）量化AI 系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值（Utility Value）。其中，后者需要?jiǎng)討B(tài)對(duì)齊現(xiàn)實(shí)世界的應(yīng)用需求，基于實(shí)際工作流程和具體社會(huì)角色，為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價(jià)值的測(cè)評(píng)標(biāo)準(zhǔn)。

xbench 采用長青評(píng)估（Evergreen Evalution）機(jī)制，通過持續(xù)維護(hù)并動(dòng)態(tài)更新測(cè)試內(nèi)容，以確保時(shí)效性和相關(guān)性。xbench將定期測(cè)評(píng)市場(chǎng)主流Agent產(chǎn)品，跟蹤模型能力演進(jìn)，捕捉 Agent產(chǎn)品迭代過程中的關(guān)鍵突破，進(jìn)而預(yù)測(cè)下一個(gè)Agent 應(yīng)用的技術(shù)-市場(chǎng)契合點(diǎn)（TMF，Tech-Market Fit)。作為獨(dú)立第三方，xbench致力于為每類產(chǎn)品設(shè)計(jì)公允的評(píng)估環(huán)境，提供客觀且可復(fù)現(xiàn)的評(píng)價(jià)結(jié)果。

首期發(fā)布包含兩個(gè)核心評(píng)估集：科學(xué)問題解答測(cè)評(píng)集（xbench-ScienceQA）與中文互聯(lián)網(wǎng) 深度搜索測(cè)評(píng)集（xbench-DeepSearch），并對(duì)該領(lǐng)域主要產(chǎn)品進(jìn)行了綜合排名。同期提出了垂直領(lǐng)域智能體的評(píng)測(cè)方法論，并構(gòu)建了面向招聘（Recruitment）和營銷（Marketing）領(lǐng)域的垂類 Agent評(píng)測(cè)框架。

在過去兩年多的時(shí)間里，xbench一直是紅杉中國在內(nèi)部使用的跟蹤和評(píng)估基礎(chǔ)模型能力的工具，今天紅杉將其公開并貢獻(xiàn)給整個(gè)AI社區(qū)。無論是基礎(chǔ)模型和Agent的開發(fā)者，還是相關(guān)領(lǐng)域的專家和企業(yè)，或者是對(duì)AI評(píng)測(cè)具有濃厚興趣的研究者，xbench都?xì)g迎加入，成為使用并完善xbench的一份子，一起打造評(píng)估AI能力的新范式。

xbench最早是紅杉中國在2022年ChatGPT推出后，對(duì)AGI進(jìn)程和主流模型進(jìn)行的內(nèi)部月評(píng)與匯報(bào)。在建設(shè)和不斷升級(jí)“私有題庫”的過程中，紅杉中國發(fā)現(xiàn)主流模型“刷爆”題目的速度越來越快，基準(zhǔn)測(cè)試的有效時(shí)間在急劇縮短。正是由于這一顯著變化，紅杉中國對(duì)現(xiàn)有評(píng)估方式產(chǎn)生了質(zhì)疑——

“當(dāng)大家紛紛考滿分的時(shí)候，到底是學(xué)生變聰明了，還是卷子出了問題？”

因此，紅杉中國開始思考并準(zhǔn)備解決兩個(gè)核心問題：

1）模型能力和AI實(shí)際效用之間的關(guān)系？基準(zhǔn)測(cè)試的題目越出越難，意義是什么？是否落入了慣性思維？AI落地的實(shí)際經(jīng)濟(jì) 價(jià)值真的會(huì)和AI做難題呈正相關(guān)嗎？

2) 不同時(shí)間維度上的能力比較：在xbench每一次更換題庫之后，我們就失去了對(duì)AI能力的前后可比性追蹤。因?yàn)樵谛碌念}庫下，模型版本也在迭代，無法比較不同時(shí)間維度上單個(gè)模型的能力如何變化。在判斷創(chuàng)業(yè) 項(xiàng)目的時(shí)候，創(chuàng)業(yè)者的“成長斜率”是一個(gè)重要依據(jù)，但在評(píng)估AI能力上，題庫的不斷更新卻反而讓判斷失效。

為了解決這兩個(gè)問題，xbench給出了新的解題思路：

1) 打破慣性思維，為現(xiàn)實(shí)世界的實(shí)用性開發(fā)新穎的任務(wù)設(shè)置和評(píng)估方式。

當(dāng)AI進(jìn)入“下半場(chǎng)”，不僅需要越來越難的AI Search能力的測(cè)試基準(zhǔn)（AI Capabilities Evals），也需要一套對(duì)齊現(xiàn)實(shí)世界專家的實(shí)用性任務(wù)體系（Utility Tasks）。前者考察的是能力邊界，呈現(xiàn)形式是score，而后者考察的實(shí)用性任務(wù)和環(huán)境多樣性，商業(yè) KPIs（Conversion Rate, Closing Rate）和直接的經(jīng)濟(jì)產(chǎn)出。

因此，xbench引入了Profession Aligned的基準(zhǔn)概念，接下來的評(píng)估會(huì)使用“雙軌制”，分為AGI Tracking和Profession Aligned，AI將面臨更多復(fù)雜環(huán)境下效用的考察，從業(yè)務(wù)中收集的動(dòng)態(tài)題集，而不單是更難的智力題。

紅杉中國發(fā)布xbench，首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測(cè)試

2）建立長青評(píng)估體系。靜態(tài)評(píng)估集一旦面世，會(huì)出現(xiàn)題目泄露導(dǎo)致過擬合然后迅速失效的問題，我們將維護(hù)一個(gè)動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集來緩解這一現(xiàn)象。

針對(duì)AI Capacity Evals：學(xué)術(shù)界提出了很多出色的方法論，但是受限于資源與時(shí)間不充分，無法維護(hù)成動(dòng)態(tài)擴(kuò)充的持續(xù)評(píng)估。xbench希望能延續(xù)一系列公開評(píng)估集的方法，并提供第三方、黑白盒、Live的評(píng)測(cè)。

針對(duì)Profession Aligned Evals：xbench希望建立從真實(shí)業(yè)務(wù)中Live收集機(jī)制，邀請(qǐng)各行業(yè)的職業(yè)專家共同構(gòu)建和維護(hù)行業(yè)的動(dòng)態(tài)評(píng)估集。

同時(shí)，在動(dòng)態(tài)更新的基礎(chǔ)上，xbench設(shè)計(jì)可橫向?qū)Ρ鹊哪芰χ笜?biāo)，用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào)，幫助判斷某個(gè)模型是否達(dá)到市場(chǎng)可落地閾值，以及在什么時(shí)間點(diǎn)上，Agent可以接管已有的業(yè)務(wù)流程，提供規(guī)模化服務(wù)。

在xbench推出當(dāng)天，官網(wǎng)xbench.org上線了首期針對(duì)主流基礎(chǔ)模型和Agent的測(cè)評(píng)結(jié)果。

紅杉中國發(fā)布xbench，首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測(cè)試

紅杉中國表示：xbench歡迎社區(qū)共建。對(duì)于基礎(chǔ)模型與Agent開發(fā)者，可以使用最新版本的xbench評(píng)測(cè)集來第一時(shí)間驗(yàn)證其產(chǎn)品效果，得到內(nèi)部黑盒評(píng)估集得分；對(duì)于垂類Agent開發(fā)者、相關(guān)領(lǐng)域的專業(yè)和企業(yè)，歡迎與xbench共建與發(fā)布特定行業(yè)垂類標(biāo)準(zhǔn)的Profession Aligned xbench；對(duì)于從事AI評(píng)測(cè)研究，具有明確研究想法的研究者，希望獲取專業(yè)標(biāo)注并長期維護(hù)評(píng)估更新，xbench可以幫助AI評(píng)估研究想法落地并產(chǎn)生長期影響力。

【來源：鳳凰網(wǎng) 科技】

久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

紅杉中國發(fā)布xbench，首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測(cè)試

隨意打賞

投資機(jī)構(gòu)們，又開始假裝招人了

機(jī)器人行業(yè)打響“場(chǎng)景爭(zhēng)奪戰(zhàn)”背后，有投資機(jī)構(gòu)稱“現(xiàn)在不看PPT演示，需要拿具體落地案例” | 速途網(wǎng)

曝寧德時(shí)代不希望太多散戶參與IPO，更青睞機(jī)構(gòu)投資者；華為首款鴻蒙折疊電腦售價(jià)超兩萬；美的方洪波首度回應(yīng)與小米競(jìng)爭(zhēng)，稱從不加班丨雷峰早報(bào)

DeepWay深向與中東投資機(jī)構(gòu)共探新能源重卡合作新機(jī)遇，開拓全球綠色物流新未來

深圳：今年目標(biāo)新增風(fēng)投創(chuàng)投、私募證券投資、國際資管等機(jī)構(gòu)不少于80家

大模型DeepSeek：未授權(quán)任何人員參與機(jī)構(gòu)投資者交流會(huì)，網(wǎng)傳交流信息不實(shí)

見完 200 家投資機(jī)構(gòu)，無人出價(jià)

三千余家國際基金投資機(jī)構(gòu)云集高交會(huì)，攜萬億巨資尋找優(yōu)秀種子企業(yè)

高交會(huì)引燃投資熱情，超3000家投融資機(jī)構(gòu)踴躍報(bào)名