久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

紅杉中國發(fā)布xbench,首個由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點(diǎn)擊進(jìn)來看看。  

5月26日,隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進(jìn)入規(guī)模化應(yīng)用,被廣泛用于評估AI能力的基準(zhǔn)測試(Benchmark)卻面臨一個日益尖銳的問題:想要真實(shí)反映AI系統(tǒng)的客觀能力正變得越來越困難,這其中最直接的表現(xiàn)——基礎(chǔ)模型“刷爆”了市面上的基準(zhǔn)測試題庫,紛紛在各大測試榜單上斬獲高分甚至滿分。

因此,構(gòu)建一個更加科學(xué)、長效和反映AI客觀能力的評測體系,正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。

5月26日,紅杉中國宣布推出全新的AI基準(zhǔn)測試xbench,并發(fā)布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個由 投資 機(jī)構(gòu)發(fā)起,聯(lián)合國內(nèi)外十余家頂尖高校和研究機(jī)構(gòu)的數(shù)十位博士研究生,采用雙軌評估體系和長青評估機(jī)制的AI基準(zhǔn)測試。xbench將在評估和推動AI系統(tǒng)能力提升上限與技術(shù)邊界的同時,重點(diǎn)量化AI系統(tǒng)在真實(shí)場景的效用價值,并長期捕捉Agent產(chǎn)品的關(guān)鍵突破。

紅杉中國發(fā)布xbench,首個由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

xbench基準(zhǔn)測試的特點(diǎn)包括:

xbench采用雙軌評估體系,構(gòu)建多維度測評數(shù)據(jù)集,旨在同時追蹤模型的理論能力上限與Agent的實(shí)際落地價值。該體系創(chuàng)新性地將評測任務(wù)分為兩條互補(bǔ)的主線:(1)評估AI 系統(tǒng)的能力上限與技術(shù)邊界;(2)量化AI 系統(tǒng)在真實(shí)場景的效用價值(Utility Value)。其中,后者需要動態(tài)對齊現(xiàn)實(shí)世界的應(yīng)用需求,基于實(shí)際工作流程和具體社會角色,為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價值的測評標(biāo)準(zhǔn)。

xbench 采用長青評估 (Evergreen Evalution)機(jī)制,通過持續(xù)維護(hù)并動態(tài)更新測試內(nèi)容 ,以確保時效性和相關(guān)性。xbench將定期測評市場主流Agent產(chǎn)品,跟蹤模型能力演進(jìn),捕捉 Agent產(chǎn)品迭代過程中的關(guān)鍵突破,進(jìn)而預(yù)測下一個Agent 應(yīng)用的技術(shù)-市場契合點(diǎn)(TMF,Tech-Market Fit)。作為獨(dú)立第三方,xbench致力于為每類產(chǎn)品設(shè)計公允的評估環(huán)境,提供客觀且可復(fù)現(xiàn)的評價結(jié)果。

首期發(fā)布包含兩個核心評估集:科學(xué)問題解答測評集(xbench-ScienceQA)與中文 互聯(lián)網(wǎng) 深度搜索測評集(xbench-DeepSearch),并對該領(lǐng)域主要產(chǎn)品進(jìn)行了綜合排名。同期提出了垂直領(lǐng)域智能體的評測方法論,并構(gòu)建了面向招聘(Recruitment)和 營銷 (Marketing)領(lǐng)域的垂類 Agent評測框架。

在過去兩年多的時間里,xbench一直是紅杉中國在內(nèi)部使用的跟蹤和評估基礎(chǔ)模型能力的工具,今天紅杉將其公開并貢獻(xiàn)給整個AI社區(qū)。無論是基礎(chǔ)模型和Agent的開發(fā)者, 還是相關(guān)領(lǐng)域的專家和企業(yè),或者是對AI評測具有濃厚興趣的研究者,xbench都?xì)g迎加入,成為使用并完善xbench的一份子,一起打造評估AI能力的新范式。

xbench最早是紅杉中國在2022年ChatGPT推出后,對AGI進(jìn)程和主流模型進(jìn)行的內(nèi)部月評與匯報。在建設(shè)和不斷升級“私有題庫”的過程中,紅杉中國發(fā)現(xiàn)主流模型“刷爆”題目的速度越來越快,基準(zhǔn)測試的有效時間在急劇縮短。正是由于這一顯著變化,紅杉中國對現(xiàn)有評估方式產(chǎn)生了質(zhì)疑——

“當(dāng)大家紛紛考滿分的時候,到底是學(xué)生變聰明了,還是卷子出了問題?”

因此,紅杉中國開始思考并準(zhǔn)備解決兩個核心問題:

1)模型能力和AI實(shí)際效用之間的關(guān)系?基準(zhǔn)測試的題目越出越難,意義是什么?是否落入了慣性思維?AI落地的實(shí)際 經(jīng)濟(jì) 價值真的會和AI做難題呈正相關(guān)嗎?

2) 不同時間維度上的能力比較:在xbench每一次更換題庫之后,我們就失去了對AI能力的前后可比性追蹤。因?yàn)樵谛碌念}庫下,模型版本也在迭代,無法比較不同時間維度上單個模型的能力如何變化。在判斷 創(chuàng)業(yè) 項(xiàng)目的時候,創(chuàng)業(yè)者的“成長斜率”是一個重要依據(jù),但在評估AI能力上,題庫的不斷更新卻反而讓判斷失效。

為了解決這兩個問題,xbench給出了新的解題思路:

1) 打破慣性思維,為現(xiàn)實(shí)世界的實(shí)用性開發(fā)新穎的任務(wù)設(shè)置和評估方式。

當(dāng)AI進(jìn)入“下半場”,不僅需要越來越難的AI Search能力的測試基準(zhǔn)(AI Capabilities Evals),也需要一套對齊現(xiàn)實(shí)世界專家的實(shí)用性任務(wù)體系(Utility Tasks)。前者考察的是能力邊界,呈現(xiàn)形式是score,而后者考察的實(shí)用性任務(wù)和環(huán)境多樣性, 商業(yè) KPIs(Conversion Rate, Closing Rate)和直接的經(jīng)濟(jì)產(chǎn)出。

因此,xbench引入了Profession Aligned的基準(zhǔn)概念,接下來的評估會使用“雙軌制”,分為AGI Tracking和Profession Aligned,AI將面臨更多復(fù)雜環(huán)境下效用的考察,從業(yè)務(wù)中收集的動態(tài)題集,而不單是更難的智力題。

紅杉中國發(fā)布xbench,首個由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

2)建立長青評估體系。靜態(tài)評估集一旦面世,會出現(xiàn)題目泄露導(dǎo)致過擬合然后迅速失效的問題,我們將維護(hù)一個動態(tài)更新的題目擴(kuò)充評估集來緩解這一現(xiàn)象。

針對AI Capacity Evals:學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時間不充分,無法維護(hù)成動態(tài)擴(kuò)充的持續(xù)評估。xbench希望能延續(xù)一系列公開評估集的方法,并提供第三方、黑白盒、Live的評測。

針對Profession Aligned Evals:xbench希望建立從真實(shí)業(yè)務(wù)中Live收集機(jī)制,邀請各行業(yè)的職業(yè)專家共同構(gòu)建和維護(hù)行業(yè)的動態(tài)評估集。

同時,在動態(tài)更新的基礎(chǔ)上,xbench設(shè)計可橫向?qū)Ρ鹊哪芰χ笜?biāo),用于在時間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號,幫助判斷某個模型是否達(dá)到市場可落地閾值,以及在什么時間點(diǎn)上,Agent可以接管已有的業(yè)務(wù)流程,提供規(guī)模化服務(wù)。

在xbench推出當(dāng)天,官網(wǎng)xbench.org上線了首期針對主流基礎(chǔ)模型和Agent的測評結(jié)果。

紅杉中國發(fā)布xbench,首個由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

紅杉中國表示:xbench歡迎社區(qū)共建。對于基礎(chǔ)模型與Agent開發(fā)者,可以使用最新版本的xbench評測集來第一時間驗(yàn)證其產(chǎn)品效果,得到內(nèi)部黑盒評估集得分;對于垂類Agent開發(fā)者、相關(guān)領(lǐng)域的專業(yè)和企業(yè),歡迎與xbench共建與發(fā)布特定行業(yè)垂類標(biāo)準(zhǔn)的Profession Aligned xbench;對于從事AI評測研究,具有明確研究想法的研究者,希望獲取專業(yè)標(biāo)注并長期維護(hù)評估更新,xbench可以幫助AI評估研究想法落地并產(chǎn)生長期影響力。

【來源: 鳳凰網(wǎng) 科技

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 国产51 | 日韩日韩日韩手机看片自拍 | 国产精品视频免费看 | 奇米狠狠色| 欧美性f | 91天堂在线视频 | 国产精品久久久久久久久免费观看 | 亚洲人成激情在线播放 | 国产成人综合网亚洲欧美在线 | 九九热只有精品 | 亚洲国产高清视频 | 果冻传媒九一制片厂 | 日本一本草久p | 久九九精品免费视频 | 91大神在线精品视频一区 | 日本免费久久久久久久网站 | 毛片群 | 朝鲜女人性猛交 | 女攻双性 | 好紧好爽再叫浪一点点潘金莲 | 欧美日韩中文字幕久久伊人 | 国产精品一区二区三区免费 | 肉大捧一进一出视频免费播放 | 成品人视频免费观看 | 日本一区二区免费在线观看 | 五月婷婷在线观看 | 摸咪网在线影院在线观看 | 欧美日韩高清不卡一区二区三区 | 亚洲成人国产 | 无人在线视频高清免费播放 | 无遮挡h肉动漫在线观看电车 | 亚洲高清在线天堂精品 | 99热r| 美国复古性经典xxxxx | 国外欧美一区另类中文字幕 | 欧美日韩国产亚洲一区二区三区 | 欧美黑人换爱交换乱理伦片 | 色悠久久久久综合欧美99 | 息与子中文字幕在线 | 厨房高h | 掀开奶罩边躁狠狠躁软学生 |