商湯坐上大模型核心牌桌
過(guò)去兩年,關(guān)于大模型的討論視角很少?gòu)纳虦@樣成立不過(guò)十年、資源與技術(shù)積累正當(dāng)青壯年的人工智能公司出發(fā)。造成這一現(xiàn)象的主要原因是兩個(gè)技術(shù)周期的迥異:
2023 年之前,商湯的人工智能技術(shù)路徑以計(jì)算機(jī)視覺(jué)模型為主,不同于 ChatGPT 為代表的新技術(shù)浪潮:以自然語(yǔ)言處理為主、大規(guī)模參數(shù)模型為核心。一個(gè)是視覺(jué)、一個(gè)是語(yǔ)言,在外界看來(lái)兩個(gè)賽道還沒(méi)有發(fā)生直接的關(guān)系。
然而,DeepSeek R1 的發(fā)布讓一切變得“戲劇性”:ChatGPT 之后,各個(gè)大語(yǔ)言模型廠商在卷 GPT-4 的路上狂奔兩年后幾乎所有努力被 V3 與 R1 抹平。當(dāng)語(yǔ)言方向的基礎(chǔ)模型出現(xiàn)新的 SOTA,所有人都面臨兩個(gè)選擇:要么以 DeepSeek 為靶子、繼續(xù)卷最強(qiáng)語(yǔ)言大模型,要么尋找差異化的競(jìng)爭(zhēng)點(diǎn)。
且不說(shuō) DeepSeek 的目標(biāo)是 AGI、下一代基礎(chǔ)模型未必只卷語(yǔ)言,單從數(shù)據(jù)源來(lái)看,根據(jù)權(quán)威研究機(jī)構(gòu) EPOCH AI 的調(diào)查(如下圖),用于訓(xùn)練大語(yǔ)言模型的文本數(shù)據(jù)正在迅速接近危機(jī)點(diǎn);據(jù)預(yù)測(cè),到 2028 年,語(yǔ)言大模型的訓(xùn)練數(shù)據(jù)集將用完互聯(lián)網(wǎng)的所有可用文本數(shù)量。
與此同時(shí),近日語(yǔ)言大模型也逐漸體現(xiàn)出性能隨參數(shù)規(guī)模加大提升的邊際效益遞減趨勢(shì)。因此,相比大語(yǔ)言模型的競(jìng)爭(zhēng),更多頂尖團(tuán)隊(duì)將目光看向了邁向 AGI 的下一階段:多模態(tài)大模型。繼 GPT-4o 后,OpenAI、谷歌與 Meta 等科技巨頭陸續(xù)發(fā)布了 GPT-4.5、Gemini 2.0/2.5 Pro 與 Llama 4 等數(shù)個(gè)性能強(qiáng)大的多模態(tài)基礎(chǔ)模型。
當(dāng)語(yǔ)言與視覺(jué)融合漸成趨勢(shì),商湯的過(guò)去與人工智能的未來(lái)聚首,其在國(guó)內(nèi)大模型市場(chǎng)格局中的角色也逐漸變得更加舉足輕重:
除了商湯大裝置與過(guò)去十年所積累的行業(yè)落地經(jīng)驗(yàn),商湯在基礎(chǔ)模型的研究上也逐漸占據(jù)優(yōu)勢(shì),經(jīng)過(guò)兩年的投入努力,不僅彌平了文本的差距,而且在最新的多模態(tài)大模型中厚積薄發(fā)。
據(jù)商湯 4 月 10 日的發(fā)布,其新一代 6000 億多模態(tài)大模型“日日新 Sense Nova V6” 在多模態(tài)綜合能力上可以向 GPT-4.5 與 Gemini 2.0 Pro 看齊、甚至略微超過(guò)。不僅如此,商湯還引入長(zhǎng)思維鏈,率先將多模態(tài)與深度思考結(jié)合了起來(lái)。
事實(shí)上,商湯從 2024 年年中就開(kāi)始探索原生融合的多模態(tài)大模型,并早已在今年的 1 月 10 號(hào)、R1 發(fā)布并爆火前登上 SuperCLUE 和 OpenCompass 兩大權(quán)威榜單榜首,成為大語(yǔ)言與多模態(tài)能力的“雙冠王”。
前有商湯大裝置領(lǐng)先半步,后有原生多模態(tài)大模型厚積薄發(fā),商湯在大模型這波浪潮中的綜合競(jìng)爭(zhēng)力或許被嚴(yán)重低估了。
01、
是落后,還是領(lǐng)先?
一個(gè)不爭(zhēng)的事實(shí)是:在第一個(gè)十年成立的人工智能算法公司中,經(jīng)過(guò)兩年的大模型技術(shù)革新,商湯是極少數(shù)能夠迅速轉(zhuǎn)彎、從視覺(jué)算法跨越到大模型技術(shù)周期并保持算法創(chuàng)新生命力的 AI 公司之一,手持兩大通行證——大裝置與日日新。
2023 年大模型風(fēng)靡初始時(shí),商湯憑借大裝置拿到了大模型的入場(chǎng)券,在業(yè)內(nèi)創(chuàng)下不到一個(gè)月就構(gòu)建起服務(wù)于大模型訓(xùn)練的千卡集群,不僅使商湯在龐大算力上的投入有所回報(bào)、開(kāi)始盈利,還為商湯在后續(xù)趕超基礎(chǔ)模型的研究上贏得了時(shí)間。
如果說(shuō)商湯的大裝置領(lǐng)先行業(yè)至少 3 年,日日新的正式發(fā)布比行業(yè)最早晚 1 年,將算力與算法協(xié)同、再考慮商湯在過(guò)去十年所積累的商業(yè)化實(shí)戰(zhàn)經(jīng)驗(yàn)來(lái)看,事實(shí)上商湯大模型的綜合實(shí)力大約領(lǐng)先行業(yè) 1-2 年。而在商湯陸續(xù)發(fā)布原生融合多模態(tài)大模型日日新 SenseNova V6 后,這一差距又被拉長(zhǎng)至少半年。
為什么這么說(shuō)?
因?yàn)楫?dāng)前原生多模態(tài)大模型的技術(shù)難度仍極高,而商湯的日日新 V6 已能達(dá)到對(duì)標(biāo)國(guó)際頂尖多模態(tài)大模型 GPT-4.5 與 Gemini 2.0 Pro 的水平。
雖說(shuō)過(guò)去兩年海內(nèi)外發(fā)布了大量的多模態(tài)模型成果,但真正能夠在輸入與輸出端同時(shí)做到文字、語(yǔ)音、圖像、視頻等至少兩個(gè)模態(tài)數(shù)據(jù)融合,并完成從感知、理解、推理到?jīng)Q策、生成等任務(wù)環(huán)節(jié)的多模態(tài)大模型還寥寥無(wú)幾。
這要求從底層架構(gòu)、高質(zhì)量數(shù)據(jù)清洗到上層算法的整體創(chuàng)新,如 Transformer 雖擅長(zhǎng)文本的長(zhǎng)序列表達(dá)、卻久有說(shuō)法認(rèn)為其在多模態(tài)乃至空間智能中有待提升,且暫無(wú)暴力出奇跡的先例,最新案例可參考 Meta 發(fā)布的 Llama 4、即使投入巨大也提升甚微。
目前多模態(tài)模型的廣泛研究方法大體可以分為兩條路線:一條是從語(yǔ)言模型出發(fā),在語(yǔ)言模型的基礎(chǔ)上疊加其他的語(yǔ)音、圖像等模態(tài);另一條則是從視覺(jué)出發(fā),在圖像或視頻的基礎(chǔ)上疊加語(yǔ)言、語(yǔ)音、視覺(jué)等模態(tài)。此外,多模態(tài)研究在終局上也有追求 AIGC 與追求 AGI 之分,這決定了多模態(tài)模型的研究天差地別。
當(dāng)前多模態(tài)模型仍以百億參數(shù)規(guī)模為主,這背后的原因主要是兩點(diǎn):一是多模態(tài)大模型所消耗的算力要比純語(yǔ)言大模型更大;其次,當(dāng)多模態(tài)模型的參數(shù)規(guī)模上升到千億級(jí)別后,不同模態(tài)之間的數(shù)據(jù)融合、讓彼此相得益彰而非此消彼長(zhǎng)的難度也變得更大。
有研究團(tuán)隊(duì)曾向雷峰網(wǎng)描述過(guò)這樣的一個(gè)研究難題:當(dāng)他們嘗試從百億文本模型擴(kuò)大到超五千億多模態(tài)模型后,后加入的圖像、視頻與語(yǔ)言數(shù)據(jù)出現(xiàn)了拉低文本數(shù)據(jù)表現(xiàn)的現(xiàn)象。由此可見(jiàn),要獲得一個(gè)多模態(tài)數(shù)據(jù)規(guī)模擴(kuò)大到數(shù)千億、且多個(gè)模態(tài)之間能相互“提攜”的高水平原生多模態(tài)大模型,難度極高。
據(jù)商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華介紹,商湯從 2024 年 5 月 GPT-4o 發(fā)布后就開(kāi)始堅(jiān)信多模態(tài)大模型是未來(lái),于是迅速開(kāi)始研究。一開(kāi)始商湯也是采取傳統(tǒng)的“核心模態(tài)+次要模態(tài)”路線,但會(huì)出現(xiàn)一個(gè)模態(tài)削弱另一個(gè)模態(tài)的問(wèn)題,沒(méi)有達(dá)到 1+1>2 的效果,之后投入大量時(shí)間攻堅(jiān)兩個(gè)以上模態(tài)之間的橋接技術(shù),12 月訓(xùn)練出“雙冠王”驗(yàn)證了他們的原生融合路線。
在 12 月那版融合模型的基礎(chǔ)上,商湯繼續(xù) Scale Up,實(shí)現(xiàn)了新一代原生融合多模態(tài)大模型 SenseNova V6,參數(shù)規(guī)模 6000 億,且根據(jù)官方評(píng)測(cè)數(shù)據(jù)披露,V6 不僅在綜合多模態(tài)任務(wù)上對(duì)標(biāo) GPT-4.5 與 Gemini 2.0 Pro,且在純文本任務(wù)上也能比擬 DeepSeek V3(看下圖左表)、推理能力比擬 GPT-o1(下圖右表):
注:谷歌 Gemini 2.5 Pro 才發(fā)布不到一個(gè)月,各項(xiàng)指標(biāo)還未有公開(kāi)評(píng)測(cè)分?jǐn)?shù),暫且不計(jì)
V6 的主要技術(shù)創(chuàng)新性體現(xiàn)在兩塊:一塊是多模態(tài)的關(guān)鍵橋接,在模型的預(yù)訓(xùn)練階段就已經(jīng)將文本、語(yǔ)音、視頻和圖像等數(shù)據(jù)融合在一起訓(xùn)練,使不同模態(tài)之間相輔相成,在同一個(gè)上下文窗口對(duì)齊;另一塊則是對(duì) DeepSeek 核心思想的借鑒與先前半步,具體表現(xiàn)為多模態(tài)的長(zhǎng)思維鏈構(gòu)造與輸出端的融合 RL(強(qiáng)化學(xué)習(xí))。
DeepSeek 目前仍以文本為主,而商湯從頭到尾都是以開(kāi)發(fā)多模態(tài)大模型為核心,因此在深度思考與強(qiáng)化學(xué)習(xí)的技術(shù)上也以多模態(tài)為母體,率先探索了多模態(tài)模型的長(zhǎng)思維鏈構(gòu)造。
據(jù)了解,目前商湯通過(guò)智能體生成的思維鏈總儲(chǔ)備已經(jīng)超過(guò) 1000 萬(wàn)條,日日新 V6 能夠生成長(zhǎng)達(dá) 64K 的高質(zhì)量思維鏈,這意味著商湯的多模態(tài)大模型在解答用戶的提問(wèn)前就已經(jīng)能夠進(jìn)行超過(guò) 6 萬(wàn)字的深度思考,發(fā)展全局記憶。
商湯的獨(dú)特之處是,在構(gòu)建思維鏈的過(guò)程中,每一步都會(huì)利用前一步的圖文多模態(tài)信息、以及綜合的推理情況來(lái)進(jìn)行下一步思考推理。換言之,V6 的每一步推理都有一個(gè)形象的思維與一個(gè)邏輯的思維混合——這也是與純語(yǔ)言思維鏈的一大不同之處。
而此前無(wú)論是人類的成長(zhǎng)路徑還是大模型的迭代進(jìn)程,都表明了:多模態(tài)數(shù)據(jù)不僅能彌補(bǔ)純語(yǔ)言大模型的數(shù)據(jù)瓶頸,且多模態(tài)模型的學(xué)習(xí)效率更高。
據(jù)林達(dá)華坦言,V6 并沒(méi)有完全消除大模型的幻覺(jué)問(wèn)題,而是通過(guò)輸入端的數(shù)據(jù)質(zhì)量嚴(yán)格把關(guān)與輸出端的融合 RL 來(lái)緩解幻覺(jué)問(wèn)題。相比 DeepSeek R1,V6 的獎(jiǎng)勵(lì)信號(hào)會(huì)更豐富,包含結(jié)果獎(jiǎng)勵(lì)、RLHF 獎(jiǎng)勵(lì)以及通過(guò)視覺(jué)理解判斷模型語(yǔ)言描述與圖像視頻是否一致等;同時(shí)在模型的思考過(guò)程中分階段進(jìn)行基于事實(shí)、而非獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。
在多模態(tài)大模型的訓(xùn)練上,由于大裝置與大模型的緊密協(xié)同,商湯日日新 V6 的訓(xùn)練與推理也進(jìn)行了極大的效率優(yōu)化。 雷峰網(wǎng)
據(jù)商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆介紹,商湯自己去訓(xùn)練 DeepSeek 模型的訓(xùn)練效率,比原廠發(fā)布出來(lái)的指標(biāo)還要好。商湯大裝置可以達(dá)到每卡每秒 1600+?個(gè) token,DeepSeek 官方報(bào)告所披露的數(shù)據(jù)是 1500+ token。
除了大裝置,商湯在自有訓(xùn)練引擎 SenseParrots 上也搭載了最早跑通千卡訓(xùn)練的系統(tǒng)。此外,商湯從 2018 年開(kāi)始用國(guó)產(chǎn)芯片進(jìn)行模型訓(xùn)練,國(guó)產(chǎn)芯片數(shù)量至少占比 20%,V6 的一部分訓(xùn)練也是在國(guó)產(chǎn)芯片上進(jìn)行的。
在推理上,商湯大裝置采取了 PD 分離、通信計(jì)算折疊、FP8 強(qiáng)化與算子優(yōu)化等方法進(jìn)行效率優(yōu)化,在線服務(wù)推理性能超行業(yè)平均水平 25%;離線推理方面,與開(kāi)源方案相比,商湯大裝置在 Prefill 階段提速 5 倍、Decode 階段提速 3.5倍。
DeepSeek 在大語(yǔ)言模型賽道的后來(lái)居上已經(jīng)表明:AGI 的長(zhǎng)跑需要算力與算法的綜合能力。而相比純語(yǔ)言模型,多模態(tài)大模型無(wú)論是訓(xùn)練還是推理都需要更高的算力,細(xì)微的進(jìn)步累積起來(lái)即是長(zhǎng)遠(yuǎn)的差距。技術(shù)無(wú)法構(gòu)建堅(jiān)不可摧的壁壘,但能贏得利于競(jìng)爭(zhēng)的時(shí)間差。
商湯日日新 V6 在原生多模態(tài)大模型與多模態(tài)深度思考推理上已領(lǐng)先半步,無(wú)疑向大模型行業(yè)傳遞了一個(gè)信息: 雷峰網(wǎng)
穿越兩個(gè)技術(shù)周期的商湯,已經(jīng)坐上了大模型的核心牌桌。
02、 更全面的競(jìng)爭(zhēng)
當(dāng)商湯在大模型市場(chǎng)上的位置被重新審視,這家相比 BAT 不大、相比初創(chuàng)公司又不小的 AI 小巨頭就顯現(xiàn)了其獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)。
技術(shù)上,AGI 是數(shù)據(jù)、算法與算力的并駕齊驅(qū)。數(shù)據(jù)層,商湯的日日新多模態(tài)大模型已經(jīng)體現(xiàn)其融合文本、圖像、3D、視頻等多種模態(tài)數(shù)據(jù)的能力;算法與算力層,商湯的十年積累不遜于同時(shí)坐擁云計(jì)算與基礎(chǔ)模型的互聯(lián)網(wǎng)大廠,但兩者雖有諸多相似,卻仍有本質(zhì)的不同。
這種不同體現(xiàn)在「終局思維」的本質(zhì)差異上:
互聯(lián)網(wǎng)大廠研究基礎(chǔ)模型的最終落腳點(diǎn)往往是打造流量聚集的「Super App」;而商湯從成立第一天開(kāi)始就是一家「人工智能」公司,其終局目標(biāo)是參與構(gòu)建人工智能時(shí)代,也因此商湯在大模型的商業(yè)落地上沒(méi)有 To B 與 To C 的糾結(jié)。無(wú)論是算法還是算力,商湯都愿意成為行業(yè)的一個(gè)「擺渡人」。
當(dāng)算法的差距被追平后,技術(shù)的星辰大海終歸回落塵埃大地,在大模型的商業(yè)化落地上,商湯過(guò)去十年在各行各業(yè)所積累的經(jīng)驗(yàn)天然降維打擊——?jiǎng)?chuàng)業(yè)公司還在商場(chǎng)學(xué)習(xí)走路的時(shí)候,商湯已經(jīng)踩完一遍坑,越過(guò)山丘。
與 DeepSeek 不同,商湯對(duì)大模型的思考天然不僅是基礎(chǔ)模型的研究突破,還有模型的商業(yè)落地。在過(guò)去,商湯本身已觸達(dá)包括手機(jī)、汽車、營(yíng)銷在內(nèi)的廣泛業(yè)務(wù),基于業(yè)務(wù)提煉出來(lái)的需求也指導(dǎo)了模型能力的優(yōu)化。
以日日新 V6 為例,商湯追求原生的多模態(tài)大模型之余,同時(shí)強(qiáng)調(diào)模型的三大能力:推理能力,情感共鳴與實(shí)時(shí)交互能力,以及長(zhǎng)記憶/全局記憶能力。
根據(jù)商湯日日新 V6 已接入的場(chǎng)景顯示,在大模型的落地場(chǎng)景中,主流的交互方式不單單是文本,實(shí)時(shí)視頻通話的流量與十分巨大。與文本類似,視頻交互對(duì)長(zhǎng)視頻的輸入窗口與模型的長(zhǎng)記憶能力有高要求。V6 可以支持長(zhǎng)達(dá) 10 分鐘的整段視頻輸入,將語(yǔ)音、文字與視頻形成統(tǒng)一的、與時(shí)間軸對(duì)齊的上下文表達(dá),然后進(jìn)行深入的理解、分析與推理。
在流式交互上,商湯從 GPT-4o 發(fā)布后就一直堅(jiān)持打造多模態(tài)的交互入口。在商湯的設(shè)想中,通過(guò)終端與人類進(jìn)行多模態(tài)交互的大模型必然是輕量化模型、而非 600B 的基礎(chǔ)模型;此外,與人的實(shí)時(shí)交互對(duì)模型情感共情、擬人表達(dá)的能力也提出高要求。而據(jù)數(shù)據(jù)統(tǒng)計(jì),商湯是中國(guó)除字節(jié)外在擬人對(duì)話引擎上的第二大供應(yīng)商。
基于全新日日新原生多模態(tài)大模型,商湯提出「一基兩翼」的落地方案:所謂「兩翼」,指的是應(yīng)用在具身智能、硬件、眼鏡等方向的智能交互,及應(yīng)用于金融、辦公等領(lǐng)域的生產(chǎn)力工具。
日日新 V6 基礎(chǔ)模型能力的提升,讓 AI 產(chǎn)品的想象空間也有了一個(gè)質(zhì)的飛躍。例如,多模態(tài)綜合能力與多模態(tài)深度思考推理疊加高情商的擬人交互方式,在數(shù)學(xué)解題、點(diǎn)讀翻譯、文旅講解、繪本講解等等日常高頻需求的響應(yīng)中都取得了相較于以往多模態(tài)模型更出色的性能表現(xiàn)。
同樣,在具身智能領(lǐng)域,商湯與傅利葉等機(jī)器人廠商合作,也探索了 V6 與終端結(jié)合的可能性。基于日日新 V6 多模態(tài)融合能力,機(jī)器人能同時(shí)掌握「大腦」、「耳朵」、「眼睛」與「嘴巴」等多個(gè)感官,并通過(guò)融合信息理解環(huán)境、進(jìn)行深度思考。
而在小浣熊系列,V6 的多模態(tài)深度思考與推理能力使辦公小浣熊的任務(wù)規(guī)劃、數(shù)據(jù)分析、文檔編輯等能力有了更大幅的提升。小浣熊不僅支持excel、數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù),還支持word、pdf、txt、圖片等非結(jié)構(gòu)化數(shù)據(jù)解析,并且支持跨數(shù)據(jù)源融合解析,在 Tablebench 和 1000+ 數(shù)據(jù)分析場(chǎng)景評(píng)測(cè)精度超過(guò) GPT-4o。
根據(jù)商湯 2024 年的財(cái)報(bào),商湯生成式 AI 的業(yè)務(wù)收入達(dá)到 24 億元,在總收入中的占比高達(dá) 63.7%,同比漲幅超過(guò) 100%。
當(dāng)前大模型在許多場(chǎng)景中的落地還沒(méi)有越過(guò)產(chǎn)品性價(jià)比的生死線。而商湯作為一家沉浮商海多年的「OG」,無(wú)論是大裝置與大模型的協(xié)同,還是更注重 To B 而非 To C 的商業(yè)打法,都死死咬住生存的第一性原理。
以機(jī)器人為例。在多模態(tài)大模型的進(jìn)步下,終端的智能只需一個(gè)模型就能達(dá)到多種能力、而非需要一個(gè)多模態(tài)模型再加一個(gè)語(yǔ)言大模型,性價(jià)比更高。
商湯有自己的 C 端應(yīng)用,但從當(dāng)前的大模型商業(yè)化來(lái)看,其重點(diǎn)主要集中在 B 端業(yè)務(wù)上。從構(gòu)建人工智能時(shí)代的「終局思維」來(lái)看,推動(dòng)更多行業(yè)、更多需求轉(zhuǎn)向「AI-Native」對(duì)商湯來(lái)說(shuō)比加大投入追求 SuperApp 更有價(jià)值。 雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng))
目前,商湯日日新已經(jīng)支撐了包括 WPS、閱文、想法流在內(nèi)的多個(gè)明星 C 端應(yīng)用。這在一方面可以使技術(shù)與商業(yè)緊密綁定,同時(shí)驅(qū)動(dòng)數(shù)據(jù)飛輪。
算力、算法、用戶與商業(yè)是一套完整的模型體系,任一環(huán)節(jié)的極速飛轉(zhuǎn)都會(huì)帶動(dòng)其他幾環(huán)的飛躍。在大模型的浪潮中,商湯的啟動(dòng)飛輪是大裝置與商業(yè)積累;日日新大模型系列發(fā)布后, 商湯多模態(tài)大模型的實(shí)力有了極大提升,尤其是 V6 的巨大突破讓算法飛輪也體現(xiàn)出了巨大的潛力。
超前一步是瘋子,超前半步是天才。從大裝置到日日新 V6,商湯都精準(zhǔn)預(yù)判了每一個(gè)技術(shù)趨勢(shì)、并快速取得里程碑的成就。商湯大模型的下一個(gè)巨大飛輪能否由算法主導(dǎo),絕對(duì)值得拭目以待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn) 轉(zhuǎn)載須知 。