心言集團(tuán)高級(jí)算法工程師在Qwen 3發(fā)布之際再談開源模型的生態(tài)價(jià)值

砍柴網(wǎng) ? 4天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

4月29日，阿里新一代的大模型 Qwen 3發(fā)布。以 DeepSeek+Qwen 的中國開源組合，正在以中國開源生態(tài)“雙子星”之勢，取代過去 Llama 為主，Mistral 為輔的開源生態(tài)。 Qwen 3 發(fā)布后，F(xiàn)ounder Park采訪了不同行業(yè)的 AI 創(chuàng)業(yè) 公司代表，就開源閉源如何選擇、模型的微調(diào)、模型能力瓶頸，以及大模型創(chuàng)業(yè)的坑等方面進(jìn)行了訪問。心言集團(tuán)開源布道師、高級(jí)算法工程師“左右”在接受采訪的過程中，從心言集團(tuán)的實(shí)踐視角剖析了中國開源模型的崛起路徑，并分享了自己在開源生態(tài)賦能下的業(yè)務(wù)探索與技術(shù)思考。

以下為采訪實(shí)錄：

開源、閉源模型如何選擇？

左右：從我們目前的業(yè)務(wù)角度看，絕大部分（可能 90% 以上）需要使用我們自己微調(diào)（fine-tuned）的模型，因此主要是本地化部署后供線上使用。同時(shí)，對于某些特定任務(wù)，比如數(shù)據(jù)構(gòu)造、數(shù)據(jù)蒸餾，或者需要利用特定大模型（如 GPT、豆包、Qwen）的能力時(shí)，我們會(huì)直接調(diào)用它們的 API。

本地部署的主要是基于 Qwen 的微調(diào)模型，根據(jù)不同的業(yè)務(wù)入口，我們會(huì)使用不同量級(jí)的模型。常用的是 7B、32B 和 72B 這幾個(gè)版本。此外，我們還有一些具身智能的業(yè)務(wù)，考慮到用戶隱私和多模態(tài)處理需求，會(huì)采用更小量級(jí)的多模態(tài)模型，比如 0.5B、1.5B 等。7B 模型主要用在對并發(fā)要求非常高，但對模型本身能力要求沒那么極致的業(yè)務(wù)場景。選用 7B 的原因有三：一是推理速度快；二是部署成本相對較低；三是在兼顧性能和速度方面，它比較適合我們的某些特定任務(wù)。

至于為什么選 Qwen 模型，主要有以下幾點(diǎn)考慮：

生態(tài)系統(tǒng)成熟度與穩(wěn)定性： Qwen 的生態(tài)相對完善和穩(wěn)定，包括推理框架（如 vLLM， SGLang 等很早就適配）、微調(diào)工具鏈以及其他配套設(shè)施。相比之下，有些模型（比如 DeepSeek 的早期大參數(shù)版本）生態(tài)成熟和穩(wěn)定使用可能需要更長時(shí)間。

技術(shù)能力與業(yè)務(wù)契合度：我們做的是情感陪伴、泛心理相關(guān)的業(yè)務(wù)，主要面向國內(nèi)用戶。

首先排除了 Llama，雖然它生態(tài)好，但在中文能力，尤其是泛心理、情感陪伴這些垂直領(lǐng)域的能力上可能不足。

Qwen 對中文支持較好，并且在其預(yù)訓(xùn)練數(shù)據(jù)中也包含了一些泛心理、情感陪伴相關(guān)的內(nèi)容。基于這樣的模型進(jìn)行微調(diào)，更容易貼合我們的業(yè)務(wù)需求。

模型系列完整性：我們的業(yè)務(wù)涉及從 0.5B 到 72B 的多種尺寸。目前來看，只有Qwen提供了這樣完整的尺寸系列。如果不同尺寸用不同模型（比如 7B 用 Llama，72B 用 Qwen），會(huì)增加微調(diào)成本，需要在不同模型之間反復(fù)測試數(shù)據(jù)和超參數(shù)等。全系列使用 Qwen 系列，模型同宗同源，試錯(cuò)成本相對較低。

開源的持續(xù)性與可信賴度：我們之前用過零一萬物的模型，但后來他們在開源方面的策略調(diào)整了，這對我們來說比較被動(dòng)。阿里（Qwen）在開源上的舉措讓我們覺得比較可靠，相信他們會(huì)持續(xù)投入開源，這對我們長期依賴其模型進(jìn)行開發(fā)是重要的保障。

當(dāng)前大模型的使用和微調(diào)，面臨的挑戰(zhàn)有哪些？

左右：分開說一下，因?yàn)槲覀冇芯呱碇悄芎途€上互聯(lián)網(wǎng) 業(yè)務(wù)兩塊業(yè)務(wù)。

在具身智能方面，主要挑戰(zhàn)是推理成本和生態(tài)適配。

成本：為了隱私，模型需本地部署。如果用英偉達(dá)方案，端側(cè)推理卡很貴（幾百到幾千元），遠(yuǎn)超機(jī)器人本身的成本。推理速度也可能不夠快。

生態(tài)適配：如果換用國產(chǎn)算力芯片降低硬件成本，又會(huì)面臨生態(tài)不完善的問題。比如，讓國產(chǎn)芯片兼容最新的 Qwen 模型（特別是像 Qwen2-VL 等多模態(tài)模型），適配周期可能很長（比如一兩個(gè)月），我們等不起。由誰來做軟硬件適配（硬件廠？模型廠？我們自己？）也是個(gè)問題，我們自己做成本很高。

在線上互聯(lián)網(wǎng)業(yè)務(wù)方面，主要挑戰(zhàn)是模型能力和推理成本/延遲。微調(diào)成本相對較好。

模型能力：我們做情感陪伴，對情感的細(xì)粒度理解要求非常高。模型需要準(zhǔn)確捕捉用戶復(fù)雜的情感狀態(tài)。比如，用戶語音內(nèi)容積極但語氣糟糕，如果只靠 ASR 轉(zhuǎn)文本，會(huì)丟失大量情感信息。這就對模型的多模態(tài)理解能力提出了很高要求（結(jié)合文本、語音、視覺等）。

推理成本/延遲：我們的用戶量和 AI 使用量增長很快，推理成本壓力大。尤其是在高峰時(shí)段（如凌晨 0-1 點(diǎn)，峰值可能是平時(shí)的 3-4 倍），需要有效調(diào)度潮汐算力，以低成本覆蓋流量洪峰，同時(shí)保證模型和算力能承載。

當(dāng)前模型的能力，滿足你們的業(yè)務(wù)場景需求了嗎？

左右：我們做的業(yè)務(wù)場景專注于情感、情緒化的泛心理應(yīng)用場景，大多數(shù)模型廠商在預(yù)訓(xùn)練或后訓(xùn)練階段都不會(huì)特別關(guān)注這部分?jǐn)?shù)據(jù)。另外，即使是數(shù)據(jù)合成或蒸餾，其結(jié)果和真實(shí)用戶的查詢之間仍有很大差距。這就是我們堅(jiān)持要做 Post-training（后訓(xùn)練/微調(diào)）的原因。

我們對基礎(chǔ)模型的要求主要是通用能力（General Ability），而不是特定領(lǐng)域能力（Domain Ability）。如果基礎(chǔ)模型的通用能力足夠好，我們在做 Post-training 時(shí)就更容易把它擬合到我們想要的方向。如果通用能力不行（像 2023 年那樣），即使有高質(zhì)量的領(lǐng)域數(shù)據(jù)也很難調(diào)好。

而且需要注意，針對特定領(lǐng)域（如泛心理、情感陪伴）做 Post-training，通常會(huì)對模型的其他通用能力（如代碼、數(shù)學(xué)）造成一定的損害。我們的目標(biāo)是把這種損害控制在可接受范圍內(nèi)（比如通用指標(biāo)下降 2 個(gè)點(diǎn)以內(nèi)），同時(shí)在我們的核心領(lǐng)域能力上實(shí)現(xiàn)顯著提升（比如比通用模型高 10 個(gè)點(diǎn)）。最近我們也會(huì)把內(nèi)部的泛心理基座模型面向社區(qū)開源，反哺開源社區(qū)，推動(dòng)此方向上的技術(shù)發(fā)展。

如何看待目前以 DeepSeek、Qwen、Llama 為代表的開源模型的發(fā)展？

左右：對開源模型整體的期待是盡可能追平閉源頂尖模型（如 Claude， GPT-4/4o）。雖然現(xiàn)在還沒有完全追上，但開源模型比閉源更 Open，至少能拿到權(quán)重。

更具體的期待是希望它們能 release 更多的技術(shù)細(xì)節(jié)。Llama 3 和 DeepSeek 的技術(shù)報(bào)告相對詳細(xì)，希望 Qwen 也能更開放地分享技術(shù)路線、探索出的數(shù)據(jù)配比等。

從差異性看：

DeepSeek 更激進(jìn)、理想化，在 MoE、原生多模態(tài)、代碼等方面探索較前沿。

Qwen 和 Llama（Qwen 早期 follow Llama，現(xiàn)在已逐漸超越）更注重社區(qū)和通用性，需要考慮更廣泛的用戶和場景，技術(shù)選型上可能相對穩(wěn)健。

這種差異化定位在開源社區(qū)里是正常的。

覺得當(dāng)前大模型創(chuàng)業(yè)最容易被忽視的坑是什么？

左右：我覺得一個(gè)比較大的問題是模型與產(chǎn)品的適配度，以及對 AI 在產(chǎn)品中角色的理解。

很多人認(rèn)為 AI 來了，可以用它重做一遍舊需求，或者簡單地把 AI API 接到舊產(chǎn)品上。但我認(rèn)為 AI 更多是后端能力，是處理信息的工具，而不是直接交付結(jié)果的前端界面。

現(xiàn)在很多產(chǎn)品給用戶的感覺是直接在和一個(gè)聊天機(jī)器人對話。但在我看來，AI 應(yīng)該藏在后端，用來深度處理用戶的輸入，實(shí)現(xiàn)真正的個(gè)性化，然后再交付結(jié)果。

例如，在情感陪伴中：

用戶發(fā)來語音，AI 不僅是轉(zhuǎn)文本，更應(yīng)該分析語氣、語調(diào)，并將這些情感信息融入 Prompt。

AI 應(yīng)該分析對話上下文的邏輯、情緒變化，讓下一輪的回復(fù)體現(xiàn)出這種個(gè)性化，而不是千篇一律地遵循某個(gè) System Prompt。

很多開發(fā)者追求簡單的「端到端」，認(rèn)為大模型能簡化一切。但在很多領(lǐng)域（尤其情感），原本需要復(fù)雜處理的環(huán)節(jié)，現(xiàn)在依然需要，甚至可以借助 AI 做得更精細(xì)。直接用 AI 替代這些環(huán)節(jié)，可能導(dǎo)致產(chǎn)品缺乏深度和個(gè)性化。

我認(rèn)為正確的模式應(yīng)該是「X + AI」**，而不是「AI + X」。核心是挖掘和理解用戶需求（X），然后思考如何用 AI 更好地解決這個(gè)需求。而不是有了 AI 技術(shù)，再去找一個(gè)場景（X）去套用。

一個(gè)重要的觀察指標(biāo)是用戶留存。很多 AI 產(chǎn)品（如一些角色扮演應(yīng)用）留存很差，這往往意味著產(chǎn)品沒有抓住用戶的真實(shí)痛點(diǎn)，個(gè)性化做得不夠好。如果你的產(chǎn)品是基于真實(shí)需求（X）構(gòu)建的，留存通常不會(huì)是核心問題。現(xiàn)在很多產(chǎn)品可能是在做一個(gè)偽需求。

隨著Qwen、DeepSeek等中國開源模型在國際舞臺(tái)嶄露頭角，一場由技術(shù)生態(tài)驅(qū)動(dòng)的全球化進(jìn)程正在加速。心言集團(tuán)的實(shí)踐表明，開源不僅為中國企業(yè)提供了彎道超車的技術(shù)路徑，更創(chuàng)造了“全球協(xié)作-垂直創(chuàng)新-生態(tài)反哺”的良性發(fā)展模式。在這場靜水深流的技術(shù)革命中，心言集團(tuán)也將聚焦泛心理發(fā)展的AI化與具身化，繼續(xù)以開源為舟，以創(chuàng)新為帆，駛向情感計(jì)算領(lǐng)域的星辰大海。

久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

心言集團(tuán)高級(jí)算法工程師在Qwen 3發(fā)布之際再談開源模型的生態(tài)價(jià)值

隨意打賞

北京人形機(jī)器人開源社區(qū)已上線

阿里通義 Qwen3 上線，開源大軍再添一名猛將

DeepSeek 發(fā)布 Prover-V2 模型；小米首個(gè)推理大模型開源；餓了么宣布超百億補(bǔ)貼加入外賣戰(zhàn)局

智象未來開源圖像生成模型HiDream

小米推出首個(gè)推理開源大模型Mimo！以7B參數(shù)打敗OpenAI o1

小米首個(gè)推理大模型開源數(shù)學(xué)與代碼測評超越OpenAI

給大樓裝上“智慧大腦” ，首個(gè)開源鴻蒙智慧樓宇樣板點(diǎn)發(fā)布

青云科技入選信通院“開源大模型+”創(chuàng)新應(yīng)用典型案例

基于開源鴻蒙打造，華龍工業(yè)操作系統(tǒng)亮相2025成都工博會(huì)