部署 AI,到底選云還是高性價比一體機?
自年初 DeepSeek 爆火后,越來越多企業開始嘗試通過 AI 提升效率。此時擺在面前的問題是:到底是通過云服務購買 Token,還是采購 AI 一體機或服務器進行私有化部署?
多位業內人士對雷峰網 (公眾號:雷峰網) 表示,從長遠看,基于云的 AI 部署方式將成為主流。一方面,AI 能力仍在快速演進;另一方面,企業在探索 AI 應用的過程中,其所需的算力和能力也會不斷變化,云計算因而展現出更強的靈活性和部署效率。
在2025火山引擎春季原動力大會的英特爾分論壇上,英特爾技術專家對雷峰網表示:“一些企業的需求長期穩定,一旦現有AI解決方案成功部署,就不需要頻繁更換解決方案,這類客戶更傾向于私有化部署。”
正如華勝天成助理總裁郭濤在論壇上所言:“ AI 的價值不在技術本身,而在于是否真正幫助客戶降本增效。 ”
因此,AI 部署方式的選擇應依據企業的業務需求和特點而定,甚至可以采用云與私有化結合的混合部署方案。因為英特爾與火山引擎合作,提供既支持私有化、又支持云端部署路徑。
值得一提的是,AI部署不是非GPU不可,至強CPU在許多場景中也是非常好的選擇。
云端彈性算力部署 AI,成本最高可節省 83%
云端部署之所以被認為是未來主流,關鍵在于其彈性算力和高性價比。
“圍繞大模型的負載,不僅需要大量的GPU算力,同時也需要CPU的算力協同配合,這種分工模式要求企業必須同步升級兩類算力資源,以滿足端到端的AI業務需求。”火山引擎云基礎產品經理負責人李越淵指出,火山引擎ECS通過高度協同CPU與GPU,提升數據處理效率;提供高彈性,并且能夠保障客戶的安全隱私。
火山引擎2025春季原動力大會上,火山引擎與英特爾聯合發布了全新第四代 ECS 實例家族, 基于最新的英特爾至強 6 處理器,性能與架構全面升級。
相較前一代實例,通用計算基礎型實例g4i在MySQL數據庫與Web應用中分別實現了20% 和19%的性能提升;算力增強型實例在視頻解碼和圖像渲染上分別提升15%和26%;I/O增強型實例在Spark大數據與Redis數據庫上實現了13%和30%的提升。
第四代 ECS 實例的網絡與存儲能力也實現全面升級,整機網絡和存儲帶寬提升100%,IOPS 和PPS提升30%以上,CPU主頻提升20%。
除了通用場景的性能提升,針對AI應用,基于最新四代實例,火山引擎聯合英特爾在RAG 應用進行了深度優化 ,涵蓋上傳文檔處理、Embedding 向量化、向量檢索、Reranking 排序四大環節。借助至強6處理器內置的AMX加速指令集,任務耗時最多可減少90%,顯著提升全鏈路效率。
針對廣泛應用于推薦和廣告投放的經典 WDL(Wide & Deep Learning)模型,火山引擎與英特爾團隊進行了深入研究,通過AMX優化,CPU的推理性能實現了質的飛躍。優化后,CPU實例吞吐能力提升114%,顯著提升模型推理效率。
這些提升都以英特爾至強6處理器性能的大幅提升作為基礎,在通用計算、Web service及AI等領域,至強6的6900系列CPU性能總體提升高達2倍以上,同時提高了1.4倍的性能功耗比改善。
相同功耗的情況下,至強6處理器相對上一代提升了1.4倍以上的性能。如果核心數固定,除了功耗改善之外,仍然可以提供20%的性能提升。對于云計算,至強6可以實現2倍的核心密度、20%的單核性能提升、60%的性能功耗比,以及最終會實現代際的30%的TCO收益。
結合火山引擎推出了業界首創的"彈性預約實例"售賣模式,客戶可以提前預約抖音的潮汐資源,同時獲得按量使用的體驗以及接近包年包月的價格。
李越淵介紹, 相較常規按量計費實例,彈性預約實例使用方式下,最高能夠節省83%的算力成本, 目前彈性預約的售賣方式已全面支持CPU和GPU實例。
如何降低云端部署 AI 的門檻?
云計算彈性靈活的另一面,是有一定的開發門檻。降低開發門檻,依賴好的軟件棧。
英特爾專家表示, 優秀的軟件棧需要具備幾個條件: 首先,具備開箱即用性,能在新環境中快速啟動并運行一個具有實際價值的“Hello World”示例,幫助用戶快速上手;
其次,應具備可觀察性與可修改性,核心組件應透明可見、可調整,避免成為“黑盒”,這也是開源的重要價值之一;
最后,考慮到AI應用的復雜性,軟件棧應具備良好的模塊化與容器化架構,便于靈活組合與高效部署。
綜合以上的考量, 英特爾基于開源項目OPEA,將其變成了一個集成類的開源項目,并且在火山云上提供了一個基于OPEA的開發環境 ,提供了像聊天機器人的應用,后續還將持續更新。
這只是入門,要落地AI還需要持續進階。“通過系統化的設計之后,我們在網上推出了‘云端進化論’系列課程,通過在線提供的進階視頻,讓開發者看到整個鏈路里端到端的技能分解評估和優化的手段。”英特爾技術專家介紹。
為進一步應對 AI 的系統復雜性,英特爾將各種服務通過容器化的方式封裝,在火山引擎上提供十幾種不同的服務,幫助開發者好理解其內在邏輯的同時,后期開發者無論做關鍵模塊的替換、升級或者做多個實例的擴展,微架構的方式都更加方便。
目前,在火山引擎 g4il 實例中,用戶可在操作系統選項中看到一個名為“開源大模型應用知識問答”的新鏡像,基于 OPEA,經過選擇、點擊、啟動的步驟,即可在兩分鐘內部署一個可用的聊天機器人實例。
進階到更復雜的 Agent 應用,英特爾將 RAG 知識庫、工具鏈與多模態組件封裝為 MCP Server,通過統一接口向 Agent 開放調用。
“通過和火山引擎的合作,我們提供了低門檻、觸手可及的硬件環境,提供了開放、白盒使用的軟件棧,提供了豐富的從專門到專家,從簡單到復雜全套的培訓視頻。”英特爾技術專家說,“這些都是為了降低AI在云端部署的門檻。”
當然,AI 普及的仍需要產業協作。
正如 英特爾中國互聯網行業總監李志輝所說:“芯云協同已進入新階段,從技術融合邁向生態共建。我們呼吁更多合作伙伴共同參與,建立跨芯片、云服務、應用層的開放標準,降低生態協作成本。”
32B 模型:邊緣部署 AI 的甜點
即便云計算足夠靈活高效,對于高度關注隱私的企業而言,私有化部署仍是首選,而高性價比的一體機是其理想之選。
這類方案不僅要求硬件平臺性價比高,還要確保 AI效果能滿足業務需求。
“32B的模型是一個很好的價值點。”英特爾技術專家說,“32B模型的性能表現出色,遠超足夠好的范圍。另外,因為模型相對小,對算力的需求比較低,使用消費級GPU就能滿足一些邊緣應用落地的需求。”
基于英特爾至強處理器和多張英特爾銳炫顯卡的一體機解決方案,采用全新的英特爾銳炫 Pro B60,單卡可提供24GB顯存,在上下文擴展和并發擴展等場景中,提供更強的處理能力。
不過,硬件只是基礎,開發者更關心遷移成本。為此,英特爾提供了包括 vLLM、PyTorch 在內的完整軟件棧及服務化企業 AI 平臺(EAP),幫助客戶順利遷移至英特爾平臺。
“我想強調,除了提供這套服務之外,我們和業界很多的應用打通,比如說英特爾與跟火山引擎的HiAgent合作。”英特爾技術專家表示。
HiAgent 是火山引擎基于 Agent DevOps 理念打造的智能體平臺,支持模型接入、推理、精調及私有化集成。在英特爾的一體機方案中,用戶可直接部署HiAgent滿足企業級AI私有部署需求。
目前,英特爾與火山引擎HiAgent、華勝天成聯合打造了基于英特爾銳炫顯卡算力平臺的HiAgent一體機方案,能夠為市場提供高性價比、可擴展性更強的AI一體機方案。
華勝天成在自身的業務中積極推進 AI 落地,并將其服務能力拓展至更多客戶。作為擁有 20 年智能呼叫中心經驗的企業,華勝天成打造的智能體產品已廣泛應用于金融、煙草、汽車等多個行業。
華勝天成的另一個產品投標大王,最早是用于內部,因為華勝天成作為一家集成商,每年要投上千個標,使用了投標大王之后,提高了近50%的效率。
如今,到底如何部署AI的答案已不再模糊。無論是技術上還是生態上,英特爾、火山引擎等合作伙伴均已提供完備的私有化與云端 AI 解決方案,并持續降低部署門檻。
關鍵在于,企業能否找到適合應用 AI 的業務場景,將其價值真正落地。
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。