今年年初,國產大模型DeepSeek橫空出世,并在醫療體系內掀起了巨大聲浪。行業里幾乎每天都有不同醫院官宣接入DeepSeek大模型的消息發布,從最初的“全省首家”到后來的“全市80多家二級以上公立醫院全部接入”。據不完全統計,3個多月時間里,國內已有上千家醫院完成DeepSeek大模型在院端的本地化部署。
在眾多醫院的官方報道中,院端接入DeepSeek大模型后,能夠全面提升傳統AI的能效,應用場景主要集中在預問診、臨床輔助診斷、影像分析、個性化治療及院內流程優化等環節。比如上海華山醫院就曾披露稱,在DeepSeek深度融入醫院的核心信息系統后,高峰期患者的排隊時長減少了40分鐘,患者滿意度提升了近10個百分點。
但一段時間后,以DeepSeek為代表的大語言模型在醫院進行本地化部署的價值正在被重新評估。隨著DeepSeek大模型在醫院的不斷普及,困惑、失望甚至質疑的聲音也逐漸多了起來。
在《健聞咨詢》的采訪中,很多醫院在實際使用中遇到了“模型用不起來,算力閑置,錯誤太多,臨床反饋不敢用”等問題。某頭部三甲醫院的信息科主任更是直言,為了接入DeepSeek,醫院光硬件就花了300萬元,但落地的效果遠遠低于預期。
有知情人士透露,許多醫院在算力配置上的經費審批已經縮減,“目前已經進入了冷靜期”。
作為新一輪技術革命的底層構造,大模型已經在諸多領域自證價值。但對于醫院場景來說,大模型能在哪些關鍵環節提供幫助,能幫助到何種程度,仍然是一個未解的命題。
一、醫院紛紛嘗鮮,但臨床體感卻不佳
據了解,深圳大學附屬華南醫院是全國首個完成DeepSeek-R1本地化部署的醫院,時間是在今年2月7日前后,距離DeepSeek-R1模型發布的1月20日,僅僅過去了半個月。
在此之前,憑借ChatGPT的大熱,大模型在醫療行業已經是一個被反復討論的技術概念。部分資源豐富的頭部醫院早已下場,和相關的技術廠商圍繞大模型的技術框架開展了一些有針對性的研發合作,比如將ChatGPT的對話能力用于互聯網醫院場景中的智能客服,減輕就醫導診的壓力。
對于醫院這樣一個極度講求效率的場所來說,大模型確實具有一定的適配性。最初級的幾個場景包括線上預問診、生成式電子病歷以及院外的患者隨訪管理等。這些場景的共同特點是,需要用到大量的自然語言,容錯率相對較高。再進一步看,當大模型學習了足夠多的醫學知識和病患數據后,它將能夠在短時間內處理復雜的臨床信息,為醫生提供決策支持。
但在DeepSeek問世前,醫院對于大模型還只停留在“感興趣”的階段,原因是,不同于其它使用者,醫院的信息流中充斥著大量的患者數據,出于隱私保護和數據安全的考慮,這類數據只能在醫院內網中運行。這也意味著,醫院不太可能通過第三方的云端服務來外部調用大模型的算力,如果想用,就必須在院內安裝服務器,進行本地化部署。而早期的大模型非常消耗算力資源,想要在醫院這種高并發環境下順暢運行,光硬件配置都在數百萬到數千萬元不等。
DeepSeek的出現徹底改變了這個局面。通過混合專家架構 (MoE) ,DeepSeek不僅可以降低40%以上的算力消耗,還能在推理精度上保持競爭力,這一優化使得醫院在本地化部署大模型成為可能。“相比于OpenAI、Claude,在提供相似推理能力的前提下,DeepSeek的成本可以降到十分之一,甚至是二十分之一。”一位從事醫療信息化服務的資深人士表示。
多家醫院的采購公告顯示, 醫院本地化部署DeepSeek的預算大致在幾十萬元到一百萬元之間,其中70B和32B兩種參數模型最受青睞 。這也符合聯想醫療行業總監姚宇軒對醫院不同層次匹配的模型參數的定義。他認為,個人使用DeepSeek只要7B即可,科室級應用不要超過70B,只有頭部醫院全流程應用可以選671B滿血版,“但實際上我目前看到真正用到這么大模型的場景非常少,它更多還是支持小模型的并發。”
另一位行業人士宋坤 (化名) 則告訴《健聞咨詢》,給醫院做大模型的本地化部署,并沒有太高的門檻,傳統的醫療信息化服務公司都能做。據他所知,現在有不少互聯網醫療公司也盯上了這塊蛋糕,想來賺一筆塊錢,其中一家業務量比較大的,收費標準是每家醫院60萬元,目前已經做了幾十家,收入在短時間內就達到了千萬元級。
“大部分所謂的本地化部署,就是在醫院的HIS系統里開一個界面,讓你可以和DeepSeek對話,完成查詢檢索的基本功能,這個和我們遠程打開網頁調用DeepSeek,在使用上沒有任何區別。”宋坤表示,唯一的區別只是,通過私域服務器,醫院內網的數據既不會公開,也不會被大模型公司收走。
這個說法也在東部沿海某頭部三甲醫院的信息科主任金浩 (化名) 那兒得到了應證。金浩表示,為了彰顯醫院的決心和地位,他們在幾個月前就上了671B的滿血版DeepSeek,光H100顯卡就花了300萬元,但試用下來,效果相當拉跨,“ 最大的問題就是錯誤一堆,醫生不敢用,現在主要是用于寫一些行政文件 。”
采訪中,另一家南方三甲醫院的信息科主任也表示,DeepSeek部署完成后,他們上的第一個應用是行政總值小助手,第二個應用是科研小助手,這兩個應用的價值主要體現在醫院的內部管理,和臨床科室并沒有太大關系。
二、尋求最佳落地場景
對于醫院來說,理想的狀況是,引入大模型這樣的底層技術后,可以全面賦能院內的信息化系統,提升整體工作效率。
但事實上,這個設想基本不可能落地。主要原因在于,每家醫院內部都有幾十甚至上百個信息化系統,僅僅是讓DeepSeek和這些系統逐個完成對接,就需要耗費極大的資源和人力。更大的問題在于,即便對接上了,這些系統中還存有大量非標準化的、質量參差不齊的數據,對這些數據進行清洗治理又是一個耗時巨大的工程。
而對于醫院的管理者來說,對信息系統進行如此大范圍的改造升級,本來就要承擔風險。風險之一是,如果要動原來的系統,那就有可能在改造期間給醫院運行帶來未知的麻煩,一旦出了問題,誰來承擔責任。風險之二是,新系統做出來了,它是不是真的能比原來更好用,或者說好用多少,這一點大家并沒有共識。
“ 所以大多數時候,醫院部署完大模型后,就放在那兒了。 ”宋坤表示,據他的估算,這類現象在所有宣稱完成大模型部署的醫院中,出現得比較普遍。
另一個導致大模型在醫院臨床環節應用受阻的核心矛盾,在于大模型本身。大模型的技術底層是基于統計學習的概率響應,本質上來說,它并不能理解知識,只是根據某種概率原則,將互聯網上的信息重新組合拼接,再轉化成自然語言反饋出來。而互聯網上的信息大多數是沒有經過對錯定義的,這就導致了大模型會出現幻覺。
“這種錯誤在其它地方還好,在醫院里頭是要出大問題的。”金浩告訴《健聞咨詢》,他們早期讓臨床醫生試用過,后來發現大模型響應回來的東西存在很多問題,導致后來醫生這一端根本用不起來,“就是你本來自己做,2分鐘就做完了,現在大模型搞出來,你還得花5分鐘去校驗、修改,那就沒意義了嘛。”
針對大模型的這一弊端,金浩認為,最關鍵的還是要在后期做微調,要保證喂給它的語料,都是判定為對的知識,這樣才能提升大模型在醫學領域的專業程度。而這部分工作,既非預裝醫療應用的一體機可以解決,也不是醫療信息化公司能夠獨立交付的,它需要臨床醫生和技術專家在一個漫長的周期里高頻地溝通、碰撞、合作才有可能實現。
從投資回報的角度看,這顯然不是一筆劃算的買賣,但國內的一些頭部醫院已經開始了類似的探索。
上海仁濟醫院和螞蟻集團合作,花一年多時間構建了國內首個臨床專科推理數據集,這個針對泌尿外科的數據集包含了2132個問答對,對應25000多條診療依據和臨床數據,每一條數據都經過仁濟醫院泌尿外科醫生的確認。在高質量的語料喂養下,仁濟醫院的泌尿外科大模型的診斷準確率為69.81%,接近專科醫生的水平。
此外,上海瑞金醫院也攜手華為,在年初發布了瑞智病理大模型RuiPath。據了解,瑞金醫院從2021年就開始建設數字化智慧病理科,此次RuiPath的核心語料正是來自于瑞金醫院病理科積累的百萬級數字病理切片庫。在由病理醫生整理的常用問題測試中,RuiPath表現不俗,回答準確率在90%以上。
根據動脈網的統計,目前國內已經發布了22個專病專科垂直模型,這些模型均由頂級三甲醫院主導研發,比如北京協和醫院研發的罕見病大模型“協和·太初”、上海復旦大學附屬中山醫院的心血管專科大模型“觀心”、華西醫院的骨科大模型平臺“DeepJoint”、山東齊魯醫院的急性胸痛大模型“齊魯·心擎”等。
“大模型在醫療場景的落地,最終還是要直面臨床痛點,遵循客觀規律,專病專科大模型是目前業內認可度最高的方向之一。”宋坤表示,這類大模型雖然在前期會花費比較多的資源和代價,但一旦在臨床端獲得認可,就能創造巨大的經濟價值和社會效益,“尤其是在分級診療的大方向下,未來所有基層醫療機構都會是它們的潛在客戶。”
但至少在當下,對于爭相部署大模型的醫院來說,期待中的價值還遠沒有兌現。