中文公共語料庫建設新范式:騰訊AI向善語料庫正式開放申請
2025年7月11日,騰訊AI向善語料庫開放發布會在北京舉行,這次發布會的主題是“AI時代沒有旁觀席,AI普惠一個不能少”。發布會上,騰訊與百余家社會組織公益共創的 AI向善語料庫(老年文本庫) 正式面向公益組織和非營利性研究機構開放申請,這是國內外首個通過社會公益共創構建,又面向公益組織開放的老年語料庫,在一定程度上開創了公共語料庫構建與開放的新范式。
盡管人工智能技術的迅猛發展使產業效能得到了很大的提升,但也有一個迫切的社會議題逐漸浮現:AI如何才能為更多普通人提供實實在在的幫助和賦能?眾所周知,高質量的語料在AI訓練和產品創新中扮演著至關重要的角色,然而與老年人、殘障朋友、留守兒童等社會困弱群體相關的語料卻非常少,如此一來,為他們服務的AI產品就不容易做好。長此以往,“弱者恒弱”在AI時代下愈加顯著,本就隱形、邊緣的社會困弱群體,在AI時代下難以享受到平等的 科技 賦能。
社會共創+公益共享,打造中文公共語料庫新范式
2024年8月始,騰訊與數百家專業的社會組織共同發起了一項名叫“AI向善語料庫”的社會共創計劃,通過公益共創合力打造了一個面向社會困弱群體的專家級問答語料庫。騰訊可持續社會價值創新事業部負責人陳菊紅女士在連線發布會現場時指出,AI時代下如果人類不在前期做更多的事情,就可能造成“弱者恒弱”的局面,通過公益共創的方式與社會各界一起構建面向社會困弱人群的AI訓練語料庫是一個不錯的嘗試。AI向善語料庫在推進中有一句被公益組織口口相傳的“口號”——“先共創,再共享,先愛,再AI”,詮釋了這一行動在中文公共語料庫構建上的路徑——通過公共協作,回歸公益初心,將一線專家們的“人文關懷”收錄到“AI向善語料庫”中,再應用在公益事業上,助力更多服務這些社會困弱人群的公益組織提升AI能力。
積極應對老齡化,為AI養老免費提供“第一桶金”
人口老齡化是社會發展的重要趨勢,是人類文明進步的重要體現,也是我國今后較長一個時期的基本國情。預計到2035年左右,我國60歲及以上老年人口將突破4億人,占比超過30%,進入重度老齡化階段。養老服務業既是涉及億萬群眾福祉的民生事業,也是具有巨大發展潛力的朝陽產業,然而,許許多多養老福利領域的公益組織,雖然也想探索科技創新,但是苦于沒有數據資源,也沒有孵化AI助手的經驗。騰訊AI向善語料庫的首個主題正是聚焦于此,本次開放申請的語料庫主題是老年人日常生活,包含8047組老年人日常生活常見問題的問答對,含有健康、心理、關系等多個方面,公益組織與非營利性研究機構不僅可免費申請全量數據,還可依托騰訊益仔平臺得到一站式AI服務。騰訊集團高級副總裁郭凱天先生與發布會現場視頻連線時也提出了期待,他希望未來能在老年人真實的生活場景中把AI向善語料庫用起來,推動涌現出更多幫助社會困弱人群的AI產品和服務。
沒有全能的AI訓練語料庫,但有無限的AI向善未來
本次發布會上,清華大學未來實驗室的何麗雯女士代表實驗室研究團隊對AI向善語料庫進行了使用方法的介紹,并進行了專業系統的評估,她指出,搭載了AI向善語料庫后,大模型并非在所有維度上都得到了顯著提升,但是在對老年人情感支持和文化適應性方面有了明顯的提升。騰訊SSV產品經理周瀅埡和復旦大學老齡研究院申琦教授分別介紹了公益組織和研究機構申請AI向善語料庫的流程。北京郵電大學張為威老師和AI4GOOD公益產品經理孫心怡,分別作為AI向善語料庫的學者使用方、公益機構使用方,介紹了自己的使用經驗和AI作品。
本次AI向善語料庫開放發布會不僅是AI訓練公共語料素材的展示與討論,更是一場關于科技向善、AI普惠的探索實驗,它匯聚了產學研各界力量,共同討論如何為技術注入人情味,讓科技發展的紅利惠及每一位社會成員,真正實現“AI普惠一個不能少”的愿景。