容聯(lián)云知識(shí)圖譜Demo論文被數(shù)據(jù)挖掘頂級(jí)國(guó)際會(huì)議CIKM 2022錄用
近日,信息檢索和數(shù)據(jù)挖掘領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議CIKM公布了2022年Demo論文的錄用結(jié)果,容聯(lián)云人工智能實(shí)驗(yàn)室(Cloopen Research)與南開(kāi)大學(xué)合作的論文《DASH: An Agile Knowledge Graph System Disentangling Demands, Algorithms, Data Sources, and Humans》已被CIKM 2022錄用。
CIKM起始于1992年,是信息檢索和數(shù)據(jù)挖掘領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議。
隨著人工智能的發(fā)展,知識(shí)圖譜已成為理解與利用多源異構(gòu)數(shù)據(jù)的有效方法。通過(guò)實(shí)現(xiàn)“數(shù)據(jù)→知識(shí)→知識(shí)圖譜”的轉(zhuǎn)化,可有效支撐多樣化的下游應(yīng)用,包括智能問(wèn)答、信息檢索、內(nèi)容推薦、 金融 風(fēng)控、精準(zhǔn) 營(yíng)銷 獲客等。
近年來(lái),以谷歌、百度、微軟為代表的頭部 互聯(lián)網(wǎng) 企業(yè)依托其“數(shù)據(jù)—業(yè)務(wù)—技術(shù)”的成熟閉環(huán),已經(jīng)成功實(shí)現(xiàn)了通用知識(shí)圖譜(General-purpose Knowledge Graphs)的構(gòu)建與落地應(yīng)用。
與頭部互聯(lián)網(wǎng)企業(yè)不同,多數(shù)企業(yè)需要構(gòu)建并利用領(lǐng)域知識(shí)圖譜(Domain-specific Knowledge Graphs)來(lái)支撐不同的業(yè)務(wù)需求。與通用知識(shí)圖譜相比,領(lǐng)域知識(shí)圖譜更強(qiáng)調(diào)知識(shí)深度,是支持Al大腦深度思考的基礎(chǔ),同時(shí)也是未來(lái)主要的增長(zhǎng)點(diǎn)。通過(guò)知識(shí)圖譜技術(shù)來(lái)量化和刻畫企業(yè)在物理世界里的生產(chǎn)要素、經(jīng)營(yíng)活動(dòng)、業(yè)務(wù)知識(shí)、業(yè)務(wù)規(guī)則等,是企業(yè)的數(shù)字孿生智能體。
然而,受技術(shù)和成本雙重約束,大多數(shù)中小型互聯(lián)網(wǎng)企業(yè)、非互聯(lián)網(wǎng)企業(yè)在構(gòu)建并使用領(lǐng)域知識(shí)圖譜時(shí)仍然面臨許多挑戰(zhàn):
挑戰(zhàn)1:?在知識(shí)圖譜構(gòu)建階段,如何適應(yīng)動(dòng)態(tài)變化的知識(shí)類型(例如關(guān)系、事件、意見(jiàn)要素等)和知識(shí)模式(schema)?
挑戰(zhàn)2:?在知識(shí)圖譜應(yīng)用階段,復(fù)雜的業(yè)務(wù)場(chǎng)景通常涉及多跳推理、數(shù)值計(jì)算等復(fù)雜查詢,如何準(zhǔn)確應(yīng)答?
挑戰(zhàn)3:?如何降低算法對(duì)人工標(biāo)注的依賴,實(shí)現(xiàn)對(duì)新業(yè)務(wù)、新場(chǎng)景的快速響應(yīng)?
面對(duì)上述挑戰(zhàn),通用知識(shí)圖譜的成功經(jīng)驗(yàn)難以直接遷移到大多數(shù)企業(yè)。因此,構(gòu)建一套低成本、可遷移的知識(shí)圖譜解決方案具有重要意義。
為了實(shí)現(xiàn)這一目標(biāo),論文提出了DASH設(shè)計(jì)理念(Disentangle Demands, Algorithms, data Sources, and Humans),即在知識(shí)圖譜構(gòu)建與應(yīng)用過(guò)程中將“業(yè)務(wù)、算法、數(shù)據(jù)、人力”解耦合,最大程度保證算法的標(biāo)準(zhǔn)化,降低企業(yè)接入知識(shí)圖譜的技術(shù)門檻。基于該設(shè)計(jì)理念,容聯(lián)云開(kāi)發(fā)了一個(gè)低成本、可遷移的敏捷知識(shí)圖譜系統(tǒng),該系統(tǒng)的整體架構(gòu)如下圖所示。
容聯(lián)云知識(shí)圖譜系統(tǒng)整體架構(gòu)
具體地,該系統(tǒng)配備了基于多輪機(jī)器閱讀理解的知識(shí)抽取方法(MRC- KE)、分層知識(shí)圖譜問(wèn)答方法(Hi-KBQA)和半自動(dòng)化數(shù)據(jù)積累方法等先進(jìn)技術(shù)。這些算法具有出色的可遷移性和準(zhǔn)確性,在面對(duì)新業(yè)務(wù)、新場(chǎng)景、新數(shù)據(jù)時(shí),可快速適應(yīng)少樣本、零樣本的情況,有效降低系統(tǒng)對(duì)人工標(biāo)注的依賴,實(shí)現(xiàn)更快捷的部署實(shí)施。此外,平臺(tái)也允許用戶根據(jù)業(yè)務(wù)需求靈活提供“行業(yè)知識(shí)、業(yè)務(wù)知識(shí)”,進(jìn)而實(shí)現(xiàn)便捷的“人機(jī)配合”。
該知識(shí)圖譜系統(tǒng)是容聯(lián)云在“通訊+AI”技術(shù)的雙輪驅(qū)動(dòng)下的新突破,有效推動(dòng)容聯(lián)云在自然語(yǔ)言理解、認(rèn)知智能等方向的技術(shù)提升。未來(lái),容聯(lián)云還將繼續(xù)深耕AI算法的深度研發(fā),持續(xù)投入AI技術(shù)與智能化的場(chǎng)景應(yīng)用挖掘,以領(lǐng)先的技術(shù)為企業(yè)的數(shù)智化升級(jí)賦能助力。