久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

想要用好自然語言處理技術(shù),先要克服這些困難!

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  

雷鋒網(wǎng) :10月11日-14日在杭州舉辦的的云棲大會(huì)上,馬云公布達(dá)摩院的研究領(lǐng)域包括:量子計(jì)算、機(jī)器學(xué)習(xí)、自然語言處理、基礎(chǔ)算法、等前沿技術(shù)再次掀起了前沿科技討論的浪潮。

人工智能已經(jīng)是大部分普通人都耳熟能詳?shù)脑~匯,而人們對(duì)自然語言處理技術(shù)的了解程度卻大部分還停留在表面階段。本文根據(jù)達(dá)觀數(shù)據(jù)CEO陳運(yùn)文博士在數(shù)據(jù)驅(qū)動(dòng)大會(huì)演講內(nèi)容整理,分別就人工智能的基本發(fā)展、自然語言處理技術(shù)的基本內(nèi)容、自然語言處理應(yīng)用現(xiàn)狀和對(duì)企業(yè)的應(yīng)用價(jià)值等幾個(gè)方面做了詳細(xì)介紹。

本文由達(dá)觀數(shù)據(jù)根據(jù)陳運(yùn)文博士的演講分享整理所得,雷鋒網(wǎng)做了不改動(dòng)原意的編輯(內(nèi)容略有刪減)。

一、追本溯源:文本挖掘技術(shù)發(fā)展歷程

想要用好自然語言處理技術(shù),先要克服這些困難!

講人工智能必須講1956年的達(dá)將矛斯會(huì)議,機(jī)器翻譯和密碼破譯其實(shí)是1956年這些計(jì)算機(jī)的大牛們提出人工智能時(shí)一個(gè)很重要的驅(qū)動(dòng)因素。當(dāng)時(shí)達(dá)將矛斯會(huì)議十幾位大牛提出人工智能技術(shù)成熟的兩個(gè)標(biāo)志性目標(biāo)是:

?1. 在國際象棋上可以戰(zhàn)勝人類

?2. 在機(jī)器翻譯上能夠超越人類

大家都知道了目標(biāo)1早已經(jīng)完成。所有的棋類中圍棋是最后一個(gè)被攻克的。但是目標(biāo)2仍然未能完全實(shí)現(xiàn),這也可見語言理解的復(fù)雜度。

二、文本挖掘技術(shù)發(fā)展歷程和現(xiàn)階段流行方法

關(guān)于自然語言處理,學(xué)術(shù)界有兩個(gè)派別:

  1. 理性派 ,做結(jié)構(gòu)主義 ?認(rèn)為所有語言其實(shí)都有潛在內(nèi)生結(jié)構(gòu),都是有內(nèi)在的語法。

  2. 經(jīng)驗(yàn)派 ,是功能主義 ?認(rèn)為只要完成某一個(gè)功能就可以了,計(jì)算機(jī)完全不需要理解人說什么。

早期人工智能剛剛提出來,符號(hào)主義流行。在60年代時(shí)候用了很多的詞典和符號(hào)規(guī)則做自然語言的處理,但是后來發(fā)現(xiàn)這樣翻譯走不通。在70-80年代,在語法規(guī)則的基礎(chǔ)上,加上了語言模型,當(dāng)時(shí)很多語言專家做自然語言處理時(shí)遇到非常嚴(yán)峻的挑戰(zhàn),因?yàn)檎Z言不是特別嚴(yán)格的模型。例如:漢語特別靈活,很多時(shí)候是甚至沒有規(guī)則可言,習(xí)慣這么說,幾萬年來講著講著就講成現(xiàn)在這個(gè)狀態(tài)了。

90年代開始,統(tǒng)計(jì)學(xué)習(xí)模型異軍突起,今天看到大量自然語言處理的應(yīng)用都是基于統(tǒng)計(jì)學(xué)習(xí)的模型。 能夠講大數(shù)據(jù)也是因?yàn)楝F(xiàn)在已經(jīng)積累的文本數(shù)據(jù)非常多,我們每天在各平臺(tái)上看到、寫下的文字?jǐn)?shù)據(jù)都可以成為計(jì)算機(jī)訓(xùn)練的語料,通過訓(xùn)練能讓計(jì)算機(jī)發(fā)現(xiàn)語言的規(guī)律。

2010年以后深度學(xué)習(xí)是一波浪潮。可以看出深度學(xué)習(xí)是經(jīng)驗(yàn)派功能主義的典型表現(xiàn)。近幾年知識(shí)圖譜非常流行,它帶有結(jié)構(gòu),所以是理性派結(jié)構(gòu)主義的表現(xiàn)。目前很多主流方法是兩者做結(jié)合,統(tǒng)計(jì)學(xué)習(xí)方法加上一些結(jié)構(gòu),才能夠更好的理解、處理文字內(nèi)容。

三、文本結(jié)構(gòu)解析的三個(gè)層次

現(xiàn)在流行的方法從結(jié)構(gòu)的角度來說分三個(gè)層次:第一層詞語級(jí);第二層句法級(jí);第三層篇章級(jí)。

詞匯級(jí)有很多具體的模塊開發(fā),結(jié)構(gòu)分析包括句子結(jié)構(gòu)之間的關(guān)系等。想想我們學(xué)漢語的時(shí)候先認(rèn)識(shí)基本字,再找詞。在漢語里面單詞表現(xiàn)很弱,兩個(gè)字或者三個(gè)字才構(gòu)成一個(gè)有表達(dá)力的詞。

比如【公司】是一個(gè)詞,但是拆出來,公沒有表達(dá)能力,司也沒有表達(dá)能力。組詞之后是造句,很多句法構(gòu)成了一篇作文。同樣,讓計(jì)算機(jī)來閱讀文字從結(jié)構(gòu)角度來說是相似的,先讓計(jì)算機(jī)看字、詞,然后理解句子的意思,最后理解整篇文章每個(gè)段落的含義。

知識(shí)圖譜的作用是沉淀領(lǐng)域知識(shí),利用這些結(jié)構(gòu)化的背景知識(shí)更好的理解文本語義。例如你是一個(gè)律師,在閱讀法律的文章的時(shí)候,背后隱藏著對(duì)這個(gè)法律行業(yè)相關(guān)知識(shí),建立起這個(gè)行業(yè)領(lǐng)域知識(shí)的知識(shí)圖譜才可以更好完成文字閱讀。知識(shí)圖譜的核心在于構(gòu)建{實(shí)體E - 屬性A - 關(guān)系R}三元素。

四、文本挖掘基礎(chǔ)性應(yīng)用類型劃分

計(jì)算機(jī)不像人一樣真的可以閱讀文字,計(jì)算機(jī)很多時(shí)候是輸入一段字庫,輸出相應(yīng)的結(jié)構(gòu)。一邊是編碼,一邊是解碼。

想要用好自然語言處理技術(shù),先要克服這些困難!

?文本挖掘基礎(chǔ)應(yīng)用的類型可以分為四大類:

1. 抽取。 計(jì)算機(jī)想要自動(dòng)解析文本,需要能夠識(shí)別很多關(guān)鍵要素。例如,當(dāng)計(jì)算機(jī)閱讀一份法律合同文書時(shí),能夠識(shí)別里面的判決書編號(hào)、被告人、辯護(hù)人、判決依據(jù)等等,并能夠從文本中提取出這些要素進(jìn)行結(jié)構(gòu)化處理。對(duì)于很多文本密集的行業(yè),抽取這件事情很有價(jià)值。

2.劃分。 舉一個(gè)應(yīng)用的案例,企業(yè)拿到大量客戶的意見,需要知道這些意見哪些是好的哪些是壞的,不同的意見需要后續(xù)給哪個(gè)部分負(fù)責(zé)處理,這些是典型評(píng)論意見觀點(diǎn)的識(shí)別和觀點(diǎn)劃分的應(yīng)用。

3.轉(zhuǎn)換。 談到轉(zhuǎn)換我們既可以讓計(jì)算機(jī)進(jìn)行語言的轉(zhuǎn)換,也可以讓計(jì)算機(jī)把文本轉(zhuǎn)換成更正確的語言方式。例如下面這份刑事裁定書里面有很多不符合語法習(xí)慣的地方,“政治權(quán)力”“云南省趨近市”這些都是錯(cuò)誤的表達(dá),計(jì)算機(jī)能智能的幫人們發(fā)現(xiàn)并修改錯(cuò)誤。

? 想要用好自然語言處理技術(shù),先要克服這些困難!

4. 合成。 計(jì)算機(jī)寫作也許是未來比較熱門的行業(yè)。目前的寫作還是以模板為主,比如基于一些合同模板把要素填寫進(jìn)來。但未來我們希望除了模板外,計(jì)算機(jī)還可以幫助人們修改潤色文章。甚至可以擺脫模板的方式,通過“閱讀”大量的文字來實(shí)現(xiàn)機(jī)器寫作。

五、常見數(shù)據(jù)類型及其中文本數(shù)據(jù)特點(diǎn)

從企業(yè)角度來說公司都有很多數(shù)據(jù)。傳統(tǒng)意義上會(huì)認(rèn)為像阿拉伯?dāng)?shù)字一樣的叫做數(shù)據(jù),比如企業(yè)的財(cái)務(wù)報(bào)表,經(jīng)營狀況,APP每天日活……除了這些之外還有一些其他數(shù)據(jù),比如文字型的數(shù)據(jù):新聞內(nèi)容,商品介紹,用戶評(píng)論,企業(yè)內(nèi)部各種各樣的合同……這些都是數(shù)據(jù),達(dá)觀數(shù)據(jù)就是專業(yè)處理文字型數(shù)據(jù)的企業(yè)。

文字?jǐn)?shù)據(jù)處理有什么特點(diǎn)?它是信息的抽象提煉。這些數(shù)據(jù)其實(shí)是“一句話濃縮了很多內(nèi)容”。文字?jǐn)?shù)據(jù)的場景非常多,差別也很大。比如說有的場景中用戶的評(píng)論數(shù)據(jù)都是很短幾十個(gè)字的,同時(shí)也會(huì)有一些合同文本和法律文書,這些內(nèi)容的字?jǐn)?shù)則是上千字和上萬字。

各種各樣的長短文本,如果能夠讓計(jì)算機(jī)代替原來的人工進(jìn)行自動(dòng)化做處理,便可以發(fā)揮很大的價(jià)值。在一些垂直行業(yè)中,比如人事行業(yè),法律行業(yè),財(cái)務(wù)行業(yè)都有大量的資料。讓計(jì)算機(jī)自動(dòng)來分析這些文字資料,并自動(dòng)來理解這些內(nèi)容,這是非常有意義的事情。

六、文本挖掘技術(shù)的應(yīng)用現(xiàn)狀

大家知道谷歌、百度這樣搜索引擎,搜索引擎本身就是一個(gè)文字挖掘的人工智能系統(tǒng)。文字搜索這件事情創(chuàng)造了非常大的經(jīng)濟(jì)效益。但這個(gè)領(lǐng)域遇到挑戰(zhàn)也非常大,尤其是中文的文字處理困難重重,雖然我們每天都在流暢地使用中文,但計(jì)算機(jī)識(shí)別中文的時(shí)候發(fā)現(xiàn)中文語法非常不嚴(yán)格,行文很隨意,這導(dǎo)致了讓計(jì)算機(jī)處理、理解這些文字的時(shí)候很難處理的非常好,這也是由于中文天然存在著某些問題。

七、文本挖掘的三個(gè)技術(shù)挑戰(zhàn)

讓計(jì)算機(jī)來做自然語言處理或者挖掘,有什么新的技術(shù)挑戰(zhàn)?首先來看一些具體的例子。

挑戰(zhàn)一:字詞關(guān)系的處理

對(duì)于漢語來說表達(dá)一個(gè)基本概念就是一個(gè)詞。但是讓計(jì)算機(jī)來理解字詞之間的關(guān)系很困難,因?yàn)橛?jì)算機(jī)需要挖掘很多詞和其他詞之間的關(guān)系。比如說相關(guān)詞,同義詞,甚至還有單詞。進(jìn)一步還要做同義詞、反義詞、近義詞的關(guān)系和挖掘,然后還要跨語言,還有英文的同義詞,外文的簡稱等等。

比如“中華人民共和國”是一個(gè)大詞,它有很多詞構(gòu)成。共和國跟它的意思接近,中國和中華人民共和國的意思也有接近,甚至有時(shí)候一個(gè)單詞叫“中”,比如說中美談判,這個(gè)“中”的單字在這個(gè)語境里面表達(dá)的意思就是中華人民共和國。那么計(jì)算機(jī)如何判斷“中”是不是表達(dá)中華人民共和國還是表達(dá)河南方言“好”的意思?

還有局部轉(zhuǎn)義問題。比如說巧克力囊腫是一種常見的腫瘤名稱,但是把巧克力拿出來是一個(gè)食物,在理解時(shí)它不會(huì)看到這句話把其理解為一個(gè)可以吃的東西。比如還有球鞋,運(yùn)動(dòng)鞋,跑步鞋需要判斷什么時(shí)候是同義詞,什么時(shí)候是有差別的。

中文上下文有很多歧異地地方?!耙馑肌边@個(gè)詞就有很多的意思。比如說“什么意思”“小意思”“沒意思”“意思意思”每一個(gè)表達(dá)都不一樣。漢語非常復(fù)雜,比如說“我不方便”“他在方便”。一個(gè)老外學(xué)中文,中文老師告訴他方便就是上廁所的時(shí)候,第二天這個(gè)人聽到說“你什么時(shí)候方便我請(qǐng)你吃飯。”老外當(dāng)時(shí)就暈倒了。中文中復(fù)雜的的歧異,這也是讓計(jì)算機(jī)像人一樣閱讀文章時(shí)必須克服的困難。

挑戰(zhàn)二:歧義語義的理解

像“咬死了獵人的狗”,這句話一種是主語被省略了,主語可能是一只老虎、一只狗,它咬死獵人的狗,這時(shí)狗是賓語。還有一種情況狗是主語,咬死了獵人是修飾詞。這兩種理解方式都對(duì),我們需要結(jié)合上下文才能理解。比如說“做手術(shù)的是他的父親”這句話有兩種理解方法,有一種是他的父親是醫(yī)生做手術(shù),一種是他的父親生病了做手術(shù)。漢語不像英語有主動(dòng)時(shí)態(tài)和被動(dòng)時(shí)態(tài),它很模糊。還有“五個(gè)公司的工程師”工程師是五個(gè)人,還是公司是五個(gè)人,這個(gè)范圍也不一樣。

這些代表著計(jì)算機(jī)處理詞語歧義是非常大的問題,需要很多算法解決歧義識(shí)別問題。像章詞法、句法、上下文等等。

挑戰(zhàn)三:多樣化的句式結(jié)構(gòu)的解析

搜索引擎經(jīng)常需要處理意思一樣,但是文字表達(dá)方式不一樣的情況。這種情況下我們常見的處理方法叫做語義的規(guī)一劃,這也是處理搜索引擎詞時(shí)經(jīng)常遇到的問題。他的字一樣但是順序不一樣。

漢語很神奇,我們說“你上班了嗎?”、“班你上了嗎”、“你上班了嗎”、“你班上了嗎”意思是接近的。常見的做法是通過定位和調(diào)整主謂賓定狀補(bǔ)等句子元素,生成句法依存樹來理解句子結(jié)構(gòu)。

“達(dá)觀是技術(shù)驅(qū)動(dòng)的企業(yè)”這句話中達(dá)觀是一個(gè)主語?還是一個(gè)謂語?做這樣的解析才可以理解這句話的意思。我們語言系統(tǒng)經(jīng)過幾千年的進(jìn)化非常發(fā)達(dá),但計(jì)算機(jī)只能拆開來,揉碎了,才可以像人一樣閱讀文字,理解人的功能。

八、確保文本挖掘技術(shù)效果的兩個(gè)要點(diǎn)

要點(diǎn)1:因地制宜 針對(duì)特定應(yīng)用場景定制語言模型

雖然用的都是漢語或英語,但在在不同的場景需要的方法有很大不同。例如:讓計(jì)算機(jī)自動(dòng)提取合同文本信息,自動(dòng)判斷合同文本中關(guān)聯(lián)的要素和法律風(fēng)險(xiǎn),這些文本都有一定的潛在的語法結(jié)構(gòu)。在做具體的專家文本判別時(shí),我們需要建立這些具體的行業(yè)文本的知識(shí)庫,這些都有文本派別和語言模型。

評(píng)論分析是目前很多企業(yè)應(yīng)用的領(lǐng)域。很多企業(yè)每天會(huì)收到網(wǎng)上用戶留下的成千上萬條評(píng)論意見,甚至其中有一些是競爭對(duì)手的情報(bào)信息和評(píng)論信息。比如說手機(jī)行業(yè)分析用戶評(píng)論意見時(shí),通常評(píng)論有大量的省略和簡稱,小米手機(jī)第六代通常說米6,計(jì)算機(jī)沒有專業(yè)領(lǐng)域知識(shí)很難像人一樣解讀這句話。

還有一個(gè)問題是口語和書面語的分別處理方式不同,書面語是常寫在內(nèi)部文件中,但是通常彈幕、網(wǎng)絡(luò)評(píng)論都是口語表達(dá)。比如說杯具、稀飯都不是吃的東西。?

要點(diǎn)2:持續(xù)的學(xué)習(xí)能力, 確保泛化能力始終提升 ?

機(jī)器學(xué)習(xí)的好處是可以通過反復(fù)迭代,實(shí)現(xiàn)持續(xù)學(xué)習(xí)、持續(xù)提升的效果。在文本挖掘中很多企業(yè)的挖掘都是依照規(guī)則的方法,但長期來看這種方法泛化能力或自主學(xué)習(xí)能力不夠。通過機(jī)器學(xué)習(xí)以及用算法提升算法的能力,來提升挖掘的效果是計(jì)算機(jī)處理模塊時(shí)很重要的能力。

九、文本挖掘技術(shù)的延伸應(yīng)用

上面提到的抽取、劃分、轉(zhuǎn)換和合成可以對(duì)文字進(jìn)行很多處理,在滿足企業(yè)的一些應(yīng)用需求后,還可以進(jìn)一步延伸。比如大家每天都在用的搜索和推薦都是進(jìn)一步的應(yīng)用。

搜索其實(shí)是非常典型的自然語言處理的應(yīng)用。它的核心技術(shù)有兩部分,其一是對(duì)文本語義的深入理解,第二是解決搜索時(shí)間的性能問題。通常索引資料庫很大,可能有上千億的內(nèi)容,在搜索的過程中我們不需要計(jì)算機(jī)一個(gè)一個(gè)找,而是在很短的時(shí)間內(nèi),用零點(diǎn)幾秒解決響應(yīng)的問題。這些需要用特殊的數(shù)據(jù)結(jié)構(gòu)來完成。

另外,在搜索時(shí)如何讓計(jì)算機(jī)幫助人來匹配更多優(yōu)質(zhì)資源,其實(shí)需要做更多語義的延伸。同一句話不同的人可以用不同的語言方式來表達(dá)。計(jì)算機(jī)幫助人做語義的擴(kuò)展需要了解詞和詞,句子和句子之間的關(guān)系,才能更好做語義之間理解的功能。

除搜索之外,個(gè)性化推薦也是語義理解中重要的應(yīng)用。做內(nèi)容和人的連接時(shí),更好的完成用戶畫像需要分析出哪一個(gè)人之前看過這些內(nèi)容,它的語義如何。文本挖掘技術(shù)在提升企業(yè)的運(yùn)營質(zhì)量方面發(fā)揮了很大作用,達(dá)觀數(shù)據(jù)的個(gè)性化推薦引擎在幫助企業(yè)用戶提升點(diǎn)擊率、留存以及關(guān)鍵指標(biāo)上都有著明顯的效果。

雷鋒網(wǎng) (公眾號(hào):雷鋒網(wǎng))

雷鋒網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見。

本文被轉(zhuǎn)載1次

首發(fā)媒體 雷鋒網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

人工智能自然語言處理nlp自然語言處理自然語言處理技術(shù)自然語言處理算法自然語言處理
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 日本成日本片人免费 | 好大好爽好硬 | 男人含玉势出嫁束器 | 日韩基地1024首页 | 丝袜足控免费网站xx动漫漫画 | 女人扒开下面让男人桶爽视频 | 西西人体大胆啪啪私拍色约约 | 99视频在线免费观看 | 紧身裙女教师miad711在线 | 日韩免费一级片 | 亚洲香蕉网久久综合影院3p | 色综合久久综合网欧美综合网 | 国产视频一区在线观看 | 极品一区 | 国产精品久久久久久久久齐齐 | 国产拍拍视频一二三四区 | 国产人成激情视频在线观看 | 肉文np高h | 亚洲免费视 | 娇妻与公陈峰姚瑶小说在线阅读 | 日韩视频一区二区三区 | 国内揄拍国内精品久久 | 黑人biglackon10十 | 无人区1免费完整观看 | 色狼屋 | 国产精品毛片无码 | 亚洲sss综合天堂久久久 | 日本中文字幕在线精品 | 99热综合在线| gaygayas男男免费中国 | 精品99一区二区三区麻豆 | 色老板在线观看 | 好姑娘完整版在线观看中文 | 都市风流贵妇激情 | 男同gay玩奴男同玩奴 | 亚洲电影成人 成人影院 | 亚洲精品免费观看 | 草莓香蕉绿巨人丝瓜榴莲污在线观看 | 成人中文字幕在线观看 | 我的妹妹最近有点怪在线观看 | 91久操|