欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

想要用好自然語言處理技術,先要克服這些困難!

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

雷鋒網 :10月11日-14日在杭州舉辦的的云棲大會上,馬云公布達摩院的研究領域包括:量子計算、機器學習、自然語言處理、基礎算法、等前沿技術再次掀起了前沿科技討論的浪潮。

人工智能已經是大部分普通人都耳熟能詳的詞匯,而人們對自然語言處理技術的了解程度卻大部分還停留在表面階段。本文根據達觀數據CEO陳運文博士在數據驅動大會演講內容整理,分別就人工智能的基本發展、自然語言處理技術的基本內容、自然語言處理應用現狀和對企業的應用價值等幾個方面做了詳細介紹。

本文由達觀數據根據陳運文博士的演講分享整理所得,雷鋒網做了不改動原意的編輯(內容略有刪減)。

一、追本溯源:文本挖掘技術發展歷程

想要用好自然語言處理技術,先要克服這些困難!

講人工智能必須講1956年的達將矛斯會議,機器翻譯和密碼破譯其實是1956年這些計算機的大牛們提出人工智能時一個很重要的驅動因素。當時達將矛斯會議十幾位大牛提出人工智能技術成熟的兩個標志性目標是:

?1. 在國際象棋上可以戰勝人類

?2. 在機器翻譯上能夠超越人類

大家都知道了目標1早已經完成。所有的棋類中圍棋是最后一個被攻克的。但是目標2仍然未能完全實現,這也可見語言理解的復雜度。

二、文本挖掘技術發展歷程和現階段流行方法

關于自然語言處理,學術界有兩個派別:

  1. 理性派 ,做結構主義 ?認為所有語言其實都有潛在內生結構,都是有內在的語法。

  2. 經驗派 ,是功能主義 ?認為只要完成某一個功能就可以了,計算機完全不需要理解人說什么。

早期人工智能剛剛提出來,符號主義流行。在60年代時候用了很多的詞典和符號規則做自然語言的處理,但是后來發現這樣翻譯走不通。在70-80年代,在語法規則的基礎上,加上了語言模型,當時很多語言專家做自然語言處理時遇到非常嚴峻的挑戰,因為語言不是特別嚴格的模型。例如:漢語特別靈活,很多時候是甚至沒有規則可言,習慣這么說,幾萬年來講著講著就講成現在這個狀態了。

90年代開始,統計學習模型異軍突起,今天看到大量自然語言處理的應用都是基于統計學習的模型。 能夠講大數據也是因為現在已經積累的文本數據非常多,我們每天在各平臺上看到、寫下的文字數據都可以成為計算機訓練的語料,通過訓練能讓計算機發現語言的規律。

2010年以后深度學習是一波浪潮。可以看出深度學習是經驗派功能主義的典型表現。近幾年知識圖譜非常流行,它帶有結構,所以是理性派結構主義的表現。目前很多主流方法是兩者做結合,統計學習方法加上一些結構,才能夠更好的理解、處理文字內容。

三、文本結構解析的三個層次

現在流行的方法從結構的角度來說分三個層次:第一層詞語級;第二層句法級;第三層篇章級。

詞匯級有很多具體的模塊開發,結構分析包括句子結構之間的關系等。想想我們學漢語的時候先認識基本字,再找詞。在漢語里面單詞表現很弱,兩個字或者三個字才構成一個有表達力的詞。

比如【公司】是一個詞,但是拆出來,公沒有表達能力,司也沒有表達能力。組詞之后是造句,很多句法構成了一篇作文。同樣,讓計算機來閱讀文字從結構角度來說是相似的,先讓計算機看字、詞,然后理解句子的意思,最后理解整篇文章每個段落的含義。

知識圖譜的作用是沉淀領域知識,利用這些結構化的背景知識更好的理解文本語義。例如你是一個律師,在閱讀法律的文章的時候,背后隱藏著對這個法律行業相關知識,建立起這個行業領域知識的知識圖譜才可以更好完成文字閱讀。知識圖譜的核心在于構建{實體E - 屬性A - 關系R}三元素。

四、文本挖掘基礎性應用類型劃分

計算機不像人一樣真的可以閱讀文字,計算機很多時候是輸入一段字庫,輸出相應的結構。一邊是編碼,一邊是解碼。

想要用好自然語言處理技術,先要克服這些困難!

?文本挖掘基礎應用的類型可以分為四大類:

1. 抽取。 計算機想要自動解析文本,需要能夠識別很多關鍵要素。例如,當計算機閱讀一份法律合同文書時,能夠識別里面的判決書編號、被告人、辯護人、判決依據等等,并能夠從文本中提取出這些要素進行結構化處理。對于很多文本密集的行業,抽取這件事情很有價值。

2.劃分。 舉一個應用的案例,企業拿到大量客戶的意見,需要知道這些意見哪些是好的哪些是壞的,不同的意見需要后續給哪個部分負責處理,這些是典型評論意見觀點的識別和觀點劃分的應用。

3.轉換。 談到轉換我們既可以讓計算機進行語言的轉換,也可以讓計算機把文本轉換成更正確的語言方式。例如下面這份刑事裁定書里面有很多不符合語法習慣的地方,“政治權力”“云南省趨近市”這些都是錯誤的表達,計算機能智能的幫人們發現并修改錯誤。

? 想要用好自然語言處理技術,先要克服這些困難!

4. 合成。 計算機寫作也許是未來比較熱門的行業。目前的寫作還是以模板為主,比如基于一些合同模板把要素填寫進來。但未來我們希望除了模板外,計算機還可以幫助人們修改潤色文章。甚至可以擺脫模板的方式,通過“閱讀”大量的文字來實現機器寫作。

五、常見數據類型及其中文本數據特點

從企業角度來說公司都有很多數據。傳統意義上會認為像阿拉伯數字一樣的叫做數據,比如企業的財務報表,經營狀況,APP每天日活……除了這些之外還有一些其他數據,比如文字型的數據:新聞內容,商品介紹,用戶評論,企業內部各種各樣的合同……這些都是數據,達觀數據就是專業處理文字型數據的企業。

文字數據處理有什么特點?它是信息的抽象提煉。這些數據其實是“一句話濃縮了很多內容”。文字數據的場景非常多,差別也很大。比如說有的場景中用戶的評論數據都是很短幾十個字的,同時也會有一些合同文本和法律文書,這些內容的字數則是上千字和上萬字。

各種各樣的長短文本,如果能夠讓計算機代替原來的人工進行自動化做處理,便可以發揮很大的價值。在一些垂直行業中,比如人事行業,法律行業,財務行業都有大量的資料。讓計算機自動來分析這些文字資料,并自動來理解這些內容,這是非常有意義的事情。

六、文本挖掘技術的應用現狀

大家知道谷歌、百度這樣搜索引擎,搜索引擎本身就是一個文字挖掘的人工智能系統。文字搜索這件事情創造了非常大的經濟效益。但這個領域遇到挑戰也非常大,尤其是中文的文字處理困難重重,雖然我們每天都在流暢地使用中文,但計算機識別中文的時候發現中文語法非常不嚴格,行文很隨意,這導致了讓計算機處理、理解這些文字的時候很難處理的非常好,這也是由于中文天然存在著某些問題。

七、文本挖掘的三個技術挑戰

讓計算機來做自然語言處理或者挖掘,有什么新的技術挑戰?首先來看一些具體的例子。

挑戰一:字詞關系的處理

對于漢語來說表達一個基本概念就是一個詞。但是讓計算機來理解字詞之間的關系很困難,因為計算機需要挖掘很多詞和其他詞之間的關系。比如說相關詞,同義詞,甚至還有單詞。進一步還要做同義詞、反義詞、近義詞的關系和挖掘,然后還要跨語言,還有英文的同義詞,外文的簡稱等等。

比如“中華人民共和國”是一個大詞,它有很多詞構成。共和國跟它的意思接近,中國和中華人民共和國的意思也有接近,甚至有時候一個單詞叫“中”,比如說中美談判,這個“中”的單字在這個語境里面表達的意思就是中華人民共和國。那么計算機如何判斷“中”是不是表達中華人民共和國還是表達河南方言“好”的意思?

還有局部轉義問題。比如說巧克力囊腫是一種常見的腫瘤名稱,但是把巧克力拿出來是一個食物,在理解時它不會看到這句話把其理解為一個可以吃的東西。比如還有球鞋,運動鞋,跑步鞋需要判斷什么時候是同義詞,什么時候是有差別的。

中文上下文有很多歧異地地方。“意思”這個詞就有很多的意思。比如說“什么意思”“小意思”“沒意思”“意思意思”每一個表達都不一樣。漢語非常復雜,比如說“我不方便”“他在方便”。一個老外學中文,中文老師告訴他方便就是上廁所的時候,第二天這個人聽到說“你什么時候方便我請你吃飯。”老外當時就暈倒了。中文中復雜的的歧異,這也是讓計算機像人一樣閱讀文章時必須克服的困難。

挑戰二:歧義語義的理解

像“咬死了獵人的狗”,這句話一種是主語被省略了,主語可能是一只老虎、一只狗,它咬死獵人的狗,這時狗是賓語。還有一種情況狗是主語,咬死了獵人是修飾詞。這兩種理解方式都對,我們需要結合上下文才能理解。比如說“做手術的是他的父親”這句話有兩種理解方法,有一種是他的父親是醫生做手術,一種是他的父親生病了做手術。漢語不像英語有主動時態和被動時態,它很模糊。還有“五個公司的工程師”工程師是五個人,還是公司是五個人,這個范圍也不一樣。

這些代表著計算機處理詞語歧義是非常大的問題,需要很多算法解決歧義識別問題。像章詞法、句法、上下文等等。

挑戰三:多樣化的句式結構的解析

搜索引擎經常需要處理意思一樣,但是文字表達方式不一樣的情況。這種情況下我們常見的處理方法叫做語義的規一劃,這也是處理搜索引擎詞時經常遇到的問題。他的字一樣但是順序不一樣。

漢語很神奇,我們說“你上班了嗎?”、“班你上了嗎”、“你上班了嗎”、“你班上了嗎”意思是接近的。常見的做法是通過定位和調整主謂賓定狀補等句子元素,生成句法依存樹來理解句子結構。

“達觀是技術驅動的企業”這句話中達觀是一個主語?還是一個謂語?做這樣的解析才可以理解這句話的意思。我們語言系統經過幾千年的進化非常發達,但計算機只能拆開來,揉碎了,才可以像人一樣閱讀文字,理解人的功能。

八、確保文本挖掘技術效果的兩個要點

要點1:因地制宜 針對特定應用場景定制語言模型

雖然用的都是漢語或英語,但在在不同的場景需要的方法有很大不同。例如:讓計算機自動提取合同文本信息,自動判斷合同文本中關聯的要素和法律風險,這些文本都有一定的潛在的語法結構。在做具體的專家文本判別時,我們需要建立這些具體的行業文本的知識庫,這些都有文本派別和語言模型。

評論分析是目前很多企業應用的領域。很多企業每天會收到網上用戶留下的成千上萬條評論意見,甚至其中有一些是競爭對手的情報信息和評論信息。比如說手機行業分析用戶評論意見時,通常評論有大量的省略和簡稱,小米手機第六代通常說米6,計算機沒有專業領域知識很難像人一樣解讀這句話。

還有一個問題是口語和書面語的分別處理方式不同,書面語是常寫在內部文件中,但是通常彈幕、網絡評論都是口語表達。比如說杯具、稀飯都不是吃的東西。?

要點2:持續的學習能力, 確保泛化能力始終提升 ?

機器學習的好處是可以通過反復迭代,實現持續學習、持續提升的效果。在文本挖掘中很多企業的挖掘都是依照規則的方法,但長期來看這種方法泛化能力或自主學習能力不夠。通過機器學習以及用算法提升算法的能力,來提升挖掘的效果是計算機處理模塊時很重要的能力。

九、文本挖掘技術的延伸應用

上面提到的抽取、劃分、轉換和合成可以對文字進行很多處理,在滿足企業的一些應用需求后,還可以進一步延伸。比如大家每天都在用的搜索和推薦都是進一步的應用。

搜索其實是非常典型的自然語言處理的應用。它的核心技術有兩部分,其一是對文本語義的深入理解,第二是解決搜索時間的性能問題。通常索引資料庫很大,可能有上千億的內容,在搜索的過程中我們不需要計算機一個一個找,而是在很短的時間內,用零點幾秒解決響應的問題。這些需要用特殊的數據結構來完成。

另外,在搜索時如何讓計算機幫助人來匹配更多優質資源,其實需要做更多語義的延伸。同一句話不同的人可以用不同的語言方式來表達。計算機幫助人做語義的擴展需要了解詞和詞,句子和句子之間的關系,才能更好做語義之間理解的功能。

除搜索之外,個性化推薦也是語義理解中重要的應用。做內容和人的連接時,更好的完成用戶畫像需要分析出哪一個人之前看過這些內容,它的語義如何。文本挖掘技術在提升企業的運營質量方面發揮了很大作用,達觀數據的個性化推薦引擎在幫助企業用戶提升點擊率、留存以及關鍵指標上都有著明顯的效果。

雷鋒網 (公眾號:雷鋒網)

雷鋒網版權文章,未經授權禁止轉載。詳情見。

本文被轉載1次

首發媒體 雷鋒網 | 轉發媒體

隨意打賞

人工智能自然語言處理nlp自然語言處理自然語言處理技術自然語言處理算法自然語言處理
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 久月婷婷| 国产极品福利 | 最新国产在线 | 国产精品一国产精品免费 | 在线综合色 | 国产精品久久久久这里只有精品 | 一级一级 a爱片免费视频 | 激情午夜婷婷 | 天天色天天操天天射 | 国产成+人+亚洲+欧美综合 | 手机在线精品视频 | 99久久国产综合精品成人影院 | 第一福利在线视频 | 国产精品免费一区二区三区四区 | 色久影院| 99热久久这里只精品国产ww | 曰本性l交视频 | 深夜在线 | 日韩 视频在线播放 | 人人爱天天做夜夜爽88 | 日日狠狠久久8888av | 免费观看日本污污ww网站精选 | 免费精品久久久久久中文字幕 | 久久久精品一区二区三区 | 精品国产高清自在线一区二区三区 | 午夜精品久久久久久久99热 | 四虎国产精品免费久久影院 | 亚洲国产精品热久久 | 奶交性视频欧美 | 真91视频| 精品免费国产一区二区女 | 天天干天天要 | 国产成人精品久久免费动漫 | 日韩精品成人a在线观看 | 在线观看深夜观看网站免费 | 亚洲精品高清国产麻豆专区 | 天天爱天天干天天 | 国产日韩精品一区在线不卡 | 成人在线黄色 | 99国产精品久久久久久久... | 亚洲一区二区三区高清 不卡 |