什么是百度的技術基石?自然語言處理

作者微博@互聯網阿超,微信SuperSofter
百度是中國最具技術基因的互聯網企業,一定程度可以說技術是其根基。中文搜索、知識圖譜、大數據、自然語言處理、智能廣告等細分技術已成為百度獨有優勢,所有這些技術的基石又是什么呢?答案或許是NLP:自然語言處理。
NLP是搜索引擎的技術之本
搜索引擎最基本的模式是自動化地聚合足夠多的“內容”,對之進行解析、處理和組織,響應用戶的搜索請求找到對應結果返回。每一個環節,都需要用到自然語言處理。
爬取網頁時要分析HTML頁面以及處理爬取到的網頁內容時,需要對起進行解析、分詞、變換等,這十分依賴自然語言處理技術。搜索引擎要聽懂用戶的“人話”,用戶的搜索請求又是千奇百怪的,關鍵詞組合的方式越來越少,直接用自然語言搜索已成為不少人的習慣,人們更傾向于搜索“廣州到北京的航班信息”而不是“廣州 北京 航班”,因此搜索引擎必須理解用戶意圖才可以幫助其去找到準確答案。
每一個環節自然語言處理都十分重要。這是NLP技術致力于解決的問題。自然語言處理(Natural Language Processing:NLP)是計算機科學、人工智能以及語言學的交叉學科,旨在解決計算機與人類語言之間的交互問題,這其中包括對自然語言的分析、理解、生成、檢索、變換及翻譯等方面。
不只是搜索本身,搜索引擎衍生產品大都會應用到NLP技術。譬如百度、Google均提供的翻譯服務就是最經典的自然語言應用,它可以智能化地翻譯大段文章,支持多種語言之間的互相翻譯。還有百度知道,它可以智能化地識別相似的問題避免用戶重復提問。再比如Siri掀起的語音助手浪潮最后反而被百度、Google等搜索玩家搶得先機,就是因為搜索引擎更擅長于NLP技術,百度語音助手和Google Now在中文和英文語音領域表現都比Siri更為突出。
總之,搜索引擎連接人與信息,它要能幫助人們更加高效地獲取信息就必須學會像人類一樣去讀取信息,它要能夠理解人們對信息的需求就需要去聽懂“人話”,這都注定了NLP技術將成為搜索引擎的技術之本。
無處不在的NLP讓百度更智能
百度從第一天處理用戶的第一次搜索開始便開始應用NLP技術。十多年來,百度的用戶數已經超過5億,百度公司員工規模超過3萬人,百度市值則逼近1000億美金。伴隨著百度的快速發展,百度NLP團隊在同步地、甚至更快地發展壯大,NLP技術本身也在發生著劇變,但總的來說,就是它幫助百度變得更加聰明。
2010年春,國際頂級自然語言處理專家王海峰博士加盟百度后,對百度NLP的工作進行了重新梳理與規劃,除分詞、專名識別、query需求分析、query改寫等傳統方向得到加強外,拓展了機器翻譯、機器學習、語義搜索、語義理解、智能交互、深度問答、篇章理解等新的技術方向。現在NLP團隊已經由當初僅10余人發展成為今天超過200人規模的團隊,操盤手正是王海峰博士。因為理論造詣以及在百度的工程實踐成就,王海峰成為自然語言處理領域世界上影響力最大的國際學術組織ACL(Association for Computational Linguistics)50多年歷史上唯一華人主席。
現在NLP團隊的技術正應用在百度的方方面面。
搜索引擎是NLP技術最大的用武之地。相比當年用戶需要學習如何使用搜索引擎而言,今天的用戶完全可以直接輸入任何想到的需求或者問題,甚至直接通過話筒向百度語音助手提問。譬如用戶可以搜“天氣”、“日歷”、“機票”、“匯率”這樣的模糊需求,百度會直接在搜索結果呈現結果。再比如用戶可以搜索“5000港幣是多少人民幣”百度結果中會直接呈現一個計算器。用戶還可以搜索“演過還珠格格的臺灣演員”“張柏芝的兒子的爺爺是誰”這樣的復雜問題,百度都可以準確地回答。
基于知識圖譜技術的“百度知心”同樣處處用到NLP技術。知識圖譜是讓搜索引擎結果可以聯想出更多相關結構化信息技術,百度結果頁面右側的結構化信息便是知識圖譜結果集。舉個例子,用戶搜索“虎嗅網”搜索引擎右側便會展示與之相似的其他科技媒體譬如“36kr”。用戶搜索’青藏高原’和’小威’的時候,知心右側都會推薦‘李娜’,但前者推薦的是歌唱家李娜,后者推薦的是網球明星李娜,這便是基于NLP的實體消歧技術。
深度問答技術則是機遇NLP技術和深度學習技術的問答產品。百度出品的智能問答機器人在江蘇衛視《芝麻開門》節目中取得了卓越成就,答題準確率遠超人類選手,正是得益于百度深厚的知識沉淀以及百度對用戶問題的精準理解。不過這項技術并不只是用于比賽,在百度語音助手、百度知道以及百度搜索等產品之中,深度問答技術均被廣泛應用,它可以精準理解用戶的復雜問題,并且可以結合上下文、結合場景對問題做出不同理解。
例如,當我們在百度中搜索“花生發芽了還能吃嗎”,得到的答案已不再是互聯網上五花八門的原始網頁答案,而是讓人一目了然的匯總式答案摘要。除了這樣的“一問一答”,用戶還可以與百度對話,問它一個又一個問題,NLP最終可以讓用戶使用自然語言進行搜索,并且采用多輪交互的方式來逐步澄清和滿足需求,從而完成深度決策型的搜索任務。百度NLP團隊研發的“交互搜索技術”便可以做到多輪問答,而“多模(multi-modal)交互技術”則可以讓用戶通過文字、語音、圖片、LBS等多種輸入形式進行更加人性化、更加簡單易用的搜索,未來擴展到通過視頻作為輸入進行搜索也是有可能的。
深度問答技術還可以應用到許多垂直領域。比如與教育結合的“百度考霸”就成為高中生填報高校志愿的得力助手,它今年一共服務畢業生550萬次,幫助他們更加高效、簡單和全面地了解高校和專業。再比如與醫療健康結合就可以實現尋醫問藥,我們可以搜索“頭疼怎么辦”百度便會給出結構化的疑似病癥列表甚至用藥建議。在“泛需求搜索”上百度可以很好地理解用戶的模糊需求,在百度中搜索“家常菜”,搜索引擎將返回的3萬多種家常菜按照“菜系”、“功效”和“口味”進行歸類展現,層次分明、一目了然。
不論是搜索引擎還是知識圖譜還是深度問答,最關鍵的技術點就是NLP。NLP做好了還將形成壁壘,因為盡管對手可以做出類似的搜索頻道或者子產品,但在智能化、準確性以及易用性上要趕上百度卻并不容易。NLP技術即需要數據積累,在算法的積累、團隊的沉淀上都需要時間,后來者很難追平。
NLP未來對百度會愈發重要
NLP(自然語言處理)技術對百度而言只會更加重要。
搜索引擎的職責已經不單單是幫助用戶找到答案,而是幫助用戶找到所求,連接人與實體世界的服務,成為用戶的智能化助理。無限接近人類的智慧是人類賦予機器的終極目標。對于百度而言,一是要從搜索引擎上升到服務連接平臺,二是要大力發展人工智能、大數據、深度學習等面向未來的新興技術,這些目標均離不開“理解用戶需求、智能化地組織信息和服務”,這均十分依賴NLP技術。
NLP技術本身也在升級。從名稱來看它是語言處理技術,能夠理解文本似乎就夠了。實際上現在它要理解的是語言所表征的人類的需求。除了文字之外,語音、圖像也是人類需求表達的載體。同時,用戶所處的環境(LBS)、用戶的個人特征(用戶畫像)、用戶發出請求的時間也會賦予同一個請求不同的目的。因此,NLP技術在處理用戶語言本身的時候,還需要結合上述因素去理解用戶背后的需求。看上去NLP正在升級成為一項全新的“人類信息識別和需求理解技術”。
技術是百度的基因,技術和數據積累形成的用戶、產品和品牌優勢是百度的護城河。NLP則是百度技術的基石,它賦予了百度技術“智能化”的基因,在過去智能化的搜索讓百度越來越好用為其在中文搜索市場奠定了王者地位;在未來智能化連接用戶與服務成為百度與阿里騰訊等巨頭最大的區隔時,NLP技術只會更加重要。因此毫不夸張地說,NLP就是百度的技術基石。