產品經理如何入門自然語言處理(NLP)?
自然語言處理,顧名思義即自然語言處理的技術,通常用縮寫NLP指代。各類產品經理日常的工作中,會遇到大量自然語言處理的應用場景。以智能推薦為例,在待推薦物文本分類、主題分類等場景中都會用到。本篇以產品經理的視角,談談如何入門自然語言處理。
統計模型
很多大牛對人工智能的抨擊在于,認為人工智能只是統計學,并不是真正的具有「智能」。在當前「弱人工智能」的時代背景下,學習統計模型仍然有非常重要的價值。
拿經常用于分類場景的貝葉斯模型為例,在已經拿到用于訓練集的語料中,可以通過統計得出A出現的概率、B出現的概率、在A出現的前提下B出現的概率,計算如果B出現同時A出現的概率(即給定B樣本計算出現A的概率),就可以直接從前面三個統計概率計算得出。
當然以上貝葉斯模型成立并且表現良好的前提是數據量足夠大,滿足大數定律。不難發現統計模型的精髓在于,假設數據量足夠大后,可以用已有樣本的統計情況,來做判別或預測。
閉環流程
NLP技術應用場景廣泛且松散,且在很多情況下,作為中間處理技術流程,不被最終用戶所感知。再加上近些年新的自然語言處理技術不斷出現,給想入門自然語言處理的產品經理眼花繚亂,不知如何入手的困惑。
入門自然語言處理也需要講究MVP,以最小可行性的閉環,建立起初步認知,再不斷擴展和豐富NLP的知識體系,逐步建立大的框架和認知。
通常的自然語言處理任務可從「分詞」—>「構建特征」—>「訓練模型」—>「分類或預測應用」。
以上流程中,除了分詞外,與機器學習通常流程一樣。英文一個個單詞本身就是分開的,是不需要分詞的。但對于中文來講,詞與詞之間是連接在一起的,需要將文本內容,切分成一個個詞再處理。
完成分詞后,計算機無法直接理解漢字,需要通過將一個個詞,編碼成計算機可以理解的數字再做處理,這個階段即構建特征階段。
特征完成后,再根據自然語言處理任務類型,決定采用哪種算法訓練模型,最后將訓練好的模型應用于特定的分類或預測任務上。一個自然語言處理任務就完成了。
標注與預處理
前幾年從事的智能推薦產品中,推薦系統本身以CTR作為優化目標,實際是將點擊與否作為label,相當于用戶幫著做了分布式的標注工作。
傳統基于統計的自然語言處理任務中,大部分任務類型是有監督學習,需要人在已有語料上做大量的標注工作,才能保證任務的正常進行。
例如情感識別是否為正向情感,就需要人在語料上,將一條條信息標出是否為正向情感。再將此語料作為訓練集訓練模型,生成情感識別的分類模型用于情感識別。
文檔的預處理通常是將拿到的語料做去除標點符號、停用詞、數字等處理,去除自然語言無關內容,加快計算機計算和模型生成速度。
在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。
常見任務及算法原理
自然語言處理通常有以下應用場景:分詞、詞性標注、主題識別、情感識別、文本分類、機器翻譯等。下面將主要應用及背后算法原理作簡要介紹。
有監督的分類問題。無論情感識別還是垃圾郵件分類,本質上都可以轉化為幾個目標類型的分類問題。按照貝葉斯公式的邏輯,將已有語料數據進行類型標注,基于統計模型的邏輯,訓練得到分類模型,將待識別內容通過模型計算打分,根據閾值即可完成識別。例如二分類的情感識別,可以將0-0.5區間歸為消極情感,0.5-1區間歸為積極情感。多分類則是計算待分類樣本離哪個區間更近,即識別為哪種類型。
無監督的分類問題。自然語言處理中,經常會有主題識別任務,這類任務通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無監督學習自動完成按照主題的詞聚類。由于是無監督學習,需要根據實際情況指定學習出的主題個數,最終選擇主題個數最合理的結果。依賴人的主觀判斷和理解一系列詞背后組成的主題。
生成問題。生成問題常見的有文本糾錯、詞生成、句子生成、機器翻譯等。生成問題從統計學邏輯上講,是基于已有語料的統計,計算出接下來要生成內容的概率。拿機器翻譯舉例,需要事先準備好中英文對照的大量語料,基于語料,機器學習到中英文詞對照、短語對照的知識,最終在翻譯場景下,輸出中文或英文相應的翻譯內容。
再拿隱馬爾可夫模型做詞性標注舉例,基于已經標注的語料,隱馬爾可夫模型可以學習到詞與詞之間詞性的狀態轉移概率,基于這個概率可以計算出一個詞屬于哪種詞性。
深度學習的應用。CNN構建的神經網絡,比較適合解決NLP分類問題,但由于沒有記憶,無法解決生成問題。RNN相較于CNN可以解決一定長度記憶問題,適合解決NLP領域一定長度的生成問題,例如詞生成,但無法保留長期記憶。LSTM具有長期記憶的手段,可以做生成句子的任務。
NLP應用價值
文本是最常見的生產資料,產品經理學習NLP的原理及應用,可以開闊解決問題的視野。
拿在線教育行業舉例,利用自然語言處理能力,可以自動識別出學生評論的情感傾向,可以輔助老師進行作文批改、自動出題、自動解題。
不難看出,自然語言處理的應用場景,并非人做不了,而是可以替代人類的手工勞動,大大提升任務的效率,將人解放出來,做更有價值的工作。
以上就是“產品經理如何入門自然語言處理(NLP)?”的內容了,如果你還想了解其他相關內容,可以來 產品壹佰 官方網站。
統計模型
很多大牛對人工智能的抨擊在于,認為人工智能只是統計學,并不是真正的具有「智能」。在當前「弱人工智能」的時代背景下,學習統計模型仍然有非常重要的價值。
拿經常用于分類場景的貝葉斯模型為例,在已經拿到用于訓練集的語料中,可以通過統計得出A出現的概率、B出現的概率、在A出現的前提下B出現的概率,計算如果B出現同時A出現的概率(即給定B樣本計算出現A的概率),就可以直接從前面三個統計概率計算得出。

閉環流程
NLP技術應用場景廣泛且松散,且在很多情況下,作為中間處理技術流程,不被最終用戶所感知。再加上近些年新的自然語言處理技術不斷出現,給想入門自然語言處理的產品經理眼花繚亂,不知如何入手的困惑。
入門自然語言處理也需要講究MVP,以最小可行性的閉環,建立起初步認知,再不斷擴展和豐富NLP的知識體系,逐步建立大的框架和認知。
通常的自然語言處理任務可從「分詞」—>「構建特征」—>「訓練模型」—>「分類或預測應用」。
以上流程中,除了分詞外,與機器學習通常流程一樣。英文一個個單詞本身就是分開的,是不需要分詞的。但對于中文來講,詞與詞之間是連接在一起的,需要將文本內容,切分成一個個詞再處理。
完成分詞后,計算機無法直接理解漢字,需要通過將一個個詞,編碼成計算機可以理解的數字再做處理,這個階段即構建特征階段。
特征完成后,再根據自然語言處理任務類型,決定采用哪種算法訓練模型,最后將訓練好的模型應用于特定的分類或預測任務上。一個自然語言處理任務就完成了。
標注與預處理
前幾年從事的智能推薦產品中,推薦系統本身以CTR作為優化目標,實際是將點擊與否作為label,相當于用戶幫著做了分布式的標注工作。
傳統基于統計的自然語言處理任務中,大部分任務類型是有監督學習,需要人在已有語料上做大量的標注工作,才能保證任務的正常進行。
例如情感識別是否為正向情感,就需要人在語料上,將一條條信息標出是否為正向情感。再將此語料作為訓練集訓練模型,生成情感識別的分類模型用于情感識別。
文檔的預處理通常是將拿到的語料做去除標點符號、停用詞、數字等處理,去除自然語言無關內容,加快計算機計算和模型生成速度。
在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。
常見任務及算法原理
自然語言處理通常有以下應用場景:分詞、詞性標注、主題識別、情感識別、文本分類、機器翻譯等。下面將主要應用及背后算法原理作簡要介紹。
有監督的分類問題。無論情感識別還是垃圾郵件分類,本質上都可以轉化為幾個目標類型的分類問題。按照貝葉斯公式的邏輯,將已有語料數據進行類型標注,基于統計模型的邏輯,訓練得到分類模型,將待識別內容通過模型計算打分,根據閾值即可完成識別。例如二分類的情感識別,可以將0-0.5區間歸為消極情感,0.5-1區間歸為積極情感。多分類則是計算待分類樣本離哪個區間更近,即識別為哪種類型。
無監督的分類問題。自然語言處理中,經常會有主題識別任務,這類任務通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無監督學習自動完成按照主題的詞聚類。由于是無監督學習,需要根據實際情況指定學習出的主題個數,最終選擇主題個數最合理的結果。依賴人的主觀判斷和理解一系列詞背后組成的主題。
生成問題。生成問題常見的有文本糾錯、詞生成、句子生成、機器翻譯等。生成問題從統計學邏輯上講,是基于已有語料的統計,計算出接下來要生成內容的概率。拿機器翻譯舉例,需要事先準備好中英文對照的大量語料,基于語料,機器學習到中英文詞對照、短語對照的知識,最終在翻譯場景下,輸出中文或英文相應的翻譯內容。
再拿隱馬爾可夫模型做詞性標注舉例,基于已經標注的語料,隱馬爾可夫模型可以學習到詞與詞之間詞性的狀態轉移概率,基于這個概率可以計算出一個詞屬于哪種詞性。
深度學習的應用。CNN構建的神經網絡,比較適合解決NLP分類問題,但由于沒有記憶,無法解決生成問題。RNN相較于CNN可以解決一定長度記憶問題,適合解決NLP領域一定長度的生成問題,例如詞生成,但無法保留長期記憶。LSTM具有長期記憶的手段,可以做生成句子的任務。
NLP應用價值
文本是最常見的生產資料,產品經理學習NLP的原理及應用,可以開闊解決問題的視野。
拿在線教育行業舉例,利用自然語言處理能力,可以自動識別出學生評論的情感傾向,可以輔助老師進行作文批改、自動出題、自動解題。
不難看出,自然語言處理的應用場景,并非人做不了,而是可以替代人類的手工勞動,大大提升任務的效率,將人解放出來,做更有價值的工作。
以上就是“產品經理如何入門自然語言處理(NLP)?”的內容了,如果你還想了解其他相關內容,可以來 產品壹佰 官方網站。