自然語言處理(NLP)的一般處理流程!
1. 什么是NLP
自然語言處理 (Natural Language Processing) 是人工智能(AI)的一個子領域。自然語言處理是研究在人與人交互中以及在人與計算機交互中的語言問題的一門學科。為了建設和完善語言模型,自然語言處理建立計算框架,提出相應的方法來不斷的完善設計各種實用系統,并探討這些實用系統的評測方法。
2. NLP主要研究方向
信息抽?。簭慕o定文本中抽取重要的信息,比如時間、地點、人物、事件、原因、結果、數字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時候、什么原因、對誰、做了什么事、有什么結果。
文本生成:機器像人一樣使用自然語言進行表達和寫作。依據輸入的不同,文本生成技術主要包括數據到文本生成和文本到文本生成。數據到文本生成是指將包含鍵值對的數據轉化為自然語言文本;文本到文本生成對輸入文本進行轉化和處理從而產生新的文本。
問答系統:對一個自然語言表達的問題,由問答系統給出一個精準的答案。需要對自然語言查詢語句進行某種程度的語義分析,包括實體鏈接、關系識別,形成邏輯表達式,然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案。
對話系統:系統通過一系列的對話,跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,為了體現上下文相關,要具備多輪對話能力。
文本挖掘:包括文本聚類、分類、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面。目前主流的技術都是基于統計機器學習的。
語音識別和生成:語音識別是將輸入計算機的語音符號識別轉換成書面語表示。語音生成又稱文語轉換、語音合成,它是指將書面文本自動轉換成對應的語音表征。
信息過濾:通過計算機系統自動識別和過濾符合特定條件的文檔信息。通常指網絡有害信息的自動識別和過濾,主要用于信息安全和防護,網絡內容管理等。
輿情分析:是指收集和處理海量信息,自動化地對網絡輿情進行分析,以實現及時應對網絡輿情的目的。
信息檢索:對大規模的文檔進行索引??珊唵螌ξ臋n中的詞匯,賦之以不同的權重來建立索引,也可建立更加深層的索引。在查詢的時候,對輸入的查詢表達式比如一個檢索詞或者一個句子進行分析,然后在索引里面查找匹配的候選文檔,再根據一個排序機制把候選文檔排序,最后輸出排序得分最高的文檔。
機器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。機器翻譯從最早的基于規則的方法到二十年前的基于統計的方法,再到今天的基于神經網絡(編碼-解碼)的方法,逐漸形成了一套比較嚴謹的方法體系。
3. NLP的發展
1950年前:圖靈測試 1950年前阿蘭·圖靈圖靈測試:人和機器進行交流,如果人無法判斷自己交流的對象是人還是機器,就說明這個機器具有智能。
1950-1970:主流:基于規則形式語言理論
喬姆斯基,根據數學中的公理化方法研究自然語言,采用代數和集合論把形式語言定義為符號的序列。他試圖使用有限的規則描述無限的語言現象,發現人類普遍的語言機制,建立所謂的普遍語法。
1970-至今:主流:基于統計 谷歌、微軟、IBM,20世紀70年代,弗里德里克·賈里尼克及其領導的IBM華生實驗室將語音識別率從70%提升到90%。 1988年,IBM的彼得·布朗提出了基于統計的機器翻譯方法。 2005年,Google機器翻譯打敗基于規則的Sys Tran。
2010年以后:逆襲:機器學習
AlphaGo先后戰勝李世石、柯潔等,掀起人工智能熱潮。深度學習、人工神經網絡成為熱詞。領域:語音識別、圖像識別、機器翻譯、自動駕駛、智能家居。
4. NLP任務的一般步驟
下面圖片看不清楚的,可以百度腦圖查看,點擊鏈接
5. NLP、CV,選哪個?
NLP:自然語言處理,數據是文本。
CV:計算機視覺,數據是圖像。
兩者屬于不同的領域,在遇到這個問題的時候,我也是猶豫了很久,想了很多,于是乎得出一個結論:都是利用深度學習去解決現實世界存在的問題,離開了CV,NLP存活不了;離開了NLP,CV存活不了。兩者就像兄弟姐妹一樣,整個“家庭”不能分割但個體又存在差異!
NLP/CV屬于兩個不同的研究領域,都是很好的領域,可以根據自己的愛好作出適合自己的選擇,人工智能是一個多學科交叉的領域,需要的不僅僅是單方面的能力,而是多方面的能力。對于每個人來說都有自己的側重點,選擇自己擅長的領域里持續深耕,就會有所成就!