當前位置:法律諮詢服務網 - 知識產權保護 - 專利深壹度

專利深壹度

自然語言處理(NLP),是指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等進行操作和加工。實現人機之間的信息交流,是人工智能界、計算機科學和語言學界所***同關註的重要問題。

 最近幾年,科技巨頭和創業公司相繼投入資源和成本進行商業化探索。不過,除了語音和機器翻譯領域之外,自然語言處理在很多方面的進展並不大。例如,句子識別主要包括識別壹個句子當中的動詞、名詞、形容詞,都是非常簡單、非常基礎的任務,但從2009年到2017年間,其正確率提高了不到1%,目前的正確率也只有57%。盡管自然語言處理已經成為人工智能的熱門細分行業,但技術本身尚有足夠的成長空間,當前仍處於早期階段。

 基於此,國家知識產權局專利分析普及推廣項目人工智能關鍵技術課題組從專用技術和通用技術出發,圍繞專利技術發展路線和重要申請人,對自然語言處理產業進行深度剖析,以供行業參考。

深度學習推動自然語言處理專利申請量快速增長

自然語言處理專利申請趨勢與技術演化路徑

 自然語言處理技術從1970年左右起步,壹直到1985年,年最高申請量均不超過30項。

 1985年之後,隨著網絡技術和計算機技術的發展,豐富的語料庫成為現實,同時硬件不斷更新完善,自然語言處理思潮由理性主義向經驗主義過渡,基於統計的方法逐漸代替了基於規則的方法;申請量開始快速增長,至2000年,年申請量達到780項。賈裏尼克和他領導的 IBM 華生實驗室是推動這壹轉變的關鍵,他們采用基於統計的方法,將當時的語音識別率從70%提升到 90%。在這壹階段,自然語言處理基於數學模型和統計的方法取得了實質性的突破,從實驗室走向實際應用。

 從 2008 年到現在,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究, 由最初的詞向量到 2013 年 word2vec, 將深度學習與自然語言處理的結合推向了高潮, 並在機器翻譯、問答系統、閱讀理解等領域取得了壹定成功,年申請量從2008年的1255項增長到2016年的3057項。深度學習是壹個多層的神經網絡,從輸入層開始經過逐層非線性的變化得到輸出,從輸入到輸出做端到端的訓練。把輸入到輸出對的數據準備好,設計並訓練壹個神經網絡,即可執行預想的任務。RNN 已經是自然語言護理最常用的方法之壹, GRU、 LSTM 等模型相繼引發了壹輪又壹輪的熱潮。基於這種原因,從2009年開始,自然語言處理相關專利申請迎來新壹輪的增長。

中美兩國是該領域最具競爭力的國家

 從申請來源國來看,中美兩國是該領域全球專利產生量最多的國家,為主要的技術儲備國和來源國。

來自中美兩國的專利申請趨勢

 在該領域,從中美兩國的申請趨勢來看,兩國的專利申請量均呈穩步增長態勢,說明兩國相對重視自然語言處理技術的研發與專利儲備。總體而言,雖然早期中國相對於美國存在壹定的差距,但經過長期的積累,中國在2012年超越美國成為全球專利申請量最高的國家,達到526項/年;隨後差距進壹步拉大,中國在2016年的時候達到1668項,為美國856項的2倍。中國已經超越美國,成為全球年申請量最高的國家,並極有可能在未來幾年成為全球專利儲備量最多的國家。

百度進入全球前十

中國創新主體專利儲備有待加強

全球主要申請人專利申請量排名

 在全球主要申請人排名中,IBM在申請量方面優勢較大,屬於第壹陣營;微軟公司申請量與IBM的申請量相比少400余件,為IBM公司的4/5,屬於第二陣營;排名第三的NTT通信與第十的富士康相差不到300件,屬於第三陣營。中國方面,百度為第八名,申請量為457件;中國臺灣的富士康也進入了全球前十。中國創新主體專利儲備有待加強。

技術叠代加速,推動自然語言處理技術快速發展

(1)深度學習助推詞性標註技術快速發展

詞性標註,是給自然語言中每壹個詞都賦予其詞性標記。正確的詞性標註是自然語言處理的壹個基本步驟,錯誤的詞性判斷可能會導致整個句子的理解錯誤。

詞性標註技術發展路線

 從技術發展路線來看,在1980年前鮮有關於詞性標註的專利申請,在1980年至1990年間,出現了基於規則的詞性標註方法,這是人們提出較早的壹種詞性標註方法。基於規則的基本思想是建立標註規則集,並盡可能的使該標註規則集精確,而後使用該標註規則集對待標註語料進行標註,從而得到正確的標註結果。基於規則的詞性標註的缺點是針對性太強,很難進壹步升級,也很難根據實際數據進行調整,在實際的使用場合表現不夠好。

 1990年後,基於統計的詞性標註技術得到發展,隱馬爾科夫、條件隨機場等模型應用到了詞性標註中,全部知識是通過語料庫的參數訓練自動得到,可以獲得很好的壹致性和很高的覆蓋率,基於統計的詞性標註方法因此被廣泛應用。但基於統計的方法也同樣存在缺點和局限性,例如在建立模型參數時,需要大量訓練語料,而訓練語料的選擇會影響到精度。

 由於基於規則和基於統計的方法在處理某些問題時都不能做到盡如人意,於是有人提出了基於規則和統計結合的詞性標註方法,主要是將詞典與統計模型結合,這樣相結合的詞性標註方法在很大程度上彌補了單壹方法對標註結果的影響,最大程度發揮了基於規則的方法和基於統計的方法的優點,實際上兩種方法相結合就是理性主義方法和經驗主義方法相結合。

 近年來,基於人工智能的方法也應用在詞性標註中。相對於前面三種方法,該方法具有適應性強、精度高的優點,來自中國的申請人在這方面的研究較多,技術爆發力較強,取得了壹系列研究成果。

(2)無監督學習是詞語級語義的主要發展方向,創新主體加速進入,布局各有側重

 語義分析的目標是通過建立有效的模型和系統,實現在各個語言單位(包括詞匯、句子和篇章等)的自動語義分析,從而實現理解整個文本表達的真實語義。詞匯級語義分析關註的是如何獲取或區別詞語的語義。

詞語級語義分析專利技術發展路線

 詞語級語義分析有多種方式,從發展路線來看,基於詞典的語義分析中,詞典語義、語法結構、雙語詞典和Yarowsky算法已經不再產生新的重要相關專利申請。基於實例和統計模型鮮有重要專利申請;由於關鍵詞提取技術的發展,基於義詞詞典的相關技術在2017年仍有相關的重點專利產生,是將來的發展重點之壹。與此同時,基於無監督學習,由於不需要專門的語料庫,且具有較強的可擴展性,在大數據、算法和芯片技術的推動下,將成為未來的主要發展方向。

在華詞語級語義重要申請人分析

 截至2018年8月,在華申請人當中,專利申請量超過三件的申請人***有6位,排名第壹位的是齊魯工業大學,後面依次為昆明理工大學、百度、騰訊、富士通和IBM。國外來華申請人方面,IBM在1999年開始提交了基於雙詞典的消歧專利申請,隨後分別於2011年、2014產生基於上下文首字母縮略詞以及基於詞袋的專利申請;富士通於2012年提交首件基於雙語言的消歧技術的專利申請,隨後分別於2012年、2016年提交基於組合概率和針對縮減詞的專利申請。昆明理工大學在2008年提交壹件基於信息改進的貝葉斯方法的消歧技術的專利申請;騰訊的相關專利申請側重於利用詞語的熱度、基於文本的內容,以及基於基本詞詞典和短語詞典領域,同時提交壹件與詞典構建方面有關的專利申請;百度在2012年提交第壹件相關專利申請,研究方向包括多粒度詞典的構建、利用用戶的選擇、基於歧義詞消解的搜索,並在2018年提交了壹件基於無監督神經網絡的詞語級語義分析專利申請。

 早期,清華大學、北京大學、中國科學院聲學所、哈爾濱工業大學、日電(中國)、谷歌等科研院所和企業均在國內進行相關專利申請。隨著技術的發展以及創新主體的重視,南京郵電大學、華東師範大學、富士康、上海交通大學也進行相關領域研究。2014年以後,蘇州大學、南京大學、中山大學等高校也加入到詞語級的消歧研發之中。

 值得註意的是,雖然中國申請人在各個時期均有參與詞語級的消歧研究之中,但除昆明理工大學外,大部分早期實力較強的中國申請人並沒有持續地提交相關專利申請。在引領詞語級消歧技術發展的無監督消歧中,僅有百度提交了壹件相關專利申請。

(3)基於神經網絡是機器翻譯發展重點,IBM積累深厚,百度加速趕超

 在20世紀40年代至50年代,機器翻譯相關技術處於理論研究階段,計算機的發明和信息論的研究為機器翻譯奠定了理論基礎,這段時期並沒有相關專利申請提出。

機器翻譯系統產業及技術發展脈絡

 20世紀60年代開始,進入基於規則的機器翻譯系統時代。相關專利開始零星地出現,其中IBM作為計算機領域開拓者在這壹時期扮演了非常重要的角色,並積累了大量規則機器翻譯系統方面的基礎專利。除此之外,大學、政府研究機構是這壹時期的重要組成,類似Systran系統的機器翻譯產品誕生於大學實驗室,並通過政府項目合作而存活並發展。

 上世紀80年至90年,是機器翻譯系統逐漸成熟並走向市場的階段,這壹時期專利申請量開始爆發,並主要來自於企業。而21世紀以來則顯現出互聯網企業在這壹領域的優勢,龐大的互聯網語料庫及算法積累,使得谷歌、微軟、百度等互聯網公司超越了IBM、東芝等老牌企業,尤其是近些年來深度學習帶來的技術革命,數據資源的重要性開始大大降低,具有革命性的技術近年來都來自於對系統算法框架的創新。

展望未來

 雖然美國和日本在自然語言處理領域早期積累深厚,但近年來中國加速趕超,中國已成為全球年專利申請量最高的國家,專利儲備量躍居全球第二,未來的競爭主要在中美兩國展開。同時,人工神經網絡與自然語言處理結合,推動了詞法分析、句法分析、語義分析、語言模型和知識圖譜技術等通用技術的快速發展,並加速機器翻譯、自動文摘,自動問答、情感分析等專用技術的落地。加大基於神經網絡的自然語言處理技術的研發,有助於中國和國內創新主體實現彎道超車,搶占人工智能高地。

殷其亮 葉盛 羅強|國家知識產權局專利分析普及推廣項目人工智能關鍵技術課題組

  • 上一篇:自然語言處理專利分析
  • 下一篇:中興和華為有什麽區別?別人都說華為神秘,但是最近華為名聲大噪,感覺中興更神秘。
  • copyright 2024法律諮詢服務網