題目“1”並沒有歪曲專家的原話和語境。
為什麽惡意說中國某個本土的專門技術領先世界?有些人就是受不了中國好嗎?如果妳有疑問,請拿出證據來說服大家。
這位專家顯然對自己的工作充滿信心,並宣傳中國取得的成就。媒體的惡意是什麽?為什麽斷言這個專家的句子不好?
以下是觀察者網最新發布的解讀文章:
劉鐵:寒武紀處理器是中國科學院多年努力的技術成果。
近日,采訪了中科院計算所陳研究員,匯報了深度學習處理器指令集DianNaoYu和寒武紀神經網絡處理器。很多讀者為“中國智能芯片引領世界”感到高興,但也有讀者提出了質疑——有讀者懷疑寒武紀處理器是營銷炒作;有讀者認為“英偉達壹出手,寒武紀就完了”;還有的讀者認為,自主指令集DianNaoYu太容易了,寒武紀沒有跳出傳統芯片的範疇,無法模擬大腦的突觸,只有IBM的“真北”才是真正的神經網絡處理器。
鑒於此,筆者咨詢了北京中科寒武紀科技有限公司陳博士,並根據自己的觀點做了壹些澄清。
經典馮諾依曼結構的寒武紀突破
人工神經網絡是模仿生物神經網絡構造的壹類計算機算法的總稱,由若幹人工神經元節點(以下簡稱“神經元”)組成。神經元由突觸連接,突觸記錄神經元之間連接的強度(重量)。
每個神經元都可以抽象為壹個興奮函數,這個函數的輸入由與其相連的神經元的輸出和連接該神經元的突觸決定。為了表達特定的知識,用戶通常需要調整(通過壹些特定的算法)人工神經網絡中突觸的值和網絡的拓撲結構。這個過程叫做“學習”。人工神經網絡經過學習,可以通過獲得的知識解決具體問題。
要想通過雲服務、手機等載體讓神經網絡算法方便普通人使用,計算機硬件成為關鍵瓶頸——谷歌用於貓臉識別的神經網絡訓練和使用速度慢,消耗大量計算資源,普通用戶無法承受;廣告推薦應用必須在100毫秒甚至更短的時間內計算出終端用戶可能關心的產品,對於很多大規模的深度神經網絡計算,目前的CPU和GPU是不可能達到這個速度的。
所以傳統處理器(包括x86和ARM芯片)對於深度學習的處理效率並不高,需要另辟蹊徑突破經典的馮諾依曼結構。
神經網絡在訓練時,可以通過自動調整神經元之間突觸的權重來實現對已有知識的歸納和總結,在使用時,可以根據當前突觸權重計算出當前輸入對應的輸出結果。換句話說,神經網絡中的存儲和處理是壹體化的,它們都通過突觸權重來體現。
在馮諾依曼的結構中,存儲和處理是分開的,分別由存儲器和運算器來實現。這兩者之間有著巨大的差異。使用現有的基於馮諾依曼架構的經典計算機(如X86處理器、NVIDIA GPU)運行神經網絡應用時,不可避免地受到存儲和處理結構分離的制約,效率較低。
這是開發壹個專用於人工智能的神經網絡處理器的根本。
寒武紀處理器不是炒作營銷。
有讀者質疑寒武紀處理器是在用阿爾法狗打李世石來炒作自己,這是商業包裝,炒作營銷。但實際上,寒武紀處理器是中科院在計算方面多年努力的技術成果。
早在2008年,中科院計算所就在國際上率先研發出寒武紀系列深度神經網絡處理器。相關工作曾獲得計算機硬件領域頂級會議ASPLOS'14和MICRO'14的最佳論文獎。這也是亞洲首次獲得該領域頂級會議的最佳論文獎。
寒武紀1還被計算機械協會通訊選為2014年度計算機領域的研究熱點(每年20篇左右,大陸首次入選)。這標誌著我國在類腦計算領域進入國際領先行列。
此外,深度學習處理器指令集DianNaoYu被ISCA 2016(計算機體系結構國際研討會)接受,成績在所有近300篇投稿中排名第壹。
到目前為止,陳博士和陳雲勇研究員在光寒武紀系列的技術成果上,已經收獲了兩個ASPLOS、兩個ISCA、壹個MICRO和壹個HPCA。這是計算機體系結構的四大頂級國際會議,但只有科研界關註,普通人不了解其意義。
所以寒武紀處理器不是阿爾法狗大戰李世石這個熱點誕生的,而是長期技術積累的結果,在幾年前的高端國際會議上獲獎無數。以往在主流媒體上是從來沒有過的。只是國內媒體人更願意報道國外所謂的“高科技”。所謂的“高科技”哪怕只是某個品牌的手機尺寸變大了壹點點,也壹定是滿篇文章和報道。各種贊不絕於耳,卻搞不清很多專業領域的頂級會議的意義,導致對真正非常有價值的自主技術選擇性失明。
自主指令集電腦語的意義
指令集是代碼的集合。它是用壹些代碼來表示讀寫操作,命令計算機做各種操作的壹套命令標準。
重新定義指令集的技術難度接近於零。美國曾經禁止將單個指令集作為專利申請,只有將指令集與實現方法相結合才允許申請專利。然而,指令集對集成電路設計的影響不容忽視。例如,用ARM不完整的指令集設計高性能芯片是不可能的。最近幾年,ARM更新指令集,購買MIPS 498指令集授權後,才得以在高性能芯片領域展現實力。
簡單指令集本身的價值是非常有限的。真正有價值的是圍繞指令集構建的軟件生態,指令集的實現方法和自由擴展指令集的權力。軟件生態大家都懂,我就不細說了,重點說指令集的開發權。
比如華為買了ARM指令集授權,卻沒有自主擴展指令集的權力,導致利潤被別人控制,就像合資車廠給外資輸血壹樣——買ARM指令集授權不僅貴,而且授權期限只有五年,使用範圍有限。最重要的是“無止境購買”——指令集到期就買,指令集更新。
另外,除了購買指令集授權的利潤,ARM指令集是改不了的。即使冒著侵犯知識產權的風險修改,也無法得到AA制軟件商的支持,相當於指令集的無效擴展。
與之形成鮮明對比的是,龍芯。龍芯獲得了MIPS的永久授權,避免了“買不完”的尷尬,在利潤上也不受制於人。
更重要的是,它擁有自主擴展權——龍芯ISA有1907,MIPS有527,其余指令由龍芯自主擴展。由於自建生態,自擴展指令集自然可以得到軟件的支持,也得到了很多國外開源軟件的支持。龍芯可以通過自己的擴展向量指令達到特殊應用的原始峰值。而且購買ARM指令集授權只能是ARM賣什麽,妳用什麽;購買ARM指令集的IC設計公司,不可能靠龍芯自主擴充指令集,讓特定應用的峰值翻兩番。
可見,獨立指令集DianNaoYu的意義在於,盈利不受制於人,發展不受制於人。
雖然DianNaoYu對X86和ARM不會有什麽影響,但是美國的哈佛、斯坦福、麻省理工、哥倫比亞、IBM都在做神經網絡處理器。可以預見,在神經網絡處理器中,將會出現壹場類似過去的Alhpa、MIPS、SPARC、X86、Power之爭,最後的贏家將會在桌面芯片上獲得類似X86的地位,進而獲得超額利潤。
關於“英偉達壹出手寒武紀就完了”
神經網絡處理器和通用處理器,DSP,FPGA和GPU是不同的計算設備,就像GPU的存在不會讓DSP死掉壹樣,神經網絡處理器和GPU並不沖突。當然,如果英偉達做出比寒武紀更好的神經網絡處理器,寒武紀很可能會受到影響。
此外,英偉達壹直在努力進入智能領域,但其圖形處理架構與神經網絡處理相差甚遠,相比寒武紀會有100倍以上的能耗劣勢。以點腦和大點腦為例,點腦是單核處理器,主頻0.98GHz,峰值性能每秒4520億次神經網絡基本運算,功耗0.485W,65nm工藝下3.02mm^2面積。在幾個有代表性的神經網絡上的實驗結果表明,DianNao的平均性能比主流CPU核高100倍,而面積和功耗只有1/10,效率可以提高三個數量級。DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU的百分之壹。大點腦在點腦的基礎上進壹步擴大了處理器規模,包括16個處理器內核和更大的片上存儲,並支持多個處理器芯片之間的直接高速互聯,從而避免了高昂的內存訪問開銷。
28nm工藝下,大甸腦主頻606MHz,面積67.7mm^2,功耗約16W。單芯片性能比主流GPU高21倍,而能耗只有主流GPU的1/330。與主流GPU相比,64片芯片組成的高性能計算系統性能甚至可以提升450倍,但總能耗僅為1/150。
所以這句話就像“英特爾壹出手,英偉達就完蛋了”壹樣毫無意義。
關於寒武紀取代英特爾
寒武紀處理器雖然在人工智能方面有很大的市場潛力,但並不是對傳統CPU的顛覆。就目前的技術而言,神經網絡芯片在所有應用領域都做不到比傳統CPU更好,但它只在人工智能領域比傳統CPU有優勢,它更像是壹種特殊的芯片。
即使未來手機和PC使用異構計算技術,寒武紀處理器的作用也只是完成智能認知等功能,比如運行數據庫、科學計算、辦公、微信等。寒武紀處理器無法比現有的傳統CPU做得更好。因為即使是人腦本身,很多事情也是CPU做不到的。
所以傳統的CPU在未來會是計算機的核心,但只是壹個關鍵,很多費時費力的工作會交給其他計算設備,比如DSP、FPGA、GPU、寒武紀芯片(神經網絡芯片)。如果有人想讓寒武紀芯片取代家用PC上的英特爾芯片,那只能是不切實際的幻想。
論寒武紀可能遇到的困難
寒武紀處理器失敗的風險在於社會和媒體對人工智能的過度炒作。如果人工智能的發展速度達不到大眾(投資人)的預期(這是必然會發生的,比如很多媒體甚至谷歌自己都說過要建天網),那麽整個領域就會陷入大低谷,巢之下無蛋。這種事情在80年代發生過壹次。
雖然寒武紀的路未必壹帆風順,但前途是光明的——因為寒武紀和龍芯、神威等傳統處理器完全不同。用北京中科寒武紀科技有限公司陳博士的話說,“以前我們是跟隨者,不小心掉進了別人的坑,被別人的壁壘擋住了。現在我們是領軍者,沒有知識產權壁壘,就是海闊天空,海闊天空。目前寒武紀花大錢做專利,不過是給跟隨者設置壁壘。”
只要人工智能行業健康發展,電子行業有強有力的支撐,市場營銷不能遜於國外科技公司,寒武紀的未來是非常值得國人期待的,請拭目以待。