2.理解自然語言為什麽需要知識圖譜?
3.知識圖譜為什麽有很好的商業前景?
閱讀《人工智能——李開復談ai如何重塑個人、企業和社會的未來圖譜》是時下非常熱門的話題,尤其是2017年5月AlphaGo戰勝李世石的事件,掀起了人工智能的熱潮。人工智能的發展促使我們面臨幾個問題:什麽是人工智能,它的影響是什麽,如何應對?李開復先生作為人工智能領域的專家、行業推動者和思想布道者,通過這本書回答了我們的問題。這本書內容豐富,幾乎涵蓋了人工智能的方方面面,但感覺結構有點松散。總的來說,作為壹本科普書,還是給了我很多啟發。
壹、什麽是人工智能
人工智能的概念從計算機發明開始就被提出,圖靈提出的圖靈測試開始思考人工智能的發展並給出了測試方法。該書列舉了歷史上人工智能定義的演變。與定義的抽象相反,人工智能現在真的就在我們身邊,比如智能助手、新聞推薦、機器視覺、AI藝術、新型搜索引擎、阿爾法狗等等。該書用Gartner的技術成熟度曲線來論證當前的人工智能熱潮與過去有著本質的不同。實現了語音識別、機器視覺、數據挖掘等領域已經趕上甚至超過正常人類水平,突破了心理門檻,進入了真正的應用場景,並與商業模式緊密結合,在行業中發揮了真正的作用。
深度學習造就了現在的人工智能,是背後的關鍵技術。2006年,Jeffrey Hinton和他的合作者以壹篇題為《深度信任網絡的快速學習算法》的論文宣布了深度學習時代的到來。深度學習算法來源於人工神經網絡技術,技術靈感來源於人類神經節沿著網狀結構傳遞和處理信息的假設。歷史上這項技術因為異或問題而停滯不前,直到1975年解決了這個問題,人們才發展出多層神經網絡技術,2010年後逐漸成熟。
書中生動淺顯地介紹了深度學習的神秘算法。從根本上說,深度學習和所有的機器學習方法壹樣,都是用數學模型對現實世界中的具體問題進行建模,以解決該領域類似問題的過程。用人類孩子學習認字的過程來類比,計算機要總結出單詞的規律,未來看到類似的模式,根據之前總結出的規律知道什麽是模式。這個過程被稱為“計算機學習”。學習對象稱為“訓練數據集”。數據集中的數據用“特征”來區分,模型用計算機“建模”來概括。計算機學習有不同的算法,比如決策樹。深度學習的特點是表達靈活,同時允許計算機不斷嘗試,直到接近目標。從數學的角度來說,深度學習和傳統的機器學習方法沒有本質的區別。兩者都希望在高維空間中根據物體的特征來區分不同的物體,但是他的表達能力比傳統的機器學習要好。具體來說,我們可以把學習對象看成是壹大堆數據,把這些數據扔進壹個包含多個層次的復雜數據處理網絡(深度神經網絡),然後檢查這個網絡處理的結果數據是否符合要求。如果符合要求,我們將保留該模型,否則我們將繼續調整它,直到輸出符合要求。書中給出了水池閥門的例子。這種方式需要的是計算機近乎瘋狂地以特定的方式調整所有的流量調節閥,不斷地實驗探索,增加層數和變量,增加計算能力,增加數據量,直到算出最佳模型。所以深度學習的基本指導原則是實用主義。
由此可見,深度學習算法有效發揮作用的前提壹是芯片的計算性能和處理能力大幅提升,二是因為互聯網長期發展帶來的高質量海量數據。這兩個條件成熟後,基於深度學習的人工智能會變得更強。
有點玄乎的是,深度學習算法很有效,但是模型做出來之後,模型的設計者也說不清楚為什麽,因果關系是什麽。史上最有效的機器學習方法被很多人視為“黑匣子”,這也會導致壹個問題:人們開發出看不懂的程序,只知道它做過什麽,卻不清楚它掌握了什麽樣的規律,這個學習程序會不會失控?
第二,人工智能的影響
關於人工智能討論最熱烈的應該是科幻電影了,比如《黑客帝國》《龜殼裏的幽靈》《我》《機器人》《終結者》。列表可以長時間討論無數種可能性。簡單分類,分為樂觀和悲觀的觀點。
人工智能對我們是威脅嗎?像這種設定的電影,人工智能的發展超出了人類的控制,人類被支撐,被奴役,或者被毀滅。我覺得真的是危言聳聽。
書中對人工智能進行了分類:弱人工智能、強人工智能、超級人工智能。書中的觀點是,我們現在能看到的是弱人工智能,即應用人工智能,專註於且只能解決特定領域的問題;強人工智能又稱通用人工智能,可以勝任人類的壹切工作,具有推理、策略、問題求解、決策、常識、規劃、學習、交流等能力。在不確定的環境下,強人工智能可以代替人類。但在這裏,強人工智能有“意識”嗎?這個問題很復雜。如果人工智能有自我意識,那它和人類有區別嗎?人和機器的關系不是人和工具的關系;超級人工智能,假設人工智能繼續發展,可以比世界上最聰明最有才華的人都聰明。這個定義很模糊,因為已經超出了人類的理解,只能從哲學和科幻的角度去分析。
書中有關於奇點是否來臨的討論。前陣子所謂的“尿嚇指數”很流行。人們發現,人類的科技水平正在加速發展,短短百年間,人類已經遠遠超越了歷史。所以人們也擔心這種加速趨勢會導致強人工智能和超級人工智能的快速發展。壹旦奇點來臨,人類的命運是不可預測的,就像美洲土著無法預測技術先進的歐洲殖民者會帶來什麽影響壹樣。書中稱,某些技術,比如人工智能,在經過壹段時間的加速發展後,會遇到不可逾越的技術瓶頸,比如芯片性能。他的結論是,在壹定時期內,都是人的工具,很難突破人工智能的門檻。霍金的擔心是機器和人在進化速度上不對等。人工智能可以加速進化,但人類的進化是有限的。此外,還有失業問題。
總的來說,我同意書中的觀點,在我有生之年,我可以看到弱人工智能的充分發展,或許還有強人工智能的出現,但超級人工智能還在科幻電影裏。我們能看到的更有可能是壹個人配合人工智能作為工具的畫面。
三、如何應對人工智能時代
人工智能時代的到來是不可回避的客觀事實。從樂觀的角度來看,人工智能可能是人類社會壹個全新的大發展,和三次工業革命壹樣重要,所以人類生活在壹個完全不同的時代,個性和自由可以得到進壹步的發展。人們接觸效率和生產效率的提高,引起了社會和經濟的變化。順應時代潮流是理性的選擇。
我們面臨的第壹個問題是工作。我們的工作會被取代嗎?這本書給出了經驗法則:“五秒原則”。如果人們能夠在五秒鐘內對工作中需要考慮和決定的問題做出相應的決定,那麽這項工作就很可能被取代。想想自己的工作就有點擔心。但如果涉及到縝密的思考、透徹的推理、復雜的決策,那麽這麽長時間是很難替代的。壹些專家認為,人工智能很容易取代那些有明確評價標準和工作績效可以客觀衡量的人。未來無論什麽級別的工作,都將與人工智能合作進行,讓高級人才發揮技能,專註於最不可能自動化的工作。這個趨勢已經很明顯了,各行各業都開始了AI+的進程。既然人工智能在某些領域會做得遠遠好於人類,那麽我們應該考慮的是如何捍衛我們作為人類的價值。做人工智能做不好的事情,比如跨界推理、抽象能力、小樣本和無監督學習能力、知道是什麽的能力、建立整體系統的能力、常識能力、自我意識、審美、情感等等。
第二個問題是教育。我們需要什麽樣的教育?該書從社會結構的角度探討了這個問題。傳統的社會結構是金字塔。人工智能時代,金字塔會更加合理高效,底層從事基礎工作和重復性工作的人會減少,但金字塔不會倒塌,更有可能在現有基礎上自我調整。樂觀地說,隨著生產力的發展,更多的人從繁重的生計中解脫出來,可以或者必須投入到更加人性化的領域。因此,需要對教育體系進行大的調整,培養更多有知識、有專家、有領導、有藝術的人才,提升人機合作的技能。培養更多人與人之間的思考、創造、交流、情感溝通、依戀、歸屬與合作、對世界的綜合感知與想象等獨特能力。只能靠記憶和練習掌握的技能是最沒有價值的,幾乎肯定可以由機器來完成。死記硬背的應試教育和計算能力是最沒用的技能。只有人的個性,才是人工智能時代人類真正的價值。從表現形式上,作者舉了兩個前沿的例子,壹個是密涅瓦大學,壹個是清華的《姚班》。他總結說,人工智能時代最核心、最有效的學習方法是:主動挑戰極限、從實踐中學習、註重啟發式教育、交互式在線教育、主動向機器學習、學會人與機器的合作、學會追隨興趣。找壹份不容易被機器取代的工作,不管是為了美還是好奇。
該書還闡述了未來的工業發展。自動駕駛是人工智能最大的應用場景,充滿想象力。會帶動新的業態,新的基礎設施建設,新的生活方式,對我來說是福音。作者還詳細闡述了自動駕駛技術的發展。他認為中國在發展自動駕駛技術方面有很大優勢,可以發揮關鍵作用。壹個是我們在法律和道德上更寬容,壹個是基礎設施建設是我們的強項。另壹個目前被看好的人工智能是智能金融。利用深度挖掘大數據,在量化交易、智能投資、風險防控、安全與客戶識別、智能客服精準營銷等方面具有優勢。翻譯,智能醫療。我非常看好智慧醫療。醫療資源緊缺。在人工智能的輔助下,可以提高效率和受眾,頂級醫生可以騰出精力進行真正具有挑戰性的科研。書中還闡述了人工智能創業,從國家戰略到企業層面。中國政府有更強的執行力,中國也有優秀的科研人員。此外,還討論了人工智能時代信息安全的關註點和建議。
第四,對我的啟示
生活在這個時代,既幸運又不幸。我們是幸運的,因為我們處在變革時期,有機會看到未來顛覆性的發展。遺憾的是,我們不得不調整自己適應不確定性,我們可能看不到“強人工智能”和“超級人工智能”的充分發展。
樂觀地說,未來人們可以全身心投入到自己真正想要的工作中,為自己的熱愛而工作,這樣人生經歷會更加豐富多彩。人工智能會創造更多的財富,大多數人可以更自由地生活,會有更好的新的社會福利體系。由於人工智能的出現,人們再次確認了其獨特的價值,即擁有獨立的意識,能夠理解生的意義和死的內涵。因為生命是有限的,思想和命運可以如此珍貴。書中引用了法國哲學家布萊斯的壹句話:“人不過是壹根蘆葦草,但他知道自己要死了,宇宙也有它的好處,但宇宙對此壹無所知,所以我們所有的尊嚴都在於我們的思想”。不斷提升自己,善於利用人類的特長,善於使用機器,將是未來社會各領域人才的本質特征。
同時,人工智能的發展必然會帶來嚴重的問題。從歷史上看,生產力的發展,尤其是在初級階段,會帶來很多社會問題,給當時的人們帶來痛苦,而新技術不壹定能讓大多數人受益,可能會造成更大的社會不公。即使從目前來看,信息安全問題和對被接受信息的操縱(如劍橋分析事件)都非常嚴重,我們面臨著更多的危險。
最近看文獻,發現有些文章依靠BioNano圖譜和Hi-C技術輔助組裝。學習生物納米技術。
BioNano atlas和Hi-C用於將支架錨定在染色體上並協助組裝。那麽我們來回顧壹下這兩種技術之前使用的方法。
1,傳統錨定方法
染色體錨定有兩種傳統方法:物理定位和遺傳定位。前者主要是通過序列的重疊關系來確定支架在染色體上的位置信息,後者主要是利用減數分裂後姐妹染色單體的重組率來確定支架在染色體上的排序和方向。在實際操作中,傳統的錨定方法存在實驗難度大、成本高、實驗誤差大等問題。__
2.基於染色質構象捕獲技術的錨定方法。
Hi-C技術的基本原理是:首先用交聯劑為活細胞固定染色質,甲醛是最常用的交聯劑;然後,固定的染色質被HindIII等限制性酶消化;然後用生物素標記的核苷酸填充粘性末端;稀釋環境下進行平端填充反應,促進交聯染色質片段之間的連接;然後用超聲波打斷捕獲的_DNA片段,最後用生物素標記的DNA片段在Illumina平臺上測序,得到全基因組染色質相互作用矩陣。將獲得的DNA序列與參考基因組進行比較。如果壹對序列對應不同位置的限制性片段,則認為這兩個片段之間存在染色質相互作用,從而可以構建基因組中所有限制性片段之間的相互作用頻率矩陣。
Hi-C技術產生的染色質相互作用呈現出隨距離增加而衰減的規律,也就是說,染色體內的相互作用強於染色體間的相互作用,同壹條染色體上彼此距離較近的相互作用強於距離較遠的相互作用。基於這個規律,Hi-C技術可以用來錨定支架,也可以指支架在染色體上的排序和定向。參考Hi-C測序和測序數據特征
3.基於光譜圖技術的錨定方法
光學測繪技術最早是由Schwartz等人(1993)發明的。最近BioNanoGenomics公司推出的Irys光學作圖系統,真正讓光學作圖技術商業化(Lametal。,2021).Irys系統使用特殊的限制性內切酶和特殊的熒光標記對高達數百kb的單鏈DNA分子進行成像,並使用高質量的圖像以限制性內切酶圖譜的形式顯示基因組結構。
光譜的基本原理如下:
在大量的細胞溶液中,DNA分子被隨機切割成500kb左右的片段,然後通過微通道DNA片段拉伸並附著在帶正電荷的玻璃支架上,再用特定的限制性內切酶在相應的限制性位點切割DNA。切割的DNA分子用熒光染料染色,並在顯微鏡下拍照(圖a-d)。Irys系統特有的超長閱讀長度,可以輕松跨越重復序列區和壹些含有復雜元件的DNA片段,極大地簡化了基因組的組裝過程,提高了基因組的組裝效率,也解決了拼接缺口的問題。BioNano沿著數百kb的DNA分子(薄片金屬)產生小序列結構(例如限制酶識別位點)的物理圖。,2021),不僅可以對支架進行測序和確定方向,還可以對基因組組裝的質量進行評價。BioNano最初主要用於小基因組的微生物基因組組裝領域,現在已經廣泛應用於植物基因組組裝領域。
圖a-a-dBioNano光學圖譜構建示意圖
Bionano技術簡單來說就是給分子加上熒光標簽然後拍照,所以原始的離線數據是TIFF格式的,但是我們得到的壹般是AutoDetect/IrysView轉換的BNX格式。
Bionano光學圖展示了天然DNA分子的真實景觀。用SPDNA分離試劑盒獲得超長DNA分子,用直接標記染色法(DLS)標記DNA分子。通過納米微流控芯片將每個DNA分子線性化,進行高分辨率熒光成像,為基因組學的下遊應用提供了原始的DNA景觀。這種真實的基因組物理圖譜為基因組組裝提供了染色體規模的框架,可以有效地檢測純合子和雜合子的大片段結構變異。
大白菜參考基因組升級和染色質互作分析,章雷,2018。