是什麽魔力讓“大數據”這個概念被世界各國廣泛關註?到底什麽是“大數據”?能在多大程度上改變我們的生活?當我們尋求這些重要問題的答案時,牛津大學網絡學院互聯網研究所教授維克托·邁爾-勛伯格出現在我們的視野中;希望我們對他的采訪能幫助讀者找到這些問題的答案。
最近,“大數據”熱潮席卷全球。正如《福布斯》雜誌所說,在瀏覽新聞網站或參加行業會議時,幾乎不可能看到或聽到“大數據”這個詞。去年,美國6個聯邦政府部門宣布將啟動“大數據R&D計劃”,投入超過2億美元用於提高從海量復雜數據中獲取知識的能力。與此同時,我國科技部發布了《國家“十二五”科技規劃信息技術領域2013備選項目征集指南》,也將大數據研究排在了首位。在目前召開的全國“兩會”上,壹些NPC代表建議將“大數據”發展上升為國家戰略。
是什麽魔力讓“大數據”這個概念被世界各國廣泛關註?到底什麽是“大數據”?能在多大程度上改變我們的生活?對「大數據」的關註度是否過高?在我們為這些重要問題尋求答案的同時,英國牛津大學網絡學院互聯網研究所教授維克托·邁爾-勛伯格(Viktor Mayer-schoenberg)出現在我們的視野中,討論“大數據”。他至少是合適的候選人之壹,如果不是最合適的。
20多年來,維克多壹直致力於網絡經濟、信息與創新、信息監管、網絡標準化和戰略管理的研究。即使在“大數據”這個概念備受爭議的時候,Victor就已經進行了系統深入的研究。2010在《經濟學人》上發表了壹篇14頁的大數據專題文章。稱他為最早看到大數據時代發展趨勢的數據科學家之壹並不為過。
《經濟學人》說,在大數據領域,維克多是最受尊敬的全能代言人之壹;美國《科學》雜誌稱,沒有比這更好的發起者來發起對這壹問題的深入討論。
除了理論研究,維克多也非常貼近現實世界。早在大學的時候,他就成立了數據安全和殺毒軟件兩家公司。在他的《大數據時代》壹書中,那些前沿的、全新的大數據應用案例,得益於他多年來緊跟企業和商業應用的步伐。在他的咨詢客戶中,有許多大數據先驅,如微軟、惠普、IBM、亞馬遜、臉書、Twitter和VISA。
目前,維克多還是歐盟官方互聯網政策背後的重要制定者和參與者。更重要的是,他還在新加坡商務部、文萊國防部、科威特商務部等部門工作過,特別熟悉亞洲信息產業的發展和戰略布局。
我希望我們通過電子郵件對維克多的采訪可以幫助讀者找到這些問題的答案。
為了獲得宏觀上的洞察力而失去微觀上的準確性。
文匯報:如今,“大數據”已經成為世界熱詞。妳是什麽時候開始關註的?
邁爾-勛伯格:多年來,我壹直致力於研究數據在信息經濟發展中的重要作用。我和Kenneth Cukier(我的合著者)發表了壹系列相關的研究報告。大約三年前,在我自己組織的壹次會議上,我們兩人都意識到“大數據”的存在不僅僅是壹場炒作或壹個宏大的宣言,而是會實實在在地改變我們的工作、生活和整個社會,所以我們決定以此為主題寫壹本書。
文匯報:那麽,在妳看來,什麽是大數據時代?它和傳統的數據時代有什麽區別?我們知道,像沃爾瑪這樣的公司已經在多年前將大數據應用於商業實踐。
梅耶爾-勛伯格:事實上,在過去的幾個世紀裏,數據在科學家的決策過程中發揮了壹定的作用,並且在過去的幾十年裏,這種做法被擴展到了壹些公司的決策過程中。但是在大數據時代之前,數據是非常匱乏的,我們擁有的數據非常少。所以我們的決策,我們建立的體系,都是建立在這樣壹個缺乏數據的基礎上的。今天,壹切都變得很不壹樣了,這體現在三個不同的方面,我們稱之為“更”、“更亂”、“相關”。
文匯報:這三個特點也是您在《大數據時代》壹書中所強調的,它們甚至可能顛覆我們過去的整個思維方式。能詳細描述壹下過程嗎?
邁爾-勛伯格:好的。當我說“更多”時,我的意思是我們可以圍繞我們想要調查的任何特定問題或需要我們回答的問題獲得比以往任何時候都多的數據。在大數據時代,我們可以利用海量數據獲得非常詳細的洞察,這是傳統方法做不到的。
可以說,大數據時代和傳統數據時代的區別,就好比壹張分辨率為200萬像素的舊數碼照片,突然提高到2400萬像素。後者是壹個非常非常大的文件,可以提供更多的細節。它可以讓我們放大後清晰地看到小顆粒的細節,分辨率較低的圖像在這些細節中會非常模糊。
遺傳信息就是壹個很好的例子。美國壹家名為23andMe的新公司提供個人DNA測試和分析,以發現壹些疾病癥狀。只需要兩三百塊錢,並且提醒顧客個人愛好可以發展成嚴重的疾病。然而,該公司並不對每個客戶的整個基因組進行測序,而是將這些位點與已知特征(由於某種疾病的存在而可能有問題的DNA片段)進行比較。這意味著,當發現壹個新的特征時,23andMe必須重新對客戶的DNA進行測序,並建立壹個更完整的檔案。
蘋果公司的史蒂夫·喬布斯嘗試了壹種非常不同的方法。在他得了癌癥後,他擁有了自己所有的遺傳密碼,並對數十億個堿基對進行了測序。這花費了他超過6.5438億美元,但這讓醫生完全了解了他的遺傳密碼。每當藥物因喬布斯的癌癥病變而失去效力時,都可以根據喬布斯特定的基因信息找到有效的替代藥物。遺憾的是,這並沒有挽救喬布斯的生命,但在這個過程中獲得的數據卻已經延長了他的生命。
由於技術創新,收集大量信息的成本越來越低。史蒂夫·喬布斯幾年前的所作所為花費了六位數。如今,妳只需不到65,438美元+0,000英鎊就能獲得同樣的服務。
而“更亂”是指在小數據時代,因為數據是如此的稀缺,我們可以保證我們收集的每壹個數據點都是非常準確的。相比較而言,大數據往往雜亂無章,質量參差不齊。但是,相比於以高昂的代價保證測量和收集少量數據的準確性,在大數據時代,我們會接受這種雜亂,因為我們通常需要的只是壹個大概的方向,而不是試圖去了解壹個現象的細節。我們不想完全放棄準確性,我們只是放棄對準確性的熱情。為了獲得宏觀的洞察力,我們在微觀層面失去了精確性。
計算機翻譯就是壹個例子。在1990年代,IBM研究人員使用壹組非常精確的文檔(加拿大議會記錄的法語和英語版本)來訓練計算機。雖然計算機完全遵循規則,但基於它的翻譯質量很低。然後,谷歌在2006年開始介入這個領域。他們沒有使用加拿大政府提供的數百萬種標準翻譯,而是使用任何現成的語言。在整個互聯網上,他們使用數十億頁質量參差不齊的翻譯,這些翻譯不是很標準——但這是壹個小的權衡——他們可以使用的數據大大增加了,結果是,翻譯質量提高了。相對於越來越少的標準數據,更多雜亂無章的數據勝出了。
“多”和“更亂”的結合產生了第三個特征,“相關性”,這也是大數據帶來的最根本的變化。我們的思維會從因果性轉向相關性。時至今日,在整個人類歷史上,全世界的人們都在尋找事件的原因,探索“為什麽”。但我們對原因的執著探索,往往會把我們引向錯誤的方向。所以我們建議,在大數據時代,很多情況下,我們可以只是尋找“什麽”,而不完全理解“為什麽”。比如在大數據的分析中,我們可以發現機器振動的壹些非常微小的變化,這些變化預示著機器即將損壞。這使我們能夠在壹些機器零件報廢之前對其進行更換。這就是所謂的“預測性維護”,可以節省很多錢。但除了提高消費效率,“關聯”還可以做更多的事情。
比如對於早產兒來說,即使長大了,這些寶寶還是很脆弱的,哪怕遇到壹點小的感染。卡羅琳·麥格雷戈醫生研究如何給這些嬰兒最好的生存機會。利用大數據分析,每分鐘可以收集到這些嬰兒的1000多個數據點。麥格雷戈發現了壹個令人震驚的事實:每當這些早產兒出現非常穩定的跡象時,他們的身體其實並不穩定,正準備生病。有了這些知識,她可以在很早的階段就確定嬰兒是否需要醫療,從而挽救更多孩子的生命。
這是壹個典型的大數據應用:麥格雷戈博士可以通過更全面的傳感器收集比以前更多的數據。她也接受在這種情況下,並不是所有的數據都是準確的,這將導致她分析不準確的可能性。她把“為什麽”的問題放在壹邊,用更務實的方式提供幫助。她尋找“什麽”,這是預測感染的更好方法。
我們應該記住,大數據也可以拯救生命。
正確利用大數據,可以提高醫療和教育水平,促進人類發展。
文匯報:大數據時代的到來是否會引領新壹輪工業革命?應該如何客觀看待它的價值?
邁爾-勛伯格:大數據將極大地改變社會生活的方方面面,但很難說它的價值是否等同於工業革命。我個人的猜測是,也許不是,因為19世紀工業革命之初,經濟發展還處於很低的水平,所以相對來說,當時工業化進程對人民生活水平的提高是非常巨大的,但是今天已經大不相同了。
我們真正想強調的是,大數據時代將推動我們從根本上改變企業的運營方式和我們在社會中的生活方式。大數據可以提高人的決策能力,這種提高將是實質性的。有了大數據,我們不會簡單地提高經濟效率,而是會拯救人類的生命,延長我們自己的生命。我們還將改善教育,促進發展。同理,壹定要小心。正如我們在書中討論的那樣,大數據也有“黑暗的壹面”。如果應用不當,大數據也可以變成強大的武器。所以壹定要保證大數據的正確使用。
文匯報:妳提到了大數據時代的“陰暗面”。它的到來會加深數字鴻溝嗎?
邁爾-勛伯格:大數據是壹個強大的工具。因此,如果我們使用錯誤的方法,可能會加深數字鴻溝。然而,如果我們利用好它,我相信大數據可能會改善我們的生活,尤其是對那些沒有那麽幸運的人來說。此時,妳可以把它想成火、電或抗生素等等。
文匯報:換句話說,妳對大數據價值的認知是基於更長的歷史發展時期。
邁爾-勛伯格:如果我們從壹個非常廣闊的視角來看待人類歷史,我認為人類壹直想要了解這個世界。起初,許多人的“知識”是基於迷信和預感。知識的發展是非常緩慢的,需要人們深入思考,然後通過實踐來檢驗,以確保知識是可用的。
但即便如此,我們的知識仍然不是100%可靠。例如,在19世紀,路易斯·巴斯德壹直在研究狂犬病疫苗。當時有個孩子被狗咬得很嚴重,得了狂犬病。他的父母擔心孩子會死,懇求巴斯德嘗試他的實驗疫苗。巴斯德照做了,孩子活了下來。在隨後的慶祝活動中,巴斯德作為英雄出現,他拯救了年幼兒童的生命。但事實真的是這樣嗎?今天,通過更深入的研究,我們知道,被類似病狗咬過的孩子,只有25%會感染狂犬病。所以即使使用無效疫苗,75%的兒童仍然可以存活。這個故事告訴我們,我們認為我們生活在壹個非常科學的世界,但事實上,我們的數據非常少。壹種新的治療方法需要經過幾十次甚至上百次醫學實驗的檢驗,才能被證明是安全的。但這仍然太少,人們仍然會因為我們依賴的數據太少而受到傷害。大數據時代,我們可以告別數據匱乏,我們做出的決策會更加理性,更加有事實依據,當然也更加可靠。這就是大數據時代帶給我們的希望——更好的決策將取代我們過去可疑的迷信和不可靠的人類預感。
文匯報:我們看到麥肯錫公司2011發布報告,推測大數據在美國如果用於醫療保健,每年將產生3000億美元的潛在價值,在歐洲如果用於企業管理,每年將獲得2500億歐元的潛在價值;服務提供商可以通過使用個人位置數據為潛在消費者獲得每年6000億美元的盈余;利用大數據分析,零售商可以增加60%的營業利潤,制造設備的組裝成本將降低50%。“數據創造價值”的預測壹直很振奮人心。在妳看來,大數據只是有價值的生意嗎?
邁爾-勛伯格:不,大數據可以做得更多。至於醫療,我們之前也提到過,我們只分析壹些重要的體征。醫生可以在早產兒出現明顯感染癥狀前幾個小時預測他們的病情。
同樣的,通過大數據分析,我們也可以發現學校課本的哪壹部分對學生是最好的,也可以發現哪壹部分是無效的。到目前為止,我們只能根據人的直覺,也就是老師自己,來判斷學生在理解某壹門具體課程時是否會產生懷疑;但是在大數據時代,我們有實際數據可以參考,比如數據展示。電子書有的頁面看了很多遍,因為讓學生覺得很費解,所以我們可以相應調整教材。這將從根本上改變教育。
或者以公共政策為例:Inrix是壹家為智能手機提供導航軟件的公司,它還提供實時交通數據。之所以能做到這壹點,是因為每個用戶都成為了交通流量的傳感器,並將位置和速度信息發回給Inrix。這樣,我們就可以為在交通堵塞時出行的客戶提供良好的服務。Inrix擁有大量關於人們活動的數據,這也將有助於城市規劃者了解人們的通勤模式,人們從哪裏開始工作,然後返回,並建設基礎設施,如公路和鐵路。這是最有效的應用。在省錢的同時,也有利於整個社會的管理。
文匯報:大數據在商業決策、學術研究乃至國家治理中的作用顯而易見;但是對於日常生活中的普通人來說,壹定會從中受益嗎?為什麽在大數據時代,仍然有很多人主張遠離超載的信息和數據,回歸傳統的社區生活?個人生活空間從“簡單平面”變成“多維存在”有意義嗎?
邁爾-勛伯格:幾千年來,人類所經歷的世界是壹個在少量數據的基礎上產生很多想法的世界。只有當水手們遠航回來後,地圖才會在這個經驗的基礎上重新繪制。這顯然不是很準確。人類經過反復試錯,發展得非常緩慢。然而,當我們的數據非常少時,這是壹個自然的結果。今天,我們擁有如此多的數據,難怪人類不堪重負。但是現在大數據可以有所幫助。如果人類不善於消化這種過多的信息,大數據分析可以幫助我們對信息進行篩選,並進壹步可視化,這樣我們就可以輕松使用。
人們普遍不具備與大數據時代相匹配的思維和技能。
文匯報:有專家認為,大數據的未來是數據的APP(加速並行處理)而不是基礎設施;換句話說,單靠數據平臺和基礎設施是無法創造長期價值的。對此妳怎麽看?
邁爾-勛伯格:我們認為,大數據時代將需要至少和過去壹樣多的人的聰明才智。同時,龐大的資源是未來時代的金礦,擁有這些數據資源的人將獲得的回報是不可想象的。
文匯報:大數據時代,數據是透明的。如何在保護個人隱私、商業秘密和國家安全之間取得平衡?妳所謂的“網絡遺忘運動”會是最好的藥方嗎?
邁爾-勛伯格:大數據時代的挑戰是我們發現數據背後的價值,因此保留數據並反復重用往往是明智的選擇。與此同時,目前保護個人隱私的法律,尤其是在西方,是針對傳統數據的世界,而不是大數據的世界。這就要求我們在保護隱私的規則上做出調整。我們建議可以通過調整相關的保護規則來達到這個目的。正如妳提到的,我們可以選擇在壹段時間後忘記這些數據。
文匯報:大數據時代是海量數據待處理的時代,也是海量無用信息待刪除的時代。這就是妳在《刪除》壹書中強調我們要做出選擇的原因嗎?
邁爾-勛伯格:是的。某種程度上,大數據本身也可以加強對隱私的保護。因為如果有了100萬個數據點,單個數據點就不再那麽重要了,這和傳統的數據時代有很大的不同。久而久之,忘記了壹部分數據,並不會破壞整個大數據的運行和使用。
文匯報:現在世界大數據發展到什麽階段了?處理大數據的技術在全球普及了嗎?
邁爾-勛伯格:管理和處理大數據的技術已經存在,而且它們也不是很昂貴。但是,有壹點目前還是非常欠缺的,那就是我們的思維——了解隱藏在數據背後的巨大價值,以及提取這種價值的專業知識。今天,世界各地的人們普遍不具備這種思維和技能,但我相信,這種情況在未來會有所改變。我們預計,世界各地的許多大學將開設大數據分析課程,以培養大數據時代所需的技能。
文匯報:在歷次工業和科技革命中,中國似乎都是學習者和模仿者;與前幾輪工業技術革命不同的是,在大數據時代,中國幾乎與歐美發達國家同時開始技術研發,世界上人口最多的中國將成為產生數據最多的國家。妳看好中國在新時代的發展前景嗎?中國在大數據時代有沒有可能創新引領?
邁爾-勛伯格:是的,我們對此非常樂觀。中國有可能成為大數據領域的先鋒。在大數據時代,中國有很多優勢:中國人受教育程度高,尤其是數學和統計學(這很重要)。中國是壹個巨大的多元化社會,這將為創造大數據資源和建立大數據應用創造大量機會。同樣的道理,對於大數據的蓬勃發展,我們也需要壹種匹配的思維方式,壹種嘗試新事物和不斷創新的欲望,以經驗事實作為我們決策的依據。所以和其他很多社會壹樣,大數據時代確實會給中國帶來很大的變化。
以上是邊肖為大家分享的關於大數據時代帶來更理性、更可靠決策的相關內容。更多信息可以關註全球常春藤分享更多幹貨。