大數據的概念和內涵
“大數據”的概念早就有了。1980著名未來學家阿爾文?托夫勒在《第三次浪潮》壹書中熱情地稱贊大數據是“第三次浪潮的華彩樂章”。但直到近幾年,“大數據”才和“雲計算”、“物聯網”壹起成為互聯網信息技術行業的熱門詞匯。2008年,在Google成立10周年之際,著名的《自然》雜誌出版了壹期專刊,討論未來大數據處理相關的壹系列技術問題和挑戰,其中提出了“大數據”的概念。2011年5月,在主題為“雲計算遇上大數據”的EMC World 2011大會上,EMC也拋出了大數據的概念。所以很多人認為2011是大數據元年。
此後,許多專家和機構從不同角度提出了他們對大數據的理解。當然,由於大數據本身具有很強的抽象性,國際上並沒有統壹公認的定義。維基百科認為,大數據是超過現有數據庫系統或數據庫管理工具的處理能力、處理時間超過客戶可以容忍的時間的大規模復雜數據集。全球排名第壹的企業數據集成軟件廠商Informatica認為,大數據包括海量數據和復雜數據類型,其規模超過了傳統數據庫系統的管理和處理能力。亞馬遜網絡服務(AWS)和大數據科學家JohnRauser提到了壹個簡單的定義:大數據是超過計算機處理能力的任何海量數據。百度搜索的定義是:“大數據”是壹個體量特別大、數據類別特別大的數據集,而這樣的數據集是傳統數據庫工具無法抓取、管理和處理的。《互聯網周刊》的定義是:“大數據”的概念遠不止是大量的數據(TB)和處理大量數據的技術,或者所謂的“四個v”之類的簡單概念,而是涵蓋了人們在大規模數據基礎上可以做的事情,在小規模數據基礎上無法實現的事情。換句話說,大數據讓我們以前所未有的方式分析海量數據,從而獲得極具價值的產品和服務或者深刻的見解,最終形成變革的力量。
基於以上不同的定義,我們認為大數據至少應該包括以下兩個方面:壹是龐大,二是無法用傳統工具處理。所以,大數據不在於如何定義,最重要的是如何使用。它不僅強調數據的規模,更強調從海量數據中快速獲取有價值信息和知識的能力。
大數據的4V特征
壹般認為,大數據主要有以下四個典型特征:量、變、速、值,被稱為“4V”。
1.規模。大數據的特點首先體現在“量大”,存儲單位從過去的GB、TB到PB、EB。隨著信息技術的飛速發展,數據開始爆炸式增長。社交網絡(微博、推特、臉書)、移動網絡、各種智能終端等。都成為了數據的來源。淘寶近4億會員產生約20TB每天的商品交易數據;臉書約6543.8億用戶每天產生超過300TB的日誌數據。迫切需要智能算法、強大的數據處理平臺和新的數據處理技術來實時統計、分析、預測和處理如此大規模的數據。
2.多樣性。廣泛的數據來源決定了大數據形式的多樣性。大數據大致可以分為三類:壹是結構化數據,如金融系統數據、信息管理系統數據、醫療系統數據等。,其特點是數據間因果關系強;二是非結構化數據,如視頻、圖片、音頻等。,特點是數據之間沒有因果關系;第三,半結構化數據,如HTML文檔、郵件、網頁等。,特點是數據之間的因果關系弱。
3.高速。與檔案、廣播、報紙等傳統數據載體不同,大數據的交換和傳播是通過互聯網和雲計算來實現的,其速度遠遠快於傳統媒體的信息交換和傳播。大數據與海量數據的重要區別在於,除了大數據的數據規模更大之外,大數據對處理數據的響應速度有更嚴格的要求。實時分析代替批量分析,數據輸入、處理、丟棄都是立竿見影,幾乎沒有延遲。數據的增長速度和處理速度是大數據高速的重要體現。
4.價值。這也是大數據的核心特征。在現實世界產生的數據中,有價值的數據比例非常小。與傳統的小數據相比,大數據的最大價值在於從大量不相關的數據中挖掘出對未來趨勢和模式的預測和分析有價值的數據,通過機器學習方法、人工智能方法或數據挖掘方法的深入分析,發現新的規律和新的知識,並應用於農業、金融、醫療等領域,最終達到改善社會治理、提高生產效率、促進科學研究的效果。
大數據的六大發展趨勢
雖然大數據還處於發展的初級階段,還有很多困難和挑戰,但是我們相信隨著時間的推移,大數據未來的發展前景是非常可觀的。
1.數據將呈指數級增長。
近年來,隨著社交網絡、移動互聯網、電子商務、互聯網和雲計算的興起,音頻、視頻、圖像、日誌等數據呈指數級增長。據相關數據顯示,2011年,全球數據規模為1.8ZB,可以裝滿575億臺32GB的ipad,這些ipad可以在中國建兩座長城。到2020年,全球數據將達到40ZB。如果全部存儲在藍光光盤中,這些光盤的重量將相當於424艘尼米茲航母。美國互聯網數據中心指出,互聯網上的數據將以每年50%的速度增長,每兩年翻壹番。目前世界上90%以上的數據都是近幾年才產生的。
2.數據將是最有價值的資源。
大數據時代,數據已經成為繼土地、勞動力、資本之後的新要素,構成未來企業的核心競爭力。在壹份題為“大數據,大影響”的報告中,華爾街日報宣稱數據已經成為壹種新的資產類別,就像金錢或黃金壹樣。IBM首席執行官羅睿蘭認為,“數據將成為所有行業中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。”隨著大數據應用的不斷發展,我們有理由相信,大數據將成為機構和企業的重要資產和競爭的焦點。谷歌、蘋果、亞馬遜、阿裏巴巴和騰訊等互聯網巨頭正在利用大數據的力量取得更大的商業成功,並將繼續通過大數據提升競爭力。
3.大數據與傳統行業智能融合
通過對大數據的收集、整理、分析和挖掘,不僅可以發現城市治理的問題,把握經濟運行的趨勢,還可以驅動精準設計和精準生產模式,引領服務業精準增值,創造互動創意產業的新形態。麥當勞、肯德基、蘋果等旗艦店的位置都是基於數據分析的精準位置。百度、阿裏、騰訊通過對海量數據的掌握和分析,為用戶提供更專業、更個性化的服務。隨著智慧城市建設的深入,大數據將在智慧城市中發揮越來越重要的作用。從城市數字化到智慧城市,關鍵是實現數字信息的智能處理,其核心是大數據處理技術的引入,大數據將成為智慧城市的核心智慧引擎。智慧金融、智慧安防、智慧醫療、智慧教育、智慧交通、智慧城管等。都是大數據和傳統行業融合的重要領域。
4.數據會越來越開放。
大數據是人類的* * *同資源* * *同財富,數據開放共享是不可逆轉的歷史趨勢。隨著世界各國政府和企業越來越意識到開放數據帶來的社會效益和商業價值,全球將很快掀起壹股數據開放的浪潮。事實上,大數據的發展需要全世界、全人類的合作,把私有大數據變成公共大數據,最終實現私有、企業所有、行業所有的大數據的全球融合,才不會形成壹文不值的“數據孤島”。越相關的大數據越有價值,越開放。特別是公共企業和互聯網公司的開放數據會越來越多。目前,美國、歐洲等發達國家和地區的政府在政府和公共事業的數據上已經做出了表率。壹方面,中國市政府將牽頭推動數據公開和享受;另壹方面,將通過推進各類大數據服務交易平臺的建設,為數據用戶提供豐富的數據源和應用。
5.大數據安全將受到越來越多的關註。
隨著大數據在經濟社會中的應用越來越廣泛,大數據的安全性必將受到更多的關註。大數據時代,我們在利用數據挖掘、數據分析等大數據技術獲取有價值信息的同時,“黑客”也可以利用這些大數據技術最大限度地收集更多有用的信息,對自己感興趣的目標發動更“精準”的攻擊。近年來,個人隱私、商業信息甚至國家機密被泄露的情況時有發生。對此,美歐等發達國家都制定和完善了相關法律法規,保護信息安全,防止隱私泄露。可以預見,在不久的將來,其他國家也會迅速跟進,更好地保護本國政府、企業甚至居民的數據安全。
6.大數據人才會很吃香。
隨著大數據的不斷發展及其日益廣泛的應用,經驗豐富的數據分析師,包括大數據分析師、數據管理專家、大數據算法工程師、數據產品經理等。,將成為全社會的稀缺資源和各類機構的人才。根據國際著名咨詢公司Gartner的預測,2015年全球對大數據人才的需求將達到440萬,而人才市場只能滿足三分之壹的需求。麥肯錫預測,美國到2065,438+08年需要44-49萬深度數據分析人才,缺口為654,38+04-654,380,900人。有鑒於此,美國通過美國國家科學基金會,鼓勵研究型大學設立跨學科學位項目,為培養下壹代數據科學家和工程師做準備,並設立培訓基金支持大學生的相關技術培訓,匯集各個學科的研究人員,共同探討大數據如何改變教育和學習。英國、澳大利亞、法國等國家也對大數據人才的培養做出了類似的特殊安排。IBM等公司也開始全面推進與高校在大數據領域的合作,試圖培養既懂業務知識又有分析能力的復合型數據人才。(吳峰:國家信息中心)