目前大數據技術的應用還存在壹些困難和挑戰,體現在大數據挖掘的四個環節。首先,在數據收集方面。要對來自網絡的數據,包括物聯網、機構信息系統等,進行時空標記,去偽存真,盡可能收集異構甚至異構的數據,必要時與歷史數據進行對比,從多個角度驗證數據的全面性和可信度。第二是數據存儲。為了實現低成本、低能耗和高可靠性的目標,通常采用冗余配置、分布式和雲計算技術。存儲時要按照壹定的規則對數據進行分類,通過過濾和去重來減少存儲容量,同時增加便於日後檢索的標簽。第三是數據處理。壹些行業的數據涉及上百個參數,其復雜性不僅體現在數據樣本本身,還體現在多源、異構實體、多空間的動態交互。傳統方法難以描述和度量,處理復雜度很高。需要對降維後的高維圖像等多媒體數據進行測量和處理,利用上下文相關性進行語義分析,從大量動態的、可能存在歧義的數據中綜合信息,輸出可理解的內容。第四是結果的可視化呈現,讓結果更直觀,便於洞察。目前,計算機智能雖然有了很大的進步,但只能分析小規模、結構化或類結構化的數據,更談不上深度數據挖掘,現有的數據挖掘算法也很難在不同行業通用。
大數據技術的應用前景非常光明。當前,我國正處於全面建設小康社會的進程中,工業化、信息化、城鎮化、農業現代化任務十分繁重。建設下壹代信息基礎設施,發展現代信息技術產業體系,完善信息安全體系,促進信息網絡技術的廣泛應用,是實現四化同步發展的保障。大數據分析對於我們深刻認識世情國情、把握規律、實現科學發展、科學決策具有重要意義。我們必須重新認識數據的重要價值。
為了開發大數據這座金礦,我們還有很多工作要做。首先,大數據分析需要大數據技術和產品支持。壹些發達國家的信息技術(IT)公司通過加大開發力度和兼並,提前努力向大數據解決方案提供商轉型。國外壹些公司打出招牌,免費承接大數據分析,不僅是培訓,還可以獲取情報。過度依賴國外大數據分析技術和平臺,難以避免信息泄露的風險。壹些日常生活信息看似無關緊要,但實際上,我們也可以從中觸摸到國家經濟社會脈搏。因此,我們需要有自主可控的大數據技術和產品。2012年3月,美國政府發布大數據研究與發展倡議,這是繼1993宣布“信息高速公路”之後的又壹重大技術部署。聯邦政府和壹些部委已經為大數據的發展安排了資金。中國和發達國家有很多差距,需要國家政策支持。
世界上人口最多的中國會產生最多的數據,但我們對數據保存不夠重視,存儲的數據利用率不高。此外,我國壹些部門和機構擁有大量數據卻不願意與其他部門共享,導致信息不全或重復投入。政府要通過體制機制改革,打破數據分離和封鎖,重視信息公開,重視數據挖掘。美國聯邦政府建立了統壹的數據開放門戶網站,為社會提供信息服務,鼓勵挖掘和利用。比如提供當地天氣與航班延誤的關系,促進航空公司提高準點率。
大數據的挖掘和利用要有法可依。全國人大去年底通過的加強網絡信息保護的決定是壹個好的開始。當前,需要盡快制定壹部《信息公開法》,以適應大數據時代的到來。現在很多機構和企業都有大量的客戶信息。既要鼓勵面向群體、服務社會的數據挖掘,又要防止侵犯個人隱私;既提倡數據共享,又防止數據被濫用。此外,還需要定義數據挖掘和利用的權限和範圍。大數據系統本身的安全性也值得特別關註。技術安全和管理系統安全並重,防止信息被破壞、篡改、泄露或竊取,保護公民和國家的信息安全。
大數據時代呼喚創新人才。壹家咨詢公司預測,大數據將在全球範圍內帶來440萬個新的IT崗位和數千萬個非IT崗位。預測美國到2065,438+08年需要44萬-49萬深度數據分析人才,缺口為654.38+04萬-654.38+09萬;有654.38+0.5萬的管理者熟悉本單位的需求,了解大數據的技術和應用,這方面的人才缺口更大。中國是人才大國,但能理解和應用大數據的創新型人才是稀缺資源。
大數據是新壹代信息技術的集中體現,是應用驅動力強的服務領域,是潛力無限的新興產業領域;目前其標準和產業結構尚未形成,這是中國實現跨越式發展的寶貴機遇。我們應該從戰略上重視大數據的開發利用,將其作為轉變經濟增長方式的有效抓手,但要註意科學規劃,避免壹哄而上。