眾所周知,大數據時代的大數據挖掘已經成為各行各業的熱點。
首先,數據挖掘
大數據時代,數據的生成和采集是基礎,數據挖掘是關鍵,數據挖掘可以說是大數據最關鍵最基礎的工作。壹般來說,數據挖掘(DataMining)也稱為數據挖掘,或從數據中發現知識,是指從大量數據中挖掘隱藏的、以前未知但潛在有用的信息和模式的工程化和系統化過程。
不同的學者對數據挖掘有不同的理解,但個人認為,數據挖掘的特點主要包括以下四個方面:
1.理論與應用的結合:數據挖掘是理論算法與應用實踐的完美結合。數據挖掘來自於實際生產生活中的應用需求,挖掘出的數據來自於具體的應用。同時,通過數據挖掘發現的知識要應用到實踐中,輔助實際決策。因此,數據挖掘來源於並服務於應用實踐。數據是根本,數據挖掘要面向數據。所涉及的算法的設計和開發要考慮到實際應用的需要,對問題進行抽象和概括,將好的算法應用到實踐中,並在實踐中得到檢驗。
2.工程過程:數據挖掘是由多個步驟組成的工程過程。數據挖掘的應用特點決定了數據挖掘不僅僅是算法分析和應用,而是包括數據準備和管理、數據預處理和轉換、挖掘算法開發和應用、結果展示和驗證、知識積累和使用的完整過程。而且,在實際應用中,典型的數據挖掘過程是壹個交互式的循環過程。
3.功能集合:數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索和分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析。壹個特定的應用案例通常涉及許多不同的功能。不同的函數通常有不同的理論和技術基礎,每個函數有不同的算法支持。
4.壹個交叉學科領域:數據挖掘是壹個交叉學科,它利用了許多不同領域的研究成果和學術思想,如統計分析、模式識別、機器學習、人工智能、信息檢索和數據庫。與此同時,隨機算法、信息論、可視化、分布式計算和最優化等其他領域也在數據挖掘的發展中發揮著重要作用。數據挖掘和這些相關領域的區別可以用上面提到的數據挖掘的三個特點來概括,最重要的是它更側重於應用。
綜上所述,應用是數據挖掘的壹個重要特征,這是它區別於其他學科的關鍵。同時,其應用特點與其他特點相輔相成,在壹定程度上決定了數據挖掘的研究與發展,同時也對如何學習和掌握數據挖掘提出了指導性意見。比如從研發的角度來說,實際應用的需求是數據挖掘領域很多方法的根源。從最初的客戶交易數據分析(購物籃分析)、多媒體數據挖掘(多媒體數據挖掘)和隱私保護數據挖掘(隱私保護數據挖掘),到文本數據挖掘(文本挖掘)和Web挖掘(Web挖掘),再到社交媒體挖掘(社交媒體挖掘),都是由應用驅動的。工程化和聚合化決定了數據挖掘研究內容和方向的普遍性。其中,工程使得整個研究過程中的不同步驟都屬於數據挖掘的研究範疇。總體性使得數據挖掘具有多種不同的功能,如何將這些功能聯系和組合在壹起,在壹定程度上影響著數據挖掘研究方法的發展。例如,在90年代中期,數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘上。到90年代末,研究人員開始研究基於關聯規則和時間序列模式的分類算法(如基於關聯的分類),將兩種不同的數據挖掘功能有機地結合起來。20世紀初,半監督學習和半監督聚類是研究的熱點,它們也有機地結合了分類和聚類兩種功能。近年來,壹些其他研究方向,如子空間聚類(特征提取和聚類的結合)和圖分類(圖挖掘和分類的結合),也鏈接和組合了多個功能。最後,交叉導致研究思路和方法設計的多樣化。
我前面提到的是數據挖掘的特點對研究發展和研究方法的影響。另外,數據挖掘的這些特點對如何學習和掌握數據挖掘提供了指導意見,對培養研究生和本科生也有壹定的指導意見。比如在指導數據挖掘的時候,應用要熟悉應用的業務和需求,需求就是數據挖掘的目的。商業、算法、技術的緊密結合非常重要。只有了解業務,把握需求,才能對數據進行分析,挖掘其價值。所以實際應用中需要的是既懂業務又懂數據挖掘算法的人才。工程學決定了掌握數據挖掘需要壹定的工程能力。好的數據挖掘師首先是工程師,有很強的處理大規模數據和開發原型系統的能力,相當於培養數據挖掘工程師時數據處理能力和編程能力的重要性。集體性使得在應用數據挖掘時,需要在底層積累不同的函數和各種算法。交集決定了在學習數據挖掘時,要主動了解和學習相關領域的思想和技術。
所以這些特征都是數據挖掘的特征,數據挖掘可以通過這四個特征進行總結和學習。
二、大數據的特點
大數據(bigdata)這個詞經常被用來描述和指代信息爆炸時代產生的海量信息。研究大數據的意義在於發現和理解信息內容以及信息與信息之間的關系。研究大數據,首先要明確和理解大數據的特征和基本概念,然後才能理解和認識大數據。
研究大數據,首先要了解它的特點和基本概念。業界普遍認為大數據具有標準的“4V”特征:
1.量:數據量巨大,已經從TB級躍升到PB級。
2.多樣性:數據類型很多,比如網絡日誌、視頻、圖片、地理信息等。
3.速度:處理速度快,分析實時,與傳統數據挖掘技術有本質區別。
4.價值:價值密度低,含有較高的有效價值。低密度價值數據的合理利用和正確準確的分析會帶來巨大的商業和社會價值。
以上“4V”特征描述了大數據和過去采樣的“小數據”的主要區別。但是,實踐是體現大數據終極價值的唯壹途徑。從實際應用和大數據處理的復雜性來看,大數據還具有以下新的“4V”特征:
5.可變性:數據的結構和含義可能在不同的場景和不同的研究目標下發生變化。因此,在實際研究中應考慮具體的語境。
6.真實性:獲得真實可靠的數據是保證分析結果準確有效的前提。只有真實準確的數據才能獲得真正有意義的結果。
7.波動性/方差:由於數據本身含有噪聲,分析過程不規範,不同的算法或者不同的分析過程和手段都會導致分析結果不穩定。
8.可視化:在大數據環境下,數據可視化可以更直觀地解釋數據的含義,有助於理解數據和解釋結果。
綜上所述,以上“8V”特征在大數據分析和數據挖掘中具有很強的指導意義。
三、大數據時代的數據挖掘
在大數據時代,數據挖掘需要考慮以下四個問題:
大數據挖掘的核心和本質是應用、算法、數據和平臺的有機結合。
因為數據挖掘是應用驅動的,來源於實踐,所以在應用中會產生海量數據。需要以具體的應用數據為驅動,以算法、工具、平臺為支撐,最終將發現的知識和信息應用於實踐,從而提供量化、合理、可行、有價值的信息。
挖掘隱藏在大數據中的有用信息,需要設計和開發相應的數據挖掘和學習算法。算法的設計和開發需要具體的應用數據驅動,同時需要在實際問題中得到應用和驗證。算法的實現和應用需要壹個高效的處理平臺,能夠解決波動問題。壹個高效的處理平臺,需要對海量數據進行有效分析,及時整合多元數據,並通過數據化有力支撐算法的實現和數據可視化,規範數據分析的流程。
總之,應用、算法、數據、平臺相結合的思想,是對大數據時代數據挖掘的理解和知識的全面提煉,體現了大數據時代數據挖掘的本質和核心。這四個方面也是相應研究的整合和架構,這四個架構具體從以下四個層面展開:
應用:與數據收集和算法驗證有關,關鍵問題是理解與應用相關的語義和領域知識。
數據層:數據的管理、存儲、訪問和安全,涉及如何高效地使用數據。
算法層:主要是關於數據挖掘、機器學習、近似算法等算法的設計與實現。
平臺層(基礎設施):數據訪問和計算,計算平臺處理分布式大規模數據。
綜上所述,數據挖掘的算法分為多個層次,不同層次有不同的研究內容。可以看到目前數據挖掘中的主要研究方向,如利用數據融合技術對稀疏、異構、不確定、不完整、多源數據進行預處理;挖掘復雜的動態數據;測試通過局部學習和模型融合獲得的全局知識,並將相關信息反饋到預處理階段;數據並行分布,達到有效利用的目的。
第四,開發大數據挖掘系統
1.背景目標
隨著大數據時代的到來,數據的規模和復雜程度呈爆炸式增長,促使不同應用領域的數據分析師使用數據挖掘技術來分析數據。在應用領域,如醫療、高端制造、金融等。典型的數據挖掘任務通常需要復雜的子任務配置、不同類型挖掘算法的集成以及在分布式計算環境中的高效運行。因此,在大數據時代,當務之急是開發和建立壹個計算平臺和工具,以支持應用領域的數據分析師有效地執行數據分析任務。
如前所述,壹個數據挖掘有多個任務、多個功能和不同的挖掘算法,同時需要壹個高效的平臺。因此,大數據時代數據挖掘和應用的迫切任務是開發和建立計算平臺和工具,以支持應用領域的數據分析師有效地執行數據分析任務。
2.相關產品
現有的數據挖掘工具
有Weka,SPSS,SQLServer,提供友好的界面供用戶分析。但是這些工具並不適合大規模的數據分析,用戶在使用這些工具時很難添加新的算法程序。
流行的數據挖掘算法庫
如Mahout、MLC++和MILK,這些算法庫提供了大量的數據挖掘算法。然而,這些算法庫需要高級編程技能來進行任務配置和算法集成。
壹些最近出現的集成數據挖掘產品。
如Radoop和BC-PDM,它們提供了友好的用戶界面來快速配置數據挖掘任務。但是這些產品都是基於Hadoop框架的,對非Hadoop算法程序的支持非常有限。多用戶多任務情況下的資源分配沒有明確解決。
3.FIU礦工
為了解決現有工具和產品在大數據挖掘中的局限性,我們團隊開發了壹個新的平臺-FIU-MINER,它代表了壹個快速、集成和用戶友好的分布式環境下的數據挖掘系統。這是壹個用戶友好的數據挖掘系統,支持分布式環境中的高效計算和快速集成。與現有的數據挖掘平臺相比,FIU-Miner提供了壹套新的功能,可以幫助數據分析師方便有效地進行各種復雜的數據挖掘任務。
與傳統的數據挖掘平臺相比,它提供了壹些新的功能,主要表現在以下幾個方面:
A.用戶友好、人性化、快速的數據挖掘任務配置。基於“軟件即服務”的模式,FIU-Miner隱藏了與數據分析任務無關的底層細節。通過FIU-Miner提供的人性化用戶界面,用戶無需編寫任何代碼,直接將已有的算法組裝成壹個工作流,就可以輕松完成壹個復雜數據挖掘問題的任務配置。
B.靈活的多語言程序集成。允許用戶將最先進的數據挖掘算法直接導入系統算法庫,以便擴展和管理分析工具集。同時,由於FIU-Miner可以正確地將任務分配給具有合適運行環境的計算節點,因此這些導入的算法沒有語言限制。
C.異構環境中的有效資源管理。FIU-Miner支持在異構計算環境中運行數據挖掘任務,包括圖形工作站、單臺計算機和服務器。FIU-Miner綜合考慮各種因素(包括算法實現、服務器負載均衡和數據位置),優化計算資源的利用率。
D.有效的計劃安排和執行。
應用架構包括用戶界面層、任務和系統管理層、邏輯資源層和異構物理資源層。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘算法的集成、多任務的配置以及系統用戶的交付功能。典型的數據挖掘任務需要復雜的主任務配置,並且在其應用中集成了許多不同類型的挖掘算法。因此,開發和建立這樣的計算平臺和工具,以支持應用領域數據分析師的有效分析,是大數據挖掘中的壹項重要任務。
FIU-Miner系統應用於高端制造、智能倉儲管理、空間數據處理等不同方面。TerraFly GeoCloud是基於TerraFly系統的平臺,支持各種在線空間數據分析。提供了類似SQL的空間數據查詢和挖掘語言MapQL。它不僅支持類SQL語句,還能根據用戶的不同需求挖掘、渲染和繪制空間數據。通過構建空間數據分析的工作流程,優化了分析流程,提高了分析效率。
制造業是指將原材料大規模加工成成品的工業生產過程。高端制造業是指科技含量高、附加值高、競爭力強的新興產業。典型的高端制造業包括電子半導體生產、精密儀器制造和生物制藥。這些制造領域往往涉及嚴格的工程設計、復雜的裝配生產線、大量的控制加工設備和工藝參數、精確的工藝控制和嚴格的材料規格。產量和質量在很大程度上取決於過程控制和優化決策。因此,制造企業不遺余力地采取各種措施來優化生產過程,優化控制參數,提高產品質量和產量,從而提高企業的競爭力。
在空間數據處理方面,TerraFly GeoCloud分析各種在線空間數據。對於傳統的數據分析,難點在於MapQL語句難寫,任務之間關系復雜,順序執行之間的空間數據共享效率低。FIU-Miner可以有效解決以上三個難點。
綜上所述,大數據的復雜特性對數據挖掘在理論和算法研究上提出了新的要求和挑戰。大數據是壹種現象,其核心是挖掘數據中蘊含的潛在信息,並使其發揮作用。數據挖掘是理論技術和實際應用的完美結合。數據挖掘是理論與實踐相結合的壹個例子。