OpenRefine
這是壹個流行的數據分析工具,適用於各種與分析相關的任務。這意味著,即使每個人有不同的數據類型和名稱,這個工具也可以使用其強大的聚類算法來完成項目分組。聚類完成後,可以開始分析。
Hadoop
大數據和Hadoop密不可分。這個軟件庫和框架可以使用簡單的編程模型在計算機集群之間分發大規模數據集。它尤其擅長處理大規模數據,並將其提供給本地設備。作為Hadoop的開發者,Apache也在不斷強化這個工具,提高它的實際效果。
暴風雨
同樣來自Apache的Storm是另壹個偉大的實時計算系統,它可以大大增強無限數據流的處理效果。它還可以用來執行許多與大數據相關的其他任務,包括分布式RPC、連續處理、在線機器學習、實時分析等等。使用Storm的另壹個好處是,它集成了大量的其他技術,從而進壹步降低了大數據處理的復雜度。
Plotly
這是壹款數據可視化工具,兼容JaScript、MATLAB、Python和r,Plotly甚至可以幫助沒有代碼編寫技能或時間的用戶完成動態可視化處理。這個工具經常被新壹代數據科學家使用,因為它屬於壹個業務開發平臺,可以快速完成對大規模數據的理解和分析。
快速采礦機
Rapidminer作為大數據處理的另壹個必備工具,屬於開源數據科學平臺,它是通過可視化編程機制來工作的。它的功能包括修改、分析和創建模型,並將結果快速集成到業務流程中。Rapidminer備受關註,已經成為很多知名數據科學家心目中的可靠工具。
卡桑德拉
ApacheCassandra是另壹個值得關註的工具,因為它可以有效和高效地管理大規模數據。它屬於可擴展的NoSQL數據庫,可以監控多個數據中心的數據,已經在網飛、易貝等知名企業使用。
HadoopMapReduce
這是壹個軟件框架,允許用戶編寫以可靠的方式並發處理大規模數據的應用程序。MapReduce應用程序主要負責完成兩項任務,即制圖和規範,從而提供各種數據處理結果。這個工具最初是由谷歌開發的。
散景
該可視化框架的主要目標是提供精致簡潔的圖形處理結果,以加強大規模數據流的交互能力。它是專門用於Python語言的。
WolframAlpha
這是壹組搜索引擎,旨在幫助用戶搜索他們需要的計算材料或其他內容。比如妳輸入“臉書”,就可以得到很多與臉書相關的內容,比如HTML元素結構、輸入解釋、虛擬主機信息、網絡統計、子域名、Alexa估算、網頁信息等。