大數據處理軟件用什麽比較好

常見的數據處理軟件有Apache Hive、SPSS、Excel、Apache Spark、?Jaspersoft BI 套件。

1、Apache Hive

Hive是壹個建立在Hadoop上的開源數據倉庫基礎設施，通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。 Hive提供了壹種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。

2、SPSS

SPSS for Windows軟件分為若幹功能模塊。可以根據自己的分析需要和計算機的實際配置情況靈活選擇。SPSS針對初學者、熟練者及精通者都比較適用。並且很多群體只需要掌握簡單的操作分析，大多青睞於SPSS。

3、Excel

Excel 可以進行各種數據的處理、統計分析和輔助決策操作，廣泛地應用於管理、統計財經、金融等眾多領域。Excel還提供高級查詢功能，最操作的簡單，其中自動匯總功能簡單靈活。高級數學計算時，Excel也只用壹兩個函數輕松搞定。

4、Apache Spark

Apache Spark是Hadoop開源生態系統的新成員。它提供了壹個比Hive更快的查詢引擎，因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時，它還用於事件流處理、實時查詢和機器學習等方面。

5、 Jaspersoft BI 套件

Jaspersoft包是壹個通過數據庫列生成報表的開源軟件。行業領導者發現Jaspersoft軟件是壹流的, 許多企業已經使用它來將SQL表轉化為pdf,，這使每個人都可以在會議上對其進行審議。另外，JasperReports提供了壹個連接配置單元來替代HBase。

數據分析與處理方法：

采集

在大數據的采集過程中，其主要特點和挑戰是並發數高，因為同時有可能會有成千上萬的用戶來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在采集端部署大量數據庫才能支撐。

並且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。

統計/分析

統計與分析主要利用分布式數據庫，或者分布式計算集群來對存儲於其內的大量數據進行普通的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，壹些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於MySQL的列式存儲Infobright等。

而壹些批處理，或者基於半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的占用。

導入/預處理

雖然采集端本身會有很多數據庫，但是如果要對這些大量數據進行有效的分析，還是應該將這些來自前端的數據導入到壹個集中的大型分布式數據庫，或者分布式存儲集群，並且可以在導入基礎上做壹些簡單的清洗和預處理工作。

也有壹些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鐘的導入量經常會達到百兆，甚至千兆級別。