大數據的核心技術有哪些？

大數據技術體系龐大復雜，基礎技術包括數據采集、數據預處理、分布式存儲、數據庫、數據倉庫、機器學習、並行計算、可視化等。

1.數據采集與預處理:FlumeNG實時日誌采集系統，支持在日誌系統中定制各種數據發送方，用於采集數據；Zookeeper是壹個分布式開源的分布式應用協調服務，提供數據同步服務。

2.數據存儲:Hadoop作為開源框架，是專門為離線和大規模數據分析而設計的，HDFS作為其核心存儲引擎，已經廣泛應用於數據存儲。HBase是壹個分布式、面向列的開源數據庫，可以認為是hdfs的封裝，其本質是數據存儲和NoSQL數據庫。

3.數據清洗:MapReduce作為Hadoop的查詢引擎，用於大規模數據集的並行計算。

4.數據查詢分析:Hive的核心工作是將SQL語句翻譯成MR程序，MR程序可以將結構化數據映射到壹個數據庫表中，並提供HQL(HiveSQL)查詢功能。Spark支持內存分布式數據集，不僅可以提供交互式查詢，還可以優化叠代工作負載。

5.數據可視化:對於壹些BI平臺，將分析得到的數據可視化，以指導決策服務。