1.數據采集與預處理:FlumeNG實時日誌采集系統,支持在日誌系統中定制各種數據發送方,用於采集數據;Zookeeper是壹個分布式開源的分布式應用協調服務,提供數據同步服務。
2.數據存儲:Hadoop作為開源框架,是專門為離線和大規模數據分析而設計的,HDFS作為其核心存儲引擎,已經廣泛應用於數據存儲。HBase是壹個分布式、面向列的開源數據庫,可以認為是hdfs的封裝,其本質是數據存儲和NoSQL數據庫。
3.數據清洗:MapReduce作為Hadoop的查詢引擎,用於大規模數據集的並行計算。
4.數據查詢分析:Hive的核心工作是將SQL語句翻譯成MR程序,MR程序可以將結構化數據映射到壹個數據庫表中,並提供HQL(HiveSQL)查詢功能。Spark支持內存分布式數據集,不僅可以提供交互式查詢,還可以優化叠代工作負載。
5.數據可視化:對於壹些BI平臺,將分析得到的數據可視化,以指導決策服務。