回過頭來,我們來看看學習大數據的基礎。
1、java SE、EE(SSM)
90%的大數據框架都是用Java寫的。
2、MySQL
Hadoop上的SQL
3、Linux
大數據的框架安裝在Linux操作系統上。
-妳需要學習什麽?
大數據的離線分析
壹般處理T+1數據(T:可能是1天,壹周,壹個月,壹年)。
a、Hadoop:壹般不選最新版本,踩坑很難解決問題。
(常用、HDES、MapReduce、YARN)
環境建設與數據處理的理念
B.Hive:大數據的數據倉庫。
通過寫sql對數據進行操作,類似於MySQL數據庫的SQL。
基於HDFS的NOSQL數據庫。
面向列的存儲
D.合作框架:
Sqoop(橋梁:HDFS "= =" RDBMS)
Flume:在日誌文件中收集信息。
E.調度框架
anzkaban
理解:crotab(Linux自帶)
宙斯(阿裏巴巴)
Oozie(cloudera)
f、前沿框架擴展:
麒麟、黑斑羚、彈性搜索
大數據的實時分析
主要基於spark框架
Scala:OOP +FP(函數是編程)
SparkCore:類比MapReduce
SparkSQL:類比配置單元
火花流:實時數據處理
卡夫卡:消息隊列
前沿框架擴展:flink
阿裏巴巴:眨眼
大數據機器學習
Spark MLlib:機器學習庫
Pyspark編程:Python和spark的結合
推薦系統
Python數據分析
Python機器學習