[2015年技術沙龍分享]
因工作內容需要,在2010年初公司規劃要建設大數據基礎平臺,以解決公司多業務多系統支持的混亂局面。因為有之前SNS平臺的建設經驗,深知壹個“平臺”的建設不是壹個簡單的項目,需要投入大量的人力、時間、資源,需要有良好的架構設計能力以及大數據技術的實踐儲備,是壹個持續建設的過程,同時對壹個中小企業而言,面臨著“大”數據的處理挑戰。
壹句話定義
互聯網信息采集挖掘服務
擴展定義
互聯網在線智能計算平臺,面向公司內部產品研發和運營團隊、第三方應用開發商及獨立開發者,在研發政府、媒體、企業、財經、網站等領域的應用時,提供信息、情報、知識、行為、運算等方面的關鍵支持;
平臺整體分為4大部分,同時也成立了4個團隊,數據采集、數據存儲、數據挖掘、數據接口。
問題1: 實時數據在處理過程有延時,時效性不高,業務要求數據處理的及時性在秒級響應
問題2:批處理數據方式效率不高,mfs本質還是文件遍歷的方式,無法並行計算
問題3:關聯數據的存儲和分析
主要做了兩個改動:
(1)加入分布式的消息中間件MQ
實時系統原來的輪循模式改為發布訂閱模式
解耦流式數據處理和 批數據處理模式
(2)引入分布式存儲以及並行計算Hadoop生態體系
存儲規模增大,寫入速度更高
批處理采用MapReduce並行計算方式大幅提升歷史數據效率
隨著業界的技術發展以及公司業務的持續性發展,大數據平臺也逐步引入了更多的開源技術體系
(1)技術方面
(2)業務方面
大數據平臺的建設需要成熟的技術團隊和公司大量成本的投入,在平臺的建設過程中從業務發展、成本投入、技術方案上需要綜合考慮,建議在有強烈的業務驅動力下再去投入,公司在平臺的建設過程遇中到的各種技術問題很多,包括文中設計的整體架構隨著業務的發展仍然面臨著新的問題,後續再逐步分享。