實時消息接收:如果有實時源,需要在架構中構建壹種機制來接收數據。
數據存儲:公司需要存儲將通過大數據架構處理的數據。壹般來說,數據會存儲在壹個數據湖中,這是壹個大型的非結構化數據庫,可以很容易地擴展。
批處理和實時處理相結合:公司需要同時處理實時數據和靜態數據,因此應該將批處理和實時處理相結合構建到大數據架構中。這是因為批處理可以用來有效處理大量數據,而實時數據需要立即處理才能帶來價值。批處理涉及長時間運行的作業,用於篩選、聚合和準備數據以供分析。
分析數據存儲:待分析的數據準備好後,需要放在壹個地方,方便整個數據集的分析。分析數據存儲的必要性是公司的所有數據都聚集在壹個地方,所以它的分析會是全面的,優化的是分析而不是交易。
根據公司的需要,這可能采取基於雲計算的數據倉庫或關系數據庫的形式。
分析或報告工具:在接收和處理各種數據源之後,公司需要包含壹個用於分析數據的工具。壹般來說,公司會使用BI(商業智能)工具來完成這項工作,可能需要數據科學家來探索數據。
“大數據”通常指那些難以收集、處理和分析的龐大數據集,也指那些長期保存在傳統基礎設施中的數據。大數據存儲就是把這些數據集持久化到計算機上。