大數據如何采集

1、離線采集：工具：ETL；在數據倉庫的語境下，ETL基本上就是數據采集的代表，包括數據的提取（Extract)、轉換(Transform)和加載(Load)。在轉換的過程中，需要針對具體的業務場景對數據進行治理，例如進行非法數據監測與過濾、格式轉換與數據規範化、數據替換、保證數據完整性等。2、實時采集：工具：Flume/Kafka；實時采集主要用在考慮流處理的業務場景，比如，用於記錄數據源的執行的各種操作活動，比如網絡監控的流量管理、金融應用的股票記賬和web服務器記錄的用戶訪問行為。在流處理場景，數據采集會成為Kafka的消費者，就像壹個水壩壹般將上遊源源不斷的數據攔截住，然後根據業務場景做對應的處理（例如去重、去噪、中間計算等），之後再寫入到對應的數據存儲中。這個過程類似傳統的ETL，但它是流式的處理方式，而非定時的批處理Job，些工具均采用分布式架構，能滿足每秒數百MB的日誌數據采集和傳輸需求3、互聯網采集：工具：Crawler,DPI等；Scribe是Facebook開發的數據(日誌)收集系統。又被稱為網頁蜘蛛，網絡機器人，是壹種按照壹定的規則，自動地抓取萬維網信息的程序或者腳本，它支持圖片、音頻、視頻等文件或附件的采集。