數據抽取
針對大數據分析平臺需要采集的各類數據,分別有針對性地研制適配接口。對於已有的信息系統,研發對應的接口模塊與各信息系統對接,不能實現數據***享接口的系統通過ETL工具進行數據采集,支持多種類型數據庫,按照相應規範對數據進行清洗轉換,從而實現數據的統壹存儲管理。
數據預處理
為使大數據分析平臺能更方便對數據進行處理,同時為了使得數據的存儲機制擴展性、容錯性更好,需要把數據按照相應關聯性進行組合,並將數據轉化為文本格式,作為文件存儲下來。
數據存儲
除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源數據庫Hbase,HBase是壹種key/value系統,部署在HDFS上,與Hadoop壹樣,HBase的目標主要是依賴橫向擴展,通過不斷的增加廉價的商用服務器,增加計算和存儲能力。
關於大數據采集與存儲的基本步驟有哪些,青藤小編就和您分享到這裏了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。