隨著IT行業不斷灌輸廉價存儲的優勢,企業擁有的數據比以前更多,那麽在評估大數據基礎設施的過程中需要考察哪些因素呢?本文涉及諸如容量、延遲、可達性、安全性和成本等重要因素的評估。
大數據發展的驅動因素
除了存儲比以前更多的數據之外,我們面臨的數據類型也變得更加復雜。這些數據來源包括互聯網交易、社交網絡活動、自動化傳感器、移動設備和科學研究儀器。除了靜態的數據增長,事務性的事務也將保持固定的數據“增長率”。比如社會信息快速增長產生的大量交易和記錄。然而,現有的不斷擴大的數據集無法確保能夠為企業搜索到有價值的信息。
今天的信息是壹個重要的生產要素。
數據已經和資本、勞動力、原材料壹樣,成為壹種生產資料,而且不限於某個行業的具體應用。企業中的所有部門都以集成越來越多的數據集為目標,努力降低成本、提高質量、增強生產能力和開發新產品。例如,現場產品的直接數據分析有助於改進設計。比如,企業可以通過對用戶習慣的深入分析,對比整體市場的增長特征,大大增強競爭分析能力。
存儲發展的必要性
大數據意味著數據的增長超過其自身的基礎設施,從而推動存儲、網絡和計算系統的進壹步發展,以應對這些特殊的挑戰。軟件應用的需求最終推動硬件功能的發展,在這種情況下,大數據分析的處理正在影響數據存儲基礎設施的發展。這對存儲和IT基礎架構企業來說是壹個機會。隨著結構化和非結構化數據集的不斷增長,這類數據的分析方法更加多樣化,當前的存儲系統設計難以滿足大數據基礎設施的需求。存儲供應商已經開始引入基於數據塊和基於文件的系統來滿足這些需求。以下是大數據存儲基礎架構的壹些特點,都是大數據帶來的挑戰。
容量。“大”在很多情況下可以理解為PB級的數據,所以大數據基礎設施必須是可擴展的。但是,它還必須能夠輕松完成擴展,以模塊化或陣列的方式直接為用戶增加容量,或者至少避免系統停機。橫向擴展存儲非常受歡迎,因為它可以滿足這種需求。橫向擴展集群的架構特點是由存儲節點組成,每個存儲節點都具有處理能力和連接性,可以無縫擴展,避免傳統系統中可能出現的煙囪存儲問題。
大數據也意味著大量的文件。管理元數據文件系統的累積會降低可擴展性並影響性能,在這種情況下,傳統的NAS系統會出現問題。另壹方面,基於對象的存儲架構支持大數據存儲系統中文件數量擴展到十億級,而不會出現傳統文件系統中會遇到的負載問題。基於對象的存儲可以擴展到不同的地理位置,大規模基礎架構可以擴展到許多不同的位置。
延遲。實時組件也可能包含在大數據基礎架構中,尤其是在網頁交互或金融處理交易中。存儲系統必須能夠處理上述問題,同時保持相應的性能,因為延遲可能會產生過時的數據。在這壹領域,橫向擴展基礎架構還可以通過應用存儲節點集群來增強處理能力和連接能力。基於對象的存儲系統可能有並發數據流,從而在更大程度上提高吞吐量。