(甘肅省國土資源信息中心)
為了推進我國地質資料信息服務的集群化產業化,充分發揮地質資料信息的價值,本文針對我國現有地質資料信息集群化服務平臺的缺陷和問題,在現有系統存儲架構的基礎上,設計了大數據下地質資料信息的存儲架構,使我國地質資料信息服務的集群化產業化能夠適應大數據時代的數據存儲。
關鍵詞大數據;地質數據存儲;NoSQL雙數據庫
0簡介
新中國成立60多年來,我國形成了海量的地質信息,為國民經濟和社會發展提供了重要支撐。然而,地質資料管理中長期存在信息分散、綜合研究不夠、數字化和信息化程度低、服務渠道不暢、服務能力不強等問題,使得地質資料信息的巨大潛在價值沒有得到充分發揮。為進壹步提高地質工作服務國民經濟和社會發展的能力,充分發揮地質資料信息的服務功能,拓展服務領域,國土資源部在借鑒國內外地質工作先進經驗的基礎上,部署全面推進地質資料信息服務集群化產業化。
目前,全國各省地質檔案館正在系統清理本省的成果、原始和實物地質資料,對重要地質資料進行數字化保存。然而,由於我國地質資源豐富,經過幾十年的積累,已經形成了海量的地質數據,數據量早已超過幾百TB。在聚類地質數據信息服務過程中,隨著數據量的不斷增加,傳統的數據存儲和管理系統不可避免地會表現出存儲檢索和系統管理方面的不足。為了解決這壹問題,有必要設計壹種更先進的數據存儲架構來實現海量地質數據的存儲。
大數據作為近年來雲計算領域的壹種新型數據,已經被科技工作者在不斷的研究中設計出來,采用NoSQL這種適合存儲和管理大數據的非關系型數據庫來存儲和管理大數據。本文針對我國現有地質數據信息集群服務平臺的缺陷和問題,運用大數據存儲管理模式的思想,提出了海量地質數據存儲架構,並對現有系統存儲架構進行了改進,以促進我國地質數據信息服務的全面產業化。
1的工作狀態
1.1國內外地質資料信息存儲現狀
美國有兩大地質數據公共服務平臺,即地球科學信息中心(ESIC)和地球資源觀測與科學中心(EROS),旨在為社會和政府提供更加方便快捷的地質信息服務。20世紀90年代初,澳大利亞發布了國家地質科學制圖協議,采用先進的科學方法和技術存儲數據,從而形成了第二代澳大利亞陸地地質圖。
目前,我國地質資料信息服務集群化產業化工作剛剛起步,雖然國土資源部信息中心開發了地質資料信息集群化服務平臺,並倡導各地用戶使用該系統。但由於各地前期工作背景不同,各地使用的存儲系統也不同,主要包括Access、SQL Server、Oracle、MySQL等系統。本文以國土資源部信息中心開發的地質數據信息集群服務平臺存儲系統MySQL為例。該系統是壹個基於關系數據庫管理系統MySQL的分布式存儲和檢索系統。該系統的部署,使我國地質資料信息服務集群化產業化取得了重大進展,為建立我國標準化統壹的地質資料信息共享服務平臺和互聯互通的網絡服務體系奠定了堅實基礎。但該系統的研發並沒有考慮到地質數據信息的進壹步集群化,以及未來地質數據信息進入大數據時代的信息共享和存儲管理問題,也沒有給出明確的解決方案。
1.2大數據存儲架構介紹
大數據是近年來雲計算領域的壹種新型數據,具有數據量大、數據結構不穩定、類型多樣、查詢分析復雜等特點。傳統的關系數據庫管理系統在數據存儲規模和檢索效率方面已經不適合大數據存儲。NoSQL(不僅僅是SQL)是壹種數據庫的總稱,與關系數據庫相對。這些數據庫放棄了關系數據庫的支持,采用靈活、分布式的數據存儲方式來管理數據,從而滿足了大數據存儲和處理的需求。NoSQL基於非關系數據存儲的設計理念,通過鍵值對進行存儲。使用的數據字結構不固定,每個元組可以有不同的字段,每個元組可以根據自己的需要添加壹些鍵值對,可以減少壹些檢索時間和存儲空間。目前廣泛使用的NoSQL數據庫有Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。
基於大數據的地質數據信息存儲架構設計2
根據國土資源部全面推進地質資料信息服務集群化產業化的部署,國土資源部倡導全國地質檔案館利用國土資源部信息中心開發的地質資料信息集群化服務平臺,實現地質資料信息的存儲和共享。系統采用MySQL作為數據存儲系統。
為了與現有系統和工作銜接,為未來進入大數據時代後地質數據的存儲做準備,本文設計了壹種可用於海量地質數據信息存儲,並兼容MySQL的分布式數據存儲架構(圖1)。
整個系統可以根據不同的用戶級別分為不同的用戶管理級別。由於地圖的限制,圖1只顯示了三個層次:國家管理層(即* * *服務平臺用戶層)、省級管理層、市級管理層(可根據實際需要擴展至縣級)。
每個管理級別的每個用戶都可以單獨管理壹臺服務器。比如國土資源部信息中心可以單獨管理壹臺服務器;甘肅國土資源信息中心可以單獨管理壹臺服務器,陜西國土資源信息中心可以單獨管理壹臺服務器;甘肅幾個市國土局可以根據需要管理自己的服務器。
在服務器上安裝兩套數據庫管理系統,壹套是原有的MySQL數據庫管理系統,另壹套是用於大數據存儲的NoSQL數據庫管理系統。在服務器端還專門開發了壹個數據庫管理器中間件,用於用戶層和數據庫之間以及兩組數據庫之間的通信。
因為每個管理層都維護自己的數據庫和數據。當用戶需要存儲數據時,他影響的數據庫只是本地數據庫,所以存儲效率高;當用戶需要從多個數據庫讀取數據時,頂層* * *服務平臺會根據用戶需求分解任務,將任務分配給下層管理進行數據庫讀取。由於所有數據庫都是並行讀取的,所以提高了數據庫讀取效率。
圖1大數據下地質數據信息存儲架構框圖
2.1用戶管理
根據權限範圍,用戶管理層分為多層(本文以三層為例)。
頂層的國家管理層(* * *服務平臺用戶層)負責分配用戶的訪問權限,訪問與其直接相關的數據庫,分配較低管理層的任務。
用戶訪問權限的分配是指對訪問本* * *服務平臺的個人用戶和單位用戶進行數據訪問權限的分配和安全設計。
與之直接相關的數據庫訪問是指對直接存儲在其本地數據庫中的數據的訪問。在這個數據庫中,不僅要存儲所需的地質數據,還要存儲註冊用戶信息等數據。
下級管理的任務分配是指如果用戶需要訪問多個下級數據庫,只需要輸入命令查詢這些下級數據庫,如何找到下級數據庫就由該功能完成。比如,用戶想要查找甘肅、陜西、上海、北京的鐵礦石分布圖,用戶只需要輸入這些地方和鐵礦石的查詢條件,系統就會自動將各省的數據庫查詢任務分配給下級管理。
同樣,下壹級的省管和市管除了沒有用戶訪問權限之外,其功能與國管相同。各層數據庫通過互聯網相互連接,形成分布式數據庫系統。
2.2 MySQL和NoSQL的集成
MySQL是關系數據庫,支持SQL查詢語言,而NoSQL是非關系數據庫,不支持SQL查詢語言。如果用戶想要透明地訪問這兩個數據庫,就必須設計數據庫管理器中間件,作為用戶訪問數據庫的統壹入口和兩個數據庫管理系統的交流平臺。本文設計的數據庫管理器的簡單模型如圖2所示。
圖2數據庫管理器模型
服務器管理器通過用戶程序接口與應用程序通信,通過MySQL數據庫接口與MySQL服務器通信,通過NoSQL數據庫接口與NoSQL數據庫接口通信。當應用程序接口接收到數據庫訪問命令時,交給數據庫訪問命令解析器進行命令解析,從而形成MySQL訪問命令或NoSQL訪問命令,通過相應的數據庫接口訪問數據庫;應用程序接口將數據庫返回的訪問結果匯總並返回給應用程序。
兩個數據庫可以通過雙數據庫通信協議相互通信和互訪。該通信協議的建立方便了地質工作者將已經存儲在MySQL數據庫中不適合結構化存儲的數據轉移到NoSQL數據庫中,從而方便了系統的升級和優化。
2.3系統的存儲和檢索方式
在這個存儲框架的設計中,系統采用了分布式網絡存儲模式,即采用可擴展的存儲結構,使用分散在全國各地的多個獨立服務器來存儲數據。這種方法不僅分擔了服務器的存儲壓力,提高了系統的可靠性和可用性,而且易於系統擴展。另外,由於地質數據信息存儲的特殊性,本地用戶的數據存儲工作基本在本地服務器上進行,很少通過網絡進行遠程存儲,因此數據存儲效率高。
MySQL和NoSQL數據庫管理系統安裝在壹個數據庫服務器上,分別用於存儲地質數據信息中的結構化數據和非結構化數據。其中,NoSQL數據庫作為主數據庫,存儲部分結構化數據和全部非結構化數據;MySQL數據庫作為輔助數據庫,用來存儲壹些結構化的數據和舊系統中已經存儲的數據。使用兩套數據庫,既可以存儲結構化數據,又適合存儲大數據時代的地質信息,因此系統具有良好的適應性和靈活性。
2.4安全設計
地質資料和信息屬於國家機密,地質工作人員必須確保其安全。地質資料信息進入數字化時代後,地質資料往往在計算機和網絡上傳輸,地質資料信息的安全傳輸和保存是地質工作者必須重視和解決的問題。該存儲架構設計中的安全問題主要包括數據庫存儲安全、數據傳輸安全、數據訪問安全等。
數據庫設計采用多邊安全模型和多級安全模型,防止數據庫中的信息和數據泄露,提高數據庫的安全性能,確保數據庫中地質信息的存儲安全。用戶登錄系統訪問數據庫時,必須進行用戶身份識別和實名認證,主要是有效識別用戶身份,防止非法用戶訪問數據庫;在地質數據的網絡傳輸中,應先對數據進行加密,然後再通過網絡進行傳輸,以防止地質信息在傳輸過程中被竊取。
3結論
提高地質資料的數字化和信息化水平,是國外地質工作較強的國家的普遍做法。為了推進我國地質資料信息服務的集群化產業化,本文針對我國現有地質資料信息集群化服務平臺存在的缺陷和問題,運用大數據存儲管理模式的思想,設計了大數據下地質資料信息的存儲架構,使我國地質資料信息服務的集群化產業化能夠適應大數據時代的數據存儲。存儲架構的設計只涉及簡單模型的構建,詳細復雜的功能設計和軟件實現需要在進壹步的研究工作中完成。
參考
[1]吳。壹種大數據存儲模型的研究與應用[D].北京:北京郵電大學計算機學院,2012。
,王,,,等.海量結構化數據存儲與檢索系統[J].計算機研發,2012,49(增刊):1 ~ 5。
黃,易曉東,李珊珊,等.面向高性能計算機的海量數據處理平臺的實現與評估[J].計算機研發,2012,49(增刊):357 ~ 361。