李燕
(中國石油化工股份有限公司西南油氣分公司信息中心檔案館)
摘要 本文針對非結構化數據管理中存在的問題,分析了西南油氣田地質檔案非結構化數據管理特點,提出了數據采集、數據存儲、數據管理與數據利用的技術架構,並對非結構化數據的管理、應用進行了深刻剖析,總結出了以技術解決方案、行政管理模式和數據服務三位壹體的管理模式,為油田地質檔案中非結構化數據的管理與應用探索出了壹個有效的模式。
關鍵詞 非結構化 數據存儲 地質檔案 應用 管理
0 引言
隨著我國經濟建設的不斷發展,信息資源越來越成為企業或者組織的核心和命脈。對於信息密集型的石油行業來說尤其如此。在多年的生產實踐中,國內的石油行業已經發展出了針對大部分信息的數據綜合管理、數據應用、企業標準和行業標準等技術和成果,極大地支撐了石油勘探開發的各個過程。然而,和國外的石油公司相比,在信息資源的協同、分析、挖掘、***享、決策支持、集群計算上還存在壹定的差距,這其中的核心要點就是如何對非結構化數據進行有效的存儲和利用。
對於典型的石油工業企業來說,信息資源存在於各種載體中,例如紙質的書籍或者論文、PDF文檔、圖形圖像文件、掃描件、電子書、光盤等,這些信息最終都可以轉化為非結構化數據。而對非結構化信息的管理需要面對如下問題:
高容量:非結構化數據通常是壹個或多個文檔、圖件、多媒體等,容量在百兆、千兆級的比比皆是。
異構化:非結構化數據的來源、格式、載體都各不相同,難以進行統壹的管理和檢索。
復雜性:非結構化數據因其高容量、異構的特點,在存儲、檢索、過濾、提取、分析和挖掘方面非常復雜。
再處理:非結構化數據在定制、交換、加密方面存在大量的個性化需求,格式的差異和多樣性也導致了對這些數據的再處理非常困難。
本文即是對這些問題進行詳細的討論和研究,結合油氣田地質檔案非構化數據的存儲與利用,探討壹種可行的方法和合理的解決方案。
1 非結構化數據管理的技術架構
非結構化數據與結構化數據相對,系指不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。
西南油氣田通過配置和集成軟硬件產品,設計並實施了適合非結構化數據存儲與利用的技術架構,由低到高分別是數據采集(預處理)、數據存儲、數據管理、數據使用(圖1)。
圖1 非結構化數據存儲與利用的技術架構圖
數據采集是非結構化數據管理最基礎的過程,是把原始的或者第壹手的資料轉化成可供處理的數字化信息的關鍵步驟。
非結構化數據存儲是把勘探科研、生產、管理中產生的文檔、圖件、專著存放在數據庫或者文件服務器上。壹般采用兩種方式:壹是把非結構化數據轉換成二進制流,存放在關系型數據庫中,同時壹並記錄相關的輔助信息(可自定義);二是把非結構化數據保存到目錄服務器上,在關系數據庫中只記錄目錄服務器上的索引信息和輔助信息(可自定義)。圖2示意了這兩種方式。
圖2 非結構化數據存儲示意圖
數據管理是對已經存儲成功並且經過了結構化的信息進行再處理,包括數據的分類、檢索、元數據化、標準化、統計和歸並。
數據使用是非結構化數據管理的最終目的,信息如果不能交流、***享,那麽壹個組織產生的信息再多,也不免成為信息孤島。采用基於.net和Web Service體系架構,為信息的***享和協同提供了技術上的保障。
2 非結構化數據管理應用解析
西南油氣田按非結構化數據管理的技術架構開發並組建了西南油氣田地質資料管理平臺體系,對非結構化數據的管理實現了6大功能:非結構化數據的整理、元數據、基於索引服務器的全文檢索、索引編制、任務管理、知識管理(表1)。
表1 中石化西南油氣田非結構化數據管理功能統計表
2.1 非結構化數據管理的功能架構
西南油氣田地質資料管理平臺是壹個完全的B/S模式資料管理系統和信息發布系統,其中,地質資料管理系統包括用戶管理、機構管理、權限管理、日誌管理、數據管理、資料上傳、資料整理、資料審核、元數據、資料檢索。信息發布系統包括資料借閱、資料上傳、在線瀏覽、資料檢索、下載。
除了能夠完成資料管理和信息發布的功能外,還依據自身的工作方式,在平臺中加入了本企業元素,如:資料屬性的自定義、用戶功能選擇、借閱流程與歸檔著錄壹體化流程的植入、上傳和下載的壓縮與加密、用戶與安全方案的自動綁定,新到資料的查詢、個性化報表的查詢和打印、催還信息的發布等。主要功能架構如圖3。
圖3 功能架構圖
2.2 西南油氣田地質資料非結構化數據管理的主要特點
2.2.1 地質資料及文檔的包裝和結構化
在數據存儲方面,采用了基於Web Service數據訪問層組件,通過修改設置可以分別連接Oracle 9 i數據庫、SQL Server 2000數據庫等多種數據庫,用戶可以根據需要選擇。地質資料及文檔的包裝和結構化是指在數據采集和存儲方面采用了“資料體-文件體”的二元封包方式。對所有類型的文件或者文件集合都可以定義為資料體,同時采用元數據對資料體進行描述;從邏輯上來說,資料體是壹個或者多個文件實體的集合,通過這種方式,就統壹了各類非結構化數據的表現形式、外觀和行為,有利於將來的數據交換和協同。圖4描述了這種二元關系。
圖4 非結構化數據的二元封包方式
2.2.2 任務管理
文檔資料被采集並提交,資料體和元數據信息就會被寫入關系數據庫中(目前支持Oracle),而文件體會通過任務自動上傳到專門的文件服務器中,同時由索引服務自動為這個文件體創建索引。入庫文檔資料的默認存儲方式是通過磁盤文件來存放的,如果需要把入庫文檔資料以二進制流的形式保存到關系數據庫中,則需要部署和配置數據持久化服務。圖5對文檔資料采集和存儲的過程進行了直觀的描述。
圖5 文檔資料采集和存儲的任務管理流程
任務管理是對上傳下載過程的任務化。為了應對文檔資料的采集要求,使用上傳任務來管理上傳過程,整個過程可以通過服務在後臺依次自動完成,對用戶的操作不造成任何影響,避免了傳統的文件采集過程中用戶需要耗費大量的時間來等待上傳;為了確保數據的完整性,上傳過程支持斷點續傳。直觀的上傳任務管理器把需要上傳的文檔存放在任務隊列中,用戶可以隨時停止或者啟動上傳任務,最大程度的減少因為網絡狀況或者容量問題帶來的不便。
2.2.3 元數據的定義和描述
在數據采集的過程中可以對文件定義元數據,文件的元數據繼承自所屬的案卷屬性,這樣壹旦將文件歸入某壹個資料類別,那麽就可以設置這個文件的擴展信息;另壹方面,分類的元數據格式能夠成為這壹類文件的元數據模板,同類文件的元數據格式都是相同的,便於進行同類資料的數據交換。圖6說明了案卷(資料類型)、文件和元數據的關系。
元數據作為非結構化數據的標簽,其意義是非常重要的,系統的檢索功能的查全和查準率主要是基於元數據的定義是否合理和準確,因此系統必須要提供元數據信息的修改和動態擴展功能,只有提供了上述功能,系統的信息描述才可能準確和豐富,這也是很多類似的信息系統所缺乏的。
圖6 案卷、文件和元數據的關系
依據中石化企業標準《Q/SH0167—2008石油天然氣勘探與開發地質資料立卷歸檔規則》,根據地質資料管理的特點,結合西南油氣田的實際情況,需求分析,明確各種(系統管理、資料加載和在線瀏覽、資料查詢、資料借閱和下載、資料銷毀、資料壓縮加密、資料審核、資料接收和分發)功能,對地質資料的文件元數據、檔案元數據、企業擴展元數據進行了充分研究與定義,實現了不同類別的地質資料定義不同屬性,方便查詢與借閱。例如表2。
表2 地質資料元數據屬性表
2.2.4 基於文件索引服務器的全文檢索
對非結構化數據的檢索采用了兩種方式:基於屬性、關鍵字的精確檢索和基於內容的全文檢索。全文檢索過程采取了提交—建索引—查找—組織結果—返回的過程來完成。非結構化數據被提交到了文件服務器,索引服務程序就創建或者更新索引文件(自動過程),當用戶發出檢索請求時,通過搜索引擎,獲取包含請求內容的結果並返回給請求者。索引服務程序能夠從入庫的文檔資料中自動抽取文本內容(圖7)。
索引服務程序的工作包括:偵測文件目錄的變化,文件被上傳、移動、修改或者刪除,就更新對應的索引;定期對文件目錄的整個範圍進行索引優化,保障索引在全局上的有效性和效率,這個工作可以自動完成,也可以由用戶手動完成。
西南油氣田基於此提供多種邏輯查詢,如模糊查詢、全文查詢、精確查詢,以及目錄瀏覽和全文瀏覽。如圖8。
圖7 全文檢索工作過程
圖8 查詢檢索截圖
2.3 西南油氣田非結構化管理應用效果
西南油氣田從2005年開始全面啟動地質資料非結構化數據建設,經過多年的***同努力,全面完成了地質資料的非結構化目錄數據庫建設,***計入庫地質資料條目125萬條,完成了不同類別地質資料的元素據設計並進行了全面屬性提取,提取的內容包括了文件元數據、檔案元數據以及企業擴展元數據三大類,為地質資料網絡化管理與利用提供了強有力的搜索引擎包。
同時,按照非結構化數據建設理論,西南油氣田積極開展了成果地質資料全文數據庫與地質圖形庫的建設,通過歷史文檔與圖形的掃描整理,***計入庫電子文檔24萬個,總容量2.9 T。與油田氣地質資料目錄數據庫相結合,通過地質資料管理系統,實現了地質資料非結構化數據網絡完整發布與全面應用。
經統計分析,在實現非結構化數據的網絡化管理與應用以後,西南油氣田近5年地質資料年平均利用率高達11萬件次/年,是建成前的4.5 倍,有效提高了地質檔案資料的管理、使用水平,節約了成本,取得了良好的經濟效益。
3 非結構化數據的管理模式探索
作為企業信息資源的表現形式,非結構化數據的管理不單單是壹個技術體系或者壹個系統,而應該是壹個龐大的系統工程。筆者根據西南油氣田地質檔案多年的信息化建設經驗和非結構化數據管理經驗,認為“技術解決方案、行政管理模式和數據服務”三位壹體的管理模式是油氣田非結構化數據管理的有效模式(如圖9 所示)。
圖9 非結構化數據管理模式圖
首先,行政管理模式是整個非結構化數據管理的組織保障,由穩定的管理團隊、完備的可行性研究、明確的管理需求、充分的風險評估以及務實的組織實施組成。良好的行政管理模式能夠確保壹個組織上下壹心,***同推進信息體系建設,可以說它決定整個體系建設的成敗。
數據服務是非結構化數據信息管理的基礎。是指對非結構化數據進行采集、創建、加工、傳遞、組織、整理與規範的過程。同時也是用戶和開發者之間的潤滑劑,首先它能夠按照用戶的需求為用戶處理大量枯燥的數據整理和規範工作,其次從用戶的角度,指出軟件的缺陷,並敦促開發者進行修改。通過數據服務,可以有效地保障用戶業務的高效運轉、技術體系的不斷完善,發揮信息體系建設的最大效能。
技術解決方案從產品層面為非結構化數據的管理提供了軟硬件平臺,是從數據采集到應用的完整的技術體系。包括:基於多種大型關系數據庫的信息存儲體系、基於內容的非結構化數據的文件服務器、提供全文檢索、關聯檢索的索引服務器、基於元數據的靈活的文件交換格式和個性化定制、靈活的權限策略和強大的安全策略;技術解決方案是非結構化數據存儲與利用的核心。
4 結束語
非結構化數據存儲和應用是各油田分公司勘探決策支持系統的重要組成部分,這壹部分研發成功後,能夠為決策支持所需要的信息資源提供基礎的平臺。同時,基於這個平臺之上的非結構化數據的應用能夠直接為決策支持系統服務,通過信息協同、文件檢索、數據挖掘和知識管理等技術和概念的應用,能夠使油氣田信息化建設上縮短甚至達到國際先進水平,向著勘探數字化、數據資產化、工作協同化和決策科學化方向邁進壹大步,從而帶來巨大的經濟效益和社會效益。
參考文獻
[1]張誌剛,姚瑋.海量非結構化數據存儲問題初探[J].中國檔案,2009(8).
[2]吳廣君,王樹鵬,陳明,李超.海量構化數據存儲檢索系統[J].計算機研究與發展,2011(7).