(國家地質檔案館)
本文基於地質數據的特點和國內外相關元數據標準的研究,研究並定義了壹組描述地質數據資源最常見屬性的核心元素,實現了對地質數據資源基本信息的描述。為加強地質資料的有效描述、組織、公開、表達和管理,促進地質資料資源的利用、共享、交換和整合,提高地質資料管理現代化水平和地質資料服務能力。
地質數據核心元數據標準關鍵詞研究
1簡介
1.1背景
隨著經濟社會的發展,地質工作在長期的實踐發展中積累了大量的地質資料,形成了大量不同資源類型、涵蓋各種地質學科的專業數據集,涉及區域地質、礦產地質、水文-工程-環境地質、農業地質、海洋地質、基礎地質、地球化學、地球物理、遙感、地學研究等領域。數據量大、數據類型豐富、系統異構、數據格式多樣化是當前地質數據的重要特征。
隨著應用的深入和社會需求的增加,越來越多的研究需要基礎數據的支持。地質數據多學科、多標準、多類型、多尺度、海量的特點在壹定程度上阻礙了其深度利用和享用。如何有效地描述、組織、展示、表達和管理這些數據,從而促進地質數據資源的利用、共享、交換和整合,提高數據共享水平,是提高地質數據管理現代化水平和地質數據社會服務能力的基礎。
為了解決這壹問題,前人進行了卓有成效的研究工作,提出了利用元數據的標準化來統壹管理分散的數據資源,通過Web實現數據的享受和服務[1-9]。元數據具有描述、公開、組織、管理、控制、保存和互操作的功能[9-11]。元數據標準和技術是實現數據標準化、數據共享、數據交換和互操作的重要手段。利用元數據標準提高數據描述和表達的深度,實現數據資源的描述、發現、處理和評價,提高用戶檢索數據的數據管理和查詢效率;通過元數據標準化,逐步解決數據資源之間的語義獨立和異構問題,最大程度實現數據互操作,為數據資源的集成和交換奠定基礎;通過建立相關元數據記錄,建立維護、保存等數據資源管理相關信息,加強數據管理過程控制,對進壹步管理和利用地質數據具有重要作用。
1.2現狀
目前,在地質資料管理和服務方面,已經形成了壹套地質資料目錄標準和規範,如《地質資料檔案詳細描述規則》、《成果地質資料管理技術要求》、《成果地質資料目錄數據庫描述表和描述要求》以及相應的軟件系統等,以規範地質資料成果的建設、管理和服務。目前,各級地質資料館藏機構建立了地質資料目錄數據庫,初步實現了館際目錄間的基礎數據信息交換,在地質資料的管理、共享和服務中發揮了重要作用。
地質資料目錄數據庫是對地質資料文件基本信息的描述和組織,是地質資料元數據系統的重要組成部分,為地質資料的可持續發展和地質資料豐富應用的進壹步建設奠定了堅實的基礎。
2相關元數據標準的基本信息
2.1 DC(都柏林核心)都柏林核心元素集
都柏林核心元數據格式由美國OCLC公司發起,由都柏林核心元數據倡議組織設計,由參與合作項目的機構維護和修改。它適用於網絡資源的描述。目前最新版本是版本1.1.1999,7月2日發布實施。
作為網絡時代壹種新的信息資源通用描述工具,DC元數據正被越來越多不同專業領域、不同語言、不同文化背景的國家和地區所接受。DC元數據標準主要指DC元數據元素、元素定義和註釋,以及由這些內容組成的標準化或規範化文本。
DC最初應用的目的是記錄和挖掘網絡資源。由於DC元素的簡單易用,OCLC的大力推廣,以及錄制網絡資源的巨大需求,DC很快就適用於任何媒體。簡單的元素定義和設置可以很容易的記錄下來,這也是DC被廣泛使用的重要原因。但也帶來了另壹個問題,即記錄對象的描述深度不夠,無法進行高度特定的檢索[12]。2010年,DC元數據中文版正式發布,信息與文獻都柏林核心元數據元素集(GB/T 25100-2010)進壹步規範了DC [13]的文化進程,語義描述和元素名稱得到統壹和規範。根據Dublin Core元數據元素集(版本V1.1),DC由15個元素組成,每個元素有10個根據ISO/IEC 1179定義的屬性,即:
Name:元素的名稱;
標識符:元素的唯壹標識符;
版本:生成元素的元數據版本;
RegistrationAuthority:註冊元素的機構;
語言:元素描述語言;
定義:對元素概念和內涵的解釋;
Option:指示該元素是被限制使用還是可選的;
數據類型:元素值中表示的數據類型;
最大頻率:壹個元素的最大使用頻率,即是否可以重用;
註釋:註釋應用於元素。
DC元素根據其描述內容的類別和範圍可分為三組(表1): ①資源內容描述;②知識產權描述;③外部屬性的實例化。
表1 DC元數據元素列表
2.2數字地理空間元數據內容標準
數字地理空間元數據的內容標準由美國聯邦地理空間數據委員會編制和發布[4,9,11,14]。標準1992是7月份起草的,經過多次修改。1994年7月8日,FGDC正式確認該標準為美國國家地理空間數據元數據標準,並於1997年4月發布了其修訂版(FGDC1994,FGDC 1997)。
FGDC數字地理元數據內容標準的目的是確定描述數字地理空間數據的術語及其定義集,包括數據元素、復合元素(壹組數據元素)及其定義和域值,並描述數字地理空間數據集的元數據信息內容。
FGDC按照區段、復合元素和數據元素進行組織,包括7個主要子集和3個輔助子集(見表2)。* * *有460個元數據實體(包括復合元素)和元素。FGDC定義了子集、復合元素和元素三種性質。這三個屬性是:必要,即必須提供的信息;在某些條件下是必要的,即如果正在建立的元數據包含子集、實體或元素所描述的特征,則必須提供的信息;可選,即信息是可選的,由用戶決定是否將其包含在元數據文件中。FGDC元數據標準沒有指定語法格式或編碼規則,所以它只是壹個像DC壹樣的內容標準。
表2 fgdc元素列表
2.3 ISO TC211元數據標準
ISO TC211元數據標準由國際標準化組織第三工作組研究,項目編號為15046-15。1996年2月9日采用了1.0的草案版本,幾經修改後於10月20日發布了210 (ISO TC211,1997)的標準版本【TC211元數據內容項分為三種類型:必選類型(M),指必須給出的內容條件型(C)是指在壹定條件下需要給什麽(C代表有條件);Optional (O)指可選內容(O代表可選)。元數據內容是逐項逐行表示的;該標準給出了元數據生產和管理的規範。
在TC211元數據標準中,元數據的內容分為七大類,每壹類又包括若幹子類或具體的元數據項,主要包括元數據內容、標識信息內容、數據質量信息內容、空間數據表達信息內容、空間參考信息內容、特征和屬性信息內容、數據發布信息內容、數據參考信息內容等。
3地質數據的核心元數據
3.1概念
“核心元數據規範”意在定義壹組描述地質數據資源最常見屬性的數據元素,實現對數據信息基本情況的描述。
3.2目的
地質數據核心元數據(GDCM)旨在通過建立壹套用於描述各種地質數據集的元素,為地質數據資源提供壹套通用的描述元素和規範,以便管理人員和用戶在通用領域應用中描述具有相同特征或屬性的數據集,支持地質數據資源的檢索、集成、交換、服務和享用。
3.3範圍
地質數據核心元數據是關於地質數據資源的基本描述信息,是由數據資源的異同決定的元數據集合。
3.4原則
3.4.1用戶需求原則
核心元數據作為壹組基礎的、通用的地質數據描述數據,在設計和選擇核心元素時必須充分考慮用戶的需求,才能深刻揭示信息資源的內涵。在結構和格式的設計上,元素的添加和選擇,語義規則的制定等。,應該盡可能從用戶的角度增加系統與用戶的交互渠道(比如使用開放的詞庫系統,增加提供用戶反饋的元素等。)為用戶提供多層次的檢索系統[9]。
3.4.2簡單適用原則
簡單適用原則要求元數據方案簡單易懂,便於計算機記錄,有利於實現互操作;同時要兼顧適用性,選擇最能表達需求的元數據集,以解決元素過少導致的不準確,提高檢索的準確性,做到簡單、恰當。
3.4.3互操作性和易於轉換的原則
互操作性是實現不同數據格式和異構系統之間數據交換的重要原則。元數據方案的設計要充分考慮數據之間的互操作性,通過建立映射、數據交換機制、語義共享來實現互操作,從而實現不同系統、不同數據格式之間的數據交換。
3.4.4特殊性和普遍性原則
專用性和普遍性原則要求元數據方案的設計要統籌考慮各種資源的應用特點,協調資源的應用深度和廣度。
3.4.5可擴展性和可持續性原則
可伸縮性指的是數據方案的壽命。隨著數字資源的內容、應用和需求的不斷增加,元數據方案必須能夠適應資源應用和需求的變化,並添加壹些特殊的應用來適應不斷變化的需求。壹些特定的應用可能需要更加詳細和準確的描述,應該允許用戶在不破壞指定的標準內容(如元素的語義定義)的情況下擴展壹些元素、子元素或屬性值[9]。可持續性原則是指充分考慮與現有標準和規範的銜接,充分利用現有標準的成果,確保元數據方案的可持續發展。
4地質數據核心元數據元素的定義
4.1基本定義
定義三個基本術語:元數據、核心元數據和數據集。元數據是關於數據的數據;核心元數據是指能夠描述地質數據的壹組通用描述元素和相應的規範;數據集是由相關數據對象組成的可識別的數據集合。將所描述的地質數據作為壹個組,壹個組可以看作壹個數據集。數據集可以是物理上或邏輯上位於較大數據集內的較小數據集;反之,壹個數據集可能由幾個數據集組成,它是這些子數據集的父數據集。例如,根據地質數據文件的組織,數據集可以是文本、附件、圖紙、明細表、附件和其他類的集合。本研究以數據集為元數據的描述對象,通過對地質資料電子文件的分類來組織數據集。
借鑒ISO/IEC 11179-3標準,本研究基本采用與Dublin Core壹致的方法定義以下九個方面的要素:
1)中文名稱:元素的中文名稱;
2)英文名:元素的英文名;
3)標識符:元素的唯壹標識符;
4)定義:元素概念和內涵的解釋;
5)數據類型:元素值中的數據類型;
6) Constraint表示壹個元素是必須使用的還是可選的(強制);
7)最大出現元素是否可以重復,可以重復的次數;
8)值域:元數據元素的取值範圍;
9)備註:對要素的補充說明、對記錄格式的建議及其他。
4.2核心要素的內容
本研究參考了DCMI都柏林核心元數據倡議組織(Dublin core metadata initiative)發布的都柏林核心元數據元素集(版本V1.1)和都柏林核心信息與文獻元數據元素集(GB/t 25100-2010[13]),元素的名稱、定義、註釋、約束和類型的中文翻譯參考了都柏林核心修飾符[17]、DCMI元數據術語[16]地質資料檔案詳細描述規則(DA/T 23-2000) [21],成果地質調查數據描述表及描述要求[22],國家圖書館中文元數據方案[15],中國科學院科學數據庫核心元數據標準[20]。地質數據核心元數據(GDCM)標準的核心元素和定義見表3。
表3地質數據核心元數據標準(草案)的核心要素
5結論與思考
核心元數據作為描述地質數據的壹部分,需要進壹步研究,逐步規範和完善。由於地質數據涉及面廣、格式多樣、類型多樣,因此有必要制定壹系列元數據標準來系統描述數據資源,並在多個不同的元數據標準之間建立語義共享和映射,以提高數據描述的深度和層次,優化數據組織和結構,不斷提高地質數據管理、服務和共享的水平。
參加考試,貢獻力量
[1]國家地理信息協調委員會辦公室。自然資源與地理空間信息的整合與共享研究[M].北京:科學出版社,2007。
[2]徐冠華。實施科學數據共享提升科技競爭力[J].中國基礎科學,2003 (1): 5 ~ 9。
[3]孫叔。地球數據是地球科學創新的重要源泉——從地球科學談科學數據的享受[J]。中國基礎科學,2003 (1): 19 ~ 23。
周成虎李俊。地理空間數據元數據標準初探[J].地理科學進展,1998,17 (4): 55 ~ 63。
張莉,龔建亞。地理空間元數據管理的研究與實現[J].武漢測繪科技大學學報,2000,25(5):127 ~ 131。
申體言,程成奇。地理元數據技術系統的設計與實現[J].武漢測繪科技大學學報,1999,24 (4): 34 ~ 37。
樂,遊松才,謝傳傑。地學數據中元數據標準結構的分析與設計* * * [J].地理與地理信息科學,2005,21(1):16 ~ 18。
[8]劉偉等2010。數字圖書館的語義描述與服務升級[M].北京:國家圖書館出版社。
[9]龍嘯等,中文元數據標準框架及其應用[J]數字圖書館論壇,2011,5: 29 ~ 35。
[10]/,數字圖書館標準與規範建設-基礎元數據標準與規範,2005-12。
[11]馮祥雲,龍嘯,廖三三,等.國外通用元數據標準的比較研究[J].數字圖書館論壇,2011,4: 15 ~ 21。
[12]國外元數據標準比較研究報告,中國文獻元數據標準研究項目組系列報告之壹,北京大學圖書館(65438+2000年2月)。
[13]都柏林核心元數據元素集,GB/t 25100-2010(ISO 15836:2009,MOD),2010-09-02。
[14]薛明。美國聯邦地理數據委員會標準參考模型[J].測繪標準化,第20卷,第62期.
[15]/CMS/搜索者/。中文元數據方案。國家圖書館,2002.03。
[16],中國科學院科學數據庫核心元數據標準(1.1),2003-08。
[21]地質資料檔案詳細描述規則。中華人民共和國檔案行業標準:DA/T 23—2000。
[22]地質調查資料描述表及描述要求。中國地質調查局發展研究中心,2004-11-11。