關鍵詞:半結構化信息 信息資源描述 Metadata linking
隨著數字化、網絡化技術的飛速發展,數字圖書館建設成為圖書情報界重要的研究方向,其中網絡信息資源組織是數字圖書館建設的核心內容。網絡信息資源的動念性、分布性、多元性和無序性等特點,使信息的查找和檢索變得越來越困難。對於21世紀的信息用戶和信息管理者來說,困擾他們的不是信息太少,而是倍息過多的問題。因此,如何對網絡信息資源進行合理的描述,組織、序化網絡信息資源,提高信息利用率,是當前重要的研究課題。
1 網絡半結構化信息資源
目前,網絡半結構化數據日趨豐富。完全結構化數據有非常良好的數據結構,如關系數據庫、面向對象數據庫中的數據。完全無結構數據是指聲音、圖像文件等無模式數據。而半結構化數據是介於完全結構化數據和無結構數據之間的壹種數據類型。
半結構化數據雖然有壹定的結構,但卻是不嚴格的、多變的和不完整的。
從網絡的信息層次來看,網絡半結構化信息的研究對象分為3個層面:網頁層面、網站層面、網絡層面。
——www網頁:最主要的研究方向。
● HTML(Hypertext Markup Language)——由於其在目前網絡資源描述格式中所占的比例最高,所以有關研究持別多。
● XML(extensible Markup Language)——作為壹種新的網上數據交換的標準,正在引起人們極大的關註。XML是標準的通用標記語言SGML(ISO8879)的壹個子集,用於支持Internet亡有結構文檔的交換。和HTML相比,XML是面向內容的,它具有更多樣化的結構和更豐富的語義,並具有可擴展性良好、易於零握、自描述等特點,適用於web上的數據交換。可以預言,川L將成為數據組織和交換的事實標難,大量的XML數據將出現在Web上。XML數據模型與半結構數據模型有著很多的相似性,即它既為半結構數據的研究提供了廣闊的應用前景,同時也推動了半結構化數據研究的發展。
——網站的半結構化研究:充分利用網頁內容、錨文本、網頁鏈接、鏈接的兄弟關系等進行導航。
——網絡的半結構化研究:通過挖掘利用網絡信息半結構化的特點,設計智能搜索引擎,提供某壹主題的高效檢索,要更好地組織網絡半結構化信息.首先要對半結構化信息進行合理的組織描述。
2 半結構化信息資源的描述
目前,大多采用帶標記的有向圖作為半結構化數據模型,最典型的就是OEM(對象交換模型)模型。概括地說,主要有兩種描述方法:
2.1 基於邏輯的描述形式
在已經提出的半結構化數據模式的描述形式中,基於邏輯的描述形式是重要的壹類,如壹階邏輯(first-order logic)、描述邏輯(description logic)以及Datalog等。它們非常類似,但在表達能力等方面有所差別,其中比較典型的是基於Datalog的模式描述形式。
2.2 基於圖的描述形式
由於半結構化數據壹般采用帶標記的有向圖來表示,所以這種描述形式的壹個顯著優點是模式和數據采用同壹種數據模型(圖模型).非常便於處理。模式圖通常是壹個有根、邊上帶標記的有向圖.其邊上的標記可以與數據圖相同,也可以加以擴充,如允許類似於“name | address”的形式,或采用特定形式的規則(如壹元渭詞).等等。對模式圖中的節點,可以加以壹定的註釋.表明其代表的語義或其它特定的含義,其中最有代表性的是OEM。 此外,還有概念模型。通過壹個自然簡單的方法,了解HTML頁面的內部結構。它不同於OEM,而類似於人對文檔的概念化。它提供雖然很少卻十分有效的高層結構,用於描述文本的內容(如通過引入LIST對象解決了圖、樹描述方法所不能解決的LIST表問題)。另有壹套相應的規則,把內容自動映射到概念模型中。但到目前為止.還沒有相應的查詢語言。
2.3 半結構化模式的特點
● 先有數據,後有模式。壹般是先進行查詢,查詢結果即為數據結構及其模式。
● 用於描述數據的結構信息.而不是對數據結構進行強制性約束。
● 規模可能很大,甚至超過源數據的規模,而且因數據的不斷更新而處於動態的變化過程之中
● 不講求精確性,可能描述其中壹部分結構,也可能根據數據處理的不同階段的視角而不同。
● 非常靈活,能滿足網絡這種復雜分布式環境的要求。
● 加大了數據處理的難度。
3 從metadata到linking的組織描述
為了描述網頁半結構化信息資源,人們提出了元數據(metadata)的概念。提出metadata的目的.是將圖書情報領域的分類法和標引技術普及到壹般的網頁制作者,以組織龐大的網絡信息資源。metadata系統被認為是壹個用於抽取構成對象的屬性和方便信息訪問的強有力的通用機制。
較早出現的元數據格式是MARC(主要被用來詳細著錄書目),它是全球範圍內公認的較為成熟的傳統機讀編目格式.其結構嚴謹.類目復雜;系統完善.但是並不適合對壹般網絡信息資源的描述。首先,網絡信息資源描述格式並不需要那樣復雜;其次,網絡信息資源浩如煙海,讓編目人員對每個網頁都進行詳細著錄.需耗費相當的人力物力,這是不合實際的。
為了研究壹種適用於描述壹般網絡信息資源的元數據標準.制定壹種通用的網絡著錄規則.1995年3月由OCLC與NCSA聯合發起,52位來自圖書館界和電腦網絡界的專家***同研究產生了都柏林核心元數據集(Dublin Core,簡稱DC)。DC適合揭示各類型電子文獻的內容和其它特性.能有效地對網上資源進行組織、分類、索引。
DC由15個基本元素組成,分成三大部分:①內容描述部分行題名、主題、說明、來源、語種、關聯和覆蓋範圍;②知識產權部分有創建者、出版者、其他責任者和權限;③外形描述部分有日期、類型、形式和標識符。
DC比較易於應用到網絡信息資源的描述中,著錄數據與著錄對象可以存在於同壹文件中,也可以存在於不同文件中。
3.1 DC的優點
● 結構簡單:數據元素的含義,易學易記,非編目人員也能很快理解。對網絡資源的描述性編目,主要由資源制作者在制作資源的同時提供.這不僅降低了記錄的制作成本.又能適應網絡信息資源巨量增長的需要。在資源制作者描述的基礎上,信息工作者則把主要精力放在對質量較高、穩定性較好的網絡資源的標引和規範控制上,為用戶構建高效實用的檢索系統。
● 可重復性。 DC規定所有入素都是可重復的,因而解決了多著者或多版本等重復元素的著錄問題。
● 可選擇性:著錄項目可以簡化,只須確保最低限度的7個元素(題名、出版者、形式、類型、標識符、日期和主題)即可。
● 可擴展性。各個DC地方版可以在15個元素的基礎上增加新的元素或新的修飾詞,允許資料以地區性規範出現,並保持元數據的壹些特性,以便日後有擴充的余地。
● 可以與其它元數據連接使用,以彌補其自身的不足。在統壹資源描述框架(RDF)下,可以實現與其它元數據的連接。
3.2 metadata存在的兩大理由
● 提供在壹個系統內擴張對象的通用機制。要註意的是,這壹對象不壹定是文獻。
● metadata在系統中可以用於分組、排序並訪問對象,即提供信息檢索服務。
3.3 metadata的缺陷
● 主要是對文獻的外部特征進行描述,雖然采用了主題這個元素對文獻內部特征進行揭示,但描述得不夠詳細
● 沒有充分利用半結構數據中的結構信息。
● metadata機制看不出所描述的對象類型。
● matadata值對(名字和值)是不對稱的,單向可讀,域和域值角色不能交換。
實踐中,有的研究者把DC和全文檢索技術結合起來建立搜索引擎,但尚無實質性進展。故此,更切合對半結構化數據進行描述的機制——聯接(1inking)機制應運而生。
聯接(1inking)機制和metadata之間具有相似性,即它同樣有能力抽取對象的屬性,並給用戶提供更有效的信息訪問手段。
首先,metadata可以用1inking形式表示出來。
把metadata值對視為系統內可以識別的子對象,這樣,metadata值對就成了對象的子對象,通過名字在錨(anchor)和metadata值對間建立映射。
示例1:
<docl,<author,hq>>:其中<author,hq>為metadata值對,用P表示,有<doc1,p>,p視為doc的子對象,從而與錨的表達壹致。
其次,1inking機制可以表達比metadata更豐富的語義,能揭示關系對的類型,並且是對稱的。
示例2:
<<“doc2”.“document”>, <”hq”,”author”>“DocumentAuthoredBy”>
<<“hq”,“supervisor”>,<“lj”,”supervises”>,”supervises”>
第壹句的語義為:doc2 is the document authored by hq。第二句的語義為hq supervises lj。 通過這個例子可以發現,linking機制揭示了metadata模型不可能揭示的關系對的類型:document和supervisor。並且,它使metadata對稱化了,其中hq這個1ink中的“錨”既可以做第壹個關系對doc2的域值,也可以做另壹個關系對hq的域名。
分析表明,linking機制更適合對網絡半結構化信息的描述。在對網絡半結構化信息資源合理描述的基礎上,再進行信息抽取和信息查詢,系統就可以提供更為精確的檢索結果,提供更有價值的信息。