當前位置:法律諮詢服務網 - 企業資訊 - 信息檢索論文

信息檢索論文

信息檢索技術論文-

基於網格的專業內容Web信息檢索

1簡介

近年來,隨著互聯網的飛速發展,互聯網上的信息資源變得越來越龐大,信息具有數量大、分散、異構的特點。因此,傳統的Web信息檢索工具已經開始顯示出其低性能,具體表現為現有的信息檢索工具往往需要用戶查找幾千甚至上萬條記錄,無法仔細查找,或者查找到的內容和要查找的內容不在壹個專業領域,導致無效信息的現象。然而,隨著人們信息意識的增強,對信息內容和信息服務的需求也在不斷演變和發展,這對獲取信息的專業化和有效性提出了新的要求。如何在專業領域為特定用戶提供專業的、量身定制的信息服務,讓用戶在最短的時間內有效地找到最需要的信息內容,是人們普遍關心的問題。本文利用網格計算、集群系統、XML等技術,設計了壹個基於網格的面向專業內容的Web信息檢索系統,該系統能夠按照專業內容對地理上分散的、異構的信息進行邏輯組織和管理,為用戶提供壹種快速有效地獲取所需信息的方法。

基於網格的面向專業內容的Web信息檢索架構設計

網格計算是近年來國際上興起的壹項重要信息技術。其目的是在統壹的框架下組織各種網上資源,提供壹個方便用戶使用的虛擬平臺來解決大規模復雜計算、數據服務和各種網絡信息服務,實現互聯網上所有資源的全面連接和信息資源的全面享用。

為了解決不同領域的復雜科學計算和海量信息服務問題,人們基於網絡互連構建了不同的網格,它們在體系結構和要解決的問題類型上都有所不同,但網格計算至少需要三個基本功能:資源管理、任務管理和任務調度。本文設計的信息檢索體系結構,圍繞網格計算的基本功能和信息檢索的特點,主要由以下三個層次組成:如圖1所示。

(1)網格節點:節點是網格計算資源的提供者。該系統主要由壹系列集群系統組成,這些集群系統在地理上分布,形成壹個分布式檢索群,作為信息共享的基礎平臺。集群系統負責整個集群內的信息管理、維護和查詢。

(2)網格計算中間件:中間件是信息資源管理、用戶任務調度和任務管理的工具。它是整個網格信息資源管理的核心部分。它根據用戶的信息請求任務,負責整個網格中信息資源的匹配和定位,實現用戶任務到集群系統的映射。

(3)網格用戶層:主要為用戶應用提供接口,支持用戶描述、創建和提交所需的信息資源。

圖1

該系統的主要思想是將地理上分散、異構的信息在邏輯上劃分為多個集群系統,由這些集群系統管理集群中的資源和調度任務,再由網格中間件管理各個集群系統,從而形成對整個網格資源的管理,統壹管理和調度用戶的信息需求。這種管理模型既能尊重各個集群系統的本地信息管理策略,又能利用中間件在全局意義上管理網格信息資源。

2.1集群系統的設計

由於Web信息資源的海量性,用戶在使用現有搜索引擎檢索信息時面臨著海量數據查詢問題,這往往導致在消耗巨大的通信資源後,資源搜索不準確、不完整的問題。目前,基於單系統映射的Web服務器集群系統可以通過局域網將多個服務器連接成壹個整體,使其看起來像壹個從客戶端服務的服務器,這使得對地理上分布的信息資源進行邏輯合並和組織成為可能。因此,本文首先考慮分布式合作策略,將Web信息資源按地域和專業內容進行劃分。壹方面,信息資源的數量相對減少,便於數據的組織、管理和維護;另壹方面,便於根據專業內容制定通用的XML規範,便於集群中各種信息資源的描述,從而建立基於XML的面向專業內容的信息集成系統。集群系統的具體結構如圖2所示。

集群服務器主要由接口代理、基於專業內容的XML信息集成系統、資源服務代理和資源發布代理組成。其中,接口代理根據任務提供的接口參數註冊、接收和管理各種信息資源請求任務,並提供安全認證和授權。資源服務代理根據信息資源請求任務,使用XML信息集成系統提供的數據為用戶提供實際的資源檢索操作,並將檢索結果信息發送給用戶。資源發布代理用於向網格中間件提供本地信息資源的邏輯數據和接口參數。

下面主要講解基於專業內容的XML信息集成系統的構建方法:

XML(可擴展標記語言)是由W3C在1998中宣布的,作為互聯網上數據表示和數據交換的新標準。它是壹種可以自己描述信息的語言。它允許開發人員通過創建文檔類型定義的自定義標簽來描述他們自己的數據。DTD規範是定義XML文件的語法、句法和數據結構的標準。XML使用普通文本,所以具有跨平臺的優勢。XML的優點是(1)簡單和標準化:XML文檔基於文本標簽,具有嚴謹簡潔的語法結構,便於計算機和用戶理解;(2)擴展性:用戶可以定制具有特定含義的標簽,定制的標簽可以在任何組織、客戶和應用之間共享;(3)自描述:自描述使其非常適合不同應用之間的數據交換,並且這種交換不是建立在預先定義壹套數據結構的前提下,因此具有很強的開放性;(4)互操作性:XML可以將所有信息存儲在文檔中進行傳輸,遠程應用程序可以從中提取所需的信息。XML數據是壹種獨立於特定平臺的應用,因此它為基於特定專業內容的表達提供了壹種極好的手段,可以作為壹種語言來表達專業內容。

目前,開發Web信息集成系統的基本方法可以分為兩類:倉庫方法和虛擬方法。這兩種方法可以利用XML在數據組織和交換方面的優勢,通過使用格式文件DTD和XML文檔來表達基於專業內容的集成模式以及集成模式與資源之間的映射,建立基於XML的Web信息集成系統。其結構和信息獲取過程見參考文獻[2]。

圖2

2.2網格中間件的設計

圖3所示網格中間件的主要功能是(1)消除不同用戶和集群系統之間的數據表達差異,使信息資源數據對用戶透明;(2)管理和維護分布在Web上的集群系統。網格中間件以關系數據庫的形式記錄所有集群系統的邏輯信息及其專業內容。關系數據庫的操作可以維護集群系統的分布式邏輯,使這種結構具有靈活的可變性和可擴展性;(3)接受用戶的信息請求任務,可以快速定位到符合要求的集群系統,通過查詢關系數據庫,實現用戶的信息請求任務與集群系統的對應關系。

主要內部功能模塊描述如下:

(1)接收代理模塊:主要用於註冊、接收和管理各種信息資源請求任務,並提供安全認證和授權。

(2)關系數據庫和數據服務代理:關系數據庫記錄所有集群系統的邏輯信息及其專業內容。數據服務代理為集群系統提供對關系數據庫的訪問和諸如添加、刪除、檢索和修改數據記錄的操作。

(3)格式轉換代理模塊:提供用戶信息資源請求文檔與各集群系統中文檔之間的格式轉換功能。因為XML是自定義的,所以用戶對同壹數據有不同的表示(信息資源的描述有差異)。因為XML文檔中的這種格式差異反映在相關的DTD/Schema中,所以經過格式轉換後,信息資源的格式可以對用戶透明。

(4) XML文檔分析代理模塊:提取格式轉換後的XML文檔中的各個標簽,通過查詢網格中間件中的關系數據庫,實現用戶信息請求任務與集群系統的對應關系,獲取滿足條件的集群系統的相關信息以及各個集群系統的接口參數。

(5)發送代理模塊:將轉換後的信息資源請求XML文檔發送到相應的集群系統。

其中,Agent技術是解決分布式智能應用問題的關鍵技術。Agent是指壹個能夠獨立不斷變化,運行在其他系統中,不斷與環境交互的實體。在系統中引入Agent可以使系統具有人性化的特征,代表用戶完成用戶的任務,動態適應環境的變化,更好地滿足用戶的需求,提高信息檢索的能力。秘書大雜燴網絡

  • 上一篇:信息數字化(信息時代的新變化)
  • 下一篇:信用修復采用什麽審核流程
  • copyright 2024法律諮詢服務網