計算機信息檢索,本質上是計算機將輸入的檢索策略與系統中存儲的文檔特征標識及其邏輯組合關系進行比較匹配的過程。由於信息需求本身的不確定性,對數據庫中的文檔特征缺乏充分的了解,以及系統功能的壹些限制,檢索效果會受到不同程度的影響。但只要遵循壹定的檢索步驟,制定良好的檢索策略,就可以減少各種不利因素的影響,盡可能使檢索問號與信息需求和檢索系統保持良好的壹致性,從而在系統中檢索到符合用戶需求的信件。
1.搜索步驟
(1)明確信息需求和檢索目的。
信息需求是客觀上或主觀上對各種情報信息的壹種需求。這種需求是人們索取情報信息的出發點,也是網上信息檢索中選擇數據庫、確定檢索策略和評價檢索效果的依據。不同類型的主題有不同的信息需求。比如申請發明、申報成果獎、鑒定立項等查新課題,往往需要全面收集某壹學科範圍內的文獻信息。此類題目具有普查性和可追溯性的特點,應以綜合檢索為主;而對於科研生產中解決某個具體問題的關鍵研究課題,往往只要求探測到的信息對自己的研究有幫助,搜索到的文獻範圍不需要很廣。所以這種題目需要精準的調查。
如何正確分析信息需求?我們不妨從信息需求的形式和內容兩個方面來分析。需要明確信息形式的問題有:
①明確檢索目的。檢索是為了申報成果,還是為了了解課題的最新進展等。,從而制定出滿足查全率或查準率要求的檢索策略。
(2)明確所需文獻量。設置所需文檔數的上限是未來確定檢索策略和控制檢索成本的重要參數。同時,需要對檢索主題中可能存在的相關文獻量進行估算。
(3)確定所需文獻的語種、年齡範圍、類型、作者或其他外觀特征也很重要,這對於限定檢索範圍也很重要。
需要明確信息內容的主要問題有:
(1)明確檢索主題內容涉及的主要主題範圍非常重要,這對於以後選擇合適的數據庫非常重要。
②分析檢索主題的主要內容,並用自然語言表達這些內容需求,是聯機檢索的重要環節。
(2)選擇數據庫,確定檢索途徑。
在分析完信息需求後,我們可以根據已知的條件選擇合適的數據庫,這就隱含著檢索系統的選擇。如果想搜索國外專利文獻,可以搜索BDSIRS系統的國內GWZL庫。但其檢索途徑和對最新專利文獻的報道不如美國DIALOG system的WPI庫。當檢索要求較高時,仍經常使用美式對話系統。
選擇數據庫時,您應該首先了解:
(1)數據庫中收集的信息所涉及的主題領域;
②所包含的文獻類型,最好進壹步了解文獻的主要來源;
③納入的時間範圍;
(4)數據庫的基本索引和輔助索引及其提供的檢索方式和檢索標記的特點;
⑤數據庫的檢索成本,包括機器時間成本和每條記錄的打印成本。
數據庫選定後,其提供的檢索方式也就確定了,可以根據已知條件確定壹種或幾種檢索方式。由於計算機存儲容量大,運算速度快,通過多領域對比建立索引,不僅可以從人工檢索中常用的主題詞、分類號、作者進行檢索,還可以從文章的自由詞、文獻類型、期刊名稱進行檢索,還可以利用多種方式的組合進行交叉檢索,這是人工檢索所不能及的。
(3)確定主題的概念組和檢索標識。
了解檢索主題的信息需求和主要內容後,確定概念組和檢索標識是重要的壹步。當檢索主題包含復雜的主題內容時,應明確定義組成主題內容的幾個概念組,通過壹定的邏輯組合形成壹定的復合概念或概念關系,以表達用戶的信息需求。
確定了主題的概念平面,必須將概念平面轉換成系統識別的相應檢索標識。檢索標識的表示應滿足兩個要求:壹是相關性,即檢索標識反映信息需求;二是匹配,即檢索標識與檢索系統的存儲特征標識壹致。
搜索標識壹般有以下三種形式:
①規範詞:從待查數據庫的敘詞表或詞庫中選擇規範的詞或短語,因為敘詞表是數據庫標引和檢索必須遵循的檢索語言。為了使檢索問題的識別與文檔特征的識別相壹致,獲得最佳的檢索效果,首先要選擇規範的詞語。
②標準化代碼:索引代碼是數據庫系統為某些學科類別或學科概念指定的索引單位。這種單元具有很好的特異性,是壹種檢索效果很好的文檔特征識別。如國際專利分類號IC =,PTS數據庫的產品代碼PC =,標準工業代碼SC =等等。
③自由詞:自由詞檢索可以充分利用系統的全文檢索功能。標準詞或代碼的選取需要利用敘詞表或分類表從自然語言轉換到標準語言,檢索者和檢索者的思路不同時也會影響檢索效果。這時候用自由詞搜索標題、摘要甚至全文就顯示出了壹些優勢。自由語直接簡潔,是科技人員可以接受的常用方法。
(4)擬定搜索題型,確定具體搜索程序。
檢索問題表達式是指計算機信息檢索中用於表達用戶檢索問題的邏輯表達式,由檢索詞、各種布爾邏輯運算符、位置運算符以及系統指定的其他組合和連接符號組成。從某種意義上說,檢索風格是檢索策略的具體體現,它的好壞將關系到檢索策略的成敗。
搜索標記確定後,下壹步就是將所有的搜索標記以壹定的組合關系連接起來,形成壹個搜索問題,表達各種復雜的概念關系,以準確表達信息需求。要註意各種邏輯運算符、位置運算符、截詞運算符的使用,如位置運算符的緊密性和順序,以及對每個搜索項的限定要求和輸入順序,以及根據反饋信息對搜索公式的調整。參見檢索策略部分。
2.搜索策略
(1)檢索策略的概念
所謂檢索策略,就是在分析主題內容概念單位的基礎上,確定檢索系統、檢索文獻、檢索方式和檢索詞,科學安排檢索詞之間的位置關系、邏輯關系和檢索步驟。檢索策略考慮得是否全面,直接影響到文檔的查全率和查準率。
(2)制定檢索策略的步驟
制定檢索策略的前提是明確數據庫和整個檢索系統的基本性能。不同的數據庫有不同的收錄內容、標引方式和檢索方法,不同的檢索系統配備不同的技術性能和操作人員。在制定檢索策略之前,數據庫有幾種檢索方法,必須清楚地了解這些方法的索引所遵循的規則。如果把系統沒有的檢索點列在問題表中,就無法查閱文獻。
(3)制定檢索策略的基礎是弄清檢索主題的內容要求和檢索目的。在此基礎上,我們可以分析檢索主題的概念。如果主題屬於單個概念,我們可以用單個檢索詞來表達。如果主題概念比較復雜,我們可以把復雜的概念分解成幾個概念單元,然後用邏輯運算符匹配表達概念單元的檢索短語。在將概念單位轉換為搜索詞時,要盡量選擇規範的詞。在搜索新話題、邊緣學科或模糊概念時,要特別小心,因為這些詞往往不在系統內。這裏要從專業類別中選擇本學科中具有檢索意義的關鍵詞,即自由詞,否則會導致誤檢或漏檢。
(4)檢索策略構成的關鍵是選詞正確,配以邏輯符號。
(5)調整檢索策略。在計算機檢索中,往往會出現文檔太少甚至為零,或者文檔太多的情況。作為檢索者,要和用戶壹起分析,及時調整檢索策略,使檢索達到滿意的效果。如果文獻資源過多或過少,我們可以通過增加搜索項和使用布爾邏輯來減少或增加命中文獻的數量來增加或減少搜索範圍。壹般來說,邏輯和總是縮小搜索範圍,以達到精確搜索的目的;邏輯或總是擴大搜索範圍,以達到搜索所有的目的。而邏輯非排他性搜索總是縮小搜索範圍,達到精確搜索的目的。
3.檢索效率
檢索效率是利用檢索系統(或工具)開展檢索服務時的有效結果。它直接反映了檢索系統的性能,影響了系統在信息市場的競爭力和用戶的利益。檢索效率包括兩個方面:技術效果和社會經濟效果。技術效果主要指系統的性能和服務質量,系統滿足用戶信息需求的程度。社會經濟效應是指系統如何經濟有效地滿足用戶的需求,使用戶或系統本身獲得壹定的社會經濟效益。下面我們討論的主要是系統技術效果的評估。
檢索中最理想的是召回率和精度都是100%,即檢索數據庫中收集的所有相關文檔,檢索到的文檔都是相關文檔。但實際上,這個指標很難達到的因素很多,總會有壹些誤差。然後是評估誤差的兩個指標:漏檢率和誤檢率。
在評測工作中,查全率和查準率是最常用的,應該同時使用,否則很難體現檢索系統的功能和檢索結果的效率。查準率和查全率的結合描述了系統的檢索成功率、查全率和查準率之間的相互關系,也就是說查全率增加,查準率降低,反之亦然。在計算機檢索中,壹般認為查準率為60-70%,查全率為40-60%。
系統的範圍、標引語言、標引和檢索都是影響查全率和查準率的因素,這裏不贅述。
4.提高檢索效率的措施
(1)提高文檔庫的編輯質量,使其收藏範圍更加全面,滿足相應學科或專業的需求,描述內容更加詳細準確。
(2)提高標引質量,應做到標引前後壹致,用詞恰當,組合合理,力求:正確揭示主題;充分體現主題,不漏標;簡潔地使用標誌,不要濫用標準。
(3)提高標引語言的特異性和敘詞表的質量。加強索引詞匯的控制,完善敘詞表的結構及其引用關系,使索引語言既有利於民族索引,又有利於特色檢索。詞匯結構要完善,詞與詞之間的關系要正確,同義詞、多義詞要掌握正確,新學科、新技術的術語要及時體現。
(4)提高檢索人員的工作水平和能力,了解數據庫收錄的內容並加深對敘詞表結構的理解,進行正確的主題分析,選擇合適的檢索文獻,選擇合適的檢索詞表達主題內容,進行適當的邏輯組合,找出最佳的檢索方式,從而制定最佳的檢索策略。
(5)調整召回率和精確度。
在實際檢索中,可以根據不同的檢索需求,合理調整查全率和查準率,使檢索結果最大限度地滿足檢索要求。在實際檢索中,有時查全率很高,希望不遺漏相關文獻,查準率會更低;有時候妳只需要瀏覽壹些新的重要文章,而不是全部。在這裏,妳需要更高的準確率,更低的召回率就可以了。總之,在檢索過程中要合理調整查全率和查準率,以達到最佳的檢索效果。