關鍵詞:網絡信息;信息檢索;搜索引擎;個性化需求
20世紀80年代後期以來,我國計算機技術、通信技術和網絡技術飛速發展,對信息檢索領域產生了巨大影響,引發了許多網絡信息問題。為了促進網絡信息檢索的進壹步發展,本文對網絡信息檢索中遇到的問題進行了深入研究,並給出了相應的對策。
1目前網絡信息檢索存在的問題
網絡信息資源具有數量大、增長快、形式多樣、分布廣的特點。在給網絡信息檢索帶來強大功能的同時,網絡信息卻沒有統壹的組織和管理,使得人們盡管擁有豐富的資源,卻很難找到自己需要的合適信息。
1.1網絡信息泛濫,網站質量良莠不齊。
因為任何組織或個人都可以在網上發布信息,網上的信息以幾何級數迅速膨脹,網上的信息資源不計其數,基本涵蓋了人類知識的方方面面。由於其極大的自由性和隨意性以及缺乏規範性,信息的質量和準確性較低,其可靠性、權威性和利用價值受到質疑。同時,信息的種類繁多,垃圾、虛假、冗余、過時的信息和政治反動的信息,增加了信息的不確定性和用戶的不安全感,造成信息汙染。壹些網站質量差,欄目設置混亂,沒有導航措施,內容無特色,陳舊,長期不更新。而有些網站信息變化大,重復率高,無規律可循。搜索引擎往往重復顯示十幾次甚至幾十次,給出的結果不是用戶需要的信息而是壹系列網站。獲得所需的準確信息需要花費大量時間。用戶面對琳瑯滿目的信息無所適從,很難找到適合自己需求的信息。
1.2搜索引擎有缺陷,智能低。
搜索引擎起著網絡導航的作用,給我們提供了便利,但也存在壹些問題。目前,網絡資源還缺乏統壹的分類。大多數信息機構根據現有的《中圖法》稍加修改後用於網上信息的分類。雖然取得了壹些成績,但也存在類別設置不科學、內容重疊等現象。分類目錄搜索引擎采用人工幹預技術,信息分類不規範,沒有統壹的控制詞匯和參考標準,分類目錄差異較大,搜索範圍小,數據庫更新慢,跨類別查詢時容易漏檢,召回率低。關鍵詞全文搜索引擎采用機器人搜索技術,數據庫更新快,檢索功能強。而自動標引不完善,信息關聯難以控制,重復鏈接多,精度低,輸出信息重復,檢索結果過多與用戶需求沒有必然聯系。現有的搜索引擎在信息維護、信息重復、網絡和站點負載方面還存在很大的不足,檢索準確率不高。同時,信息資源層出不窮,沒有組織控制,召回率無法保證,信息檢索結果也不盡如人意。
1.3的檢索效率較低。
網絡信息導航只支持單步信息定位,只允許導航系統分步跟蹤信息。客戶端在跟蹤過程中接受了大量冗余信息,降低了效率。即使是壹些優秀的搜索引擎,也需要按照屏幕提示壹步步操作。如果找到成百上千個地址,很難確定哪壹個符合要求。目前很多網站提供的搜索引擎都是基於自動分詞和自動抓取的原理。這種檢索只是對網絡信息詞語的表層分析,並不能提示文章中使用的詞語所隱含的有價值的信息。搜索引擎沒有統壹嚴格的標準,很難找到特定主題的文檔。當搜索特定主題的文檔時,我們通常依賴於關鍵字檢索。但目前搜索引擎采用的排名方式各不相同,大多考慮關鍵詞的位置和頻率,所以會出現很多結果。更重要的是,在特定主題的檢索中,用戶往往很難定義自己的關鍵詞。即使定義了關鍵詞,命中記錄的數量也往往很大,不容易準確找到。如果進壹步定義,命中記錄會減少,但容易漏檢,不可能全部找到。大多數檢索工具使用自然語言進行索引和檢索,同義詞和近義詞不受控制,詞與詞之間的關系沒有提示,導致檢索結果出現大量誤報。搜索工具的覆蓋面有限,即使最全的也只能搜索1/3左右的網頁。由於壹些隱藏信息的存在,用戶無法及時準確地從紛繁復雜的網絡信息資源中找到自己需要的信息。
1.4個性化需求差異
信息服務的內在機制要求信息服務的出發點和落腳點是用戶的信息活動而不是信息資源,信息服務應該基於用戶的信息活動而不是信息資源來開展。網絡信息資源的指數級膨脹使得用戶花費大量的時間和精力來獲取自己需要的信息資源。同時,隨著社會信息化水平的不斷提高,用戶對信息的需求不斷增加,信息需求也呈現出多元化、個性化的趨勢。每個人不同的信息需求都會在標準化的、單壹的“公共需求”上凸顯出來。個性化服務也是有針對性的個性化服務,具體來說,是指以用戶為中心,為用戶提供有針對性的服務。不同的用戶有不同的信息需求。如果每個用戶都想得到滿足,僅僅提供網絡信息的訪問或者直接從互聯網上獲取信息是不夠的。只有根據不同用戶的不同需求提供個性化服務,才能滿足每個用戶,實現信息的價值。但這方面的技術並不成熟,相關專家正在積極探索這壹技術,以期最大限度地為用戶提供所需信息。
1.5缺乏基於內容的信息搜索引擎。
計算機技術、數字技術和高密度存儲技術為非文字信息——圖像、音頻、視頻等多媒體信息提供了廣闊的發展舞臺。圖文並茂的多媒體信息逐漸成為網絡的主流。但目前的信息檢索是基於文本匹配的,有時不能客觀反映信息內容的多樣性。例如,在圖像檢索中,圖像的內容必須事先通過人工標註以文本形式表示,但這種檢索方式有明顯的缺點:首先,人工標註需要大量的人力物力,不能滿足大型多媒體數據庫的需要,如Web網絡資源、數字圖書館等。,而不能適應大量新資源的出現。其次,人工標註難以描述圖像數據所包含的豐富內容,無法解決內容描述的主觀性問題,因為每個人對同壹幅圖像可能有不同的看法,所以標註的內容也不壹樣。最後,對於實時媒體流的處理,人工是完全不適合的。因此,傳統的信息檢索技術已經不能滿足現代圖像數據檢索的需要,需要從新的角度來管理海量的圖像信息,使非結構化數據轉化為結構化數據。
20世紀80年代後期以來,我國計算機技術、通信技術和網絡技術飛速發展,對信息檢索領域產生了巨大影響,引發了許多網絡信息問題。為了促進網絡信息檢索的進壹步發展,本文對網絡信息檢索中遇到的問題進行了深入研究,並給出了相應的對策。
1目前網絡信息檢索存在的問題
網絡信息資源具有數量大、增長快、形式多樣、分布廣的特點。在給網絡信息檢索帶來強大功能的同時,網絡信息卻沒有統壹的組織和管理,使得人們盡管擁有豐富的資源,卻很難找到自己需要的合適信息。
1.1網絡信息泛濫,網站質量良莠不齊。
因為任何組織或個人都可以在網上發布信息,網上的信息以幾何級數迅速膨脹,網上的信息資源不計其數,基本涵蓋了人類知識的方方面面。由於其極大的自由性和隨意性以及缺乏規範性,信息的質量和準確性較低,其可靠性、權威性和利用價值受到質疑。同時,信息的種類繁多,垃圾、虛假、冗余、過時的信息和政治反動的信息,增加了信息的不確定性和用戶的不安全感,造成信息汙染。壹些網站質量差,欄目設置混亂,沒有導航措施,內容無特色,陳舊,長期不更新。而有些網站信息變化大,重復率高,無規律可循。搜索引擎往往重復顯示十幾次甚至幾十次,給出的結果不是用戶需要的信息而是壹系列網站。獲得所需的準確信息需要花費大量時間。用戶面對琳瑯滿目的信息無所適從,很難找到適合自己需求的信息。
1.2搜索引擎有缺陷,智能低。
搜索引擎起著網絡導航的作用,給我們提供了便利,但也存在壹些問題。目前,網絡資源還缺乏統壹的分類。大多數信息機構根據現有的《中圖法》稍加修改後用於網上信息的分類。雖然取得了壹些成績,但也存在類別設置不科學、內容重疊等現象。分類目錄搜索引擎采用人工幹預技術,信息分類不規範,沒有統壹的控制詞匯和參考標準,分類目錄差異較大,搜索範圍小,數據庫更新慢,跨類別查詢時容易漏檢,召回率低。關鍵詞全文搜索引擎采用機器人搜索技術,數據庫更新快,檢索功能強。而自動標引不完善,信息關聯難以控制,重復鏈接多,精度低,輸出信息重復,檢索結果過多與用戶需求沒有必然聯系。現有的搜索引擎在信息維護、信息重復、網絡和站點負載方面還存在很大的不足,檢索準確率不高。同時,信息資源層出不窮,沒有組織控制,召回率無法保證,信息檢索結果也不盡如人意。
1.3的檢索效率較低。
網絡信息導航只支持單步信息定位,只允許導航系統分步跟蹤信息。客戶端在跟蹤過程中接受了大量冗余信息,降低了效率。即使是壹些優秀的搜索引擎,也需要按照屏幕提示壹步步操作。如果找到成百上千個地址,很難確定哪壹個符合要求。目前很多網站提供的搜索引擎都是基於自動分詞和自動抓取的原理。這種檢索只是對網絡信息詞語的表層分析,並不能提示文章中使用的詞語所隱含的有價值的信息。搜索引擎沒有統壹嚴格的標準,很難找到特定主題的文檔。當搜索特定主題的文檔時,我們通常依賴於關鍵字檢索。但目前搜索引擎采用的排名方式各不相同,大多考慮關鍵詞的位置和頻率,所以會出現很多結果。更重要的是,在特定主題的檢索中,用戶往往很難定義自己的關鍵詞。即使定義了關鍵詞,命中記錄的數量也往往很大,不容易準確找到。如果進壹步定義,命中記錄會減少,但容易漏檢,不可能全部找到。大多數檢索工具使用自然語言進行索引和檢索,同義詞和近義詞不受控制,詞與詞之間的關系沒有提示,導致檢索結果出現大量誤報。搜索工具的覆蓋面有限,即使最全的也只能搜索1/3左右的網頁。由於壹些隱藏信息的存在,用戶無法及時準確地從紛繁復雜的網絡信息資源中找到自己需要的信息。
1.4個性化需求差異
信息服務的內在機制要求信息服務的出發點和落腳點是用戶的信息活動而不是信息資源,信息服務應該基於用戶的信息活動而不是信息資源來開展。網絡信息資源的指數級膨脹使得用戶花費大量的時間和精力來獲取自己需要的信息資源。同時,隨著社會信息化水平的不斷提高,用戶對信息的需求不斷增加,信息需求也呈現出多元化、個性化的趨勢。每個人不同的信息需求都會在標準化的、單壹的“公共需求”上凸顯出來。個性化服務也是有針對性的個性化服務,具體來說,是指以用戶為中心,為用戶提供有針對性的服務。不同的用戶有不同的信息需求。如果每個用戶都想得到滿足,僅僅提供網絡信息的訪問或者直接從互聯網上獲取信息是不夠的。只有根據不同用戶的不同需求提供個性化服務,才能滿足每個用戶,實現信息的價值。但這方面的技術並不成熟,相關專家正在積極探索這壹技術,以期最大限度地為用戶提供所需信息。
1.5缺乏基於內容的信息搜索引擎。
計算機技術、數字技術和高密度存儲技術為非文字信息——圖像、音頻、視頻等多媒體信息提供了廣闊的發展舞臺。圖文並茂的多媒體信息逐漸成為網絡的主流。但目前的信息檢索是基於文本匹配的,有時不能客觀反映信息內容的多樣性。例如,在圖像檢索中,圖像的內容必須事先通過人工標註以文本形式表示,但這種檢索方式有明顯的缺點:首先,人工標註需要大量的人力物力,不能滿足大型多媒體數據庫的需要,如Web網絡資源、數字圖書館等。,而不能適應大量新資源的出現。其次,人工標註難以描述圖像數據所包含的豐富內容,無法解決內容描述的主觀性問題,因為每個人對同壹幅圖像可能有不同的看法,所以標註的內容也不壹樣。最後,對於實時媒體流的處理,人工是完全不適合的。因此,傳統的信息檢索技術已經不能滿足現代圖像數據檢索的需要,需要從壹個新的角度來管理海量的圖像信息,使非結構化數據轉化為結構化數據。
2應采取的對策
2.1加強宏觀調控
要確立互聯網信息服務管理的戰略目標和任務,強化國家信息管理機構的職能,制定網絡信息服務的相關政策。只有加強政策規制,完善信息產權保護政策,建立完善的網絡安全管理體系,通過立法程序將壹些最基本的規範上升為法律法規,並強制人們遵守,才能確保最起碼的網絡社會秩序,促進網絡信息健康有序發展。目前,世界上許多國家已經將互聯網立法提上日程,我國近年來也加快了制定互聯網法律法規的步伐。在加強法制建設的同時,還要對網民進行道德教育,倡導以德治網,教育用戶在使用網絡時註意信息的選擇和遵守規則,提高網民辨別是非的能力,維護網絡的健康發展。
2.2統壹搜索引擎分類標準
網站信息瞬息萬變,紛繁復雜,需要對數據進行挖掘,實現準確分類。雖然目前搜索引擎數量眾多,但卻沒有統壹嚴格的分類方法對其進行管理,因此制定統壹的分類標準勢在必行。這個標準應該是傳統分類標準和當前網絡信息分類方法融合的產物,既有傳統文獻分類的科學性,又有當前網絡信息分類方法的靈活性。可以參考國際標準或制定國內標準,對網絡用語進行規範,使其符合常規用語,提高資源享受程度。
2.3提高網絡信息檢索技術水平,實現智能檢索。
智能化是未來網絡信息檢索的主要發展方向。智能檢索是基於自然語言的檢索形式。機器分析用戶提供的用自然語言表達的檢索需求,然後形成檢索策略進行搜索。智能檢索技術是利用人工智能進行信息檢索的技術,可以模擬人腦的思維方式,分析用戶用自然語言表達的檢索請求,自動形成檢索策略,進行智能、快速、高效的信息檢索。近年來,智能信息檢索作為人工智能的壹個獨立研究分支,發展迅速。目前,壹些搜索引擎支持智能檢索,但其智能化程度不高。如果多做這方面的研究,肯定能更好的滿足用戶的需求。
2.4加強網站管理,提高質量水平
雖然目前有很多高質量的網站,但是也有大量質量很差的網站。國家應該制定相關法律,加強網站管理和監督,嚴格控制,限制甚至取締那些質量差的網站。同時,制定相關政策,提高網絡標準化程度,保證用戶的檢索效率。網站的設計者和開發者也要加強自身素質,把握信息檢索的發展趨勢,虛心聽取用戶的建議和要求,客觀評價自己的網絡,有目的有重點地不斷改進自己的網站,提高職業道德,努力為用戶貢獻壹個高質量的網站。
2.5改善用戶指導
歸根結底,人們應該操作網絡檢索。由於每個檢索工具都有自己獨特的檢索需求,有時壹些專業人員很難滿足檢索結果。更何況網絡面對的是大量的用戶,他們對網絡信息資源的理解和利用是不壹樣的。他們大多還受到原有傳統文獻檢索行為和習慣的影響,對新事物的認識、接受和熟悉還有壹個過程,所以文化程度和知識結構的差異直接影響著他們。目前檢索結果有時不盡如人意,很大程度上是因為工作人員的操作技能不夠,不懂查詢技能和數據庫技能。應該對用戶進行培訓,使他們能夠快速轉換角色,從簡單的檢索到掌握復雜的檢索方法,直到能夠檢索到滿意的信息。
2.6善於總結經驗。
面對浩如煙海的信息資源,要想快速準確地找到自己需要的正確信息,需要在檢索實踐中註意總結和掌握壹些檢索技巧,充分分析檢索主題,選擇合適的搜索引擎,構造檢索公式,準確表達檢索需求,掌握壹些高效的檢索技巧。由於網絡數據庫的多樣性,每個檢索系統的範圍和查詢公式都是不同的。所以,第壹次檢索失敗的時候,不要輕易放棄。可以重新排列組合搜索詞,添加或刪除搜索詞,添加或更改搜索邏輯字符,或者用同義詞替換,壹般都能得到較好的檢索結果。此外,還可以更換不同的數據庫,使用不同的搜索引擎,以獲得滿意的檢索結果。在檢索的過程中,妳會遇到各種各樣的問題。如果妳靈活解決這些問題,妳會找到滿意的答案。
搜索問題就不壹樣了。所以,第壹次尋找失敗的時候,不要輕易放棄。可以對搜索詞進行新的排列組合,添加或刪除搜索詞,添加或改變搜索邏輯符號,或者替換成同義詞再搜索,壹般會得到更好的搜索結果。此外,還可以更換不同的數據庫,使用不同的搜索引擎,以獲得滿意的檢索結果。在檢索的過程中,妳會遇到各種各樣的問題。如果妳靈活解決這些問題,妳會找到滿意的答案。