現代意義上的搜索引擎的鼻祖是蒙特利爾大學的學生艾倫·艾姆塔奇(Alan Emtage)在1990年發明的阿奇(Archie)。雖然當時萬維網還沒有出現,但是網絡中的文件傳輸相當頻繁,而且由於大量文件分散在各種零散的FTP主機中,查詢起來非常不方便,於是艾倫·艾姆塔奇想到開發壹個可以通過文件名查找文件的系統,於是阿奇應運而生。
阿奇的工作原理和現在的搜索引擎非常接近。它依靠腳本程序自動搜索在線文件,然後索引相關信息,供用戶用壹定的表達式進行查詢。受Archie受用戶歡迎的啟發,美國內華達州的系統計算服務大學在1993開發了另壹個非常相似的搜索工具,但此時的搜索工具除了索引文件外,還可以檢索網頁。
當時“機器人”這個詞在程序員中非常流行。電腦機器人是指能夠以人類無法達到的速度不間斷地執行某項任務的軟件程序。因為專門用來檢索信息的“機器人”程序像蜘蛛壹樣在網絡上爬行,所以搜索引擎的“機器人”程序被稱為“蜘蛛”程序。
世界上第壹個監測互聯網發展規模的“機器人”程序是馬修·格雷開發的萬維網漫遊者。壹開始只是用來統計互聯網上的服務器數量,後來發展到可以檢索網站域名。
對應漫遊者,馬丁·科斯特在1993年6月創辦了ALIWEB,也就是阿奇的HTTP版。ALIWEB不使用“機器人”程序,而是通過主動提交網站的信息來建立自己的鏈接索引,類似於我們現在所熟悉的雅虎。
隨著互聯網的快速發展,檢索所有新的網頁變得越來越困難。因此,基於馬修·格雷的《漫遊者》,壹些程序員改進了傳統“蜘蛛”程序的工作原理。這個想法是,由於所有的網頁可能有鏈接到其他網站,這是有可能的搜索整個互聯網通過以下壹個網站的鏈接。到1993年底,壹些基於這壹原理的搜索引擎開始陸續出現,其中以JumpStation、萬維網蠕蟲(Goto的前身,今天的Overture)和基於知識庫的軟件工程(RBSE)蜘蛛最為著名。
而JumpStation和WWW Worm只是按照搜索工具在數據庫中找到匹配信息的順序對搜索結果進行排序,沒有信息關聯。RBSE是第壹個將關鍵詞串匹配度的概念引入搜索結果排名的引擎。
最早的現代搜索引擎出現在1994年7月。當時,邁克爾·毛爾丁(Michael Mauldin)將約翰·萊維特(John Leavitt)的蜘蛛程序連接到其索引程序,並創建了Lycos,這種程序現在已廣為人知。同年4月,斯坦福大學的兩名博士生大衛·費羅(David Filo)和美籍華人格裏·楊(Gerry Yang)共同創辦了超級目錄索引雅虎(Yahoo),成功地讓搜索引擎的概念深入人心。自此,搜索引擎進入了高速發展期。目前,互聯網上有數百個知名的搜索引擎,它們檢索的信息量與以前不可同日而語。比如最近風頭正勁的Google,它的數據庫裏存儲了30億個頁面!
隨著互聯網的快速擴張,壹個搜索引擎已經無法獨自適應當前的市場形勢,所以現在搜索引擎之間有分工合作,有專業的搜索引擎技術和搜索數據庫服務商。像國外的Inktomi(被雅虎收購),並不是直接面向用戶的搜索引擎,而是向包括Overture(原GoTo,被雅虎收購)、LookSmart、MSN、HotBot等其他搜索引擎提供全文網頁搜索服務。中國的百度也屬於這壹類(註1),搜狐和新浪用的都是它的技術(註2)。所以,從這個意義上來說,他們是搜索引擎的搜索引擎。