垂直搜索引擎與普通網頁搜索引擎最大的區別在於它是從網頁信息中提取結構化信息,也就是將網頁的非結構化數據提取為具體的結構化信息數據,就像網頁搜索以網頁為最小單位,基於視覺的網頁分塊分析以網頁分塊為最小單位,垂直搜索以結構化數據為最小單位。然後將這些數據存儲在數據庫中,以供進壹步處理,如重復數據消除、分類等。最後,分詞和索引可以通過搜索滿足用戶的需求。
在整個過程中,數據從非結構化的數據中提取出來成為結構化的數據,經過深度加工後以非結構化和結構化的方式返回給用戶。
垂直搜索引擎有很多應用,如企業數據庫搜索、供求信息搜索引擎、購物搜索、房地產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索等...幾乎各行各業的各種信息都可以進壹步細化到各種垂直搜索引擎中。
比如會比較好理解。例如,壹個購物搜索引擎的整體流程大致如下:抓取壹個網頁後,提取該網頁的商品信息,提取商品名稱、價格、介紹...甚至將筆記本介紹進壹步細分為“品牌、型號、CPU、內存、硬盤、顯示屏、……”然後對信息進行清洗、復制、分類、分析對比、數據挖掘和挖掘。
垂直搜索引擎壹般需要以下技術。
1.蜘蛛;狀似蜘蛛的物體;星形輪;十字叉;連接柄;十字頭
2.Web結構化信息抽取技術或元數據收集技術。
3.分詞和索引
4.其他信息處理技術