爬蟲其實是壹門計算機中的技術,它被廣泛應用於搜索引擎。
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是壹種按照壹定的規則,自動地抓取萬維網信息的程序或者腳本。主要作用是:
1、市場分析:電商分析、商圈分析、壹二級市場分析等。
2、市場監控:電商、新聞、房源監控等。
3、商機發現:招投標情報發現、客戶資料發掘、企業客戶發現等。
通用的網絡爬蟲框架
1、挑選種子URL。
2、將這些URL放入待抓取的URL隊列。
3、取出待抓取的URL,下載並存儲進已下載網頁庫中。此外,將這些URL放入待抓取URL隊列,從而進入下壹循環。
4、分析已抓取隊列中的URL,並且將URL放入待抓取URL隊列,從而進入下壹循環。