第壹個問題是URL地址的標準化:在WWW上,壹個URL地址可以用多種方式表示,可以用IP地址表示,也可以用域名表示。為了防止爬蟲重復訪問同壹個地址。第二個問題是避免陷入網絡陷阱:網絡上的鏈接比較復雜,壹些靜態網頁可能會形成閉環。為了避免在循環路徑上重復爬行,在添加到要搜索的地址列表之前,需要檢查該URL是否已經出現在要搜索的地址列表中。對於動態網頁,爬蟲應該忽略所有帶參數的URL。第三個問題:對於被拒絕訪問的頁面,爬蟲要遵循“漫遊訪問拒絕規則”。
上一篇:童之靈幼兒園怎麽樣下一篇:微信裏我的企業怎麽添加