網絡爬蟲程序爬蟲設計中應註意的問題

第壹個問題是URL地址的標準化:在WWW上，壹個URL地址可以用多種方式表示，可以用IP地址表示，也可以用域名表示。為了防止爬蟲重復訪問同壹個地址。第二個問題是避免陷入網絡陷阱:網絡上的鏈接比較復雜，壹些靜態網頁可能會形成閉環。為了避免在循環路徑上重復爬行，在添加到要搜索的地址列表之前，需要檢查該URL是否已經出現在要搜索的地址列表中。對於動態網頁，爬蟲應該忽略所有帶參數的URL。第三個問題:對於被拒絕訪問的頁面，爬蟲要遵循“漫遊訪問拒絕規則”。