每個人都應該知道網絡爬蟲。妳知道多少？

網絡爬蟲是按照壹定規則自動抓取互聯網信息的程序或腳本。【2】可以理解為自動訪問網頁並進行相關操作的小型機器人。本質上是高效、自動地讀取和收集網絡信息。爬蟲程序最早是休斯頓大學的艾希曼在1994開發的。著名的谷歌公司使用的谷歌爬蟲是由當時斯坦福大學的學生布林和佩奇在1998年用Python開發的。

使用爬蟲技術可能帶來的法律風險主要來自幾個方面:

(1)違背被爬取方意願，如規避網站設置的反爬取措施，強行突破其反爬取措施；

(2)使用爬蟲已經造成幹擾被訪問網站正常運行的實際後果；

(3)爬蟲捕獲受法律保護的特定類型的信息。其中，第三種風險主要來自於通過規避爬蟲的措施抓取互聯網上未公開的信息。

答:遵守機器人協議並不違法。

答:查看網站域名加上/robots.txt鏈接下的文件。

比如Tik Tok:/robots.txt

用戶代理:適用以下規則的機器人(如“Googlebot”等)。).

Disallow:希望阻止機器人訪問的頁面(根據需要禁止多行)。

屏蔽整個網站:不允許:/

阻止目錄和其中的所有內容:不允許:/private_directory/

阻止頁面:不允許:/private _ file.html。

阻止名為private: Disallow: /private的頁面和/或目錄

允許:不需要被機器人屏蔽的頁面。

Noindex:您希望搜索引擎阻止而不索引的頁面(或者如果它們之前已經被索引過，則對它們取消索引)。支持Google，不支持Yahoo和Live Search。其他搜索未知。

比如為了讓機器人檢查所有/教程/張展/2017/061771/

參考:/article/2172053.html