使用爬蟲技術可能帶來的法律風險主要來自幾個方面:
(1)違背被爬取方意願,如規避網站設置的反爬取措施,強行突破其反爬取措施;
(2)使用爬蟲已經造成幹擾被訪問網站正常運行的實際後果;
(3)爬蟲捕獲受法律保護的特定類型的信息。其中,第三種風險主要來自於通過規避爬蟲的措施抓取互聯網上未公開的信息。
答:遵守機器人協議並不違法。
答:查看網站域名加上/robots.txt鏈接下的文件。
比如Tik Tok:/robots.txt
用戶代理:適用以下規則的機器人(如“Googlebot”等)。).
Disallow:希望阻止機器人訪問的頁面(根據需要禁止多行)。
屏蔽整個網站:不允許:/
阻止目錄和其中的所有內容:不允許:/private_directory/
阻止頁面:不允許:/private _ file.html。
阻止名為private: Disallow: /private的頁面和/或目錄
允許:不需要被機器人屏蔽的頁面。
Noindex:您希望搜索引擎阻止而不索引的頁面(或者如果它們之前已經被索引過,則對它們取消索引)。支持Google,不支持Yahoo和Live Search。其他搜索未知。
比如為了讓機器人檢查所有/教程/張展/2017/061771/
參考:/article/2172053.html