壹般爬蟲界有壹個默認協議,Robots協議(也稱爬蟲協議、機器人協議等。),全名是RobotsExclusionProtocol。壹般網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不可以抓取。它是網絡資源提供商和搜索引擎之間的壹種倫理協議。
機器人協議的實施主要取決於壹個文件:
機器人. txt,
網站會把文件放在根目錄下。比如爬蟲訪問壹個網站(比如文件/x.y.z/robots.txt),如果爬蟲找到這個文件,就會根據這個文件的內容確定其訪問權限的範圍。但如上所述,協議只是壹個“道德協議”,沒有法律保障。不確定遵循這壹協議就能避免開頭提到的法律問題。
所以我建議使用爬蟲做商業用途的朋友,首先要明確數據的性質,是公開數據、半公開數據還是內部系統數據,嚴禁侵入內部系統數據;避免獲取個人信息,明確版權作品、商業秘密等。抓取數據時;限制數據的應用場景,在出現侵害他人商業利益和競爭秩序的場景時,三思而後行。
最後說說如何避免踩雷。第壹,最好不要爬同行業競爭對手的數據,官司容易牽扯進去;第二,不要爬公司定性為有商業價值的數據。有壹個案例,百度爬上了美團的有價值數據,被告很慘。第三,爬行機器人不得幹擾對方的正常操作。如果它崩潰了別人的網站,後果會很嚴重。
法律參考:
刑法第二百八十五條,非法獲取計算機信息系統數據罪。最高刑罰是七年監禁。
刑法第286條,破壞計算機信息系統罪。最高點超過五年。比如為了抓取數據,破解登錄密碼,反編譯APP。
網絡安全法,倒賣私人數據鏈條中的壹環。妳把捕捉到的數據賣給壞人,壞人用這些數據做壞事。妳是其中之壹。