百度無法抓取網站,因為網站的robots.txt文件屏蔽了百度。
方法:
1.修改robots文件並取消阻止頁面。機器人的標準寫法詳見百度百科:網頁鏈接。
2.更新百度站長平臺(更名為百度資源平臺)上的網站機器人。壹段時間後,妳的網站會被正常抓取收錄。
影響:
機器人協議是由網站設置的,以防止搜索引擎出於安全和隱私的原因抓取敏感信息。搜索引擎的原理是通過壹個爬蟲蜘蛛程序,自動收集互聯網上的網頁,獲取相關信息。
出於網絡安全和隱私方面的考慮,每個網站都會設置自己的Robots協議,明確向搜索引擎展示,哪些內容是搜索引擎願意並允許收錄的,哪些是不允許的。搜索引擎將根據Robots協議給出的權限進行爬行。
機器人協議代表了壹種契約精神。互聯網公司只有遵守這個規則,才能保證網站和用戶的隱私數據不被侵犯。違反機器人協議會帶來很大的安全隱患。
此前就有這樣壹個真實案例:某家政公司員工郭給別人發了壹封求職郵件,郵件存儲在某郵件服務公司的服務器上。由於網站沒有設置robots協議,郵件被搜索引擎抓取,被網民搜索,給郭的工作和生活帶來了很大的麻煩。
如今,在中國國內的互聯網行業,正規的大型企業也將Robots協議作為行業標準。中國使用Robots協議最典型的案例是淘寶拒絕百度搜索,JD.COM拒絕陶藝搜索。而絕大多數的中小網站都是依靠搜索引擎來增加流量的,所以通常不排斥搜索引擎,也很少使用Robots協議。
北京寒浞律師事務所主任律師趙虎表示,機器人協議是維護互聯網世界隱私和安全的重要規則。如果這個規則被打破,對整個行業來說都是壹場災難。
參考以上內容?百度百科-機器人協議