如何應付重度反爬蟲的網站

可以試試前嗅的ForeSpider采集系統。像很多重度反爬蟲的網站都能采，比如企業信息公示系統、自然基金會網站、58同城的電話號碼什麽的。

ForeSpider數據采集系統具備全面的采集範圍、精準的數據精度、絕佳的抓取性能、簡易的可視化操作、智能的自動化采集，使企業能夠以很少的人工成本，快速獲取互聯網中結構化或非結構化的數據。

軟件幾乎可以采集互聯網上所有公開的數據，通過可視化的操作流程，從建表、過濾、采集到入庫壹步到位。軟件首創了面向對象的爬蟲腳本語言系統，如果有通過可視化采集不到的內容，都可以通過簡單幾行代碼，實現強大的腳本采集。軟件同時支持正則表達式操作，可以通過可視化、正則、腳本任意方式，實現對數據的清洗、規範。

臺式機單機采集能力可達4000-8000萬，日采集能力超過500萬。服務器單機集群環境的采集能力可達8億-16億，日采集能力超過4000萬。並行情況下可支撐百億以上規模數據鏈接，堪與百度等搜索引擎系統媲美。

壹．軟件可以采集的範圍：

1.登錄和cookie

支持自動登錄，自動獲取cookie信息。

2.驗證碼

接入第三方打碼平臺，最多3秒自動返回大碼結果。

3.搜索欄檢索

支持各種搜索欄檢索關鍵詞，可批量導入數十萬關鍵詞。

4.各種協議

支持http、https、各類APP的協議等。

5.JavaScript和Ajax動態生成的內容

支持所有JavaScript生成的動態內容。

6.IP代理

支持IP代理，不用擔心封鎖IP。

7.post請求和OAuth認證

支持post請求和OAuth認證的網頁。

8.搜索引擎全網數據挖掘

可以通過壹個模板，采集搜索引擎，挖掘所需數據。

二．軟件不能采集的範圍：

1.非公開數據

網絡爬蟲技術是壹種批量數據下載技術，不是黑客技術，只能采集前端瀏覽器上能顯示的數據內容，對於網站的服務器後端數據，如用戶數據等，是不能采集的。

對於需要賬號登錄才能查看的內容，如果您有賬號可以登錄，是可以采集該賬號下可見數據的；對於其他賬號下的內容，也同樣不能夠采集。

2.需要手機掃碼的數據

對於需要掃碼後才能顯示的數據，無法實現批量采集。

3.對於賬號有權限限制的數據

有些網站限制壹個登陸賬號壹天只能查看x條數據，如果用戶沒有多余的賬號，是無法突破這樣的限制的。