1.Scrapy
Scrapy是壹個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等壹系列的程序中。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。(推薦學習:Python視頻教程)
項目地址:/binux/pyspider
3.Crawley
Crawley可以高速爬取對應網站的內容,支持關系和非關系數據庫,數據可以導出為JSON、XML等。
項目地址:/
4.Newspaper
Newspaper可以用來提取新聞、文章和內容分析。使用多線程,支持10多種語言等。
項目地址:/codelucas/newspaper
5.Beautiful Soup
Beautiful Soup 是壹個可以從HTML或XML文件中提取數據的Python庫.它能夠通過妳喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫妳節省數小時甚至數天的工作時間。
項目地址:/software/BeautifulSoup/bs4/doc/
6.Grab
Grab是壹個用於構建Web刮板的Python框架。借助Grab,您可以構建各種復雜的網頁抓取工具,從簡單的5行腳本到處理數百萬個網頁的復雜異步網站抓取工具。Grab提供壹個API用於執行網絡請求和處理接收到的內容,例如與HTML文檔的DOM樹進行交互。
項目地址:/chineking/cola
更多Python相關技術文章,請訪問Python教程欄目進行學習!