當前位置:法律諮詢服務網 - 企業資訊 - python爬蟲用的哪些庫

python爬蟲用的哪些庫

Python爬蟲,全稱Python網絡爬蟲,是壹種按照壹定的規則,自動地抓取萬維網信息的程序或腳本,主要用於抓取證券交易數據、天氣數據、網站用戶數據和圖片數據等,Python為支持網絡爬蟲正常功能實現,內置了大量的庫,主要有幾種類型。下面本篇文章就來給大家介紹。

壹、Python爬蟲網絡庫

Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、:雲端執行R,Python和matlab代碼。

十二、電子郵件

●flanker:電子郵件地址和Mime解析庫;

●Talon:Mailgun庫用於提取消息的報價和簽名。

十三、網址和網絡地址操作

●furl:壹個小的Python庫,使得操縱URL簡單化;

●purl:壹個簡單的不可改變的URL以及壹個幹凈的用於調試和操作的API;

●urllib.parse:用於打破統壹資源定位器(URL)的字符串在組件之間的隔斷,為了結合組件到壹個URL字符串,並將“相對URL”轉化為壹個絕對URL,稱之為“基本URL”;

●tldextract:從URL的註冊域和子域中準確分離TLD,使用公***後綴列表;

●etaddr:用於顯示和操縱網絡地址的Python庫。

十四、網頁內容提取

●ewspaper:用Python進行新聞提取、文章提取和內容策展;

●html2text:將HTML轉為Markdown格式文本;

●python-goose:HTML內容、文章提取器;

●lassie:人性化的網頁內容檢索工具;

●micawber:壹個從網址中提取豐富內容的小庫;

●sumy:壹個自動匯總文本文件和HTML網頁的模塊;

●Haul:壹個可擴展的圖像爬蟲;

●python-readability:arc90 readability工具的快速Python接口;

●scrapely:從HTML網頁中提取結構化數據的庫;

●youtube-dl:壹個從YouTube下載視頻的小命令行程序;

●you-get:Python3的YouTube、優酷/ Niconico視頻下載器;

●WikiTeam:下載和保存wikis的工具。

十五、WebSocket

●Crossbar:開源的應用消息傳遞路由器;

●AutobahnPython:提供了WebSocket協議和WAMP協議的Python實現並且開源;

●WebSocket-for-Python:Python 2和3以及PyPy的WebSocket客戶端和服務器庫。

十六、DNS解析

●dnsyo:在全球超過1500個的DNS服務器上檢查妳的DNS;

●pycares:c-ares的接口。

十七、計算機視覺

●OpenCV:開源計算機視覺庫;

●SimpleCV:用於照相機、圖像處理、特征提取、格式轉換的簡介,可讀性強的接口;

●mahotas:快速計算機圖像處理算法,完全基於 numpy 的數組作為它的數據類型。

十八、代理服務器

●shadowsocks:壹個快速隧道代理,可幫妳穿透防火墻;

●tproxy:tproxy是壹個簡單的TCP路由代理,基於Gevent,用Python進行配置。

十九、其他Python工具列表

●awesome-python

●pycrumbs

●python-github-projects

●python_reference

●pythonidae

  • 上一篇:營業執照年檢和年報壹樣嗎
  • 下一篇:三邦快遞是騙子公司嗎?
  • copyright 2024法律諮詢服務網