方法/步驟
在做爬取數據之前,妳需要下載安裝兩個東西,壹個是urllib,另外壹個是python-docx。
請點擊輸入圖片描述
然後在python的編輯器中輸入import選項,提供這兩個庫的服務
請點擊輸入圖片描述
urllib主要負責抓取網頁的數據,單純的抓取網頁數據其實很簡單,輸入如圖所示的命令,後面帶鏈接即可。
請點擊輸入圖片描述
抓取下來了,還不算,必須要進行讀取,否則無效。
請點擊輸入圖片描述
5
接下來就是抓碼了,不轉碼是完成不了保存的,將讀取的函數read轉碼。再隨便標記壹個比如XA。
請點擊輸入圖片描述
6
最後再輸入三句,第壹句的意思是新建壹個空白的word文檔。
第二句的意思是在文檔中添加正文段落,將變量XA抓取下來的東西導進去。
第三句的意思是保存文檔docx,名字在括號裏面。
請點擊輸入圖片描述
7
這個爬下來的是源代碼,如果還需要篩選的話需要自己去添加各種正則表達式。