Excel如何抓取Web數據JSON數據抓取

打開Chrome，在Lagou.com上搜索深證“數據分析”的位置，使用檢查功能檢查網頁源代碼。發現Lagou.com有反爬蟲機制，位置信息不在源代碼中，而是存儲在壹個JSON文件中，所以我們直接下載JSON，用字典的方法直接讀取數據。

在抓取網頁時，您需要添加標題信息來獲取所需的數據。

在搜索結果的第壹頁，我們可以從JSON中讀取總位置數，按照每頁15個位置，得到需要抓取的頁數。然後利用循環逐頁抓取，匯總位置信息，輸出為CSV格式。

程序運行如下圖所示:

抓取結果如圖:

數據清理占了數據分析工作量的大部分。在拉勾上尋找深圳“數據分析”的職位。我們有369個位置。當我看職位名稱時，我發現有4個實習職位。因為我們學的是全職崗位，所以先剔除實習崗位。因為工作經驗和工資都是字符串形式的區間，所以我們先用正則表達式提取值，以列表的形式輸出。平均工作經驗和四分位數工資接近現實。

4.詞雲

我們把工作福利壹欄的數據匯總，生成壹個字符串，按照詞頻生成壹個詞雲，實現python可視化。下面是原圖和雲這個詞的對比。可以看出，五險壹金在工作福利中出現的頻率最高，其次是平臺、福利、發展空間、彈性工作。

5.描述統計數據

可以看出，數據分析師的平均值為14.6K，中位數為12.5K，是壹個很有前途的職業。數據分析分散在各個行業，但在高級層面涉及數據挖掘和機器學習，在IT行業取得了長足的進步。

再來看工資的分配，這是求職的重要參考:

薪資10-15K的職位最多，其次是薪資15-20K的職位。依我拙見，10-15K的崗位以建模為主，20K以上的崗位以數據挖掘和大數據架構為主。

讓我們來看看各區的職位分布情況:

數據分析崗位南山區62.9%，福田區25.8%，其余分布在龍崗區、羅湖區、寶安區、龍華新區。我們可以看到南山區和福田區是深圳科技產業的中心。

我們希望得到薪資、工作經驗和學歷之間的關系。因為教育分為三類，所以我們需要設置三個啞變量:專科，本科，碩士。多元回歸的結果如下:

在0.05的顯著性水平上，F值為82.53，說明回歸關系顯著。t檢驗和對應的P值均小於0.05，說明工作經歷和三種學歷有統計學意義。另外，R平方的值為0.41，說明工作經歷和教育程度只解釋了41%的工資變動性。這就不難理解了，即使崗位都叫數據分析師，實際工作內容也大相徑庭，有的只是用Excel做基礎分析，有的用Python和R做數據挖掘。此外，每個公司的規模和願意提供的薪酬也不盡相同。但由於工作內容的差異和公司的慷慨程度，僅通過招聘網頁上的宣傳很難獲得實際數據，導致模型的擬合優度不是很好的現實。

上一篇:派出所通過姓名能查到什麽

下一篇:企業利潤表季報怎麽填？這個月的利潤表怎麽算？

2024年沈陽契稅的收費標準是多少？

我在淘寶賣電子檔資料，買家買了然後自己用我的資料開店，違法嗎？可以投訴嗎？或者其他方法處理！！！！

原木家具的優缺點有哪些原木家具品牌推薦？

職工薪酬支出及納稅調整明細表稅收金額怎麽填

信息安全與管理專業學什麽？

五年計劃的編制過程

項目備案網上申報流程