1,數據采集
您可以通過SQL查詢語句在數據庫中獲取所需的數據。Python已經有了連接sql server、mysql、orcale等主流數據庫的接口包,如pymssql、pymysql、cx_Oracle等。
2.數據存儲
企業中的數據存儲是通過Mysql等數據庫進行存儲和管理的,MongoDB可以用於非結構化數據的存儲。我們還可以使用pymysql包將Python抓取的數據快速存儲在mysql中。
3.數據預處理/數據清理
多數情況下,原始數據格式不壹致,存在異常值、缺失值等問題,不同項目中數據預處理的方法也不同。Python可以使用Numpy和Pandas兩個工具庫進行數據清理。
4.數據建模和分析
常見的數據挖掘模型包括分類、聚類、回歸等。Python也有Scikit-learn和Tensorflow工具庫來支持這些常見的算法模型。
5、數據可視化分析
在數據可視化方面,Python有Matplotlib、Seaborn、Pyecharts等工具庫可用。