1.事實上,數據的來源可以是多個方面和維度。比如企業自身管理活動產生的數據,政府或機構公布的行業數據,數據管理咨詢公司或數據交易平臺購買的數據,或者通過爬蟲工具在網絡上抓取的數據等。
2.企業的每壹個崗位、每壹個人員都在從事與企業相關的經營管理活動,都占有與企業相關的資源,並擁有這些資源的信息和記錄。這些資源和資源轉化活動是企業大數據的發源地。只要每個崗位的員工都能參與到數據采集和數據記錄的過程中,或者配合相關設備完成數據采集,企業積累自己的大數據是非常容易的。
3.國家統計局、中國國家統計學會、中國投入產出學會等政府或機構公布的行業數據其實更好獲取。在這些網站裏,妳可以很容易地找到壹些數據,比如農業的基本情況,工業生產者出廠價格指數,能源生產總量和構成,對外貿易和利用外資等等。又可分為月報、季報、年報。如果堅持獲取分析,會對行業的發展趨勢起到很大的引導作用。
4.如果市場上沒有所需數據,或者不願意購買,可以選擇招聘/做爬蟲工程師,自己爬取數據。可以說,只要在網上看到數據,就能爬下來。在網絡爬蟲的系統框架中,主進程由三部分組成:控制器、解析器和資源庫。控制器的主要工作是在多線程中將工作任務分配給各個爬蟲線程。爬蟲的基本工作由解析器完成,資源庫用於存儲下載的網頁。
企業大數據來源合理,大數據工程師才能更準確的分析大數據。所以大數據工程師要不斷提升自身能力,才能更好的分析數據。