壹.數據采集
如今大數據時代已經到來,企業需要數據來分析用戶行為,分析自己產品的缺點,分析競爭對手的信息,而這壹切的首要條件就是數據收集。常用的數據獲取方式有數據倉庫和操作日誌、監控和爬行(即爬蟲)、填充、埋點和計算。
1,數據倉庫和操作日誌
數據倉庫是長期存儲在計算機中的有組織的共享數據集,是為決策支持系統提供基礎數據的分析數據庫。
數據倉庫有幾個定義特性,即:
推薦閱讀:1。數據倉庫-建築藝術-博客花園
日誌和數據倉庫的作用是壹樣的,但相比之下,日誌記錄比數據倉庫更簡潔,故障發生時更容易定位問題。
2.監控和爬網
爬蟲是指編寫程序模擬瀏覽器上網,然後讓它上網抓取數據的過程。
根據使用場景,網絡爬蟲可以分為通用爬蟲和主題爬蟲。
通用爬蟲是檢索引擎(百度、谷歌等)檢索系統的重要組成部分。).主要目的是將互聯網上的網頁下載到本地,形成互聯網內容的鏡像備份。簡單來說,就是盡可能多;下載互聯網上的所有網頁,放在本地服務器形成備份點,然後對這些網頁做相關處理(提取關鍵詞,去除廣告),最後提供壹個用戶搜索界面。
聚焦爬蟲是壹種“面向特定主題需求”的網絡爬蟲程序。它與壹般搜索引擎爬蟲的區別在於,聚焦爬蟲在抓取網頁時會對內容進行處理和過濾,盡量保證只抓取與需求相關的網頁。
推薦閱讀:爬蟲(爬蟲原理與數據捕捉)-lclc-博客花園
爬行動物-Z-J-H-博客花園
3.填埋點
兩者都是用戶行為的記錄。
填寫是指用戶在註冊時填寫信息或填寫相關問卷。通過問卷調查和抽樣調查獲得的數據有限,有時無法保證真實性。
埋點主要是指app或網頁的埋點,跟蹤APP或網頁的使用情況進行優化。通常記錄訪客、頁面瀏覽量、跳出率等頁面統計和操作行為。).直接記錄用戶與網絡產品的交互過程,幾乎可以重現,從而獲取用戶的行為模式、購買記錄、搜索習慣等。這些數據都是用戶自己生成的,可以保證數據的真實性。
推薦閱讀:6個步驟:學習如何快速掩埋數據。
計算
很多數據是無法直接獲得的,需要從現有的數據中推算出來。比如企業的投入產出比。
最後需要強調的是,用於數據分析的數據必須真實、準確、及時。在獲取數據後使用個人信息時,應遵守以下五項原則:
(1)合法公開原則。
(2)目的限制原則。
(3)最小數據原則。
(4)數據安全原則。
(5)限量儲存原則。
下篇文章將對數據分析中的數據預處理做壹個簡單的梳理。