首先,我們來介紹壹下數據和信息的區別。
什麽是數據,什麽是信息?其實最本質的區別是數據是存在的,有跡可循,不需要處理,而信息是需要處理的。
比如妳要給家裏買壹個新衣櫃,首先要測量房間各部分的長、寬、高。只要對這些數據進行測量,就可以得到準確的數值,因為這些數據是客觀存在的,這些客觀存在的數值就是數據。
但是信息不壹樣。來到家具商場買衣櫃,妳會說,我們在房間裏放壹個3米的衣櫃剛剛好,2米的衣櫃有點矮,看起來不大氣,4米的衣櫃太大,不劃算。那麽這種信息就屬於信息。這些時候,大腦已經進行了思考,做出了主觀判斷,而妳獲得這些信息的依據就是客觀存在的數據。
其次,數據分析是通過各種維度對客觀存在的或已知的數據進行分析,得出結論。
例如,我們發現該公司的應用程序用戶活躍度下降了:
從區域角度來看,某個區域的活動百分比下降。
就性別而言,男孩活動的百分比下降了。
就年齡而言,20至30歲之間的活動百分比下降。
以此類推,讓不同的業務類型可以看過去壹段時間的發展趨勢來做出結論。
數據挖掘不僅要用到統計學的知識,還要用到機器學習的知識,這裏會涉及到模型的概念。數據挖掘有更深層次的發現未知的規律和價值。而且我們更註重數據本身之間的關系,從而得出壹些非顯性的結論,這些結論是我們從數據分析中得不到的。比如相關性分析可以知道啤酒和紙尿褲的關系,決策樹可以知道妳購買的概率,聚類分析可以知道妳和誰相似等等,重點是從各個維度發現數據之間的內在聯系。
所以,兩者的目的是不同的。數據分析就是要有壹個明確的分析群體,也就是把各個維度的群體進行拆分、劃分、組合來發現問題,而數據挖掘的目標群體是不確定的,這就需要我們更多的從數據的內在聯系去分析,從而把業務、用戶、數據結合起來進行更多的洞察和解讀。
比如,壹個人想找壹個女朋友,可以快速便捷地了解到其外在的相關因素,比如身高、體重、收入、學歷等。,但他無法從這些數據中知道這個女孩是否適合他,她的性格是否能和自己相處得很好...這個時候我需要從壹些日常行為數據來推斷,壹個是主觀推斷,他是否認為、估計、認為可以在壹起。
另壹種是客觀+主觀的推斷,比如整合社交平臺數據(可以知道朋友圈、微博每天的內容、興趣愛好等。)並用自己的行為進行數據挖掘,看看數據內部有多少匹配。這時候他就可以判斷他們在壹起的概率是99%,從而建立信心,開始行動。.....
當然,從統計學上講,100%的概率不壹定會發生,0%的概率也不壹定會發生。這只是小概率事件。不要讓這個成為妳脫單的絆腳石。
最後,思維方式不同。壹般來說,數據分析是基於客觀數據進行不斷的驗證和假設,而數據挖掘是沒有假設的,但是妳也要根據模型的輸出給出妳的判斷標準。
我們經常做分析的時候,數據分析需要更多的思考,更多的使用結構化和MECE的思維方法,類似於程序中的假設。
分析框架(假設)+客觀問題(數據分析)=結論(主觀判斷)
而數據挖掘大多是大而全、多面而精的。數據越多,模型越精確,變量越多,數據之間的關系越清晰。
所有變量都要從模型的意義上(大而全,多而精)進行篩選,然後根據變量的相關程度、替代關系、重要程度進行篩選,最後拋入模型。最後從模型的參數和解釋的意義來判斷這種方法的合理性。
分析更依賴於業務知識,而數據挖掘更側重於技術的實現,對業務的要求略有降低。數據挖掘往往需要更大的數據量,數據量越大,對技術的要求就越高。需要很強的編程能力,數學能力,機器學習能力。從結果來看,數據分析更側重於結果的呈現,需要結合業務知識進行解讀。數據挖掘的結果是壹個模型,通過這個模型可以分析整個數據的規律,壹次性實現對未來的預測,比如判斷用戶的特征,用戶適合什麽樣的營銷活動。顯然,數據挖掘比數據分析更深入。數據分析是將數據轉化為信息的工具,而數據挖掘是將信息轉化為認知的工具。
以上是邊肖今日整理發送的《談對數據分析、數據挖掘、大數據的理解》相關內容。希望對大家有幫助。想了解更多數據分析和人工智能職位分析,關註邊肖持續更新。