什麽是數據挖掘？數據挖掘怎麽做？

數據挖掘是指對大量數據集進行分類的自動化過程，從而通過數據分析來識別趨勢和模式，並建立關系來解決業務問題。換句話說，數據挖掘是從大量不完整的、有噪聲的、模糊的、隨機的數據中提取隱藏的、未知的、但潛在有用的信息和知識的過程。

原則上，數據挖掘可以應用於任何類型的信息庫和瞬態數據(如數據流)，如數據庫、數據倉庫、數據集市、交易數據庫、空間數據庫(如地圖)、工程設計數據(如建築設計)、多媒體數據(如文本、圖像、視頻和音頻)、網絡、數據流和時間序列數據庫。因此，數據挖掘具有以下特征:

(1)數據集很大且不完整。

數據挖掘需要的數據集非常大。只有數據集越大，得到的規律越接近正確的實際規律，結果越準確。此外，數據往往不完整。

(2)不準確

數據挖掘不準確，主要是噪音數據造成的。比如在商業上，用戶可能提供虛假數據；在工廠環境中，正常數據經常會受到電磁或輻射幹擾，從而導致數據異常。這些異常的、絕對不可能的數據被稱為噪聲，會導致數據挖掘的不準確。

(3)模糊性和隨機性

數據挖掘具有模糊性和隨機性。這裏的歧義可能與不準確有關。因為數據不準確，我們只能從整體上觀察數據，或者因為私人信息無法得知壹些具體內容。這時候如果要做相關的分析操作，只能做壹些籠統的分析，無法做出準確的判斷。

數據的隨機性有兩種解釋。壹個是獲得的數據是隨機的；我們無法知道用戶填了什麽。第二是分析結果是隨機的。數據交給機器去判斷和學習，所以所有操作都屬於灰箱操作。