原則上,數據挖掘可以應用於任何類型的信息庫和瞬態數據(如數據流),如數據庫、數據倉庫、數據集市、交易數據庫、空間數據庫(如地圖)、工程設計數據(如建築設計)、多媒體數據(如文本、圖像、視頻和音頻)、網絡、數據流和時間序列數據庫。因此,數據挖掘具有以下特征:
(1)數據集很大且不完整。
數據挖掘需要的數據集非常大。只有數據集越大,得到的規律越接近正確的實際規律,結果越準確。此外,數據往往不完整。
(2)不準確
數據挖掘不準確,主要是噪音數據造成的。比如在商業上,用戶可能提供虛假數據;在工廠環境中,正常數據經常會受到電磁或輻射幹擾,從而導致數據異常。這些異常的、絕對不可能的數據被稱為噪聲,會導致數據挖掘的不準確。
(3)模糊性和隨機性
數據挖掘具有模糊性和隨機性。這裏的歧義可能與不準確有關。因為數據不準確,我們只能從整體上觀察數據,或者因為私人信息無法得知壹些具體內容。這時候如果要做相關的分析操作,只能做壹些籠統的分析,無法做出準確的判斷。
數據的隨機性有兩種解釋。壹個是獲得的數據是隨機的;我們無法知道用戶填了什麽。第二是分析結果是隨機的。數據交給機器去判斷和學習,所以所有操作都屬於灰箱操作。