簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識的過程,有時也被人們稱為知識挖掘、知識提取、知識發現、數據/模式分析等。它是現代數據庫技術發展與人工智能(及其學習、模式識別)技術相結合的產物。在數據挖掘領域,數據挖掘功能發現的模式類別主要有關聯規則、分類、聚類、概念描述和偏差檢測等。這些模式也是電子政務數據挖掘所需要的。例如在稅務部門可以利用數據挖掘的偏差檢測,對同壹類型納稅人數據進行分析挖掘,可以發現偷稅漏稅問題。所發現的規則模式在電子政務中的應用我們會在第4部分中詳細介紹,這裏不再贅述。
數據挖掘的結果就主要體現在這些模式的發現上,這是壹個極其復雜的過程。其中核心的問題就是用何種方法來有效地從已知數據中挖掘知識。在電子政務中數據挖掘的常用方法主要有決策樹方法、統計的方法、歸納法、神經網絡方法、遺傳算法、粗糙集方法、人工智能、模糊集方法等。電子政務軟件金鵬信息www.jpsycn.com
電子政務中的數據挖掘是指為政府各種業務活動、工作、決策尋找知識,壹般電子政務中數據挖掘的過程應該包括數據準備、挖掘處理、知識表達與解釋三個階段。數據準備是為電子政務數據挖掘提供挖掘對象的階段。主要是針對需求分析的結果做挖掘對象的準備工作,其主要內容有數據的預處理(如抽取、轉化、凈化、理解等)以及建立數據挖掘處理集等。通過數據準備提高數據挖掘質量,減少數據的雜亂性、冗余性和不完整性。挖掘操作是數據挖掘的核心,主要是通過算法引擎選擇挖掘算法後,對數據準備階段建立的數據挖掘處理集進行挖掘,從中發現感興趣的知識。表達和解釋階段是對挖掘結果進行分析,提取出最有價值的信息,以圖表形式或其他可視化手段展現給用戶。