因果測度是聚類分析測度相似性的方法。
聚類(Clustering)就是壹種尋找數據之間內在結構的技術。聚類把全體數據實例組織成壹些相似組,而這些相似組被稱作簇。處於相同簇中的數據實例彼此相同,處於不同簇中的實例彼此不同。
聚類分析定義
聚類分析是根據在數據中發現的描述對象及其關系的信息,將數據對象分組。目的是,組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內相似性越大,組間差距越大,說明聚類效果越好。
聚類效果的好壞依賴於兩個因素:1.衡量距離的方法(distance measurement) 2.聚類算法(algorithm)
聚類分析常見算法
K-均值聚類也稱為快速聚類法,在最小化誤差函數的基礎上將數據劃分為預定的類數K。該算法原理簡單並便於處理大量數據K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。
也稱為層次聚類,分類的單位由高到低呈樹形結構,且所處的位置越低,其所包含的對象就越少,但這些對象間的***同特征越多。該聚類方法只適合在小數據量的時候使用,數據量大的時候速度會非常慢。