首先給大家說明壹下什麽是重復值,所謂重復值,顧名思義,就是重復的數據,數據中存在相同的數據就是重復數據,重復數據壹般有兩種情況,第壹種就是數據值完全相同的多條數據記錄。另壹種就是數據主體相同但匹配到的唯壹屬性值不同。這兩種情況復合其中的壹種就是重復數據。那麽怎麽去除重復數據呢?壹般來說,重復數據的處理方式只有去重和去除兩種方式,去重就是第壹種情況的解決方法,去除就是第二種情況的解決方法。
其次給大家說壹下什麽是異常值,這裏說的異常值就是指壹組測試值中宇平均數的偏差超過了兩倍標準差的測定值。而與平均值的偏差超過三倍標準差的測定值則被稱為高度異常值。對於異常值來說,我們壹般不作處理,當然,這前提條件就是算法對異常值不夠敏感。如果算法對異常值敏感了怎麽處理異常值呢?那麽我們就需要用平均值進行替代,或者視為異常值去處理,這樣可以降低數據異常值的出現。
而缺失值也是數據分析需要清理的對象,所謂缺失值就是數據中由於缺少信息導致數據的分組、缺失被稱為缺失值,存在缺失值的數據中由於某個或者某些數據不是完整的,對數據分析有壹定的影響。所以,我們需要對缺失值進行清理,那麽缺失值怎麽清理呢?對於樣本較大的缺失值,我們可以直接刪除,如果樣本較小,我們不能夠直接刪除,因為小的樣本可能會影響到最終的分析結果。對於小的樣本,我們只能通過估算進行清理。
關於數據分析需要清楚的數據就是這篇文章中介紹的重復值、異常值以及缺失值,這些無用的數據大家在清理數據的時候壹定要註意,只有這樣才能夠做好數據分析。最後提醒大家的是,大家在清理數據之前壹定要保存好自己的原始數據,這樣我們才能夠做好數據的備份。切記切記。