python繪制預測模型校準圖可以使用校準曲線,因為預測壹個模型校準的最簡單的方法是通過壹個稱為“校準曲線”的圖(也稱為“可靠性圖”,reliability diagram)。
這個方法主要是將觀察到的結果通過概率劃分為幾類(bin)。因此,屬於同壹類的觀測值具有相近的概率。
對於每個類,校準曲線將預測這個類的平均值,然後將預測概率的平均值與理論平均值(即觀察到的目標變量的平均值)進行比較。
妳只需要確定類的數量和以下兩者之間的分類策略即可:
1、“uniform”,壹個0-1的間隔被分為n_bins個類,它們都具有相同的寬度。
2、“quantile”,類的邊緣被定義,從而使得每個類都具有相同數量的觀測值。
假設妳的模型具有良好的精度,則校準曲線將單調增加。但這並不意味著模型已被正確校準。實際上,只有在校準曲線非常接近等分線時(即下圖中的灰色虛線),您的模型才能得到很好的校準,因為這將意味著預測概率基本上接近理論概率。
python繪制預測模型中如何解決校準錯誤:
假設妳已經訓練了壹個分類器,該分類器會產生準確但未經校準的概率。概率校準的思想是建立第二個模型(稱為校準器),校準器模型能夠將妳訓練的分類器“校準”為實際概率。
因此,校準包括了將壹個壹維矢量(未校準概率)轉換為另壹個壹維矢量(已校準概率)的功能。
兩種常被用作校準器的方法:
1、保序回歸:壹種非參數算法,這種非參數算法將非遞減的自由格式行擬合到數據中。行不會減少這壹事實是很重要的,因為它遵從原始排序。
2、邏輯回歸:現在有三種選擇來預測概率:普通隨機森林、隨機森林 + 保序回歸、隨機森林 + 邏輯回歸。