前兩項是邏輯回歸(LR)模型,第三項是二階特征組合,這意味著模型需要為每個輸入特征學習壹個低維隱向量表示V(即深度神經網絡中的向量表示)。
將原來的w{ij}替換為V{i}和V{j}的點積,其中V{i}表示特征x{i}的隱向量表達式,V{j}表示特征x{j}的隱向量表達式,特征組合的權重由每個單個特征的隱向量內積來反映。
但是,這個特征交集
前兩項是邏輯回歸(LR)模型,第三項是二階特征組合,這意味著模型需要為每個輸入特征學習壹個低維隱向量表示V(即深度神經網絡中的向量表示)。
將原來的w{ij}替換為V{i}和V{j}的點積,其中V{i}表示特征x{i}的隱向量表達式,V{j}表示特征x{j}的隱向量表達式,特征組合的權重由每個單個特征的隱向量內積來反映。
但是,這個特征交集有什麽問題呢?以58同城APP本地服務租車業務的用戶為例。根據平臺用戶畫像,會有性別、首選車型、首選品牌等特征。
但是,當壹個特征與二階中的其他特征組合時,可能會共享同壹個特征向量* * *例如,性別與首選汽車組合、性別與首選品牌組合* * *共享同壹個特征向量,這使得模型的表達能力非常有限。
在因式分解機(FM)模型的基礎上,我們引入了場的概念,從而形成了壹種新的模型——FFM(Field Factorization Machine)。
與FM相比,FFM引入了場的概念,使模型產生更多的輔助信息,具有更強的表達能力。此時,FM可以被視為只有壹個領域的FFM。
邏輯回歸(LR)模型主要手動組合特征。為了解決人工經驗的不足,可以自動發現有效特征並組合特征,從而縮短特征挖掘的實驗周期,因此衍生出了因子分解機(FM)等高維復雜模型。
FM模型主要通過隱變量的方式尋找兩兩特征之間的組合關系,但這種特征組合僅限於兩兩特征。於是,壹種更復雜的組合模型——GBDT模型誕生了,主要用於解決高維特征組合問題。
梯度提升決策樹(GBDT)模型是傳統機器學習中最強大的算法之壹。它利用基於函數的線性組合實現多次叠代,每次叠代後生成壹個弱分類器。最後,根據前壹個分類器的殘差訓練每個分類器。
壹般來說,集成學習會選擇分類回歸樹(CART)作為弱分類器,每個分類回歸樹的深度不會很深。最後,總分類器將每輪訓練得到的弱分類器加權求和得到壹個結果,具體表達式如下:
GBDT+LR模型使用GBDT自動篩選和組合特征,然後生成新的離散特征向量,然後將其作為邏輯回歸(LR)模型的輸入,最終產生預測結果。
壹般來說,邏輯回歸(LR)模型本身比擬合非線性數據更適合處理線性可分數據。
如果我們希望邏輯回歸(LR)模型處理擬合的非線性數據,我們可以使用GBDT來生成特征的組合。由於模型具有對非線性分布數據的整體擬合能力,可以通過算法自動高效地找到有效的特征組合,產生三階以上的特征組合結果,而FM和FFM顯然不具備這麽強的特征組合能力。