當前位置:法律諮詢服務網 - 企業資訊 - 推薦系統論文閱讀(二十九)-美團:利用歷史交互數據改進對話推薦系統

推薦系統論文閱讀(二十九)-美團:利用歷史交互數據改進對話推薦系統

論文:

題目:《Leveraging Historical Interaction Data for Improving Conversational Recommender System 》

地址: https://dl.acm.org/doi/pdf/10.1145/3340531.3412098

這是我第壹次將美團發表的論文寫在這上面,該論文是人大跟美團這邊合作在CIKM上面的壹篇短論文,研究的是如何利用歷史交互的數據來進行對話式的推薦。

最近,對話推薦系統(CRS)已成為壹個新興且實用的研究主題。 現有的大多數CRS方法都專註於僅從對話數據中為用戶學習有效的偏好表示。 然而,本論文從新的視角來利用歷史交互數據來改善CRS。 為此,這篇論文提出了壹種新穎的預訓練方法,以通過預訓練方法集成基於物品的偏好序列(來自歷史交互數據)和基於屬性的偏好序列(來自對話數據)。

隨著電子商務平臺中智能代理的快速發展,對話推薦系統(CRS)已成為尋求通過對話向用戶提供高質量推薦的新興研究主題。 通常,CRS由對話模塊和推薦模塊組成。 對話模塊側重於通過多回合互動獲取用戶的偏好,推薦模塊側重於如何利用推斷出的偏好信息為用戶推薦合適的商品。

現有的大多數CRS都以“系統要求用戶響應”模式設計的。在每輪對話中,CRS都會發出有關用戶偏愛的問題,並且用戶會使用個性化反饋對系統進行回復。通常,系統會根據商品的某些屬性(例如,妳最喜歡的電影類型是什麽)來生成系統查詢,並且用戶反饋會反映用戶對該屬性的特定偏愛(例如,我喜歡動作電影)。主流方法是構造壹種跟蹤模塊,該模塊可以從這種多輪對話中推斷出用戶的基於屬性的偏好。以此方式,可以將所推斷的偏好呈現為所推斷屬性的序列(例如,電影CRS中的“流派=動作→導演=詹姆斯·卡梅隆”。有了這個序列後,我們就可以用壹些方法來進行推薦來,比如可以采用知識圖譜來進行推薦。

但是,這些現有的CRS研究存在兩個主要問題。首先,對話本身的信息非常有限。許多CRS得到了進壹步優化,以減少系統與用戶交互的回合數。因此,在基於屬性的推斷偏好中,可能會丟失壹些有用的屬性。其次,僅利用基於屬性的偏好來進行推薦可能還不夠。例如,即使在過濾了幾個屬性之後,候選項目集仍可能很大。

現在要解決以上提到的兩個問題,我們就需要把基於item的方式和基於屬性的方式進行結合。其中,基於歷史交互item的方式反映的是用戶的長期興趣,基於會話屬性的方式反映的是用戶當前的興趣,也就是短期興趣,這是壹個典型的長短期興趣結合的任務。

A:之前說了,在CRS系統中,壹個用戶進行多輪對話後,會有壹個item屬性的集合,A就是這個集合

=? ,其中 屬於A,是item的屬性,n是屬性序列的長度

,其中 是用戶在對話前第k步與之交互的item

:我們進壹步假設每個項目ik也與壹組屬性值相關聯,用Aik表示,它是整個屬性集A的子集。

任務的定義:根據CRS模塊,首先收集到基於屬性的序列 ,然後利用點擊序列 進行推薦。關於這個任務的定義,深入理解應該是這樣:我們是先有屬性序列,然後主要根據點擊序列進行推薦,屬性序列的建模是子模塊任務,序列推薦是主任務,序列推薦任務在屬性序列更新後可以反復利用這個信息,只要屬性序列更新。

論文的base model是用Transformer做的,輸入部分是embedding層,這部分除了有item id的embedding矩陣,還有屬性的embedding矩陣,輸入還有個P,這個就不說了,位置向量。

中間的運算就是Transformer的過程了,self-attention 跟ffn,這裏不懂transformer結構的可以看壹下論文。

輸出部分是預測候選item i的概率:

其中ei是i的原始embedding向量,W是映射矩陣,兩個s是item和屬性經過transformer結構出來的最後壹個向量。

熟悉bert的都知道mask language model,把item序列中的item 用mask替代,然後預測這些被mask掉的item。

其中fik是item transformer結構出來的位置k出來的向量,SA是熟悉結構出來的Aik的位置出來的向量,W是映射矩陣,eik是原始的item embedding。

為了更好的讓item based的信息跟attribute based的信息進行融合,論文也采取了壹種另類的mask方法,用隨機負采樣的屬性來替代Aik,

其中fik是被替換的那個item經過trm出來的向量,W是映射矩陣,faj是屬性trm出來的向量,預測的概率是aj是否是被替換過。

在LTR裏面,如果采用的是pairwise的優化方式,那麽負采樣的技術就至為關鍵了,而且優化了正樣本的概率大於負樣本的能力,所以需要選取壹種負采樣的方法來給我們整個模型的優化帶來提升。

MIP裏面負采樣的方式用的是?IR-GAN 和 ELECT這兩篇論文所采用的方式。

改論文選擇了SASRec作為第壹個階段的pairwise ranking的模型,這個模型也是論文中用來sample 負樣本的模型。負采樣是這麽做的:我們先用pairwise ranking的方式訓練壹個模型作為生成器,得到了候選item的概率分布,有了這個概率分布我們就可以拿來負采樣了,因為排序高的items跟真實的很接近。至於為什麽選擇這個模型,論文裏面說是因為這個論文在序列推薦任務中的表示特別好,也就是它作為ranking的模型效果還不錯。請註意,盡管可以像標準GAN中那樣更新生成器,但是我們只訓練它的參數壹次。 根據經驗,我們發現叠代更新帶來的改進是有限的。

整個訓練分成兩個階段,第壹個是預訓練階段,就是訓練兩個表示學習模型,第二個是微調階段,學習的是rank loss:

  • 上一篇:同城貨運軟件哪個比較好用?
  • 下一篇:萬象城是哪家公司的?
  • copyright 2024法律諮詢服務網