借著ACL2020上MASR的MIND數據集論文介紹壹些新聞推薦中常用的數據集/
(2013年)通過收集13個德國新聞門戶網站上發表的新聞文章和用戶的點擊日誌,構建了 Plista4數據集。它包含70,353篇新聞文章和1,095,323次點擊.該數據集中的新聞文章為德語,用戶主要來自德語國家。
Adressa 數據是根據 adreseavisen 網站的日誌在10周內構建的,它有48,486篇新聞文章,3,083,438個用戶和27,223,576個點擊事件。每個點擊事件包含幾個屬性,如會話時間、新聞標題、新聞類別和用戶 ID。每篇新聞文章都與作者、實體和主體等詳細信息相關聯。本數據集中的新聞文章是用挪威語寫的。整個數據集分為規模不同的兩個版本。
整體來講,Adressa是內容最為全面的,可以做常規的新聞推薦,也可也基於session做,也可以探究基於知識圖譜的推薦
2018年)從巴西壹個流行的新聞門戶網站 globo 建立了壹個新聞推薦數據集。這個數據集包含大約314,000個用戶,46,000篇新聞文章和300萬次點擊記錄。每個單擊記錄都包含用戶 ID、新聞 ID 和會話時間等字段。最早開放在Kaggle平臺上,提供訓練好的新聞embedding,沒有原始的新聞文章信息。
它包含14180篇新聞文章和34022次點擊事件。每篇新聞文章都由單詞 id 表示,不提供原始新聞文本。此數據集中的用戶數量未知,因為沒有用戶 ID。
如果覺得有用,歡迎點贊關註贊賞,若對推薦感興趣歡迎評論區/私信交流~~~