博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
KDD Cup2011
阅读量:2503 次
发布时间:2019-05-11

本文共 1274 字,大约阅读时间需要 4 分钟。

KDD Cup2011 : 雅虎音乐提供的测试数据概况 by 陈运文

 

Yahoo! Music - Dataset

• 262,810,175 Ratings:
<user id>  <item id>  <score>  <date>  <time>

(Training: 252,800,275 Validation: 4,003,960 Test: 6,005,940)

• Users: 1,000,990 Items: 624,961

Time period: 11 years

 

数据全部是真实的yahoo数据。

 

音乐样本提供了分类信息,包括以下4种:

• Taxonomy:

– Tracks:  507,172
– Albums: 88,909
– Artists:   27,888
– Genres:  992

 

但是具体的音乐profile,例如长度、流派、风格等特征没有提供。因此content based推荐方法很难找到突破,这次的比赛应该是以协同过滤(collaborative filtering)、矩阵分解等方法为主,最终多个predictor组合的方式。traxonomy作为补充的特征,可以在blend的时候起一些辅助的作用。

 

Two tracks:

– Track 1: minimize squared error on given ratings

– Track 2: separate highly rated items from never rated items

Generalize models to items never rated by the users

• Very large number of items (over 600K)

• Employ hierarchical relations (taxonomy) between

 

items

• Accurate timestamps of ratings; facilitates session analysis

 

个人认为,KDD Cup 2011这次的比赛中,时间因素要特别关注,用户对music的评分,随时间的变化应该是能找到规律的,这些规律对最终的评分预测会有不小的影响。是否能把握准time bias,会成为最终的胜负手。

协同过滤在这次比赛中应该占有非常重要的作用。从数据特征来看,item-based collaborative filtering会比user-based CF更适合。item之间的nearest neighbor计算,可以找出很多不同的思路。

另外,从Netflix比赛胜者的经验来看,当时矩阵分解的方法有相当明显的优势,因此SVD和对应的众多改进方案是必不可少的。SVD通常用在显式的用户评分matrix上,对这次比赛来说,如何建立一个更合理的score matrix,应该也会显著的影响最终的评分

另外,RMSE这种评价方案,估计更倾向于多个推荐系统combine的算法,这个需要套用很多现有的组合框架了

 

 

 

转载地址:http://jnmrb.baihongyu.com/

你可能感兴趣的文章
java 流使用
查看>>
java 用流收集数据
查看>>
java并行流
查看>>
CompletableFuture 组合式异步编程
查看>>
mysql查询某一个字段是否包含中文字符
查看>>
Java中equals和==的区别
查看>>
JVM内存管理及GC机制
查看>>
Java:按值传递还是按引用传递详细解说
查看>>
Java中Synchronized的用法
查看>>
阻塞队列
查看>>
linux的基础知识
查看>>
接口技术原理
查看>>
五大串口的基本原理
查看>>
PCB设计技巧与注意事项
查看>>
linux进程之间通讯常用信号
查看>>
main函数带参数
查看>>
PCB布线技巧
查看>>
关于PCB设计中过孔能否打在焊盘上的两种观点
查看>>
PCB反推理念
查看>>
京东技术架构(一)构建亿级前端读服务
查看>>