本文共 1274 字,大约阅读时间需要 4 分钟。
KDD Cup2011 : 雅虎音乐提供的测试数据概况 by 陈运文
Yahoo! Music - Dataset
• 262,810,175 Ratings: <user id> <item id> <score> <date> <time> (Training: 252,800,275 Validation: 4,003,960 Test: 6,005,940) • Users: 1,000,990 Items: 624,961 Time period: 11 years
数据全部是真实的yahoo数据。
音乐样本提供了分类信息,包括以下4种:
• Taxonomy: – Tracks: 507,172 – Albums: 88,909 – Artists: 27,888 – Genres: 992
但是具体的音乐profile,例如长度、流派、风格等特征没有提供。因此content based推荐方法很难找到突破,这次的比赛应该是以协同过滤(collaborative filtering)、矩阵分解等方法为主,最终多个predictor组合的方式。traxonomy作为补充的特征,可以在blend的时候起一些辅助的作用。
Two tracks:
– Track 1: minimize squared error on given ratings – Track 2: separate highly rated items from never rated items Generalize models to items never rated by the users • Very large number of items (over 600K) • Employ hierarchical relations (taxonomy) betweenitems • Accurate timestamps of ratings; facilitates session analysis
个人认为,KDD Cup 2011这次的比赛中,时间因素要特别关注,用户对music的评分,随时间的变化应该是能找到规律的,这些规律对最终的评分预测会有不小的影响。是否能把握准time bias,会成为最终的胜负手。
协同过滤在这次比赛中应该占有非常重要的作用。从数据特征来看,item-based collaborative filtering会比user-based CF更适合。item之间的nearest neighbor计算,可以找出很多不同的思路。
另外,从Netflix比赛胜者的经验来看,当时矩阵分解的方法有相当明显的优势,因此SVD和对应的众多改进方案是必不可少的。SVD通常用在显式的用户评分matrix上,对这次比赛来说,如何建立一个更合理的score matrix,应该也会显著的影响最终的评分
另外,RMSE这种评价方案,估计更倾向于多个推荐系统combine的算法,这个需要套用很多现有的组合框架了
转载地址:http://jnmrb.baihongyu.com/