主要有9个预测任务,包括click、hide、like、fav、comment、share、follow等。点击、保持、喜欢、评论、分享、关注。点击是平台最大的模型,一天大概产生5亿的样本进行模型训练。GBDT模型中的推荐分发,有非常多的用户行为统计,产生了一些静态的信息和动态特征,用来描述用户或者推荐。

通过用户画像和人口统计信息来描述用户,比如性别年龄这些静态信息。推荐分作者和内容两个维度,比如作者打分、推荐质量、标签、主题。动态特征虽然不多,但是非常重要。

动态特征包括用户在浏览和搜索中有没有点击、有没有深度行为等类似的用户反馈。这些交互的数据有一个实时的pipeline从线下直接放到线上的模型里,在线上会利用这些数据对点击率等交互质量的指标进行预测,然后根据用户和推荐的隐形分类进行推荐。

相关推荐的要求是什么?推荐的推荐和用户在看的推荐,最好讲的是一个东西。比如说同一款口红、同一个酒店、同一个旅游城市、同一款衣服,可能不是一个酒店,但是是类似的酒店。

可能不是同一个旅游城市,但可能是类似的旅游城市,是不是很难理解?那我们再具体一点,我如果看的是亚特兰蒂斯这种级别的酒店,那么平台就不会给我推荐格林豪泰,而是类似同等级别的酒店。如果我经常搜的是雪山/草原/沙漠,那么就不会给我推荐上海/北京/广州这种人文和城市景观突出的地方。

有一点需要注意的是,TFIDF model 虽然基本要求词是一样的,但它可以把一类推荐找出来,就是讲用户心理、描述用户心情的推荐,因为用户描述心情用的词汇很接近,所以这个方法也会把扩展的内容找出来。“绝绝子”是非常明显的一个语气词或者形容词,在平台有461万+篇推荐。