如何制作用户的行为标签
用户画像比较简单,不会存在过多的状态,而实时归因是整个实时流处理中最关键的场景。实时归因将内容推荐给用户后会产生曝光,产生打点信息,用户的每一次曝光、点击、查看和回退都会被记录下来。
看一下下面这张图,四次曝光的用户行为会产生四个内容曝光。如果用户点击第二篇内容,就产生第二篇内容的点击信息,点赞会产生点赞的打点信息。如果用户回退,就会显示用户在第二篇内容停留了20秒。实时归因会生成两份数据,第一份是点击模型的数据标签,下图中第一篇和第三篇内容没有点击,第二篇和第四篇内容有点击,这种数据对训练点击模型很重要。点赞模型也和上面几乎完全一样。

CES评分参与在算法中的什么阶段?
整个线上推荐的流程,只有在模型排序阶段给每个内容打分。内容在内容展示给用户之前,平台会选择分数高的内容通过各种策略进行多样性调整。
Score=pCTR*(plike*Like权重+pCmt*Cmt权重……)
CES如果参与其中,只是非常小的一部分把爆文内容爬了下来并做成CES形式的Excel表格分析,无论是表现各项数据关系的散点图还是曲线图,都没有一个有规律的图表,所以CES最多用在冷启动,聊胜于无。

综合以上,最后们还是用比较通俗的话去解释这篇内容想要论证或者体现的观点:
算法是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。不应该从使用者界面或者从已经成熟的账号中去梳理总结方法论,因为梳理总结的只是一系列机制中特别琐碎的小点,更不应该形成所谓通用的方法论。
不要做公司想要推广的内容/你喜欢的内容,而是要做算法觉得用户想看的内容,毕竟算法需要解决的问题就是——把平台生产的内容,转发给用户,让用户看到用户想看的。
对于平台,算法的出发点是如何把社区的用户数据和电商版块用户的行为数据链接起来。现在平台的盈利模式主要集中在达人种草,其实是算法团队不够优秀,没有办法提供足够优秀的中台支撑。无论是电商或者广告,其实大家都怨声哀道。
前台主要面向客户以及终端销售者,实现营销推广和交易转换。中台主要面向运营人员,完成运营支撑。
