1. 推荐系统概述

推荐系统就是需要去拟合一个用户对内容满意度的函数，这个函数需要输入三个维度的变量：

内容维度。头条中有图片，视频，新闻等信息，每种内容都有自己的特征。
用户特征。包括用户的兴趣标签，职业，年龄，性别等，还有很多表示用户喜好的隐式特征
环境特征。用户随时随地移动，在工作场合，通勤，旅游三个不同的环境中，喜好会发生偏移。

结合以上三个维度，模型会给出一个预估，在这个场景下用户对这个内容是否感兴趣。

2. 评价指标

推荐模型中，点击率，阅读时间，点赞（离散指标），评论等都是可以量化的目标，能够用模型进行预测。但当用户过多时，不能完全由指标进行评估，引入数据指标以外的要素也很重要。

3. 典型推荐算法

4. 典型的推荐特征

看完典型推荐模型，我们再看看典型的推荐模型中用到的特征，主要有4类特征。

相关性特征。就是评估内容的属性和用户是否匹配。显性的匹配包括关键词匹配、来源匹配、分类匹配、主题匹配等。向FM模型中也有一些隐式匹配，从用户向量和物品向量的距离得出。
环境特征。地理位置和时间
热度特征。包括全局热度，分类热度，主题热度，以及关键词热度。其中内容热度信息在推荐系统冷启动问题非常有效。
协同特征。可以在部分程度上帮助解决算法越推越窄的问题。协同过滤并非考虑用户已有的历史，而是通过用户行为分析不同用户间的相似性，比如点击相似性，兴趣分类相似等，从而扩展模型的探索能力

5. 大规模模型训练

头条大部分推荐产品采用实时训练。实时训练省资源并且反馈快。用户的行为信息可以被模型快速捕捉并反馈给下一刷的推荐结果。头条线上目前基于storm集群实时处理样本数据，包括点击收藏等动作。

整体的训练过程是线上服务器记录实时特征，导入到kafka文件队列中，然后进一步导入storm集群消费kafka数据，客户端回传推荐的label构造训练样本，随后根据最新样本进行在线训练更新模型参数，最终线上模型得到更新。这个过程主要的延迟在用户的动作反馈延时，因为文章推荐后用户不一定马上看，不考虑这部分时间，整个系统几乎是实时的。

头条的内容量非常大，推荐系统不可能所有的内容全部由模型预测，所以需要设计一些召回策略，每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致，一般超时不能超过50毫秒。

召回策略有很多，头条采用的是倒排的思想。离线维护一个倒排，根据用户标签或topic，来源等，拉去对应的文章并对其排序。线上召回可以迅速的从倒排中根据用户兴趣标签对内容做截断，高效的从很大的内容库中筛选比较靠谱的一小部分内容。

6. 内容分析

内容分析包括文本分析、图片分析和视频分析。这里主要将文本分析，文本分析在推荐系统中很重要的作用是用户兴趣建模。没有内容和文本标签，无法得知用户兴趣标签。举个例子，只有知道文档标签是互联网，用户看了互联网标签的文章，才能知道用户有互联网标签。所以内容分析和用户标签是推荐系统的基石。

下面是今日头条一个实际文本的例子，可以看到这篇文章有分类，关键词，topic等文本特征。

今日头条推荐系统文本的特征主要有以下几类：

语义标签类特征：显示为文章打上语义标签。这部分标签是人定义的特征，每个标签有明确的意义，标签体系是预定义的。
topic特征和关键词特征：隐式语义特征。其中topic特征描述词概率分布，无明确意义；关键词特征会基于一些统一的特征描述，无明确集合。

下面是头条语义标签的特征和使用场景。他们之间层级不同，要求不同。

分层是为了每个层级粒度不同，要求也有区别。

分类：要求覆盖全，希望每篇文章都有分类，精确性要求不高。
概念：表达比较精确，但又属于抽象概念的语义，也不要求覆盖全。
实体：不要求覆盖全，只要覆盖每个领域热门的人物、机构、作品即可。

头条线上分类采用层次分类。最上面是root，下面第一层的分类像科技，体育，娱乐这样的大类，下面细分足球，篮球，网球等，足球再细分国际足球，中国足球，中国足球又分为中甲，中超，国家队等。相比单独的分类器，利用层次文本分类算法能更好地解决数据倾斜问题。

每个元分类器可以异构，像有些分类器SVM效果很好，有些要结合CNN，有些要结合RNN

7. 用户标签

用户分析和用户标签是推荐系统的两大基石。内容分析涉及到的机器学习多一些，相比而言，用户标签工程挑战更大。

用户标签包括：

用户感兴趣的类别和主题、关键词、来源。基于兴趣的用户聚类和各种垂直兴趣特征
性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测，通过机型、阅读时间分布预估。常驻地来自用户授权访问位置信息，在位置信息的基础上通过传统聚类方法拿到常驻点，常驻点结合其他信息，可以推断用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。