推荐系统实践

推荐系统主要是用来解决信息过载的问题。疏通生产者和消费者之间的沟通障碍。一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对它感兴趣的用户面前，从而实现双赢。

搜索引擎满足了用户有明确目的时主动查找的需求，而推荐系统满足了用户在没有明确目的时帮助用户发现感兴趣内容的需求。推荐与搜索互补。同时推荐系统能更好的挖掘和处理长尾部分。

利用用户行为数据

我们需要通过算法自动发掘用户行为数据，从用户的行为中推测出用户的兴趣，从而给用户推荐满足他们的兴趣的产品或内容。

协同过滤算法
基于用户行为分析的推荐算法是个性化推荐系统的重要算法，即协同过滤算法。

用户行为数据最简单的存在形式就是日志。

用户行为在个性化推荐系统中一般分为两种——显性反馈行为、隐性反馈行为。

显性反馈如评分、点赞、踩等行为，隐性反馈如页面浏览行为。

用户行为按照反馈方向也可以分为——正反馈、负反馈。

一个简单的用户行为统一表示sample

user id	产生行为的用户的唯一标识
item id	产生行为的对象的唯一标识
behavior type	行为的种类（如购买或者浏览）
context	产生行为的上下文，包括时间、地点等等
behavior weight	行为的权重（如观看视频的行为，权重可以使观看时长；如果是打分行为，权重可以是分数)）
behavior content	行为的内容（如果是评论行为，即是评论的文本；如果是打标签行为，即是标签）

用户活跃度和物品流行度的分布。
互联网上的很多数据分布满足Power Law 分布，互联网领域成为长尾分布 $f(x) = \alpha x^k$
用户行为数据也蕴含这种规律。令 $f_u(k)$ 为对 $k$ 个物品产生过行为的用户数，令 $f_i(k)$ 为被 $k$ 个用户产生过行为的物品数。那么 $f_u(k)$ 和 $f_i(k)$ 都满足长尾分布。 $f_i(k)=\alpha_ik^{\beta_i}\\f_u(k) =\alpha_uk^{\beta_u}$
用户活跃度和物品流行度的关系。
新用户倾向于浏览热门的物品，老用户会开始逐渐浏览冷门的物品。用户月活跃，越倾向于浏览冷门的物品。
仅仅基于用户行为数据设计的推荐算法，一般称为协同过滤算法。比如"基于邻域的方法"、“隐语义模型”、“基于图的随机游走算法”。最著名应用广泛的是"基于邻域的方法"

基于邻域的方法主要包括
1. 基于用户的协同过滤算法
2. 基于物品的协同过滤算法
实验设计和算法评测
实验设计略，即常见的分割数据集训练集，多次试验取平均值。
评测指标
对用户 $u$ 推荐 $N$ 个物品(记为 $R(u)$ )，令用户 $u$ 在测试集上喜欢的物品集合为 $T(u)$ ，然后可以通过准确率/召回率评测推荐算法的精度: $\displaystyle Recall = \frac{\sum_u|R(u)\cap T(u)|}{\sum_u|T(u)|} \\ \displaystyle Precision = \frac{\sum_u|R(u)\cap T(u)|}{\sum_u|R(u)|}$

召回率描述有多少比例的用户-物品评分记录包含在最终的推荐列表里
准确率描述最终的推荐列表中有多少比例是发生过的用户-物品评分记录

除了评测算法的精度，还需要关注算法的覆盖率。覆盖率反映了推荐算法发掘长尾的能力，覆盖率越高，说明推荐算法越能够将中长尾的物品推荐给用户。最简单的覆盖率定义: $\displaystyle Coverage = \frac{|U_{u\in U}R(u)|}{|I|}$
最后，我们还需要评测推荐的新颖度，这里用推荐列表中物品的平均流行度度量推荐结果的新颖度。

计算平均流行度时对每个物品的流行度取对数，因为物品的流行度满足长尾分布，对数变换后，流行度的平均值更稳定。
基于邻域的算法
1. 基于用户的协同过滤算法。
  1. 基础算法。主要包括2个步骤
    1. 找到和目标用户兴趣相似的用户集合
    2. 找到这个集合中的用户喜欢的，且目标用户没有听过的物品推荐给目标用户。
  步骤1的关键就是计算两个用户的兴趣相似度。协同过滤算法主要利用行为的相似度计算兴趣的相似度。给定用户u和用户v，令 $N(u)$ 表示用户u有过正反馈的物品集合，令 $N(v)$ 为用户v有过正反馈的物品集合。那么可以通过如下的Jaccard公式简单的计算u和v的兴趣相似度 $\displaystyle w_{uv} = \frac{|N(u)\cap N(v)|}{|N(u)\cup N(v)|}$ , 或者使用余弦相似度计算 $\displaystyle w_{uv} = \frac{|N(u)\cap N(v)|}{\sqrt{|N(u)|| N(v)|}}$
  事实上，很多用户相互之间没有对同样的物品产生过行为，即 $|N(u)\cap N(v)| = 0$ 。为了优化算法，我们可以反过来，优先计算 $|N(u)\cap N(v)| \ne 0$ 的用户对(u,v)。为此，建立物品到用户的倒查表，对于每个物品都保存对该物品产生过行为的用户列表。令稀疏矩阵 $C[u][v] = |N(u)\cap N(v)|$ ，假设用户u,v同时属于某个倒查表中K的物品对应的用户列表，就有 $C[u][v] = K$
  得到用户之间的兴趣相似度后，UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。度量UserCF算法中用户u对物品i的感兴趣程度公式： $\displaystyle p(u,i) = \sum_{v\in S(u,K)\cap N(i)}w_{uv}r_{vi}$ , $S(u,K)$ 包含和用户u兴趣最接近的K个用户， $N(i)$ 是对物品 $i$ 有过行为的用户集合， $w_{uv}$ 是用户u、v的兴趣相似度， $r_{vi}$ 代表用户v对物品i的兴趣。
  
  2. 用户相似度计算的改进。余弦相似度过于简单和粗糙。考虑跟进用户行为计算用户的兴趣相似度 $\displaystyle w_{uv} = \frac{\sum_{i\in N(u)\cap N(v)} \frac{1}{log1 + |N(i)|}}{\sqrt{|N(u)||N(v)|}}$ , 通过 $\displaystyle \frac{1}{log 1 + |N(i)|}$ 惩罚用户u和用户v共同兴趣列表中热门物品对他们相似度的影响。
  3. 实际在线系统使用UserCF的情况
  相比于基于物品的协同过滤算法（ItemCF），UserCF在目前的实际应用中使用并不多。
2. 基于物品的协同过滤算法
  基于物品的协同过滤算法是目前业界应用最多的算法。
  UserCF算法随着用户数目增加，计算用户兴趣相似度矩阵越来越难，运算时间复杂度和空间复杂度的增长和用户数的增长近似平方关系。同时，基于用户的协同过滤很难对推荐结果作出解释。
  1. 基础算法
    ItemCF并不利用物品的内容属性计算物品之间的相似度，主要通过分析用户的行为记录计算物品之间的相似度。该算法认为，物品A和物品B具有很大相似度，是因为喜欢物品A的用户大都也喜欢物品B。
    
    与UserCF不同，ItemCF可以利用用户的历史行为给推荐结果提供推荐解释。
    
    基于物品的协同过滤算法主要分为两步
    1. 计算物品之间的相似度（基于用户的行为计算物品相似度，而不是基于物品的属性计算相似度）
    2. 根据物品的相似度和用户的历史行为给用户生成推荐列表。
    物品的相似度公式： $\displaystyle w_{ij} = \frac{|N(i)\cap N(j)|}{|N(i)}$ 。
    其中 $N(i)$ 是喜欢物品i的用户数，分子是同事喜欢物品i和物品j的用户数。
    
    该公式可以理解为喜欢物品 $i$ 的用户中有多少比列的用户也喜欢物品 $j$ 。
    该公式存在一个问题，如果物品 $j$ 很热门，那么 $W_{ij}$ 就会很大，接近1.即任何物品都会和热门的物品有很大的相似度，不利于长尾信息的挖掘。为了避免推荐热门物品，可以使用修正公式 $\displaystyle w_{ij} = \frac{|N(i)\cap N(j)|}{\sqrt{|N(i)||N(j)|}}$
    这个公式惩罚了物品 $j$ 的权重，因此减轻了热门物品会和很多物品相似的可能性。
    
    在协同过滤中两个物品产生相似度是因为他们共同被许多用户喜欢，也就是说每个用户都可以通过他们的历史兴趣列表给物品贡献相似度
    
    这里蕴含一个假设，就是每个用户的兴趣都局限在某几个方面，因此如果两个物品属于一个用户的兴趣列表，那么这两个物品可能就属于有限的几个领域，而如果两个物品属于很多用户的兴趣列表，那么它们就可能属于同一个领域，因而有很大的相似度。
    
    同理，ItemCF 也会建立用户-物品倒排表（即对每个用户建立一个包含他喜欢的物品的列表）
    
    在得到物品之间的相似度后，ItemCF通过后面的公式计算用户u对一个物品j的兴趣 $\displaystyle p_{uj}=\sum_{i\in N(u)\cap S(j,K)}w_{ji}r_{ui}$ 。
    $N(u)$ 是用户喜欢的物品的集合， $S(i,K)$ 是和物品 $i$ 最相似的 $K$ 个物品的集合， $w_{ji}$ 是物品 $j$ 和物品 $i$ 的相似度， $r_{ui}$ 是用户 $u$ 对物品 $i$ 的兴趣（对于隐反馈数据及，如果用户u对物品i有过行为，可令 $r_{ui} = 1$ ）。
    该公式的含义是，和用户历史上感兴趣的物品越相似的物品，越有可能在用户的推荐列表中获得比较高的排名
  2. 用户活跃度对物品相似度的影响
    IUF（Inverse User Frequence），即用户活跃度对数的倒数的参数，即认为活跃用户对物品的相似度的贡献应该小于不活跃的用户，使用IUF参数来修正物品相似度的计算公式。 $\displaystyle w_{ij}=\frac{\sum_{u\in N(i)\cap N(j)}\frac{1}{log1+|N(u)|}}{\sqrt{|N(i)||N(j)|}}$
  该公式只是对活跃用户做了一种软性的惩罚。对于很多过于活跃的用户，为了避免相似度矩阵过于稠密，实际计算中一般直接忽略此类用户的兴趣列表，不纳入到相似度计算的数据集中。
  1. 物品的归一化
    将ItemCF的相似度矩阵按最大值归一化，可以提高推荐的准确率,覆盖率和多样性。归一化之后的相似度矩阵 $\displaystyle w'_{ij} = \frac{w_{ij}}{\max_{j}w_{ij}}$
    对于两个不同的类，什么样的类其类内物品之间的相似度高，什么样的类其类内物品相似度低？
  一般来说，热门的类其类内物品相似度一般比较大，如果不归一化，会推荐比较热门的类里面的物品，而这些物品也是比较热门的。
3. UserCF 与 ItemCF比较
  UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品，
  ItemCF给用户推荐那些和他之前喜欢的物品类似的物品。
  UserCF推荐结果着重于反映和用户兴趣相似的小群体的热点，
  ItemCF推荐结果着重于维护用户的历史兴趣。
  UserCF更社会化，反应用户所在的小型兴趣群体中物品的热门程度，
  ItemCF更加个性化，反映用户自己的兴趣传承。
  
  两个不同领域的最热门物品之间往往具有比较高的相似度，比如新闻联播和黄金八点档。此时，只能依靠引入物品的内容数据解决这个问题，比如对不同领域的物品降权。这些不是协同过滤讨论的范畴了。
隐语义模型
1. 基础算法
  核心是通过隐含特征(latent factor)联系用户兴趣和物品。
  如两个用户A,B在豆瓣的读书列表，A涉猎侦探小说，科普读物以及计算机技术，B比较关注数学和机器学习。
  1. UserCF，首先找到和他们看了同样书的其他用户（兴趣相似的用户），然后推荐那些用户喜欢的其他书
  2. ItemCF，给他们推荐和他们已经看的书相似的书。
  3. 对书和物品的兴趣进行分类，对于某个用户，首先得到他的兴趣分类，然后从中挑选他可能喜欢的物品。
  方法3需要解决3个问题。
  1. 如何给物品分类
  2. 如何确定用户对哪些分类的物品感兴趣，以及感兴趣的程度
  3. 对于一个给定的类，选择哪些属于这个类的物品推荐给用户，以及如何确定这些物品在一个类中的权重。
    隐含语义分析技术从诞生到今天产生了很多著名的模型和方法，譬如pLSA、LDA、隐含类别模型(latent class model)、隐含主题模型(latent topic model)、矩阵分解。本章以LFM为例介绍隐含语义分析技术在推荐中的应用。LFM通过如下公司计算用户u对物品i的兴趣 $\displaystyle Preference(u,i) = r_{ui} = p_u^Tq_i=\sum_{f=1}^Fp_{u,k}q_{i,k}$ 。
    其中 $p_{u,k}$ 和 $q_{i,k}$ 是模型的参数， $p_{u,k}$ 度量用户u的兴趣和第k个隐类的关系，而 $q_{i,k}$ 度量第k个隐类和物品i之间的关系。
  要计算这两个参数，需要一个训练集。对于每个用户u，训练集里都包含了用户u喜欢的物品和不感兴趣的物品，通过学习这个数据集得到上面的模型参数。
  
  针对隐性反馈数据集，即只有正样本(用户喜欢了什么物品)没有负样本(用户不喜欢什么物品)，应用LFM解决TopN推荐的第一个关键问题就是如何给每个用户生成负样本。
  我们发现对负样本采样时需要遵循以下原则：
  1. 对于每个用户，要保证正负样本的均衡（数目相似）。
  2. 对于每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。
  一般认为，很热门而用户却没有行为更加代表用户对这个物品不感兴趣。
  因为对于冷门物品，用户可能压根儿不知道这个物品，谈不上是否感兴趣。经过采样得到用户-物品集 $K={(u,i)}$ ，正样本 $r_{ui} = 1$ ，负样本 $r_{ui} = 0$ 。然后需要诱惑如下的损失函数来找到最合适的参数p和q。 $\displaystyle C =\sum_{(u,i) \in K}(r_{ui} - \hat r_{ui})^2 = \sum_{(u,i)\in K}(r_{ui} - \sum_{f=1}^Fp_{u,k}q_{i,k})^2 + \lambda ||p_u||^2 + \lambda ||q_i||^2$ 。
  
  该公式右2项是用来防止过拟合的正则化项， $\lambda$ 可以通过实验获得。通过随机梯度下降算法最小化损失函数。 $\displaystyle \begin{cases} \frac{\partial C}{\partial p_{uk}} = -2q_{ik} + 2\lambda p_{uk} \\ \frac{\partial C}{\partial q_{ik}} = -2p_{uk} + 2\lambda q_{ik} \end{cases}$ ，根据随机梯度下降法，需要将参数沿着最速下降方向推进，得到 $\displaystyle \begin{cases}p_{uk} = p_{uk} + \alpha(q_{ik}-\lambda p_{uk})\\ \displaystyle q_{ik}=q_{ik} + \alpha(p_{uk}-\lambda q_{ik})\end{cases}$ , 其中 $\alpha$ 是学习率，其选取需要通过反复实验比较获得。
  通过实验对比了LFM在TopN推荐中的性能。在LFM中，重要的参数有4个
  1. 隐特征的个数F
  2. 学习速率 $\alpha$
  3. 正则化参数 $\lambda$
  4. 负样本/正样本比例 ratio
  通过实验发现，ratio参数对LFM的性能影响最大。当数据集良好时，LFM在所有指标上都优于UserCF和ItemCF。但是当数据集稀疏时，LFM性能明显下降，甚至不如UserCF和ItemCF。
2. 基于LFM的雅虎首页个性化设计方案。
  雅虎的研究员以CTR作为优化目标，利用LFM来预测用户是否会单击一个链接。因此将用户历史上对首页上链接的行为记录作为训练集。如果用户u单击过链接i，那么 $(u,i)$ 定义为正样本，取值为1，如果链接i展示给过用户，但是用户u从来没有点击过，那么定义为负样本，取值为-1。
  
  LFM模型在实际使用中有一个困难，很难实现实时的推荐。经典的LFM模型每次训练时都需要扫描所有的用户行为记录，这样才能计算出用户隐类向量( $p_u$ )和物品隐类向量( $q_i$ )。而且LFM训练需要在用户行为记录上反复迭代才能获得比较好的性能。LFM每次训练都非常耗时，一般实际应用中只能每天训练一次，并计算出所有用户的推荐结果。
  
  从而LFM模型不能因为用户行为的变化实时地调整推荐结果来满足用户最近的行为。
  
  由于新闻的实时，雅虎的研究人员提出了优化方案。
  1. 利用新闻链接的内容属性（关键词，类别等）得到链接 $i$ 的内容特征向量 $y_i$ 。
  2. 实时收集用户对链接的行为，并且用这些数据得到链接 $i$ 的隐特征向量 $q_i$ 。
  利用公式推测用户u是否单击链接i： $\displaystyle r_{ui} = x_u^T\cdot y_i + p_u^T \cdot q_i$ 。其中， $y_i$ 是根据物品的内容属性直接生成的， $x_{uk}$ 是用户u对内容特征k的兴趣程度，用户向量 $x_u$ 可以根据历史行为记录获得，而且每天只需要计算一次。而且 $p_u,q_i$ 是根据实时拿到的用户最近几小时的行为训练LFM得到的。因此对于一个新加入的物品i，可以通过 $x_u^T\cdot y_i$ 估计用户 $u$ 对物品 $i$ 的兴趣。然后经过几小时后，可以通过 $p_u^T\cdot q_i$ 得到更加准确的预测值。
3. LFM与基于邻域的方法比较
  1. 理论基础。LFM是一种学习方法，通过优化一个设定的指标来建立最优的模型。基于邻域的方法更多的是一种基于统计的方法，并没有学习过程。
  2. 离线计算的空间复杂度。基于邻域的方法需要维护一张离线表，计算过程中对内存要求很高。假设有M个用户N个物品。基于邻域的推荐空间复杂度是O(MM)或者O(NN)。而LFM建模过程中，如果是F个隐类，空间复杂度是O(F*(M+N))。在M、N很大时，LFM可以很好的节省离线计算内存。
  3. 离线计算的时间复杂度。假设有M个用户、N个物品、K条用户对物品的行为记录。UserCF复杂度 $O(N*(K/N)^2)$ ，ItemCF复杂度是 $O(M*(K/M)^2)$ 。对于LFM，如果是F个隐类，迭代S次，复杂度是 $O(K*F*S)$ 。通常要高于基于邻域的推荐方法。
  4. 在线实时推荐。 UserCF和ItemCF在线服务算法需要将相关表缓存在内存中，然后可以在线进行实时预测。LFM在给用户生成推荐列表时，需要计算用户对所有物品的兴趣权重再重新排名，返回权重最大的N个物品。因此在没有额外设计的情况下，LFM不能进行在线实时推荐。即用户有了新的行为后，他的推荐列表不会发生变化。
  5. 推荐解释。ItemCF算法很好的支持推荐解释。LFM比较困难。
基于图的模型
用户的行为很容易用二分图表示，因而图算法很适合描述推荐系统。
1. 用户行为数据的二分图表示。
  用户行为数据可以用一系列二元组组成。每个二元组 $(u,i)$ 表示用户u对物品i产生过的行为。这种数据集很容易用一个二分图表示。
2. 基于图的推荐算法
  将个性化推荐算法放到二分图模型上，那么给用户u推荐物品的任务就可转化为度量用户顶点 $v_u$ 和与 $v_u$ 没有边直接相连的物品节点在图上的相关性。相关性越高的物品在推荐列表中的权重就越高。
  度量顶点之间的相关性方法很多，一般取决于下述因素：
  1. 两个顶点之间的路径数
  2. 两个顶点之间的路径长度
  3. 两个顶点之间的路径经过的顶点。
  相关性高的一对顶点一般具有如下特征：
  1. 两个顶点之间有很多路径相连
  2. 连接两个顶点之间的路径长度都比较短
  3. 连接两个顶点之间的路径不会经过出度比较大的顶点
  基于随机游走的PersoanalRank算法介绍。
  PersonalRank算法可以通过随机游走进行比较好的理论解释，但是时间复杂度上有明显的缺陷。因为对每个用户进行推荐都需要在整个用户物品二分图上进行迭代，直接整个图上的每个顶点的PR值收敛。通过减少迭代次数的优化会损耗最终的精度。更好的方案是从矩阵论出发，重新设计算法。
  将PersonalRank转化为矩阵形式。令M为用户物品二分图的转移概率矩阵。
  即 $\displaystyle M(v,v') = \frac{1}{|out(v)|}$ ，
  那么迭代公式可以转化为 $\displaystyle r = (1-\alpha)r_o + \alpha M^Tr$ ，即 $\displaystyle r = (1-\alpha)(1-\alpha M^T)^{-1}r_0$ 。
  因此只需要计算一次 $(1-\alpha M^T)^{-1}$ 。

利用用户标签数据

目前流行的图鉴系统基本通过3种方式联系用户兴趣和物品。

标签是一种无层次化结构的、用来描述信息的关键词，可以用来描述物品的语义。UGC的标签系统是一种表示用户兴趣和物品语义的重要方式。

标签系统中的推荐问题

用户为什么进行标准
用户如何打标签
用户打什么样的标签

基于标签的推荐系统

用户标签行为的最简数据集一般由一个三元组的集合表示，其中记录 $(u,i,b)$ 表示用户u给物品i打上了标签b。这里不考虑打标签的时间、用户属性数据、物品属性数据。

利用上下文信息

时间上下文信息

时间效应简介
时间信息对用户兴趣的影响表现在以下方面。
1. 用户兴趣是变化的
2. 物品也是有生命周期的
3. 季节、节日效应
系统时间特性的分析
在给定时间信息后，推荐系统从一个静态系统变成了一个时变的系统，用户行为数据也变成了时间序列。
通过研究时变的用户行为数据集来研究不同类型网站的时间特性。包含时间信息的用户行为数据集由一系列三元组构成，其中每个三元组 $(u,i,t)$ 代表了用户 $u$ 在时刻 $t$ 对物品 $i$ 产生过行为。
给定数据集后，可以通过统计如下信息研究系统的时间特性。
1. 数据集每天独立用户数的增长情况
2. 系统的物品变化情况
3. 用户访问情况
物品的生存周期和系统的时效性。
我们可以用如下指标衡量物品的生命周期。
1. 物品平均在线天数
2. 相隔T天系统物品流行度向量的平均相似度
推荐系统的实时性
用户兴趣是不断变化的，其变化体现在用户不断增加的新行为中。一个实时的推荐系统需要能够实时响应用户新的行为，让其推荐列表不断变化，从而满足用户不断变化的兴趣。隐性反馈未必能导致推荐列表的变化，但是所有的显性反馈行为都会导致推荐列表的变化。
实现推荐系统的实时性除了对用户行为的存取有实时性要求，还要求推荐算法本身具有实时性，推荐算法本身的实时性意味着：
1. 实时推荐系统不能每天都给所有用户离线计算推荐结果，然后在线展示昨天计算出来的结果。即要求每个用户访问推荐系统时，根据用户这个时间点前的行为实时计算推荐列表。
2. 推荐算法需要平衡考虑用户的近期行为和长期行为。既要让推荐列表反应出用户近期行为所体现的兴趣变化，又不能让推荐列表完全受用户近期行为的影响，即保证推荐列表对用户兴趣预测的延续性。
推荐算法的时间多样性
推荐系统常常遇到一个问题，就是每天给用户的推荐结果都差不多，没有什么变化。推荐系统每天推荐结果的变化程度被定义为推荐系统的时间多样性。时间多样性高的推荐系统中用户会经常看到不同的推荐结果。

基于此，社交UGC领域相对电商领域而言，推荐系统会有更大的可能性和话语权，发挥更直接的作用。因为社交UGC日新增内容远远大于电商领域的日新增商品。

提高推荐结果的时间多样性需要分两步解决：
1. 保证推荐系统能够在用户有了新的行为后及时调整推荐结果，使得推荐结果满足用户最近的兴趣
2. 保证推荐系统在用户没有新的行为时也能够经常变化一下结果，具有一定的时间多样性。
  如果没有用户行为，如何保证给用户的推荐结果具有一定的时间多样性。
  1. 在生成推荐结果时加入一定的随机性。比如从推荐列表前20个结果中随机挑选10个展示，或者按照推荐物品的权重采样10个结果展示给用户。
  2. 记录用户每天看到的推荐结果，然后在每天给用户进行推荐时，对他前几天看到过很多次的推荐结果进行适当性降权
  3. 每天给用户使用不同的推荐算法（不建议这么做）。
时间上下文推荐算法
建模时间信息有很多方法。
1. 最近最热门
  在没有时间信息的数据集里，可以给用户推荐历史上最热门的物品。在获得用户行为的时间信息后，最简单的非个性化推荐算法就是给用户推荐最近最热门的物品。给定时间T，物品i最近的流行度 $n_i(T)$ 可以定义为 $\displaystyle n_i(T) = \sum_{(u,i,t)\in Train, t<T} \frac{1}{1+\alpha (T - t)}$ ，其中 $\alpha$ 是时间衰减参数。
2. 时间上下文相关的ItemCF算法。
  ItemCF由两个核心部分组成
  1. 利用用户行为离线计算物品之间的相似度
  2. 根据用户的历史行为和物品相似度矩阵，给用户做在线个性化推荐
  时间信息在上面两个核心部分中都有重要的应用，这体现在两种时间效应上。
  1. 物品相似度。用户在相隔很短的时间内喜欢的物品具有更高的相似度。
  2. 在线推荐。用户近期行为相比用户很久之前的行为，更能体现用户现在的兴趣。因此预测用户现在的兴趣时，应该加重用户近期行为的权重，优先给用户推荐那些和他近期喜欢的物品相似的物品。
3. 时间上下文相关的UserCF算法
  和ItemCF一样，UserCF算法同样可以利用时间信息提高预测的准确率。我们可以在以下两方面利用时间信息改进UserCF算法
  1. 用户兴趣相似度。考虑到不同用户喜欢相似物品的时间间隔，添加时间间隔惩罚，调整兴趣相似度的权重。
  2. 相似兴趣用户的最近行为。优先考虑给用户推荐和他兴趣相似的用户最近喜欢的物品。
时间段图模型
即基于图的模型在时变个性化推荐系统的应用。
离线实验

地理上下文信息

基于空间地理位置的推荐。

利用社交网络数据

社会化推荐主要有以下优点

好友推荐可以增加推荐的信任度
社交网络可以解决冷启动问题

当然，社会化推荐最主要的缺点是很多时候并不一定能提高推荐算法的离线精度(准确率和召回率)。

基于邻域的社会化推荐算法

给定一个社交网络和一份用户行为数据集。其中社交网络定义了用户之间的好友关系，用户行为数据集定义了不同用户的历史行为和兴趣数据。

最简单的算法就是给用户推荐好友喜欢的物品集合。即用户u对物品i的兴趣 $p_{ui}$ 可以通过公式计算 $\displaystyle p_{ui} = \sum_{v \in out(u)}r_{vi}$ 。其中 $out(u)$ 使用户u的好友集合。 $r_{vi}$ 表示用户u好友v是否喜欢物品i。

考虑到不同的好友和用户u的熟悉程度和兴趣相似度也不同，因此推荐算法中考虑好友和用户熟悉程度以及兴趣相似度： $\displaystyle p_{ui} = \sum_{v\in out(u)}w_{uv}r_{vi}$ 。这里 $w_{uv}$ 由两部分相似度构成，一部分是用户之间的熟悉程度，另一部分是用户之间的兴趣相似度。

熟悉度可以用用户之间的共同好友比例来度量。也就是说如果用户u和用户v很熟悉，那么一般来说，他们之间应该有很多共同好友 $\displaystyle familiarity(u,v) = \frac{|out(u)\cap out(v)|}{|out(u)\cup out(v)|}$ 。
兴趣相似度可以通过和UserCF类似的方法度量，如果两个用户喜欢的物品集合重合度很高，两个用户的兴趣相似度很高 $\displaystyle similiarity(u,v) = \frac{|N(u)\cap N(v)|}{|N(u)\cup N(v)|}$ 。

这个推荐设计的假设，在社交实践中是非常容易翻车的。社交网络上共同好友很多的人，未必互相认识，或者干脆互相讨厌。尤其是在熟人社交网络里，这种翻车的现象尤其严重。相反，在理性(非约炮性质)陌生人社区或者基于内容为主的社交网络，这个推荐设计的假设效果往往非常好。

基于图的社会化推荐算法

在社交网络中存在3种关系，一种是用户对物品的兴趣关系，一种是用户之间的社交网络关系，一种是多个用户属于同一个社群。将3种关系建立到图模型中，实现对用户的个性化推荐。

信息流推荐

信息流推荐是社会化推荐领域的重磅话题。信息流的个性化推荐需要解决的问题就是如何进一步帮助用户从信息墙上挑选有用的信息。

以Facebook的EdgeRank方案为例子分析。该算法综合考虑了信息流中每个会话的时间、长度与用户兴趣的相似度。Facebook将其他用户对当前用户信息流中的会话产生过行为的行为成为edge，而一条会话的权重定义为 $\displaystyle \sum_{edges \space e}u_ew_ed_e$

$u_e$ 指产生行为的用户和当前用户的相似度，这里的相似度只要是在社交网络中的熟悉度。
$w_e$ 指行为的权重，这里的行为包括发布日志、上传相册、评论、like、打标签，不同的行为有不同的权重。
$d_e$ 指时间衰减参数，越早的行为对权重的影响越低。
不过EdgeRank算法的个性化因素仅仅是好友的熟悉度，没有考虑帖子的内容和用户兴趣的相似度。所以EdgeRank仅仅考虑了“我”周围用户的社会化兴趣，而没有重视“我”个人的个性化兴趣。

srd_id	dst_id	weight
特征ID	物品ID	权重

评分预测问题

前面讨论的都是TopN推荐问题。即给定用户，如何给他生成一个长度为N的推荐列表。

评分测试问题基本都通过离线实验进行研究。对于测试集中一堆用户和物品 $(u,i)$ ，用户u对物品i的评分是 $r_{ui}$ ,推荐算法预测的用户u对物品i的评分是 $\hat r_{ui}$ ，那么一般可以用均方根误差RMSE度量预测的精度
$\displaystyle RMSE = \frac{\sqrt{\sum_{(u,i)\in T}(r_{ui} - \hat r_{ui})^2}}{|Test|}$
评分预测的目的就是找到最好的模型最小化测试集的RMSE。

基于邻域的方法。
基于用户的邻域算法认为预测一个用户对一个物品的评分，需要参考和这个用户兴趣相似的用户对该物品的评分。
基于物品的邻域算法在预测用户u对物品i的评分时，会参考用户u对和物品i相似的其他物品的评分。
隐语义模型与矩阵分解模型
即如何通过降维的方法将评分矩阵补全。
用户的评分行为可以表示成一个评分矩阵R，其中 $R[u][i]$ 就是用户u对物品i的评分。但是用户不会对所有物品评分，所以这个矩阵里的很多元素都是空的，即缺失值元素。

评分预测某种意义上就是填空。
1. 传统SVD分解。
  寻找一种对矩阵扰动最小的补全方法。如果矩阵补全后的特征值和补全之前的特征值相差不大，就算扰动比较小。SVD分解是早期推荐系统研究常用的矩阵分解方法，但是很难在实践中应用。
  1. 该方法需要一个简单的方法补全稀疏评分矩阵。一般来说，推荐系统中的评分矩阵非常稀疏，95%以上的元素都是缺失的。而一旦补全，又变成一个稠密矩阵, 因而评分矩阵需要的存储空间非常大。这种空间要求实践中难以接受。
  2. SVD分解计算复杂度高，计算速度非常慢。1000维以上的矩阵应用SVD分解就已经非常慢了，实际系统中动辄千万用户和百万物品。
2. Simon Funk的SVD分解
  Simon Funk提出的矩阵分解方法即后来的Latent Factor Model(LFM)
  从矩阵分解的角度，如果我们将评分矩阵R分解为两个低维矩阵相乘 $\hat R = P^TQ$ 其中 $P\in R^{f\times m}$ 和 $Q\in R^{f\times n}$ 是两个降维后的矩阵。那么对于用户u对物品i的评分的预测值 $\hat R(u,i) = \hat r_{ui}$ 可以通过如下公式得到： $\hat r_{ui} = \sum_fp_{uf}q_{if}$ 其中 $p_{uf} = P(u,f), q_{if} = Q(i,f)$ 。那么SImon Funk的思想很简单：可以直接通过训练集中的观察值利用最小化RMSE学习P、Q矩阵。那么如果能找到合适的P、Q来最小化训练集的预测误差，应该也能最小化测试集的预测误差。因此Simon Funk定义损失函数为 $C(p,q) = \sum_{(u,i)\in Train}(r_{ui} - \hat r_{ui})^2= \sum_{(u,i)\in Train}(r_{ui} - \sum_{f=1}^Fp_{uf}q_{if})^2$ 直接优化上面的损失函数可能会导致学习的过拟合，因此还需要引入防止过拟合项目 $\lambda(||p_u||^2 + ||q_i||^2)$ ，其中 $\lambda$ 是正则化参数，从而有 $C(p,q) = \sum_{(u,i)\in Train}(r_{ui} - \sum_{f=1}^Fp_{uf}q_{if})^2 + \lambda(||p_u||^2 + ||q_i||^2)$ 使用随机梯度下降法来最小化损失函数。上面定义的损失函数有两组参数 $p_{uf}$ 和 $q_{if}$ ，求偏导有 $\begin{cases}\frac{\partial C}{\partial p_{uf}} = -2q_{ik} + 2\lambda p_{uk} \\ \frac{\partial C}{\partial q_{if}} = -2q_{uk} + 2\lambda p_{ik}\end{cases}$ 将参数沿着最速下降方向推进(学习率为 $\alpha$ ) $\begin{cases}p_{uf} = p_{uf} + \alpha (q_{ik} - \lambda p_{uk})\\ q_{if} = q_{if} + \alpha (p_{uk} - \lambda q_{ik})\end{cases}$
3. LFM的改进[BiasSVD]
  LFM预测公司通过隐类将用户和物品联系在了一起，但是实际上一个评分系统有些固有属性和用户无关，而用户也有些属性和物品无关，物品也有些属性与用户无关。因此Netflix Prize提出了一种修正LFM
  $\hat r_{ui} = \mu + b_u + b_i + p_u^T\cdot q_i$
  1. $\mu$ 。训练集中所有记录的评分为全局平均数。有些用户喜欢打高分，有些喜欢打低分。全局平均数可以表示网站本身对用户评分的影响。
  2. $b_u$ 。用户偏置项。表示用户的评分习惯中和物品没有关系的那种因素。比如有的用户苛刻，要求高，评分就偏低；反之，就评分高。
  3. $b_i$ 。物品偏置项。表示物品接受的评分中和用户没有关系的因素。比如有些物品本身质量高，因此评分就容易高；反之，就评分低。
加入时间信息
利用时间信息的方法也主要分成两种，一种是将时间信息应用到邻域模型；另一种是将时间信息应用到矩阵分解模型中。
模型融合
模型融合对提高评分预测的精度至关重要。
1. 模型级联融合。
2. 模型的加权融合。

推荐系统实践

推荐系统评测

利用用户行为数据

推荐系统冷启动问题

冷启动问题简介

利用用户注册信息

选择合适的物品启动用户的兴趣

利用物品的内容信息（ContentItemKNN）

发挥专家的作用

利用用户标签数据

标签系统中的推荐问题

基于标签的推荐系统

利用上下文信息

时间上下文信息

地理上下文信息

利用社交网络数据

基于邻域的社会化推荐算法

基于图的社会化推荐算法

信息流推荐

推荐系统实例

评分预测问题

推荐系统评测

利用用户行为数据

推荐系统冷启动问题

冷启动问题简介

利用用户注册信息

选择合适的物品启动用户的兴趣

利用物品的内容信息 （ContentItemKNN）

发挥专家的作用

利用用户标签数据

标签系统中的推荐问题

基于标签的推荐系统

利用上下文信息

时间上下文信息

地理上下文信息

利用社交网络数据

基于邻域的社会化推荐算法

基于图的社会化推荐算法

信息流推荐

推荐系统实例

评分预测问题

利用物品的内容信息（ContentItemKNN）