今日头条推荐系统：P1 概述

2019年2月19日 · 阅读需 4 分钟

我们优化的目标是什么？用户满意度

我们正在寻找以下最佳 函数 以最大化 用户满意度 。

用户满意度 = 函数(内容, 用户画像, 上下文)

寻找上述最佳 函数 是一个典型的监督机器学习问题。为了实现系统，我们有以下算法：

一个世界级的推荐系统应该具备 灵活性，能够进行 A/B 测试并结合上述多种算法。现在结合逻辑回归和深度神经网络的做法越来越流行。Facebook 多年前就同时使用了逻辑回归和 GBDT。

内容特征与用户兴趣之间的相关性。 显性相关性包括关键词、类别、来源、类型。隐性相关性可以从用户向量或模型如因子分解机中的物品向量中提取。
环境特征，如地理位置、时间。 可以作为偏差或在其基础上建立相关性。
热门趋势。 有全球热门趋势、类别热门趋势、主题热门趋势和关键词热门趋势。热门趋势在我们对用户信息较少时非常有助于解决冷启动问题。
协同特征，有助于避免推荐内容越来越集中。 协同过滤不是单独分析每个用户的历史，而是根据用户的点击、兴趣、主题、关键词或隐性向量找到用户之间的相似性。通过找到相似用户，可以扩展推荐内容的多样性。

它们的实现步骤如下：

考虑到所有内容的超大规模，无法用模型预测所有事情。因此，我们需要召回策略来关注数据的代表性子集。性能在这里至关重要，超时为 50 毫秒。

召回策略

在所有召回策略中，我们采用 反向索引<Key, List<Article>>。

Key 可以是主题、实体、来源等。

References:

Let's stay in touch and Follow me for more thoughts and updates