如何为 Twitter 设计趋势算法

原文：How to Design a Trending Algorithm for Twitter

译者：飞龙

协议：CC BY-NC-SA 4.0

自豪地采用谷歌翻译

从 Twitter 的起初，趋势话题已经成为这个流行产品的核心特征之一。从 Twitter 的趋势中，你可以很容易得知现在流行什么。难怪许多公司喜欢在系统设计面试中让候选人设计趋势算法。

我们在之前的文章 - 如何设计 Twitter（第二部分）中简要介绍了这个主题。由于这个问题如此受欢迎，我决定写一篇它的深度文章。

同样，Gainlo 没有一个人在 Twitter 工作过，不同的面试官也有自己的系统设计面试风格。所以，这篇文章的重点绝对不是给你这个问题的标准答案，而是给你这个话题的更多想法。

问题

由于 Twitter 如此流行，我只会在这里简单地澄清这个问题。

对于为 Twitter 设计一个趋势算法，系统应该能够提供当前流行的主题列表。我喜欢把这个问题弄得一般而且有点含糊，因为我想看看候选人如何处理这样一个开放式的问题。例如，这里的流行没有明确定义。

一般想法

如果你之前没有想过这个问题，我会建议你至少花 15 分钟考虑一下。有自己的解决方案，然后与其他人比较总是比较好。

好的，我们开始。

一个普遍的想法是让我们用一个词（或一个词）来表示一个主题，它可以是一个标签（如#gainlo）或者只是一个单词（如唐纳德·特朗普）。如果与过去相比，一个术语在最近的推文中大量提到，那么这个术语应该被认为是流行的。例如，如果今天有数百万人在讨论#gainlo，但是过去只有数百人谈论这个问题，#gainlo当然应该是当前的热门话题。

我们应该与过去的检索量比较，是因为对于“星期一”或“天气”这样的常见词汇来说，它们的检索量在任何时候都非常大，在大多数情况下都不应该选择为趋势。

综上所述，基本思路是，对于每个术语而言，如果最近几个小时内的检索量与前 X 天的检索量之比很高，则将其视为一个热门话题。

基础设施

当然，热门话题应该立即显示，这意味着我们可以要求用户等待一个小时，以便系统可以计算和排列所有术语。那么最低的基础设施是什么样的？

显然，考虑到每天的大量推文，计算可能开销较大。在这种情况下，我们可以考虑使用离线流水线。

更具体地说，我们可以让多个流水线在离线状态下运行，计算每个术语的比率并将结果输出到某个存储系统。假设短时间内没有大的差别，流水线可以每隔几小时刷新一次。所以当用户从前端检查热门话题的时候，我们可以预先计算出这个结果。

基本的做法真的很朴素，你有什么想法来改进它吗？可以从任何角度来看，如降低系统开销，提高数据质量等。下面我将介绍几点思路。

绝对检索量

如果你只是按照上面的解释计算比例，我很肯定会选择一些非常奇怪的术语。想想下面的情况，假设只有 300 人在推特上发表一个奇怪的话题#gailo-mock-interview，过去从来没有人谈论过这个话题。比率（过去几小时内的检索量/过去 X 天内的检索量）为 1，可以列在列表的顶部。

显然，这不是我们想要展示给用户的东西。我相信你已经在这里发现了问题。如果绝对量不够大，可能会选择一些不受欢迎的术语。你可以计算最近几个小时内的检索量/(最近 X 天内的检索量+ 10000)的比值，这样小的检索量就会被稀释。或者，你可以使用单独的信号作为绝对检索量得分与比值结合使用。

意见领袖

另一个想法是，如果一些话题由高端人士讨论，他们可能更有趣，更受欢迎。

有很多方法来设计这个算法。一种方法是首先确定谁是高端人士。我们可以简单地使用粉丝数（虽然有很多冒牌的意见领袖买了粉丝）。如果某个主题被任何意见领袖发推，我们可以计算这个主题推了多少次。因此，只需基于意见领袖的流行度将推文数量乘以一个参数即可。

有人可能会争辩说，我们不应该给意见领袖更多的权重，因为如果一个话题是趋势，就必须有大量的普通用户在谈论这个话题。这可能是真的。这里的重点是，直到你试一试，你才会知道结果。所以我绝对不是说这是正确的做法，但可能值得做一个实验。

个性化

不同的人有不同的品味和兴趣。我们可以根据不同的用户调整趋势列表。这可能是相当复杂的，因为你可以做很多事情来使其个性化。

例如，你可以根据一些信号，包括他以前的推特，他跟随的人和他喜欢的推文等，计算每个主题和用户之间的相关性分数。然后可以将相关性分数与趋势比率一起使用。

另外，位置也应该是一个有价值的信号。我们甚至可以计算每个地点（也许是城市级别）的趋势主题。

总结

还有更多有趣的话题我还没有涉及。例如，很多话题都是一样的，系统如何对它们去重复呢？有没有其他信号可以被整合，比如用户搜索历史？

趋势算法是非常有趣和有用的。尽管我们使用 Twitter 作为例子，但我们讨论过的很多东西也可以应用到 Facebook 或其他平台上。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

sd10.md

sd10.md

如何为 Twitter 设计趋势算法

问题

一般想法

基础设施

绝对检索量

意见领袖

个性化

总结

Files

sd10.md

Latest commit

History

sd10.md

File metadata and controls

如何为 Twitter 设计趋势算法

问题

一般想法

基础设施

绝对检索量

意见领袖

个性化

总结