跳到主要内容

Netflix 如何提供观看数据？

2018年9月13日 · 阅读需 2 分钟

动机

如何在规模上保持用户的观看数据（每天数十亿事件）？

在这里，观看数据指的是...

观看历史。我看过哪些标题？
观看进度。我在某个标题中停留在哪里？
正在观看的内容。我的账户现在还在观看什么？

架构

Netflix 观看数据架构

观看服务有两个层次：

有状态层 = 活动视图存储在内存中
- 为什么？为了支持最高的读/写量
- 如何扩展？
  - 按照 account_id mod N 分区为 N 个有状态节点
    - 一个问题是负载分布不均，因此系统容易出现热点
  - 在 CAP 定理下选择 CP 而非 AP，并且没有活动状态的副本。
    - 一个失败的节点将影响 1/n 的成员。因此，他们使用过时的数据以优雅地降级。
无状态层 = 数据持久性 = Cassandra + Memcached
- 使用 Cassandra 进行非常高的写入量和低延迟。
  - 数据均匀分布。由于使用虚拟节点进行一致性哈希来分区数据，因此没有热点。
- 使用 Memcached 进行非常高的读取量和低延迟。
  - 如何更新缓存？
    - 在写入 Cassandra 后，将更新的数据写回 Memcached
    - 最终一致性，以处理多个写入者，具有短的缓存条目 TTL 和定期的缓存刷新。
  - 将来，优先考虑 Redis 的追加操作到时间排序列表，而不是 Memcached 中的“读-修改-写”。

References:

http://techblog.netflix.com/2015/01/netflixs-viewing-data-how-we-know-where.html

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

动机
架构

关于 Tian Pan

我是 Tian Pan，一名工程师型创始人，专注于把清晰的思考转化为落地的成果。我持续写作产品、系统设计与工程领导力的实用文章与可复制打法。曾在 Uber、Brex 以及 IoTeX 担任早期工程师，参与底层技术建设。如今，我在 TianPan.co 发布每周简报与实战 Playbook，偶尔撰写对 AI 与加密领域的观察。