2026:推荐系统 All-In Transformer 的元年
2026-1-29
| 2026-2-12
字数 2290阅读时长 6 分钟
type
status
date
slug
summary
tags
category
icon
password
priority
2017 年,Ilya Sutskever 读到《Attention Is All You Need》时,立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线,全面转向 Transformer,催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天,推荐系统终于走到了同样的路口。
2024 年之前,推荐领域有了 HSTU、TIGER 这样的工作,但大多数团队还在观望。2025 年,我观察到一个明显的转变:大家开始认真地把排序模型 Dense Scaling Up,搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔,切换过程持续了一两年,之后再没人回头。我的判断是,2026 年将是推荐系统 All-In Transformer 的一年,不改变就落后。

为什么是现在

过去十年,GPU 的性价比提升了 16-32 倍,而 CPU 只提升了 4-8 倍。从 V100 的 $80/TFLOPS 到 B200 FP4 的 $3.9/TFLOPS,下降了 20 倍。这不是渐进式改善,而是结构性变化。与此同时,传统推荐系统的成本大头不是 GPU,而是 CPU 和存储——特征工程重度依赖 CPU 计算,海量 Embedding 需要大内存和 SSD,GPU 利用率普遍很低。
这里有一个简单的 sanity check:你的模型能不能在 H100 上跑出 30% 的 MFU?能不能给一次用户请求调动 1 TFLOPs 的算力?我相信 95% 以上的推荐系统做不到。这意味着巨大的优化空间——缩减 CPU 和存储占比,提升 GPU 占比和利用率。
Transformer (or Foundation Model)的并行计算特性和更加 end2end恰好符合这两个方向:面向大卡高利用率设计算法,面向高 GPU 成本占比设计系统,这是大势所趋。

OneTrans不是想讲模型结构创新

按照推荐系统的研发习惯——深度模型时代以来大家总乐于”创造”新的网络结构——很多人第一反应是我们又搞了一种新的模型架构。这是误解,OneTrans 的核心思想恰恰相反。
NLP 领域的众多任务最终都只需要一个 Transformer,推荐系统也不例外。OneTrans 的核心理念是只使用标准的 Transformer 及其主流变体(Sparse MoE、Sparse & Local Attention),不把精力花在模型结构的细节雕琢,而是聚焦训练推理优化,专注于模型和数据的 Scaling Up。在模型架构上我们”不鼓励创新”,这反而是推荐系统模型架构”天然的创新”。
一些机巧能让 ROI 变得更好,不重要吗?也许重要,但要看当前的 Scaling 水平。比起 Scaling ROI,更重要的是 Scaling Limit——一个 Trick 只有在大尺度下依然 Work 才有价值。如果你的模型连基本的 Scaling 都还没跑起来,关注这些 Trick 的价值就不高。先解决”能不能 Scale”,再讨论”Scale 得划不划算”。
 
MIT FutureTech 在 "On the Origin of Algorithmic Progress in AI" 中拆解了 2012-2023 年间 AI 算法效率提升的来源。此前估计这段时期算法效率提升了约 22,000 倍,但当他们对模型结构等"创新"做 ablation 实验时,所有 scale-invariant 的改进加起来只能解释不到 100 倍。剩下的增益来自哪?答案是 scale-dependent 的改进——LSTM 到 Transformer 的转换,以及 Chinchilla scaling law 的重新平衡,这两项在前沿规模下贡献了 91% 的效率提升。很多在小模型上"有效"的 Trick,放到大尺度下就消失了。
推荐系统现状下存在一个悖论:模型小,大卡利用率就低,而模型小的时候各种 Trick 又确实有效。这些 Trick 不只是特征工程和训练技巧,也包括结构改造本身——精巧的特征交叉、复杂的注意力变体、手工设计的网络模块,在小模型上都能带来可观的增益。于是团队继续投入在 Trick 上,模型继续保持小,大卡利用率继续低,Trick 继续有效。这是一个闭环死锁。打破它的方式只有一个:先把模型做大,把 GPU 利用率拉起来,让那些只在小尺度下 Work 的 Trick 自然失效,然后你才能看清什么是真正重要的。
把复杂的算法问题转换为确定的工程优化问题,把纷乱的模型结构改造转为单一 backbone 的 Scaling Up 问题。以大压巧,就像武侠里说的,“重剑无锋,大巧不工“。
坦率地说,我们的模型和系统还处于”Wide & Deep Style”的状态——新 feature 有增益,老 feature 下不掉。2017 年大家对 Deep Model 怎么 work 认知有局限,2025 年大家对 Transformer 怎么 work 理解也不成熟。但我相信,一切会随着 Scaling Up 的程度而改变。
 

Foundation Model:推荐系统的终局

半年前,OneTrans 指的是精排不需要复杂的多模块杂糅,一个 Transformer 搞定序列处理和特征交叉。今天,OneTrans 的含义扩展了:推荐系统的召回、粗排、精排、重排模型都完全基于 Transformer 架构。虽然还是传统的多阶段架构,但训练推理的优化变得简单——能使精排变强的优化,也能让召回、粗排、重排受益。更大的意义在于,基于相同的模型架构,意味着模型参数可复用,也意味着模型训练可合并。
演进路径大致是这样的:召回和精排先把粗排归并掉,可以召粗一体,可以粗精一体,最后做到召粗精 One Model Training。而重排的 List-Wise 设定更为终极,它完全可以吞并掉精排的复杂度,直接对接召粗,所以精排要把自己做没才算成功。召回升级到 List-Wise 设定后,和重排可以做到 One Model Training with KV Cache Share 的 Two-Stage Serving。最终是 One Model Training & Serving——端到端推荐。以上并非说一定是这么演进,而是说模型在理论上完全可以从现有的系统合并出一个 Foundation Model,当然也可以拉起一个 Foundation Model 替换掉现有多阶段系统。这是必然会发生的事情,只是时间早晚的问题。
“Foundation Model”来自斯坦福的论文《On the Opportunities and Risks of Foundation Models》,核心定义是在大规模数据上通过自监督学习训练,可以适配到广泛下游任务的模型。在推荐系统的语境下,Foundation Model 的定义是 All-In 可用的 GPU 资源做一个领域无关的模型,它能蒸馏或直接把参数给到下游 fine-tune,达到下游单领域数据和算力无法达到的水平。潜在含义是可以直接端到端生成式推荐,这需要一定的指令遵循能力,需要基于 LLM 基座,把推荐物品当成一种模态进行语言空间对齐,在行为和文本数据上做 Pre-Train,把推荐任务重构为 RLVR 任务,进行多任务 Post-Training。
Foundation Model 不仅追求效果,也追求 ROI。Scaling Up 必然导致 GPU 成本增加,如何保住 ROI?答案回到前面的分析:传统推荐系统的成本大头是 CPU 和存储,GPU 利用率又低,路径就是缩减 CPU 和存储,提升 GPU 占比和利用率。
推荐领域的认知比 NLP 晚了八年,奋起直追也还来得及。Transformer and Scaling Up is All You Need.
 

加入我们

我们是 TikTok 海外电商基础模型组,核心工作包括推荐系统的 Transformer 化重构及充分 Scaling Up,以及构建 Foundation Model——推荐物品与 LLM 模态对齐、预训练与后训练,达成传统任务 fine-tune 提效及端到端推荐,驱动 B200 GPU 完成训练与推理。TikTok 海外电商高速增长,东南亚市场份额已来到第二位,兼具规模与增长空间。Base 包括新加坡、上海、杭州、北京。
👉 投递链接:job.toutiao.com
 
  • 推荐系统日报
  • 算法组织熵减与Scaling Law的悖论为什么LayerNorm+AdamW成了深度网络的标准配置?从尺度不变性到梯度动力学
    Loading...