Announcement
📣 TikTok 电商基础模型组
🎉【持续招聘中】🎉
致力于打造下一代推荐系统
欢迎联系
 
为什么LayerNorm+AdamW成了深度网络的标准配置?从尺度不变性到梯度动力学

深度网络依赖LayerNorm(RMSNorm),这创造了局部的尺度不变性(Scale Invariance),它带了独特的梯度动力学(Gradient Dynamics)。在这个独特的动力学场域中,我们关于机器学习的直觉被颠覆了,Norm的物理含义从特征强度表示变成了学习进度的旋钮,Norm理论上稳步增加,SGD自带学习率衰减,但是刹车踩的太狠导致了学习的早停,而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配:Adam做到了梯度的步长恒定,有效学习率的平缓刹车;Warmup来处理训练早期的权重过小(梯度爆炸)和二阶矩估计不准的问题;AdamW修正了L2正则的问题,引入Weight Decay,把“方向更新”和“进度控制”拆成两个干净的旋钮。

推荐算法只可锦上添花,不能雪中送炭

在和很多产品、运营团队合作的过程中,我常不得不扮演那个“泼冷水”的角色,特别是当大家对推荐算法寄予厚望的时候。 听到这样的战略规划:“我们明年目标是增长 80%,推荐系统是其中的关键。” 我的观点很直接:如果你的增长战略严重依赖推荐算法,一旦算法效果不及预期,目标就直接崩盘,那么这本质上是一个糟糕的战略**。对于规模增长,推荐算法不能雪中送炭,它只能在规模之上锦上添花。

从RL比SFT更不容易遗忘到反观推荐系统缺陷

最近陆续有了一些研究LLM中RL相比SFT更不容易造成灾难性遗忘的工作,清晰地支出是RL的On-Policy特性带来了参数的稳定,而SFT将模型参数推向与预训练分布差异很大的方向,导致了遗忘问题(如图,遗忘问题的衡量就是随着新任务的学习,旧任务的平均表现下降)。 这一清晰地结论,点亮了我对很多事情的理解,推荐系统原来孤立的问题也有可能连成一片,有了更深层次的支撑。 本文包括: • LLM领域,RL比SFT更不容易造成灾难性遗忘的工作解读 • 推荐系统是标准的off-policy 监督学习,(猜想)许多缺陷也应当由此而生

推荐算法日报 - 2025-12-19

生成式推荐范式深化; 近期多篇论文聚焦于生成式推荐(Generative Recommendation)的范式演进。核心趋势是从传统的自回归(Autoregressive)建模转向更高效的并行解码方法,如掩码扩散模型(Masked Diffusion)。这种转变旨在解决自回归模型推理延迟高、对长程依赖建模能力有限等问题,代表了推荐系统在追求更高性能与更低延迟方向上的重要探索。; 多模态与知识增强成为关键; 视频推荐领域的研究前沿正积极整合视频大语言模型(VLLM)的世界知识。核心思路不再是简单地

推荐算法日报 - 2025-12-18

推荐系统向高层意图与底层解耦演进; 今日论文聚焦于推荐系统的两个核心演进方向。一是从传统的物品级推荐向更高层次的用户意图(如品类)建模发展,通过级联VAE等方法,旨在解决冷启动、提升探索效率并辅助下游物品推荐。二是对现有模型(如BPR)内在偏差的深度解耦,从几何视角揭示流行度偏差的根源,并提出方向性分解等轻量级校正框架,追求更本质的优化。; 生成式推荐与推理时控制成为新焦点; 基于Transformer的生成式推荐范式持续受到关注,其核心挑战从如何生成转向如何“精准生成”。研究重点包括设计聚焦注

推荐算法日报 - 2025-12-17

推荐系统进入“推理增强”时代:今日多篇论文聚焦于将大语言模型(LLM)的推理能力引入推荐系统,以超越传统的模式匹配。核心方向包括:通过多智能体协作(RecGPT-V2)或动态推理轨迹(DTRec)提升意图理解的深度与效率;利用显式意图引导(IGR-SR)或自适应数据增强(AsarRec)来增强模型对噪声行为的鲁棒性。这表明工业界和学术界正致力于构建更智能、可解释且高效的下一代推荐系统。; 效率与效果并重的工程化探索:在追求性能提升的同时,降低LLM推理的算力成本成为关键课题。RecGPT-V2通

推荐算法日报 - 2025-12-16

工业界检索与推荐系统的“一致性”与“自动化”成为核心优化方向; 今日多篇高价值论文聚焦于解决工业级大规模系统在复杂场景下的核心痛点。稠密检索领域,针对双塔架构固有的“表征空间错位”和“检索索引不一致”问题,提出了轻量级的对称一致索引框架(SCI),旨在统一训练与推理过程,提升语义匹配精度与系统稳定性。多场景多任务推荐领域,则从复杂的专家混合(MoE)架构转向更轻量的自动化信息流选择(AutoIFS),利用LoRA等技术解耦信息单元并自动筛选关键关系,以降低模型复杂度和训练成本。这反映出工业界在追

推荐算法日报 - 2025-12-15

工业界LLM应用走向“确定性”:今日多篇论文聚焦于提升LLM在商业应用中的可靠性与一致性。核心趋势是,业界正从追求生成多样性转向强调输出的稳定性和可预测性,尤其是在金融、客服、招聘等高合规性要求的场景。这反映了LLM从“玩具”走向“工具”的成熟化需求。; 推荐系统效率与理论并重:在推荐系统领域,研究呈现出两个并行方向。一方面,通过创新的Transformer架构设计(如指数衰减时间编码、稀疏注意力)来大幅提升长序列建模的效率,以满足线上服务的低延迟要求。另一方面,学界开始为成功的工业模型(如线性

推荐系统线上能跑多大的模型

本文不是从系统优化角度谈复杂的模型的部署和优化问题,而是从行业成本角度,看线上推理多复杂的模型是可以满足成本及ROI要求的。 做一个假设: • 电商推荐行业,主要是更熟悉成本核算 • 部署标准的Transformer作为排序模型,参考OneTrans结构 • 参数规模对齐qwen2的系列模型,更直观看看能跑哪个尺寸

Talent Dilution Roofline:你的算法团队可能不需要再招人了?

Roofline model是高性能计算领域用来分析程序性能瓶颈的一个直观模型,因为画出来像一个屋顶形状而得名。如下图,横坐标是算法的计算强度Flop/Byte(算法的浮点计算数除以内存访问量),纵坐标是算力Flop/s,它描述的是如果算法计算强度提升算力线性提升(Memory-Bound),直到算数强度超过硬件的拐点,之后算力逼近硬件的上限(Compute-Bound)。它核心回答了:你的程序到底受什么限制——计算能力还是内存带宽?应该优化哪里?

OneTrans 推荐系统对齐序列处理与特征交叉

从精排切换成深度学习以来,工业界一直会把排序的模型结构研究切分成基本的两部分,序列处理和特征交叉,甚至有一些公司的排序组,下面都拆成两个Team分别处理行为序列和特征交叉。从最早的时候,比如序列用DIN来处理,序列就被压成了一个或多个向量表征,再参与与其他特征的交叉。我们可以理解成MLP(concat(DIN, Features)),发展到今天大多数的模型研究,还是分立地把MLP换成DCN,增加个LHUC,复杂化为Rank Mixer或Transformer,把DIN叠加MHA,直接换成Transformer,可以写成RankMixer(concat(Transformer, Features))。 从MLP(concat(DIN, Features))到RankMixer(concat(Transformer, Features)),本质没有变,就是序列处理和特征交叉是一个隐式的两阶段处理,序列被压缩到Vector Space才和特征发生交叉。而LLM的有趣之处,就是在Next Token Prediction利用到的交叉发生在词序列的Token Space之中,它能启发推荐排序模型的,就是每一个特征的交叉应该发生在用户序列的Token Space之中。