Recsys Frontier | 分享推荐系统的技术理解，追踪推荐系统的前沿动态·

公告

📣 TikTok 电商基础模型组

🎉【持续招聘中】🎉

致力于打造下一代推荐系统

欢迎联系

谜底就在谜面上。 "算法工程师"，做个语法分析，这是个偏正结构。"算法"是定语，"工程师"才是中心语。定语修饰中心语，中心语决定你的身份。算法工程师核心能力就是"工程能力"。就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作，后面的中心语才是你安身立命的东西。定语决定你的赛道，中心语决定你的天花板。

我们先思考下，一个公司组织里，为什么需要 Leader，需要层级？任何一个超过几十人的组织都需要架构设计。这件事如此普遍，以至于我们很少追问：为什么需要组织架构？组织架构本质上在解决什么问题？表面上看，组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层，会发现一个有趣的视角：一个组织本质上是一个分布式信息处理系统。外部信息进来，内部处理，输出决策和行动。组织架构定义的，其实是信息如何在这个系统里流动——谁产生信息，谁消费信息，信息经过哪些节点，在哪里被过滤，在哪里被聚合。

文章详情

推荐系统日报

2017 年，Ilya Sutskever 读到《Attention Is All You Need》时，立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线，全面转向 Transformer，催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天，推荐系统终于走到了同样的路口。 2024 年之前，推荐领域有了 HSTU、TIGER 这样的工作，但大多数团队还在观望。2025 年，我观察到一个明显的转变：大家开始认真地把排序模型 Dense Scaling Up，搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔，切换过程持续了一两年，之后再没人回头。我的判断是，2026 年将是推荐系统 All-In Transformer 的一年，不改变就落后。

文章详情

深度学习

理论分析

深度网络依赖LayerNorm（RMSNorm），这创造了局部的尺度不变性（Scale Invariance），它带了独特的梯度动力学（Gradient Dynamics）。在这个独特的动力学场域中，我们关于机器学习的直觉被颠覆了，Norm的物理含义从特征强度表示变成了学习进度的旋钮，Norm理论上稳步增加，SGD自带学习率衰减，但是刹车踩的太狠导致了学习的早停，而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配：Adam做到了梯度的步长恒定，有效学习率的平缓刹车；Warmup来处理训练早期的权重过小（梯度爆炸）和二阶矩估计不准的问题；AdamW修正了L2正则的问题，引入Weight Decay，把“方向更新”和“进度控制”拆成两个干净的旋钮。

文章详情

思考

在和很多产品、运营团队合作的过程中，我常不得不扮演那个“泼冷水”的角色，特别是当大家对推荐算法寄予厚望的时候。听到这样的战略规划：“我们明年目标是增长 80%，推荐系统是其中的关键。” 我的观点很直接：如果你的增长战略严重依赖推荐算法，一旦算法效果不及预期，目标就直接崩盘，那么这本质上是一个糟糕的战略**。对于规模增长，推荐算法不能雪中送炭，它只能在规模之上锦上添花。

文章详情

强化学习

理论分析

最近陆续有了一些研究LLM中RL相比SFT更不容易造成灾难性遗忘的工作，清晰地支出是RL的On-Policy特性带来了参数的稳定，而SFT将模型参数推向与预训练分布差异很大的方向，导致了遗忘问题（如图，遗忘问题的衡量就是随着新任务的学习，旧任务的平均表现下降）。这一清晰地结论，点亮了我对很多事情的理解，推荐系统原来孤立的问题也有可能连成一片，有了更深层次的支撑。本文包括： • LLM领域，RL比SFT更不容易造成灾难性遗忘的工作解读 • 推荐系统是标准的off-policy 监督学习，（猜想）许多缺陷也应当由此而生

文章详情

日报

技术趋势

今日收录 18 篇文章，精选 9 篇，另有 13 条 KOL 推文，覆盖 AWS、OpenAI Blog、MarkTechPost、ai-news 等来源。

文章详情

日报

技术趋势

OpenAI 发布了专注于极致速度的 AI 编程模型 GPT-5.3-Codex-Spark 研究预览版。其核心突破在于性能：比旗舰版 GPT-5.3-Codex 快 15 倍，每秒生成超过 1000 个 token，实现近乎实时的代码生成。这一成就得益于与 Cerebras 的深度合作，首次采用其 Wafer-Scale Engine 3 (WSE-3) 单晶圆级芯片，消除了传统 GPU 集群间

文章详情

日报

技术趋势

Meta 提出了一种名为 Just-in-Time Tests (JiTTests) 的创新测试方法，旨在应对 AI 驱动的 Agentic 开发对传统测试的挑战。其核心在于利用 LLM 在代码提交时实时生成测试用例，这些测试针对特定代码变更定制，无需维护庞大的静态测试套件。系统能推断开发者的变更意图，并生成“变异体”来模拟潜在故障，再结合基于规则和 LLM 的评估器来最大化测试价值、最小化误报。

文章详情

日报

技术趋势

文章深度剖析了软件包管理中“vendoring”（将依赖代码直接复制到项目）的衰落与“lockfiles”（锁文件）的崛起。核心观点是，Git 的克隆机制使 vendoring 的成本（巨大的仓库体积和历史）显性化，恶化了开发者体验。而 lockfiles（如 Gemfile.lock）结合中央注册表和内容哈希，提供了无需存储代码的可重复构建。文章还分析了 left-pad 事件如何推动行业加强注

文章详情

日报

技术趋势

Meta 详细揭秘了其千兆瓦级 AI 集群 “Prometheus” 的核心网络架构——后端聚合（BAG）层。BAG 作为一个集中式的以太网超级骨干，连接多个数据中心和区域，旨在提供宠物比特级（如 16-48 Pbps）的带宽。文章深入探讨了其模块化硬件（基于 Jericho3 ASIC）、两种拓扑设计（平面与扩展连接以平衡性能与弹性）、关键的管理过订阅比率（L2 到 BAG 约 4.5:1），以

文章详情

日报

技术趋势

字节跳动开源了生物分子结构预测模型 Protenix-v1，其在训练数据截止日期（2021-09-30）、模型规模（3.68亿参数）和推理预算上严格对齐 AlphaFold3 (AF3) 的条件下，实现了与 AF3 相当的性能，覆盖蛋白质、DNA、RNA 和配体。模型采用 AF3 风格的扩散架构，并提供了完整的训练/推理代码、预训练权重及数据管道。同时发布的 PXMeter v1.0.0 评估工具

文章详情

1 2 3 4 5 6