公告
📣 TikTok 电商基础模型组
🎉【持续招聘中】🎉
致力于打造下一代推荐系统
欢迎联系
 
算法工程师的核心能力是什么

谜底就在谜面上。 "算法工程师",做个语法分析,这是个偏正结构。"算法"是定语,"工程师"才是中心语。定语修饰中心语,中心语决定你的身份。 算法工程师核心能力就是"工程能力"。 就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作,后面的中心语才是你安身立命的东西。 定语决定你的赛道,中心语决定你的天花板。

算法组织熵减与Scaling Law的悖论

我们先思考下,一个公司组织里,为什么需要 Leader,需要层级?任何一个超过几十人的组织都需要架构设计。这件事如此普遍,以至于我们很少追问:为什么需要组织架构?组织架构本质上在解决什么问题? 表面上看,组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层,会发现一个有趣的视角:一个组织本质上是一个分布式信息处理系统。 外部信息进来,内部处理,输出决策和行动。组织架构定义的,其实是信息如何在这个系统里流动——谁产生信息,谁消费信息,信息经过哪些节点,在哪里被过滤,在哪里被聚合。

2026:推荐系统 All-In Transformer 的元年

2017 年,Ilya Sutskever 读到《Attention Is All You Need》时,立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线,全面转向 Transformer,催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天,推荐系统终于走到了同样的路口。 2024 年之前,推荐领域有了 HSTU、TIGER 这样的工作,但大多数团队还在观望。2025 年,我观察到一个明显的转变:大家开始认真地把排序模型 Dense Scaling Up,搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔,切换过程持续了一两年,之后再没人回头。我的判断是,2026 年将是推荐系统 All-In Transformer 的一年,不改变就落后。

为什么LayerNorm+AdamW成了深度网络的标准配置?从尺度不变性到梯度动力学

深度网络依赖LayerNorm(RMSNorm),这创造了局部的尺度不变性(Scale Invariance),它带了独特的梯度动力学(Gradient Dynamics)。在这个独特的动力学场域中,我们关于机器学习的直觉被颠覆了,Norm的物理含义从特征强度表示变成了学习进度的旋钮,Norm理论上稳步增加,SGD自带学习率衰减,但是刹车踩的太狠导致了学习的早停,而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配:Adam做到了梯度的步长恒定,有效学习率的平缓刹车;Warmup来处理训练早期的权重过小(梯度爆炸)和二阶矩估计不准的问题;AdamW修正了L2正则的问题,引入Weight Decay,把“方向更新”和“进度控制”拆成两个干净的旋钮。

推荐算法只可锦上添花,不能雪中送炭

在和很多产品、运营团队合作的过程中,我常不得不扮演那个“泼冷水”的角色,特别是当大家对推荐算法寄予厚望的时候。 听到这样的战略规划:“我们明年目标是增长 80%,推荐系统是其中的关键。” 我的观点很直接:如果你的增长战略严重依赖推荐算法,一旦算法效果不及预期,目标就直接崩盘,那么这本质上是一个糟糕的战略**。对于规模增长,推荐算法不能雪中送炭,它只能在规模之上锦上添花。

从RL比SFT更不容易遗忘到反观推荐系统缺陷

最近陆续有了一些研究LLM中RL相比SFT更不容易造成灾难性遗忘的工作,清晰地支出是RL的On-Policy特性带来了参数的稳定,而SFT将模型参数推向与预训练分布差异很大的方向,导致了遗忘问题(如图,遗忘问题的衡量就是随着新任务的学习,旧任务的平均表现下降)。 这一清晰地结论,点亮了我对很多事情的理解,推荐系统原来孤立的问题也有可能连成一片,有了更深层次的支撑。 本文包括: • LLM领域,RL比SFT更不容易造成灾难性遗忘的工作解读 • 推荐系统是标准的off-policy 监督学习,(猜想)许多缺陷也应当由此而生

AI 技术日报 - 2026-02-14

今日收录 18 篇文章,精选 9 篇,另有 13 条 KOL 推文,覆盖 AWS、OpenAI Blog、MarkTechPost、ai-news 等来源。

AI 技术日报 - 2026-02-13

OpenAI 发布了专注于极致速度的 AI 编程模型 GPT-5.3-Codex-Spark 研究预览版。其核心突破在于性能:比旗舰版 GPT-5.3-Codex 快 15 倍,每秒生成超过 1000 个 token,实现近乎实时的代码生成。这一成就得益于与 Cerebras 的深度合作,首次采用其 Wafer-Scale Engine 3 (WSE-3) 单晶圆级芯片,消除了传统 GPU 集群间

AI 技术日报 - 2026-02-12

Meta 提出了一种名为 Just-in-Time Tests (JiTTests) 的创新测试方法,旨在应对 AI 驱动的 Agentic 开发对传统测试的挑战。其核心在于利用 LLM 在代码提交时实时生成测试用例,这些测试针对特定代码变更定制,无需维护庞大的静态测试套件。系统能推断开发者的变更意图,并生成“变异体”来模拟潜在故障,再结合基于规则和 LLM 的评估器来最大化测试价值、最小化误报。

AI 技术日报 - 2026-02-11

文章深度剖析了软件包管理中“vendoring”(将依赖代码直接复制到项目)的衰落与“lockfiles”(锁文件)的崛起。核心观点是,Git 的克隆机制使 vendoring 的成本(巨大的仓库体积和历史)显性化,恶化了开发者体验。而 lockfiles(如 Gemfile.lock)结合中央注册表和内容哈希,提供了无需存储代码的可重复构建。文章还分析了 left-pad 事件如何推动行业加强注

AI 技术日报 - 2026-02-10

Meta 详细揭秘了其千兆瓦级 AI 集群 “Prometheus” 的核心网络架构——后端聚合(BAG)层。BAG 作为一个集中式的以太网超级骨干,连接多个数据中心和区域,旨在提供宠物比特级(如 16-48 Pbps)的带宽。文章深入探讨了其模块化硬件(基于 Jericho3 ASIC)、两种拓扑设计(平面与扩展连接以平衡性能与弹性)、关键的管理过订阅比率(L2 到 BAG 约 4.5:1),以

AI 技术日报 - 2026-02-09

字节跳动开源了生物分子结构预测模型 Protenix-v1,其在训练数据截止日期(2021-09-30)、模型规模(3.68亿参数)和推理预算上严格对齐 AlphaFold3 (AF3) 的条件下,实现了与 AF3 相当的性能,覆盖蛋白质、DNA、RNA 和配体。模型采用 AF3 风格的扩散架构,并提供了完整的训练/推理代码、预训练权重及数据管道。同时发布的 PXMeter v1.0.0 评估工具