- 标签:
- 日报 (152)
- 技术趋势 (101)
- AI (96)
- 推荐系统 (88)
- 周报 (23)
- 论文 (14)
- 思考 (7)
- Agentic Engineering (6)
- 工具 (4)
- 深度学习 (4)
- LLM (4)
- Harness Engineering (3)
- 推荐 (2)
- Transformer (2)
- 强化学习 (1)
- 思维模型 (1)
- 管理 (1)
- 生成式 (1)
今日日报跨越博客、GitHub、论文、KOL 推文和播客五大数据源,核心亮点是 AI 基础设施正从“训练优先”向“推理优先”加速转变。Stratechery 的长文系统性地剖析了推理工作负载的独特性,而 OpenAI 推出 Daybreak 安全产品与 Deployment Company、AWS 上线原生 Claude 平台、以及多个 Agent 框架(Hugging Face Skills、UI-TARS)的发布,共同指向 AI 应用部署与 Agent 生态的成熟化。此外,Ilya Sutskever 在庭审中的证词与 Epoch AI 对 FrontierMath 基准的修正,也为行业带
本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming(夜间自我改进)和桌面 Claude Code,配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览,把 Agent 从"一次性脚本"完整推进到"持续运营单元"。 紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验,从同一周的不同角度证明:harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字,"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。 第三条线是基础设施。推理 token 价格一年降 100x,但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率,OpenAI 联合五家硬件厂商发布 MRC 网络协议,Perplexity 自研 ROSE 引擎,NVIDIA 开源 TokenSpeed,再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。