张小珺对话姚顺宇:在 Anthropic 和 Gemini 训模型、
技术预测、英雄主义已过去
硅谷 AI 业界有两位同名同姓、清华同届的顶尖研究者,经常被混淆:
| 姚顺宇(宇) | 姚顺雨(雨) | |
|---|---|---|
| 背景 | 清华物理系基科班 | 清华姚班(计算机科学实验班) |
| 博士 | 斯坦福(物理) | 普林斯顿(CS/物理) |
| 工作经历 | Anthropic → Google DeepMind | OpenAI → 腾讯首席AI科学家 |
| 研究方向 | Agent、RL、大模型训练 | RL、推理、模型架构 |
| 性格 | 更直接、更敢说 | 更内敛、更有趣 |
两人是清华同一届毕业生。一个学物理的反常去了斯坦福(计算机强校),一个学计算机的反常去了普林斯顿(物理强校),后来都在 AI 领域做出了重要贡献。在硅谷每几个星期见一次面,"纯玩"——散步、吃饭、打牌。姚顺雨曾多次想拉姚顺宇去腾讯,但姚顺宇选择优先学习不同的东西,最终去了 Gemini。
访谈从"姚顺宇"这个名字的混淆开始。张小珺提到,在硅谷 AI 圈提到"Shunyu Yao"时,大家总要确认一下说的是哪一个。
姚顺宇认为自己和姚顺雨的性格也有差异:"他可能比我更内敛一点,我更……你懂的。"(指更敢说)姚顺雨花了很多时间思考人和 AI 的交互、产品的事,而姚顺宇更偏技术研究。
张小珺问及姚顺雨是否多次想拉他过去,姚顺宇表示"可能有这个意思吧",但自己不关键。离开 Anthropic 时最大动机是想学一些不一样的东西,没有更着重考虑领导一个项目,而是优先去学习,所以选择去了 Gemini。
姚顺宇本科在清华读量子物理,很快就有了非常好的学术成果,而且是"范式级的变化"。但他迅速觉得这个领域"没有吸引力了",在博士阶段挑战了一个更难的事情——高能物理。
博士读了五年高能物理,姚顺宇的自我评价是:"对我自己学到很多东西、成长很大;但于这个世界,没有产生什么贡献。"
高能物理的进步来源有两个:一是数学的自洽性(如弦论能否在低能情况下回到量子场论),二是领域内"老登"的主观判断——当没有实验、没有客观标准时,谁做得好就依赖于权威的主观评价。
要做有比较客观评价标准的事,要做对这个世界能够产生影响的事。
姚顺宇提到,达到外界标准或一个小圈子的评价标准,"像训练模型一样。一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的。哪怕不认可这个标准,你是可以达到的。"但他后来"蒙蔽不了自己,骗不了自己"。
拿了伯克利博士后 offer,但"只待了两个星期就辞职了"。伯克利的老师人很好,说"没事,等事情定了再说,能来多久就得来多久"。姚顺宇告诉他们自己可能会去做 AI 了,老师还是让他先把工作拿着。
姚顺宇在量子计算和 AI 之间做了选择。他发现量子计算的主要瓶颈在实验上,"不是怎么设计算法或者算子,更多是怎么在实验上实现它。那个事反而是我不擅长,和我过去很多有兴趣的事比较不相关。"
他也把 AI 比作17世纪的热力学研究:"那个时代大家不理解什么是热的微观理论,不知道热是什么东西。就像现在,大家不能理解 language model 里,哪一个矩阵元是在干什么。但是不妨碍你有好的经验定律,比如热力学的各种定律,和现在的各种 Scaling Law。"
张小珺问:很多人描述这一代 AI 是黑盒,能从科学角度理解吗?
姚顺宇认为,对语言模型的理解"确实没到神经科学手术刀那个级别",但也不代表完全没理解。Scaling Law 就是一个例子——"它描述了那个尺度下,模型随着大小和数据量,是怎么在 perplexity 这个指标下变得越来越好的。"
张小珺问能否用科学表达解释"智能涌现"。
姚顺宇对"智能涌现"的定义是:没有定义。唯一质的区别是:有没有发生一个技术上的改变,使得我们可以做 scale up,可以水平的提升所有的能力。"这对我来说,是一个良好定义的事。"
Anthropic 对 coding 的押注并非自上而下设计的,而是自下而上发现后迅速变成公司战略的。
张小珺追问 coding 比 GPT-4 好是否有纯技术原因,姚顺宇确认"是确实有某一个团队做了某个事情","最开始可能是自下而上的,但是后来就变成了一个自上而下的事。"
姚顺宇认为 coding 能力的突破不是渐进过程,而是"跳变"(phase transition)。"在 Claude 3.7 的时候,Coding 还只是一个'还可以'的能力。但到了某个节点之后,突然就'开窍'了。"这个开窍的本质是:模型学会了用推理来生成代码,而不是简单地记忆代码模式。
Claude 3.7 对 Anthropic 的后训练来说是分水岭。在 3.7 之前,后训练都处于"比较小规模,可能就是修修补补模型的状态"。3.7 开始,后训练变成了大规模强化学习。
姚顺宇对预训练的态度经历过摇摆。在 3.7 时代,他曾经抱着"预训练已经快 party is over"的想法。但后来随着了解越来越深入,改变了看法。
姚顺宇对"技术 tips"有一个很有意思的观点:
他认为,现代 AI 训练是一个大的系统,"要了解这个系统的方方面面,才能有一个全局的认识。什么事是因为什么而变得有用了,而不是说这个事本身有用。"
他认为字节的核心优势在于 infra 能力极强、组织执行力强、产品迭代速度快。但也指出中国公司的普遍挑战:
姚顺宇用"硬蒸"和"聪明的蒸"来区分两种蒸馏方法论:
| 硬蒸(Hard Distillation) | 聪明的蒸(Smart Distillation) | |
|---|---|---|
| 本质 | 直接复制大模型的输出分布 | 理解大模型"为什么这样回答",提取推理过程 |
| 方法 | 用大模型生成数据,小模型直接监督学习 | 不仅复制答案,还要复制推理链条、思考过程 |
| 效果 | 短期有效,但天花板明显 | 效果更好,能学到"能力"而非"答案" |
| 代表 | 早期的蒸馏方法 | DeepSeek 的方法论 |
蒸馏不是"作弊",而是一种合法的技术路径。关键在于你是"硬蒸"(抄答案)还是"聪明的蒸"(学习方法)。后者的技术难度和创新能力完全不亚于从头训练。
他认为机器人领域目前还在"收集数据、建立基础设施"的阶段,距离真正的 breakthrough 还有一段距离。
姚顺宇找了三家:OpenAI、Anthropic、Google DeepMind。Google DeepMind 那时候"速度太慢了",最后没有出现在考虑范围内。后来 Gemini 获得了长足提升,"动手非常快"。
他联系 Anthropic 是因为有前同事在那,"Anthropic 有很多做物理出身,尤其是做理论物理出身的人。"他的第一任 manager 以前也是做理论物理的。
面试准备:手搓了一套 Andrej Karpathy 的 nanoGPT 项目。"面试题也不太难,反正。但对我来说,当时也不知道怎么准备。就去把我能找到的那些课,自己能学的学了一遍,能做的作业做了一遍。"
姚顺宇加入了 Horizon 团队(约 10-11 人),负责大规模强化学习。这是后来 Anthropic 强化学习方方面面的核心团队,底下有更做数据的组、更做环境/infra 的组、更做 research 和算法的组。姚顺宇去的是偏 research 和算法的组。
姚顺宇认为,OpenAI"就干不了"这种 top down,因为 Ilya 后来"失去了做决策的能力"。其他公司也比较难。大公司如 Gemini 是"另外一套打法"——"大公司的心态可能是,我不仅能尽量减少做赌的成分,而是我能在方方面面都有储备。"
他认为真正的 AI 安全需要"多方制衡"机制,类似核武器的 Multiparty Control——"这个世界上,大家有很多个有核武器的国家,互相都有毁灭对方的能力。通过这样一种制衡才稳定住。"
姚顺宇离开 Anthropic 酝酿了一个多月,原因有三方面:
但他后来承认"过度悲观了"——Anthropic 在产品方面有很多巧思,Claude Code、Claude Cowork 等都慢慢汇聚起来了。"现在看来好像 Anthropic 更占优势一些。"
这是姚顺宇最具争议也最有洞察的观点之一。
他认为 AI 没有给人感觉碰壁的原因是:"首先很多东西你都能试,其次不是大家已经想空了脑袋、没有什么想法可以试。更多的是有太多想法,得一个个试,花时间。"
姚顺宇区分了 AI 发展的两种阶段:
| 跳变时刻(Phase Transition) | Scale-up 阶段 | |
|---|---|---|
| 特征 | 新范式、新架构的出现 | 在已验证的方向上扩大规模 |
| 难度 | 需要创造性洞察 | 需要工程执行力和耐心 |
| 例子 | Transformer、GPT-3 时刻 | 从 GPT-3 到 GPT-4 |
| 工作性质 | "需要脑子" | "trivial,但需要靠谱的人做" |
姚顺宇认为,如果很想要明确的 scope、要把自己的想法送到模型里去,"Google 是一个很差的地方"。但如果想要的是"有研究的自由、探索的自由,想从更广泛的人类学习","这个世界上可能找不到第二个比 Gemini 更强的地方。"
| 维度 | Anthropic | Google DeepMind |
|---|---|---|
| 决策风格 | Top-down,创始人直接拍板 | 更分层,决策链条更长 |
| 执行力 | 极快,reactive | 更稳健,但启动慢 |
| 预训练 | 灵活,快速迭代 | 非常 controllable,系统性极强 |
| 长上下文 | 渐进式改进 | "有一些 surprising techniques" |
| 组织规模 | 小而精(几百人→接近2000人) | 大得多(几千人) |
Long horizon 既有科学问题也有工程问题。公开的方案有两类:
姚顺宇花更多时间在后训练的方案上,因为"预训练这些方案,本质上还是需要你有长 context,训练需要数据里有。所以它不太符合我对这个问题的哲学。"
他认为 Gemini 现在的市占率可能在 20% 左右。"没有 Gemini 打这么一拳,OpenAI 的位置很爽。它市占率已经高到,其实模型上干点啥,对它来说可能影响都没那么大。"
为什么 chatbot 没有吃掉搜索?姚顺宇认为两方面都有:一是当前 chatbot 形态不足以完全取代搜索(简单查询如"买大米"不需要聊天机器人),二是 OpenAI"也没有做到登峰造极",让 Google 赶上了。
他认为 Google 的舒适区是"比较确定性的事"——"预训练,已经是一个比较确���性的范式了。Google 就会更像把它做成一个工程项目。Google 的工程管理能力又很强,它就能慢慢把它做好。"后训练则"有更多不确定性",更 bottom up 一点。
姚顺宇以前出一道面试题:让面试者在 24 小时之内,完成一个强化学习项目,从 0 到 1。
设计成 24 小时还有一个"阴暗的巧思":"就是为了看这个人有多看重这个机会。如果他足够熬夜,他就能撑住这 24 个小时。如果他撑不住,那只能说,他可能对这个机会也没有那么看重。"
喜欢的食物:寿司。喜欢的地点:夏威夷("因为我很喜欢海")。
| 维度 | 上半场 | 下半场 |
|---|---|---|
| 核心焦点 | 模型训练、算法创新 | 任务定义、环境设计、评估框架 |
| 关键问题 | "AI 能做什么?" | "AI 应该解决什么问题?" |
| 成功标志 | 考试高分、击败人类 | 打造实用产品、创造商业价值 |
| 思维转变 | 工程师思维 | 产品经理思维 |
文字内容大约只占完整内容的 1/3,如果要获得完整版,请观看视频播客或收听播客,你一定会收获更多惊喜!部分技术细节涉及企业机密,已做删减处理。
| 形式 | 平台 |
|---|---|
| 音频播客 | 小宇宙、Apple Podcast、Spotify 等全音频平台 |
| 视频播客 | Bilibili、小红书、视频号、抖音 等全视频平台 |
| 文字版(节选) | 微信公众号:语言即世界 language is world |