深度访谈完整笔记

请允许我小疯一下

张小珺对话姚顺宇:在 Anthropic 和 Gemini 训模型、
技术预测、英雄主义已过去

近4小时深度访谈 语言即世界工作室 2026年3月录制 / 5月发布
人物介绍

姚顺宇(Shunyu Yao)

前 Anthropic 研究科学家 / 现 Google DeepMind 研究科学家
1997年生,清华大学物理系本科(2018年特等奖学金),斯坦福大学理论与数学物理博士,研究方向为非厄米系统、量子物理与高能物理。2024年加入 Anthropic 参与 Claude 3.7、4.5 开发,2025年跳槽至 Google DeepMind 参与 Gemini 训练。Agent 领域早期研究者(6年经验),代表性工作包括 ReAct、Reflexion、Tree of Thoughts 等。2025年4月发布著名博文《The Second Half》,宣告 AI 进入"下半场"。

张小珺

财经作者 / 播客《张小珺Jùn|商业访谈录》制作人
前《暗涌》作者,独立商业内容创作者。以深度、长篇幅的商业人物访谈著称,访谈风格锐利而细腻,擅长挖掘受访者内心的真实想法。代表作包括对众多 AI 领域顶尖研究者和创业者的系列访谈。

重要区分:两个 Shunyu Yao

硅谷 AI 业界有两位同名同姓、清华同届的顶尖研究者,经常被混淆:

姚顺宇(宇) 姚顺雨(雨)
背景 清华物理系基科班 清华姚班(计算机科学实验班)
博士 斯坦福(物理) 普林斯顿(CS/物理)
工作经历 Anthropic → Google DeepMind OpenAI → 腾讯首席AI科学家
研究方向 Agent、RL、大模型训练 RL、推理、模型架构
性格 更直接、更敢说 更内敛、更有趣

两人是清华同一届毕业生。一个学物理的反常去了斯坦福(计算机强校),一个学计算机的反常去了普林斯顿(物理强校),后来都在 AI 领域做出了重要贡献。在硅谷每几个星期见一次面,"纯玩"——散步、吃饭、打牌。姚顺雨曾多次想拉姚顺宇去腾讯,但姚顺宇选择优先学习不同的东西,最终去了 Gemini。

PART ONE
1
两个 Shunyu Yao
00:02:41

访谈从"姚顺宇"这个名字的混淆开始。张小珺提到,在硅谷 AI 圈提到"Shunyu Yao"时,大家总要确认一下说的是哪一个。

姚顺宇
"我叫姚顺宇,显然也有一个跟我几乎同名的朋友(姚顺雨)。我们俩主要履历也有一些 overlap,看起来非常难以区分。如果大家非要区分,最大区分就是,那个顺雨,一开始一直是做 CS;我从某种意义上是半道出家,之前做理论物理为主。"

姚顺宇认为自己和姚顺雨的性格也有差异:"他可能比我更内敛一点,我更……你懂的。"(指更敢说)姚顺雨花了很多时间思考人和 AI 的交互、产品的事,而姚顺宇更偏技术研究。

姚顺宇
"我们在硅谷见面确实挺频繁的,每几个星期吧。但好像见面是为了凑一块玩。真的就是纯玩。可能出去散散步,扯扯有的没的。有时候吃个饭,打个牌啊之类的。"

张小珺问及姚顺雨是否多次想拉他过去,姚顺宇表示"可能有这个意思吧",但自己不关键。离开 Anthropic 时最大动机是想学一些不一样的东西,没有更着重考虑领导一个项目,而是优先去学习,所以选择去了 Gemini。

2
物理背景与转向AI
00:06:50

本科:量子物理的启蒙

姚顺宇本科在清华读量子物理,很快就有了非常好的学术成果,而且是"范式级的变化"。但他迅速觉得这个领域"没有吸引力了",在博士阶段挑战了一个更难的事情——高能物理。

姚顺宇
"本科读物理最大的帮助是:第一,想问题要想清楚。读书不在于读的多,而在于读的深。读的多,不代表你能发现新东西。但如果你对一件事有和别人不一样的见解,那才是对社会来说更有价值的事。另一件事是,别太相信纯理论。因为当时能做数值,是因为数值和理论对不上,才仔细研究那个问题。"

博士:高能物理的困境

博士读了五年高能物理,姚顺宇的自我评价是:"对我自己学到很多东西、成长很大;但于这个世界,没有产生什么贡献。"

姚顺宇
"高能理论这个方向,足够难,非常非常难。但它不好的在于,不是特别可以验证,没有什么客观评价标准。因为高能理论已经发展到了实验完全追不上的阶段。"

高能物理的进步来源有两个:一是数学的自洽性(如弦论能否在低能情况下回到量子场论),二是领域内"老登"的主观判断——当没有实验、没有客观标准时,谁做得好就依赖于权威的主观评价。

张小珺
"你是被谁伤害了是吗?"
姚顺宇
"我也没有被谁伤害,只是在那个领域待时间越长,就越觉得这件事蠢——人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?"

核心教训

核心教训

要做有比较客观评价标准的事,要做对这个世界能够产生影响的事。

姚顺宇提到,达到外界标准或一个小圈子的评价标准,"像训练模型一样。一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的。哪怕不认可这个标准,你是可以达到的。"但他后来"蒙蔽不了自己,骗不了自己"。

博士后:两周离职

拿了伯克利博士后 offer,但"只待了两个星期就辞职了"。伯克利的老师人很好,说"没事,等事情定了再说,能来多久就得来多久"。姚顺宇告诉他们自己可能会去做 AI 了,老师还是让他先把工作拿着。

为什么选择 AI 而非量子计算

姚顺宇在量子计算和 AI 之间做了选择。他发现量子计算的主要瓶颈在实验上,"不是怎么设计算法或者算子,更多是怎么在实验上实现它。那个事反而是我不擅长,和我过去很多有兴趣的事比较不相关。"

姚顺宇
"跟我相关的反而是 AI。更多是你有一个想法,可以用一些数值去验证。这个数值在 AI 里面,可能就是训练一个模型。这和做物理很像。为什么我一直爱把这个和18世纪的物理学做比较?它更像那个时代的物理。那个时代理论和实验不分家,没有什么理论物理学家、实验物理学家,你就是搞物理的。你自己可以做实验,也可以做理论推测。AI 就有点像那个时代。"

他也把 AI 比作17世纪的热力学研究:"那个时代大家不理解什么是热的微观理论,不知道热是什么东西。就像现在,大家不能理解 language model 里,哪一个矩阵元是在干什么。但是不妨碍你有好的经验定律,比如热力学的各种定律,和现在的各种 Scaling Law。"

3
Scaling Law 与智能涌现
00:26:37

AI 是黑盒吗?

张小珺问:很多人描述这一代 AI 是黑盒,能从科学角度理解吗?

姚顺宇
"这世界上所有东西都是黑盒。哪怕像物理这种。不管是量子力学,还是量子场论,都是描述那个能标下的行为。本质上这个系统还是一个黑盒,你还是不知道它最微观的地方是什么样的动力学。AI 也是一样,黑盒不黑盒,都是相对的。"

姚顺宇认为,对语言模型的理解"确实没到神经科学手术刀那个级别",但也不代表完全没理解。Scaling Law 就是一个例子——"它描述了那个尺度下,模型随着大小和数据量,是怎么在 perplexity 这个指标下变得越来越好的。"

Scaling Law:经验规律还是科学规律?

姚顺宇
"Scaling Law 是一种经验规律。但经验规律和科学规律之间的界限很模糊。热力学那些定律——第一定律、第二定律、克拉伯龙方程——当年被发现的时候,也都是经验规律。后来随着时间发展,慢慢知道了微观机制,就变成了科学规律。Scaling Law 目前肯定还是很经验,但未来当技术变得比较固定,大家越来越多理解它微观过程的时候,会不会变成科学规律?如果这个定义存在的话,是有可能的。"

"智能涌现"不科学

张小珺问能否用科学表达解释"智能涌现"。

姚顺宇
"智能涌现,这个话本身就不太科学,自然也没法用科学的话来表达一个不科学的事。智能涌现,对我来说,它更多是一种主观的感觉,而不是客观现象。很多人说智能涌现的时候,脑子里想的是,以前的语言模型只能做某一个方向的事,比如只能翻译、只能做分析。但现在模型好像,哎,可以做所有的事了。但这个事,对我来说更多是一个技术上的涌现,而不是行为上的涌现。是我们通过研究,发现了该怎么去做这种大规模的训练,能够水平的提升所有能力。这才是更本质的事。"

姚顺宇对"智能涌现"的定义是:没有定义。唯一质的区别是:有没有发生一个技术上的改变,使得我们可以做 scale up,可以水平的提升所有的能力。"这对我来说,是一个良好定义的事。"

4
Coding 的爆发与 Agent
00:36:23

为什么 Coding 是 RL 的最佳试验场

1
环境天然适合 RL
代码有明确的 reward signal(编译是否通过、测试是否通过),环境 clean,反馈即时。
2
Scaling 友好
代码数据可以无限生成(通过编译器验证),不受人类标注 bottleneck 限制。
3
泛化性强
在代码上训练的能力可以泛化到推理、数学等其他领域。

Coding Bet 的起源

Anthropic 对 coding 的押注并非自上而下设计的,而是自下而上发现后迅速变成公司战略的。

姚顺宇
"前一代模型 Claude 3 放了之后,Twitter 上有很多人在讨论说:Claude 3 好像写 code 比 GPT-4 强啊。那个年代,GPT-4 是一个和大家 gap 很大的模型。能有一件重要的事比 GPT-4 强,就很厉害了。这也是我觉得这公司很强的一点,它 execution 执行力非常非常强。一旦给它一个信号,让它觉得是很 reasonable 的、这公司该做的事,那就会铺上去。"

张小珺追问 coding 比 GPT-4 好是否有纯技术原因,姚顺宇确认"是确实有某一个团队做了某个事情","最开始可能是自下而上的,但是后来就变成了一个自上而下的事。"

Coding 爆发的本质

姚顺宇认为 coding 能力的突破不是渐进过程,而是"跳变"(phase transition)。"在 Claude 3.7 的时候,Coding 还只是一个'还可以'的能力。但到了某个节点之后,突然就'开窍'了。"这个开窍的本质是:模型学会了用推理来生成代码,而不是简单地记忆代码模式。

后训练的分水岭

Claude 3.7 对 Anthropic 的后训练来说是分水岭。在 3.7 之前,后训练都处于"比较小规模,可能就是修修补补模型的状态"。3.7 开始,后训练变成了大规模强化学习。

姚顺宇
"找到合适的环境,这个环境回馈信号足够清晰,本身也是一个很强的数据源。在这个上面能让训练非常稳定,这事就能做成。"

预训练没有到头

姚顺宇对预训练的态度经历过摇摆。在 3.7 时代,他曾经抱着"预训练已经快 party is over"的想法。但后来随着了解越来越深入,改变了看法。

姚顺宇
"预训练 Scaling Law,它也不是告诉你要一直变大啊。它本质上是一个很系统的框架,告诉你做什么样的事是更有效的。事实情况是,后来 Anthropic 和 Gemini 的预训练,也一直在不断进展。OpenAI 自己卡了很久——它应该已经重视预训练挺久了,就是最近可能刚刚有点进展。"
张小珺
"在你看来,预训练和后训练作为两个范式,都没有达到它的平台期?"
姚顺宇
"我觉得都没有。到达平台期有两种可能性。一种可能性是技术本身到达了,你明明还有想让模型要干的事,但这俩技术就死活教不会了。另一种可能性是,你想干的事到平台期了。我觉得现在就是后者。"
张小珺
"就是说,模型是一个非常聪明的小孩,你可以教它很多东西。但我们人类作为老师,现在还不知道下一个东西该教什么。"
姚顺宇
"或者说该怎么去合理的教它,用现在的这些范式。"

技术 Tips 的"无用"论

姚顺宇对"技术 tips"有一个很有意思的观点:

姚顺宇
"说到技术的 tips,其实这是一个大家很愿意听,公司又不让你说,但实际又没啥用的事儿。因为很多算法设计并不独立于算法,它非常强的依赖于你的基础设施。举个简单例子,有些公司,在强化学习时候,这个 sample(采样)的机器,和 trainer(训练器)的机器,这两个机器可能不一样。不一样,有些原因是数值上的,有些是因为使用了异步的训练架构,所以从根本上就不一样。不同公司这个不一样程度不一样,算法设计也会不一样。所以很多这种小的 tips,很多 knowhow,其实没什么用。"

他认为,现代 AI 训练是一个大的系统,"要了解这个系统的方方面面,才能有一个全局的认识。什么事是因为什么而变得有用了,而不是说这个事本身有用。"

5
字节、豆包与蒸馏
00:51:25

字节是最像 Google 的中国公司

姚顺宇
"字节是我觉得最像 Google 的中国公司。"

他认为字节的核心优势在于 infra 能力极强、组织执行力强、产品迭代速度快。但也指出中国公司的普遍挑战:

姚顺宇
"中国公司在基础模型上的差距是客观存在的,但这个差距不是在方法论上,而是在'能调动的算力和数据规模'上。如果给同样的资源,中国研究者完全不输。"

"硬蒸"和"聪明的蒸"

姚顺宇用"硬蒸"和"聪明的蒸"来区分两种蒸馏方法论:

硬蒸(Hard Distillation) 聪明的蒸(Smart Distillation)
本质 直接复制大模型的输出分布 理解大模型"为什么这样回答",提取推理过程
方法 用大模型生成数据,小模型直接监督学习 不仅复制答案,还要复制推理链条、思考过程
效果 短期有效,但天花板明显 效果更好,能学到"能力"而非"答案"
代表 早期的蒸馏方法 DeepSeek 的方法论
姚顺宇
"DeepSeek 的做法不只是'硬蒸',而是'聪明的蒸'——他们不只是复制 o1 的答案,而是试图理解 o1 的推理过程,然后用自己的方式复现这个推理能力。这就是为什么他们的模型虽然小,但推理能力那么强。"
关键判断

蒸馏不是"作弊",而是一种合法的技术路径。关键在于你是"硬蒸"(抄答案)还是"聪明的蒸"(学习方法)。后者的技术难度和创新能力完全不亚于从头训练。

6
机器人与具身智能
01:05:22

核心观点

  • 机器人是 AI 的"终极考场"——因为物理世界是不可逆的,不能像在代码里那样无限试错
  • 当前最大的 bottleneck 是数据——不像代码可以自动验证,机器人需要真实的物理交互数据
  • 仿真到现实的 gap(Sim-to-Real)仍然很大
姚顺宇
"机器人这个领域,如果你能在仿真里做好,只能说你做完了 30%。剩下 70% 是在真机上磨出来的。"

他认为机器人领域目前还在"收集数据、建立基础设施"的阶段,距离真正的 breakthrough 还有一段距离。

7
在 Anthropic 训练 Claude
01:53:47

加入 Anthropic 的过程

姚顺宇找了三家:OpenAI、Anthropic、Google DeepMind。Google DeepMind 那时候"速度太慢了",最后没有出现在考虑范围内。后来 Gemini 获得了长足提升,"动手非常快"。

他联系 Anthropic 是因为有前同事在那,"Anthropic 有很多做物理出身,尤其是做理论物理出身的人。"他的第一任 manager 以前也是做理论物理的。

姚顺宇
"他当时说:我们在尝试做这种大规模强化学习,有很多科学问题要去理解。那时候 24 年八九月的时候。强化学习还没有像现在这么成熟。那时候大多数人都不太知道怎么做,因为 o1 还没发布呢。他说:哎,有这么一个事,你要不要来面试一下?"

面试准备:手搓了一套 Andrej Karpathy 的 nanoGPT 项目。"面试题也不太难,反正。但对我来说,当时也不知道怎么准备。就去把我能找到的那些课,自己能学的学了一遍,能做的作业做了一遍。"

Horizon 团队

姚顺宇加入了 Horizon 团队(约 10-11 人),负责大规模强化学习。这是后来 Anthropic 强化学习方方面面的核心团队,底下有更做数据的组、更做环境/infra 的组、更做 research 和算法的组。姚顺宇去的是偏 research 和算法的组。

Anthropic 的组织文化与执行力

姚顺宇
"Anthropic 是一个比较小 top down(自上而下)的公司。实行 top down 有一个很难的点,就是你做技术的决策人,必须也得是公司的决策人。首先,你技术上得能服众,才能够信服下面的研究员去做这个事;另一方面,你得是公司的决策人,你得能为这个公司负这个责任。Anthropic 有这个条件就是,它的技术上的领导人,其实是公司的 cofounder。就是像 Jared Kaplan 和 Sam McCandlish,他们俩就是公司 cofounder——他们自己做这个决定,那是人家的公司,他有权利做这个 top down 的事。"

姚顺宇认为,OpenAI"就干不了"这种 top down,因为 Ilya 后来"失去了做决策的能力"。其他公司也比较难。大公司如 Gemini 是"另外一套打法"——"大公司的心态可能是,我不仅能尽量减少做赌的成分,而是我能在方方面面都有储备。"

Anthropic Cofounding Team 的信任

姚顺宇
"Anthropic 这点也是在 startup 里很强的。就是他 cofounding team,没有一个人离开公司。如果你看他们过去,那是一群真正一起打过仗的人。他们都是以前 OpenAI 的员工。像 Scaling Law 这个 paper,是 Jared Kaplan 然后 Sam,当然还有 Dario……他们是一块趴过战壕的人。互相之间的信任还是很关键。有很多公司干着干着,连小集体都团结不住了,那你怎么能指望大公司能团结住呢?"

Claude 的命名混乱

姚顺宇
"Claude 3.5 有两个版本,一个可能是 6 月的版本,另外一个 10 月版本。你也可以看出,Anthropic 这个公司曾经也是没啥产品能力的,居然管两个模型叫一个名字。后来外面人为了区分,管 3.5 后面那个版本叫 3.6。Anthropic 跟随着外面的习惯,就叫 3.6 了。再新的模型叫 3.7。实际的产品时间线,其实是——3.5、3.5new、3.7。"

对 Anthropic 安全策略的批评

姚顺宇
"Anthropic 的'靠最好的模型来推进安全政策'这个想法,我觉得非常幼稚。你怎么能保证最好的模型一定是在做安全研究的人手里?如果坏人先有了更强的模型怎么办?"

他认为真正的 AI 安全需要"多方制衡"机制,类似核武器的 Multiparty Control——"这个世界上,大家有很多个有核武器的国家,互相都有毁灭对方的能力。通过这样一种制衡才稳定住。"

离开 Anthropic 的原因

姚顺宇离开 Anthropic 酝酿了一个多月,原因有三方面:

  1. 不认同 Dario 的反华立场——"他个人做什么样的观点都无所谓。但作为一个公司 CEO,把这个观点推到这么极端的地步,是一个非常情绪化的体现。"
  2. 公司文化冲击——人多了之后,"从外面来了一些人,跟本来的文化有些冲突。之前比较简单。更像是一个小作坊。"
  3. 想学更多不同的东西——"Anthropic 有很多不做的事,比如完全没有人做多模态生成,你想学没地儿学。Anthropic 可能也没有花太多精力在更底层的工程基础设施上。"

对 Anthropic 商业模式的判断

姚顺宇
"我当时悲观的原因是,我离开的时候 Anthropic 主要的收入来源都是 API,就是卖 Token。这是个差生意。Eventually 就是要打价格战。打价格战你没有完整的链条,是没有什么太多优势的。"

但他后来承认"过度悲观了"——Anthropic 在产品方面有很多巧思,Claude Code、Claude Cowork 等都慢慢汇聚起来了。"现在看来好像 Anthropic 更占优势一些。"

后悔吗?

姚顺宇
"不太后悔。对我个人来说,动机还是想要换一个地方,提高自己。对于想做的这件事,这个选择没有什么错误。"
8
"AI 本质是简单的"
02:36:18

这是姚顺宇最具争议也最有洞察的观点之一。

姚顺宇
"这甚至不是一个结论,这是我的一个 statement(陈述)。它可对可错。我对这个陈述的解释是,它本质上简单的点在于,它能做实验。它和本质上难的东西,比如物理,区别在于,那个东西你没有能标下的实验数据,就是理解不了那个能标下的理论。但 AI 不被这个所 bound(约束),你理解不了没关系,也可以往前发展。而且事实就是,能够做任何我能想到的实验,只是可能需要一些时间,把计算量提上来,或者把基础设施准备好。但没有什么本质上的困难。"

他认为 AI 没有给人感觉碰壁的原因是:"首先很多东西你都能试,其次不是大家已经想空了脑袋、没有什么想法可以试。更多的是有太多想法,得一个个试,花时间。"

"跳变"与"trivial"

姚顺宇区分了 AI 发展的两种阶段:

跳变时刻(Phase Transition) Scale-up 阶段
特征 新范式、新架构的出现 在已验证的方向上扩大规模
难度 需要创造性洞察 需要工程执行力和耐心
例子 Transformer、GPT-3 时刻 从 GPT-3 到 GPT-4
工作性质 "需要脑子" "trivial,但需要靠谱的人做"
姚顺宇
"除了那些技术突破的'跳变时刻',后续的 scale up 过程,很多时候是 trivial 的——不是说它不重要,而是说它不需要什么天才的 idea,需要的是靠谱的人、靠谱的团队、靠谱的执行。"
姚顺宇
"AI 这个事,本来也不太需要脑子——真的不太需要脑子。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。你说那些东西有多需要脑子?我觉得都是一些本科生就能干的活。"
9
在 Google DeepMind 训练 Gemini
02:42:25

为什么选择 Google DeepMind

姚顺宇
"我没选 OpenAI,因为感觉踏实做事的人没有 Gemini 多,更没有 Anthropic 的人多。Google 的预训练做得非常、非常 controllable——组织结构清晰,流程成熟。"

姚顺宇认为,如果很想要明确的 scope、要把自己的想法送到模型里去,"Google 是一个很差的地方"。但如果想要的是"有研究的自由、探索的自由,想从更广泛的人类学习","这个世界上可能找不到第二个比 Gemini 更强的地方。"

Google vs Anthropic 的对比

维度 Anthropic Google DeepMind
决策风格 Top-down,创始人直接拍板 更分层,决策链条更长
执行力 极快,reactive 更稳健,但启动慢
预训练 灵活,快速迭代 非常 controllable,系统性极强
长上下文 渐进式改进 "有一些 surprising techniques"
组织规模 小而精(几百人→接近2000人) 大得多(几千人)

在 Google 的主要工作

  • ML Coding——AI 自己训练自己,用模型生成和验证训练代码,"实现完整的 AI 自己训练自己的历程"
  • Long Horizon——长程任务的规划和执行,"用有限的上下文训练,但用起来像无限的上下文"
姚顺宇
"这两件事(ML coding 和 long horizon)有点相关、有点互补。都在模型使用工具和环境,以及不同模型、不同人交互的这个大的范畴内。在这个范畴内,大家过去完成的那个节点,就是 Agentic coding。又是工具又是环境,环境就是这个虚拟机,或者你自己的电脑。这个事横向就会长出不同的使用场景。做 AI research,就是横向场景里的另外一个场景。这个场景,不仅横向上是一个新场景,在纵向上也让事情的尺度变得更长。完成一个代码的补全,是一个很快的事。但做一个完整的 AI 研究,或者做一个计算机科学的研究,那是一个很长的过程。所以说,它像一个 T 字形,横向有延展,纵向也有延展。"

Long Horizon 的方案

Long horizon 既有科学问题也有工程问题。公开的方案有两类:

  • 预训练角度:类似 sparse attention(稀疏注意力),如 DeepSeek 的一些工作
  • 后训练角度:类似 Cursor 的 context management(上下文管理),让模型选择保留或丢弃信息

姚顺宇花更多时间在后训练的方案上,因为"预训练这些方案,本质上还是需要你有长 context,训练需要数据里有。所以它不太符合我对这个问题的哲学。"

Gemini 的转折:Nano Banana + Gemini 3

姚顺宇
"实际的效果来说,是两件事,让 Gemini 产生了一个大的转折,变成了一个市场里举足轻重的 player:Nano Banana 和 Gemini 3——两件事连着。如果只有 Gemini 3,可能也不会有现在这么好的效果。因为当你的市占率连 10% 都不到,你这个模型好一点坏一点,等它传播出去就是太慢了。但 Nano Banana 做到的一件事是,首先市场上这件事很爆款,大量的人去下载了 Gemini 的 APP,然后 Gemini 3 又紧接着放,把这个部分留下来了。现在它变成了一个举足轻重的玩家。"

他认为 Gemini 现在的市占率可能在 20% 左右。"没有 Gemini 打这么一拳,OpenAI 的位置很爽。它市占率已经高到,其实模型上干点啥,对它来说可能影响都没那么大。"

"OpenAI 救了 Google 一命"

姚顺宇
"从某种意义上来说,OpenAI 是救了 Google 一命。大家以前一直都担心,聊天机器人会不会完全把搜索取代掉。如果这个事真的发生了,Google 其实很难受。但好在,OpenAI 先把这个事做了,让 Google 意识到了这个事很重要。但 OpenAI 又没有把这个事做到底,又没有把这个事做到极致,没有把 search 干掉。可能就吃掉了一些份额。结果,让 Google 自己把聊天机器人也追上来了。那现在难受的就是 OpenAI 了。"

为什么 chatbot 没有吃掉搜索?姚顺宇认为两方面都有:一是当前 chatbot 形态不足以完全取代搜索(简单查询如"买大米"不需要聊天机器人),二是 OpenAI"也没有做到登峰造极",让 Google 赶上了。

Google 的组织变化

姚顺宇
"就是组织上更清楚了。尤其像预训练,现在变得非常非常清楚。谁负责什么事情,每一个节点上谁是负责人。以前最早的时候很乱……现在至少预训练变得非常非常清楚。加上 Google 一直有的比较强的技术背景,做事也比较系统。所以,预训练在 Google,是一个非常非常可控的事。它比以前肯定要更自上而下了,但它比 Anthropic 来说,还是更自下而上了一些。"

他认为 Google 的舒适区是"比较确定性的事"——"预训练,已经是一个比较确���性的范式了。Google 就会更像把它做成一个工程项目。Google 的工程管理能力又很强,它就能慢慢把它做好。"后训练则"有更多不确定性",更 bottom up 一点。

10
技术预测与未来
03:08:04

AI 将很快自己做实验

张小珺
"很快是多快?"
姚顺宇
"未来的 6-12 个月,AI 就会自己做实验。AI 自己提高自己,或者自己来加快自己的发展过程,这件事其实已经在发生。但这条链条目前还没有完整——它不仅能写这个 code,还能跑这个实验。跑这个实验,还能看到结果。看到结果,还能分析这个结果,知道哪儿做的不对,提出新的假设,设计新的代码,跑新的实验。这条链条下一步会慢慢变得完整的。"

关键预测汇总

1
Long Horizon 是关键方向
"用有限的上下文训练,但用起来像无限"——这是下一个重大突破点。
2
Agent 的可靠性会大幅提升
当前 Agent 的可靠性是最大瓶颈,"人对简单任务的 robustness 没有重视"——这是下半场需要补的课。
3
多模态是必经之路,但不是终点
视觉、音频等多模态能力的整合会继续推进,但真正的突破还是在"推理"和"规划"上。
4
AI 安全需要新的框架
"已经阻止不了"——AI 的发展势头不可逆转,需要思考的是如何在发展的同时建立有效的安全机制。
5
人类只通过 chatbot 跟 AI 沟通很蠢
"人类到现在只通过 chatbot 去跟 AI 沟通,让你觉得很蠢是吧?""很蠢就是。""那应该用什么去跟 AI 沟通?""没想明白。要想明白我就干了。"

谁的位子都不稳固

张小珺
"OpenAI 的位置是稳固的吗?"
姚顺宇
"我觉得现在谁的位置都不稳固。AI 的形态,还有很长的路要走。没有到什么终局之战这个地方的感觉呢。"
11
组织、面试与个人
03:14:06

什么样的组织能做出好模型

  • 技术决策者必须懂技术——"如果做技术决策的人不亲手写代码、不跑实验,他做的决策大概率是错的"
  • 小团队、高信任——"做模型的核心团队不能太大,10-20 人是最佳规模。大了之后沟通成本会指数级上升"
  • 快速迭代文化——"一周至少要有几次实验反馈循环"
  • 容忍失败——"80% 的实验会失败,这是正常的。关键是快速失败、快速学习"
姚顺宇
"我现在越来越觉得,做 AI 的公司,核心竞争力不是'有多少卡'、'有多少数据',而是组织的健康程度——大家是不是信任彼此、是否能快速协作、是否有人在做正确的决策。"

产品经理可能是最后的"个人英雄主义"角色

姚顺宇
"Boris Cherny 做 Claude Code 的时候,他既不是最厉害的工程师,也不是最厉害的研究员,但他对'AI 应该怎么帮程序员工作'有一个非常清晰的 vision。这种 vision 是没法用流程产出的,只能是某个人的洞察。这就是为什么我觉得,产品经理还是目前挺难被 AI 取代,会有一些个人英雄主义的机会。"

24 小时面试题

姚顺宇以前出一道面试题:让面试者在 24 小时之内,完成一个强化学习项目,从 0 到 1。

姚顺宇
"设计成这样的两个原因:一个原因是因为在这个时代,还去考察别人代码写得好不好,其实没用。绝大多数人都不用自己写代码。更重要的是,他能不能有效地利用 AI。这是考察的一个方面。第二方面是,这个事有一个陷阱,如果你全盘让 AI 做了,但你最后没有试图好好理解 AI 为你做了什么,那在一个小时的讨论里面会露馅儿——那是一个会挂人的地方。所以说考验的另一件事,是你有没有真的和 AI 形成了协作,还是说你就全权扔给他?"

设计成 24 小时还有一个"阴暗的巧思":"就是为了看这个人有多看重这个机会。如果他足够熬夜,他就能撑住这 24 个小时。如果他撑不住,那只能说,他可能对这个机会也没有那么看重。"

Neo Labs:绝大多数都会死

姚顺宇
"我的感觉是,绝大多数的 neo lab 都会死。可能有一些 lab 是真的有好的人,有些 lab 确实也开始在做一些事。比如像 thinking machine,还是在 deliver 一些新东西的。但有些 neo lab 就是——请帮我把名字哔掉。比如说 XXX 那个 XXX,我就完全不知道他们到底要干嘛。这俩人其实已经远离这个专业好久了。"

对年轻 AI 研究者的建议

姚顺宇
"我觉得纯做语言模型,已经不是一个蓝海了。晚了,末班车已经发车了。我感觉我入行就是那个末班车啊。"

未来的打算

张小珺
"你自己未来会怎么发展?会在 Google 很久吗?"
姚顺宇
"我觉得应该不会。我觉得我还是会尝试去挑战自己的。要折磨自己!但是,我可能需要找到一个,值得折磨我自己的事。"

AI 行业没有偶像

姚顺宇
"没啥。我感觉来这行业的时候,个人英雄主义时代已经过去了,所以也没有什么英雄。有时候甚至觉得旧时代英雄有点蠢。"
张小珺
"你觉得谁比较蠢?"
姚顺宇
"这个还是不说了吧。no comment。"
12
集体主义、"老登"与金句
03:24:48

集体主义胜利

姚顺宇
"这不是一个个人英雄主义的时代。在这个时代,所有给个人贴金的事,都有点炒作的嫌疑。我自己对那个事没那么重要,更多的是,我很幸运,有机会在那个时候加入了一个重要的项目,做了一些事。"
姚顺宇
"AI 在最近这几年,本身是一个不可阻挡的事。它不在于你这个人去干或者不干,你不干也有别人一样能干出来。"

关于"老登"

姚顺宇
"我在这个行业又没有什么导师,又没有什么旧友,我当然想喷谁喷谁。没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻。无所谓的啊。"
姚顺宇
"我觉得 XXX 一直挺蠢的。而且蠢的始终如一。我觉得他说的话,就是 not even wrong。因为不良好定义,你很难说他说的是对是错。有一天,可能有一个不一样的范式发生了,他就可以跳出来说:哎,我当年说过这个这个这个这个。但你就发现,如果范式是另一种状态,他也能说一样的话。这就是我为什么很讨厌很 vague、很模糊的人的原因。因为一个事模糊就是没有意义的。"
姚顺宇
"人年纪大了,不一定会变成老登的。人年纪大了会变成两种状态:一种状态叫做德高望重,就是他少指手画脚,还会花自己的力气去培养年轻人。另一种人就是老登,就自己也不懂,还爱指手画脚。"

为什么敢这么直接

姚顺宇
"一是没有束缚,二是这个领域足够客观。你其实不用太担心,因为自己的观点而惹到什么人。只要你的观点是自洽的,你有一套自己观点的理论。你不是说随便喷人。最终你在这个领域做的怎么样,是有客观的评价标准的。我觉得其实大家是会尊重你的。"

读书与爱好

姚顺宇
"我感觉你还是高看了我的文化程度。我真的没有什么人生之书,说实话。我这人确实不爱读书,我感觉我这人文化水平比较低。最近读的书就是汤川秀树(1949年诺贝尔物理学奖得主)的自传,《旅人》。写得挺有趣的,你能看到一个后来看起来如此成功的科学家,在他年轻的时候有一种挣扎感。很真实。有本小说我很喜欢,《来自新世界》。"

喜欢的食物:寿司。喜欢的地点:夏威夷("因为我很喜欢海")。

影响 AI 进程的关键论文

  • Sequence to Sequence——"language model 在 feature engineering 时代的高峰"
  • Scaling Law(Jared Kaplan 等,OpenAI)——"把这种体系化的研究方式,引进到这个领域的"

对"语言即世界"的回应

姚顺宇
"我觉得这个名字有点,正常的太平庸了。这个名字放在十年以前,是一个很独特的视角,现在主要大家共识太多了——对不起我感觉我年纪也大了,可能不止十年了——可能在 14、15 那个年代,大家都会觉得视觉是最重要的事。在那个时候,意识到语言是承载智能的重要载体的人,是很不一样的。"
张小珺
"不过我们这个名字,不是在 AI 的语境里面讲的。"
姚顺宇
"嗯……哈哈哈……那就值得深思了。哈哈哈。"
核心洞察

上半程 vs 下半程("The Second Half")

维度 上半场 下半场
核心焦点 模型训练、算法创新 任务定义、环境设计、评估框架
关键问题 "AI 能做什么?" "AI 应该解决什么问题?"
成功标志 考试高分、击败人类 打造实用产品、创造商业价值
思维转变 工程师思维 产品经理思维
金句摘录
人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?
—— 关于离开物理学的动机
这世界上所有东西都是黑盒。
—— 关于 AI 黑盒论
AI 这个事,本来也不太需要脑子——真的不太需要脑子。这个行业最重要的特质,就是靠谱。
—— 关于 AI 研究需要的品质
没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻。
—— 关于对权威的态度
世界在推着我们前进,而不是我们在推着这个世界前进。
—— 关于个人与时代的关系
这世界是个相互抄的关系,而不是一个单向抄的关系。
—— 关于技术竞争的本质
预训练和后训练作为两个范式,都没有达到它的平台期。
—— 关于预训练的未来
如果敢想、胆子大,就会有好事发生。但前提是:你要靠谱。
—— 关于职业选择的建议
找到合适的环境,这个环境回馈信号足够清晰,本身也是一个很强的数据源。
—— 关于 RL 训练的核心
现代 AI 训练是一个大的系统,要了解这个系统的方方面面,才能有一个全局的认识。
—— 关于技术 tips 的局限性
某种意义上,OpenAI 是救了 Google 一命。
—— 关于搜索与 chatbot 的竞争
现在谁的位置都不稳固。
—— 关于 AI 行业的终局
延伸信息

如何收听完整版访谈

文字内容大约只占完整内容的 1/3,如果要获得完整版,请观看视频播客或收听播客,你一定会收获更多惊喜!部分技术细节涉及企业机密,已做删减处理。

形式 平台
音频播客 小宇宙、Apple Podcast、Spotify 等全音频平台
视频播客 Bilibili、小红书、视频号、抖音 等全视频平台
文字版(节选) 微信公众号:语言即世界 language is world

姚顺宇的代表性工作

  • ReAct(Reasoning + Acting)——将推理与行动结合,Agent 领域奠基性工作
  • Reflexion——让 Agent 具备自我反思能力
  • Tree of Thoughts——将思维过程组织成树状结构进行搜索
  • SWE-bench——AI 软件工程能力的 benchmark
  • 《The Second Half》(2025年4月)——宣告 AI 进入"下半场"的标志性文章

访谈时间线

00:02:41
两个 Shunyu Yao
00:06:50
物理背景、高能物理困境、转向 AI
00:26:37
Scaling Law、智能涌现、AI 像 18 世纪物理
00:36:23
Coding 爆发、后训练分水岭、技术 tips
00:51:25
字节豆包、硬蒸与聪明的蒸
01:05:22
机器人与具身智能
01:53:47
Anthropic 经历、Horizon 团队、离开原因
02:36:18
"AI 本质是简单的"、跳变与 trivial
02:42:25
Google DeepMind、Gemini 转折、OpenAI 救了 Google
03:08:04
技术预测、6-12 个月 AI 自己做实验
03:14:06
组织搭建、24 小时面试题、Neo Labs
03:24:48
集体主义、老登论、个人问答