来源:鲸林向海(基于 WhynotTV Podcast #4 访谈整理)
原文链接:http://www.itsolotime.com/archives/18931
播客链接:https://www.youtube.com/watch?v=I0DrcsDf3Os
类型:访谈对话实录(约 12,000 字)
一句话概括
这是翁家翌在WhynotTV播客中的完整对话实录版本,以问答形式忠实还原了采访全过程——从Offer取舍、加入OpenAI、搭建ChatGPT后训练系统,到Sam Altman被开除内幕、DeepSeek引发的内部警觉,以及对AGI和未来的哲学思考。
阅读说明
本文为访谈对话实录,保留了采访者何泰然与翁家翌的完整问答原文。如果你希望快速了解核心观点,建议先阅读智东西的结构化深度报道版本,再回来看这份实录获取完整语境。
“ChatGPT 并不是 OpenAI 精心策划出来的。”
“Agent 和 RL 后训练本质上是一回事。”
在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。
而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL Team” 和一整套外界至今都没有完全看清楚的工作方式。
强化学习如何真正跑在大模型上?后训练(post-training)是怎么从一个不存在的概念,变成支撑 GPT-4、GPT-5 的核心管线?OpenAI 内部到底靠什么,把模型一轮一轮推到新的上限?
近日,OpenAI 一位华人研发工程师翁家翌在一期播客采访中,以一名深度参与者的视角,揭示了 OpenAI 过去三年的重大转折、技术取舍、基础设施(Infra)建设,乃至一些内部看法。
翁家翌是极少数完整参与了从 ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o 到 GPT-5 完整后训练链路的工程师之一。他与团队成员亲手搭建了 OpenAI 内部的强化学习与推理基础设施——这套 infra 直接决定了模型能否“继续变好”。
翁家翌本科毕业于清华大学计算机系,随后在卡内基梅隆大学深造。在 2022 年 7 月入职 OpenAI 之前,他就已是小有名气的开源开发者,其参与的项目如 Tianshou、EnvPool 等受到业内关注。如今,他作为 OpenAI 的研发工程师,在大型语言模型的后训练架构和强化学习基础设施上发挥了关键作用。
在近一小时的深度访谈中,翁家翌探讨了在 OpenAI 工作三年多的所见所感,并澄清了几个外界长期存在的误解:
近两年,AI 圈的研究范式天平,为何正在向“工程能力”倾斜,而非传统的PhD 训练?
为何在 OpenAI,想法(idea)很便宜,基础设施(infra)才是最稀缺的生产力?(他认为研究员可能先被 AI 取代,其次是 Infra,最后是销售。)
为什么很多研究瓶颈,本质上只是 Bug 还没修干净?
以及,为什么 ChatGPT 的成功,更像是一场被快速迭代“逼”出来的结果,而非一次完美设计。
在翁家翌看来,基础模型公司的生死线指标,就是单位时间内的迭代速度和成功率。OpenAI 几乎不关心外部压力,唯一一次引起内部警觉的是“DeepSeek 时刻”,因为对方的迭代速度。他透露,OpenAI 已经很长时间没有为了刷 LMSys 等榜单而特意做什么。
除了技术方法论,翁家翌也被问及 2024 年年初的管理层风波。他回应称,核心原因是不信任,所谓“Ilya 看到了什么”完全是空穴来风的谣传。对于 Sam Altman 的回归与 Ilya Sutskever 的离开,他认为可以将 Sam 抽象为一种对 OpenAI 无可替代的“身份标识”(Identity)。
翁家翌还表示,团队正在为下一代 OpenAI 系统重构一套基础设施。他认为,未来五年,规模扩展(scaling)的最大瓶颈并非算力,而是现有方法尚未真正触及极限。总之,“Infra 是一个无底洞!”不过他也坦承,自己所做的工作并非不可替代,OpenAI 的路径也并非完全无法复刻。
以下为访谈节选,聚焦于翁家翌的职业选择与入职 OpenAI 初期的经历。
Offer取舍:没有去谷歌,幻方 VS OpenAI
何泰然:
你当时是不是一入学就已经开始考虑找工作的事了?整个过程大概是怎样的?
翁家翌:
算是的。一开始我投了大概 18 家公司,最后只收到了两个 offer:一个是 Google,另一个是 OctoML(陈天奇老师的公司)。当时我心里其实很明确,如果只有这两个选择,我会去 OctoML,而不是 Google。
何泰然:
你刚才说“Google 没什么意思”,这个“没意思”你当时是怎么判断的?
翁家翌:
主要是我不太想在大厂里当一个螺丝钉,做一些自己兴趣不大的事情,比如前后端这类工作。后来我自己也想得更清楚了一些,又继续去面试,之后拿到了幻方(浩方)的一个 offer——他们当时说要做 AI Lab,后来就是 DeepSeek。我当时其实是拿了这个 offer 的,但最后也没有去。
何泰然:
所以你最后去了 OpenAI。现在回头看,如果“开天眼”的话,当时你的选择其实是 DeepSeek 和 OpenAI 之间的取舍,对吧?而且幻方那个方向也不是量化,而是 AI。
翁家翌:
对,幻方当时做的是 AI Infra。如果我当时没有其他更好的 offer,我大概率会选幻方。
何泰然:
你说的“其他 offer”,是指除了 OctoML 以外的吗?
翁家翌:
对。后来其实还有 OpenAI,以及 NVIDIA。NVIDIA 当时也是做 AI Systems。FAIR 其实也面过,但最后因为一些流程原因把我拒了。
何泰然:
所以你当时真正摆在桌面上的选择,大概是:幻方、OpenAI、NVIDIA,甚至还有 TikTok 之类的可能性。最终你选了 OpenAI。这个决定当时是怎么想清楚的?
翁家翌:
当时我觉得,OpenAI 一直在做强化学习,在那个时间点,它和 DeepMind 是我心里 AI 领域最强的两个研究实验室。我原本甚至没太敢想自己能进去,本身能拿到 offer 就已经觉得很幸运了。
我更看重的是一个机会:去真正体验世界最前沿的研究是怎么被系统性地做出来的,而不是像在学校里,几个 PhD 手搓一个项目,缺少方法论,整体感觉很别扭。我想看的是,一个成熟的工业级研究机构,到底是如何组织研究、推进项目的。
入职 OpenAI:动机、方法论与“研究该如何被做出来”
何泰然:
你当时去 OpenAI,是直接进了 John Schulman 的组,对吧?是他亲自招的你?(注:John Schulman 是 OpenAI 联合创始人,现代强化学习奠基人之一。)
翁家翌:
对,是 John Schulman 面试的我,也是他把我招进去的。我一直非常感激他给我这个机会。甚至到他后来离职那天,我真的难过了一个下午,把电脑关了,什么事都没做。
何泰然:
听起来他当时对你是挺认可的。你有问过他,为什么会选你吗?
翁家翌:
问过。他跟我说过几个点。
一个是他觉得我 GitHub 非常“干净”,工程质量很好。
另外一点,其实也跟他的评价体系有关。他本身就很认同一个判断:如果一个人有扎实、系统性的工程能力,把这样的人招进来,对任何研究项目都是正向加成的。只是以前很多人没有把这一点当成核心指标。
何泰然:
面试过程中有什么有趣的细节吗?你认为自己是如何打动他的?
翁家翌:
最后一轮面试是他亲自出题,是一个非常端到端、开放性的任务。他给了我三个小时,要求从零开始写一个完整的东西。我大概两个小时就完成了,然后当场演示。
演示时恰好暴露了一个 bug,我现场就把它修复了,整个流程也都跑通了。可能在他看来,我既能完整实现工程任务,遇到问题也能快速定位和修复,同时技术理解也还过得去。
翁家翌:
后来我才知道,这道题他一共只给过两个人做,一个是我,另一个是现在负责 Codex 的那位初级同事。我们两个都通过了。
何泰然:
那通过率是 100%。
翁家翌:
是的。
在 AI 时代,工程能力优先于 PhD
何泰然:
在继续聊 OpenAI 之前,我很好奇一件事:你当时找工作时,有没有认真考虑过读博士?
翁家翌:
没有。
何泰然:
为什么这么确定?
翁家翌:
因为我接触过不少工业界的人,发现如果你的目标是进入工业界,那么读博士很多时候是在浪费时间。你完全可以把硕士作为跳板,通过项目、实习和实际产出,去满足工业界对博士的“隐性标准”。
比如在本科或硕士阶段,积累足够有区分度的研究或工程经验,做出一些真正能拉开差距的项目,你就可以和同一批博士在同一个赛道上竞争。关键在于差异化,而不是学历本身。
何泰然:
所以你其实很早就想清楚了,自己一定要走工业界这条路。
翁家翌:
对。我不太想走学术道路。教书、做教授都太“卷”了,也不是我真正想要的生活。而且为了一个项目不停申请经费,各种限制很多。我觉得不如直接去工业界,把精力用在真正能推进事情的地方。
何泰然:
从招聘角度看,如果我们公司同时面对一个硕士和一个博士,你会不会觉得这两种背景培养出来的能力本身就不一样?
博士更多训练的是学术能力:怎么写论文、怎么把故事讲圆满、怎么把图画得好、怎么对外发表。你觉得这些能力对公司重要吗?
翁家翌:
我觉得在某种程度上是有价值的,它确实是一种训练。但如果和极致的工程能力放在一起比较,放在当下这个 AI 时代,工程能力的权重明显更高。
何泰然:
为什么你现在会这么确定?毕竟你自己也发表过论文,也做过很受欢迎的开源基础设施项目,两边其实都体验过。
翁家翌:
我引用一位同事说过的话。他本身也是 AI 方向的博士,还做过一个很出名的 AI 框架。
他说过一句很直接的话:教一个研究员做好工程,要比教一个工程师做好研究难得多。
Idea is Cheap,前沿探索本质上拼的是谁家基础设施的修 Bug 速度
翁家翌:
原因在于,现在很多研究实验室的前沿探索,本质上比拼的是基础设施的正确性。只要基础设施是对的,接下来比拼的就是单位时间内你能跑多少轮实验、迭代多少次。
而想法本身其实很廉价。你找几个人讨论一下,很快就能冒出来一堆想法,然后就去验证。只要能验证好,这就相当于你的研究工作。
你其实不用动那么多脑子,因为那些真正“动脑子”的人,往往是已经在一个领域深耕多年的研究者,比如 Alec Radford 这种,从 GPT-1 时代就开始做这件事。他们的研究直觉是长期积累出来的,比普通博士要有用得多。
而大多数情况下,你只需要和这些人讨论就够了。想法的成本非常低,关键是执行和验证。
剩下比拼的就是,你在单位时间内能够验证多少有效的想法。
何泰然:
所以本质上是:基础设施是否正确,迭代是否足够快。现在很多博士并不是围绕这个目标被训练出来的。
翁家翌:
对,他们的培养重点不在这里。我认为现在的学术培养体系,本质上是在训练一种相对“友好”的学术研究路径。但这种能力,在公司里同样会自然生长。只要你在一个领域工作足够久,就会形成研究直觉,知道什么是值得做的,什么是没必要投入的。
何泰然:
所以说,想法很廉价。真正值钱的是很强的工程能力,能把基础设施快速迭代起来。有了这个之后,验证想法的成本会变得很低。
翁家翌:
在我的认知里,每一家公司的基础设施都存在不同程度的 bug,而谁修得多、修得快,谁的模型就训练得更好。
何泰然:
那是不是可以说,LLaMA 追不上 GPT,是因为 bug 太多?
翁家翌:
也许吧,我不确定,但这是一个合理的猜测。
更喜欢“卖铲子”这一层
何泰然:
所以你早就意识到,整个流程能不能跑起来,关键不在算法创新,而在于正确的超参数、可靠的基础设施,以及能支持快速迭代的系统。
翁家翌:
对,而且我个人对研究里反复调参这件事并没有兴趣,对我没有吸引力。我更喜欢做“卖铲子”的那一层。
何泰然:
你更想搭一个游乐场,把基础设施打好,让别人进来玩、发论文。
翁家翌:
对,别人发论文时,顺便把我带上就行。你会发现很多模型发布里都有我的名字,就是因为我在 OpenAI 内部搭建了整套后训练的 AI 基础设施。
何泰然:
所以整个后训练的 AI 推理,你是核心贡献者之一?
翁家翌:
是的。大家之前训练 RLHF 模型,基本都基于这套后训练推理系统。所以每一次大的发布、大的模型发布,我的名字都会出现。
何泰然:
那可以说,每一个 OpenAI 发布的模型里,都有你的一部分,因为你一直在卖铲子。
翁家翌:
而且我算是卖铲子里最面向“客户”的那一层,因为推理处在整个系统的最顶端,生态位很高。如果太底层,比如写数据加载器或存储系统,名字就没那么容易被看到。
何泰然:
对,那些东西虽然重要,但不是每个人都直接依赖;而 AI 推理是所有人都想要的。
翁家翌:
我之前也认真想过自己的职业路径,当时给自己定了一个指标:最大化我在 OpenAI 官方博客上出现名字的次数。
何泰然:
你真的很会给自己设计奖励函数。
翁家翌:
那反推回来,你要做什么?肯定是做基础设施。单点研究很难规模化,而基础设施是所有人都会用的,自然就能规模化。我又正好擅长做强化学习基础设施,这在当时是一个非常合适的机会。
何泰然:
这条主线,其实从你进清华开始就已经定下来了。那站在今天这个时间点,你会怎么建议那些还在本科、硕士阶段,犹豫选择工业界还是学术界的人?尤其是在 2025 年这样的环境下。
翁家翌:
从长远来看,我觉得现代学术体系本身是需要被重构的。
何泰然:
但很多有抱负的年轻人,希望像你一样做出真正的贡献。他们会纠结:是读博士,还是尽早进入工业界?
翁家翌:
我个人更倾向于尽早进入工业界。因为读博士的不确定性很大,你不知道毕业时技术范式是否已经变化,很可能你多年投入的方向,突然就失去了意义。
翁家翌:
如果你的目标是进入 AI lab,首先要想清楚一个问题:AI lab 到底需要什么样的人?如果他们更需要 infra 能力,那你就多做 infra,即使没有 PhD,也不构成实质性障碍,关键在于经验是否真正有用、是否匹配。
何泰然:
那在你看来,现在 AI lab 最缺的是什么样的人?
翁家翌:
Infra 仍然是一个无底洞。Research 需要的是少数真正有研究直觉的人,而从 ChatGPT 之后,在这个行业连续干了三年以上的人本来就不多。当前更现实的问题在于:你能不能 scale up?单位时间内能迭代多少次?这直接决定了整体生产效率。
何泰然:
听起来,对 PhD 并不是一个特别友好的环境。这其实也对应一个我们都很有体会的 gap:学术界的 RL 研究长期在 Atari、MuJoCo 这些 benchmark 上反复 overfit,比的是谁在 100K step 时分数更高;而工业界完全不关心这些,关注的是用 RL 解决真实问题。
翁家翌:
我在 2022 年 8 月意识到这一点后,就逐步停止了天授的开发。因为天授主要还是面向这些 toy benchmark。我觉得应该把时间投入到更有意义的事情里,比如在 OpenAI 内部把 RL infra 做好,所以后来的工作重点基本都在维护和开发这套 infra 上。
何泰然:
说实话,你在 2022 年形成这个判断是非常超前的,当时远远不是共识。那你为什么没有写篇 blog,把这个信息差直接捅破?
翁家翌:
我担心说得太明白,会被认为涉及内部信息,哪怕严格来说也不算泄密,但总有风险。
OpenAI 所有模型的起源地:RL 团队
何泰然:
那我们就顺势聊聊 OpenAI。你是极少数完整参与了 ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o、GPT-4.5 到 GPT-5 的核心贡献者之一。有人只参与前半段,有人只参与后半段,但你从头到尾都在。
如果用三个词概括你的贡献,我会说:强化学习、post-training 和 infra。我们稍后细聊这些技术和故事,但我想先问一个看似简单、其实很难的问题:什么是强化学习?
翁家翌:
只要存在反馈机制,你能把问题建模成一个环境,并且从环境中获得反馈,这个“行动—反馈—更新”的闭环,本质上就是强化学习。
何泰然:
通过反馈不断修正,让系统越学越好。那第二个关键词是 post-training,大语言模型的 post-training 到底是什么?
翁家翌:
其实我刚入职的时候,还没有 post-training 这个说法。当时我的 team 就叫 RL,内部也没有明确区分 pre-train 和 post-train。
何泰然:
也就是说你刚进 OpenAI 的时候,这个概念还不存在。但那时 ChatGPT 已经是主线了吗?
翁家翌:
不是。当时只有 John Schulman 下面的 RL team,在做 WebGPT 的后续版本。WebGPT 基于 3.5,主要做 browsing,但直接用 3.5 效果很差,因为 browsing 强依赖 tool call。
所以我们当时退了一步,先把用户交互体验做好,核心问题变成了 chat,而 chat 可以通过 instruction following + RLHF 来解决。
何泰然:
所以你进去的时候,GPT-3.5 在内部已经是可用状态了。
翁家翌:
对,但当时 PPO 的 pipeline 非常不好用。那段时间我们主要用的是 GPT-3.5 的 SFT,不断迭代。后来才有 GPT-4,再后来 Greg 写了一整套新的 infra,用来支持 GPT-4 的训练,也顺带支撑强化学习。
OpenAI 自己也没想到 ChatGPT 会成为 Game-changer
何泰然:
你是 2022 年 7 月入职的,那时候距离 ChatGPT 发布只有几个月。OpenAI 内部当时能预想到它会有这么大的影响吗?你自己在内测时,有意识到这是 game-changing 的东西吗?
翁家翌:
没有。我能看到的反而是很多不足。第一次用的时候,只觉得是个会说话的模型;多用几次,发现能帮我写点代码,但解决的问题也有限。
因为我提前参与了整个过程,是逐步看着它变好的,所以没有“突然被震撼”的感觉。但发布之后给身边的人看,他们的反应非常强烈,这一点是我没预料到的。
何泰然:
那 2022 年 7 月,OpenAI 是已经整体 all in ChatGPT 了吗?
翁家翌:
没有,只有我们这一组在做。你可以去看 ChatGPT 的 blog,contributors 列表里,从 John Schulman、Barrett 到 Zhao Shengjia,一共十来个人,基本就是我们整个组。
何泰然:
那你什么时候意识到:我在 OpenAI 做的事情,真的引爆了一个时代级产品?
翁家翌:
应该是 ChatGPT 发布之后。我当时在开 NeurIPS,大概 11 月 30 号发布,过了几天发现身边所有人都在讨论它,而且服务器被打爆了好几次。
那种感觉和我当年做「退学」应用很像,用户会自发传播,形成“自来水”效应。一旦出现这种现象,就说明这是值得持续投入精力的事情。
ChatGPT 不是精心计划出来的
何泰然:
听起来,无论是你个人加入 OpenAI,还是 OpenAI 最终做出 ChatGPT,都不像是某个精心规划的结果,更像是一系列半偶然、半必然的化学反应。
翁家翌:
确实如此。最初发布 ChatGPT,其实只是想收集真实用户数据,甚至做好了几天后就关掉的心理准备。我们预期的曲线是先有一两万用户,然后迅速回落。
翁家翌:
但真实的曲线是指数级增长。
何泰然:
这就是 ChatGPT 突然爆发的传播曲线。那我也很好奇,你刚进 OpenAI 时,对这家公司的第一印象是什么?
翁家翌:
我觉得它更像一个大型实验室。没有我想象中那么强的流程方法论,但聚集了很多 research 直觉极强的人,他们能迅速判断方向,然后就去执行。
后来 Barrett、Luke 和 Liam 加入 John Schulman 的 RL team 后,整个组发生了变化,开始引入谷歌那套高效率的工程体系,迭代速度明显提升。
何泰然:
所以单位时间内迭代次数越多,成功概率就会线性往上走。
翁家翌:
对,这其实也可以看作一条强化学习的曲线。本质就是不断的 trial and error,你尝试的次数足够多,就会逐渐逼近目标。很多现实世界里的问题,其实都符合 RL 的结构。
何泰然:
所以你们当时引入的那套“先进生产力”,更像是一种方法论:先不去追求天才级的 idea 或算法,而是把 infra 打好,让迭代速度从一周 30 次提升到一周 300 次。
硬核创新如何做到的?OpenAI 的高人才密度
何泰然:
我看到过一个采访,有人问 Sam Altman,OpenAI 为什么能持续做出突破性的技术创新。他的回答是:在一个人才密度极高的小团队里,任何平庸的表现都是无法被容忍的。你认同这种说法吗?
翁家翌:
我认同。人才密度一旦足够高,就会自发涌现出很多意想不到的结果。反过来,如果整体环境偏平庸,大家往往只完成自己的那一小块任务,很容易拖延,也很难形成合力。
何泰然:
你加入 OpenAI 的时候,公司规模大概也就几百人吧?
翁家翌:
我入职时是 280 人左右。
何泰然:
现在已经三千多人了,三年时间接近 10 倍增长。你觉得 OpenAI 还能保持当年那种“小而美”、能持续做硬核创新的状态吗?
翁家翌:
概率肯定是在下降,但没有下降到不可接受的程度。因为即使公司整体变大,仍然可以人为地切出小团队,专门做高强度的研究和探索。
何泰然:
那在你看来,OpenAI 的管理层有没有做过一些有意识的努力,来维持这种高人才密度、小团队驱动创新的状态?
翁家翌:
比如简化组织架构,取消不必要的会议。我觉得相比流程本身,组织结构对创新效率的影响更大。
何泰然:
那什么样的组织结构,更有利于硬核创新?
翁家翌:
核心是信息流通顺畅。一个决策能无损地传递到执行层,执行层的最新进展也能无损地反馈回决策层。否则,上面的人和下面干活的人,可能朝着完全不同的方向用力。
何泰然:
OpenAI 是怎么做到这一点的?
翁家翌:
像 Sam 和 Greg 这种角色,本身就对技术非常熟悉。Sam 之前有专门的研究助理,持续帮他同步公司内部的最新研究进展;Greg 更不用说,几乎整个 infra 他都参与过。他们能保持对技术状态的敏感度,知道事情推进到哪一步、有什么新变化、会带来什么影响。
何泰然:
所以这要求一把手、二把手,愿意深入到技术细节里,理解公司的每一个“毛细血管”。
翁家翌:
我觉得管公司和管代码库其实很像。如果系统不一致,就会出现“身体在动、脚没动”的情况,看起来非常别扭。
何泰然:
那我们回到 post-training。
翁家翌:
可以从 3.5 开始说,但实际上 3.5 的 PPO 并没有完全调通。我是先把 GPT-4 的 PPO 跑通的。因为 3.5 还在用旧的 infra,而新的 infra 刚好在 2022 年 8 月搭好,我就在这套新 infra 上,先完成了 GPT-4 的第一版 PPO,大概是 9 月。
何泰然:
这点很有意思。也就是说,GPT-3.5 发布的时候,内部其实已经有 GPT-4 了,而且 RLHF 是先在 GPT-4 上调 work,再回到 3.5 上升级的。
翁家翌:
对。但也要说清楚,过程中有不少坑是其他组已经踩过的,我们能复用一些已有 pipeline。但关键环节还是自己来,比如 reward model 怎么训、数据怎么收集、infra 哪里出了问题,基本都是我们自己解决。
何泰然:
当时要把 RLHF 真正跑起来,最大的挑战是什么?
翁家翌:
核心问题是:你怎么判断模型是不是“变好了”。因为在当时,没有人知道性能应该长什么样。
何泰然:
也就是说,你训练了很多 checkpoint,却不知道哪一个真的更好。
翁家翌:
对。比如单一 reward 很容易出现 reward hacking:reward 看起来在涨,最后却进入饱和,变成一条平线。但如果是人类真实偏好,reward 往往会先上升,再逐渐回落。
这就导致你很难判断,哪个 checkpoint 才是真正更优的。
翁家翌:
所以选 checkpoint 本身就是一个基础但很难的问题。我们并没有在这上面投入太多“精挑细选”的时间,而是直接构建了一套基于 sampling 的 eval,看每个 benchmark 上的表现。
翁家翌:
但说到底,这些 benchmark 也只是数字参考。模型的方差非常大,每次跑出来的结果噪音都很多,很难简单地用“好”或“坏”去下结论。
翁家翌:
最后的解决方式其实很原始。就是把模型拉出来,真正跟它交互几次,看一看自己的使用体验,再多找几个人一起看,最后大家投票。
何泰然:
所以本质上是用 HF,也就是人类反馈来做 eval。
翁家翌:
对,只能这样。当时的技术条件下,没有更好的办法。
何泰然:
这相当于你第一次在工业级规模上搭建 RL infra。那这种为大模型服务的 RL infra,和你之前做的像天授那样的 single task、toy task 的 RL infra,差别主要在哪?
翁家翌:
差别非常大。Toy task (玩具任务)的瓶颈通常在环境本身,模型很小,无论训练还是 action 采样,成本都很低。
但在大模型场景里,环境反而极其简单,基本就是一个 prompt,真正昂贵的是模型本身。你要考虑如何高效采样、如何高效训练,因为生成一个 prompt 可能只需要几微秒,但跑一次 inference 可能是几百秒甚至上千秒,尤其是在资源受限的情况下。
何泰然:
那未来这些模型,相比 GPT-3.5、GPT-4,在 RL infra 上会面临哪些新的挑战?
翁家翌:
核心还是性能问题,以及怎么继续 scale up。
何泰然:
比如如何用更多 GPU,如何提高整体吞吐。
翁家翌:
对。
何泰然:
那这就不仅仅是 RL 的问题了,还涉及模型 inference。
翁家翌:
是的,会更偏向 end-to-end,需要深入到实现细节里,做整体层面的优化。
何泰然:
其实你做的是一个非常交叉的位置:既要懂 RL,又要懂 ML Sys,还得理解大语言模型的 inference 机制。这种能力,说实话,在学校阶段是很难系统学到的。
翁家翌:
是的。那个位置非常锻炼人,但也非常累。我有一段时间确实是超负荷工作,加班太狠,头疼得受不了,甚至进了 ER(急诊室)。医生检查之后说没什么大问题。
何泰然:
你当时的工作强度大概是什么水平?
翁家翌:
基本上是从早上醒来开始 debug、处理问题,一直到晚上睡觉。
何泰然:
一周几天?
翁家翌:
平均六天吧。但经历了一段时间之后,我意识到这是不可持续的。身体必须放在第一位。
所以我现在给自己养成了一个习惯,每周跑两次三千米。挺讽刺的是,我在清华读书的时候,三千米体测是不过关的,现在反而是自己主动去跑。
何泰然:
说实话,我很羡慕你过去两年在 OpenAI 做的事情。你接触到的,是全球 99.99% 的 researcher 和 infra engineer 都没有机会碰到的东西。你在最先进的模型上做优化,每天都在未知领域探索,而且你很清楚,你找到的答案,很可能是人类历史上的第一次。
翁家翌:
但我自己并不这么看。我觉得我做的很多事情其实都很 trivial(琐碎),更像是日常维护,并不需要多高深的智力投入。
何泰然:
所以并不需要投入太多智力层面的东西?
翁家翌:
是的。把事情做对、做好就行,方向更重要。只要站在正确的方向上,持续做你认为合理的事情,就可以了。
何泰然:
那你觉得,大模型上的 RL 还需要那种范式级的突破吗?还是说范式已经确定,剩下主要是把 infra 拉上去?
翁家翌:
我觉得依然有可能出现突破。不能用当下的状态去外推未来会发生什么。新的 RL 范式、甚至新的 pre-training 范式,都有可能出现。每天其实都在面对未知。
不过话说回来,我觉得自己只是刚好站在这个位置。如果换成任何一个人,只要拥有同样的 context,也完全可以把这些事情做好。这并不是一个“只有我才能做”的问题。
何泰然:
从5到10年的尺度来看,你觉得最大的未知和挑战会在哪?现有模型能力的瓶颈是什么,又需要什么样的突破?
翁家翌:
我觉得当前阶段,问题并不在于算力不够,而是还没有真正把现有方法scale到极限。应该先通过大规模RL实验,看性能上限到底能走到哪,再判断下一步该做什么。
何泰然:
也就是说,还没有到“compute不够用”的阶段,而是现有方法和算力的潜力还没被榨干。
翁家翌:
对,而且infra里还有很多bug。
何泰然:
哪怕是你们现在的infra,也确信还有bug?
翁家翌:
当然。不可能百分之百没有bug。毕竟是人写的系统,人一定会犯错。尤其是团队规模变大之后,context容易不一致,每个人都会写一些“很有个性”的代码。
何泰然:
那未来在强化学习+后训练这个pipeline里,最大的瓶颈会出现在哪?
翁家翌:
我觉得瓶颈在infra的吞吐能力:单位时间内你能修多少bug,能正确迭代多少次。剩下的反而没那么重要。
何泰然:
这相当于给所有其他部分做了赋能,不管是算法还是环境。
翁家翌:
是的。如果bug都被修掉了,很多情况下算法甚至不需要改,效果就会明显变好。
何泰然:
那要把infra的效率真正提上来,需要什么样的架构、什么样的人、什么样的资源?
翁家翌:
这个还在探索中。我现在已经不在最核心的位置了,但我们组在做一件更长期的事:重构OpenAI内部的infra,准备下一代系统。
何泰然:
你们每一代infra是推倒重来、重新设计顶层架构,还是像写“天授”那样在原有基础上小修小补?
翁家翌:
目前是推倒重来。上一代infra已经跑了三年多,积累了大量问题。我们希望用一套全新的系统,清理掉历史的technical debt,让researcher在单位时间内获得更高的迭代速度。
何泰然:
所以researcher并不会直接参与infra的构建,他们更多是提出需求,具体的代码、分布式训练这些由你们来负责。
翁家翌:
对,他们最后可能只需要改一个flag。
何泰然:
那听起来,OpenAI的researcher可能会是最早被AI取代的一批人。
翁家翌:
我也有这种感觉。Research很大一部分是在单位时间内产出idea,而idea本身已经变得非常廉价,甚至“生成idea”这件事本身都可以被建模。
如果真要说替代顺序,我觉得可能会先替代researcher,再替代infra engineer,最后全部替代。反而是sales相对难一些,因为说服对方买单,仍然是人与人之间的沟通,这是AI很难完全取代的部分。
何泰然:
我们刚刚聊了text-only的GPT-3.5,也聊了多模态。那在你看来,agent和RL后训练之间,会有多大的本质区别?
翁家翌:
没有本质差别,本来就是同一件事,只是中间多了几个tool call。
何泰然:
更多是环境变复杂了。
翁家翌:
对,本质是环境的变化。
何泰然:
所以比起“标准的LLM + RL后训练”,agent这套范式并不算是一个全新的挑战。
翁家翌:
对,因为本质没有变。
何泰然:
那你个人对AGI的定义是什么?你觉得我们现在达到AGI了吗?
如果还没有,单靠预训练加RL后训练这条路径,能不能走到你心里那个AGI?
翁家翌:
OpenAI内部有个玩笑,说你找15个人,能听到20种AGI的定义。
我之前的定义很简单:如果它能完成我认为有意义的task里,百分之八九十,那我会认为它是AGI。
从这个标准看,现在还没有。
翁家翌:
至少从我个人角度,我还不放心让AI直接改我的infra代码,因为这是一个非常out-of-distribution(分布外)的场景。
AI infra在整个训练数据里占比几乎为零,而且inference的验证反馈链条太长、成本也太高,目前还触及不到。
何泰然:
听起来你短期内还不会被AI取代。
翁家翌:
至少暂时不会。
在Strawberry出来之前,我们内部已经用它一段时间了,那时候很多人觉得工作要被取代了,甚至觉得可以先写一堆屎山,反正模型以后会帮我们清理。
但一两年过去了,屎山还在,现实并没有发生根本性变化。每次新技术出来,大家都会过度反应,但真正的改变永远是一个非常缓慢、渐进的过程。
何泰然:
你现在在OpenAI,此前在清华、CMU,也在科研lab待过。
但现在外界常见的批评是:OpenAI已经和“open”没什么关系了。而你个人以前也很热衷开源、打破信息差,这会不会和你的价值取向产生冲突?
翁家翌:
我觉得这是一个trade-off。
我依然很热爱开源,有合适的项目也会参与,但我更倾向于去做我认为更重要的事情。
翁家翌:
而且对OpenAI来说,开源本身也是trade-off。
你没办法直接把最好的模型开源,因为公司要生存。如果不能生存,就无法融资、无法做实验,也就谈不上突破。我能理解并认同这一现实路径。
何泰然:
但OpenAI一开始的组织架构其实很特殊,它并不是一个以商业盈利为目标诞生的公司。
至少在公开语境里,它的口号是“让通用AGI平等地造福全人类”。在你看来,走向闭源,是让这个目标更近了,还是更远了?
翁家翌:
我一直把这句话拆成两部分来看:第一,实现AGI;第二,造福全人类。
实现AGI这件事相对清晰,本质就是堆预训练、堆算力、持续scale。
翁家翌:
而“造福全人类”的当前路径,是把技术做成产品,以尽可能低的门槛让人使用。
比如免费版ChatGPT、语音模式,让普通人直接体验技术,这在现实中可能比开源一个裸权重模型更有效,因为大多数人并不知道该怎么用。
何泰然:
所以你的理解是,OpenAI的“open”,更多是对普通用户的开放,而不是对其他大模型公司的开放。
这个策略在接近AGI、进入百米冲刺阶段时,我能理解;但如果AGI仍然是一个长期目标,会不会更开放、更透明,反而有利于OpenAI更快接近它?
还是说,OpenAI现在已经不太需要社区反馈,也不依赖外部力量,就能self-contained地推进到AGI?
翁家翌:
我觉得理论上是存在一条路径的:你可以选择开源,并且接受社区反馈,也有可能最终实现AGI。但现实执行起来非常困难。因为你一旦开源,别人可以立刻在你的基础上超过你,然后选择闭源继续推进。并不是所有参与者都目标一致,这会让最早开源的一方处在非常尴尬的位置。
在这样的环境下,如果OpenAI全面开源,很可能连融资都成问题,没有人会持续为它输血。
何泰然:
这其实是一个博弈论问题。即使你真心想为AGI造福全人类,也无法保证其他人不只想着赚钱。所以为了防范这种情况,OpenAI被迫选择闭源。
翁家翌:
至少在我看来,是这样的。
何泰然:
那这是公司生存层面的考虑。假设一个极端情况:OpenAI 拥有无限资源,永远不用担心生存问题。如果现在把你这两三年做的 RL infra 全部开源,你会开心吗?
翁家翌:
我当然会很开心。John Schulman 其实也问过我这个问题,要不要开源。当时我的判断是,从公司的角度看不太合适,但他确实认真考虑过这件事。
何泰然:
那是不是像 DeepSeek 这种 open weights 的做法,至少会促使 OpenAI 在内部重新评估这件事?
翁家翌:
对。
Ilya开除Sam的真相:核心就是不信任
何泰然:
你之前提到,OpenAI 的使命其实可以拆成两部分:先实现 AGI,再造福全人类。如果从这个使命出发,你觉得真正的机遇和最大挑战分别是什么?
翁家翌:
关键在执行。只要方向对,能够稳定地执行就够了,最怕的是中途再出现类似 2023 年 11 月那种情况。
何泰然:
你是指 Sam Altman 被董事会开除的那次。
翁家翌:
对。组织结构越稳定,越有利于快速往前推进。
何泰然:
那从你们内部视角看,当时发生了什么?因为外界听到的说法都很玄,比如 Ilya 到底“看到了什么”。
翁家翌:
那些基本都是谣言,捕风捉影,外面传得非常夸张。
何泰然:
那你们内部的真实视角是什么?
翁家翌:
核心就是不信任。Ilya 和部分董事会成员不信任 Sam,于是投票把他撤掉。但对我们这些在下面干活的人来说,这件事非常突然,也非常震惊。
董事会之前对内部几乎没有透明度,我们并不知道这个决策是怎么形成的。
何泰然:
那这种不信任,具体是不信任什么?
翁家翌:
具体细节可以看后来公开的调查报告。
对于OpenAI而言,Sam是不可替代的
何泰然:
但最终的结果是 Ilya 离开了。明明最初是他不信任 Sam,最后反而是 Sam 获得了更多支持,这个转变是怎么发生的?
翁家翌:
很多员工的判断是:如果由一个纯技术背景的人来领导公司,可能缺乏足够的远见。AGI 的实现并不只是技术问题,还涉及融资、算力获取,以及如何说服外部世界持续投入资源。
如果只有研究经验,很难支撑这样一条长期路线。从这个角度看,还是需要 Sam 这样的人。
何泰然:
所以 Sam 反而可能是 AI 最难替代的那类角色。他需要在商业、资源,甚至地缘政治层面持续运作。
翁家翌:
可以把 Sam 抽象成一种 personality,一种 identity。短时间内,如果试图用 AI 去替代这个 identity,外界对这个角色的信任和认同会立刻崩塌。所以在这个层面上,他是不可替代的。
OpenAI在做的事情,外界并非完全不可复刻
何泰然:
你刚刚提到 John Schulman 离开的那天下午,你难过了很久。但他并不是唯一一个离开 OpenAI 的人。在取得巨大成功之后,OpenAI 有很多核心成员陆续离开。你觉得像 OpenAI 这样极度成功的组织,大规模的人才流失是必然的吗?
翁家翌:
我觉得一个健康的组织,前提就是所有人都可以被替代。只要你能持续培养新人,有稳定的造血能力,组织就能正常运转。
即使走了一批人,也可以再花时间和精力培养新的一批,继续循环。
何泰然:
有点像干细胞系统。所以现在的 OpenAI,没有谁是不可替代的。那是不是也意味着,OpenAI 正在做的事情,外界并非完全无法复刻?
翁家翌:
可以这么理解。本质上就是把最简单的事情持续做好,没有什么黑魔法。
后训练团队压力确实大
何泰然:
我们现在可能正处在人类历史上最激烈的一次科技竞赛中,而 OpenAI 点燃了这一切。你们内部现在的氛围有多 intense?压力会很大吗?
翁家翌:
要看具体的组、deadline 和项目周期。比如 post-training,目前压力确实很大;而像我们在做 infra 重构,压力也有,但没有那么紧,因为我们可以适当延后,更关注把事情从长期角度做对。
不太Care外部压力,除了DeepSeek那次
何泰然:
那外部的激烈竞争,比如 xAI、Anthropic,或者中国的大模型公司,会直接传导到你们日常的开发节奏里吗?
翁家翌:
大多数时候不会。唯一一次明显的例外是 DeepSeek。因为他们在推特上公开强调自己的迭代速度非常快,这在内部引起了警觉。
因为客观来说,我们内部的迭代速度相对偏慢,这也是为什么要下决心重构 infra。
模型公司的生死线:Infra的迭代速度
何泰然:
所以对 OpenAI 这种基础模型公司来说,真正的生死线,其实是 infra 的 cycle time。
翁家翌:
对。
何泰然:
那其他因素呢?比如数据规模、算法,或者 researcher 的数量。
翁家翌:
这些本质上是“投人”就能解决的问题,是单位成本的人力。
何泰然:
那 AI infra 不也是人力吗?
翁家翌:
这是个好问题。AI infra 对人的要求更偏向“高 context”。
如果只是做数据 ablation(消融实验)、跑实验,其实不需要太多上下文理解,进来之后写个 for loop,把配置跑起来就行,这些事情甚至可以高度自动化。
很长时间不会去为了刷榜单而特意做什么
何泰然:
所以你们真正警觉的点,是意识到 DeepSeek 内部的 infra 很强,迭代速度非常快。这才是引起注意的地方。你们并不在意哪个模型在榜单上比 GPT 高了多少分。
翁家翌:
是的。我们很长时间都没有为了刷 LMSys 之类的榜单去特意做什么。
OpenAI肯定不是Infra迭代速度最快的公司
何泰然:
你们真正关注的是单位时间内的迭代速度和成功率。那你觉得 OpenAI 现在在这个指标上是全球第一吗?
翁家翌:
不是,肯定不是。这和组织结构关系很大。
如果你把一小撮人抽出来,去做一个创业公司,他们的迭代速度斜率一定比 OpenAI 高。因为代码库更小、沟通成本更低、use case 更集中。
翁家翌:
而 OpenAI 需要同时考虑很多 use case,服务多个方向,组织一旦变大,复杂度就会上来。
OpenAI还能持续做世界第一的模型吗?
何泰然:
那如果在这个生死线指标上,OpenAI 已经不是第一了,它未来还能持续做世界第一的大模型吗?
翁家翌:
这是每一家成功公司都会面对的问题。
何泰然:
你的意思是,公司一旦做大、做成功,速度一定会变慢。
翁家翌:
对。最后就变成一个相对问题:大家都会变慢,区别在于谁没那么慢。这里的“慢”是相对于初创公司来说的。
何泰然:
初创公司可能在迭代速度这个指标上更强,但在其他指标上很难和 OpenAI 竞争,比如用户规模和真实反馈。
如何解决大公司的信息透明难题?一个“无限上下文”的Agent更适合来当CEO
翁家翌:
所以一切都是 trade-off。这是任何人类组织发展到一定规模之后,必然要面对的问题。
真正难的不是维持高人才密度,而是维持组织内部 context sharing 的一致性。一旦这一点做不好,infra 会开始不一致、变得臃肿,组织结构本身也会随之臃肿。
翁家翌:
理论上,这种问题最终可能需要一个拥有“无限 context”的 agent 来替代人类组织去解决。
何泰然:
听起来这是一种刚需。因为它实际上能解决人类历史上反复出现的问题:组织一旦变大,不管是写代码,还是做其他事情,结构都会不可避免地变得臃肿。
翁家翌:
对,因为人脑能够承载的上下文是有限的。你不可能同时记住和处理这么多信息,但 AI 可以。
何泰然:
那未来会不会是,每一家公司都会有一个拥有无限上下文的智能体?
翁家翌:
然后让它来当 CEO 就好了。
何泰然:
由它来负责所有的信息同步和决策。从这个角度看,可能没有什么比这样的智能体更适合做决策者了。
最想用AI做的事情:提前生成未来剧本
何泰然:
如果再往更远的未来看,如果你希望 AI 能解决一个世界级难题,你最希望它解决什么?
翁家翌:
如何预测未来。
何泰然:
你说的未来,肯定不是“杯子会不会掉下来”这种层面的未来,而是关乎人生、世界格局、宏观走向的那种。
翁家翌:
对。
何泰然:
为什么这是你最想让 AI 去解决的问题?
翁家翌:
我个人其实一直对“自己创造一个世界”这件事有执念。如果从更高维度来看,你需要一个能够提前生成剧本的东西。
本文基于鲸林向海对WhynotTV Podcast #4的整理。原始播客时长2小时02分45秒。