← 笔记

拒绝DeepSeek的清华学霸,如何拿捏OpenAI的最新大模型?

智东西深度报道:OpenAI核心贡献者翁家翌首次详尽讲述从清华少年到OpenAI infra骨干的经历,披露ChatGPT诞生内幕与Post-Training系统构建逻辑。

来源:智东西(基于 WhynotTV Podcast #4 访谈整理)
原文作者:江宇 / 编辑:冰倩
播客链接https://www.youtube.com/watch?v=I0DrcsDf3Os
类型:人物深度访谈


一句话概括

OpenAI核心贡献者翁家翌在WhynotTV播客中首次详尽讲述了自己从清华少年到OpenAI infra骨干的经历,披露了ChatGPT的"意外诞生"内幕,以及为何Infra修Bug的速度才是大模型公司的真正生死线。


背景

ChatGPT背后的一位中国工程师——OpenAI核心贡献者翁家翌,在AI播客WhynotTV Podcast接受专访。

作为强化学习与后训练(Post-Training)系统的关键工程师,翁家翌深度参与了GPT-3.5、GPT-4、GPT-5等核心模型的训练,其搭建的infra系统已成为OpenAI内部大模型训练与迭代的基础底座,也是ChatGPT持续进化的关键支撑。

在这场长达两个多小时的对谈中,翁家翌披露了OpenAI内部Post-Training系统的构建逻辑,解释了OpenAI为何能持续产出爆款模型,还分享了他对AGI定义、OpenAI不"open"批评以及内部人才流动加剧等现象的第一手观察。

翁家翌GitHub主页
▲ 图源自翁家翌GitHub主页


核心内容

一、"卖铲子"到主导Post-Training:他是OpenAI模型背后的基础构建者

在OpenAI内部,几乎每一个大型模型的发布名单里,都能看到翁家翌的名字,他主导搭建了OpenAI强化学习后训练(Post-Training)阶段的核心基础设施。

"每发一个大的release,每发一个大的模型,我的名字就得放上去。"他说,"因为大家都在用整个Post-Training infra去训练RLHF的模型。"

他说自己"是卖铲子里最面向客户的那位",因为强化学习模块处在整个基础设施栈的最顶端。他还给自己的职业生涯设定过一个指标:"我要最大化我在OpenAI Blog上出现的次数。"

面对年轻人,他的建议仍是:持续投入工程建设,而不是学术研究。他不避讳地说:"长远来看,我还是觉得现代学术界应该要被重构。"在他看来,如果目标是进入工业界,最重要的是匹配真实的工作需求,"AI Lab最缺的其实就是Infra人才,infra是个无底洞。"

学术界研究往往陷在一些困境里,如Atari、MuJoCo等任务上过度拟合,并不能转化为实际问题的解决能力。他谈及,"我在2022年8月就意识到这个问题,所以逐步停止了天授的开发,转向在OpenAI内部构建更有意义的RL Infra。"

而在OpenAI内,他目睹了一系列"半偶然半必然"的变革。加入之初,他参与的就是WebGPT后续项目,通过强化学习让模型更好地与用户交互。他负责构建的RL训练系统在ChatGPT爆发式上线之前,已成为公司内部主力使用的infra之一。

发布当天,OpenAI服务器数次被挤爆,他形容这种"自发涌现的需求"就像自己做tuixue online时遇到的情形,"说明这确实是一个值得投入精力的方向"。

被问到OpenAI为何能做出如此爆款,翁家翌归结于两个因素:一是单位时间迭代效率足够高,二是领导层真正懂技术。

OpenAI在引入了几位前Google工程负责人之后(如Barret Zoph、Liam Fedus),团队开始系统性提升工程效率,单位时间的迭代次数和成功率是正比的。

他强调,"RL本质上就是trial-and-error(试错)。你试得越快越多,成功就越近。"

OpenAI的领导层也保持对细节的强关注。Greg Brockman(联合创始人兼总裁)几乎参与过公司所有基础设施模块,而Sam Altman(联合创始人兼CEO)则通过研究助理及时了解公司内部进展。他认为这种技术细节的敏感性和上下信息通畅正是OpenAI创新持续不断的原因。

翁家翌称,"管公司就像管代码库,一旦不一致,整个系统就会像拼装的人类,身子动了,脚没动。"


二、他为ChatGPT模型搭建后训练系统,也在重构下一代Infra

ChatGPT 3.5正式发布之前,OpenAI内部其实已开始在GPT-4上验证强化学习后训练(RLHF)流程的可行性。

翁家翌回忆,当时他负责的正是RLHF训练Pipeline的整体搭建:旧的infra是跑不动的,我在新infra上调通了第一版,先在4上做通,再迁回3.5。这套Post-Training系统随后被用于整个ChatGPT系列模型的训练中。

这并不是一条"拿来即用"的流水线。他谈及,OpenAI内部并没有现成可复用的RLHF基线,很多关键流程都需要从头构建。

真正的挑战,是模型效果的衡量标准并不清晰。"你训练出很多个checkpoint(检查点),但你不知道哪个是真的更好。"用人类反馈奖励评估时,模型可能一开始奖励信号很高,之后却因过度拟合(hacking)而性能下降。

最终,团队只能依赖"human-in-the-loop(人机协同)"的评估流程,即让内部员工亲自交互测试、打分投票,选出效果最佳的版本。

从技术结构上看,这套Post-Training系统的难度远高于他曾经开发的"天授"框架。toy task(验证算法的小规模仿真环境)的瓶颈在环境,而大模型的瓶颈在模型本身。环境是一个Prompt,计算只要几微秒,但模型训练和采样则是几百甚至上千秒。系统工程的复杂性在于吞吐与扩展的平衡,以及对GPU资源的极限压榨。

而他正是那个站在强化学习、系统工程与大语言模型交叉点的人。他不仅要懂RL本身的逻辑,也得理解分布式系统、语言模型的推理方式以及底层架构。

工作强度一度让他因头痛被送进急诊。"基本是早上醒来开始debug,写到晚上睡觉,一周六天。"自那以后,他强制自己每周跑两次3000米,恢复体力。

同时,翁家翌也正在参与OpenAI下一代RL Infra的重构工作。"旧架构已经三年多了,堆积的问题其实已经很多了。"OpenAI要推倒重来,目标是清理技术债,帮助研究员以更高迭代效率推进。


三、他在福建省队拿下"唯一一块铜牌",叩开清华大门

面对"你小时候是个什么样的小孩"的问题,翁家翌从奥数讲起。他在数学上展现出超常的直觉能力,常常别人还在计算时他就已经写完了答案。

尽管解题速度快,他却并不认为自己是学得快的人,反而觉得自己在理解新知识时总是比别人慢,需要付出两到三倍的时间。同时,他也具备一种策略意识:既然慢,就要提前学。

他在初中就主动找数学老师问高中课程内容,初二就完成了大部分高中数学学习,初三开始学微积分。翁家翌坦言,"我想投资自己的未来。"

进入高中后,他因为升学压力开始参加信息学竞赛OI(Olympiad in Informatics),希望以此作为进入顶尖大学的路径。他说,对于非北京的学生而言,直接考入清华北大"几乎难如登天"。

他在福建省内的选拔中一路拼到省队,在高二那年凭借一道最小二分覆盖题得到了全场最高分,顺利拿到清华"降60分"录取资格。但他也坦言,这是一次"险胜":"那年福建省队只有一个铜牌,就是我。"

而这一路的训练,也塑造了他的习惯和思维方式。他回忆高三备考期间仍"偷偷写代码",甚至在没有编译器的iPad上直接键盘敲代码,这样的经历训练了自己对程序结构的完整认知与快速定位bug的能力。


四、他在清华开源作业、修校园网Bug,误打误撞走进了强化学习

进入高校后,清华生活里最"出圈"的事,是翁家翌把所有的作业都开源了。

他收集了前几届流传下来的"上古作业"和课程材料,在征得无版权部分的确认后,悉数上传到了GitHub。他说,在清华,信息差往往被当作一种生存资源,但"我觉得每个人都应该平等地拥有这些信息"。

他笑称,"随便我们抓一个计算机的学弟,问问你认不认识捐楼的人,哪怕他把名字放在楼上面,你认不认识他?不认识。但你们认识我,因为毕竟大家都看我作业活的。"他还打趣说,"比捐楼还有用。"

除了"火遍校园"的作业库,翁家翌在大二也开启了科研之路。他误打误撞报了清华计算机系的"学术新兴计划"。当时他对科研方向还一无所知,只是模糊觉得"图像的东西挺有意思",于是盲选了强化学习,结果本以为是搞图像的,后来发现其实是打游戏的。

他其实一直对多个方向有浓厚兴趣。除了AI,他也喜欢图形学和网络安全。在大学时,他曾和学长一起发现并修复了清华网的漏洞,使得本应收费十元的成绩单可以免费甚至一分钱下载。

图形学一度是他的最爱。他在图形学课程中投入了大量时间与情感,完成了一个几乎没有人敢尝试的"16K高清图渲染"大作业,并发明了一种加速迭代收敛的新算法,最终拿到了全班仅有的两个A+之一。

但最终,他还是放弃了图形学。"搞科研不能脚踏两条船",他做了取舍,选择了继续走强化学习的路。


五、那些看似"折腾"的科研尝试,成了他走向OpenAI的"前传"

翁家翌的第一个科研项目:在一个上世纪90年代的游戏中训练神经网络,让智能体在固定地图里完成从出生点到终点的任务,包括杀怪、捡血包、避障、通关。最终,他用强化学习方法拿下冠军。

尽管结果不错,他却坦言并不享受整个过程。"这个环境太单一了,要疯狂地用技巧防止训练崩掉。即使不崩,你也不知道怎么调参才能保持。"他说,"这种感觉就像'炼丹',这比CV(计算机视觉)调参难十倍、一百倍,全靠heuristics(启发式方法)。"

也正因此,他在大四有意识地将重心转向工具层面,尝试搭建一套面向强化学习的小型基础设施库。

大三暑假,他曾前往蒙特利尔的Mila研究所交流实习。那年是2019年夏天,正好是Mila创始人Yoshua Bengio荣获图灵奖的几个月后。尽管进入的是Bengio所在的实验室,但他直接跟随的是一位Postdoc,任务是尝试做一个类似MoE(混合专家模型)的项目。

那是他第一次接触Transformer和语言建模。他花了很长时间上手,最终也只是"撮了一个东西出来",没什么效果。他回忆:"要让这种东西work,首先得有算力、有工程能力,还要能scale up。当时就我一个人几块卡,哪怕方向对,也搞不出来。"

大三暑假交流归来后,翁家翌开始准备出国深造的申请。但那段时间并不顺利。眼看身边的同学纷纷进入CMU、Stanford等名校实验室,发出ICLR、NeurIPS等会议论文,而自己"什么都没有",落差感袭来。

最终,他只申请上了硕士。"当时确实有些失落",他说在清华,哪怕是国外的PhD和Master,也会被视作天差地别。

翁家翌坦言,"我一直觉得,GPA不是唯一的评价指标。你得创造自己的评价体系。"他引用导师的标准:"计算机系的三大指标:论文、比赛、GitHub三位数以上的Star。"


六、他用两个项目"做慈善":天授与tuixue online,一炮而红

在申请季与疫情交叠的那段时间,翁家翌做了两个项目,一个叫"天授",一个是"tuixue online"。

"天授"的起点,是不想再浪费时间"炼丹"。2019年底,他意识到强化学习(RL)领域的问题不在于算法本身,而在于实验平台。他看了当时最主流的RLlib源代码,发现抽象极度复杂,几十万行代码几乎无法动手,干脆推倒重来。于是他在2020年春节假期开始自写一套RL实验平台,第一版两周就完成了。

另一个项目"tuixue online",则源自亲身需求——一个实时爬虫工具来查询签证预约状态。这个项目迅速传播,一开始就有一百多万点击,累积已经破千万。

他把这两个项目都称作"做慈善"。"完全nonprofit(非盈利),这种慈善项目让我感觉非常满足。"

当被问及这种"对impact(影响力)的追求"是何时萌芽的,他回忆起高三时一个想法:"如果人生是场游戏,结算分数就是死后还有多少人记得你的名字。"


七、加入OpenAI之前,他已彻底想清楚:要工程,不要炼丹

2020年,翁家翌远程开始了CMU的硕士课程。他一开始投了18家公司,仅收到Google和AutoML的offer。之后继续投递并陆续拿到更多offer,包括幻方量化(后来的DeepSeek)、英伟达、TikTok,以及FAIR。

他坦言,如果没有其他选择,可能就会加入幻方做强化学习infra。但最终,他选择了OpenAI。这时距ChatGPT时刻还未来临。

他做出这个选择,更多是出于对强化学习和系统能力的认同。"当时OpenAI和DeepMind是强化学习做得最好的两个lab。"他想体验"世界最前沿的research是怎么做的"。

他最终进入了OpenAI的强化学习组,由John Schulman亲自招入。面试中,John Schulman只给了两个人同一道工程题目。"那是一道端到端的题,很开放,他给了我3小时,我两个小时就写完了,现场还修好了一个bug。"

谈及是否考虑过读PhD,翁家翌说从未认真想过。"如果想进工业界,读PhD其实是在浪费生命。"他的一位OpenAI同事总结过一句话:"教一个researcher如何做好engineering,比教一个engineer如何做好research难得多。"

在翁家翌看来,研究的价值在于验证,而验证的关键是infrastructure。"每家infrastructure都有不同程度的bug,谁修的bug多,谁的模型性能就越好。"


八、OpenAI还"Open"吗?从AGI定义到组织焦虑

在翁家翌看来,"Agent"和"强化学习的post-training"之间没有本质差别。"它们本质上是一个东西,只是中间多了几步交互。"

谈及AGI的定义,他并不认同有统一标准。"OpenAI内部你抓15个人,可能有20种定义AGI的方法。"他自己的定义是:"如果它能完成80%、90%我认为有意义的任务,那它可能就是AGI了。"

对于OpenAI的"Open"战略,他认为这并不意味着对所有同行开放,而是尽可能以低门槛的方式让普通人用上强大工具。"比如ChatGPT有免费版本,还有语音模式体验,这样可能是更有利于'造福全人类',而不是直接开源。你给出裸的模型权重,普通人也不知道怎么用。"

对于外界关于"OpenAI已不Open"的批评,他回应:理论上可以做到开源和社区反馈,但现实很难。你一开源,别人就立刻闭源压你,导致你融不到钱,没法继续实验。

他也坦言,如果公司资源不受限,"我当然会很开心地开源RL Infra团队这两三年的成果。"

被问到OpenAI实现AGI的最大挑战,他用一个词概括:"执行。"

对于Sam Altman那场风波,他回忆称:"董事会对Sam的不信任投票,把他赶了出去。"但底层员工的反应是"震惊"。他还提到,OpenAI最终支持Sam回归,是因为"纯技术出身的人并不一定能撑起整个AI公司"。"你需要一个能搞钱、搞算力、搞资源的人。"

他并不避讳团队流失的问题。对于人才流动,他的态度是:"一个健康的组织,所有人都是可以被替代的。"

"比如DeepSeek那波声称迭代很快,这确实让内部很多人警觉。"他提到,这也是重构Infra的原因,"我们早就不做为了刷榜而做的事了。"

他也提出一个设想:一个拥有无限上下文记忆能力的AI Agent,或许才是最合适的CEO。"人类的context是有限的,但AI可以。"


九、如果AI真的能预测未来,人类该不该按下暂停键

在这段对话的最后,话题转向了一个更抽象的问题:如果让AI去解决一个世界难题,翁家翌最想做的是什么。他给出的答案是——如何预测未来。

他坦言,"所有的东西都是可以被预测的,所以理论上它是可以用AI解决的。"

正因为如此,他反而认为,"如果你能拿到一个能够预测未来的机器的话,那么对个人而言,其实是一个灾难,我觉得这会导致所有的价值体系的崩塌。"

他目前采取的应对方式,是"忘掉这一切",假装不知道世界是否确定,只专注于当下的体验与选择。

他也提出了一种解释:时间或许并非线性流动。未来的我,帮助过去的我来完成某些决策。

当话题回到现实,他对创业与未来的态度并不明朗。他更偏好有真实需求的产品,正如他过去做过的"天授"和"退学online"。在他看来,"技术不重要,重要的是抓住需求。"

谈到更长远的未来,他并没有给自己设定明确的终点。他希望十年后的自己,能够"做当时想做的事",有足够的资源与足够的能力。他仍然选择继续"投资未来",让他有选择的权利。

在播客的最后,翁家翌留下了一句话:"我曾经一度想通了我自己想要什么,但是我其实还是没有那么想通,这个问题值得一生去思考。"


核心金句

"每家infrastructure都有不同程度的bug,谁修的bug多,谁的模型性能就越好。"

"管公司就像管代码库,一旦不一致,整个系统就会像拼装的人类,身子动了,脚没动。"

"RL本质上就是trial-and-error(试错)。你试得越快越多,成功就越近。"

"教一个researcher如何做好engineering,比教一个engineer如何做好research难得多。"

"如果人生是场游戏,结算分数就是死后还有多少人记得你的名字。"

"我曾经一度想通了我自己想要什么,但是我其实还是没有那么想通,这个问题值得一生去思考。"


本文基于智东西对WhynotTV Podcast #4的深度报道整理。原始播客时长2小时02分45秒。