拒绝DeepSeek的清华学霸，如何拿捏OpenAI的最新大模型？

来源：智东西（基于 WhynotTV Podcast #4 访谈整理）
原文作者：江宇 / 编辑：冰倩
播客链接：https://www.youtube.com/watch?v=I0DrcsDf3Os
类型：人物深度访谈

一句话概括

OpenAI核心贡献者翁家翌在WhynotTV播客中首次详尽讲述了自己从清华少年到OpenAI infra骨干的经历，披露了ChatGPT的"意外诞生"内幕，以及为何Infra修Bug的速度才是大模型公司的真正生死线。

背景

ChatGPT背后的一位中国工程师——OpenAI核心贡献者翁家翌，在AI播客WhynotTV Podcast接受专访。

作为强化学习与后训练（Post-Training）系统的关键工程师，翁家翌深度参与了GPT-3.5、GPT-4、GPT-5等核心模型的训练，其搭建的infra系统已成为OpenAI内部大模型训练与迭代的基础底座，也是ChatGPT持续进化的关键支撑。

在这场长达两个多小时的对谈中，翁家翌披露了OpenAI内部Post-Training系统的构建逻辑，解释了OpenAI为何能持续产出爆款模型，还分享了他对AGI定义、OpenAI不"open"批评以及内部人才流动加剧等现象的第一手观察。

▲ 图源自翁家翌GitHub主页

核心内容

一、"卖铲子"到主导Post-Training：他是OpenAI模型背后的基础构建者

在OpenAI内部，几乎每一个大型模型的发布名单里，都能看到翁家翌的名字，他主导搭建了OpenAI强化学习后训练（Post-Training）阶段的核心基础设施。

"每发一个大的release，每发一个大的模型，我的名字就得放上去。"他说，"因为大家都在用整个Post-Training infra去训练RLHF的模型。"

他说自己"是卖铲子里最面向客户的那位"，因为强化学习模块处在整个基础设施栈的最顶端。他还给自己的职业生涯设定过一个指标："我要最大化我在OpenAI Blog上出现的次数。"

面对年轻人，他的建议仍是：持续投入工程建设，而不是学术研究。他不避讳地说："长远来看，我还是觉得现代学术界应该要被重构。"在他看来，如果目标是进入工业界，最重要的是匹配真实的工作需求，"AI Lab最缺的其实就是Infra人才，infra是个无底洞。"

学术界研究往往陷在一些困境里，如Atari、MuJoCo等任务上过度拟合，并不能转化为实际问题的解决能力。他谈及，"我在2022年8月就意识到这个问题，所以逐步停止了天授的开发，转向在OpenAI内部构建更有意义的RL Infra。"

而在OpenAI内，他目睹了一系列"半偶然半必然"的变革。加入之初，他参与的就是WebGPT后续项目，通过强化学习让模型更好地与用户交互。他负责构建的RL训练系统在ChatGPT爆发式上线之前，已成为公司内部主力使用的infra之一。

发布当天，OpenAI服务器数次被挤爆，他形容这种"自发涌现的需求"就像自己做tuixue online时遇到的情形，"说明这确实是一个值得投入精力的方向"。

被问到OpenAI为何能做出如此爆款，翁家翌归结于两个因素：一是单位时间迭代效率足够高，二是领导层真正懂技术。

OpenAI在引入了几位前Google工程负责人之后（如Barret Zoph、Liam Fedus），团队开始系统性提升工程效率，单位时间的迭代次数和成功率是正比的。

他强调，"RL本质上就是trial-and-error（试错）。你试得越快越多，成功就越近。"

OpenAI的领导层也保持对细节的强关注。Greg Brockman（联合创始人兼总裁）几乎参与过公司所有基础设施模块，而Sam Altman（联合创始人兼CEO）则通过研究助理及时了解公司内部进展。他认为这种技术细节的敏感性和上下信息通畅正是OpenAI创新持续不断的原因。

翁家翌称，"管公司就像管代码库，一旦不一致，整个系统就会像拼装的人类，身子动了，脚没动。"

二、他为ChatGPT模型搭建后训练系统，也在重构下一代Infra

ChatGPT 3.5正式发布之前，OpenAI内部其实已开始在GPT-4上验证强化学习后训练（RLHF）流程的可行性。

翁家翌回忆，当时他负责的正是RLHF训练Pipeline的整体搭建：旧的infra是跑不动的，我在新infra上调通了第一版，先在4上做通，再迁回3.5。这套Post-Training系统随后被用于整个ChatGPT系列模型的训练中。

这并不是一条"拿来即用"的流水线。他谈及，OpenAI内部并没有现成可复用的RLHF基线，很多关键流程都需要从头构建。

真正的挑战，是模型效果的衡量标准并不清晰。"你训练出很多个checkpoint（检查点），但你不知道哪个是真的更好。"用人类反馈奖励评估时，模型可能一开始奖励信号很高，之后却因过度拟合（hacking）而性能下降。

最终，团队只能依赖"human-in-the-loop（人机协同）"的评估流程，即让内部员工亲自交互测试、打分投票，选出效果最佳的版本。

从技术结构上看，这套Post-Training系统的难度远高于他曾经开发的"天授"框架。toy task（验证算法的小规模仿真环境）的瓶颈在环境，而大模型的瓶颈在模型本身。环境是一个Prompt，计算只要几微秒，但模型训练和采样则是几百甚至上千秒。系统工程的复杂性在于吞吐与扩展的平衡，以及对GPU资源的极限压榨。

而他正是那个站在强化学习、系统工程与大语言模型交叉点的人。他不仅要懂RL本身的逻辑，也得理解分布式系统、语言模型的推理方式以及底层架构。

工作强度一度让他因头痛被送进急诊。"基本是早上醒来开始debug，写到晚上睡觉，一周六天。"自那以后，他强制自己每周跑两次3000米，恢复体力。

同时，翁家翌也正在参与OpenAI下一代RL Infra的重构工作。"旧架构已经三年多了，堆积的问题其实已经很多了。"OpenAI要推倒重来，目标是清理技术债，帮助研究员以更高迭代效率推进。

三、他在福建省队拿下"唯一一块铜牌"，叩开清华大门

面对"你小时候是个什么样的小孩"的问题，翁家翌从奥数讲起。他在数学上展现出超常的直觉能力，常常别人还在计算时他就已经写完了答案。

尽管解题速度快，他却并不认为自己是学得快的人，反而觉得自己在理解新知识时总是比别人慢，需要付出两到三倍的时间。同时，他也具备一种策略意识：既然慢，就要提前学。

他在初中就主动找数学老师问高中课程内容，初二就完成了大部分高中数学学习，初三开始学微积分。翁家翌坦言，"我想投资自己的未来。"

进入高中后，他因为升学压力开始参加信息学竞赛OI（Olympiad in Informatics），希望以此作为进入顶尖大学的路径。他说，对于非北京的学生而言，直接考入清华北大"几乎难如登天"。

他在福建省内的选拔中一路拼到省队，在高二那年凭借一道最小二分覆盖题得到了全场最高分，顺利拿到清华"降60分"录取资格。但他也坦言，这是一次"险胜"："那年福建省队只有一个铜牌，就是我。"

而这一路的训练，也塑造了他的习惯和思维方式。他回忆高三备考期间仍"偷偷写代码"，甚至在没有编译器的iPad上直接键盘敲代码，这样的经历训练了自己对程序结构的完整认知与快速定位bug的能力。

四、他在清华开源作业、修校园网Bug，误打误撞走进了强化学习

进入高校后，清华生活里最"出圈"的事，是翁家翌把所有的作业都开源了。

他收集了前几届流传下来的"上古作业"和课程材料，在征得无版权部分的确认后，悉数上传到了GitHub。他说，在清华，信息差往往被当作一种生存资源，但"我觉得每个人都应该平等地拥有这些信息"。

他笑称，"随便我们抓一个计算机的学弟，问问你认不认识捐楼的人，哪怕他把名字放在楼上面，你认不认识他？不认识。但你们认识我，因为毕竟大家都看我作业活的。"他还打趣说，"比捐楼还有用。"

除了"火遍校园"的作业库，翁家翌在大二也开启了科研之路。他误打误撞报了清华计算机系的"学术新兴计划"。当时他对科研方向还一无所知，只是模糊觉得"图像的东西挺有意思"，于是盲选了强化学习，结果本以为是搞图像的，后来发现其实是打游戏的。

他其实一直对多个方向有浓厚兴趣。除了AI，他也喜欢图形学和网络安全。在大学时，他曾和学长一起发现并修复了清华网的漏洞，使得本应收费十元的成绩单可以免费甚至一分钱下载。

图形学一度是他的最爱。他在图形学课程中投入了大量时间与情感，完成了一个几乎没有人敢尝试的"16K高清图渲染"大作业，并发明了一种加速迭代收敛的新算法，最终拿到了全班仅有的两个A+之一。

但最终，他还是放弃了图形学。"搞科研不能脚踏两条船"，他做了取舍，选择了继续走强化学习的路。

五、那些看似"折腾"的科研尝试，成了他走向OpenAI的"前传"

翁家翌的第一个科研项目：在一个上世纪90年代的游戏中训练神经网络，让智能体在固定地图里完成从出生点到终点的任务，包括杀怪、捡血包、避障、通关。最终，他用强化学习方法拿下冠军。

尽管结果不错，他却坦言并不享受整个过程。"这个环境太单一了，要疯狂地用技巧防止训练崩掉。即使不崩，你也不知道怎么调参才能保持。"他说，"这种感觉就像'炼丹'，这比CV（计算机视觉）调参难十倍、一百倍，全靠heuristics（启发式方法）。"

也正因此，他在大四有意识地将重心转向工具层面，尝试搭建一套面向强化学习的小型基础设施库。

大三暑假，他曾前往蒙特利尔的Mila研究所交流实习。那年是2019年夏天，正好是Mila创始人Yoshua Bengio荣获图灵奖的几个月后。尽管进入的是Bengio所在的实验室，但他直接跟随的是一位Postdoc，任务是尝试做一个类似MoE（混合专家模型）的项目。

那是他第一次接触Transformer和语言建模。他花了很长时间上手，最终也只是"撮了一个东西出来"，没什么效果。他回忆："要让这种东西work，首先得有算力、有工程能力，还要能scale up。当时就我一个人几块卡，哪怕方向对，也搞不出来。"

大三暑假交流归来后，翁家翌开始准备出国深造的申请。但那段时间并不顺利。眼看身边的同学纷纷进入CMU、Stanford等名校实验室，发出ICLR、NeurIPS等会议论文，而自己"什么都没有"，落差感袭来。

最终，他只申请上了硕士。"当时确实有些失落"，他说在清华，哪怕是国外的PhD和Master，也会被视作天差地别。

翁家翌坦言，"我一直觉得，GPA不是唯一的评价指标。你得创造自己的评价体系。"他引用导师的标准："计算机系的三大指标：论文、比赛、GitHub三位数以上的Star。"

六、他用两个项目"做慈善"：天授与tuixue online，一炮而红

在申请季与疫情交叠的那段时间，翁家翌做了两个项目，一个叫"天授"，一个是"tuixue online"。

"天授"的起点，是不想再浪费时间"炼丹"。2019年底，他意识到强化学习（RL）领域的问题不在于算法本身，而在于实验平台。他看了当时最主流的RLlib源代码，发现抽象极度复杂，几十万行代码几乎无法动手，干脆推倒重来。于是他在2020年春节假期开始自写一套RL实验平台，第一版两周就完成了。

另一个项目"tuixue online"，则源自亲身需求——一个实时爬虫工具来查询签证预约状态。这个项目迅速传播，一开始就有一百多万点击，累积已经破千万。

他把这两个项目都称作"做慈善"。"完全nonprofit（非盈利），这种慈善项目让我感觉非常满足。"

当被问及这种"对impact（影响力）的追求"是何时萌芽的，他回忆起高三时一个想法："如果人生是场游戏，结算分数就是死后还有多少人记得你的名字。"

七、加入OpenAI之前，他已彻底想清楚：要工程，不要炼丹

2020年，翁家翌远程开始了CMU的硕士课程。他一开始投了18家公司，仅收到Google和AutoML的offer。之后继续投递并陆续拿到更多offer，包括幻方量化（后来的DeepSeek）、英伟达、TikTok，以及FAIR。

他坦言，如果没有其他选择，可能就会加入幻方做强化学习infra。但最终，他选择了OpenAI。这时距ChatGPT时刻还未来临。

他做出这个选择，更多是出于对强化学习和系统能力的认同。"当时OpenAI和DeepMind是强化学习做得最好的两个lab。"他想体验"世界最前沿的research是怎么做的"。

他最终进入了OpenAI的强化学习组，由John Schulman亲自招入。面试中，John Schulman只给了两个人同一道工程题目。"那是一道端到端的题，很开放，他给了我3小时，我两个小时就写完了，现场还修好了一个bug。"

谈及是否考虑过读PhD，翁家翌说从未认真想过。"如果想进工业界，读PhD其实是在浪费生命。"他的一位OpenAI同事总结过一句话："教一个researcher如何做好engineering，比教一个engineer如何做好research难得多。"

在翁家翌看来，研究的价值在于验证，而验证的关键是infrastructure。"每家infrastructure都有不同程度的bug，谁修的bug多，谁的模型性能就越好。"

八、OpenAI还"Open"吗？从AGI定义到组织焦虑

在翁家翌看来，"Agent"和"强化学习的post-training"之间没有本质差别。"它们本质上是一个东西，只是中间多了几步交互。"

谈及AGI的定义，他并不认同有统一标准。"OpenAI内部你抓15个人，可能有20种定义AGI的方法。"他自己的定义是："如果它能完成80%、90%我认为有意义的任务，那它可能就是AGI了。"

对于OpenAI的"Open"战略，他认为这并不意味着对所有同行开放，而是尽可能以低门槛的方式让普通人用上强大工具。"比如ChatGPT有免费版本，还有语音模式体验，这样可能是更有利于'造福全人类'，而不是直接开源。你给出裸的模型权重，普通人也不知道怎么用。"

对于外界关于"OpenAI已不Open"的批评，他回应：理论上可以做到开源和社区反馈，但现实很难。你一开源，别人就立刻闭源压你，导致你融不到钱，没法继续实验。

他也坦言，如果公司资源不受限，"我当然会很开心地开源RL Infra团队这两三年的成果。"

被问到OpenAI实现AGI的最大挑战，他用一个词概括："执行。"

对于Sam Altman那场风波，他回忆称："董事会对Sam的不信任投票，把他赶了出去。"但底层员工的反应是"震惊"。他还提到，OpenAI最终支持Sam回归，是因为"纯技术出身的人并不一定能撑起整个AI公司"。"你需要一个能搞钱、搞算力、搞资源的人。"

他并不避讳团队流失的问题。对于人才流动，他的态度是："一个健康的组织，所有人都是可以被替代的。"

"比如DeepSeek那波声称迭代很快，这确实让内部很多人警觉。"他提到，这也是重构Infra的原因，"我们早就不做为了刷榜而做的事了。"

他也提出一个设想：一个拥有无限上下文记忆能力的AI Agent，或许才是最合适的CEO。"人类的context是有限的，但AI可以。"

九、如果AI真的能预测未来，人类该不该按下暂停键

在这段对话的最后，话题转向了一个更抽象的问题：如果让AI去解决一个世界难题，翁家翌最想做的是什么。他给出的答案是——如何预测未来。

他坦言，"所有的东西都是可以被预测的，所以理论上它是可以用AI解决的。"

正因为如此，他反而认为，"如果你能拿到一个能够预测未来的机器的话，那么对个人而言，其实是一个灾难，我觉得这会导致所有的价值体系的崩塌。"

他目前采取的应对方式，是"忘掉这一切"，假装不知道世界是否确定，只专注于当下的体验与选择。

他也提出了一种解释：时间或许并非线性流动。未来的我，帮助过去的我来完成某些决策。

当话题回到现实，他对创业与未来的态度并不明朗。他更偏好有真实需求的产品，正如他过去做过的"天授"和"退学online"。在他看来，"技术不重要，重要的是抓住需求。"

谈到更长远的未来，他并没有给自己设定明确的终点。他希望十年后的自己，能够"做当时想做的事"，有足够的资源与足够的能力。他仍然选择继续"投资未来"，让他有选择的权利。

在播客的最后，翁家翌留下了一句话："我曾经一度想通了我自己想要什么，但是我其实还是没有那么想通，这个问题值得一生去思考。"

核心金句

"每家infrastructure都有不同程度的bug，谁修的bug多，谁的模型性能就越好。"

"管公司就像管代码库，一旦不一致，整个系统就会像拼装的人类，身子动了，脚没动。"

"RL本质上就是trial-and-error（试错）。你试得越快越多，成功就越近。"

"教一个researcher如何做好engineering，比教一个engineer如何做好research难得多。"

"如果人生是场游戏，结算分数就是死后还有多少人记得你的名字。"

"我曾经一度想通了我自己想要什么，但是我其实还是没有那么想通，这个问题值得一生去思考。"

本文基于智东西对WhynotTV Podcast #4的深度报道整理。原始播客时长2小时02分45秒。