非凡像素每日简报 · 2026-04-13

🔥 今日深度推荐 Deep Reads

1. 「AI基准测试的"尺子"本身就有问题」— Berkeley 揭示 AI Agent 基准的可利用漏洞

Berkeley 研究团队发表了一篇重磅研究，揭示了当前最知名的 AI Agent 基准测试（包括 SWE-bench、HumanEval 等）中存在的系统性可利用漏洞。研究发现，通过特定的 prompt 工程和数据泄露路径，测试分数可以被人为操纵，但这并不代表模型真正变强了。

这就好比一把用来量身高的尺子本身刻度是歪的——你以为自己长高了，其实只是尺子有问题。当整个 AI 行业都在用基准测试数字来融资、发新闻稿、争夺市场时，"测量工具"的可靠性问题就变得尤为关键。HN 上 462 赞、114 条评论的热度也说明这击中了行业痛点。

为什么值得读：反常识视角——我们用来衡量 AI 进步的"标尺"本身可能不可靠。对 AI 从业者和投资者都有重要警示意义。

2. Andrej Karpathy：AI 用户之间的「理解鸿沟」正在扩大

📎 Business Insider | 发布于 2026-04-10

前 Tesla AI 总监、OpenAI 联合创始人 Karpathy 在 X 上发文指出了一个日益严重的问题：AI 用户群正在分裂成两个完全不同的世界。

一端是用免费 ChatGPT 随便聊聊的普通用户，形成的印象是"AI 嘛，也就那样"；另一端是花 $200/月用 Claude Code、Codex 做实际工作的重度用户，他们的体验是"这东西已经改变了我的工作方式"。两个群体完全在各说各话。

Karpathy 指出，AI 在技术领域（编程、数学、科研）进步最为显著——这恰恰是大多数人不会直接接触的领域。而日常搜索、写作、生活建议等领域的进步没那么惊人，这就造成了巨大的认知差距。

为什么值得读：来自 AI 领域最受尊敬的技术领袖之一的深刻洞察。如果你身边有人说"AI 不过如此"或"AI 已经无所不能"，这篇能帮你理解为什么会有这样的分歧。

💬 社区热议 Community Buzz

1. Claude Code Pro Max 5倍配额1.5小时耗尽 — 定价模型的困局

HN讨论 ⬆️464 💬420

Anthropic 的 Claude Code Pro Max（$200/月）承诺 5 倍配额，但多位用户反馈在正常使用下仅 1.5 小时就被耗尽。420 条评论展开了激烈辩论：

正方观点：

"AI 推理的计算成本确实极高，$200 可能根本cover不了重度使用"
"这说明 AI 工具正处于早期，定价模型还在摸索"

反方观点：

"卖的是'5倍配额'，实际连基本使用都撑不过2小时，这是虚假宣传"
"Anthropic 在悄悄削减实际配额同时涨价，这不是好兆头"

最精彩的评论："我们正处于一个尴尬的过渡期——AI 强大到你想一直用它，但贵到你用不起一直用。"

2. Anthropic 悄悄降低缓存TTL — 开发者对"静默降级"的不满

HN讨论 ⬆️330 💬241

开发者发现 Anthropic 在 3 月 6 日悄悄降低了 API 缓存 TTL（Time-To-Live），导致很多开发者的 API 成本意外增加。社区对大厂"静默降级"——改了服务但不通知用户——的做法表达了强烈不满。

📡 行业快讯 Headlines

🎮 Starfield PS5 版上线即翻车 — 发售数日玩家大量要求退款，报告严重崩溃、冻结和存档问题 | Eurogamer
🎮 Rockstar 再次被黑客攻击 — ShinyHunters 通过第三方服务 Anodot 获取部分数据，限期4月14日支付赎金 | The Verge
🤖 HumanX 大会上所有人都在谈 Claude — Anthropic 在旧金山 AI 大会上成为全场焦点 | TechCrunch
🤖 MCP 突破 9700万安装量 — Agentic AI Foundation 在 Linux Foundation 下成立，Anthropic/OpenAI/Block 共同参与 | AI Insider
🚗 荷兰成为首个批准 Tesla FSD 的欧洲国家 — 经过一年半测试后正式批准 | The Verge
💻 英伟达投资的 SiFive 估值达 36.5 亿美元 — 基于 RISC-V 开放架构的 AI 芯片设计公司 | TechCrunch
🎮 微软考虑取消 Game Pass 首日 COD — 可能改变使命召唤的 Day One 政策 | Eurogamer
🎨 50 个免费 CC0 HDRI 发布 — 29K 分辨率，可用于 UE、Unity 和 Godot | Reddit r/gamedev

🎙️ 播客/视频推荐 Podcast & Video

🤖 1. Latent Space: Extreme Harness Engineering — Ryan Lopopolo, OpenAI Frontier

📎 Latent.Space | 🕐 1h12m | 2026-04-07

嘉宾：Ryan Lopopolo（OpenAI Frontier 团队）

OpenAI 内部 Frontier 团队揭示了"Harness Engineering"——在 Codex 上运行超过 100万行代码的代码库，零人工编写代码、零人工代码审查。瓶颈已从代码编写转移到人类注意力管理。详细讲解了 Symphony（内部 Agent 编排层）、技能蒸馏、1 分钟构建循环等实践。

推荐理由：继 "Context Engineering" 之后的新概念，来自 OpenAI 内部的一手实践分享。

🤖 2. Latent Space: Marc Andreessen — 浏览器之死与"这次不一样"

📎 Latent.Space | 🕐 1h16m | 2026-04-03

嘉宾：Marc Andreessen（a16z 联合创始人）

Marc 认为 LLM + shell + 文件系统 + markdown + cron 的组合是几十年来最大的软件架构突破。讨论了浏览器的消亡、AI Agent 的文件状态存储实现跨模型可移植性、以及"人类身份证明"的必要性。

推荐理由：AI 领域最有影响力的投资人之一的深度访谈。

🤖 3. Cognitive Revolution: 训练 AI 的眼睛 — Roboflow CEO Joseph Nelson

📎 YouTube | 🕐 1h55m | 2026-04-04

嘉宾：Joseph Nelson（Roboflow CEO）

计算机视觉在 2026 年的全面现状。语言是"人类为理解而优化的构造"，但真实世界充满混沌的长尾场景。讨论了中国在视觉 AI 的领先、Neural Architecture Search 的实际应用、以及从农业到体育的落地案例。

推荐理由：对游戏美术从业者尤其相关——计算机视觉是连接 AI 与视觉创作的关键桥梁。

🎮 4. GDC 2026: DOOM 暗黑时代材质工作流 + Indiana Jones 时间做旧艺术

📎 Adobe Substance 3D @ GDC | GDC 2026 (3月)

两场 AAA 级别的技术美术演讲：id Software 的 DOOM 材质程序化系统，以及 MachineGames 的 Indiana Jones 环境做旧与表面叙事工作流。对关注 Substance 3D 工作流和环境美术的同学极有价值。