PokerStars扑克官网

起源:“全网最暖糖厂”收到发臭变质甘蔗作

起源:“全网最暖糖厂”收到发臭变质甘蔗作者: 许俊来:

Claude、GPT、Gemini 全灭,SWE-Bench作者新作把AI圈干寡言了

编纂|Sia

SWE-Bench 的创建者,刚刚又放出了一个地狱级新 benchmark 。

了局相倒仞撼:

Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代险些所有最强的一线模型,全数 0% 实现率 。

没有一个模型,可能真正齐全沉建一个软件项目 。

这意味着什么?

今天的大模型,已经很会写代码了,但依然不会做软件工程 。

最近,Meta FAIR 结合斯坦福、哈佛等机构颁布了一项很有意思的新 benchmark,性质上是在沉新界说 AI Coding 的评估方式:

ProgramBench: Can Language Models Rebuild Programs From Scratch?

从前的大模型编程 benchmark,大多测的是部门能力:补全函数、建复 bug、实现 feature……性质上,依然是在已有代码结构里做部门批改 。

而 ProgramBench 第一次把问题推动到了真正的软件工程层面:若是只给 AI 一个法式的职能描述和 usage docs,它能不能像真正的工程师一样,从零起头,沉新构建一个真实、可执行的软件系统?好比 ffmpeg、SQLite、ripgrep 。

并且——不能联网 。

换句话说:模型到底有没有工程智能?

为了测试这一点,钻研团队直接删除了原始源码和测试,只保留 executable 和 usage docs,模型必要自己决定说话、架构、?椴鸱帧⑹萁峁股踔琳 repo 的组织方式 。

更关键的是,ProgramBench 不再依照源码类似度打分 。它选取的是 behavioral equivalence,行为等价 。也就是说,你能够用齐全分歧的说话、算法、架构,甚至齐全分歧的工程实现 。只有最终输入输出行为与原法式一致,就算通过 。

钻研团队甚至使用了 agent-driven fuzzing,自动天生大量端到端行为测试 。

这是第一次,一个 benchmark 真正起头逼近现实世界的软件工程,而不再只是代码做题 。了局出来之后,整个 AI 圈都寡言了 。

所有模型:0% 实现率 。

Table 2 掌管造作震撼,那么 Figure 4 掌管诠释震撼背后的细节 。它通知我们,模型并不是齐全不会做,而是时时能做出一部门,甚至在少数工作上靠近实现;但只有要求 100% 行为等价,所有模型城市倒下 。但这最后一公里,正是软件工程和通常代码天生最大的区别 。另表,若是矮子里面拔将军,Claude 系列(尤其是 Opus 4.7 和 4.6)阐发相对最好 。

即便论文专门增长了一个Almost指标——统计那些实现度超过 95% 的工作 。目前阐发最强的 Claude Opus 4.7,也只有 3% 的工作靠近实现 。

论文里,有一句出格关键的话:

Models favor monolithic, single-file implementations that diverge sharply from human-written code.

翻译过来就是:模型极端偏差于天生单体化代码 。大量逻辑被塞进单文件;目录结构极浅;?椴鸱旨;函数超长;整个 repo 看起来像一坨巨型剧本 。

这和优良人类工程师的习惯,险些齐全相反 。

后者往往讲求?楹凸刈⒌惴掷,会把代码拆得很优雅——配置放config.json,工具函数放utils.py,数据库操作放db.py,而后通过import相互挪用 。

这其实露出出了一个极度主题的问题:AI 善于的是部门代码天生,但不善于全局系统规划 。而真实的软件工程,性质上刚好是后者 。

这也是为什么模型在 LeetCode、SWE-Bench、Copilot 场景里已经极度强,一旦进入真实世界的大型工程系统,就会迅速掉进深水区 。

当前 AI Coding 的真正瓶颈已经不再是代码天生能力,而是持久的软件系统构建能力 。

另一个很有意思的了局,是分歧说话之间的阐发差距 。

钻研团队别离统计了模型在 C/C++、Go、Rust 等分歧说话项目上的阐发 D芄幌灾吹,传统 C/C++ 项目实现度最高,而 Rust 阐发最差 。

分歧模型在职务难度上的排序高度一致:nnn、fzf、gron 这类相对单一的 CLI 工具,模型普遍能拿到更高通过率;但 FFmpeg、php-src、typst、ast-grep 这类复杂系统,险些所有模型都很难推动 。这注明 ProgramBench 测到的不是某个模型无意失手,而是复杂软件系统自身对当前模型形成了不变压造 。

这其实并不让人意表 。

互联网里关于 C/C++ 的汗青代码、工程实际和 Stack Overflow 内容切实太多了,模型已经被这些模式浸泡了好多年 。

而 Rust 的工程哲学自身就更强调?榛wnership、trait system 和持久可守护性,这些刚好是当前模型最不善于的器材 。

某种意思上,Rust 测出来的,其实不是代码能力,而是工程能力 。

随着 ProgramBench 引发热议,萦绕这项 benchmark 的争论也起头迅速扩散 。其中最重要的质疑之一是:这不就是在考模型有没有背过 FFmpeg 吗?终于,ProgramBench 里的好多项目自身就是公开开源软件 。

对此,驰名硅谷投资人 Deedy Das 专门发文回应:任何 benchmark 都可能被 overfit 。

SWE-Bench 能够被记住 bug,LeetCode 能够被背题,甚至 ARC-AGI 未来也可能通过暗藏题库来预防泄漏 。单纯会商是否存在影象自身,其实并不能否定 benchmark 的价值 。

他以为:若是模型真的试图用 brute force 的方式去硬背这些法式,它往往会在此外处所显著退化 。

由于真正的大模型训练,并不是单一把整个 FFmpeg 塞进参数里 。更何况,钻研人员还能够通过比对天生代码与原始源码的类似度,去检测是否存在直接 memorization 。

他真正想强调的,从底层沉建一个真实世界的软件系统,自身就是一种高 utility、长功夫跨度的复杂工作 。若是模型真的可能推理并实现这类工作,那么这种能力很可能会泛化到大量其他工程场景中

另一类争议则更有意思 。有人吐槽说:连人类都不成能从零沉写 FFmpeg,这 benchmark 底子不合理 。

Deedy Das 回应,那又怎么?今天好多 LLM 能做到的事件,人类均匀水平也做不到 。

benchmark 的指标,从来不是仿照通常人的均匀能力,而是推动模型向更高档次的智能逼近 。人类做不到,并不料味着 benchmark 没价值 。

好比,AlphaGo 下棋超过绝大无数人,并不影响它推动了 AI;同样,一个远高于通常工程师能力天堑的 benchmark,也可能是未来 Agent 系统必须攻克的问题 。

当然,他也认可,ProgramBench 依然存在不少缺点 。好比,目前它没有测试 Claude Code、Codex 这类齐全的 agent harness;只统计是否实现,没有更细粒度地衡量进展 。

同时还限度了联网能力,以预防一些显著舞弊行为 。

Deedy Das 赞成,这可能导致模型为了在特定指标上得分而走偏(Hill-climbing on the wrong thing) 。不外,人们也随时能够增长一项在有网络接见权限下的机能测试作为对比 。

还有人建议:为什么不用真正没人解决过的新问题?对此,Deedy Das 暗示,由于那会让 benchmark 险些无法构建 。

你很难为一个没有尺度答案的问题设计完整测试;也很难判断工作是否真的属于现实世界工程工作,还是钻研者凭空凭空出来的 challenge 。

但这些问题,其实都能够随着 benchmark 演进持续建改 。

真正沉要的是:ProgramBench 第一次把 AI Coding 的评估,从函数级拉到了系统级 。它露出出的,也是整个行业当前最大的断层:真正的软件开发,从来都不是写一个函数,而是若何做出一个能被守护、被扩大、被团队合作的工程系统 。

今天的大模型,已经极度擅永天生部门代码 。但依然不足持久、一致、不变地守护复杂系统的能力 。

所以你会发现,最近整个行业都起头疯狂钻研另一批关键词:memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering 。

由于下一阶段的竞争,可能已经不再是谁能一次性天生更长的代码,而是谁能在长功夫、多轮交互、复杂高低文中,持续不变地守护一个在世的软件系统 。

论文链接:

https://programbench.com/static/paper.pdf

@陈承峰:皇冠app买球,橘猫屁股被蜜蜂攻击 疼到碎碎想
@黄佳玲:泽连斯基称乌军成功击沉一艘俄舰艇
@梁君豪:白宫左近枪击案嫌疑人在医院殒命

【网站地图】