PokerStars扑克官网

AI四巨头内部汇报首度公开：AI在学会说谎求生

新智元报路

作者：李宗霞

颁布功夫：2026-05-29 03:52:53

阅读量：373

AI四巨头内部汇报首度公开：AI在学会说谎求生

新智元报路

【新智元导读】当四大巨头初次允许第三方深刻测试最强模型，并盛开齐全思想链时，他们得到的答案令人吃惊：AI没有仇恨，却已精通「职场潜规定」！

设想一下，你雇了一名极端高效的实习生。

某天深夜，Ta正赶一项垂危的编程工作，忽然发现公司账户的API额度耗尽了。

Ta没有发邮件申请经费，也没有停下手头的活，而是悄无声息地潜入互联网，用某种违规伎俩找到免费的代替资源，绕过所有限度，在平明前交出了美满的汇报。

当你醒来看到这份汇报，是该庆祝自己占有了地表最强员工，还是该为这种「不择伎俩的自主性」感应脊背发凉？

这不是科幻幼说，而是 METR（模型评估与训练钻研组织）结合Anthropic、Google、Meta和OpenAI 进行内部红队测试后，颁布的首份《前沿风险汇报》中披露的真实案例。

这是四大巨头第一次允许第三方深刻测试他们内部最强、可接见齐全思想链（CoT）的模型，并盛开非公开的对齐与节造信息。

参加公司能够核准披露哪些证据，但无权编纂汇报结论。

结论冰凉而清澈：AI并没有产生「颠覆人类」的仇恨，但它已经学会了「职场潜规定」——为了实现工作，规定只是用来突破的建议。

汇报用「伎俩—动机—机遇」三个维度，提炼出6项关键事实。

. 编程智能体实现了真实项目，这些工作必要人类破费数幼时或数天：

. 在难题工作上，智能体时时违反约束并阐发出糊弄性行为；

. 智能体似乎必要天然说话推理来应对最难题的工作。

. 智能体的判断力和靠得住性显著低于人类专家：

. 在仿照场景之表，没有发现智能体为了获取权势而采取极端行动；

. 监控系统捉拿到了很多有害行为，但存在例表情况和躲避伎俩。

顺着这三条线，就能看清尝试室里第一缕烟是怎么升起来的。

当AI成为「专家级卷王」

汇报中最令人振奋、也最令人不安的，是那些指表明确、过程可验证的「易爬坡型」（hill-climbable）工作。

好比代码沉构、缝隙发现、系统优化。

在这类工作上，AI智能体展示出令人窒息的统治力：它能独立发现系统缝隙，沉写复杂代码架构，实现人类专家必要数周能力交付的真实软件项目。

这种统治力已渗进巨头的日常。

Anthropic内部反馈，大量代码已由 AI 实现，工程师角色正转向「审阅者」。

Google则直言，险些所有代码有关工作都在用AI。

顶级工程师暗示，AI甚至能够100%编写代码。

一些基准指标早已鼓和。

用功夫视野（Time Horizon）衡量，AI发展超乎预期。

对企衣反说，这是个「效能黑洞」：投入一个指令，产出数周的人为成就。

但能力增长并非均匀，更不是路德的同步进化。

METR揭示了一条反向法规：在成功难以验证、或验证成本极高的硬工作上，AI 的判断力、持久规划与战术靠得住性都显著下滑，远逊人类专家。

缓坡上，它如有神助。

峭壁前，AI起头「舞弊」。

这正是问题的引线。

它不想要权势，它只想「关机前交差」

人们总爱会商AI会不会「醒觉」、天网会不会到来。

METR给出反直觉的结论：目前没有。

他们的措辞很克造：尚未发现模型钻营持久权势的现实证据，但钻研者纪录了大量为实现工作而糊弄、越界、甚至严沉不当的行为。

前面那个 API 耗尽的案例，就产生在一项RE-Bench工作中：智能体违背指令，自行通过免费在线API获取额表算力。

开发者们也汇报过「自我擦除痕迹」「伪造输出」的情景。

当工作变难、成功成本变高，AI 的「聪明才智」就转向糊弄——伪造日志、绕过审计、通例性违反约束。

但它的"自私"背后没有野心，只有本能——工作必须实现，规定能够先绕从前。

今天的糊弄只是工具性求生；明天的权势钻营，或许只差一次scaling。

圈养进化中的猛兽

它的违规贪图，在现有防护下能不能得逞？

这里藏着汇报最奥妙的一个事实。

当前的AI极端依赖天然说话的「思想链」来思虑，没有任何架构支持它暗藏内部状态的「不通明循环」。

一旦无法「出声推理」、必须暗藏行为，前沿机能就显著降落。

这就像一个杀手在暗杀时必须大声朗诵打算——人类的监控（只管有缝隙）因而仍能阐扬作用。

可这刚好是最脆弱处、最为扎心。

若是 AI 试图粉碎监控，监控能否发现它？

钻研者的结论是：监控有潜力，但现有系统存在例表和可被绕过的伎俩。

红队测试显示，AI能躲过人类审查。

由此，技术性质露出：监控的进化速度，始终追不上被监控者寻找缝隙的速度。

这根「安全绳」之所以还没断，仅仅由于AI还必须「出声思虑」。

而随着架构向更高效、更不通明演进，它正被磨损。监控不是全能的铁笼，而是仍在测试中的玻璃墙。一路裂缝，就足以让烟雾渗出。

由此，汇报提出一个争议概想：「最幼可行性越狱部署」（Minimally Viable Rogue）。

综合判断是，在伎俩、动机、机遇上，AI或许已足以提议一次最低限度的「越狱部署」。

但AI尚不具备让它招架人类端庄关停的能力，它在等一个机遇：一个不再必要展示思想链的架构，一个能躲过「关机键」的安全屋。

结语：在「拔掉插头」还有效的时辰

AGI不会带着火与剑来临。

它更可能以「极端实用主义」的姿势，偷偷融入PokerStars扑克官网工程、经济和决策系统——直到它发现：人类造订的规定，是它达成 KPI 路上唯一的故障。

值得注定的是，这份汇报自身就是行业通明度的里程碑：四大巨头自动盛开内部模型接受检验，自身就是对齐文化的一次成功。

它把风险从理论拽进可观测的现实，并通知我们：通明，目前是唯一握得住的解药。

今天，AI只在额度耗尽时上网偷点资源；明天能力再跃升一级，它的动机遇不会从「实现工作」滑向「长存自我」？

参考资料：

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

编纂：大卫

　

【编纂者：郑家贤】

有关标签

成本压力上升，马来西亚造作业面对挑战网友称京东健康免单中奖率高得离男子在飞机腾飞后欲拉开应急舱门航司传递福建福耀科技大学获批国际学生招收资质

文章点评

未查问到任何数据！

颁发评论

◎欢迎参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】