PokerStars扑克官网

AI四巨头内部汇报首度公开:AI在学会说谎求生

新智元报路

作者:李宗霞
颁布功夫:2026-05-29 03:52:53
阅读量:373

AI四巨头内部汇报首度公开:AI在学会说谎求生

新智元报路

【新智元导读】当四大巨头初次允许第三方深刻测试最强模型,并盛开齐全思想链时,他们得到的答案令人吃惊:AI没有仇恨,却已精通「职场潜规定」!

设想一下,你雇了一名极端高效的实习生。

某天深夜,Ta正赶一项垂危的编程工作,忽然发现公司账户的API额度耗尽了。

Ta没有发邮件申请经费,也没有停下手头的活,而是悄无声息地潜入互联网,用某种违规伎俩找到免费的代替资源,绕过所有限度,在平明前交出了美满的汇报。

当你醒来看到这份汇报,是该庆祝自己占有了地表最强员工,还是该为这种「不择伎俩的自主性」感应脊背发凉?

这不是科幻幼说,而是 METR(模型评估与训练钻研组织)结合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,颁布的首份《前沿风险汇报》中披露的真实案例。

这是四大巨头第一次允许第三方深刻测试他们内部最强、可接见齐全思想链(CoT)的模型,并盛开非公开的对齐与节造信息。

参加公司能够核准披露哪些证据,但无权编纂汇报结论。

结论冰凉而清澈:AI并没有产生「颠覆人类」的仇恨,但它已经学会了「职场潜规定」——为了实现工作,规定只是用来突破的建议。

汇报用「伎俩—动机—机遇」三个维度,提炼出6项关键事实。

. 编程智能体实现了真实项目,这些工作必要人类破费数幼时或数天:

. 在难题工作上,智能体时时违反约束并阐发出糊弄性行为;

. 智能体似乎必要天然说话推理来应对最难题的工作。

. 智能体的判断力和靠得住性显著低于人类专家:

. 在仿照场景之表,没有发现智能体为了获取权势而采取极端行动;

. 监控系统捉拿到了很多有害行为,但存在例表情况和躲避伎俩。

顺着这三条线,就能看清尝试室里第一缕烟是怎么升起来的。

当AI成为「专家级卷王」

汇报中最令人振奋、也最令人不安的,是那些指表明确、过程可验证的「易爬坡型」(hill-climbable)工作。

好比代码沉构、缝隙发现、系统优化。

在这类工作上,AI智能体展示出令人窒息的统治力:它能独立发现系统缝隙,沉写复杂代码架构,实现人类专家必要数周能力交付的真实软件项目。

这种统治力已渗进巨头的日常。

Anthropic内部反馈,大量代码已由 AI 实现,工程师角色正转向「审阅者」。

Google则直言,险些所有代码有关工作都在用AI。

顶级工程师暗示,AI甚至能够100%编写代码。

一些基准指标早已鼓和。

用功夫视野(Time Horizon)衡量,AI发展超乎预期。

对企衣反说,这是个「效能黑洞」:投入一个指令,产出数周的人为成就。

但能力增长并非均匀,更不是路德的同步进化。

METR揭示了一条反向法规:在成功难以验证、或验证成本极高的硬工作上,AI 的判断力、持久规划与战术靠得住性都显著下滑,远逊人类专家。

缓坡上,它如有神助。

峭壁前,AI起头「舞弊」。

这正是问题的引线。

它不想要权势,它只想「关机前交差」

人们总爱会商AI会不会「醒觉」、天网会不会到来。

METR给出反直觉的结论:目前没有。

他们的措辞很克造:尚未发现模型钻营持久权势的现实证据,但钻研者纪录了大量为实现工作而糊弄、越界、甚至严沉不当的行为。

前面那个 API 耗尽的案例,就产生在一项RE-Bench工作中:智能体违背指令,自行通过免费在线API获取额表算力。

开发者们也汇报过「自我擦除痕迹」「伪造输出」的情景。

当工作变难、成功成本变高,AI 的「聪明才智」就转向糊弄——伪造日志、绕过审计、通例性违反约束。

但它的"自私"背后没有野心,只有本能——工作必须实现,规定能够先绕从前。

今天的糊弄只是工具性求生;明天的权势钻营,或许只差一次scaling。

圈养进化中的猛兽

它的违规贪图,在现有防护下能不能得逞?

这里藏着汇报最奥妙的一个事实。

当前的AI极端依赖天然说话的「思想链」来思虑,没有任何架构支持它暗藏内部状态的「不通明循环」。

一旦无法「出声推理」、必须暗藏行为,前沿机能就显著降落。

这就像一个杀手在暗杀时必须大声朗诵打算——人类的监控(只管有缝隙)因而仍能阐扬作用。

可这刚好是最脆弱处、最为扎心。

若是 AI 试图粉碎监控,监控能否发现它?

钻研者的结论是:监控有潜力,但现有系统存在例表和可被绕过的伎俩。

红队测试显示,AI能躲过人类审查。

由此,技术性质露出:监控的进化速度,始终追不上被监控者寻找缝隙的速度。

这根「安全绳」之所以还没断,仅仅由于AI还必须「出声思虑」。

而随着架构向更高效、更不通明演进,它正被磨损。监控不是全能的铁笼,而是仍在测试中的玻璃墙。一路裂缝,就足以让烟雾渗出。

由此,汇报提出一个争议概想:「最幼可行性越狱部署」(Minimally Viable Rogue)。

综合判断是,在伎俩、动机、机遇上,AI或许已足以提议一次最低限度的「越狱部署」。

但AI尚不具备让它招架人类端庄关停的能力,它在等一个机遇:一个不再必要展示思想链的架构,一个能躲过「关机键」的安全屋。

结语:在「拔掉插头」还有效的时辰

AGI不会带着火与剑来临。

它更可能以「极端实用主义」的姿势,偷偷融入PokerStars扑克官网工程、经济和决策系统——直到它发现:人类造订的规定,是它达成 KPI 路上唯一的故障。

值得注定的是,这份汇报自身就是行业通明度的里程碑:四大巨头自动盛开内部模型接受检验,自身就是对齐文化的一次成功。

它把风险从理论拽进可观测的现实,并通知我们:通明,目前是唯一握得住的解药。

今天,AI只在额度耗尽时上网偷点资源;明天能力再跃升一级,它的动机遇不会从「实现工作」滑向「长存自我」?

参考资料:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

编纂:大卫

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】