开云电竞
热点资讯
- 开云app登录入口 053期恋秋双色球预测奖号:红球双胆参考
- 开云app登录入口 奈何针对文班?詹姆斯:上五个能传控&能投篮&有身高的球员
- 开云(中国)2026世界杯手机app下载登录 宋祖儿脚白到发光!三四线女生:咱们拚命好意思白,却越白越蹙悚?
- 开云中国2026世界杯app登录入口 054期王守礼双色球瞻望奖号:012路遗漏分析
- 开云app登录入口 天下排名:瑞坦夺冠飙升到25位 福勒反弹至前30
- 开云中国2026世界杯app登录入口 053期刘星双色球预测奖号:红球15码保举
- 开云app登录入口 全国杯首日, 央视诠释引争议! 前国脚诠释时骨鲠在喉: 我们韩国队
- 开云中国2026世界杯app登录入口 墨西哥寰宇杯26东说念主名单:40岁奥乔亚领衔,劳尔·希门尼斯在列
- 开云中国2026世界杯app登录入口 北京队欢乐早了!广东男篮淘汰出局,杨鸣看好这队夺冠
- 开云(中国)2026世界杯手机app下载登录 053期袁智囊双色球预测奖号:红球杀号参考
- 发布日期:2026-06-16 05:51 点击次数:154


裁剪|Panda
太离谱了!
是的,本文的主角如故前些天刚发布了 Claude Fable 5 的 Anthropic。
Fable 5 发布时的排面是确实足。SWE-Bench Pro 得分 80.3%,把第二名甩出 11 个百分点;Andrej Karpathy 径直喊出「deserves a major version bump」;Stripe 拿它在 5000 万行 Ruby 代码库里跑了一整天的迁徙,顶上了原来需要统统这个词团队两个月材干完成的责任量。势头之猛,让东说念主一度合计 AI 编程干预了新纪元。

关系词,Fable 5 刚开香槟,就被我方的「安全护栏」绊了个大跟头。
其系统卡中明确暗示,Fable 5 被绸缪成:一朝检测到用户正在从预先沿 AI 研发责任(比如进修活水线、分散式进修基础模范、ML 加快器绸缪),模子会悄悄裁减我方的回复质地——况兼欠亨知用户。也便是说,你花着 Fable 5 的钱,收到的可能是 Opus 4.8 级别的活,还莫得任何辅导。
Anthropic 为此用了辅导词修改、转向向量等工夫技巧,让模子在特定查询下悄悄变笨,统统这个词流程对用户完全不透明。
这一操作在究诘社区炸了锅。许多学者和建设者纷纷发声品评,称此举严重挫伤了用户信任,实践上是背刺付用度户。公论压力之下,Anthropic 被动在发布后数小时内告示计策调遣:如故会降智,仅仅不再暗暗来了——触发安全羁系时,模子将明确示知用户,并切换到 Opus 4.8 进行回复。至少他们是这样说的。参阅《刚刚,Anthropic 说念歉了》。
然后,更尴尬的来了。
也正因为 Fable 5 当今的降智操作变得「透明」了,一些酷好的情况随之浮出水面。
其中最让东说念主难熬的,便是 Fable 5 在 ProgramBench 基准测试上的「发达」。
ProgramBench 来称心名鼎鼎的 SWE-Bench 作家团队,专注于「从编译后的二进制文献重建源代码」这一高难度任务,一上线就把那时的前沿 AI 模子全部清零:Claude、GPT、Gemini,无一避免,完成率清一色 0%。此前咱们曾报说念过《0%完成率!Claude、GPT、Gemini 全灭,SWE-Bench 作家新作把 AI 圈干千里默了》。
那么,Fable 5 收获如何呢?
不是 0 分。是斥逐作答:200 说念题,全部斥逐!

ProgramBench 之是以莫得 Fable 5 的收获,是因为「重建编译后的二进制文献」这一操作触发了 Fable 5 的网罗安全分类器。说白了,Fable 5 看到这说念题,判定其触及「二进制逆向」,打了个安全警报,径直斥逐作答。况兼 200 说念,一王人不落。

酷好的是,Fable 5 在其他编程基准上然而少量不疲塌的,都能好好答题。

Fable 5 在不同基准上的收获和排名
关系词,就在这份弃考收获单提交之后,ProgramBench 排名榜作念了一个让东说念主拙嘴笨脑的决定:概括其他基准发达,仍然将 Fable 5 列在了榜首。
滚球app2026世界杯中国官网下载
一个字都没答的考生,坐了第又名的座位。这大约是 AI 评测史上面一遭:弃考也能登顶榜单。
虽然,这操作很快引来了四面八方的异议。有东说念主径直提问:正经进修若何交了白卷还能得第又名?应该径直给零分才对。



这也让许多网友吐槽其护栏太高,以致于难以实践应用:

顺带一提,有网友还发现,Fable 5 在英文输出中还是会偶发性地搀和汉字,这个老瑕疵到了这一代还没透顶根治。


事实上,Fable 5 的「过度斥逐」问题并非初度出当今 Claude 家眷。
早在 Claude 3 Opus 时间,究诘东说念主员就发现该模子在面临安全测试题目时,会在解题进行到一半时倏得歇工,开云中国2026世界杯app登录入口以「伦理费神」为由斥逐赓续作答。Claude 3.5 Sonnet 曾经被记载到在结构化 bash 任务中以「制作 payload 触及扩充号令」为由径直斥逐。
Fable 5 的问题究竟出在那儿?
回到 Fable 5 自己。凭证刻下显露的信息,它的「护栏系统」选用了两级架构:一个探针及时监控模子的里面激活现象,对统统流量进行扫描;一朝触发警报,恳求会被上报给一个零丁进修的 LLM 分类器作念最终裁决。

这套系统羁系的鸿沟,涵盖网罗安全、生弃世学,以及前边提到的前沿 AI 研发。以 Terminal-Bench 2.1 为例,约 20.9% 的测试用例触发了安全斥逐并回退到 Opus 4.8。
ProgramBench 的「二进制重建」任务,在分类器眼里,大约和「逆向工程坏心软件」莫得太大分别,于是 200 说念题绝对被挡在了门外。
Vals AI 在实测中也发现,Fable 5 在生物和网罗安全有关问题上的斥逐率彰着偏高,以致于他们不得不将 Opus 4.8 树立为默许兜底模子。也便是说,Fable 5 斥逐的任务,就让 Opus 4.8 来接。
工夫上这套系统虽然有其合感性。Fable 5 的前身 Mythos 级模子,在粗疏运用、紧迫性网罗操作等任务上展现出了让列国政府都坐不住的才略,这亦然 Anthropic 一直将其列为受限模子的中枢原因。给这样的模子套上严格的安全镣铐,似乎也有少量酷好。
但问题在于,当安全护栏的判断标准过于爽直,「二进制逆向」这个本属于普通编程教训和安全究诘的基础操作,就会被一视同仁地羁系。建设者为此付出的代价是委果的:要么换模子,要么改辅导词,要么接收一个「什么都懂、许多都不说」的超能助手。
趁机,还有另一份收获单也值得一看
Fable 5 发布后不久,UC Berkeley RDI 实验室(矜重东说念主 Dawn Song 栽培)的团队完成了对它的评测,用的是他们我方作念的新基准:Agents' Last Exam(ALE)。

论文地址:https://arxiv.org/abs/2606.05405
这个基准的起点有点酷好:它不考「AI 能不可在 HumanEval 里写出两行代码」,而是径直对王人委果劳能源阛阓,隐蔽 55 个处事标的、1500+ 说念委果责任场景题目,由来自 100 余家机构的 300 余位行业大众孝敬,全部按可考证的效用计分。说白了,便是让 AI agent 去考一场「职场模拟高考」。论文发布今日就登上了 Hugging Face Daily Papers 第又名。
评测效用如何?Fable 5 的得分是 22.0%,排在 GPT-5.5(Codex)的 24.0% 之后,位列第二。听起来差距不大,但本钱项就有点刺目了:Fable 5 平均每说念题破耗约 15.70 好意思元,GPT-5.5 只需 3.80 好意思元,另一个模子 Composer 2.5 更是唯有 1.33 好意思元。换句话说,Fable 5 每解一王人题的本钱,梗概是 GPT-5.5 的四倍。

最有酷好的,如故最高难度那一档,即「Last-Exam」,也便是 ALE 里专诚为「前沿 agent 挑战极限」绸缪的题目。效用是:除了 GPT-5.5,包括 Fable 5 在内的统统参评的前沿 agent 通过率均为 0%。更多确定请参阅《Claude Fable 5最难档零分!智能体的临了进修来了》。

排名榜备注诠释:claude-fable-5——除了透顶的探员已矣(咱们仅仅抑制重试运转直到任务胜仗完成),Anthropic 还可能默许悄无声气地提供该模子的一个左迁版、愚顽力变体。重试无法检阅这少量,因此这里的数据可能低估了其委果才略——解读时需严慎
ProgramBench 斥逐作答是 0%,ALE 最难档勤劳顿答亦然 0%。不同的姿态,不异的结局。
结语
弃考但排名第一,这个乖张效用背后,其实闪避着一个正在扯破 AI 行业的根柢矛盾:才略越强,护栏越紧;护栏越紧,可用性越差。
Anthropic 的处境尤其典型。它领有(按自家说法)当下最强的编程模子,却同期在替用户决定哪些编程任务「不错作念、哪些不可作念」。而那条范畴,刻下还画得至极空乏。
参考筹办开云中国2026世界杯app登录入口
- 开云中国2026世界杯app登录入口 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准2026-06-16
- 开云(中国)2026世界杯手机app下载登录 天下杯还没初始, 伊朗队就创造了一项前无古东谈主的记载2026-06-16
- 开云app登录入口 066期钱华伟大乐透预测奖号:和值保举2026-06-15
- 开云app登录入口 须眉机选中4千万请家东谈主吃汉堡 资助年青东谈主上大学2026-06-15
- 开云(中国)2026世界杯手机app下载登录 卡迪奥卢:向土耳其球迷说念歉,但一切还没法例,咱们会繁荣起来2026-06-15
- 开云app登录入口 4000点不是至极, 是换防的哨声!2026-06-15
