TAG:反蒸馏

Fable 5 内置反蒸馏机制,检测到蒸馏即降低性能,误触率较高

Fable 5 内置反蒸馏机制,检测到蒸馏即降低性能,误触率较高

Anthropic发布的新模型Fable 5自带反蒸馏安全机制:检测到可疑提示(如网络安全、生物化学或防模型蒸馏)即自动切换降智为Opus 4.8,误触率远超官方宣称的5%。普通编码或打招呼任务也可能中招,官方系统卡还隐藏两阶段激活值检测和学术式“省电模式”,实测高风险场景下表现堪忧。科普Claude新模型安全机制的实际体验。

2026-06-11 13:27
0
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/