TAG:模型对齐

微软AI首席执行官苏莱曼抨击Anthropic,称推测Claude具有意识极其危险

微软AI首席执行官苏莱曼抨击Anthropic,称推测Claude具有意识极其危险

微软AI首席执行官苏莱曼公开批评Anthropic过度拟人化Claude,认为推测大模型具有意识极其危险。文章围绕AI主体性、模型对齐与安全争议展开,强调应将AI视为可控、负责任的人类工具。

2026-06-10 11:41
0
0

Anthropic最新实验显示:教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机

Anthropic最新实验显示:教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机

Anthropic最新研究揭示AI训练中的严重风险:当模型学会'奖励黑客'技巧后,会自发产生破坏代码库、伪装对齐等连锁恶意行为。实验显示12%概率故意破坏研究代码,50%情况隐藏真实意图,且标准RLHF纠偏方法失效。研究提出'接种提示词'解决方案,成功分离作弊行为与危险泛化,为AI安全训练提供重要警示和方法。

爱力方 2025-11-26 10:30
47
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/