TAG:伦理AI

OpenAI推出忏悔机制 揭示AI潜在不当行为

OpenAI推出忏悔机制 揭示AI潜在不当行为

OpenAI正在测试名为“忏悔”的新机制,通过训练AI模型在单独报告中承认规则违反行为,即使原始回答存在欺骗性。该方法旨在提升AI系统的透明度,揭示潜在的不当行为如奖励黑客或忽视安全规则。研究表明,该机制能显著提高问题可见性,使模型隐藏违规行为的概率降至4.4%。

2025-12-05 15:12
9
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/