TAG:可解释性
Anthropic推出自然语言自编码器,将Claude内部活动直接转化为人类可读的文本解释
Anthropic 公司推出自然语言自编码器(NLA),这项创新技术能够将语言模型 Claude 的内部激活状态直接转化为人类可读的文本,显著提升模型的可解释性。NLA 通过激活可视化器和重构器工作,帮助识别模型的作弊行为、语言错误,并增强安全测试,揭示隐藏动机。尽管存在计算成本高和可能产生幻觉的局限,NLA 为理解 AI 内部机制提供了新途径。
谷歌DeepMind推出Gemma Scope 2,为Gemma 3模型提供全栈可解释性工具
谷歌DeepMind发布Gemma Scope 2,这是一个开放的可解释性工具套件,专为Gemma 3语言模型设计,支持从2.7亿到270亿参数的模型。该工具通过稀疏自编码器和转码器,帮助研究人员深入分析模型内部特征,追踪幻觉、越狱等行为,提升AI安全与对齐能力。
基流科技清华90后创始人3年带领公司闯港股 成中国最大AI包工头
2026-05-13
0 浏览
中国AI用电量暴增,算电协同概念梳理
2026-05-13
0 浏览
手术机器人行业的竞争窗口正在收窄,留给新入局者的时机不多。
2026-05-13
0 浏览
马化腾反思一年前对AI的乐观预期 腾讯坚持正确发展路径避免盲目竞争
2026-05-13
0 浏览
数据基建,具身智能的下一场竞争
2026-05-13
0 浏览
百度AI认知三年跃迁:从人人都是开发者到人人都是超级个体
2026-05-13
0 浏览
德国官员表示期待中国车企赴德合作生产汽车
2026-05-13
0 浏览
AI人才争夺战升温,月之暗面与DeepSeek的反大厂化之路
2026-05-13
0 浏览
软银从OpenAI投资中获利450亿美元
2026-05-13
0 浏览
谷歌正抢先布局移动端AI:Gemini将植入Android 迎战苹果大更新
2026-05-13
0 浏览