TAG:可解释性
Anthropic推出自然语言自编码器,将Claude内部活动直接转化为人类可读的文本解释
Anthropic 公司推出自然语言自编码器(NLA),这项创新技术能够将语言模型 Claude 的内部激活状态直接转化为人类可读的文本,显著提升模型的可解释性。NLA 通过激活可视化器和重构器工作,帮助识别模型的作弊行为、语言错误,并增强安全测试,揭示隐藏动机。尽管存在计算成本高和可能产生幻觉的局限,NLA 为理解 AI 内部机制提供了新途径。
谷歌DeepMind推出Gemma Scope 2,为Gemma 3模型提供全栈可解释性工具
谷歌DeepMind发布Gemma Scope 2,这是一个开放的可解释性工具套件,专为Gemma 3语言模型设计,支持从2.7亿到270亿参数的模型。该工具通过稀疏自编码器和转码器,帮助研究人员深入分析模型内部特征,追踪幻觉、越狱等行为,提升AI安全与对齐能力。
美股三大指数震荡整理,芯片股走高,光通信板块大涨
2026-05-11
0 浏览
多空胶着恒指震荡整理,AI景气外溢主导行情波动
2026-05-11
0 浏览
宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万
2026-05-11
0 浏览
隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中
2026-05-11
0 浏览
中国品牌市占率达75%,4月我国汽车销量约252.6万辆,新能源汽车出口贡献度近五成
2026-05-11
0 浏览
4月汽车出口增长51% 国内零售下跌超20%
2026-05-11
0 浏览
4月全国新能源汽车渗透率历史首次突破60%,燃油车零售同比暴跌37%
2026-05-11
0 浏览
港股复盘:强势翻红 芯片概念股冲高回落 短期风险需警惕
2026-05-11
0 浏览
申昊科技拟设具身智能子公司 加码人形机器人业务
2026-05-11
0 浏览