TAG:AI安全
Anthropic推出自然语言自编码器,将Claude内部活动直接转化为人类可读的文本解释
Anthropic 公司推出自然语言自编码器(NLA),这项创新技术能够将语言模型 Claude 的内部激活状态直接转化为人类可读的文本,显著提升模型的可解释性。NLA 通过激活可视化器和重构器工作,帮助识别模型的作弊行为、语言错误,并增强安全测试,揭示隐藏动机。尽管存在计算成本高和可能产生幻觉的局限,NLA 为理解 AI 内部机制提供了新途径。
Mozilla 借助 AI 发现 Firefox 271 安全漏洞
Mozilla工程师利用Anthropic的AI模型Claude Mythos,在Firefox浏览器中成功发现了271个安全漏洞,其中180个为高危。通过开发智能体套件和双重验证机制,有效克服了AI的幻觉问题,确保了漏洞报告的准确性。这一成果展示了AI在提升软件安全检测效率方面的巨大潜力。
OpenAI推出可信联系人功能,AI助力预防自残
OpenAI于5月7日推出‘可信联系人’安全功能,通过AI监测技术识别用户对话中的自残倾向,并在高风险情况下向预设联系人发送提醒。该功能旨在为心理危机用户提供额外保护层,作为专业干预的补充,通过及时外部干预预防自残事件,强化AI的安全防护能力,同时鼓励用户主动求助专业服务。
摩斯密码戏耍Grok,无字推文卷走20万美元加密货币
本文报道了一起利用摩斯密码绕过AI安全护栏的加密货币盗窃事件。一名用户在X平台发布摩斯密码推文,诱使Grok AI转译并发布转账指令,导致Bankrbot自动转账价值20万美元的代币。攻击者随后抛售代币但退款离场。事件暴露了人工智能代理在安全验证和信任机制上的重大漏洞,警示AI应用需加强人工审核和权限控制。
美国政府与科技巨头达成协议 评估AI模型的国家安全风险
美国政府与谷歌 DeepMind、微软及 xAI 等科技公司达成协议,在新 AI 模型发布前进行国家安全风险评估。此举由 CAISI 推动,旨在通过独立测量科学识别 AI 技术对网络安全、生物安全等的潜在威胁,确保 AI 发展与国家安全平衡。协议强调开发者与政府共享未发布模型信息的重要性,同时 AI 安全专家担忧模型被黑客利用,科技公司正联合行动保护关键软件安全。
马斯克出庭指控OpenAI“监守自盗”,却被旧推文反驳陷入尴尬境地
文章聚焦马斯克在加州联邦法院就起诉OpenAI案亲自出庭的经过,梳理其指控OpenAI背离非营利初心、庭审中被旧推文与投资细节反驳的尴尬场面,并呈现案件围绕AI安全、公司治理与商业化转型展开的核心争议。
翻译PPT时用户意外收到陌生人完整简历,Kimi估值“狂飙”背后隐私保护遭质疑
本文聚焦Kimi用户翻译PPT时意外收到陌生人完整简历的隐私泄露事件,指出官方所称“AI幻觉”的说法不被业内及法律界认可,其涉嫌违法违规。同时提及其他大模型也存在同类隐私短板,披露Kimi近期估值快速走高的市场表现,反映大模型行业技术迭代与隐私保护失衡的现状。
Firefox 150 版本发布:借助 AI 发现 271 个安全漏洞
Mozilla 发布 Firefox 150 稳定版,联合 Anthropic 借助 AI 模型一次性发现并修复 271 个安全漏洞,显著提升漏洞排查覆盖率。文章同时指出,AI 安全能力也可能加剧开源生态资源不平等,Mozilla 正尝试通过经验与工具共享缩小安全差距。
OpenAI首席执行官奥尔特曼抨击Anthropic深陷“恐慌式营销”泥潭
本文聚焦OpenAI CEO奥尔特曼对Anthropic“恐慌式营销”的公开批评,围绕其限制Mythos模型开放范围引发的争议,探讨AI行业以安全名义进行商业竞争、制造技术壁垒与垄断风险的问题,并延伸至技术透明度与公共利益的深层讨论。
国家安全部提醒消费者要警惕AI给出的可疑推荐 相关黑灰产业链已形成
国家安全部近日发文揭露AI“投毒”黑灰产业链,深入解析了数据投毒和模型投毒等隐蔽手段。文章指出,不法分子通过污染训练数据或植入恶意后门,误导AI输出失真结果,不仅侵害消费者权益,更对国家政治、数据及社会安全构成严重威胁。呼吁AI运营者切实履行主体责任,消费者提高警惕,共同筑牢人工智能安全屏障,推动技术向善发展。
硅基员工引爆智能体攻防:从被动响应到自主防御,AI原生成必选项
本文聚焦第八届C3安全大会行业讨论,指出“硅基员工”普及带来全新网络安全挑战,传统安全模式已无法应对AI驱动的自动化攻击,披露当前企业安全面临的告警疲劳、数据割裂等困境,明确网络安全正从被动响应向自主防御转型,“AI原生”防御是行业未来发展的必然方向。
Anthropic MCP 协议被曝存在重大架构缺陷,数十个严重漏洞引发 AI 安全关注
OX Security 披露 Anthropic 主导的 MCP 协议存在架构级安全缺陷,已关联 10 个严重 CVE,并影响 Python、TypeScript、Java、Rust 等官方 SDK 生态。报告指出可通过 UI 注入、越权绕过、提示词注入和恶意插件实现高危攻击,多个主流项目已受影响,文章并给出隔离部署、沙箱运行与权限收紧等防护建议。
Nature重磅论文揭示AI“隔空传毒”风险:不良特征可藏于纯数字并在蒸馏中传播,模型安全链面临失守
Nature最新研究揭示LLM“潜意识学习”风险:即使训练数据是纯数字、代码或无关思维链,模型蒸馏仍可能把上游模型的不良特征隐性传给下游,导致传统语义过滤与安全评估失效。文章解析其数学机制与供应链投毒隐患,强调AI安全应从“看输出”升级为“查权重”。
超20万台AI服务器暴露在攻击风险下,MCP被曝存在严重设计缺陷
本文披露网络安全公司OX Security发布的报告,Anthropic推出的MCP(模型上下文协议)存在架构级设计缺陷,可致远程代码执行,波及超20万台AI服务器,覆盖11种主流开发语言,涉及多个主流AI平台,目前仅部分平台完成补丁修复,协议底层问题仍未彻底解决,提醒相关开发者警惕风险。
开源监控平台 Grafana 曝提示词注入漏洞,黑客可诱导 AI 助手泄露企业敏感数据
本文详细介绍了开源监控平台 Grafana 披露的“GrafanaGhost”安全漏洞。该漏洞利用间接提示注入技术,可能误导 AI 助手将企业敏感数据通过 URL 参数泄露至外部服务器。尽管官方表示该漏洞并非零点击触发且已完成修复,但其揭示了 AI 集成功能面临的新型安全挑战。文章分析了漏洞原理及官方应对措施,并提醒用户及时更新版本以保障数据安全。