TAG:3
英伟达发布全能世界模型 物理AI爆发临近 机器人自动驾驶有望获强力助推
英伟达在2026年GTC大会上发布了Cosmos 3,一款基于Transformer混合架构的全能物理AI世界模型,完全开源。该模型能原生理解和生成文本、图像、视频、声音及动作,将物理AI的训练评估周期从数月缩短到数天,有望推动机器人和自动驾驶领域实现代际飞跃,解决训练数据有限和仿真堆栈分散的挑战。英伟达还宣布了人形机器人参考设计和Cosmos联盟,共同推进世界模型发展,物理AI市场规模巨大,预计将重塑制造与物流产业。
Stability AI 发布 Stable Audio 3:可秒级生成长音频
Stability AI最新发布的Stable Audio 3音频大模型,通过创新的SAME自编码器和扩散变换器架构,实现了音频生成的革命性突破。该模型支持高品质双声道立体声输出,能以秒级速度生成长达数百秒的音频,显著提升创作效率。同时,它降低了硬件门槛,使个人创作者能在消费级设备上进行专业级音频制作。开源部分权重,为音乐和音效创作带来前所未有的灵活性。
免费开源 AI 国际象棋引擎 Maia 3 正式发布 提升人类对局体验
Maia 3 是最新发布的免费开源 AI 国际象棋引擎,专注于模拟人类决策模式而非追求超人类水平。它基于 Llama 3.1 架构,通过 2.5 亿局真实人类对局训练,Elo 评分约 1800 分,支持国际象棋、将棋、围棋和中国象棋等多种棋类。该引擎易于在消费级硬件上本地部署,旨在提升业余玩家的对局体验,提供教育性陪练,并推动 AI 技术的民主化。
20年前奔腾4 CPU成功运行Meta Llama 3大模型
YouTube科技频道Fully Buffered近日完成了一项硬核测试,在20年前的奔腾4 641处理器上成功运行了Meta最新的Llama 3.2 3B大模型。测试中生成速度仅为0.21 Token/秒,耗时33分钟,但验证了即使没有现代AVX指令集,AI模型也能在老旧硬件上运行,只要内存足够。这一实验展示了AI兼容性的极限,强调了指令集和内存的关键作用,超越了实用价值,为AI硬件生态提供了极端参考案例。
英伟达推出新一代多模态模型,智能体效率提升九倍
英伟达发布开放式多模态模型 Nemotron 3 Nano Omni,将视频、音频、图像与文本推理整合到统一系统中,凭借混合专家架构实现最高9倍吞吐提升,并在文档解析、视频理解等任务中表现领先,展现出智能体应用的广阔前景。
强脑科技发布BrainCo Revo 3智能灵巧手
强脑科技近日发布全新BrainCo Revo 3智能灵巧手,其拥有21个主动自由度,超越人手的活动空间,并采用自研高性能微型关节,实现33种抓握手势。该灵巧手具备3Hz极速开合能力、强大抓握力及“真实触感+视觉”双感知,确保精细操作更稳、更准。Revo 3兼容主流开源生态,有望显著降低人形机器人、工业协作和医疗康复领域的开发门槛。
谷歌DeepMind推出Lyria 3 Pro AI音乐模型 30秒试听升级为完整曲目
Google DeepMind 重磅发布 Lyria 3 Pro,将AI音乐生成时长从30秒提升至3分钟,并引入结构感知能力,支持用户指定前奏、主歌、副歌等段落,实现真正意义上的完整歌曲创作。结合Gemini生态与Vertex AI企业级部署,标志着AI音乐工具从“试听生成”迈向“专业创作”。尽管版权问题仍存争议,但其多语言支持与智能内容溯源功能彰显技术领先性。
英伟达推出Nemotron 3系列开源模型 推理效率提升5倍
英伟达在2026 GTC大会上发布Nemotron 3系列开源模型,凭借Blackwell架构优化,推理效率提升5倍。新模型涵盖多模态交互、物理AI、机器人及医疗科研领域,支持从云端到边缘的快速部署,助力智能体与具身智能发展。