TAG:多模态大模型

英伟达发布统一音频智能模型 Nemotron-Labs-Audex-30B-A3B

英伟达推出Nemotron-Labs-Audex-30B-A3B（简称Audex）统一音频-文本大语言模型。该模型基于MoE架构，通过单一Transformer解码器实现文本与量化音频token的统一处理，成功解决音频增强常牺牲文本能力的难题。在音频理解、语音识别、翻译和生成等任务上达到领先水平的同时，几乎完美保留了原LLM的推理、对齐、知识和长文本能力。作为开源成熟方案，为多模态AI开发者提供平衡性能的新选择。

aibase

2026-07-08 11:23

177

星火多模态大模型X2-VL正式发布

科大讯飞在长三角机器人及自动化展览会上正式发布星火多模态大模型X2-VL。这款模型采用MoE架构，全程在无锡“太湖星跃”国产算力平台训练，当前唯一基于全国产算力。高中多学科图文混合试题准确率逼近95%，挑战2026年高考数学全国I卷并获148分高分。凭借算力自主可控与高性能，X2-VL为国产AI模型从“尝鲜”到生产力落地的实践提供了强力范本。

aibase

2026-06-15 10:38

美团AI浏览器Tabbit 1.0正式上线，主打全能智能体

美团 AI 原生浏览器 Tabbit 1.0 正式上线，内置 DeepSeek、Kimi 等多模态大模型，支持记忆功能与智能体任务执行。成功率从 53.1% 提升至 91.8%，单用户月均 Token 使用量超 853 万。标准版永久免费，专业版仅 9.9 元/周，提供论文写作、HR 简历筛选等复杂工作流一键完成。开启 AI 浏览器时代的新机遇。

aibase

2026-06-10 16:56

LobsterAI上线图片视频大模型矩阵，一次性接入四大主流图像视频生成模型

国内AIGC多模态创作领域迎来重磅进展，LobsterAI正式上线图片与视频生成能力，通过矩阵式整合一次性接入Seedream、Seedance、HappyHorse和MiniMax-Hailuo四大主流多模态大模型。这一升级旨在为用户提供更多元、高效的视觉内容创作支持，降低AI能力调用门槛，丰富产品功能维度，为数字内容生产注入新动力。

aibase

2026-06-01 16:24

商汤善惠发布烧卖购机器人小店，主打“快、稳、易”重构线下零售新范式

商汤善惠推出SenseMartGo烧卖购机器人小店，并在上海多点落地运营，五一期间实现最快15秒一单、日均400单。方案依托计算机视觉、多模态大模型与海量零售数据，覆盖接单取放、理货补货到选品定价等全流程，打造“AI店员”重构人货场，以快交付、稳运营、易开店推动具身智能便利店规模化。

资讯中国

2026-05-12 15:02

国产AI视觉大模型表现反超，豆包力压谷歌拿下全球第一

SuperCLUE-VLM最新评测显示，国产多模态视觉语言模型整体表现强势，字节跳动豆包以90.66分超越谷歌登顶全球第一。文章梳理了榜单变化、三大测评维度及国产模型在中文理解上的优势，同时指出工业与医疗推理仍是后续突破重点。

aibase

2026-04-29 10:49

商汤发布原生理解生成统一模型 SenseNova U1，告别插件式 AI

商汤正式发布并开源原生理解生成统一模型 SenseNova U1，基于 NEO-unify 架构打破传统多模态“插件式拼接”方案，实现语言与视觉在单一框架下统一理解、推理与生成，推动国产AI向更高效、更自然的结构化演进。

aibase

2026-04-29 10:46

美图RoboNeo接入阿里HappyHorse模型，视频创作能力全面迭代升级

美图AI Agent RoboNeo宣布接入阿里ATH多模态视频生成模型HappyHorse，并结合Seedance 2.0实现视频创作体验全面升级，拓展连续镜头、声画同步与素材一致性等能力边界。此次迭代体现国产大模型与应用层深度协同，进一步降低高品质长视频创作门槛。

aibase

2026-04-28 17:25

腾讯推出具身多模态大模型 HY-Embodied-0.5-X，赋能机器人智能交互

腾讯正式推出并开源具身多模态大模型 HY-Embodied-0.5-X，该模型专为机器人智能交互优化。通过 MoT-2B 和 MoE-32B 两种架构，实现了端侧实时响应与复杂任务处理的平衡。模型在空间推理、长程规划及精细操作方面表现优异，结合高质量自采数据与思维链标注，大幅提升了机器人在真实环境中的执行能力，为家庭服务等应用场景提供了强有力的技术支持。

aibase

2026-04-27 16:43

阿里开源Qwen3.6-35B-A3B：30亿激活参数实现编程能力跨越式升级

阿里千问开源MoE模型Qwen3.6-35B-A3B，以350亿总参数、30亿激活参数实现高效推理，在多项编程基准中超越Qwen3.5-27B并领先前代模型。其多模态与空间感知能力同样突出，已接入Qwen Studio与百炼API，展现“小参数、高智能”在智能体编程落地中的关键价值。

aibase

2026-04-17 15:17

谷歌开源医疗AI模型MedGemma 1.5：从识别平面图像到理解3D影像

谷歌开源MedGemma 1.5，核心突破是从2D走向3D医疗影像理解，支持CT/MRI、病理全视野切片、胸片定位及多时点病情对比，并显著提升电子病历解析能力。在参数规模不变下，多项指标大幅提升，展现高效医学多模态潜力，但仍需面向具体临床场景进行微调落地。

aibase

2026-04-17 10:21

腾讯发布HY-Embodied-0.5具身模型：22项评测中16项最佳刷新行业纪录

腾讯Robotics X与混元团队发布具身基础模型HY-Embodied-0.5，面向机器人三维感知与物理交互痛点重构架构与训练范式，推出MoT-2B与MoE-32B两款模型。依托超1亿条具身数据及多阶段后训练，22项评测16项夺冠，并在实机打包、堆叠等任务中优于主流基线，推动大模型落地物理世界。

aibase

2026-04-10 16:42

高阳团队发布重磅成果 Point-VLA用单个视觉框攻克具身智能核心难题

本文介绍千寻智能高阳团队推出的Point-VLA具身智能方案，通过在指令中加入视觉框锚定目标，无需改动现有模型架构和海量标注，即可解决纯文本指令指代歧义、泛化不足的痛点，真实场景操作平均成功率达92.5%，还同步提升了纯文本模式下的模型性能。

机器人大讲堂

2026-04-04 10:36

美团发布多模态模型LongCat-Next 视觉语音底层统一

本文介绍美团4月3日发布的原生多模态大模型LongCat-Next，其依托DiNA架构实现图文音模态底层统一，在多项测试中性能超越专用模型，已全面开源，可为开发者研发能感知真实世界的AI提供核心技术支持。

aibase

2026-04-03 18:19

Qwen3.5-Omni发布 215项SOTA技术引领全感官AI

通义实验室发布全新多模态大模型Qwen3.5-Omni，具备全模态处理能力，在215项测试中获得业界最佳成绩。模型采用Hybrid-Attention MoE架构，支持256K超长上下文处理，并引入ARIA技术与RVQ编码提升语音交互能力。应用场景包括Vibe Coding、拟人化实时交互、视频拆解和音色克隆，标志着AI向理解物理世界的智能体迈进。

aibase

2026-03-31 10:32

通知

尊敬的用户

user

TAG:多模态大模型