TAG:多模态大模型

腾讯发布HY-Embodied-0.5具身模型:22项评测中16项最佳刷新行业纪录

腾讯发布HY-Embodied-0.5具身模型:22项评测中16项最佳刷新行业纪录

腾讯Robotics X与混元团队发布具身基础模型HY-Embodied-0.5,面向机器人三维感知与物理交互痛点重构架构与训练范式,推出MoT-2B与MoE-32B两款模型。依托超1亿条具身数据及多阶段后训练,22项评测16项夺冠,并在实机打包、堆叠等任务中优于主流基线,推动大模型落地物理世界。

2026-04-10 16:42
0
0

高阳团队发布重磅成果 Point-VLA用单个视觉框攻克具身智能核心难题

高阳团队发布重磅成果 Point-VLA用单个视觉框攻克具身智能核心难题

本文介绍千寻智能高阳团队推出的Point-VLA具身智能方案,通过在指令中加入视觉框锚定目标,无需改动现有模型架构和海量标注,即可解决纯文本指令指代歧义、泛化不足的痛点,真实场景操作平均成功率达92.5%,还同步提升了纯文本模式下的模型性能。

2026-04-04 10:36
0
0

美团发布多模态模型LongCat-Next 视觉语音底层统一

美团发布多模态模型LongCat-Next 视觉语音底层统一

本文介绍美团4月3日发布的原生多模态大模型LongCat-Next,其依托DiNA架构实现图文音模态底层统一,在多项测试中性能超越专用模型,已全面开源,可为开发者研发能感知真实世界的AI提供核心技术支持。

2026-04-03 18:19
0
0

Qwen3.5-Omni发布 215项SOTA技术引领全感官AI

Qwen3.5-Omni发布 215项SOTA技术引领全感官AI

通义实验室发布全新多模态大模型Qwen3.5-Omni,具备全模态处理能力,在215项测试中获得业界最佳成绩。模型采用Hybrid-Attention MoE架构,支持256K超长上下文处理,并引入ARIA技术与RVQ编码提升语音交互能力。应用场景包括Vibe Coding、拟人化实时交互、视频拆解和音色克隆,标志着AI向理解物理世界的智能体迈进。

2026-03-31 10:32
60
0

机器人能否以假乱真 动作图灵测试揭秘

机器人能否以假乱真 动作图灵测试揭秘

厦门大学、OPPO研究院与上海科技大学联合提出‘运动图灵测试’,通过去除外观信息仅分析动作轨迹,首次量化评估人形机器人拟人性。研究构建了首个真实人机对比的HHMotion数据集,揭示机器人在高动态动作中仍存在显著机械感。基于PTR-Net模型的精准评估表明,类人度关键在于动作节奏与协调性,而非单纯姿势复现。

2026-03-30 17:26
0
0

迈巴赫引入大模型:奔驰联手清华、智谱,首度落地超豪华后排

迈巴赫引入大模型:奔驰联手清华、智谱,首度落地超豪华后排

梅赛德斯-奔驰携手清华大学与智谱AI,将端侧多模态大模型首次应用于迈巴赫S级后排系统,实现语音、视觉、情感等多维度智能交互,重新定义超豪华座舱的科技内涵。这不仅是汽车智能化的里程碑,更是‘中国研发’赋能全球高端出行的典范。

2026-03-25 19:05
0
0

卓视智通完成B2轮融资,推动物理AI加速赋能千行百业

卓视智通完成B2轮融资,推动物理AI加速赋能千行百业

卓视智通完成B2轮融资,由安徽国芯创业投资有限公司独家投资,资金将用于数据中心token工厂建设及智能体产业落地。作为国家级专精特新企业,卓视智通在多模态大模型技术和物理AI领域持续创新,加速AI技术在智慧交通、城市治理等行业的深度应用。文章还探讨了物理AI的发展趋势及其在千行百业中的广阔前景。

2026-03-25 11:20
0
0

我国首个具身智能工程机器人行业标准在成都启动编制工作

我国首个具身智能工程机器人行业标准在成都启动编制工作

我国首个具身智能工程机器人行业标准在成都启动编制,预计年内完成发布,填补行业空白并推动产业规范化发展。同时发布的全球首个具身智能工程机器人多模态大模型,攻克了工程现场多机协同难题,实现从感知智能到系统决策智能的跨越,标志着我国在智能建造领域取得重要突破。

2026-03-25 10:15
0
0

阿里推出Fun-CineForge 首开电影级多模态配音大模型

阿里推出Fun-CineForge 首开电影级多模态配音大模型

阿里巴巴通义实验室联合中国科学技术大学开源Fun-CineForge项目,推出首个电影级多模态配音大模型及大规模数据集。该项目通过MLLM配音模型和CineDub数据集,解决了影视配音中的口型同步、音色迁移及情感表达等核心难题,显著提升AI配音质量。现已开源推理代码与模型权重,为影视后期制作带来革命性突破。

2026-03-17 16:42
0
0

阿里通义开源影视级配音模型Fun-CineForge 解决音画同步问题

阿里通义开源影视级配音模型Fun-CineForge 解决音画同步问题

阿里通义实验室发布开源影视级配音大模型Fun-CineForge,首次引入时间模态概念,攻克音画不同步、情感表达缺失等难题。支持复杂场景下的精准配音,配套CineDub数据集构建流程显著降低标注成本,已在GitHub、HuggingFace和魔搭社区上线,推动AI语音技术向影视后期制作迈进。

2026-03-16 18:11
0
0

通义开源首个影视级配音大模型 AI实现情感化语音

通义开源首个影视级配音大模型 AI实现情感化语音

阿里通义实验室开源全球首个影视级配音大模型Fun-CineForge,突破AI配音机械感瓶颈,实现情感化表达和多场景音效还原。该模型采用创新一体化设计,配套开放高质量数据集构建方法,为影视创作者提供低成本高质量配音解决方案。

2026-03-16 17:42
0
0

小红书开源AI编辑模型FireRed-Image-Edit v1.1 解决ID一致性与复杂融合问题

小红书开源AI编辑模型FireRed-Image-Edit v1.1 解决ID一致性与复杂融合问题

小红书发布图像编辑模型FireRed-Image-Edit v1.1,优化ID一致性与复杂融合等场景,显著提升推理效率与工程可行性。该模型的全面开源,为内容创作和商业化提供了强大支持,也推动了多模态智能在电商与社交场景的应用。

2026-03-09 11:46
0
0

AI视频应用风口浮现,Seedance2.0春晚出圈引关注

AI视频应用风口浮现,Seedance2.0春晚出圈引关注

文章报道了Seedance 2.0大模型在2026年央视春晚中的首次公开应用,深度参与多个节目视觉制作,展示了AI视频生成技术在文化内容创作领域的产业化潜力。文章分析了中美AI视频大模型的竞争格局,并探讨了Seedance 2.0出圈后,AI在影视、短视频、微短剧等领域的应用风口,特别是AI漫剧的确定性和产业链机会。

2026-02-19 19:56
25
0

大模型概念板块逆势上涨 MINIMAX涨幅超14%创新高

大模型概念板块逆势上涨 MINIMAX涨幅超14%创新高

文章报道了港股市场大模型概念股逆势走强的现象,重点聚焦于AI公司MINIMAX的股价表现。该公司上市后股价持续攀升,创下新高,市值突破1800亿港元。文章介绍了MINIMAX的核心技术、产品布局以及其港股IPO受到市场热捧的情况,并引用了券商观点分析其竞争优势和未来发展潜力。

2026-02-03 16:23
6
0

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

SuperCLUE-VLM发布2025年12月多模态视觉语言模型评测榜单,谷歌Gemini-3-Pro以83.64分断层领先。国产模型中,商汤SenseNova V6.5Pro和字节豆包大模型表现亮眼,分别位列第二、第三。阿里Qwen3-VL成为首个总分突破70分的开源模型,推动技术民主化。榜单揭示了多模态竞赛进入实用化新阶段,视觉推理仍是关键瓶颈。

2025-12-31 11:36
10
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/