TAG:多模态学习
仅0.77B参数碾压3.5B大模型!上海交大Evo-1刷新VLA模型纪录,集成lerobot框架可用于SO100/SO101部署
上海交大Evo-1模型仅用0.77B参数在机器人VLA领域实现突破,无需机器人数据预训练即可超越3.5B大模型性能。该模型通过轻量化设计、16.4Hz高推理频率和创新训练范式,解决了参数臃肿、实时性不足、泛化能力弱和数据依赖四大核心问题,已集成lerobot框架支持SO100/SO101部署,为消费级GPU上的机器人智能操控提供高效解决方案。
最火VLA,看这一篇综述就够了
这篇综述全面解析了ICLR 2026爆火领域VLA(视觉-语言-动作)的最新进展。作者Moritz Reuss作为Apple AI/ML学者奖得主,系统阐述了VLA的核心概念、八大技术趋势,包括离散扩散模型、具身思维链、动作分词器等关键突破。文章还厘清了VLA与LBM的区别,帮助读者深入理解这一让机器人'听懂人话、看懂世界、动手干活'的前沿技术。
阿里新研究:统一了VLA和世界模型
阿里巴巴达摩院联合浙江大学提出WorldVLA框架,首次将视觉语言动作模型与世界模型相统一。该框架通过三套独立分词器处理图像、文本和动作,采用创新的注意力掩码设计,实现了动作生成与视觉理解的相互增强。实验证明WorldVLA在机器人操作任务中显著优于独立模型,为具身智能发展提供了新思路。
字节提出Robix大模型!三阶训练+统一架构,打破机器人认知瓶颈,真实场景任务完成率领先
字节跳动Seed团队推出Robix大模型,通过三阶训练和统一架构打破机器人认知瓶颈。该模型将视觉、语言和行动规划整合于单一架构,支持动态环境中的理解-决策-响应闭环,实现真实场景下的多轮对话和任务中断处理。实验显示在3D空间理解、任务规划和真实场景执行方面领先GPT-4o等模型,任务完成率显著提升。
AI振兴网络视听每一帧,但人仍是不可替代的灵魂
2026-04-15
0 浏览
中国工程院院士郑纬民:从模型服务走向词元服务,是智能体时代对基础设施的必然要求
2026-04-15
0 浏览
微软接手OpenAI挪威星际之门项目 加码AI算力布局
2026-04-15
0 浏览
让AI帮忙买保险结果付款给了陌生人?每经记者亲测:通用AI和保险AI用谁买保险更靠谱
2026-04-15
0 浏览
爱奇艺创始人、首席执行官龚宇:期待AI生成的高品质影视作品
2026-04-15
0 浏览
激进投资者施压叠加AI效率提升 Snap启动16%裁员计划 股价盘前大涨11%
2026-04-15
0 浏览
地平线副总裁吕鹏:物理AI时代需打造超级平台,舱驾融合是智能电动2026发展方向
2026-04-15
0 浏览
加纳驻华大使携手APUS签署战略合作,启动KOJO BONSU GEN Z AI CLUB
2026-04-15
0 浏览
AI时代背景下初高中学习:真人老师与AI工具谁更能提升学习效果
2026-04-15
0 浏览
佰维存储Q1净利28.99亿元实现扭亏为盈 AI端侧存储收入增近5倍
2026-04-15
0 浏览