TAG:强化学习
北京大学仉尚航团队提出LaST-R1框架,机器人首次实现“边想边做”
北京大学仉尚航团队提出LaST-R1框架,针对当前视觉-语言-动作模型缺乏物理推理能力、适应性差的问题,通过将潜在空间中的物理推理嵌入强化学习优化回路,使机器人能够实现‘边想边做’。该框架同步优化推理表示和动作策略,显著提升机器人在真实环境中的适应性和任务成功率,推动机器人智能向更自主、灵活的方向发展。
腾讯发布OpenSearch-VL开源多模态深度搜索智能体综合方案
腾讯混元联合多机构发布了OpenSearch-VL,这是一个完全开源的多模态深度搜索智能体方案。通过强化学习技术,它创新性地开发了数据生产线、多元化工具环境和故障感知算法,解决了高质量训练数据缺失的瓶颈,使模型能主动搜索和推理。实验表明,OpenSearch-VL在多项基准测试中表现优异,媲美顶级商业模型,并全量开源以推动多模态AI研究的发展。
无需人类遥控,机器狗仅靠“看”和“学”通过模仿动物实现敏捷奔跑新突破发表于《Nature Communications》
文章介绍南京大学团队发表于《Nature Communications》的四足机器人研究:机器狗通过模仿真实狗的运动数据学习自然步态,并结合纯视觉感知与分层神经网络控制,在陌生随机障碍赛场中实现自主判断、跑跳切换和高成功率通关,展示了生物启发机器人控制的新进展。
小米开源VLA大模型后训练全流程,推动机器人实现亚毫米级操作能力
小米公布并开源VLA大模型Xiaomi-Robotics-0真机后训练全流程,聚焦解决机器人落地“最后一公里”。机器人仅用20小时任务数据强化训练,即实现连续收纳耳机等亚毫米级精细操作,兼顾高精度对位与实时纠偏稳定性,降低高性能机器人任务开发门槛,推动复杂场景应用加速落地。
具身智能公司提出新方法,解决困扰机器人长程任务多年的“奖励瓶颈”问题
文章聚焦机器人长程任务中的“奖励瓶颈”,介绍逐际动力联合高校提出的ARM框架:以“前进/后退/停滞”三态相对优势替代绝对进度估计,并结合MIMO时序Transformer、自动化进度重建与AW-BC训练策略,显著提升长视界操作学习效率与稳定性,在双手毛巾折叠任务中实现99.4%成功率。
全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证
文章深入探讨了全球首个肌肉驱动机器人成功实现Sim-to-Real迁移的里程碑式成果。针对气动肌肉与肌腱传动中极端复杂的非线性动力学难题,研究团队提出广义执行器网络(GeAN),抛弃传统扭矩传感器,仅凭位置轨迹即可精准建模。该技术在四自由度机械臂上完成了高难度动态任务的零样本部署,填补了柔性机器人从仿真到现实的核心技术空白,为未来安全高效的人机共融机器人发展奠定了坚实基础。
智元发布Genie Envisioner 2.0
智元发布Genie Envisioner World Simulator 2.0(GE-Sim 2.0),可严格响应机器人动作信号生成高保真环境变化,并遵循物理与语义逻辑,支持分钟级长时序稳定推演。模型统一建模多视角视觉、跨视角3D一致性与本体状态,并内置通用激励模型实现自评估,推理效率提升后接近实时,可在模型世界中完成评测、强化学习与遥操作。
丰田CUE机器人研发新进展 即将掌握走路运球技能
本文披露丰田CUE篮球机器人最新研发进展,详解其采用强化学习+Sim2Real技术路线,攻克行走与运球的运动控制难题的过程,介绍了研发团队核心成员、技术落地难点及解决思路,展现了人形机器人运动控制领域的前沿探索方向。
RL Token攻克VLA精度难题 在线强化学习助机器人精准操控
RL Token提出一种创新的在线强化学习框架,通过轻量级接口让预训练VLA模型在真实机器人上实现高精度操作的快速优化。该方法在保持泛化能力的同时,解决了传统方法在‘最后一厘米’精度任务中的效率与稳定性难题,为机器人灵巧操控提供了高效、可落地的技术路径。
林俊旸离职阿里首谈千问AI受阻 预言智能体将主导AI发展
前阿里千问技术负责人林俊旸离职后发表长文,深入分析AI大模型发展从推理型思考转向智能体思考的趋势。文章复盘了千问团队在混合思考模式上的探索困境,并指出未来AI竞争将围绕智能体强化学习、环境设计和多智能体协同等系统工程能力展开。
苹果RubiCap框架发布 性能碾压10倍体量对手
苹果联合威斯康星大学发布全新AI框架RubiCap,通过创新强化学习机制实现高效精准的密集图像描述。该框架利用多模型协同评分与反馈,仅用20亿至70亿参数便在幻觉率和准确度上超越千亿级大模型,证明了小模型也能实现高性能视觉理解。
MiniMax携手腾讯云 百万智能体RL沙箱全量平稳运行
MiniMax与腾讯云合作成功部署百万级吞吐、十万级并发的智能体强化学习沙箱,实现全量平稳运行。通过腾讯云的算力调度与云原生能力,显著提升训练效率、优化资源管理并降低成本,为AI智能体的大规模应用提供重要基建支持。
中国团队研发HUSKY框架 人形机器人变身滑板高手
中国团队最新研发的HUSKY框架,成功实现人形机器人在真实场景中稳定操控滑板,突破了动态平衡、推滑转向切换等关键技术难题。通过物理感知与对抗性运动先验结合,机器人不仅能自然发力,还能精准控制转向,展现出类人滑行能力,为智能机器人在复杂环境中的运动控制开辟新路径。
OpenClaw实现边用边训 智能体强化学习框架AReaL v1.0稳定版发布
蚂蚁集团与清华大学联合发布开源强化学习训练框架AReaL v1.0稳定版,支持智能体一键接入RL训练,无需修改代码即可实现持续优化。该框架通过Proxy Worker中转层简化接入流程,并推出原生训练引擎Archon,支持5D并行训练,大幅降低开发门槛。AReaL还引入AI辅助开发体系,显著提升工程效率,引领下一代AI基础设施工程革新。
前 DeepMind 首席科学家辞职创业 着眼超级智能新发展
前DeepMind首席科学家席尔瓦辞职创业,在伦敦成立AI初创公司Ineffable Intelligence,并推进高达10亿美元的种子轮融资。该公司将突破传统大型语言模型,基于强化学习构建能自主探索和学习的新型智能系统,有望开启人工智能技术的新篇章。