TAG:强化学习
英伟达开源 Polar 框架,助力 AI 编码智能体实现强化学习零门槛进化
英伟达开源了Polar强化学习训练框架,使AI编码智能体如Codex和Claude Code无需修改原生代码即可接入GRPO训练。该框架通过透明代理拦截API请求并重构训练轨迹,解决了传统方法的高成本和信息丢失问题。实验显示,在SWE-Bench测试中性能大幅提升,训练效率显著优化,为AI智能体进化提供标准化路径。
波士顿动力90公斤机器人搬运45公斤冰箱 网友称比搬家还稳
波士顿动力的新版Atlas人形机器人展示了颠覆性的搬运能力,能轻松搬起45公斤的冰箱,打破了机器人只能做轻活的刻板印象。文章深入探讨了其背后的物理智能技术,包括全身体感与力反馈的融合、强化学习训练方法,以及硬件设计从液压转向电驱的变革,同时介绍了商业化部署计划,预示着人形机器人即将进入工厂实际应用的新阶段。
行为克隆训练机器人通过强化学习在2小时内实现自我进化
本文探讨了机器人行为克隆策略的局限性及其在遇到新场景时的崩溃问题,以及传统强化学习的高成本挑战。文章介绍了一种名为Q2RL的新方法,它从已有的BC策略中提取价值判断,作为在线强化学习的起点,无需原始训练数据或离线预训练。通过让BC和RL策略在决策中竞争,Q2RL能在较短时间内(如2小时)提升机器人性能,为机器人学习提供高效且实用的解决方案。
谷歌SkillOS新框架让AI智能体实现自我进化
谷歌云AI研究院提出SkillOS框架,通过强化学习训练技能策展器,让AI智能体在持续学习中主动管理技能库,实现自我进化。该框架解决了传统技能库依赖固定规则、冗余严重的问题,采用GRPO算法和课程式分组训练,提升技能的可复用性和泛化能力,使Agent能从经验中提炼可复用技能,真正学会跨任务迁移。
具身大模型R1时刻:LIBERO终结者实现99.9%物理推理新范式
本文介绍了具身大模型的新突破LaST-R1,它通过隐空间物理推理和强化学习优化,使机器人在行动前进行物理思考,而非简单模仿。在LIBERO benchmark上达到99.9%成功率,真机任务中比现有最强模型π0.5高出22.5%,显著提升了泛化能力。这一范式解决了传统模型在环境变化时失效的问题,为机器人操作提供了更稳定的物理推理基础。
北京大学仉尚航团队提出LaST-R1框架,机器人首次实现“边想边做”
北京大学仉尚航团队提出LaST-R1框架,针对当前视觉-语言-动作模型缺乏物理推理能力、适应性差的问题,通过将潜在空间中的物理推理嵌入强化学习优化回路,使机器人能够实现‘边想边做’。该框架同步优化推理表示和动作策略,显著提升机器人在真实环境中的适应性和任务成功率,推动机器人智能向更自主、灵活的方向发展。
腾讯发布OpenSearch-VL开源多模态深度搜索智能体综合方案
腾讯混元联合多机构发布了OpenSearch-VL,这是一个完全开源的多模态深度搜索智能体方案。通过强化学习技术,它创新性地开发了数据生产线、多元化工具环境和故障感知算法,解决了高质量训练数据缺失的瓶颈,使模型能主动搜索和推理。实验表明,OpenSearch-VL在多项基准测试中表现优异,媲美顶级商业模型,并全量开源以推动多模态AI研究的发展。
无需人类遥控,机器狗仅靠“看”和“学”通过模仿动物实现敏捷奔跑新突破发表于《Nature Communications》
文章介绍南京大学团队发表于《Nature Communications》的四足机器人研究:机器狗通过模仿真实狗的运动数据学习自然步态,并结合纯视觉感知与分层神经网络控制,在陌生随机障碍赛场中实现自主判断、跑跳切换和高成功率通关,展示了生物启发机器人控制的新进展。
小米开源VLA大模型后训练全流程,推动机器人实现亚毫米级操作能力
小米公布并开源VLA大模型Xiaomi-Robotics-0真机后训练全流程,聚焦解决机器人落地“最后一公里”。机器人仅用20小时任务数据强化训练,即实现连续收纳耳机等亚毫米级精细操作,兼顾高精度对位与实时纠偏稳定性,降低高性能机器人任务开发门槛,推动复杂场景应用加速落地。
具身智能公司提出新方法,解决困扰机器人长程任务多年的“奖励瓶颈”问题
文章聚焦机器人长程任务中的“奖励瓶颈”,介绍逐际动力联合高校提出的ARM框架:以“前进/后退/停滞”三态相对优势替代绝对进度估计,并结合MIMO时序Transformer、自动化进度重建与AW-BC训练策略,显著提升长视界操作学习效率与稳定性,在双手毛巾折叠任务中实现99.4%成功率。
全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证
文章深入探讨了全球首个肌肉驱动机器人成功实现Sim-to-Real迁移的里程碑式成果。针对气动肌肉与肌腱传动中极端复杂的非线性动力学难题,研究团队提出广义执行器网络(GeAN),抛弃传统扭矩传感器,仅凭位置轨迹即可精准建模。该技术在四自由度机械臂上完成了高难度动态任务的零样本部署,填补了柔性机器人从仿真到现实的核心技术空白,为未来安全高效的人机共融机器人发展奠定了坚实基础。
智元发布Genie Envisioner 2.0
智元发布Genie Envisioner World Simulator 2.0(GE-Sim 2.0),可严格响应机器人动作信号生成高保真环境变化,并遵循物理与语义逻辑,支持分钟级长时序稳定推演。模型统一建模多视角视觉、跨视角3D一致性与本体状态,并内置通用激励模型实现自评估,推理效率提升后接近实时,可在模型世界中完成评测、强化学习与遥操作。
丰田CUE机器人研发新进展 即将掌握走路运球技能
本文披露丰田CUE篮球机器人最新研发进展,详解其采用强化学习+Sim2Real技术路线,攻克行走与运球的运动控制难题的过程,介绍了研发团队核心成员、技术落地难点及解决思路,展现了人形机器人运动控制领域的前沿探索方向。
RL Token攻克VLA精度难题 在线强化学习助机器人精准操控
RL Token提出一种创新的在线强化学习框架,通过轻量级接口让预训练VLA模型在真实机器人上实现高精度操作的快速优化。该方法在保持泛化能力的同时,解决了传统方法在‘最后一厘米’精度任务中的效率与稳定性难题,为机器人灵巧操控提供了高效、可落地的技术路径。
林俊旸离职阿里首谈千问AI受阻 预言智能体将主导AI发展
前阿里千问技术负责人林俊旸离职后发表长文,深入分析AI大模型发展从推理型思考转向智能体思考的趋势。文章复盘了千问团队在混合思考模式上的探索困境,并指出未来AI竞争将围绕智能体强化学习、环境设计和多智能体协同等系统工程能力展开。