TAG:强化学习
智元发布Genie Envisioner 2.0
智元发布Genie Envisioner World Simulator 2.0(GE-Sim 2.0),可严格响应机器人动作信号生成高保真环境变化,并遵循物理与语义逻辑,支持分钟级长时序稳定推演。模型统一建模多视角视觉、跨视角3D一致性与本体状态,并内置通用激励模型实现自评估,推理效率提升后接近实时,可在模型世界中完成评测、强化学习与遥操作。
丰田CUE机器人研发新进展 即将掌握走路运球技能
本文披露丰田CUE篮球机器人最新研发进展,详解其采用强化学习+Sim2Real技术路线,攻克行走与运球的运动控制难题的过程,介绍了研发团队核心成员、技术落地难点及解决思路,展现了人形机器人运动控制领域的前沿探索方向。
RL Token攻克VLA精度难题 在线强化学习助机器人精准操控
RL Token提出一种创新的在线强化学习框架,通过轻量级接口让预训练VLA模型在真实机器人上实现高精度操作的快速优化。该方法在保持泛化能力的同时,解决了传统方法在‘最后一厘米’精度任务中的效率与稳定性难题,为机器人灵巧操控提供了高效、可落地的技术路径。
林俊旸离职阿里首谈千问AI受阻 预言智能体将主导AI发展
前阿里千问技术负责人林俊旸离职后发表长文,深入分析AI大模型发展从推理型思考转向智能体思考的趋势。文章复盘了千问团队在混合思考模式上的探索困境,并指出未来AI竞争将围绕智能体强化学习、环境设计和多智能体协同等系统工程能力展开。
苹果RubiCap框架发布 性能碾压10倍体量对手
苹果联合威斯康星大学发布全新AI框架RubiCap,通过创新强化学习机制实现高效精准的密集图像描述。该框架利用多模型协同评分与反馈,仅用20亿至70亿参数便在幻觉率和准确度上超越千亿级大模型,证明了小模型也能实现高性能视觉理解。
MiniMax携手腾讯云 百万智能体RL沙箱全量平稳运行
MiniMax与腾讯云合作成功部署百万级吞吐、十万级并发的智能体强化学习沙箱,实现全量平稳运行。通过腾讯云的算力调度与云原生能力,显著提升训练效率、优化资源管理并降低成本,为AI智能体的大规模应用提供重要基建支持。
中国团队研发HUSKY框架 人形机器人变身滑板高手
中国团队最新研发的HUSKY框架,成功实现人形机器人在真实场景中稳定操控滑板,突破了动态平衡、推滑转向切换等关键技术难题。通过物理感知与对抗性运动先验结合,机器人不仅能自然发力,还能精准控制转向,展现出类人滑行能力,为智能机器人在复杂环境中的运动控制开辟新路径。
OpenClaw实现边用边训 智能体强化学习框架AReaL v1.0稳定版发布
蚂蚁集团与清华大学联合发布开源强化学习训练框架AReaL v1.0稳定版,支持智能体一键接入RL训练,无需修改代码即可实现持续优化。该框架通过Proxy Worker中转层简化接入流程,并推出原生训练引擎Archon,支持5D并行训练,大幅降低开发门槛。AReaL还引入AI辅助开发体系,显著提升工程效率,引领下一代AI基础设施工程革新。
前 DeepMind 首席科学家辞职创业 着眼超级智能新发展
前DeepMind首席科学家席尔瓦辞职创业,在伦敦成立AI初创公司Ineffable Intelligence,并推进高达10亿美元的种子轮融资。该公司将突破传统大型语言模型,基于强化学习构建能自主探索和学习的新型智能系统,有望开启人工智能技术的新篇章。
中金预测2026年大模型将在强化学习等领域实现更多突破
中金研究对2026年大模型技术发展趋势进行了展望,指出强化学习、模型记忆和上下文工程将成为关键突破方向。报告分析了预训练Scaling-Law的重现、MoE架构的普及以及持续学习等新路线的进展,强调这些技术将推动大模型从短文本生成向长思维链任务和原生多模态发展,为实现AGI目标奠定基础。
腾讯混元迎顶级科学家庞天宇,领衔多模态强化学习
清华大学博士、前新加坡Sea AI Lab高级研究科学家庞天宇正式加盟腾讯,出任混元多模态部首席研究科学家,将重点负责强化学习技术的研究与突破,助力混元大模型在多模态领域的深度演进。此次加盟是腾讯AI人才战略的重要布局,展现了其在核心技术研发上的坚定投入。
DeepMind 核心成员 David Silver 离职创业聚焦强化学习突破大模型瓶颈
DeepMind核心人物David Silver离职创业,创立Ineffable Intelligence公司,押注强化学习挑战大模型局限性。他认为仅靠人类数据训练的大语言模型无法实现超人工智能,主张AI通过试错和体验自主获取知识,开启“经验时代”。这一动向标志着AI顶尖人才向实验性领域流动,引发实现超人工智能的新竞赛。
深谷智脑系统开放 携手生态伙伴破解应用难题
文章介绍了中科深谷发布的具身智能机器人智脑系统“BrainCspace V1.0”,该系统采用“大小脑”深度融合架构,整合强化学习算法与运动控制,旨在解决机器人在真实场景应用中的泛化与协同难题。系统支持多平台部署和“一脑多形”,已接入多种机器人形态,并在安防、巡检等领域实现初步应用,展现了开放生态下的行业解决方案潜力。
GSWorld突破Sim2Real瓶颈 3D高斯泼溅助机器人零样本技能落地
GSWorld通过融合3D高斯泼溅与物理引擎,构建了照片级真实感的仿真环境,实现了机器人技能从虚拟训练到真实世界部署的零样本迁移。该技术解决了Sim2Real的长期难题,支持模仿学习、强化学习等多种策略训练,并能通过闭环优化持续提升策略性能,大幅降低机器人技能开发的成本和门槛。
Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽
Liquid AI发布仅2.6B参数的实验性模型LFM2-2.6B-Exp,该模型通过纯强化学习优化,在指令跟随、知识问答和数学推理等基准测试中表现卓越,甚至超越数百亿参数的大型模型。专为边缘设备设计,支持高效本地部署,已完全开源,加速高性能AI向设备端普及。