当前位置：首页 > 软件资讯 > NeurIPS`25 | 清华提出模型驱动的生成式探索机制MoGE，助力强化学习算法突破性能上限

NeurIPS`25 | 清华提出模型驱动的生成式探索机制MoGE，助力强化学习算法突破性能上限

时间：2026-02-27

小编：xh

阅读： 2877

作者：Likun Wang等

解读：AI生成未来

本文介绍清华大学李升波教授课题组（iDLab）在NeurIPS 2025发表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。

论文题目： Off-policy Reinforcement Learning with Model-based Exploration Augmentation

收录会议： 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

作者单位：清华大学车辆与运载学院、人工智能学院

亮点直击

条件扩散生成器驱动的高探索潜力状态采样：采用条件扩散生成器采样具有高探索潜力的关键状态，并从理论上证明回放缓冲区中的状态分布渐近收敛于最优策略的平稳占用测度，通过持续微调生成器确保其学习分布与最优策略占用测度共享共同支撑集，从而生成符合状态空间约束的可行状态。

一步想象世界模型的动态一致性保障：设计了一阶段想象世界模型来模拟环境动态，通过监督学习实现高效预训练，既支持训练经验构建，又为基于条件扩散的关键状态生成器提供分类器设计基础，确保生成样本在动力学层面的一致性。

异策略强化学习训练框架：提出与现有算法无缝集成的MoGE训练框架，通过重要性采样混合生成的关键迁移与回放缓冲区样本，在保持算法原始结构不变的前提下增强探索能力。在OpenAI Gym和DeepMind Control Suite等标准连续控制基准上的实验表明，MoGE作为探索增强框架能够持续提升基线异策略强化学习算法的最终性能与样本效率。

背景：探索与利用——智能体的“选择困难症”

在在线强化学习中，每个智能体都在做一个看似简单、却极其困难的选择：

“是继续走熟悉、安全的老路，还是去尝试未知、可能更好的新路？”

这就是著名的“探索与利用”难题。如果总是重复已经学会的行为，智能体虽然稳定，却可能永远发现不了更优的方案；但如果一直盲目尝试新动作，又会浪费大量时间，甚至频繁犯错。如何在“稳妥”和“冒险”之间找到平衡，是强化学习中最关键的问题之一。

探索与利用难题

目前，研究者主要通过两种方式来帮助智能体“探索世界”：

主动探索：靠“试错”来学习：主动探索倾向于让智能体多去尝试不同选择。比如，在做决策时加入一点随机性（SAC, DSAC等），让智能体勇敢尝试新动作。就像给机器人一点“好奇心”，鼓励它多走几条没走过的路。这种方法简单直接，但也有明显限制：首先，智能体只能在“走过的地方附近”探索，其次，收到初始化的影响，智能体很难跳出原有轨迹，进入真正陌生的区域，这使得在复杂环境中，很多关键状态根本探索不到。

被动探索：靠“复盘”和“补充资料”学习：被动探索通过整理和扩充学习材料来进步。研究者会让智能体反复回看重要经历，甚至用生成模型“模拟”新的经验，放进学习库里，“人工地”让智能体学习关键的样本。这种方法提高了学习效率，但问题在于：生成的内容大多来自模仿已有经验回放池，很难真正拜托已有数据中行为策略的限制，就像刷题时只做同类型题目，很难真正的突破水平瓶颈。

如何让智能体不只依赖真实经历，而是学会“提前想象”哪些数据是真正重要的？就像人类会在行动前思考：“如果我走这条路，会不会更好？”

动机：从“被动回放”样本到“主动生成”样本

现有的被动探索方法往往局限于模仿现有的数据分布，无法跳出行为策略（Behavior Policy）的覆盖范围。另一方面，直接使用世界模型生成长轨迹容易因误差累积导致动力学失效，产生不符合物理规律的“幻觉”样本。针对上述痛点，清华大学李升波老师课题组首次提出了世界模型生成式探索（Modelic Generative Exploration, MoGE）框架。其核心在于：与其随意生成整段数据，或重复模仿过去的经验，不如选择直接寻找那些智能体还没去过、却很重要的潜在关键状态，并用世界模型保证它们真实可信，从而为学习提供更有效的训练样本，从而摆脱行为策略的束缚。

核心亮点：MoGE 框架详解

MoGE框架

与其他框架不同，MoGE能够在不修改策略提升的前提下为算法持续提供关键训练样本，能够结合几乎所有的异策略（Off-policy）RL 算法（如 SAC, TD3, DSAC）中，主要包含两大核心组件：

1．关键状态生成(Critical State Generation)

作为整体模型的重要组成部分，MoGE 不再像以往方法那样直接生成完整的状态转移数据，而是引入了一种扩散模型的条件生成器，专门用于生成强化学习训练中的“初始状态”。与普通生成模型不同，该生成器并非盲目地模仿已有的数据，而是在人工设计的探索效用函数（Utility Function）引导下进行生成。该效用函数融入了人类先验知识，用于刻画哪些状态更可能对策略学习产生关键作用。通过这种条件引导机制，扩散生成器能够主动聚焦于高价值区域，从而生成真正具有探索意义的关键状态，为智能体提供更高质量的训练样本。在MoGE中，为了普遍性出发，利用策略熵（Policy Entropy）和 TD 误差作为引导信号，指导生成器在高维空间中搜索那些包含高信息量或高不确定性的“关键状态” 。

2．一步想象世界模型 (One-step Imagination World Model)

为了确保生成的样本符合环境真实的物理规律，MoGE 设计了一个确定性的一步想象世界模型，与状态生成器共用一个隐空间，保证学习一致性和耦合性，该世界模型可以通过预训练进行学习，保证局部转移的准确性。

一步想象世界模型

这种“高价值初始状态生成 + 一步转移样本构造”的机制，使得 MoGE 既具备了脱离经验回访池数据分布的探索广度，又保持了物理动力学的严谨性。在MoGE框架下，不用修改策略函数和价值函数，就能实现探索的增强。

MoGE框架下的强化学习算法更新

实验结果：MoGE助力经典强化学习算法，刷新连续控制任务新基准

实验结果

为了验证MoGE框架对强化学习算法的探索增强能力，我们用DSAC和TD3作为基础方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 个高难度连续控制任务中进行了广泛测试，相比于原有的算法，使用MoGE增强探索后的DSAC展现了卓越的样本效率和最终性能，超越了现有的所有探索增强的方法。

DMC Suite 表现： MoGE 在高维任务中表现惊人。在 Humanoid-walk 任务中，MoGE 取得了 891.7 的高分，相比基线算法 DSAC (146.5) 提升了 508.6% 。在整个 DMC 基准测试中，MoGE 平均得分比 DSAC 高出 43.8% 。

OpenAI Gym 表现： MoGE 同样刷新了多项记录。在复杂的 Humanoid-v3 任务中，MoGE 达到了 12151.1 分，比 DSAC 提升了 16.8%，显著优于传统的 TD3 和 PER 等方法。

对比优势：实验结果表明，MoGE 作为探索增强框架，能够稳定地提升随机策略（DSAC）和确定性策略（TD3）算法的性能，且效果优于现有的被动探索方法（如 PGR, PER）。

总结与展望

MoGE 提出了一种增强强化学习探索的新框架。通过将扩散模型的强大生成能力与世界模型的动力学约束相结合，MoGE 有效解决了高维空间中“去哪探索”和“如何保证真实性”的难题。未来，MoGE 还可以进一步扩展到更多类型的算法中，或结合更具表达能力的生成模型，为具身智能（Embodied AI）和复杂机器人控制任务提供更强大的探索引擎。

NeurIPS`25 | 清华提出模型驱动的生成式探索机制MoGE，助力强化学习算法突破性能上限

热门阅读