图片生成模型在单智能体场景中的应用已经取得了显著进展。例如,UniSim通过预测图像中的动作来推断未来的情景,展示了从广泛数据中学习的模拟器可以推广到现实世界,并弥合仿真与现实的差距。而Genie则允许用户在生成的环境中逐帧行动,为训练未来的通用智能体铺平了道路。但是这些模型主要集中于单智能体场景,对于需要多个智能体协同工作的任务,它们的适用性相对有限。

在多智能体强化学习(MARL)任务中,世界模型的研究尚处于起步阶段。尽管一些研究在模拟单智能体行为方面取得了进展,但在涉及多个智能体的复杂场景中,现有方法仍然面临诸多挑战。例如,MARL任务通常涉及多个实体的属性,如位置和角色,仅用文本描述状态是困难的。此外,MARL环境的动态和奖励模型比单智能体设置更加复杂,现有的方法假设奖励是已知的或可以通过帧信息轻松推导,但这种假设在MARL中并不成立。

针对这些局限性,最新研究提出了通过生成世界模型来增强多智能体决策问题答案的策略。来自国家人机混合增强智能重点实验室和国家视觉信息与应用工程研究中心的研究团队探索了一种新的范式,将语言引导的模拟器整合到多智能体强化学习流程中,以提供更为切实的解决方案。模拟器作为一个世界模型,分别学习动态和奖励,利用这些模型生成的试错体验来训练联合策略,从而提升多智能体决策问题的解决质量。

这项研究由西安交通大学的研究团队完成,团队成员包括Zeyang Liu、Xinrui Yang、Shiguang Sun、Long Qian、Lipeng Wan、Xingyu Chen和通讯作者Xuguang Lan。研究团队隶属于国家人机混合增强智能重点实验室和国家视觉信息与应用工程研究中心,专注于多智能体系统和生成模型的研究,致力于通过创新的方法解决现实世界中的复杂问题。他们的研究工作在2024年神经信息处理系统会议(NeurIPS 2024)上展示,充分体现了他们在人工智能和机器人领域的领先地位和创新能力。

研究动机

多智能体任务中存在许多挑战和需求。多智能体系统需要协调多个智能体的行为,以实现共同的目标,这需要复杂的决策和规划过程。现有生成模型在处理多智能体任务时往往缺乏对动态环境的准确模拟,导致生成的解决方案不够精确和可靠。

通过语言引导的模拟器在增强决策问题答案中的潜力显而易见。将语言模型与世界模型相结合,能够更好地理解任务描述,并通过模拟不同的决策过程来生成更准确的答案。这不仅可以提高多智能体系统的效率和性能,还可以为实际应用提供更为切实可行的解决方案。本研究通过提出一种新的范式,将语言引导的模拟器整合到多智能体强化学习流程中,旨在解决多智能体任务中的复杂决策问题,提升生成模型的适用性和有效性。

图片

图1:对于当前的视觉语言模型来说,需要很好地理解环境动态和目标的复杂决策问题仍然具有挑战性,例如,GPT-4得出的答案是粗略和误导性的。相反,互动前学习(LBI)通过模拟给定问题中的任务来实现有根据的推理。LBI利用模拟器训练MARL策略,并通过在模拟器上运行聚合策略来生成答案。

方法论

互动模拟器的构建

在多智能体决策问题中,互动模拟器的构建是至关重要的一步。研究团队提出的互动模拟器由三个核心组件构成:图像分词器、动态模型和奖励模型。通过这些组件的相互合作,模拟器能够生成试错经验,并且提升多智能体决策问题的答案质量。

图像分词器的作用是将原始视频帧转换为离散标记,从而降低数据维度并提高图像生成的质量。具体来说,作者采用了矢量量化变分自编码器(VQ-VAE),这是一种先进的图像编码方法。VQ-VAE通过对每一帧图像进行编码,生成离散表示。这种表示不仅保留了原始图像的重要信息,还显著减少了数据量,从而为后续的动态模型和奖励模型提供了高效的输入数据。

图片

图2:数据集构建和VQ-VAE训练。

动态模型是互动模拟器的核心组件之一,它通过自回归建模,根据过去的帧和状态标记来预测下一帧和状态。研究团队采用了因果变换器作为动态模型的架构,并在任务描述的指导下进行建模。具体来说,动态模型接收一系列的图像和状态标记,并在每一个时间步进行预测。为了提高预测的准确性和稳定性,动态模型还采用了动态残差项,将状态预测目标从St+1‍为‍ΔSt+1=St+1−St,以进一步提高生成的准确性。通过这种方式,动态模型能够生成一致的长视距轨迹,确保多智能体决策过程中各个步骤的连贯性。

奖励模型通过轨迹推断状态-动作对的奖励,是互动模拟器中另一个关键组件。作者采用了类似于逆强化学习的训练管道,通过最大化专家演示轨迹的似然性来训练奖励模型。具体来说,奖励模型接收完整的轨迹作为输入,并在确定性动态下进行信用分配。为了避免奖励高估,研究团队引入了奖励约束和行为正则化,通过这些措施进行样本内学习,从而提高奖励预测的准确性。奖励模型的这一设计使得互动模拟器能够在复杂的多智能体决策环境中生成合理的奖励,并帮助智能体快速学习到最优策略。

为了构建有效的互动模拟器,首先需要一个全面的数据集。研究团队提出的新SMAC多智能体强化学习数据集,通过解析器自动生成给定状态和任务描述的真实图像。SMAC(StarCraft Multi-Agent Challenge)环境以其丰富的环境和高控制复杂性著称,是训练和测试多智能体系统的理想平台。为了生成训练数据,研究者们运行多智能体探索方法,如EMC(Efficient Multi-agent Communication)和IIE(Interactive Imitation Learning),在多个训练地图上收集了大量的交互轨迹。每条轨迹都包含状态、观察、联合动作和完成信号。这些数据通过解析器转换为相应的图像和任务描述,为模拟器的训练提供了基础。

任务描述的解析与生成是训练互动模拟器的重要步骤之一。研究团队设计了一种解析器,将每个轨迹转换为自然语言任务描述。这些任务描述包含环境动态、代理和敌人的数量和类型,以及终止状态下敌人的剩余生命值等信息。通过这种方式,任务描述不仅提供了当前状态的信息,还为模拟器的动态模型提供了额外的上下文,使其能够更准确地预测未来的状态。

图片

图3:互动前学习概述。

动态模型是模拟器的核心组件之一,其作用是根据过去的帧和状态标记,预测下一帧和状态。为了实现这一目标,研究团队采用了因果变换器作为动态模型的架构。具体来说,动态模型通过自回归建模,根据任务描述和过去的帧和状态标记,生成未来的状态和图像。

奖励模型通过推断状态-动作对的奖励,帮助智能体在模拟环境中学习到最优策略。研究团队借鉴了逆强化学习的训练管道,通过最大化专家演示轨迹的似然性来训练奖励模型。具体来说,奖励模型接收完整的轨迹作为输入,并根据轨迹中的动态信息进行奖励分配。为了避免奖励高估,研究者们引入了奖励约束和行为正则化,通过这些措施进行样本内学习,从而提高奖励预测的准确性和鲁棒性。

实验与结果

性能比较

在性能比较中,研究团队评估了LBI(Learning before Interaction)在无奖励的离线学习、离线多智能体强化学习(MARL)和在线多智能体强化学习中的表现。

在无奖励的离线学习方面,LBI显著优于多种基准方法,包括行为克隆(BC)和对抗模仿学习(MA-AIRL)。行为克隆方法通过模仿整个数据集的行为来学习策略,而MA-AIRL使用对抗学习进行策略模仿。尽管这些方法在一些任务上有一定的表现,但它们往往无法在复杂的多智能体决策场景中实现高成功率。相较之下,LBI通过生成试错经验,改进了决策过程,从而在各种难度的地图上表现出色。

离线MARL方面LBI同样表现出色,超越了现有的多种方法,如BCQ-MA和CQL-MA。这些离线方法利用真实奖励进行训练,但在代理数量增加时,其性能往往会显著下降。研究团队提出的LBI通过动态模型和奖励模型的协同工作,生成了更为合理的试错轨迹,并优化了策略学习,从而在复杂的环境中取得了更高的成功率和表现。

在线MARL方面,LBI也展示了其优越性。研究团队将LBI与现有的在线方法如CW-QMIX、QPLEX等进行了比较。结果表明,LBI在样本效率方面显著提升,这得益于其预训练的世界模型在生成响应时减少了等待时间。这一结果表明,预训练的世界模型不仅能够提高离线学习的性能,还能在在线学习过程中提供显著的优势。

在未见任务中的泛化能力

为了评估LBI(Learning before Interaction)在未见任务中的泛化能力,研究团队测试了LBI在十个未见测试地图上的表现。结果显示,LBI在这些新的环境中依然表现出色,成功地将已学知识转移到新任务上,且无需额外的微调。这种零样本泛化能力是生成模型在实际应用中非常关键的特性,证明了LBI在多智能体决策问题中的广泛适用性。

图片

图4:动态和奖励模型预测的可视化,其中“np-op”和“s”分别表示不操作和停止。

动态模型不仅能够生成长视距的图像轨迹,还能在关键状态下进行动作可控生成。具体来说,动态模型在生成的过程中没有出现明显的累积误差,这表明LBI具备生成一致性和长视距轨迹的能力。在5m_vs_6m的例子中,研究人员展示了在某个可能动作后的连续帧,证明了LBI可以进行动作可控的生成,帮助智能体更好地理解和执行策略。

消融研究

研究团队通过消融研究深入分析了互动模拟器中各组件的贡献,包括动态模型和奖励模型的具体作用及其在不同任务中的表现。

动态模型在生成长视距轨迹和预测未来状态方面起着关键作用。通过消融研究,研究团队发现,使用动态残差项对减少后续状态的预测误差至关重要。这在各种训练和未见任务中,动态残差项显著提升了模型的整体表现。尽管图像参考的效果不如预期,但作为另一种模式,图像在某些情况下比语言或状态信息更具表现力,未来的研究可能会进一步探索其潜力。

对于奖励模型,奖励约束和行为正则化在训练任务中发挥了重要作用,显著改善了整体性能。具体来说,奖励约束通过控制奖励值,避免了在样本外状态-动作对上出现奖励过高的情况,而行为正则化则通过在策略学习中加入保守性,进一步提高了奖励预测的准确性。在未见任务中,研究发现,奖励的保守性比策略更为重要。当存在样本外状态-动作对时,保守的奖励预测能够更好地帮助智能体进行决策学习。相比之下,LBI(Learning before Interaction)在缺乏奖励约束和行为正则化的情况下表现较差,这进一步证明了这些组件在优化模型性能中的关键作用。

相关工作

世界模型

世界模型的研究在多智能体强化学习中扮演着至关重要的角色。这些模型通过预测环境动态和奖励,帮助智能体更有效地学习和决策。

模型预测控制(MPC)是一种通过模型模拟来生成高奖励动作序列的方法。在MPC的应用中,像MBMF、PETS和PlaNet等模型通过集成MPC来采样高奖励的动作序列。这些方法依赖于世界模型对环境动态的精确模拟,从而在多步预测中生成最优的决策序列。AlphaGo和MuZero等知名算法通过学习转换模型并应用蒙特卡罗树搜索(MCTS),实现了在人类竞争游戏中的突破。这些方法展示了世界模型在生成高质量决策中的潜力。

微分规划与策略学习方法利用模型的内部结构来促进策略学习。GPS(Guided Policy Search)和GDP(Gradient-based Policy Search)等模型通过微分规划获得最优策略的解析形式。这些方法通过对世界模型和策略进行重新参数化,并通过反向传播计算策略梯度估计,从而提高了策略的学习效率。SVG(Stochastic Value Gradients)和MAAC(Multi-Agent Actor-Critic)等模型在紧凑的潜在空间中学习世界模型和策略,进一步提升了策略学习的效果。

Dyna-style 方法通过生成更多的经验来训练策略,从而扩展了数据集的覆盖范围。MVE(Model-based Value Expansion)和STEVE(Stochastic Ensemble Value Expansion)等方法通过多步时间差预测进行更好的价值估计。SLBO(Safe Model-Based Optimization)、MBPO(Model-Based Policy Optimization)和BMPO(Behavioral Model-Based Policy Optimization)等方法则通过理论分析证明,策略性能会在一定模型偏差和回滚长度下单调改进。为了进一步增加回滚长度并避免累积误差,M2AC(Model-based Actor-Critic)和COPlanner(Conservative Planner)计算每一步的回滚不确定性,并在总奖励中加入惩罚项。这些方法展示了世界模型在生成更多经验并训练策略中的有效性。

模仿学习

模仿学习通过模仿专家的行为来训练智能体,是一种广泛应用于多智能体系统的有效方法。在这些方法中,最大熵逆强化学习(MaxEnt IRL)、条件扩散模型和序列建模方法都具有重要意义。

最大熵逆强化学习(MaxEnt IRL)通过最小化代理和专家分布之间的差异来学习稳定的奖励函数。这种方法不仅能捕捉专家行为的多样性,还能提供更好的泛化能力。通过最大化轨迹的熵,MaxEnt IRL能够有效地处理复杂的决策问题,并在多个领域表现出色。例如,在自然语言目标和动态学习中,MaxEnt IRL展示了其强大的适应能力和广泛的应用前景。

条件扩散模型是模仿学习中的另一种重要方法。通过将状态和噪声向量作为输入,条件扩散模型可以生成预测动作,并模仿人类专家或游戏数据中的多模态行为。这种方法在建模随机行为和处理复杂环境方面表现优异。与传统的模仿学习方法相比,条件扩散模型能够更好地适应各种不同的情景,并提供更高的灵活性。

序列建模方法通过将轨迹生成问题看作序列建模问题,实现了对状态、动作和奖励的高效生成。决策变压器(MADT)是序列建模方法中的代表,它通过自回归方式生成状态、动作和奖励。与传统的模仿学习方法相比,决策变压器能够更好地捕捉决策过程中的依赖关系,并提供更为准确的决策结果。这种方法在多智能体决策任务中表现出色,展示了其在序列建模中的潜力。

结论与展望

研究团队提出的“交互前学习” (Learning before Interaction, LBI) 方法,结合了生成模型和多智能体强化学习,展示了在多智能体决策问题中的创新性和有效性。LBI通过引入语言引导的互动模拟器,解决了传统生成模型在处理复杂多智能体决策问题时的不足。具体来说,LBI包括图像分词器、动态模型和奖励模型三个核心组件,这些组件协同工作,生成高质量的试错经验,改进了决策质量。实验结果表明,LBI不仅在各种基准测试中表现出色,还展示了强大的零样本泛化能力,能够在未见任务中保持卓越表现。这些研究成果证明了LBI在处理复杂多智能体决策问题上的潜力和实际应用价值。

LBI的提出为多智能体系统的研究提供了新的思路和方向。未来的研究可以进一步优化和扩展LBI的应用场景。例如,在其他高复杂度和高动态性的环境中,LBI有望通过适应不同的任务描述和奖励函数,展现出更广泛的适用性。此外,LBI的框架可以与其他先进的人工智能技术相结合,如自然语言处理和计算机视觉,进一步提高多智能体系统的智能化水平。

另一个重要的研究方向是提高LBI的效率和可扩展性。尽管研究团队已经展示了LBI在样本效率上的显著提升,未来的研究可以探索更高效的模型训练和推理方法,以进一步减少计算成本和时间。同时通过引入更多的实际数据和场景,LBI可以在真实世界的应用中得到验证和改进,推动多智能体决策系统在工业、医疗和社会治理等领域的发展。

LBI的创新性和有效性为多智能体决策问题提供了切实可行的解决方案,其广泛的应用潜力和未来的研究方向也为人工智能领域带来了新的机遇和挑战。科技的进步总是如此令人兴奋和期待。(END)

参考资料:https:///abs/2410.02664

图片

波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}