学术领航｜信息与智能工程学院举办电子信息前沿技术讲座

发布者：尹娜发布时间：2026-05-06浏览次数：19

近日，三亚学院信息与智能工程学院郭大波教授在电子信息前沿技术讲座中，讲述了基于通信的多智能体深度强化学习（CB-MADRL）方向取得突破性的成果。围绕多智能体协同决策中的通信效率与可解释性难题，提出了一种全新的GAC-QMIX协同学习框架，相关理论综述论文已发表于《计算机科学与探索》（北大中文核心、CSCD来源期刊、CCF T2类高质量科技期刊），为复杂多智能体系统的智能化协作提供了新思路。

随着人工智能向多智能体协同场景深入拓展，如何在部分可观测与非平稳环境中实现高效通信，一直是该领域面临的痛点。现有方法普遍存在通信触发缺乏可解释性、通信频率缺乏有效调节机制，以及全时通信带来的严重信息冗余与计算开销等问题。针对这些挑战，郭大波教授团队在深入梳理国内外研究现状的基础上，首次构建了CB-MADRL领域的系统化七维度分析框架，为后续算法创新奠定了扎实的理论基础。

在此基础上，团队在经典QMIX值分解框架上引入通信机制，设计提出了GAC-QMIX（Gated Attention Communication QMIX）算法，其核心创新包含四项关键技术，一是引入交叉注意力机制实现消息的选择性聚合，让智能体能按需提取同伴的关键信息；二是设计基于环境变化与动作不确定性的门控通信策略，以明确规则动态决定通信触发时机，显著提升可解释性并降低冗余通信；三是提出消息复用策略，保障非通信时间步的信息连续性；四是在损失函数中嵌入通信正则化项，通过对消息变化与动作熵的联合约束，实现通信频率的可控优化。

为验证算法性能，团队在星际争霸多智能体挑战（SMAC）环境中开展了大量实验。在“1o_2r_vs_4r”和“1o_10b_vs_1r”等需要高度信息协同的复杂任务上，GAC-QMIX在协作成功率与通信效率方面均展现出显著优势。消融实验进一步表明，交叉注意力机制、门控通信、消息复用及通信正则化等模块各自均对整体性能提升发挥了重要作用。实验结果显示，该方法能在保证协同决策质量的同时，大幅减少非必要通信，使通信行为更加精准、可控。

该研究成果为多智能体深度强化学习从理论走向现实应用提供了可行的技术支持。郭大波教授表示，下一步团队将把所提出的通信机制拓展至竞争或混合动机的多智能体任务场景，探索更加自适应的通信触发策略，并积极布局在机器人协同、智能交通、分布式控制等真实多智能体系统中的潜在应用，持续提升三亚学院在电子信息前沿技术领域的自主创新能力与学术影响力。

信息与智能工程学院始终聚焦科技前沿，鼓励跨学科融合与原始创新。此次成果的取得，不仅体现了学校在人工智能基础研究领域的积淀，也为培养高水平科研人才和服务区域产业发展注入了新的动力

一审一校 |郭大波

二审二校 |杨涛

三审三校 |李成名尹娜