题名 | 两人零和博弈中的对抗学习与适应算法研究 |
作者 | 吴哲
|
答辩日期 | 2022-05-18
|
文献子类 | 硕士
|
授予单位 | 中国科学院自动化研究所
|
授予地点 | 中国科学院自动化研究所
|
导师 | 兴军亮
|
关键词 | 机器博弈
两人零和博弈
纳什均衡
对手建模
元学习
|
学位专业 | 模式识别与智能系统
|
英文摘要 | 机器博弈的目标是设计出在复杂博弈环境中能够自主思考和决策的智能体。
这是一个快速发展的交叉学科研究领域,持续吸收着来自博弈论、心理学、强化
学习、深度学习等领域的最新进展。两人零和博弈作为机器博弈的基本模型,由
于其较强的可解释性以及普遍的适用性,一直是人工智能研究的重要问题。围绕
两人零和博弈所开展的一系列研究近年来在围棋、德州扑克等问题中取得了里
程碑式的突破。尽管如此,在高复杂、强对抗的环境中设计出具有适应性的高效
学习算法依然是两人零和博弈问题中的关键挑战之一。本论文从环境构建和算
法创新两个方面针对两人零和博弈中的对抗学习与适应问题进行了系统性地研
究。本文的主要贡献总结如下:
1.在博弈环境搭建方面,本论文针对两人零和博弈构建了一套涵盖离散动作
空间和连续动作空间的通用训练、评估平台。该环境克服了现有基准缺乏高性能
算法实现以及对两人博弈设定缺乏支持的局限,并配套了丰富的基线算法和完
善的评估指标。
2.在博弈算法设计方面,针对现有方法中均衡求解法存在策略过于保守,无
法保证收益最大化以及对手建模方法存在建模困难、策略泛化性差的弊端,本论
文重点关注两人零和博弈中的适应性算法研究。本论文首先提出了两种风格多
样化的对手策略生成方案。在此基础上,受元学习思想启发,本文提出一种适应
性算法训练框架。该框架使用元策略更新方法,能够针对当前对手类型调整元模
型的网络权重以完成快速适应。
3. 本论文在离散动作空间与连续动作空间下的多类复杂对抗场景中进行了
详尽测试,并进行了各个模块的消融实验与分析。大量实验结果表明,本论文所
提算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而
为两人零和博弈收益最大化求解提供了一种新思路。 |
语种 | 中文
|
页码 | 90
|
内容类型 | 学位论文
|
源URL | [http://ir.ia.ac.cn/handle/173211/48778] |
专题 | 毕业生_硕士学位论文
|
推荐引用方式 GB/T 7714 |
吴哲. 两人零和博弈中的对抗学习与适应算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
|
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论