(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111585625.5
(22)申请日 2021.12.23
(65)同一申请的已公布的文献号
申请公布号 CN 113988317 A
(43)申请公布日 2022.01.28
(73)专利权人 中国科学院自动化研究所
地址 100190 北京市海淀区中关村东路95
号
(72)发明人 蒲志强 刘博寅 潘一 王诗杰
丘腾海
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
代理人 乔慧
(51)Int.Cl.
G06N 20/00(2019.01)G06N 5/02(2006.01)
(56)对比文件
CN 113705828 A,2021.1 1.26
审查员 解欣
(54)发明名称
一种针对球场运动球员的动态策略优化方
法及装置
(57)摘要
本发明提供一种针对球场运动球员的动态
策略优化方法及装置。 其中, 该方法包括: 确定待
分析的球场状态数据; 将所述球场状态数据输入
到预设的球场策略优化网络模型, 获得所述球场
策略优化网络模型输出的运动球员的动作执行
策略; 其中, 所述球场策略优化网络模型是基于
样本球场状态数据、 所述样本球场状态数据对应
的状态评价信息以及球场知识表征数据训练得
到的。 本发 明提供的针对球场运动球员的动态策
略优化方法, 通过球场知识表征数据和球场状态
数据结合的方式来进行球场策略优化, 能够有效
加快策略优化过程和收敛过程, 基于球场信息做
出高质量的球场战术决策, 从而将学习到的优化
策略提供给球员参考, 或应用到球场游戏的设计
中, 提高决策效率。
权利要求书2页 说明书11页 附图3页
CN 113988317 B
2022.04.05
CN 113988317 B
1.一种针对球场运动球员的动态策略优化方法, 其特 征在于, 包括:
确定待分析的球场状态数据;
将所述球场状态数据输入到预设的球场策略优化网络模型, 获得所述球场策略优化网
络模型输出 的运动球员的动作执行策略; 其中, 所述球场策略优化网络模型是基于样本球
场状态数据、 所述样本球场状态数据对应的状态评价信息以及球场知识表征数据训练得到
的;
还包括: 预先确定所述球场策略优化网络模型;
所述预先确定所述球场策略优化网络模型, 具体包括:
获得样本球场状态数据, 将所述样本球场状态数据输入到基于知识的分析模型中进行
知识表征, 得到球场知识 表征数据;
将球场知识表征数据输入到球场态势特征网络提取子模型, 获得所述球场态势特征网
络提取子模型输出的样本球场空间状态特 征;
将所述样本球场空间状态特征分别 输入到策略子网络模型和评价子网络模型, 获得所
述策略子网络模型输出的运动球员的样本动作执行策略和所述评价子网络模型输出的样
本状态评价信息;
基于所述样本状态评价信 息, 通过学习器模块采用梯度反传模式更新所述球场态势特
征网络提取子模型、 所述策略子网络模型和所述评价子网络模型 的参数, 得到所述球场策
略优化网络模型。
2.根据权利要求1所述的针对球场 运动球员的动态策略优化方法, 其特征在于, 所述确
定待分析的球场状态数据, 具体包括:
获取待分析的运动属性数据; 其中, 所述运动属性数据包括每一离散时刻对应的决策
球员的状态数据、 球的状态数据、 非决策球员状态的数据;
将所述运动属性数据投射到预设的二维球场模型中得到相应的球场状态数据。
3.根据权利要求1所述的针对球场 运动球员的动态策略优化方法, 其特征在于, 将所述
球场状态数据输入到预设的球场策略优化网络模型, 获得所述球场策略优化网络模型输出
的运动球员的动作执 行策略, 具体包括:
将所述球场状态数据输入到预设的球场态势特征网络提取子模型, 获得所述球场态势
特征网络提取子模型输出的球场空间状态特 征;
将所述球场空间状态特征分别输入到预设的策略子网络模型和评价子网络模型, 得到
策略优化网络子模型输出的运动球员的动作执行策略以及评价子网络模型输出的状态评
价信息;
其中, 所述球场策略优化网络模型包含所述球场态势特征网络提取子模型、 所述策略
子网络模型和所述评价子网络模型。
4.根据权利要求3所述的针对球场 运动球员的动态策略优化方法, 其特征在于, 将所述
球场状态数据输入到预设的球场态势特征网络提取子模型, 获得所述球场态势特征网络提
取子模型输出的球场空间状态特 征, 具体包括:
将所述球场状态数据输入到预设的球场态势特征网络提取子模型中, 基于所述球场态
势特征网络提取子模型中预设的可变形卷积网络对球场空间状态进行特征提取, 得到初始
球场空间状态特征, 基于最大池化层对所述初始球场空间状态特征进行处理, 并基于加速权 利 要 求 书 1/2 页
2
CN 113988317 B
2神经网络层 对处理后的初始球场空间状态特征进 行归一化处理; 采用长短期记忆网络提取
归一化处理后的时序特 征, 得到球场空间状态特 征。
5.根据权利要求2所述的针对球场 运动球员的动态策略优化方法, 其特征在于, 所述决
策球员的状态数据包括持球球员的自身位置数据、 速度状态数据以及生理状态数据; 所述
球的状态数据包括球的位置数据和速度状态数据; 所述 非决策球员状态的数据包括 非持球
球员的自身位置数据、 速度状态数据以及生理状态数据。
6.根据权利要求1所述的针对球场 运动球员的动态策略优化方法, 其特征在于, 所述球
场知识表征数据是指由表征球场中每 个球员的影响区域组成的球队的影响矩阵数据。
7.一种针对球场运动球员的动态策略优化装置, 其特 征在于, 包括:
球场状态数据确定单 元, 用于确定待分析的球场状态数据;
动作策略优化单元, 用于将所述球场状态数据输入到预设的球场策略优化网络模型,
获得所述球场策略优化网络模型输出 的运动球员的动作执行策略; 其中, 所述球场策略优
化网络模型是基于样本球场状态数据、 所述样本球场状态数据对应的状态评价信息以及球
场知识表征数据训练得到的; 还包括: 模型训练单元, 用于预先确定所述球场策略优化网络
模型;
所述预先确定所述球场策略优化网络模型, 具体包括:
获得样本球场状态数据, 将所述样本球场状态数据输入到基于知识的分析模型中进行
知识表征, 得到球场知识 表征数据;
将球场知识表征数据输入到球场态势特征网络提取子模型, 获得所述球场态势特征网
络提取子模型输出的样本球场空间状态特 征;
将所述样本球场空间状态特征分别 输入到策略子网络模型和评价子网络模型, 获得所
述策略子网络模型输出的运动球员的样本动作执行策略和所述评价子网络模型输出的样
本状态评价信息;
基于所述样本状态评价信 息, 通过学习器模块采用梯度反传模式更新所述球场态势特
征网络提取子模型、 所述策略子网络模型和所述评价子网络模型 的参数, 得到所述球场策
略优化网络模型。
8.一种电子设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至6任意一项
所述的针对球场运动球员的动态策略优化方法的步骤。
9.一种处理器可读存储介质, 所述处理器可读存储介质上存储有计算机程序, 其特征
在于, 该计算机程序被处理器执行时实现如权利要求 1至6任意一项 所述的针对球场运动球
员的动态策略优化方法的步骤。权 利 要 求 书 2/2 页
3
CN 113988317 B
3
专利 一种针对球场运动球员的动态策略优化方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:16:05上传分享