专利 一种针对球场运动球员的动态策略优化方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111585625.5 (22)申请日 2021.12.23 (65)同一申请的已公布的文献号申请公布号 CN 113988317 A (43)申请公布日 2022.01.28 (73)专利权人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人蒲志强　刘博寅　潘一　王诗杰　丘腾海　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人乔慧 (51)Int.Cl. G06N 20/00(2019.01)G06N 5/02(2006.01) (56)对比文件 CN 113705828 A,2021.1 1.26 审查员解欣 (54)发明名称一种针对球场运动球员的动态策略优化方法及装置 (57)摘要本发明提供一种针对球场运动球员的动态策略优化方法及装置。其中，该方法包括：确定待分析的球场状态数据；将所述球场状态数据输入到预设的球场策略优化网络模型，获得所述球场策略优化网络模型输出的运动球员的动作执行策略；其中，所述球场策略优化网络模型是基于样本球场状态数据、所述样本球场状态数据对应的状态评价信息以及球场知识表征数据训练得到的。本发明提供的针对球场运动球员的动态策略优化方法，通过球场知识表征数据和球场状态数据结合的方式来进行球场策略优化，能够有效加快策略优化过程和收敛过程，基于球场信息做出高质量的球场战术决策，从而将学习到的优化策略提供给球员参考，或应用到球场游戏的设计中，提高决策效率。权利要求书2页说明书11页附图3页 CN 113988317 B 2022.04.05 CN 113988317 B 1.一种针对球场运动球员的动态策略优化方法，其特征在于，包括：确定待分析的球场状态数据；将所述球场状态数据输入到预设的球场策略优化网络模型，获得所述球场策略优化网络模型输出的运动球员的动作执行策略；其中，所述球场策略优化网络模型是基于样本球场状态数据、所述样本球场状态数据对应的状态评价信息以及球场知识表征数据训练得到的；还包括：预先确定所述球场策略优化网络模型；所述预先确定所述球场策略优化网络模型，具体包括：获得样本球场状态数据，将所述样本球场状态数据输入到基于知识的分析模型中进行知识表征，得到球场知识表征数据；将球场知识表征数据输入到球场态势特征网络提取子模型，获得所述球场态势特征网络提取子模型输出的样本球场空间状态特征；将所述样本球场空间状态特征分别输入到策略子网络模型和评价子网络模型，获得所述策略子网络模型输出的运动球员的样本动作执行策略和所述评价子网络模型输出的样本状态评价信息；基于所述样本状态评价信息，通过学习器模块采用梯度反传模式更新所述球场态势特征网络提取子模型、所述策略子网络模型和所述评价子网络模型的参数，得到所述球场策略优化网络模型。 2.根据权利要求1所述的针对球场运动球员的动态策略优化方法，其特征在于，所述确定待分析的球场状态数据，具体包括：获取待分析的运动属性数据；其中，所述运动属性数据包括每一离散时刻对应的决策球员的状态数据、球的状态数据、非决策球员状态的数据；将所述运动属性数据投射到预设的二维球场模型中得到相应的球场状态数据。 3.根据权利要求1所述的针对球场运动球员的动态策略优化方法，其特征在于，将所述球场状态数据输入到预设的球场策略优化网络模型，获得所述球场策略优化网络模型输出的运动球员的动作执行策略，具体包括：将所述球场状态数据输入到预设的球场态势特征网络提取子模型，获得所述球场态势特征网络提取子模型输出的球场空间状态特征；将所述球场空间状态特征分别输入到预设的策略子网络模型和评价子网络模型，得到策略优化网络子模型输出的运动球员的动作执行策略以及评价子网络模型输出的状态评价信息；其中，所述球场策略优化网络模型包含所述球场态势特征网络提取子模型、所述策略子网络模型和所述评价子网络模型。 4.根据权利要求3所述的针对球场运动球员的动态策略优化方法，其特征在于，将所述球场状态数据输入到预设的球场态势特征网络提取子模型，获得所述球场态势特征网络提取子模型输出的球场空间状态特征，具体包括：将所述球场状态数据输入到预设的球场态势特征网络提取子模型中，基于所述球场态势特征网络提取子模型中预设的可变形卷积网络对球场空间状态进行特征提取，得到初始球场空间状态特征，基于最大池化层对所述初始球场空间状态特征进行处理，并基于加速权　利　要　求　书 1/2 页 2 CN 113988317 B 2神经网络层对处理后的初始球场空间状态特征进行归一化处理；采用长短期记忆网络提取归一化处理后的时序特征，得到球场空间状态特征。 5.根据权利要求2所述的针对球场运动球员的动态策略优化方法，其特征在于，所述决策球员的状态数据包括持球球员的自身位置数据、速度状态数据以及生理状态数据；所述球的状态数据包括球的位置数据和速度状态数据；所述非决策球员状态的数据包括非持球球员的自身位置数据、速度状态数据以及生理状态数据。 6.根据权利要求1所述的针对球场运动球员的动态策略优化方法，其特征在于，所述球场知识表征数据是指由表征球场中每个球员的影响区域组成的球队的影响矩阵数据。 7.一种针对球场运动球员的动态策略优化装置，其特征在于，包括：球场状态数据确定单元，用于确定待分析的球场状态数据；动作策略优化单元，用于将所述球场状态数据输入到预设的球场策略优化网络模型，获得所述球场策略优化网络模型输出的运动球员的动作执行策略；其中，所述球场策略优化网络模型是基于样本球场状态数据、所述样本球场状态数据对应的状态评价信息以及球场知识表征数据训练得到的；还包括：模型训练单元，用于预先确定所述球场策略优化网络模型；所述预先确定所述球场策略优化网络模型，具体包括：获得样本球场状态数据，将所述样本球场状态数据输入到基于知识的分析模型中进行知识表征，得到球场知识表征数据；将球场知识表征数据输入到球场态势特征网络提取子模型，获得所述球场态势特征网络提取子模型输出的样本球场空间状态特征；将所述样本球场空间状态特征分别输入到策略子网络模型和评价子网络模型，获得所述策略子网络模型输出的运动球员的样本动作执行策略和所述评价子网络模型输出的样本状态评价信息；基于所述样本状态评价信息，通过学习器模块采用梯度反传模式更新所述球场态势特征网络提取子模型、所述策略子网络模型和所述评价子网络模型的参数，得到所述球场策略优化网络模型。 8.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的针对球场运动球员的动态策略优化方法的步骤。 9.一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求 1至6任意一项所述的针对球场运动球员的动态策略优化方法的步骤。权　利　要　求　书 2/2 页 3 CN 113988317 B 3

专利 一种针对球场运动球员的动态策略优化方法及装置

专利一种针对球场运动球员的动态策略优化方法及装置