说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111572333.8 (22)申请日 2021.12.21 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区北一 街2号爱奇 艺创新大厦10、 1 1层 (72)发明人 闻磊  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 吴晓静 (51)Int.Cl. G06T 1/20(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于GPU的深度学习算法的性能优化方 法及装置 (57)摘要 本申请提供了一种基于GPU的深度学习应用 的性能优化方法及装置, 该方案在GPU加载深度 学习应用对应的汇编指令的过程中, 将该汇编指 令中的第一目标汇编指令替换为第二目标汇编 指令。 执行指令时, 只需执行第二目标汇编指令, 不再执行第一目标汇编指令, 而且, 执行完第二 目标汇编指令后, 按顺序继续执行第一目标汇编 指令之后的其它汇编指令, 从而实现改变GPU中 高性能函数库的执行逻辑得到新的算子。 由上述 过程可见, 该方案是将新算子与GPU中高性能函 数库相结合, 使得新算子也能达到较高的计算性 能, 该方案既能够满足GP U对新算子的支持, 即通 用性, 同时, 提高了GPU执行新算子时的整体性 能, 即达到高性能。 权利要求书2页 说明书10页 附图2页 CN 114418827 A 2022.04.29 CN 114418827 A 1.一种基于图形处 理器的深度学习应用的性能优化方法, 其特 征在于, 所述方法包括: 在将深度学习应用中待优化算子对应的汇编指令加载至GPU的寄存器时, 将所述汇编 指令中的第一目标汇编指 令替换为第二目标汇编 指令, 所述第一目标汇编 指令是所述待优 化算子包含的待优化汇编指令, 所述第二 目标汇编指令是优化后的汇编指令, 且不属于所 述待优化 算子; 当执行所述第二目标汇编指令后, 执 行所述第一目标汇编指令之后的其 他汇编指令 。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述汇编指令 中的第一目标汇编指 令替换为第二目标汇编指令, 包括: 在第二存 储空间存 储所述第二目标汇编指令, 其中, 所述第二目标汇编指令; 将第一跳转指令存储至用于存储所述第 一目标汇编指令的第 一存储空间, 所述第 一跳 转指令用于 跳转至所述第二存 储空间。 3.根据权利要求2所述的方法, 其特征在于, 当所述执行所述第二目标汇编指令后, 执 行所述第一目标汇编指令相邻的下一个汇编指令, 包括: 将第二跳转指令存储至所述第 二存储空间的下一个可用存储空间, 所述第 二跳转指令 用于跳转至第三存储空间, 其中, 所述第三存储空间存储有所述第一 目标汇编指令的下一 条汇编指令; 执行所述第 二跳转指令跳转至所述第 三存储空间, 并执行所述第 三存储空间存储的汇 编指令。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述第一目标汇编指令为第一类 数据读取指令, 所述第二目标汇编 指令为所述第二类数据读取指令, 其中, 所述第一类数据 读取指令与所述第二类数据读取指令的读取逻辑 不同。 5.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述第一目标汇编指令为第一类 数据输出指令, 所述第二 目标汇编指令为第二类数据输出指令, 所述第一类数据输出指令 与所述第二类数据输出指令的输出逻辑 不同。 6.根据权利要求2所述的方法, 其特征在于, 确定所述第 一目标汇编指令对应的第 一存 储空间的过程, 包括: 确定所述待优化算子对应的汇编指令的存储地址段, 从所述存储地址段中查找出所述 第一目标汇编指令对应的存 储地址偏移量; 基于所述存 储地址偏移量获得存 储所述第一目标汇编指令的第一存 储空间的地址 。 7.一种基于图形处 理器的深度学习应用的性能优化装置, 其特 征在于, 所述装置包括: 指令替换模块, 用于在将深度学习应用中待优化算子对应的汇编指令加载至GPU的寄 存器时, 将所述汇编指令中的第一 目标汇编指令替换为第二 目标汇编指令, 所述第一 目标 汇编指令是所述待优化算子包含的待优化汇编指 令, 所述第二目标汇编 指令是优化后的汇 编指令, 且不属于所述待优化 算子; 指令执行模块, 用于当执行所述第二目标汇编指令后, 执行所述第一目标汇编指令之 后的其他汇编指令 。 8.根据权利要求7 所述的装置, 其特 征在于, 所述指令替换模块包括: 第一存储子模块, 用于在第 二存储空间存储所述第 二目标汇编指令, 其中, 所述第二目 标汇编指令;权 利 要 求 书 1/2 页 2 CN 114418827 A 2第二存储子模块, 用于将第 一跳转指令存储至用于存储所述第 一目标汇编指令的第 一 存储空间, 所述第一跳转指令用于 跳转至所述第二存 储空间。 9.一种电子设备, 其特征在于, 包括处理器和存储器, 所述存储器内存储有指令, 所述 处理器运行所述存储器内存储的指 令时实现上述权利要求 1‑6任一项所述的基于图形 处理 器的深度学习应用的性能优化方法。 10.一种计算机可读的存储介质, 其特征在于, 所述存储介质上存储有指令, 所述指令 由电子设备执行时实现上述权利要求 1‑6任一项所述的基于图形 处理器的深度学习应用的 性能优化方法。权 利 要 求 书 2/2 页 3 CN 114418827 A 3

.PDF文档 专利 一种基于GPU的深度学习算法的性能优化方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于GPU的深度学习算法的性能优化方法及装置 第 1 页 专利 一种基于GPU的深度学习算法的性能优化方法及装置 第 2 页 专利 一种基于GPU的深度学习算法的性能优化方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:13:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。