专利 一种基于GPU的深度学习算法的性能优化方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111572333.8 (22)申请日 2021.12.21 (71)申请人北京奇艺世纪科技有限公司地址 100080 北京市海淀区北一街2号爱奇艺创新大厦10、 1 1层 (72)发明人闻磊　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人吴晓静 (51)Int.Cl. G06T 1/20(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于GPU的深度学习算法的性能优化方法及装置 (57)摘要本申请提供了一种基于GPU的深度学习应用的性能优化方法及装置，该方案在GPU加载深度学习应用对应的汇编指令的过程中，将该汇编指令中的第一目标汇编指令替换为第二目标汇编指令。执行指令时，只需执行第二目标汇编指令，不再执行第一目标汇编指令，而且，执行完第二目标汇编指令后，按顺序继续执行第一目标汇编指令之后的其它汇编指令，从而实现改变GPU中高性能函数库的执行逻辑得到新的算子。由上述过程可见，该方案是将新算子与GPU中高性能函数库相结合，使得新算子也能达到较高的计算性能，该方案既能够满足GP U对新算子的支持，即通用性，同时，提高了GPU执行新算子时的整体性能，即达到高性能。权利要求书2页说明书10页附图2页 CN 114418827 A 2022.04.29 CN 114418827 A 1.一种基于图形处理器的深度学习应用的性能优化方法，其特征在于，所述方法包括：在将深度学习应用中待优化算子对应的汇编指令加载至GPU的寄存器时，将所述汇编指令中的第一目标汇编指令替换为第二目标汇编指令，所述第一目标汇编指令是所述待优化算子包含的待优化汇编指令，所述第二目标汇编指令是优化后的汇编指令，且不属于所述待优化算子；当执行所述第二目标汇编指令后，执行所述第一目标汇编指令之后的其他汇编指令。 2.根据权利要求1所述的方法，其特征在于，所述将所述汇编指令中的第一目标汇编指令替换为第二目标汇编指令，包括：在第二存储空间存储所述第二目标汇编指令，其中，所述第二目标汇编指令；将第一跳转指令存储至用于存储所述第一目标汇编指令的第一存储空间，所述第一跳转指令用于跳转至所述第二存储空间。 3.根据权利要求2所述的方法，其特征在于，当所述执行所述第二目标汇编指令后，执行所述第一目标汇编指令相邻的下一个汇编指令，包括：将第二跳转指令存储至所述第二存储空间的下一个可用存储空间，所述第二跳转指令用于跳转至第三存储空间，其中，所述第三存储空间存储有所述第一目标汇编指令的下一条汇编指令；执行所述第二跳转指令跳转至所述第三存储空间，并执行所述第三存储空间存储的汇编指令。 4.根据权利要求1 ‑3任一项所述的方法，其特征在于，所述第一目标汇编指令为第一类数据读取指令，所述第二目标汇编指令为所述第二类数据读取指令，其中，所述第一类数据读取指令与所述第二类数据读取指令的读取逻辑不同。 5.根据权利要求1 ‑3任一项所述的方法，其特征在于，所述第一目标汇编指令为第一类数据输出指令，所述第二目标汇编指令为第二类数据输出指令，所述第一类数据输出指令与所述第二类数据输出指令的输出逻辑不同。 6.根据权利要求2所述的方法，其特征在于，确定所述第一目标汇编指令对应的第一存储空间的过程，包括：确定所述待优化算子对应的汇编指令的存储地址段，从所述存储地址段中查找出所述第一目标汇编指令对应的存储地址偏移量；基于所述存储地址偏移量获得存储所述第一目标汇编指令的第一存储空间的地址。 7.一种基于图形处理器的深度学习应用的性能优化装置，其特征在于，所述装置包括：指令替换模块，用于在将深度学习应用中待优化算子对应的汇编指令加载至GPU的寄存器时，将所述汇编指令中的第一目标汇编指令替换为第二目标汇编指令，所述第一目标汇编指令是所述待优化算子包含的待优化汇编指令，所述第二目标汇编指令是优化后的汇编指令，且不属于所述待优化算子；指令执行模块，用于当执行所述第二目标汇编指令后，执行所述第一目标汇编指令之后的其他汇编指令。 8.根据权利要求7 所述的装置，其特征在于，所述指令替换模块包括：第一存储子模块，用于在第二存储空间存储所述第二目标汇编指令，其中，所述第二目标汇编指令；权　利　要　求　书 1/2 页 2 CN 114418827 A 2第二存储子模块，用于将第一跳转指令存储至用于存储所述第一目标汇编指令的第一存储空间，所述第一跳转指令用于跳转至所述第二存储空间。 9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器内存储有指令，所述处理器运行所述存储器内存储的指令时实现上述权利要求 1‑6任一项所述的基于图形处理器的深度学习应用的性能优化方法。 10.一种计算机可读的存储介质，其特征在于，所述存储介质上存储有指令，所述指令由电子设备执行时实现上述权利要求 1‑6任一项所述的基于图形处理器的深度学习应用的性能优化方法。权　利　要　求　书 2/2 页 3 CN 114418827 A 3

专利 一种基于GPU的深度学习算法的性能优化方法及装置

专利一种基于GPU的深度学习算法的性能优化方法及装置