专利 音频精华片段确定方法、电子设备及计算机可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111611647.4 (22)申请日 2021.12.27 (71)申请人腾讯音乐娱乐科技（深圳）有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人毛绮雯　陈肇康　吴斌　雷兆恒　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人彭程 (51)Int.Cl. G06F 16/683(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称音频精华片段确定方法、电子设备及计算机可读存储介质 (57)摘要本申请实施例公开了一种音频精华片段确定方法、电子设备及计算机可读存储介质，其中方法包括：获取音频数据及音频数据对应的文本内容；将文本内容输入第一有监督模型，以确定文本内容中的第一精彩句集合，并将文本内容输入第一无监督模型，以确定文本内容中的第二精彩句集合；基于第一精彩句集合和第二精彩句集合，确定文本内容中的精华段落；将音频数据中精华段落对应的音频数据确定为音频精华片段。本申请可以应用于音频处理技术领域，结合有监督学习和无监督学习，确定音频中的精华片段，相较于现有技术中使用有监督学习的方式，可以减少人工对精华片段的标注，降低人力成本。权利要求书2页说明书14页附图3页 CN 114329043 A 2022.04.12 CN 114329043 A 1.一种音频精华片段确定方法，其特征在于，所述方法包括：获取音频数据及所述音频数据对应的文本内容；将所述文本内容输入第一有监督模型，以确定所述文本内容中的第一精彩句集合，并将所述文本内容输入第一无监督模型，以确定所述文本内容中的第二精彩句集合；基于所述第一精彩句集合和所述第二精彩句集合，确定所述文本内容中的精华段落；将所述音频数据中所述精华段落对应的音频数据确定为音频精华片段。 2.根据权利要求1所述的方法，其特征在于，所述将所述文本内容输入第一有监督模型，以确定所述文本内容中的第一精彩句集合，包括：将所述文本内容输入第一有监督模型，得到所述文本内容中每个句子的第一指标数值，并基于所述第一指标数值确定第一精彩句集合；所述将所述文本内容输入第一无监督模型，以确定所述文本内容中的第二精彩句集合，包括：将所述文本内容输入第一无监督模型，得到所述文本内容中每个句子的第二指标数值，并基于所述第二指标数值确定第二精彩句集合；其中，所述第一指标数值或所述第二指标数值为以下任意一种或多种：所述文本内容中每个句子的精彩度分数、所述文本内容中每个句子与所述文本内容的语义相似度、所述文本内容中每个句子为所述文本内容的摘要的概率。 3.根据权利要求1所述的方法，其特征在于，所述将所述文本内容输入第一有监督模型，以确定所述文本内容中的第一精彩句集合，包括：将所述文本内容和所述音频数据的音频信号输入第一有监督模型，以确定所述文本内容中的第一精彩句集合；所述将所述文本内容输入第一无监督模型，以确定所述文本内容中的第二精彩句集合，包括：将所述文本内容和所述音频数据的音频信号输入第一无监督模型，以确定所述文本内容中的第二精彩句集合。 4.根据权利要求1所述的方法，其特征在于，所述将所述文本内容输入第一有监督模型，以确定所述文本内容中的第一精彩句集合，包括：将所述文本内容输入第一有监督模型，将所述音频数据的音频信号输入第二有监督模型，以确定所述文本内容中的第一精彩句集合；所述将所述文本内容输入第一无监督模型，以确定所述文本内容中的第二精彩句集合，包括：将所述文本内容输入第一无监督模型，将所述音频数据的音频信号输入第二无监督模型，以确定所述文本内容中的第二精彩句集合。 5.根据权利要求4所述的方法，其特征在于，所述将所述文本内容输入第一有监督模型，将所述音频数据的音频信号输入第二有监督模型，以确定所述文本内容中的第一精彩句集合,包括：将所述文本内容输入第一有监督模型，得到所述文本内容中每个句子的第一指标数值，将所述音频数据的音频信号输入第二有监督模型，得到所述文本内容中每个句子的第三指标数值，基于所述第一指标数值和所述第三指标数值确定所述文本内容中的第一精彩权　利　要　求　书 1/2 页 2 CN 114329043 A 2句集合；所述将所述文本内容输入第一无监督模型，将所述音频数据的音频信号输入第二无监督模型，以确定所述文本内容中的第二精彩句集合,包括：将所述文本内容输入第一无监督模型，得到所述文本内容中每个句子的第二指标数值，将所述音频数据的音频信号输入第二无监督模型，得到所述文本内容中每个句子的第四指标数值，基于所述第二指标数值和所述第四指标数值确定所述文本内容中的第二精彩句集合；其中，所述第一指标数值或所述第二指标数值或所述第三指标数值或所述第四指标数值为以下任意一种或多种：所述文本内容中每个句子的精彩度分数、所述文本内容中每个句子与所述文本内容的语义相似度、所述文本内容中每个句子为所述文本内容的摘要的概率。 6.根据权利要求1 ‑5中任意一项所述的方法，其特征在于，所述基于所述第一精彩句集合和所述第二精彩句集合，确定所述文本内容中的精华段落，包括：确定所述第一精彩句集合和所述第二精彩句集合的精彩句并集；基于所述精彩句并集确定所述文本内容中的精华段落。 7.根据权利要求1 ‑5中任意一项所述的方法，其特征在于，所述基于所述第一精彩句集合和所述第二精彩句集合，确定所述文本内容中的精华段落，包括：基于所述第一精彩句集合确定第一精彩段落以及基于所述第二精彩句集合确定第二精彩段落；将所述第一精彩段落和所述第二精彩段落的并集确定为所述文本内容中的精华段落。 8.根据权利要求1 ‑7中任意一项所述的方法，其特征在于，在确定所述文本内容中的精华段落之后，及将所述音频数据中所述精华段落对应的音频数据确定为音频精华片段之前，所述方法还包括：将所述精华段落和所述精华段落在所述文本内容中的上下文邻接句子输入第一深度学习模型，以得到所述上下文邻接句子与所述精华段落同属一个语段的概率；若所述概率大于概率阈值，则将所述上下文邻接句子加入所述精华段落。 9.根据权利要求1 ‑7中任意一项所述的方法，其特征在于，若所述音频数据为多个，则所述音频精华片段包括多个音频数据各自对应的音频精华片段；所述方法还包括：分别确定每个所述音频数据的音频精华片段的精彩度分数；基于精彩度分数对多个所述音频精华片段进行排序，得到排序结果；基于所述排序结果向用户推荐音频精华片段。 10.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器；所述存储器，用于存储计算机程序；所述处理器，用于从所述存储器调用所述计算机程序执行如权利要求1 ‑9中任一项所述的方法。 11.一种计算机可读存储介质，其特征在于，所述计算机存储介质中存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使得所述处理器执行如权利要求1 ‑9中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114329043 A 3

专利 音频精华片段确定方法、电子设备及计算机可读存储介质

专利音频精华片段确定方法、电子设备及计算机可读存储介质