(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111611647.4
(22)申请日 2021.12.27
(71)申请人 腾讯音乐娱乐科技 (深圳) 有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 毛绮雯 陈肇康 吴斌 雷兆恒
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
代理人 彭程
(51)Int.Cl.
G06F 16/683(2019.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
音频精华片段确定方法、 电子 设备及计算机
可读存储介质
(57)摘要
本申请实施例公开了一种音频精华片段确
定方法、 电子设备及计算机可读存储介质, 其中
方法包括: 获取音频数据及 音频数据对应的文本
内容; 将文本内容输入第一有监督模型, 以确定
文本内容中的第一精彩句集合, 并将文本内容输
入第一无监督模 型, 以确定文本内容中的第二精
彩句集合; 基于第一精彩句集合和第二精彩句集
合, 确定文本内容中的精华段落; 将音频数据中
精华段落对应的音频数据确定为音频精华片段。
本申请可以应用于音 频处理技术领域, 结合有监
督学习和无监督学习, 确定音频中的精华片段,
相较于现有技术中使用有监督学习的方式, 可以
减少人工对精华片段的标注, 降低人力成本 。
权利要求书2页 说明书14页 附图3页
CN 114329043 A
2022.04.12
CN 114329043 A
1.一种音频精华片段确定方法, 其特 征在于, 所述方法包括:
获取音频 数据及所述音频 数据对应的文本内容;
将所述文本内容输入第一有监督模型, 以确定所述文本内容中的第一精彩句集合, 并
将所述文本内容输入第一无监 督模型, 以确定所述文本内容中的第二精彩句集 合;
基于所述第一精彩句集 合和所述第二精彩句集 合, 确定所述文本内容中的精华段落;
将所述音频 数据中所述精华段落对应的音频 数据确定为音频精华片段。
2.根据权利要求1所述的方法, 其特征在于, 所述将所述文本内容输入第一有监督模
型, 以确定所述文本内容中的第一精彩句集 合, 包括:
将所述文本内容输入第一有监督模型, 得到所述文本内容中每个句子的第一指标数
值, 并基于所述第一指标 数值确定第一精彩句集 合;
所述将所述文本内容输入第一无监督模型, 以确定所述文本内容中的第二精彩句集
合, 包括:
将所述文本内容输入第一无监督模型, 得到所述文本内容中每个句子的第二指标数
值, 并基于所述第二指标 数值确定第二精彩句集 合;
其中, 所述第一指标数值或所述第二指标数值为以下任意一种或多种: 所述文本内容
中每个句 子的精彩度分数、 所述文本内容中每个句 子与所述文本内容的语义相似度、 所述
文本内容中每 个句子为所述文本内容的摘要的概 率。
3.根据权利要求1所述的方法, 其特征在于, 所述将所述文本内容输入第一有监督模
型, 以确定所述文本内容中的第一精彩句集 合, 包括:
将所述文本 内容和所述音频数据的音频信号输入第 一有监督模型, 以确定所述文本 内
容中的第一精彩句集 合;
所述将所述文本内容输入第一无监督模型, 以确定所述文本内容中的第二精彩句集
合, 包括:
将所述文本 内容和所述音频数据的音频信号输入第 一无监督模型, 以确定所述文本 内
容中的第二精彩句集 合。
4.根据权利要求1所述的方法, 其特征在于, 所述将所述文本内容输入第一有监督模
型, 以确定所述文本内容中的第一精彩句集 合, 包括:
将所述文本 内容输入第 一有监督模型, 将所述音频数据的音频信号输入第 二有监督模
型, 以确定所述文本内容中的第一精彩句集 合;
所述将所述文本内容输入第一无监督模型, 以确定所述文本内容中的第二精彩句集
合, 包括:
将所述文本 内容输入第 一无监督模型, 将所述音频数据的音频信号输入第 二无监督模
型, 以确定所述文本内容中的第二精彩句集 合。
5.根据权利要求4所述的方法, 其特征在于, 所述将所述文本内容输入第一有监督模
型, 将所述音频数据的音频信号输入第二有监督模型, 以确定所述文本内容中的第一精彩
句集合,包括:
将所述文本内容输入第一有监督模型, 得到所述文本内容中每个句子的第一指标数
值, 将所述音频数据的音频信号输入第二有监督模型, 得到所述文本内容中每个句 子的第
三指标数值, 基于所述第一指标数值和所述第三指标数值确定所述文本内容中的第一精彩权 利 要 求 书 1/2 页
2
CN 114329043 A
2句集合;
所述将所述文本内容输入第 一无监督模型, 将所述音频数据的音频信号输入第 二无监
督模型, 以确定所述文本内容中的第二精彩句集 合,包括:
将所述文本内容输入第一无监督模型, 得到所述文本内容中每个句子的第二指标数
值, 将所述音频数据的音频信号输入第二无监督模型, 得到所述文本内容中每个句 子的第
四指标数值, 基于所述第二指标数值和所述第四指标数值确定所述文本内容中的第二精彩
句集合;
其中, 所述第 一指标数值或所述第 二指标数值或所述第 三指标数值或所述第四指标数
值为以下任意一种或多种: 所述文本内容中每个句 子的精彩度分数、 所述文本内容中每个
句子与所述文本内容的语义相似度、 所述文本内容中每个句子为所述文本内容的摘要的概
率。
6.根据权利要求1 ‑5中任意一项所述的方法, 其特征在于, 所述基于所述第 一精彩句集
合和所述第二精彩句集 合, 确定所述文本内容中的精华段落, 包括:
确定所述第一精彩句集 合和所述第二精彩句集 合的精彩句并集;
基于所述精彩句并集确定所述文本内容中的精华段落。
7.根据权利要求1 ‑5中任意一项所述的方法, 其特征在于, 所述基于所述第 一精彩句集
合和所述第二精彩句集 合, 确定所述文本内容中的精华段落, 包括:
基于所述第一精彩句集合确定第一精彩段落以及基于所述第二精彩句集合确定第二
精彩段落;
将所述第一精彩段落和所述第二精彩段落的并集确定为所述文本内容中的精华段落。
8.根据权利要求1 ‑7中任意一项所述的方法, 其特征在于, 在确定所述文本内容中的精
华段落之后, 及将所述音频数据中所述精华段落对应的音频数据确定为音频精华片段之
前, 所述方法还 包括:
将所述精华段落和所述精华段落在所述文本内容中的上下文邻接句子输入第一深度
学习模型, 以得到所述上 下文邻接句子与所述精华段落同属一个 语段的概 率;
若所述概率大于概 率阈值, 则将所述上 下文邻接句子加入所述精华段落。
9.根据权利要求1 ‑7中任意一项所述的方法, 其特征在于, 若所述音频数据为多个, 则
所述音频精华片段包括多个音频 数据各自对应的音频精华片段;
所述方法还 包括:
分别确定每 个所述音频 数据的音频精华片段的精彩度分数;
基于精彩度分数对多个所述音频精华片段进行排序, 得到排序结果;
基于所述 排序结果向用户推荐 音频精华片段。
10.一种电子设备, 其特 征在于, 所述电子设备包括: 存 储器、 处理器;
所述存储器, 用于存 储计算机程序;
所述处理器, 用于从所述存储器调用所述计算机程序执行如权利要求1 ‑9中任一项所
述的方法。
11.一种计算机可读存储介质, 其特征在于, 所述计算机存储介质中存储有计算机程
序, 所述计算机程序包括程序指 令, 当所述程序指 令被处理器执行时, 使得所述处理器执行
如权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114329043 A
3
专利 音频精华片段确定方法、电子设备及计算机可读存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:18:25上传分享