(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210350590.5
(22)申请日 2022.04.02
(71)申请人 北京广播电视台
地址 100022 北京市朝阳区建国路甲98号
申请人 北京数码视讯软件技 术发展有限公
司
(72)发明人 陈祥 王立冬 金强 李硕 韩强
赵宏伟 张文东 周骋
(74)专利代理 机构 北京国帆知识产权代理事务
所(普通合伙) 11334
专利代理师 刘小哲
(51)Int.Cl.
G06V 10/25(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)G06V 10/764(2022.01)
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种视频感兴趣区域的提取方法和系统
(57)摘要
本发明提供一种视频感兴趣区域的提取方
法。 对原始图像进行下采样, 得到多通道低分辨
率图像(步骤S1)。 利用训练的卷积神经网络, 从
多通道低分辨率图像提取特征, 得到多维初始特
征图(步骤S2)。 利用经过训练的卷积神经网络,
对多维初始特征图进行特征提取和下采样得到
分辨率呈比例缩小第一特征图至第n特征图(步
骤S3)。 将第一特征图至第n特征图的分辨率对齐
后融合, 得到融合特征图(步骤S4)。 利用卷积层
将融合特征图展开成一维向量, 通过全连接层分
类, 得到矩形区域的坐标、 长宽和概率值(步骤
S5)。 将概率值由大到小排序, 选 取规定个数概率
值大的矩形区域作为识别的感兴趣区域ROI(步
骤S6)。
权利要求书2页 说明书11页 附图10页
CN 114782676 A
2022.07.22
CN 114782676 A
1.一种视频感兴趣区域的提取系统, 其特征在于包括, 采样模块(1)、 初始特征提取模
块(2)、 多阶段特征提取 ·下采样模块(3)、 融合特征图生成模块(4)、 检测 模块(5)、 输出模
块(6),
所述采样模块(1), 逐帧输入视频的原始图像, 对所述原始图像进行下采样, 得到低分
辨率多通道图像;
所述初始特征提取模块(2)由卷积神经网络构成, 对输入的低分辨率多通道图像进行
特征提取, 得到多维初始特 征图;
所述多阶段特征提取 ·下采样模块(3), 由多个串联的卷积神经网络构成, 对输入的所
述多维初始特 征图多阶段地 提取特征和下采样, 得到分辨 率逐渐降低的第一至第n特 征图;
所述融合特征图生成模块(4), 对所述第n特征图上采样, 与第n ‑1特征图的分辨率对齐
后与第n‑1特征图做相加操作(31 a), 得到的特征图继续上采样, 与第n ‑2特征图的分辨率对
齐后与第n ‑2特征图做相加操作(31b), 重复对得到的特征图进行上采样和相加操作, 直至
与第一特 征图融合, 得到融合特 征图;
所述检测模块(5), 由卷积神经网络构成, 对输入的所述融合特征图进行分类, 得到矩
形区域的坐标值、 长 宽信息和概 率值;
所述输出模块(6), 将所述矩形区域的概率值由大到小排序, 选取规定个数概率值大的
矩形区域作为感兴趣区域(ROI), 输出其 坐标值、 长 宽信息,
所述神经网络中通过训练, 获取检测感兴趣特 征的权重。
2.根据权利要求1所述的一种视频感兴趣区域的提取系统, 其特征在于, 视频中的人
脸、 台标、 字幕作为感兴趣特 征, 所述神经网络通过训练获取检测人脸、 台标、 字幕的权 重。
3.根据权利要求1或2所述的一种视频感兴趣区域的提取系统, 其特 征在于,
所述输出模块(6)输出的矩形的坐标值、 长宽信息用于对所述视频进行编码时, 确定所
述矩形区域内的编码策略,
所述输出模块(6), 在输出所述矩形区域信息前, 判断所述矩形区域在所述原始图像 中
覆盖的最大编码单元, 有边界落在所述矩形区域外的最大编码单元时, 调整所述矩形区域
的坐标值、 长 宽信息, 使所述矩形区域, 即感兴趣区域(ROI)完整涵盖整个最大编码单 元。
4.根据权利要求1至3中任一项所述的一种视频感兴趣区域的提取系统, 其特征在于,
所述初始特征提取模块(2)的神经网络包括, 串联的第一卷积层(21)、 第一非线性激活层
(22)、 第二卷积层(23), 所述低分辨率多通道图像输入 所述第一卷积层(21)提取特征, 提取
的特征图输入 所述第二卷积层(23)提取特征, 第一卷积层(21)提取的特征图与第二卷积层
(23)提取的特 征图做相加操作(24)得到多维初始特 征图。
5.根据权利要求 4所述的一种视频感兴趣区域的提取系统, 其特 征在于,
所述多阶段特征提取 ·下采样模块(3), 由三个串联的卷积神经网络(31)构成, 对输入
的所述多维初始特征图三阶段地提取特征和下采样, 下采样的倍率为 1/2, 得到 分辨率成整
数倍降低的第一至第三特 征图,
所述融合特征图生成模块(4), 对所述第三特征图上采样, 与第二特征图的分辨率对齐
后与第二特征图做相加操作(31a), 得到的特征图继续上采样, 与第一特征图的分辨率对齐
后与第一特 征图做相加操作(31b), 得到融合特 征图。
6.根据权利要求5所述的一种视频感兴趣区域的提取系统, 其特 征在于,权 利 要 求 书 1/2 页
2
CN 114782676 A
2所述检测模块(5)的卷积神经网络包括卷积层(51)、 全连接层(52), 由所述卷积层(51)
将所述融合特征图展开成一维向量, 所述全连接层(52)对所述一维向量进行分类, 得到疑
似感兴趣区域的坐标值、 长 宽信息和概 率值。
7.一种视频感兴趣区域的提取 方法, 其特 征在于, 包括以下步骤,
采样步骤(S1), 逐帧输入视频的原始图像, 对所述原始图像进行下采样, 得到低分辨率
多通道图像;
初始特征提取步骤(S2)利用卷积神经网络, 对输入的低分辨率多通道图像进行特征提
取, 得到多维初始特 征图;
多阶段特征提取 ·下采样步骤(S3), 利用多个串联的卷积神经网络, 对输入的所述多
维初始特 征图多阶段地 提取特征和下采样, 得到分辨 率逐渐降低的第一至第n特 征图;
融合特征图生成步骤(S4), 对所述第n特征图上采样, 与第n ‑1特征图的分辨率对齐后
与第n‑1特征图做相加操作(31 a), 得到的特征图继续上采样, 与第n ‑2特征图的分辨率对齐
后与第n‑2特征图做相加操作(31b), 重复对得到的特征图进行上采样和相加操作, 直至与
第一特征图融合, 得到融合特 征图;
检测步骤(S5), 利用卷积神经网络构成, 对输入的所述融合特征图进行分类, 得到矩形
区域的坐标值、 长 宽信息和概 率值;
输出步骤(S6), 将所述矩形区域的概率值由大到小排序, 选取规定个数概率值大的矩
形区域作为感兴趣区域(ROI), 输出其 坐标值、 长 宽信息,
所述神经网络中通过训练, 获取检测感兴趣特 征的权重。
8.根据权利要求7所述的一种视频感兴趣区域的提取方法, 其特征在于, 视频中的人
脸、 台标、 字幕作为感兴趣特 征, 所述神经网络通过训练获取检测人脸、 台标、 字幕的权 重。
9.根据权利要求7或8所述的一种视频感兴趣区域的提取 方法, 其特 征在于,
所述输出步骤(S6)输出的矩形的坐标值、 长宽信息用于对所述视频进行编码时, 确定
所述矩形区域内的编码策略,
所述输出步骤(S6), 在输出所述矩形区域信息前, 判断所述矩形区域在所述原始图像
中覆盖的最大编码单元, 有边界落在所述矩形区域外的最大编码单元时, 调整所述矩形区
域的坐标值、 长 宽信息, 使所述矩形区域, 即感兴趣区域(ROI)完整涵盖整个最大编码单 元。权 利 要 求 书 2/2 页
3
CN 114782676 A
3
专利 一种视频感兴趣区域的提取方法和系统
安全报告 >
其他 >
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:35:34上传分享