(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210350590.5 (22)申请日 2022.04.02 (71)申请人 北京广播电视台 地址 100022 北京市朝阳区建国路甲98号 申请人 北京数码视讯软件技 术发展有限公 司 (72)发明人 陈祥 王立冬 金强 李硕 韩强  赵宏伟 张文东 周骋  (74)专利代理 机构 北京国帆知识产权代理事务 所(普通合伙) 11334 专利代理师 刘小哲 (51)Int.Cl. G06V 10/25(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 20/40(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 一种视频感兴趣区域的提取方法和系统 (57)摘要 本发明提供一种视频感兴趣区域的提取方 法。 对原始图像进行下采样, 得到多通道低分辨 率图像(步骤S1)。 利用训练的卷积神经网络, 从 多通道低分辨率图像提取特征, 得到多维初始特 征图(步骤S2)。 利用经过训练的卷积神经网络, 对多维初始特征图进行特征提取和下采样得到 分辨率呈比例缩小第一特征图至第n特征图(步 骤S3)。 将第一特征图至第n特征图的分辨率对齐 后融合, 得到融合特征图(步骤S4)。 利用卷积层 将融合特征图展开成一维向量, 通过全连接层分 类, 得到矩形区域的坐标、 长宽和概率值(步骤 S5)。 将概率值由大到小排序, 选 取规定个数概率 值大的矩形区域作为识别的感兴趣区域ROI(步 骤S6)。 权利要求书2页 说明书11页 附图10页 CN 114782676 A 2022.07.22 CN 114782676 A 1.一种视频感兴趣区域的提取系统, 其特征在于包括, 采样模块(1)、 初始特征提取模 块(2)、 多阶段特征提取 ·下采样模块(3)、 融合特征图生成模块(4)、 检测 模块(5)、 输出模 块(6), 所述采样模块(1), 逐帧输入视频的原始图像, 对所述原始图像进行下采样, 得到低分 辨率多通道图像; 所述初始特征提取模块(2)由卷积神经网络构成, 对输入的低分辨率多通道图像进行 特征提取, 得到多维初始特 征图; 所述多阶段特征提取 ·下采样模块(3), 由多个串联的卷积神经网络构成, 对输入的所 述多维初始特 征图多阶段地 提取特征和下采样, 得到分辨 率逐渐降低的第一至第n特 征图; 所述融合特征图生成模块(4), 对所述第n特征图上采样, 与第n ‑1特征图的分辨率对齐 后与第n‑1特征图做相加操作(31 a), 得到的特征图继续上采样, 与第n ‑2特征图的分辨率对 齐后与第n ‑2特征图做相加操作(31b), 重复对得到的特征图进行上采样和相加操作, 直至 与第一特 征图融合, 得到融合特 征图; 所述检测模块(5), 由卷积神经网络构成, 对输入的所述融合特征图进行分类, 得到矩 形区域的坐标值、 长 宽信息和概 率值; 所述输出模块(6), 将所述矩形区域的概率值由大到小排序, 选取规定个数概率值大的 矩形区域作为感兴趣区域(ROI), 输出其 坐标值、 长 宽信息, 所述神经网络中通过训练, 获取检测感兴趣特 征的权重。 2.根据权利要求1所述的一种视频感兴趣区域的提取系统, 其特征在于, 视频中的人 脸、 台标、 字幕作为感兴趣特 征, 所述神经网络通过训练获取检测人脸、 台标、 字幕的权 重。 3.根据权利要求1或2所述的一种视频感兴趣区域的提取系统, 其特 征在于, 所述输出模块(6)输出的矩形的坐标值、 长宽信息用于对所述视频进行编码时, 确定所 述矩形区域内的编码策略, 所述输出模块(6), 在输出所述矩形区域信息前, 判断所述矩形区域在所述原始图像 中 覆盖的最大编码单元, 有边界落在所述矩形区域外的最大编码单元时, 调整所述矩形区域 的坐标值、 长 宽信息, 使所述矩形区域, 即感兴趣区域(ROI)完整涵盖整个最大编码单 元。 4.根据权利要求1至3中任一项所述的一种视频感兴趣区域的提取系统, 其特征在于, 所述初始特征提取模块(2)的神经网络包括, 串联的第一卷积层(21)、 第一非线性激活层 (22)、 第二卷积层(23), 所述低分辨率多通道图像输入 所述第一卷积层(21)提取特征, 提取 的特征图输入 所述第二卷积层(23)提取特征, 第一卷积层(21)提取的特征图与第二卷积层 (23)提取的特 征图做相加操作(24)得到多维初始特 征图。 5.根据权利要求 4所述的一种视频感兴趣区域的提取系统, 其特 征在于, 所述多阶段特征提取 ·下采样模块(3), 由三个串联的卷积神经网络(31)构成, 对输入 的所述多维初始特征图三阶段地提取特征和下采样, 下采样的倍率为 1/2, 得到 分辨率成整 数倍降低的第一至第三特 征图, 所述融合特征图生成模块(4), 对所述第三特征图上采样, 与第二特征图的分辨率对齐 后与第二特征图做相加操作(31a), 得到的特征图继续上采样, 与第一特征图的分辨率对齐 后与第一特 征图做相加操作(31b), 得到融合特 征图。 6.根据权利要求5所述的一种视频感兴趣区域的提取系统, 其特 征在于,权 利 要 求 书 1/2 页 2 CN 114782676 A 2所述检测模块(5)的卷积神经网络包括卷积层(51)、 全连接层(52), 由所述卷积层(51) 将所述融合特征图展开成一维向量, 所述全连接层(52)对所述一维向量进行分类, 得到疑 似感兴趣区域的坐标值、 长 宽信息和概 率值。 7.一种视频感兴趣区域的提取 方法, 其特 征在于, 包括以下步骤, 采样步骤(S1), 逐帧输入视频的原始图像, 对所述原始图像进行下采样, 得到低分辨率 多通道图像; 初始特征提取步骤(S2)利用卷积神经网络, 对输入的低分辨率多通道图像进行特征提 取, 得到多维初始特 征图; 多阶段特征提取 ·下采样步骤(S3), 利用多个串联的卷积神经网络, 对输入的所述多 维初始特 征图多阶段地 提取特征和下采样, 得到分辨 率逐渐降低的第一至第n特 征图; 融合特征图生成步骤(S4), 对所述第n特征图上采样, 与第n ‑1特征图的分辨率对齐后 与第n‑1特征图做相加操作(31 a), 得到的特征图继续上采样, 与第n ‑2特征图的分辨率对齐 后与第n‑2特征图做相加操作(31b), 重复对得到的特征图进行上采样和相加操作, 直至与 第一特征图融合, 得到融合特 征图; 检测步骤(S5), 利用卷积神经网络构成, 对输入的所述融合特征图进行分类, 得到矩形 区域的坐标值、 长 宽信息和概 率值; 输出步骤(S6), 将所述矩形区域的概率值由大到小排序, 选取规定个数概率值大的矩 形区域作为感兴趣区域(ROI), 输出其 坐标值、 长 宽信息, 所述神经网络中通过训练, 获取检测感兴趣特 征的权重。 8.根据权利要求7所述的一种视频感兴趣区域的提取方法, 其特征在于, 视频中的人 脸、 台标、 字幕作为感兴趣特 征, 所述神经网络通过训练获取检测人脸、 台标、 字幕的权 重。 9.根据权利要求7或8所述的一种视频感兴趣区域的提取 方法, 其特 征在于, 所述输出步骤(S6)输出的矩形的坐标值、 长宽信息用于对所述视频进行编码时, 确定 所述矩形区域内的编码策略, 所述输出步骤(S6), 在输出所述矩形区域信息前, 判断所述矩形区域在所述原始图像 中覆盖的最大编码单元, 有边界落在所述矩形区域外的最大编码单元时, 调整所述矩形区 域的坐标值、 长 宽信息, 使所述矩形区域, 即感兴趣区域(ROI)完整涵盖整个最大编码单 元。权 利 要 求 书 2/2 页 3 CN 114782676 A 3

.PDF文档 专利 一种视频感兴趣区域的提取方法和系统

安全报告 > 其他 > 文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频感兴趣区域的提取方法和系统 第 1 页 专利 一种视频感兴趣区域的提取方法和系统 第 2 页 专利 一种视频感兴趣区域的提取方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 07:35:34上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。