专利 一种视频感兴趣区域的提取方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210350590.5 (22)申请日 2022.04.02 (71)申请人北京广播电视台地址 100022 北京市朝阳区建国路甲98号申请人北京数码视讯软件技术发展有限公司 (72)发明人陈祥　王立冬　金强　李硕　韩强　赵宏伟　张文东　周骋　 (74)专利代理机构北京国帆知识产权代理事务所(普通合伙) 11334 专利代理师刘小哲 (51)Int.Cl. G06V 10/25(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 20/40(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种视频感兴趣区域的提取方法和系统 (57)摘要本发明提供一种视频感兴趣区域的提取方法。对原始图像进行下采样，得到多通道低分辨率图像(步骤S1)。利用训练的卷积神经网络，从多通道低分辨率图像提取特征，得到多维初始特征图(步骤S2)。利用经过训练的卷积神经网络，对多维初始特征图进行特征提取和下采样得到分辨率呈比例缩小第一特征图至第n特征图(步骤S3)。将第一特征图至第n特征图的分辨率对齐后融合，得到融合特征图(步骤S4)。利用卷积层将融合特征图展开成一维向量，通过全连接层分类，得到矩形区域的坐标、长宽和概率值(步骤 S5)。将概率值由大到小排序，选取规定个数概率值大的矩形区域作为识别的感兴趣区域ROI(步骤S6)。权利要求书2页说明书11页附图10页 CN 114782676 A 2022.07.22 CN 114782676 A 1.一种视频感兴趣区域的提取系统，其特征在于包括，采样模块(1)、初始特征提取模块(2)、多阶段特征提取 ·下采样模块(3)、融合特征图生成模块(4)、检测模块(5)、输出模块(6)，所述采样模块(1)，逐帧输入视频的原始图像，对所述原始图像进行下采样，得到低分辨率多通道图像；所述初始特征提取模块(2)由卷积神经网络构成，对输入的低分辨率多通道图像进行特征提取，得到多维初始特征图；所述多阶段特征提取 ·下采样模块(3)，由多个串联的卷积神经网络构成，对输入的所述多维初始特征图多阶段地提取特征和下采样，得到分辨率逐渐降低的第一至第n特征图；所述融合特征图生成模块(4)，对所述第n特征图上采样，与第n ‑1特征图的分辨率对齐后与第n‑1特征图做相加操作(31 a)，得到的特征图继续上采样，与第n ‑2特征图的分辨率对齐后与第n ‑2特征图做相加操作(31b)，重复对得到的特征图进行上采样和相加操作，直至与第一特征图融合，得到融合特征图；所述检测模块(5)，由卷积神经网络构成，对输入的所述融合特征图进行分类，得到矩形区域的坐标值、长宽信息和概率值；所述输出模块(6)，将所述矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为感兴趣区域(ROI)，输出其坐标值、长宽信息，所述神经网络中通过训练，获取检测感兴趣特征的权重。 2.根据权利要求1所述的一种视频感兴趣区域的提取系统，其特征在于，视频中的人脸、台标、字幕作为感兴趣特征，所述神经网络通过训练获取检测人脸、台标、字幕的权重。 3.根据权利要求1或2所述的一种视频感兴趣区域的提取系统，其特征在于，所述输出模块(6)输出的矩形的坐标值、长宽信息用于对所述视频进行编码时，确定所述矩形区域内的编码策略，所述输出模块(6)，在输出所述矩形区域信息前，判断所述矩形区域在所述原始图像中覆盖的最大编码单元，有边界落在所述矩形区域外的最大编码单元时，调整所述矩形区域的坐标值、长宽信息，使所述矩形区域，即感兴趣区域(ROI)完整涵盖整个最大编码单元。 4.根据权利要求1至3中任一项所述的一种视频感兴趣区域的提取系统，其特征在于，所述初始特征提取模块(2)的神经网络包括，串联的第一卷积层(21)、第一非线性激活层 (22)、第二卷积层(23)，所述低分辨率多通道图像输入所述第一卷积层(21)提取特征，提取的特征图输入所述第二卷积层(23)提取特征，第一卷积层(21)提取的特征图与第二卷积层 (23)提取的特征图做相加操作(24)得到多维初始特征图。 5.根据权利要求 4所述的一种视频感兴趣区域的提取系统，其特征在于，所述多阶段特征提取 ·下采样模块(3)，由三个串联的卷积神经网络(31)构成，对输入的所述多维初始特征图三阶段地提取特征和下采样，下采样的倍率为 1/2，得到分辨率成整数倍降低的第一至第三特征图，所述融合特征图生成模块(4)，对所述第三特征图上采样，与第二特征图的分辨率对齐后与第二特征图做相加操作(31a)，得到的特征图继续上采样，与第一特征图的分辨率对齐后与第一特征图做相加操作(31b)，得到融合特征图。 6.根据权利要求5所述的一种视频感兴趣区域的提取系统，其特征在于，权　利　要　求　书 1/2 页 2 CN 114782676 A 2所述检测模块(5)的卷积神经网络包括卷积层(51)、全连接层(52)，由所述卷积层(51) 将所述融合特征图展开成一维向量，所述全连接层(52)对所述一维向量进行分类，得到疑似感兴趣区域的坐标值、长宽信息和概率值。 7.一种视频感兴趣区域的提取方法，其特征在于，包括以下步骤，采样步骤(S1)，逐帧输入视频的原始图像，对所述原始图像进行下采样，得到低分辨率多通道图像；初始特征提取步骤(S2)利用卷积神经网络，对输入的低分辨率多通道图像进行特征提取，得到多维初始特征图；多阶段特征提取 ·下采样步骤(S3)，利用多个串联的卷积神经网络，对输入的所述多维初始特征图多阶段地提取特征和下采样，得到分辨率逐渐降低的第一至第n特征图；融合特征图生成步骤(S4)，对所述第n特征图上采样，与第n ‑1特征图的分辨率对齐后与第n‑1特征图做相加操作(31 a)，得到的特征图继续上采样，与第n ‑2特征图的分辨率对齐后与第n‑2特征图做相加操作(31b)，重复对得到的特征图进行上采样和相加操作，直至与第一特征图融合，得到融合特征图；检测步骤(S5)，利用卷积神经网络构成，对输入的所述融合特征图进行分类，得到矩形区域的坐标值、长宽信息和概率值；输出步骤(S6)，将所述矩形区域的概率值由大到小排序，选取规定个数概率值大的矩形区域作为感兴趣区域(ROI)，输出其坐标值、长宽信息，所述神经网络中通过训练，获取检测感兴趣特征的权重。 8.根据权利要求7所述的一种视频感兴趣区域的提取方法，其特征在于，视频中的人脸、台标、字幕作为感兴趣特征，所述神经网络通过训练获取检测人脸、台标、字幕的权重。 9.根据权利要求7或8所述的一种视频感兴趣区域的提取方法，其特征在于，所述输出步骤(S6)输出的矩形的坐标值、长宽信息用于对所述视频进行编码时，确定所述矩形区域内的编码策略，所述输出步骤(S6)，在输出所述矩形区域信息前，判断所述矩形区域在所述原始图像中覆盖的最大编码单元，有边界落在所述矩形区域外的最大编码单元时，调整所述矩形区域的坐标值、长宽信息，使所述矩形区域，即感兴趣区域(ROI)完整涵盖整个最大编码单元。权　利　要　求　书 2/2 页 3 CN 114782676 A 3

专利 一种视频感兴趣区域的提取方法和系统

专利一种视频感兴趣区域的提取方法和系统