全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111627628.0 (22)申请日 2021.12.28 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 张灵均 包尔权 张桦 吴以凡  苟若芸  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于自监督学习与深度森林的摄影图像美 学风格分类方法 (57)摘要 本发明公开了一种基于自监督学习与深度 森林的摄影图像美学风格分类方法, 首先构建并 训练自监督特征学习模型, 然后构建并训练深度 森林模型, 最后通过训练好的特征提取网络和深 度森林模型完成摄影图像美学风格 分类。 本发明 采用自监督特征学习模型进行预训练, 充分挖掘 美学特征, 有利于深度森 林模型更好寻找多 标签 摄影图像美学风格 分类的最优解。 深度森林模型 在迭代训练过程中充分考虑了多标签之间的关 联信息, 提升多标签摄影图像美学风格 分类的精 度。 权利要求书2页 说明书3页 附图1页 CN 114299336 A 2022.04.08 CN 114299336 A 1.基于自监 督学习与深度森林的摄 影图像美学风格分类方法, 其特 征在于, 步骤如下: 步骤1: 构建并训练自监 督特征学习模型; 所述的自监 督特征学习模型由特 征提取网络与投影网络组成; 步骤1‑1: 建立特 征提取网络; 步骤1‑2: 建立投影网络; 步骤1‑3: 建立自监 督对比学习损失函数; 步骤2: 构建并训练深度森林模型, 具体包括: 步骤2‑1: 数据集采用多标签摄影图像共2000张, 总共有14个摄影美学风格, 每张图像 有大于1个的摄影美学风格标签; 将这2000张图像通过步骤1 中的自监督特征学习模 型得到 的特征向量按照列拼接得到 输入矩阵; 步骤2‑2: 建立深度森林模型层次结构; 步骤2‑3: 建立深度森林模型层与层之间的连接方式; 步骤3: 通过训练好的特 征提取网络和深度森林模型完成摄 影图像美学风格分类。 2.根据权利要求1所述的基于自监督学习与深度森林的摄影图像美学风格分类方法, 其特征在于, 步骤1具体方法如下: 所述的自监 督特征学习模型由特 征提取网络与投影网络组成; 步骤1‑1: 建立特 征提取网络; 数据集采用AVA美学数据集共250000张美学图像, 针对每个输入样本x, 将ResNet50作 为特征提取网络得到表征向量 进行归一化到 超 球面; 步骤1‑2: 建立投影网络; 获得表征向量r后, 通 过投影网络获得向量 投影网络 为一个多层 感知机网络, 包括一个2048维度的隐层和一个DP=128的输出层; 将向量z再次归一化到超 球面; 步骤1‑3: 建立自监 督对比学习损失函数; 若给定容量为N的一批随机采样的数据/标签对{xk,yk}k=1…N, 则对应用于训练的是经过 数据增强(旋转, 平移等)的一批数据容量为2N的数据/标签对 其中 和 是xk分别经过两次不同数据增强生成的, 且标签 在同一批次训练数据中, 任意选取i∈I≡1 …2N索引的数据作 为基准数据, 则j(i)是与 索引i的数据来源于同一个源数据样本进行数据增强得到的另一个数据索引; 自监督对比 学习损失函数公式如下: 其中, 符号·表示内积运算, 表示温度系数, ; j (i)索引的数据作为 正样本, A(i)表示 其余数据的集 合作为负 样本。权 利 要 求 书 1/2 页 2 CN 114299336 A 23.根据权利要求2所述的基于自监督学习与深度森林的摄影图像美学风格分类方法, 其特征在于, 步骤2具体方法如下: 步骤2‑1: 数据集采用AVA美学数据集中的多标签摄影图像共2000张, 总共有14个摄影 美学风格, 每张图像有大于1个的摄影美学风格标签; 将这2000张图像通过步骤1 ‑1中的特 征提取网络得到的对应的20 00个2048特 征向量按照列拼接得到 输入矩阵; 步骤2‑2: 建立深度森林模型层次结构; 将步骤2 ‑1得到的输入矩阵作 为第一层的输入; 深度森林模模 型一共有5层, 每一层由4个随机森林模型 组成, 包括2个普通随机森林模型和 2个完全随机森林模型; 两者的区别在于分支时特征选取的不同, 普通随机森林选取 (n 为样本特征数量)作为候选, 之后再用基尼系数选取最佳的特征进 行分支; 而完全随机森林 从n个特征中随机选取一个进行分支; 给定数据集Xmn, 其中每一行Xi(i=0,…,m‑1)= [x0,…,xn‑1], 对应的标签集合为Yml, 其中每一行为Yi(i=0,…,m‑1)=[y0,…,y1‑1]; 其中m =2000为样 本总数, n=2048为特征总数, k=14为标签总数; 模 型每一层的随机森 林模型会 生成输入样本图像属于某个风格标签的概率值, 如果该概率值大于设定的阈值, 则判断该 图像属于该风格标签, 输出1, 否则判断不属于, 输出0; 步骤2‑3: 建立深度森林模型层与层之间的连接方式; 对每一层模型来说, 遍历全部的4 个随机森林模型, 每个随机森林模型都采用多折交叉训练的方式; 这样每个随机森林模型 会输出一个m行k列的矩阵, 表 示的是每一个图像属于每一个风格标签的概率值; 因此, 每一 层总共输出4个标签的概率矩阵, 按列拼接得到输出矩阵 其中t表示第t层的输出的 结果矩阵, 而m ×4k表示矩阵的规模是m行, 4*k列; 层与层之间的连接方式采用复用机制; 对于第一层的输出, 直接将输出矩阵与最初的 输入矩阵按照列拼接在一起, 作为深度森林模型中下一层的输入; 下一层同样按照第一层 进行训练, 生成 结果矩阵; 此时复用机制生效, 将当前层的训练输出与上一层的训练 输出做运 算, 生成新矩阵 具体运算如下: 根据多标签任务评价指标的不同, 将上一层中性 能表现好的列或者行替换当前层的输 出的对应的列或者行; 当到达最后一层时, 采用最大概率投票法得到最终预测的多标签结 果, 具体表达如下: 权 利 要 求 书 2/2 页 3 CN 114299336 A 3

.PDF文档 专利 基于自监督学习与深度森林的摄影图像美学风格分类方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于自监督学习与深度森林的摄影图像美学风格分类方法 第 1 页 专利 基于自监督学习与深度森林的摄影图像美学风格分类方法 第 2 页 专利 基于自监督学习与深度森林的摄影图像美学风格分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:17:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。