专利 图像处理方法、系统及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111602632.1 (22)申请日 2021.12.24 (71)申请人阿里巴巴（中国）有限公司地址 310052 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人李朝　林超　邹朋成　章嘉伦　胡始昌　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 代理人刘戈　柴艳波 (51)Int.Cl. G06F 3/01(2006.01) G06F 3/04845(2022.01) G06N 20/00(2019.01) G06Q 30/06(2012.01) (54)发明名称图像处理方法、系统及电子设备 (57)摘要本申请实施例提供一种图像处理方法、系统及电子设备。其中，方法包括如下的步骤：响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。采用本申请提供的技术方案，能够实现集商品对应的展示图、商品对应的描述信息(或称为商品卖点)、商品对应的多媒体展示信息为一体化的自动生成方案，这利于帮助用户及时上新商品、并有效帮助用户减低经营成本和维度时间。权利要求书3页说明书22页附图8页 CN 114356084 A 2022.04.15 CN 114356084 A 1.一种图像处理方法，其特征在于，包括：响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。 2.根据权利要求1所述的方法，其特征在于，对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图，包括：获取图像处理模型，其中，所述图像处理模型包括形变网络和合成网络；将所述商品图及所述模特图输入所述形变网络，输出按照所述模特图中模特姿态对所述商品图进行形变后的商品形变图；将所述商品形变图及所述模特图输入所述合成网络，输出模特展示所述商品的展示图。 3.根据权利要求2所述的方法，其特征在于，还包括：利用第一训练集，对所述图像处理模型进行第一阶段训练；确定模特样本图及所述模特样本图中模特展示第一样本商品对应的样本商品图；利用完成第一阶段训练的所述图像处理模型，生成所述模特样本图中模特展示第二样本商品的样本展示图；将所述模特样本图、所述第一样本商品对应的样本商品图及所述样本展示图作为第二训练样本集中的训练样本；利用第二训练集，对所述图像处理模型进行第二阶段训练。 4.根据权利要求1至3中任一项所述的方法，其特征在于，获取反映所述商品特点的描述信息，包括：从所述商品图中提取图像特征；获取所述商品图对应商品的商品信息；基于所述商品信息，确定与所述商品相关的文本特征；融合所述图像特征及文本特征，得到融合信息；根据所述融合信息，确定所述描述信息。 5.根据权利要求4所述的方法，其特征在于，基于所述商品信息，确定与所述商品相关的文本特征，包括：从所述商品信息中提取第一文本特征；从知识图谱中选取与所述商品相关的词条；基于选取出的词条，确定第二文本特征。 6.根据权利要求5所述的方法，其特征在于，融合所述图像特征及文本特征，得到融合信息，包括：利用编码网络模型，分别对所述图像特征、所述第一文本特征及所述第二文本特征进行编码，得到对应的图像特征向量、第一文本特征向量及第二文本特征向量；基于注意力机制融合所述图像特征向量、所述第一文本特征向量和所述第二文本特征向量，得到所述融合信息。 7.根据权利要求1至3中任一项所述的方法，其特征在于，基于所述展示图及所述描述权　利　要　求　书 1/3 页 2 CN 114356084 A 2信息，生成所述商品对应的多媒体展示信息，包括：根据所述描述信息，生成音频；获取预设视频；将所述音频及所述预设视频输入驱动模型，输出所述预设视频中目标对象嘴部按照所述音频做出发音动作、面部按照所述音频做出表情动作的驱动视频；利用所述驱动视频，驱动所述展示图中模特做出相应动作，得到展示动画；基于所述展示动画及所述音频，生成所述商品对应的多媒体展示信息。 8.根据权利要求7所述的方法，其特征在于，利用所述驱动视频，驱动所述展示图中模特做出相应动作得到所述展示动画，包括：对所述驱动视频的图像帧中的运动关键点进行提取；根据提取出的各图像帧的运动关键点信息及图像帧的顺序，确定相邻图像帧间的运动信息；基于相邻图像帧间的运动信息，对所述展示图中模特相应区域的像素点进行形变，得到一帧形变图；按照所述驱动视频中图像帧的顺序，顺序播放多帧形变图，得到所述展示动画。 9.一种图像处理方法，其特征在于，包括：获取用户输入的模特展示商品的展示图像；获取所述展示商品的描述信息；根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频。 10.根据权利要求9所述的方法，其特征在于，根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频，包括：根据所述描述信息，生成音频；按照所述音频，驱动所述展示图像中模特的嘴部及面部动作，生成所述展示视频。 11.一种图像处理方法，其特征在于，包括：响应于用户针对一商品触发的请求，获取商品图；确定模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息，便于用户将所述多媒体展示信息作为展示内容展示在所述商品对应的展示页内。 12.一种图像处理息系统，其特征在于，包括：客户端，用于响应于用户针对一商品触发的请求，向服务端发送相应的请求信息；服务端，用于接收到所述请求信息后，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息；将所述多媒体展示信息发送至客户端；所述客户端，还用于播放所述多媒体展示信息。 13.根据权利要求12所述的系统，其特征在于，所述服务端，还用于训练多个模型；权　利　要　求　书 2/3 页 3 CN 114356084 A 3

专利 图像处理方法、系统及电子设备

专利图像处理方法、系统及电子设备