(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111536048.0
(22)申请日 2021.12.15
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 舒畅 陈又新
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
代理人 廖慧贤
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)G06N 20/00(2019.01)
(54)发明名称
模型的训练方法、 知识分类方法、 装置、 设
备、 介质
(57)摘要
本实施例提供模 型的训练方法、 知识分类方
法、 装置、 设备、 介质, 属于机器学习技术领域。 该
方法包括: 获取原始标注数据; 原始标注数据包
括题干数据、 选项数据和答案数据; 对所述题干
数据进行编码处理, 得到题干表征向量; 根据预
设的知识 图谱对选项数据和答案数据进行编码
处理, 得到选项属性值和答案属性值; 将所述选
项属性值和所述答案属性值进行分词和拼接处
理, 得到选项答案表征向量; 将所述题干表征向
量和所述选项答案表征向量进行向量拼接, 得到
题目数据; 根据所述题目数据对 预设的预训练模
型进行训练, 得到知识分类模型, 该知识分类模
型用于对目标题目进行知识分类, 本公开实施例
得到的知识分类模型可以提高对知识分类的准
确性和效率。
权利要求书2页 说明书16页 附图4页
CN 114238571 A
2022.03.25
CN 114238571 A
1.一种知识分类模型的训练方法, 其特 征在于, 包括:
获取原始标注数据; 其中, 所述原 始标注数据包括题干数据、 选项数据和答案数据;
对所述题干数据进行编码处 理, 得到题干表征向量;
根据预设的知识图谱对选项数据和答案数据进行编码处理, 得到选项属性值和答案属
性值;
将所述选项属性 值和所述 答案属性 值进行分词和拼接处 理, 得到选项答案表征向量;
将所述题干表征向量和所述选项答案表征向量进行向量 拼接, 得到题目数据;
根据所述题目数据对预设的预训练模型进行训练, 得到知识分类模型; 其中, 所述知识
分类模型用于对目标题目进行知识分类处 理, 以得到知识点类型。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述题干数据进行编码处理, 得到
题干表征向量, 包括:
对所述题干数据进行预处理, 将所述题干数据的英文内容转为小写, 得到初步题干序
列;
对所述初步题干序列进行分词处 理, 得到题干表征向量。
3.根据权利要求1所述的方法, 其特征在于, 在所述根据 预设的知识图谱对选项数据和
答案数据进 行编码处理, 得到选项属性值和答案属性值之前, 所述方法还包括: 构建所述知
识图谱, 具体包括:
获取预设知识点;
根据所述预设知识点构建第一 三元组和第二 三元组;
根据所述第一三元组和所述第二三元组构建所述知识图谱; 其中, 所述第一三元组包
括第一知识实体、 关系 、 第二知识实体, 所述第二 三元组包括第二知识实体、 属性、 属性 值。
4.根据权利要求3所述的方法, 其特征在于, 所述知识图谱包括第 一三元组和多个第 二
三元组, 根据预设的知识图谱对选项数据和答案数据进行编码处理, 得到选项属 性值和答
案属性值, 包括:
根据所述第 一三元组和多个所述第 二三元组对所述选项数据进行编码处理, 得到所述
选项属性 值; 其中, 所述选项属性 值包括多个第二 三元组的属性 值;
根据所述第 一三元组和其中一个第 二三元组对所述答案数据进行编码处理, 得到所述
答案属性值; 其中, 所述答案属性值是所述选项属 性值中的多个属 性值中的其中一个属 性
值。
5.根据权利要求1至4任一项所述的方法, 其特征在于, 所述将所述选项属性值和所述
答案属性 值进行分词和拼接处 理, 得到选项答案表征向量, 包括:
将所述选项属性值和所述答案属性值进行词向量化, 得到词向量化的项属性值和答案
属性值;
将词向量 化的项属性 值和答案属性 值进行属性 值拼接, 得到 选项答案表征向量。
6.根据权利要求1至4任一项所述的方法, 其特征在于, 所述将所述题干表征向量和所
述选项答案表征向量进行向量 拼接, 得到题目数据, 包括:
通过分隔符将所述题干表征向量和所述选项答案表征向量进行向量拼接, 得到题目数
据; 其中, 分隔符包括第一占位符和 第二占位符, 通过分隔符将所述题干表征向量和所述选
项答案表征向量进行向量 拼接, 得到题目数据, 具体包括:权 利 要 求 书 1/2 页
2
CN 114238571 A
2将题干表征向量设在第 一占位符与第 二占位符之间、 第 二占位符设在题干表征向量和
选项答案表征向量之间, 对题干表征向量和选项答案表征向量进行向量拼接, 得到所述题
目数据。
7.一种选择题的知识分类方法, 其特 征在于, 包括:
获取待分类的选择题数据; 其中, 所述选择题数据包括题干数据、 选项数据和答案数
据;
将所述选择题数据输入至知识分类模型; 其中, 所述知识分类模型为根据权利要求1至
6任一项所述的方法训练得到;
通过所述知识分类模型对所述选择题数据行 特征提取, 得到特 征向量信息;
根据所述特 征向量信息进行知识分类处 理, 得到知识点类型。
8.一种知识分类模型的训练装置, 其特 征在于, 包括:
原始数据获取模块, 用于获取原始标注数据; 原始标注数据包括题干数据、 选项数据和
答案数据;
题干编码模块, 用于对所述题干数据进行编码处 理, 得到题干表征向量;
选项答案编码模块, 用于根据预设的知识图谱对选项数据和答案数据进行编码处理,
得到选项属性 值和答案属性 值;
分词和拼接模块, 用于将所述选项属性值和所述答案属性值进行分词和拼接处理, 得
到选项答案表征向量;
向量拼接模块, 用于将所述题干表征向量和所述选项答案表征向量进行向量拼接, 得
到题目数据;
分类模型训练模块, 用于根据所述题目数据对预设的预训练模型进行训练, 得到知识
分类模型; 其中, 所述知识分类模型用于对目标题目进行知识分类处理, 以得到知识点类
型。
9.一种计算机设备, 其特 征在于, 包括:
至少一个存 储器;
至少一个处 理器;
至少一个程序;
所述程序被存 储在所述存 储器中, 处 理器执行所述至少一个程序以实现:
如权利要求1至7任一项所述的方法。
10.一种存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可
读存储介质存 储有计算机可 执行指令, 所述计算机可 执行指令用于使计算机执 行:
如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114238571 A
3
专利 模型的训练方法、知识分类方法、装置、设备、介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:17:48上传分享