(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211286164.6
(22)申请日 2022.10.20
(71)申请人 阿里巴巴 (中国) 有限公司
地址 311121 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 张庆林 陈谦 王雯 邓憧
(74)专利代理 机构 北京合智同创知识产权代理
有限公司 1 1545
专利代理师 李杰 兰淑铎
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
模型数据处理及 模型预训练方法、 电子设备
及存储介质
(57)摘要
本申请实施例提供了一种模型数据处理及
模型预训练方法、 电子设备及存储介质, 其中, 模
型数据处理方法包括: 对待处理的文本数据进行
分句处理, 获得对应的多个文本分句; 针对每个
文本分句, 进行分词处理, 获得每个文本分句对
应的多个分词; 根据每个文本分句及其分词对应
的词向量, 进行词袋聚合, 获得每个文本分句对
应的句向量; 对每个句向量进行编码, 获得每个
文本分句对应的句编码向量; 根据所述句编码向
量, 进行任务处理。 通过本申请实施例, 大幅提升
了基于预训练语 言模型进行下游任务迁移后, 下
游任务的执 行效率和表现效果。
权利要求书2页 说明书12页 附图6页
CN 115358213 A
2022.11.18
CN 115358213 A
1.一种模型 数据处理方法, 包括:
对待处理的文本数据进行分句处 理, 获得对应的多个文本分句;
针对每个文本分句, 进行分词处 理, 获得每 个文本分句对应的多个分词;
根据每个文本分句及其分词对应的词向量, 进行词袋聚合, 获得每个文本分句对应的
句向量;
对每个句向量进行编码, 获得每 个文本分句对应的句编码向量;
根据所述句编码向量, 进行任务处 理。
2.根据权利要求1所述的方法, 其中, 所述根据每个文本分句及其分词对应的词向量,
进行词袋聚合, 获得每 个文本分句对应的句向量, 包括:
以每个文本分句为单位, 对该文本分句中的分词对应的词向量进行池化聚合操作;
根据池化聚合操作结果, 获得每 个文本分句对应的句向量。
3.根据权利要求2所述的方法, 其中, 所述池化聚合操作包括以下之一: 平均池化操作、
最大池化操作、 加权求和池化操作。
4.根据权利要求1 ‑3任一项所述的方法, 其中, 所述对待处理的文本数据进行分句处
理, 获得对应的多个文本分句, 包括:
按照预设的分句识别规则, 对待处 理的文本数据进行分句识别;
根据分句识别结果, 获得对应的多个文本分句。
5.根据权利要求4所述的方法, 其中, 所述按照预设的分句识别规则, 对待处理的文本
数据进行分句识别, 包括:
按照预设的分句符号, 对待处 理的文本数据进行分句识别;
或者,
对待处理 的文本数据进行语义分析, 根据分析结果对所述待处理 的文本数据进行分句
识别;
或者,
根据待处理的文本数据对应的多个用户标识, 对所述待处理的文本数据进行分句识
别。
6.一种模型 预训练方法, 包括:
将文本样本数据输入预训练语言模型;
通过所述预训练语言模型对所述文本样本数据进行分句处理, 获得对应的多个文本样
本分句; 针对每个文本样本分句, 进行分词处理, 获得每个文本样本分句对应的多个分词;
根据每个文本样本分句及其分词对应的词向量, 进行词袋聚合, 获得每个文本样本分句对
应的句向量; 对每 个句向量进行编码, 获得每 个文本样本分句对应的句编码向量;
根据所述句编码向量, 执行预设的预训练任务, 根据任务执行结果对所述预训练语言
模型进行训练。
7.根据权利要求6所述的方法, 其中, 所述根据每个文本样本分句及其分词对应的词向
量, 进行词袋聚合, 包括:
在获得每个文本样本分句及其分词对应的词向量之后, 对多个文本样本分句中的至少
部分样本分句中的分词向量进行掩码处 理, 和/或, 调整所述多个文本样本分句的顺序;
对进行了掩码处 理和/或顺序调整后的多个文本样本分句进行词袋聚合。权 利 要 求 书 1/2 页
2
CN 115358213 A
28.根据权利要求7所述的方法, 其中, 所述根据所述句编码向量, 执行预设的预训练任
务, 包括:
根据所述句编码向量, 进行文本预测处 理;
基于文本预测处 理结果, 同时执 行预设的至少两项兼容 性预训练任务。
9.根据权利要求8所述的方法, 其中, 所述基于文本预测 处理结果, 同时执行预设的至
少两项兼容 性预训练任务, 包括:
基于文本预测处理结果, 执行判断预测出的文本分句中是否存在字词异常的预训练任
务, 以及, 执 行判断预测出的多个文本分句之间的排列顺序是否正确的预训练任务。
10.根据权利要求6 ‑9任一项所述的方法, 其中, 所述预训练语言模型包括: 分句部分、
分词部分、 词向量映射部分、 词袋聚合部分、 词袋编码器部分和输出层任务学习部分;
其中,
所述分句部分, 用于对所述文本样本数据进行分句处理, 获得对应的多个文本样本分
句;
所述分词部分, 用于针对每个文本样本分句, 进行分词处理, 获得每个文本样本分句对
应的多个分词;
所述词向量映射部分, 用于对每个文本样本分句中的分词进行词向量映射, 获得每个
文本样本分句中的分词对应的词向量;
所述词袋聚合部分, 用于根据每个文本样本分句及其分词对应的词向量, 进行词袋聚
合, 获得每 个文本样本分句对应的句向量;
所述词袋编码器部分, 用于对每个句向量进行编码, 获得每个文本样本分句对应的句
编码向量;
所述输出层任务学习部分, 用于根据所述句编码向量, 执行预设的预训练任务, 并反馈
任务执行结果, 以使所述预训练语言模型根据所述任务执 行结果进行训练。
11.根据权利要求10所述的方法, 其中, 所述词袋聚合部分, 用于以每个文本样本分句
为单位, 对该文本样本分句中的分词对应的词向量进行池化聚合操作; 根据池化聚合操作
结果, 获得每 个文本样本分句对应的句向量。
12.根据权利要求11所述的方法, 其中, 所述池化聚合操作包括以下之一: 平均池化操
作、 最大池化操作、 加权求和池化操作。
13.一种电子设备, 包括: 处理器、 存储器、 通信 接口和通信总线, 所述处理器、 所述存储
器和所述 通信接口通过 所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令, 所述可执行指令使所述处理器执行如权利要
求1‑12中任一项所述的方法对应的操作。
14.一种计算机存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如权利
要求1‑12中任一所述的方法。权 利 要 求 书 2/2 页
3
CN 115358213 A
3
专利 模型数据处理及模型预训练方法、电子设备及存储介质
安全报告 >
其他 >
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:37上传分享