(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211311830.7
(22)申请日 2022.10.25
(71)申请人 西南科技大 学
地址 621010 四川省绵阳市青龙 大道59号
申请人 四川省标准 化研究院
(72)发明人 张晖 吴青芯 王铮 杨弋 姚晗
高屹嵩 魏兵兵 樊友红 张鹏
张高勋 马新
(74)专利代理 机构 北京众合诚成知识产权代理
有限公司 1 1246
专利代理师 刘妮
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/30(2020.01)
G06F 40/216(2020.01)
(54)发明名称
一种企业多种经 营范围识别方法与系统
(57)摘要
本发明提供一种企业多种经营范围识别方
法与系统, 包括国民经济范围特征库构建和多种
经营范围识别两个部分, 国民经济范围特征库构
建用于将 《国 民经济行业分类》 数据转换为分层
的向量空间, 并计算出所有子类对应于大类的条
件概率, 包含数据合成模块、 数据向量化模块、 条
件概率计算模块三个组成部分; 多种经营范围识
别用于对给条样本数据在数据预处理后计算其
包含于某几类国民经济行业类别四级目录的概
率, 包括数据预处理模块和概率相似度计算模
块。 本发明通过预先计算各个子类在大类中的条
件概率, 能够快速计算样本属于某几类经营范围
的概率, 提高经 营范围识别的速度。
权利要求书3页 说明书7页 附图1页
CN 115455934 A
2022.12.09
CN 115455934 A
1.一种企业多种经营范围识别系统, 其特征在于, 包括国民经济范围特征库构建和多
种经营范围识别两个部 分, 国民经济范围特征库构建用于将 《国民经济行业分类》 数据转换
为分层的向量空间, 并计算出所有子类对应于大类的条件概率, 包含 数据合成模块、 数据向
量化模块、 条件概 率计算模块 三个组成部分;
多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经
济行业类别四级目录的概 率, 包括数据预处 理模块和概 率相似度计算模块。
2.根据权利要求1所述的企业多种经营范围识别系统, 其特征在于, 其中数据合成模块
用于将 《国民经济行业分类》 每一类一级行业分类下 的所有行业经营范围描述数据聚合到
为一个数据集, 合成后共有18个子数据集。
3.根据权利要求1所述的企业多种经营范围识别系统, 其特征在于, 其中数据向量化模
块对聚合后的18个子数据集进 行预处理获得规范的词袋数据, 再将原始数据转换到向量空
间, 所述数据向量化模块通过预训练好的word2vec词嵌入模型将数据转换到向量空间, 具
体来讲是将分好的每一个词获取其对应的矢量, 每 个文档取其包 含词向量的平均值。
4.根据权利要求1所述的企业多种经营范围识别系统, 其特征在于, 其中条件概率计算
模块用于计算四级行业经 营范围描述数据在其所属的一级子数据集中的条件概 率;
条件概率计算公式为:
其中Xi表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子
向量, Xij表示第i个一级行业中第j个四级行业经营范围的文档向量, C为第 i个一级行业中
包含的四级行业数量;
zj=cos(Xi,Xij)
cos(Xi,Xij)表示Xi和Xij的余弦相似度。
5.根据权利要求1所述的企业多种经营范围识别系统, 其特征在于, 其中数据 预处理模
块用于对需要识别所属行业类别的经营范围数据进行去停用 词、 分词的文本预处理工作,
通过预训练好的word2v ec词嵌入模 型将数据转换到向量空间, 将分好的每一个词获取其对
应的矢量, 每一企业经 营范围数据向量取其包 含词向量的平均值。
6.根据权利要求1所述的企业多种经营范围识别系统, 其特征在于, 其中概率相似度计
算模块通过计算一企业经营范围数据在一类行业中所属 概率和四级行业在一级行业中的
条件概率确定样本所属的四级行业经 营范围。
7.一种企业多种经 营范围识别方法, 其特 征在于, 包括如下步骤:
步骤1.将国民经济行业分类数据集中每一行业大类下的四级行业分类经营范围数据
合成为一个子数据集, 形成18个子数据集;
步骤2.将所有子数据集中的数据进行分词、 去停用词的文本预处理后, 只保留对行业
识别有用的名词和动词, 形成18个词袋数据, 通过预训练的word2vec模型将所有词映射到
向量空间;
步骤3.计算每 个四级行业在一级行业中的条件概 率;
步骤4.逐条取出企业经营范围数据库中的数据, 进行分词、 去停用词的预处理, 并将其权 利 要 求 书 1/3 页
2
CN 115455934 A
2通过预训练的w ord2vec模型转换为句子 矢量, 计算 其属于一级行业的概 率。
具体包括:
步骤(1).将取出的企业数据库中的企业经营范围数据进行分句、 分词、 去停用词的预
处理;
步骤(2).通过预训练好的word2vec词嵌入模型将数据 转换到向量空间, 将分好的每一
个词获取其对应的矢量, 每一企业经 营范围数据向量取其包 含词向量的平均值;
步骤(3).利用步骤(2)中计算出的一级行业的词向量, 以及企业经营范围数据计算余
弦相似度, 并使用下列式子计算 其属于一级行业的概 率;
zi=cos(Xi,Y),cos(Xi,Y)表示Xi和Y的余弦相似度, C为 一级行业的数量18;
步骤5.对属于一级行业概率大于阈值的所有一级行业, 通过四级行业在一级行业中的
条件概率计算企业属于四级行业的概 率;
步骤6.对企业属于四级行业概率大于阈值的多个四级行业, 判定为该企业所属的多个
行业。
8.根据权利要求7 所述的企业多种经 营范围识别方法, 其特 征在于, 步骤2具体包括:
步骤(1).对步骤1中形成的18个子数据 集分别利用分句、 分词、 去停用词、 词性标注、 去
重复数据的操作后, 只保留对行业识别有用的名词和动词, 将其存入TXT文件中, 形成18个
词袋数据;
步骤(2).利用维基百科预训练好的word2vec模型将第一步形成的18个词袋数据 中的
所有词映射到向量空间, 形成18个一级行业词向量数据。
9.根据权利要求7所述的企业多种经营范围识别方法, 其特征在于, 步骤3具体包括如
下步骤:
S1.利用word2vec训练出每一级行业下的四级行业词向量, 然后计算出四级行业与该
一级行业词向量的余弦相似度;
S2.利用下列公式计算出四级行业经营范围描述数据在其所属的一级子数据集中的条
件概率:
其中Xi表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子
向量, Xij表示第i个一级行业中第j个四级行业经营范围的文档向量, C为第 i个一级行业中
包含的四级行业数量;
zj=cos(Xi,Xij)
cos(Xi,Xij)表示Xi和Xij的余弦相似度。
10.根据权利要求7 所述的企业多种经 营范围识别方法, 其特 征在于, 步骤5具体包括:
步骤(1).设企业经营范围属于某一一级行业的概率阈值为θ1, 对所有P(Xi>θ1)的行
业, 通过步骤3中计算出 的四级行业在一级行业中的条件概率利用下列公式计算某一企业权 利 要 求 书 2/3 页
3
CN 115455934 A
3
专利 一种企业多种经营范围识别方法与系统
安全报告 >
其他 >
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:36上传分享