专利 一种企业多种经营范围识别方法与系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211311830.7 (22)申请日 2022.10.25 (71)申请人西南科技大学地址 621010 四川省绵阳市青龙大道59号申请人四川省标准化研究院 (72)发明人张晖　吴青芯　王铮　杨弋　姚晗　高屹嵩　魏兵兵　樊友红　张鹏　张高勋　马新　 (74)专利代理机构北京众合诚成知识产权代理有限公司 1 1246 专利代理师刘妮 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) (54)发明名称一种企业多种经营范围识别方法与系统 (57)摘要本发明提供一种企业多种经营范围识别方法与系统，包括国民经济范围特征库构建和多种经营范围识别两个部分，国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间，并计算出所有子类对应于大类的条件概率，包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分；多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率，包括数据预处理模块和概率相似度计算模块。本发明通过预先计算各个子类在大类中的条件概率，能够快速计算样本属于某几类经营范围的概率，提高经营范围识别的速度。权利要求书3页说明书7页附图1页 CN 115455934 A 2022.12.09 CN 115455934 A 1.一种企业多种经营范围识别系统，其特征在于，包括国民经济范围特征库构建和多种经营范围识别两个部分，国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间，并计算出所有子类对应于大类的条件概率，包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分；多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率，包括数据预处理模块和概率相似度计算模块。 2.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中数据合成模块用于将《国民经济行业分类》每一类一级行业分类下的所有行业经营范围描述数据聚合到为一个数据集，合成后共有18个子数据集。 3.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中数据向量化模块对聚合后的18个子数据集进行预处理获得规范的词袋数据，再将原始数据转换到向量空间，所述数据向量化模块通过预训练好的word2vec词嵌入模型将数据转换到向量空间，具体来讲是将分好的每一个词获取其对应的矢量，每个文档取其包含词向量的平均值。 4.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中条件概率计算模块用于计算四级行业经营范围描述数据在其所属的一级子数据集中的条件概率；条件概率计算公式为：其中Xi表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子向量， Xij表示第i个一级行业中第j个四级行业经营范围的文档向量， C为第 i个一级行业中包含的四级行业数量； zj＝cos(Xi,Xij) cos(Xi,Xij)表示Xi和Xij的余弦相似度。 5.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中数据预处理模块用于对需要识别所属行业类别的经营范围数据进行去停用词、分词的文本预处理工作，通过预训练好的word2v ec词嵌入模型将数据转换到向量空间，将分好的每一个词获取其对应的矢量，每一企业经营范围数据向量取其包含词向量的平均值。 6.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中概率相似度计算模块通过计算一企业经营范围数据在一类行业中所属概率和四级行业在一级行业中的条件概率确定样本所属的四级行业经营范围。 7.一种企业多种经营范围识别方法，其特征在于，包括如下步骤：步骤1.将国民经济行业分类数据集中每一行业大类下的四级行业分类经营范围数据合成为一个子数据集，形成18个子数据集；步骤2.将所有子数据集中的数据进行分词、去停用词的文本预处理后，只保留对行业识别有用的名词和动词，形成18个词袋数据，通过预训练的word2vec模型将所有词映射到向量空间；步骤3.计算每个四级行业在一级行业中的条件概率；步骤4.逐条取出企业经营范围数据库中的数据，进行分词、去停用词的预处理，并将其权　利　要　求　书 1/3 页 2 CN 115455934 A 2通过预训练的w ord2vec模型转换为句子矢量，计算其属于一级行业的概率。具体包括：步骤(1).将取出的企业数据库中的企业经营范围数据进行分句、分词、去停用词的预处理；步骤(2).通过预训练好的word2vec词嵌入模型将数据转换到向量空间，将分好的每一个词获取其对应的矢量，每一企业经营范围数据向量取其包含词向量的平均值；步骤(3).利用步骤(2)中计算出的一级行业的词向量，以及企业经营范围数据计算余弦相似度，并使用下列式子计算其属于一级行业的概率； zi＝cos(Xi,Y),cos(Xi,Y)表示Xi和Y的余弦相似度， C为一级行业的数量18；步骤5.对属于一级行业概率大于阈值的所有一级行业，通过四级行业在一级行业中的条件概率计算企业属于四级行业的概率；步骤6.对企业属于四级行业概率大于阈值的多个四级行业，判定为该企业所属的多个行业。 8.根据权利要求7 所述的企业多种经营范围识别方法，其特征在于，步骤2具体包括：步骤(1).对步骤1中形成的18个子数据集分别利用分句、分词、去停用词、词性标注、去重复数据的操作后，只保留对行业识别有用的名词和动词，将其存入TXT文件中，形成18个词袋数据；步骤(2).利用维基百科预训练好的word2vec模型将第一步形成的18个词袋数据中的所有词映射到向量空间，形成18个一级行业词向量数据。 9.根据权利要求7所述的企业多种经营范围识别方法，其特征在于，步骤3具体包括如下步骤： S1.利用word2vec训练出每一级行业下的四级行业词向量，然后计算出四级行业与该一级行业词向量的余弦相似度； S2.利用下列公式计算出四级行业经营范围描述数据在其所属的一级子数据集中的条件概率：其中Xi表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子向量， Xij表示第i个一级行业中第j个四级行业经营范围的文档向量， C为第 i个一级行业中包含的四级行业数量； zj＝cos(Xi,Xij) cos(Xi,Xij)表示Xi和Xij的余弦相似度。 10.根据权利要求7 所述的企业多种经营范围识别方法，其特征在于，步骤5具体包括：步骤(1).设企业经营范围属于某一一级行业的概率阈值为θ1，对所有P(Xi＞θ1)的行业，通过步骤3中计算出的四级行业在一级行业中的条件概率利用下列公式计算某一企业权　利　要　求　书 2/3 页 3 CN 115455934 A 3

专利 一种企业多种经营范围识别方法与系统

专利一种企业多种经营范围识别方法与系统