专利 一种基于自然语言处理的算力网络5G数据解析系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211321858.9 (22)申请日 2022.10.27 (71)申请人浪潮通信信息系统有限公司地址 250000 山东省济南市高新区浪潮路 1036号浪潮科技园S0 6号楼 (72)发明人楚阿芳　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师阚恭勇 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于自然语言处理的算力网络5G数据解析系统及方法 (57)摘要本发明提供一种基于自然语言处理的算力网络5G数据解析系统及方法，属于算网运营5G大数据解析技术领域，本发明利用机器学习在大数据自然语言处理及语义分析领域的方法，自动遍历、标注、分析、检索、提取用户所需的文本、图片、音频、视频等各类关键数据信息，完成算力网络5G数据自适应解析，简化了5G业务自动化开通效率以及生命周期的自配置和自管理流程，提高了算网5G数据应用的安全性、可扩展性、灵活性和智能性，构建完整的算力网络5G数据解析的自然语言处理语料库。权利要求书2页说明书6页附图2页 CN 115374765 A 2022.11.22 CN 115374765 A 1.一种基于自然语言处理的算力网络 5G数据解析系统，其特征在于，包括机器学习智能标注模块、关键词分类提取模块、图音数据识别模块、视频数据处置模块、知识图谱查询模块；智能标注应用模块，通过系统平台自动遍历算力网络上5G数据内容，标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引，并对算力网络上不同类型的 5G数据进行自动解析；关键词提取模块，首先对算力网络上5G文本数据进行词根化处理英文或分词处理中文，然后根据停用词表去除数据中的停用词，进而转化为词语集合，并按照词语的频率高度排序，提取高频词，建立词共现图，并将共现图分割成数个连通片即构成簇，每个簇对应着一个主题，而不同簇间存在连接词Link，该词具有词频相对低但又连接不同簇的重要功能，并用该词刻画不同主题间的连接特征；图音数据识别模块，首先对5G图像和音频数据应用自然语言处理中的马尔可夫链算法，实现自动提取特征信息，而后将图音数据关联主题建立混合高斯模型，并以训练数据集为依据，对关联主题混合高斯模型进行模型训练，并对其参数进行学习，并对多标记的音频标注词进行检测，利用广义的期望最大化算法及权值矩阵所隐含的邻居信息，随着迭代次数的增加，基于前述模型，用户可在图音标注词识别检测中能呈现更好的检测性能；视频数据处置模块，针对5G数据图像的视觉特征和描述摄像机运动、物体运动轨迹、时空关联的底层特征进行特征识别，基于其内容上存在的时空关联和逻辑结构的结构信息，以及视频本身所包含语义信息的语义特征；知识图谱查询模块，利用知识图谱的知识搜索接受用户以自然语言的问句输入，将非结构化的自然语言问句映射到结构化的知识图谱查询语句，并将最终的查询语句应用到知识库上，获取到最终的答案。 2.根据权利要求1所述的系统，其特征在于，关键词提取模块，后续利用主题贡献程度计算公式实现词共现图的转换，平台按照每次词语信息量大小智能排序，选取排序前n个词为文本数据关键词，从而用户实现算力网络 5G数据本地记忆及文档主题词的信息抽取。 3.根据权利要求1所述的系统，其特征在于，视频数据处置模块，该模块对镜头间的时间标注词和镜头内的空间标注词进行关联分析；后续利用数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架，从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限。 4.根据权利要求1所述的系统，其特征在于，知识图谱查询模块，还应用语义分析，即利用句子结构的图形表示——语法树，它代表了数据推导结果，并应用语义三元组抽取，将满足子树的所有5 G数据词语组成的短语，抽取成一个关系短语，通过指代消解，最终将一个语义三元组集合进行合并，得到一个结构化的查询子图。 5.一种基于自然语言处理的算力网络 5G数据解析方法，其特征在于，标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引，并对算力网络上不同类型的5G数据进行自动解析；权　利　要　求　书 1/2 页 2 CN 115374765 A 21)通过系统平台自动遍历算力网络上5G数据内容，标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引，并对算力网络上不同类型的5 G数据进行自动解析； 2)对算力网络上5G文本数据进行词根化处理英文或分词处理中文，然后根据停用词表去除数据中的停用词，进而转化为词语集合，并按照词语的频率高度排序，提取高频词，建立词共现图，并将共现图分割成数个连通片即构成簇，每个簇对应着一个主题，而不同簇间存在连接词 Link，该词具有词频相对低但又连接不同簇的重要功能，并用该词刻画不同主题间的连接特征； 3)对5G图像和音频数据应用自然语言处理中的马尔可夫链算法，实现自动提取特征信息，而后将图音数据关联主题建立混合高斯模型，并以训练数据集为依据，对关联主题混合高斯模型进行模型训练，并对其参数进行学习，并对多标记的音频标注词进行检测，利用广义的期望最大化算法及权值矩阵所隐含的邻居信息，随着迭代次数的增加，基于前述模型，用户可在图音标注词识别检测中能呈现更好的检测性能； 4)针对5G数据图像的视觉特征和描述摄像机运动、物体运动轨迹、时空关联的底层特征进行特征识别，基于其内容上存在的时空关联和逻辑结构的结构信息，以及视频本身所包含语义信息的语义特征； 5)利用知识图谱的知识搜索接受用户以自然语言的问句输入，将非结构化的自然语言问句映射到结构化的知识图谱查询语句，并将最终的查询语句应用到知识库上，获取到最终的精准答案。 6.根据权利要求5所述的方法，其特征在于，关键词提取时，利用主题贡献程度计算公式实现词共现图的转换，平台按照每次词语信息量大小智能排序，选取排序前n个词为文本数据关键词，从而用户实现算力网络5 G数据本地记忆及文档主题词的信息抽取。 7.根据权利要求5所述的方法，其特征在于，视频数据处置时对镜头间的时间标注词和镜头内的空间标注词进行关联分析；后续利用数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架，从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限。 8.根据权利要求5所述的方法，其特征在于，知识图谱查询时还应用语义分析，即利用句子结构的图形表示——语法树，它代表了数据推导结果，并应用语义三元组抽取，将满足子树的所有5 G数据词语组成的短语，抽取成一个关系短语，通过指代消解，最终将一个语义三元组集合进行合并，得到一个结构化的查询子图。权　利　要　求　书 2/2 页 3 CN 115374765 A 3

专利 一种基于自然语言处理的算力网络5G数据解析系统及方法

专利一种基于自然语言处理的算力网络5G数据解析系统及方法