(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211321858.9
(22)申请日 2022.10.27
(71)申请人 浪潮通信 信息系统有限公司
地址 250000 山东省济南市高新区浪潮路
1036号浪潮科技园S0 6号楼
(72)发明人 楚阿芳
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 阚恭勇
(51)Int.Cl.
G06F 40/205(2020.01)
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于自然语言处理的算力网络5G数据
解析系统及方法
(57)摘要
本发明提供一种基于自然语言处理的算力
网络5G数据解析系统及方法, 属于算网运营5G大
数据解析技术领域, 本发明利用机器学习在大数
据自然语言处理及语义分析领域的方法, 自动遍
历、 标注、 分析、 检索、 提取用户所需的文本、 图
片、 音频、 视频等各类 关键数据信息, 完成算力网
络5G数据自适应解析, 简化了5G业务自动化开通
效率以及生命周期的自配置和自管理流程, 提高
了算网5G数据应用的安全性、 可扩展性、 灵活性
和智能性, 构建完整的算力网络5G数据解析的自
然语言处 理语料库。
权利要求书2页 说明书6页 附图2页
CN 115374765 A
2022.11.22
CN 115374765 A
1.一种基于自然语言处 理的算力网络 5G数据解析系统, 其特 征在于,
包括机器学习智能标注模块、 关键词分类提取模块、 图音数据识别 模块、 视频数据处置
模块、 知识图谱查询模块;
智能标注应用模块, 通过系统平台自动遍历算力网络上5G数据内容, 标注通过实现从
低层特征到高层语义的映射来对结构单元建立语义信息索引, 并对算力网络上不同类型的
5G数据进行自动解析;
关键词提取模块, 首先对算力网络上5G文本数据进行词根化处理英文或分词处理中
文, 然后根据停用词表去除数据中的停用词, 进而转化为词语集合, 并按照词语的频率高度
排序, 提取高频词, 建立词共现图, 并将共现图分割成数个连通片即构成簇, 每个簇对应着
一个主题, 而不同簇间存在连接词Link, 该词具有词频相对低但又连接不同簇的重要功能,
并用该词刻画不同主题间的连接特 征;
图音数据识别模块, 首先对5G图像和音频数据应用自然语言处理中的马尔可夫链算
法, 实现自动提取特征信息, 而后 将图音数据关联主题建立混合高斯模型, 并以训练数据集
为依据, 对关联主题混合高斯模 型进行模型训练, 并对其参数进 行学习, 并对多标记的音频
标注词进行检测, 利用广义的期望最大化算法及权值矩阵所隐含的邻居信息, 随着迭代 次
数的增加, 基于前述模型, 用户可在图音标注词识别检测中能呈现更好的检测性能;
视频数据处置模块, 针对5G数据图像的视觉特征和描述摄像机运动、 物体运动轨迹、 时
空关联的底层特征进行特征识别, 基于其内容上存在的时空关联和逻辑结构的结构信息,
以及视频本身所包 含语义信息的语义特 征;
知识图谱查询模块, 利用 知识图谱的知识搜索接受用户以自然语言的问句输入, 将非
结构化的自然语言问句映射到结构化的知识图谱查询语句, 并将最 终的查询语句应用到知
识库上, 获取到最终的答案 。
2.根据权利要求1所述的系统, 其特 征在于,
关键词提取模块, 后续利用主题贡献程度计算公式实现词共现图的转换, 平台按照每
次词语信息量大小智能排序, 选取排序前n个词为文本数据关键词, 从而用户实现算力网络
5G数据本地记 忆及文档主题词的信息抽取。
3.根据权利要求1所述的系统, 其特 征在于,
视频数据处置模块, 该模块对镜头间的时间标注词和镜头内的空间标注词 进行关联分
析;
后续利用数据的时、 空两视角标注词关联估计算法以及基于标注词关联估计的视频标
注优化框架, 从而挖掘出 更合理的标注词关联描述 来弥补这种通用标注词关联的局限。
4.根据权利要求1所述的系统, 其特 征在于,
知识图谱查询模块, 还应用语义分析, 即利用句子结构的图形表示——语法树, 它代表
了数据推导结果, 并应用语义三元 组抽取, 将满足子树的所有5 G数据词语组成的短语, 抽取
成一个关系短语, 通过指代消解, 最 终将一个语义三元组集合进 行合并, 得到一个结构化的
查询子图。
5.一种基于自然语言处 理的算力网络 5G数据解析 方法, 其特 征在于,
标注通过实现从低层特征到 高层语义的映射来对结构单元建立语义信 息索引, 并对算
力网络上不同类型的5G数据进行自动解析;权 利 要 求 书 1/2 页
2
CN 115374765 A
21)通过系统平台自动遍历算力网络上5G数据内容, 标注通过实现从低层特征到高层语
义的映射来对结构单元建立语义信息索引, 并对算力网络上不同类型的5 G数据进行自动解
析;
2)对算力网络上5G文本数据进行词根化处理英文或分词处理中文, 然后根据停用词 表
去除数据中的停用词, 进而转化为词语集合, 并按照词语的频率高度排序, 提取高频词, 建
立词共现图, 并将共现图分割成数个连通片即构成簇, 每个簇对应着一个主题, 而不同簇间
存在连接词 Link, 该词具有词频相对低但又连接不同簇的重要功能, 并用该词刻画不同主
题间的连接特 征;
3)对5G图像和音频数据应用自然语言处理中的马尔可夫链算法, 实现自动提取特征信
息, 而后将图音数据关联主题建立混合高斯模型, 并以训练数据集为依据, 对关联主题混合
高斯模型进 行模型训练, 并对其参数进 行学习, 并对多标记的音 频标注词进行检测, 利用广
义的期望最大化算法及权值矩阵所隐含的邻居信息, 随着迭代次数的增加, 基于前述模型,
用户可在图音标注词识别检测中能呈现更好的检测性能;
4)针对5G数据图像的视觉特征和描述摄像机运动、 物体运动轨迹、 时空关联的底层特
征进行特征识别, 基于其内容上存在的时空关联和逻辑结构的结构信息, 以及视频本身所
包含语义信息的语义特 征;
5)利用知识图谱的知识搜索接受用户以自然语言的问句输入, 将 非结构化的自然语言
问句映射到结构化的知识图谱查询 语句, 并将最终的查询语句应用到知识库上, 获取到最
终的精准 答案。
6.根据权利要求5所述的方法, 其特 征在于,
关键词提取时, 利用主题贡献程度计算公式实现词共现图的转换, 平台按照每次词语
信息量大小智能排序, 选取排序前n个词为文本数据关键词, 从而用户实现算力网络5 G数据
本地记忆及文档主题词的信息抽取。
7.根据权利要求5所述的方法, 其特 征在于,
视频数据处置时对镜头间的时间标注词和镜头 内的空间标注词进行关联分析; 后续利
用数据的时、 空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框
架, 从而挖掘出 更合理的标注词关联描述 来弥补这种通用标注词关联的局限。
8.根据权利要求5所述的方法, 其特 征在于,
知识图谱查询时还应用语义分析, 即利用句子结构的图形表示——语法树, 它代表了
数据推导结果, 并应用语义三元 组抽取, 将满足子树的所有5 G数据词语组成的短语, 抽取成
一个关系短语, 通过指代消解, 最 终将一个语义三元组集合进 行合并, 得到一个结构化的查
询子图。权 利 要 求 书 2/2 页
3
CN 115374765 A
3
专利 一种基于自然语言处理的算力网络5G数据解析系统及方法
安全报告 >
其他 >
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:36上传分享