(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211306207.2 (22)申请日 2022.10.25 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人 申明磊 姚若彤  (74)专利代理 机构 南京理工大 学专利中心 32203 专利代理师 岑丹 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06F 40/216(2020.01) (54)发明名称 基于改进SO-PMI算法和融合词向量的情感 分析方法 (57)摘要 本发明公开了一种基于改进SO ‑PMI算法和 融合词向量的情感分析方法, 包括: 构建领域情 感词典, 所述领域情感词典包括评价对象词典、 否定词典、 程度副词词典、 积极情感词典、 消极情 感词典, 其中, 所述积极情感词典、 消极情感词典 通过改进后的SO ‑PMI算法计算确定; 利用 word2vec模型对语料库中的文本进行训练生成 原始词向量; 利用构建的情感词典将情感词划分 为5个维度, 构建情感向量; 将原始词向量与 情感 向量进行融合, 生成融合情感信息的词向量。 本 发明将构建的多个含情感倾向与强度的词典进 行情感向量化表示, 并与初 始word2vec词向量进 行拼接构成融合情感信息的词向量表 示, 包含情 感信息的词向量输入到分类算法中进行情感分 析其分类准确性更高。 权利要求书2页 说明书8页 附图3页 CN 115525763 A 2022.12.27 CN 115525763 A 1.一种基于改进SO ‑PMI算法和融合词向量的情感分析 方法, 其特 征在于, 具体步骤为: 步骤1: 构建领域情 感词典, 所述领域情 感词典包括评价对象词典、 否定词典、 程度副词 词典、 积极情感词典、 消极情感词典, 其中, 所述积极情感词典、 消极情感词典通过改进后的 SO‑PMI算法计算确定; 步骤2: 利用w ord2vec模型对语料库中的文本进行训练生成原 始词向量; 步骤3: 利用构建的情感词典将 情感词划分为5个维度, 构建情感向量; 步骤4: 将原 始词向量与情感向量进行融合, 生成融合情感信息的词向量。 2.根据权利要求1所述的基于改进SO ‑PMI算法和融合词向量的情感分析方法, 其特征 在于, 构建领域情感词典的具体方法为: 步骤1.1: 构建通用基础词典, 所述通用基础词典包括通用基础积极情 感词典和通用基 础消极情感词典; 步骤1.2: 将网络情感词典加入通用基础词典, 扩充通用基础积极情感词典和通用基础 消极情感词典; 步骤1.3: 利用收集到的领域网络 评论文本构建领域评论情感词典, 步骤1.4: 构建程度词典, 所述 程度词典包括若干程度副词; 步骤1.5: 构建否 定词典; 步骤1.6: 构建评价对象词典, 所述评价对象词典包括若干被评价词语所修饰的主题。 3.根据权利要求2所述的基于改进SO ‑PMI算法和融合词向量的情感分析方法, 其特征 在于, 构建通用基础词典的具体方法为: 将多个情感词典中的正向情感词、 负向情感词以及 程度副词相结合形成通用的情感词集; 对通用的情感词集中的情感词汇进行筛选, 去 除其中情感极性相反的词汇, 将不同词 典中的正面评价词语或者褒义词进行合并去重, 形成一个新的通用基础词典的积极情感词 典, 将不同词典中的负面评价词语或者贬义词进行合并去重形成消极情感词典, 组合形成 通用基础情感词典。 4.根据权利要求2所述的基于改进SO ‑PMI算法和融合词向量的情感分析方法, 其特征 在于, 利用收集到的领域网络评论文本构建领域评论情感词典的具体方法为: 对收集到的 领域评论语料库进行预处理, 根据 统计的词 频选择候选词汇, 选择频次高于设定量且具有 情感极性的积极情感词和 消极情感词各若干个; 将领域评论语料库分词形成的词汇与步骤1.2中的基础情感词典做差集运算, 形成候 选情感词汇, 采用改进后的SO ‑PMI算法计算 候选词汇的情感极性, 构建领域评论情感词典。 5.根据权利要求4所述的基于改进SO ‑PMI算法和融合词向量的情感分析方法, 其特征 在于, 采用改进后的SO ‑PMI算法计算 候选词汇的情感极性的具体方法为: 式中, di表示两词汇在文档中的平均共现距离, n表示各基准词集中词汇总数, count (word,pword)表示候选词汇word与褒义基准词pword在训练语料中共同出现的文本总数, count(word,nword)表示候选词汇word与贬义基准词pword在训练语料中共同出现的文本 总数, SO‑PMI(word)<0: 负面倾向, 即消极情感词; SO ‑PMI(word)=0: 中性倾向, 即该词不是 情感词; SO ‑PMI(word)>0: 正 面倾向, 即积极情感词。权 利 要 求 书 1/2 页 2 CN 115525763 A 26.根据权利要求1所述的基于改进SO ‑PMI算法和融合词向量的情感分析方法, 其特征 在于, 将原 始词向量与情感向量进行融合, 生成融合情感信息的词向量的具体方法为: 将word2vec模型生成的词向量作为基础词向量B, 并与 生成的情感词向量E进行向量拼 接融合, 组成一个新的融合情感信息的词向量X, 表示 为X=[B; E]。权 利 要 求 书 2/2 页 3 CN 115525763 A 3

.PDF文档 专利 基于改进SO-PMI算法和融合词向量的情感分析方法

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进SO-PMI算法和融合词向量的情感分析方法 第 1 页 专利 基于改进SO-PMI算法和融合词向量的情感分析方法 第 2 页 专利 基于改进SO-PMI算法和融合词向量的情感分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:13:37上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。