CN109214008A - 一种基于关键词提取的情感分析方法及*** - Google Patents

一种基于关键词提取的情感分析方法及*** Download PDF

Info

Publication number
CN109214008A
CN109214008A CN201811137069.3A CN201811137069A CN109214008A CN 109214008 A CN109214008 A CN 109214008A CN 201811137069 A CN201811137069 A CN 201811137069A CN 109214008 A CN109214008 A CN 109214008A
Authority
CN
China
Prior art keywords
word
emotion
text data
attribute
sentiment analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811137069.3A
Other languages
English (en)
Inventor
王涵
孔晶
闫骏
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Zhongke Advanced Technology Research Institute Co Ltd
Original Assignee
Zhuhai Zhongke Advanced Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Zhongke Advanced Technology Research Institute Co Ltd filed Critical Zhuhai Zhongke Advanced Technology Research Institute Co Ltd
Priority to CN201811137069.3A priority Critical patent/CN109214008A/zh
Publication of CN109214008A publication Critical patent/CN109214008A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的技术方案包括一种基于关键词提取的情感分析方法及***,用于实现:加载待分析的初始文本数据并执行分词处理;将所述进行分词处理的初始文本数据进行预处理,对文本数据进行停用词清除;建立属性词词典,包括使用TF‑IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;基于同义词词典以及属性词对初始文本数据进行同义词替换;建立情感分析模型,并对得到的文本数据进行分析,得出情感评分;将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。本发明的有益效果为:基于字典的情感分析具有较高的灵活性与较低的实现条件,且更清晰明了的对管理者提供更高效、更全面、更可信的决策依据。

Description

一种基于关键词提取的情感分析方法及***
技术领域
本发明涉及一种基于关键词提取的情感分析方法及***,属于数据分析领域。
背景技术
在巨量社会媒体所带来的文本数据的冲击下,评论信息已经不仅是消费者选择的依据,更是商家做重要决策的来源。如何从社会媒体网站信息中挖掘更有效更全面的信息,为管理者提供更高有效度与可信度的决策依据,是目前技术存在的缺陷。
随着社会媒体网站应用范围的不断扩展,消费者在社会媒体网站中所产生的数据信息也不断的成为各个领域研究人员的主要初始数据来源。研究人员通过将文本数据转化为结构式数据,从而挖掘以评论信息为代表的文本信息,了解产品、商家以及品牌的电子口碑,进而为管理者提供真实有效的决策依据。伴随着科技的不断发展,大量模拟人类行为的人工智能情感分析模型也不断投入到实际应用当中,其中,基于词典和语料库的情感分析***是最接近人工情感分析方法的模型,具有较强的弹性适用范围能力与较高的准确率。
但现有技术任存在问题,如较低的灵活度及较高的实现条件。比如针对现有的旅游管理与酒店款待业的字典,本发明进一步做了完善与处理,并对字典的使用方法,做了进一步完善。相比于对训练数据库要求严格的机器学习,基于字典的情感分析具有较高的灵活性与较低的实现条件。
发明内容
本发明提供了一种基于关键词提取的情感分析方法及***,本发明在对文本数据清除大量无用停用词后,利用TF-IDF(词频-逆文本频率指数)算法提取文本文件中的前500-2000个关键词;此外,本发明针对特定应用领域,建立特定的具有包含属性的同义词词典,并在该同义词词典的基础上采用替换-排重算法,对关键词进行同义词排重整理,以此提炼出一定数量的、非重复的、与商品、商家、品牌等有关的属性词;该发明利用之前提到的包含属性的同义词词典,将初始文本数据中的子属性替换为所提取的属性词,利用同义词词典和情感分析***,将文本数据转化为结构式数据,逐条从评论信息中提取针对各个属性的情感词,统计并记录得分,最终得到每位顾客对该商品、企业或品牌的各个属性的情感分数以及总体的情感分数;本发明以逗号为节点,识别属性词及描述该属性词的情感词,以每条评论为单位,计算并统计该顾客对产品、商家或品牌各属性及总体情感分数。
本发明的技术方案包括一种基于关键词提取的情感分析方法,其特征在于,该方法包括以下步骤:S1,加载待分析的初始文本数据并执行分词处理;S2,将所述S1进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;S3,建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;S4,基于同义词词典以及属性词对初始文本数据进行同义词替换;S5,建立情感分析模型,并对步骤S4得到的文本数据进行进行分析,得出情感评分;S6,将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
根据所述的基于关键词提取的情感分析方法,其中步骤S1具体包括:S11,使用网络爬虫从指定的一个或多个网页爬取所需的初始文本数据,并将初始文本数据存储至数据库;S12,使用编译平台从数据库提取初始文本数据,进一步,使用结巴分词法对初始文本数据进行分词处理。
根据所述的基于关键词提取的情感分析方法,其中结巴分词法对初始文本数据进行分词处理具体为精确分词模式。
根据所述的基于关键词提取的情感分析方法,其中步骤S2具体包括:根据词性建立停用词词典,对初始文本数据解析并根据停用词词典对初始文本数据进行数据清洗,其中清洗数据包括但不限于中数词、量词、代词、副词、介词、连词、助词、拟声词和标点。
根据所述的基于关键词提取的情感分析方法,其中步骤S3具体包括:S21,使用TF-IDF算法计算文本所有词组的TF-IDF值,根据TF-IDF值选取预设值数量的关键词,其中预设值可以自定义变更;S22,根据指定应用领域建立有包含属性的同义词词典;S23,基于所述步骤S22建立的同义词词典对关键词替换-排重处理,筛选出以指定领域为基准的多个非重复的关联属性词,以及,基于属性词词典对同义词进行修改。
根据所述的基于关键词提取的情感分析方法,其中预设数量关键词为所有关键词的第500至2000个。
根据所述的基于关键词提取的情感分析方法,其中步骤S5具体包括:S51,从数据库逐条读取文本数据,以逗号为分界点,将每条评论整句分成分句,以分句为单位,对每条分句进行属性词的识别,接着对修饰每个属性词的情感词进行识别;S52,赋予形容每个属性词的情感词以正向和/负向情感分数,统计每个属性词的情感总分数并求其平均值分数;S53,以整句为单位,对一条评论的多个分句的同一属性词,取其均值作为此评论对该属性词的情感分数;S54,统计并计算所有属性的平均值作为评论整体情感分数值,将离散的情感分析数据转化为正向情感与负向情感区间范围内的连续数据作为情感评分,并将得到的连续数据及情感评分存储至数据库。
根据所述的基于关键词提取的情感分析方法,其中步骤S54具体包括:将正向的情感词与负向的情感词的得分值分别为1分和5分,在使用平均算法统计后,单个属性以及总体情感分数分布在[1,5]区间上,并在纵向上将离散型情感分数转化为连续性情感分数,其中3为情感临界值。
根据所述的基于关键词提取的情感分析方法,其中步骤S6具体包括:对关键词使用词云进行提取并使用词云图可视化展示;通过第三方接口连接数据库加载连续数据及情感评分,将情感评分及关键词通过接口生成对应的图形进行可视化展示,其中接口包括但不限于Python matplotlib、seaborn及missingno,其中图形包括但不限于列表、柱状图、折线图、曲线图、热图及盒图。
本发明的技术方案还包括用于执行任意上述方法的一种基于关键词提取的情感分析***,该***包括:分词处理模块,用于加载待分析的初始文本数据并执行分词处理;停用词清除模块,将所述分词处理模块进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;词典模块,用于建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;替换模块,用于基于同义词词典以及属性词对初始文本数据进行同义词替换;情感评分模块,用于建立情感分析模型,并对替换模块得到的文本数据进行分析,得出情感评分;展示模块,用于将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
本发明的有益效果为:基于词典与语料库的多样性,使用此情感分析模型分别对不同属性打分,从而获得总体情感分数,为管理者挖掘更全面电子商务口碑信息与决策细分方向依据;让管理者了解情感对象本身的好坏为初衷,制定情感分数值判定标准,不过多考虑修饰情感的副词加权问题,清晰明了;所得分析结果为区间的连续值,为后续进行更全面更有深度的结构式数据分析提供有力条件;将情感分析的描述结果以不同图形等方式进行可视化展示;基于字典的情感分析具有较高的灵活性与较低的实现条件,且更清晰明了的对管理者提供更高效、更全面、更可信的决策依据。
附图说明
图1所示为根据本发明的总体流程图;
图2所示为根据本发明的***框图;
图3所示为根据本发明实施方式的实施流程图;
图4所示为根据本发明实施方式的情感分析流程图;
图5所示为根据本发明实施方式的词云示意图;
图6所示为根据本发明实施方式的缺失分布情况可视化图;
图7所示为根据本发明实施方式的缺失值属性向量关系可视化图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
图1所示为根据本发明的总体流程图。具体流程如下所示:
S1,加载待分析的初始文本数据并执行分词处理;S2,将所述S1进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;S3,建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;S4,基于同义词词典以及属性词对初始文本数据进行同义词替换;S5,建立情感分析模型,并对步骤S4得到的文本数据进行分析,得出情感评分;S6,将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
图2所示为根据本发明的***框图。该***包括:分词处理模块,用于加载待分析的初始文本数据并执行分词处理;停用词清除模块,将所述分词处理模块进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;词典模块,用于建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;替换模块,用于基于同义词词典以及属性词对初始文本数据进行同义词替换;情感评分模块,用于建立情感分析模型,并对替换模块得到的文本数据进行分析,得出情感评分;展示模块,用于将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
图3所示为根据本发明实施方式的实施流程图。其详细流程如下所示:
(1)文本数据的读取并进行分词处理。使用pymysql Python模块将Python编译平台与mysql管理界面相连接,并利用SQL命令行从SQL数据库中提取文本数据,利用结巴分词进行分词处理。结巴分词法为Python的jieba分词模块,该方法支持精确模式、全模式和搜索引擎模式三种分词模式。本发明采用具有词性标注功能的精确分词模式,对网络爬虫所得文本信息进行分词处理。
(2)文本数据的预处理。建立停用词词典,去除初始文本数据中的停用词,本发明所使用的停用词词典根据词性建立,主要包括对文本数据中数词、量词、代词、副词、介词、连词、助词、拟声词和标点的数据清洗。
(3)属性词词典的建立
(3-1)关键词提取,使用Python Tensorflow数据包,建立TF-IDF模型,并计利用TF-IDF算法法则,计算文本文件所有词组的TF-IDF值,并筛选出前500到2000个关键词。TF-IDF算法用于资讯检索与资讯的探勘挖掘,其实现是通过对单个词语相对该词语所在的一个文件或一个语料库中的某份文本文件(如:一条评论数据)统计计算,所得比重值与该文件在整个预料率中所占比重相对比,从而评估该字词的重要性。此算法所使用的加权方法决定了对字词重要性评估准则,即字词的重要性与其在文件中出现的次数成正比,但同时与其在语料库中出现的频率成反比。
(3-2)同义词词典建立,根据特定应用领域建立具有包含属性的同义词词典。例如:对于酒店领域,“床”、“浴室”、“浴缸”、“房间地板”等都可以在此同义词词典中归为“房间”的同义词。
(3-3-1)属性词词典建立,在所建立的特定同义词词典基础上,采用替换-排重算法,对关键词进行同义词排重整理,以此提炼出一定数量的、非重复的、与产品、商家、品牌等有关的属性词。此步骤是为了解决TF-IDF无法识别并跳过同义词的缺点,从而提炼出更具有代表性的关键词,及属性词。
(3-3-2)在属性词词典的基础上对同义词进行一定的修改。
(4)初始文本数据的同义词替换,使用整理后的同义词词典,对初始文本数据进行同义词替换。此步骤目的在于为情感分词模型作原始数据的预处理,将相关同义词换为属性词,便以之后的属性词识别。例如:对于酒店领域,“我对床的舒适度不太满意,但是对浴室挺喜欢”,经过同义词替换-排重处理后,输出为“我对房间的舒适度不太满意,但是对房间挺喜欢”。
(5)情感分析模型,如图4所示,首先从Mysql中逐条读取文本数据,以逗号为分界点,将每条评论整句分成分句,以分句为单位,对每条分句进行属性词的识别,接着对修饰每个属性词的情感词进行识别,赋予形容每个属性词的情感词以正向(5分)/负向(1分)情感分数,统计每个属性词的情感总分数并求其平均值分数。然后以整句为单位,对一条评论的多个分句的同一属性词,取其均值作为此评论对该属性词的情感分数。最终统计并计算所有属性的平均值作为评论整体情感分数值,将离散的情感分析数据转化为[1,5]范围内的连续数据。
(6)情感分析结果可视化,应用Python词云wordcloud程序包对关键词提取结果进行关键词的词云图可视化展示。运行SQL命令行对结构式数据进行描述性分析,并将此结果用Python matplotlib,seaborn,missingno等程序包,以列表、柱状图、折线图、曲线图、热图、盒图进行可视化展示。词云图(或者文字云),是对文本中的“关键词”以一定的衡量标准,予以视觉化的展现,使得浏览者只要一眼扫过文本图就可领略文本的主旨,直观明了。
图5所示为根据本发明实施方式的词云示意图。
本发明的技术方案提供了实施例具体如下:
本实例采用网络爬虫技术将TripAdvisor有关澳门威尼斯人度假村酒店的评论信息爬取到1100条,并存储在SQL数据库,使用Pycharm编译器编写Python程序,导入pymysql模块并连接本地SQL数据库读取数据,并导入结巴分词模块进行分词处理。结巴分词法支持精确模式、全模式和搜索引擎模式三种分词模式。本发明采用具有词性标注功能的精确分词模式,对1100条数据逐条进行分词处理。
使用停用词词典,对评论信息中的数词、量词、代词、副词、介词、连词、助词、拟声词和标点进行数据清洗。
导入Tensorflow数据包,建立TF-IDF模型,并利用TF-IDF算法法则,计算文本文件所有词组的TF-IDF值,并筛选出前1500个关键词。这1500个词语是相对于其他词语来说,在每条评论中出现的次数较多,在整个评论信息中出现频率较少的前1500个词语。相对于以出现频率为标准提取关键词更加有效,排除了高频无用词出现的可能。
根据特定应用领域建立具有包含属性的同义词词典。例如:对于酒店领域,“床”、“浴室”、“浴缸”、“房间地板”等都可以在此同义词词典中归为“房间”的同义词。
在所建立的特定同义词词典基础上,采用替换-排重算法,对关键词进行同义词排重整理,以此提炼出一定数量的、非重复的、与产品、商家、品牌等有关的属性词。此步骤是为了解决TF-IDF无法识别并跳过同义词的缺点,从而提炼出更具有代表性的关键词,及属性词。例如:词典库“酒店”、“床”、“浴室”、“浴缸”、“房间”,同义词排重整理后,得到“酒店”、“房间”。
使用整理后的同义词词典,对初始文本数据进行同义词替换。此步骤目的在于为情感分词模型作原始数据的预处理,将相关同义词换为属性词,便于之后的属性词识别。例如:对于酒店领域,“我对床的舒适度不太满意,但是对浴室挺喜欢”,经过同义词替换-排重处理后,输出为“我对房间的舒适度不太满意,但是对房间挺喜欢”。本实例共得到196个属性词
将上步处理的数据,以逗号为分界点,将每条评论整句分成分句,以分句为单位,对每条分句进行属性词的识别,接着对修饰每个属性词的情感词进行识别,赋予形容每个属性词的情感词以正向(5分)/负向(1分)情感分数,统计每个属性词的情感总分数并求其平均值分数。然后以整句为单位,对一条评论的多个分句的同一属性词,取其均值作为此评论对该属性词的情感分数。最终统计并计算所有属性的平均值作为评论整体情感分数值,将离散的情感分析数据转化为[1,5]范围内的连续数据。例如:“我对房间的舒适度不太满意,但是对房间挺喜欢,整个酒店还是不错的”,识别出属性词“房间”和“酒店”,分别对“房间”和“酒店”统计情感词打分并求平均分,该条评论“房间”的情感分数计算过程及结果为“(5+1)/2=3”,“酒店”的情感分数计算过程及结果为“5”,由此该条评论的总体平均分数为“(3+5)/2=4”。由此将情感分数为[1,5]之间的连续数据。
求和同义词TF-IDF值计算属性词的重要程度,例如:“房间”的TF-IDF值为32,“浴室”12,“浴缸”为11,则属性词“房间”为“32+12+11=55”,并以此为标准,,使用词云展示这196个属性词.
如图5所示,应用Python词云wordcloud程序包对关键词提取结果进行关键词的词云图可视化展示。运行SQL命令行对结构式数据进行描述性分析,并将此结果用Pythonmatplotlib,seaborn,missingno等程序包,以列表、柱状图、折线图、曲线图、热图(如图6和图7对缺失值可视化。
图6所示为根据本发明实施方式的缺失分布情况可视化。空白部分为评论信息没有提到对该属性,黑色部分为该评论信息对该属性有描述内容。
图7所示为根据本发明实施方式的缺失值属性向量关系可视化。颜色表示两个属性向量关系强弱,颜色越深,关系越强;数值表示二者缺失的同步关系情况,例如:0.2表示A与B同时缺失的概率为20%)、盒图进行可视化展示。词云图(或者文字云),是对文本中的“关键词”以一定的衡量标准,予以视觉化的展现,使得浏览者只要一眼扫过文本图就可领略文本的主旨,直观明了。
本实例中,“酒店”是最热门话题,TF-IDF值为54,威尼斯人酒店的电子评价相对较高,情感分数平均分为4.2,其中,属性词“服务”的情感分数最高,为4.65,属性词“checkout”情感分数最低,为3.8。由此可见,该发明为管理者提供更加全面,精细的决策方向,帮助其从产品、品牌和公司的各个角度,更加全面清楚的了解公司的网上口碑实时情况。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文步骤的指令或程序时,本文的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (10)

1.一种基于关键词提取的情感分析方法,其特征在于,该方法包括以下步骤:
S1,加载待分析的初始文本数据并执行分词处理;
S2,将所述S1进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;
S3,建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;
S4,基于同义词词典以及属性词对初始文本数据进行同义词替换;
S5,建立情感分析模型,并对步骤S4得到的文本数据进行分析,得出情感评分;
S6,将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
2.根据权利要求1所述的基于关键词提取的情感分析方法,其特征在于,所述步骤S1具体包括:
S11,使用网络爬虫从指定的一个或多个网页爬取所需的初始文本数据,并将初始文本数据存储至数据库;
S12,使用编译平台从数据库提取初始文本数据,进一步,使用结巴分词法对初始文本数据进行分词处理。
3.根据权利要求1所述的基于关键词提取的情感分析方法,其特征在于,所述结巴分词法对初始文本数据进行分词处理具体为精确分词模式。
4.根据权利要求1所述的基于关键词提取的情感分析方法,其特征在于,所述步骤S2具体包括:
根据词性建立停用词词典,对初始文本数据解析并根据停用词词典对初始文本数据进行数据清洗,其中清洗数据包括但不限于中数词、量词、代词、副词、介词、连词、助词、拟声词和标点。
5.根据权利要求1所述的基于关键词提取的情感分析方法,其特征在于,所述步骤S3具体包括:
S21,使用TF-IDF算法计算文本所有词组的TF-IDF值,根据TF-IDF值选取预设值数量的关键词,其中预设值可以自定义变更;
S22,根据指定应用领域建立有包含属性的同义词词典;
S23,基于所述步骤S22建立的同义词词典对关键词替换-排重处理,筛选出以指定领域为基准的多个非重复的关联属性词,以及,基于属性词词典对同义词进行修改。
6.根据权利要求5所述的基于关键词提取的情感分析方法,其特征在于,所述预设数量关键词为所有关键词TF-IDF值前500到2000个。
7.根据权利要求1所述的基于关键词提取的情感分析方法,其特征在于,所述步骤S5具体包括:
S51,从数据库逐条读取文本数据,以逗号为分界点,将每条评论整句分成分句,以分句为单位,对每条分句进行属性词的识别,接着对修饰每个属性词的情感词进行识别;
S52,赋予形容每个属性词的情感词以正向和/负向情感分数,统计每个属性词的情感总分数并求其平均值分数;
S53,以整句为单位,对一条评论的多个分句的同一属性词,取其均值作为此评论对该属性词的情感分数;
S54,统计并计算所有属性的平均值作为评论整体情感分数值,将离散的情感分析数据转化为正向情感与负向情感区间范围内的连续数据作为情感评分,并将得到的连续数据及情感评分存储至数据库。
8.根据权利要求7所述的基于关键词提取的情感分析方法,其特征在于,所述步骤S54具体包括:
将正向的情感词与负向的情感词的得分值分别为1分和5分,在使用平均算法统计后,单个属性以及总体情感分数分布在[1,5]区间上,并在纵向上将离散型情感分数转化为连续性情感分数,其中3为情感临界值。
9.根据权利要求1所述的基于关键词提取的情感分析方法,其特征在于,所述步骤S6具体包括:
对关键词使用词云进行提取并使用词云图可视化展示;
通过第三方接口连接数据库加载连续数据及情感评分,将情感评分及关键词通过接口生成对应的图形进行可视化展示,其中接口包括但不限于Python matplotlib、seaborn及missingno,其中图形包括但不限于列表、柱状图、折线图、曲线图、热图及盒图。
10.用于执行权利要求1-9任意所述方法的一种基于关键词提取的情感分析***,其特征在于,该***包括:
分词处理模块,用于加载待分析的初始文本数据并执行分词处理;
停用词清除模块,将所述分词处理模块进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;
词典模块,用于建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;
替换模块,用于基于同义词词典以及属性词对初始文本数据进行同义词替换;
情感评分模块,用于建立情感分析模型,并对替换模块得到的文本数据进行分析,得出情感评分;
展示模块,用于将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
CN201811137069.3A 2018-09-28 2018-09-28 一种基于关键词提取的情感分析方法及*** Pending CN109214008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811137069.3A CN109214008A (zh) 2018-09-28 2018-09-28 一种基于关键词提取的情感分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811137069.3A CN109214008A (zh) 2018-09-28 2018-09-28 一种基于关键词提取的情感分析方法及***

Publications (1)

Publication Number Publication Date
CN109214008A true CN109214008A (zh) 2019-01-15

Family

ID=64982087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811137069.3A Pending CN109214008A (zh) 2018-09-28 2018-09-28 一种基于关键词提取的情感分析方法及***

Country Status (1)

Country Link
CN (1) CN109214008A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457691A (zh) * 2019-07-26 2019-11-15 北京影谱科技股份有限公司 基于剧本角色的情感曲线分析方法和装置
CN110705286A (zh) * 2019-09-24 2020-01-17 青木数字技术股份有限公司 一种基于评论信息的数据处理方法及装置
CN111639109A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种基于Python的评分展示方法
CN112015866A (zh) * 2020-08-28 2020-12-01 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112163419A (zh) * 2020-09-23 2021-01-01 南方电网数字电网研究院有限公司 文本的情绪识别方法、装置、计算机设备和存储介质
CN112329462A (zh) * 2020-11-26 2021-02-05 北京五八信息技术有限公司 一种数据排序方法、装置、电子设备及存储介质
CN112632277A (zh) * 2020-12-15 2021-04-09 五八同城信息技术有限公司 一种目标内容对象的资源处理方法和装置
CN112800465A (zh) * 2021-02-09 2021-05-14 第四范式(北京)技术有限公司 待标注文本数据的处理方法、装置、电子设备及介质
CN112860362A (zh) * 2021-02-05 2021-05-28 达而观数据(成都)有限公司 一种机器人自动化流程的可视化调试方法及调试***
CN113190657A (zh) * 2021-05-18 2021-07-30 中国银行股份有限公司 NLP数据预处理方法、jvm及spark端服务器

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析***及方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN105528410A (zh) * 2015-12-05 2016-04-27 浙江大学 一种对医院的在线评论进行归纳和分类的方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN106294316A (zh) * 2016-07-29 2017-01-04 陕西师范大学 一种基于词典的文本情感分析方法
CN106919673A (zh) * 2017-02-21 2017-07-04 浙江工商大学 基于深度学习的文本情绪分析***
CN107193801A (zh) * 2017-05-21 2017-09-22 北京工业大学 一种基于深度信念网络的短文本特征优化及情感分析方法
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN107656917A (zh) * 2016-07-26 2018-02-02 深圳联友科技有限公司 一种中文情感分析方法及***
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示***和展示、生成方法及电子设备
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析***及方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN105528410A (zh) * 2015-12-05 2016-04-27 浙江大学 一种对医院的在线评论进行归纳和分类的方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN107656917A (zh) * 2016-07-26 2018-02-02 深圳联友科技有限公司 一种中文情感分析方法及***
CN106294316A (zh) * 2016-07-29 2017-01-04 陕西师范大学 一种基于词典的文本情感分析方法
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示***和展示、生成方法及电子设备
CN106919673A (zh) * 2017-02-21 2017-07-04 浙江工商大学 基于深度学习的文本情绪分析***
CN107193801A (zh) * 2017-05-21 2017-09-22 北京工业大学 一种基于深度信念网络的短文本特征优化及情感分析方法
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457691B (zh) * 2019-07-26 2023-03-24 北京影谱科技股份有限公司 基于剧本角色的情感曲线分析方法和装置
CN110457691A (zh) * 2019-07-26 2019-11-15 北京影谱科技股份有限公司 基于剧本角色的情感曲线分析方法和装置
CN110705286A (zh) * 2019-09-24 2020-01-17 青木数字技术股份有限公司 一种基于评论信息的数据处理方法及装置
CN111639109A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种基于Python的评分展示方法
CN112015866A (zh) * 2020-08-28 2020-12-01 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112015866B (zh) * 2020-08-28 2023-07-21 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112163419B (zh) * 2020-09-23 2023-04-07 南方电网数字电网研究院有限公司 文本的情绪识别方法、装置、计算机设备和存储介质
CN112163419A (zh) * 2020-09-23 2021-01-01 南方电网数字电网研究院有限公司 文本的情绪识别方法、装置、计算机设备和存储介质
CN112329462A (zh) * 2020-11-26 2021-02-05 北京五八信息技术有限公司 一种数据排序方法、装置、电子设备及存储介质
CN112329462B (zh) * 2020-11-26 2024-02-20 北京五八信息技术有限公司 一种数据排序方法、装置、电子设备及存储介质
CN112632277A (zh) * 2020-12-15 2021-04-09 五八同城信息技术有限公司 一种目标内容对象的资源处理方法和装置
CN112860362A (zh) * 2021-02-05 2021-05-28 达而观数据(成都)有限公司 一种机器人自动化流程的可视化调试方法及调试***
CN112860362B (zh) * 2021-02-05 2022-10-04 达而观数据(成都)有限公司 一种机器人自动化流程的可视化调试方法及调试***
CN112800465A (zh) * 2021-02-09 2021-05-14 第四范式(北京)技术有限公司 待标注文本数据的处理方法、装置、电子设备及介质
CN113190657A (zh) * 2021-05-18 2021-07-30 中国银行股份有限公司 NLP数据预处理方法、jvm及spark端服务器
CN113190657B (zh) * 2021-05-18 2024-02-27 中国银行股份有限公司 NLP数据预处理方法、jvm及spark端服务器

Similar Documents

Publication Publication Date Title
CN109214008A (zh) 一种基于关键词提取的情感分析方法及***
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN106326212B (zh) 一种基于层次深度语义的隐式篇章关系分析方法
CN108595706A (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN103020851B (zh) 一种支持商品评论数据多维分析的度量计算方法
Forsberg et al. From construction candidates to constructicon entries: An experiment using semi-automatic methods for identifying constructions in corpora
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及***
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及***
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN105975453A (zh) 评论标签提取方法和装置
CN109960756A (zh) 新闻事件信息归纳方法
CN103984714B (zh) 一种基于本体语义的云制造服务供需智能匹配方法
CN106503209A (zh) 一种话题热度预测方法及***
CN102262663B (zh) 一种软件缺陷报告修复方法
CN105843801A (zh) 多译本平行语料库的构建***
CN109308323A (zh) 一种因果关系知识库的构建方法、装置及设备
CN103246603A (zh) 一种缺陷跟踪***的软件缺陷报告自动分发方法
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN106649250A (zh) 一种情感新词的识别方法及装置
CN106528616A (zh) 一种人机交互过程中的语言纠错方法及***
CN110706028A (zh) 基于属性特征的商品评价情感分析***
CN102779119A (zh) 一种抽取关键词的方法及装置
Šojat et al. Derivational and semantic relations of croatian verbs
Alasmari Sentimental visualization: Semantic analysis of online product reviews using Python and tableau

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115