CN116911280A - 一种基于自然语言处理的评论分析报告生成方法 - Google Patents
一种基于自然语言处理的评论分析报告生成方法 Download PDFInfo
- Publication number
- CN116911280A CN116911280A CN202311170693.4A CN202311170693A CN116911280A CN 116911280 A CN116911280 A CN 116911280A CN 202311170693 A CN202311170693 A CN 202311170693A CN 116911280 A CN116911280 A CN 116911280A
- Authority
- CN
- China
- Prior art keywords
- comment
- demand
- topic
- item
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003058 natural language processing Methods 0.000 title claims abstract description 33
- 230000008451 emotion Effects 0.000 claims abstract description 35
- 238000005065 mining Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims description 39
- 238000012216 screening Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000001010 compromised effect Effects 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- OOYGSFOGFJDDHP-KMCOLRRFSA-N kanamycin A sulfate Chemical group OS(O)(=O)=O.O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N OOYGSFOGFJDDHP-KMCOLRRFSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自然语言处理的评论分析报告生成方法,从宏观层面入手,挖掘关键评论话题,汇总关键话题、话题热度和话题情感值等数据形成关于评论集的话题清单;从微观层面,挖掘细分需求项,汇总需求关注度、需求满意度、需求分类、需求相关建议等数据形成关于评论集的需求分析清单;将模型、质量屋与文本挖掘有机结合起来,首先基于文本挖掘计算各个需求项在模型两个维度(用户关注度与用户满意度)上的数值,进而完成需求项的分类;然后基于需求项的分类、需求项的关注度、需求项的满意度,综合计算需求项在质量屋中的权重,并结合专家打分完成质量屋的构建;合并话题清单、需求分析清单与质量功能展开图生成评论分析报告。
Description
技术领域
本发明涉及一种基于自然语言处理的评论分析报告生成方法,属于文本数据挖掘、评论分析、自然语言处理领域。
背景技术
如今,电子商务已经渗透各行各业,消费者也养成了从购物平台上获取商品信息、购买商品、评价商品、与其他消费者互动交流的***台上挑选商品时会浏览商品的具体评论,进而判断商品是否货真价实或者符合自己需求;接着,消费者在购物平台上选中的心仪的商品后,可以浏览各个款式/型号/颜色的评论描述,帮助挑选合适的商品款式/型号/颜色;然后,消费者在签收商品的快递包裹后,可以在购物平台的评论区发表拆箱感受、初次使用感受、对物流包装的满意度等内容;最后,消费者可以在商品评论的详情页中对商品细节进一步展开讨论,促成新用户的消费。购物平台上大量的商品评论不仅影响着消费者购物的全流程,而且可以帮助商家更好地完成选品优化、产品性能改进等方面的工作。
许多企业已经认识到用户评论在产品研发迭代中的重要性,并投入资源开展用户评论的分析工作。随着网络订单量的激增,用户评论的数量也有了明显增长,传统人工统计的评论分析方法已经不适用于动辄几万条,甚至几十万条的用户评论,用户评论的分析工作需要依托更加灵活、高效、智能的文本挖掘方法,近年来兴起的自然语言处理技术可以服务于此项工作的开展。自然语言处理中的主题模型、情感分析、信息抽取、文本分类等分支可以运用在海量评论的自动化挖掘中,帮助生成评论分析报告,为企业改进产品研发提供依据。
已有相关技术实践涉及运用自然语言处理技术辅助生成评论分析报告,如专利CN202010643350.5采用文本情感分析模型与LDA主题模型从用户评论中提炼关键需求主题,并生成评价分析报告。该专利存在的不足之处有:①采用主题模型从用户评论集中抽取需求主题分布,由于主题分布包含的是一系列主题词,需要人工基于若干主题词进一步概括需求主题;②将情感分析模型与主题模型相结合可以挖掘用户在产品宏观层面的满意度,但无法获知用户在细粒度产品属性层面的满意度;③生成的分析报告中缺少对现有产品技术特征的分析,对于如何根据用户需求改进现有产品的技术方案,没有提供数据支撑。
发明内容
本发明要解决的技术问题是:①从宏观层面的关键评论话题与微观层面的细分需求项这两个方向入手自动化提炼海量评论中的有效信息,整理成信息清单;②将卡诺模型、质量屋等质量管理模型融入文本挖掘的过程中,使得生成的评论分析报告能更好地指导产品的优化与迭代。
为了实现上述目的,本发明的技术方案是:一种基于自然语言处理的评论分析报告生成方法,包括以下步骤:
S1、爬取一领域的用户评论文本数据,获得评论集;
S2、从评论集中挖掘领域新词,添加至自定义词表;
S3、基于自定义词表与停用词表,对评论集中的文本进行分词后输入主题模型,将评论文本归为多类评论话题;
S4、基于每类评论话题下的关键文本,运用摘要模型和情感分类模型输出该话题的摘要和情感值,并生成评论集的话题清单;
S5、基于所有评论话题的排列在预设位置前的多个关键词绘制话题图谱;
S6、结合实际业务从话题图谱中筛选出用户需求项,并挖掘需求项的同义词;
S7、对每个需求项,筛选包含该关键词或其同义词的所有评论文本,基于依存句法规则从评论文本提取包括评价对象和评价词的二元组,抽取每个二元组对应的最短子句,计算所有最短子句的情感均值作为该需求项的满意度,并对二元组拼接形成的短语进行文本聚类以获得关于该需求项的多个评价主题;
S8、对每个需求项,从评论集中提取与该需求项有关的建议句;
S9、计算每个需求项的关注度,基于IF−Kano卡诺模型对需求项进行分类,并生成评论集的需求分析清单;
S10、根据实际业务确定技术项/服务项,基于需求分析清单的数据以及专家打分数据,构建技术项/服务项的质量屋。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S2包括以下子步骤:
S21、将评论文本切分为短句;
S22、对于每个短句,提取多种长度的词段;
S23、计算每一个词段的平均互信息与左右邻接熵的综合值;
S24、根据平均互信息与左右邻接熵的综合值,计算词段的综合得分,根据综合得分人工筛选出评论集的相关新词,并添加至自定义词表。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S3包括以下子步骤:
S31、基于自定义词表与停用词表,对评论集中的所有评论文本进行分词,获得分词后的记录;
S32、将分词后的记录输入主题模型,获得关于评论集的多个话题,以及每个话题排列在前的多个关键词;
S33、基于训练的主题模型,寻找评论文本的最佳匹配话题。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S5包括以下子步骤:
S51、将步骤S31中分词后的记录输入词向量模型进行训练,生成各个关键词的词向量;
S52、对关键词进行去重,保存至关键词列表;
S53、计算关键词之间的语义相似度;
S54、基于关键词列表,使用绘制话题图谱网络,生成话题图谱网络。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S6包括以下子步骤:
S61、结合实际业务从步骤S54的话题图谱网络中筛选出用户需求项词汇;
S62、基于S51训练的词向量模型,配合人工筛选,挖掘需求项的同义词,生成同义词词集。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S7包括以下子步骤:
S71、从评论集中筛选出与用户需求项相关的文本集;
S72、基于依存句法分析从评论文本中抽取二元组,然后筛选出与需求项相关的二元组;
S73、对于二元组,从文本集中切分出包含评价对象和平价词的最短子句,将所有子句保存至子句集合;
S74、使用文本情感分析模型输出子句集合中每一条子句的正向情感概率值,对子句集合中所有子句的正向情感概率值取平均,进而获得需求项的满意度;
S75、将二元组的评价对象与评价词拼接为短语,通过文本聚类的方法将所有的短语划分为不同的类别,每个类别对应需求项的一个评价主题,选择其中一个类别下的任一短语作为该评价主题的标签;
S76、计算S75中各个评价主题的满意度:计算评价主题下所有短语对应子句的正向情感概率值的均值,作为该评价主题的满意度。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S8包括以下子步骤:
S81、采用正例和无标注样本学习训练二分类模型;
S82、抽取与需求项有关的建议句:使用步骤S81中训练的二分类模型将评论集中的句子分为“建议句“和”非建议句“,如果建议句包含同义词词集中的任一词汇,则该建议句与该需求项有关。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S9包括以下子步骤:
S91、计算需求项的用户关注度:统计同义词词集在文本集中的每句平均出现次数,以及同义词词集在评论集中的逆文档频率,根据出现次数和逆文档频率计算用户关注度;
S92、基于步骤S74中的满意度与步骤S91中的关注度/>,计算复合变量和/>,根据/>与/>的取值情况,判断用户需求项/>所属的卡诺模型需求类型/>:①当/>(/>为预设的阈值)时,/>为无关需求;②当/>且/>(/>、/>为预设的阈值)时,/>为魅力型需求;③当/>且/>时,/>为基本型需求;④当且/>时,属性/>为期望型需求;
S93、汇总所有需求项的各项数据,生成需求分析清单,所述需求分析清单包括用户关注度、用户满意度、卡诺模型需求类型、评价主题标签及评价主题满意度。
在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤S10包括以下子步骤:
S101、根据实际业务确定质量屋的技术项或者服务项;
S102、填写用户需求与技术特征的相关关系矩阵,相关关系矩阵表示用户需求项与技术项/服务项之间的相关程度;S103、构建技术项/服务项的质量屋:基于步骤S92中的复合变量/>和/>计算用户需求在质量屋中的权重系数/>,将用户需求/>的卡诺模型需求类型/>转换为卡诺模型得分/>,结合/>、/>与计算技术项/服务项/>的绝对权重/>,对绝对权重/>进行归一化获得技术项/服务项相对权重/>,按照/>的大小对技术项/服务项进行降序排序,/>的序号记为/>,最后绘制质量屋。
本发明的有益效果是:生成的评论分析报告既能从宏观上概括用户关注的热门话题,把握产品的整体印象,又能从微观上捕捉用户对细分需求项的具体看法,为产品后续优化与迭代提供数据指导;生成的评论分析报告中融入了卡诺模型、质量屋等质量管理模型,使需求洞察与业务洞察结合起来,提升了报告的实用性和落地性;本发明运用了主题模型、情感分析、文本摘要、信息抽取、文本聚类、文本分类等多种自然语言处理技术,极大地减少了人工干预处理的工作量,使得从海量评论文本数据中自动生成分析报告成为可能。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的基于自然语言处理的评论分析报告生成方法流程示意图。
图2为本发明提供的话题清单示意图。
图3为本发明提供的依存句法规则模板示意图。
图4为本发明提供的需求分析清单示意图。
图5为本发明提供的质量屋示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
以下结合说明书附图对本发明做出进一步的说明,如图1所示:
本发明的基于自然语言处理的评论分析报告生成方法,包括如下步骤:
在步骤S1中,通过程序爬取某一领域的用户评论文本数据,获得评论集;
在步骤S2中,从评论集中挖掘领域新词,添加至自定义词表;
在步骤S3中,基于自定义词表与停用词表,对评论集中的文本进行分词后输入主题模型,将评论文本归为若干类评论话题;
在步骤S4中,基于每类评论话题下的关键文本,运用摘要模型和情感分类模型输出该话题的摘要和情感值,并生成评论集的话题清单;
在步骤S5中,基于所有评论话题的关键词绘制话题图谱;
在步骤S6中,结合实际业务从话题图谱中筛选出用户需求项,并挖掘需求项的同义词;
在步骤S7中,对每个需求项,筛选包含该词或其同义词的所有评论文本,基于依存句法规则从评论文本提取<评价对象,评价词>二元组,抽取每个二元组对应的最短子句,计算所有最短子句的情感均值作为该需求项的满意度,并对二元组拼接形成的短语进行文本聚类以获得关于该需求项的若干评价主题;
在步骤S8中,对每个需求项,从评论集中提取与该需求项有关的建议句;
在步骤S9中,计算每个需求项的关注度,基于IF−Kano卡诺模型对需求项进行分类,并生成评论集的需求分析清单;
在步骤S10中,根据实际业务确定技术项/服务项,基于需求分析清单的数据以及专家打分数据,构建技术项/服务项的质量屋。
进一步地,所述步骤S2中包含如下子步骤:
S21、将评论文本切分为短句:对于步骤S1获得的评论集,以标点符号为界限将/>中的每一条评论文本/>(/>,评论集/>共计/>条文本)切分为短句。
S22、提取各种长度的词段:从步骤S21获得的短句中,提取每条短句的所有词段(/>,/>,……,/>,一般/>取值/>,表示按长度/>切分短句得到的词段),然后将提取到的所有/>词段添加至词段集合/>,最后导入停用词表/>,从词段集合/>中删除停用词。
S23、计算词段的相关指标:对于词段集合中的每一个词段,使用平均互信息/>作为词段/>的内部凝聚程度的度量,使用左右邻接熵的综合值/>作为词的左右邻字丰富程度的度量,其中,/>的计算方式如下:
(/>为词段/>的字数,/>表示词段/>的
首字,以此类推);
其中,的计算参照/>的方法:
(其中/>表示词段/>的左信息熵,/>表示词段/>的右信息熵)。
S24、从词段中筛选出领域新词:计算词段的综合得分以评估词段/>成为新词的可能性,根据综合得分/>人工筛选出评论文本集/>的相关新词,并添加至自定义词表/>。
进一步地,所述步骤S3中包含如下子步骤:
S31、对评论文本进行分词:基于自定义词表与停用词表/>,对评论集/>中的所有评论文本/>进行分词,获得分词后的记录/>。
S32、训练主题模型:采用主题建模技术进行话题挖掘,/>主题模型运用/>的/>包、/>降维算法和/>算法创建聚类簇,从而获得语料的主题分布。将步骤S31中的/>输入/>主题模型,获得关于评论集/>的若干个话题/>(/>,共计/>个话题),以及每个话题的关键词/>(/>,/>表示话题/>的排名第/>的关键词)和关键词的/>值/>(/>)(/>反映/>在话题/>中的重要性)。
S33、寻找评论文本的最佳匹配话题:使用步骤S32中训练好的主题模型计算评论集/>中每一条评论文本/>从属于各个话题的概率/>,将概率最大值 对应的话题/>作为评论文本/>最终归属的话题。将归属于同一话题下的所有评论文本归入集合/>,用/>表示集合/>包含的评论文本数量。
进一步地,所述步骤S4中包含如下子步骤:
S41、提取话题的关键句:对于集合/>,将其包含的所有评论文本/>拼接为一个文档/>,使用/>的包提取文档/>中的关键句/>,提取关键句的数量为/>。
S42、生成话题的文本摘要:选择在中文生成式摘要任务上表现优秀的模型完成话题摘要提取,/>是基于/>模型采用文本摘要式任务进行预训练的大型模型。将步骤S41抽取到的/>条关键句 进行随机拼接后输入到模型,输出关于此话题/>的摘要/>。
S43、计算话题的情感值:将每一条关键句/>输入文本情感分析预训练/>
模型进行句子级情感分类,并输出“正向”情感的概率作为该关键句的情感值/>,以/>中所有关键句的情感值均值作为该话题/>的最终情感值。
S44、生成评论集的话题清单:汇总所有话题/>的各项数据(话题摘要/>、/>关键词/>、话题包含文本数和话题情感值/>)组成话题清单,见图2。
进一步地,所述步骤S5中包含如下子步骤:
S51、生成各个关键词的词向量:将步骤S31中分词后的记录输入/>词向量模型进行训练,使用训练好的词向量模型对每个主题/>下的/>关键词进行词向量编码,获得关键词/>的词向量。
S52、对关键词进行去重:将各个主题的关键词/>保存至关键词列表/>,并对列表/>进行元素去重(即对于相同元素,只保留索引最小的一个)。
S53、计算关键词之间的语义相似度:基于步骤S51已获得的词向量,计算列表/>中每两个关键词元素之间的语义相似度,其中表示余弦相似度,/>可以衡量词语/>与词语/>之间的语义关系,/>的值越大,表示两个词语的语义联系越紧密。
S54、生成话题图谱网络:基于关键词列表,使用/>绘制话题图谱网络,网络中的节点代表关键词,边的粗细表示所连的两个节点关键词的语义相似度,以颜色区分从属于不同话题的关键词,此网络能清晰地展示各个话题之间的联系。
进一步地,所述步骤S6中包含如下子步骤:
S61、确定用户需求项:结合业务现状,从步骤S54的话题图谱网络中人工筛选出用户需求项词汇(/>,共计/>个词汇)。
S62、挖掘需求项的同义词:对于每一个用户需求项词汇,使用S51训练的/>词向量模型查询/>的/>语义相似词(词语之间语义相似的度量采用余弦相似度),人工判断这30个相似词是否属于/>的同义词,如果属于/>的同义词,则将该相似词添加至/>的同义词集合/>中。为了进一步挖掘用户需求项词汇/>的同义词,采用掺入少许先验知识的主题模型(/>)挖掘与词汇/>相关的主题,该主题模型也称为/>主题模型:首先将词汇/>与同义词集合中的所有同义词作为/>主题模型预设的锚定词汇集/>;基于步骤S31中分词后的记录/>,训练/>主题模型,在所有生成的主题中寻找与最相关的主题/>,人工判断/>的主题词是否属于/>的同义词,如果属于/>的同义词,则将该主题词添加至/>的同义词集合/>中,最后将词汇/>添加至/>。
进一步地,所述步骤S7中包含如下子步骤:
S71、筛选出需求项的相关评论文本:从评论集/>中筛选出与用户需求项/>相关的文本集
:对于/>中的评论文本/>,如果/>中至少有一个词语存在于/>中,则该文本/>与需求项/>相关。记文本集/>包含的文本数量为/>。
S72、抽取与需求项相关的<评价对象,评价词>二元组:根据图3,基于依存句法分析从评论文本/>中抽取<评价对象,评价词>二元组,记为/>,然后筛选出与/>相关的二元组;
S73、抽取与需求项相关的评价子句:对于二元组,从/>中切分出包含与/>的最短子句(因为一条文本中可能包含多个与/>相关的二元组,所以在一条文本中可能切分出多个子句),将所有子句保存至集合/>;
S74、计算需求项的用户满意度:使用文本情感分析模型输出集合/>中每一条子句/>的正向情感概率值,将正向情感概率值作为子句的情感值/>,对/>中所有子句的情感值取平均,进而获得/>的满意度/>;
S75、挖掘需求项的评价主题:将二元组中的/>与/>拼接为短语/>,通过文本聚类的方法将所有的/>划分为不同的类别/>,/>,......,每一个类别/>(共/>类)可以对应需求/>的一个评价主题,文本聚类的实现细节如下:使用/>的/>包计算拼接短语的表示向量;用/>降维算法压缩向量的维数,用聚类算法将降维后的句向量进行聚类。选择类别/>下的任一短语作为该评价主题的标签/>。
S76、计算S75中各个评价主题的满意度:如果子句指向二元组/>,而短语是由二元组/>的两个元素拼接而成,则称短语/>对应的子句为/>。计算评价主题下所有短语/>对应子句/>的正向情感概率值的均值,作为评价主题/>的满意度,记为/>。
进一步地,所述步骤S8中包含如下子步骤:
S81、训练建议句识别模型:由于评论文本集中的建议句数量较少,而非建议句占比很大,直接进行建议句二分类模型训练则会面临正负样本极度不平衡的问题,因此采用学习(正例和无标注样本学习)训练建议句分类模型。/>学习是一种半监督二分类模型,/>表示标记过的正样本,/>表示大量未标记的样本。首先,基于正则表达式匹配,对评论文本集/>中的文本/>进行句子分割,将分割后的所有句子添加至集合/>。采用目标词命中方法从集合/>中筛选出包含“希望”、“建议”或者“期待”等目标词(={“希望”,“建议”,“期待”})的句子,将其标注为正样本(标签为“建议句”)并添加至正样本集合/>,集合/>中剩下的句子则归入未标记样本集合/>。基于正样本集合/>与未标记样本集合/>的/>学习实现细节如下:基于预训练模型chinese-roberta-wwm-ext-large,使用/>的/>包为集合/>中的每一条语句/>创建对应的句向量,为集合/>中的每一条语句/>创建对应的句向量,从而获得正样本集合/>的特征向量集合与未标记样本集合/>的特征向量集合;采用特征向量集合/>训练一个自编码器/>以实现数据重建;计算/>中的每一个样本/>的重建误差/>:令,将/>输入至上述训练的/>模型,并将输出的结果记为/>;计算与/>的交叉熵/>,其中/>指的是/>与/>的维数,令/>;按照重建误差/>的大小对集合/>中的样本/>进行降序排序,将前30%的样本/>对应的句子标注为负样本(标签为“非建议句”),并归类为可信负样本集合/>;以带标注的正样本集合/>与可信负样本集合/>为训练语料,以chinese-roberta-wwm-ext-large为预训练模型,训练文本二分类模型。
S82、抽取与需求项有关的建议句:使用步骤S81中训练的文本二分类模型对未标记样本集合/>中的语句进行分类,将输出的分类标签为“建议句”的句子添加至集合/>,集合/>即为最终的输出建议句集合。从集合/>中筛选出与用户需求项/>相关的建议句集:对于句子集合/>中的建议句/>,如果/>中至少有一个词语存在于/>中,则称/>与/>相关。
进一步地,所述步骤S9中包含如下子步骤:
S91、计算需求项的用户关注度:在与需求项/>相关的文本集/>中,统计每条文本/>中包含的来自/>中词汇的数量/>,计算需求项/>在文本集/>中的每句平均出现次数/>。计算词集/>在评论集/>中的逆文档频率/>,定义需求项/>在评论集/>中的重要性为。结合每句平均出现次数/>与重要性,计算/>的用户关注度/>。计算所有需求项/>的用户关注度/>后,对/>进行归一化获得/>:/>。S92、基于/>卡诺模型,对需求项进行分类:基于步骤S74中的满意度/>与步骤S91中的关注度/>,计算复合变量/>和,根据/>与/>的取值情况,判断用户需求项/>所属的卡诺模型需求类型/>:①当/>(/>为预设的阈值)时,/>为无关需求;②当且/>(/>、/>为预设的阈值)时,/>为魅力型需求;③当且/>时,/>为基本型需求;④当/>且/>时,属性/>为期望型需求。
S93、生成评论集的需求分析清单:汇总所有需求项/>的各项数据(用户关注度/>、用户满意度/>、卡诺模型需求类型/>、评价主题标签及评价主题满意度/>)组成需求分析清单,见图4。
进一步地,所述步骤S10中包含如下子步骤:
S101、确定技术项/服务项:根据实际业务确定质量屋的技术项或者服务项(/>,共计/>个项目)。
S102、邀请业务专家对关系矩阵打分:邀请业务专家填写用户需求与技术特征的相关关系矩阵/>,/>表示用户需求项/>与技术项/服务项之间的相关程度/>。
S103、构建技术项/服务项的质量屋:基于步骤S92中的复合变量和/>计算需求项/>在质量屋中的权重系数/>,,并计算需求项/>的卡诺模型得分:魅力型需求赋值4分,即/>=4;期望型需求赋值2分,即/>=2;基本型需求赋值1分,即/>=1;无关需求赋值0分,即/>=0。结合/>、/>与计算技术项/服务项/>的绝对权重,对绝对权重/>进行归一化获得技术项/服务项相对权重/>,按照/>的大小对技术项/服务项进行降序排序,/>的序号记为/>,最后绘制质量屋,见图5。
本发明实施例还提供了一种基于自然语言处理的评论分析报告生成设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行上述存储器存储的计算机程序时可实现如上所述的基于自然语言处理的评论分析报告生成方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现如上所述的基于自然语言处理的评论分析报告生成方法。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种基于自然语言处理的评论分析报告生成方法,其特征在于,包括以下步骤:
步骤S1、爬取一领域的用户评论文本数据,获得评论集;
步骤S2、从评论集中挖掘领域新词,添加至自定义词表;
步骤S3、基于自定义词表与停用词表,对评论集中的文本进行分词后输入主题模型,将评论文本归为多类评论话题;
步骤S4、基于每类评论话题下的关键文本,运用摘要模型和情感分类模型输出该话题的摘要和情感值,并生成评论集的话题清单;
步骤S5、基于所有评论话题的排列在预设位置前的多个关键词绘制话题图谱;
步骤S6、结合实际业务从话题图谱中筛选出用户需求项,并挖掘需求项的同义词;
步骤S7、对每个需求项,筛选包含该关键词或其同义词的所有评论文本,基于依存句法规则从评论文本提取包括评价对象和评价词的二元组,抽取每个二元组对应的最短子句,计算所有最短子句的情感均值作为该需求项的满意度,并对二元组拼接形成的短语进行文本聚类以获得关于该需求项的多个评价主题;
步骤S8、对每个需求项,从评论集中提取与该需求项有关的建议句;
步骤S9、计算每个需求项的关注度,基于IF−Kano卡诺模型对需求项进行分类,并生成评论集的需求分析清单;
步骤S10、根据实际业务确定技术项/服务项,基于需求分析清单的数据以及专家打分数据,构建技术项/服务项的质量屋。
2.根据权利要求1所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S2包括以下子步骤:
S21、将评论文本切分为短句;
S22、对于每个短句,提取多种长度的词段;
S23、计算每一个词段的平均互信息与左右邻接熵的综合值;
S24、根据平均互信息与左右邻接熵的综合值,计算词段的综合得分,根据综合得分人工筛选出评论集的相关新词,并添加至自定义词表。
3.根据权利要求2所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S3包括以下子步骤:
S31、基于自定义词表与停用词表,对评论集中的所有评论文本进行分词,获得分词后的记录;
S32、将分词后的记录输入主题模型,获得关于评论集的多个话题,以及每个话题排列在前的多个关键词;
S33、基于训练的主题模型,寻找评论文本的最佳匹配话题。
4.根据权利要求3所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S4包括以下子步骤:
S41、提取话题的关键句;
S42、生成话题的文本摘要;
S43、将抽取到的关键句输入到文本情感分析模型,计算话题情感值;
S44、生成评论集的话题清单,所述话题清单包括文本摘要、多个关键词、话题包含文本数和话题情感值。
5.根据权利要求4所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S5包括以下子步骤:
S51、将步骤S31中分词后的记录输入词向量模型进行训练,生成各个关键词的词向量;
S52、对关键词进行去重,保存至关键词列表;
S53、计算关键词之间的语义相似度;
S54、基于关键词列表,使用绘制话题图谱网络,生成话题图谱网络。
6.根据权利要求5所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S6包括以下子步骤:
S61、结合实际业务从步骤S54的话题图谱网络中筛选出用户需求项词汇;
S62、基于S51训练的词向量模型,配合人工筛选,挖掘需求项的同义词,生成同义词词集。
7.根据权利要求6所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S7包括以下子步骤:
S71、从评论集中筛选出与用户需求项相关的文本集;
S72、基于依存句法分析从评论文本中抽取二元组,然后筛选出与需求项相关的二元组;
S73、对于二元组,从文本集中切分出包含评价对象和评价词的最短子句,将所有子句保存至子句集合;
S74、使用文本情感分析模型输出子句集合中每一条子句的正向情感概率值,对子句集合中所有子句的正向情感概率值取平均,进而获得需求项的满意度;
S75、将二元组的评价对象与评价词拼接为短语,通过文本聚类的方法将所有的短语划分为不同的类别,每个类别对应需求项的一个评价主题,选择其中一个类别下的任一短语作为该评价主题的标签;
S76、计算S75中各个评价主题的满意度:计算评价主题下所有短语对应子句的正向情感概率值的均值,作为该评价主题的满意度。
8.根据权利要求7所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S8包括以下子步骤:
S81、采用正例和无标注样本学习训练二分类模型;
S82、抽取与需求项有关的建议句:使用步骤S81中训练的二分类模型将评论集中的句子分为“建议句”和“非建议句”,如果建议句包含同义词词集中的任一词汇,则该建议句与该需求项有关。
9.根据权利要求8所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S9包括以下子步骤:
S91、计算需求项的用户关注度:统计同义词词集在文本集中的每句平均出现次数,以及同义词词集在评论集中的逆文档频率,根据出现次数和逆文档频率计算用户关注度;
S92、基于步骤S74中的满意度与步骤S91中的关注度/>,计算复合变量和/>,根据/>与/>的取值情况,判断用户需求项/>所属的卡诺模型需求类型/>:①当/>(/>为预设的阈值)时,/>为无关需求;②当/>且/>(/>、/>为预设的阈值)时,/>为魅力型需求;③当/>且/>时,/>为基本型需求;④当且/>时,属性/>为期望型需求;
S93、汇总所有需求项的各项数据,生成需求分析清单,所述需求分析清单包括用户关注度、用户满意度、卡诺模型需求类型、评价主题标签及评价主题满意度。
10.根据权利要求9所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤S10包括以下子步骤:
S101、根据实际业务确定质量屋的技术项或者服务项;
S102、填写用户需求与技术特征的相关关系矩阵,相关关系矩阵表示用户需求项与技术项/服务项之间的相关程度;
S103、构建技术项/服务项的质量屋:基于步骤S92中的复合变量和/>计算用户需求在质量屋中的权重系数/>,将用户需求/>的卡诺模型需求类型转换为卡诺模型得分/>,结合/>、/>与/>计算技术项/服务项/>的绝对权重/>,对绝对权重/>进行归一化获得技术项/服务项相对权重/>,按照/>的大小对技术项/服务项/>进行降序排序,/>的序号记为/>,最后绘制质量屋。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170693.4A CN116911280B (zh) | 2023-09-12 | 2023-09-12 | 一种基于自然语言处理的评论分析报告生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170693.4A CN116911280B (zh) | 2023-09-12 | 2023-09-12 | 一种基于自然语言处理的评论分析报告生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116911280A true CN116911280A (zh) | 2023-10-20 |
CN116911280B CN116911280B (zh) | 2023-12-29 |
Family
ID=88356933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311170693.4A Active CN116911280B (zh) | 2023-09-12 | 2023-09-12 | 一种基于自然语言处理的评论分析报告生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911280B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和*** |
US20160179966A1 (en) * | 2014-12-19 | 2016-06-23 | TCL Research America Inc. | Method and system for generating augmented product specifications |
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN110941874A (zh) * | 2019-11-07 | 2020-03-31 | 南京理工大学 | 一种整合Kano、QFD和FAST的车体组合功能设计方法 |
US20200257758A1 (en) * | 2019-02-11 | 2020-08-13 | International Business Machines Corporation | Dynamic interaction behavior commentary |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及*** |
WO2021212801A1 (zh) * | 2020-04-22 | 2021-10-28 | 华南理工大学 | 面向电商产品的评价对象识别方法、装置及存储介质 |
CN114564956A (zh) * | 2022-02-28 | 2022-05-31 | 中国石油大学(华东) | 一种细粒度属性自动提取的用户评论文本情感挖掘模型 |
-
2023
- 2023-09-12 CN CN202311170693.4A patent/CN116911280B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和*** |
US20160179966A1 (en) * | 2014-12-19 | 2016-06-23 | TCL Research America Inc. | Method and system for generating augmented product specifications |
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
US20200257758A1 (en) * | 2019-02-11 | 2020-08-13 | International Business Machines Corporation | Dynamic interaction behavior commentary |
CN110941874A (zh) * | 2019-11-07 | 2020-03-31 | 南京理工大学 | 一种整合Kano、QFD和FAST的车体组合功能设计方法 |
WO2021212801A1 (zh) * | 2020-04-22 | 2021-10-28 | 华南理工大学 | 面向电商产品的评价对象识别方法、装置及存储介质 |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及*** |
CN114564956A (zh) * | 2022-02-28 | 2022-05-31 | 中国石油大学(华东) | 一种细粒度属性自动提取的用户评论文本情感挖掘模型 |
Also Published As
Publication number | Publication date |
---|---|
CN116911280B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
Ristoski et al. | Rdf2vec: Rdf graph embeddings for data mining | |
Phan et al. | Convolutional attention neural network over graph structures for improving the performance of aspect-level sentiment analysis | |
CN107491531A (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN107357793A (zh) | 信息推荐方法和装置 | |
Lavanya et al. | Twitter sentiment analysis using multi-class SVM | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
Yeole et al. | Opinion mining for emotions determination | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
Mozafari et al. | Emotion detection by using similarity techniques | |
Baishya et al. | SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Maree et al. | Semantic graph based term expansion for sentence-level sentiment analysis | |
Liu et al. | A deep learning-based sentiment analysis approach for online product ranking with probabilistic linguistic term sets | |
Li et al. | Unsupervised keyword extraction from microblog posts via hashtags | |
CN116629258A (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及*** | |
Qi et al. | Application of LDA and word2vec to detect English off-topic composition | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN116911280B (zh) | 一种基于自然语言处理的评论分析报告生成方法 | |
Sun et al. | Important attribute identification in knowledge graph | |
Jayawickrama et al. | Seeking sinhala sentiment: Predicting facebook reactions of sinhala posts | |
Bellar et al. | Application of machine learning to sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |