CN113743113A - 基于TextRank和深度神经网络的情感摘要抽取方法 - Google Patents
基于TextRank和深度神经网络的情感摘要抽取方法 Download PDFInfo
- Publication number
- CN113743113A CN113743113A CN202111022446.0A CN202111022446A CN113743113A CN 113743113 A CN113743113 A CN 113743113A CN 202111022446 A CN202111022446 A CN 202111022446A CN 113743113 A CN113743113 A CN 113743113A
- Authority
- CN
- China
- Prior art keywords
- emotion
- sentence
- text
- textrank
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于TextRank和深度神经网络的情感摘要抽取方法,包括如下步骤:数据采集、监督式模型训练、无监督式摘要提取、文本情感摘要生成。本发明基于TextRank和深度神经网络的情感摘要抽取方法,采用LSTM+ATT+CNN的监督式方法训练情感句子向量,用来更新TextRank文本网络中的权重得分,进而提取具有情感色彩的摘要。针对较长文本,利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离,相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句,更能显示文章作者的情感核心内容,更具可读性。
Description
技术领域
本发明涉及文本理解和机器学习分析领域,尤其涉及基于TextRank和深度神经网络的情感摘要抽取方法。
背景技术
随着互联网信息技术的突飞猛进,网路平台中存在海量信息,而针对这些海量信息进行有效筛选和读取是一个重要研究方向。特别地,对于长文本信息,提取出带有情感色彩的简短摘要,可以大大提高阅读效率。
摘要提取一般分为生成式方法和抽取式方法。生成式方法是根据文档表达的重要内容来自行组织语言,从而对源文档进行概括。抽取式方法是通过抽取源文档中的关键句子来组合生成摘要的。目前文本生成算法存在一定的技术瓶颈,虽然最新的GPT算法在文本生成方面取得了较好的成绩,但是产业化中的可读性与准确性还存在一定的差异。因此本发明中主要考虑抽取式摘要生成方法,即将长文本拆分成若干短句,然后根据权重重要性对短句进行排序,进而提取出若干短句组成摘要。
普通TextRank摘要抽取方法,句子间的权重衡量一般是基于BM25算法的相关性度量方法,即将文档定义为含有规范化BM25 TF值的元素,其中每个词的权重一般采取IDF(Inverse Document Frequency)方法。本发明基于TextRank方法,结合深度学习神经网络方法,针对长文本进行摘要提取,并且摘要中尽可能包含文档情感观点信息,使得可读性更强。为此,我们提出基于TextRank和深度神经网络的情感摘要抽取方法。
发明内容
基于背景技术存在的技术问题,本发明提出了基于TextRank和深度神经网络的情感摘要抽取方法,采用TextRank的无监督方法和LSTM+注意力机制(ATT)+卷积神经网络(CNN)的情感监督式方法相结合的方法提取情感摘要,解决了现有文本生成算法,产业化中的可读性与准确性还存在一定的差异的问题。
本发明提供如下技术方案:基于TextRank和深度神经网络的情感摘要抽取方法,包括如下步骤:
S1、数据采集:采集源数据经过数据清洗之后,进行相应的数据标注和知识整理得到数据集;
S2、监督式模型训练:针对LSTM+ATT+CNN网络模型进行训练,训练得到文档短句子向量;
S3、无监督式摘要提取:根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重;
S4、文本情感摘要生成:根据最新的网络权重得分进行排序,按照TopK原则选取关键句,并根据关键词在文中出现的顺序,组合成情感摘要。
优选的,所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次:输入层、LSTM层、注意力机制层以及卷积全连接层,处理过程是:以sentence2vec得到的句子向量作为初始向量;通过LSTM网络学习序列间的初始序列特征;构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式;最后结合卷积神经网络全连接方式进行监督式训练网络参数。
优选的,所述步骤S3中根据得到的句子向量计算句子权重W2,从而更新上述的句子权重,得到W3=λ*W1+(1-λ)*W2,其中λ是调节系数;针对W3构成的TextRank文本网络图,进行句子重要性排序。
优选的,所述步骤S3中通过对文本进行分拆,以每一个句子或短语为节点,构建TextRank文本网络图;
上式中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,d是阻尼系数,设置为0.85;
文本图结构中,节点之间的边代表权重,也就是句子之间的相似度,利用BM25模型计算得到句子Q在文档d中的权重W;
IDF指逆文档频率,n指文档数量,k1,b是经验调节参数,k1=2,b=0.75;fi表示词qi在文档d中出现的频率,dl为文档d的长度,avgdl为文档D集合中所有文档的平均长度。
优选的,所述步骤S4中根据句子重要性,截取TopK的关键句,根据在文中出现的顺序组合成最终情感摘要,其中K为关键句数量,设置为文档总数量的20%至40%之间。
本发明提供了基于TextRank和深度神经网络的情感摘要抽取方法,采用LSTM+ATT+CNN的监督式方法训练情感句子向量,用来更新TextRank文本网络中的权重得分,进而提取具有情感色彩的摘要。针对较长文本,利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离,相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句,更能显示文章作者的情感核心内容,更具可读性。
附图说明
图1为本发明整体框架图;
图2为本发明LSTM+ATT+CNN监督式网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种技术方案:基于TextRank和深度神经网络的情感摘要抽取方法,包括如下步骤:
S1、数据采集:采集源数据经过数据清洗之后,进行相应的数据标注和知识整理得到数据集;
S2、监督式模型训练:针对LSTM+ATT+CNN网络模型进行训练,训练得到文档短句子向量;
如图2所示,对LSTM+ATT+CNN网络模型的结构依次包括四个层次:输入层、LSTM层、注意力机制层以及卷积全连接层,处理过程是:以sentence2vec得到的句子向量作为初始向量;通过LSTM网络学习序列间的初始序列特征;构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式;最后结合卷积神经网络全连接方式进行监督式训练网络参数。
S3、无监督式摘要提取:根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重;
通过对文本进行分拆,以每一个句子或短语为节点,构建TextRank文本网络图;
上式中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,d是阻尼系数,设置为0.85;
文本图结构中,节点之间的边代表权重,也就是句子之间的相似度,利用BM25模型计算得到句子Q在文档d中的权重W;
IDF指逆文档频率,n指文档数量,k1,b是经验调节参数,k1=2,b=0.75;fi表示词qi在文档d中出现的频率,dl为文档d的长度,avgdl为文档D集合中所有文档的平均长度。
根据得到的句子向量计算句子权重W2,从而更新上述的句子权重,得到W3=λ*W1+(1-λ)*W2,其中λ是调节系数;针对W3构成的TextRank文本网络图,进行句子重要性排序。
S4、文本情感摘要生成:根据最新的网络权重得分进行排序,按照TopK原则选取关键句,并根据关键词在文中出现的顺序,组合成情感摘要。
根据句子重要性,截取TopK的关键句,根据在文中出现的顺序组合成最终情感摘要,其中K为关键句数量,设置为文档总数量的20%至40%之间。
实施例:
第一步,数据采集。以新冠状病毒疫情情绪监测为背景,对新闻、微博、论坛、微信、博客等不同数据源站点进行爬取,2019年12月份到2020年12月份的全量数据主要关键词配置如下:肺炎、疫情、冠状病毒、胸闷、发烧等。采集的源数据需要经过数据清洗之后,进行相应的数据标注和知识整理得到如下数据:
(a)情感标注类别:正面、负面、中立;
(b)情感摘要样本;
(c)文档中文字数筛选1000字以上;
第二步,监督式模型训练。针对LSTM+ATT+CNN网络模型,训练过程中的数据集比例为:训练集、验证集、测试集的比例为7:2:1。训练得到文档短句子向量。
第三步,无监督式摘要提取。根据图1中的流程,根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重。
第四步,文本情感摘要生成。根据最新的网络权重得分进行排序,按照TopK原则选取关键句,并根据关键词在文中出现的顺序,组合成情感摘要。
第五步,结果应用。根据实际效果保存模型结构参数,提供模型服务。
本发明中,基于TextRank和深度神经网络的情感摘要抽取方法,采用LSTM+ATT+CNN的监督式方法训练情感句子向量,用来更新TextRank文本网络中的权重得分,进而提取具有情感色彩的摘要。针对较长文本,利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离,相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句,更能显示文章作者的情感核心内容,更具可读性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:包括如下步骤:
S1、数据采集:采集源数据经过数据清洗之后,进行相应的数据标注和知识整理得到数据集;
S2、监督式模型训练:针对LSTM+ATT+CNN网络模型进行训练,训练得到文档短句子向量;
S3、无监督式摘要提取:根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重;
S4、文本情感摘要生成:根据最新的网络权重得分进行排序,按照TopK原则选取关键句,并根据关键词在文中出现的顺序,组合成情感摘要。
2.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次:输入层、LSTM层、注意力机制层以及卷积全连接层,处理过程是:以sentence2vec得到的句子向量作为初始向量;通过LSTM网络学习序列间的初始序列特征;构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式;最后结合卷积神经网络全连接方式进行监督式训练网络参数。
3.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:所述步骤S3中根据得到的句子向量计算句子权重W2,从而更新上述的句子权重,得到W3=λ*W1+(1-λ)*W2,其中λ是调节系数;针对W3构成的TextRank文本网络图,进行句子重要性排序。
4.根据权利要求1或3中所述的基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:所述步骤S3中通过对文本进行分拆,以每一个句子或短语为节点,构建TextRank文本网络图;
上式中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,d是阻尼系数,设置为0.85;
文本图结构中,节点之间的边代表权重,也就是句子之间的相似度,利用BM25模型计算得到句子Q在文档d中的权重W;
IDF指逆文档频率,n指文档数量,k1,b是经验调节参数,k1=2,b=0.75;fi表示词qi在文档d中出现的频率,dl为文档d的长度,avgdl为文档D集合中所有文档的平均长度。
5.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:所述步骤S4中根据句子重要性,截取TopK的关键句,根据在文中出现的顺序组合成最终情感摘要,其中K为关键句数量,设置为文档总数量的20%至40%之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022446.0A CN113743113A (zh) | 2021-09-01 | 2021-09-01 | 基于TextRank和深度神经网络的情感摘要抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022446.0A CN113743113A (zh) | 2021-09-01 | 2021-09-01 | 基于TextRank和深度神经网络的情感摘要抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743113A true CN113743113A (zh) | 2021-12-03 |
Family
ID=78734769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111022446.0A Pending CN113743113A (zh) | 2021-09-01 | 2021-09-01 | 基于TextRank和深度神经网络的情感摘要抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743113A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
-
2021
- 2021-09-01 CN CN202111022446.0A patent/CN113743113A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN111858944B (zh) | 一种基于注意力机制的实体方面级情感分析方法 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
Alsaleh et al. | Arabic text classification using convolutional neural network and genetic algorithms | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN103544246A (zh) | 互联网多种情感词典构建方法及*** | |
CN107341145A (zh) | 一种基于深度学习的用户情感分析方法 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN115392259B (zh) | 一种基于对抗训练融合bert的微博文本情感分析方法及*** | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及*** | |
CN109325120A (zh) | 一种分离用户和产品注意力机制的文本情感分类方法 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110321918A (zh) | 基于微博的舆论机器人***情感分析和图像标注的方法 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN109086463A (zh) | 一种基于区域卷积神经网络的问答社区标签推荐方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN114722174A (zh) | 提词方法和装置、电子设备及存储介质 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN113743113A (zh) | 基于TextRank和深度神经网络的情感摘要抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |