CN113918708B

CN113918708B - 一种摘要抽取方法

Info

Publication number: CN113918708B
Application number: CN202111532196.5A
Authority: CN
Inventors: 胡为民; 郑喜
Original assignee: Shenzhen Dib Enterprise Risk Management Technology Co ltd
Current assignee: Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-22
Anticipated expiration: 2041-12-15
Also published as: CN113918708A

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种摘要抽取方法，包括如下步骤：S1、预处理，将公告文本中的数值、时间类型数据进行泛化处理；S2、构建第一词表；S3、构建第一词表的词语共现矩阵；S4、词语共现矩阵降维，提取第一词表内所有词语的语义表征；S5、重复S2至S4，提取公告文本中所有词语的语义表征；S6、以语句为单位，将语义表征进行累加合并，形成语句上下文语义表征；S7、用户输入关键词组，提取关键词组语义表征；S8、判断关键词组语义表征与语句上下文语义表征的相似度，关键词组的相似度大于设定值，则将包括该关键词组的公告文本语句抽取为公共文本摘要。抽取摘要的内容与用户输入关键词的关联度高。

Description

一种摘要抽取方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种摘要抽取方法。

背景技术

目前，上市企业的数量日渐增多，上市公司公告，即临时或按照年度披露的上市公司财务、业务等相关经营情况，包含的信息量大；但公告文本缺少标准的撰写规范且篇幅较长，不利于阅读以及数据分析，数据分析及审计人员需要从公告文本中人工提取关键语句和其他信息，造成工作效率低。因此，需提供一种上市公司公告文本摘要抽取方法，压缩公告文本篇幅，去掉分析和审计人员不关注的“冗余”信息，提升分析和审计人员工作效率。

目前已有相关摘要抽取方法，但主要通过全文检索包含关键词或者包含与关键词语义相似的词语的语句，并进行抽取合成摘要。主要采用的技术为词向量相似度计算。然而，现有摘要抽取方法应用于上市公司公告本文时存在一些问题，主要体现在仅考虑关键词之间的语义关联，未考虑关键词与段落、篇章的语义关联，且部分关键词贯穿整个公告文本，导致摘要抽取内容不够精准。

发明内容

本发明针对现有的摘要抽取方法抽取的摘要内容不够精准的问题，提供一种抽取摘要的内容与用户输入关键词的关联度高的摘要抽取方法。

一种摘要抽取方法，包括如下步骤：

S1、预处理，将公告文本中的数值、时间类型数据进行泛化处理；

S2、构建第一词表；

S3、构建第一词表的词语共现矩阵；

S4、词语共现矩阵降维，提取第一词表内所有词语的语义表征；

S5、重复S2至S4，提取公告文本中所有词语的语义表征；

S6、以语句为单位，将语义表征进行累加合并，形成语句上下文语义表征；

S7、用户输入关键词组，提取关键词组语义表征；

S8、判断关键词组语义表征与语句上下文语义表征的相似度，关键词组的相似度大于设定值，则将包括该关键词组的公告文本语句抽取为公共文本摘要。

此方法中，通过提取词语的语义表征，判断语句上下文语义表征与关键词组语义表征的相似度，抽取相似度大于设定值的语句组成公告文本摘要，摘要内容与用户输入关键词关联度高；

进一步的，替换公告文本Text中的数值为汉字数值，替换公告文本Text中的时间为汉字时间；

剔除标点符号中的标号，以及点号中的顿号和冒号，利用保留的点号作为分隔符将公告文本分解为语句；采用jieba分词法对公告文本Text进行中文分词，剔除其中的停用词后，采用TFIDF对词语进行加权，并将词语按照权值从大到小进行排列；

进一步的，所述S2构建第一词表包括，获取权值排列前2000的词语构建第一词表Words；

，其中w _i表示第i个词语，w _j表示第j个词语，n为词语的数量，

。

进一步的，所述S3包括，

对出现在同一语句中、同一段落中、同一篇章中的任意两词语w _i和w _j建立关联，构建词语共现矩阵

为语句级词语共现矩阵；

为段落级词语共现矩阵；

为篇章级共现矩阵；矩阵行索引i、列索引j分别表示两共现词语w _i和w _j的索引；矩阵中的元素表示行、列索引指向的两词语的联合概率

。

进一步的，所述S4包括，采用主成分分析法分别对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维，降维后的维度为2000*100，其中2000表示词语的数量，100表示每个词语语义向量的维度；降维后词语共现矩阵的三级向量即为三级语义表征；所述三级语义表征即词语的语句级、段落级、篇章级语义表征；提取第一词表内所有词语的三级语义表征。

进一步的，降维计算公式如下：

其中

表示第k个行向量标准差；

表示

中的第k个行向量；

表示协方差矩阵；

表示协方差矩阵的前100列特征列向量；

表示词语共现矩阵中第k个词语的三级语义表征。

进一步的，所述S5，每次重复，S2分别构建词表，直至包括公告文本中的所有词语，所述词表依次为权值排列前2000的词语；

进一步的，所述语句上下文三级语义表征为

；

式中t为语句中第t个词语。

所述S7包括用户输入关键词组，提取关键词组所有关键词的三级语义表征；将所有关键词的三级语义表征进行累加合并，形成关键词组三级语义表征；所述关键词组三级语义表征为

；

式中t为关键词组中第t个词语。

进一步的，构建基于孪生神经网络的语义相似度计算模型，基于孪生神经网络的语义相似度计算模型包括两组同构的反馈式神经网络，基于孪生神经网络的语义相似度计算模型的输入为语句上下文三级语义表征和用户关键词组的三级语义表征，输出为相似度；

输入语句上下文三级语义表征和用户关键词组三级语义表征，当相似度大于设定值时，将输入的语句上下文三级语义表征对应的语句抽取出来；

重复上述步骤，依次输入公告文本中所有语句上下文三级语义表征，直至将公告文本中语句上下文三级语义表征与用户关键词组三级语义表征相似度大于设定值的所有语句抽取出来，组成公告文本摘要。

有益效果：通过提取词语的语义表征，判断语句上下文语义表征与关键词组语义表征的相似度，抽取相似度大于设定值的语句组成公告文本摘要，摘要内容与用户输入关键词关联度高；可有效去除用户不关注的“冗余”信息，提高用户工作效率。

附图说明

下面结合附图和具体实施例对本发明作出进一步详细说明。

图1为本实施例的流程图。

图2为本实施孪生神经网络的架构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例

本实施例以上市公司公告文本为例，提供一种摘要抽取方法，具体包括如下步骤。

S1、预处理，将公告文本中的数值、时间类型数据进行泛化处理；包括，

替换公告文本Text中的数值为汉字【数值】，替换公告文本Text中的时间为汉字【时间】；

剔除标点符号中的标号，以及点号中的顿号和冒号，利用保留的点号作为分隔符将公告文本分解为语句；采用jieba分词法对公告文本Text进行中文分词，剔除其中的停用词后，获得公告文本Text的词语；

采用TFIDF对词语进行加权，并将词语按照权值从大到小进行排列。

S2、构建第一词表，包括，

获取权值排列前2000的词语构建第一词表Words；

, 其中w _i表示第i个词语，w _j表示第j个词语，n为词语的数量，

。

S3、构建第一词表的词语共现矩阵；

，

为语句级词语共现矩阵；

为段落级词语共现矩阵；

为篇章级共现矩阵；

矩阵行索引i、列索引j分别表示两共现词语w _i和w _j的索引；矩阵中的元素表示行、列索引指向的两词语的联合概率

。

S4、词语共现矩阵降维，提取第一词表内所有词语的语义表征；包括，

采用主成分分析法对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维，降维后的维度为2000*100，其中2000表示词语的数量，100表示每个词语语义向量的维度；降维后词语共现矩阵的三级向量即为三级语义表征；所述三级语义表征即词语的语句级、段落级、篇章级语义表征；所述降维计算公式如下：

其中

表示第k个行向量标准差；

表示

中的第k个行向量；

表示协方差矩阵；

表示协方差矩阵的前100列特征列向量；

表示词语共现矩阵中第k个词语的三级语义表征。

S2—S4形成三级语义编码方法，利用这种三级语义编码方法提取公告文本中所有词语的三级语义表征。以语句为单位进行拆分，将语句上下文词语的三级语义表征进行累加合并，形成语句上下文的三级语义表征。

S5、重复S2至S4，提取公告文本中所有词语的语义表征；每次重复，S2分别构建词表，直至包括公告文本中的所有词语，所述词表依次为权值排列前2000的词语；

S6、以语句为单位，将语义表征进行累加合并，形成语句上下文三级语义表征；

语句上下文三级语义表征为：

，

式中t为语句中第t个词语。

S7、用户输入关键词组，提取关键词组语义表征，包括

用户输入关键词组，提取关键词组所有关键词的三级语义表征；将所有关键词的三级语义表征进行累加合并，形成关键词组三级语义表征；

关键词组三级语义表征为：

，式中t为关键词组中第t个词语。

S8、判断语句上下文语义表征与关键词组语义表征的相似度，抽取相似度大于设定值的语句组成公告文本摘要；包括，

构建基于孪生神经网络的语义相似度计算模型为：

基于孪生神经网络的语义相似度计算模型包括两组同构的反馈式神经网络，其输入为语句上下文三级语义表征和用户关键词组的三级语义表征，输出为相似度；基于孪生神经网络的语义相似度计算模型具体包括两个独立并列的输入层，两个独立并列的隐含层和一个输出层；所述输入层维度为1*100；所述隐含层维度为1*10；所述两个独立并列的输入层分别采用Sigmoid()函数连接两个独立并列的隐含层，两个独立并列的隐含层采用Sigmoid()函数共同连接输出层；所述输出层为交叉熵损失函数；输出层输出为相似度；

采用语句上下文三级语义表征和用户关键词组的三级语义表征作为基于孪生神经网络的语义相似度计算模型的输入，训练基于孪生神经网络的语义相似度计算模型，并通过基于孪生神经网络的语义相似度计算模型计算语句上下文三级语义表征和用户关键词组的三级语义表征的相似度Similarity(Text,key-words)；

具体的，所述语句上下文三级语义表征采用Sigmoid()函数连接两个独立并列的输入层中的其中一个输入层，所述关键词组三级语义表征采用Sigmoid()函数连接另一个输入层；

判断关键词组语义表征与语句上下文语义表征的相似度，设定值为0.7，当相似度

时，则将包括该关键词组的公告文本语句抽取为公共文本摘要。

S6-S8形成上下文语义相似性计算的摘要抽取方法，抽取公告文本中包含关键信息的语句形成摘要。

此实施例提供的摘要抽取方法，通过三级语义编码方法提取词语的语句级、段落级、篇章级三级语义表征；通过上下文语义相似性计算的摘要抽取方法判断语句上下文语义表征与关键词组语义表征的相似度，抽取相似度大于设定值的语句组成公告文本摘要。

此实施提供的摘要抽取方法考虑了用户输入的关键词与语句、段落、篇章的关联，精准的抽取与用户输入关键词关联度高的语句组成摘要文本；可有效去除用户不关注的“冗余”信息，提高用户工作效率。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种摘要抽取方法，其特征在于，包括如下步骤：

S2、构建第一词表；

S3、构建第一词表的词语共现矩阵；

S5、重复S2至S4，提取公告文本中所有词语的语义表征；

S7、用户输入关键词组，提取关键词组语义表征；

S8、判断关键词组语义表征与语句上下文语义表征的相似度，关键词组的相似度大于设定值，则将包括该关键词组的公告文本语句抽取为公共文本摘要；

所述S1包括，

替换公告文本Text中的数值为汉字数值，替换公告文本Text中的时间为汉字时间；

所述S2构建第一词表包括，获取权值排列前2000的词语构建第一词表Words；

，

其中w _i表示第i个词语，w _j表示第j个词语，n为词语的数量，

；

所述S3包括，

为语句级词语共现矩阵；

为段落级词语共现矩阵；

为篇章级共现矩阵；

。

2.根据权利要求1所述的摘要抽取方法，其特征在于，所述S4包括，采用主成分分析法分别对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维，降维后的维度为2000*100，其中2000表示词语的数量，100表示每个词语语义向量的维度；降维后词语共现矩阵的三级向量即为三级语义表征；所述三级语义表征即词语的语句级、段落级、篇章级语义表征；提取第一词表内所有词语的三级语义表征。

3.根据权利要求2所述的摘要抽取方法，其特征在于，降维计算公式如下：