CN110750637B

CN110750637B - 文本摘要提取方法、装置、计算机设备及存储介质

Info

Publication number: CN110750637B
Application number: CN201910753710.4A
Authority: CN
Inventors: 张思亮
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2024-05-24
Anticipated expiration: 2039-08-15
Also published as: CN110750637A

Abstract

本发明一种文本摘要提取方法、装置、计算机设备及存储介质，该方法包括以下步骤：利用预先训练得到的目标文本分类模型对待处理文本进行处理，得到所述待处理文本的类别；针对所述待处理文本执行如下循环处理，直至所述待处理文本中的所有句子均经过删除：从所述待处理文本中随机删除某一未被删除过的句子，得到剩余文本；利用所述目标文本分类模型对所述剩余文本进行处理，得到所述剩余文本的类别；判断所述剩余文本的类别是否与所述待处理文本的类别相同，若否，将删除的句子恢复至所述待处理文本中；将循环处理结束后得到的剩余文本作为目标文本摘要。本发明是结合文本整体语义得到的摘要，提高了文本摘要提取的准确性。

Description

文本摘要提取方法、装置、计算机设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种文本摘要提取方法、装置、计算机设备及存储介质。

背景技术

摘要是能够反映某一文本的中心内容的简单连贯的短文，能够帮助人们在阅读海量文本时缩短阅读时间。自动文本摘要技术是指通过计算机利用一系列文本处理技术对冗长的文本进行分析处理，提取文本主要中心思想，生成一段简洁概括性的摘要，帮助用户定位到自己想要的内容。

自动文本摘要技术是自然语言处理领域的研究热点，根据摘要内容的生成方式，分为抽取式摘要和生成式摘要。目前，生成式技术还不成熟，业内普遍使用的是抽取式方法生成摘要，通常先将文本进行分词，去除停用词等预处理步骤，利用TF-IDF算法构建文本矩阵，计算句子得分，再根据得分挑选作为摘要的句子。但是这样的方法停留在字面上，没有利用上下文的语义关系，提取的摘要缺乏关联性，不能根据语境抽取关键内容，不能满足用户需求。

发明内容

针对上述现有技术的不足，本发明提供一种文本摘要提取方法、装置、计算机设备及存储介质，以解决现有技术没有利用上下文的语义关系对摘要进行抽取的问题。

为了实现上述目的，本发明提供一种文本摘要提取方法，包括以下步骤：

利用预先训练得到的目标文本分类模型对待处理文本进行处理，得到所述待处理文本的类别；

针对所述待处理文本执行如下循环处理，直至所述待处理文本中的所有句子均经过删除：

从所述待处理文本中随机删除某一未被删除过的句子，得到剩余文本；

利用所述目标文本分类模型对所述剩余文本进行处理，得到所述剩余文本的类别；

判断所述剩余文本的类别是否与所述待处理文本的类别相同，若否，将删除的句子恢复至所述待处理文本中；

将循环处理结束后得到的剩余文本作为目标文本摘要。

进一步地，所述目标文本分类模型通过如下步骤训练得到：

采集样本数据集，所述样本数据集包含若干训练文本，各所述训练文本标注有对应的类别；

按预定比例将所述样本数据集划分为训练集和验证集；

基于所述训练集，训练得到所述目标文本分类模型；

基于所述验证集对所述目标文本分类模型进行验证，若验证通过，训练结束。

进一步地，所述待处理文本和训练文本为投诉文本。

进一步地，所述待处理文本和训练文本的类别包括时效不达、价格异议和服务态度等。

进一步地，所述目标文本分类模型为TEXTCNN模型，所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。

进一步地，所述利用预先训练得到的目标文本分类模型对待处理文本进行处理的步骤如下：

通过所述嵌入层对所述待处理文本进行向量化处理，得到所述待处理文本的词向量；

通过所述卷积层对所述待处理文本的词向量进行卷积处理，以提取所述待处理文本的特征；

通过所述池化层对所述待处理文本的特征进行池化处理，得到所述待处理文本的降维特征；

通过所述全连接层将所述待处理文本的降维特征传输至所述Softmax分类层；

通过所述Softmax分类层对所述待处理文本的降维特征进行处理，得到所述待处理文本的类别。

进一步地，所述文本摘要提取方法提取方法还包括：在利用预先训练得到的目标文本分类模型对待处理文本进行处理之前，对所述待处理文本进行预处理。

为了实现上述目的，本发明还提供一种文本摘要提取装置，包括：

类别获取模块，用于利用预先训练得到的目标文本分类模型对待处理文本进行处理，得到所述待处理文本的类别；

循环删减处理模块，用于针对所述待处理文本执行如下循环处理，直至所述待处理文本中的所有句子均经过删除：

从所述待处理文本中随机删除某一未经过删除的句子，得到剩余文本；

摘要获取模块，用于获取循环处理结束后得到的剩余文本作为目标文本摘要。

进一步地，所述文本摘要提取装置还包括：模型训练模块，用于对所述目标文本分类模型进行训练，所述模型训练模块包括：

样本数据集采集单元，用于采集样本数据集，所述样本数据集包含若干训练文本，各所述训练文本标注有对应的类别标签；

样本数据集划分单元，用于按预定比例将所述样本数据集划分为训练集和验证集；

训练单元，用于基于所述训练集，训练得到所述目标文本分类模型；

验证单元，用于基于所述验证集对所述目标文本分类模型进行验证，若验证通过，训练结束。

进一步地，所述待处理文本和训练文本为投诉文本。

进一步地，所述类别获取模块具体用于：

通过所述Softmax分类层对所述剩余文本的降维特征进行处理，得到所述剩余文本的类别。

进一步地，所述文本摘要提取装置还包括：预处理模块，用于在利用预先训练得到的目标文本分类模型对待处理文本进行处理之前，对所述待处理文本进行预处理。

为了实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方法的步骤。

通过采用上述技术方案，本发明具有如下有益效果：

本发明通过随机循环删减待处理文本中的句子，并计算句子删除之后的文本类别是否与删除之前相同，若相同，说明删除的句子对文本的语义贡献小，该句子应被删除，否则，说明删除的句子对文本的语义贡献大，该句子不应删除，则在文本中将该删除的句子恢复，当文本中的所有句子均被删除过时，将得到文本的摘要。由于上述过程是基于分类模型实现的，而分类模型是基于语义训练的，因而基于本发明得到的摘要是结合文本整体语义的摘要，即，该摘要能够真正从语义方面去概况文本的整体信息。此外，本发明删减句子时随机删除的，保证了关键语义不受顺序的影响，在兼顾文本处理速度性能的同时，提高了文本摘要生成的准确性。

附图说明

图1为本发明一种文本摘要提取方法的一个实施例的流程图；

图2为本发明一种文本摘要提取装置的一个实施例的框图；

图3为本发明计算机设备的一个实施例的硬件架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明提供一种文本摘要提取方法，具体包括以下步骤：

S0，根据采集的样本数据集训练得到目标文本分类模型，具体训练过程包含以下步骤：

S01，采集样本数据集，该样本数据集包含若干训练文本，各训练文本标注有对应的类别。在本实施例中，训练文本可以是投诉文本。例如，假设车险公司需要从客户的投诉文本中快速获取投诉摘要，则采集的样本数据集应包含标注有不同类别的投诉文本，投诉文本的类别在此包括但不限于时效不达、价格异议、服务态度。应该理解，除投诉文本外，针对其它不同的应用场景，可以根据不同需要采集相应的样本数据集。

S02，按预定比例将采集到的样本数据集划分为训练集和验证集，如训练集占80％，验证集占20％。

S03，基于前述训练集，采用梯度下降算法训练得到目标文本分类模型。在本发明中，目标文本分类模型优选为常用的文本分类模型——TEXTCNN模型，TextCNN是利用卷积神经网络对文本进行分类的模型，其包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。

S04，基于前述验证集，验证训练得到的目标文本分类模型的准确率 (Accuracy)、精确率(Precision)、召回率(Recall)和F1_score(F1分数)等性能是否满足预设条件，若满足，表示目标文本分类模型验证通过，则训练结束，否则，增加训练集中训练文本的数量并对目标分类模型进行重新训练。

S1，获取待处理文本，该待处理文本可以是投诉文本，例如，车险客户的投诉文本。

S2，利用训练得到的目标文本分类模型(TEXTCNN模型)对待处理文本进行处理，得到待处理文本的类别，具体通过如下步骤实现：

S21，通过TEXTCNN模型的嵌入层对待处理文本进行向量化处理，得到待处理文本的词向量；

S22，通过TEXTCNN模型的卷积层对待处理文本的词向量进行卷积处理，以提取待处理文本的特征；

S23，通过TEXTCNN模型的池化层对待处理文本的特征进行池化处理，得到待处理文本的降维特征；

S24，通过TEXTCNN模型的全连接层将待处理文本的降维特征传输至 Softmax分类层；

S25，通过TEXTCNN模型的Softmax分类层根据待处理文本的降维特征计算得到待处理文本对应各种分类标签的概率，并将概率最大的分类标签作为待处理文本的类别。

S3，对待处理文本进行分句处理。具体地，本发明可以按照句子级标点符号，如句号“。”、感叹号“！”、问号“？”等，对待处理文本进行分句。例如，假设待处理文本为以下投诉内容“申请的非事故救援，中间只有一个电话联系告知需要等两个小时过去，结果等了4个多小时还是没过去，对此不满投诉。客户称现在不需要我司救援了，自己找人救援。多次联系安联救援028-65200801 无人接听，客户要求我司给予个说法。烦请机构尽快处理回复，谢谢！”，则分句处理后得到以下四个句子：第1句为“申请的非事故救援，中间只有一个电话联系告知需要等两个小时过去，结果等了4个多小时还是没过去，对此不满投诉。”、第2句为“客户称现在不需要我司救援了，自己找人救援。”、第3句为“多次联系安联救援028-65200801无人接听，客户要求我司给予个说法。”、第4句为“烦请机构尽快处理回复，谢谢！”。

分句处理完成后，对每一句子分别设置对应的删除标志位，并将该删除标志位的初始值设为0，删除标志位为0时表示对应句子未被删除过。

S4，从待处理文本中随机选择某一未被删除过的句子进行删除，得到剩余文本。在前述某一句子被选中删除后，则将前述某一句子标注为已删除过，从而后续重复执行本步骤时，不会再对该句子进行删除。在本实施例中，将前述某一句子标注为已删除过是指：将该句子的删除标志位置为1，删除标位为1 时表示对应句子已被删除过。

S5，利用目标文本分类模型，即TEXTCNN模型，对剩余文本进行处理，得到剩余文本的类别，具体流程如下：

S51，通过TEXTCNN模型的嵌入层对剩余文本进行向量化处理，得到剩余文本的词向量；

S52，通过TEXTCNN模型的卷积层对剩余文本的词向量进行卷积处理，以提取剩余文本的特征；

S53，通过TEXTCNN模型的池化层对剩余文本的特征进行池化处理，得到剩余文本的降维特征；

S54，通过TEXTCNN模型的全连接层将剩余文本的降维特征传输至 Softmax分类层；

S55，通过TEXTCNN模型的Softmax分类层计算得到剩余文本对应每种分类标签的概率，并将概率最大的分类标签作为剩余文本的类别。

S6，判断删除前述某一句子得到的剩余文本的类别是否与待处理文本的类别相同，若相同，说明删除的前述某一句子对待处理文本的整体语义不重要，即，该句子应该从待处理文本的目标文本摘要中删除，则执行步骤S8；若不相同，执行步骤S7。

S7，若剩余文本的类别与待处理文本的类别不同，则说明删除的前述某一句子对文本的整体语义是重要的，即，该句子不应该从待处理文本的目标文本摘要中删除。因此，将该删除的句子恢复至待处理文本中，并执行步骤S8。

S8，判断待处理文本中所有句子是否均被删除过，即，判断所有句子的删除标志位是否都为1，若是，执行步骤S9，否则，返回步骤S4执行下一次循环处理。

S9，将待处理文本中所有句子均经过删除后最终得到的剩余文本作为待提取的目标文本摘要。

本发明的一个应用场景为：假设一待处理文本X包括A、B、C、D四个句子，该文本通过目标文本分类模型处理后得到的类型为M。采用本申请的方法处理时，首先随机删除句子D，若删除句子D后文本的类别仍为M，则说明句子D对文本X不重要，句子D可以删除，得到包括句子A、B、C的剩余文本；而后在剩余文本中随机删除句子C，若删除句子C后文本的类别不为M，则说明句子C对文本X重要，句子C删除不可以删除，则将其恢复，仍然得到包括句子A、B、C的剩余文本；而后，继续在剩余文本中循环随机删除未被删过的句子，由于句子C已被删除过，所以不再删除句子C，以此类推，将文本M中所有句子均被删除过得到的剩余文本作为摘要。以待处理文本为步骤S3中提供的投诉文本为例，假设通过TEXTCNN模型对该文本处理后得到的类别为“时效不达”，删除第1句后得到的类别发生改变，而删除第2、3或4句后得到的类别仍为“时效不达”，说明第1句对该投诉文本来说是关键的，而第2-4句对该文本来说是非关键的，应从其摘要中删除，从而得到该投诉文本的摘要为第 1句。

可见，本发明通过随机循环删减待处理文本中的句子，并计算句子删除之后的文本类别是否与删除之前相同，若相同，说明删除的句子对文本的语义贡献小，该句子应被删除，否则，说明删除的句子对文本的语义贡献大，该句子不应删除，则在文本中将该删除的句子恢复，当文本中的所有句子均被删除过时，将得到文本的摘要。由于本发明是基于分类模型实现的，而分类模型是基于语义训练的，因而基于本发明得到的摘要是结合文本整体语义的摘要，即，该摘要能够真正从语义方面去概况文本的整体信息，在兼顾文本处理速度性能的同时，提高了文本摘要生成的准确性。

作为本实施例优选的方案，本发明还包括在执行步骤S2之前，对获取到的待处理文本进行预处理，具体包括对待处理文本进行停用词过滤等预处理，即，检测待处理文本中是否有词与预设停用词表中的停用词匹配，若是，则将匹配的词删除。应该理解，停用词通常为无实际意义的虚词，如“的”、“地”、“得”、 “了”等。

需要说明的是，对于本实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

实施例二

如图2所示，本实施例提供一种文本摘要提取装置10，包括：

模型训练模块11，用于训练得到目标文本分类模型；

获取模块12，用于利用预先训练得到的目标文本分类模型对待处理文本进行处理，得到待处理文本的类别，其中，待处理文本可以为投诉文本；

循环删减处理模块13，用于针对待处理文本执行如下循环处理，直至待处理文本中的所有句子均经过删除：

从待处理文本中随机删除某一未经过删除的句子，得到剩余文本；

利用所述目标文本分类模型对剩余文本进行处理，得到剩余文本的类别；

判断剩余文本的类别是否与待处理文本的类别相同，若否，将删除的句子恢复至所述待处理文本中；

摘要获取模块14，用于获取循环处理结束后得到的剩余文本作为目标文本摘要。

在本实施例中，模型训练模块11包括：

样本数据集采集单元，用于采集样本数据集，样本数据集包含若干训练文本，各训练文本标注有对应的类别，其中，训练文本可以为投诉文本；

样本数据集划分单元，用于按预定比例将样本数据集划分为训练集和验证集；

训练单元，用于基于训练集，训练得到目标文本分类模型；

验证单元，用于基于验证集对目标文本分类模型进行验证，若验证通过，训练结束，否则，增加训练集中训练文本的数量并对目标分类模型进行重新训练。

在本实施例中，目标文本分类模型为TEXTCNN模型，TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。

在本实施例中，类别获取模块12具体用于：

通过TEXTCNN模型的嵌入层对待处理文本进行向量化处理，得到待处理文本的词向量；

通过TEXTCNN模型的卷积层对待处理文本的词向量进行卷积处理，以提取待处理文本的特征；

通过TEXTCNN模型的池化层对待处理文本的特征进行池化处理，得到待处理文本的降维特征；

通过TEXTCNN模型的全连接层将待处理文本的降维特征传输至Softmax 分类层；

通过TEXTCNN模型的Softmax分类层，根据待处理文本的降维特征计算得到待处理文本对应各种分类标签的概率，并将概率最大的分类标签作为待处理文本的类别。

在本实施例中，文本摘要提取装置10还可以包括预处理模块，用于在利用预先训练得到的目标文本分类模型对待处理文本进行处理之前，对待处理文本进行预处理，具体包括停用词过滤等预处理，即，检测待处理文本中是否有词与预设停用词表中的停用词匹配，若是，则将匹配的词删除。应该理解，停用词通常为无实际意义的虚词，如“的”、“地”、“得”、“了”等。

本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的模块作并不一定是本发明所必须的。

实施例三

本发明还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过***总线相互通信连接的存储器21、处理器22，如图3所示。需要指出的是，图3仅示出了具有组件21-22 的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备 20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡 (Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备 20的操作***和各类应用软件，例如实施例二的文本摘要提取装置10的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit， CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行文本摘要提取装置10，以实现实施例一的文本摘要提取方法。

实施例四

本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本摘要提取装置10，被处理器执行时实现实施例一的文本摘要提取方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本摘要提取方法，其特征在于，包括以下步骤：

利用预先基于语义训练得到的目标文本分类模型对待处理文本进行处理，得到所述待处理文本的类别；

判断所述剩余文本的类别与所述待处理文本的类别是否相同，若否，将删除的句子恢复至所述待处理文本中；

将循环处理结束后得到的剩余文本作为目标文本摘要。

2.根据权利要求1所述的文本摘要提取方法，其特征在于，所述目标文本分类模型通过如下步骤训练得到：

按预定比例将所述样本数据集划分为训练集和验证集；

基于所述训练集，训练得到所述目标文本分类模型；

3.根据权利要求2所述的文本摘要提取方法，其特征在于，所述待处理文本和训练文本为投诉文本。

4.根据权利要求3所述的文本摘要提取方法，其特征在于，所述待处理文本和训练文本的类别包括时效不达、价格异议和服务态度。

5.根据权利要求1所述的文本摘要提取方法，其特征在于，所述目标文本分类模型为TEXTCNN模型，所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。

6.根据权利要求5所述的文本摘要提取方法，其特征在于，所述利用预先基于语义训练得到的目标文本分类模型对待处理文本进行处理的步骤如下：

7.根据权利要求1所述的文本摘要提取方法，其特征在于，还包括：在利用预先训练得到的目标文本分类模型对待处理文本进行处理之前，对所述待处理文本进行预处理。

8.一种文本摘要提取装置，其特征在于，包括：

类别获取模块，用于利用预先基于语义训练得到的目标文本分类模型对待处理文本进行处理，得到所述待处理文本的类别；

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。