CN110717333A

CN110717333A - 文章摘要自动生成方法、装置及计算机可读存储介质

Info

Publication number: CN110717333A
Application number: CN201910840724.XA
Authority: CN
Inventors: 刘媛源; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-21
Anticipated expiration: 2039-09-02
Also published as: WO2021042529A1; CN110717333B

Abstract

本发明涉及一种人工智能技术，揭露了一种文章摘要自动生成方法，包括：接收原始文章数据集及原始摘要数据集并进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集，将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后得到训练集及标签集，将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练得到训练值，若所述训练值小于预设阈值时，所述摘要自动生成模型退出训练，接收用户输入的文章，将所述文章进行上述预处理、词向量化及词向量编码后输入至所述摘要自动生成模型生成摘要并输出。本发明还提出一种文章摘要自动生成装置以及一种计算机可读存储介质。本发明可以实现精准高效的文章摘要自动生成功能。

Description

文章摘要自动生成方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对原始文章数据集中的深度学习进而组成文章摘要的方法、装置及计算机可读存储介质。

背景技术

目前已有提取摘要的方法主要是基于抽取式摘要提取方法，通过对句子进行打分排序得到重要性较高的句子。由于对句子进行打分时容易造成评分误操作，且生成的摘要由于缺乏连接词等，使得摘要语句不够通顺，缺乏灵活性。

发明内容

本发明提供一种文章摘要自动生成方法、装置及计算机可读存储介质，其主要目的在于对原始文章数据集进行深度学习从而得到文章摘要的方法。

为实现上述目的，本发明提供的一种文章摘要自动生成方法，包括：

接收原始文章数据集及原始摘要数据集，并对所述原始文章数据集及原始摘要数据集进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集；

将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后分别得到训练集及标签集；

将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练并得到训练值，若所述训练值小于预设阈值时，所述摘要自动生成模型退出训练；

接收用户输入的文章，将所述文章进行上述预处理、词向量化及词向量编码后输入至所述摘要自动生成模型生成摘要并输出。

可选地，所述原始文章数据集包括投资研究报告、学术论文、政府规划书；

所述原始摘要数据集是对所述原始文章数据集内各文本数据的总结。

可选地，所述词向量化包括：

其中，i表示所述初级文章数据集内词的编号，vⁱ表示词i的N维矩阵向量，v_j是所述N维矩阵向量的第j个元素。

可选地，所述词向量编码包括：

建立前向概率模型和后向概率模型；

最优化所述前向概率模型及所述后向概率模型得到最优化解，所述最优化解包括所述训练集与所述标签集。

可选地，所述最优化为：

其中，max表示最优化，

表示求偏导，vⁱ表示词i的N维矩阵向量，所述初级文章数据集及初级摘要数据集共有s个词，p(v^k|v¹，v²，...，v^k-1)为所述前向概率模型，p(v^k|v^k+1，v^k ⁺²，...，v^s)为所述后向概率模型。

此外，为实现上述目的，本发明还提供一种文章摘要自动生成装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的文章摘要自动生成程序，所述文章摘要自动生成程序被所述处理器执行时实现如下步骤：

可选地，所述词向量化包括：

可选地，所述词向量编码包括：

建立前向概率模型和后向概率模型；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文章摘要自动生成程序，所述文章摘要自动生成程序可被一个或者多个处理器执行，以实现如上所述的文章摘要自动生成方法的步骤。

本发明对所述原始文章数据集及原始摘要数据集进行包括切词、去停用词的预处理，可以有效提取出可能属于文章摘要的词语，进一步地，通过词向量化及词向量编码，在不损失特征精准的同时，可高效的让计算机进行分析，最后基于预先构建的摘要自动生成模型中进行训练，从而得到当前的文章摘要。因此本发明提出的文章摘要自动生成方法、装置及计算机可读存储介质，可以实现精准高效且连贯的文章摘要内容。

附图说明

图1为本发明一实施例提供的文章摘要自动生成方法的流程示意图；

图2为本发明一实施例提供的文章摘要自动生成装置的内部结构示意图；

图3为本发明一实施例提供的文章摘要自动生成装置中文章摘要自动生成程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种文章摘要自动生成方法。参照图1所示，为本发明一实施例提供的文章摘要自动生成方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，文章摘要自动生成方法包括：

S1、接收原始文章数据集及原始摘要数据集，并分别对所述原始文章数据集及原始摘要数据集进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集。

较佳地，原始文章数据集包括投资研究报告、学术论文、政府规划总结等，本发明较佳实施例中，所述原始文章数据集不包括摘要部分，所述原始摘要数据集为所述原始文章数据集对应文章的摘要。如投资研究报告A主要论述的是公司未来投资方向可围绕互联网教育行业而开展的一篇几千甚至几万字的论述，则所述原始摘要数据集是对所述投资研究报告A的摘要总结，一般可以为几百字甚至几十字等。

所述切词是对所述原始文章数据集及原始摘要数据集中的每句话进行切分得到单个的词，因为在汉语表示中，词和词之间没有明确的分隔标识，所以切词是必不可少的。较佳地，本发明所述切词使用基于Python、JAVA等编程语言的结巴分词库进行处理，所述结巴分词库是基于中文词性特征而针对研发的，是将所述原始文章数据集及原始摘要数据集中每个词的出现次数转换为频率，并基于动态规划查找最大概率路径,找出基于词频的最大切分组合，如所述原始文章数据集中有投资研究报告A的文本为：在商品经济环境中，企业要根据市场情况，制定合格的销售模式，争取扩大市场份额，稳定销售价格，提高产品竞争能力。因此，在可行性分析中，要对市场营销模式进行研究。经过所述结巴分词库进行处理后变为：在商品经济环境中，企业要根据市场情况，制定合格的销售模式，争取扩大市场份额，稳定销售价格，提高产品竞争能力。因此，在可行性分析中，要对市场营销模式进行研究。其中，空格部分代表所述结巴分词库的处理结果。

所述去停用词是在所述原始文章数据集及原始摘要数据集中没有什么实际意义的那些，且对文本的分类没有什么影响，但出现频率高，包括常用的代词、介词等。研究表明，没有实际意义的停用词，会降低文本分类效果。所以，在文本数据预处理过程中非常关键的步骤之一是去停用词。在本发明实施例中，所选取的去停用词的方法为停用词表过滤，也就是通过已经构建好的停用词表和文本数据中的词语进行一一匹配，如果匹配成功，那么这个词语就是停用词，需要将该词删除。如上已经过结巴分词后再经过停用词预处理得到的为：商品经济环境，企业根据市场情况，制定合格销售模式，争取扩大市场份额，稳定销售价格，提高产品竞争能力。因此，可行性分析，市场营销模式研究。

S2、将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后分别得到训练集及标签集。

较佳地，所述词向量化是将所述初级文章数据集及初级摘要数据集的任意一个词用一个N维的矩阵向量表示，其中，N是所述初级文章数据集或所述初级摘要数据集中总共包含词的个数，在本案中，使用以下公式对词进行初始向量化

其中，i表示词的编号，vⁱ表示词i的N维矩阵向量，假设共有s个词，v_j是所述N维矩阵向量的第j个元素。

进一步地，所述词向量编码是将所述生成的N维矩阵向量缩短为维度更小更容易计算以供后续自动生成模型训练的数据，即将所述初级文章数据集最终转化为训练集，将所述初级摘要数据集最终转化为标签集。

较佳地，所述词向量编码先建立前向概率模型和后向概率模型，然后最优化所述前向概率模型及所述后向概率模型得到最优化解，所述最优化解即为所述训练集与所述标签集。

进一步地，所述前向概率模型及所述后向概率模型分别为：

最优化所述前向概率模型及所述后向概率模型：

其中max表示最优化，

表示求偏导，vⁱ表示词i的N维矩阵向量，所述初级文章数据集及初级摘要数据集共有s个词，进一步地，当最优化所述前向概率模型及所述后向概率模型后，所述N维矩阵向量的维度被缩减到更小，完成所述词向量编码过程得到所述训练集与标签集。

S3、将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练并得到训练值，若所述训练值小于预设阈值时，所述摘要自动生成模型退出训练。

较佳地，所述摘要自动生成模型包括语言预测模型，所述语言预测模型可以根据给定词x₁，...，x_l，通过计算预测概率的形式预测x_l+1。本发明较佳实施例中，所述预测概率为：

P(x_l+1＝v_j|x_l，…，x₁)。

进一步地，所述摘要自动生成模型还包括输入层、隐藏层和输出层。其中所述输入层有n个输入单元，所述输出层有m个输出单元，对应m种特征选择结果，所述隐藏层的单元数为q，用表示输入层单元i与隐藏层单元q之间的连接权重，B代表所述输入层到所述隐藏层，用

表示隐藏层单元q与输出层单元j之间的连接权值，Z代表所述隐藏层到所述输出层。其中，隐藏层的输出O_q为：

输出层第j单元的输出值y_i为：

其中，所述输出值y_i即为训练值，θ_q为所述隐藏层的阙值，δ_j为所述输出层的阙值，j＝1，2，...，m，X_i为所述训练集的特征，sotfmax()为激活函数。

进一步地，当所述摘要自动生成模型得到训练值y_i后，联合标签集内的值

进行误差衡量，并将所述误差达到最小，所述误差衡量J(θ)为：

其中，s为所述标签集内的特征数量。较佳地，当所述小于预设阈值后，所述摘要自动生成模型退出训练。

S4、接收用户输入的文章，将所述文章进行上述预处理、词向量化及词向量编码后输入至所述摘要自动生成模型生成摘要并输出。

较佳地，如接受到用户的一篇学术论文，基于预处理及词向量化后输入至摘要自动生成模型中后得到所述学术论文的摘要，所述摘要即是对所述学术论文的总结。

发明还提供一种文章摘要自动生成装置。参照图2所示，为本发明一实施例提供的文章摘要自动生成装置的内部结构示意图。

在本实施例中，所述文章摘要自动生成装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该文章摘要自动生成装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文章摘要自动生成装置1的内部存储单元，例如该文章摘要自动生成装置1的硬盘。存储器11在另一些实施例中也可以是文章摘要自动生成装置1的外部存储设备，例如文章摘要自动生成装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括文章摘要自动生成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文章摘要自动生成装置1的应用软件及各类数据，例如文章摘要自动生成程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行文章摘要自动生成程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在文章摘要自动生成装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及文章摘要自动生成程序01的文章摘要自动生成装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对文章摘要自动生成装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有文章摘要自动生成程序01；处理器12执行存储器11中存储的文章摘要自动生成程序01时实现如下步骤：

步骤一、接收原始文章数据集及原始摘要数据集，并分别对所述原始文章数据集及原始摘要数据集进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集。

步骤一、将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后分别得到训练集及标签集。

进一步地，所述前向概率模型及所述后向概率模型分别为：

最优化所述前向概率模型及所述后向概率模型：

其中max表示最优化，

步骤三、将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练并得到训练值，若所述训练值小于预设阈值时，所述摘要自动生成模型退出训练。

P(x_l+1＝v_j|x_l，…，x₁)。

进一步地，所述摘要自动生成模型还包括输入层、隐藏层和输出层。其中所述输入层有n个输入单元，所述输出层有m个输出单元，对应m种特征选择结果，所述隐藏层的单元数为q，用

表示输入层单元i与隐藏层单元q之间的连接权重，B代表所述输入层到所述隐藏层，用

输出层第j单元的输出值y_i为：

进一步地，当所述摘要自动生成模型得到训练值y_i后，联合标签集内的值进行误差衡量，并将所述误差达到最小，所述误差衡量J(θ)为：

其中，s为所述标签集内的特征数量。较佳地，当所述

小于预设阈值后，所述摘要自动生成模型退出训练。

步骤四、接收用户输入的文章，将所述文章进行上述预处理、词向量化及词向量编码后输入至所述摘要自动生成模型生成摘要并输出。

可选地，在其他实施例中，文章摘要自动生成程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述文章摘要自动生成程序在文章摘要自动生成装置中的执行过程。

例如，参照图3所示，为本发明文章摘要自动生成装置一实施例中的文章摘要自动生成程序的程序模块示意图，该实施例中，所述文章摘要自动生成程序可以被分割为数据接收及处理模块10、词向量转化模块20、模型训练模块30、文章摘要输出模块40示例性地：

所述数据接收及处理模块10用于：接收原始文章数据集及原始摘要数据集，并对所述原始文章数据集及原始摘要数据集进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集。

所述词向量转化模块20用于：将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后分别得到训练集及标签集。

所述模型训练模块30用于：将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练并得到训练值，若所述训练值小于预设阈值时，所述摘要自动生成模型退出训练。

所述文章摘要输出模块40用于：接收用户输入的文章，将所述文章进行上述预处理、词向量化及词向量编码后输入至所述摘要自动生成模型生成摘要并输出。

上述数据接收及处理模块10、词向量转化模块20、模型训练模块30、文章摘要输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有文章摘要自动生成程序，所述文章摘要自动生成程序可被一个或多个处理器执行，以实现如下操作：

接收原始文章数据集及原始摘要数据集，并对所述原始文章数据集及原始摘要数据集进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集。

将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后分别得到训练集及标签集。

将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练并得到训练值，若所述训练值小于预设阈值时，所述摘要自动生成模型退出训练。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文章摘要自动生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的文章摘要自动生成方法，其特征在于，所述原始文章数据集包括投资研究报告、学术论文、政府规划书；

3.如权利要求2所述的文章摘要自动生成方法，其特征在于，所述词向量化包括：

4.如权利要求1至3中任意一项所述的文章摘要自动生成方法，其特征在于，所述词向量编码包括：

建立前向概率模型和后向概率模型；

5.如权利要求4所述的文章摘要自动生成方法，其特征在于，所述最优化为：

其中，max表示最优化，

表示求偏导，vⁱ表示词i的N维矩阵向量，所述初级文章数据集及初级摘要数据集共有s个词，p(v^k|v¹,v²,…,v^k-1)为所述前向概率模型，p(v^k|v^k+1,v^k ⁺²,…,v^s)为所述后向概率模型。

6.一种文章摘要自动生成装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的文章摘要自动生成程序，所述文章摘要自动生成程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的文章摘要自动生成装置，其特征在于，述原始文章数据集包括投资研究报告、学术论文、政府规划书；

8.如权利要求7所述的文章摘要自动生成装置，其特征在于，所述词向量化包括：

9.如权利要求6至8中任意一项所述的文章摘要自动生成装置，其特征在于，所述词向量编码包括：

建立前向概率模型和后向概率模型；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文章摘要自动生成程序，所述文章摘要自动生成程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的文章摘要自动生成方法的步骤。