CN110705268A

CN110705268A - 基于人工智能的文章主旨提取方法、装置及计算机可读存储介质

Info

Publication number: CN110705268A
Application number: CN201910826795.4A
Authority: CN
Inventors: 陈一峰; 周骏红; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-17
Anticipated expiration: 2039-09-02
Also published as: WO2021042517A1; CN110705268B

Abstract

本发明涉及一种人工智能技术，揭露了一种基于人工智能的文章主旨提取方法，包括：接收文本数据集，对所述文本数据集进行包括词语切分及合并操作得到单词文本集，将所述单词文本集进行编码操作后转为单词矩阵集，将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集，将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练，将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型中得到文章主旨并输出。本发明还提出一种基于人工智能的文章主旨提取装置以及一种计算机可读存储介质。本发明可以实现精准高效的基于人工智能的文章主旨提取功能。

Description

基于人工智能的文章主旨提取方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的文章主旨提取的方法、装置及计算机可读存储介质。

背景技术

目前多数文章的主旨都依靠专业的行业人士进行分析，如人工阅读研究企业发展报告，然后总结出主旨让高层领导决策，学术报告被相关人士进行总结后简化出主旨供其他人学习等，这种模式特别耗时耗力。另外有基于传统的朴素贝叶斯算法进行的文章主旨摘取，但由于朴素贝叶斯算法计算资源大，且摘取的主旨错误率较高，无法满足实际要求。

发明内容

本发明提供一种基于人工智能的文章主旨提取方法、装置及计算机可读存储介质，其主要目的是根据用户输入的文章进行智能化的主旨提取。

为实现上述目的，本发明提供的一种基于人工智能的文章主旨提取方法，包括：

接收文本数据集，对所述文本数据集进行包括词语切分及合并操作得到单词文本集；

将所述单词文本集进行编码操作后转为单词矩阵集，将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集；

将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值，判断所述训练值与预设阈值的大小，若所述训练值大于所述预设阈值，所述卷积神经网络模型继续训练，若所述训练值小于所述预设阈值，所述卷积神经网络模型完成训练；

接收用户输入的文本数据，将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型中，得到文章主旨并输出。

可选地，所述合并操作包括：

遍历所述文本数据集中的每个文本数据，按照段落划分所述文本数据得到若干个段落；

将所述若干个段落中出现次数大于等于两次的词语预设为假设主语，构建所述若干个段落中每个句子与所述假设主语的条件概率模型；

构建对数似然函数，并基于所述对数似然函数优化所述条件概率模型得到所述每个句子的主语，将主语相同的若干个句子合并为一个句子，完成所述合并操作。

可选地，所述条件概率模型为：

其中，y₁，…，y_N，y_i为所述假设主语，N为所述假设主语的个数，D为所述段落，j为所述段落的编号，s为所述段落内的句子，P(y_i|s)为假设主语y_i为句子s的主语的概率，s(i，y_i)表示所述句子i的假设主语为y_i。

可选地，所述编码操作包括：

将所述单词文本集内的每个单词进行数字编号并得到最大的数字编号；

创建与所述最大的数字编号维度相同的编码矩阵，依次遍历所述单词文本集内的句子，将所述句子都映射到所述编码矩阵；

依据所述单词文本集内的每个单词的数字编号对所述编码矩阵进行处理得到单词矩阵集。

可选地，所述降维操作包括：

计算所述单词向量集中各单词向量的协方差；

去除协方差中绝对值大于预设协方差阈值的单词向量，得到降维后的单词向量集。

此外，为实现上述目的，本发明还提供一种基于人工智能的文章主旨提取装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的基于人工智能的文章主旨提取程序，所述基于人工智能的文章主旨提取程序被所述处理器执行时实现如下步骤：

可选地，所述合并操作包括：

可选地，所述条件概率模型为：

可选地，所述编码操作包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于人工智能的文章主旨提取程序，所述基于人工智能的文章主旨提取程序可被一个或者多个处理器执行，以实现如上所述的基于人工智能的文章主旨提取方法的步骤。

本发明首先对文本数据集进行词语切分及合并操作得到单词文本集，可避免错误词语对整个文章主旨的影响，同时将所述单词文本集进行编码操作和词向量转化得到单词向量集，通过所述编码操作和所述词向量转化在减少单词维度的同时，放大特征属性，进一步地，所述卷积神经网络模型具有优异的特征提取能力，可高效的识别出单词特征，提高文章主旨的输出准确率。因此本发明提出的基于人工智能的文章主旨提取方法、装置及计算机可读存储介质，可以实现精准的文章主旨输出结果。

附图说明

图1为本发明一实施例提供的基于人工智能的文章主旨提取方法的流程示意图；

图2为本发明一实施例提供的基于人工智能的文章主旨提取装置的内部结构示意图；

图3为本发明一实施例提供的基于人工智能的文章主旨提取装置中基于人工智能的文章主旨提取程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于人工智能的文章主旨提取方法。参照图1所示，为本发明一实施例提供的基于人工智能的文章主旨提取方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于人工智能的文章主旨提取方法包括：

S1、接收文本数据集，对所述文本数据集进行包括词语切分及合并操作得到单词文本集。

较佳地，所述文本数据集包括多种类型的文本，如新闻类、社交类、学术类、政府发展规划类、企业投资类等。

所述清洗是将所述文本数据集内的停用词、***字母等异形词剔除，因为没有实际意义的异形词，会降低文本分类效果。所述停用词是没有实际意义的且对文本分析没有什么影响，但出现频率高的词，如常用的代词、介词等。具体地，所述清洗是预先构建一副异形词表格，依次遍历所述文本数据集内的词语，若所述词语与所述异形词表格内有相同的则剔除，直至遍历完成。

所述词语切分是对所述文本数据集中的每句话进行切分得到单个的词，因为在汉语表示中，词和词之间没有明确的分隔标识，所以切词是必不可少的。较佳地，本发明所述切词可以使用基于Python、JAVA等编程语言的结巴分词库进行处理，所述结巴分词库是基于中文词性特征而针对研发的，是将所述文本数据集中每个词的出现次数转换为频率，并基于动态规划查找最大概率路径，找出基于词频的最大切分组合。例如，所述文本数据集中有这样的文本片段为：当人懂得和体制交换的时候，他们可以将真实的自己和盘托出，因为他们的眼里，在与体制作出等价交换以前，真实对他们什么也不是。经过所述结巴分词库进行处理后变为：当人懂得和体制交换的时候，他们可以将真实的自己和盘托出，因为他们的眼里，在与体制作出等价交换以前，真实对他们什么也不是。其中，空格部分代表所述结巴分词库的处理结果。

进一步地，由于多个句子的主语可能是相同的，因此所述合并是将多个具有相同主语的句子进行合并，达到大幅缩减所述文本数据集内词语的目的。优选地，所述合并包括：遍历所述文本数据集中的每个文本，按照段落划分所述文本得到若干个段落，将每个段落中出现次数大于等于两次的词语预设为假设主语，构建所述每个段落中每个句子与所述假设主语的条件概率模型，构建对数似然函数，并基于所述对数似然函数优化所述条件概率模型得到所述每个句子的主语，将主语相同的若干个句子合并为一个句子，完成所述合并操作。

具体地，所述条件概率模型为：

其中，y₁，…，y_N，y_i为所述假设主语，N为所述假设主语的个数，D为所述段落，j为所述段落的编号，如D₁为所述文本的第一段，s为所述段落内的句子，P(y_i|s)为假设主语y_i为句子s的主语的概率，s(i，y_i)表示所述句子i的假设主语为y_i。

优选地，所述对数似然函数为：

其中argmax是求解所述条件概率模型对所有所述假设主语偏导数最大所对应的假设主语。

S2、将所述单词文本集进行编码操作后转为单词矩阵集，将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集。

较佳地，所述编码采用one-hot编码形式，所述one-hot编码是先将所述单词文本集内的每个单词进行数字编号并得到最大的数字编号，然后创建与所述最大的数字编号维度相同的编码矩阵，依次遍历所述单词文本集内的每个句子，将所述每个句子都映射到所述编码矩阵，并依据所述单词文本集内的每个单词的数字编号完成编码操作得到单词矩阵集。如单词文本集为：当人懂得和体制交换的时候，他们可以将真实的自己和盘托出，这就是现实。对所述文本进行数字编号后为：当¹人²懂得³和⁴体制⁵交换的⁶时候⁷，他们⁸可以⁹将¹⁰真实的¹¹自己¹²和盘托出¹³，这就是¹⁴现实¹⁵，且得到最大的数字编号为15，进而创建一个15维度的编码矩阵，进一步的，若遍历句子为：这就是现实，则编码后为[0，0，0，0，0，0，0，0，0，0，0，0，0，1，1]。

优选地，所述词向量转化模型包括假设出所述单词矩阵集内的单词矩阵与所述单词向量集内的单词词向量之间的权重关系、基于所述权重关系计算所述权重完成所述单词矩阵集到所述单词向量集之间转化过程。

具体地，所述权重关系为：

d＝{(t₁，w₁)，(t₂，w₂)，......，(t_i，w_i)，......，(t_n，w_n)}

其中，d为所述单词矩阵集，t₁、t₂、......、t_n为所述单词矩阵集内的单词矩阵，如上述[0，0，0，0，0，0，0，0，0，0，0，0，0，1，1]等，w₁、w₂、......、w_n为所述对应单词矩阵的权重。

进一步地，所述权重的计算方法为：

其中，f_i表示单词矩阵在所述单词矩阵集中出现的次数，N为所述文本数据集中文本的总数，N_j表示所述文本数据集中单词总数，N_i表示单词i在所述文本数据集的出现次数，F_m为加权因子，一般取值为小于1。

S3、将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值，判断所述训练值与预设阈值的大小，若所述训练值大于所述预设阈值，所述卷积神经网络模型继续训练，若所述训练值小于所述预设阈值，所述卷积神经网络模型完成训练。

优选地，所述降维操作包括计算所述单词向量集中各单词向量的协方差，去除协方差中绝对值大于预设协方差阈值的单词向量，得到降维后的单词向量集。

进一步地，所述协方差为：

其中，x_i，x_j表示所述单词向量集各单词向量，n为所述单词向量集的数量，cov(x_i，x_j)表示计算x_i，x_j之间的协方差。若所计算的协方差cov(x_i，x_j)不为0，若大于0表示正相关，小于0表示负相关。

本发明较佳实施例中，所述卷积神经网络模型包括输入层、卷积层、池化层、全连接层和输出层，所述输入层接收所述单词向量集，所述卷积层、池化层、全连接层结合激活函数训练得到训练值并通过输出层输出。

本发明较佳实施例所述激活函数可包括Softmax函数，所述损失函数为最小二乘函数。所述Softmax函数为：

其中，O_j表示所述全连接层第j个神经元的输出值，I_j表示所述输出层第j个神经元的输入值，t表示所述输出层神经元的总量，e为无限不循环小数；

所述最小二乘法L(s)为：

其中，s为所述训练值，k为经过降维后的单词向量集的数量，y_i为所述单词向量集，y′_i为所述卷积神经网络模型的预测值。

S4、接收用户输入的文本数据，将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型中，得到文章主旨并输出。

如接受到用户输入的一篇描写古时文字狱的文章，经过所述所述完成训练的卷积神经网络模型输出了文章主旨为：所述描写古时文字狱的文章揭露了封建统治下对文人墨客的苛酷***，表现了作者对知识份子的深切同情以及对残暴统治的强烈愤恨。

发明还提供一种基于人工智能的文章主旨提取装置。参照图2所示，为本发明一实施例提供的基于人工智能的文章主旨提取装置的内部结构示意图。

在本实施例中，所述基于人工智能的文章主旨提取装置1可以是PC(PersonalComputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该基于人工智能的文章主旨提取装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于人工智能的文章主旨提取装置1的内部存储单元，例如该基于人工智能的文章主旨提取装置1的硬盘。存储器11在另一些实施例中也可以是基于人工智能的文章主旨提取装置1的外部存储设备，例如基于人工智能的文章主旨提取装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于人工智能的文章主旨提取装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于人工智能的文章主旨提取装置1的应用软件及各类数据，例如基于人工智能的文章主旨提取程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于人工智能的文章主旨提取程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于人工智能的文章主旨提取装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及基于人工智能的文章主旨提取程序01的基于人工智能的文章主旨提取装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于人工智能的文章主旨提取装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有基于人工智能的文章主旨提取程序01；处理器12执行存储器11中存储的基于人工智能的文章主旨提取程序01时实现如下步骤：

步骤一、接收文本数据集，对所述文本数据集进行包括词语切分及合并操作得到单词文本集。

具体地，所述条件概率模型为：

优选地，所述对数似然函数为：

步骤二、将所述单词文本集进行编码操作后转为单词矩阵集，将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集。

具体地，所述权重关系为：

d＝{(t₁，w₁)，(t₂，w₂)，......，(t_i，w_i)，......，(t_n，w_n))

进一步地，所述权重的计算方法为：

步骤三、将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值，判断所述训练值与预设阈值的大小，若所述训练值大于所述预设阈值，所述卷积神经网络模型继续训练，若所述训练值小于所述预设阈值，所述卷积神经网络模型完成训练。

进一步地，所述协方差为：

所述最小二乘法L(s)为：

步骤四、接收用户输入的文本数据，将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型中，得到文章主旨并输出。

可选地，在其他实施例中，基于人工智能的文章主旨提取程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述基于人工智能的文章主旨提取程序在基于人工智能的文章主旨提取装置中的执行过程。

例如，参照图3所示，为本发明基于人工智能的文章主旨提取装置一实施例中的基于人工智能的文章主旨提取程序的程序模块示意图，该实施例中，所述基于人工智能的文章主旨提取程序可以被分割为数据接收模块10、词向量求解模块20、模型训练模块30、文章主旨输出模块40示例性地：

所述数据接收模块10用于：接收文本数据集，对所述文本数据集进行包括词语切分及合并操作得到单词文本集。

所述词向量求解模块20用于：将所述单词文本集进行编码操作后转为单词矩阵集，将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集。

所述模型训练模块30用于：将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值，判断所述训练值与预设阈值的大小，若所述训练值大于所述预设阈值，所述卷积神经网络模型继续训练，若所述训练值小于所述预设阈值，所述卷积神经网络模型完成训练。

所述文章主旨输出模块40用于：接收用户输入的文本数据，将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型中，得到文章主旨并输出。

上述数据接收模块10、词向量求解模块20、模型训练模块30、文章主旨输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于人工智能的文章主旨提取程序，所述基于人工智能的文章主旨提取程序可被一个或多个处理器执行，以实现如下操作：

接收文本数据集，对所述文本数据集进行包括词语切分及合并操作得到单词文本集。

将所述单词文本集进行编码操作后转为单词矩阵集，将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集。

将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值，判断所述训练值与预设阈值的大小，若所述训练值大于所述预设阈值，所述卷积神经网络模型继续训练，若所述训练值小于所述预设阈值，所述卷积神经网络模型完成训练。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人工智能的文章主旨提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于人工智能的文章主旨提取方法，其特征在于，所述合并操作包括：

3.如权利要求2所述的基于人工智能的文章主旨提取方法，其特征在于，所述条件概率模型为：

4.如权利要求1至3项中任意一项所述的基于人工智能的文章主旨提取方法，其特征在于，所述编码操作包括：

5.如权利要求4所述的基于人工智能的文章主旨提取方法，其特征在于，所述降维操作包括：

计算所述单词向量集中各单词向量的协方差；

6.一种基于人工智能的文章主旨提取装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的基于人工智能的文章主旨提取程序，所述基于人工智能的文章主旨提取程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的基于人工智能的文章主旨提取装置，其特征在于，所述合并操作包括：

8.如权利要求7所述的基于人工智能的文章主旨提取装置，其特征在于，所述条件概率模型为：

9.如权利要求6至8项中任意一项所述的基于人工智能的文章主旨提取装置，其特征在于，所述编码操作包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于人工智能的文章主旨提取程序，所述基于人工智能的文章主旨提取程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的基于人工智能的文章主旨提取方法的步骤。