CN110263134B

CN110263134B - 智能化情感问答方法、装置及计算机可读存储介质

Info

Publication number: CN110263134B
Application number: CN201910386282.6A
Authority: CN
Inventors: 侯丽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2023-06-27
Anticipated expiration: 2039-05-09
Also published as: WO2020224099A1; CN110263134A

Abstract

本发明涉及一种人工智能技术，揭露了一种智能化情感问答方法，包括：接收问答数据集，并对所述问答数据集进行情感属性标注得到情感属性标注集，对所述问答数据集进行预处理和词向量化得到问答词向量集，将所述情感属性标注集和所述问答词向量集先输入至卷积神经网络模型中训练，所述卷积神经网络退出训练并将所述问答词向量集输入至循环神经网络，直至所述循环神经网络满足预设阈值要求时退出训练；接收用户问题并输入至所述卷积神经网络判断情感属性，基于所述循环神经网络输出所述用户问题的答案。本发明还提出一种智能化的情感问答装置以及一种计算机可读存储介质。本发明可以实现精准的智能化的情感问答功能。

Description

智能化情感问答方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种接收用户问题后智能化的给予所述问题答案的智能化情感问答方法、装置及计算机可读存储介质。

背景技术

目前大部分问答***的研究重点都关注在生成语句的语法和语义是否合理上，且所述问答***的答案生成方式大都基于上下文或结合主题，很少考虑到对话者的情感，如用户输入：昨天的考试我没有及格，多数问答***给予的回复一般如：竟然不是倒数，好神奇；用户输入：我养的狗今天去世了。回复：宠物狗特别容易死。但在现实生活中，如果对方通过语言表达出开心的情绪，通常情况下，对方的回复也应该是积极的情绪。如果对方通过语言表达出悲伤的情绪，往往另一方回应的内容也应是安慰等。因此，问答***带有情感的回复往往更能受到用户的欢迎。

发明内容

本发明提供一种智能化情感问答方法、装置及计算机可读存储介质，其主要目的在于当用户输入问题时，给用户呈现出具有情感倾向的答案结果。

为实现上述目的，本发明提供的一种智能化情感问答方法，包括：

通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集，将所述问题数据集与所述多种答案数据集组成问答数据集，并对所述问答数据集进行情感属性标注，得到与所述问答数据集对应的情感属性标注集；

对所述问答数据集进行包括分词和关键字抽取的预处理操作，并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作，得到问答词向量集，所述问答词向量集包括问题词向量集和答案词向量集；

将所述情感属性标注集输入至损失函数中，将所述问题词向量集输入至卷积神经网络模型中，利用所述卷积神经网络模型训练得到训练值，并将所述训练值输入至损失函数，利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值，判断所述损失值与预设阈值的大小关系，直至所述损失值小于预设阈值时，所述卷积神经网络退出训练；

当所述卷积神经网络退出训练后，所述卷积神经网络将所述问题词向量集输入至循环神经网络，同时提示所述循环神经网络接受所述答案词向量集进行训练，直至所述循环神经网络满足预设阈值要求时，退出训练；

接收用户问题，对所述用户问题进行所述预处理操作和所述词向量化操作后，输入至所述卷积神经网络判断情感属性类别，所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。

可选地，通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集，包括：

根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题，将所述以文本形式提问的问题组成问题数据集；

遍历所述问题数据集内的问题，使用所述网络爬虫技术从URL页面内爬取与所述问题对应的多种答案，直至所述问题数据集遍历结束，得到与所述问题数据集对应的多种答案数据集。

可选地，所述分词根据所述所述问答数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W₁，W₂，...，W_m为所述问答数据集内数据的词，m为所述问答数据集的数量；

所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W_i，W_j)为词W_i和词W_j的相关度，tfidf(W_i)为词W_i的词频与逆向频率值，tfidf(W_j)为词W_j的词频与逆向频率值，d为词W_i和词W_j关于词向量的欧式距离。

可选地，所述Word2Vec算法为CBOW模型；

所述CBOW模型包括输入层、投影层和输出层；

所述投影层ζ(ω，j)为：

其中，

表示在路径ω内，第j个结点对应的霍夫曼编码，θ为所述CBOW模型的迭代因子，σ表示sigmoid函数，X_ω为所述预处理操作完成的问答数据集。

可选地，所述循环神经网络为长短期记忆网络；

所述长短期记忆网络包括遗忘门、输入门、输出门；

所述遗忘门为：

f_t＝σ(w_t[h_t-1，x_t]+b_t)

其中，f_t为所述遗忘门的输出数据，x_t为所述遗忘门的输入数据，t为所述问答词向量集的当前时间，t-1为所述问答词向量集当前时间的前一个时间，h_t-1为所述输出门在所述问答词向量集当前时间的前一个时间的输出数据，w_t为所述当前时间的权重，b_t为所述当前时间的偏置，[]为矩阵乘法操作，σ表示所述sigmoid函数。

此外，为实现上述目的，本发明还提供一种智能化的情感问答装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的智能化的情感问答程序，所述智能化的情感问答程序被所述处理器执行时实现如下步骤：

可选地，所述Word2Vec算法为CBOW模型；

所述CBOW模型包括输入层、投影层和输出层；

所述投影层ζ(ω，j)为：

其中，

可选地，所述循环神经网络为长短期记忆网络；

所述长短期记忆网络包括遗忘门、输入门、输出门；

所述遗忘门为：

f_t＝σ(w_t[h_t-1，x_t]+b_t)

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化的情感问答程序，所述智能化的情感问答程序可被一个或者多个处理器执行，以实现如上所述的智能化情感问答方法的步骤。

由于卷积神经网络的多层网络结构能自动提取数据的深层特征，可学习不同层次的特征，从而大大提高对文本处理的准确率，同时循环神经网络会联系数据的前后时序状态进行高效判断，因此本发明提出的智能化情感问答方法、装置及计算机可读存储介质，可以实现精准的智能化的情感问答功能。

附图说明

图1为本发明一实施例提供的智能化情感问答方法的流程示意图；

图2为本发明一实施例提供的智能化的情感问答装置的内部结构示意图；

图3为本发明一实施例提供的智能化的情感问答装置中智能化的情感问答程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种智能化情感问答方法。参照图1所示，为本发明一实施例提供的智能化情感问答方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，智能化情感问答方法包括：

S1、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集，将所述问题数据集与所述多种答案数据集组成问答数据集，并对所述问答数据集进行情感属性标注，得到与所述问答数据集对应的情感属性标注集。

本发明较佳实施例，根据所述网络爬虫(Web crawler)技术从URL页面内爬取以文本形式提问的问题，将所述以文本形式提问的问题组成问题数据集。遍历所述问题数据集内的问题，使用所述网络爬虫技术从URL页面内爬取与所述问题对应的多种不同的答案，直至所述问题数据集遍历结束，得到与所述问题数据集对应的多种答案数据集；

本发明较佳实施例中，根据所述问题数据集，将所述多种答案数据集中的答案按照情感倾向进行情感属性标注，得到所述情感属性标注集，所述情感倾向包括幽默、诚恳、建议等。

S2、所述问答数据集进行包括分词和关键字抽取的预处理操作，并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作，得到问答词向量集，所述问答词向量集包括问题词向量集和答案词向量集。

本发明较佳实施例中，所述分词根据所述所述问答数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，f(W_i，W_j)为词W_i和词W_j的相关度，tfidf(W_i)为词W_i的词频与逆向频率值，tfidf(W_j)为词W_j的词频与逆向频率值，d为词W_i和词W_j关于词向量的欧式距离；

本发明较佳实施例所述Word2Vec算法为CBOW模型，所述CBOW模型包括输入层、投影层和输出层，所述投影层ζ(ω，j)为：

其中，

S3、将所述情感属性标注集输入至损失函数中，将所述问题词向量集输入至卷积神经网络模型中，利用所述卷积神经网络模型训练得到训练值，并将所述训练值输入至损失函数，利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值，判断所述损失值与预设阈值的大小关系，直至所述损失值小于预设阈值时，所述卷积神经网络退出训练。

本发明较佳实施例中，所述卷积神经网络包括卷积层、池化层、Flatten层、Dropout层和全连接层，且所述问题词向量集在时间维度上是一维向量的形式，所以所述卷积层与所述池化层的过滤器(filter)也是一维向量，同时为了防止过拟合现象，在所述卷积层与所述池化层中加入所述Dropout层；当多次卷积与池化操作后再扁平化数据，即所述Flatten层的作用，最后通过所述全连接层(Dense)输出所述训练值.

本发明较佳实施例所述损失值E为：

其中，x为所述训练值，μ_j为所述情感属性标注集，m为所述问答数据集的数量，所述预设阈值一般设定为0.01。

S4、当所述卷积神经网络退出训练后，所述卷积神经网络将所述问题词向量集输入至循环神经网络，同时提示所述循环神经网络接受所述答案词向量集进行训练，直至所述循环神经网络满足预设阈值要求时，退出训练。

本发明较佳实施例，所述循环神经网络为长短期记忆网络，所述长短期记忆网络包括遗忘门、输入门、输出门，所述遗忘门为：

f_t＝σ(w_t[h_t-1，x_t]+b_t)

S5、接收用户问题，对所述用户问题进行所述预处理操作和所述词向量化操作后，输入至所述卷积神经网络判断情感属性类别，所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。

发明还提供一种智能化的情感问答装置。参照图2所示，为本发明一实施例提供的智能化的情感问答装置的内部结构示意图。

在本实施例中，所述智能化的情感问答装置1可以是PC(PersonalComputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该智能化的情感问答装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能化的情感问答装置1的内部存储单元，例如该智能化的情感问答装置1的硬盘。存储器11在另一些实施例中也可以是智能化的情感问答装置1的外部存储设备，例如智能化的情感问答装置1上配备的插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括智能化的情感问答装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能化的情感问答装置1的应用软件及各类数据，例如智能化的情感问答程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行智能化的情感问答程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在智能化的情感问答装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能化的情感问答程序01的智能化的情感问答装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对智能化的情感问答装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有智能化的情感问答程序01；处理器12执行存储器11中存储的智能化的情感问答程序01时实现如下步骤：

步骤一、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集，将所述问题数据集与所述多种答案数据集组成问答数据集，并对所述问答数据集进行情感属性标注，得到与所述问答数据集对应的情感属性标注集。

步骤二、对所述问答数据集进行包括分词和关键字抽取的预处理操作，并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作，得到问答词向量集，所述问答词向量集包括问题词向量集和答案词向量集。

其中，

步骤三、将所述情感属性标注集输入至损失函数中，将所述问题词向量集输入至卷积神经网络模型中，利用所述卷积神经网络模型训练得到训练值，并将所述训练值输入至损失函数，利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值，判断所述损失值与预设阈值的大小关系，直至所述损失值小于预设阈值时，所述卷积神经网络退出训练。

本发明较佳实施例所述损失值E为：

步骤四、当所述卷积神经网络退出训练后，所述卷积神经网络将所述问题词向量集输入至循环神经网络，同时提示所述循环神经网络接受所述答案词向量集进行训练，直至所述循环神经网络满足预设阈值要求时，退出训练。

f_t＝σ(w_t[h_t-1，x_t]+b_t)

其中，f_t为所述遗忘门的输出数据，x_t为所述遗忘门的输入数据，t为所述问答词向量集的当前时间，t-1为所述问答词向量集当前时间的前一个时间，h_t-1为所述输出门在所述间答词向量集当前时间的前一个时间的输出数据，w_t为所述当前时间的权重，b_t为所述当前时间的偏置，[]为矩阵乘法操作，σ表示所述sigmoid函数。

步骤五、接收用户问题，对所述用户问题进行所述预处理操作和所述词向量化操作后，输入至所述卷积神经网络判断情感属性类别，所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。

可选地，在其他实施例中，智能化的情感问答程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述智能化的情感问答程序在智能化的情感问答装置中的执行过程。

例如，参照图3所示，为本发明智能化的情感问答装置一实施例中的智能化的情感问答程序的程序模块示意图，该实施例中，所述智能化的情感问答程序可以被分割为数据接收模块10、数据处理模块20、模型训练模块30、问答结果输出模块40示例性地：

所述数据接收模块10用于：从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集，将所述问题数据集与所述多种答案数据集组成问答数据集，并对所述问答数据集进行情感属性标注，得到与所述问答数据集对应的情感属性标注集。

所述数据处理模块20用于：对所述问答数据集进行包括分词和关键字抽取的预处理操作，并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作，得到问答词向量集，所述问答词向量集包括问题词向量集和答案词向量集。

所述模型训练模块30用于：将所述情感属性标注集输入至损失函数中，将所述问题词向量集输入至卷积神经网络模型中训练，所述卷积神经网络模型训练得到训练值，并将所述训练值输入至损失函数，所述损失函数根据所述情感属性标注集与所述训练值计算得到损失值，判断所述损失值与预设阈值的大小关系，直至所述损失值小于预设阈值时，所述卷积神经网络退出训练，当所述卷积神经网络退出训练后，所述卷积神经网络将所述问题词向量集输入至循环神经网络，同时提示所述循环神经网络接受所述答案词向量集进行训练，直至所述循环神经网络满足预设阈值要求时，退出训练。

所述问答结果输出模块40用于：接收用户问题，对所述用户问题进行所述预处理操作和所述词向量化操作后，输入至所述卷积神经网络判断情感属性类别，所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。

上述数据接收模块10、数据处理模块20、模型训练模块30、问答结果输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化的情感问答程序，所述智能化的情感问答程序可被一个或多个处理器执行，以实现如下操作：

从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集，将所述问题数据集与所述多种答案数据集组成问答数据集，并对所述问答数据集进行情感属性标注，得到与所述问答数据集对应的情感属性标注集。

对所述问答数据集进行包括分词和关键字抽取的预处理操作，并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作，得到问答词向量集，所述问答词向量集包括问题词向量集和答案词向量集。

将所述情感属性标注集输入至损失函数中，将所述问题词向量集输入至卷积神经网络模型中训练，所述卷积神经网络模型训练得到训练值，并将所述训练值输入至损失函数，所述损失函数根据所述情感属性标注集与所述训练值计算得到损失值，判断所述损失值与预设阈值的大小关系，直至所述损失值小于预设阈值时，所述卷积神经网络退出训练，当所述卷积神经网络退出训练后，所述卷积神经网络将所述问题词向量集输入至循环神经网络，同时提示所述循环神经网络接受所述答案词向量集进行训练，直至所述循环神经网络满足预设阈值要求时，退出训练。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。