CN110263134B - 智能化情感问答方法、装置及计算机可读存储介质 - Google Patents

智能化情感问答方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110263134B
CN110263134B CN201910386282.6A CN201910386282A CN110263134B CN 110263134 B CN110263134 B CN 110263134B CN 201910386282 A CN201910386282 A CN 201910386282A CN 110263134 B CN110263134 B CN 110263134B
Authority
CN
China
Prior art keywords
question
answer
word
data set
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910386282.6A
Other languages
English (en)
Other versions
CN110263134A (zh
Inventor
侯丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910386282.6A priority Critical patent/CN110263134B/zh
Priority to PCT/CN2019/102194 priority patent/WO2020224099A1/zh
Publication of CN110263134A publication Critical patent/CN110263134A/zh
Application granted granted Critical
Publication of CN110263134B publication Critical patent/CN110263134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种人工智能技术,揭露了一种智能化情感问答方法,包括:接收问答数据集,并对所述问答数据集进行情感属性标注得到情感属性标注集,对所述问答数据集进行预处理和词向量化得到问答词向量集,将所述情感属性标注集和所述问答词向量集先输入至卷积神经网络模型中训练,所述卷积神经网络退出训练并将所述问答词向量集输入至循环神经网络,直至所述循环神经网络满足预设阈值要求时退出训练;接收用户问题并输入至所述卷积神经网络判断情感属性,基于所述循环神经网络输出所述用户问题的答案。本发明还提出一种智能化的情感问答装置以及一种计算机可读存储介质。本发明可以实现精准的智能化的情感问答功能。

Description

智能化情感问答方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种接收用户问题后智能化的给予所述问题答案的智能化情感问答方法、装置及计算机可读存储介质。
背景技术
目前大部分问答***的研究重点都关注在生成语句的语法和语义是否合理上,且所述问答***的答案生成方式大都基于上下文或结合主题,很少考虑到对话者的情感,如用户输入:昨天的考试我没有及格,多数问答***给予的回复一般如:竟然不是倒数,好神奇;用户输入:我养的狗今天去世了。回复:宠物狗特别容易死。但在现实生活中,如果对方通过语言表达出开心的情绪,通常情况下,对方的回复也应该是积极的情绪。如果对方通过语言表达出悲伤的情绪,往往另一方回应的内容也应是安慰等。因此,问答***带有情感的回复往往更能受到用户的欢迎。
发明内容
本发明提供一种智能化情感问答方法、装置及计算机可读存储介质,其主要目的在于当用户输入问题时,给用户呈现出具有情感倾向的答案结果。
为实现上述目的,本发明提供的一种智能化情感问答方法,包括:
通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集;
对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集;
将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练;
当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练;
接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
可选地,通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,包括:
根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集;
遍历所述问题数据集内的问题,使用所述网络爬虫技术从URL页面内爬取与所述问题对应的多种答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集。
可选地,所述分词根据所述所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
Figure BDA0002054960290000021
其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;
所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
Figure BDA0002054960290000022
其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离。
可选地,所述Word2Vec算法为CBOW模型;
所述CBOW模型包括输入层、投影层和输出层;
所述投影层ζ(ω,j)为:
Figure BDA0002054960290000031
其中,
Figure BDA0002054960290000032
表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。
可选地,所述循环神经网络为长短期记忆网络;
所述长短期记忆网络包括遗忘门、输入门、输出门;
所述遗忘门为:
ft=σ(wt[ht-1,xt]+bt)
其中,ft为所述遗忘门的输出数据,xt为所述遗忘门的输入数据,t为所述问答词向量集的当前时间,t-1为所述问答词向量集当前时间的前一个时间,ht-1为所述输出门在所述问答词向量集当前时间的前一个时间的输出数据,wt为所述当前时间的权重,bt为所述当前时间的偏置,[]为矩阵乘法操作,σ表示所述sigmoid函数。
此外,为实现上述目的,本发明还提供一种智能化的情感问答装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的智能化的情感问答程序,所述智能化的情感问答程序被所述处理器执行时实现如下步骤:
通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集;
对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集;
将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练;
当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练;
接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
可选地,通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,包括:
根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集;
遍历所述问题数据集内的问题,使用所述网络爬虫技术从URL页面内爬取与所述问题对应的多种答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集。
可选地,所述分词根据所述所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
Figure BDA0002054960290000041
其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;
所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
Figure BDA0002054960290000042
其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离。
可选地,所述Word2Vec算法为CBOW模型;
所述CBOW模型包括输入层、投影层和输出层;
所述投影层ζ(ω,j)为:
Figure BDA0002054960290000043
其中,
Figure BDA0002054960290000044
表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。
可选地,所述循环神经网络为长短期记忆网络;
所述长短期记忆网络包括遗忘门、输入门、输出门;
所述遗忘门为:
ft=σ(wt[ht-1,xt]+bt)
其中,ft为所述遗忘门的输出数据,xt为所述遗忘门的输入数据,t为所述问答词向量集的当前时间,t-1为所述问答词向量集当前时间的前一个时间,ht-1为所述输出门在所述问答词向量集当前时间的前一个时间的输出数据,wt为所述当前时间的权重,bt为所述当前时间的偏置,[]为矩阵乘法操作,σ表示所述sigmoid函数。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有智能化的情感问答程序,所述智能化的情感问答程序可被一个或者多个处理器执行,以实现如上所述的智能化情感问答方法的步骤。
由于卷积神经网络的多层网络结构能自动提取数据的深层特征,可学习不同层次的特征,从而大大提高对文本处理的准确率,同时循环神经网络会联系数据的前后时序状态进行高效判断,因此本发明提出的智能化情感问答方法、装置及计算机可读存储介质,可以实现精准的智能化的情感问答功能。
附图说明
图1为本发明一实施例提供的智能化情感问答方法的流程示意图;
图2为本发明一实施例提供的智能化的情感问答装置的内部结构示意图;
图3为本发明一实施例提供的智能化的情感问答装置中智能化的情感问答程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种智能化情感问答方法。参照图1所示,为本发明一实施例提供的智能化情感问答方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,智能化情感问答方法包括:
S1、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集。
本发明较佳实施例,根据所述网络爬虫(Web crawler)技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集。遍历所述问题数据集内的问题,使用所述网络爬虫技术从URL页面内爬取与所述问题对应的多种不同的答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集;
本发明较佳实施例中,根据所述问题数据集,将所述多种答案数据集中的答案按照情感倾向进行情感属性标注,得到所述情感属性标注集,所述情感倾向包括幽默、诚恳、建议等。
S2、所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集。
本发明较佳实施例中,所述分词根据所述所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
Figure BDA0002054960290000061
其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;
所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
Figure BDA0002054960290000062
其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离;
本发明较佳实施例所述Word2Vec算法为CBOW模型,所述CBOW模型包括输入层、投影层和输出层,所述投影层ζ(ω,j)为:
Figure BDA0002054960290000071
其中,
Figure BDA0002054960290000072
表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。
S3、将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练。
本发明较佳实施例中,所述卷积神经网络包括卷积层、池化层、Flatten层、Dropout层和全连接层,且所述问题词向量集在时间维度上是一维向量的形式,所以所述卷积层与所述池化层的过滤器(filter)也是一维向量,同时为了防止过拟合现象,在所述卷积层与所述池化层中加入所述Dropout层;当多次卷积与池化操作后再扁平化数据,即所述Flatten层的作用,最后通过所述全连接层(Dense)输出所述训练值.
本发明较佳实施例所述损失值E为:
Figure BDA0002054960290000073
其中,x为所述训练值,μj为所述情感属性标注集,m为所述问答数据集的数量,所述预设阈值一般设定为0.01。
S4、当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练。
本发明较佳实施例,所述循环神经网络为长短期记忆网络,所述长短期记忆网络包括遗忘门、输入门、输出门,所述遗忘门为:
ft=σ(wt[ht-1,xt]+bt)
其中,ft为所述遗忘门的输出数据,xt为所述遗忘门的输入数据,t为所述问答词向量集的当前时间,t-1为所述问答词向量集当前时间的前一个时间,ht-1为所述输出门在所述问答词向量集当前时间的前一个时间的输出数据,wt为所述当前时间的权重,bt为所述当前时间的偏置,[]为矩阵乘法操作,σ表示所述sigmoid函数。
S5、接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
发明还提供一种智能化的情感问答装置。参照图2所示,为本发明一实施例提供的智能化的情感问答装置的内部结构示意图。
在本实施例中,所述智能化的情感问答装置1可以是PC(PersonalComputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该智能化的情感问答装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能化的情感问答装置1的内部存储单元,例如该智能化的情感问答装置1的硬盘。存储器11在另一些实施例中也可以是智能化的情感问答装置1的外部存储设备,例如智能化的情感问答装置1上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括智能化的情感问答装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能化的情感问答装置1的应用软件及各类数据,例如智能化的情感问答程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行智能化的情感问答程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在智能化的情感问答装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及智能化的情感问答程序01的智能化的情感问答装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对智能化的情感问答装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有智能化的情感问答程序01;处理器12执行存储器11中存储的智能化的情感问答程序01时实现如下步骤:
步骤一、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集。
本发明较佳实施例,根据所述网络爬虫(Web crawler)技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集。遍历所述问题数据集内的问题,使用所述网络爬虫技术从URL页面内爬取与所述问题对应的多种不同的答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集;
本发明较佳实施例中,根据所述问题数据集,将所述多种答案数据集中的答案按照情感倾向进行情感属性标注,得到所述情感属性标注集,所述情感倾向包括幽默、诚恳、建议等。
步骤二、对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集。
本发明较佳实施例中,所述分词根据所述所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
Figure BDA0002054960290000101
其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;
所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
Figure BDA0002054960290000102
其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离;
本发明较佳实施例所述Word2Vec算法为CBOW模型,所述CBOW模型包括输入层、投影层和输出层,所述投影层ζ(ω,j)为:
Figure BDA0002054960290000103
其中,
Figure BDA0002054960290000104
表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。
步骤三、将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练。
本发明较佳实施例中,所述卷积神经网络包括卷积层、池化层、Flatten层、Dropout层和全连接层,且所述问题词向量集在时间维度上是一维向量的形式,所以所述卷积层与所述池化层的过滤器(filter)也是一维向量,同时为了防止过拟合现象,在所述卷积层与所述池化层中加入所述Dropout层;当多次卷积与池化操作后再扁平化数据,即所述Flatten层的作用,最后通过所述全连接层(Dense)输出所述训练值.
本发明较佳实施例所述损失值E为:
Figure BDA0002054960290000111
其中,x为所述训练值,μj为所述情感属性标注集,m为所述问答数据集的数量,所述预设阈值一般设定为0.01。
步骤四、当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练。
本发明较佳实施例,所述循环神经网络为长短期记忆网络,所述长短期记忆网络包括遗忘门、输入门、输出门,所述遗忘门为:
ft=σ(wt[ht-1,xt]+bt)
其中,ft为所述遗忘门的输出数据,xt为所述遗忘门的输入数据,t为所述问答词向量集的当前时间,t-1为所述问答词向量集当前时间的前一个时间,ht-1为所述输出门在所述间答词向量集当前时间的前一个时间的输出数据,wt为所述当前时间的权重,bt为所述当前时间的偏置,[]为矩阵乘法操作,σ表示所述sigmoid函数。
步骤五、接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
可选地,在其他实施例中,智能化的情感问答程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述智能化的情感问答程序在智能化的情感问答装置中的执行过程。
例如,参照图3所示,为本发明智能化的情感问答装置一实施例中的智能化的情感问答程序的程序模块示意图,该实施例中,所述智能化的情感问答程序可以被分割为数据接收模块10、数据处理模块20、模型训练模块30、问答结果输出模块40示例性地:
所述数据接收模块10用于:从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集。
所述数据处理模块20用于:对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集。
所述模型训练模块30用于:将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中训练,所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,所述损失函数根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练,当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练。
所述问答结果输出模块40用于:接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
上述数据接收模块10、数据处理模块20、模型训练模块30、问答结果输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有智能化的情感问答程序,所述智能化的情感问答程序可被一个或多个处理器执行,以实现如下操作:
从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集。
对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集。
将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中训练,所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,所述损失函数根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练,当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练。
接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种智能化情感问答方法,其特征在于,所述方法包括:
通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集;
对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集;
将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练;
当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练;
接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
2.如权利要求1所述的智能化情感问答方法,其特征在于,通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,包括:
根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集;
遍历所述问题数据集内的问题,使用所述网络爬虫技术从所述URL页面内爬取与所述问题对应的多种答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集。
3.如权利要求2所述的智能化情感问答方法,其特征在于,所述分词操作包括:
根据所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
Figure FDA0002054960280000021
其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;
所述关键字抽取操作包括:
构建所述词的相关度,并基于所述相关度提取关键字,所述相关度为:
Figure FDA0002054960280000022
其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离。
4.如权利要求3中的智能化情感问答方法,其特征在于,所述Word2Vec算法为CBOW模型;
所述CBOW模型包括输入层、投影层和输出层;
所述投影层ζ(ω,j)为:
Figure FDA0002054960280000023
其中,
Figure FDA0002054960280000024
表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。
5.如权利要求4所述的智能化情感问答方法,其特征在于,所述循环神经网络为长短期记忆网络,所述长短期记忆网络包括遗忘门、输入门、输出门;
所述遗忘门为:
ft=σ(wt[ht-1,xt]+bt)
其中,ft为所述遗忘门的输出数据,xt为所述遗忘门的输入数据,t为所述问答词向量集的当前时间,t-1为所述问答词向量集当前时间的前一个时间,ht-1为所述输出门在所述问答词向量集当前时间的前一个时间的输出数据,wt为所述当前时间的权重,bt为所述当前时间的偏置,[]为矩阵乘法操作,σ表示所述sigmoid函数。
6.一种智能化的情感问答装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的智能化的情感问答程序,所述智能化的情感问答程序被所述处理器执行时实现如下步骤:
通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集;
对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集;
将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练;
当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练;
接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。
7.如权利要求6所述的智能化的情感问答装置,其特征在于,通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,包括:
根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集;
遍历所述问题数据集内的问题,使用所述网络爬虫技术从所述URL页面内爬取与所述问题对应的多种答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集。
8.如权利要求7所述的智能化的情感问答装置,其特征在于,所述分词操作包括:
根据所述所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
Figure FDA0002054960280000041
其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;
所述关键字抽取操作包括:
构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
Figure FDA0002054960280000042
其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离。
9.如权利要求8所述的智能化的情感问答装置,其特征在于,所述Word2Vec算法为CBOW模型;
所述CBOW模型包括输入层、投影层和输出层;
所述投影层ζ(ω,j)为:
Figure FDA0002054960280000043
其中,
Figure FDA0002054960280000044
表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有智能化的情感问答程序,所述智能化的情感问答程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的智能化情感问答方法的步骤。
CN201910386282.6A 2019-05-09 2019-05-09 智能化情感问答方法、装置及计算机可读存储介质 Active CN110263134B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910386282.6A CN110263134B (zh) 2019-05-09 2019-05-09 智能化情感问答方法、装置及计算机可读存储介质
PCT/CN2019/102194 WO2020224099A1 (zh) 2019-05-09 2019-08-23 智能化情感问答方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910386282.6A CN110263134B (zh) 2019-05-09 2019-05-09 智能化情感问答方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110263134A CN110263134A (zh) 2019-09-20
CN110263134B true CN110263134B (zh) 2023-06-27

Family

ID=67914663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910386282.6A Active CN110263134B (zh) 2019-05-09 2019-05-09 智能化情感问答方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110263134B (zh)
WO (1) WO2020224099A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563987B (zh) * 2022-10-17 2023-07-04 北京中科智加科技有限公司 一种评论文本分析处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229417A1 (en) * 2013-02-13 2014-08-14 Lela, Inc Methods for and apparatus for providing advice based upon total personal values
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
CN107066446B (zh) * 2017-04-13 2020-04-10 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
EP3619619A4 (en) * 2017-06-29 2020-11-18 Microsoft Technology Licensing, LLC GENERATION OF RESPONSES IN AN AUTOMATED ONLINE CONVERSATION SERVICE
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN108875074B (zh) * 2018-07-09 2021-08-10 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109408633A (zh) * 2018-09-17 2019-03-01 中山大学 一种多层注意力机制的循环神经网络模型的构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法

Also Published As

Publication number Publication date
WO2020224099A1 (zh) 2020-11-12
CN110263134A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110334272B (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
US10534863B2 (en) Systems and methods for automatic semantic token tagging
US20220188521A1 (en) Artificial intelligence-based named entity recognition method and apparatus, and electronic device
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN111159346A (zh) 基于意图识别的智能答疑方法、服务器及存储介质
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN110427480B (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
CN111193657A (zh) 聊天表情回复方法、装置及存储介质
CN111695354A (zh) 基于命名实体的文本问答方法、装置及可读存储介质
CN113987147A (zh) 样本处理方法及装置
CN110795548A (zh) 智能问答方法、装置及计算机可读存储介质
CN112287085B (zh) 语义匹配方法、***、设备及存储介质
CN111177349B (zh) 问答匹配方法、装置、设备及存储介质
CN111813905A (zh) 语料生成方法、装置、计算机设备及存储介质
CN112131368A (zh) 对话生成方法、装置、电子设备及存储介质
CN111221942B (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN110765765B (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
CN110222144B (zh) 文本内容提取方法、装置、电子设备及存储介质
CN112784011B (zh) 一种基于cnn和lstm的情感问题处理方法、装置和介质
CN110263134B (zh) 智能化情感问答方法、装置及计算机可读存储介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN117520497A (zh) 大模型交互处理方法、***、终端、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant