CN111986687B - 基于交互式解码的双语情感对话生成*** - Google Patents
基于交互式解码的双语情感对话生成*** Download PDFInfo
- Publication number
- CN111986687B CN111986687B CN202010577720.XA CN202010577720A CN111986687B CN 111986687 B CN111986687 B CN 111986687B CN 202010577720 A CN202010577720 A CN 202010577720A CN 111986687 B CN111986687 B CN 111986687B
- Authority
- CN
- China
- Prior art keywords
- emotion
- bilingual
- decoders
- reply
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 189
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 45
- 230000003993 interaction Effects 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000002996 emotional effect Effects 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000006397 emotional response Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 10
- 230000000295 complement effect Effects 0.000 abstract description 5
- 239000000463 material Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种交互式解码的双语情感对话生成***。本发明采用多语种信息互补,可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试,本发明使用双语料(中文和英文)来训练和测试模型,在生成情感回复的过程中,中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中,内部交互借助语言之间冗余信息的辅助作用,挖掘不同语种回答之间的动态上下文信息,利用更充足的信息生成回复,从而降低困惑度,提高回答内容的质量,生成高质量的情感回复;外部交互在充分考虑另一解码器的上下文信息后,通过类型选择器来选择生成情感单词或者普通单词,平衡了回复的语法合理性和情感自然性。
Description
技术领域
本发明实施例涉及语言处理技术领域,具体涉及一种基于交互式解码的双语情感对话生成***。
背景技术
目前,人机对话***的应用范围越来越广。例如,在医疗领域,对话***可以更便捷地为患者和消费者提供健康信息服务;在电子商务领域,面向任务的对话***能协助客户完成网上购物。
随着情感在提高会话质量上的重要性的凸显,情感对话生成领域逐渐引起了人们的注意。研究者发现在对话过程中引入情感因素更能提升用户的体验感。为了让对话***更加智能、生成的回复能更全面地满足人们需求,引入情感是必不可少的。因此,在对话生成过程中合理地引入情感因素,并生成高质量的文本内容是提高人机对话体验的关键,也是实现真正自然的人机交互的必经之路。
通过增加回复的多样性、引入外部知识库等方法可以提高生成回复的文本质量。然而,情感对话生成的一个难点在于如何以一种自然的、连贯的方式表达情感。
目前已提出的对话***包括:1)通过预测情感关键词和主题关键词来指导回答的生成,增强主题相关度和情感相关度;2)通过引入情感编辑机制去生成高质量的情感回复;3)通过一种基于Transformer机制的多维度生成网络,使用贝叶斯深度学习,提升情感对话生成模型的多样性。
以上对话生成模型虽然注意到情感因素在对话***中的重要性,但取得的效果却不尽人意,不能够很好的挖掘对话内容中的情感要素,生成的回答情感强度不可控、不细致,难以充分发挥情感在对话中的作用,生成的句子显得十分生硬和呆板。因此,目前已提出的对话***有待改进。
发明内容
本发明实施例提供了一种基于交互式解码的双语情感对话生成***,用以解决上述至少一个技术问题。
本发明实施例提供一种基于交互式解码的双语情感对话生成***,包括:一个编码器和两个解码器;
所述编码器包括6个相同的网络块,每个网络块由2个子层组成,分别是Multi-HeadAttention层和FeedForward层,每个网络块的内部结构和Transformer相同;所述编码器的输出同时传递给所述两个解码器;
所述两个解码器分别为中文解码器和英文解码器,所述两个解码器的结构相同,每个解码器包括6个相同的网络块,每个网络块由3个子层组成,分别是MaskedMulti-HeadAttention层、Multi-Head Attention 层以及FeedForward层,每个网络块的内部结构和Transformer相同,每个解码器的输入由三部分组成:已生成的子句、所述编码器的输出和来自另一解码器的上下文信息;所述两个解码器之间通过内部交互和外部交互来传递信息,并行生成原语言的情感回复和辅助语言的情感回复,其中,中文回复为原语言的情感回复,英文回复为辅助语言的情感回复。
可选地,所述两个解码器各自执行的内部交互操作的流程相同且同步进行,其中,内部交互操作的流程为:
针对所述两个解码器中的第i个解码器,使用内部交互机制,将该解码器的当前状态更新为H′i:
H′1=Inter(Q1,[K1;K2],[V1;V2])
H′2=Inter(Q2,[K1;K2],[V1;V2])
其中[;]表示连接操作,Inter()表示内部交互机制。
可选地,所述两个解码器中的第i个解码器采用内部交互机制Inter ()得到更新后的当前状态H′i的具体描述如下:
H′i=ri⊙Hi+fi⊙zi
H1=Attention(Q1,K1,V1)
H2=Attention(Q2,K2,V2)
其中[;]表示连接操作,tanh和σ是激活函数,⊙表示元素点积, 均是可训练的参数,zi表示来自另一解码器的上下文信息,ri是第i个解码器的保留门,fi是第i个解码器的遗忘门,Attention()表示注意力机制,指transformer的Scaled Dot-ProductAttention。
可选地,所述两个解码器各自执行的外部交互操作的流程相同且同步进行,其中,外部交互操作的流程为:
通过类型选择器确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α;
分别使用情感softmax和普通softmax,获得情感词典和普通词典上的概率分布Pe和Pg,其中,情感词典和普通词典没有交集;
将Pe和Pg两个概率分布进行加权、连接操作,得到所述两个解码器中每个解码器各自输出的下一单词yt。
可选地,特征向量v符合以下公式:
可选地,所述交互式解码的双语情感对话生成***输出的双语情感回复满足三方面的约束:流畅度、连贯度和情感度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述两个解码器:
L(θ)=-(lf+lc+le)
其中,θ表示可训练的参数,lf表示所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度,lc表示所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度,le表示所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度。
可选地,所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度lf满足以下公式:
y1表示所述交互式解码的双语情感对话生成***输出的中文情感回复,
y2所述交互式解码的双语情感对话生成***输出的英文情感回复,
N1代表y1的长度,N2代表y2的长度,PCh代表中文语言模型,PEn代表英文语言模型,PCh和PEn是两个预训练的N-Gram语言模型。
可选地,所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度lc满足以下公式:
其中,y1表示所述交互式解码的双语情感对话生成***输出的中文情感回复,y2所述交互式解码的双语情感对话生成***输出的英文情感回复, x代表给定问句,Pseq2seq(yi|x)代表表示给定问句x时生成回复yi的概率,代表基于回复yi生成问句x的概率,Pseq2seq和是两个预训练的Seq2Seq模型。
可选地,所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度le满足以下公式:
其中,为针对所述两个解码器中第i个解码器定义的期望的情感类别,表示情感分类器Det针对所述两个解码器中第i个解码器预测的概率分布,Net定义为情感类别的数量,其中,所述情感分类器Det是预训练的BERT模型,训练样本为人工标注情感类别的文本语料。
本发明的有益效果如下:
1、本发明采用多语种信息互补,可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试,本发明使用双语料(中文和英文)来训练和测试模型,在生成情感回复的过程中充分利用了不同语言之间的互补信息来提高回复质量。具体地,中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中,内部交互借助语言之间冗余信息的辅助作用,挖掘不同语种回答之间的动态上下文信息,利用更充足的信息生成回复,从而降低困惑度,提高回答内容的质量,生成高质量的情感回复;外部交互在充分考虑另一解码器的上下文信息后,通过类型选择器来选择生成情感单词或者普通单词,平衡了回复的语法合理性和情感自然性。
2、本发明可以生成双语情感回复。在本发明的情感对话生成***中,能同时生成多种语言的情感回复,让模型能不限制于特定语言的约束,满足更多场景的需求。最终获取中文、英文情感回复,中文是使用人数最多的母语,英文是通用的语言,两者结合的情感对话生成模型能够丰富使用场景。
3、本发明克服目前已提出的对话***生成的回答的情感强度不可控的缺点。在本发明的情感对话生成***中,采用外部交互机制来根据不同解码器上下文信息选择更合适的情感单词或普通单词生成回答,能明显地提升生成情感回复的情感相关性,保证文本生成过程中受到准确的约束。
4、本发明克服目前已提出的对话***的生成的回答不能兼顾语法合理性和情感准确度的缺点。从流畅度、连贯度和情感度三方面综合考虑来设计损失函数,来进一步降低了文本的困惑度,提高情感的准确率和强度。
5、本发明可以做到真正的“情感交互”。目前已提出的对话***只能做到检测情感、分析情感,但无法做到在对话中反馈用户的情感。本发明在分析用户情感的同时,生成合适的情感关键词,再以此为基础扩展出带有情感色彩的回复,使***与用户做到“情感交互”。此外,生成的回答较目前已提出的对话***具有更强的情感相关度、情感强度,更能够提升用户体验感。这是本发明相比于目前已提出的对话***最大的优势。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是transformer模型的示意图;
图2是本发明实施例中一种基于交互式解码的双语情感对话生成***的示意图;
图3是本发明实施例中内部交互机制的示意图;
图4是本发明实施例中外部交互机制的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例发现目前已提出的对话***存在的问题至少包括:没有考虑使用多语料库进行训练时,在生成回复过程中不同语言之间补充信息的辅助作用;只依靠单一的约束无法满足实际需求。因此,本发明实施例提出需要同时从文本流畅度、文本连贯度和情感相关度来进行全面的约束,指导情感文本的生成。此外,本发明实施例提出使用类型选择器在生成回复的过程中选择生成情感单词或普通单词,指导生成的回复更好地平衡语法和情感强度。
基于此,本发明的一个实施例提供了一种基于交互式解码的双语情感对话生成***。参考图1和图2,图1是transformer模型的示意图,图2是本发明实施例提供的一种基于交互式解码的双语情感对话生成***的示意图。本发明实施例提供的一种基于交互式解码的双语情感对话生成***遵循Transformer的总体架构,包括:一个编码器和两个解码器,一个编码器和两个解码器使用堆叠式自注意力和逐点全连接层实现。
编码器包括6个相同的网络块,参考图1,图1示出了一个网络块的具体结构,图1中“N×”表示N个相同的网络块,示例地,N为6。如图1所示,每个网络块由2个子层组成,分别是Multi-Head Attention 层(多头注意力层)和Feed Forward层(前馈层),每个网络块的内部结构和Transformer相同。编码器的输出同时传递给两个解码器。
两个解码器分别为中文解码器和英文解码器,两个解码器的结构相同,每个解码器包括6个相同的网络块。参考图1,图1示出了一个网络块的具体结构,图1中“N×”表示N个相同的网络块,示例地, N为6。如图1所示,每个网络块由3个子层组成,分别是MaskedMulti-Head Attention层(带掩码操作的多头注意力层)、Multi-Head Attention层(多头注意力层)以及Feed Forward层(前馈层),每个网络块的内部结构和Transformer相同。
参考图2,每个解码器的输入由三部分组成:已生成的子句、所述编码器的输出和来自另一解码器的上下文信息,两个解码器之间通过内部交互和外部交互来传递信息,并行生成原语言的情感回复和辅助语言的情感回复,其中,中文回复为原语言的情感回复,英文回复为辅助语言的情感回复。
在具体实施时,所述两个解码器各自执行的内部交互操作的流程相同且同步进行。参考图3,图3是是本发明实施例中内部交互机制的示意图。内部交互操作的流程为:
针对所述两个解码器中的第i个解码器,使用内部交互机制,将该解码器的当前状态更新为H′i:
H′1=Inter(Q1,[K1;K2],[V1;V2])
H′2=Inter(Q2,[K1;K2],[V1;V2])
其中[;]表示连接操作,Inter()表示内部交互机制。本发明中,“连接操作”代表两个向量的连接,连接可以按照行或列,在此不做具体限定。例如:维度为2×1的向量A和维度是3×1的向量B,对两个向量进行连接操作,得到的是维度为5×1的向量C(即,对两个向量按行拼接)。
本发明中,如未特别说明,t表示时间步t。
在具体实施时,所述两个解码器采用内部交互机制Inter()得到更新后的当前隐藏状态H′i的具体描述如下:
H′i=ri⊙Hi+fi⊙zi
H1=Attention(Q1,K1,V1)
H2=Attention(Q2,K2,V2)
其中[;]表示连接操作,tanh和σ是激活函数,⊙表示元素点积, 均是可训练的参数,zi表示来自另一解码器的上下文信息,ri是第i个解码器的保留门,fi是第i个解码器的遗忘门,Attention()表示注意力机制,指transformer的Scaled Dot-Product Attention。
在具体实施时,所述两个解码器各自执行的外部交互操作的流程相同且同步进行。参考图4,图4是是本发明实施例中内部交互机制的示意图。外部交互操作的流程为:
通过分类层(ClassificationLayer)执行以下操作:
通过类型选择器(Type Layer)确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α;
分别使用情感softmax(Emotion softmax)和普通softmax(Generic softmax),获得情感词典和普通词典上的概率分布Pe和Pg,其中,情感词典和普通词典没有交集;
将Pe和Pg两个概率分布进行加权、连接操作,得到所述两个解码器中每个解码器各自输出的下一单词yt。
在具体实施时,特征向量v符合以下公式:
在具体实施时,所述交互式解码的双语情感对话生成***的输出双语情感回复满足三方面的约束:流畅度、连贯度和情感度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述两个解码器:
L(θ)=-(lf+lc+le)
其中,θ表示可训练的参数,lf表示所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度,lc表示所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度,le表示所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度。
在具体实施时,所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度lf满足以下公式:
y1表示所述交互式解码的双语情感对话生成***输出的中文情感回复,
y2所述交互式解码的双语情感对话生成***输出的英文情感回复,
N1代表y1的长度,N2代表y2的长度,PCh代表中文语言模型,PEn代表英文语言模型,PCh和PEn是两个预训练的N-Gram语言模型。
本发明考虑到过短的回复通常是无意义的回复,而过长的回复常存在冗余。所以在语言模型的基础上按回复的长度进行缩放,从而控制回复的长度。
在具体实施时,所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度lc满足以下公式:
其中,y1表示所述交互式解码的双语情感对话生成***输出的中文情感回复,y2所述交互式解码的双语情感对话生成***输出的英文情感回复, x代表给定问句,Pseq2seq(yi|x)代表表示给定问句x时生成回复yi的概率,代表基于回复yi生成问句x的概率,Pseq2seq和是两个预训练的Seq2Seq模型。
在具体实施时,所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度le满足以下公式:
其中,为针对所述两个解码器中第i个解码器定义的期望的情感类别,表示情感分类器Det针对所述两个解码器中第i个解码器预测的概率分布,Net定义为情感类别的数量,其中,所述情感分类器Det是预训练的BERT模型,训练样本为人工标注情感类别的文本语料。
本发明的有益效果如下:
1、本发明采用多语种信息互补,可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试,本发明使用双语料(中文和英文)来训练和测试模型,在生成情感回复的过程中充分利用了不同语言之间的互补信息来提高回复质量。具体地,中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中,内部交互借助语言之间冗余信息的辅助作用,挖掘不同语种回答之间的动态上下文信息,利用更充足的信息生成回复,从而降低困惑度,提高回答内容的质量,生成高质量的情感回复;外部交互在充分考虑另一解码器的上下文信息后,通过类型选择器来选择生成情感单词或者普通单词,平衡了回复的语法合理性和情感自然性。
2、本发明可以生成双语情感回复。在本发明的情感对话生成***中,能同时生成多种语言的情感回复,让模型能不限制于特定语言的约束,满足更多场景的需求。最终获取中文、英文情感回复,中文是使用人数最多的母语,英文是通用的语言,两者结合的情感对话生成模型能够丰富使用场景。
3、本发明克服目前已提出的对话***生成的回答的情感强度不可控的缺点。在本发明的情感对话生成***中,采用外部交互机制来根据不同解码器上下文信息选择更合适的情感单词或普通单词生成回答,能明显地提升生成情感回复的情感相关性,保证文本生成过程中受到准确的约束。
4、本发明克服目前已提出的对话***的生成的回答不能兼顾语法合理性和情感准确度的缺点。从流畅度、连贯度和情感度三方面综合考虑来设计损失函数,来进一步降低了文本的困惑度,提高情感的准确率和强度。
5、本发明可以做到真正的“情感交互”。目前已提出的对话***只能做到检测情感、分析情感,但无法做到在对话中反馈用户的情感。本发明在分析用户情感的同时,生成合适的情感关键词,再以此为基础扩展出带有情感色彩的回复,使***与用户做到“情感交互”。此外,生成的回答较目前已提出的对话***具有更强的情感相关度、情感强度,更能够提升用户体验感。这是本发明相比于目前已提出的对话***最大的优势。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
Claims (10)
1.一种基于交互式解码的双语情感对话生成***,其特征在于,包括:一个编码器和两个解码器;
所述编码器包括6个相同的网络块,每个网络块由2个子层组成,分别是Multi-HeadAttention层和Feed Forward层,每个网络块的内部结构和Transformer相同;所述编码器的输出同时传递给所述两个解码器;
所述两个解码器分别为中文解码器和英文解码器,所述两个解码器的结构相同,每个解码器包括6个相同的网络块,每个网络块由3个子层组成,分别是Masked Multi-HeadAttention层、Multi-Head Attention层以及Feed Forward层,每个网络块的内部结构和Transformer相同,每个解码器的输入由三部分组成:已生成的子句、所述编码器的输出和来自另一解码器的上下文信息;所述两个解码器之间通过内部交互和外部交互来传递信息,并行生成原语言的情感回复和辅助语言的情感回复,其中,中文回复为原语言的情感回复,英文回复为辅助语言的情感回复。
2.根据权利要求1所述的一种基于交互式解码的双语情感对话生成***,其特征在于,所述两个解码器各自执行的内部交互操作的流程相同且同步进行,其中,内部交互操作的流程为:
在时间步t时,根据所述两个解码器在t-1时刻各自输出的已经生成的文本y1t-1和y2t-1,得到所述两个解码器各自的输入queries(Q1、Q2)、keys(K1、K2)和values(V1、V2);
针对所述两个解码器中的第i个解码器,使用内部交互机制,将该解码器的当前状态更新为H′i:
H′1=Inter(Q1,[K1;K2],[V1;V2])
H′2=Inter(Q2,[K1;K2],[V1;V2])
其中[;]表示连接操作,Inter()表示内部交互机制。
7.根据权利要求1所述的一种基于交互式解码的双语情感对话生成***,其特征在于,所述交互式解码的双语情感对话生成***输出的双语情感回复满足三方面的约束:流畅度、连贯度和情感度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述两个解码器:
L(θ)=-(lf+lc+le)
其中,θ表示可训练的参数,lf表示所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度,lc表示所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度,le表示所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577720.XA CN111986687B (zh) | 2020-06-23 | 2020-06-23 | 基于交互式解码的双语情感对话生成*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577720.XA CN111986687B (zh) | 2020-06-23 | 2020-06-23 | 基于交互式解码的双语情感对话生成*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986687A CN111986687A (zh) | 2020-11-24 |
CN111986687B true CN111986687B (zh) | 2022-08-02 |
Family
ID=73442127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010577720.XA Active CN111986687B (zh) | 2020-06-23 | 2020-06-23 | 基于交互式解码的双语情感对话生成*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986687B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417125B (zh) * | 2020-12-01 | 2023-03-24 | 南开大学 | 基于深度强化学习的开放域对话回复方法及*** |
CN112765333B (zh) * | 2021-01-08 | 2023-04-07 | 山东师范大学 | 基于情感与提示词结合的自动对话生成方法及*** |
CN113254625B (zh) * | 2021-07-15 | 2021-11-16 | 国网电子商务有限公司 | 一种基于交互融合的情感对话生成方法及*** |
CN113627196A (zh) * | 2021-07-21 | 2021-11-09 | 前海企保科技(深圳)有限公司 | 一种基于语境和Transformer的多语言对话机器人***及其对话方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016085409A1 (en) * | 2014-11-24 | 2016-06-02 | Agency For Science, Technology And Research | A method and system for sentiment classification and emotion classification |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及*** |
CN108874972A (zh) * | 2018-06-08 | 2018-11-23 | 青岛里奥机器人技术有限公司 | 一种基于深度学习的多轮情感对话方法 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别***的多轮对话语义理解子*** |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN110032636A (zh) * | 2019-04-30 | 2019-07-19 | 合肥工业大学 | 基于强化学习的情感对话异步生成模型生成文本的方法 |
CN111274362A (zh) * | 2020-02-01 | 2020-06-12 | 武汉大学 | 一种基于transformer架构的对话生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US10565244B2 (en) * | 2017-06-22 | 2020-02-18 | NewVoiceMedia Ltd. | System and method for text categorization and sentiment analysis |
-
2020
- 2020-06-23 CN CN202010577720.XA patent/CN111986687B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016085409A1 (en) * | 2014-11-24 | 2016-06-02 | Agency For Science, Technology And Research | A method and system for sentiment classification and emotion classification |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及*** |
CN108874972A (zh) * | 2018-06-08 | 2018-11-23 | 青岛里奥机器人技术有限公司 | 一种基于深度学习的多轮情感对话方法 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别***的多轮对话语义理解子*** |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN110032636A (zh) * | 2019-04-30 | 2019-07-19 | 合肥工业大学 | 基于强化学习的情感对话异步生成模型生成文本的方法 |
CN111274362A (zh) * | 2020-02-01 | 2020-06-12 | 武汉大学 | 一种基于transformer架构的对话生成方法 |
Non-Patent Citations (3)
Title |
---|
基于注意力机制Bi-LSTM算法的双语文本情感分析;翟社平等;《计算机应用与软件》;20191212(第12期);全文 * |
基于深度学习的个性化对话内容生成方法;王豪等;《图学学报》;20200229(第02期);全文 * |
基于深度模型的社会新闻对用户情感影响挖掘;孙晓等;《中文信息学报》;20170515(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111986687A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986687B (zh) | 基于交互式解码的双语情感对话生成*** | |
CN111198937B (zh) | 对话生成及装置、计算机可读存储介质、电子设备 | |
Merdivan et al. | Dialogue systems for intelligent human computer interactions | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
Latif et al. | Self supervised adversarial domain adaptation for cross-corpus and cross-language speech emotion recognition | |
WO2019160100A1 (ja) | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム | |
CN113254625B (zh) | 一种基于交互融合的情感对话生成方法及*** | |
WO2019160090A1 (ja) | 非言語情報生成装置、方法、及びプログラム | |
WO2019160105A1 (ja) | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム | |
CN111951781A (zh) | 一种基于图到序列的中文韵律边界预测的方法 | |
Wu et al. | Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis. | |
CN115905485A (zh) | 基于常识自适应选择的共情对话方法及*** | |
Malik et al. | A preliminary study on augmenting speech emotion recognition using a diffusion model | |
CN116108856B (zh) | 基于长短回路认知与显隐情感交互的情感识别方法及*** | |
CN117370534A (zh) | 一种面向虚拟现实的多源融合情感支持对话方法 | |
Wang et al. | Emotional conversation generation with bilingual interactive decoding | |
WO2019160104A1 (ja) | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム | |
Balayn et al. | Data-driven development of virtual sign language communication agents | |
CN113257225B (zh) | 一种融合词汇及音素发音特征的情感语音合成方法及*** | |
Ananthanarayana et al. | Effects of feature scaling and fusion on sign language translation | |
CN114254649A (zh) | 一种语言模型的训练方法、装置、存储介质及设备 | |
TW200935399A (en) | Chinese-speech phonologic transformation system and method thereof | |
Brazier et al. | Usefulness of Emotional Prosody in Neural Machine Translation | |
Zhang et al. | Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |