CN116127051B - 基于深度学习的对话生成方法、电子设备及存储介质 - Google Patents
基于深度学习的对话生成方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116127051B CN116127051B CN202310428793.6A CN202310428793A CN116127051B CN 116127051 B CN116127051 B CN 116127051B CN 202310428793 A CN202310428793 A CN 202310428793A CN 116127051 B CN116127051 B CN 116127051B
- Authority
- CN
- China
- Prior art keywords
- response
- interference
- generator
- skeleton
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 230000004044 response Effects 0.000 claims abstract description 139
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 19
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 18
- 150000001875 compounds Chemical class 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000012745 brilliant blue FCF Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于深度学习的对话生成方法、电子设备及存储介质,该方法包括:1、构建基于检索编辑的对话生成数据集;2、构建由骨架生成器、骨架响应生成器、干扰响应生成器和响应融合模块组成的对话生成模型并进行训练;3、利用训练好的模型对用户输入的任何查询生成相应的回复。本发明先通过检索获得模板响应并构建响应骨架,以排除该模板响应中无用信息的干扰,而后对响应骨架进行编辑以生成最终的响应,从而使得对话***能够生成与语境更为贴合且语义更为丰富的响应,缓解“安全响应”问题。
Description
技术领域
本发明属于自然语言处理领域,涉及到对话***,深度学习等技术领域,具体地说是一种基于深度学习的对话生成方法、电子设备及存储介质。
背景技术
随着人工智能和人机交互的快速发展,越来越多的服务场景中应用了对话***或是对话机器人,并在一定程度上代替了人工服务。根据使用场景的不同,目前的对话***可以分为开放域对话***和任务型对话***。任务型对话***要为了完成某一特定任务或目标而设计的,例如客服机器人小蜜和智能助理siri;开放域对话一般以闲聊式对话为主,其目的并非在于完成特定的任务,而是为了和人类进行自然流畅的交流。
相较于任务型对话***,开放域对话***的对话主题是开放的,涵盖了更广的话题以及更为复杂的句式。按照构建方法,现有的开放域对话***可以被分为基于生成的对话***和基于检索的对话***两种类型。其中,基于检索的方法从现有语料库中选择响应,因而其性能受到预定义的索引规则的严重限制。而随着深度学习的发展,近几年来基于生成的对话***愈加流行。基于序列到序列(seq2seq)的深度学习模型在单轮对话生成中已经得到了广泛的应用。然而,传统的基于序列到序列的对话生成模型往往无法生成字数较多、内容丰富并且信息量较大的响应。在实际应用中,此类模型通常倾向于生成普适但乏味的回复,诸如“我不知道”,或是“我也这样认为”。这一问题也被称为“安全响应”问题。
最近的一些工作尝试利用信息检索技术填补对话生成中的信息量不足的缺陷。在传统的基于检索的对话***中,数据集是基于人类对话构建的,因而从中检索得到回复通常语法正确且语义丰富。对于给定的上下文,从语料库中检索类似的对话,并将其视为生成式对话***中额外的信息源,在一定程度上引入了更为丰富的语义及句式,使得生成的回复得以在一定程度上改善生成式模型所具有的“安全响应”问题。然而在使用检索得到的回复与原始回复相似时,生成模型倾向于进行复制参考回复,而不对该回复进行必要的修改。而在相反的情况中,即检索得到的回复与原始回复无关时,在获取了大量信息的同时也引入了与当前对话语境无关的干扰,导致模型性能不理想。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的对话生成方法、电子设备及存储介质,以期能结合检索式对话模型和生成式对话模型,为对话生成引入外部信息,以缓解生成式对话***的“安全响应”问题,从而能得到流畅且信息丰富的响应生成结果。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的对话生成方法的特点在于,是按如下步骤进行:
步骤1、构建基于检索编辑的对话生成数据集;
步骤1.1、获取查询文本集合Q及其对应的响应文本集合R,令q表示查询文本集合Q中的任意一个查询,令r表示查询q对应的响应;
步骤1.2、检索与响应r相似的模板响应r’,并得到与r’对应的模板查询q’,从而组成对话数据集D中的一个四元组(r, q, r’, q’);
步骤2、构建由骨架生成器G、骨架响应生成器G T 、干扰响应生成器G S 和响应融合模块组成的对话生成模型并进行训练;
步骤2.1、使用骨架生成器G从模板响应r’中分离响应骨架t与干扰词汇s,从而得到所有模板响应的干扰词汇并组成向量表示集S;并从所述向量表示集S中随机选取干扰词汇s’的向量表示Hs ’ ;
步骤2.2、基于响应r、干扰词汇s’及查询q,利用干扰响应生成器G S 得到响应生成结果干扰响应r s’ ;
步骤2.3、基于响应r、响应骨架t及查询q,使用与所述干扰响应生成器G S 结构相同的骨架响应生成器G T 得到响应生成结果骨架响应r t ;
步骤2.4、所述响应融合模块利用式(8)对干扰响应r s’ 和骨架响应r t 进行融合,得到融合响应r s,t :
r s,t = r t ⊙σ(r s’ ) (8)
式(8)中,σ表示sigmoid函数,⊙表示点积;
步骤2.5、利用式(9)构建骨架生成器G及骨架响应生成器G T 的损失函数R DIR :
R DIR = E[L(r s,t , r)] +λ Var[L(r s,t , r)] (9)
式(9)中,E表示期望,Var表示方差,λ为超参数,L(•)表示交叉熵损失;
步骤2.6、利用式(10)构建干扰响应生成器G S 的损失函数R S :
R S = E[L(r s’ , r)] (10)
步骤2.7、利用随机梯度下降法对所述对话生成模型进行训练,并计算所述损失函数R S 及R DIR 以更新网络参数,当损失函数收敛或达到最大训练次数时,停止训练并得到最优参数的对话生成模型,用于对用户输入的任何查询生成相应的回复。
本发明所述的基于深度学习的对话生成方法的特点也在于,所述步骤2.1中的骨架生成器G由Transformer编码器及交叉注意力层组成,并按如下过程分离响应骨架t与干扰词汇s;
步骤2.1.1、所述Transformer编码器对的查询q和模板响应r’分别进行处理,得到查询q的向量表示H q ={h q 1,…,h q i , …,h q m }和模板响应r’的向量表示H r’ ={h 1 r’ ,…,h j r’ ,…,h n r’ },其中,h q i 为查询q中第i个字符的隐向量,m为查询q中的字符数,h j r’ 表示模板响应r’中第j个字符的隐向量,n为模板响应r’中的字符数;
步骤2.1.2、所述交叉注意力层利用式(1)计算模板响应r’中第j个字符对查询q中第i个字符的注意力权重M i,j :
式(1)中,h q k 为查询q中第k个字符的隐向量,score(•)为注意力分数,并有:
score (h j r’ ,h q k ) = (h j r’ )T W att h q k (2)
式(2)中,W att 为交叉注意力层的待学习参数,T为转置;
步骤2.1.3、所述交叉注意力层利用式(3)和式(4)计算响应骨架t的向量表示H t ={h t 1 ,…,h t j , …,h t n }及干扰词汇s的向量表示H s = {h s 1,…,h s j , …,h s n }:
式(3)和式(4)中,h t j 和h s j ,分别表示响应骨架t以及干扰词汇s中第j个字符的隐向量。
所述步骤2.2中的干扰响应生成器G S 由Transformer解码器和控制器组成;其中,所述Transformer解码器由编码层、位置编码层、自注意力层、交叉注意力层、两个标准化层、控制器和响应生成器组成;所述Transformer解码器是按如下过程得到响应生成结果干扰响应r s’ :
步骤2.2.1、所述Transformer解码器利用编码层,位置编码层,自注意力层和第一标准化层对响应r进行处理,得到响应r的向量表示H r ;
步骤2.2.2、所述Transformer解码器通过交叉注意力层和第二标准化层将响应r的向量表示H r 与查询q进行融合,得到融合后的响应查询向量表示H r,q ;
步骤2.2.3、所述控制器利用式(5)将干扰词汇s’的向量表示H s’ 与H r,q 进行融合,得到融合后的干扰融合向量表示H s’ r,q :
H s’ r,q =β•LN(H s’ ) + (1-β)•H r,q (5)
式(5)中,LN(•)表示控制器中的标准化层;β表示融合权重,并由式(6)得到;
β = σ(W s • [W s’ ;H r,q ]) (6)
式(6)中,W s 表示所述控制器的待学习参数,σ表示sigmoid函数;
步骤2.2.4、所述Transformer解码器的响应生成器利用式(7)得到响应生成结果干扰响应r s’ :
r s’ = Linear(LN’ (FFN (H s’ r,q ) +H s’ r,q )) (7)
式(7)中,Linear(•)表示响应生成器中的线性层,LN’(•)表示响应生成器中的标准化层,FFN(•)表示响应生成器中的前向传播层。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行任一所述对话生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行任一所述对话生成方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明提出了一种新的对话生成方法,即先通过检索获得模板响应而后在其基础上进行响应生成,模板响应的引入使得对话***得以利用外部信息,并使用人类的历史对话作为参考,从而提高了生成结果的流畅性和信息量,在一定程度上缓解了安全响应问题。
2、本发明提出了一种两阶段的基于检索编辑的对话生成模型,即先通过检索获得模板响应构建响应骨架,以排除其中无用信息的干扰,而后对响应骨架进行编辑生成最终的回复。相较于过往工作,本发明在继承了检索结果的流畅性和丰富的信息量的基础上,同时保持了生成式模型的灵活性。同时,通过响应骨架生成,使得生成模型得以排除检索到的模板响应中无关信息的干扰,生成更为贴合语境的响应。
3、本发明引入了因果干预的方法,使得模型得以学习到具有环境不变性的因果模式,并能从检索到的模板响应中提取响应骨架帮助响应生成,改善了过往研究中,模型无法恰当利用模板响应中信息的缺陷,并得以排除模板响应中干扰词汇的影响,从而更好的利用了外部信息,提高了生成响应与查询的相关性。
附图说明
图1为本发明方法流程示意图;
图2为本发明中干扰响应生成器结构示意图;
图3为本发明中响应融合模块所使用的因果图。
具体实施方式
本实施例中,如图1所示,一种基于深度学习的对话生成方法是按如下步骤进行:
步骤1、构建基于检索编辑的对话生成数据集;
步骤1.1、获取查询文本集合Q及其对应的响应文本集合R,令q表示查询文本集合Q中的任意一个查询,令r表示查询q对应的响应;在本实施例中,数据来源为中国较大的网络社交平台豆瓣和微博;
步骤1.2、检索与响应r相似的模板响应r’,并得到与r’对应的模板查询q’,从而组成对话数据集D中的一个四元组(r, q, r’, q’)。
步骤2、构建由骨架生成器G、骨架响应生成器G T 、干扰响应生成器G S 和响应融合模块组成的对话生成模型并进行训练;
步骤2.1、使用骨架生成器G从模板响应r’中分离响应骨架t与干扰词汇s,从而得到所有模板响应的干扰词汇并组成向量表示集S;并从向量表示集S中随机选取干扰词汇s’的向量表示Hs ’ ;
骨架生成器G由Transformer编码器及交叉注意力层组成,并按如下过程分离响应骨架t与干扰词汇s;
步骤2.1.1、Transformer编码器对查询q和模板响应r’分别进行处理,得到查询q的向量表示H q ={h q 1,…,h q i , …,h q m }和模板响应r’的向量表示H r’ ={h 1 r’ ,…,h j r’ , …,h n r’ },其中,h q i 为查询q中第i个字符的隐向量,m为查询q中的字符数,h j r’ 表示模板响应r’中第j个字符的隐向量,n为模板响应r’中的字符数;
步骤2.1.2、交叉注意力层利用式(1)计算模板响应r’中第j个字符对查询q中第i个字符的注意力权重M i,j :
式(1)中,h q k 为查询q中第k个字符的隐向量,score(•)为注意力分数,并有:
score (h j r’ ,h q k ) = (h j r’ )T W att h q k (2)
式(2)中,W att 为交叉注意力层的待学习参数,T为转置;
步骤2.1.3、交叉注意力层利用式(3)和式(4)计算响应骨架t的向量表示H t ={h t 1,…,h t j , …,h t n }及干扰词汇s的向量表示H s = {h s 1,…,h s j , …,h s n }:
式(3)和式(4)中,h t j 和h s j ,分别表示响应骨架t以及干扰词汇s中第j个字符的隐向量。
步骤2.2、如图2所示,基于响应r、干扰词汇s’及查询q,利用干扰响应生成器G S 得到响应生成结果干扰响应r s’ ;
干扰响应生成器G S 由Transformer解码器和控制器组成;其中,Transformer解码器由编码层、位置编码层、自注意力层、交叉注意力层、两个标准化层、控制器和响应生成器组成;Transformer解码器是按如下过程得到响应生成结果干扰响应r s’ ;
步骤2.2.1、Transformer解码器利用编码层,位置编码层,自注意力层和第一标准化层对响应r进行处理,得到响应r的向量表示H r ;
步骤2.2.2、Transformer解码器通过交叉注意力层和第二标准化层将响应r的向量表示H r 与查询q进行融合,得到融合后的响应查询向量表示H r,q ;
步骤2.2.3、控制器利用式(5)将干扰词汇s’的向量表示H s’ 与H r,q 进行融合,得到融合后的干扰融合向量表示H s’ r,q :
H s’ r,q =β•LN(H s’ ) + (1-β)•H r,q (5)
式(5)中,LN(•)表示控制器中的标准化层;β表示融合权重,并由式(6)得到;
β = σ(W s • [W s’ ;H r,q ]) (6)
式(6)中,W s 表示控制器的待学习参数,σ表示sigmoid函数;
步骤2.2.4、Transformer解码器的响应生成器利用式(7)得到响应生成结果干扰响应r s’ :
r s’ = Linear(LN’ (FFN (H s’ r,q ) +H s’ r,q )) (7)
式(7)中,Linear(•)表示响应生成器中的线性层,LN’(•)表示响应生成器中的标准化层,FFN(•)表示响应生成器中的前向传播层。
步骤2.3、基于响应r、响应骨架t及查询q,使用与干扰响应生成器G S 结构相同的骨架响应生成器G T 得到响应生成结果骨架响应r t 。
步骤2.4、响应融合模块基于图3所示的因果图进行对骨架响应r t 因果干预;具体而言,响应融合模块利用式(8)对干扰响应r s’ 和骨架响应r t 进行融合,得到融合响应r:
r s , t = r t ⊙σ(r s’ ) (8)
式(8)中,σ表示sigmoid函数,⊙表示点积;因果图是一个有向无环图,由用于表示变量的点和用于表示变量之间因果关系的边组成;因果图通常被用于描述一组变量之间的相互作用机制,它展示了数据背后的因果关系;本发明的对话生成过程可以由图3所示的因果图表示;在步骤2.4中,通过因果干预,人为地给定干扰响应r s’ ,但在其他方面依旧遵循图3中所示的原始的数据生成过程。
步骤2.5、利用式(9)构建骨架生成器G及骨架响应生成器G T 的损失函数R DIR :
R DIR = E[L(r s , t , r)] +λ Var[L(r s , t , r)] (9)
式(9)中,E表示期望,Var表示方差,λ为超参数,L(•)表示交叉熵损失;损失函数R DIR 含义为模型在减小生成的响应r s , t 与响应r的误差的同时,也试图减小外部干扰信息对于生成结果的影响。
步骤2.6、利用式(10)构建干扰响应生成器G S 的损失函数R S :
R S = E[L(r s’ , r)] (10)
利用式(10)所得到的损失函数R S 仅用于对干扰响应生成器G S 中的参数进行更新;通过将该模块的训练与本方法中的其他模块的训练分离,避免其对表示学习的干扰;同时,这种参数更新的方式,也促使干扰响应生成器G S 仅学习仅基于给定干扰词汇的非因果特征。
步骤2.7、利用随机梯度下降法对对话生成模型进行训练,并计算损失函数R S 及R DIR 以更新网络参数,当损失函数收敛或达到最大训练次数时,停止训练并得到最优参数的对话生成模型,用于对用户输入的任何查询生成相应的回复。
结合下列图表进一步描述本发明的测试结果:
为了验证本发明所提出的方法的有效性,进行了对比试验。实验结果如表1所示。其中,Retrieval为检索***,Seq2Seq为基本的序列到序列模型,BART为一种预训练语言模型,BART-cat在BART的基础上接受模板响应作为输入,Ske2Re为一种基于检索***的对话生成模型,TSLF为一种基于Transformer的引入外部知识的对话生成模型,DG为本发明所提出的方法。表1中,BLUE-1是一种基于词重叠的评价指标,用于比较生成文本与参考文本间的字符重合度,dist-1和dist-2则是两个用于衡量词汇多样性的评价指标。
表1
通过表1中的实验结果可以看出,本发明的方法在各指标上均优于其它模型,该方法可以更好地从检索到的模板响应种获取信息,并生成更多样的文本。
Claims (5)
1.一种基于深度学习的对话生成方法,其特征在于,是按如下步骤进行:
步骤1、构建基于检索编辑的对话生成数据集;
步骤1.1、获取查询文本集合Q及其对应的响应文本集合R,令q表示查询文本集合Q中的任意一个查询,令r表示查询q对应的响应;
步骤1.2、检索与响应r相似的模板响应r’,并得到与r’对应的模板查询q’,从而组成对话数据集D中的一个四元组(r, q, r’, q’);
步骤2、构建由骨架生成器G、骨架响应生成器G T 、干扰响应生成器G S 和响应融合模块组成的对话生成模型并进行训练;
步骤2.1、使用骨架生成器G从模板响应r’中分离响应骨架t与干扰词汇s,从而得到所有模板响应的干扰词汇并组成向量表示集S;并从所述向量表示集S中随机选取干扰词汇s’的向量表示Hs ’ ;
步骤2.2、基于响应r、干扰词汇s’及查询q,利用干扰响应生成器G S 得到响应生成结果干扰响应r s’ ;
步骤2.3、基于响应r、响应骨架t及查询q,使用与所述干扰响应生成器G S 结构相同的骨架响应生成器G T 得到响应生成结果骨架响应r t ;
步骤2.4、所述响应融合模块利用式(8)对干扰响应r s’ 和骨架响应r t 进行融合,得到融合响应r s,t :
r s,t = r t ⊙σ(r s’ ) (8)
式(8)中,σ表示sigmoid函数,⊙表示点积;
步骤2.5、利用式(9)构建骨架生成器G及骨架响应生成器G T 的损失函数R DIR :
R DIR = E[L(r s,t , r)] + λ Var[L(r s,t , r)] (9)
式(9)中,E表示期望,Var表示方差,λ为超参数,L(•)表示交叉熵损失;
步骤2.6、利用式(10)构建干扰响应生成器G S 的损失函数R S :
R S = E[L(r s’ , r)] (10)
步骤2.7、利用随机梯度下降法对所述对话生成模型进行训练,并计算所述损失函数R S 及R DIR 以更新网络参数,当损失函数收敛或达到最大训练次数时,停止训练并得到最优参数的对话生成模型,用于对用户输入的任何查询生成相应的回复。
2.根据权利要求1所述的基于深度学习的对话生成方法,其特征在于,步骤2.1中的骨架生成器G由Transformer编码器及交叉注意力层组成,并按如下过程分离响应骨架t与干扰词汇s;
步骤2.1.1、所述Transformer编码器对查询q和模板响应r’分别进行处理,得到查询q的向量表示H q ={h q 1, …, h q i , …, h q m }和模板响应r’的向量表示H r’ ={h 1 r’ , …, h j r’ ,…, h n r’ },其中,h q i 为查询q中第i个字符的隐向量,m为查询q中的字符数,h j r’ 表示模板响应r’中第j个字符的隐向量,n为模板响应r’中的字符数;
步骤2.1.2、所述交叉注意力层利用式(1)计算模板响应r’中第j个字符对查询q中第i个字符的注意力权重M i,j :
式(1)中,h q k 为查询q中第k个字符的隐向量,score(•)为注意力分数,并有:
score (h j r’ , h q k ) = (h j r’ )T W att h q k (2)
式(2)中,W att 为交叉注意力层的待学习参数,T为转置;
步骤2.1.3、所述交叉注意力层利用式(3)和式(4)计算响应骨架t的向量表示H t = {h t 1 ,…, h t j , …, h t n }及干扰词汇s的向量表示H s = {h s 1, …, h s j , …, h s n }:
式(3)和式(4)中,h t j 和h s j ,分别表示响应骨架t以及干扰词汇s中第j个字符的隐向量。
3.根据权利要求1所述的基于深度学习的对话生成方法,其特征在于,步骤2.2中的干扰响应生成器G S 由Transformer解码器和控制器组成;其中,所述Transformer解码器由编码层、位置编码层、自注意力层、交叉注意力层、两个标准化层、控制器和响应生成器组成;所述Transformer解码器是按如下过程得到响应生成结果干扰响应r s’ :
步骤2.2.1、所述Transformer解码器利用编码层,位置编码层,自注意力层和第一标准化层对响应r进行处理,得到响应r的向量表示H r ;
步骤2.2.2、所述Transformer解码器通过交叉注意力层和第二标准化层将响应r的向量表示H r 与查询q进行融合,得到融合后的响应查询向量表示H r,q ;
步骤2.2.3、所述控制器利用式(5)将干扰词汇s’的向量表示H s’ 与H r,q 进行融合,得到融合后的干扰融合向量表示H s’ r,q :
H s’ r,q = β•LN(H s’ ) + (1-β)•H r,q (5)
式(5)中,LN(•)表示控制器中的标准化层;β表示融合权重,并由式(6)得到;
β = σ(W s • [W s’ ; H r,q ]) (6)
式(6)中,W s 表示所述控制器的待学习参数,σ表示sigmoid函数;
步骤2.2.4、所述Transformer解码器的响应生成器利用式(7)得到响应生成结果干扰响应r s’ :
r s’ = Linear( LN’ ( FFN ( H s’ r,q ) + H s’ r,q )) (7)
式(7)中,Linear(•)表示响应生成器中的线性层,LN’(•)表示响应生成器中的标准化层,FFN(•)表示响应生成器中的前向传播层。
4.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-3中任一所述对话生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
5.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-3中任一所述对话生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310428793.6A CN116127051B (zh) | 2023-04-20 | 2023-04-20 | 基于深度学习的对话生成方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310428793.6A CN116127051B (zh) | 2023-04-20 | 2023-04-20 | 基于深度学习的对话生成方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127051A CN116127051A (zh) | 2023-05-16 |
CN116127051B true CN116127051B (zh) | 2023-07-11 |
Family
ID=86303166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310428793.6A Active CN116127051B (zh) | 2023-04-20 | 2023-04-20 | 基于深度学习的对话生成方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127051B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844335A (zh) * | 2016-12-21 | 2017-06-13 | 海航生态科技集团有限公司 | 自然语言处理方法及装置 |
CN107506823A (zh) * | 2017-08-22 | 2017-12-22 | 南京大学 | 一种用于对话生成的混合神经网络模型的构建方法 |
CN109829038A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 基于深度学习的问答反馈方法、装置、设备及存储介质 |
CN111858931A (zh) * | 2020-07-08 | 2020-10-30 | 华中师范大学 | 一种基于深度学习的文本生成方法 |
WO2021077974A1 (zh) * | 2019-10-24 | 2021-04-29 | 西北工业大学 | 一种个性化对话内容生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097814A1 (en) * | 2018-09-26 | 2020-03-26 | MedWhat.com Inc. | Method and system for enabling interactive dialogue session between user and virtual medical assistant |
US11514330B2 (en) * | 2019-01-14 | 2022-11-29 | Cambia Health Solutions, Inc. | Systems and methods for continual updating of response generation by an artificial intelligence chatbot |
GB201916307D0 (en) * | 2019-11-08 | 2019-12-25 | Polyal Ltd | A dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system |
-
2023
- 2023-04-20 CN CN202310428793.6A patent/CN116127051B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844335A (zh) * | 2016-12-21 | 2017-06-13 | 海航生态科技集团有限公司 | 自然语言处理方法及装置 |
CN107506823A (zh) * | 2017-08-22 | 2017-12-22 | 南京大学 | 一种用于对话生成的混合神经网络模型的构建方法 |
CN109829038A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 基于深度学习的问答反馈方法、装置、设备及存储介质 |
WO2021077974A1 (zh) * | 2019-10-24 | 2021-04-29 | 西北工业大学 | 一种个性化对话内容生成方法 |
CN111858931A (zh) * | 2020-07-08 | 2020-10-30 | 华中师范大学 | 一种基于深度学习的文本生成方法 |
Non-Patent Citations (2)
Title |
---|
Skeleton-to-Response: Dialogue Generation Guided by Retrieval Memory;Cai D等;《Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies》;全文 * |
基于深度学习的开放领域多轮对话***研究;陆兴武;《中国优秀硕士学位论文全文数据库 信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116127051A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bakhtin et al. | Real or fake? learning to discriminate machine from human generated text | |
Karimi et al. | Creative sketching partner: an analysis of human-AI co-creativity | |
CN111651557B (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
KR102654480B1 (ko) | 언어학습을 위한 지식 기반 대화 시스템 및 방법 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN110309170A (zh) | 一种任务型多轮对话中的复杂意图识别方法 | |
CN111090664A (zh) | 基于神经网络的高仿人多模式对话方法 | |
CN110334196A (zh) | 基于笔画和自注意力机制的神经网络中文问题生成*** | |
CN116644168A (zh) | 一种交互数据构建方法、装置、设备及存储介质 | |
CN116561251A (zh) | 一种自然语言处理方法 | |
CN116186216A (zh) | 基于知识增强和双图交互的问题生成方法及*** | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话*** | |
CN110516053A (zh) | 对话处理方法、设备及计算机存储介质 | |
CN112463935B (zh) | 一种带有强泛化知识选择的开放域对话生成方法及*** | |
CN113065324A (zh) | 一种基于结构化三元组和锚定模板的文本生成方法及装置 | |
CN117633707A (zh) | 一种细粒度多模态中文大语言模型构建方法及计算机存储介质 | |
CN116127051B (zh) | 基于深度学习的对话生成方法、电子设备及存储介质 | |
Lin et al. | A hierarchical structured multi-head attention network for multi-turn response generation | |
CN111414466A (zh) | 一种基于深度模型融合的多轮对话建模方法 | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 | |
CN115858736A (zh) | 一种基于情感提示微调的情感文本生成方法 | |
CN113051897A (zh) | 一种基于Performer结构的GPT2文本自动生成方法 | |
Mihaylov et al. | A Space Conversational Agent for Retrieving Lessons-learned and Expert Training | |
CN113626566B (zh) | 一种基于合成数据的知识对话跨域学习方法 | |
Szymanski et al. | Semantic memory knowledge acquisition through active dialogues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |