CN114065773A

CN114065773A - 多轮问答***历史上下文语义表示方法

Info

Publication number: CN114065773A
Application number: CN202111385201.4A
Authority: CN
Inventors: 冯卫森; 冯落落; 李沛; 李晓瑜; 高明; 王建华; 尹青山
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18

Abstract

本发明提供了一种多轮问答***历史上下文语义表示方法，其减少了因对话***上游发生错误对下游结果的影响，包括以下步骤：将语音数据通过ASR模块转化文本数据，同时通过时间序列算法，将处理后的音频数据直接作为DST的特征输入给DST模型；NLU模块数据接收到文本数据后，通过自然语言处理算法处理后，将特征数据传输给ASR模型;利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。

Description

多轮问答***历史上下文语义表示方法

技术领域

本发明涉及一种多轮问答***历史上下文语义表示方法，属于智能问答技术领域。

背景技术

多轮问答***中，DST模块上接语音识别模块，下接对话策略优化(DPL)模块。是存储历史上下文信息的重要模块。也是做好智能对话***的关键。

现有的DST模块上级主要接受来自NLU的数据。NLU数据主要来自于ASR模块的语音转文本。该模型的主要缺点在于，当ASR或NLU模块的数据出现错误，错误会传到到DST模块。

发明内容

本发明目的是提供了一种多轮问答***历史上下文语义表示方法，减少了因对话***上游发生错误对下游结果的影响，提高对话***回复生成的质量。

本发明为实现上述目的，通过以下技术方案实现：

一种多轮问答***历史上下文语义表示方法，包括以下步骤：

S1.将语音数据通过ASR模块转化文本数据，同时通过时间序列算法，将处理后的音频数据直接作为DST的特征输入给DST模型；

S2.NLU模块数据接收到文本数据后，通过自然语言处理算法处理后，将特征数据传输给ASR模型；

S3.利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。

所述多轮问答***历史上下文语义表示方法优选方案，ASR模块通过降噪处理、回声消除及VAD等算法处理，将音频数据转化为文本。

所述多轮问答***历史上下文语义表示方法优选方案，步骤S2中自然语言处理算法包括：分词服务、特征化操作、实体抽取及分类算法。

所述多轮问答***历史上下文语义表示方法优选方案，实体抽取及分类算法采用transformer+CRF结构进行操作，具体过程如下：

Transformer负责意图分类，采用两层transformer层，中间通过全连接层，使得两层输入相等；

在每段文本的输入结尾，增加特殊字符位CLS；

经过transformer层输出的意图分类预测向量为h_intent＝E(y_intent)，正确意图经嵌入层编码后向量为h_intent＝E(y_intent)；

通过点积损失最大化正确意图和编码后向量的相似度

最小化负样例与编码后向量的相似度

CRF负责命名实体识别，通过transformer对应token的一系列输出a,预测一系列的实体标签，L_E＝L_CRF(a,y_entity)，其中L_CRF(.)代表CRF的负相关性，通过该模型进行意图识别和命名实体识别。

本发明的优点在于：

1.该方法在表示历史上下文信息时，即考虑到了历史信息的先后顺序，又可以表示语义的转化程度。

2.本发明将ASR模块和NLU模块都作为DST模块的输入，减少了因模型链式过长而造成的误差。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种多轮问答***历史上下文语义表示方法，包括以下步骤：

S1.MIC拾音设备拾取声音将音频数据传输给ASR模块，通过ASR模块通过降噪处理、回声消除及VAD等算法处理，将音频数据转化文本数据，同时通过时间序列算法，将处理后的音频数据直接作为DST的特征输入给DST模型；

S3.利用DST模块采用深度学习模型，将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据通过多模态融合算法融合,结合历史上下文信息进行信息的存储追踪，该过程可以对音频和文本数据进行校对验证，消除前期存在的误差。特征融合后，通过深度学习模型Bert，将数据进行提取存储。

本实施例中，步骤S2中自然语言处理算法包括：分词服务、特征化操作、实体抽取及分类算法。

本实施例中，实体抽取及分类算法采用transformer+CRF结构进行操作，具体过程如下：

在每段文本的输入结尾，增加特殊字符位CLS；

通过点积损失最大化正确意图和编码后向量的相似度

最小化负样例与编码后向量的相似度

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多轮问答***历史上下文语义表示方法，其特征在于，包括以下步骤：

2.根据权利要求1所述多轮问答***历史上下文语义表示方法，其特征在于：ASR模块通过降噪处理、回声消除及VAD等算法处理，将音频数据转化为文本。

3.根据权利要求1所述多轮问答***历史上下文语义表示方法，其特征在于：步骤S2中自然语言处理算法包括：分词服务、特征化操作、实体抽取及分类算法。

4.根据权利要求3所述多轮问答***历史上下文语义表示方法，其特征在于：实体抽取及分类算法采用transformer+CRF结构进行操作，具体过程如下：

在每段文本的输入结尾，增加特殊字符位CLS；

通过点积损失最大化正确意图和编码后向量的相似度

最小化负样例与编码后向量的相似度