CN114065773A - 多轮问答***历史上下文语义表示方法 - Google Patents

多轮问答***历史上下文语义表示方法 Download PDF

Info

Publication number
CN114065773A
CN114065773A CN202111385201.4A CN202111385201A CN114065773A CN 114065773 A CN114065773 A CN 114065773A CN 202111385201 A CN202111385201 A CN 202111385201A CN 114065773 A CN114065773 A CN 114065773A
Authority
CN
China
Prior art keywords
intent
module
historical context
text
dst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111385201.4A
Other languages
English (en)
Inventor
冯卫森
冯落落
李沛
李晓瑜
高明
王建华
尹青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Original Assignee
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong New Generation Information Industry Technology Research Institute Co Ltd filed Critical Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority to CN202111385201.4A priority Critical patent/CN114065773A/zh
Publication of CN114065773A publication Critical patent/CN114065773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种多轮问答***历史上下文语义表示方法,其减少了因对话***上游发生错误对下游结果的影响,包括以下步骤:将语音数据通过ASR模块转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。

Description

多轮问答***历史上下文语义表示方法
技术领域
本发明涉及一种多轮问答***历史上下文语义表示方法,属于智能问答技术领域。
背景技术
多轮问答***中,DST模块上接语音识别模块,下接对话策略优化(DPL)模块。是存储历史上下文信息的重要模块。也是做好智能对话***的关键。
现有的DST模块上级主要接受来自NLU的数据。NLU数据主要来自于ASR模块的语音转文本。该模型的主要缺点在于,当ASR或NLU模块的数据出现错误,错误会传到到DST模块。
发明内容
本发明目的是提供了一种多轮问答***历史上下文语义表示方法,减少了因对话***上游发生错误对下游结果的影响,提高对话***回复生成的质量。
本发明为实现上述目的,通过以下技术方案实现:
一种多轮问答***历史上下文语义表示方法,包括以下步骤:
S1.将语音数据通过ASR模块转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;
S2.NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;
S3.利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。
所述多轮问答***历史上下文语义表示方法优选方案,ASR模块通过降噪处理、回声消除及VAD等算法处理,将音频数据转化为文本。
所述多轮问答***历史上下文语义表示方法优选方案,步骤S2中自然语言处理算法包括:分词服务、特征化操作、实体抽取及分类算法。
所述多轮问答***历史上下文语义表示方法优选方案,实体抽取及分类算法采用transformer+CRF结构进行操作,具体过程如下:
Transformer负责意图分类,采用两层transformer层,中间通过全连接层,使得两层输入相等;
在每段文本的输入结尾,增加特殊字符位CLS;
经过transformer层输出的意图分类预测向量为hintent=E(yintent),正确意图经嵌入层编码后向量为hintent=E(yintent);
通过点积损失最大化正确意图和编码后向量的相似度
Figure BDA0003366792970000021
最小化负样例与编码后向量的相似度
Figure BDA0003366792970000022
CRF负责命名实体识别,通过transformer对应token的一系列输出a,预测一系列的实体标签,LE=LCRF(a,yentity),其中LCRF(.)代表CRF的负相关性,通过该模型进行意图识别和命名实体识别。
本发明的优点在于:
1.该方法在表示历史上下文信息时,即考虑到了历史信息的先后顺序,又可以表示语义的转化程度。
2.本发明将ASR模块和NLU模块都作为DST模块的输入,减少了因模型链式过长而造成的误差。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种多轮问答***历史上下文语义表示方法,包括以下步骤:
S1.MIC拾音设备拾取声音将音频数据传输给ASR模块,通过ASR模块通过降噪处理、回声消除及VAD等算法处理,将音频数据转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;
S2.NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;
S3.利用DST模块采用深度学习模型,将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据通过多模态融合算法融合,结合历史上下文信息进行信息的存储追踪,该过程可以对音频和文本数据进行校对验证,消除前期存在的误差。特征融合后,通过深度学习模型Bert,将数据进行提取存储。
本实施例中,步骤S2中自然语言处理算法包括:分词服务、特征化操作、实体抽取及分类算法。
本实施例中,实体抽取及分类算法采用transformer+CRF结构进行操作,具体过程如下:
Transformer负责意图分类,采用两层transformer层,中间通过全连接层,使得两层输入相等;
在每段文本的输入结尾,增加特殊字符位CLS;
经过transformer层输出的意图分类预测向量为hintent=E(yintent),正确意图经嵌入层编码后向量为hintent=E(yintent);
通过点积损失最大化正确意图和编码后向量的相似度
Figure BDA0003366792970000041
最小化负样例与编码后向量的相似度
Figure BDA0003366792970000042
CRF负责命名实体识别,通过transformer对应token的一系列输出a,预测一系列的实体标签,LE=LCRF(a,yentity),其中LCRF(.)代表CRF的负相关性,通过该模型进行意图识别和命名实体识别。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种多轮问答***历史上下文语义表示方法,其特征在于,包括以下步骤:
S1.将语音数据通过ASR模块转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;
S2.NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;
S3.利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。
2.根据权利要求1所述多轮问答***历史上下文语义表示方法,其特征在于:ASR模块通过降噪处理、回声消除及VAD等算法处理,将音频数据转化为文本。
3.根据权利要求1所述多轮问答***历史上下文语义表示方法,其特征在于:步骤S2中自然语言处理算法包括:分词服务、特征化操作、实体抽取及分类算法。
4.根据权利要求3所述多轮问答***历史上下文语义表示方法,其特征在于:实体抽取及分类算法采用transformer+CRF结构进行操作,具体过程如下:
Transformer负责意图分类,采用两层transformer层,中间通过全连接层,使得两层输入相等;
在每段文本的输入结尾,增加特殊字符位CLS;
经过transformer层输出的意图分类预测向量为hintent=E(yintent),正确意图经嵌入层编码后向量为hintent=E(yintent);
通过点积损失最大化正确意图和编码后向量的相似度
Figure FDA0003366792960000011
最小化负样例与编码后向量的相似度
Figure FDA0003366792960000021
CRF负责命名实体识别,通过transformer对应token的一系列输出a,预测一系列的实体标签,LE=LCRF(a,yentity),其中LCRF(.)代表CRF的负相关性,通过该模型进行意图识别和命名实体识别。
CN202111385201.4A 2021-11-22 2021-11-22 多轮问答***历史上下文语义表示方法 Pending CN114065773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111385201.4A CN114065773A (zh) 2021-11-22 2021-11-22 多轮问答***历史上下文语义表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111385201.4A CN114065773A (zh) 2021-11-22 2021-11-22 多轮问答***历史上下文语义表示方法

Publications (1)

Publication Number Publication Date
CN114065773A true CN114065773A (zh) 2022-02-18

Family

ID=80278631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111385201.4A Pending CN114065773A (zh) 2021-11-22 2021-11-22 多轮问答***历史上下文语义表示方法

Country Status (1)

Country Link
CN (1) CN114065773A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306685A (zh) * 2023-05-22 2023-06-23 国网信息通信产业集团有限公司 一种面向电力业务场景的多意图识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026843A (zh) * 2019-12-02 2020-04-17 北京智乐瑟维科技有限公司 一种人工智能语音外呼方法、***及存储介质
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112232083A (zh) * 2019-08-23 2021-01-15 上海松鼠课堂人工智能科技有限公司 人机对话口语测评***
CN113190656A (zh) * 2021-05-11 2021-07-30 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232083A (zh) * 2019-08-23 2021-01-15 上海松鼠课堂人工智能科技有限公司 人机对话口语测评***
CN111026843A (zh) * 2019-12-02 2020-04-17 北京智乐瑟维科技有限公司 一种人工智能语音外呼方法、***及存储介质
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN113190656A (zh) * 2021-05-11 2021-07-30 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306685A (zh) * 2023-05-22 2023-06-23 国网信息通信产业集团有限公司 一种面向电力业务场景的多意图识别方法及***

Similar Documents

Publication Publication Date Title
Serdyuk et al. Towards end-to-end spoken language understanding
CN114444479B (zh) 一种端到端中文语音文本纠错方法、装置和存储介质
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及***
US11488586B1 (en) System for speech recognition text enhancement fusing multi-modal semantic invariance
US8972243B1 (en) Parse information encoding in a finite state transducer
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及***
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及***
KR20230147685A (ko) 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습
CN111783477B (zh) 一种语音翻译方法及***
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN113327595B (zh) 发音偏误检测方法、装置及存储介质
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN112349288A (zh) 基于拼音约束联合学习的汉语语音识别方法
CN114065773A (zh) 多轮问答***历史上下文语义表示方法
CN116343784A (zh) 一种多模态意图识别方法、装置、设备及存储介质
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
CN115795008A (zh) 口语对话状态追踪模型训练方法及口语对话状态追踪方法
CN113436616B (zh) 一种多领域自适应的端到端语音识别方法、***及电子装置
CN115512691A (zh) 一种人机连续对话中基于语义层面判断回声的方法
CN115238048A (zh) 一种联合意图识别和槽填充的快速交互方法
CN114005434A (zh) 端到端语音的置信度计算方法、装置、服务器和介质
Tian et al. End-to-end speech recognition with Alignment RNN-Transducer
CN117711378A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination