CN114065773A - 多轮问答***历史上下文语义表示方法 - Google Patents
多轮问答***历史上下文语义表示方法 Download PDFInfo
- Publication number
- CN114065773A CN114065773A CN202111385201.4A CN202111385201A CN114065773A CN 114065773 A CN114065773 A CN 114065773A CN 202111385201 A CN202111385201 A CN 202111385201A CN 114065773 A CN114065773 A CN 114065773A
- Authority
- CN
- China
- Prior art keywords
- intent
- module
- historical context
- text
- dst
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 abstract description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种多轮问答***历史上下文语义表示方法,其减少了因对话***上游发生错误对下游结果的影响,包括以下步骤:将语音数据通过ASR模块转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。
Description
技术领域
本发明涉及一种多轮问答***历史上下文语义表示方法,属于智能问答技术领域。
背景技术
多轮问答***中,DST模块上接语音识别模块,下接对话策略优化(DPL)模块。是存储历史上下文信息的重要模块。也是做好智能对话***的关键。
现有的DST模块上级主要接受来自NLU的数据。NLU数据主要来自于ASR模块的语音转文本。该模型的主要缺点在于,当ASR或NLU模块的数据出现错误,错误会传到到DST模块。
发明内容
本发明目的是提供了一种多轮问答***历史上下文语义表示方法,减少了因对话***上游发生错误对下游结果的影响,提高对话***回复生成的质量。
本发明为实现上述目的,通过以下技术方案实现:
一种多轮问答***历史上下文语义表示方法,包括以下步骤:
S1.将语音数据通过ASR模块转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;
S2.NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;
S3.利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。
所述多轮问答***历史上下文语义表示方法优选方案,ASR模块通过降噪处理、回声消除及VAD等算法处理,将音频数据转化为文本。
所述多轮问答***历史上下文语义表示方法优选方案,步骤S2中自然语言处理算法包括:分词服务、特征化操作、实体抽取及分类算法。
所述多轮问答***历史上下文语义表示方法优选方案,实体抽取及分类算法采用transformer+CRF结构进行操作,具体过程如下:
Transformer负责意图分类,采用两层transformer层,中间通过全连接层,使得两层输入相等;
在每段文本的输入结尾,增加特殊字符位CLS;
经过transformer层输出的意图分类预测向量为hintent=E(yintent),正确意图经嵌入层编码后向量为hintent=E(yintent);
CRF负责命名实体识别,通过transformer对应token的一系列输出a,预测一系列的实体标签,LE=LCRF(a,yentity),其中LCRF(.)代表CRF的负相关性,通过该模型进行意图识别和命名实体识别。
本发明的优点在于:
1.该方法在表示历史上下文信息时,即考虑到了历史信息的先后顺序,又可以表示语义的转化程度。
2.本发明将ASR模块和NLU模块都作为DST模块的输入,减少了因模型链式过长而造成的误差。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种多轮问答***历史上下文语义表示方法,包括以下步骤:
S1.MIC拾音设备拾取声音将音频数据传输给ASR模块,通过ASR模块通过降噪处理、回声消除及VAD等算法处理,将音频数据转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;
S2.NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;
S3.利用DST模块采用深度学习模型,将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据通过多模态融合算法融合,结合历史上下文信息进行信息的存储追踪,该过程可以对音频和文本数据进行校对验证,消除前期存在的误差。特征融合后,通过深度学习模型Bert,将数据进行提取存储。
本实施例中,步骤S2中自然语言处理算法包括:分词服务、特征化操作、实体抽取及分类算法。
本实施例中,实体抽取及分类算法采用transformer+CRF结构进行操作,具体过程如下:
Transformer负责意图分类,采用两层transformer层,中间通过全连接层,使得两层输入相等;
在每段文本的输入结尾,增加特殊字符位CLS;
经过transformer层输出的意图分类预测向量为hintent=E(yintent),正确意图经嵌入层编码后向量为hintent=E(yintent);
CRF负责命名实体识别,通过transformer对应token的一系列输出a,预测一系列的实体标签,LE=LCRF(a,yentity),其中LCRF(.)代表CRF的负相关性,通过该模型进行意图识别和命名实体识别。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种多轮问答***历史上下文语义表示方法,其特征在于,包括以下步骤:
S1.将语音数据通过ASR模块转化文本数据,同时通过时间序列算法,将处理后的音频数据直接作为DST的特征输入给DST模型;
S2.NLU模块数据接收到文本数据后,通过自然语言处理算法处理后,将特征数据传输给ASR模型;
S3.利用DST模块将ASR模块输入的音频特征数据和NLU模块输入的文本特征数据融合,结合历史上下文信息进行信息的存储追踪。
2.根据权利要求1所述多轮问答***历史上下文语义表示方法,其特征在于:ASR模块通过降噪处理、回声消除及VAD等算法处理,将音频数据转化为文本。
3.根据权利要求1所述多轮问答***历史上下文语义表示方法,其特征在于:步骤S2中自然语言处理算法包括:分词服务、特征化操作、实体抽取及分类算法。
4.根据权利要求3所述多轮问答***历史上下文语义表示方法,其特征在于:实体抽取及分类算法采用transformer+CRF结构进行操作,具体过程如下:
Transformer负责意图分类,采用两层transformer层,中间通过全连接层,使得两层输入相等;
在每段文本的输入结尾,增加特殊字符位CLS;
经过transformer层输出的意图分类预测向量为hintent=E(yintent),正确意图经嵌入层编码后向量为hintent=E(yintent);
CRF负责命名实体识别,通过transformer对应token的一系列输出a,预测一系列的实体标签,LE=LCRF(a,yentity),其中LCRF(.)代表CRF的负相关性,通过该模型进行意图识别和命名实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111385201.4A CN114065773A (zh) | 2021-11-22 | 2021-11-22 | 多轮问答***历史上下文语义表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111385201.4A CN114065773A (zh) | 2021-11-22 | 2021-11-22 | 多轮问答***历史上下文语义表示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065773A true CN114065773A (zh) | 2022-02-18 |
Family
ID=80278631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111385201.4A Pending CN114065773A (zh) | 2021-11-22 | 2021-11-22 | 多轮问答***历史上下文语义表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065773A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306685A (zh) * | 2023-05-22 | 2023-06-23 | 国网信息通信产业集团有限公司 | 一种面向电力业务场景的多意图识别方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026843A (zh) * | 2019-12-02 | 2020-04-17 | 北京智乐瑟维科技有限公司 | 一种人工智能语音外呼方法、***及存储介质 |
CN112201228A (zh) * | 2020-09-28 | 2021-01-08 | 苏州贝果智能科技有限公司 | 一种基于人工智能的多模态语义识别服务接入方法 |
CN112232083A (zh) * | 2019-08-23 | 2021-01-15 | 上海松鼠课堂人工智能科技有限公司 | 人机对话口语测评*** |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
-
2021
- 2021-11-22 CN CN202111385201.4A patent/CN114065773A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232083A (zh) * | 2019-08-23 | 2021-01-15 | 上海松鼠课堂人工智能科技有限公司 | 人机对话口语测评*** |
CN111026843A (zh) * | 2019-12-02 | 2020-04-17 | 北京智乐瑟维科技有限公司 | 一种人工智能语音外呼方法、***及存储介质 |
CN112201228A (zh) * | 2020-09-28 | 2021-01-08 | 苏州贝果智能科技有限公司 | 一种基于人工智能的多模态语义识别服务接入方法 |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306685A (zh) * | 2023-05-22 | 2023-06-23 | 国网信息通信产业集团有限公司 | 一种面向电力业务场景的多意图识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Serdyuk et al. | Towards end-to-end spoken language understanding | |
CN114444479B (zh) | 一种端到端中文语音文本纠错方法、装置和存储介质 | |
CN110827801B (zh) | 一种基于人工智能的自动语音识别方法及*** | |
US11488586B1 (en) | System for speech recognition text enhancement fusing multi-modal semantic invariance | |
US8972243B1 (en) | Parse information encoding in a finite state transducer | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及*** | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及*** | |
KR20230147685A (ko) | 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습 | |
CN111783477B (zh) | 一种语音翻译方法及*** | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN112349288A (zh) | 基于拼音约束联合学习的汉语语音识别方法 | |
CN114065773A (zh) | 多轮问答***历史上下文语义表示方法 | |
CN116343784A (zh) | 一种多模态意图识别方法、装置、设备及存储介质 | |
CN111009236A (zh) | 一种基于dblstm+ctc声学模型的语音识别方法 | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
CN115795008A (zh) | 口语对话状态追踪模型训练方法及口语对话状态追踪方法 | |
CN113436616B (zh) | 一种多领域自适应的端到端语音识别方法、***及电子装置 | |
CN115512691A (zh) | 一种人机连续对话中基于语义层面判断回声的方法 | |
CN115238048A (zh) | 一种联合意图识别和槽填充的快速交互方法 | |
CN114005434A (zh) | 端到端语音的置信度计算方法、装置、服务器和介质 | |
Tian et al. | End-to-end speech recognition with Alignment RNN-Transducer | |
CN117711378A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |