CN115273849B - 一种关于音频数据的意图识别方法及装置 - Google Patents
一种关于音频数据的意图识别方法及装置 Download PDFInfo
- Publication number
- CN115273849B CN115273849B CN202211178066.0A CN202211178066A CN115273849B CN 115273849 B CN115273849 B CN 115273849B CN 202211178066 A CN202211178066 A CN 202211178066A CN 115273849 B CN115273849 B CN 115273849B
- Authority
- CN
- China
- Prior art keywords
- audio data
- intention
- vector
- semantic
- target voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 174
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 32
- 239000000126 substance Substances 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 68
- 238000013507 mapping Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种关于音频数据的意图识别方法及装置,方法包括:获取包含目标语音的音频数据;将包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;其中,联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,语义槽填充层用于根据包含目标语音的音频数据,获取语义文字向量;意图预测层用于根据包含目标语音的音频数据,获取语义预测向量;指令意图获取层用于根据语义文字向量和语义预测向量,获取联合目标函数,并基于联合目标函数得到目标语音的指令意图。本发明通过联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种关于音频数据的意图识别方法及装置。
背景技术
近些年随着自然语言处理、知识图谱等相关技术的发展,问答***已经扩展到了众多领域。通过与运维机器人进行人机交互,以一问一答的方式轻松完成运维动作,可以大幅度提高运维人员工作效率,而意图识别(Intent Detection)是人机对话***构成的关键。
现有的运维机器人更多的是某一独立功能的问答***,用户在不同的场合下可能会有不同意图,因而会涉及人机对话***中的多个领域,其中包括任务型垂直领域和闲聊等。任务型垂直领域的意图文本具有主题鲜明,易于检索的特点,比如,查询内存使用率、CPU使用率等。而聊天类意图文本一般具有主题不明确,语义宽泛、语句简短等特点,注重在开放域上与人类进行交流。在对话***中只有明确了用户的话题领域,才能正确分析用户的具体需求,否则会造成后面意图的错误识别。
现有的技术是基于规则模板的单意图识别方法,基于规则模板的意图识别方法一般需要人为构建规则模板以及类别信息对用户意图文本进行分类。现有技术针对消费意图识别,基于规则和图的方法来获取意图模板,在单一领域取得了较好的分类效果。后来发现在同一领域下,不同的表达方式会导致规则模板数量的增加,需要耗费大量的人力物力。所以,基于规则模板匹配的方法虽然不需要大量的训练数据,就可以保证识别的准确性,但是却无法解决意图文本更换类别时带来重新构造模板的高成本问题,也就是说,现有技术在意图识别时的缺陷在于:适用于单意图识别的基于规则模版的方法并不适用于多意图识别,现有意图识别技术急需一种适用于多意图识别的方法。
发明内容
本发明提供一种关于音频数据的意图识别方法及装置,用以解决现有技术中的意图识别方法不适用多意图识别的问题,通过联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别。
本发明提供一种关于音频数据的意图识别方法,包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
根据本发明提供的关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义文字向量,包括:
将所述包含目标语音的音频数据转化为初始向量;
将所述初始向量映射成语义文字向量。
根据本发明提供的关于音频数据的意图识别方法,所述将所述初始向量映射成语义文字向量,包括:
基于所述初始向量,求得隐层向量和槽上下文向量;
基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得所述语义文字向量。
根据本发明提供的关于音频数据的意图识别方法,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率。
根据本发明提供的关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义预测向量,包括:
根据所述包含目标语音的音频数据,获取意图上下文向量;
基于所述意图上下文向量,获取语义预测向量。
根据本发明提供的关于音频数据的意图识别方法,还包括:
基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
根据本发明提供的关于音频数据的意图识别方法,方法还包括:
获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
本发明还提供一种关于音频数据的意图识别装置,包括:
音频数据获取模块,用于获取包含目标语音的音频数据;
音频数据处理模块,用于将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并由所述联合目标函数得到目标语音的指令意图。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述关于音频数据的意图识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如所述关于音频数据的意图识别方法的步骤。
本发明提供的关于音频数据的意图识别方法及装置,通过获取包含目标语音的音频数据;将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图;本发明通过联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图,取得了显著的进步。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的关于音频数据的意图识别方法的流程示意图;
图2是本发明提供的关于音频数据的意图识别装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3,用实施例具体描述本发明的关于音频数据的意图识别方法、装置、电子设备与存储介质。
图1为本发明提供的关于音频数据的意图识别方法的流程示意图,如图1所示,本发明提供的关于音频数据的意图识别方法包括:
步骤S110、获取包含目标语音的音频数据;
在本实施例中,目标语音是指用户发出的包含指令信息的口语声音。也就是说,一定的采集距离范围内的所有声音包括用户发出的包含指令信息的口语声音都会被视为需要采集的音频数据。本发明采用了用户发出的包含指令信息的口语声音清晰度远远超过用户所在位置背景音的强假设,基于采集到的音频数据中的目标语音可以被唯一清晰读取的强假设,最后会求得目标语音对应的指令意图。
在本实施例中,假设用户在采集范围内发出一句包含指令信息的口语声音,则获取包含目标语音的音频数据。
步骤S120、将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
在本实施例中,联合模型是具有深度学习能力的网络模型,采用可以更好的捕捉双向语义依赖的BiLSTM(directional Long Short-Term Memory)结构,其中,BiLSTM模型由前向LSTM和后向LSTM组合而成。
在本实施例中,基于包含目标语音的音频数据生成输入向量,由语义槽填充层将
输入向量映射成语义文字向量,由意图预测层将输入向量映射成语义预测向量,最后
由指令意图获取层基于语义文字向量和语义预测向量,获取联合目标函数,并由联合
目标函数得到目标语音的指令意图。
本发明提供的关于音频数据的意图识别方法,通过获取包含目标语音的音频数据;将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图,由联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图。
根据本发明提供的一种关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义文字向量,包括:
将所述包含目标语音的音频数据转化为初始向量;
将所述初始向量映射成语义文字向量。
将初始向量代入联合目标函数公式,可以得到:
本发明提供的关于音频数据的意图识别方法,通过由包含目标语音的音频数据转化成初始向量,再由初始向量映射成语义文字向量,进一步阐明语义文字向量的生成路径,有力地支持了联合模型对用户意图的深层次的理解和对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,所述将所述初始向量映射成语义文字向量,包括:
基于所述初始向量,求得隐层向量和槽上下文向量;
基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得所述语义文字向量。
在本实施例中,softmax函数,又称归一化指数函数,是一个单层的神经网络。隐层
向量是指目标语音中单个字词对应的向量,也与初始向量的数字序列
中的第个数字对应,用于表示单个字词的含义;槽上下文向量(slot context vector)是
指目标语音中单个字词对应的上下文向量,也与初始向量的数字序列中
的第i个数字对应,用于表示单个字词的多个具体含义结合上下文语境进行具体评估单个
字词真实含义的向量;其中,i的取值范围为。
在本实施例中,使用BILSTM结构,基于输入的初始向量,求得隐
层向量和槽上下文向量;由隐层向量和槽上下文向量,通过softmax函数,求得词
序列中第i个单个字词对应的槽填充标签(slot label),也就是语义文字向量,用公
式表示为:
本发明提供的关于音频数据的意图识别方法,由初始向量求得隐层向量和槽上下文向量;再由隐层向量和槽上下文向量,通过softmax函数,求得语义文字向量,进一步阐明语义文字向量的具体生成路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率。
本发明提供的关于音频数据的意图识别方法,通过进一步阐明槽上下文向量中注意得分参数的求取过程,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义预测向量,包括:
根据所述包含目标语音的音频数据,获取意图上下文向量;
基于所述意图上下文向量,获取语义预测向量。
在本实施例中,将包含目标语音的音频数据转化成初始向量,初始向量即为
联合模型的输入向量,初始向量本质是一个词序列,与目标语音中的单个字词一一对应;
然后由意图预测层将初始向量映射生成意图上下文向量(intent context vector),
再由意图上下文向量生成语义预测向量,其中,意图上下文向量的计算类似于槽上下
文向量,用于表示槽上下文向量;预测隐层向量表示在预测意图时只使用BILSTM最后
一个隐层状态求得的向量。语义预测向量用公式表示为:
本发明提供的关于音频数据的意图识别方法,根据包含目标语音的音频数据获取意图上下文向量,再由意图上下文向量获取语义预测向量,进一步阐明了语义预测向量的具体求取路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,还包括:
基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
在本实施例中,加权特征参数可以看作联合槽上下文向量和意图上下文向量的加权特征,主要目的是使用意图上下文向量(intent context vector)来改善语义
槽填充层(slot-filling)的表现。加权特征参数用公式表示为:
本发明提供的关于音频数据的意图识别方法,通过进一步公开用于提高语义槽填充层性能的加权特征参数的具体求取路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,方法还包括:
获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
在本实施例中,混合高斯-通用背景模型GMM-UBM是一种对高斯混合模型GMM的改进模型。通用背景模型UBM (Universal Background Model)是由DA Reynolds团队提出的模型。
在本实施例中,将大量的非目标用户音频数据输入混合高斯-通用背景模型GMM-UBM,训练得到一个具体说话人模型的先验模型;将少量目标用户音频数据输入先验模型,对先验模型进行参数微调就可以得到最终的联合模型。
本发明提供的关于音频数据的意图识别方法,通过进一步公开基于非目标用户音频数据和目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练得到联合模型,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
图2是本发明提供的关于音频数据的意图识别装置的结构示意图,如图2所示,本发明提供的关于音频数据的意图识别装置,包括:
音频数据获取模块210,用于获取包含目标语音的音频数据;
音频数据处理模块220,用于将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并由所述联合目标函数得到目标语音的指令意图。
本发明提供的关于音频数据的意图识别装置,通过设置音频数据获取模块和音频数据处理模块,获取包含目标语音的音频数据;将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图,使联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图。
基于上述任一实施例,在本实施例中,根据本发明提供的关于音频数据的意图识别装置,还包括:
槽填充加权参数层,用于基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
本发明提供的关于音频数据的意图识别装置,通过设置槽填充加权参数层,进一步公开用于提高语义槽填充层性能的加权特征参数的具体求取路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
基于上述任一实施例,在本实施例中,根据本发明提供的关于音频数据的意图识别装置,还包括:
样本音频数据获取单元,用于获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
先验模型单元,用于基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
联合模型单元,用于基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
本发明提供的关于音频数据的意图识别装置,通过设置样本音频数据获取单元、先验模型单元和联合模型单元,进一步公开基于非目标用户音频数据和目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练得到联合模型,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
另一方面,本发明还提供一种电子设备,图3示例了一种电子设备的结构示意图,如图3所示,该电子设备可以包括处理器310、通信总线320、存储器330、通信接口340以及存储在所述存储器330上并可在所述处理器310上运行的计算机程序,其中,处理器310、通信接口310、存储器330通过通信总线340完成相互间的通信,处理器310可以调用存储器330中的逻辑指令,以执行关于音频数据的意图识别方法,该方法包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
最后,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,可以实现关于音频数据的意图识别方法,该方法包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种关于音频数据的意图识别方法,其特征在于,包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于将所述包含目标语音的音频数据转化为初始向量;基于所述初始向量,求得隐层向量和槽上下文向量;基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得语义文字向量;其中,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率;
所述意图预测层用于根据所述包含目标语音的音频数据,获取意图上下文向量;基于所述意图上下文向量,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
2.根据权利要求1所述的关于音频数据的意图识别方法,其特征在于,还包括:
基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
3.根据权利要求1所述的关于音频数据的意图识别方法,其特征在于,方法还包括:
获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
4.一种关于音频数据的意图识别装置,其特征在于,包括:
音频数据获取模块,用于获取包含目标语音的音频数据;
音频数据处理模块,用于将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于将所述包含目标语音的音频数据转化为初始向量;基于所述初始向量,求得隐层向量和槽上下文向量;基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得语义文字向量;其中,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率;
所述意图预测层用于根据所述包含目标语音的音频数据,获取意图上下文向量;基于所述意图上下文向量,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并由所述联合目标函数得到目标语音的指令意图。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述关于音频数据的意图识别方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述关于音频数据的意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178066.0A CN115273849B (zh) | 2022-09-27 | 2022-09-27 | 一种关于音频数据的意图识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178066.0A CN115273849B (zh) | 2022-09-27 | 2022-09-27 | 一种关于音频数据的意图识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115273849A CN115273849A (zh) | 2022-11-01 |
CN115273849B true CN115273849B (zh) | 2022-12-27 |
Family
ID=83757223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211178066.0A Active CN115273849B (zh) | 2022-09-27 | 2022-09-27 | 一种关于音频数据的意图识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273849B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11094317B2 (en) * | 2018-07-31 | 2021-08-17 | Samsung Electronics Co., Ltd. | System and method for personalized natural language understanding |
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及*** |
CN110516253B (zh) * | 2019-08-30 | 2023-08-25 | 思必驰科技股份有限公司 | 中文口语语义理解方法及*** |
CN110853626B (zh) * | 2019-10-21 | 2021-04-20 | 成都信息工程大学 | 基于双向注意力神经网络的对话理解方法、装置及设备 |
CN113505591A (zh) * | 2020-03-23 | 2021-10-15 | 华为技术有限公司 | 一种槽位识别方法及电子设备 |
CN112037773B (zh) * | 2020-11-05 | 2021-01-29 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN113204952B (zh) * | 2021-03-26 | 2023-09-15 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
-
2022
- 2022-09-27 CN CN202211178066.0A patent/CN115273849B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115273849A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111775B (zh) | 一种流式语音识别方法、装置、设备及存储介质 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN110321418B (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN110853626B (zh) | 基于双向注意力神经网络的对话理解方法、装置及设备 | |
CN113205817A (zh) | 语音语义识别方法、***、设备及介质 | |
CN111161726B (zh) | 一种智能语音交互方法、设备、介质及*** | |
CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别*** | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
US11322151B2 (en) | Method, apparatus, and medium for processing speech signal | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN116303966A (zh) | 基于提示学习的对话行为识别*** | |
CN114003700A (zh) | 一种对话信息的处理方法、***、电子设备及存储介质 | |
CN113393841A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN115273849B (zh) | 一种关于音频数据的意图识别方法及装置 | |
CN111046674A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111680514A (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN114254649A (zh) | 一种语言模型的训练方法、装置、存储介质及设备 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN114818644B (zh) | 文本模板生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |