CN115273849B - 一种关于音频数据的意图识别方法及装置 - Google Patents

一种关于音频数据的意图识别方法及装置 Download PDF

Info

Publication number
CN115273849B
CN115273849B CN202211178066.0A CN202211178066A CN115273849B CN 115273849 B CN115273849 B CN 115273849B CN 202211178066 A CN202211178066 A CN 202211178066A CN 115273849 B CN115273849 B CN 115273849B
Authority
CN
China
Prior art keywords
audio data
intention
vector
semantic
target voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211178066.0A
Other languages
English (en)
Other versions
CN115273849A (zh
Inventor
蒋宇
徐敏
李鑫豪
任纪良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baolande Software Co ltd
Original Assignee
Beijing Baolande Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baolande Software Co ltd filed Critical Beijing Baolande Software Co ltd
Priority to CN202211178066.0A priority Critical patent/CN115273849B/zh
Publication of CN115273849A publication Critical patent/CN115273849A/zh
Application granted granted Critical
Publication of CN115273849B publication Critical patent/CN115273849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种关于音频数据的意图识别方法及装置,方法包括:获取包含目标语音的音频数据;将包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;其中,联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,语义槽填充层用于根据包含目标语音的音频数据,获取语义文字向量;意图预测层用于根据包含目标语音的音频数据,获取语义预测向量;指令意图获取层用于根据语义文字向量和语义预测向量,获取联合目标函数,并基于联合目标函数得到目标语音的指令意图。本发明通过联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图。

Description

一种关于音频数据的意图识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种关于音频数据的意图识别方法及装置。
背景技术
近些年随着自然语言处理、知识图谱等相关技术的发展,问答***已经扩展到了众多领域。通过与运维机器人进行人机交互,以一问一答的方式轻松完成运维动作,可以大幅度提高运维人员工作效率,而意图识别(Intent Detection)是人机对话***构成的关键。
现有的运维机器人更多的是某一独立功能的问答***,用户在不同的场合下可能会有不同意图,因而会涉及人机对话***中的多个领域,其中包括任务型垂直领域和闲聊等。任务型垂直领域的意图文本具有主题鲜明,易于检索的特点,比如,查询内存使用率、CPU使用率等。而聊天类意图文本一般具有主题不明确,语义宽泛、语句简短等特点,注重在开放域上与人类进行交流。在对话***中只有明确了用户的话题领域,才能正确分析用户的具体需求,否则会造成后面意图的错误识别。
现有的技术是基于规则模板的单意图识别方法,基于规则模板的意图识别方法一般需要人为构建规则模板以及类别信息对用户意图文本进行分类。现有技术针对消费意图识别,基于规则和图的方法来获取意图模板,在单一领域取得了较好的分类效果。后来发现在同一领域下,不同的表达方式会导致规则模板数量的增加,需要耗费大量的人力物力。所以,基于规则模板匹配的方法虽然不需要大量的训练数据,就可以保证识别的准确性,但是却无法解决意图文本更换类别时带来重新构造模板的高成本问题,也就是说,现有技术在意图识别时的缺陷在于:适用于单意图识别的基于规则模版的方法并不适用于多意图识别,现有意图识别技术急需一种适用于多意图识别的方法。
发明内容
本发明提供一种关于音频数据的意图识别方法及装置,用以解决现有技术中的意图识别方法不适用多意图识别的问题,通过联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别。
本发明提供一种关于音频数据的意图识别方法,包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
根据本发明提供的关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义文字向量,包括:
将所述包含目标语音的音频数据转化为初始向量;
将所述初始向量映射成语义文字向量。
根据本发明提供的关于音频数据的意图识别方法,所述将所述初始向量映射成语义文字向量,包括:
基于所述初始向量,求得隐层向量和槽上下文向量;
基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得所述语义文字向量。
根据本发明提供的关于音频数据的意图识别方法,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率。
根据本发明提供的关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义预测向量,包括:
根据所述包含目标语音的音频数据,获取意图上下文向量;
基于所述意图上下文向量,获取语义预测向量。
根据本发明提供的关于音频数据的意图识别方法,还包括:
基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
根据本发明提供的关于音频数据的意图识别方法,方法还包括:
获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
本发明还提供一种关于音频数据的意图识别装置,包括:
音频数据获取模块,用于获取包含目标语音的音频数据;
音频数据处理模块,用于将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并由所述联合目标函数得到目标语音的指令意图。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述关于音频数据的意图识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如所述关于音频数据的意图识别方法的步骤。
本发明提供的关于音频数据的意图识别方法及装置,通过获取包含目标语音的音频数据;将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图;本发明通过联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图,取得了显著的进步。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的关于音频数据的意图识别方法的流程示意图;
图2是本发明提供的关于音频数据的意图识别装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3,用实施例具体描述本发明的关于音频数据的意图识别方法、装置、电子设备与存储介质。
图1为本发明提供的关于音频数据的意图识别方法的流程示意图,如图1所示,本发明提供的关于音频数据的意图识别方法包括:
步骤S110、获取包含目标语音的音频数据;
在本实施例中,目标语音是指用户发出的包含指令信息的口语声音。也就是说,一定的采集距离范围内的所有声音包括用户发出的包含指令信息的口语声音都会被视为需要采集的音频数据。本发明采用了用户发出的包含指令信息的口语声音清晰度远远超过用户所在位置背景音的强假设,基于采集到的音频数据中的目标语音可以被唯一清晰读取的强假设,最后会求得目标语音对应的指令意图。
在本实施例中,假设用户在采集范围内发出一句包含指令信息的口语声音,则获取包含目标语音的音频数据。
步骤S120、将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
在本实施例中,联合模型是具有深度学习能力的网络模型,采用可以更好的捕捉双向语义依赖的BiLSTM(directional Long Short-Term Memory)结构,其中,BiLSTM模型由前向LSTM和后向LSTM组合而成。
在本实施例中,基于包含目标语音的音频数据生成输入向量,由语义槽填充层将 输入向量映射成语义文字向量
Figure 939372DEST_PATH_IMAGE001
,由意图预测层将输入向量映射成语义预测向量
Figure 230677DEST_PATH_IMAGE002
,最后 由指令意图获取层基于语义文字向量
Figure 435393DEST_PATH_IMAGE001
和语义预测向量
Figure 306397DEST_PATH_IMAGE002
,获取联合目标函数,并由联合 目标函数得到目标语音的指令意图。
本发明提供的关于音频数据的意图识别方法,通过获取包含目标语音的音频数据;将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图,由联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图。
根据本发明提供的一种关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义文字向量,包括:
将所述包含目标语音的音频数据转化为初始向量;
将所述初始向量映射成语义文字向量。
在本实施例中,将包含目标语音的音频数据转化成初始向量
Figure 148844DEST_PATH_IMAGE003
, 初始向量
Figure 345471DEST_PATH_IMAGE004
即为联合模型的输入向量,初始向量
Figure 37483DEST_PATH_IMAGE004
本质是一个词序列,与目标语音中的单 个字词一一对应;然后由语义槽填充层将初始向量
Figure 712178DEST_PATH_IMAGE004
映射生成语义文字向量
Figure 671781DEST_PATH_IMAGE001
将初始向量代入联合目标函数公式,可以得到:
Figure 39309DEST_PATH_IMAGE005
本发明提供的关于音频数据的意图识别方法,通过由包含目标语音的音频数据转化成初始向量,再由初始向量映射成语义文字向量,进一步阐明语义文字向量的生成路径,有力地支持了联合模型对用户意图的深层次的理解和对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,所述将所述初始向量映射成语义文字向量,包括:
基于所述初始向量,求得隐层向量和槽上下文向量;
基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得所述语义文字向量。
在本实施例中,softmax函数,又称归一化指数函数,是一个单层的神经网络。隐层 向量
Figure 953038DEST_PATH_IMAGE006
是指目标语音中单个字词对应的向量,也与初始向量
Figure 431424DEST_PATH_IMAGE003
的数字序列 中的第
Figure 508184DEST_PATH_IMAGE007
个数字对应,用于表示单个字词的含义;槽上下文向量(slot context vector)
Figure 781033DEST_PATH_IMAGE008
是 指目标语音中单个字词对应的上下文向量,也与初始向量
Figure 447638DEST_PATH_IMAGE003
的数字序列中 的第i个数字对应,用于表示单个字词的多个具体含义结合上下文语境进行具体评估单个 字词真实含义的向量;其中,i的取值范围为
Figure 464135DEST_PATH_IMAGE009
在本实施例中,使用BILSTM结构,基于输入的初始向量
Figure 398331DEST_PATH_IMAGE003
,求得隐 层向量
Figure 842082DEST_PATH_IMAGE006
和槽上下文向量
Figure 995983DEST_PATH_IMAGE008
;由隐层向量
Figure 816171DEST_PATH_IMAGE006
和槽上下文向量
Figure 607803DEST_PATH_IMAGE008
,通过softmax函数,求得词 序列中第i个单个字词对应的槽填充标签(slot label)
Figure 488034DEST_PATH_IMAGE010
,也就是语义文字向量
Figure 660390DEST_PATH_IMAGE011
,用公 式表示为:
Figure 221952DEST_PATH_IMAGE012
其中,
Figure 130740DEST_PATH_IMAGE013
是权重矩阵,
Figure 916294DEST_PATH_IMAGE006
为隐层向量,
Figure 779207DEST_PATH_IMAGE008
为槽上下文向量。
本发明提供的关于音频数据的意图识别方法,由初始向量求得隐层向量和槽上下文向量;再由隐层向量和槽上下文向量,通过softmax函数,求得语义文字向量,进一步阐明语义文字向量的具体生成路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率。
在本实施例中,槽上下文向量
Figure 941198DEST_PATH_IMAGE008
中包括一个注意得分参数
Figure 725001DEST_PATH_IMAGE014
, 用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词 在上下文中实际含义的概率,用公式表示为:
Figure 947034DEST_PATH_IMAGE015
其中,
Figure 93982DEST_PATH_IMAGE016
表示
Figure 997347DEST_PATH_IMAGE017
Figure 411886DEST_PATH_IMAGE018
之间的关系,
Figure 8083DEST_PATH_IMAGE019
是激活函数,
Figure 642327DEST_PATH_IMAGE020
是权重矩阵,
Figure 146121DEST_PATH_IMAGE021
表示权重 矩阵,k表示多个具体含义,j表示单个字词本身具有的j个具体含义,
Figure 621358DEST_PATH_IMAGE017
表示隐层状态,
Figure 185194DEST_PATH_IMAGE018
表 示当前输入向量;
Figure 509996DEST_PATH_IMAGE022
使用卷积实现,
Figure 551902DEST_PATH_IMAGE023
使用线性映射实现。
本发明提供的关于音频数据的意图识别方法,通过进一步阐明槽上下文向量中注意得分参数的求取过程,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,所述根据所述包含目标语音的音频数据,获取语义预测向量,包括:
根据所述包含目标语音的音频数据,获取意图上下文向量;
基于所述意图上下文向量,获取语义预测向量。
在本实施例中,将包含目标语音的音频数据转化成初始向量
Figure 144295DEST_PATH_IMAGE004
,初始向量
Figure 879032DEST_PATH_IMAGE004
即为 联合模型的输入向量,初始向量
Figure 425551DEST_PATH_IMAGE004
本质是一个词序列,与目标语音中的单个字词一一对应; 然后由意图预测层将初始向量
Figure 536727DEST_PATH_IMAGE004
映射生成意图上下文向量(intent context vector)
Figure 980697DEST_PATH_IMAGE024
, 再由意图上下文向量
Figure 886336DEST_PATH_IMAGE025
生成语义预测向量
Figure 654572DEST_PATH_IMAGE026
,其中,意图上下文向量
Figure 303859DEST_PATH_IMAGE027
的计算类似于槽上下 文向量
Figure 605265DEST_PATH_IMAGE008
,用于表示槽上下文向量;预测隐层向量
Figure 681805DEST_PATH_IMAGE028
表示在预测意图时只使用BILSTM最后 一个隐层状态求得的向量。语义预测向量
Figure 468496DEST_PATH_IMAGE029
用公式表示为:
Figure 655895DEST_PATH_IMAGE030
其中,
Figure 80316DEST_PATH_IMAGE031
表示权重矩阵,
Figure 327758DEST_PATH_IMAGE032
表示意图上下文向量,
Figure 336165DEST_PATH_IMAGE028
表示预测隐层向量。
本发明提供的关于音频数据的意图识别方法,根据包含目标语音的音频数据获取意图上下文向量,再由意图上下文向量获取语义预测向量,进一步阐明了语义预测向量的具体求取路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,还包括:
基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
在本实施例中,加权特征参数
Figure 327255DEST_PATH_IMAGE033
可以看作联合槽上下文向量
Figure 337674DEST_PATH_IMAGE008
和意图上下文向量
Figure 21596DEST_PATH_IMAGE032
的加权特征,主要目的是使用意图上下文向量(intent context vector)
Figure 251720DEST_PATH_IMAGE032
来改善语义 槽填充层(slot-filling)的表现。加权特征参数
Figure 46501DEST_PATH_IMAGE033
用公式表示为:
Figure 174076DEST_PATH_IMAGE034
其中,
Figure 763321DEST_PATH_IMAGE035
表示可训练的向量,
Figure 480741DEST_PATH_IMAGE036
表示可训练的矩阵,
Figure 813633DEST_PATH_IMAGE037
表示双曲正切函数,
Figure 798644DEST_PATH_IMAGE008
为槽上 下文向量,
Figure 824369DEST_PATH_IMAGE032
为意图上下文向量。
相应的,将加权特征参数
Figure 29086DEST_PATH_IMAGE033
加入语义文字向量,用公式表示为:
Figure 900090DEST_PATH_IMAGE038
本发明提供的关于音频数据的意图识别方法,通过进一步公开用于提高语义槽填充层性能的加权特征参数的具体求取路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
根据本发明提供的关于音频数据的意图识别方法,方法还包括:
获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
在本实施例中,混合高斯-通用背景模型GMM-UBM是一种对高斯混合模型GMM的改进模型。通用背景模型UBM (Universal Background Model)是由DA Reynolds团队提出的模型。
在本实施例中,将大量的非目标用户音频数据输入混合高斯-通用背景模型GMM-UBM,训练得到一个具体说话人模型的先验模型;将少量目标用户音频数据输入先验模型,对先验模型进行参数微调就可以得到最终的联合模型。
本发明提供的关于音频数据的意图识别方法,通过进一步公开基于非目标用户音频数据和目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练得到联合模型,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
图2是本发明提供的关于音频数据的意图识别装置的结构示意图,如图2所示,本发明提供的关于音频数据的意图识别装置,包括:
音频数据获取模块210,用于获取包含目标语音的音频数据;
音频数据处理模块220,用于将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并由所述联合目标函数得到目标语音的指令意图。
本发明提供的关于音频数据的意图识别装置,通过设置音频数据获取模块和音频数据处理模块,获取包含目标语音的音频数据;将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图,使联合模型深层次的理解用户意图,对目标语音的多种意图进行精确高效识别,得到目标语音的指令意图。
基于上述任一实施例,在本实施例中,根据本发明提供的关于音频数据的意图识别装置,还包括:
槽填充加权参数层,用于基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
本发明提供的关于音频数据的意图识别装置,通过设置槽填充加权参数层,进一步公开用于提高语义槽填充层性能的加权特征参数的具体求取路径,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
基于上述任一实施例,在本实施例中,根据本发明提供的关于音频数据的意图识别装置,还包括:
样本音频数据获取单元,用于获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
先验模型单元,用于基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
联合模型单元,用于基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
本发明提供的关于音频数据的意图识别装置,通过设置样本音频数据获取单元、先验模型单元和联合模型单元,进一步公开基于非目标用户音频数据和目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练得到联合模型,有力地支持了联合模型对用户意图的深层次的理解,对目标语音多种意图的精确高效识别。
另一方面,本发明还提供一种电子设备,图3示例了一种电子设备的结构示意图,如图3所示,该电子设备可以包括处理器310、通信总线320、存储器330、通信接口340以及存储在所述存储器330上并可在所述处理器310上运行的计算机程序,其中,处理器310、通信接口310、存储器330通过通信总线340完成相互间的通信,处理器310可以调用存储器330中的逻辑指令,以执行关于音频数据的意图识别方法,该方法包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
最后,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,可以实现关于音频数据的意图识别方法,该方法包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于根据所述包含目标语音的音频数据,获取语义文字向量;
所述意图预测层用于根据所述包含目标语音的音频数据,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种关于音频数据的意图识别方法,其特征在于,包括:
获取包含目标语音的音频数据;
将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于将所述包含目标语音的音频数据转化为初始向量;基于所述初始向量,求得隐层向量和槽上下文向量;基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得语义文字向量;其中,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率;
所述意图预测层用于根据所述包含目标语音的音频数据,获取意图上下文向量;基于所述意图上下文向量,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并基于所述联合目标函数得到目标语音的指令意图。
2.根据权利要求1所述的关于音频数据的意图识别方法,其特征在于,还包括:
基于所述槽上下文向量和所述意图上下文向量,获取加权特征参数;其中,所述加权特征参数用于提高所述语义槽填充层的性能。
3.根据权利要求1所述的关于音频数据的意图识别方法,其特征在于,方法还包括:
获取样本音频数据,其中,样本音频数据包括非目标用户音频数据和目标用户音频数据;
基于所述非目标用户音频数据,对混合高斯-通用背景模型GMM-UBM进行训练,得到先验模型;
基于所述目标用户音频数据,对所述先验模型进行训练,得到联合模型。
4.一种关于音频数据的意图识别装置,其特征在于,包括:
音频数据获取模块,用于获取包含目标语音的音频数据;
音频数据处理模块,用于将所述包含目标语音的音频数据输入预先训练的联合模型,得到目标语音的指令意图;
其中,所述联合模型是基于样本音频数据训练得到的,包括语义槽填充层、意图预测层和指令意图获取层;其中,
所述语义槽填充层用于将所述包含目标语音的音频数据转化为初始向量;基于所述初始向量,求得隐层向量和槽上下文向量;基于所述隐层向量和所述槽上下文向量,通过softmax函数,求得语义文字向量;其中,所述槽上下文向量包括注意得分参数,所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率;
所述意图预测层用于根据所述包含目标语音的音频数据,获取意图上下文向量;基于所述意图上下文向量,获取语义预测向量;
所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量,获取联合目标函数,并由所述联合目标函数得到目标语音的指令意图。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述关于音频数据的意图识别方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述关于音频数据的意图识别方法的步骤。
CN202211178066.0A 2022-09-27 2022-09-27 一种关于音频数据的意图识别方法及装置 Active CN115273849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211178066.0A CN115273849B (zh) 2022-09-27 2022-09-27 一种关于音频数据的意图识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211178066.0A CN115273849B (zh) 2022-09-27 2022-09-27 一种关于音频数据的意图识别方法及装置

Publications (2)

Publication Number Publication Date
CN115273849A CN115273849A (zh) 2022-11-01
CN115273849B true CN115273849B (zh) 2022-12-27

Family

ID=83757223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211178066.0A Active CN115273849B (zh) 2022-09-27 2022-09-27 一种关于音频数据的意图识别方法及装置

Country Status (1)

Country Link
CN (1) CN115273849B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094317B2 (en) * 2018-07-31 2021-08-17 Samsung Electronics Co., Ltd. System and method for personalized natural language understanding
CN109785833A (zh) * 2019-01-02 2019-05-21 苏宁易购集团股份有限公司 用于智能设备的人机交互语音识别方法及***
CN110516253B (zh) * 2019-08-30 2023-08-25 思必驰科技股份有限公司 中文口语语义理解方法及***
CN110853626B (zh) * 2019-10-21 2021-04-20 成都信息工程大学 基于双向注意力神经网络的对话理解方法、装置及设备
CN113505591A (zh) * 2020-03-23 2021-10-15 华为技术有限公司 一种槽位识别方法及电子设备
CN112037773B (zh) * 2020-11-05 2021-01-29 北京淇瑀信息科技有限公司 一种n最优口语语义识别方法、装置及电子设备
CN113204952B (zh) * 2021-03-26 2023-09-15 南京邮电大学 一种基于聚类预分析的多意图与语义槽联合识别方法

Also Published As

Publication number Publication date
CN115273849A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110111775B (zh) 一种流式语音识别方法、装置、设备及存储介质
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110321418B (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN110853626B (zh) 基于双向注意力神经网络的对话理解方法、装置及设备
CN113205817A (zh) 语音语义识别方法、***、设备及介质
CN111161726B (zh) 一种智能语音交互方法、设备、介质及***
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别***
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
US11322151B2 (en) Method, apparatus, and medium for processing speech signal
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN116303966A (zh) 基于提示学习的对话行为识别***
CN114003700A (zh) 一种对话信息的处理方法、***、电子设备及存储介质
CN113393841A (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN115273849B (zh) 一种关于音频数据的意图识别方法及装置
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN114254649A (zh) 一种语言模型的训练方法、装置、存储介质及设备
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant