CN113990300B - 语音交互方法、车辆、服务器和计算机可读存储介质 - Google Patents

语音交互方法、车辆、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN113990300B
CN113990300B CN202111606975.5A CN202111606975A CN113990300B CN 113990300 B CN113990300 B CN 113990300B CN 202111606975 A CN202111606975 A CN 202111606975A CN 113990300 B CN113990300 B CN 113990300B
Authority
CN
China
Prior art keywords
feature
audio
text
confidence
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111606975.5A
Other languages
English (en)
Other versions
CN113990300A (zh
Inventor
韩传宇
易晖
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202111606975.5A priority Critical patent/CN113990300B/zh
Publication of CN113990300A publication Critical patent/CN113990300A/zh
Application granted granted Critical
Publication of CN113990300B publication Critical patent/CN113990300B/zh
Priority to PCT/CN2022/138595 priority patent/WO2023124960A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音交互方法、车辆、服务器和存储介质。语音交互方法包括:接收车辆转发的用户语音请求;获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;获取当前轮次的第一文本特征和上一轮次的第二文本特征;根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理。上述语音交互方法、车辆、服务器和存储介质中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。

Description

语音交互方法、车辆、服务器和计算机可读存储介质
技术领域
本发明涉及语音技术,特别涉及一种语音交互方法、车辆、服务器和计算机可读存储介质。
背景技术
在相关技术中,在语音交互过程中经常会存在噪声语音的输入,从而引起语音***的误响应,语音***可对语音进行拒识,以提高语音***的识别率。拒识的错误率直接影响最终指令是否正确理解和执行,如何降低拒识的错误率成了亟待解决的问题。
发明内容
本发明提供一种语音交互方法、车辆、服务器和计算机可读存储介质。
本发明的语音交互方法包括:接收车辆转发的用户语音请求;获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;获取当前轮次的第一文本特征和上一轮次的第二文本特征;根据所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理。
上述语音交互方法中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
所述语音交互方法包括:将所述第一音频特征和所述第二音频特征进行组合以获得音频组合特征;将所述第一置信度特征和所述第二置信度特征进行组合以获得置信度组合特征;将所述第一文本特征和所述第二文本特征进行组合以获得文本组合特征;所述根据所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理,包括:根据所述音频组合特征、所述置信度组合特征和所述文本组合特征进行拒识处理。
如此,可以分别将上下文的音频特征、上下文的置信度特征和上下文的文本特征进行组合以获得音频组合特征、置信度组合特征和文本组合特征,从而能够根据音频组合特征、置信度组合特征和文本组合特征进行拒识处理。
所述获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征,包括:根据当前轮次的用户语音请求和上一轮次的用户语音请求生成数字特征矩阵;降低所述数字特征矩阵的维度以获得降维特征矩阵;处理所述降维特征矩阵中的上下文关系以获得待处理特征矩阵;强化所述待处理特征矩阵的重点特征以获得输出音频特征,所述输出音频特征包括所述第一音频特征和所述第二音频特征。
如此,能够根据当前轮次的用户语音请求和上一轮次的用户语音请求准确地获得音频特征。
所述获取当前轮次的第一文本特征和上一轮次的第二文本特征,包括:编码当前轮次的文本信息和上一轮次的文本信息以获得数字编码信息;从所述数字编码信息中提取深层特征矩阵,所述深层特征矩阵包括所述第一文本特征和所述第二文本特征。
如此,能够根据当前轮次的文本信息和上一轮次的文本信息准确地获得文本特征。
所述语音交互方法包括:将所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征拼接以获得拼接矩阵;所述根据所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理,包括:根据所述拼接矩阵进行拒识处理。
如此,通过对特征进行拼接,可以便于根据拼接后的特征矩阵进行拒识处理。
所述根据所述拼接矩阵进行拒识处理,包括:根据所述拼接矩阵进行说话对象识别以获得说话对象类别;在所述说话对象类别为第一预设类别的情况下确定结果为拒识;其中,所述说话对象类别包括:对语音助手说、不对语音助手说、无法判断和无说话人;所述第一预设类别包括:不对语音助手说、无法判断和无说话人。
如此,能够进行说话对象识别,从而根据说话对象的类别确定是否拒识。
所述根据所述拼接矩阵进行拒识处理,包括:根据所述拼接矩阵进行意图强度识别以获得意图强度类别;在所述意图强度类别为第二预设类别的情况下确定结果为拒识;所述意图强度类别包括:强有效、弱有效、无意图和无法判断;所述第二预设类别包括:无意图和无法判断。
如此,能够进行意图强度识别,从而根据意图强度的类别确定是否拒识。
所述语音交互方法包括:将训练集输入语义拒识模型中进行说话对象识别和意图强度识别以获得预测说话对象类别和预测意图强度类别;根据预测说话对象类别与所述训练集中标记的真实说话对象类别计算第一损失,根据预测意图强度类别与所述训练集中标记的真实意图强度类别计算第二损失;根据所述第一损失和所述第二损失对语义拒识模型进行训练;利用训练好的语义拒识模型、所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理。
如此,训练后可以获得能够进行说话对象识别和意图强度识别的语义拒识模型。
本发明的车辆包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任意一种实施方式的语音交互方法。
上述车辆中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
本发明的服务器包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任意一种实施方式的语音交互方法。
上述服务器中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
本发明的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种实施方式的语音交互方法。
上述计算机可读存储介质中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的语音交互方法的流程示意图(一);
图2是本发明的语音交互方法的流程示意图(二);
图3是本发明的车辆的示意图;
图4是本发明的语音***的示意图;
图5是本发明的语音交互方法的流程示意图(三);
图6是本发明的语音交互方法的流程示意图(四);
图7是本发明的语音交互方法的流程示意图(五);
图8是本发明的语音交互方法的流程示意图(六);
图9是本发明的语音交互方法的流程示意图(七);
图10是本发明的语音交互方法的流程示意图(八);
图11是本发明的语音交互方法的流程示意图(九);
图12是本发明的车辆与计算机可读存储介质连接的示意图。
主要元件符号说明:
语音***100、车辆10、服务器20、处理器110、存储器120、计算机可读存储介质300。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在相关技术中,在语音交互过程中经常会存在噪声语音的输入,从而引起语音***的误响应,语音***可对语音进行拒识,以提高语音***的识别率。拒识的错误率直接影响最终指令是否正确理解和执行,如何降低拒识的错误率成了亟待解决的问题。
请参阅图1和图2,本发明实施方式的语音交互方法包括:
012:接收车辆10转发的用户语音请求;
014:获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;
016:获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;
018:获取当前轮次的第一文本特征和上一轮次的第二文本特征;
022:根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理。
请参阅图3和图4,本发明实施方式的语音交互方法可以应用于本发明实施方式的车辆10或服务器20,其中,当语音交互方法应用于车辆10时,车辆10的麦克风可以接收用户语音请求,然后用户语音请求可以转发至车辆10的处理器110进行处理;当语音交互方法应用于服务器20时,车辆10的麦克风可以接收用户语音请求,然后用户语音请求可以转发至服务器20的处理器110进行处理,服务器20可以将用户语音请求的处理结果转发至车辆10,车辆10和服务器20形成语音***100。
用户语音请求(audio)例如可以为原始音频文件。用户语音请求通过语音识别(Automatic Speech Recognition,ASR)后可以输出文本信息。用户语音请求包括上一轮次的用户语音请求(pre_feat)和当前轮次的用户语音请求(cur_feat)。
音频特征可以是用户语音请求中包含的特征,音频特征例如包括响度、音调、音色等。音频特征与用户真实意图紧密相关,利用该特征,可以使得优化效果更明显。
置信度特征可以是ASR过程中的可信度衡量值,置信度特征直接影响用户语音请求是否正确理解和执行,可以帮助进行拒识处理,保障持续倾听能力。若用户语音请求的ASR结果是:“播放的是什么”;实际结果认定是:全部是噪声,这种情况下ASR属于误识别,出错部分置信度很低。
[{"conf":0.355,"end":900,"pinyin":"bofang","start":700,"word":"播放"},
{"conf":0.222,"end":1050,"pinyin":"de","start":1000,"word":"的"},
{"conf":0.486,"end":1100,"pinyin":"shi","start":1050,"word":"是"},
{"conf":0.619,"end":1200,"pinyin":"shen me","start":1100,"word":"什么"}]
其中,conf即为每个词的置信度,ASR属于误识别的情况下,置信度较低。置信度特征包括上一轮次的置信度特征(pre_conf)和当前轮次的置信度特征(cur_conf)。
文本特征可以是文本信息中包含的特征,在获得文本特征前,可以先对文本信息进行自然语言理解(Natural Language Understanding,NLU)。上下文(当前轮次和上一轮次)的文本特征能够有效明确用户会话的真实意图,上一轮次:听歌,当前轮次:周某某,则识别后可以执行:播放周某某的歌曲;上一轮次:你的偶像是谁,当前轮:周某某,则可以拒识且不进行响应。文本信息包括上一轮次的文本信息(pre_q)和当前轮次的文本信息(cur_q)。
上述语音交互方法中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
请参阅图2和图5,语音交互方法包括:
024:将第一音频特征和第二音频特征进行组合以获得音频组合特征;
026:将第一置信度特征和第二置信度特征进行组合以获得置信度组合特征;
028:将第一文本特征和第二文本特征进行组合以获得文本组合特征;
步骤022(根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理),包括:
0222:根据音频组合特征、置信度组合特征和文本组合特征进行拒识处理。
如此,可以分别将上下文的音频特征、上下文的置信度特征和上下文的文本特征进行组合以获得音频组合特征、置信度组合特征和文本组合特征,从而能够根据音频组合特征、置信度组合特征和文本组合特征进行拒识处理。在上下文的音频特征进行组合后,可以利用分隔符([SEP])进行分隔;同样地,在上下文的置信度特征进行组合后,可以利用分隔符进行分隔;在上下文的文本特征进行组合后,可以利用分隔符进行分隔。可以将0.0作为分隔符进行分隔。
可以先根据上下文的字符(用户语音请求或文本信息)生成上下文的特征,再对上下文的特征进行组合并分隔;也可以先对上下文的字符(用户语音请求或文本信息)进行组合和分隔,再根据上下文的字符生成上下文的特征。需要说明的是,置信度特征的获取不包括根据字符生成特征的过程,因此,上下文的置信度特征进行组合并分隔的方式是直接对上下文的置信度特征进行组合并分隔。
请参阅图2和图6,步骤012(获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征),包括:
0122:根据当前轮次的用户语音请求和上一轮次的用户语音请求生成数字特征矩阵;
0124:降低数字特征矩阵的维度以获得降维特征矩阵;
0126:处理降维特征矩阵中的上下文关系以获得待处理特征矩阵;
0128:强化待处理特征矩阵的重点特征以获得输出音频特征,输出音频特征包括第一音频特征和第二音频特征。
如此,能够根据当前轮次的用户语音请求和上一轮次的用户语音请求准确地获得音频特征。可以基于语音编码器(speech-encoder)模型获取音频特征,具体地,可以利用梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)根据当前轮次的用户语音请求和上一轮次的用户语音请求提取音频向量特征生成数字特征矩阵(数字格式的特征矩阵,MFCC_extract),然后使用4层卷积神经网络(Convolutional Neural Network, CNN)进行降维处理以获得降维特征矩阵(cnn_model_fn),再使用1层双向的长短期记忆网络(LongShort-Term Memory,LSTM)根据上下文关系对特征进行关联和提取以获得待处理特征矩阵(lstm_model_fn),接着使用自注意力(self-attention)强化待处理特征矩阵的重点特征以获得输出音频特征(attention_fn),输出音频特征中包括第一音频特征和第二音频特征。
MFCC的输入例如为:“打开窗户”的音频(上一轮次)和“风速两档”的音频(当前轮次),MFCC的处理例如为“采用python_speech_features音频处理包,MFCC参数:samplerate=16000,winlen=0.025,winstep=0.01,numcep=13,nfilt=26,nfft=512,lowfreq=0,highfreq=None,preemph=0.97,ceplifter=22,appendEnergy=True,结果再经过一阶差分和二阶差分”,MFCC的输出例如为“两个512*39维的特征矩阵”。CNN的输入例如为:MFCC的输出,CNN的处理例如为:4个一维卷积层和4个最大池化层,参数:speech_embedding_size=512 ,speech_filters_num = 32, speech_kernel_size = 2, speech_strides_len = 2,speech_pool_size = 1,CNN的输出例如为:2*512的特征矩阵。LSTM的输入例如为:CNN的输出,LSTM的处理例如为:单层双向lstm模型参数:embedding_size = 512,LSTM的输出例如为:2*1024的特征矩阵。self-attention的输入例如为:LSTM的输出,self-attention的处理例如为:self-attention模型参数:embedding_size = 512,self-attention的输出例如为:2*512的特征矩阵。
请参阅图2和图7,步骤018(获取当前轮次的第一文本特征和上一轮次的第二文本特征),包括:
0182:编码当前轮次的文本信息和上一轮次的文本信息以获得数字编码信息;
0184:从数字编码信息中提取深层特征矩阵,深层特征矩阵包括第一文本特征和第二文本特征。
如此,能够根据当前轮次的文本信息和上一轮次的文本信息准确地获得文本特征。可以基于预训练语言模型(bert-encoder)获取文本特征,具体地,可以利用bert-embeding编码文本信息以获得上下文编码信息作为数字编码信息(bert_embedding_fn),然后利用transformer模型从数字编码信息中提取深层特征矩阵(transformer_model_fn),深层特征矩阵中包括第一文本特征和第二文本特征。
例如,bert-embeding的输入为:“打开窗户”的文本(上一轮次)和“风速两档”的文本(当前轮次),bert-embeding的输出为1*768维度特征矩阵。例如transformer模型的输入为:bert-embeding的输出,transformer模型的输出例如为:1*768维度特征矩阵。
请参阅图2和图8,语音交互方法包括:
032:将第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征拼接以获得拼接矩阵;
步骤022(根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理),包括:
0224:根据拼接矩阵进行拒识处理。
如此,通过对特征进行拼接(concat),可以便于根据拼接后的特征矩阵进行拒识处理。上下文置信度特征为1*33维度特征矩阵:……0.99,0.99,0.85,0.85,0.0,0.90,0.90,0.95,0.95……,其中,0.0为分隔符;上下文文本特征为1*768维度特征矩阵;上下文音频特征为2*512维度特征矩阵。可以先将2*512维度的上下文音频特征变换到1*1024维度特征矩阵,然后将三个特征收尾拼接即可形成1*1825维度的拼接矩阵。
请参阅图2和图9,步骤0224(根据拼接矩阵进行拒识处理),包括:
02242:根据拼接矩阵进行说话对象识别以获得说话对象类别;
02244:在说话对象类别为第一预设类别的情况下确定结果为拒识;
其中,语音交互方法用于语音助手,说话对象类别包括:对语音助手说、不对语音助手说、无法判断和无说话人;第一预设类别包括:不对语音助手说、无法判断和无说话人。
如此,能够进行说话对象识别(Direction Detection,DD),从而根据说话对象的类别确定是否拒识。其中,对语音助手说可以包括明确对语音助手说和大概率对语音助手说,不对语音助手说包括明确不对语音助手说和大概率不对语音助手说。
请参阅图2和图10,步骤0224(根据拼接矩阵进行拒识处理),包括:
02246:根据拼接矩阵进行意图强度识别以获得意图强度类别;
02248:在意图强度类别为第二预设类别的情况下确定结果为拒识;
意图强度类别包括:强有效、弱有效、无意图和无法判断;第二预设类别包括:无意图和无法判断。
如此,能够进行意图强度(intensity)识别,从而根据意图强度的类别确定是否拒识。
结合DD和intensity可以实现多任务分类,从而使得拒识结果更加准确。拼接矩阵可以通过全连接层(dense)传输至语义拒识模型进行DD和intensity的分类。
请参阅图2和图11,语音交互方法包括:
034:将训练集输入语义拒识模型中进行说话对象识别和意图强度识别以获得预测说话对象类别和预测意图强度类别;
036:根据预测说话对象类别与训练集中标记的真实说话对象类别计算第一损失,根据预测意图强度类别与训练集中标记的真实意图强度类别计算第二损失;
038:根据第一损失和第二损失对语义拒识模型进行训练。
如此,训练后可以获得能够进行说话对象识别和意图强度识别的语义拒识模型。具体地,语义拒识模型可以包括分类器,分类器可以进行说话对象识别和意图强度识别,将训练集输入语义拒识模型后可以得到预测说话对象类别和预测意图强度类别,其中,训练集预先标注有真实的说话对象和真实的意图强度,利用交叉熵损失函数即可计算预测说话对象类别与实说话对象类别的第一损失、预测意图强度类别与真实意图强度类别的第二损失,根据第一损失和第二损失对语义拒识模型进行训练以完成训练迭代。将训练集和验证集全部迭代完成后,即可输出语音拒识模型。
步骤022中根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理,包括:
0226:利用训练好的语义拒识模型、第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理。
语义拒识模型可以包括分类器,分类器可以进行说话对象识别和意图强度识别,具体地,例如说话对象识别的类别数为n,n例如为6(明确对语音助手说、大概率对语音助手说、明确不对语音助手说、大概率不对语音助手说、无法判断和无说话人),意图强度的类别数例如为m,m例如为4(强有效、弱有效、无意图和无法判断),利用分类器的逻辑回归模型(softmax)进行预测即可得到说话对象类别和意图强度类别。
将“打开窗户”(上一轮次)的音频特征、置信度特征和文本特征,“风速两档”(当前轮次)的音频特征、置信度特征和文本特征输入至语义拒识模型中,即可预测得到DD为“大概率对语音助手说”,intensity为“强意图”。
表1
Figure 747734DEST_PATH_IMAGE001
请参阅表1,本发明的语音交互方法采用的即是语义拒识模型3。在语义拒识模型1、2和3采用相同的训练集、验证集进行训练,采用相同的测试集进行测试的情况下,可以看出,语义拒识模型3与语义拒识模型1相比,错误比例下降1-6.67%/7.99%=16.52%。测试集包括无效集和有效集,无效集为无效指令集和,例如:“哈哈哈,我不知道”,有效集为有效指令集和,例如:“打开车窗,导航去北大西门”。漏拒数:无效集合中没有被拒识的无关指令的数量。误拒数:有效集和中没有被放行的有效指令的数量。错误数=漏拒数+误拒数。
请参阅图3,本发明实施方式的车辆10包括存储器120和处理器110,存储器120存储有计算机程序,处理器110执行计算机程序时,实现上述任意一种实施方式的语音交互方法。
例如,计算机程序被处理器110执行的情况下,可以实现:
012:接收车辆10转发的用户语音请求;
014:获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;
016:获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;
018:获取当前轮次的第一文本特征和上一轮次的第二文本特征;
022:根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理。
上述车辆10中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
请参阅图4,本发明实施方式的服务器20包括存储器120和处理器110,存储器120存储有计算机程序,处理器110执行计算机程序时,实现上述任意一种实施方式的语音交互方法。
例如,计算机程序被处理器110执行的情况下,可以实现:
012:接收车辆10转发的用户语音请求;
014:获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;
016:获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;
018:获取当前轮次的第一文本特征和上一轮次的第二文本特征;
022:根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理。
上述服务器20中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
请参阅图12,本发明实施方式的计算机可读存储介质300,其上存储有计算机程序,计算机程序被处理器110执行时实现上述任意一种实施方式的语音交互方法。
例如,计算机程序被处理器110执行时可以实现:
012:接收车辆10转发的用户语音请求;
014:获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;
016:获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;
018:获取当前轮次的第一文本特征和上一轮次的第二文本特征;
022:根据第一音频特征、第二音频特征、第一置信度特征、第二置信度特征、第一文本特征和第二文本特征进行拒识处理。
上述计算机可读存储介质300中,结合当前轮次和上一轮次的音频特征、置信度特征和文本特征来进行拒识处理,如此,拒识结果更加准确,能够减少漏拒率和误拒率,从而能够降低拒识的错误率。
在本发明中,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器110可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语音交互方法,其特征在于,所述语音交互方法包括:
接收车辆转发的用户语音请求;
获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征;
获取当前轮次语音识别的第一置信度特征和上一轮次语音识别的第二置信度特征;
获取当前轮次的第一文本特征和上一轮次的第二文本特征;
根据所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理;
所述获取当前轮次用户语音请求的第一音频特征和上一轮次用户语音请求的第二音频特征,包括:
根据当前轮次的用户语音请求和上一轮次的用户语音请求生成数字特征矩阵;
降低所述数字特征矩阵的维度以获得降维特征矩阵;
处理所述降维特征矩阵中的上下文关系以获得待处理特征矩阵;
强化所述待处理特征矩阵的重点特征以获得输出音频特征,所述输出音频特征包括所述第一音频特征和所述第二音频特征。
2.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
将所述第一音频特征和所述第二音频特征进行组合以获得音频组合特征;
将所述第一置信度特征和所述第二置信度特征进行组合以获得置信度组合特征;
将所述第一文本特征和所述第二文本特征进行组合以获得文本组合特征;
所述根据所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理,包括:
根据所述音频组合特征、所述置信度组合特征和所述文本组合特征进行拒识处理。
3.根据权利要求1所述的语音交互方法,其特征在于,所述获取当前轮次的第一文本特征和上一轮次的第二文本特征,包括:
编码当前轮次的文本信息和上一轮次的文本信息以获得数字编码信息;
从所述数字编码信息中提取深层特征矩阵,所述深层特征矩阵包括所述第一文本特征和所述第二文本特征。
4.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
将所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征拼接以获得拼接矩阵;
所述根据所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理,包括:
根据所述拼接矩阵进行拒识处理。
5.根据权利要求4所述的语音交互方法,其特征在于,所述根据所述拼接矩阵进行拒识处理,包括:
根据所述拼接矩阵进行说话对象识别以获得说话对象类别;
在所述说话对象类别为第一预设类别的情况下确定结果为拒识;
其中,所述说话对象类别包括:对语音助手说、不对语音助手说、无法判断和无说话人;所述第一预设类别包括:不对语音助手说、无法判断和无说话人。
6.根据权利要求4所述的语音交互方法,其特征在于,所述根据所述拼接矩阵进行拒识处理,包括:
根据所述拼接矩阵进行意图强度识别以获得意图强度类别;
在所述意图强度类别为第二预设类别的情况下确定结果为拒识;
所述意图强度类别包括:强有效、弱有效、无意图和无法判断;所述第二预设类别包括:无意图和无法判断。
7.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
将训练集输入语义拒识模型中进行说话对象识别和意图强度识别以获得预测说话对象类别和预测意图强度类别;
根据预测说话对象类别与所述训练集中标记的真实说话对象类别计算第一损失,根据预测意图强度类别与所述训练集中标记的真实意图强度类别计算第二损失;
根据所述第一损失和所述第二损失对语义拒识模型进行训练;
利用训练好的语义拒识模型、所述第一音频特征、所述第二音频特征、所述第一置信度特征、所述第二置信度特征、所述第一文本特征和所述第二文本特征进行拒识处理。
8.一种车辆,其特征在于,所述车辆包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-7任一项所述的语音交互方法。
9.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-7任一项所述的语音交互方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的语音交互方法。
CN202111606975.5A 2021-12-27 2021-12-27 语音交互方法、车辆、服务器和计算机可读存储介质 Active CN113990300B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111606975.5A CN113990300B (zh) 2021-12-27 2021-12-27 语音交互方法、车辆、服务器和计算机可读存储介质
PCT/CN2022/138595 WO2023124960A1 (zh) 2021-12-27 2022-12-13 语音交互方法、车辆、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111606975.5A CN113990300B (zh) 2021-12-27 2021-12-27 语音交互方法、车辆、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113990300A CN113990300A (zh) 2022-01-28
CN113990300B true CN113990300B (zh) 2022-05-10

Family

ID=79734314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111606975.5A Active CN113990300B (zh) 2021-12-27 2021-12-27 语音交互方法、车辆、服务器和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN113990300B (zh)
WO (1) WO2023124960A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990300B (zh) * 2021-12-27 2022-05-10 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器和计算机可读存储介质
CN115050366B (zh) * 2022-07-08 2024-05-17 合众新能源汽车股份有限公司 一种语音识别方法、装置及计算机存储介质
CN115503639A (zh) * 2022-10-13 2022-12-23 广州小鹏汽车科技有限公司 语音处理方法、语音交互方法、服务器及存储介质
CN115376513B (zh) * 2022-10-19 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN115457945B (zh) * 2022-11-10 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN116741151B (zh) * 2023-08-14 2023-11-07 成都筑猎科技有限公司 一种基于呼叫中心的用户呼叫实时监测***
CN116959421B (zh) * 2023-09-21 2023-12-19 湖北星纪魅族集团有限公司 处理音频数据的方法及装置、音频数据处理设备和介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359629B2 (en) * 2009-09-25 2013-01-22 Intel Corporation Method and device for controlling use of context information of a user
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
CN105529030B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
CN108509619B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 一种语音交互方法及设备
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN111583919B (zh) * 2020-04-15 2023-10-13 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN113221580B (zh) * 2021-07-08 2021-10-12 广州小鹏汽车科技有限公司 语义拒识方法、语义拒识装置、交通工具及介质
CN113990300B (zh) * 2021-12-27 2022-05-10 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器和计算机可读存储介质

Also Published As

Publication number Publication date
CN113990300A (zh) 2022-01-28
WO2023124960A1 (zh) 2023-07-06

Similar Documents

Publication Publication Date Title
CN113990300B (zh) 语音交互方法、车辆、服务器和计算机可读存储介质
US11127416B2 (en) Method and apparatus for voice activity detection
WO2018149209A1 (zh) 语音识别方法、电子设备以及计算机存储介质
Ferrer et al. A prosody-based approach to end-of-utterance detection that does not require speech recognition
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN109036471A (zh) 语音端点检测方法及设备
CN108932944A (zh) 解码方法及装置
US6850885B2 (en) Method for recognizing speech
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
Iqbal et al. Stacked convolutional neural networks for general-purpose audio tagging
CN115148211A (zh) 音频敏感内容检测方法、计算机设备和计算机程序产品
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
CN114627868A (zh) 意图识别方法、装置、模型及电子设备
CN113345466B (zh) 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN114944149A (zh) 语音识别方法、语音识别设备及计算机可读存储介质
JP2996019B2 (ja) 音声認識装置
CN112667787A (zh) 基于话术标签的智能应答方法、***及存储介质
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
CN115132197B (zh) 数据处理方法、装置、电子设备、程序产品及介质
CN111145748A (zh) 音频识别置信度确定方法、装置、设备及存储介质
CN114141271B (zh) 心理状态检测方法及***
US11823671B1 (en) Architecture for context-augmented word embedding
CN114582373A (zh) 用于在人机对话中识别用户情绪的方法及装置
US11551666B1 (en) Natural language processing
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant