CN118212917A - 语音助手唤醒方法、装置、设备及存储介质 - Google Patents
语音助手唤醒方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118212917A CN118212917A CN202410507647.7A CN202410507647A CN118212917A CN 118212917 A CN118212917 A CN 118212917A CN 202410507647 A CN202410507647 A CN 202410507647A CN 118212917 A CN118212917 A CN 118212917A
- Authority
- CN
- China
- Prior art keywords
- target
- wake
- voice assistant
- word
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 230000002618 waking effect Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000003709 image segmentation Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 8
- 238000007689 inspection Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种语音助手唤醒方法、装置、设备及存储介质,该方法包括:当检测到待识别音频中包含目标唤醒词时,获取目标唤醒词的置信度;在置信度大于第一预设阈值时,唤醒语音助手;在置信度小于第二预设阈值时,舍弃当前唤醒检测结果;在置信度小于等于第一预设阈值且大于等于第二预设阈值时,通过目标检测图像获取目标区域信息,并基于目标区域信息确定语音助手唤醒结果。不同于现有通过判断是否存在唤醒词进行语音唤醒的方法,本发明可通过唤醒词的高低双阈值进行初次判断,保证唤醒速度;当唤醒词置信度介于高低阈值之间时,通过目标检测图像中车内人员的目标区域信息对目标唤醒词进行二次判断,尽可能输出可靠唤醒结果,提高唤醒精度。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音助手唤醒方法、装置、设备及存储介质。
背景技术
随着网络和通信技术的发展,车载语音助手可在驾驶过程中辅助人们操作车内的硬件设备和软件***,实现播放音乐、蓝牙通话、导航等一系列人机交互功能,可提高人们的驾驶或乘车体验,因此愈发受到人们关注。
然而,现有车载语音助手常用的唤醒方法为,直接通过识别输入的音频数据中是否存在预储存的唤醒词来进行语音助手的唤醒,存在唤醒精度低的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音助手唤醒方法、装置、设备及存储介质,旨在解决现有语音助手唤醒方法唤醒精度低的技术问题。
为实现上述目的,本发明提供了一种语音助手唤醒方法,所述方法包括:
当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度;
在所述置信度大于第一预设阈值时,唤醒语音助手;
在所述置信度小于第二预设阈值时,舍弃当前唤醒检测结果;
在所述置信度小于等于所述第一预设阈值且大于等于所述第二预设阈值时,通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果。
可选地,所述当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度之前,还包括:
根据样本唤醒音频对待识别音频进行语义预测,获得语义预测结果;
当所述语义预测结果为包含目标唤醒词时,采集车内人员对应的目标检测图像。
可选地,所述通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果的步骤,包括:
获取目标检测图像对应的初始视频帧,并根据预设身体部位对所述初始视频帧进行图像分割,获得所述车内人员分别对应的目标区域信息;
基于所述目标区域信息确定目标发声用户;
获取所述待识别音频中与所述目标发声用户对应的目标声音信息;
将所述目标声音信息和所述目标唤醒词的声学特征输入预设神经网络,获得语音助手唤醒结果。
可选地,所述基于所述目标区域信息确定目标发声用户的步骤,包括:
获取所述目标区域信息对应的帧向量,生成所述车内人员分别对应的初始帧向量集;所述帧向量包括所述目标区域信息的初始时刻以及位置信息;
判断所述初始帧向量集中是否存在符合第一预设条件的目标帧向量集;
若存在,则根据所述目标帧向量集确定目标发声用户。
可选地,所述根据所述目标帧向量集确定目标发声用户的步骤,包括:
将所述目标帧向量集对应的用户确定为初始发声用户;
判断所述初始发声用户的数量是否大于一;
若是,则根据预设筛选规则对所述初始发声用户进行规则匹配,并通过规则匹配结果确定目标发声用户。
可选地,所述获取所述待识别音频中与所述目标发声用户对应的目标声音信息的步骤,包括:
提取所述待识别音频中的声音特征参数;
基于所述声音特征参数对所述待识别音频进行区分,获得所述目标发声用户的目标声音特征;
通过所述目标声音特征对所述待识别音频进行特征匹配,获得所述目标发声用户对应的目标声音信息。
可选地,所述当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度之前,还包括:
根据当前地理位置确定目标识别参数;
基于所述目标识别参数从预设唤醒词库中确定目标唤醒词。
此外,为实现上述目的,本发明还提出一种语音助手唤醒装置,所述语音助手唤醒装置包括:
置信度确定模块,用于置信度确定模块,用于当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度;
第一检验模块,用于在所述置信度大于第一预设阈值时,唤醒语音助手;
所述第一检验模块,还用于在所述置信度小于第二预设阈值时,舍弃当前唤醒检测结果;
第二检验模块,用于在所述置信度小于等于所述第一预设阈值且大于等于所述第二预设阈值时,通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果。
此外,为实现上述目的,本发明还提出一种语音助手唤醒设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音助手唤醒程序,所述语音助手唤醒程序配置为实现如上文所述的语音助手唤醒方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有语音助手唤醒程序,所述语音助手唤醒程序被处理器执行时实现如上文所述的语音助手唤醒方法的步骤。
本发明公开了一种语音助手唤醒方法、装置、设备及存储介质,该方法包括:当检测到待识别音频中包含目标唤醒词时,获取目标唤醒词的置信度;在置信度大于第一预设阈值时,唤醒语音助手;在置信度小于第二预设阈值时,舍弃当前唤醒检测结果;在置信度小于等于第一预设阈值且大于等于第二预设阈值时,通过目标检测图像获取目标区域信息,并基于目标区域信息确定语音助手唤醒结果。不同于现有直接通过判断是否存在唤醒词进行语音唤醒的方法,本发明可通过设定唤醒词的高低双阈值来进行语音助手唤醒。具体地,本发明可在唤醒词置信度不低于高阈值,即上述第一预设阈值时,直接唤醒,保证唤醒速度;当唤醒词置信度低于低阈值,即上述第二预设阈值时,直接抛弃唤醒结果;当唤醒词置信度介于高低阈值之间时,通过预先设定的二次检验方案,即通过采集的目标检测图像获取车内人员的目标区域信息,并基于目标区域信息确定最终的语音助手唤醒结果的方法决定唤醒结果采用还是抛弃,尽可能输出可靠唤醒结果。从而在保证语音助手唤醒精度的同时,也最大程度地保证语音助手的唤醒速度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的语音助手唤醒设备的结构示意图;
图2为本发明语音助手唤醒方法第一实施例的第一流程示意图;
图3为本发明语音助手唤醒方法第二实施例的流程示意图;
图4为本发明语音助手唤醒方法第三实施例的第一流程示意图;
图5为本发明语音助手唤醒方法第三实施例的第二流程示意图;
图6为本发明语音助手唤醒装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的语音助手唤醒设备结构示意图。
如图1所示,该语音助手唤醒设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对语音助手唤醒设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及语音助手唤醒程序。
在图1所示的语音助手唤醒设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明语音助手唤醒设备中的处理器1001、存储器1005可以设置在语音助手唤醒设备中,所述语音助手唤醒设备通过处理器1001调用存储器1005中存储的语音助手唤醒程序,并执行本发明实施例提供的语音助手唤醒方法。
本发明实施例提供了一种语音助手唤醒方法,参照图2,图2为本发明语音助手唤醒方法第一实施例的第一流程示意图。
本实施例中,所述语音助手唤醒方法包括以下步骤:
步骤S10:当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑和车载电脑等,还可以是能够实现相同或相似功能的其他电子设备。此处以上述语音助手唤醒设备(简称唤醒设备)对本实施例和下述各实施例提供的语音助手唤醒方法进行具体说明。
易理解的是,上述待识别音频可以是唤醒设备通过麦克风采集的车内音频,且该音频已通过神经网络模型滤除环境音和杂音,只保留了人声部分。上述目标唤醒词则可以是预先设定的语音助手的唤醒词。当确定车内音频中存在目标唤醒词时,即可唤醒语音助手辅助车内人员进行设备的调控。同时,为了避免语音助手被误唤醒,仅通过检测待识别音频中是否存在目标唤醒词的手段是不够的。因此,本实施例中,在检测到目标唤醒词后,还可进一步检测目标唤醒词的置信度。
示例性地,本实施例中,唤醒设备确定目标唤醒词的置信度的步骤可以是:对所述目标唤醒词对应的目标声音片段进行预加重处理,将目标声音片段通过高通滤波器,增强目标声音片段中高频分量,减少低频分量,从而得到经过预加重操作后的处理音频;再通过Python的库函数将处理音频转换为音频序列数据,再对音频序列数据进行分析获取声学特征,从而获得目标唤醒词的声学特征,最后结合目标声音片段的声学特征进和置信度来获取目标唤醒词对应的置信度。
其中,声学特征提取的方式可以是Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)等,具体采用何种方法本实施例对此不加限制。
易理解的是,该后验概率可以是根据预先实验数据获得的,具体地,本实施例可预先收集在实际驾驶过程中驾驶员可能使用的字,并将每个字输入唤醒设备进行文本转换,根据转换结果计算唤醒设备对输入的每个字转换的准确率,从而确定每个字的转换准确率,即确定每个字的先验概率。然后在实际过程中,本实施例即可基于预先确定的先验概率确定各声学特征对应的后验概率。例如,根据预先实验数据可知,“A”、“I”和“L”均可能被识别为“A”,因此“A”对应的先验概率可为33%;“X”和“S”均可能被识别为“S”,因此“S”对应的先验概率可为50%。因此,若在实际过程中识别到的声学特征为“AS”,则此时声学特征对应的后验概率可为:(33%+50%)/2=41.5%。
需要说明的是,上述置信度可用于表示每个字在语音识别解码时被区别的开朗程度。例如,在实际应用中,假设某一语音唤醒词为“你好”,其中“你”对应的语音在语音识别时,被识别为“你”的概率为90%,被识别为“以”的概率为3%,被识别为“衣”的概率为7%,可以看到被识别为“你”字的概率远远大于被识别为其他的字的概率,则表示“你”字被区别的开朗程度高,若语音唤醒指令词中每个字被区别的开朗程度较高,则对应的该语音唤醒指令词的置信度较高。
需要理解的是,本实施例中,置信度可通过下述公式确定:
式中,α为置信度,pi(i=1,2,...,n)表示声学特征的后验概率,n为声学特征的数量。
步骤S20:在所述置信度大于第一预设阈值时,唤醒语音助手;
步骤S30:在所述置信度小于第二预设阈值时,舍弃当前唤醒检测结果;
步骤S40:在所述置信度小于等于所述第一预设阈值且大于等于所述第二预设阈值时,通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果。
可以理解的是,为了在保证语音助手唤醒精度的同时,最大程度地保证语音助手的唤醒速度,本实施例设置了两个判定阈值,即上述第一预设阈值和第二预设阈值,且第一预设阈值远大于第二预设阈值。当确定目标唤醒词的置信度大于第一预设阈值时,则表明当前待识别音频中包含的目标唤醒词的准确度非常高,唤醒设备可立即启动车载语音助手;而若该唤醒词的置信度小于第二预设阈值时,则表明当前待识别音频中包含的目标唤醒词的准确度非常低,唤醒设备可不启动车载语音助手,并对应删除被初步认定的目标唤醒词。
除此之外,当检测到目标唤醒词的置信度小于第一预设阈值且大于第二预设阈值时,本实施例可尝试通过采集的目标检测图像获取车内人员的目标区域信息,该目标检测图像可以是车内人员的面部多帧图像或包含车内人员面部的视频,其可通过安装在汽车上的摄像头获取。该目标区域信息可以是车内人员的面部信息,并基于目标区域信息来确定最终的语音助手唤醒结果,从而提高语音助手的唤醒精度。
需要理解的是,上述目标检测图像需用于对待识别音频是否包含目标唤醒词进行二次确认,其采集时间与待识别音频的采集时间需相近,为解决该问题,本实施例中,唤醒设备可在预测到待识别音频中出现目标唤醒词时采集目标检测图像。进一步地,作为一种可实施方式,本实施例中,步骤S10之前还包括:
步骤S01:根据样本唤醒音频对待识别音频进行语义预测,获得语义预测结果;
需要说明的是,上述样本唤醒音频可以是预先采集的包含目标唤醒词的音频数据,本实施例可基于该样本唤醒音频训练预设语义预测模型。预设语义预测模型迭代完毕后,可在音频输入后预测音频在预设时长后是否会出现目标唤醒词。因此,本实施例可将待识别音频输入预设语义预测模型进行语义预测,判断待识别音频在预设时长后是否会包含目标唤醒词。
步骤S02:当所述语义预测结果为包含目标唤醒词时,采集车内人员对应的目标检测图像。
易理解的是,当待识别音频的语义预测结果为预设时长后会包含目标唤醒词时,唤醒设备可采集上述目标检测图像。采集过程中,图像的采集帧数或视频采集的时长需满足预设采集条件,即可有效识别目标识别词,但不过多或过长以免增加唤醒设备的负担,其具体帧数或时长可根据实际情况设置。
本实施例公开了一种语音助手唤醒方法,该方法包括:根据样本唤醒音频对待识别音频进行语义预测,获得语义预测结果;当语义预测结果为包含目标唤醒词时,采集车内人员对应的目标检测图像。当检测到待识别音频中包含目标唤醒词时,获取目标唤醒词的置信度;在置信度大于第一预设阈值时,唤醒语音助手;在置信度小于第二预设阈值时,舍弃当前唤醒检测结果;在置信度小于等于第一预设阈值且大于等于第二预设阈值时,通过目标检测图像获取目标区域信息,并基于目标区域信息确定语音助手唤醒结果。不同于现有直接通过判断是否存在唤醒词进行语音唤醒的方法,本实施例可通过设定唤醒词的高低双阈值来进行语音助手唤醒。具体地,本实施例可在唤醒词置信度不低于高阈值,即上述第一预设阈值时,直接唤醒,保证唤醒速度;当唤醒词置信度低于低阈值,即上述第二预设阈值时,直接抛弃唤醒结果;当唤醒词置信度介于高低阈值之间时,通过预先设定的二次检验方案,即通过根据语义预测结果预先采集的目标检测图像获取车内人员的目标区域信息,并基于目标区域信息确定最终的语音助手唤醒结果的方法决定唤醒结果采用还是抛弃,尽可能输出可靠唤醒结果。从而在保证语音助手唤醒精度的同时,也最大程度地保证语音助手的唤醒速度。
参照图3,图3为本发明语音助手唤醒方法第二实施例的流程示意图,基于上述图2所示的实施例,提出本发明语音助手唤醒方法的第二实施例。
本实施例中,步骤S10之前,还包括:
步骤S001:根据当前地理位置确定目标识别参数;
步骤S002:基于所述目标识别参数从预设唤醒词库中确定目标唤醒词。
需要理解的是,上述目标识别参数可以是车辆当前所处位置对应的地区编码,本实施例可为不同地区设置不同的地区编码,而预设唤醒词库中唤醒词可根据不同的地区编码分类存储。因此,本实施例可及时根据当前地区对应的地区编码从预设唤醒词库中确定当前地区所对应的目标唤醒词,当车辆进入不同地区时,自动对目标唤醒词进行更换或更新,这样不仅可提高语音唤醒的触发精度,也可以方便让不会说标准普通话的老人和外国人使用,扩大使用场景,提升用户体验。
本实施例根据当前地理位置确定目标识别参数;基于所述目标识别参数从预设唤醒词库中确定目标唤醒词。因此,本实施例可及时根据当前地区对应的目标识别参数从预设唤醒词库中确定对应的目标唤醒词,当车辆进入不同地区时,自动对语音唤醒词进行更换或更新,这样不仅可提高语音唤醒的触发精度,也可以方便让不会说标准普通话的老人和外国人使用,扩大使用场景,提升用户体验。
参照图4,图4为本发明语音助手唤醒方法第三实施例的第一流程示意图,基于上述图2或3所示的实施例,提出本发明语音助手唤醒方法的第三实施例,图4以基于图1所示的实施例提出的实施例为例。
本实施例中,步骤S40包括:
步骤S41:获取目标检测图像对应的初始视频帧,并根据预设身体部位对所述初始视频帧进行图像分割,获得所述车内人员分别对应的目标区域信息;
可以理解的是,上述初始视频帧可以是采集的图像帧本身,又或者是对采集的视频信息分帧后获得的图像帧,但该初始视频帧中均需包含预设身体部位。当车内人员在说话时,其唇部可能会有开合等幅度较小肉眼难以察觉的动作,本实施例可基于目标检测图像捕捉此类微小动作,并记录下来用于后续分析和比对车内人员是否有发声。
因此,上述预设身体部位可以是车内人员的面部或唇部。基于该原理,为了便于后续进行分析,本实施例基于对初始视频帧进行整体检测,判断初始视频帧中存在预设身体部位的区域,并基于检测的区域对初始视频帧进行图像分割,从而获得车内人员分别对应的包含预设身体部位的图像信息,即上述目标区域信息。该目标区域信息可以是包含车内人员的面部信息的分割图像帧,进一步地,可以是包含车内人员的唇部信息的分割图像帧。
步骤S42:基于所述目标区域信息确定目标发声用户;
易理解的是,在获得包含车内人员面部信息或唇部信息的分割图像帧后,本实施例即可根据不同用户对应的分割图像帧确定用户是否发声。进一步地,作为一种可实施方式,参照图5,图5为本发明语音助手唤醒方法第三实施例的第二流程示意图,本实施例中,步骤S42包括:
步骤S42a:获取所述目标区域信息对应的帧向量,生成所述车内人员分别对应的初始帧向量集;所述帧向量包括所述目标区域信息的初始时刻以及位置信息;
需要说明的是,本实施例中,在获取到目标区域信息后,唤醒设备可获取各目标区域信息对应的帧向量,以获得初始帧向量集。上述初始时刻可以是目标区域信息在对应的采集视频中的初始播放时刻。针对任一目标区域信息,可识别该目标区域信息对应的嘴唇和参照部位特征(如鼻子或眼睛),并对参照部位特征做标记,以确定嘴唇的相对位置。即本实施例可基于参照部位定义一个数据轴,从而记录嘴唇和参照部位特征之间的相对位置,进而确定目标区域信息中嘴唇的位置,即上述位置信息。
具体地,本实施例可先获取目标区域信息的初始时刻,而后基于参照部位对各目标区域信息进行识别,以确定目标区域信息中嘴唇的位置信息,进而得到各目标区域信息对应的帧向量,例如,各个帧向量可表示如下:
{“time”:0.05}{“value”:435};
{“time”:0.031}{“value”:440};
{“time”:0.48}{“value”:400};
…
{“time”:1.33}{“value”:611};
其中,time为各目标区域信息对应的初始时刻,value为各目标区域信息中嘴唇相较于参照部位的位置信息。
步骤S42b:判断所述初始帧向量集中是否存在符合第一预设条件的目标帧向量集;
步骤S42c:若存在,则根据所述目标帧向量集确定目标发声用户。
易理解的是,在获取初始帧向量集后,上述唤醒设备可通过检测车内用户分别对应的初始帧向量集中是否存在预设数量的位置差大于预设移动阈值的相邻帧向量,来判断各初始向量集是否满足第一预设条件。若满足第一预设条件,则可判断对应的车内人员为唇动状态,唤醒设备可将其对应的初始帧向量集确定为目标帧向量集,从而基于目标帧向量集确定目标发声用户。
进一步地,作为一种可实施方式,本实施例中,步骤S42c包括:
步骤A1:将所述目标帧向量集对应的用户确定为初始发声用户;
步骤A2:判断所述初始发声用户的数量是否大于一;
步骤A3:若是,则根据预设筛选规则对所述初始发声用户进行规则匹配,并通过规则匹配结果确定目标发声用户。
易理解的是,当存在多人交谈的场景时,唤醒设备基于目标帧向量集确定的发声用户可能有多个,因此,为了提高识别精度,当基于目标帧向量集初始发声用户的数量大于一时,本实施例可根据预设筛选规则进一步筛选初始发声用户。
示例性地,本实施例可首先确定目标唤醒词对应的目标声音片段所对应的目标性别特征,进而将目标发声用户中唯一符合目标声音性别特征的初始发声用户确定为目标发声用户。
而若满足目标声音性别特征的用户不唯一时,可以理解的是,本实施例可在车辆不同位置处设置麦克风,而位于不同位置处的麦克风采集的同一用户声音片段的声音强度不同。因此,唤醒设备可进一步基于设置在不同位置处的麦克风来确定目标声音片段对应用户的位置特征,进而可将同时满足目标声音性别特征和位置特征的初始发声用户确定为目标发声用户。
步骤S43:获取所述待识别音频中与所述目标发声用户对应的目标声音信息;
进一步地,作为一种可实施方式,本实施例中,步骤S43包括:
步骤S43a:提取所述待识别音频中的声音特征参数;
步骤S43b:基于所述声音特征参数对所述待识别音频进行区分,获得所述目标发声用户的目标声音特征;
需要理解的是,上述声音的特征参数包括音色、音调、响度、能量、频率、语速、语言风格,基于上述特征参数可以对车内人员的声音进行区分,更好地实现语音交互。因此,本实施例可首先对待识别音频中的声音特征进行分析,此时不对处理音频进行分析是为了尽可能提取多的声音特征。
需要说明的是,本实施例可根据获取的声音特征参数后对待识别音频进行划分,获得多个由不同声音特征参数组成的声音片段。然后,可根据各声音片段的语音内容、上文确定的目标声音性别特征和/或位置特征确定与目标发声用户对应的声音片段,从而从划分出的目标发声用户对应的声音片段中提取与目标发声用户对应的目标声音特征。
步骤S42c:通过所述目标声音特征对所述处理音频进行特征匹配,获得所述目标发声用户对应的目标声音信息。
需要理解的是,本实施例可将目标声音特征与处理音频进行特征匹配,获取处理音频中与目标发声用户对应的声音片段,即目标发声用户对应的目标声音信息。
步骤S44:将所述目标声音信息和所述目标唤醒词的声学特征输入预设神经网络,获得语音助手唤醒结果。
可以理解的是,在基于唇动信息确定的目标声音信息和目标唤醒词的声学特征的基础上,本实施例可进一步精确判断待识别音频中是否有目标唤醒词。具体地,本实施例可通过预设神经网络,如预设BP神经网络对目标唤醒词进行多维度的分析预测,该预设BP神经网络可以是预先基于MATLAB内的集成模块进行模型训练且迭代完毕的BP神经网络。
本实施例通过获取目标检测图像对应的初始视频帧,并根据预设身体部位对初始视频帧进行图像分割,获得车内人员分别对应的目标区域信息;获取目标区域信息对应的帧向量,生成车内人员分别对应的初始帧向量集;帧向量包括目标区域信息的初始时刻以及位置信息;判断初始帧向量集中是否存在符合第一预设条件的目标帧向量集;若存在,则将目标帧向量集对应的用户确定为初始发声用户;判断初始发声用户的数量是否大于一;若是,则根据预设筛选规则对初始发声用户进行规则匹配,并通过规则匹配结果确定目标发声用户。提取待识别音频中的声音特征参数;基于声音特征参数对待识别音频进行区分,获得目标发声用户的目标声音特征;通过目标声音特征对待识别音频进行特征匹配,获得目标发声用户对应的目标声音信息;将目标声音信息和目标唤醒词的声学特征输入预设神经网络,获得语音助手唤醒结果。本实施例可通过对车内人员的目标检测图像进行分析,基于车内人员的目标区域信息确定车内人员中的目标发声用户,然后基于目标发声用户所对应的目标声音信息与目标唤醒词的声学特征进行唤醒词的多维度分析,从而提高语音唤醒的识别精度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有语音助手唤醒程序,所述语音助手唤醒程序被处理器执行时实现如上文所述的语音助手唤醒方法的步骤。
参考图6,图6为本发明语音助手唤醒装置第一实施例的结构框图。
如图6所示,本发明实施例提出的语音助手唤醒装置包括:
置信度确定模块601,用于当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度;
第一检验模块602,用于在所述置信度大于第一预设阈值时,唤醒语音助手;
所述第一检验模块602,还用于在所述置信度小于第二预设阈值时,舍弃当前唤醒检测结果;
第二检验模块603,用于在所述置信度小于所述第一预设阈值且大于所述第二预设阈值时,获取车内人员的唇动信息,并基于所述唇动信息确定语音助手唤醒结果。
进一步地,作为一种可实施方式,本实施例中,置信度确定模块601,还用于根据样本唤醒音频对待识别音频进行语义预测,获得语义预测结果;
置信度确定模块601,还用于当所述语义预测结果为包含目标唤醒词时,采集车内人员对应的目标检测图像。
本实施例根据样本唤醒音频对待识别音频进行语义预测,获得语义预测结果;当语义预测结果为包含目标唤醒词时,采集车内人员对应的目标检测图像。当检测到待识别音频中包含目标唤醒词时,获取目标唤醒词的置信度;在置信度大于第一预设阈值时,唤醒语音助手;在置信度小于第二预设阈值时,舍弃当前唤醒检测结果;在置信度小于等于第一预设阈值且大于等于第二预设阈值时,通过目标检测图像获取目标区域信息,并基于目标区域信息确定语音助手唤醒结果。不同于现有直接通过判断是否存在唤醒词进行语音唤醒的方法,本实施例可通过设定唤醒词的高低双阈值来进行语音助手唤醒。具体地,本实施例可在唤醒词置信度不低于高阈值,即上述第一预设阈值时,直接唤醒,保证唤醒速度;当唤醒词置信度低于低阈值,即上述第二预设阈值时,直接抛弃唤醒结果;当唤醒词置信度介于高低阈值之间时,通过预先设定的二次检验方案,即通过根据语义预测结果预先采集的目标检测图像获取车内人员的目标区域信息,并基于目标区域信息确定最终的语音助手唤醒结果的方法决定唤醒结果采用还是抛弃,尽可能输出可靠唤醒结果。从而在保证语音助手唤醒精度的同时,也最大程度地保证语音助手的唤醒速度。
基于本发明上述语音助手唤醒装置第一实施例,提出本发明语音助手唤醒装置的第二实施例。
在本实施例中,置信度确定模块601,还用于根据当前地理位置确定目标识别参数;
置信度确定模块601,还用于基于所述目标识别参数从预设唤醒词库中确定目标唤醒词。
进一步地,作为一种可实施方式,本实施例中,第二检验模块603,还用于获取目标检测图像对应的初始视频帧,并根据预设身体部位对所述初始视频帧进行图像分割,获得所述车内人员分别对应的目标区域信息;
第二检验模块603,还用于基于所述目标区域信息确定目标发声用户;
第二检验模块603,还用于获取所述待识别音频中与所述目标发声用户对应的目标声音信息;
第二检验模块603,还用于将所述目标声音信息和所述目标唤醒词的声学特征输入预设神经网络,获得语音助手唤醒结果。
进一步地,作为一种可实施方式,本实施例中,第二检验模块603,还用于获取所述目标区域信息对应的帧向量,生成所述车内人员分别对应的初始帧向量集;所述帧向量包括所述目标区域信息的初始时刻以及位置信息;
第二检验模块603,还用于判断所述初始帧向量集中是否存在符合第一预设条件的目标帧向量集;
第二检验模块603,还用于若存在,则根据所述目标帧向量集确定目标发声用户。
进一步地,作为一种可实施方式,本实施例中,第二检验模块603,还用于将所述目标帧向量集对应的用户确定为初始发声用户;
第二检验模块603,还用于判断所述初始发声用户的数量是否大于一;
第二检验模块603,还用于若是,则根据预设筛选规则对所述初始发声用户进行规则匹配,并通过规则匹配结果确定目标发声用户。
进一步地,作为一种可实施方式,本实施例中,第二检验模块603,还用于提取所述待识别音频中的声音特征参数;
第二检验模块603,还用于基于所述声音特征参数对所述待识别音频进行区分,获得所述目标发声用户的目标声音特征;
第二检验模块603,还用于通过所述目标声音特征对所述待识别音频进行特征匹配,获得所述目标发声用户对应的目标声音信息。
本实施例根据当前地理位置确定目标识别参数;基于所述目标识别参数从预设唤醒词库中确定目标唤醒词。因此,本实施例可及时根据当前地区对应的目标识别参数从预设唤醒词库中确定对应的目标唤醒词,当车辆进入不同地区时,自动对语音唤醒词进行更换或更新,这样不仅可提高语音唤醒的触发精度,也可以方便让不会说标准普通话的老人和外国人使用,扩大使用场景,提升用户体验。此外,本实施例通过获取目标检测图像对应的初始视频帧,并根据预设身体部位对初始视频帧进行图像分割,获得车内人员分别对应的目标区域信息;获取目标区域信息对应的帧向量,生成车内人员分别对应的初始帧向量集;帧向量包括目标区域信息的初始时刻以及位置信息;判断初始帧向量集中是否存在符合第一预设条件的目标帧向量集;若存在,则将目标帧向量集对应的用户确定为初始发声用户;判断初始发声用户的数量是否大于一;若是,则根据预设筛选规则对初始发声用户进行规则匹配,并通过规则匹配结果确定目标发声用户。提取待识别音频中的声音特征参数;基于声音特征参数对待识别音频进行区分,获得目标发声用户的目标声音特征;通过目标声音特征对待识别音频进行特征匹配,获得目标发声用户对应的目标声音信息;将目标声音信息和目标唤醒词的声学特征输入预设神经网络,获得语音助手唤醒结果。本实施例可通过对车内人员的目标检测图像进行分析,基于车内人员的目标区域信息确定车内人员中的目标发声用户,然后基于目标发声用户所对应的目标声音信息与目标唤醒词的声学特征进行唤醒词的多维度分析,从而提高语音唤醒的识别精度。
本发明语音助手唤醒装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音助手唤醒方法,其特征在于,所述语音助手唤醒方法包括:
当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度;
在所述置信度大于第一预设阈值时,唤醒语音助手;
在所述置信度小于第二预设阈值时,舍弃当前唤醒检测结果;
在所述置信度小于等于所述第一预设阈值且大于等于所述第二预设阈值时,通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果。
2.如权利要求1所述的语音助手唤醒方法,其特征在于,所述当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度之前,还包括:
根据样本唤醒音频对待识别音频进行语义预测,获得语义预测结果;
当所述语义预测结果为包含目标唤醒词时,采集车内人员对应的目标检测图像。
3.如权利要求2所述的语音助手唤醒方法,其特征在于,所述通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果的步骤,包括:
获取目标检测图像对应的初始视频帧,并根据预设身体部位对所述初始视频帧进行图像分割,获得所述车内人员分别对应的目标区域信息;
基于所述目标区域信息确定目标发声用户;
获取所述待识别音频中与所述目标发声用户对应的目标声音信息;
将所述目标声音信息和所述目标唤醒词的声学特征输入预设神经网络,获得语音助手唤醒结果。
4.如权利要求3所述的语音助手唤醒方法,其特征在于,所述基于所述目标区域信息确定目标发声用户的步骤,包括:
获取所述目标区域信息对应的帧向量,生成所述车内人员分别对应的初始帧向量集;所述帧向量包括所述目标区域信息的初始时刻以及位置信息;
判断所述初始帧向量集中是否存在符合第一预设条件的目标帧向量集;
若存在,则根据所述目标帧向量集确定目标发声用户。
5.如权利要求4所述的语音助手唤醒方法,其特征在于,所述根据所述目标帧向量集确定目标发声用户的步骤,包括:
将所述目标帧向量集对应的用户确定为初始发声用户;
判断所述初始发声用户的数量是否大于一;
若是,则根据预设筛选规则对所述初始发声用户进行规则匹配,并通过规则匹配结果确定目标发声用户。
6.如权利要求3所述的语音助手唤醒方法,其特征在于,所述获取所述待识别音频中与所述目标发声用户对应的目标声音信息的步骤,包括:
提取所述待识别音频中的声音特征参数;
基于所述声音特征参数对所述待识别音频进行区分,获得所述目标发声用户的目标声音特征;
通过所述目标声音特征对所述待识别音频进行特征匹配,获得所述目标发声用户对应的目标声音信息。
7.如权利要求1所述的语音助手唤醒方法,其特征在于,所述当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度之前,还包括:
根据当前地理位置确定目标识别参数;
基于所述目标识别参数从预设唤醒词库中确定目标唤醒词。
8.一种语音助手唤醒装置,其特征在于,所述语音助手唤醒装置包括:
置信度确定模块,用于当检测到待识别音频中包含目标唤醒词时,获取所述目标唤醒词的置信度;
第一检验模块,用于在所述置信度大于第一预设阈值时,唤醒语音助手;
所述第一检验模块,还用于在所述置信度小于第二预设阈值时,舍弃当前唤醒检测结果;
第二检验模块,用于在所述置信度小于等于所述第一预设阈值且大于等于所述第二预设阈值时,通过目标检测图像获取目标区域信息,并基于所述目标区域信息确定语音助手唤醒结果。
9.一种语音助手唤醒设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音助手唤醒程序,所述语音助手唤醒程序配置为实现如权利要求1至7中任一项所述的语音助手唤醒方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有语音助手唤醒程序,所述语音助手唤醒程序被处理器执行时实现如权利要求1至7任一项所述的语音助手唤醒方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410507647.7A CN118212917A (zh) | 2024-04-25 | 2024-04-25 | 语音助手唤醒方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410507647.7A CN118212917A (zh) | 2024-04-25 | 2024-04-25 | 语音助手唤醒方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118212917A true CN118212917A (zh) | 2024-06-18 |
Family
ID=91455623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410507647.7A Pending CN118212917A (zh) | 2024-04-25 | 2024-04-25 | 语音助手唤醒方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118212917A (zh) |
-
2024
- 2024-04-25 CN CN202410507647.7A patent/CN118212917A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11538472B2 (en) | Processing speech signals in voice-based profiling | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN110660201B (zh) | 到站提醒方法、装置、终端及存储介质 | |
WO2021169742A1 (zh) | 交通工具运行状态的预测方法、装置、终端及存储介质 | |
CN108711429B (zh) | 电子设备及设备控制方法 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN111462756B (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN112397093B (zh) | 一种语音检测方法与装置 | |
CN112507311A (zh) | 一种基于多模态特征融合的高安全性身份验证方法 | |
CN112786052A (zh) | 语音识别方法、电子设备和存储装置 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
CN113851136A (zh) | 基于聚类的说话人识别方法、装置、设备及存储介质 | |
CN113129867A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN117636872A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN111276156B (zh) | 一种实时语音流监控的方法 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及*** | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN113330513A (zh) | 语音信息处理方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |