CN111554288A - 智能设备的唤醒方法、装置、电子设备及介质 - Google Patents
智能设备的唤醒方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN111554288A CN111554288A CN202010345765.4A CN202010345765A CN111554288A CN 111554288 A CN111554288 A CN 111554288A CN 202010345765 A CN202010345765 A CN 202010345765A CN 111554288 A CN111554288 A CN 111554288A
- Authority
- CN
- China
- Prior art keywords
- awakening
- target
- voice
- wake
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims description 120
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 7
- 230000002618 waking effect Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 241000282373 Panthera pardus Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请公开了一种智能设备的唤醒方法、装置、电子设备及介质。该方法获取智能设备采集的语音信号,确定语音信号中包含唤醒词的唤醒概率;获取语音信号的目标特征信息,输入至预先训练的阈值模型,确定目标特征信息对应的目标唤醒阈值;若语音信号的唤醒概率大于目标唤醒阈值,则唤醒智能设备。该方法提高了智能设备的唤醒率且降低了误唤醒率,从而提高了用户体验。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种智能设备的唤醒方法、装置、电子设备及介质。
背景技术
目前,智能设备的种类越来越多,应用也越来越广泛。智能设备通常包括智能机器人、智能音箱等。
现有的智能设备上可以安装语音唤醒模型,智能设备接收到用户发送的特定唤醒词,如“小豹小豹”或“小贝小贝”后切换至唤醒状态,之后智能设备才能识别用户发送的语音指令,并播放用户所请求的多媒体资源。现有智能音箱、智能空调等智能设备上的语音唤醒模型一般是统一发布的,即语音唤醒模型具有相同的固定语音唤醒阈值。语音唤醒阈值用于供电子设备判定是否根据唤醒词执行语音唤醒操作。当携带唤醒词的语音信号通过声学模型得到唤醒词的声学得分大于语音唤醒阈值时,执行语音唤醒操作;当唤醒词的声学得分小于语音唤醒阈值时,不执行语音唤醒操作。
然而,对于不同声学场景,如环境中噪声的大小,音响喇叭是否处于播放状态、存在回声等声学场景,现有的语音唤醒模型难以适应,导致对于某种声学场景来说,该声学场景下的唤醒率较低且误唤醒率较高,降低了用户体验。
发明内容
本申请实施例提供一种智能设备的唤醒方法、装置、电子设备及介质,解决了现有技术存在的上述问题,在不同声学场景下,提高了智能设备的唤醒率且降低了误唤醒率,从而提高了用户体验。
第一方面,提供了一种智能设备的唤醒方法,该方法可以包括:
获取智能设备采集的语音信号;
确定所述语音信号中包含唤醒词的唤醒概率;
获取所述语音信号的目标特征信息,输入至预先训练的阈值模型,确定所述目标特征信息对应的目标唤醒阈值;
若所述语音信号的唤醒概率大于所述目标唤醒阈值,则唤醒所述智能设备。
在一个可选的实现中,确定所述目标特征信息对应的目标唤醒阈值之前,所述方法还包括:
将所述唤醒概率与预设阈值进行比较,所述预设阈值小于所述阈值模型对应的任一唤醒阈值;
若所述唤醒概率大于所述预设阈值,则执行获取所述语音信号的目标特征信息的步骤。
在一个可选的实现中,所述语音信号的目标特征信息包括以下信息中的至少一种:
所述语音信号中所述唤醒词对应的第一语音片段之前的预设长度的第二语音片段的目标特征信息;
所述语音信号中所述唤醒词对应的第一语音片段的目标特征信息;
表征所述第一语音片段的目标特征信息与所述第二语音片段的目标特征信息的差异的信息。
在一个可选的实现中,所述第一语音片段的目标特征信息包括:所述第一语音片段的声能量和所述第一语音片段的唤醒概率中的至少一种;
和/或所述第二语音片段的目标特征信息包括:所述第二语音片段的声能量、所述第二语音片段中静音帧的比例和所述第二语音片段的唤醒概率中的至少一种。
在一个可选的实现中,所述阈值模型的训练过程包括:
获取包含唤醒词的语音训练样本;
确定各所述语音训练样本的目标特征信息、以及所述语音训练样本对应的训练标签;
根据所述语音训练样本的目标特征信息和所述语音训练样本对应的训练标签,对神经网络模型进行训练,得到所述阈值模型。
在一个可选的实现中,获取包含唤醒词的语音训练样本,包括:
获取语音样本集合,所述语音样本集合包括:包含唤醒词的唤醒语音信号和不包含所述唤醒词的非唤醒语音信号;
分别计算每段唤醒语音信号的第一唤醒概率和每段非唤醒语音信号的第二唤醒概率;
针对每段唤醒语音信号,分别获取所述唤醒语音信号的第一唤醒概率与每个唤醒阈值的第一比较结果,以及针对每段非唤醒语音信号,分别获取所述非唤醒语音信号的第二唤醒概率与每个唤醒阈值的第二比较结果;
将大于任一唤醒阈值的第一比较结果确定为目标第一比较结果,将所述目标第一比较结果对应的唤醒语音信号确定为候选训练样本,并将所述任一唤醒阈值确定为所述候选训练样本的候选唤醒阈值;
从所述第二比较结果中,选择所述候选唤醒阈值对应的目标第二比较结果;
若所述目标第二比较结果对应的非唤醒语音信号满足预设条件,则将所述候选唤醒阈值确定为所述候选训练样本的目标唤醒阈值;
将所述候选训练样本确定为语音训练样本,并将所述目标唤醒阈值的类别标签确定为训练标签。
在一个可选的实现中,所述预设条件为:
所述目标第二比较结果中所述第二唤醒概率大于所述候选唤醒阈值的次数与所述目标第二比较结果对应的非唤醒语音信号的总时长的比值,小于预设门限值。
第二方面,提供了一种智能设备的唤醒装置,该装置可以包括:获取单元、确定单元和唤醒单元;
所述获取单元,用于获取智能设备采集的语音信号;
所述确定单元,用于确定所述语音信号中包含唤醒词的唤醒概率;
以及,获取所述语音信号的目标特征信息,输入至预先训练的阈值模型,确定所述目标特征信息对应的目标唤醒阈值;
所述唤醒单元,用于若所述语音信号的唤醒概率大于所述目标唤醒阈值,则唤醒所述智能设备。
在一个可选的实现中,所述装置还包括比较单元和触发单元;
所述比较单元,用于将所述唤醒概率与预设阈值进行比较,所述预设阈值小于所述阈值模型对应的任一唤醒阈值;
所述触发单元,用于若所述唤醒概率大于所述预设阈值,则触发所述获取单元执行获取所述语音信号的目标特征信息的步骤。
在一个可选的实现中,所述语音信号的目标特征信息包括以下信息中的至少一种:
所述语音信号中所述唤醒词对应的第一语音片段之前的预设长度的第二语音片段的目标特征信息;
所述语音信号中所述唤醒词对应的第一语音片段的目标特征信息;
表征所述第一语音片段的目标特征信息与所述第二语音片段的目标特征信息的差异的信息。
在一个可选的实现中,所述第一语音片段的目标特征信息包括:所述第一语音片段的声能量和所述第一语音片段的唤醒概率中的至少一种;
和/或所述第二语音片段的目标特征信息包括:所述第二语音片段的声能量、所述第二语音片段中静音帧的比例和所述第二语音片段的唤醒概率中的至少一种。
在一个可选的实现中,所述装置还包括训练单元;
所述获取单元,还用于获取包含唤醒词的语音训练样本;
所述确定单元,还用于确定各所述语音训练样本的目标特征信息、以及所述语音训练样本对应的训练标签;
所述训练单元,用于根据所述语音训练样本的目标特征信息和所述语音训练样本对应的训练标签,对神经网络模型进行训练,得到所述阈值模型。
在一个可选的实现中,所述获取单元,具体用于获取语音样本集合,所述语音样本集合包括:包含唤醒词的唤醒语音信号和不包含所述唤醒词的非唤醒语音信号;
分别计算每段唤醒语音信号的第一唤醒概率和每段非唤醒语音信号的第二唤醒概率;
针对每段唤醒语音信号,分别获取所述唤醒语音信号的第一唤醒概率与每个唤醒阈值的第一比较结果,以及针对每段非唤醒语音信号,分别获取所述非唤醒语音信号的第二唤醒概率与每个唤醒阈值的第二比较结果;
将大于任一唤醒阈值的第一比较结果确定为目标第一比较结果,将所述目标第一比较结果对应的唤醒语音信号确定为候选训练样本,并将所述任一唤醒阈值确定为所述候选训练样本的候选唤醒阈值;
从所述第二比较结果中,选择所述候选唤醒阈值对应的目标第二比较结果;
若所述目标第二比较结果对应的非唤醒语音信号满足预设条件,则将所述候选唤醒阈值确定为所述候选训练样本的目标唤醒阈值;
将所述候选训练样本确定为语音训练样本,并将所述目标唤醒阈值的类别标签确定为训练标签。
在一个可选的实现中,所述预设条件为:
所述目标第二比较结果中所述第二唤醒概率大于所述候选唤醒阈值的次数与所述目标第二比较结果对应的非唤醒语音信号的总时长的比值,小于预设门限值。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本发明实施例提供的智能设备的唤醒方法通过获取智能设备采集的语音信号,确定语音信号中包含唤醒词的唤醒概率;获取语音信号的目标特征信息,输入至预先训练的阈值模型,确定目标特征信息对应的目标唤醒阈值;若语音信号的唤醒概率大于目标唤醒阈值,则唤醒智能设备,提高了智能设备的唤醒率且降低了误唤醒率,从而提高了用户体验。
附图说明
图1为本发明实施例提供的一种智能设备的唤醒方法的流程示意图;
图2为本发明实施例提供的一种阈值模型的训练方法的流程示意图;
图3为本发明实施例提供的一种智能设备的唤醒装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供的智能设备的唤醒方法可以应用在控制器中,该控制器可以位于智能设备中,也可以位于服务器中。
若该控制器位于服务器中,且在执行本发明实施例提供的智能设备的唤醒方法时,需要智能设备将采集的语音信号,如唤醒语音信号、非唤醒语音信号等发送至服务器,以使服务器获取智能设备采集的语音信号,服务器依照本发明实施例提供的智能设备的唤醒方法对获取的语音信号进行处理之后,向智能设备发送控制指令,以指示智能设备执行相应操作,如唤醒智能设备的操作或不唤醒智能设备的操作。
其中,智能设备可以是具有语音采集装置的智能音箱、智能机器人等,还可以是具有语音采集装置的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)、移动终端(Mobile Terminal)等。服务器可以是与智能设备通信的应用服务器或云服务器。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1为本发明实施例提供的一种智能设备的唤醒方法的流程示意图。如图1所示,该方法可以包括:
步骤110、获取智能设备采集的语音信号。
语音信号可以是包含唤醒词的唤醒语音信号或不包含唤醒词的非唤醒语音信号。其中,唤醒词可以为两音节或四音节的词汇,如“小豹小豹”,唤醒词可以根据实际需要自定义设定,本发明实施例在此不作限定。
若控制器位于智能设备中,则控制器可以控制智能设备的语音采集装置采集语音信号,以获取到智能设备周围环境中的声音信号。
若控制器位于服务器中,则控制器接收智能设备上传的语音信号,该语音信号是智能设备通过语音采集装置采集的智能设备周围环境中的声音信号。
步骤120、确定语音信号中包含唤醒词的唤醒概率。
其中,唤醒概率是指语音信号中包含唤醒词的概率。
控制器可以利用唤醒模型,计算出语音信号包含唤醒词的唤醒概率。
本发明实施例中,该唤醒模型可以是声学模型(Acoustic Model,AM),唤醒概率可以是声学模型输出的声学得分。
具体的,控制器可以采用预设分帧算法,如25ms为一帧,10ms为帧移的分帧算法,对获取的语音信号进行分帧,并对分帧后的每一帧语音信号进行声学特征提取,得到每一帧语音信号的声学特征向量,由此获取到该语音信号对应的声学特征向量序列。之后,利用声学模型,计算声学特征向量序列对应的声学得分,即包含唤醒词的唤醒概率。
步骤130、获取语音信号的目标特征信息,输入至预先训练的阈值模型,确定目标特征信息对应的目标唤醒阈值。
控制器可以获取语音信号的目标特征信息,其中,语音信号的目标特征信息可以包括但不限定于以下信息中的至少一种:
语音信号中唤醒词对应的第一语音片段之前的预设长度的第二语音片段的目标特征信息、语音信号中唤醒词对应的第一语音片段的目标特征信息,以及表征第一语音片段的目标特征信息与第二语音片段的目标特征信息的差异的信息。
其中,预设长度可以是预设时长,该预设长度可以是100ms至1s内的任意时长,如500ms的时长,也可以是预设的连续帧数,如连续20帧。可以理解的是,预设长度的具体值可以根据实际情况自定义设定,本发明实施例在此不作限定。
本发明实施例中,第一语音片段的目标特征信息可以包括:第一语音片段的声能量和第一语音片段的唤醒概率中的至少一种。
本发明实施例中,第二语音片段的目标特征信息可以包括:第二语音片段的声能量、第二语音片段中静音帧的比例和第二语音片段的唤醒概率中的至少一种。
其中,声能量表示语音片段中声音振幅的变化趋势。
静音帧的比例可以是指第二语音片段中静音帧的数量与第二语音片段的总帧数的比例,或者可以是指第二语音片段中静音帧的数量与语音信号的总帧数的比例。
表征第一语音片段的目标特征信息与第二语音片段的目标特征信息的差异的信息可以包括第一语音片段的唤醒概率与第二语音片段的唤醒概率的差异值,例如,第一语音片段的唤醒概率与第二语音片段的唤醒概率的差值。
进一步的,获取到语音信号的目标特征信息后,将其输入至预先训练的阈值模型,根据阈值模型的输出,确定目标特征信息对应的目标唤醒阈值。
本发明实施例中,阈值模型可以直接输出目标特征信息对应的目标唤醒阈值;或者,阈值模型可以输出目标唤醒阈值的类别标签,并根据该类别标签,确定目标特征信息对应的目标唤醒阈值。
其中,类别标签是指区分阈值模型中各唤醒阈值所属类别的标识。例如,阈值模型存在3个唤醒阈值,分别为0.8、0.5、0.3。唤醒阈值0.8的类别标签可以为大阈值类别,唤醒阈值0.5的类别标签可以为中阈值类别,唤醒阈值0.6的类别标签可以为小阈值类别。
步骤140、根据语音信号的唤醒概率与目标唤醒阈值,确定是否唤醒智能设备。
具体实施中,将语音信号的唤醒概率与目标唤醒阈值进行比较;
若语音信号的唤醒概率不大于目标唤醒阈值,则结束本次唤醒流程,返回执行步骤110;
若语音信号的唤醒概率大于目标唤醒阈值,则唤醒智能设备。
具体的,在语音信号的唤醒概率大于目标唤醒阈值的情况下:
若控制器位于智能设备中,则控制器执行语音唤醒操作,唤醒智能设备。
若控制器位于服务器中,则控制器向智能设备发送唤醒控制指示,以指示智能设备执行语音唤醒操作,唤醒智能设备。
基于上述任一实施例,在一种可能的实施方式中,
在执行步骤130之前,控制器可以将唤醒概率与预设阈值进行比较,为了合理利用资源,可以设置该预设阈值小于预先训练的阈值模型对应的任一唤醒阈值;
若唤醒概率不大于预设阈值,表明该语音信号的唤醒概率较低,即该语音信号中包括唤醒词的概率较低,无需进行后续处理,则结束本次唤醒流程,返回执行步骤110,从而减少了资源的使用率;
若唤醒概率大于预设阈值,表明获取的语音信号可能包含唤醒词,可能会唤醒智能设备,则执行获取语音信号的目标特征信息的步骤。
基于上述任一实施例,在一种可能的实施方式中,如图2所示,阈值模型的训练方法可以包括如下步骤:
步骤210、获取包含唤醒词的语音训练样本。
步骤220、确定各语音训练样本的目标特征信息、以及语音训练样本对应的训练标签。
可以获取各语音训练样本的目标特征信息,并获取各语音训练样本的对应的训练标签,该目标特征信息可以包括声能量、唤醒概率、静音帧比例等特征信息。
步骤230、根据语音训练样本的目标特征信息和语音训练样本对应的训练标签,对神经网络模型进行训练,得到阈值模型。
将语音训练样本的目标特征信息和语音训练样本对应的训练标签作为训练样本,对神经网络模型进行训练,得到阈值模型。
需要说明的是,在本发明实施例中,训练得到的阈值模型可以存储在智能设备中,也可以存储在服务器中,具体可根据实际情况进行设定,本发明实施例在此不做限定。
若阈值模型存储在服务器中,可以节省智能设备的内存。
若阈值模型存储在智能设备中,这样若控制器位于智能设备中,则智能设备可以直接利用自身存储的唤醒模型,识别语音信号的目标唤醒阈值,从而确定是否唤醒智能设备,缩短了唤醒过程的响应时间。
由于现有的唤醒阈值是固定值,且唤醒阈值越低,唤醒智能设备的成功率越高,误唤醒率也越高;唤醒阈值越高,唤醒智能设备的成功率越低,误唤醒率也越低,但本发明上述实施例可以获取唤醒语音信号的目标特征信息对应的目标唤醒阈值,且唤醒语音信号的目标唤醒阈值既能使该唤醒语音信号唤醒智能设备,又能降低非唤醒语音信号集上的误唤醒率,由此提高了语音唤醒智能设备的唤醒性能。
在一种可能的实施方式中,步骤210中获取包含唤醒词的语音训练样本具体步骤可以包括:
首先,获取语音样本集合,该语音样本集合可以包括:包含唤醒词的唤醒语音信号和不包含唤醒词的非唤醒语音信号;
以及,利用唤醒模型,分别计算出每段唤醒语音信号的唤醒概率(记为第一唤醒概率)和每段非唤醒语音信号的唤醒概率(记为第二唤醒概率);并针对每段唤醒语音信号,可以分别获取唤醒语音信号的第一唤醒概率与设置的预设数量的唤醒阈值中每个唤醒阈值的第一比较结果,以及针对每段非唤醒语音信号,分别获取非唤醒语音信号的第二唤醒概率与每个唤醒阈值的第二比较结果。
举例说明,为了便于描述,以唤醒阈值包含3个,语音样本集合中包含3个唤醒语音信号和2个非唤醒语音信号为例进行说明,但并非对唤醒阈值的数量以及语音样本集合中包含的样本数量进行限定,本发明实施例中对唤醒阈值的数量不做限定,对于语音样本集合中包含的样本数量也不做限定。
其中,唤醒阈值的数量过多会增加计算量,但可以提高步骤230中阈值模型的准确率,如不同语音信号中每种语音信号的特征信息对应一个唤醒阈值;唤醒阈值的数量过少,虽然会降低计算量,但同时也会降低步骤230中阈值模型的准确率,如不同语音信号中可能多个语音信号的特征信息对应一个唤醒阈值。可以根据不同场景,设置相应场景对应的预设阈值数量范围,如较安静的场景对应的预设阈值数量范围可以为3-5个唤醒阈值;较嘈杂的场景对应的预设阈值数量范围可以为4-9个唤醒阈值,作为一种可能的实现方式,本发明实施例的唤醒阈值为5个。
另外,语音样本集合中唤醒语音信号的数量和非唤醒语音信号的数量间无比例关联。例如,语音样本集合可以包括1万个包含唤醒词的唤醒语音信号和2400小时内5000个不包含唤醒词的非唤醒语音信号。
3个唤醒阈值分别为0.8、0.5、0.3,且相应唤醒阈值的类别标签分别为大阈值类、中阈值类和小阈值类;由于语音样本集合中包含了3个唤醒语音信号和2个非唤醒语音信号,此时,可以获取到3个唤醒语音信号的第一唤醒概率分别与3个唤醒阈值的比较结果(记为第一比较结果),则可以得到9个第一比较结果,以及2个非唤醒语音信号的第二唤醒概率分别与这3个唤醒阈值的比较结果(记为第一比较结果),则可以得到6个第二比较结果。其中,3个唤醒语音信号中包含唤醒词的唤醒概率(记为第一唤醒概率)分别为M1、M2和M3,2个非唤醒语音信号中包含唤醒词的唤醒概率(记为第二唤醒概率)分别为M1’和M2’;
那么,9个第一比较结果包括:
M1分别与这3个唤醒阈值的3个第一比较结果;
M2分别与这3个唤醒阈值的3个第一比较结果;
M3分别与这3个唤醒阈值的3个第一比较结果。
6个第二比较结果包括:
M1’分别与这3个唤醒阈值的3个第二比较结果;
M2’分别与这3个唤醒阈值的3个第二比较结果。
然后,将大于任一唤醒阈值的第一比较结果确定为目标第一比较结果,将目标第一比较结果对应的唤醒语音信号确定为候选训练样本,并将任一唤醒阈值确定为候选训练样本的候选唤醒阈值。可以理解的是,确定的候选训练样本和候选唤醒阈值可以保证唤醒智能设备的成功率。
进一步的,从第二比较结果中,选择候选唤醒阈值对应的目标第二比较结果,也就是说,将第二比较结果中包含候选唤醒阈值的比较结果确定为目标第二比较结果,如M1’与候选唤醒阈值的目标第二比较结果,M2’与候选唤醒阈值的目标第二比较结果;
若目标第二比较结果对应的非唤醒语音信号满足预设条件,则将候选唤醒阈值确定为候选训练样本的目标唤醒阈值。
其中,预设条件可以是目标第二比较结果中第二唤醒概率大于候选唤醒阈值的次数与目标第二比较结果对应的非唤醒语音信号的总时长的比值,小于预设门限值,也就是说,非唤醒语音信号的误唤醒次数与非唤醒语音信号的总时长相比值得到的误唤醒率小于预设门限值,如误唤醒率小于0.1次/小时;预设条件也可以是目标第二比较结果中第二唤醒概率大于候选唤醒阈值的次数,小于预设次数阈值。
最后,可以从候选训练样本中选取语音训练样本;以及,对语音训练样本对应的目标唤醒阈值设置相应的类别标签,并将目标唤醒阈值的类别标签确定为相应语音训练样本对应的训练标签。
在一个可能的实施方式中,从候选训练样本中选取语音训练样本的方式可以包括:
方式一,将候选训练样本全部作为语音训练样本,以用于训练阈值模型。
方式二,按照预设比例,将候选训练样本分为语音训练样本和语音测试样本。例如,按照7:3的预设比例,将候选训练样本的70%确定为语音训练样本,并将候选训练样本的30%确定为语音测试样本。其中,语音训练样本用于训练阈值模型,语音测试样本用于对语音训练样本训练出的阈值模型进行测试,以提高阈值模型的准确性。
其中,可以根据目标唤醒阈值的大小情况和数量,设置相应类别标签,例如,存在3个目标唤醒阈值,分别为0.8、0.5、0.3,此时可以按照目标唤醒阈值大小,设置大阈值、中阈值、小阈值三个类别标签。
基于上述任一实施例,在一个可能的实施方式中,预设数量的唤醒阈值可以是在[0,1]区间内随机选取的;或者,预设数量的唤醒阈值可以是根据预设的选取规则在[0,1]区间内进行选取的。
其中,每个唤醒阈值的值域范围与唤醒概率的值域范围相同,即均在[0,1]区间内。对于预设数量的唤醒阈值的选取方式可以包括以下方式中的一种:
方式一,在[0,1]区间中按照不同的数据间隔、相同的数据间隔或随机选取的方式,选取预设数量的唤醒阈值。
方式二,将[0,1]区间划分为预设数量的子区间,如划分为[0,0.5)区间和[0.5,1]区间两个子区间,并在每个子区间按照不同的数据间隔、相同的数据间隔或随机选取的方式,选取预设数量的唤醒阈值。其中,该预设数量可以为至少两个。
该方式中,划分子区间时任意两个子区间的范围可以相同,也可以不同。例如,划分为两个子区间时,可以划分为[0,0.5)和[0.5,1]两个子区间,也可以划分为[0,0.3)和[0.3,1]两个子区间。具体实施中,可以根据实际场景确定每个子区间的范围。
方式三,将[0,1]区间划分为与唤醒阈值数量相同的预设数量个子区间,并在每个子区间按照预设的数据位置选取一个唤醒阈值或随机选取一个唤醒阈值。
该方式中,划分子区间时任意两个子区间的范围可以相同,也可以不同。例如,唤醒阈值数量为4个,可以划分为[0,0.25)、[0.25,0.5)、[0.5,0.75)和[0.75,1]四个子区间,也可以划分为[0,0.2)、[0.2,0.45)、[0.45,0.9)和[0.9,1]四个子区间。具体实施中,可以根据实际场景需要确定每个子区间的范围。
在本发明实施例中,对于选取预设数量的唤醒阈值的具体方式,可以根据实际情况进行,本发明实施例在此不作限定。
本发明实施例提供的智能设备的唤醒方法通过获取智能设备采集的语音信号,确定语音信号中包含唤醒词的唤醒概率;获取语音信号的目标特征信息,输入至预先训练的阈值模型,确定目标特征信息对应的目标唤醒阈值;若语音信号的唤醒概率大于目标唤醒阈值,则唤醒智能设备,提高了智能设备的唤醒率且降低了误唤醒率,从而提高了用户体验。
与上述方法对应的,本发明实施例还提供一种智能设备的唤醒装置,如图4所示,该智能设备的唤醒装置包括:获取单元310、确定算单元320和唤醒单元330;
获取单元310,用于获取智能设备采集的语音信号;
确定单元320,用于确定所述语音信号中包含唤醒词的唤醒概率;
以及,获取所述语音信号的目标特征信息,输入至预先训练的阈值模型,确定所述目标特征信息对应的目标唤醒阈值;
唤醒单元330,用于若所述语音信号的唤醒概率大于所述目标唤醒阈值,则唤醒所述智能设备。
在一个可选的实现中,所述装置还包括比较单元340和触发单元350;
比较单元340,用于将所述唤醒概率与预设阈值进行比较,所述预设阈值小于所述阈值模型对应的任一唤醒阈值;
触发单元350,用于若所述唤醒概率大于所述预设阈值,则触发所述获取单元执行获取所述语音信号的目标特征信息的步骤。
在一个可选的实现中,所述语音信号的目标特征信息包括以下信息中的至少一种:
所述语音信号中所述唤醒词对应的第一语音片段之前的预设长度的第二语音片段的目标特征信息;
所述语音信号中所述唤醒词对应的第一语音片段的目标特征信息;
表征所述第一语音片段的目标特征信息与所述第二语音片段的目标特征信息的差异的信息。
在一个可选的实现中,所述第一语音片段的目标特征信息包括:所述第一语音片段的声能量和所述第一语音片段的唤醒概率中的至少一种;
和/或
所述第二语音片段的目标特征信息包括:所述第二语音片段的声能量、所述第二语音片段中静音帧的比例和所述第二语音片段的唤醒概率中的至少一种。
在一个可选的实现中,所述装置还包括训练单元360;
获取单元310,还用于获取包含唤醒词的语音训练样本;
确定单元320,还用于确定各所述语音训练样本的目标特征信息、以及所述语音训练样本对应的训练标签;
训练单元360,用于根据所述语音训练样本的目标特征信息和所述语音训练样本对应的训练标签,对神经网络模型进行训练,得到所述阈值模型。
在一个可选的实现中,获取单元310,具体用于获取语音样本集合,所述语音样本集合包括:包含唤醒词的唤醒语音信号和不包含所述唤醒词的非唤醒语音信号;
分别计算每段唤醒语音信号的第一唤醒概率和每段非唤醒语音信号的第二唤醒概率;
针对每段唤醒语音信号,分别获取所述唤醒语音信号的第一唤醒概率与每个唤醒阈值的第一比较结果,以及针对每段非唤醒语音信号,分别获取所述非唤醒语音信号的第二唤醒概率与每个唤醒阈值的第二比较结果;
将大于任一唤醒阈值的第一比较结果确定为目标第一比较结果,将所述目标第一比较结果对应的唤醒语音信号确定为候选训练样本,并将所述任一唤醒阈值确定为所述候选训练样本的候选唤醒阈值;
从所述第二比较结果中,选择所述候选唤醒阈值对应的目标第二比较结果;
若所述目标第二比较结果对应的非唤醒语音信号满足预设条件,则将所述候选唤醒阈值确定为所述候选训练样本的目标唤醒阈值;
将所述候选训练样本确定为语音训练样本,并将所述目标唤醒阈值的类别标签确定为训练标签。
在一个可选的实现中,所述预设条件为:
所述目标第二比较结果中所述第二唤醒概率大于所述候选唤醒阈值的次数与所述目标第二比较结果对应的非唤醒语音信号的总时长的比值,小于预设门限值。
本发明上述实施例提供的智能设备的唤醒装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的智能设备的唤醒装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器410、通信接口420、存储器430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。
存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现如下步骤:
获取智能设备采集的语音信号;
确定所述语音信号中包含唤醒词的唤醒概率;
获取所述语音信号的目标特征信息,输入至预先训练的阈值模型,确定所述目标特征信息对应的目标唤醒阈值;
若所述语音信号的唤醒概率大于所述目标唤醒阈值,则唤醒所述智能设备。
在一个可选的实现中,确定所述目标特征信息对应的目标唤醒阈值之前,所述方法还包括:
将所述唤醒概率与预设阈值进行比较,所述预设阈值小于所述阈值模型对应的任一唤醒阈值;
若所述唤醒概率大于所述预设阈值,则执行获取所述语音信号的目标特征信息的步骤。
在一个可选的实现中,所述语音信号的目标特征信息包括以下信息中的至少一种:
所述语音信号中所述唤醒词对应的第一语音片段之前的预设长度的第二语音片段的目标特征信息;
所述语音信号中所述唤醒词对应的第一语音片段的目标特征信息;
表征所述第一语音片段的目标特征信息与所述第二语音片段的目标特征信息的差异的信息。
在一个可选的实现中,所述第一语音片段的目标特征信息包括:所述第一语音片段的声能量和所述第一语音片段的唤醒概率中的至少一种;
和/或
所述第二语音片段的目标特征信息包括:所述第二语音片段的声能量、所述第二语音片段中静音帧的比例和所述第二语音片段的唤醒概率中的至少一种。
在一个可选的实现中,所述阈值模型的训练过程包括:
获取包含唤醒词的语音训练样本;
确定各所述语音训练样本的目标特征信息、以及所述语音训练样本对应的训练标签;
根据所述语音训练样本的目标特征信息和所述语音训练样本对应的训练标签,对神经网络模型进行训练,得到所述阈值模型。
在一个可选的实现中,获取包含唤醒词的语音训练样本,包括:
获取语音样本集合,所述语音样本集合包括:包含唤醒词的唤醒语音信号和不包含所述唤醒词的非唤醒语音信号;
分别计算每段唤醒语音信号的第一唤醒概率和每段非唤醒语音信号的第二唤醒概率;
针对每段唤醒语音信号,分别获取所述唤醒语音信号的第一唤醒概率与每个唤醒阈值的第一比较结果,以及针对每段非唤醒语音信号,分别获取所述非唤醒语音信号的第二唤醒概率与每个唤醒阈值的第二比较结果;
将大于任一唤醒阈值的第一比较结果确定为目标第一比较结果,将所述目标第一比较结果对应的唤醒语音信号确定为候选训练样本,并将所述任一唤醒阈值确定为所述候选训练样本的候选唤醒阈值;
从所述第二比较结果中,选择所述候选唤醒阈值对应的目标第二比较结果;
若所述目标第二比较结果对应的非唤醒语音信号满足预设条件,则将所述候选唤醒阈值确定为所述候选训练样本的目标唤醒阈值;
将所述候选训练样本确定为语音训练样本,并将所述目标唤醒阈值的类别标签确定为训练标签。
在一个可选的实现中,所述预设条件为:
所述目标第二比较结果中所述第二唤醒概率大于所述候选唤醒阈值的次数与所述目标第二比较结果对应的非唤醒语音信号的总时长的比值,小于预设门限值。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的智能设备的唤醒方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的智能设备的唤醒方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、***、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。
Claims (10)
1.一种智能设备的唤醒方法,其特征在于,所述方法包括:
获取智能设备采集的语音信号;
确定所述语音信号中包含唤醒词的唤醒概率;
获取所述语音信号的目标特征信息,输入至预先训练的阈值模型,确定所述目标特征信息对应的目标唤醒阈值;
若所述语音信号的唤醒概率大于所述目标唤醒阈值,则唤醒所述智能设备。
2.如权利要求1所述的方法,其特征在于,确定所述目标特征信息对应的目标唤醒阈值之前,所述方法还包括:
将所述唤醒概率与预设阈值进行比较,所述预设阈值小于所述阈值模型对应的任一唤醒阈值;
若所述唤醒概率大于所述预设阈值,则执行获取所述语音信号的目标特征信息的步骤。
3.如权利要求1所述的方法,其特征在于,所述语音信号的目标特征信息包括以下信息中的至少一种:
所述语音信号中所述唤醒词对应的第一语音片段之前的预设长度的第二语音片段的目标特征信息;
所述语音信号中所述唤醒词对应的第一语音片段的目标特征信息;
表征所述第一语音片段的目标特征信息与所述第二语音片段的目标特征信息的差异的信息。
4.如权利要求3所述的方法,其特征在于,所述第一语音片段的目标特征信息包括:所述第一语音片段的声能量和所述第一语音片段的唤醒概率中的至少一种;
和/或
所述第二语音片段的目标特征信息包括:所述第二语音片段的声能量、所述第二语音片段中静音帧的比例和所述第二语音片段的唤醒概率中的至少一种。
5.如权利要求1-4任一项所述的方法,其特征在于,所述阈值模型的训练过程包括:
获取包含唤醒词的语音训练样本;
确定各所述语音训练样本的目标特征信息、以及所述语音训练样本对应的训练标签;
根据所述语音训练样本的目标特征信息和所述语音训练样本对应的训练标签,对神经网络模型进行训练,得到所述阈值模型。
6.如权利要求5所述的方法,其特征在于,获取包含唤醒词的语音训练样本,包括:
获取语音样本集合,所述语音样本集合包括:包含唤醒词的唤醒语音信号和不包含所述唤醒词的非唤醒语音信号;
分别计算每段唤醒语音信号的第一唤醒概率和每段非唤醒语音信号的第二唤醒概率;
针对每段唤醒语音信号,分别获取所述唤醒语音信号的第一唤醒概率与每个唤醒阈值的第一比较结果,以及针对每段非唤醒语音信号,分别获取所述非唤醒语音信号的第二唤醒概率与每个唤醒阈值的第二比较结果;
将大于任一唤醒阈值的第一比较结果确定为目标第一比较结果,将所述目标第一比较结果对应的唤醒语音信号确定为候选训练样本,并将所述任一唤醒阈值确定为所述候选训练样本的候选唤醒阈值;
从所述第二比较结果中,选择所述候选唤醒阈值对应的目标第二比较结果;
若所述目标第二比较结果对应的非唤醒语音信号满足预设条件,则将所述候选唤醒阈值确定为所述候选训练样本的目标唤醒阈值;
将所述候选训练样本确定为语音训练样本,并将所述目标唤醒阈值的类别标签确定为训练标签。
7.如权利要求6所述的方法,其特征在于,所述预设条件为:
所述目标第二比较结果中所述第二唤醒概率大于所述候选唤醒阈值的次数与所述目标第二比较结果对应的非唤醒语音信号的总时长的比值,小于预设门限值。
8.一种智能设备的唤醒装置,其特征在于,所述装置包括:获取单元、确定单元和唤醒单元;
所述获取单元,用于获取智能设备采集的语音信号;
所述确定单元,用于确定所述语音信号中包含唤醒词的唤醒概率;
以及,获取所述语音信号的目标特征信息,输入至预先训练的阈值模型,确定所述目标特征信息对应的目标唤醒阈值;
所述唤醒单元,用于若所述语音信号的唤醒概率大于所述目标唤醒阈值,则唤醒所述智能设备。
9.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345765.4A CN111554288A (zh) | 2020-04-27 | 2020-04-27 | 智能设备的唤醒方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345765.4A CN111554288A (zh) | 2020-04-27 | 2020-04-27 | 智能设备的唤醒方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111554288A true CN111554288A (zh) | 2020-08-18 |
Family
ID=72004099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010345765.4A Pending CN111554288A (zh) | 2020-04-27 | 2020-04-27 | 智能设备的唤醒方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554288A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294983A (zh) * | 2022-09-28 | 2022-11-04 | 科大讯飞股份有限公司 | 一种自主移动设备唤醒方法、***及基站 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及*** |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制***及其唤醒方法、唤醒装置和家电、协处理器 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
US20190013021A1 (en) * | 2017-07-05 | 2019-01-10 | Baidu Online Network Technology (Beijing) Co., Ltd | Voice wakeup method, apparatus and system, cloud server and readable medium |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
CN110491394A (zh) * | 2019-09-12 | 2019-11-22 | 北京百度网讯科技有限公司 | 唤醒语料的获取方法和装置 |
US10510340B1 (en) * | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
-
2020
- 2020-04-27 CN CN202010345765.4A patent/CN111554288A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及*** |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制***及其唤醒方法、唤醒装置和家电、协处理器 |
WO2018059405A1 (zh) * | 2016-09-29 | 2018-04-05 | 合肥华凌股份有限公司 | 语音控制***及其唤醒方法、唤醒装置和家电、协处理器 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
US20180336886A1 (en) * | 2017-05-16 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
US20190013021A1 (en) * | 2017-07-05 | 2019-01-10 | Baidu Online Network Technology (Beijing) Co., Ltd | Voice wakeup method, apparatus and system, cloud server and readable medium |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US10510340B1 (en) * | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
CN110491394A (zh) * | 2019-09-12 | 2019-11-22 | 北京百度网讯科技有限公司 | 唤醒语料的获取方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294983A (zh) * | 2022-09-28 | 2022-11-04 | 科大讯飞股份有限公司 | 一种自主移动设备唤醒方法、***及基站 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782536B (zh) | 一种语音唤醒方法及装置 | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
CN111599371B (zh) | 语音增加方法、***、装置及存储介质 | |
CN111091813B (zh) | 语音唤醒模型更新及唤醒方法、***、装置、设备及介质 | |
WO2021082572A1 (zh) | 一种唤醒模型生成方法、智能终端唤醒方法及装置 | |
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
CN105190746A (zh) | 用于检测目标关键词的方法和设备 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN112562742B (zh) | 语音处理方法和装置 | |
CN109360551B (zh) | 一种语音识别方法及装置 | |
CN110570840A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN109003607B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN111063356B (zh) | 电子设备响应方法及***、音箱和计算机可读存储介质 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN112185382B (zh) | 一种唤醒模型的生成和更新方法、装置、设备及介质 | |
CN111192590A (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN112185425A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN111554288A (zh) | 智能设备的唤醒方法、装置、电子设备及介质 | |
CN113205809A (zh) | 语音唤醒方法和装置 | |
CN112951219A (zh) | 噪声拒识方法和装置 | |
CN110706691B (zh) | 语音验证方法及装置、电子设备和计算机可读存储介质 | |
CN110610697B (zh) | 一种语音识别方法及装置 | |
CN112289311B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |