CN112509596A - 唤醒控制方法、装置、存储介质及终端 - Google Patents
唤醒控制方法、装置、存储介质及终端 Download PDFInfo
- Publication number
- CN112509596A CN112509596A CN202011303745.7A CN202011303745A CN112509596A CN 112509596 A CN112509596 A CN 112509596A CN 202011303745 A CN202011303745 A CN 202011303745A CN 112509596 A CN112509596 A CN 112509596A
- Authority
- CN
- China
- Prior art keywords
- confidence
- target
- audio data
- signal processing
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 152
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 10
- 238000003672 processing method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本公开涉及一种唤醒控制方法、装置、存储介质及终端,该方法包括:采集多路音频数据;分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;分别获取多个第一目标音频数据的第一置信度,其中,该置信度用于表征该音频数据能够唤醒终端的概率;获取历史时间段内第二目标音频数据的第二置信度,该历史时间段为该目标时间段之前的预设时间段,该第二置信度包括多个第二目标音频数据的置信度;根据该第一置信度和该第二置信度确定是否唤醒该终端。也就是说,可以根据目标时间段的第一置信度和历史时间段的第二置信度确定是否唤醒终端,这样,可以减少终端被误唤醒或漏唤醒的概率,从而可以提高语音识别***的准确率。
Description
技术领域
本公开涉及终端技术领域,尤其涉及一种唤醒控制方法、装置、存储介质及终端。
背景技术
随着科技的发展,越来越多的智能设备逐渐走进用户的生活,在智能设备中,语音控制、语音输入以及语音启动等应用变得越来越受欢迎。智能设备通过搭载语音识别***,可以实时采集用户的语音数据,并根据该语音数据执行用户发送的控制指令,与用户进行交互。
但是,在现实环境中,由于噪声的干扰,根据实时语音数据响应用户的控制指令时,出现错误识别的概率比较高,使得现行的语音识别***的准确率较低。
发明内容
为克服相关技术中存在的问题,本公开提供一种唤醒控制方法、装置、存储介质及终端。
根据本公开实施例的第一方面,提供一种唤醒控制方法,所述方法包括:采集多路音频数据;分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;分别获取多个所述第一目标音频数据的第一置信度,其中,所述置信度用于表征所述音频数据能够唤醒终端的概率;获取历史时间段内第二目标音频数据的第二置信度,所述历史时间段为所述目标时间段之前的预设时间段,所述第二置信度包括多个所述第二目标音频数据的置信度;根据所述第一置信度和所述第二置信度确定是否唤醒所述终端。
可选地,所述分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据包括:选取所述终端的麦克风阵列的一个麦克风作为参考通道;获取所述参考通道在所述目标时间段采集的参考音频数据;根据所述参考音频数据,通过多个信号处理方式分别对每路所述第一音频数据进行信号处理,得到多个所述第一目标音频数据,不同路的第一音频数据的信号处理方式不同。
可选地,所述分别获取多个所述第一目标音频数据的第一置信度包括:针对多个所述第一目标音频数据中的每个所述第一目标音频数据,确定该第一目标音频数据对应的信号处理方式;根据该信号处理方式确定该第一目标音频数据对应的目标解码器,其中,不同的信号处理方式对应不同的解码器;将该第一目标音频数据输入所述目标解码器进行解码处理,得到该第一目标音频数据的第一置信度。
可选地,所述根据该信号处理方式确定该第一目标音频数据对应的目标解码器包括:通过预先设置的解码器关联关系,从多个所述解码器中确定该信号处理方式对应的解码器,所述解码器关联关系包括不同的信号处理方式和所述解码器的对应关系;将该信号处理方式对应的解码器作为所述目标解码器。
可选地,所述根据所述第一置信度和所述第二置信度确定是否唤醒所述终端包括:在每获取到一个所述目标解码器输出的所述第一置信度的情况下,根据所述目标解码器输出的第一目标置信度执行以下唤醒处理方式,直至唤醒所述终端,或者,根据多个所述目标解码器输出的所述第一置信度均执行了所述唤醒处理方式;所述唤醒处理方式包括:根据所述第二置信度和所述目标解码器输出的第一置信度确定是否唤醒所述终端。
可选地,所述根据所述第一置信度和所述第二置信度确定是否唤醒所述终端包括:从所述第二置信度中确定目标置信度,所述目标置信度和所述第一置信度是通过相同解码器解码得到的置信度;根据所述目标置信度和第三置信度,获取所述第一置信度对应的权重值,所述第三置信度包括所述第二置信度中除所述目标置信度之外的其他置信度;根据所述权重值和所述第一置信度,确定最终置信度;根据所述最终置信度确定是否唤醒所述终端。
可选地,所述根据所述目标置信度和第三置信度,获取所述第一置信度对应的权重值包括:获取所述目标置信度和所述第三置信度之间的置信度差值;根据所述置信度差值以及预设的对应关系,获取所述第一置信度对应的权重值。
可选地,所述根据所述最终置信度确定是否唤醒所述终端包括:在所述最终置信度大于或等于预设置信度阈值的情况下,确定唤醒所述终端。
可选地,所述信号处理方式包括盲源分离或噪声抑制。
根据本公开实施例的第二方面,提供一种唤醒控制装置,所述装置包括:数据采集模块,被配置为采集多路音频数据;信号处理模块,被配置为分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;第一置信度获取模块,被配置为分别获取多个所述第一目标音频数据的第一置信度,其中,所述置信度用于表征所述音频数据能够唤醒终端的概率;第二置信度获取模块,被配置为获取历史时间段内第二目标音频数据的第二置信度,所述历史时间段为所述目标时间段之前的预设时间段,所述第二置信度包括多个所述第二目标音频数据的置信度;唤醒模块,被配置为根据所述第一置信度和所述第二置信度确定是否唤醒所述终端。
可选地,所述信号处理模块包括:通道选取子模块,被配置为选取所述终端的麦克风阵列的一个麦克风作为参考通道;参考数据获取子模块,被配置为获取所述参考通道在所述目标时间段采集的参考音频数据;信号处理子模块,被配置为根据所述参考音频数据,通过多个所述信号处理方式分别对每路所述第一音频数据进行信号处理,得到多个所述第一目标音频数据,其中,不同路的第一音频数据的信号处理方式不同。
可选地,所述第一置信度获取模块包括:处理方式确定子模块,被配置为针对多个所述第一目标音频数据中的每个所述第一目标音频数据,确定该第一目标音频数据对应的信号处理方式;解码器确定子模块,被配置为根据该信号处理方式确定该第一目标音频数据对应的目标解码器,其中,不同的信号处理方式对应不同的解码器;置信度确定子模块,被配置为将该第一目标音频数据输入所述目标解码器进行解码处理,得到该第一目标音频数据的第一置信度。
可选地,所述解码器确定子模块,被配置为:通过预先设置的解码器关联关系,从多个所述解码器中确定该信号处理方式对应的解码器,所述解码器关联关系包括不同的信号处理方式和所述解码器的对应关系;将所述信号处理方式对应的解码器作为所述目标解码器。
可选地,所述唤醒模块包括:唤醒处理子模块,被配置为在每获取到一个所述目标解码器输出的所述第一置信度的情况下,根据所述目标解码器输出的第一目标置信度执行以下唤醒处理方式,直至唤醒所述终端,或者,根据多个所述目标解码器输出的所述第一置信度均执行了所述唤醒处理方式;所述唤醒处理方式包括:根据所述第二置信度和所述目标解码器输出的第一置信度确定是否唤醒所述终端。
可选地,所述唤醒模块包括:目标置信度确定子模块,被配置为从所述第二置信度中确定目标置信度,所述目标置信度和所述第一置信度是通过相同解码器解码得到的置信度;权重值确定子模块,被配置为根据所述目标置信度和第三置信度,获取所述第一置信度对应的权重值,所述第三置信度包括所述第二置信度中除所述目标置信度之外的其他置信度;最终置信度获取子模块,被配置为根据所述权重值和所述第一置信度,获取最终置信度;唤醒子模块,被配置为根据所述最终置信度确定是否唤醒所述终端。
可选地,所述权重值确定子模块,还被配置为:获取所述目标置信度和所述第三置信度之间的置信度差值;根据所述置信度差值以及预设的对应关系,获取所述第一置信度对应的权重值。
可选地,所述唤醒处理子模块,还被配置为:在所述最终置信度大于或等于预设置信度阈值的情况下,确定唤醒所述终端。
可选地,所述信号处理方式包括盲源分离或噪声抑制。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的唤醒控制方法的步骤。
根据本公开实施例的第四方面,提供一种终端,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的唤醒控制方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过采集多路音频数据;分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;分别获取多个所述第一目标音频数据的第一置信度,其中,所述置信度用于表征所述音频数据能够唤醒终端的概率;获取历史时间段内第二目标音频数据的第二置信度,所述历史时间段为所述目标时间段之前的预设时间段,所述第二置信度包括多个所述第二目标音频数据的置信度;根据所述第一置信度和所述第二置信度确定是否唤醒所述终端。也就是说,本公开可以根据目标时间段的第一置信度和历史时间段的第二置信度确定是否唤醒终端,这样,可以减少终端被误唤醒或漏唤醒的概率,从而可以提高语音识别***的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种唤醒控制方法的流程图;
图2是根据一示例性实施例示出的一种终端的结构示意图;
图3是根据一示例性实施例示出的另一种唤醒控制方法的流程图;
图4是根据一示例性实施例示出的一种唤醒控制装置的结构示意图;
图5是根据一示例性实施例示出的一种终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先,对本公开的应用场景进行介绍。本公开可以应用于具有语音识别功能的终端,在现实环境中,由于环境噪声对语音识别***的影响,终端被误唤醒或漏唤醒的概率较高。考虑到单一麦克风无法有效地处理噪声,尤其是频率响应随时间而改变的噪声,例如音乐,相关技术中,为了满足不同的噪声场景,例如背景人声、洗衣机、电视机等,可以在终端中采用麦克风阵列,并通过多个解码器进行预测,确定是否唤醒该终端。
但是,通过多个解码器进行预测时,只要任一解码器输出的预测结果是唤醒终端,则确定对该终端进行唤醒。在这种情况下,如果该解码器预测的准确率较低,则会导致该终端被误唤醒,从而使得该终端的语音识别***的准确率较低,影响用户体验。
为了解决上述问题,本公开提供一种唤醒控制方法、装置、存储介质及终端,通过分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据,并分别获取该多个第一目标音频数据的第一置信度,之后,可以获取历史时间段内第二目标音频数据的第二置信度,并根据该第一置信度和该第二置信度确定是否唤醒该终端。也就是说,本公开可以根据目标时间段的第一置信度和历史时间段的第二置信度确定是否唤醒终端,这样,可以减少终端被误唤醒或漏唤醒的概率,从而可以提高语音识别***的准确率。
下面结合具体实施例对本公开进行说明。
图1是根据一示例性实施例示出的一种唤醒控制方法的流程图,如图1所示,该方法包括:
S101、采集多路音频数据。
需要说明的是,本唤醒控制方法应用于语音交互功能的终端设备,比如,终端设备安装有具有语音交互功能的应用,如语音助手应用,该语音助手应用用于识别用户的语音信息。本公开实施例可以应用于各种终端设备中,该终端设备包括但不限于固定设备和移动设备,例如,所述固定设备包括但不限于:个人电脑(Personal Computer,PC)、电视、空调、壁挂炉等;所述移动设备包括但不限于:手机、平板电脑、可穿戴式设备、音箱、闹钟等,本公开对此不作限定。图2是根据一示例性实施例示出的一种终端的结构示意图,如图2所示,该终端可以包括麦克风阵列、信号处理模块、解码器以及唤醒模块,该麦克风阵列可以包括多个麦克风,该解码器也可以包括多个。该终端可以通过该麦克风阵列实时采集多路音频数据,并将该多路音频数据发送至该信号处理模块,该信号处理模块可以根据对该多路音频数据进行处理,得到处理后的多个目标音频数据,之后,可以通过多个解码器对该多个目标音频数据进行解码处理,得到多个置信度,最后根据该置信度确定是否唤醒该终端。
在本步骤中,在该终端开机启动后,该终端的采集模块可以通过麦克风阵列中的多个麦克风采集多路音频数据,每个麦克风对应一路音频数据。
S102、分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据。
在本步骤中,可以根据终端所使用的环境,预先设置对应的信号处理方式,示例地,针对经常在吵杂环境使用的终端,例如手机,可以设置较多的信号处理方式,针对在比较安静的环境使用的终端,例如空调,可以设置较少的信号处理方式。
在获取到目标时间段内采集的多路第一音频数据后,可以通过该终端预先设置的信号处理方式对该第一音频数据进行信号处理,得到多个第一目标音频数据。
S103、分别获取多个第一目标音频数据的第一置信度。
其中,该置信度用于表征该音频数据能够唤醒终端的概率,该置信度的范围可以是0~100。
在本步骤中,在获取该多个第一目标音频数据后,可以针对每个第一目标音频数据,通过解码器对该第一目标音频数据进行解码处理,得到该第一目标音频数据的第一置信度,最终得到多个第一置信度。
S104、获取历史时间段内第二目标音频数据的第二置信度。
其中,该历史时间段为该目标时间段之前的预设时间段,该历史时间段可以是与该目标时间段属于相同场景的时间段,例如历史时间段和目标时间段都属于语音唤醒场景下采集音频数据的时间段。另外,也可以根据终端的类型设置该预设时间段的时长,也可以根据测试经验值设置该预设时间段的时长,本公开对此不作限定。
该第二置信度可以包括多个第二目标音频数据的置信度,该多个第二目标音频数据为对该第二音频数据进行信号处理后的音频数据。该第二置信度的获取方式可以参考该第一置信度的获取方式,此处不再赘述了。另外,该第二置信度可以存储在该终端中,例如,若该预设时间段为1分钟,则可以存储该目标时间段之前的1分钟的第二目标音频数据的第二置信度。示例地,本公开可以采用队列的方式存储该第二置信度,不同的第二置信度可以对应不同的队列,例如,若该第二置信度包括10个,则可以使用10个队列存储该10个第二置信度。针对每个队列,该队列中队头的第二置信度为最早获取的第二目标音频数据的第二置信度,队尾的第二置信度为最晚获取的第二目标音频数据的第二置信度,在需要存储新的第二置信度时,可以将该队列中队头的第二置信度删除,将该新的第二置信度存储在该队列的队尾。
在本步骤中,在获取该多个第一目标音频数据的第一置信度后,可以获取存储的多个第二置信度。
S105、根据该第一置信度和该第二置信度确定是否唤醒该终端。
在本步骤中,在得到该多个第一目标音频数据的多个第一置信度后,可以根据任意一个第一置信度和该第二置信度确定是否唤醒该终端。考虑到一段时间内的环境噪声的变化较小,为了避免该第一置信度不够准确导致该终端被误唤醒或漏唤醒,可以根据该第二置信度调整该第一置信度。示例地,若得到的该第一置信度比较高,而在该第一置信度对应的第一目标音频数据之前的历史时间段获取的第二目标音频数据的第二置信度比较低,则该第一置信度可能会存在较大误差,这种情况下,可以参考该第二置信度降低该第一置信度,从而可以得到更加准确的第一置信度。
进一步地,在得到调整后的第一置信度后,可以根据该调整后的第一置信度确定是否唤醒该终端,示例地,在该调整后的第一置信度较高的情况下,可以确定唤醒该终端,在该调整后的第一置信度较低的情况下,可以确定不唤醒该终端。
采用上述方法,通过分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据,并分别获取该多个第一目标音频数据的第一置信度,之后,可以获取历史时间段内第二目标音频数据的第二置信度,并根据该第一置信度和该第二置信度确定是否唤醒该终端。也就是说,本公开可以根据目标时间段的第一置信度和历史时间段的第二置信度确定是否唤醒终端,这样,可以减少终端被误唤醒或漏唤醒的概率,从而可以提高语音识别***的准确率。
图3是根据一示例性实施例示出的另一种唤醒控制方法的流程图,如图3所示,该方法包括:
S301、采集多路音频数据。
S302、选取该终端的麦克风阵列的一个麦克风作为参考通道。
需要说明的是,在该终端通过采集模块采集该多路音频数据的同时,该终端可能也在输出音频数据,例如,该终端正在播放音乐、播放视频或者播放铃音等,在这种情况下,该终端采集的多路音频数据中也会包括该终端输出的音频数据。而该终端在进行语音识别时,需要从采集的音频数据中提取用户输入的语音,因此,如图2所示,可以将该终端的麦克风阵列中的一个麦克风作为参考通道,通过该参考通道获取该终端输出的音频数据。
S303、获取该参考通道在该目标时间段采集的参考音频数据。
在本步骤中,该终端在采集该多路音频数据的同时,也可以通过该参考通道实时获取该终端输出的参考音频数据,这样,该终端在获取目标时间段的第一音频数据后,也同步获取到了该目标时间段的参考音频数据。
S304、根据该参考音频数据,通过多个信号处理方式分别对每路该第一音频数据进行信号处理,得到多个该第一目标音频数据。
其中,不同路的第一音频数据的信号处理方式不同,该信号处理方式可以包括盲源分离或噪声抑制。
在本步骤中,在获取到该目标时间段内采集的多路第一音频数据后,可以根据该参考音频数据,通过该终端预先设置的该多个信号处理方式对该多路第一音频数据进行信号处理,滤除该第一音频数据中的噪声,得到该第一音频数据中的语音,即第一目标音频数据。示例地,若该第一音频数据包括两路,该信号处理方式包括盲源分离和噪声抑制两种方式,则可以根据该参考音频数据,分别通过该盲源分离方式和该噪声抑制方式对该两路第一音频数据进行信号处理,得到两个第一目标音频数据。由于同步获取了该终端在该目标时段输出的该参考音频数据,因此,在对该第一音频数据进行信号处理时,可以根据该参考音频数据滤除该第一音频数据中的部分噪声,这样,可以简化信号处理的复杂度,从而可以减少该终端的唤醒延迟,提高用户体验。
S305、针对多个第一目标音频数据中的每个第一目标音频数据,确定该第一目标音频数据对应的信号处理方式。
其中,不同路的第一音频数据对应不同的信号处理方式。
在本步骤中,在采集到每路第一音频数据后,都会通过对应的信号处理方式对该路第一音频数据进行信号处理,得到该路第一音频数据对应的第一目标音频数据,因此,针对每个第一目标音频数据,都会对应一个信号处理方式。在得到该多个第一目标音频数据后,可以针对每个第一目标音频数据,确定该第一目标音频数据对应的信号处理方式。
S306、根据该信号处理方式确定该第一目标音频数据对应的目标解码器。
其中,不同的信号处理方式对应不同的解码器,不同的解码器的参数可以不同,示例地,该参数可以根据信号处理方式的类型确定,针对不同类型的信号处理方式,可以设置不同的参数,本公开对此不作限定。
在本步骤中,在确定该第一目标音频数据对应的信号处理方式后,可以通过预先设置的解码器关联关系,从多个解码器中确定该信号处理方式对应的解码器,该解码器关联关系可以包括不同的信号处理方式和解码器的对应关系,将该信号处理方式对应的解码器作为该目标解码器。
S307、将该第一目标音频数据输入该目标解码器进行解码处理,并输出该第一目标音频数据的第一置信度。
在本步骤中,在获取每个第一目标音频数据对应的目标解码器后,针对该第一目标音频数据,可以将该第一目标音频数据输入该目标解码器中,通过该目标解码器对该第一目标音频数据进行解码处理,得到该第一目标音频数据的第一置信度。
S308、获取历史时间段内第二目标音频数据的第二置信度。
其中,该历史时间段为该目标时间段之前的预设时间段,该历史时间段可以是与该目标时间段属于相同场景的时间段,可以根据终端的类型设置该预设时间段的时长,也可以根据测试经验值设置该预设时间段的时长,本公开对此不作限定。
该第二置信度可以包括多个第二目标音频数据的置信度,该多个第二目标音频数据为对该第二音频数据进行信号处理后的音频数据。该第二置信度的获取方式可以参考该第一置信度的获取方式,此处不再赘述了,另外,该第二置信度可以存储在该终端中,例如,若该预设时间段为1分钟,则可以存储该目标时间段之前的1分钟的第二目标音频数据的第二置信度。示例地,本公开可以采用队列的方式存储该第二置信度,不同的第二置信度可以对应不同的队列,例如,若该第二置信度包括10个,则可以使用10个队列存储该10个第二置信度。针对每个队列,该队列中队头的第二置信度为最早获取的第二目标音频数据的第二置信度,队尾的第二置信度为最晚获取的第二目标音频数据的第二置信度,在需要存储新的第二置信度时,可以将该队列中队头的第二置信度删除,将该新的第二置信度存储在该队列的队尾。
S309、从该第二置信度中确定目标置信度。
其中,该目标置信度和该第一置信度是通过相同解码器解码得到的置信度。
在本步骤中,在确定该目标置信度之前,先确定该第一置信度对应的目标解码器,根据该第一置信度对应的目标解码器,从该第二置信度中,确定与该第一置信度对应的目标解码器相同的目标置信度。
S310、根据该目标置信度和第三置信度,获取该第一置信度对应的权重值。
其中,该第三置信度包括该第二置信度中除该目标置信度之外的其他置信度。
在本步骤中,在获取该目标置信度后,可以根据该目标置信度,确定该第三置信度,之后,可以获取该目标置信度和该第三置信度之间的置信度差值,根据该置信度差值以及预设的对应关系,获取该第一置信度对应的权重值。其中,若该第三置信度包括一个置信度,则可以直接计算该目标置信度和该第三置信度的置信度差值;若该第三置信度包括多个置信度,则可以先获取该多个第三置信度的平均置信度,再计算该目标置信度和该平均置信度的置信度差值。
在一种可能的实现方式中,该预设的对应关系可以是预先设置的权重值关系,该权重值关系包括该置信度差值和该权重值的对应关系,在获取该目标置信度和该第三置信度之间的置信度差值后,可以通过该权重值关系,确定该置信度差值对应的权重值。其中,该权重值关系可以根据经验进行设置,示例地,在该置信度差值为0.15时,该权重值可以是1.1,在该置信度差值为-0.2时,该权重值可以是0.8。
在另一种可能的实现方式中,任何一路解码器权重值的预设的对应关系可以是以下计算公式:
ratio=1+(Asmooth-Bsmooth)/a (1)
其中,ratio为该权重值,Asmooth为该目标置信度,Bsmooth为该第三置信度,a为预设常数。
在获取该目标置信度和该第三置信度之间的置信度差值后,可以根据该置信度差值和预设常数,通过公式(1)计算得到该第一置信度对应的权重值。
S311、根据该权重值和该第一置信度,获取最终置信度。
在本步骤中的一些实施例中,在获取该权重值后,可以为该第一置信度乘以该权重值,得到该最终置信度。在另一些实施例中,该最终置信度也可以是该第一置信度与该权重值的和值、差值或除值。本公开对于如何根据权重值和第一置信度获取最终置信度的方式不作限定,可以根据不同的需要进行设定。
在该目标置信度大于该第三置信度时,得到的该最终置信度也会大于该目标解码器输出的第一置信度,在该目标置信度小于该第三置信度时,得到的该最终置信度也会小于该目标解码器输出的第一置信度。这样,可以通过历史时间段的第二置信度对该第一置信度进行修正,从而可以得到更加准确的置信度,提高该终端的语音识别***的准确率。
S312、根据该最终置信度确定是否唤醒该终端。
在本步骤中,在获取该最终置信度后,可以先获取预设置信度阈值,对比该最终置信度和该置信度阈值,在该最终置信度大于或等于该预设置信度阈值的情况下,确定唤醒该终端。其中,该预设置信度阈值可以根据该终端的类型确定,示例地,针对唤醒率要求较高但误报率要求较低的终端,可以设置较低的预设置信度阈值,例如0.7,针对唤醒率要求较低但误报率要求较高的终端,可以设置较高的预设置信度阈值,例如0.9,也可以根据终端对唤醒率和误报率的需求,经过试验测试确定,本公开对该预设置信度阈值的设置方式不作限定。
需要说明的是,上述步骤S308~步骤S312中的第一置信度可以是多个第一置信度中的任意一个,但是,考虑到在获取目标时间段内的第一音频数据后,可以通过多个信号处理方式对该第一音频数据进行信号处理得到多个第一目标音频数据,之后,可以将该多个第一目标音频数据输入多个目标解码器,以得到该多个第一目标音频数据的第一置信度。由于多个信号处理方式对该第一音频数据进行信号处理所花费的时间不同,导致得到每个第一目标音频数据的时间不同,因此,每个第一目标音频数据输入目标解码器的时间也不同,并且每个目标解码器对该第一目标音频数据进行解码处理所花费的时间也不同,这样,最终每个目标解码器输出该第一目标音频数据的第一置信度的时间也不同。
基于上述原因,若任意选择的第一置信度输出的较慢,则会导致唤醒延迟时间比较长,影响用户体验。因此,为了避免唤醒延迟时间太长导致用户体验太差,可以在每获取到一个目标解码器输出的第一置信度的情况下,根据该目标解码器输出的第一目标置信度执行以下唤醒处理方式,直至唤醒所述终端,或者,根据多个所述目标解码器输出的所述第一置信度均执行了该唤醒处理方式。
其中,该唤醒处理方式包括:根据该第二置信度和该目标解码器输出的第一置信度确定是否唤醒该终端。
示例地,若该终端包括目标解码器A、目标解码器B以及目标解码器C,则在目标解码器B先输出第一置信度的情况下,可以先根据该目标解码器B输出的第一置信度执行该唤醒处理方式。若执行该唤醒处理方式后确定唤醒该终端,则停止执行该唤醒处理方式,可以直接唤醒该终端;若执行该唤醒处理方式后确定不唤醒该终端,则可以获取下一个目标解码器输出的第一置信度,若下一个输出第一置信度的是目标解码器A,则可以根据该目标解码器A输出的第一置信度继续执行该唤醒处理方式,若根据该唤醒处理方式确定唤醒该终端,则停止执行该唤醒处理方式,可以直接唤醒该终端;若执行该唤醒处理方式后确定不唤醒该终端,则可以获取目标解码器C输出的第一置信度,根据该目标解码器C输出的第一置信度继续执行该唤醒处理方式,确定是否唤醒该终端。这样,无需等待特定的目标解码器输出第一置信度,可以根据先输出的第一置信度确定是否唤醒该终端,从而可以缩短唤醒延迟的时间,提高用户体验。
采用上述方法,可以根据该目标解码器输出的第一置信度,从该第二置信度中确定目标置信度,根据该目标置信度和第三置信度获取该第一置信度对应的权重值,根据该权重值和该第一置信度确定最终置信度,并根据该目标置信度确定是否唤醒该终端,这样,可以根据该目标置信度和该第三置信度调整该第一置信度,从而可以得到更加准确的最终置信度,使得该终端的语音识别***的准确率更高;另外,本公开在每获取一个目标解码器输出的第一置信度后,都会执行唤醒处理方式,从而可以提高该终端的唤醒效率,提高用户体验。
图4是根据一示例性实施例示出的一种唤醒控制装置的结构示意图,如图4所示,该装置包括:
数据采集模块401,被配置为采集多路音频数据;
信号处理模块402,被配置为分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;
第一置信度获取模块403,被配置为分别获取多个第一目标音频数据的第一置信度,其中,该置信度用于表征该音频数据能够唤醒终端的概率;
第二置信度获取模块404,被配置为获取历史时间段内第二目标音频数据的第二置信度,该历史时间段为该目标时间段之前的预设时间段,该第二置信度包括多个第二目标音频数据的置信度;
唤醒模块405,被配置为根据该第一置信度和该第二置信度确定是否唤醒该终端。
可选地,该信号处理模块402包括:
通道选取子模块,被配置为选取该终端的麦克风阵列的一个麦克风作为参考通道;
参考数据获取子模块,被配置为获取该参考通道在该目标时间段采集的参考音频数据;
信号处理子模块,被配置为根据该参考音频数据,通过多个信号处理方式分别对每路第一音频数据进行信号处理,得到多个第一目标音频数据,其中,不同路的第一音频数据的信号处理方式不同。
可选地,该第一置信度获取模块403包括:
处理方式确定子模块,被配置为针对多个第一目标音频数据中的每个第一目标音频数据,确定该第一目标音频数据对应的信号处理方式;
解码器确定子模块,被配置为根据该信号处理方式确定该第一目标音频数据对应的目标解码器,其中,不同的信号处理方式对应不同的解码器;
置信度确定子模块,被配置为将该第一目标音频数据输入该目标解码器进行解码处理,并输出该第一目标音频数据的第一置信度。
可选地,该解码器确定子模块,被配置为:
通过预先设置的解码器关联关系,从多个解码器中确定该信号处理方式对应的解码器,该解码器关联关系包括不同的信号处理方式和该解码器的对应关系;
将该信号处理方式对应的解码器作为该目标解码器。
可选地,该唤醒模块405包括:
唤醒处理子模块,被配置为在每获取到一个目标解码器输出的该第一置信度的情况下,根据该目标解码器输出的第一目标置信度执行以下唤醒处理方式,直至唤醒该终端,或者,根据多个目标解码器输出的该第一置信度均执行了该唤醒处理方式;
该唤醒处理方式包括:
根据该第二置信度和该目标解码器输出的第一置信度确定是否唤醒该终端。
可选地,该唤醒模块包括:
目标置信度确定子模块,被配置为从该第二置信度中确定目标置信度,该目标置信度和该第一置信度是通过相同解码器解码得到的置信度;
权重值确定子模块,被配置为根据该目标置信度和第三置信度,获取该第一置信度对应的权重值,该第三置信度包括该第二置信度中除该目标置信度之外的其他置信度;
最终置信度获取子模块,被配置为根据该权重值和该第一置信度,获取最终置信度;
唤醒子模块,被配置为根据该最终置信度确定是否唤醒该终端。
可选地,该权重值确定子模块,还被配置为:
获取所述目标置信度和所述第三置信度之间的置信度差值;
根据所述置信度差值以及预设的对应关系,获取所述第一置信度对应的权重值。
可选地,该唤醒子模块,还被配置为:
在该最终置信度大于或等于预设置信度阈值的情况下,确定唤醒该终端。
可选地,该信号处理方式包括盲源分离或噪声抑制。
通过上述装置,通过分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据,并分别获取该多个第一目标音频数据的第一置信度,之后,可以获取历史时间段内第二目标音频数据的第二置信度,并根据该第一置信度和该第二置信度确定是否唤醒该终端。也就是说,本公开可以根据目标时间段的第一置信度和历史时间段的第二置信度确定是否唤醒终端,这样,可以减少终端被误唤醒或漏唤醒的概率,从而可以提高语音识别***的准确率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的唤醒控制方法的步骤。
图5是根据一示例性实施例示出的一种终端500的框图。例如,终端500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,终端500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制终端500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的唤醒控制方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在终端500的操作。这些数据的示例包括用于在终端500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为终端500的各种组件提供电力。电力组件506可以包括电源管理***,一个或多个电源,及其他与为终端500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述终端500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当终端500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为终端500提供各个方面的状态评估。例如,传感器组件514可以检测到终端500的打开/关闭状态,组件的相对定位,例如所述组件为终端500的显示器和小键盘,传感器组件514还可以检测终端500或终端500一个组件的位置改变,用户与终端500接触的存在或不存在,终端500方位或加速/减速和终端500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于终端500和其他设备之间有线或无线方式的通信。终端500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述唤醒控制方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由终端500的处理器520执行以完成上述唤醒控制方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的唤醒控制方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (20)
1.一种唤醒控制方法,其特征在于,所述方法包括:
采集多路音频数据;
分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;
分别获取多个所述第一目标音频数据的第一置信度,其中,所述置信度用于表征所述音频数据能够唤醒终端的概率;
获取历史时间段内第二目标音频数据的第二置信度,所述历史时间段为所述目标时间段之前的预设时间段,所述第二置信度包括多个所述第二目标音频数据的置信度;
根据所述第一置信度和所述第二置信度确定是否唤醒所述终端。
2.根据权利要求1所述的方法,其特征在于,所述分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据包括:
选取所述终端的麦克风阵列的一个麦克风作为参考通道;
获取所述参考通道在所述目标时间段采集的参考音频数据;
根据所述参考音频数据,通过多个信号处理方式分别对每路所述第一音频数据进行信号处理,得到多个所述第一目标音频数据,其中,不同路的第一音频数据的信号处理方式不同。
3.根据权利要求1或2所述的方法,其特征在于,所述分别获取多个所述第一目标音频数据的第一置信度包括:
针对多个所述第一目标音频数据中的每个所述第一目标音频数据,确定该第一目标音频数据对应的信号处理方式;
根据该信号处理方式确定该第一目标音频数据对应的目标解码器,其中,不同的信号处理方式对应不同的解码器;
将该第一目标音频数据输入所述目标解码器进行解码处理,得到该第一目标音频数据的第一置信度。
4.根据权利要求3所述的方法,其特征在于,所述根据该信号处理方式确定该第一目标音频数据对应的目标解码器包括:
通过预先设置的解码器关联关系,从多个所述解码器中确定该信号处理方式对应的解码器,所述解码器关联关系包括不同的信号处理方式和所述解码器的对应关系;
将该信号处理方式对应的解码器作为所述目标解码器。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一置信度和所述第二置信度确定是否唤醒所述终端包括:
在每获取到一个所述目标解码器输出的所述第一置信度的情况下,根据所述目标解码器输出的第一置信度执行以下唤醒处理方式,直至唤醒所述终端,或者,根据多个所述目标解码器输出的所述第一置信度均执行了所述唤醒处理方式;
所述唤醒处理方式包括:
根据所述第二置信度和所述目标解码器输出的第一置信度确定是否唤醒所述终端。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一置信度和所述第二置信度确定是否唤醒所述终端包括:
从所述第二置信度中确定目标置信度,所述目标置信度和所述第一置信度是通过相同解码器解码得到的置信度;
根据所述目标置信度和第三置信度,获取所述第一置信度对应的权重值,所述第三置信度包括所述第二置信度中除所述目标置信度之外的其他置信度;
根据所述权重值和所述第一置信度,确定最终置信度;
根据所述最终置信度确定是否唤醒所述终端。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标置信度和第三置信度,获取所述第一置信度对应的权重值包括:
获取所述目标置信度和所述第三置信度之间的置信度差值;
根据所述置信度差值以及预设的对应关系,获取所述第一置信度对应的权重值。
8.根据权利要求6所述的方法,其特征在于,所述根据所述最终置信度确定是否唤醒所述终端包括:
在所述最终置信度大于或等于预设置信度阈值的情况下,确定唤醒所述终端。
9.根据权利要求1所述的方法,其特征在于,所述信号处理方式包括盲源分离或噪声抑制。
10.一种唤醒控制装置,其特征在于,所述装置包括:
数据采集模块,被配置为采集多路音频数据;
信号处理模块,被配置为分别对目标时间段内采集的每路第一音频数据进行信号处理,得到多个第一目标音频数据;
第一置信度获取模块,被配置为分别获取多个所述第一目标音频数据的第一置信度,其中,所述置信度用于表征所述音频数据能够唤醒终端的概率;
第二置信度获取模块,被配置为获取历史时间段内第二目标音频数据的第二置信度,所述历史时间段为所述目标时间段之前的预设时间段,所述第二置信度包括多个所述第二目标音频数据的置信度;
唤醒模块,被配置为根据所述第一置信度和所述第二置信度确定是否唤醒所述终端。
11.根据权利要求10所述的装置,其特征在于,所述信号处理模块包括:
通道选取子模块,被配置为选取所述终端的麦克风阵列的一个麦克风作为参考通道;
参考数据获取子模块,被配置为获取所述参考通道在所述目标时间段采集的参考音频数据;
信号处理子模块,被配置为根据所述参考音频数据,通过多个信号处理方式分别对每路所述第一音频数据进行信号处理,得到多个所述第一目标音频数据,其中,不同路的第一音频数据的信号处理方式不同。
12.根据权利要求10或11所述的装置,其特征在于,所述第一置信度获取模块包括:
处理方式确定子模块,被配置为针对多个所述第一目标音频数据中的每个所述第一目标音频数据,确定该第一目标音频数据对应的信号处理方式;
解码器确定子模块,被配置为根据该信号处理方式确定该第一目标音频数据对应的目标解码器,其中,不同的信号处理方式对应不同的解码器;
置信度确定子模块,被配置为将该第一目标音频数据输入所述目标解码器进行解码处理,得到该第一目标音频数据的第一置信度。
13.根据权利要求12所述的装置,其特征在于,所述解码器确定子模块,被配置为:
通过预先设置的解码器关联关系,从多个所述解码器中确定该信号处理方式对应的解码器,所述解码器关联关系包括不同的信号处理方式和所述解码器的对应关系;
将所述信号处理方式对应的解码器作为所述目标解码器。
14.根据权利要求12所述的装置,其特征在于,所述唤醒模块包括:
唤醒处理子模块,被配置为在每获取到一个所述目标解码器输出的所述第一置信度的情况下,根据所述目标解码器输出的第一目标置信度执行以下唤醒处理方式,直至唤醒所述终端,或者,根据多个所述目标解码器输出的所述第一置信度均执行了所述唤醒处理方式;
所述唤醒处理方式包括:
根据所述第二置信度和所述目标解码器输出的第一置信度确定是否唤醒所述终端。
15.根据权利要求10所述的装置,其特征在于,所述唤醒模块包括:
目标置信度确定子模块,被配置为从所述第二置信度中确定目标置信度,所述目标置信度和所述第一置信度是通过相同解码器解码得到的置信度;
权重值确定子模块,被配置为根据所述目标置信度和第三置信度,获取所述第一置信度对应的权重值,所述第三置信度包括所述第二置信度中除所述目标置信度之外的其他置信度;
最终置信度获取子模块,被配置为根据所述权重值和所述第一置信度,获取最终置信度;
唤醒子模块,被配置为根据所述最终置信度确定是否唤醒所述终端。
16.根据权利要求15所述的装置,其特征在于,所述权重值确定子模块,还被配置为:
获取所述目标置信度和所述第三置信度之间的置信度差值;
根据所述置信度差值以及预设的对应关系,获取所述第一置信度对应的权重值。
17.根据权利要求15所述的装置,其特征在于,所述唤醒子模块,还被配置为:
在所述最终置信度大于或等于预设置信度阈值的情况下,确定唤醒所述终端。
18.根据权利要求10所述的装置,其特征在于,所述信号处理方式包括盲源分离或噪声抑制。
19.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
20.一种终端,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011303745.7A CN112509596B (zh) | 2020-11-19 | 2020-11-19 | 唤醒控制方法、装置、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011303745.7A CN112509596B (zh) | 2020-11-19 | 2020-11-19 | 唤醒控制方法、装置、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509596A true CN112509596A (zh) | 2021-03-16 |
CN112509596B CN112509596B (zh) | 2024-07-09 |
Family
ID=74959093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011303745.7A Active CN112509596B (zh) | 2020-11-19 | 2020-11-19 | 唤醒控制方法、装置、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509596B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114229637A (zh) * | 2021-12-03 | 2022-03-25 | 北京声智科技有限公司 | 电梯楼层确定方法、装置、设备及计算机可读存储介质 |
CN115050013A (zh) * | 2022-06-14 | 2022-09-13 | 南京人工智能高等研究院有限公司 | 一种行为检测方法、装置、车辆、存储介质和电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654949A (zh) * | 2016-01-07 | 2016-06-08 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
US20170125036A1 (en) * | 2015-11-03 | 2017-05-04 | Airoha Technology Corp. | Electronic apparatus and voice trigger method therefor |
TW201717192A (zh) * | 2015-11-03 | 2017-05-16 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
CN110047485A (zh) * | 2019-05-16 | 2019-07-23 | 北京地平线机器人技术研发有限公司 | 识别唤醒词的方法和装置、介质以及设备 |
US20190287518A1 (en) * | 2018-03-16 | 2019-09-19 | Wistron Corporation | Speech service control apparatus and method thereof |
CN110428810A (zh) * | 2019-08-30 | 2019-11-08 | 北京声智科技有限公司 | 一种语音唤醒的识别方法、装置及电子设备 |
CN110838306A (zh) * | 2019-11-12 | 2020-02-25 | 广州视源电子科技股份有限公司 | 语音信号检测方法、计算机存储介质及相关设备 |
CN111508493A (zh) * | 2020-04-20 | 2020-08-07 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111522592A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能终端唤醒方法和装置 |
CN111696562A (zh) * | 2020-04-29 | 2020-09-22 | 华为技术有限公司 | 语音唤醒方法、设备及存储介质 |
-
2020
- 2020-11-19 CN CN202011303745.7A patent/CN112509596B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170125036A1 (en) * | 2015-11-03 | 2017-05-04 | Airoha Technology Corp. | Electronic apparatus and voice trigger method therefor |
TW201717192A (zh) * | 2015-11-03 | 2017-05-16 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
CN105654949A (zh) * | 2016-01-07 | 2016-06-08 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
US20190287518A1 (en) * | 2018-03-16 | 2019-09-19 | Wistron Corporation | Speech service control apparatus and method thereof |
CN110047485A (zh) * | 2019-05-16 | 2019-07-23 | 北京地平线机器人技术研发有限公司 | 识别唤醒词的方法和装置、介质以及设备 |
CN110428810A (zh) * | 2019-08-30 | 2019-11-08 | 北京声智科技有限公司 | 一种语音唤醒的识别方法、装置及电子设备 |
CN110838306A (zh) * | 2019-11-12 | 2020-02-25 | 广州视源电子科技股份有限公司 | 语音信号检测方法、计算机存储介质及相关设备 |
CN111508493A (zh) * | 2020-04-20 | 2020-08-07 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111522592A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能终端唤醒方法和装置 |
CN111696562A (zh) * | 2020-04-29 | 2020-09-22 | 华为技术有限公司 | 语音唤醒方法、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114229637A (zh) * | 2021-12-03 | 2022-03-25 | 北京声智科技有限公司 | 电梯楼层确定方法、装置、设备及计算机可读存储介质 |
CN114229637B (zh) * | 2021-12-03 | 2024-02-27 | 北京声智科技有限公司 | 电梯楼层确定方法、装置、设备及计算机可读存储介质 |
CN115050013A (zh) * | 2022-06-14 | 2022-09-13 | 南京人工智能高等研究院有限公司 | 一种行为检测方法、装置、车辆、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112509596B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3136793A1 (en) | Method and apparatus for awakening electronic device | |
CN106791893A (zh) | 视频直播方法及装置 | |
EP3779968A1 (en) | Audio processing | |
EP3133874A1 (en) | Method and apparatus for starting energy saving mode | |
US10230891B2 (en) | Method, device and medium of photography prompts | |
CN109087650B (zh) | 语音唤醒方法及装置 | |
EP3024211B1 (en) | Method and device for announcing voice call | |
EP3933570A1 (en) | Method and apparatus for controlling a voice assistant, and computer-readable storage medium | |
CN105451056B (zh) | 音视频同步方法及装置 | |
CN110349578A (zh) | 设备唤醒处理方法及装置 | |
CN112509596B (zh) | 唤醒控制方法、装置、存储介质及终端 | |
CN111540350B (zh) | 一种智能语音控制设备的控制方法、装置及存储介质 | |
CN109522058B (zh) | 唤醒方法、装置、终端及存储介质 | |
US20170034347A1 (en) | Method and device for state notification and computer-readable storage medium | |
CN112489653B (zh) | 语音识别的方法、装置及存储介质 | |
US11561278B2 (en) | Method and device for processing information based on radar waves, terminal, and storage medium | |
CN112019948B (zh) | 一种对讲设备通信的方法、对讲设备和存储介质 | |
CN112866480B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN109788367A (zh) | 一种信息提示方法、装置、电子设备及存储介质 | |
CN112489650B (zh) | 唤醒控制方法、装置、存储介质及终端 | |
CN109922203A (zh) | 终端、熄屏方法和装置 | |
CN107979695B (zh) | 网络消息接收方法及装置、存储介质 | |
CN108491180B (zh) | 音频播放方法及装置 | |
CN112882394A (zh) | 设备控制方法、控制装置及可读存储介质 | |
CN112637416A (zh) | 音量的调节方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |