CN110349579B - 语音唤醒处理方法及装置、电子设备及存储介质 - Google Patents
语音唤醒处理方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110349579B CN110349579B CN201910637844.XA CN201910637844A CN110349579B CN 110349579 B CN110349579 B CN 110349579B CN 201910637844 A CN201910637844 A CN 201910637844A CN 110349579 B CN110349579 B CN 110349579B
- Authority
- CN
- China
- Prior art keywords
- voice
- wake
- continuity condition
- awakening
- collected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000007246 mechanism Effects 0.000 claims description 99
- 230000006870 function Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000002618 waking effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Electric Clocks (AREA)
Abstract
本发明实施例公开了一种语音唤醒处理方法及装置、电子设备及存储介质。所述方法包括:获取采集语音;当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音;确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音;当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种语音唤醒处理方法及装置、电子设备及存储介质。
背景技术
随着语音技术的发展,越来越多的电子设备具有语音处理功能,能够采集用户的操作指令并基于操作指令执行对应的操作。符合处于休眠状态下的设备可以被唤醒语音所唤醒,但是在一些情况下,常常伴随着误唤醒的现象,例如,不需要唤醒的时候,设备被唤醒了;而需要被唤醒的时候,迟迟不会被唤醒;如此,导致要么唤醒成功率低,要不误唤醒率高。
发明内容
有鉴于此,本发明实施例期望提供一种语音唤醒处理方法及装置、电子设备及存储介质。
本发明的技术方案是这样实现的:
一种语音唤醒处理方法,包括:
获取采集语音;
当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音;
确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音;
当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
基于上述方案,所述方法还包括:
当所述唤醒语音为所述采集语音中首个语音时,确定不符合所述第一连续性条件;
和/或,
当所述唤醒语音为所述采集语音中末个语音时,确定不符合所述第二连续性条件。
基于上述方案,所述方法还包括:
识别所述第二语音的语音内容;
所述确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,包括:
当所述第二语音的语音内容为第一类内容时,确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件。
基于上述方案,所述方法还包括:
当所述第二语音的语音内容为第二类内容时,确定不符合所述第二连续性条件。
基于上述方案,所述第二类内容不同于所述第一类内容;所述第二类内容为:指示设备被唤醒后执行预定功能的语音内容。
基于上述方案,所述当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音,包括:
在机制第一唤醒机制下,当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
基于上述方案,所述方法还包括:
在第二唤醒机制下,当符合所述第一连续性条件时,忽略所述唤醒语音。
基于上述方案,所述方法还包括:
确定当前时刻的唤醒机制,其中,所述当前时刻的唤醒机制为:所述机制第一唤醒机制或者第二唤醒机制。
一种语音唤醒应答处理装置,包括:
获取模块,用于获取采集语音;
第一确定模块,用于当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音;
第二确定模块,用于确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音;
忽略模块,用于当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
一种电子设备,包括:
存储器,
处理器,分别及所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,实现前述任意一个技术方案提供的所述语音唤醒处理方法。
一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够前述任意一个技术方案提供的所述语音唤醒处理方法。
本发明实施例提供的技术方案,若采集语音中包括唤醒语音时,同时会根据前一个语音与唤醒语音之间的连续性,和后一个语音与唤醒语音之间的连续性,这两种连续性中的任意一个满足都可会忽略该唤醒语音,从而降低误唤醒率。
附图说明
图1为本发明实施例提供的一种语音唤醒处理方法的流程示意图;
图2为本发明实施例提供的另一种语音唤醒处理方法的流程示意图;
图3A为本发明实施例提供的一种主界面的示意图;
图3B为本发明实施例提供的另一种主界面的示意图;
图4为本发明实施例提供的一种语音唤醒处理装置的结构示意图;
图5为本发明实施例提供的再一种语音唤醒处理方法的流程示意图;
图6为本发明实施例提供的基于音素间隔时长确定连续和非连续的判断流程示意图;
图7为本发明实施例提供的一种确定因素间隔时长的流程示意图;
图8为本发明实施例提供的再一种确定因素间隔时长的流程示意图;
图9为本发明实施例提供的基于音素间隔时长确定连续和非连续的判断流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种语音唤醒处理方法,包括:
步骤S110:获取采集语音;
步骤S120:当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音;
步骤S130确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音
步骤S140:当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音;
本实施例可以应用于各种能被语音唤醒的电子设备中,该电子设备可为移动设备。例如,该电子设备可为车载设备。该车载设备可为车辆的中控设备。
需要被唤醒的电子设备可包括:语音唤醒模组及所述语音唤醒模组以外的功能模组。所述功能模组与所述语音唤醒模组连接。所述语音唤醒模组可以唤醒所述功能模组。需要被唤醒的电子设备的功能模组当前处于休眠状态,或电子设备被唤醒之后,功能模组退出休眠状态进入到激活状态。
若功能模组处于休眠状态下的功耗是低于处于激活状态下的功耗的。功能模组处于休眠状态时,功能模组的至少部分功能是被屏蔽的。
在一些实施例中,所述功能模组可包括:显示屏和/或处理器。
语音采集模组处于工作状态,在通过语音采集获得所述采集语义之后,会通过语音识别技术识别出所述采集语义中是否包含唤醒语音。所述唤醒语音为唤醒语音的语音。若包含有唤醒语音,则会同时判断该唤醒语音与位于唤醒语音前一个位置的第一语音之间的时间间隔是否满足第一连续性条件,还会判断该唤醒语音与其后面一个位置的第二语音之间的时间间隔是否满足第二连续性条件。
例如,采集语音的文本内容为“小A,你好!”,则“小A”和“你好”是两个不同组成部分,对应了两个语音,可以将这两个子信号的时间间隔作为所述间隔阈值,或者,将这两个语音的时间间隔给检测出来,用于第一连续性条件和第二连续性条件的确定。
所述第一连续性条件对应的时间阈值可为第一阈值,第二连续性条件对应的时间阈值为第二阈值。所述第一阈值和所述第二阈值可以相同或者不同。
在本实施例中,若唤醒语音与第一语音之间的时间间隔小于所述第一阈值,可认为满足所述第一连续性条件;若所述唤醒语音与所述第二语音之间的时间间隔小于所述第二阈值,则认为满足所述第二连续性条件。
所述第一阈值和所述第二阈值可以为经验值或者根据对用户日常说话速率或者唤醒语音输入过程中得到的。
在本实施例中认为若用户想要唤醒设备,则会着重的说出唤醒语音所对应的唤醒语音;根据该特性,为了减少误唤醒,会同时检测唤醒语音之前和之后的时间间隔,减少用户之间度化仅是带到唤醒语音导致的误唤醒,降低误唤醒率。
在本实施例中若符合第一连续条件和第二连续条件中至少一个,说明目标用户并非故意说出唤醒语音要唤醒设备,故在步骤S140中只要第一连续性条件和第二连续性条件中的任意一个符合,就认定当前电子设备无需唤醒,而忽略检测到的唤醒语音。
若检测到唤醒语音被忽略了,则说明电子设备不会因为检测到该唤醒语音被唤醒,电子设备会保持低功耗的休眠状态等。
在一些实施例中,所述方法还包括:
当所述唤醒语音为所述采集语音中首个语音时,确定不符合所述第一连续性条件;
和/或,
当所述唤醒语音为所述采集语音中末个语音时,确定不符合所述第二连续性条件。
本实施例中,若唤醒语音为采集到的一条采集语音中的首个语音,则可直接认为不符合所述第一连续性条件。
若唤醒语音为采集到的一条采集语音中的末个语音,则可能直接认为不符合第二连续性条件。
此处的末个语音即为一条采集语音中最后一个语音。通过唤醒语音在采集语音中位置的确定,可以简化所述第一连续性条件和第二连续性条件的判定。
在一些实施例中,如图2所示,所述方法还包括:
步骤S111:识别所述第二语音的语音内容;
所述步骤S130可包括步骤S131;所述步骤S131可包括:
当所述第二语音的语音内容为第一类内容时,确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件。
例如,通过语音到文本的转换,然后获取文本的意思,就能够得到所述语音内容。
在获得语音内容之后,再根据第二语音的语音内容,确定是否需要判断符合所述第二连续性条件。
所述第一类内容为:与指示电子设备执行特定操作或提供特定功能服务无关的语音内容。
例如,当语音内容为指示设备执行某一个功能的第二类内容时,则此时第二语音有很大概率会连接着唤醒语音说。此时,若判断给出第二语音的语音内容为第二类内容以外的第一类内容时,则需要进一步判定是否符合第二连续性条件。
故在一些实施例中,当所述第二语音的语音内容为第二类内容时,确定不符合所述第二连续性条件。
例如,唤醒语音为“叮咚”,如果收到一条采集语音为“叮咚,播放音乐”,这条采集语音中“播放音乐”是所述第二语音。此时第二语音的语音内容为指示电子设备播放音乐的一个操作,此时,就不用进一步根据“播放语音”和“叮咚”之间的时间间隔来确定是否符合第二连续性条件,可以直接认定当前接收到的采集语音不符合第二连续性条件。
例如,唤醒语音为“叮咚”,如果收到一条采集语音为“叮咚,给我递一下纸巾”。此时位于唤醒语音之后的第二语音为“给我递一下纸巾”的语音内容与指示电子设备执行对应的操作无关。为了进一步确定用户是在想唤醒电子设备之后,说了“给我递一下纸巾”,还是没有唤醒电子设备的意思。此时,会引入第二连续性条件的判断。若满足第二连续性条件,则可认为用户没有要唤醒电子设备的意思,从而忽略所述唤醒语音。如果是不满足所述第二连续性条件,且因为“叮咚”是采集的一条采集语音中的首个语音,认定不满足第一连续性条件的情况下,则认为第一连续性条件和第二连续性条件都不满足,则会执行对应的唤醒语音对应的唤醒操作;否则不执行唤醒语音,从而电子设备不会被唤醒。
在一些实施例中,所述第二类内容不同于所述第一类内容;所述第二类内容为:指示设备被唤醒后执行预定功能的语音内容。
所述第一内容可包括所述第二类内容以外的任何内容。
在一些实施例中,所述步骤S140可包括:
在第一唤醒机制下,当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
电子设备支持的唤醒机制可以包括至少两种,例如,第一唤醒机制和第二唤醒机制。
第一唤醒机制为:需要独立的唤醒语音唤醒电子设备的唤醒机制,默认不再唤醒语音之后跟随包括电子设备被唤醒后能够执行对应操作的操作语音。
第二唤醒机制为:允许唤醒语音后紧跟随者指示电子设备执行操作的操作语音。
在第一唤醒机制下,需要严格遵守是否需要满足第一连续性条件和第二连续性条件的判断。故在本实施例中,若电子设备所处的当前唤醒机制为所述第一唤醒机制时,步骤S140中才会在第一连续性条件和第二连续性条件有至少一个符合时,忽略所述唤醒语音。
在一些实施例中,所述方法还包括:在第二唤醒机制下,当符合所述第一连续性条件时,忽略所述唤醒语音。
即在一些实施例中,所述方法还包括:在所述第二唤醒机制下,当不符合所述第一连续性条件时,则认为该唤醒语音所对应的唤醒操作是需要执行的。
故总上所述,本发明实施例提供的所述方法还包括:
确定电子设备当前所处的唤醒机制;
根据当前所处的唤醒机制,确定需要符合的连续性条件。
在一些实施例中,所述唤醒机制为前述的第一唤醒机制或者第二唤醒机制。
若处于第一唤醒机制,需要参与确定的连续条件包括:所述第一连续性条件和所述第二连续性条件。
故在一些实施例中,在一些实施例中,所述方法还包括:确定当前时刻的唤醒机制,其中,所述当前时刻的唤醒机制为:所述第一唤醒机制或者第二唤醒机制。
确定唤醒机制时,可以根据用户偏好信息、设备的唤醒机制的配置信息、或者,唤醒机制的历史使用信息等来确定。
例如,语音唤醒模块会查询目标用户的偏好信息,根据用户的偏好信息确定出该用户是偏好或习惯第一唤醒机制还是习惯于第二唤醒机制。若该用户是习惯第一唤醒机制的用户,唤醒机制则当前的唤醒机制为第一唤醒机制。若用户习惯第二唤醒机制,则当前的唤醒机制为第二唤醒机制。
在本实施例中,语音唤醒模组会自动进入到所述第一唤醒机制,同样地,电子设备被唤醒后会自动执行或立即执行唤醒语音之后的操作指令,以提升用户体验。
所述偏好信息可包括:至少用户是否偏好第一唤醒机制的第一指示标签和/或至少用户是否偏好第二唤醒机制的第二指示标签。
在一些实施例中,所述方法还包括:
若所述偏好信息指示所述目标用户偏好使用第二唤醒机制,确定进入第二唤醒机制。
若所述偏好信息指示目标用户偏好使用第二唤醒机制,则说明当前用户没有需求使用第一唤醒机制,唤醒语音以后的语音信号则有很高的概率是噪声。
在一些实施例中,所述方法包括:可直接根据当前语音唤醒模组进入的唤醒机制,更新所述目标用户的偏好信息。
在一些实施例中,所述方法还包括:在确定进入所述第二唤醒机制时,电子设备基于所述唤醒语音唤醒进入主界面。
在本实施例中,所述主界面可为显示屏显示的桌面。在所述桌面上显示有一个或多个应用图标。在一些实施例中,所述主界面还可以是显示有一个或多个应用界面的桌面。总之,本实施例中,所述主界面至少包括桌面。图3A和图3B为本发明实施例提供的两种不同形式的主界面。在图3A所示的主界面上设置有各种应用图标。在图3B所示的主界面上并列显示有多个小部件(Widget),这些小部件可为应用的应用界面。
若语音唤醒模组进入的是第二唤醒机制,所述电子设备的功能模组被唤醒之后,立即执行所述操作指令,或者在输出一个提示信息后,再基于提示信息的操作反馈来确定是否执行对应的操作指令。
例如,在一些实施例中,所述方法还包括:
在所述电子设备进入所述主界面之后,根据所述第二语音所对应的操作指令输出提示信息;
若接收到作用于所述提示信息的确认指令,所述电子设备执行所述操作指令。
所述确认指令为前述反馈指令的一种,若接收到确认指令,则可以确定对应的操作指令无误,不会产生误操作,故执行所述操作指令。
若接收到作用于所述提示信息的反馈指令为否认指令,则电子设备丢弃所述操作指令。在一些实施例中,所述电子设备还会关闭所述提示信息。
在一些实施例中,若所述电子设备有输出提示信息,所述方法还包括:
若接收到所述确认指令,以所述第一唤醒机制作为本次所述目标用户想要使用的唤醒机制,更新所述目标用户的偏好信息。
由于在进入第二唤醒机制之后,用户通过输入确认指令指示执行对应的操作指令,说明用户当前想要进入到第一语音唤醒应答模式,故以第一唤醒机制作为本次所述目标用户想要使用的唤醒机制,更新所述目标用户的偏好信息,以获得更加精准用户的偏好信息。
在一些实施例中,所述方法还包括:
若接收到所述提示信息的否认指令,根据当前进入的唤醒机制,更新所述目标用户的偏好信息。
此处的否认指令包括两种,一种是:用户主动输入的否认指令,例如,点击了屏幕显示的取消控件,或者,通过语音指示取消等。另一种是:输出提示信息之后的预定时间内未收到用户反馈,这是一种消极的否认指令。
若当前检测到的是否认指令,说明电子设备当前进入的唤醒机制是正确的,则可以直接根据当前进入的唤醒机制,更新所述目标用户的偏好信息。
在还有一些实施例中,若进入到第二唤醒机制之后,电子设备没有输出提示信息,则在可以直接根据当前进入的唤醒机制更新所述偏好信息。
根据当前进入的唤醒机制,更新所述目标用户的偏好信息。
在本实施例中,会根据语音唤醒模组当前进入的唤醒机制,来更新目标用户的偏好信息。例如,统计目标用户所使用的第一唤醒机制和/或第二唤醒机制的频次,若第一唤醒机制的使用频次高于第二唤醒机制的使用频次,则生成指示用户偏好第一唤醒机制的偏好信息,否则可生成指示用户偏好第二唤醒机制的偏好信息。
再例如,在一些实施例中除了以不同唤醒机制的使用频次作为偏好信息的生成依据,还会以目标用户在近一段时间T内使用不同唤醒机制的变化趋势,来确定所述偏好信息。例如,虽然在T1内,用户使用第一唤醒机制的频率高于使用第二唤醒机制的频率,但是在当前时刻以前的T2时间内,用户都是使用的第二唤醒机制。T2所对应的时长小于T1所对应的时长,则说明用户越来越偏好第二唤醒机制,这也是在偏好信息的生成过程中需要考虑的因素。故在一些实施例中,会结合用户使用不同唤醒机制的频次和/或变化趋势,共同生成所述偏好信息。
在还有一些实施例中,电子设备被唤醒之后,启动深度学习模型来根据本次进入的唤醒机制更新所述偏好信息。在一些实施例中,所述语音唤醒模块还可以将采集得到的整个语音信号和最终进入的唤醒机制传输给功能模组(例如,处理器),由处理器基于深度学习模型得到用户属性信息。该用户属性信息包括所述偏好信息。在一些情况下,所述用户属性信息还可包括:前述的间隔阈值。
总之,在本发明实施例中,用户不用手动去设置自己偏好的唤醒机制,电子设备会自动学习用户偏好的唤醒机制,并且自动更新,以符合用户不同时期的不同偏好。
在一些实施例中,所述方法还包括:
从所述语音信号中提取音频特征;
根据所述音频特征识别所述目标用户。
由于不同的用户习惯不同,在本实施例中还会利用所述语音信号提取出音频特征,该音频特征包括但不限于声纹特征,该纹信息可以作为识别不同用户的生物特征,该声纹特征可以用于获取所述目标用户的偏好信息。在一些实施例中,该音频特征还可包括声纹特征以外的其他特征,例如,指示不同用户说话的响度和/或停顿节奏等特征,这些特征同样可以用于标识特定的用户。
在一些实施例中,所述方法还包括:在确定进入第一唤醒机制之后,基于所述唤醒语音唤醒的电子设备在被唤醒后执行与所述第二信号所对应的操作指令。
如图4所示,本实施例提供一种语音唤醒应答处理装置,包括:
获取模块110,用于获取采集语音;
第一确定模块120,用于当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音;
第二确定模块130,用于确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音;
忽略模块140,用于当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
在一些实施例中,所述获取模块110、第一确定模块120、第二确定模块130及忽略模块140均可为程序模块。所述程序模块被处理器执行后,能够实现前述模块的功能。
在另一些实施例中,所述获取模块110、第一确定模块120、第二确定模块130及忽略模块140可为软硬结合模块;所述软硬结合模块可包括:各种编程阵列;该编程阵列可包括:复杂可编程阵列和现场可编程阵列。
在还有一些实施例中,所述获取模块110、第一确定模块120、第二确定模块130及忽略模块140可为纯硬件模块,该纯硬件模块可包括专用集成电路。
在一些实施例中,所述第一确定模块120,还用于当所述唤醒语音为所述采集语音中首个语音时,确定不符合所述第一连续性条件;
和/或,
所述第二确定模块130,还用于当所述唤醒语音为所述采集语音中末个语音时,确定不符合所述第二连续性条件。
在一些实施例中,所述装置还包括:
识别模块,用于识别所述第二语音的语音内容;
所述第二确定模块130,还用于当所述第二语音的语音内容为第一类内容时,确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件。
在一些实施例中,所述第二确定模块130,还用于当所述第二语音的语音内容为第二类内容时,确定不符合所述第二连续性条件。
在一些实施例中,所述第二类内容不同于所述第一类内容;所述第二类内容为:指示设备被唤醒后执行预定功能的语音内容。
在一些实施例中,所述忽略模块140,用于在机制第一唤醒机制下,当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
在一些实施例中,所述忽略模块140,还用于在第二唤醒机制下,当符合所述第一连续性条件时,忽略所述唤醒语音。
在一些实施例中,所述装置还包括:
第四确定模块,用于确定当前时刻的唤醒机制,其中,所述当前时刻的唤醒机制为:所述机制第一唤醒机制或者第二唤醒机制。
以下结合上述任意实施例提供几个具体示例:
示例1:
一个人的说话习惯是相对稳定的,例如,语速,语调,停顿间隔等都以一定稳定的特征。本方案采用声纹识别技术,根据用户说话习惯,检测唤醒时唤醒语音是否孤立,如果唤醒语音在连续说话的句子中间,则判定唤醒无效,从而减少误唤醒。
语音唤醒过程中,一个人的说话习惯通常是不变的,包括语速,语调,停顿间隔等,在车载方面,用户也即是车主是最主要的使用者。因此,本方案采用声纹识别技术来判断用户习惯,然后根据用户的语音习惯通过语音活动检测(Voice Activity Detection,VAD)等VAD检测技术等获得音素间隔时长(该因素间隔时长包括但不限于:前述唤醒语音与第一语音、唤醒语音和第二语音之间的间隔时长),通过唤醒语音前向判断和唤醒语音后向判断,确定是否为无效唤醒,如果为无效唤醒,则不进行相应的唤醒动作,从而减少误唤醒,降低误唤醒率。
如图5所示,本方案提供的方案,可以应用于语音设备的训练过程中,也可以用语音设备的使用过程中。若应用于语音设备的训练过程中,该方法可包括:
播放语料,播放的语料包含唤醒语音的语料音频文件,触发唤醒事件,唤醒时候记录唤醒语音前后音素间隔,使用前向判断或者后向判断确定是否为无效唤醒。此处的向前判断即包括:唤醒语音与其前一个语音是否满足第一连续性条件的连续性判断;此处的向后判断即包括:唤醒语音与其后一个语音是否满足第二连续性条件的判断。
参考图5所示,所述方法还包括:
通过声纹识别技术,因为每个人的语速,音调,停顿习惯不同,所以使用声纹识别技术用于区分用户信息,其中,引起唤醒,具体为:唤醒语音引起语音设备的唤醒。
唤醒分类判断,例如,将唤醒分成两类,唤醒前向误唤醒判断和唤醒后向误唤醒判断,同时进行,只要有一个判断为误唤醒就可以不用处理。
如果唤醒是前向连续和/或者后向连续,则为无效唤醒不做处理,
如果唤醒前向不连续且后向不连续,则作有效唤醒,对设备进行唤醒处理。
示例2:
本示例图提供一种唤醒前向误唤醒判断和后向误唤醒判断的方法,参考图6所示,包括:音素间隔时长T,这个是需要统计和计算得到的;该音素间隔时长T可以用于前述满足第一连续性条件和/或第二连续性条件的阈值。
VADVAD检测等方法获取唤醒语音前向和唤醒语音后向DE音素间隔时长M;
如果音素间隔时长T小于等于唤醒语音前向音素间隔时长M并且音素间隔时长T小于等于唤醒语音后向音素间隔时长M,则判定为非连续,即唤醒语音不在连续说话的句子中间,为有效唤醒。
如果音素间隔时长T大于等于唤醒语音前向音素间隔时长M或者音素间隔时长T大于等于唤醒语音后向音素间隔时长M,则判定为连续,即唤醒语音在连续说话的句子中间,为无效唤醒。
示例3:
本示例提供一种统计获得示例2中提到的音素间隔时长T的方法,参考图7所示,可包括:
读取音频文件,例如,获取包含目标用户语音的音频文件;
通过VAD检测获取音素与音素之间的间隔时长,记录并统计样本;
根据样本,通过音频时长计算均值、方差、标准差,从而进行正态分布匹配;
标定音素间隔时长为均值和三个标准差,例如,经过概率分析,大约99.73%的值将落在平均值处正负三个标准的区间内,所以标定音素间隔时长为均值和三个标准差。
最终获取所述音素间隔时长T
总之,语音是非稳态信号,普通语速通常每秒发出10~15个音素,音素频谱分布是不一样的,这就导致了随着时间变化语音统计特性也是变化,但个人习惯的稳定性,这个变化区间不是很大,总体服从正态分布。
示例4:
本示例提供一种音素间隔时长方法,可如图8所示,包括:
获取音频文件;
VAD检测获取音素间隔时长;
得到音素间隔样本,例如,通过VAD处理音频文件,获取大量用户音素间隔时长样本,记录为x1,x2,x3...xn
计算样本音素平均值x=(x1+x2+x3+...+xn)/n
计算样本音素标准差:S=sqrt(S^2)
计算音素间隔时长T=标准差*3+平均值。
图9所示为一种确定是否满足连续性条件的方法,可包括:
获取音素间隔时长T;
获取唤醒词(即唤醒语音)前向或后向音素将时长M;
判断M>=T;
如果是,则可以判断当前非连续,否则为连续。此处判断当前非连续,即不满足前述第一连续性条件和/或前述第二连续性条件,此处的连续,即满足前述第一连续性条件和/或前述的第二连续性条件。
本实施例还提供一种电子设备,包括:
存储器,用于信息存储;
处理器,与存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,控制所述收发器的信息收发并实现前述任意实施例提供的语音唤醒处理方法,例如,如图1、图2、图5、图6、图7、图8及图9所示的方法。
所述处理器可为各种类型的处理器件,例如,中央处理器、微处理器、数字信号处理器或者可编程阵列等。
所述处理器,可以通过总线与所述存储器连接,例如,所述总线可为集成电路总线等。
在一些实施例中,所述电子设备还包括:语音唤醒模组,该语音唤醒模组至少包括麦克风及与麦克风连接的语音识别引擎等。
本实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现前述任意实施例提供的语音唤醒处理方法,例如,如图1、图2、图5、图6、图7、图8及图9所示的方法。本实施例提供的计算机存储介质可为非瞬间存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种语音唤醒处理方法,其特征在于,包括:
获取采集语音;
当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音,所述第一连续性条件包括:所述唤醒语音与所述第一语音之间的时间间隔小于第一阈值;
确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音,所述第二连续性条件包括:所述唤醒语音与所述第二语音之间的时间间隔小于第二阈值;
当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音;
当所述唤醒语音为所述采集语音中首个语音时,确定不符合所述第一连续性条件;
和/或,
当所述唤醒语音为所述采集语音中末个语音时,确定不符合所述第二连续性条件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
识别所述第二语音的语音内容;
所述确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,包括:
当所述第二语音的语音内容为第一类内容时,确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第一类内容包括:与指示电子设备执行特定操作或提供特定功能服务无关的语音内容。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述第二语音的语音内容为第二类内容时,确定不符合所述第二连续性条件;其中,所述第二类内容包括:指示所述电子设备被唤醒后执行预定功能的语音内容。
4.根据权利要求1所述的方法,其特征在于,所述当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音,包括:
在机制第一唤醒机制下,当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音,其中,所述第一唤醒机制为:需要独立的所述唤醒语音唤醒电子设备的唤醒机制。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在第二唤醒机制下,当符合所述第一连续性条件时,忽略所述唤醒语音,其中,所述第二唤醒机制为:允许所述唤醒语音后紧跟随着指示所述电子设备执行操作的操作语音。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
确定当前时刻的唤醒机制,其中,所述当前时刻的唤醒机制为:所述机制第一唤醒机制或者第二唤醒机制。
7.一种语音唤醒应答处理装置,其特征在于,包括:
获取模块,用于获取采集语音;
第一确定模块,用于当所述采集语音中包含唤醒语音时,确定所述唤醒语音与第一语音之间时间间隔是否符合第一连续性条件,其中,所述第一语音为所述采集语音中所述唤醒语音的前一个语音,所述第一连续性条件包括:所述唤醒语音与所述第一语音之间的时间间隔小于第一阈值;当所述唤醒语音为所述采集语音中首个语音时,确定不符合所述第一连续性条件;
第二确定模块,用于确定所述唤醒语音与第二语音之间的时间间隔是否符合第二连续性条件,其中,所述第二语音为所述采集语音中所述唤醒语音的后一个语音,所述第二连续性条件包括:所述唤醒语音与所述第二语音之间的时间间隔小于第二阈值;当所述唤醒语音为所述采集语音中末个语音时,确定不符合所述第二连续性条件;
忽略模块,用于当符合所述第一连续性条件和所述第二连续性条件中的至少一个时,忽略所述唤醒语音。
8.一种电子设备,其特征在于,包括:
存储器,
处理器,分别及所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,实现权利要求1至6任一项提供的所述语音唤醒处理方法。
9.一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现权利要求1至6任一项提供的所述语音唤醒处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910637844.XA CN110349579B (zh) | 2019-07-15 | 2019-07-15 | 语音唤醒处理方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910637844.XA CN110349579B (zh) | 2019-07-15 | 2019-07-15 | 语音唤醒处理方法及装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110349579A CN110349579A (zh) | 2019-10-18 |
CN110349579B true CN110349579B (zh) | 2021-10-15 |
Family
ID=68176379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910637844.XA Active CN110349579B (zh) | 2019-07-15 | 2019-07-15 | 语音唤醒处理方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110349579B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110673821B (zh) * | 2019-12-09 | 2020-05-01 | 苏宁云计算有限公司 | 一种智能设备唤醒反馈方法及智能设备 |
CN111028846B (zh) * | 2019-12-25 | 2022-08-16 | 北京梧桐车联科技有限责任公司 | 免唤醒词注册的方法和装置 |
CN111399910B (zh) * | 2020-03-12 | 2022-06-07 | 支付宝(杭州)信息技术有限公司 | 用户指令的处理方法及装置 |
CN112037794A (zh) * | 2020-08-31 | 2020-12-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备以及存储介质 |
CN112837694B (zh) * | 2021-01-29 | 2022-12-06 | 青岛海尔科技有限公司 | 设备唤醒方法、装置、存储介质及电子装置 |
CN115440210A (zh) * | 2022-04-27 | 2022-12-06 | 北京罗克维尔斯科技有限公司 | 语音控制方法、装置、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10143944A (ja) * | 1996-11-01 | 1998-05-29 | Olympus Optical Co Ltd | 再生装置 |
CN108899024A (zh) * | 2018-06-29 | 2018-11-27 | 联想(北京)有限公司 | 一种音频处理方法、电子设备及服务器 |
CN109686368B (zh) * | 2018-12-10 | 2020-09-08 | 北京梧桐车联科技有限责任公司 | 语音唤醒应答处理方法及装置、电子设备及存储介质 |
CN109903762B (zh) * | 2019-01-07 | 2021-01-29 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及语音设备 |
-
2019
- 2019-07-15 CN CN201910637844.XA patent/CN110349579B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110349579A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349579B (zh) | 语音唤醒处理方法及装置、电子设备及存储介质 | |
US10332524B2 (en) | Speech recognition wake-up of a handheld portable electronic device | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
EP2959474B1 (en) | Hybrid performance scaling for speech recognition | |
CN110148405B (zh) | 语音指令处理方法及装置、电子设备及存储介质 | |
CN109686368B (zh) | 语音唤醒应答处理方法及装置、电子设备及存储介质 | |
CN105009204B (zh) | 语音识别功率管理 | |
CN111768783B (zh) | 语音交互控制方法、装置、电子设备、存储介质和*** | |
CN110890093A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN105575395A (zh) | 语音唤醒方法及装置、终端及其处理方法 | |
CN114041283A (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
CN103971681A (zh) | 一种语音识别方法及*** | |
CN112700782A (zh) | 语音处理方法和电子设备 | |
CN111223490A (zh) | 声纹唤醒方法及装置、设备、存储介质 | |
CN110570840A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
CN109697981B (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN109166571A (zh) | 家电设备的唤醒词训练方法、装置及家电设备 | |
CN113160815B (zh) | 语音唤醒的智能控制方法、装置、设备及存储介质 | |
WO2022222045A1 (zh) | 语音信息处理方法及设备 | |
CN112435441B (zh) | 睡眠检测方法和可穿戴电子设备 | |
CN107483749A (zh) | 闹钟唤醒方法和终端 | |
CN114121042A (zh) | 免唤醒场景下的语音检测方法、装置及电子设备 | |
CN112673423A (zh) | 一种车内语音交互方法及设备 | |
CN111933138B (zh) | 语音控制方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |