CN112634895A - 语音交互免唤醒方法和装置 - Google Patents
语音交互免唤醒方法和装置 Download PDFInfo
- Publication number
- CN112634895A CN112634895A CN202011573239.XA CN202011573239A CN112634895A CN 112634895 A CN112634895 A CN 112634895A CN 202011573239 A CN202011573239 A CN 202011573239A CN 112634895 A CN112634895 A CN 112634895A
- Authority
- CN
- China
- Prior art keywords
- user
- voice interaction
- preset range
- wake
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 127
- 230000003993 interaction Effects 0.000 title claims abstract description 122
- 230000015654 memory Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006698 induction Effects 0.000 abstract description 29
- 230000008569 process Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开语音交互免唤醒方法和装置,其中,一种语音交互免唤醒方法,包括:响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;若第一预设范围内有用户出现,开启摄像头获取用户的相关信息,并判断用户是否在第二预设范围内出现;若用户在第二预设范围内出现,基于用户的相关信息判断用户是否有语音交互的意图;若用户有语音交互的意图,进入免唤醒语音交互模式。通过使用空间感应类传感器进行预判,从而可以大大减少***的功耗,进一步地,摄像头仅在空间感应类传感器获取到用户靠近才会开启,通过对用户的相关信息进行综合判断,从而可以更加精确的判断是否进入免唤醒语音交互模式。
Description
技术领域
本发明属于语音交互技术领域,尤其涉及语音交互免唤醒方法和装置。
背景技术
传统的语音唤醒采用语音唤醒词的方式,用户需要说提前定制好的固定的唤醒词来唤醒设备,比如“小X小X”,“XX精灵”。唤醒设备后才能进行后续的交互。但是这种方式会带来以下问题:在嘈杂的声学环境中,容易出现误唤醒和唤醒不了的情况;每次交互都需要先说唤醒词,会打破交互的连贯性,影响用户体验。本发明的出发点是设计一种智能免唤醒的语音交互方法,提升用户体验。
相似的技术:
方法A:触摸或点按按键实现免唤醒方法。
方法B:基于空间感应类传感器的免唤醒方法。
方法C:基于摄像头的免唤醒方法。
方法D:基于多模态信息(视觉、红外、超声等多种类传感器)的语音端点检测和语音增强。
其中,方法A:触摸或者点按按钮或按键(比如设备上的按钮或者遥控器)实现唤醒
方法B:该方法使用空间感应类传感器获得的信息(多模态信息的一种),实现免唤醒。空间感应类传感器包括红外或者超声测距传感器、红外或者超声接近检测传感器、压力传感器等,能够感知用户距离设备的距离,或者感知用户是否在某一区域内出现,或者感知区域内的人数。一种实现方式是,若检测到在设定好的某个区域内出现用户,或者该区域内用户的人数是一个,则进入免唤醒交互模式。
方法C:该方法使用摄像头拍摄的图片或者视频(多模态信息的一种),利用图像处理算法得到用户的相关信息,在一定条件下实现免唤醒。一种实现方式是,可以通过摄像头拍摄的视觉信息提取用户面部朝向、视线的注视方向、唇部的动作信息、用户的姿态、用户的位置等信息,当用户在特定的位置上、有特定的姿态、面朝设备、视线注视着设备且嘴唇在动的情况下唤醒设备。
方法D:用户首先先对设备进行唤醒,然后才能进行语音交互。在之后的语音交互中,需要判断语音输入的起点和终点,过滤掉无效音频,这个过程就是语音端点检测。传统做法是通过计算语音信号在一段时间内的能量大小来判断,这样会受到背景噪声或者其它无效人声的干扰。该方法使用多模态信息进行辅助,实现更准确的语音端点检测,同时对语音信号进行定向增强。具体做法,可以通过视觉模态判断发声对象的口型等面部信息,辅助判断语音的起点和终点,比如当用户面向设备并且张口的时候认为是有语音输入;通过视觉、红外、超声等确定发生对象的数量、位置等。通过以上因素可以判断是否有用户在说法,确定位置信息后,可以调节麦克风阵列对该位置的信号进行定向增强。
发明人在实现本申请的过程中发现,这些相似技术的缺陷包括:
方法A:需要走到交互设备附近,或者将遥控器、手机等遥控设备放到用户能够触控的距离内,增加了用户额外的操作,影响用户体验。在一些特殊场景,比如新冠疫情,用户不希望用手直接接触设备,不适用此方法。
方法B:获得信息有限,影响免唤醒条件判断的准确度,误唤醒情况严重,影响用户体验。
方法C:摄像头功耗比较大,对于一些对功耗敏感的设备不太适用,同时用户担心隐私泄露的问题。
方法D:不是解决免唤醒问题。
发明内容
本发明实施例提供一种语音交互免唤醒方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音交互免唤醒方法,包括:响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;若所述用户有语音交互的意图,进入免唤醒语音交互模式。
第二方面,本发明实施例提供一种语音交互免唤醒装置,包括:获取判断程序模块,配置为响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;开启判断程序模块,配置为若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;判断程序模块,配置为若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;进入程序模块,配置为若所述用户有语音交互的意图,进入免唤醒语音交互模式。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音交互免唤醒方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音交互免唤醒方法的步骤。
本申请的方法和装置通过使用空间感应类传感器进行预判,从而可以大大减少***的功耗,进一步地,摄像头仅在空间感应类传感器获取到用户靠近才会开启,通过对用户的相关信息进行综合判断,从而可以更加精确的判断是否进入免唤醒语音交互模式,还能够对用户的隐私得到一定程度的保护。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音交互免唤醒方法的流程图;
图2为本发明一实施例提供的另一种语音交互免唤醒方法的流程图;
图3为本发明一实施例提供的语音交互免唤醒方法的一个具体示例的主流程图;
图4为本发明一实施例提供的语音交互免唤醒方法的一个具体示例的第一阶段判断的子流程图;
图5为本发明一实施例提供的语音交互免唤醒方法的一个具体示例的第二阶段判断的子流程图;
图6为本发明一实施例提供的一种语音交互免唤醒装置的框图;
图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的语音交互免唤醒方法一实施例的流程图。
如图1所示,在步骤101中,响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;
在步骤102中,若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;
在步骤103中,若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;
在步骤104中,若所述用户有语音交互的意图,进入免唤醒语音交互模式。
在本实施例中,对于步骤101,语音交互免唤醒装置响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现,例如,设备启动后,空间感应类传感器持续检测设备的周边环境,通过算法对空间感应类传感器检测到的传感数据进行分析,判断是否有用户出现在第一预设范围内,例如,用户是否在预设的区域范围内出现或用户与设备的距离等。其中,空间感应类传感器,泛指能够检测空间距离和位置的传感器,比如红外或者超声测距传感器、红外或者超声接近检测传感器、压力传感器等,也可以是未来开发的能够检测空间距离和位置的传感器,本申请在此没有限制。
然后,对于步骤102,若第一预设范围内有用户出现,开启摄像头获取用户的相关信息,并判断用户是否在第二预设范围内出现,例如,摄像头对设备周边环境进行拍摄,通过视觉算法对摄像头拍摄到的图片或视频进行分析,获取用户的相关信息,例如,基于用户的人脸朝向、嘴唇动作、视线方向、姿态和距离等相关信息,在获取用户的相关信息的同时,还能够判断用户是否在第二预设范围内出现,例如,可以使用空间感应类传感器采集的传感数据判断和/或通过摄像头拍摄到的图像信息和/或视频信息进行判断。
之后,对于步骤103,若所述用户在第二预设范围内出现,基于用户的相关信息判断所述用户是否有语音交互的意图,例如,可以基于用户人脸的朝向是否面朝设备、用户的嘴唇是否处于活动状态或者用户的姿态是否与预设的姿态一致等来进行判断,也可以使上述多种方式进行组合的方法来判断用户是否有语音交互的意图。
最后,对于步骤104,若用户有语音交互的意图,进入免唤醒语音交互模式,例如,进入免唤醒语音交互模式之后用户能够直接与设备进行语音交互,不在需要唤醒词等唤醒操作。
本实施例的方法通过使用空间感应类传感器进行预判,从而可以大大减少***的功耗,进一步地,摄像头仅在空间感应类传感器获取到用户靠近才会开启,通过对用户的相关信息进行综合判断,从而可以更加精确的判断是否进入免唤醒语音交互模式,还能够对用户的隐私得到一定程度的保护。
在上述实施例所述的方法中,在所述判断在第一预设范围内是否有用户出现之后,所述方法还包括:
若在第二预设范围内没有用户出现,持续获取空间感应类传感器检测的传感数据。
在上述实施例所述的方法中,所述判断所述用户是否在第二预设范围内出现,所述方法还包括:
若用户没有在第二预设范围内出现,不开启摄像头并持续获取空间感应类传感器检测的传感数据。
本实施例的方法通过在用户没有在第二预设范围内出现时将摄像头关闭,从而可以使设备的功耗更小。
进一步参考图2,其示出了本申请一实施例提供的另一种语音交互免唤醒方法的流程图。该流程图主要是对流程图1中“判断所述用户是否有语音交互的意图”的流程进一步限定的步骤的流程图。
如图2所示,在步骤201中,若所述用户没有语音交互的意图,继续开启摄像头获取所述用户的相关信息,判断所述用户是否在第二预设范围内出现;
在步骤202中,若所述用户在所述第二预设范围内出现,再次判断所述用户是否有语音交互的意图。
在本实施例中,对于步骤201,若用户没有语音交互的意图,继续开启摄像头获取用户的相关信息,判断用户是否在第二预设范围内出现;之后,对于步骤202,若用户在第二预设范围内出现,再次判断用户是否有语音交互的意图,例如,在第一次判断用户没有语音交互的意图时,持续的获取用户的相关信息,直到通过用户的相关信息判断出用户有语音交互的意图或者用户走出第二预设范围,例如,判断出用户有语音交互的意图则进入免唤醒语音交互模式,若用户走出第二预设范围则关闭摄像头使用空间感应类传感器进行检测。
本实施例的方法通过多次判断用户是否有语音交互的意图,从而可以实现避免进入免唤醒模式失败的情况。
在上述实施例所述的方法中,所述判断所述用户是否在第二预设范围内出现包括:
使用空间感应类传感器采集的传感数据判断;和/或
使用摄像头拍摄到的图像信息和/或视频信息进行判断。
本实施例的方法通过使用空间感应类传感器采集的传感数据判断和/或使用摄像头拍摄到的图像信息和/或视频信息进行判断,从而可以精确的判断用户的意图。
在上述实施例所述的方法中,所述空间感应类传感器一直开启,持续检测周边环境。
本实施例的方法通过使用空间感应类传感器持续检测周边环境,从而可以使设备的功耗更小和保证用户的隐私保护。
在上述实施例所述的方法中,所述用户的相关信息包括:人脸朝向、嘴唇动作、视线方向、姿态和距离,例如,用户人脸的朝向、用户的嘴唇处于的活动状态、用户是否在看向设备或者用户的姿态是否与预设的姿态一致等。
本实施例的方法通过对人脸朝向、嘴唇动作、视线方向、姿态和距离等因素进行综合判断,从而可以更加精确的评估用户的状态。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:
方法A:由于需要用户主动点按该设备上的某个按钮或者某个位置才能够唤醒,需要用户进入该设备的附近,在有些场景下会对用户带来不便,比如用户在床上准备睡觉的时候,该设备放在距离床较远的窗台或者柜子上;如果是使用遥控器或者手机相关的设备进行点按,那么当它们不在用户身边的时候,用户需要先找到该遥控器或者手机,影响用户体验。在一些特殊场景,比如新冠疫情,用户不希望用手直接接触设备,不适用此方法。
方法B:红外或者超声测距传感器、红外或者超声接近检测传感器、压力传感器等空间感应类传感器获得的信息有限,只能判断用户距离设备的距离,或者判断用户是否在某个区域内出现,对于判断是否符合免唤醒的条件不是很充分,容易造成判断误差。
方法C:通过摄像头拍摄图像和视频,将图像和视频通过算法运算可以获得诸如人的位置、人脸朝向、嘴唇的动作、视线方向、姿态、性别、年龄等非常详细的信息,可以很精确的判断是否满足免唤醒交互的条件,缺点是摄像头需要一直处于工作状态,功耗比较大,对于一些对功耗敏感的设备不太适用;同时,由于摄像头一直在拍摄,在某些私密场合下,比如家居环境下,用户会担心隐私泄露问题。
方法D:该方法使用在设备唤醒以后的交互阶段,使用多模态信息辅助端点检测和语音增强。该方法解决的问题不同,不是解决唤醒或者免唤醒的问题,与本发明提出的方法处于语音交互过程的不同阶段。
发明人在实现本发明的过程中发现为什么不容易想到原因:
通常想到的方案是方法A、B和C,其中,方法A:语音交互***随着近几年人工智能技术发展而逐渐在产品中落地,本身是比较前沿的技术,很多机构和公司更容易把注意力集中到语音这一个模态上,这样实现起来难度较小。所以目前市面上大部分的语音交互产品是使用唤醒词唤醒设备的。方案中的点按按键的方案也是很自然想到的,因为点按按键是很容易实现的。
方法B:多模态技术在最近一两年逐渐在语音交互***中应用起来,多模态+语音交互是一个更新的事物,本身从事这个领域的企业和从业人员比较少。同时,将人工智能不同领域的技术结合在一起,难度大大增加,大多数行业从业人员把精力放在了如何实现上。而本发明提出的方法是一种优化方案,是基本功能实现之后在功耗、隐私方面的优化。
方法C:本行业从业人员提出的多模态免唤醒方案,往往只解决某一个最关心的问题,而忽略了另外的问题。比如使用摄像头作为一个模态,能够使免唤醒方案的精度很高,但是功耗和隐私不能保证;使用空间感应类传感器能够保证功耗和隐私,但是精度不够。原因可能是设备硬件的限制,无法同时安装这两类传感器;也可能是没有遇到既要保证精度,又要保证功耗和隐私保护的场景;又或者隐私保护没有受到从业人员很大的重视。
最大难点:多模态+语音交互的技术本身比较前沿,将多个方向的技术结合在一起有一定的难度。同时,多模态语音交互技术的应用较少,能够发现多模态免唤醒应用中,既要保证准确率又要保证功率和隐私保护的应用场景也是一个很难的点,因为这跟技术的推广和落地使用息息相关。
发明人还发现:传统的语音唤醒采用语音唤醒词的方式,用户需要说提前定制好的固定的唤醒词来唤醒设备,比如“小度小度”,“天猫精灵”。唤醒设备后才能进行后续的交互。但是这种方式会带来以下问题:在嘈杂的声学环境中,容易出现误唤醒和唤醒不了的情况;每次交互都需要先说唤醒词,会打破交互的连贯性,影响用户体验。本发明的出发点是设计一种智能免唤醒的语音交互方法,提升用户体验。
其中,方法A:用户需要点按设备按键或者遥控器的按键进行额外的操作,当用户距离点按设备较远时会带来不便。同时存在不适合直接接触公共按键的情况,比如新冠疫情。
方法B:使用空间感应类传感器获取的信息较单一,影响免唤醒条件判断的精度,误唤醒的情况较严重。
方法C:该方法需要摄像头一直处于工作状态,功耗较大,且用户会担心隐私泄露。
方法D:解决的是端点检测和语音增强的问题,而不是免唤醒问题。
发明人在实现本发明的过程中发现本发明与现有技术的区别:
本发明同时使用摄像头和空间感应类传感器,但是摄像头不是一直开启,需要满足一定条件才开启,该条件可以通过空间感应类传感器获取的信息进行判断。而现有技术中,一类技术只使用上述中的某一类传感器,精度、功耗和隐私保护不能同时满足;一类技术两类传感器同时使用,但是两类都一直处于开启状态,只做一次是否免唤醒的条件判决,功耗和隐私保护要求不能满足。
优点:两类传感器相互配合,将免唤醒判决过程分成两个阶段,同时能够满足免唤醒的精度、功耗和隐私保护的要求。
本申请的方案主要从以下几个方面入手进行设计和优化:
随着语音交互技术的发展和语音交互设备的普及,设备的配置和性能也越来越高,很多设备上配备了多模态输入的设备,比如摄像头、超声、红外设备等。多模态数据提供了更多的用户信息,能够帮助设备做更加智能化的决策,自然想到了利用这些多模态的信息帮助设备实现免唤醒的交互方式。
通过体验已有的产品和查询相关论文和专利,了解到了方法a、b和c的实现方式。而自己当前正在参与预研的项目中,同时有免唤醒精度、功耗和用户隐私都要保证的需求,所以想到了结合使用两类传感器信息的两级免唤醒的方法。
设计构思和原理:设备同时配备空间感应类传感器和摄像头,其中空间感应类传感器是一直开启的,摄像头仅在一定条件下打开。由于空间感应类传感器价格较低,功耗较小,没有用户隐私泄露问题,可以一直开启,而摄像头只在符合条件时开启,这样就集成了方案b和方案c的优点,同时避免了二者的缺点。
整个免唤醒过程包含两个阶段(两级):
第一阶段,打开空间感应类传感器,获取和分析传感器信息,判断在预定的范围内是否有用户,若出现用户,则打开摄像头,进入第二阶段。否则继续保持在第一阶段,持续检测是否有用户出现在预定的范围内。
第二阶段,开启摄像头,获取摄像头拍摄的图像和视频信息,使用图像处理算法获取用户的相关信息,比如人脸朝向、嘴唇动作、视线方向、姿态、用户距离等,通过这些信息判断用户是否有语音交互的意图,若有交互意图则进入免唤醒交互模式。
请参考图3,其示出了本发明一实施例提供的语音交互免唤醒方法的一个具体示例的主流程图。
如图3所示,步骤1:进入第一阶段判断子流程,该子流程用于判断是否满足第一级免唤醒的条件。若满足该条件则进入第二阶段判断子流程。
步骤2:进入第二阶段判断子流程,该子流程用于判断是否满足第二级免唤醒的条件。若满足该条件则进入免唤醒交互模式。
步骤3:在免唤醒交互模式下,用户可以直接与设备进行语音交互,无需唤醒。
步骤4:用户与设备进行持续的语音交互,直到交互任务结束,设备重新进入第一阶段判断子流程。在这里不限定任务结束的判断条件,可以是用户主动说退出交互,也可以是在预设的时间范围内无用户的语音输入,亦可以是利用多模态信息判断交互结束。
请参考图4,其示出了本发明一实施例提供的语音交互免唤醒方法的一个具体示例的第一阶段判断的子流程图。
如图4所示,步骤1:开启空间感应类传感器,检测设备周边环境。
步骤2:获取空间感应类传感器的数据,通过算法对数据进行分析,获取用户相关的信息,比如用户是否在某个区域内出现,用户与设备的距离等。
步骤3:判断用户是否在某个区域范围内出现,若没有用户出现,则重复步骤2;若出现用户,则进入第二阶段判断的子流程。
请参考图5,其示出了本发明一实施例提供的语音交互免唤醒方法的一个具体示例的第二阶段判断的子流程图。
如图5所示,步骤1:开启摄像头,对设备周边环境进行拍摄。
步骤2:获取摄像头拍摄到的图片或者视频,通过视觉算法对图片或者视频进行分析,获取用户相关的信息,比如人脸朝向、嘴唇动作、视线方向、姿态、距离等。
步骤3:判断用户是否在某个区域范围内出现,若没有用户出现,返回第一阶段判断子流程(图4);若出现用户,则进入下一步的判断。该判断过程可以与第一阶段判断子流程(图4)的步骤3一致,使用空间感应类传感器的信息进行判断;也可以使用摄像头拍摄到的图像或视频信息进行判断,分析拍摄到的画面中是否出现人脸,该人脸是否在预设的区域范围内。以上两种方式在此不做限定。
步骤4:判断用户是否有语音交互的意图,若没有语音交互的意图,则重复步骤2;否则进入免唤醒交互模式。该判断过程的实现方式不做具体限定。一种方式是判断人脸与设备的距离和角度是否在预设的范围内;一种方式是判断人脸的朝向是否在预设的范围内(面朝设备);一种方式是判断视线方向是否在预设范围内(注视设备);一种方式是判断嘴唇是否处于活动状态(说话状态);一种方式是判断用户的姿态是否与预设的姿态一直;也可以是以上几种方式的多种组合。
发明人在实现本发明的过程中发现本发明达到的效果:
技术效果1:与使用图像免唤醒方案相比,功耗更小,保证用户的隐私保护。这是由于将免唤醒判断过程分为两个阶段,第一阶段使用功耗更小的空间感应类传感器进行预判,实际场景中大多数时间处于第一阶段,从而大大减少了***的功耗;摄像头仅在第二阶段开启,大大减少了用户被拍摄到的时间,从而用户隐私得到一定程度的保护(参考第一阶段判断子流程-图4)。
技术效果2:与仅使用空间感应类传感器的免唤醒方案相比,免唤醒的精度更高,误唤醒概率降低。这是因为本方案保留了摄像头的使用,通过对人脸、唇动、视线、姿态、距离等因素的综合判断,可以更精确的评估当前用户的状态,是否有交互的需求,从而判断是否进入免唤醒交互模式。(参考第二阶段判断子流程-图5)。
发明人在实现本发明的过程中形成的beta版:
头脑风暴中,出现过已有方案的方法B和C。
Beta版1:通过摄像头拍摄图像和视频,分析人脸与设备之间的距离,当该距离某一预设范围内时进入免唤醒交互模式;当有多个人脸同时出现时,以最大(最近)的人脸作为交互对象。该方案需要摄像头常开,适用于对功耗和隐私要求不高的场合,比如车站等公共场合。
关键创新点1:同时使用空间感应类传感器和摄像头来实现免唤醒。
关键创新点2:空间感应类传感器和摄像头分别用于不同的判决阶段,充分利用了两类传感器的优点(空间感应类传感器功耗小,无隐私泄漏问题,但是精度低;摄像头判断精度高,但是功耗大,有隐私泄漏问题)。第一阶段实现初判,第二阶段进行更加精细的判决。
发明人在实现本发明的过程中发现达到更深层次的效果:
本方案中提到的判断用户是否有交互意图的方法,还可以用于交互过程中有效音频的判断,过滤噪声和无效的背景人声,即语音端点检测和语音增强的功能。
请参考图6,其示出了本发明一实施例提供的语音交互免唤醒装置的框图。
如图6所示,语音交互免唤醒装置600,包括获取判断程序模块610、开启判断程序模块620、判断程序模块630和进入程序模块640。
其中,获取判断程序模块610,配置为响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;开启判断程序模块620,配置为若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;判断程序模块630,配置为若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;进入程序模块640,配置为若所述用户有语音交互的意图,进入免唤醒语音交互模式。
应当理解,图6中记载的诸模块与参考图1、和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如获取判断程序模块可以描述为响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如获取判断程序模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音交互免唤醒方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;
若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;
若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;
若所述用户有语音交互的意图,进入免唤醒语音交互模式。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据语音交互免唤醒装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音交互免唤醒装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音交互免唤醒方法。
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音交互免唤醒方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音交互免唤醒方法。输入装置730可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音交互免唤醒装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;
若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;
若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;
若所述用户有语音交互的意图,进入免唤醒语音交互模式。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音交互免唤醒方法,包括:
响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;
若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;
若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;
若所述用户有语音交互的意图,进入免唤醒语音交互模式。
2.根据权利要求1所述的方法,其中,在所述判断在第一预设范围内是否有用户出现之后,所述方法还包括:
若在第二预设范围内没有用户出现,持续获取空间感应类传感器检测的传感数据。
3.根据权利要求1所述的方法,其中,所述判断所述用户是否在第二预设范围内出现,所述方法还包括:
若所述用户没有在所述第二预设范围内出现,不开启摄像头并持续获取空间感应类传感器检测的传感数据。
4.根据权利要求1所述的方法,其中,所述判断所述用户是否有语音交互的意图,所述方法还包括:
若所述用户没有语音交互的意图,继续开启摄像头获取所述用户的相关信息,判断所述用户是否在第二预设范围内出现;
若所述用户在所述第二预设范围内出现,再次判断所述用户是否有语音交互的意图。
5.根据权利要求1所述的方法,其中,所述判断所述用户是否在第二预设范围内出现包括:
使用空间感应类传感器采集的传感数据判断;和/或
使用摄像头拍摄到的图像信息和/或视频信息进行判断。
6.根据权利要求1-5中任一项所述的方法,其中,所述空间感应类传感器一直开启,持续检测周边环境。
7.根据权利要求6所述的方法,其中,所述用户的相关信息包括:人脸朝向、嘴唇动作、视线方向、姿态和距离。
8.一种语音交互免唤醒装置,包括:
获取判断程序模块,配置为响应于获取到空间感应类传感器检测的传感数据,判断在第一预设范围内是否有用户出现;
开启判断程序模块,配置为若所述第一预设范围内有用户出现,开启摄像头获取所述用户的相关信息,并判断所述用户是否在第二预设范围内出现;
判断程序模块,配置为若所述用户在所述第二预设范围内出现,基于所述用户的相关信息判断所述用户是否有语音交互的意图;
进入程序模块,配置为若所述用户有语音交互的意图,进入免唤醒语音交互模式。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573239.XA CN112634895A (zh) | 2020-12-25 | 2020-12-25 | 语音交互免唤醒方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573239.XA CN112634895A (zh) | 2020-12-25 | 2020-12-25 | 语音交互免唤醒方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112634895A true CN112634895A (zh) | 2021-04-09 |
Family
ID=75325498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573239.XA Withdrawn CN112634895A (zh) | 2020-12-25 | 2020-12-25 | 语音交互免唤醒方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634895A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593544A (zh) * | 2021-06-11 | 2021-11-02 | 青岛海尔科技有限公司 | 设备的控制方法和装置、存储介质及电子装置 |
CN114007168A (zh) * | 2021-11-03 | 2022-02-01 | 长沙楚风数码科技有限公司 | 一种智能音频控制***及方法 |
CN117119102A (zh) * | 2023-03-21 | 2023-11-24 | 荣耀终端有限公司 | 语音交互功能的唤醒方法及电子设备 |
CN117133282A (zh) * | 2023-03-27 | 2023-11-28 | 荣耀终端有限公司 | 一种语音交互方法及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109955257A (zh) * | 2017-12-22 | 2019-07-02 | 深圳市优必选科技有限公司 | 一种机器人的唤醒方法、装置、终端设备和存储介质 |
CN111179927A (zh) * | 2019-12-20 | 2020-05-19 | 恒银金融科技股份有限公司 | 一种金融设备语音交互方法以及*** |
-
2020
- 2020-12-25 CN CN202011573239.XA patent/CN112634895A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109955257A (zh) * | 2017-12-22 | 2019-07-02 | 深圳市优必选科技有限公司 | 一种机器人的唤醒方法、装置、终端设备和存储介质 |
CN111179927A (zh) * | 2019-12-20 | 2020-05-19 | 恒银金融科技股份有限公司 | 一种金融设备语音交互方法以及*** |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593544A (zh) * | 2021-06-11 | 2021-11-02 | 青岛海尔科技有限公司 | 设备的控制方法和装置、存储介质及电子装置 |
CN114007168A (zh) * | 2021-11-03 | 2022-02-01 | 长沙楚风数码科技有限公司 | 一种智能音频控制***及方法 |
CN117119102A (zh) * | 2023-03-21 | 2023-11-24 | 荣耀终端有限公司 | 语音交互功能的唤醒方法及电子设备 |
CN117133282A (zh) * | 2023-03-27 | 2023-11-28 | 荣耀终端有限公司 | 一种语音交互方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109427333B (zh) | 激活语音识别服务的方法和用于实现所述方法的电子装置 | |
EP3179474B1 (en) | User focus activated voice recognition | |
CN112634895A (zh) | 语音交互免唤醒方法和装置 | |
WO2021013137A1 (zh) | 一种语音唤醒方法及电子设备 | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
WO2020020063A1 (zh) | 对象识别方法及移动终端 | |
CN108711430B (zh) | 语音识别方法、智能设备及存储介质 | |
CN111933112B (zh) | 唤醒语音确定方法、装置、设备及介质 | |
WO2022110614A1 (zh) | 手势识别方法及装置、电子设备和存储介质 | |
CN112860169B (zh) | 交互方法及装置、计算机可读介质和电子设备 | |
CN110910887B (zh) | 语音唤醒方法和装置 | |
US11222231B2 (en) | Target matching method and apparatus, electronic device, and storage medium | |
CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
CN108881544B (zh) | 一种拍照的方法及移动终端 | |
CN109618218B (zh) | 一种视频处理方法及移动终端 | |
EP2992403B1 (en) | Depth sensors | |
EP4199488A1 (en) | Voice interaction method and electronic device | |
CN111387978A (zh) | 一种表面肌电信号的动作段检测方法、装置、设备及介质 | |
CN112739507B (zh) | 一种交互沟通实现方法、设备和存储介质 | |
CN111105792A (zh) | 语音交互处理方法及装置 | |
CN113035196A (zh) | 用于自助一体机的无接触操控方法和装置 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110262767B (zh) | 基于靠近嘴部检测的语音输入唤醒装置、方法和介质 | |
CN111862972A (zh) | 语音交互服务方法、装置、设备及存储介质 | |
WO2023231211A1 (zh) | 语音识别方法、装置、电子设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
CB02 | Change of applicant information | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210409 |
|
WW01 | Invention patent application withdrawn after publication |