CN111833863B - 语音控制***、方法和装置以及计算设备和存储介质 - Google Patents

语音控制***、方法和装置以及计算设备和存储介质 Download PDF

Info

Publication number
CN111833863B
CN111833863B CN201910325459.1A CN201910325459A CN111833863B CN 111833863 B CN111833863 B CN 111833863B CN 201910325459 A CN201910325459 A CN 201910325459A CN 111833863 B CN111833863 B CN 111833863B
Authority
CN
China
Prior art keywords
intelligent
voice
intelligent device
feature data
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910325459.1A
Other languages
English (en)
Other versions
CN111833863A (zh
Inventor
韩翀蛟
罗奎
章伟明
陈宣雍
刁宏锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910325459.1A priority Critical patent/CN111833863B/zh
Publication of CN111833863A publication Critical patent/CN111833863A/zh
Application granted granted Critical
Publication of CN111833863B publication Critical patent/CN111833863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

公开了一种语音控制***、方法和装置以及计算设备和存储介质。该语音控制方法包括:获取来自至少两个智能设备的特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;基于所述特征数据,确定所述至少两个智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策;以及向所述至少两个智能设备发送对应于其语音控制决策的控制指令。由此,通过控制使得处于至少两个智能设备的拾音范围内的语音被唯一响应,以解决多台智能设备同时被唤醒带来的用户体验问题。

Description

语音控制***、方法和装置以及计算设备和存储介质
技术领域
本公开涉及互联网技术领域,特别涉及一种语音控制***、方法和装置以及计算设备和存储介质。
背景技术
随着信息技术的飞速发展,越来越多的智能语音设备被投入使用,用户通过简单的语音唤醒即可唤醒相关智能语音设备,为用户生活提供了更多便利。但是,当用户处于多台智能语音设备拾音范围内时,这多台智能语音设备均会采集到用户的语音,并分别被唤醒而与用户进行交互,导致多台智能语音设备的应答音频重叠,影响用户体验。
因此,需要一种改进的语音控制策略,以解决上述问题。
发明内容
本公开的目的是提供一种语音控制***及语音控制方法和装置,以解决多台智能语音设备同时被唤醒带来的用户体验问题。
根据本公开的第一个方面,提供了一种语音控制方法,该方法包括:获取来自至少两个智能设备的特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;基于所述特征数据,确定所述至少两个智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策;以及向所述至少两个智能设备发送对应于其语音控制决策的控制指令。
可选地,所述语音控制决策可以包括:使距离所述语音发出者最近的智能设备允许被唤醒;或者使除了距离所述语音发出者最近的智能设备以外的智能设备禁止被唤醒。
可选地,该方法还可以包括:以一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备;获取不同于所述第一智能设备的第二智能设备响应于同一语音的特征数据;向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备。
可选地,在满足预定条件的情况下,向第一智能设备发送唤醒控制指令。
可选地,该方法还包括:针对同一语音,在向第一智能设备发送唤醒控制指令之后,在获取到来自其它智能设备的特征数据的情况下,向所述其它智能设备发送禁止被唤醒的控制指令。
可选地,所述预定条件包括如下的至少一项:针对同一语音,从接收到第一个智能设备发送的特征数据起达到预设的决策时间;针对同一语音,在预定时间段内未接收到来自智能设备的特征数据。
可选地,所述方法由服务器和/或决策终端执行,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,所述服务器与所述多个智能设备之间基于无线通信网络通信;并且/或者所述多个智能设备之间基于本地局域网通信。
可选地,所述服务器和/或所述决策终端获取来自至少两个智能设备的特征数据,并向所述至少两个智能设备发送对应于其语音控制决策的控制指令,所述智能设备执行先接收到的所述控制指令。
可选地,该方法还可以包括:向所述多个智能设备发送设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。
可选地,所述特征数据可以包括如下的至少一项:基于所述语音计算得到的唤醒能量值;所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述用户的图像;采集所述语音时探测到的用户与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
根据本公开的第二个方面,还提供了一种语音控制方法,该方法包括:获取来自至少两个智能设备的特征数据;基于所述特征数据,确定所述至少两个智能设备各自与语音发出者之间的关联关系;基于所述关联关系,确定对应于所述至少两个智能设备的语音控制决策;以及向至少一个智能设备发送对应于其语音控制决策的控制指令。
可选地,所述语音控制决策可以包括:使对应于最强关联关系的智能设备允许被唤醒;或者使除了对应于最强关联关系的智能设备以外的智能设备禁止被唤醒。
可选地,所述方法由决策端执行,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,所述服务器与所述多个智能设备之间基于无线通信网络通信;并且/或者所述多个智能设备之间基于本地局域网通信。
可选地,所述决策端可以包括服务器和/或决策终端,其中,所述服务器和/或所述决策终端获取来自至少两个智能设备的特征数据,并向至少一个智能设备发送对应于其语音控制决策的控制指令,所述智能设备执行先接收到的所述控制指令。
可选地,所述关联关系包括所述智能设备相对于所述语音发出者的距离;或者所述关联关系包括能够表征所述智能设备相对于所述语音发出者的距离的参数。
可选地,所述特征数据包括如下的至少一项:基于所述语音计算得到的唤醒能量值;所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述语音发出者的图像;采集所述语音时探测到的语音发出者与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
根据本公开的第三个方面,还提供了一种语音控制方法,应用于智能设备,该方法包括:采集用户发出的语音;向服务器发送对应于所述语音的特征数据,并在所述智能设备不是被指定的决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;接收来自所述服务器和/或所述决策终端的控制指令;执行先接收到的所述控制指令。
可选地,在所述智能设备是被指定的决策终端的情况下,所述方法还包括:获取来自至少两个智能设备的特征数据,所述特征数据用于确定所述智能设备与所述用户之间的距离;基于所述特征数据,确定所述至少两个智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策;以及向所述至少两个智能设备发送对应于其语音控制决策的控制指令。
可选地,该方法还可以包括:响应于接收到唤醒控制指令而唤醒;并且/或者响应于接收到禁止被唤醒的控制指令而禁止唤醒。
可选地,该方法还可以包括:在发送所述特征数据之后预设等待时长内未接收到控制指令的情况下,自动唤醒。
可选地,该方法还可以包括:基于从发送所述特征数据到接收所述控制指令的等待耗时,更新所述预设等待时长。
可选地,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,所述智能设备与所述服务器之间基于无线通信网络通信;并且/或者所述多个智能设备之间基于本地局域网通信。
可选地,所述特征数据包括如下的至少一项:基于所述语音计算得到的唤醒能量值;所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述语音发出者的图像;采集所述语音时探测到的语音发出者与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
可选地,该方法还可以包括:对所采集到的语音进行滤波处理,并基于滤波处理后的语音计算得到唤醒能量值,作为所述特征数据。
可选地,该方法还可以包括:接收设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。
根据本公开的第四个方面,还提供了一种语音控制方法,应用于智能设备,该方法包括:采集用户发出的语音;向决策端发送对应于所述语音的特征数据,所述特征数据用于确定所述智能设备与所述用户之间的关联关系;接收来自所述决策端的控制指令,所述控制指令对应于所述决策端基于所述关联关系确定的语音控制决策;执行所接收到的所述控制指令。
可选地,所述决策端包括服务器和/或决策终端,其中,所述智能设备向所述服务器和/或所述决策终端发送对应于所述语音的特征数据;以及/或者所述智能设备接收来自所述服务器和/或所述决策终端的控制指令,并执行先接收到的所述控制指令。
可选地,所述智能设备与所述服务器之间基于无线通信网络通信;并且/或者所述智能设备与所述决策终端之间基于本地局域网通信。
可选地,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,在所述智能设备为决策终端的情况下,所述方法还包括:获取来自至少两个智能设备的特征数据;基于所述特征数据,确定所述至少两个智能设备各自与所述用户之间的关联关系;基于所述关联关系,确定对应于所述至少两个智能设备的语音控制决策;以及向至少一个智能设备发送对应于其语音控制决策的控制指令。
可选地,所述多个智能设备属于同一设备组,所述方法还包括:接收设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。
可选地,所述语音控制决策包括:使对应于最强关联关系的智能设备允许被唤醒;以及/或者使除了对应于最强关联关系的智能设备以外的智能设备禁止被唤醒。
可选地,所述关联关系包括所述智能设备相对于所述语音发出者的距离;或者所述关联关系包括能够表征所述智能设备相对于所述语音发出者的距离的参数。
可选地,所述特征数据包括如下的至少一项:基于所述语音计算得到的唤醒能量值;所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述用户的图像;采集所述语音时探测到的用户与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
根据本公开的第五个方面,还提供了一种语音控制***,包括决策端和多个智能设备,所述决策端能够与所述多个智能设备相互通信,其中,所述智能设备采集用户发出的语音,向所述决策端发送对应于所述语音的特征数据;所述决策端获取来自至少两个智能设备的特征数据,并基于所述特征数据,确定所述至少两个智能设备各自与所述用户之间的关联关系,基于所述关联关系确定对应于所述至少两个智能设备的语音控制决策,并向至少一个智能设备发送对应于其语音控制决策的控制指令;所述智能设备接收来自所述决策端的控制指令,并执行所述控制指令。
根据本公开的第六个方面,还提供了一种语音控制***,包括服务器和多个智能设备,所述服务器能够与所述多个智能设备相互通信,其中,一个智能设备被指定为决策终端,所述决策终端能够与其它智能设备通信,所述智能设备采集用户发出的语音,向所述服务器发送对应于所述语音的特征数据,并在所述智能设备不是所述决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据能够用于确定所述智能设备与所述用户之间的距离;所述服务器和所述决策终端获取来自至少两个智能设备的特征数据,并基于所述特征数据,确定所述至少两个智能设备各自与所述用户之间的距离或能够表征所述距离的参数,基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策,并向所述至少两个智能设备发送对应于其语音控制决策的控制指令;所述智能设备接收来自所述服务器和/或所述决策终端的控制指令,并执行先接收到的所述控制指令。
根据本公开的第七个方面,还提供了一种语音控制装置,包括:第一获取装置,用于获取来自至少两个智能设备的特征数据,所述特征数据用于确定所述智能设备与所述用户之间的距离;第一距离装置,用于基于所述特征数据,确定所述至少两个智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;第一决策装置,用于基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策;以及第一通信装置,用于向所述至少两个智能设备发送对应于其语音控制决策的控制指令。
根据本公开的第八个方面,还提供了一种语音控制装置,包括:第一获取装置,用于获取来自至少两个智能设备的特征数据;第一距离装置,用于基于所述特征数据,确定所述至少两个智能设备各自与语音发出者之间的关联关系;第一决策装置,用于基于所述关联关系,确定对应于所述至少两个智能设备的语音控制决策;以及第一通信装置,用于向至少一个智能设备发送对应于其语音控制决策的控制指令。
根据本公开的第九个方面,还提供了一种语音控制装置,包括:语音采集装置,用于采集用户发出的语音;第二通信装置,用于向服务器发送对应于所述语音的特征数据,并在所述智能设备不是被指定的决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据用于确定所述智能设备与语音决策者之间的距离;第三通信装置,用于接收来自所述服务器和/或所述决策终端的控制指令;控制子装置,用于执行先接收到的所述控制指令。
根据本公开的第十个方面,还提供了一种语音控制装置,包括:语音采集装置,用于采集用户发出的语音;第二通信装置,用于向决策端发送对应于所述语音的特征数据,所述特征数据用于确定所述智能设备与所述用户之间的关联关系;第三通信装置,用于接收来自所述决策端的控制指令,所述控制指令对应于所述决策端基于所述关联关系确定的语音控制决策;控制子装置,用于执行所接收到的所述控制指令。
根据本公开的第十一个方面,还提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
根据本公开的第十二个方面,还提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
由此,本公开的语音控制方案,可以通过控制,使得接收到同一语音的至少两个智能设备中之一被唯一唤醒并与用户交互,以解决多个智能设备同时响应、语音播报造成的用户体验差的问题。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一个实施例的语音控制***的示意图。
图2示出了根据本公开一个实施例的语音控制的通信示意图。
图3示出了根据本公开一个实施例的语音控制流程示意图。
图4示出了根据本公开一个实施例的语音控制方法的流程示意图。
图5示出了根据本公开一个实施例的语音控制方法的流程示意图。
图6示出了根据本公开一个实施例的语音控制装置的示意图。
图7示出了根据本公开一个实施例的语音控制装置的示意图。
图8示出了根据本发明一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
如前所述,在当用户处于多台智能语音设备的拾音范围内时,这多台智能语音设备均能够采集到用户的语音和指令并被唤醒,之后分别向用户进行语音播报,导致多台智能语音设备的应答音频重叠,影响用户体验。
有鉴于此,本公开提出了一种语音控制方案,通过控制,使得接收到同一语音的至少两个智能设备中之一被唯一唤醒并与用户交互,以解决多个智能设备同时响应、语音播报造成的用户体验差的问题。
在描述本公开的语音控制方案之前,首先结合附图及实施例对执行该方案的语音控制***以及语音控制机制进行说明。
图1示出了根据本公开一个实施例的语音控制***的示意图。图2示出了根据本公开一个实施例的语音控制的通信示意图。
如图1所示,本公开的语音控制***10可以包括决策端11和多个智能设备(12-1、12-2、12-3、……、12-n)。
所述决策端11能够与所述多个智能设备12相互通信,例如经由路由器13实现通信。
所述智能设备120能够采集用户发出的语音,并向所述决策端11发送对应于所述语音的特征数据。所述决策端11可以分别获取来自至少两个智能设备的特征数据,并基于所述特征数据,确定所述至少两个智能设备各自与语音发出者之间的关联关系,基于所述关联关系确定对应于所述至少两个智能设备的语音控制决策,并向至少一个智能设备发送对应于其语音控制决策的控制指令。所述智能设备12可以接收来自所述决策端的控制指令,并执行所述控制指令。
发出上述语音的语音发出者可以是用户,也可以是终端设备,本公开对此不做限制。
上述特征数据可以是能够用于确定采集到语音的智能设备与语音发出者之间的关联关系。
该特征数据的形式多样,且可以采用不同的技术获得(下文详述)。例如,特征数据可以包括基于所述语音计算得到的唤醒能量值。或者,特征数据可以包括所采集到的所述语音中的唤醒词的置信度。或者,特征数据可以包括采集所述语音时采集到的所述语音发出者的图像。或者,特征数据可以包括采集所述语音时探测到的语音发出者与智能设备的距离数据。或者,特征数据可以包括所述智能设备的WiFi信道状态信息等。在实际应用场景中,可以根据实际需要方便地选择相应的技术以获取所需的特征数据,本公开对此不做限制。
上述关联关系可以采集到语音的智能设备与发出该语音的语音发出者之间的关联关系,该关联关系可以以预定的参数或者数值表征,并且该表征关联关系的参数或者数值可以对应于关联关系的强度。
例如,在本发明实施例中,该关联关系可以包括所述智能设备相对于所述语音发出者的距离。或者,所述关联关系可以包括能够表征所述智能设备相对于所述语音发出者的距离的参数。在一个实施例中,距离数值最小或者表征距离的参数的数值最小,可以认为对应于最强关联关系,反之,距离数值最大或者表征距离的参数的数值最大,可以认为对应于最弱关联关系。
语音控制决策可以是与关联关系对应确定的。例如,在上述关联关系对应于距离关系时,该语音控制决策例如可以包括使对应于最强关联关系的智能设备允许被唤醒,或者,使除了对应于最强关联关系的智能设备以外的智能设备禁止被唤醒。
应当理解的是,在此仅是对智能设备与语音发出者之间的关联关系或者相应的语音控制决策的示意性举例而非限定,在其它实施例中,上述关联关系例如还可以是智能设备与语音发出者之间的从属关系、控制关系、指令关系等。相应的语音控制决策例如可以包括向其子设备转发控制指令等。在此不再赘述。
上述决策端11可以是服务器,也可以是决策终端(或者称之为主设备),或者还可以是服务器和决策终端,本公开对此不做限制。
其中,服务器能够与这多个智能设备相互通信,例如基于无线网络。决策终端也可以与这多个智能设备相互通信,例如基于无线网络。在一个实施例中,决策终端与多个智能设备之间也可以基于本地局域网络进行通信,从而避免无线网络状况较差而导致的时延或者数据或指令无法及时传输。如图1所示,作为决策端的服务器和/或决策终端,与多个智能设备之间的通信可以经由路由器13。应当理解的是,本公开实施例中,各个智能设备之间也是可以通信的,在此不再赘述。
在一个实施例中,上述决策终端还可以是多个智能设备中的一个设备。其中,服务器可以指定多个智能设备中的一个为决策终端,并向多个智能设备发送设备信息表,该设备信息表中可以包括被指定为决策终端的智能设备的设备信息。在另一个实施例中,该决策终端也可以是与多个智能设备具有关联关系(例如在同一预定范围内、或者属于同一网络等等)且处理能够较强的设备。在不同的应用场景下,可以根据需要设定决策设备,本公开对此不做限制。
在一个实施例中,服务器和/或所述决策终端可以获取来自至少两个智能设备的特征数据,并向至少一个智能设备发送对应于其语音控制决策的控制指令,所述智能设备执行先接收到的所述控制指令。由此,保障语音控制决策能够下发到智能设备,以减少时延或者避免由于通信质量较差而导致无设备响应等情况。
为了更好地理解本公开的语音控制方案,如下,将以服务器和决策终端两者均作为决策者、以智能设备与语音发出者之间的关联关系对应于两者之间的距离为例,进行详细说明。应当理解的是,本公开实施例仅是示意性说明而非限定,其中涉及的细节也适用于服务器或者决策设备单独决策。
以服务器和决策终端两者均作为决策者、以智能设备与语音发出者之间的关联关系对应于两者之间的距离为例,参见图2所示的通信示意图,本公开的语音控制***,可以包括服务器11-1和多个智能设备(12-1、12-2、12-3、……、12-n),所述服务器11-1能够经由路由器13与所述多个智能设备相互通信。
在一个实施例中,这多个智能设备中的一个,例如智能设备12-1,可以被指定为决策终端,所述决策终端12-1能够经由其它路由器13与其它智能设备通信。其中,例如可以由服务器指定决策终端,并可以向这多个智能设备发送设备信息表,该设备信息表至少可以包括被指定为决策终端的智能设备的设备信息,以便于这多个智能设备知悉其该向哪一个设备发送特征数据。
参见图2,智能设备(包括被指定为决策终端的智能设备12-1)能够采集用户发出的语音,并能够在图2所示的步骤2中,向所述服务器11-1发送对应于所述语音的特征数据。所述特征数据能够用于确定所述智能设备与所述用户之间的关联关系(例如距离或者能表征距离的参数)。
其中,在所述智能设备是所述决策终端12-1即主设备的情况下,其自身可以基于特征数据进行语音控制决策。而在所述智能设备不是所述决策终端的情况下,例如智能设备12-2、12-3、……、12-n等从设备,其可以向所述决策终端发送所述特征数据,以便于决策终端能够基于该特征数据进行语音控制决策。
所述服务器11-1和所述智能设备12-1均可以作为本公开实施例的用于进行语音控制的决策端,能够基于所接收到的智能设备的特征数据进行语音控制决策。
具体地,服务器11-1和所述智能设备12-1获取来自至少两个智能设备的特征数据,并基于所述特征数据,确定所述至少两个智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数,基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策,并向至少一个智能设备发送对应于其语音控制决策的控制指令。
例如,服务器在图2所示的步骤3中,向相应的智能设备发送对应于其语音控制决策的控制指令。例如,唤醒控制指令“ture”或者禁止被唤醒的控制指令“false”。决策终端12-1在图2所示的步骤4中,通过路由器13向其它智能设备发送与其语音控制决策对应的控制指令。例如,唤醒控制指令“ture”或者禁止被唤醒的控制指令“false”。其中,决策终端也能够给其自身下发控制指令“ture”或者“false”。
所述智能设备12-2、12-3、……、12-n,能够接收来自所述服务器和/或所述决策终端的控制指令,并可以执行先接收到的所述控制指令。由此,在无线网络或者本地局域网络的任一通信状况出现问题时,基于另一通信方式的语音控制决策仍然能够下发给智能设备,以减少时延,或者避免无设备响应等情况。
在一个实施例中,上述多个智能设备可以是开启了就近唤醒功能的设备。在用户开启就近唤醒功能后,服务器可以建立一个就近唤醒功能设备组,并指定其中一台智能设备作为决策终端,而其它智能设备作为从设备。其中,服务器可以随机指定决策终端,也可以通过比较多个智能设备的IP或MAC信息等进行指定,本公开对此不做限制。
这多个智能设备的设备信息能够被记录在该设备组对应的设备信息表中。参见图2所示的步骤1,服务器可以将该设备组的设备信息(包括但不限于设备组ID、每个智能设备的IP、设备标识符、MAC地址、设备角色等)发送给该设备组的每个智能设备。
在一个实施例中,该设备信息表中也可以仅包括被指定为决策终端的智能设备的设备信息,参见图2所示步骤1,服务器可以预先向所述多个智能设备分别发送设备信息表,所述设备信息表至少可以包括被指定为决策终端的智能设备的设备信息。
多个智能设备(例如智能设备12-1、12-2、12-3、……、12-n)能够在接收到服务器发送的设备信息表后,对该设备信息表进行信息解析,以使得每个智能设备能够确定其设备角色(决策终端还是从设备),或者,至少获知哪一个智能设备被指定为决策终端,以便知悉要向哪个智能设备发送用于进行语音控制决策的特征数据。
在一个实施例中,智能设备本地通信可以是基于局域网的一种通信机制,各设备之间可以通过路由器进行信息交互,设备间的信息交互速度比向服务器上下行传输更快。
在一个优选实施例中,本地局域网通信可以采用TCP/UDP Server/client双重通信机制。其中,决策终端可以作为本地TCP/UDP Server,其他从设备作为Client。
在本地局域网网络状况正常的情况下,决策终端与从设备间可以采用TCP连接方式进行信息交互,并通过决策终端(server)定时检测TCP Heartbeat连接是否正常。在发现TCP连接出现异常的情况下,决策终端与从设备间可以采用UDP单包+组播的形式进行交互。双重通信机制可以在不同网络状态下尽可能保证设备间的信息交互,便于决策终端的控制决策能够及时下发到其它智能设备。
由此,决策终端与其它智能设备之间仅涉及本地局域网通信,信息交互速度较快,智能设备可以更快地接收到来自决策终端的语音控制决策,从而减少用户的等待时长。并且,基于服务器和决策终端双重决策机制,在本地局域网络出现例如通信阻塞、丢包等本地通信差等问题时,服务器侧做出的语音控制决策仍然能够到达智能设备,从而保证智能设备的唤醒。
在一个实施例中,本公开的语音控制决策可以是基于语音发出者与采集用户的语音的智能设备之间的关联关系做出的,服务器和决策终端在针对同一语音的决策过程中可以采用即时决策即刻下发的策略。
举例来说,服务器和决策终端能够在接收到多于一个智能设备的特征数据时即刻做出判决,即基于所接收到的特征数据比较这多于一个智能设备各自与语音发出者之间的距离,并即时向距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令。
并且,服务器和决策终端可以以一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,之后,服务器和决策终端每当获取到另一个智能设备(不同于第一智能设备的第二智能设备)响应于同一语音的特征数据,向所述第一智能设备和所述第二智能设备中距离所述用户较远的智能设备发送禁止被唤醒的控制指令,以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备,以此类推,最终,对于同一语音,仅距离用户最近的一个智能设备允许被唤醒,从而保证唤醒设备的唯一性,避免了多个智能设备同时唤醒给用户带来的体验差的问题。
由此,对于采集到同一语音的多个智能设备,其对应的语音控制决策可以被分时发送,从而能够减小决策集中下发造成的网络拥堵。并且,不允许被唤醒的智能设备能够尽早地接收到禁止唤醒指令,并及时做出相应的处理,而无需过久地等待。
为了在用户发出语音之后能够有智能设备被及时唤醒而与用户交互,在一个实施例中,用于进行决策的服务器和所述决策终端在针对同一语音的决策过程中,能够在满足预定条件的情况下,向第一设备发送唤醒控制指令。这样,针对同一语音的一次决策,最终仅一个智能设备能够被唤醒。
其中,预定条件可以包括如下的至少一项:针对同一语音,从接收到第一个智能设备发送的特征数据起达到预设的决策时间;针对同一语音,在预定时间段内未接收到来自智能设备的特征数据。
上述预设的决策时间、预定时间段等,可以是针对具体的应用场景而预先设置的延时时间,例如200ms。由此,尽可能地在用户发出语音之后尚未察觉出唤醒延时的情况下,即使得智能设备能够被唤醒而与用户交互。该方案尤其适用于对于对唤醒反馈要求实时性较高的智能设备,例如智能音箱。
应当理解的是,在不同的应用场景中所预设的决策时间和/或预定时间段可以不同。并且,在实际应用中,所预设的决策时间和/或预定时间也可以例如基于网络、设备等的升级和/或迭代而更新,本公开对此不做限制。
智能设备在接收到来自服务器和/或决策终端的控制指令之后,能够做出相应的响应。例如,智能设备能够响应于接收到唤醒控制指令而唤醒,或者,智能设备能够响应于接收到禁止被唤醒的控制指令而禁止唤醒。随后,被唤醒的智能设备能够与用户进行交互,例如向用户播报语音“我在,你说”,并能够进一步地采集用户发出的语音并做出相应的响应。
如前所述,本公开实施例可以是基于服务器和决策终端的双决策机制,这样,智能设备侧可以接收到来自服务器和/或决策终端的控制指令。在一个实施例中,智能设备执行先接收到的所述控制指令。由此,保证了智能设备对控制指令的唯一响应。并且,在一种网络通信(例如无线网络或者本地局域网)出现问题时,例如网络状态较差、网络拥塞等,基于另一种通信(例如本地局域网络或者无线网络)的决策指令仍然能够及时发送到智能设备,以避免出现无智能设备响应等情况。
为避免出现因网络等原因造成智能设备无法接收控制指令而无法响应等情况,在一个实施例中,在智能设备发送所述特征数据之后预设等待时长(例如500ms)内未接收到控制指令的情况下,所述智能设备能够自动唤醒。
其中,智能设备侧可以设置计时模块,采集到语音的智能设备在向服务器和/或决策终端发送特征数据时,可以启动该计时模块,由此,在计时模块超时后既没有接收到来自本地决策终端的控制决策,也没有接收到来自服务器的控制决策,智能设备能够自动唤醒并进入响应流程,以避免出现无智能设备响应的情况。
上述预设等待时长也可以预先设置的,其可以是根据经验或者根据基站网络情况等进行设置,并且,该预设等待时长也可以被设置为基于网络状况而自适应调节,以便于本公开的采集到语音的智能设备能够更快地做出响应。本公开对此不做限制。
在一个实施例中,智能设备可以监测当前的网络状况,在网络状态参数(例如网络传输速度)高于第一阈值时,表明当前网络状况良好,此时,可以将预定等待时长适当减小。在网络状态参数(例如网络传输速度)低于或等于第二阈值(第二阈值小于第一阈值)时,表明当前网络状况较差,此时,可以将预定等待时长适当增大。预定等待时长的减小或者增大的规律可以根据实际需要设置,在此不再赘述。
在一个实施例中,所述智能设备可以基于从发送所述特征数据(或者从接收到语音开始)到接收所述控制指令的等待耗时,更新所述预定等待时长。
具体地,在接收到服务器的语音控制决策的等待耗时Tc大于当前预定等待时长Tw时,表明当前网络状态有变差的趋势,此时可以采用下式(1)更新该预定等待时长Tw:
Tw(n)=K*Tw(n-1)+(1.0-K)*Tc(n)       (1)
其中,n表示本次唤醒,n-1表示前一次唤醒;Tw(n-1)表示前一次接收到语音控制决策后更新得到的预定等待时长;Tc(n)表示本次唤醒等待耗时,Tw(n)表示接收到本次语音控制决策后更新得到的预定等待时长;K表示决策延时增大时的更新平滑参数,其取值范围可以是(0.0,1.0)。
在接收到服务器的语音控制决策的等待Tc小于当前预定等待时长Tw时,表明当前网络状况有变好的趋势,可以采用下式(2)更新该预定等待时长Tw:
Tw(n)=L*Tw(n-1)+(1.0-L)*Tc(n)       (2)
其中,L表示决策延时减小时的更新平滑参数,取值范围可以是(0.0,1.0),其它参数的含义参见上文描述,在此不再赘述。
在一个优选实施例中,上述K取值可以为0.92,L取值可以为0.75。其中,K取较大值是为了在网络有变差趋势时,以较小的步长谨慎减小等待时长(Tw);L取较小值是为了在网络有变好的趋势时,以较大的步长增大等待时长(Tw)以更快做出反应。
如前所述,本公开的语音控制决策可以是基于用户与采集用户的语音的智能设备之间的距离做出的。
具体地,服务器和决策终端可以获取来自至少两个智能设备的特征数据,并基于所述特征数据,确定所述至少两个智能设备各自与所述用户之间的距离或能够表征所述距离的参数,基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策,并向至少一个智能设备分别发送对应于其语音控制决策的控制指令。其中,语音控制决策可以包括但不限于使距离所述用户最近的智能设备允许被唤醒,或者使距离所述用户较远的智能设备禁止被唤醒。
由此,服务器和决策终端即可通过控制,使得采集到用户的同一语音的至少两个智能设备中距离用户最近的一个智能设备能够被唤醒,而其它设备则禁止唤醒,从而保证了这至少两个智能设备被唯一唤醒,以解决多个智能设备同时被唤醒并向用户播报而带来的用户体验差的问题。
如前所述,在本公开实施例中,上述特征数据可以是基于不同的方式获取的。换言之,可以基于不同的技术分别获取上述特征数据,以便于确定用户与智能设备之间的距离。
在一个实施例中,上述特征数据可以是基于所采集到的语音计算得到的唤醒能量值。其中,该唤醒能量值可以采用均方根值(RMS,root meam square)或加窗平方值等方法计算得到。
作为一个示例,采用均方根值RMS计算唤醒能量值,可以基于下式(3)进行计算:
Figure BDA0002036075480000161
其中,N为语音数据帧长度,x(n)为语音数据点。
作为另一个示例,采用加窗平方值计算唤醒能量值,可以基于下式(4)进行计算:
Figure BDA0002036075480000162
其中,N为语音数据帧长度,x(n)为语音数据点,w(n)为常用的语音数据窗函数,例如汉宁窗、海明窗等常用窗函数。
另外,上述特征数据也可以是所采集到的所述语音中的唤醒词的置信度。该唤醒词置信度在一定程度上可以表征用户与智能设备之间的距离,较大的唤醒词置信度,可以表示该智能设备距离用户较近;反之,较小的唤醒词置信度,表示该智能设备距离用户较远,在此不再赘述。
或者,上述特征数据也可以是采集所述语音时探测到的用户与智能设备的距离数据。例如,可在智能设备上配置红外传感装置,在采集到语音时,利用红外探测技术获得用户与智能设备之间的距离,并以此作为特征数据。
或者,上述特征数据也可以是采集到语音的智能设备的WiFi信道状态信息。具体地,例如可以利用智能设备的WiFi天线收集CSI数据,对CSI(channel state information,信道状态信息)数据进行计算分析、识别分类,并依此判断智能设备与用户之间距离。
或者,上述特征数据也可以是采集所述语音时采集到的所述用户的图像。其中,该方案可适用于配置有摄像头的智能设备,在智能设备采集到语音时,可以通过启动摄像头来拍摄用户的实时图像,使得能够结合图像处理技术,对摄像头采集到的实时图像进行分析,以确定用户与智能设备之间的距离。
或者,还可以使用高频声波反射探测技术来测量以得到用户距离智能音箱的距离。具体地,可以通过智能设备扬声器播放人耳无法感知的高频声波,再通过智能设备麦克风采集得到高频声波的反射量,并依据此判断用户与音箱的距离。高频反射变量大可以表示该智能设备距离用户较近,高频反射变量小可以表示该智能设备距离用户较远,进而可以从采集到同一语音的多个智能设备中选择距离用户最近的智能设备响应唤醒。
应当理解的是,上述特征数据,和/或获得该特征数据所利用的技术是对本公开的确定用户与智能设备之间的距离或者确定距离的参数的举例而非限定,本公开可以通过但不限于上述方式来确定用户与智能设备的距离。
另外,由于不同的智能设备的设备类型不同,其所配置的各个模块也可能有所不同,不同设备所部署的高度、布局、遮挡等也有所不同,均有可能会对所获取的特征数据造成差异,从而影响基于该特征数据所确定的距离或者表征距离的相关参数的准确性。在一个实施例中,本公开还可以通过对所采集的语音或者其它相关数据进行修正,以尽可能地减小数据采集差异。
以对智能设备所采集的语音进行修正为例,智能设备可以对所采集到的语音进行滤波处理,并基于滤波处理后的语音计算得到唤醒能量值,作为所述特征数据。
具体地,例如可以通过采集的大量不同型号的智能设备的麦克风(microphone,简称mic)、不同批次mic拾取的唤醒词语料作对比分析,确定数据采集差异较为集中的频段,并设计滤波器,以滤除唤醒词语料中差异较大的频段、保留差异较小的数据频段进行能量计算,其中滤波器系数可以使用Matlab fdatool设计得到。
经滤波处理后,mic本身带来的数据采集差异得到一定程度削弱,基于滤波处理后的语音计算得到的唤醒能量值,能够对不同距离声源的唤醒词有更好的能量区分度,提高唤醒词能量的距离分辨力(唤醒词的距离分辨力可以理解为能够成功做出距离差判断的设备最小间距)。
在其它实施例中,也可以分别经过相应的处理,来使得基于不同技术所获取的特征数据能够得到修正从而减小数据采集差异,在此不再赘述。
由此,通过上述特征数据,可以确定各个智能设备与发出语音的用户之间的距离或者表征距离的参数,服务器和决策终端能够基于该距离或者该表征距离的参数,进行如上所述的语音控制决策。
至此,已经结合图1-2详细说明了本公开的语音唤醒***以及语音唤醒机制。
图3示出了根据本公开一个实施例的语音控制流程示意图。其中,以用户作为语音发出者,智能设备12-1作为本地决策终端,以智能设备12-2、12-n作为本地从设备,来对本公开的语音控制方案进行说明。
如图3所示,在步骤S301,用户处于这多个智能设备的拾音范围内,并发出语音以期望唤醒其附近的一个智能设备。其中,该语音中包括能够唤醒智能设备的唤醒词。例如,“天猫精灵”。
在步骤S302,这多个智能设备均能采集到该语音。
在步骤S303,采集到同一语音的智能设备,能够对其所采集到的语音或者其它信息进行特征提取,以获取对应于该语音的相关特征数据。
在步骤S304和步骤S305,智能设备将所提取到的特征数据发送给能够进行语音控制决策的决策者:服务器和决策终端。其中,在采集到该语音的智能设备为决策终端自身时,步骤S305可省略。
在步骤S306和步骤S307,服务器和决策终端进行语音控制决策。其中,服务器和决策终端所接收到的对应于该语音的特征数据是一致的,相应地各自做出的语音控制决策也是一致的。具体决策的细节可以参见上文的相关描述,在此不再赘述。
在步骤S308和步骤S309,服务器和决策终端发送语音控制指令,例如距离用户较远的智能设备发送禁止被唤醒的控制指令,向距离用户最近的智能设备发送唤醒控制指令。
在步骤S310,各个智能设备接收来自服务器和决策终端的控制指令,并执行先接收到的控制指令。例如,先接收到唤醒控制指令则响应于该唤醒控制指令唤醒,先接收禁止被唤醒的控制指令,则响应于该控制指令禁止唤醒。
由此,本公开如上所述的语音控制方案,通过控制,使得接收到同一语音的至少两个智能设备中之一被唯一唤醒并与用户交互,以解决多个智能设备同时响应、语音播报造成的用户体验差的问题。并且,基于服务器和决策终端的双决策机制,使得在一种通信出现问题时,基于另一种通信的决策者,仍然能够进行语音控制决策,从而避免因网络等原因造成的无智能设备响应的情况。并进一步地,通过智能设备自动唤醒机制、基于网络状态自适应调整预定等待时长机制等,进一步保障智能设备的快速响应。
另外,本公开上述的即刻决策即刻发送禁止指令的策略,一方面能够减小决策集中下发带来的网络拥堵的问题,另一方面,使得禁止指令可以被尽早地发送给被禁止唤醒的智能设备,以降低设备等待时间,从而避免不必要的资源浪费。
图4示出了根据本公开一个实施例的语音控制方法的流程示意图。图6示出了根据本公开一个实施例的语音控制装置的示意图。其中,该方法可由图1所示的服务器或者被指定为决策终端的智能设备执行,也可以由图6所示的语音控制装置600执行。
如图4所示,在步骤S410,例如可由图6所示的第一获取装置610,获取来自至少两个智能设备的特征数据。其中,所述特征数据能够用于确定所述智能设备与语音发出者之间的距离。
在步骤S420,例如可由图6所示的第一距离装置620,基于所述特征数据,确定所述至少两个智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数。
在步骤S430,例如可由图6所示的第一决策装置630,基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策。其中,语音控制决策可以包括使距离所述语音发出者最近的智能设备允许被唤醒,并且使除了距离所述语音发出者最近的智能设备以外的智能设备禁止被唤醒。
在步骤S440,例如可由图6所示的第一通信装置640,向所述至少两个智能设备发送对应于其语音控制决策的控制指令。
由于网络延时等情况,服务器和决策终端并非同时接收到来自这至少两个智能设备的特征数据。在本公开实施例中,服务器和决策终端能够根据所接收到的特征数据即刻决策并即时下发决策。具体地,服务器和决策终端可以以一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,在获取到不同于第一智能设备的第二智能设备响应于同一语音的特征数据,将该第一智能设备以及第二智能设备相对于语音发出者的距离(或者表征距离的参数)进行比较,并向所述第一智能设备和所述第二智能设备中距离所述用户较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备。最终,在满足预定条件的情况下,向第一智能设备发送唤醒控制指令。其中,预定条件包括如下的至少一项:针对同一语音,从接收到第一个智能设备发送的特征数据起达到预设的决策时间;针对同一语音,在预定时间段内未接收到来自智能设备的特征数据。
另外,针对同一语音,在向第一设备发送唤醒控制指令之后,在获取到来自其它智能设备的特征数据的情况下,还可以向所述其它智能设备发送禁止被唤醒的控制指令。这样,在已经有智能设备被唤醒的情况下,将不再进一步唤醒其它设备,以避免重复唤醒。
在一个实施例中,决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信。所述服务器与所述多个智能设备之间可以基于无线通信网络通信,所述多个智能设备之间可以基于本地局域网通信。
在一个实施例中,服务器可以向所述多个智能设备发送设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。由此,使得多个智能设备智能能够获知哪一个智能设备被指定为决策终端。在其它实施例中,这多个智能设备可以属于同一设备组,该设备信息表可以包括这多个智能设备的设备信息,例如设备ID、设备IP、设备MAC信息、设备角色等。智能设备在接收到设备信息表后,能够对该设备信息表进行解析,以获知其设备角色。
在其它实施例中,在上述步骤S410,可以获取来自至少两个智能设备的特征数据。在步骤S420,基于所述特征数据,确定所述至少两个智能设备各自与语音发出者之间的关联关系。在步骤S430,基于所述关联关系,确定对应于所述至少两个智能设备的语音控制决策。在步骤S440,可以向至少一个智能设备发送对应于其语音控制决策的控制指令。
其中,所述语音控制决策可以包括:使对应于最强关联关系的智能设备允许被唤醒;或者使除了对应于最强关联关系的智能设备以外的智能设备禁止被唤醒。
在本发明实施例中,上述方法可以由决策端执行,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,所述服务器与所述多个智能设备之间基于无线通信网络通信;并且/或者所述多个智能设备之间基于本地局域网通信。
在本发明实施例中,所述决策端包括服务器和/或决策终端,其中,所述服务器和/或所述决策终端获取来自至少两个智能设备的特征数据,并向至少一个智能设备发送对应于其语音控制决策的控制指令,所述智能设备执行先接收到的所述控制指令。
在本发明实施例中,所述关联关系包括所述智能设备相对于所述语音发出者的距离;或者所述关联关系包括能够表征所述智能设备相对于所述语音发出者的距离的参数。
在本发明实施例中,所述特征数据包括如下的至少一项:基于所述语音计算得到的唤醒能量值;所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述语音发出者的图像;采集所述语音时探测到的语音发出者与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
图5示出了根据本公开一个实施例的语音控制方法的流程示意图。图7示出了根据本公开一个实施例的语音控制装置的示意图。其中,图5所示方法可由图1所示的智能设备执行,也可由图7所示的语音控制装置700执行。
如图5所示,在步骤S510,例如可由图7所示的语音采集装置710,可以采集语音发出者发出的语音。
在步骤S520,例如可由图7所示的第二通信装置720,向服务器发送对应于所述语音的特征数据,并在所述智能设备不是被指定的决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据用于确定所述智能设备与所述用户之间的距离。
在步骤S530,例如可由图7所示的第三通信装置730,接收来自所述服务器和/或所述决策终端的控制指令。
在步骤S540,例如可由图7所示的控制子装置740,执行先接收到的所述控制指令。
在一个实施例中,在所述智能设备是被指定的决策终端的情况下,该决策终端可以获取来自至少两个智能设备的特征数据,所述特征数据能够用于确定所述智能设备与所述用户之间的距离,基于所述特征数据,确定所述至少两个智能设备各自与所述用户之间的距离或能够表征所述距离的参数,基于所述距离或参数确定对应于所述至少两个智能设备的语音控制决策,并向至少一个智能设备发送对应于其语音控制决策的控制指令。
在一个实施例中,智能设备能够响应于接收到唤醒控制指令而唤醒,也可以响应于接收到禁止被唤醒的控制指令而禁止唤醒。
在一个实施例中,智能设备在发送所述特征数据之后预设等待时长内未接收到控制指令的情况下,能够自动唤醒。
在一个实施例中,智能设备可以基于从发送所述特征数据到接收所述控制指令的等待耗时,更新所述预设等待时长。
在一个实施例中,所述智能设备与所述服务器之间可以基于无线通信网络通信,多个智能设备之间可以基于本地局域网通信。
在一个实施例中,所述特征数据可以包括如下的至少一项:基于所述语音计算得到的唤醒能量值。所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述用户的图像;采集所述语音时探测到的用户与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
在一个实施例中,智能设备能够对所采集到的语音进行滤波处理,并基于滤波处理后的语音计算得到唤醒能量值,作为所述特征数据。
在一个实施例中,智能设备能够接收设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。智能设备能够对该设备信息表进行解析,以获知其设备角色或者被指定为决策终端的智能设备的设备信息。
在其它实施例中,在步骤S510,采集用户发出的语音;向决策端发送对应于所述语音的特征数据,所述特征数据用于确定所述智能设备与所述用户之间的关联关系;接收来自所述决策端的控制指令,所述控制指令对应于所述决策端基于所述关联关系确定的语音控制决策;执行所接收到的所述控制指令。
其中,所述关联关系可以包括所述智能设备相对于所述语音发出者的距离;或者所述关联关系包括能够表征所述智能设备相对于所述语音发出者的距离的参数。所述语音控制决策可以包括:使对应于最强关联关系的智能设备允许被唤醒;以及/或者使除了对应于最强关联关系的智能设备以外的智能设备禁止被唤醒。
所述决策端可以包括服务器和/或决策终端,其中,所述智能设备向所述服务器和/或所述决策终端发送对应于所述语音的特征数据;以及/或者所述智能设备接收来自所述服务器和/或所述决策终端的控制指令,并执行先接收到的所述控制指令。其中,所述智能设备与所述服务器之间基于无线通信网络通信;并且/或者所述智能设备与所述决策终端之间基于本地局域网通信。
在本发明实施例中,所述决策终端可以为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,在所述智能设备为决策终端的情况下,所述方法还包括:获取来自至少两个智能设备的特征数据;基于所述特征数据,确定所述至少两个智能设备各自与所述用户之间的关联关系;基于所述关联关系,确定对应于所述至少两个智能设备的语音控制决策;以及向至少一个智能设备发送对应于其语音控制决策的控制指令。
可选地,所述多个智能设备可以属于同一设备组,所述方法还包括:接收设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。
可选地,所述特征数据包括如下的至少一项:基于所述语音计算得到的唤醒能量值;所采集到的所述语音中的唤醒词的置信度;采集所述语音时采集到的所述用户的图像;采集所述语音时探测到的用户与智能设备的距离数据;以及所述智能设备的WiFi信道状态信息。
图4-7所示的语音控制方法的实现细节和/或语音控制装置所执行的操作可参见上文的相关描述,在此不再赘述。
图8示出了根据本发明一个实施例的计算设备的结构示意图。
参见图8,计算设备800包括存储器810和处理器820。
处理器820可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器820可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器810可以包括各种类型的存储单元,例如***内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器810可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器810可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器810上存储有可处理代码,当可处理代码被处理器820处理时,可以使处理器820执行上文述及的语音控制方法。
上文中已经参考附图详细描述了根据本发明的语音控制方法、装置和***。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (21)

1.一种语音控制方法,其特征在于,该方法包括:
获取来自两个智能设备的响应于同一语音的特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;
将其中一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,而将另一智能设备作为第二智能设备;
基于所述特征数据,确定所述第一智能设备和所述第二智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;
基于所述距离或参数,向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备;以及
在满足预定条件的情况下,向第一智能设备发送唤醒的控制指令。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
针对同一语音,在向第一智能设备发送唤醒控制指令之后,在获取到来自其它智能设备的特征数据的情况下,向所述其它智能设备发送禁止被唤醒的控制指令。
3.根据权利要求1所述的方法,其特征在于,所述预定条件包括如下的至少一项:
针对同一语音,从接收到第一个智能设备发送的特征数据起达到预设的决策时间;
针对同一语音,在预定时间段内未接收到来自智能设备的特征数据。
4.根据权利要求1所述的方法,其特征在于,所述方法由服务器和/或决策终端执行,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,
所述服务器与所述多个智能设备之间基于无线通信网络通信;并且/或者
所述多个智能设备之间基于本地局域网通信。
5.根据权利要求4所述的方法,其特征在于,
所述服务器和/或所述决策终端获取来自两个智能设备的特征数据,并向所述两个智能设备发送禁止被唤醒的控制指令或唤醒的控制指令,所述智能设备执行先接收到的所述控制指令。
6.根据权利要求4所述的方法,其特征在于,该方法还包括:
向所述多个智能设备发送设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。
7.根据权利要求1所述的方法,其特征在于,所述特征数据包括如下的至少一项:
基于所述语音计算得到的唤醒能量值;
所采集到的所述语音中的唤醒词的置信度;
采集所述语音时采集到的所述用户的图像;
采集所述语音时探测到的用户与智能设备的距离数据;以及
所述智能设备的WiFi信道状态信息。
8.一种语音控制方法,其特征在于,应用于智能设备,该方法包括:
采集语音发出者发出的语音;
向服务器发送对应于所述语音的特征数据;
在所述智能设备不是被指定的决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;接收来自所述服务器和/或所述决策终端的控制指令;执行先接收到的所述控制指令;并且
在所述智能设备是被指定的决策终端的情况下,获取来自两个智能设备的响应于同一语音的特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;将其中一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,而将另一智能设备作为第二智能设备;基于所述特征数据,确定所述第一智能设备和所述第二智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;基于所述距离或参数,向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备;以及在满足预定条件的情况下,向第一智能设备发送唤醒的控制指令。
9.根据权利要求8所述的方法,其特征在于,还包括:
响应于接收到唤醒控制指令而唤醒;并且/或者
响应于接收到禁止被唤醒的控制指令而禁止唤醒。
10.根据权利要求8所述的方法,其特征在于,还包括:
在发送所述特征数据之后预设等待时长内未接收到控制指令的情况下,自动唤醒。
11.根据权利要求10所述的方法,其特征在于,还包括:
基于从发送所述特征数据到接收所述控制指令的等待耗时,更新所述预设等待时长。
12.根据权利要求8所述的方法,其特征在于,所述决策终端为多个智能设备中的一个智能设备,所述决策终端能够与其它智能设备通信,
所述智能设备与所述服务器之间基于无线通信网络通信;并且/或者
所述多个智能设备之间基于本地局域网通信。
13.根据权利要求8所述的方法,其特征在于,所述特征数据包括如下的至少一项:
基于所述语音计算得到的唤醒能量值;
所采集到的所述语音中的唤醒词的置信度;
采集所述语音时采集到的所述语音发出者的图像;
采集所述语音时探测到的语音发出者与智能设备的距离数据;以及
所述智能设备的WiFi信道状态信息。
14.根据权利要求13所述的方法,其特征在于,还包括:
对所采集到的语音进行滤波处理,并基于滤波处理后的语音计算得到唤醒能量值,作为所述特征数据。
15.根据权利要求12所述的方法,其特征在于,还包括:
接收设备信息表,所述设备信息表包括被指定为决策终端的智能设备的设备信息。
16.一种语音控制***,其特征在于,包括决策端和多个智能设备,所述决策端能够与所述多个智能设备相互通信,其中,
所述智能设备采集用户发出的语音,向所述决策端发送对应于所述语音的特征数据;
所述决策端获取来自两个智能设备的响应于同一语音的特征数据,将其中一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,而将另一智能设备作为第二智能设备,基于所述特征数据,确定所述第一智能设备和所述第二智能设备各自与所述用户之间的距离,基于所述距离,向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备,以及在满足预定条件的情况下,向第一智能设备发送唤醒的控制指令;
所述智能设备接收来自所述决策端的控制指令,并执行所述控制指令。
17.一种语音控制***,其特征在于,包括服务器和多个智能设备,所述服务器能够与所述多个智能设备相互通信,其中,
一个智能设备被指定为决策终端,所述决策终端能够与其它智能设备通信,
所述智能设备采集用户发出的语音,向所述服务器发送对应于所述语音的特征数据,并在所述智能设备不是所述决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据能够用于确定所述智能设备与所述用户之间的距离;
所述服务器和所述决策终端获取来自两个智能设备的响应于同一语音的特征数据,将其中一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,而将另一智能设备作为第二智能设备,并基于所述特征数据,确定所述第一智能设备和和所述第二智能设备各自与所述用户之间的距离或能够表征所述距离的参数,基于所述距离或参数,向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备,并且在满足预定条件的情况下,向第一智能设备发送唤醒的控制指令;
所述智能设备接收来自所述服务器和/或所述决策终端的控制指令,并执行先接收到的所述控制指令。
18.一种语音控制装置,其特征在于,包括:
第一获取装置,用于获取来自两个智能设备的响应于同一语音的特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;
第一距离装置,用于:将其中一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,而将另一智能设备作为第二智能设备;并且基于所述特征数据,确定所述第一智能设备和所述第二智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;
第一决策和通信装置,用于基于所述距离或参数,向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备;以及在满足预定条件的情况下,向第一智能设备发送唤醒的控制指令。
19.一种语音控制装置,其特征在于,包括:
语音采集装置,用于采集语音发出者发出的语音;
第二通信装置,用于向服务器发送对应于所述语音的特征数据,并在所述智能设备不是被指定的决策终端的情况下,向所述决策终端发送所述特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;
第三通信装置,用于接收来自所述服务器和/或所述决策终端的控制指令;
控制子装置,用于执行先接收到的所述控制指令;以及
第四装置,用于:在所述智能设备是被指定的决策终端的情况下,获取来自两个智能设备的响应于同一语音的特征数据,所述特征数据用于确定所述智能设备与语音发出者之间的距离;将其中一个已接收到其发送的特征数据、并且尚未向其发送禁止被唤醒的控制指令的智能设备作为第一智能设备,而将另一智能设备作为第二智能设备;基于所述特征数据,确定所述第一智能设备和所述第二智能设备各自与所述语音发出者之间的距离或能够表征所述距离的参数;基于所述距离或参数,向所述第一智能设备和所述第二智能设备中距离所述语音发出者较远的智能设备发送禁止被唤醒的控制指令,并以所述第一智能设备和所述第二智能设备中距离所述用户较近的智能设备为新的第一智能设备;以及在满足预定条件的情况下,向第一智能设备发送唤醒的控制指令。
20.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-15中任何一项所述的方法。
21.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至15中任一项所述的方法。
CN201910325459.1A 2019-04-22 2019-04-22 语音控制***、方法和装置以及计算设备和存储介质 Active CN111833863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910325459.1A CN111833863B (zh) 2019-04-22 2019-04-22 语音控制***、方法和装置以及计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910325459.1A CN111833863B (zh) 2019-04-22 2019-04-22 语音控制***、方法和装置以及计算设备和存储介质

Publications (2)

Publication Number Publication Date
CN111833863A CN111833863A (zh) 2020-10-27
CN111833863B true CN111833863B (zh) 2023-04-07

Family

ID=72912200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910325459.1A Active CN111833863B (zh) 2019-04-22 2019-04-22 语音控制***、方法和装置以及计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN111833863B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837686A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 唤醒响应操作的执行方法、装置、存储介质及电子装置
CN115083436A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 距离关系确定、设备控制、模型训练的方法及相关装置
CN113132193B (zh) * 2021-04-13 2023-01-06 Oppo广东移动通信有限公司 智能设备的控制方法、装置、电子设备以及存储介质
CN114420094A (zh) * 2021-12-13 2022-04-29 北京声智科技有限公司 跨设备唤醒方法、装置、设备及存储介质
WO2023221062A1 (zh) * 2022-05-19 2023-11-23 北京小米移动软件有限公司 电子设备的语音唤醒方法、装置、存储介质及芯片
CN115617169B (zh) * 2022-10-11 2023-05-30 深圳琪乐科技有限公司 一种语音控制机器人及基于角色关系的机器人控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378000A (zh) * 2018-12-19 2019-02-22 科大讯飞股份有限公司 语音唤醒方法、装置、***、设备、服务器及存储介质
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
CN109378000A (zh) * 2018-12-19 2019-02-22 科大讯飞股份有限公司 语音唤醒方法、装置、***、设备、服务器及存储介质

Also Published As

Publication number Publication date
CN111833863A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111833863B (zh) 语音控制***、方法和装置以及计算设备和存储介质
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
CN108667697B (zh) 语音控制冲突解决方法、装置及语音控制***
CN109473092B (zh) 一种语音端点检测方法及装置
CN104822001B (zh) 回声消除数据同步控制方法和装置
CN109473095B (zh) 一种智能家居控制***及控制方法
CN107464565B (zh) 一种远场语音唤醒方法及设备
CN112489648B (zh) 唤醒处理阈值调整方法、语音家电、存储介质
CN106100676A (zh) 控制音频输出的方法、用户终端和对讲机终端
CN108335700B (zh) 语音调节方法、装置、语音交互设备及存储介质
CN110290574B (zh) 一种数据传输方法、装置、设备、***及存储介质
EP3979676A1 (en) Method and apparatus for identifying dual-mode wireless device, ios device, and medium
US11089411B2 (en) Systems and methods for coordinating rendering of a remote audio stream by binaural hearing devices
CN113096658A (zh) 一种终端设备及其唤醒方法、装置和计算机可读存储介质
CN112311635B (zh) 语音打断唤醒方法、装置及计算机可读存储介质
CN113507337B (zh) 时钟同步精度的确定方法、装置、介质及设备
CN111640431A (zh) 一种设备响应处理方法及装置
CN110767225A (zh) 一种语音交互方法、装置及***
CN104660725A (zh) 依据探测手机地址而自动布撤防监控的方法
WO2014190882A1 (zh) 一种设置PA blanking工作模式的方法和装置
CN109147783B (zh) 基于k歌***的语音识别方法、介质及***
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关***
CN113242163B (zh) 语音唤醒方法和装置
CN113992463B (zh) 语音交互方法及相关装置、设备、***和存储介质
CN114387965A (zh) 防止多设备误唤醒的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant