CN112053689A

CN112053689A - 基于眼球和语音指令的操作设备的方法和***及服务器

Info

Publication number: CN112053689A
Application number: CN202010953494.0A
Authority: CN
Inventors: 黄石磊; 刘轶; 程刚
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-08

Abstract

本发明公开了一种基于眼球和语音指令的操作设备的方法和***及服务器。***包括移动终端和服务器及AR/VR装置；移动终端用于将采集的用户语音和用户位置以及用户标识UID发送到服务器；服务器用于对用户语音进行识别和解析，获取唤醒词和指令，如果唤醒词和UID设定的唤醒词一致，则根据用户位置确定附近的可操作设备；AR/VR装置用于对可操作设备进行显示，并进行眼球跟踪以检测用户的注视点；服务器还用于根据用户的注视点确定目标设备，从而向目标设备发送指令。本发明通过语音和眼球指令来操作多个设备，唤醒词与设备无关，可解决多个设备场景下语音唤醒存在干扰和唤醒词难以记忆的问题，且适用于VR/AR场景。

Description

基于眼球和语音指令的操作设备的方法和***及服务器

技术领域

本发明涉及语音识别和语音控制技术领域，具体涉及一种基于眼球和语音指令的操作设备的方法和***及服务器。

背景技术

语音识别(Speech Recognition)技术，也被称为自动语音识别(AutomaticSpeech Recognition，ASR)，其目标是将语音中的内容(Content)转换为计算机可读的输入，例如按键、二进制编码或者字符序列(text)并进行相应的操作。

语音唤醒在学术上被称为keyword spotting(简称KWS)，一个定义：在连续语流中实时检测出说话人特定片段。这里要注意，检测的“实时性”是一个关键点，语音唤醒的目的就是将设备从休眠状态激活至运行状态，所以唤醒词说出之后，能立刻被检测出来，用户的体验才会更好。评价语音唤醒的效果，通行的指标有四个方面，即唤醒率、误唤醒、响应时间和功耗水平。

语音唤醒可以看做是语音识别的一个特定的应用场景，一般而言，语音唤醒可以看成是一个特定词(针对一个特定***或者设备)的语音识别任务(其他的词无论是否识别出来都被忽略)；而通常的语音识别都暗含着是多个词的识别任务，例如语音命令控制，可能包含几十到上百词，连续语音识别(LVCSR)甚至包含几十万词汇。

语音识别的主流技术是基于隐马尔科夫模型(Hidden Markov Model,HMM)，常用的是连续分布的HMM模型，称为CDHMM。在语音识别任务中，一般需要声学模型(AcousticModel)和语言模型(Language Model)。声学模型是语音识别***中最为重要的部分之一，主流***多采用HMM模型进行建模。语言模型可分为统计语言模型以及现在常用的神经网络语言模型。当前语音识别逐渐转向WFST(weighted finaite-state transducer，加权有限状态转换器)+深度神经网络的框架。HMM模型很容易表示成WFST的形式。

语音操控设备，一般是用户通过语音发出指令，***通过语音识别进行判断指令内容，进而进行相应的动作。这里至少需要语音识别技术，有的情况下也包括语音唤醒。语音唤醒也是广义的语音识别的一种技术应用。

单个设备的语音指令操作已经是成熟的方案，但是多个设备同时语音操控，特别是语音唤醒是具有挑战的。语音唤醒的一个难点，就是多个设备同时在场的情况下如何唤醒。

由于每个设备具有特定的唤醒词，不同设备需要通过不同的唤醒词激活，但是如果设备过多，那么唤醒词的记忆是个问题；而且针对某些场景，会有多个同类型设备(例如医院的多人病房，每个患者都会有同样的医疗设备)，那么设置唤醒词将很麻烦，因为一般而言同一类设备会具有相同的唤醒词，就会出现相互干扰，导致同时唤醒的问题。

在VR(Virtual Reality，虚拟现实)/AR(Augmented Reality，增强现实)场景中，如果用户在进行沉浸式操作体验中，一般双手可能没有空闲，语音唤醒和语音操作是一种非常有效的交互和操作手段。

目前，眼部跟踪技术成为VR/AR技术的一个“重要组成部分”。眼球跟踪是一种传感器技术，它使设备能够测量眼球位置和眼球运动，从而确定人的注意力在哪里，人在关注什么，以及一些生物特征。眼球跟踪技术可采用红外设备和/或图像采集设备如摄像头实现。

发明内容

本发明的目的在于提供一种基于眼球和语音指令的操作设备的方法和***及服务器，用于通过语音和眼球指令来操纵多个设备，解决多个设备场景下语音唤醒存在干扰和唤醒词难以记忆的问题。本发明适用于VR/AR场景，具有同时唤醒、操纵多个实体设备或者虚拟设备的功能，可以脱离双手对多个设备进行操作。

为实现上述目的，本发明采用如下技术方案。

第一方面，提供一种基于眼球和语音指令的操作设备的***，用于操控多个设备，该***包括：移动终端和服务器以及AR/VR装置；

所述移动终端，用于采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID发送到所述服务器；

所述服务器，用于接收所述移动终端发送的用户语音和用户位置以及用户标识UID，对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备，将包含可操作设备信息的显示内容发送给所述AR/VR装置；

所述AR/VR装置，用于对可操作设备进行多设备显示，并对用户进行眼球跟踪，将检测到的用户的注视点信息发送到所述服务器；

所述服务器，还用于根据所述AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备，然后，响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

其中，所述AR/VR装置是指AR装置或者VR装置；所述多设备显示是指在显示模块上按照设备位置显示多个可操作设备的虚拟图景。

在一种可能的实现方式中，所述AR/VR装置，还用于采集用户视角，将采集的用户视角发送到所述服务器；所述服务器，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户视角范围之内的设备(包括用户可见的设备，以及，有可能是不可见的被其他物体遮挡的设备)作为可操作设备。

在一种可能的实现方式中，所述服务器，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作，否则将不对识别结果进行解析并不进行后续操作。

第二方面，提供一种基于眼球和语音指令的操作设备的方法，用于操控多个设备，该方法包括：移动终端采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID发送到服务器；服务器接收所述移动终端发送的用户语音和用户位置以及用户标识UID，对用户语音进行识别；服务器对识别结果进行解析，获取唤醒词和指令；服务器如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备；服务器将包含可操作设备信息的显示内容发送到AR/VR装置进行多设备显示；AR/VR装置对用户进行眼球跟踪以检测用户的注视点，将用户的注视点信息发送到服务器；服务器根据AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备；服务器响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

在一种可能的实现方式中，所述方法还包括：AR/VR装置采集用户视角，将采集的用户视角发送到服务器；服务器在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户视角范围内的设备(包括用户可见的设备，以及，有可能是不可见的被其他物体遮挡的设备)作为可操作设备。

在一种可能的实现方式中，所述方法还包括：服务器对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才执行对识别结果进行解析并进行响应的操作，否则将不对识别结果进行解析并不进行后续操作。

第三方面，提供一种服务器，包括：接收模块，用于接收移动终端发送的用户语音和用户位置以及用户标识UID；语音处理模块，用于对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，检测唤醒词和所述UID设定的唤醒词是否一致；位置选择模块，用于如果唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备；发送模块，用于将包含可操作设备信息的显示内容发送给AR/VR装置进行多设备显示；所述接收模块，还用于接收AR/VR装置返回的用户的注视点信息；所述位置选择模块，还用于根据所述AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备；所述发送模块，还用于响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

在一种可能的实现方式中，所述接收模块，还用于接收所述AR/VR装置发送的用户视角信息；所述位置选择模块，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

在一种可能的实现方式中，所述语音处理模块，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作，否则将不对识别结果进行解析并不进行后续操作。

从以上技术方案可以看出，本发明实施例具有以下优点：

1.唤醒本身不依赖设备，同一个设备可以有多个唤醒词，因为取决于用户定义的唤醒词，唤醒词与用户绑定而不是与设备绑定。

2.每个有权限的用户可以操作多个设备，且不需要为每个设备定义唤醒词，由于每个用户的唤醒词是固定且一般情况下是单一的，可免去用户记忆各个设备的唤醒词。

3.唤醒与设备距离无关，一般唤醒采用待控制设备安装语音采集装置，在本方案中则采用由用户随身携带的移动终端进行语音采集。可选的，可以进一步在要进行语音控制的设备安装语音反馈装置。本方案中，可以将语音采集麦克风设置为与用户距离很小(例如采用一个佩戴式的设备)，可以避免在设备处安装语音采集设备的时候，采集点与用户(说话人)一般距离较远，而且可能遮挡，采集效果不好，以及还存在的距离近声音大，距离远就采集不到的问题。

4.同时，采用每个用户携带各自的移动终端作为语音采集设备，还有潜在的好处是相互干扰较小，即使两个用户在同一个房间(假设有一定距离)，如果同时说出各自的唤醒词的时候，对于本人的设备，还是本人的声音较大，干扰人(另一个用户)的声音较小。进一步的，即两个人很近，用户A的声音被用户B的采集设备收集，可以进行声纹识别处理，因此，***不会误触发(即使两个用户设置的唤醒词相同也没有关系)。

5.用户通过AR/VR装置观看显示的设备，通过对用户进行眼球跟踪，即可确定用户想要操作的目标设备，而不必须通过手动或语音或其它方式指定设备，具有速度快、使用方便等优点。

6.适用于VR/AR场景，具有同时唤醒、操纵多个实体设备或者虚拟设备的功能，可以脱离双手对多个设备进行操作。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例一种基于眼球和语音指令的操作设备的***的结构图；

图2是本发明实施例一种基于眼球和语音指令的操作设备的***的原理图；

图3是本发明实施例一种基于眼球和语音指令的操作设备的方法的流程图；

图4是本发明实施例一个应用场景中多设备显示的示意图；

图5是本发明实施例一种服务器的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面通过具体实施例，分别进行详细的说明。

本发明的一个实施例，提供一种基于眼球和语音指令的操作设备的***，该***用于操控多个设备，例如用在医院场景中操控多个医疗设备。如图1所示，是该***的结构示意图；如图2所示，是该***的原理图。

如图1和图2所示，该***可包括移动终端10和服务器20以及AR/VR装置30，用来对多个待操作的设备(或称为执行设备)进行语音控制。

其中，所述移动终端10可具有语音采集装置11、定位装置12和通信装置13。语音采集装置11例如可以采用领夹式或头戴式或颈挂式麦克风(或同时具备耳机功能)，是一种佩戴在用户身上的装置，特点是保持与用户嘴部/头部的距离，优选采用近场拾音，实现对距离较远的噪声具有一定的抑制能力。定位装置12可采用高精度的室内定位装置。通信装置13用来跟服务器20通信，可采用wifi模块和/或4G模块和/或5G模块等各种无线通信模块。

AR/VR装置30例如可以采用AR眼镜和/或VR眼镜等。AR/VR装置30可包括显示模块31和眼球跟踪模32块，显示模块31可用来进行多设备显示，眼球跟踪模块32可用来对用户的眼球进行跟踪，检测用户的注视点。

所述服务器20可包括处理器21、存储器(图中未示出)和第一通信模块22及第二通信模块23。存储器中存储有一个或多个程序，处理器21可通过执行该一个或多个程序，运行多个功能模块(或称为程序模块)。

其中，第一通信模块22用于与移动终端10进行通信，第二通信模块23用于与待操作的设备(执行设备)进行通信，第一、第二通信模块可采用wifi模块和/或4G模块和/或5G模块等各种无线通信模块。

多个功能模块可包括用于处理语音数据的语音处理模块，该语音处理模块可进一步包括多个子模块：语音唤醒模块、语音识别模块和结果解析模块。其中，语音唤醒模块，主要是通过语音命令激活***，激活后端的其它处理模块；语音识别模块，主要是对语音指令以及其他的用户语音信息进行语音文字转换，将基本的语音识别结果传递给结果解析模块进行语音命令解析；这三个子模块相互关联，联合动作。

多个功能模块还可进一步包括，用于对用户可用的设备进行筛选，以确定需要语音控制的设备的设备选择模块，该模块可进一步分为两个子模块：设备选择一模块和设备选择二模块。

所述执行设备用来对服务器发出的指令进行相关动作，可进一步进行反馈。

本发明的一个实施例中：

所述移动终端10，用于通过所述语音采集装置11采集用户语音，通过所述定位装置12确定用户位置，并将采集的用户语音和用户位置以及用户标识UID等数据，通过所述通信装置13发送到所述服务器20；

所述服务器20，用于接收所述移动终端10发送的数据，对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备，将包含可操作设备信息的显示内容发送给所述AR/VR装置30；

所述AR/VR装置30，用于通过显示模块对可操作设备进行多设备显示，供佩戴AR/VR装置的用户观看；以及，通过眼球跟踪模块对用户进行眼球跟踪，将检测到的用户的注视点信息发送到所述服务器20；

所述服务器20，还用于根据所述AR/VR装置30的显示内容和用户的注视点信息确定用户想要操作的目标设备，然后，响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

进一步的，一些实施例中，所所述AR/VR装置30，还用于采集用户视角，将采集的用户视角发送到所述服务器20；所述服务器20，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

进一步的，一些实施例中，所述服务器20，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作；当用户语音的声纹不属于所述UID时，不对识别结果进行解析，不执行后续操作。

进一步的，一些实施例中，在所述服务器中：

所述处理器21中运行的设备选择一模块，用于根据用户位置，确定位于用户附近的设备；设备选择二模块，用于根据用户视角，从位于用户附近的设备中找出用户视角范围内的设备作为可操作设备，将包含可操作设备信息的显示内容发送到所述AR/VR装置30进行多设备显示，结合AR/VR装置30返回的用户的注视点信息，确定用户想要操作的目标设备。

所述处理器21中运行的语音处理模块(即语音唤醒模块、语音识别模块和结果解析模块，这三个子模块联合动作)，用于：对用户语音进行识别，包括进行声纹识别，判断用户语音的声纹是否属于所述UID；在用户语音的声纹属于所述UID时，对用户语音的识别结果进行解析，获取唤醒词和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则激活***；以及，响应于用户语音，向目标设备发送所述指令。

请参考图3，本发明的一个实施例，还提供一种基于眼球和语音指令的操作设备的方法，用于操控多个设备。该方法由如上所述的***实施，可包括步骤：

31、移动终端采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID等数据发送到服务器。

32、服务器接收所述移动终端发送的数据，对用户语音进行识别。

33、服务器对识别结果进行解析，获取唤醒词和指令。

34、服务器如果检测到唤醒词和所述UID设定的唤醒词一致，则激活***，根据用户位置确定位于用户附近的可操作设备。

35、服务器将包含可操作设备信息的显示内容发送到AR/VR装置进行多设备显示。

36、AR/VR装置对用户进行眼球跟踪以检测用户的注视点，将用户的注视点信息发送到服务器。其中，注视指将眼睛的中央凹对准目标刺激的活动，是人类眼球运动的三种基本类型即注视、眼跳和追随运动中的一种。

37、服务器根据AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备。

38、服务器响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

可选的，步骤33之前还包括：对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才进入步骤33，执行对识别结果进行解析并进行响应的操作，否则将不对识别结果进行解析并不进行后续操作。

进一步的，方法还包括：***激活后，AR/VR装置采集用户视角，将采集的用户视角发送到服务器；于是，步骤34中，服务器在根据用户位置确定位于用户附近的可操作设备时，可结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

以上，结合图1至图3，对本发明实施例提供的基于眼球和语音指令的操作设备的***和方法，进行了简要说明。

下面，结合如图2所示的工作原理，使用一个医学场景，详细描述本发明方案的实施流程，具体包括如下步骤。

S1.信息采集。

移动终端通过语音采集装置例如录音设备采集用户语音，通过定位装置采集用位置。以及，将用户语音和用户位置以及用户标识(User identification，UID)，进行编码，发送到服务器。其中，用户位置信息和VR/AR是相关的，因为这个牵涉到在VR/AR交互中视觉***显示，显示的内容和位置相关。

可选的，可以在移动终端进行VAD(Voice activity detection活动话音检测),也可以在服务器端进行VAD。

可选的，移动终端还可以通过AR/VR装置，采集用户视角和眼球的注视点等信息。

S2.设备选择一模块进行位置筛选。

位置筛选，主要是针对用户可激活的设备进行筛选，例如在虚拟的医院病房范围，在用户(医生)附近的设备才有可能被语音激活，因此才能被选中。

这里，需要设备的位置信息，这个信息一般来说是固定的位置(除非某些设备可以移动)，可以预先存储到服务器中。这里，也需要用户(医生)的位置信息。设备选择一模块根据用户位置和一定规则，筛选出用户附近例如一定范围内的设备，多个设备构成设备选择列表1。

如图4所示，加入用户(医生)在19床附近，那么可以筛选出19床可用的所有设备，只有19床的设备可以被语音操控。当然，也可以直接计算用户(医生)和设备之间的距离，将预设距离范围内的设备都筛选出来。

S3.设备选择二模块进行位置筛选。

该模块主要是根据设备选择一模块的输出结果，结合用户视角，确定用户可操作且用户视角范围内的设备在显示模块上进行多设备显示，以便用户可以看到设备，然后结合眼球的注视点信息，从显示的多个设备中确定用户真正想要操作的设备，即目标设备。

S3.1根据设备选择一模块输出的筛选结构和当前用户视角，设备选择二模块确定位于用户附近且用户视角范围内的可操作设备。多个可操作设备用户在显示模块上进行多设备显示。

S3.2用户利用VR/AR装置在显示模块上看到多个可操作设备，多个可操作设备构成设备选择列表2，用户注视其中的需要操作的设备。

S3.3 VR/AR装置对用户进行眼球跟踪，根据眼球跟踪确定具体的某个设备，即目标设备，则，可以进一步指示结果解析模块解析语音识别结果。

S4.语音唤醒。

语音唤醒模块和语音识别模块，可以与VR/AR装置的眼球跟踪模块相互关联，并与结果解析器联合动作。这个步骤一般包括如下的具体过程。

S4.1活动话音检测(VAD)，检测是否有语音，这个步骤也可以在终端实现。

S4.2语音唤醒，如果检测到语音中包含唤醒词(即关键词)，***的激活状态发生改变。

S4.2.1首先，结果解析模块需要知道UID，因为每个用户使用自己的唤醒词，同时由于移动终端可以和用户绑定，实际上结果解析模块在处理音频的时候是知道已知用户的UID的。

S4.2.2如果***处于未激活状态，检测到用户说出了该用户的唤醒词，则***进入激活的状态，那么***接下来会响应用户的指令。

S4.2.3如果***处于未激活状态，且没有检测到唤醒词，那么***会舍弃语音识别结果。

S4.2.4如果***处于激活状态，且没有超过一定的激活时间，***仍然处于激活状态，则会响应***的输入。

S4.2.5***处于激活状态，显示模块显示可以供用户操作的可操作设备。

S4.2.6***处于激活状态时，用户眼球跟踪注视某个设备，则进入指定设备状态，这时响应的指令和信息会传输到该指定的目标设备。

S4.3可选的，服务器可以增加一个声纹识别模块。

S4.3.1***检测到唤醒词，则针对唤醒词对应的用户语音进行说话人声纹确认，这里，如果说话人得到确认，则***进入激活状态；如果说话人声纹未得到确认，则依然处于非激活状态。

S4.3.2***处于激活状态，检测到用户一直在输入语音信息，使用声纹识别技术，标记语音是否是已知用户的语音，如果是的话才解析，如果不是的话不解析。

S5.语音识别。

S5.1语音识别模块，或称为语音识别解码器(decoder)，用于将语音转化为文字信息，这里文字信息包括指令信息、有些指令可能还带有参数、信息输入内容等，有可能包含唤醒词(在唤醒和识别合一的情况)。

S5.2语音识别解码器涉及到声学模型(Acoustic model，AM)、语言模型(Languagemodel，LM)、发音字典(Dictionary)，这里可以使用语音识别中的已有技术例如加模技术。

s6.解析结果。

需要对语音识别的基本结果进行解析，也就是根据识别器输出的结果进行相应的动作。

这里，用户的指令信息会以一个激活词开头，例如：“唤醒词+指令”。

例如“小瑞小瑞，加大流量”(针对19床输液机)

这个唤醒词“小瑞小瑞”是和用户关联，而不是和设备关联。这样的话，每个用户可以对同一个设备使用不同的(各自的)唤醒词。

设备不需要特别的唤醒词，用户(医生)几乎和平时指挥他的助手来操作设备的口令完全一致。

S7.多设备显示。

在S6步骤中，用户进入激活状态后，显示模块可以显示可操作设备的虚拟图景，如图4所示，这个虚拟图景可以和原有显示内容叠加(如果VR形态，原有显示内容是虚拟内容；如果是AR形态，所显示的是实景物体)。有可能某些设备是被其他物体遮挡，但是在这个图景中，设备都需要明确显示，例如可以用户虚线框图表示出来。显示的可操作设备一般具有多个。

S8.眼球跟踪

当S7中多设备显示以后，可通过眼球跟踪，检测用户注视哪个设备，那么用户注视哪个设备，该被注视的目标设备就处于激活状态(注意这是设备激活状态，和用户激活语音指令状态意义不一样)。

S9.设备动作和反馈

S9.1服务器发送指令给选中的目标设备。

S9.2目标设备进行相关动作。

S9.3可选的，需要时目标设备做出相关反馈；可选的，VR/AR装置的显示模块也会有相关反馈，以及用户端语音反馈。

下面，结合一个医学场景实例，对本发明方案的实施流程进行举例说明。

在一个实现实例中，医生佩戴一个智能移动终端，也就是一个专用的AR医生终端。它包括一个AR眼镜，用于显示增强现实内容和有关医疗信息，一个语音采集装置，一个室内定位装置，以及通信装置。该终端可装有医院装用的程序进行加密通信，通过4G无线通信***，连接到医院的专门网络，服务器位于医院的机房，各个医疗设备也是通过加密的网络连接到医院的专门网络。

所述语音采集装置可包括：一个领夹式麦克风，用于采集医生的语音；一个耳机，用于医生听到移动终端的反馈声音。

移动终端还配有室内定位装置，可以实时获得医生所在的位置，可以精确到房间(病房)和在房间内具***置(例如可以定位具体在几号病床附近)。如果定位有误差，医生也可以主动设置自己所处的位置，例如通过智能手机读取病床上的NFC标签/条形码，确定医生在操作19床病人有关设备。

s1.信息采集

用户医生(UID为D001)随意说话，可以直接和病人和其他医生/护士交谈，也可以下达操作指令。例如：

19床输液机，“小瑞小瑞，加快”

19床病床“小瑞小瑞，病床抬高”

19床体温采集装置“小瑞小瑞，采集体温”

19床病床“小兰小兰，病床抬高”

17床病床“小瑞小瑞，病床抬高”

“李医生，请看一下这个病人的用药情况……”

假设旁边另一个医生(UID为D002)想操纵19床体温采集说的“小瑞小瑞，采集体温”，被ID001的设备采集输入到***中。注意到这个医生自己定义的唤醒词也和D001相同，都是“小瑞小瑞”。

通过语音采集装置，采集用户语音(假设是16kHz，16bit的PCM编码)，将用户语音和用户位置以及用户UID发送到服务器。这里，用户(医生)的UID为D001。

假设没有在移动终端进行VAD(Voice activity detection活动话音检测)，移动终端采集到的所有语音都发送到后台服务器，在服务器进行全程记录，并在服务器端进行VAD。

s2.传输数据

s2.1用户语音数据和用户位置信息，通过智能移动终端的4G移动通信网络，并经过医院的对外通信网关(Gateway)传输到医院内网数据中心的服务器。

s2.2 AR/VR装置的显示所需信息也通过服务器传输到医生佩戴的智能终端上。

s2.3服务器收到数据，这里数据一般是实时流式数据，同时进行实时保存，假设数据包是200毫秒一个数据包。

s3.设备选择

s3.1设备选择一模块根据用户端采集的位置信息，确定用户可以操作的设备列表，例如用户可以操作：设备1～10；

s3.2根据设备选择一模块输出：设备1-10，以及用户视角方向，确定用户视角范围内的设备为：设备1～设备4；则显示模块显示：设备1～设备4。

s3.3用户在看到多个设备的时候，用户在设备1～设备4中，确定到底注视哪个设备。

例如选择设备1，设备1例如是输液机。

设备2，设备2例如是体温采集装置。

设备3，设备3例如是病床。

设备4，设备4例如是呼吸机。

假定最终选定注视的是设备3。

s3.3指示结果解析模块解析语音识别结果，获取指令，例如设备3是病床，设备3可能的操作指令和操作信息有限，病床只有抬高、降低、锁定三个指令。

s4.语音唤醒

语音唤醒模块和语音识别模块，与眼球跟踪模块相互关联，与结果解析模块联合动作。这个步骤一般包括如下的具体过程

s4.1这里使用已有技术，为一个基于隐马尔可夫模型(HMM)的语音唤醒识别器，用户(UID0001)的激活词为“小瑞小瑞”，***包含一个唤醒词的模型和一个背景模型；通过实时检测和比较两个模型的概率，并设置一个阈值，当语音中唤醒词模型概率比背景模型的概率高出阈值时，则认为检测到唤醒词。

s4.2活动话音检测(VAD)，如果检测到有语音继续下一步工作；没有检测到有效语音则不继续动作。

s4.3语音唤醒，如果检测到语音中包含唤醒词(关键词)，***的激活状态发生改变；准备从未激活状态转换到激活状态。

s4.3.1首先结果解析模块需要知道用户UID，因为每个用户使用自己的唤醒词，同时由于终端设备可以和用户绑定，实际上解析器在处理音频的时候是知道已知用户的UID的，

s4.3.2如果***处于未激活状态，检测到用户说出了该用户的唤醒词，则***处于激活的状态，那么***接下来会相应用户的指令。

s4.3.3如果***处于未激活状态，且没有检测到唤醒词，那么***会舍弃识别结果。

s4.3.4如果***处于激活状态，且没有超过一定的激活时间，***仍然处于激活状态，则会响应***的输入。

s4.3.5***处于激活状态，显示模块显示用户可以操作的设备。有四个设备可以进行操作，则用虚线框在AR眼镜上进行标记。用虚线框框住设备位置，并在旁边显示简要的设备信息，例如设备名称和设备状态。

s4.3.6***处于激活状态时，用户眼球跟踪注视某个设备，则进入指定设备状态，这时响应的指令和信息会传输到相关设备。

例如：

例如当前用户说出“小瑞小瑞”时，***进入准备激活状态，并且声纹检测确实用户UID为D0001，确认***进入激活状态；

此时，***首先已经得到设备选择一模块的筛选结果；筛选出的可操作设备的信息传递到显示模块，显示模块根据视角，得到可能设备列表2。

例如当前用户说出“小兰小兰”时，***不会进入激活状态；这里“小兰小兰”是另一用户唤醒词，当前用户不会激活，

当前用户说出“李医生，请看一下这个病人的用药情况……”，当前用户不会激活。

s4.4可选的，这里可以增加一个声纹识别模块。

s4.4.1***检测到唤醒词，则针对唤醒词对应的语音进行说话人声纹确认，这里，如果说话人得到确认，则***进入激活状态；如果说话人声纹未得到确认，则依然处于非激活状态。

s4.4.2***处于激活状态，检测到用户一直在输入语音信息，使用声纹识别技术，标记语音是否是已知用户的语音，如果是的话才解析，如果不是的话不解析。

例如旁边另一个医生(UID为D002)想操纵19床体温采集说的“小瑞小瑞”，因为本用户没有说话，被用户UID为D001的设备采集输入到***中。注意到这个医生自己定义的激活词也和UID为D001设定相同，都是“小瑞小瑞”，本医生的UID为D001***不会激活。

s5.语音识别

语音识别和语音唤醒可以合二为一，通过语音识别模块和结果解析模块联合动作。这个步骤一般包括如下的具体过程。

s5.1语音识别模块，即识别解码器(decoder)，用于将语音转化为文字信息，这里文字信息包括指令信息、有些指令可能还带有参数、信息输入内容等。

在这个例子中，可使用基于加权有限状态自动机(weighted finaite-statetransducer,WFST)的解码器，并使用深度神经网络(DNN)进行特征提取。

s5.2识别解码器涉及到声学模型AM(Acoustic model)、语言模型LM(Languagemodel)、发音字典Dictionary，这里使用的可以是语音识别中已有的加模技术。

在这个例子中，识别器识别到的语音，比如：

“小瑞小瑞，加快”，识别器将识别出来：“小瑞小瑞，加快”。

“小瑞小瑞，病床抬高”，识别器将识别出来：“小瑞小瑞，病床抬高”。

“小瑞小瑞，采集体温”，识别器将识别出来：“小瑞小瑞，采集体温”。

“李医生，请看一下这个病人的用药情况……”在目前***中，这句话是不会被识别的，因为前述语音唤醒没有将***进入激活状态。

旁边另一个医生(UID为D002)想操纵19床体温采集说的“小瑞小瑞，采集体温”，因为本用户没有说话，被UID001的设备采集输入到***中。在目前***中，这句话是不会被识别的，因为前述语音唤醒没有将***进入激活状态。

s6.解析结果

s6.1这里，用户的语音指令信息会一个唤醒词开头：“唤醒词+指令”；解析完成之后为“设备+指令”。

例如用户说“小瑞小瑞，加大流量”，用户注视输液机(设备1)，解析为“19床输液机，加大流量”。

设备不需要特别的激活词，用户在语音指令的时候注视“19床输液机”，然后说出“加大流量”，医生几乎和平时指挥他的助手来操作设备的口令完全一致，而且双手不许要停下手头的工作。

又例如：

“小瑞小瑞，抬高”，用户选择19床病床，解析为“19床病床，抬高”。

“小瑞小瑞，采集体温”，用户选择19床问温度采集设备，解析为“19床体温采集器，采集”。

“小瑞小瑞，抬高”，用户试图选择17床病床，但是设备列表2并未给出17床病床，所以***无法解析。

s6.2如果***处于激活状态，且没有超过一定的激活时间(例如5秒)，***仍然处于激活状态，则会响应***的输入。

例如：用户在说出“小瑞小瑞“后，暂停了4秒，再注视19床，说”采集体温”：***(S6模块)在接收到“小瑞小瑞”的时候，进入激活状态，并会保持激活状态。但是如果暂停了6秒，***会重新回到未激活状态，这时候***显示停止显示候选设备1～设备4，再说”采集体温”，***会忽略这个输入。

s6.3***处于激活状态，解析结果完成之后，这时响应的指令和信息会传输到相关设备。

s7.发送指令

服务器根据用户指令的解析结果，以及确定的目标设备，决定是否需要给指定的目标设备发送指令。

如果无需发送指令，可以直接给用户反馈错误信息。

如果需要发送指令，则需要向指定设备发送指定的指令。

例如：

“小瑞小瑞，加快”+19床输液机，则19床输液机反馈语音“19床输液机加快到每分钟xxx毫升”，并闪烁；

“小瑞小瑞，抬高”+19床病床，则19床床病设备反馈语音“19床床病抬高”，并闪烁；

“小瑞小瑞，采集体温”+19床体温采集器，则19床病床体温采集设备反馈语音“19床体温采集进行中，。。。体温36.8度，体温正常”，并闪烁；

“小兰小兰”:***忽略指令，无反馈；

“小瑞小瑞，抬高”+17床病床：智能终端(佩戴的耳机)直接给用户反馈语音“未收到指令”，并闪烁。

请参考图5，本发明的一个实施例，还提供一种服务器，包括：

接收模块51，用于接收移动终端发送的用户语音和用户位置以及用户标识UID；

语音处理模块52，用于对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，检测唤醒词和所述UID设定的唤醒词是否一致；

位置选择模块53，用于如果唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备；

发送模块54，用于将包含可操作设备信息的显示内容发送给AR/VR装置进行多设备显示；

所述接收模块51，还用于接收AR/VR装置返回的用户的注视点信息；

所述位置选择模块53，还用于根据所述AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备；

所述发送模块54，还用于响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

一些实施例中，所述接收模块51，还用于接收所述AR/VR装置返回的用户视角信息；所述位置选择模块53，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

一些实施例中，所述语音处理模块52，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作，否则将不对识别结果进行解析并不进行后续操作。

综上，本发明实施例公开了一种基于眼球和语音指令的操作设备的方法和***及服务器，从以上技术方案可以看出，本发明实施例具有以下优点：

5.用户通过AR/VR装置观看显示的设备，通过对用户进行眼球跟踪，即可确定用户想要操作的目标设备，而不必通过手动或语音或其它方式指定设备，具有速度快、使用方便等优点。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

上述实施例仅用以说明本发明的技术方案，而非对其限制；本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于眼球和语音指令的操作设备的***，用于操控多个设备，其特征在于，所述***包括：移动终端和服务器以及AR/VR装置；

2.根据权利要求1所述的***，其特征在于，

所述AR/VR装置，还用于采集用户视角，将采集的用户视角发送到所述服务器；

所述服务器，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

3.根据权利要求2所述的***，其特征在于，

所述服务器，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

4.一种基于眼球和语音指令的操作设备的方法，用于操控多个设备，其特征在于，所述方法包括：

移动终端采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID发送到服务器；

服务器接收所述移动终端发送的用户语音和用户位置以及用户标识UID，对用户语音进行识别；

服务器对识别结果进行解析，获取唤醒词和指令；

服务器如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备；

服务器将包含可操作设备信息的显示内容发送到AR/VR装置进行多设备显示；

AR/VR装置对用户进行眼球跟踪以检测用户的注视点，将用户的注视点信息发送到服务器；

服务器根据AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备；

服务器响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

5.根据权利要求4所述的方法，其特征在于，还包括：

AR/VR装置采集用户视角，将采集的用户视角发送到服务器；

服务器在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

6.根据权利要求4所述的方法，其特征在于，还包括：

服务器对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

7.一种服务器，其特征在于，包括：

接收模块，用于接收移动终端发送的用户语音和用户位置以及用户标识UID；

语音处理模块，用于对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，检测唤醒词和所述UID设定的唤醒词是否一致；

位置选择模块，用于如果唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备；

发送模块，用于将包含可操作设备信息的显示内容发送给AR/VR装置进行多设备显示；

所述接收模块，还用于接收AR/VR装置返回的用户的注视点信息；

所述位置选择模块，还用于根据所述AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备；

所述发送模块，还用于响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

8.根据权利要求7所述的***，其特征在于，

所述接收模块，还用于接收所述AR/VR装置发送的用户视角信息；

所述位置选择模块，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

9.根据权利要求7所述的***，其特征在于，

所述语音处理模块，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。