CN112863508A

CN112863508A - 免唤醒交互方法和装置

Info

Publication number: CN112863508A
Application number: CN202011625969.XA
Authority: CN
Inventors: 林永楷; 樊帅; 李春; 石韡斯; 宋洪博; 朱成亚
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-28

Abstract

本发明公开一种免唤醒交互方法和装置，其中，免唤醒交互方法，包括：响应于接收到用户的有效语音信号，基于所述有效语音信号所在的时间段确定检测区间；若在所述检测区间内检测到所述用户的有效指向特征，判断所述有效语音信号和所述有效指向特征是否对应有效指令；若判断对应有效指令，则对所述有效指令进行处理和反馈。本方案利用指向特征结合语音交互达到免唤醒交互，能够在保证低误唤醒率的情况下,提升用户同智能语音设备的交互体验，尤其在频繁交互的场景下能够较大幅度的提高用户交互效率，同时将唤醒特征的模态作为对话***的多模态输入也丰富了语音对话***的应用场景。

Description

免唤醒交互方法和装置

技术领域

本发明属于语音识别领域，尤其涉及免唤醒交互方法和装置。

背景技术

为了提高交互的准确度，避免误操作，当前智能设备普遍需要唤醒后才可以进行语音交互。而目前唤醒技术仍然以语音唤醒为主，为了避免误操作，部分技术支持将少数命令注册为快捷唤醒词，比如上一首下一首，但是引入过多的快捷唤醒词将会增加误唤醒的概率，因此快捷唤醒词的使用都是比较克制的。也有部分技术支持特定场景下识别到人脸后免使用唤醒词就可以交互，但这会对用户的姿态有要求，必须先人脸识别成功后才可以操作。并且由于人脸的朝向，距离也容易出现误唤醒的情况。总的来说，需要先唤醒才能操作智能设备是该领域长期存在的问题。

目前市面上已有的与免唤醒相关的技术方案：有的方案需要额外的无线耳机设备用于计算距离，但是，即便距离很近也不代表就是在和音箱对话；有的方案只是简单地设置一些免唤醒词，比如上一首下一首之类的，并且这种方案主要是针对当前运行的应用程序，过多的唤醒词也会导致误唤醒率上升；有的方案对于眼睛视线的检测精度低，比如眼睛看着键盘时，无法捕捉到是看H还是看G；有的方案则不是用于唤醒，而只是用来保持对话；有的方案存在人多时就无法免唤醒的缺陷。现有技术中并没有提出一种对用户比较友好的免唤醒的方案。

发明内容

本发明实施例提供一种免唤醒交互方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种免唤醒交互方法，包括：响应于接收到用户的有效语音信号，基于所述有效语音信号所在的时间段确定检测区间若在所述检测区间内检测到所述用户的有效指向特征，判断所述有效语音信号和所述有效指向特征是否对应有效指令；若判断对应有效指令，则对所述有效指令进行处理和反馈。

第一方面，本发明实施例提供一种用于对话***的多模态输入特征处理方法，包括：响应于设备被多模态输入特征唤醒，接收所述多模态输入特征和用户语音控制指令；基于所述多模态输入特征和所述用户语音控制指令形成实际控制指令；以及对所述实际控制指令进行响应。

第三方面，本发明实施例提供一种免唤醒交互装置，包括：信号接收程序模块，配置为响应于接收到有效语音信号，对所述有效语音信号区间采集的图像是否包含有效指向特征进行判断，其中，所述有效指向特征指用户发出的指向动作，包含所述有效指向特征的区间为指向区间；信号判定程序模块，配置为若判断所述有效语音信号区间包含有效指向特征，则将所述有效语音信号区间的多模态信息输入至对话***进行是否有效指令判断，其中，多模态信息为包含音频和包含指向动作的图像；指令响应程序模块，配置为若判断所述多模态信息为有效指令，则响应所述指令并反馈响应结果。

第四方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

第五方面，本发明实施例还提供一种存储介质，其包括：所述程序被处理器执行时实现第一方面所述方法的步骤。

本申请实施例提供一套利用指向信息结合语音交互达到免唤醒交互的方法，能够在保证低误唤醒率的情况下,提升用户同智能语音设备的交互体验，尤其在频率交互的场景下能够较大幅度的提高用户交互效率，同时唤醒特征的模态作为对话***的多模态输入也丰富了语音对话***的应用场景。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种免唤醒交互方法的流程图；

图2为本发明一实施例提供的另一种免唤醒交互方法的流程图；

图3为本发明一实施例提供的一种用于对话***的多模态输入特征处理方法的流程图；

图4为本发明实施例的免唤醒交互的方案一具体实施例的免唤醒交互流程图；

图5为本发明实施例的免唤醒交互的方案一具体实施例的另一免唤醒交互流程图；

图6为本发明实施例的免唤醒交互的方案一具体实施例的另一免唤醒交互流程图；

图7为本发明一实施例提供的一种免唤醒交互装置的框图；

图8为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种免唤醒交互方法的一实施例的流程图。

如图1所示，在步骤101中，响应于接收到用户的有效语音信号，基于所述有效语音信号所在的时间段确定检测区间；

在步骤102中，若在所述检测区间内检测到所述用户的有效指向特征，判断所述有效语音信号和所述有效指向特征是否对应有效指令；

在步骤103中，若判断对应有效指令，则对所述有效指令进行处理和反馈。

在本实施例中，对于步骤101，智能设备响应于接收到用户的有效语音信号，基于所述有效语音信号所在的时间段确定检测区间，其中，有效语音信号为所述用户的语音，不包括背景杂音等，例如，当智能设备检测到用户说话的声音时，确定该语音所在的时间段为检测区间，当智能设备只检测到背景杂音不包括人声时，则不作响应，在此不在赘述。

之后，在步骤102中，若在所述检测区间内检测到所述用户的有效指向特征，判断所述有效语音信号和所述有效指向特征是否对应有效指令，其中，有效指向特征是所述用户有意识的通过手指或者某个物件(比如笔、遥控器等)指向某个设备、物品、文字或图片，例如，用户拿着遥控器指着空调说“温度调到20度”，本申请在此没有限制，智能设备检测到用户发出的语音“温度调到20度”为有效语音信号，检测该语音检测区间内“用户拿着遥控器指着空调”这一动作为有效指向特征，则将有效语音信号及有效指向对应图像传输到对话***进行处理，在此不再赘述。

最后，在步骤103中，若判断对应有效指令，则对所述有效指令进行处理和反馈，其中，有效指令是在智能设备通过指向免唤醒交互时，同时检测到了视觉输入和音频输入，例如，当用户拿着遥控器指着空调说“温度调到20度”，视觉输入为“用户拿着遥控器指着空调”，语音音频输入为“温度调到20度”，且“温度调到20度”命中预设语义，则判定该指令为有效指令，智能设备则空调对空调进行操作；当用户拿着遥控器指着空调说“这个空调很好用”，视觉输入为“用户拿着遥控器指着空调”，语音音频输入为“这个空调很好用”，但“这个空调很好用”未命中预设语义，智能设备则不做响应，本申请在此没有限制，在此不再赘述。

在本实施例中，通过利用手势结合语音交互达到免唤醒交互，能够在保证低误唤醒率的情况下,提升用户同智能语音设备的交互体验，尤其在频率交互的场景下能够较大幅度的提高用户交互效率，同时唤醒特征的模态作为对话***的多模态输入也丰富了语音对话***的应用场景。

在一些可选的实施例中，在若在所述指向区间内检测到所述用户的有效指向特征，结合所述有效语音信号和所述有效指向特征判断是否对应有效指令之前，所述方法还包括：持续检测视觉信号，当检测的视觉信号的某一时间段出现所述有效指向特征，则将所述某一时间段标记为指向区间；判断在所述检测区间内是否包含指向区间。例如，智能设备在没有交互期间视觉传感器保持开启状态，利用图像分析算法分析检测用户是否出现有效指向特征，当检测到用户出现了有效指向特征，则将包含有效指向特征的区间段标记为指向区间。当用户在第6-20秒发出语音“打开电视机”，在第7-12秒间用手指着电视机时，本申请在此没有限制，则将第6-12秒为标记检测区间，将第7-12秒区间标记为指向区间，判断检测区间包含指向区间，再次不再赘述。

在一些可选的实施例中，所述方法还包括：若在所述检测区间内未检测到所述用户的有效指向特征，则进入对所述有效语音信号的唤醒判断，其中，所述唤醒判断为，检测有效语音信号区间前一段时间区间和后一段时间区间内是否包含所述有效指向特征。例如，当用户在第10-20秒发出语音“打开电视机”，第21-23秒手指向电视机时，未检测到用户的有效指向特征，则检测有效语音信号区间前一段时间M内是否出现有效指向特征，假设M为3，本申请在此没有限制，本方案在此没有限制，检测结果为无；则继续检测有效语音信号区间前一段时间N内是否出现有效指向特征，假设N为2，本申请在此没有限制，检测结果为有，则开始处理用户指令，在此不再赘述。

在一些可选的实施例中，在判断所述有效语音信号和所述有效指向特征是否对应有效指令之后，所述方法还包括：若判断不对应有效指令，则进入对所述有效语音信号的唤醒判断。例如，当用户拿着遥控器指着空调说“这个空调很好用”，本申请在此没有限制，“这个空调很好用”未命中预设语义，智能设备则不做响应，继续通过视觉传感器获取图像，检测有效指向特征，在此不再赘述。

在一些可选的实施例中，所述判断所述有效语音信号和所述有效指向特征是否对应有效指令包括：获取所述有效指向特征指向的内容；判断所述有效语音信号是否与所述内容相关；若相关，则确定所述有效语音信号和所述有效指向特征对应有效指令；若不相关，则确定所述有效语音信号和所述有效指向特征对应无效指令。例如，用户用手指向空调说“打开电视机”，本申请在此没有限制，有效指向特征指向空调，有效语音信号为电视机，判断两者不相干，则该指令为无效指令，在此不再赘述。

在一些可选的实施例中，所述判断所述有效语音信号是否与所述内容相关包括：对所述有效语音信号进行语音识别和语义理解，基于语义理解的结果判断所述有效语音信号是否与所述内容相关。例如，当有效语音信号为“打开电视机”可以解析为“打开、电视机”，本申请在此没有限制，判断解析结果是否命中语义，在此不再赘述。

在一些可选的实施例中，所述内容包括视觉信号流或图片，与所述内容对应的语义理解的意图包括操作智能家居或看图识物。例如，当用户手指着电视机说“打开电视机”，语义理解可以为操作电视机开关；当用户手指着电视机说“这个用英文怎么念”语义理解可以为学习电视机英语单词，本申请在此没有限制，在此不再赘述。

在一些可选的实施例中，所述基于所述有效语音信号所在的时间段确定检测区间包括：基于所述有效语音信号所在的时间段的起始时间点往前回溯第一预设时间形成回溯区间；基于所述有效语音信号所在的时间端的结束时间点往后保持第二预设时间形成保持区间；根据所述回溯区间、所述有效语音信号所在的时间段和所述保持区间形成检测区间。例如，有效语音信号所在时间段为第15-20秒，第一预设时间为2秒，第二预设时间为3秒，本申请在此没有限制，则回溯期间为第13-15秒，保持区间为第20-23秒，第13-23秒为检测区间，在此不再赘述。

请参考图2，其示出了本发明一实施例提供的另一种免激活交互方法的流程图。

如图2所示，当智能设备接收到用户的有效语音信号，则对标记的包含有效语音信号检测区间是否包含指向区间进行判断，其中，指向区间为包含有效指向特征区间；如果判断该检测区间不包含指向区间，智能设备则不作响应；如果判断该检测区间包含指向区间，则将用户语音音频包含手势的图片或视频片段传给对话***；对话***对用户语音音频包含手势的图片或视频片段进行理解，判断是否为有效指令；如果判断为无效指令，则不作响应；如果判断为有效指令，智能***则通过TTS或屏幕等设备反馈响应。

请参考图3，其示出了本申请一实施例提供的一种用于对话***的多模态输入特征处理方法的流程图。该方法与前述方法均是用于免唤醒的场景，属于同一个发明构思。具体的，前述实施例用于免唤醒场景中的唤醒阶段，本实施例用于免唤醒场景中的唤醒后的对话场景中。

在步骤301中，响应于设备被多模态输入特征唤醒，接收所述多模态输入特征和用户语音控制指令；

在步骤302中，基于所述多模态输入特征和所述用户语音控制指令形成实际控制指令；

在步骤303中，对所述实际控制指令进行响应。

在本实施例中，当前面的唤醒***是被多模态特征唤醒的，此时对话***不能丢弃之前唤醒***采集的多模态唤醒特征，而是需要将多模态输入特征与后面的用户语音控制指令结合起来形成实际控制指令，例如，在一个具体应用场景中，用户指向苹果(事物或图片)问“这个用英文怎么说”，此时可以触发免唤醒，后续对话***不仅仅需要用到用户的语音“这个用英文怎么说”，还需要结合用户的其他多模态特征，例如“指向苹果”才能形成一个完成的实际控制指令，并可以继续将该指令解析为“看图识物”意图，从而继续对话。

之所以需要考虑到唤醒阶段的“唤醒词”，是因为现有技术中在对话***处理时会刻意将唤醒词丢弃，例如用户语音为“你好小驰，打开电视”，唤醒之后只有“打开电视”会被传输至对话***进行进一步地解析，而唤醒词会被丢弃，这种情况在普通场景中是没有问题的，但是在免唤醒场景中，如果简单地将“唤醒词”(例如指向特征)丢弃，则会造成后续的指令不完整，则对话***无法正常处理，例如没有指向特征，只有“这个用英文怎么说”，则按照以前的逻辑对话***可能会提问用户“您指的是什么东西用英文怎么说”，这种忽略多模态特征的方式明显是对用户非常不友好的。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现为什么不容易被想到原因：通常会采用的方法是通过在保障误唤醒率的情况下，提供适量的快捷操作，且这种操作多数局限于媒体的播放控制，比如上一首下一首、声音大一点等。

比较少的方案会涉及到使用摄像头实时对当前环境内出现的人进行人脸识别，或者计算人与设备的距离。当进入人脸识别匹配度或者距离概率达到一定阈值时，且用户开始交互则无需唤醒状态，直接将交互的音频送到云端。

本方案利用手势结合语音交互达到免唤醒交互，不容易想到是因为目前市面上还没有通过手势控制智能唤醒的产品及专利。而且该交互不仅仅在于唤醒，同时也将手指所指的位置作为输入提供给语音对话***，这属于多模态交互的范畴，需要对语音之外的交互发展也比较熟悉才会想到类似的方案。

本方案想法本身比较新颖，同时也实现了在免唤醒的同时，综合处理手指指向以及语音指令。

本发明的整体设计构思和原理：

智能语音交互设备自从AMAZON ECHO在2014年上市至令，始终需要使用唤醒词作为语音交互的起始判断。目前部分产品已经在尝试在特定场景下避免要求用户仍然需要使用唤醒词，比如小度音箱的眼神唤醒、天猫精灵的自然唤醒，都能够在用户距离音箱比较近时实现一定程度的免唤醒。比如捕获到用户眼神正在注视音箱，同时用户发起了语音操作指令时无需用户使用唤醒词。但这类唤醒的方法避免不了唤醒后有可能将人与人之间的交流当作语音作为智能设备的输入。

同样，我们也在调研怎么样在特定情况下避免强制要求用户使用唤醒词，并且也避免将人与人的交流错误的当作设备的输入。我们了解到，目前在智能阅读灯以及平板电脑中启动特定的语音技能或者APP后可以配合手指询问设备“这个字怎么读”“这个字怎么写”。也可以直接使用唤醒词+语音内容的方式进行询问，比如“你好小驰这个字怎么读”。

我们的方案是：通过摄像头实时检测并记录画面中是否出现指向势态，当用户以语音的方式同设备交互时，如果在说话的同时或者说话前一定时长或者说完话后的一定时长内出现了指向姿态，则将用户语音以及包含指向的画面同时作为对话的输入。从而达到免唤醒，并且避免了免唤醒后将人与人的交流错误的当作设备的输入。

一开始的构思是考虑对于一些需要手势进行指向的技能，是不是可以在某些场景下不需要说出语音唤醒词，比如前文提到的通过手指指向文本询问设备这个字怎么读，后来我们拓宽思路,发现手指指向势态是一种特别常见和自然的势态，如果将符合这个姿态情况下的语音作为输入，在特定场合下可以创建出新的更自然的语音交互方式。比如手指指向电灯时，如果用户的说法命中了智能家居的技能，就可以免唤醒操作电灯；当少儿手指指向某个物体时，比如一棵圣诞树，如果用户的说法命中了看图识物技能时，则可以告诉用户这个是一棵圣诞树。

本发明的技术详述：本发明提供了一种智能语音设备的在免唤醒的状态下直接执行语音指令的方法，方法通过视觉传感器实时检测到的图像信息，利用智能算法分析判断画面中的人物是否有意识的通过手指指向某个设备、物品、文字或图片，若判断为有意，则将当前时间段标记为出现有效指向特征。当接收到用户有效语音信号时，如果在收集语音信号过程中出现指向特征，或者在语音信号前后一定时间范围内出现指向特征，则将语音作为对话***的输入，并由对话***响应用户的语音请求。由于指向的内容本身也是会被技能使用到的信息，因此整个免唤醒流程都很自然，并且拥有较低的学习成本。该方法能够在保证低误唤醒率的情况下,提升用户同智能语音设备的交互体验，尤其在频率交互的场景下能够较大幅度的提高用户交互效率，同时唤醒特征的模态作为对话***的多模态输入也丰富了语音对话***的应用场景。

请参考图4，其示出了本发明实施例的免唤醒交互的方案一具体实施例的免唤醒流程图。该图主要是针对标记有效指向区间方法的步骤图。

如图4所示，智能设备在没有交互期间将会利用视觉传感器实时采集图像，利用图像分析算法分析(包含但不局限于神经网络算法、卷积神经网络(CNN)、支持向量机(SVM)等)判断画面中的人物是否出现符合条件的指向特征，符合条件的指向特征是指有意识的通过手指或者某个物件(比如笔、遥控器等)指向某个设备或者物品或者文字或者图片。如果没有出现指向特征则继续检测视觉信号直到出现符合条件的指向特征为止。如果出现了指向特征，则将出现指向特征的时间区间标记为指向区间。

请参考图5，其示出了本发明实施例的免唤醒交互的方案一具体实施例的另一免唤醒流程图。该图主要是针对所述有效语音信号的唤醒判断方法的步骤图。

如图5所示，当智能设备检测到有效的语音信号后会检查在一段时间范围内是否包含标记过的指向区间，具体为：

当有效语音信号开始时，***会往前回朔若干时长，比如1秒，如果在该时间段内出现指向区间(图5指向区间B)，则开始持续地将数据传给对话***。

如果有效语音信号开始前的一段时间未出现指向区间，则关注在有效语音信号收集期间是否出现了指向区间，如果出现了(图5指向区间C、D、E)，则在出现指向区间时就开始持续地将数据(用户语音音频流，包含手势的视觉信号流或图片)传给对话***。

如果有效语音信号结束时仍然没有出现指向区间，则***会将该语音信号缓存若时长，比如2秒，如果在该时间区域内出现指向区间(图5指向区间F)，则将数据传给对话***。

其中，有效语音信号通常指的是用户的语音而非背景杂音等。

图5中的指向区间A与指向区间G由于没有存在有效语音信号所以不会传给对话***处理。

通常当对话***接收到多模态数据时(多模态数据指的是用户语音音频流以及包含指向的视觉信号流或图片)，将会在经历语音识别模块、语义处理模块以及对话处理模块后得到响应结果，响应结果分为不响应以及响应两种状态。其中,当输入的内容为无效的指令时，比如虽然同时出现了指向及有效音频，但对话内容是与朋友在闲聊，则不响应。当输入的内容为有效的指令时，对话***将会执行用户的指令并给予反馈。有效指令是指在通过指向免唤醒交互时，对话***同时使用到了视觉输入与音频输入。这样可以避免将人与人的交流错误的当作设备的输入。反馈包含但不局限于通过文本转音频输出(TTS)播放信息、将多媒体信息显示在屏幕上以及处理智能家居操作等，以及如果是带有肢体或者移动装置的智能设备，反馈包含也不局限于移动和生成姿势等。

请参考图6，其示出了本发明实施例的免唤醒交互的方案一具体实施例的另一免唤醒流程图。该图主要是针对所述多模态对话***管道模型图。

如图6所示，所示为一个典型的多模态对话***管道模型(PIPELINE)。有另于传统对话***只将音频或者文本作为输入，多模态对话***的输入是多种信息，包括但不局限于语音、文本、视觉信息、陀螺仪信息、触摸屏手势及轨迹或超声波信息等。

对话***的对话主控模块利用自动语音识别(ASR)进行语音识别、自然语言语义理解(NLU)进行语义理解以及多模态信息理解等模块生成一个回复，回复信息通常会包括TTS语音合成，或者一段音频地址。依据用户的指令不同，会选择性的返回多媒体信息，以及控制模态的信息等。

以上各模块的调度由对话主控内部基于对话状态管理模块以及对话策略管理模块控制。

发明人在实现本发明的过程中发现达到更深层次的效果：

首先该方法在特定场景下达到了免唤醒交互的效果，由于新增了免唤醒的特性，产品在进行设计时可以避免需要开启多轮对话才可以在较长时间内不需要用户再次唤醒设备进行交互。但是如果多轮对话开启的时间过长会导致许多并非针对智能设备的语音被误当作指令，这将会影响用户体验。由于我们的免唤醒方法会结合指向区间与有效音频输入进行处理，从而保证了在低误唤醒率的情况下，提升用户同智能语音设备的交互体验。尤其在频繁交互的场景下能够较大幅度的提高用户交互效率。

第二，由于指向的内容本身也是会被技能使用到的信息，并没有刻意使用指向替代语音唤醒词，因此整个免唤醒流程都很自然，并且拥有较低的学习成本。同时引入图像作为多模态输入也丰富了语音对话***的应用场景，比如手指指向空调或者电灯时，只需要说“帮我打开”,技能就可以打开对应的智能设备。再比如，原来难以使用语音描述的位置信息也可以很方便的通过指向得到明确，例如让机器到走到“这里”，小朋友在认知阶段指向物品时可以告知物品是什么名字，小朋友也可以提问“这个是做什么的”。

简而言之，多模态交互丰富了语音技能的使用场景，能够让人同智能设备的交流更加高效。而将指向作为免唤醒的特征，没有刻意使用指向替代语音唤醒词，而是在让技能获取到指向的内容的同时避免掉了需要先用语音唤醒后才能指向的情况。

本发明至少存在以下技术创新点：

一种语音免唤醒的方法，该语音免唤醒方法包括以下步骤：当开始接收到用户有效语音信号时，判断在收集语音信号过程中是否出现符合条件的指向特征；若是，则在无需唤醒词的状态下，直接开始处理用户语音控制指令；若否，则判断在有效语音信号前一定时间范围内是否出现指向特征；若是，则在无需唤醒词的状态下，直接开始处理用户语音控制指令；若否，则在有效语音信号结束后一定时间范围内判断是否出现指向特征；若是，则在无需唤醒词的状态下,直接开始处理用户语音控制指令；若否，则不需要响应。

此方法保护的是产品通过指向达到免唤醒的方式。

一种将唤醒特征作为对话***多模态输入特征的方法，其特征在于：将对话***需要使用到的模态特征，直接作为对话***的唤醒词；其中，对话***在处理该唤醒方法下的用户语音控制指令时，只有在生成对话结果的过程中同时用到该模态信息(如指向视觉信息)与用户语音时才进行响应。

可以达到用户同智能设备交互时在不再需要使用语音唤醒词；降低误响应。针对误响应不敏感的场景，也可以在仅用户语音有响应时也给予响应。

此方法保护的是目前不管是不是基于指向的唤醒，如果唤醒不是基于语音，并且该特征不仅用在唤醒上，也作为了对话***的输入的方式。

一种多模态对话***架构，包括：多模态信息输入以及多模态信息作为输出；对话主控包括语音识别模块、语义解析模块、多模态信息理解模块、语音合成模块和多媒体信息生成模块，对话主控内部涉及对话状态管理及对话策略管理。

第三方可能借鉴的点：文中指向信息不限于手指的指向，也可以是笔、遥控器以及任何可以提前注册的物品。

判断指向区间时，目前我们会判断有效音频期间、有效音频前以及有效音频后是否出现指向区间，需要强调，有效音频前和有效音频后甚至有效音频中都可以是不必要的，虽然那可能会降低效果，但是也属于本发明的保护范围。

请参考图7，其示出了本发明一实施例提供的一种免唤醒交互装置的框图。

如图7所示，免唤醒交互装置700包括信号接收程序模块710、信号判定程序模块720和指令响应程序模块730。

其中，信号接收程序模块710，配置为响应于接收到有效语音信号，对所述有效语音信号区间采集的图像是否包含有效指向特征进行判断，其中，所述有效指向特征指用户发出的指向动作，包含所述有效指向特征的区间为指向区间；信号判定程序模块720，配置为若判断所述有效语音信号区间包含有效指向特征，则将所述有效语音信号区间的多模态信息输入至对话***进行是否有效指令判断，其中，多模态信息为包含音频和包含指向动作的图像；指令响应程序模块730，配置为若判断所述多模态信息为有效指令，则响应所述指令并反馈响应结果。

应当理解，图7中记载的诸模块与参考图1、图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如信号接收程序模块，配置为响应于接收到有效语音信号，对所述有效语音信号区间采集的图像是否包含有效指向特征进行判断，其中，所述有效指向特征指用户发出的指向动作，包含所述有效指向特征的区间为指向区间，另外，还可以通过硬件处理器来实现相关功能模块，例如信号接收程序模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的免唤醒交互方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于接收到用户的有效语音信号，基于所述有效语音信号所在的时间段确定检测区间；

若在所述检测区间内检测到所述用户的有效指向特征，判断所述有效语音信号和所述有效指向特征是否对应有效指令；

若判断对应有效指令，则对所述有效指令进行处理和反馈。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据免唤醒交互装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至免唤醒交互装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项免唤醒交互方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。用于免唤醒交互方法的设备还可以包括：输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于免唤醒交互装置方法。输入装置830可接收输入的数字或字符信息，以及产生与用于免唤醒交互装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于免唤醒交互装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

若判断对应有效指令，则对所述有效指令进行处理和反馈。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种免唤醒交互方法，包括：

若判断对应有效指令，则对所述有效指令进行处理和反馈。

2.根据权利要求1所述的方法，其中，在若在所述指向区间内检测到所述用户的有效指向特征，结合所述有效语音信号和所述有效指向特征判断是否对应有效指令之前，所述方法还包括：

持续检测视觉信号，当检测的视觉信号的某一时间段出现所述有效指向特征，则将所述某一时间段标记为指向区间；

判断在所述检测区间内是否包含指向区间。

3.根据权利要求1所述的方法，其中，所述方法还包括：

若在所述检测区间内未检测到所述用户的有效指向特征，则进入对所述有效语音信号的唤醒判断。

4.根据权利要求1所述的方法，其中，在判断所述有效语音信号和所述有效指向特征是否对应有效指令之后，所述方法还包括：

若判断不对应有效指令，则进入对所述有效语音信号的唤醒判断。

5.根据权利要求4所述的方法，其中，所述判断所述有效语音信号和所述有效指向特征是否对应有效指令包括：

获取所述有效指向特征指向的内容；

判断所述有效语音信号是否与所述内容相关；

若相关，则确定所述有效语音信号和所述有效指向特征对应有效指令；

若不相关，则确定所述有效语音信号和所述有效指向特征对应无效指令。

6.根据权利要求5所述的方法，其中，所述判断所述有效语音信号是否与所述内容相关包括：

对所述有效语音信号进行语音识别和语义理解，基于语义理解的结果判断所述有效语音信号是否与所述内容相关。

7.根据权利要求5所述的方法，其中，所述内容包括视觉信号流或图片，与所述内容对应的语义理解的意图包括操作智能家居或看图识物。

8.根据权利要求1-7中任一项所述的方法，其中，所述基于所述有效语音信号所在的时间段确定检测区间包括：

基于所述有效语音信号所在的时间段的起始时间点往前回溯第一预设时间形成回溯区间；

基于所述有效语音信号所在的时间端的结束时间点往后保持第二预设时间形成保持区间；

根据所述回溯区间、所述有效语音信号所在的时间段和所述保持区间形成检测区间。

9.一种用于对话***的多模态输入特征处理方法，包括：

响应于设备被多模态输入特征唤醒，接收所述多模态输入特征和用户语音控制指令；

基于所述多模态输入特征和所述用户语音控制指令形成实际控制指令；

对所述实际控制指令进行响应。

10.一种设备免唤醒交互装置，包括：

信号接收程序模块，配置为响应于接收到有效语音信号，对所述有效语音信号区间采集的图像是否包含有效指向特征进行判断，其中，所述有效指向特征指用户发出的指向动作，包含所述有效指向特征的区间为指向区间；

信号判定程序模块，配置为若判断所述有效语音信号区间包含有效指向特征，则将所述有效语音信号区间的多模态信息输入至对话***进行是否有效指令判断，其中，多模态信息为包含音频和包含指向动作的图像；

指令响应程序模块，配置为若判断所述多模态信息为有效指令，则响应所述指令并反馈响应结果。