CN109949812A

CN109949812A - 一种语音交互方法、装置、设备及存储介质

Info

Publication number: CN109949812A
Application number: CN201910343729.1A
Authority: CN
Inventors: 戚耀文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-06-28

Abstract

本发明实施例提出一种语音交互方法、装置、设备及存储介质，其中方法包括：采集第一用户图像，识别所述第一用户图像中的用户动作；响应于所述第一用户图像中的用户动作与第一预设动作相匹配，接收语音信息并对所述语音信息进行语音识别；采集第二用户图像，识别所述第二用户图像中的用户动作；响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配，停止接收语音信息。本发明实施例能够简化唤醒流程，改善用户体验。

Description

一种语音交互方法、装置、设备及存储介质

技术领域

本发明涉及语音交互技术领域，尤其涉及一种语音交互方法、装置、设备及存储介质。

背景技术

语音交互设备在接收用户发出的语音指令之前，需要首先被唤醒。目前一般采用语音唤醒的方式，例如用户发出包含唤醒词的语音信息，当语音交互设备识别出该唤醒词时，语音交互设备被唤醒。现有的语音交互方法中，每次在进行语音交互前用户都需要说一次唤醒词，这种方式的用户体验较差。

发明内容

本发明实施例提供一种语音交互方法及装置，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种语音交互方法，包括：

采集第一用户图像，识别所述第一用户图像中的用户动作；

响应于所述第一用户图像中的用户动作与第一预设动作相匹配，接收语音信息并对所述语音信息进行语音识别；

采集第二用户图像，识别所述第二用户图像中的用户动作；

响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配，停止接收语音信息。

在一种实施方式中，所述识别所述第二用户图像中的用户动作之后，还包括：

响应于所述第二用户图像中的用户动作与第二预设动作相匹配，停止接收语音信息，并删除所述语音识别的结果。

在一种实施方式中，还包括：响应于所述第一用户图像中的用户动作与第一预设动作相匹配，提示所述匹配的信息，并提示语音交互过程已开启；

所述接收语音信息并对所述语音信息进行语音识别时，进一步提示正在接收语音信息，并显示所述语音识别的结果。

在一种实施方式中，所述采集第二用户图像，识别所述第二用户图像中的用户动作，包括：

采集多帧第二用户图像；

根据各帧所述第二用户图像中的用户状态，识别所述多帧第二用户图像中的用户动作。

第二方面，本发明实施例还提出一种语音交互装置，包括：

第一采集识别模块，用于采集第一用户图像，识别所述第一用户图像中的用户动作；

第一处理模块，用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配，接收语音信息并对所述语音信息进行语音识别；

第二采集识别模块，用于采集第二用户图像，识别所述第二用户图像中的用户动作；

第二处理模块，用于响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配，停止接收语音信息。

在一种实施方式中，所述装置还包括：

第三处理模块，用于响应于所述第二用户图像中的用户动作与第二预设动作相匹配，停止接收语音信息，并删除所述语音识别的结果。

在一种实施方式中，所述装置还包括：

第一提示模块，用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配，提示所述匹配的信息，并提示语音交互过程已开启；

第二提示模块，用于在所述第一处理模块接收语音信息并对所述语音信息进行语音识别时，提示正在接收语音信息，并显示所述语音识别的结果。

在一种实施方式中，所述第二采集识别模块用于：采集多帧第二用户图像；根据各帧所述第二用户图像中的用户状态，识别所述多帧第二用户图像中的用户动作。

第三方面，本发明实施例提供了一种语音交互设备，所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述语音交互方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音交互设备所用的计算机软件指令，其包括用于执行上述语音交互方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明实施例提出的语音交互方法和装置，当识别出用户图像中的用户动作与第一预设动作相匹配时，开启语音交互过程；当识别出用户图像中的用户动作与第一预设动作不匹配时，停止语音交互过程。通过这种方式，用户可以采用固定的动作唤醒设备，而不需要采用语音唤醒的方式，尤其是不需要在每次发出语音信息时都唤醒设备，因此能够简化唤醒流程，改善用户体验。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例的一种语音交互方法实现流程图；

图2为本发明实施例的另一种语音交互方法实现流程图；

图3A为本发明实施例中第一用户图像中的用户动作与第一预设动作相匹配时，显示界面的示意图；

图3B为本发明实施例中接收语音信息并对所述语音信息进行语音识别时，显示界面的示意图；

图3C为本发明实施例中停止接收语音信息时，显示界面的示意图；

图4为本发明实施例中步骤S13的实现流程图；

图5为本发明实施例的一种语音交互装置结构示意图；

图6为本发明实施例的另一种语音交互装置结构示意图；

图7为本发明实施例的一种语音交互设备结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例主要提供了一种语音交互方法和装置，下面分别通过以下实施例进行技术方案的展开描述。

如图1为本发明实施例的一种语音交互方法实现流程图，包括：

步骤S11：采集第一用户图像，识别所述第一用户图像中的用户动作；

步骤S12：响应于所述第一用户图像中的用户动作与第一预设动作相匹配，接收语音信息并对所述语音信息进行语音识别；

步骤S13：采集第二用户图像，识别所述第二用户图像中的用户动作；

步骤S14：响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配，停止接收语音信息。

如图2为本发明实施例的另一种语音交互方法实现流程图，包括：

步骤S14：响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配，停止接收语音信息；

步骤S25：响应于所述第二用户图像中的用户动作与第二预设动作相匹配，停止接收语音信息，并删除所述语音识别的结果。

上述步骤S14中，停止接收语音信息之后，可以对所述语音识别的结果进行响应。另外，步骤S14与步骤S25没有先后顺序的限制，二者可以同步执行。

上述实施例可以应用于带有摄像头的语音交互设备，也可以应用于具备语音交互功能的智能终端设备，如智能手表、智能手机、智能音箱等。

在一种可能的实施方式中，采用摄像头采集第一用户图像及第二用户图像。上述第一用户图像可以指语音交互设备尚未被唤醒的状态下采集的图像，第二用户图像可以指语音交互设备已经被唤醒的状态下采集的图像。语音交互设备在尚未被唤醒的状态下，可以通过语音或图像等形式提示用户做出第一预设动作，以便唤醒语音交互设备。

在一种可能的实施方式中，摄像头持续多次采集用户图像(包括第一用户图像或第二用户图像)，例如可以按照固定的周期进行采集。语音交互设备的摄像头可以在一些特定的时间段内按照固定的周期采集图像。例如，按照用户的设置在预定时间段采集图像，或者在以语音交互设备被启动的时刻为起点的一段时间内采集图像，或者在语音交互设备执行预定功能的时间段内采集图像，等等。

在一种可能的实施方式中，语音交互设备在采集到第一用户图像时，对第一用户图像中的用户动作与预先存储的第一预设动作进行匹配判断，并在二者相匹配时执行上述步骤S12。语音交互设备在采集到第二用户图像时，对第二用户图像中的用户动作与预先存储的第一预设动作及第二预设动作分别进行匹配判断；在第二用户图像中的用户动作与第一预设动作不匹配时执行上述步骤S14，或者，在第二用户图像中的用户动作与第二预设动作相匹配时执行上述步骤S25。

在一种可能的实施方式中，响应于所述第一用户图像中的用户动作与第一预设动作相匹配，可以进一步提示所述匹配的信息，并提示语音交互过程已开启。

例如，第一预设动作为：大拇指向上、其余四指弯曲的手势。当用户做出第一预设动作时，语音交互设备采集第一用户图像，识别出第一用户图像中的用户动作与第一预设动作相匹配。此时，可以在语音交互设备的显示界面显示该第一预设动作，用于提示第一用户图像中的用户动作与第一预设动作相匹配的信息。还可以在语音交互设备的显示界面显示监听波浪线，用于提示用户语音交互过程已开启。

如图3A为本发明实施例中第一用户图像中的用户动作与第一预设动作相匹配时，显示界面的示意图。在图3A中，显示界面的下方显示了上述第一预设动作，并显示了监听波浪线；为使显示效果更醒目，可以将前述第一预设动作***的圆环闪烁显示，并将监听波浪线滚动显示。

在一种可能的实施方式中，接收语音信息并对所述语音信息进行语音识别的同时，可以进一步提示正在接收语音信息，并显示对该语音信息进行语音识别的结果。

例如，用户说出语音信息，并保持上述第一预设动作。语音交互设备接收语音信息并对该语音信息进行语音识别的同时，可以在语音交互设备的显示界面显示该第一预设动作，用于提示用户正在接收语音信息。还可以在语音交互设备的显示界面显示语音识别得到的文本信息，并显示幅度较小的监听波浪线。

如图3B为本发明实施例中接收语音信息并对所述语音信息进行语音识别时，显示界面的示意图。在图3B中，显示界面的下方显示了上述第一预设动作，该第一预设动作***的圆环停止闪烁；显示界面的下方还显示了文本信息及幅度较小的监听波浪线。

在一种可能的实施方式中，语音交互设备持续采集第一用户图像。当用户停止做出上述第一预设动作时，语音交互设备识别出当前第一用户图像中的用户动作与第一预设动作不匹配，则语音交互过程结束。或者，当用户停止发出语音信息时，语音交互过程结束。

在语音交互过程结束时，停止接收语音信息，可以将对之前接收的语音信息进行语音识别的结果(即对应的文本信息)显示在显示界面。如图3C为本发明实施例中停止接收语音信息时，显示界面的示意图。在图3C中，在文本信息下方显示横线，以表示该内容是语音识别的最终结果。并且，在图3C中，不再显示第一预设动作。

以上过程介绍了一次完整的语音识别过程及界面显示示例。在语音识别过程中，用户可以随时做出上述第二预设动作，用于重置信息。当用户做出第二预设动作时，语音交互设备执行上述步骤S25，之后可以返回步骤S11，重新执行唤醒过程。在一种可能的实施方式中，第二预设动作为：摇头。对于摇头这一动作，无法仅根据一帧第二用户图像确定，而是需要根据连续的多帧第二用户图像确定。

具体地，如图4为本发明实施例中步骤S13实现流程图，包括：

步骤S131：采集多帧第二用户图像；

步骤S132：根据各帧所述第二用户图像中的用户状态，识别所述多帧第二用户图像中的用户动作。

例如，采集连续多帧第二用户图像，分别识别出各帧第二用户图像中用户头部的偏转角度(即用户状态)。结合连续多帧第二用户图像中用户头部的偏转角度，判断出连续多帧第二用户图像中包含的用户动作为：摇头。

本发明实施例还可以采用其他的动作作为第二预设动作。例如，将大拇指向下、其余四指弯曲的手势作为第二预设动作，这种情况下，仅需一帧第二用户图像即可确认第二预设动作。

本发明实施例还提出一种语音交互装置。参见图5，图5为本发明实施例的一种语音交互装置结构示意图，包括：

第一采集识别模块510，用于采集第一用户图像，识别所述第一用户图像中的用户动作；

第一处理模块520，用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配，接收语音信息并对所述语音信息进行语音识别；

第二采集识别模块530，用于采集第二用户图像，识别所述第二用户图像中的用户动作；

第二处理模块540，用于响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配，停止接收语音信息。

本发明实施例还提出另一种语音交互装置。参见图6，图6为本发明实施例的一种语音交互装置结构示意图，包括：

第一采集识别模块510、第一处理模块520、第二采集识别模块530、第二处理模块540及第三处理模块650；

其中，第一采集识别模块510、第一处理模块520、第二采集识别模块530和第二处理模块540与上述实施例中的相应模块相同，在此不再赘述；

上述第三处理模块650，用于响应于所述第二用户图像中的用户动作与第二预设动作相匹配，停止接收语音信息，并删除所述语音识别的结果。

在一种可能的实施方式中，如图6所述，上述装置还包括：

第一提示模块660，用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配，提示所述匹配的信息，并提示语音交互过程已开启；

第二提示模块670，用于在所述第一处理模块接收语音信息并对所述语音信息进行语音识别时，提示正在接收语音信息，并显示所述语音识别的结果。

在一种可能的实施方式中，第二采集识别模块530用于：采集多帧第二用户图像；根据各帧所述第二用户图像中的用户状态，识别所述多帧第二用户图像中的用户动作。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

本发明实施例还提出一种语音交互设备，如图7为本发明实施例的语音交互设备结构示意图，包括：

存储器11和处理器12，存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的语音交互方法。所述存储器11和处理器12的数量可以为一个或多个。

所述设备还可以包括：

通信接口13，用于与外界设备进行通信，进行数据交换传输。

存储器11可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器11、处理器12和通信接口13独立实现，则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线，外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器11、处理器12和通信接口13集成在一块芯片上，则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，本发明实施例提出的语音交互方法和装置，在识别出用户图像中的用户动作与第一预设动作相匹配时，开始语音交互过程；在识别出用户图像中的用户动作与第一预设动作不匹配时，结束语音交互过程。可见，本发明实施例可以采用用户动作作为唤醒语音交互设备的条件；在唤醒之后，用户持续保持该唤醒动作，则语音交互设备一致处于语音交互状态。避免了采用语音唤醒的方式唤醒语音交互设备，特别是避免了每次输入语音信息之前均进行唤醒。此外，在语音识别过程中，用户可以随时采用固定的动作重置信息，删除之前语音识别的内容，重新开始输入新的语音信息。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音交互方法，其特征在于，包括：

采集第一用户图像，识别所述第一用户图像中的用户动作；

采集第二用户图像，识别所述第二用户图像中的用户动作；

2.根据权利要求1所述的方法，其特征在于，所述识别所述第二用户图像中的用户动作之后，还包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：响应于所述第一用户图像中的用户动作与第一预设动作相匹配，提示所述匹配的信息，并提示语音交互过程已开启；

4.根据权利要求1或2所述的方法，其特征在于，所述采集第二用户图像，识别所述第二用户图像中的用户动作，包括：

采集多帧第二用户图像；

5.一种语音交互装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5或6所述的装置，其特征在于，所述第二采集识别模块用于：采集多帧第二用户图像；根据各帧所述第二用户图像中的用户状态，识别所述多帧第二用户图像中的用户动作。

9.一种语音交互设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。