CN109669754A

CN109669754A - 语音交互窗口的动态显示方法、具有伸缩式交互窗口的语音交互方法及装置

Info

Publication number: CN109669754A
Application number: CN201811591710.0A
Authority: CN
Inventors: 黄海溪; 周良帅; 丁福玲; 黄玲儿; 刘嵘; 李毅昌; 蔡志成; 王坤; 周鹏飞
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-04-23

Abstract

本发明公开了一种语音交互窗口的动态显示方法，包括如下步骤：获取与当前语音指令适配的交互场景和交互流程；根据交互场景和交互流程确定适配的语音交互窗口；将适配的语音交互窗口呈现给用户。本发明还提供了一种具有伸缩式交互窗口的语音交互方法及装置，根据本发明提供的方法和装置可以实现将语音助手对车载设备屏幕利用效率最大化，也使语音助手本身对车载有屏设备具备更优的兼容性和延展性，极大提升用户体验的同时，更大程度地保障了行车安全。

Description

语音交互窗口的动态显示方法、具有伸缩式交互窗口的语音交互方法及装置

技术领域

本发明涉及语音交互技术领域，特别是一种语音交互窗口的动态显示方法、具有伸缩式交互窗口的语音交互方法及装置。

背景技术

现阶段，车载桌面的功能越来越多，车载桌面的语音交互也显得尤为重要。现有的车载桌面的语音交互功能中，当唤醒语音助手时，语音窗口一般会以默认固定面积大小的窗口进行展示，在使用车载桌面的其它应用功能时，与其一同使用的语音交互助手在桌面上的显示就会有很多问题，例如语音交互助手的窗口显示过大对当前的应用内容容易造成遮挡和干扰的问题，又如语音交互助手的窗户显示过小导致用户在行车途中需要将较多的注意力在与车机进行语音交互的过程，容易酿造安全问题。

发明内容

为了解决上述问题，发明人提出一种新的技术方案，通过判断车载桌面上当前使用的功能场景和所在的交互流程，来智能调度分配合理的语音窗口显示面积，实现了语音助手对车载设备屏幕利用效率的最大化，也使语音助手本身对车载有屏设备具备更优的兼容性和延展性，极大提升用户体验的同时，更大程度地保障了行车安全。

根据本发明的第一方面，提供了一种语音交互窗口的动态显示方法，包括如下步骤：

获取与当前语音指令适配的交互场景和交互流程；

根据交互场景和交互流程确定适配的语音交互窗口；

将适配的语音交互窗口呈现给用户。

根据本发明的第二方面，提供了一种具有伸缩式交互窗口的语音交互方法，包括：

接收用户语音指令；

根据用户语音指令获取交互场景和交互流程；

根据交互场景和交互流程动态呈现适配的语音交互窗口。。

根据本发明的第三个方面，提供了一种具有伸缩式交互窗口的语音交互装置，包括：

指令接收模块，用户获取用户语音指令；

参数获取模块，用于根据对用户语音指令的识别结果，获取交互场景和交互流程；

窗口选择模块，用于根据交互场景和交互流程确定适配的语音交互窗口；

窗体呈现模块，用于生成适配的语音交互窗口并加载输出。

根据本发明的第四个方面，提供了一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法的步骤。

根据本发明的第五个方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

根据本发明提供了方法及***，根据交互场景和交互流程确定适配的语音交互窗口，可以实现将语音助手对车载设备屏幕利用效率最大化，也使语音助手本身对车载有屏设备具备更优的兼容性和延展性，极大提升用户体验的同时，更大程度地保障了行车安全。

附图说明

图1为本发明一实施方式的语音交互窗口的动态显示方法流程图；

图2为本发明一实施方式的具有伸缩式交互窗口的语音交互方法流程图；

图3为本发明一种实施方式的具有伸缩式交互窗口的语音交互装置框图；

图4为本发明另一种实施方式的具有伸缩式交互窗口的语音交互装置框图；

图5为本发明一种实施方式的电子设备的框图；

图6为本发明一种实施方式的现有技术的使用语音助手的车载界面示意图；

图7为发明一种实施方式的应用具有伸缩式交互窗口的语音交互装置的车载界面示意图；

图8为发明又一种实施方式的应用具有伸缩式交互窗口的语音交互装置的车载界面示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“***”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的语音交互窗口的动态显示方法可以应用于任何配置了语音功能的终端设备，例如，智能手机、平板电脑、智能家居、车载设备等终端设备，本发明对此不作限制。

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明一实施方式的语音交互窗口的动态显示方法流程图，如图1所示，本实施例包括如下步骤：

步骤S101：预先为各交互场景和交互流程配置语音窗口标签存储。由于各交互场景和交互流程的应用界面大小不一，所以需要先配置与语音窗口适配的标签进行存储，每种标签标识了一种显示面积的语音交互窗口。

步骤S102：获取与当前语音指令适配的交互场景和交互流程。通过用户的语音指令触发不同的交互场景和交互流程，例如用户的语音指令为“导航至XX地”，就会由内置的语音助手分析该语音指令，由于语音助手本身就可以知晓语音交互的任何环节和场景(因为在语音交互时，所有的场景和交互流程都是由语音软件如内置的语音助手来驱动的)。示例性地，语音助手将语音指令进行分析后通过语义理解获取用户的意图来区分场景，并结合对话上下文中的意图来区分流程。例如获取与“导航”相关的交互场景，确认导航的目的地是否为XX地，并且生成导航路线，即导航交互流程。

步骤S103：根据交互场景和交互流程确定适配的语音交互窗口。根据当前的交互场景和交互流程确定匹配的语音窗口标签，示例性地，可以为各个交互流程配置相应的语音窗口标签，在语音交互过程中，根据用户意图确定当前语音交互的流程，从而确定当前流程下的语音窗口标签，根据确定的语音窗口标签构建适配的语音交互窗口。根据当前交互流程的变化，实时更新匹配的语音窗口标签的具体实现为：交互流程发生变化时，语音引擎会分发相应的消息，通知上层状态变化，此时就能根据语音引擎发出的通知，捕获到交互流程的变化情况，从而对语音窗口标签进行更新，以上述的导航交互场景为例，由于随着路线的变化，交互的流程就会随着到目的地的距离越来越少，随着交互流程的越来越少，会驱动着语音窗口标签发生变化。

步骤S104：将适配的语音交互窗口呈现给用户。具体实现为：根据匹配好的语音窗口标签构建相应显示面积的窗体加载输出，这样就可以显示与当前应用适配的语音交互窗口。示例性地，匹配出的语音窗口标签为“aa”，就根据该标签找到为该标签设置的显示面积，通过***窗体管理器来生成相应显示面积的窗体，以输出适配的语音交互窗口。

在优选实施方式中，有可能存在用户同时使用多个交互应用，这样就需要为交互场景配置窗口显示优先级，优先级的设定可以根据用户的使用习惯进行配置。在根据匹配的语音窗口标签构建相应显示面积的窗体加载输出之前，还包括：根据交互场景的窗口显示优先级更新匹配的语音窗口标签。示例性地，当语音窗口仅需要呈现较少内容，且有其它更高优先级应用在前台时，该语音窗口面积会缩小到仅够呈现少量内容的大小，以避免对前台应用内容造成遮挡和干扰，如图7所示。

根据本实施方式可以根据交互场景和交互流程确定适配的语音交互窗口，并且可以实现将语音助手对车载设备屏幕利用效率最大化。

图2示意性地显示了根据本发明一实施方式的具有伸缩式交互窗口的语音交互方法流程图，如图2所示，本实施例包括如下步骤：

步骤S201：接收用户语音指令。获取用户对于应用场景的语音指令。现有技术中的语音助手与应用呈现在同一界面时，应用的界面往往会被语音助手遮挡，如图6所示。

步骤S202：根据用户语音指令获取交互场景和交互流程。具体实现为：根据用户的语音指令，获取交互场景和交互流程的方式可以参照步骤S102。

步骤S203：根据交互场景和交互流程动态呈现适配的语音交互窗口。，具体实现为：根据交互场景和交互流程确定了当前显示的应用界面后，将通过步骤S103确定合适的语音交互窗口，将其输出显示。语音交互窗口根据交互场景和交互流程的显示需求做自适应性调整，如图7和图8所示，根据自适应调整语音交互窗口显示为缩小状或全屏状。

基于上述交互方式，在面对更多可能的非主流屏幕规格时，语音交互窗口也能以更低的成本来进行定制，交互方式也能更大程度的保持一致。即使车机设备屏幕大小不一，相对固定的UI布局自适应能力比较差，也可以通过本实施例方法达到更优的兼容性和延展性体。

图3示意性地显示了根据本发明一实施方式的具有伸缩式交互窗口的语音交互装置原理框图，如图3所示，

该语音交互装置3包括：指令接收模块4、参数获取模块5、窗口选择模块7和窗体呈现模块6。

指令接收模块4用于获取用户语音指令，参数获取模块5用于根据对用户语音指令的识别结果，获取交互场景和交互流程。其具体实现方式可以参照上述的方法部分，通过用户的语音指令获取交互场景与交互流程在现有技术的车载***中获取的方式也非常简单。

窗口选择模块7用于根据交互场景和交互流程确定适配的语音交互窗口，为了使用户可以尽可能分散小部分注意力在车载桌面上。根据不同的交互场景和不同的交互流程都会有不同程度适配的语音交互窗口。窗体呈现模块6用于生成适配的语音交互窗口并加载输出。将在装置内部完成适配处理的窗口布局通过窗体呈现模块6输出显示。

其中，窗口选择模块7包括标签配置单元701、窗口匹配单元702。

标签配置单元701用于为各交互场景和交互流程配置语音窗口标签存储，每种标签标识了一种显示面积的语音交互窗口。通过对不同的交互场景和交互流程配置语音窗口标签，可以方便应对不同交互场景与交互流程的组合时，语音窗口应该适配的大小，方便调用，提高处理效率。

窗口匹配单元702用于根据交互场景和交互流程确定匹配的语音窗口标签。窗口匹配单元702实现为一调用接口，通过对标签配置单元701进行调用，与当前获取的交互场景和交互流程进行匹配，确定最接近的语音窗口标签。具体的匹配及确定最接近的语音窗口标签的实现方式可以参照上述的方法部分。

窗体呈现模块6还用于根据匹配的语音窗口标签构建相应显示面积的窗体加载输出。

窗口程序模块6输出的两种形式的窗体都可以灵活的针对设备屏幕大小做更好的自适应，适配简单，在面对更多可能的非主流屏幕规格时，也能以更低的成本来进行定制，交互方式也能更大程度的保持一致性。

图4示意性地显示了根据本发明又一实施方式的具有伸缩式交互窗口的语音交互装置原理框图，如图4所示，

该具有伸缩式交互窗口的语音交互装置3还包括优先级配置模块8，用于为各交互场景配置窗口显示的优先级。对于同时使用的多种应用的情况下，需要为不同的交互场景配置优先级，可以根据其交互场景相关的执行事件的优选程度进行分配。

窗口选择模块7还包括窗口调整单元703，用于根据交互场景的窗口显示优先级和/或交互流程的变化，更新匹配的语音窗口标签。对于不同的场景组合，该窗口调整单元703可以根据不同场景或流程的变化对语音窗口标签进行更新，更加有伸缩性，并且更加智能。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音交互窗口的动态显示方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当所程序指令被计算机执行时，使计算机执行上述任一项语音交互窗口的动态显示方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被所述至少一个处理器执行，以使至少一个处理器能够执行语音交互窗口的动态显示方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时语音交互窗口的动态显示方法。

上述本发明实施例的基于语音平台识别背景音乐的装置可用于执行本发明实施例的语音交互窗口的动态显示方法，并相应的达到上述本发明实施例的实现语音交互窗口的动态显示方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图5为本发明一实施例提供的执行语音交互窗口的动态显示方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行语音交互窗口的动态显示方法的设备还可以包括：输入装置530 和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音交互窗口的动态显示方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音交互窗口的动态显示方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据基于语音平台识别背景音乐的装置的使用所创建的数据等。此外，存储器 520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至基于语音平台识别背景音乐的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与基于语音平台识别背景音乐的装置的用户设置以及功能控制有关的信号。输出装置540 可包括显示屏等显示设备。

上述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语音交互窗口的动态显示方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.语音交互窗口的动态显示方法，其特征在于，包括如下步骤：

获取与当前语音指令适配的交互场景和交互流程；

根据交互场景和交互流程确定适配的语音交互窗口；

将适配的语音交互窗口呈现给用户。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

预先为各交互场景和交互流程配置语音窗口标签存储；

所述根据交互场景和交互流程确定适配的语音交互窗口包括：

根据当前的交互场景和交互流程确定匹配的语音窗口标签；

所述将适配的语音交互窗口呈现给用户包括：

根据所述匹配的语音窗口标签构建相应显示面积的窗体加载输出。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据当前交互流程的变化，实时更新所述匹配的语音窗口标签。

4.根据权利要求3所述的方法其特征在于，还包括：

为交互场景配置窗口显示优先级；

在根据所述匹配的语音窗口标签构建相应显示面积的窗体加载输出之前，还包括：

根据交互场景的窗口显示优先级更新所述匹配的语音窗口标签。

5.具有伸缩式交互窗口的语音交互方法，其特征在于，包括：

接收用户语音指令；

根据用户语音指令获取交互场景和交互流程；

根据交互场景和交互流程动态呈现适配的语音交互窗口。

6.具有伸缩式交互窗口的语音交互装置，其特征在于，包括：

指令接收模块，用户获取用户语音指令；

参数获取模块，用于根据对所述用户语音指令的识别结果，获取交互场景和交互流程；

窗口选择模块，用于根据所述交互场景和交互流程确定适配的语音交互窗口；

窗体呈现模块，用于生成所述适配的语音交互窗口并加载输出。

7.根据权利要求6所述的装置，其特征在于，所述窗口选择模块包括标签配置单元，用于为各交互场景和交互流程配置语音窗口标签存储；

窗口匹配单元，用于根据所述交互场景和交互流程确定匹配的语音窗口标签；

窗体呈现模块，用于根据所述匹配的语音窗口标签构建相应显示面积的窗体加载输出。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括

优先级配置模块，用于为各交互场景配置窗口显示的优先级；

所述窗口选择模块还包括

窗口调整单元，用于根据所述交互场景的窗口显示优先级和/或交互流程的变化，更新所述匹配的语音窗口标签。

9.电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。

10.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任意一项所述方法的步骤。