CN112002321A

CN112002321A - 显示设备、服务器及语音交互方法

Info

Publication number: CN112002321A
Application number: CN202010803789.XA
Authority: CN
Inventors: 朱飞
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-27
Anticipated expiration: 2040-08-11
Also published as: CN112002321B

Abstract

本申请实施例提供了一种显示设备、服务器及语音交互方法。显示设备包括显示器、音频采集装置和控制器，控制器被配置为：响应于接收到用户输入的第一语音控制信号，启动本轮决策，向服务器发送第一语音控制信号；接收并输出来自服务器的第一决策结果，其中，第一决策结果设置有动作类型；根据第一决策结果的动作类型为选择，接收用户输入的第二语音控制信号，向服务器发送第二语音控制信号；接收并输出来自服务器的第二决策结果，结束本轮决策。本申请通过在难以准确判断出用户的意图时，与用户进行交互，使用户输入第二语音控制信号，根据第二语音控制信号和第一语音控制信号综合分析用户的意图，提升了决策结果准确性，有利于提升用户体验。

Description

显示设备、服务器及语音交互方法

技术领域

本申请涉及人机交互技术领域，尤其涉及一种显示设备、服务器及语音交互方法。

背景技术

现如今，越来越多地智能设备如智能电视和智能音箱，可通过语音助手应用来实现和用户的智能互动。当用户通过向安装有语音助手应用的智能设备发出语音控制信号后，智能设备可通过决策引擎分析用户的意图，输出与语音控制信号对应的决策结果。

相关技术中，决策引擎可通过规则算法分析用户的意图。规则算法是通过设定某些业务的优先程度来决策业务的输出顺序的一种决策方式。比如在电视端，电视电影等视频业务是主要业务，规则算法通过人工设定阈值的方式，可优先输出视频影音的决策结果，而在音箱端，音乐是主要业务，规则算法可优先输出音乐等音频的决策结果。

然而，随着集成的业务越来越多样化和语音助手应用智能化的提高，上述规则算法越来越难以适应需求，比如随着业务模块越来越多，规则算法中阈值设定越来越复杂，难以通过人工完成准确设定，使得决策引擎的决策准确性降低，导致智能设备的决策结果无法反映用户真实的意图，进而影响了用户体验。

发明内容

为解决上述技术问题，本申请提供了一种显示设备、服务器及语音交互方法。

第一方面，本申请提供了一种显示设备，该显示设备包括：

显示器；

音频采集装置，被配置为用于采集用户输入音频；

控制器，与所述显示器和音频采集装置连接，所述控制器被配置为：

响应于接收到用户输入的第一语音控制信号，启动本轮决策，并向服务器发送所述第一语音控制信号；

接收并输出来自所述服务器的第一决策结果，其中，所述第一决策结果设置有动作类型；

根据所述第一决策结果的动作类型为选择，接收用户输入的第二语音控制信号，向服务器发送所述第二语音控制信号；

接收并输出来自所述服务器的第二决策结果，结束本轮决策。

第二方面，本申请提供了一种服务器，该服务器被配置为：

解析来自显示设备的第一语音控制信号，得到第一特征向量；

根据所述第一特征向量计算各个业务模块的第一排序分值，比较多个所述第一排序分值得到第一决策结果，向显示设备发送所述第一决策结果，其中，所述第一决策结果包括动作类型；

根据所述第一决策结果的动作类型为选择，解析来自所述显示设备的第二语音控制信号和第一语音控制信号，得到第二特征向量；

根据所述第二特征向量计算各个业务模块的第二排序分值，比较多个所述第二排序分值得到第二决策结果，向显示设备发送所述第二决策结果。

第三方面，本申请实施例提供了一种语音交互方法，用于显示设备，该方法包括：

第四方面，本申请实施例提供了一种语音交互方法，用于服务器，该方法包括：

根据所述动作类型为选择，解析来自所述显示设备的第二语音控制信号和第一语音控制信号，得到第二特征向量；

本申请提供的显示设备、服务器及语音交互方法的有益效果包括：

本申请实施例在接收到用户输入的第一语音控制信号后，如果难以准确判断出用户的意图，则与用户进行交互，使用户输入第二语音控制信号，根据第二语音控制信号和第一语音控制信号综合分析用户的意图，提升了决策结果准确性，有利于提升用户体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的控制装置100的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图；

图6中示例性示出了根据一些实施例的决策引擎示意图；

图7中示例性示出了根据一些实施例的离线策略学习方法的流程示意图；

图8中示例性示出了根据一些实施例的策略学习示意图；

图9中示例性示出了根据一些实施例的用户请求处理示意图；

图10中示例性示出了根据一些实施例的语音交互方法的流程示意图；

图11中示例性示出了根据另一些实施例的语音交互方法的流程示意图；

图12中示例性示出了根据一些实施例的第一特征向量生成方法的流程示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制装置100或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230还可以包括图像采集器，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可声音采集器等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作***或其他正在运行中的程序的临时数据。

在一些实施例中，ROM 252用于存储各种***启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出***，称为基本输入输出***(Basic Input Output System，BIOS)。用于完成对***的加电自检、***中各功能模块的初始化、***的基本输入/输出的驱动程序及引导操作***。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中***启动指令，将存储在存储器的操作***的临时数据拷贝至RAM 251中，以便于启动或运行操作***。当操作***启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，CPU处理器254，用于执行存储在存储器中操作***和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧数转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧数转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧数转换模块，用于对转换输入视频帧数，如将60Hz帧数转换为120Hz帧数或240Hz帧数，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧数转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发声装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作***与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制装置100的配置框图。如图3所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。

控制装置100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制装置100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制装置100可是一种智能设备。如：控制装置100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制装置100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制装置100实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制装置100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制装置100包括通信接口130和输入输出接口140中至少一者。控制装置100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200。

存储器190，用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制装置100各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，***可以包括内核(Kernel)、命令解析器(shell)、文件***和应用程序。内核、shell和文件***一起组成了基本的操作***结构，它们让用户可以管理文件、运行程序并使用***。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将***分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和***库层(简称“***运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作***自带的窗口(Window)程序、***设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问***中的资源和取得***的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和***中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给***服务或应用提供了***位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到***桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，***运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作***会运行***运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机***或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本申请的技术方案即可。

在一些实施例中，应用程序中心可设置有语音助手应用实现智能语音业务，如搜索媒资、调节音量等业务。当用户点击语音助手应用图标控件后，可唤醒语音助手应用，在语音助手应用唤醒后，用户可向显示设备输入用户请求，该用户请求可为语音控制信号。除了通过点击语音助手应用图标之外，用户还可通过向显示设备发出预设语音命令的方式来唤醒语音助手应用，该预设语音命令可为一些预设的唤醒词。

显示设备可根据该语音控制信号输出决策结果，从而实现用户与显示设备的交互。根据用户请求的具体内容不同，决策结果可为图文数据，通过显示设备的显示器进行显示，决策结果可为音频数据，通过显示设备的扬声器进行播放，决策结果还可为显示设备的控制信号，通过显示设备的控制器对显示设备进行控制。

在一些实施例中，语音助手应用也可设置在音响类设备上，此时，音响类设备输出的决策结果可为音频数据或控制信号。以下以语音助手设置在显示设备上为例，对决策过程进行介绍。

在一些实施例中，用户请求可为媒资搜索请求，显示设备可将媒资搜索请求发送到服务器，服务器根据媒资搜索请求检索媒资库，得到推荐媒资，将推荐媒资反馈给显示设备，显示设备将推荐媒资进行显示，供用户观看。由于媒资库的媒资数量庞大，且部分媒资的标题、简介等媒资信息比较接近，因此服务器根据用户请求推荐的媒资可能不是用户真正想要观看的媒资，即服务器的决策结果不准确。

为提高决策结果的准确性，提高用户与显示设备的交互体验，本申请公开了一种语音交互方案，该语音交互方案将智能语音业务中的智能语音识别、自然语言理解作为强化学习的环境，将决策引擎作为强化学习模型的agent(代理)，利用决策引擎输出用户请求的决策结果。

在一些实施例中，决策引擎可设置在服务器上，显示设备可将用户请求发送到服务器，由决策引擎进行决策后，得到决策结果，再将决策结果发送到显示设备进行显示。

在一些实施例中，决策引擎的要素可包括state(状态)、action(动作)和reward(奖励)。

决策引擎的state可为用户以及用户请求的特征表示，如特征向量。特征向量可包括用户请求特征分量、媒资历史特征分量和用户历史特征分量。服务器对用户请求进行解析，可得到特征向量的各个特征分量，将各个特征分量进行拼接得到特征向量。

用户请求特征分量可为用户请求在服务器的各个业务模块下的解析结果组成的向量。服务器的多个业务模块可为用户提供不同类型的媒资，对于同一个用户请求，服务器的不同业务模块可能会输出不同的解析结果。例如，对于用户请求“武汉市市长”，在“百科”业务模块，得到的解析结果可能为(p1，confidence1)，其中，p1为该用户请求属于“百科”业务模块的概率，confidence1为“百科”业务模块的解析结果的置信度；在“新闻”业务模块，得到的解析结果可能为(p2，confidence2)，其中，p2为该用户请求属于“新闻”业务模块的概率，confidence2为“百科”业务模块的解析结果的置信度。

媒资历史特征分量可包括各个业务模块根据用户请求解析出的历史媒资，以及历史媒资的历史点击率。

用户历史特征分量可包括用户在发出用户请求之前10分钟、1小时、24小时等时间维度上的历史请求记录以及用户关注的媒资所属的业务模块。

决策引擎的action可包括内部动作和外部动作。其中，内部动作可设定为计算用户请求属于各个业务模块的排序分值α_i，排序分值α_i的集合为α，α＝[α₁,α₂,...,αn]，其中，n为业务模块的总数量，α_i可以取0-1的任意值，且所有α_i的和为1，具体可根据决策引擎对特征向量的解析方法确定。内部动作为一个连续的动作，直到得到用户请求在全部业务模块的排序分值为止。

外部动作可为决策引擎的输出动作。决策引擎可按照预设规则分析α，得到输出动作的动作类型，根据动作类型输出相应的外部动作。

在一些实施例中，预设规则可为根据存在多个大于预设阈值的排序分值，且多个大于预设阈值的排序分值之间的差值小于预设范围，得到动作类型为select(提供候选项反问用户，请求进一步确认)，所述多个排序分值对应的业务模块为备选业务模块；根据存在至少一个大于所述预设阈值的所述排序分值，且最大的两个排序分值之间的差值大于预设范围，得到所述动作类型为inform(直接输出某个业务结果)；根据不存在大于所述预设阈值的排序分值，得到所述动作类型为default(无任何结果)。

例如，预设阈值可设置为0.35，预设范围可为0.1，对于用户请求“武汉市市长”，百科模块的排序分值为0.5，新闻模块的排序分值也为0.4，影视模块的排序分值为0.1，百科模块和新闻模块这两个业务模块的排序分值均大于0.35，且差值小于0.1，则可得到外部动作的动作类型为select，将百科模块和新闻模块设置为模块选择项；对于用户请求“我想看让子弹飞”，百科模块的排序分值为0.1，新闻模块的排序分值为0.1，影视模块的排序分值为0.8，则可得到外部动作的动作类型为inform；对于用户请求“宇航员”，百科模块的排序分值为0.33，新闻模块的排序分值为0.33，影视模块的排序分值为0.33，则可得到外部动作的动作类型为default。

例如，预设阈值可设置为0.5，预设范围可为0.1，对于用户请求“武汉市市长”，百科模块的排序分值为0.8，新闻模块的排序分值也为0.8，影视模块的排序分值为0.1，百科模块和新闻模块这两个业务模块的排序分值均大于0.5，且差值小于0.1，则可得到外部动作的动作类型为select，将百科模块和新闻模块设置为模块选择项；对于用户请求“我想看让子弹飞”，百科模块的排序分值为0.4，新闻模块的排序分值为0.3，影视模块的排序分值为0.9，则可得到外部动作的动作类型为inform；对于用户请求“我想看让子弹飞第二部”，百科模块的排序分值为0.1，新闻模块的排序分值为0.2，影视模块的排序分值为0.4，则可得到外部动作的动作类型为default。

决策引擎的reward是强化学习模型的重要内容，在一些实施例中，决策引擎的奖励包括动作奖励和用户反馈奖励。

动作奖励可为对内部动作的奖励。通过设置动作奖励，期望决策引擎的代理能够学习到较好的排序分值计算方法，从而可以直接输出较为准确的动作类型为通知的决策结果，减少得到准确的决策结果的人机交互次数，提升用户体验。

用户反馈奖励用于根据用户反馈动作判断用户是否对决策结果满意，从而分析决策结果是否准确。由于在智能音箱或者电视端，目前只有少量用户请求能够获得与决策结果对应的用户反馈动作，例如显示设备给出决策结果为电影搜索结果后，用户通过遥控器点击决策结果的电影资源播放，可认为决策结果准确。大部分业务没有用户反馈动作来判断决策结果是否准确，例如，对于“快进5分钟”该用户请求，显示设备调整媒资播放进度后，用户可能没有进一步的操作，即没有用户反馈动作来表明显示设备调整媒资播放进度是否符合用户请求。

在一些实施例中，可通过分析用户日志中连续两次用户请求之间的文本相似度和间隔时间来判断用户对上次用户请求的决策结果是否满意。例如，用户第一次用户请求为“我想看刘德华的动作片”，间隔1分钟后，用户第二次用户请求为“我说我想看的是刘德华的动作片”，则可根据两次用户请求的文本相似度非常高，间隔时间短，判定用户对第一次用户请求的决策结果不满意，可为第一次用户请求的决策结果设置负面的用户反馈奖励。

为提高决策引擎决策的准确性，可基于DDPG(Deep Deterministic PolicyGradient，深度确定性策略梯度)算法使决策引擎进行策略学习。参见图6，决策引擎可包括actor-critic网络结构，并引入了经验池来打破数据之间的关联性，提高策略的稳定性。actor可根据状态来计算a_t，a_t＝α_i，根据a_t做动作，即根据用户请求输出决策结果；critic可监督actor的动作是否正确合理，充当着裁判的角色。actor和critic都各自有一个目标网络和策略网络，这两个网络结构完全相同，只是参数更新是不同步的，采用的是软更新的方式来根据策略网络参数更新目标网络。actor(行动者)的目标网络为策略网络θ^μ，actor的优化器根据梯度优化更新策略网络θ^μ，得到策略网络θ^μ’，critic的目标网络为Q网络θ^Q，critic的优化器作Q策略网络θ^Q的残差。这里critic优化器的残差也会传递给actor的优化器进行梯度调整。

在一些实施例中，图6的环境可包括决策过程的外部因素，如用户输入的用户请求。

在一些实施例中，策略学习可包括离线策略学习，参见图7，为根据一些实施例的离线策略学习方法的流程示意图，如图7所示，该离线策略学习方法可包括步骤S101-S104。

步骤S101：从训练样本中随机选取一个用户请求，解析所述用户请求，得到所述用户请求对应的状态。

训练样本可包含多个不同的用户请求，随机选取一个用户请求后，对用户请求进行解析，得到该用户请求的特征向量，将特征向量作为该用户请求对应的状态。

步骤S102：根据所述状态做出动作，并计算所述状态的综合奖励。

将状态输入决策引擎，决策引擎根据状态做出内部动作和外部动作，根据内部动作得到动作奖励，根据用户反馈动作得到用户反馈奖励。其中，在离线策略学习中，用户反馈动作可为人工标注奖励的动作，通过人工判断外部动作是否准确，如果准确，则将策略结果中的业务模块标注正面的用户反馈奖励，如果不准确，则将策略结果中的业务模块标注负面的用户反馈奖励，通过监督学习的方式给出用户反馈奖励。综合奖励＝动作奖励+用户反馈奖励。

进一步的，在计算出综合奖励后，获取下一个用户请求，解析得到下一个用户请求的状态。

步骤S103：将[state,action,reward,next_state]存储到经验池中。

state为步骤S101中得到的状态，action为步骤S102中的外部动作，reward为综合奖励，next_state为下一个用户请求的状态。

步骤S104：根据经验池溢出，则从经验池中取出选取用户请求来训练actor和critic的网络，直到满足终止条件。

在一些实施例中，经验池通过预设缓存尺寸大小buffer size，在训练过程中，会产生新的[state,action,reward,next_state]四元组，当经验池的数据量超过buffersize，则会将新的四元组存入，让最早存入的四元组移除，保证经验池总数不超过buffersize。训练的终止条件设定为训练总次数超过预测训练次数最大值。在一些实施例中，策略学习可包括在线策略学习，在线策略学习过程可参考离线策略学习过程，其中，用户反馈奖励可为通过分析用户日志中连续两次用户请求之间的文本相似度和间隔时间获得。

图8为根据一些实施例的策略学习示意图，如图8所示，在经验池存储满，即经验池溢出后，可利用reward进行agent训练。其中，决策引擎输出的动作包括直接输出(inform)、反问(select)和默认(default)，用户可对直接输出或默认的决策为接收或否定，对反问的决策进行补充信息，然后进行特征抽取，得到下一个状态，下一个状态为根据补充信息和上一个状态修正的结果。在进行离线策略学习时，reward包括对action的内部动作进行的动作奖励、人工评判的正面的用户反馈奖励如accept(接收)或人工评判的负面的用户反馈奖励如deny(否定)，其中，accept和deny可分别预设有分值，例如，分值范围可选为1-5分，当然，分值范围也可进行调整；进行在线策略学习时，当action为select时，通过附加的用户请求得到用户反馈奖励，并根据附加的用户请求丰富特征向量，得到下一个状态。

图9为根据一些实施例的用户请求处理示意图。如图9所示，用户请求输入后，服务器可通过多个业务模块，如业务模块A、业务模块B、……、业务模块N进行解析。

对用户请求进行解析后得到状态，将状态输入强化学习决策引擎，得到决策动作，即上文中的动作，将决策动作和状态对应存储为决策数据，其中，根据用户动作和奖励网络对决策动作的反馈可优化业务模块的输出，奖励网络可通过离线训练获得，用户动作可通过在线获取的方式获得。

基于上述技术方案，本申请提供了一种语音交互方法，用于显示设备，参见图10，该语音交互方法可包括如下步骤：

步骤S201：响应于接收到用户输入的第一语音控制信号，启动本轮决策，并向服务器发送所述第一语音控制信号。

在一些实施例中，显示设备在接收到第一语音控制信号后，启动本轮决策，在本轮决策中，语音助手应用维持唤醒状态。

在一些实施例中，语音助手应用处于非唤醒状态，用户可唤醒语音助手应用，使语音助手应用进入唤醒状态。用户可通过在显示设备上点击语音助手应用图标或向显示设备发出预设语音命令的方式唤醒语音助手应用，当然，用户还可通过其他方式唤醒语音助手应用，在此不再一一举例。

当语音助手应用处于唤醒状态时，用户可向显示设备输入第一语音控制信号，以搜索媒资。第一语音控制信号可包括用户语音，如“武汉市市长”。

在一些实施例中，显示设备可将第一语音控制信号发送到服务器，由服务器根据第一语音控制信号进行决策，得到第一决策结果，并将第一决策结果返回显示设备。第一决策结果可设置有动作类型，如select、inform或default。

步骤S202：接收并输出来自所述服务器的第一决策结果，其中，所述第一决策结果设置有动作类型。

根据第一决策结果的内容不同，第一决策结果的输出形式可为显示器显示、扬声器播放、显示器显示时扬声器同步播放等形式。

步骤S203：根据所述第一决策结果的动作类型为选择，接收用户输入的第二语音控制信号，向服务器发送所述第二语音控制信号。

当第一决策结果的动作类型为select时，表明服务器不能准确判断用户意图，需要用户输入进一步的信息，此时，第一决策结果可为选择问句。例如，“百科信息还是相关新闻？”。

用户可根据第一决策结果向显示设备输入第二语音控制信号。例如，用户根据第一决策结果，可向显示设备输入第二语音控制信号为“百科信息”。

显示设备可将第二语音控制信号转发到服务器，由服务器结合第二语音控制信号和第一语音控制信号得到第二决策结果，并将第二决策结果返回显示设备，在一些实施例中，第二决策结果的动作类型为inform。

步骤S204：接收并输出来自所述服务器的第二决策结果，结束本轮决策。

在一些实施例中，根据决策内容不同，第二决策结果的输出形式也可为显示器显示、扬声器播放、显示器显示时扬声器同步播放等形式。

显示设备可根据输出第二决策结果，使语音助手应用进入非唤醒状态。

在一些实施例中根据所述第一决策结果的动作类型为通知或默认，结束本轮决策。

在一些实施例中，如果第一决策结果的动作类型为通知或默认，则可结束本轮决策，使语音助手应用进入非唤醒状态。

与上述语音交互方法相对应，本申请实施例还提供了一种语音交互方法，用于服务器，参见图11，该语音交互方法，可包括如下步骤：

步骤S301：解析来自显示设备的第一语音控制信号，得到第一特征向量。

在一些实施例中，服务器对第一语音控制信号进行语音转文字，得到第一用户请求，然后对第一用户请求进行解析。

在一些实施例中，服务器可设置有多个业务模块，如百科模块、新闻模块、影视模块等模块，每个业务模块均可对第一用户请求进行解析，得到解析结果。通常情况下，某一个业务模块对第一用户请求的解析结果可能符合用户意图。为得到该业务模块，服务器可对第一用户请求进行多维度解析，得到多个特征分量，由多个特征分量组成第一特征向量，解析过程可参见图12，包括步骤S401-S404。

步骤S401：将第一语音控制信号在各个业务模块分别进行解析，得到用户请求特征分量。

在一些实施例中，服务器可选择多个业务模块对将第一用户请求进行解析，得到第一用户请求属于一个业务模块的概率和在该业务模块中匹配到结果的confidence(置信度)等数据，根据上述概率和置信度生成用户请求特征分量。

例如，假设第一用户请求为“武汉市市长”，则将该第一用户请求在“百科”业务模块下进行解析得到(p1，confidence1)，即第一用户请求属于百科模块的概率为p1，第一用户请求在百科模块中匹配到的媒资的置信度为confidence1；将该第一用户请求在“新闻”业务模块下进行解析得到(p2，confidence2)，即第一用户请求属于新闻模块的概率为p2，第一用户请求在新闻模块中匹配到的媒资的置信度为confidence2，则用户请求特征分量为([p1,confidence1,p2,confidence2])。

步骤S402：分析所述第一语音控制信号在各个所述业务模块的历史解析结果，得到媒资历史特征分量。

在一些实施例中，服务器之前处理过第一用户请求，可根据第一用户请求在各个业务模块的历史解析结果，得到媒资历史特征分量。历史解析结果可包括各个业务模块根据第一用户请求解析出的历史媒资，以及历史媒资的历史点击率，媒资历史特征分量可包括上述各历史媒资和对应的历史点击率。

步骤S403：分析用户在各个所述业务模块的历史媒资行为，得到用户历史特征分量。

在一些实施例中，服务器存储有用户在显示设备上的历史媒资行为，可根据用户的历史媒资行为，分析用户的偏好和行为习惯。历史媒资行为可包括用户在发出第一语音控制信号之前10分钟、1小时、24小时等时间维度上的历史请求记录以及用户关注的媒资所属的业务模块，媒资历史特征分量可包括上述各历史请求记录以及用户关注的媒资所属的业务模块。

步骤S404：根据所述用户请求特征分量、媒资历史特征分量和用户历史特征分量生成第一特征向量。

在一些实施例中，根据步骤S401-S403，得到第一用户请求在多个维度上的特征分量，将多个特征分量依次拼接起来，得到第一特征向量，即第一用户请求对应的state。

步骤S302：根据所述第一特征向量计算各个业务模块的第一排序分值，比较多个所述第一排序分值得到第一决策结果，向显示设备发送所述第一决策结果，其中，所述第一决策结果包括动作类型。

在一些实施例中，服务器可预先训练有决策引擎，将第一特征向量作为state，输入决策引擎，使决策引擎根据状态做出动作。

决策引擎的动作可包括内部动作和外部动作。内部动作可设定为计算第一用户请求属于各个业务模块的第一排序分值α_i，得到第一排序分值的集合：α＝[α₁,α₂,...,αn]，其中，n为业务模块的总数量，α_i可以取0-1的任意值，具体可根据决策引擎对第一特征向量的解析方法确定。内部动作为一个连续的动作，直到得到第一用户请求在全部业务模块的第一排序分值为止。

进一步的，根据最大的第一排序分值，可得到第一决策结果的动作奖励，动作奖励的大小可与第一排序分值相同。

在一些实施例中，预设规则可为根据存在多个大于预设阈值的第一排序分值，且多个大于预设阈值的第一排序分值之间的差值小于预设范围，得到动作类型为select，所述多个第一排序分值对应的业务模块为备选业务模块；根据存在至少一个备选业务模块，且最大的两个备选业务模块的第一排序分值之间的差值大于预设范围，得到所述动作类型为inform；根据仅存在一个备选业务模块，得到所述动作类型为inform；根据不存在大于所述预设阈值的第一排序分值，得到所述动作类型为default。

例如，预设阈值可设置为0.5，预设范围可为0.1，对于第一用户请求“武汉市市长”，百科模块的第一排序分值为0.8，新闻模块的第一排序分值也为0.8，影视模块的第一排序分值为0.1，百科模块和新闻模块这两个业务模块的第一排序分值均大于0.5，且差值小于0.1，则可得到外部动作的动作类型为选择，将百科模块和新闻模块设置为模块选择项；对于第一用户请求“我想看让子弹飞”，百科模块的第一排序分值为0.4，新闻模块的第一排序分值为0.3，影视模块的第一排序分值为0.9，则可得到外部动作的动作类型为通知；对于第一用户请求“我想看让子弹飞第二部”，百科模块的第一排序分值为0.1，新闻模块的第一排序分值为0.2，影视模块的第一排序分值为0.4，则可得到外部动作的动作类型为默认。

在一些实施例中，决策引擎根据动作类型为inform时，第一决策结果可为备选业务模块的解析结果；当动作类型为select时，第一决策结果可为包含两个备选业务模块的反馈语句，例如，第一决策结果可为：“百科信息还是相关新闻？”，或者，第一决策结果还可为包含备选业务模块和第一用户请求的反馈语句，例如，反馈语句可为“您是想了解武汉市市长的百科信息还是相关新闻”；当动作类型为default时，第一决策结果可包括预设反馈语句，如“未找到您要的信息”。

步骤S303：根据所述第一决策结果的动作类型为选择，解析来自所述显示设备的第二语音控制信号和第一语音控制信号，得到第二特征向量。

在一些实施例中，第二语音控制信号可为包含一个备选业务模块的信号，例如，包含“百科”业务模块的信号。

服务器对第二语音控制信号进行解析，得到第二用户请求，将第二用户请求补充到第一用户请求中，得到修正用户请求。例如，根据第二用户请求为“百科信息”，将第二用户请求与第一用户请求的文字按照汉语语法进行拼接，得到修正用户请求“武汉市市长百科信息”。

服务器对修正用户请求进行解析，得到第二特征向量。对修正用户请求的解析过程可参考对第一用户请求的解析过程。

步骤S304：根据所述第二特征向量计算各个业务模块的第二排序分值，比较多个所述第二排序分值得到第二决策结果，向显示设备发送所述第二决策结果。

服务器的决策引擎根据所述第二特征向量计算各个业务模块的第二排序分值，第二排序分值的计算过程可参考第一排序分值的计算过程。

根据第二排序分值，得到第二决策结果。其中，由于修正用户请求与第一用户请求相比增加了信息，则第二决策结果的动作类型为“inform”的几率大幅提升。例如，第二决策结果可为“百科”业务模块下对修正用户请求的解析结果。

将第二决策结果发送到显示设备，使用户可通过显示设备获取第二决策结果。

进一步的，根据所述第二排序分值的最大值，得到所述第二决策结果的动作奖励，根据所述第一语音控制信号和第二语音控制信号的相似度，得到用户行为反馈奖励，根据用户反馈奖励和动作奖励生成综合奖励。服务器的决策模块可根据综合奖励对第一排序分值的计算方法进行优化，即通过在线策略学习优化决策引擎，从而调整第一排序分值。服务器对决策引擎的优化可为不定时优化，具体可根据语音助手应用的业务需求确定优化时间。除了在线策略学习，服务器还可进行离线策略学习，综合在线策略学习和离线策略学习的结果优化策略引擎。

由上述实施例可见，本申请实施例在接收到用户输入的第一语音控制信号后，如果难以准确判断出用户的意图，则与用户进行交互，使用户输入第二语音控制信号，根据第二语音控制信号和第一语音控制信号综合分析用户的意图，提升了决策结果准确性。进一步的，通过设置动作奖励和用户反馈奖励来进行策略学习，有利于在保障决策结果准确性的基础上减少与用户交互的次数，进一步提升用户体验。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

音频采集装置，被配置为用于采集用户输入音频；

2.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

根据所述第一决策结果的动作类型为通知或默认，结束本轮决策。

3.根据权利要求1所述的显示设备，其特征在于，接收并输出来自所述服务器的第一决策结果，包括：

接收并控制所述显示器显示所述第一决策结果，其中，所述第一决策结果包括多个供用户选择的备选备选业务模块。

4.一种服务器，其特征在于，所述服务器被配置为：

5.一种语音交互方法，用于显示设备，其特征在于，包括：

6.一种语音交互方法，用于服务器，其特征在于，包括：

7.根据权利要求6所述的语音交互方法，其特征在于，所述解析来自显示设备的第一语音控制信号，得到第一特征向量，包括：

将第一语音控制信号在各个业务模块分别进行解析，得到用户请求特征分量；

分析所述第一语音控制信号在各个所述业务模块的历史解析结果，得到媒资历史特征分量；

分析用户在各个所述业务模块的历史媒资行为，得到用户历史特征分量；

根据所述用户请求特征分量、媒资历史特征分量和用户历史特征分量生成第一特征向量。

8.根据权利要求6所述的语音交互方法，其特征在于，还包括：

根据所述第一排序分值的最大值，得到所述第一决策结果的动作奖励；

根据所述第二排序分值的最大值，得到所述第二决策结果的动作奖励；

根据所述第一语音控制信号和第二语音控制信号的相似度，得到用户行为反馈奖励。

9.根据权利要求6所述的语音交互方法，其特征在于，所述比较多个所述第一排序分值得到第一决策结果，包括：

根据存在多个备选业务模块，且多个所述备选业务模块的第一排序分值之间的差值在预设范围内，得到动作类型为选择，根据所述备选业务模块和动作类型生成第一决策结果，其中，所述备选业务模块为第一排序分值大于预设阈值的业务模块；

根据存在一个所述备选业务模块，得到所述动作类型为通知，根据所述备选业务模块的解析结果生成第一决策结果；

根据不存在所述备选业务模块，得到所述动作类型为默认，根据预设反馈语句生成第一决策结果。

10.根据权利要求9所述的语音交互方法，其特征在于，所述比较多个所述第一排序分值得到第一决策结果，还包括：

根据存在多个备选业务模块，且多个所述备选业务模块的第一排序分值之间的差值不在预设范围内，得到所述动作类型为通知，根据第一排序分值最大的备选业务模块生成第一决策结果。