CN115396709A - 显示设备、服务器及免唤醒语音控制方法 - Google Patents
显示设备、服务器及免唤醒语音控制方法 Download PDFInfo
- Publication number
- CN115396709A CN115396709A CN202211008081.0A CN202211008081A CN115396709A CN 115396709 A CN115396709 A CN 115396709A CN 202211008081 A CN202211008081 A CN 202211008081A CN 115396709 A CN115396709 A CN 115396709A
- Authority
- CN
- China
- Prior art keywords
- application
- data
- server
- text data
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006870 function Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 19
- 230000003993 interaction Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种显示设备、服务器及免唤醒语音控制方法,包括:通信连接的显示器和控制器,控制器安装有第一应用和第二应用,第一应用被配置为:获取录音数据,并将其发送至服务器;接收服务器反馈的根据录音数据识别的文本数据,将包含文本数据的控制指令发送至第二应用;接收第二应用反馈的执行标识,在执行失败时,获取第二应用当前的页面名称,将页面名称和文本数据发送至服务器进行语义理解;在页面名称所表征的业务类型与文本数据所表征的业务类型一致时,接收服务器反馈的业务数据,并控制显示器展示出所述业务数据。本申请中,在想要对显示设备进行语音交互时,无需对其进行唤醒操作,用户可直接输出语音指令,提升用户的体验效果。
Description
技术领域
本申请涉及语音交互技术领域,尤其涉及一种显示设备、服务器及免唤醒语音控制方法。
背景技术
智能电视是一种可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体的电视产品。智能电视的用户界面被用于其与用户之间进行交互和信息交换的媒介,为满足用户多样化的需求,对应显示有影音、娱乐等多种应用程序。
目前,智能电视通常具备语音交互功能,以实现用户通过发送语音指令控制智能电视执行相应的功能。例如,用户通过发送“播放XX电影”,智能电视则接受该语音指令,获取XX电影进行播放。用户在发送语音指令之前,通常是需要先输入唤醒词将智能电视进行唤醒,之后与智能电视进行语音交互。用户每次在发起语音指令之前,都必须先进行唤醒,甚至是在语音控制失败后,需要用户再次语音唤醒后更换语音指令中的内容。以上唤醒过程降低用户的体验。
发明内容
本申请提供了一种显示设备、服务器及免唤醒语音控制方法,以解决相关技术中语音交互过程中唤醒操作降低用户的体验的技术问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
第一方面,本申请实施例公开了一种显示设备,所述显示设备包括:
显示器;
控制器,所述控制器与所述显示器通信连接,其安装有第一应用和第二应用,所述第一应用被配置为:
获取录音数据,并将所述录音数据发送至服务器;
接收所述服务器反馈的根据所述录音数据识别的文本数据,将包含所述文本数据的控制指令发送至所述第二应用,以使所述第二应用执行所述控制指令,其中,所述第二应用为运行于所述显示设备前台的应用;
接收所述第二应用反馈的执行标识,在所述执行标识表征所述控制指令执行失败时,获取所述第二应用当前的页面名称,将所述页面名称和所述文本数据发送至所述服务器进行语义理解,所述页面名称用于表征所述第二应用当前页面的业务类型;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,接收服务器反馈的业务数据,并控制显示器展示出所述业务数据。
第二方面,本申请实施例公开了一种显示设备,所述显示设备包括:
显示器;
控制器,所述控制器与所述显示器通信连接,其安装有第一应用和第二应用,所述第二应用被配置为:
接收所述第一应用发送的包含文本数据的控制指令,根据所述文本数据遍历预先生成的界面词列表,其中,所述界面词列表中包括当前页面中全部执行功能以及与所述执行功能相对应的指令数据;
在所述界面词列表中存在与所述控制指令相匹配的执行功能时,执行所述执行功能相对应的指令数据;
在所述界面词列表中不存在与所述控制指令相匹配的执行功能时,向所述第一应用发送用于表征执行失败的执行标识,以使所述第一应用根据所述执行标识请求服务器进行语义理解。
第三方面,本申请实施例公开了一种服务器,所述服务器被配置为:
接收显示设备发送的页面名称和文本数据,其中,所述页面名称为运行于所述显示设备前台的应用的当前页面名称,用于表征当前页面的业务类型,所述文本数据为根据录音数据所识别出的文本数据;
根据所述页面名称于预先生成的关系数据库中搜寻相对应的业务类型,并对所述文本数据进行语义理解,获取与所述文本数据相对应的业务类型;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,向所述显示设备发送业务数据,以使所述显示设备通过显示器展示出所述业务数据;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型不一致时,不向所述显示设备发送业务数据。
第四方面,本申请实施例公开了一种免唤醒语音控制方法,所述方法包括:
获取录音数据,并将所述录音数据发送至服务器;
接收所述服务器反馈的根据所述录音数据识别的文本数据,将包含所述文本数据的控制指令发送至第二应用,以使所述第二应用执行所述控制指令,其中,所述第二应用为运行于显示设备前台的应用;
接收所述第二应用反馈的执行标识,在所述执行标识表征所述控制指令执行失败时,获取所述第二应用当前的页面名称,将所述页面名称和所述文本数据发送至所述服务器进行语义理解,所述页面名称用于表征所述第二应用当前页面的业务类型;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,接收服务器反馈的业务数据,并控制显示器展示出所述业务数据。
与现有技术相比,本申请的有益效果为:
本申请提供了一种显示设备、服务器及免唤醒语音控制方法,用户在向显示设备发送语音指令时,显示设备中所运行的第一应用程序将接收到的相应的录音数据发送至服务器,以使服务器进行语音识别,将其转换为文本数据,并下发至显示设备。显示设备在接收到文本数据时,将包含文本数据的控制指令发送至正在前台运行的第二应用。第二应用在接收到控制指令后,遍历界面词列表查看能够执行该控制指令,若无法执行,则向第一应用反馈执行标识。第一应用在检测到执行标识表征的结果为执行失败时,则将第二应用当前的页面名称和文本数据反馈至服务器,以使服务器确定所述页面名称所表征的业务类型与所述文本数据所表征的业务类型是否一致。当两者一致时,第一应用接收到服务器反馈的业务数据,并通过显示器展示出业务数据。本申请中,在想要对显示设备进行语音交互时,无需对其进行唤醒操作,用户可直接输出语音指令,提升用户的体验效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1中示例性示出了根据一些实施例的语音识别方法和语音识别装置的***架构的示意图;
图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图;
图3中示例性示出了根据一些实施例的显示设备200的配置示意图;
图4中示例性示出了根据一些实施例的一种语音交互网络架构示意图;
图5中示例性示出了根据一些实施例的免唤醒语音控制的架构图;
图6中示例性示出了根据一些实施例的免唤醒语音控制方法的流程示例图;
图7中示例性示出了根据一些实施例的第二应用中的当前页面的显示效果示意图;
图8中示例性示出了根据一些实施例的第二应用中的当前页面的另一显示效果示意图;
图9中示例性示出了根据一些实施例的第二应用中的当前页面的另一显示效果示意图;
图10中示例性示出了根据一些实施例的另一第二应用中的当前页面的显示效果示意图;
图11中示例性示出了根据一些实施例的另一第二应用中的当前页面的另一显示效果示意图;
图12中示例性示出了根据一些实施例的另一第二应用中的当前页面的另一显示效果示意图;
图13中示例性示出了根据一些实施例的免唤醒语音控制方法的流程示例图;
图14中示例性示出了根据一些实施例的免唤醒语音控制方法的另一流程示例图;
图15中示例性示出了根据一些实施例的免唤醒语音控制方法的时序图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
图1示出了可以应用本申请的语音识别方法和语音识别装置的示例性***架构。如图1所示,其中,10为服务器,200为显示设备,示例性包括(智能电视200a,移动设备200b,智能冰箱200c)。
本申请中服务器10与显示设备200通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向显示设备200提供各种内容和互动。示例性的,显示设备200与服务器10可以通过发送和接收信息,以及接收软件程序更新。
服务器10可以是提供各种服务的服务器,例如对显示设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给显示设备。服务器10可以是一个服务器集群,也可以是多个服务器集群,可以包括一类或多类服务器。
显示设备200可以是具有声音采集功能以及显示屏的各种电子设备,包括但不限于智能手机、智能电视、平板电脑、电子书阅读器、计算机等等,在此不做具体限定。
需要说明的是,本申请实施例所提供的多语言文本语义理解方法可以通过服务器10执行,也可以通过显示设备200执行,还可以通过服务器10和显示设备200共同执行,本申请对此不做限定。
图2示出了根据示例性实施例中显示设备200的硬件配置框图。如图2所示显示设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。
显示器260可为液晶显示器、OLED显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。
用户接口,可用于接收外部的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
声音采集器可以是麦克风,也称“话筒”,“传声器”,可以用于接收用户的声音,将声音信号转换为电信号。显示设备200可以设置至少一个麦克风。在另一些实施例中,显示设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,显示设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
此外,麦克风可以是内置在显示设备200上,或者麦克风通过有线或者无线的方式与显示设备200相连接。当然,本申请实施例对麦克风在显示设备200上的位置不作限定。或者,显示设备200可以不包括麦克风,即上述麦克风并未设置于显示设备200中。显示设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在显示设备200上。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。
示例性的,控制器包括中央处理器(Central Processing Unit,CPU),音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random Access Memory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
在一些示例中,显示设备的操作***为Android***为例,如图3所示,智能电视200a从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为***应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于实现智能电视200a与服务器10的连接。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的,显示设备200中的语音识别应用启动,显示设备200与服务器10建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将显示设备200发送的语音数据输入至意图识别模型。
为清楚说明本申请的实施例,下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。
参见图4,图4为本申请实施例提供的一种语音交互网络架构示意图。图4中,显示设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务,用于将音频识别为文本;语义理解模块部署有语义理解服务,用于对文本进行语义解析;业务管理模块部署有业务指令管理服务,用于提供业务指令;语言生成模块部署有语言生成服务(NLG),用于将指示智能设备执行的指令转化为文本语言;语音合成模块部署有语音合成(TTS)服务,用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中,图4所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
一些实施例中,下面对基于图4所示架构处理输入显示设备的信息的过程进行举例描述,以输入显示设备的信息为通过语音输入的查询语句为例:
[语音识别]
显示设备可在接收到通过语音输入的查询语句后,显示设备可对查询语句的音频进行降噪处理和特征提取,这里的去噪处理可包括去除回声和环境噪声等步骤。
[语义理解]
利用声学模型和语言模型,对识别出的候选文本和相关联的上下文信息进行自然语言理解,将文本解析为结构化的、机器可读的信息,业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。
[业务管理]
语义理解模块根据对查询语句的文本的语义解析结果,向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果,以及执行“完成”用户最终请求所需的动作,并将查询结果对应的设备执行指令进行反馈。
需要说明的是,图4所示架构只是一种示例,并非对本申请保护范围的限定。本申请实施例中,也可采用其他架构来实现类似功能,例如:上述过程全部或部分可以由智能终端来完成,在此不做赘述。
在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍,在一些实施例中可以是基于相近的其他硬件或软件架构,可以实现本申请的技术方案即可。
基于上述显示设备200,用户可与其进行语音交互。例如,用户首先通过输入唤醒词“小A小A”唤醒显示设备200中的语音功能。然后,用户可向显示设备200发送语音指令控制其执行相应的功能,如,用户通过发送“播放张XX电影”,显示设备200则接受该语音指令,获取张XX电影进行播放。若是显示设备200响应失败,即没有获取到张XX的电影,则需要用户再次输入唤醒词“小A小A”,之后调整语音指令中的内容,如“我想看张XX的电影”。用户每次在发起语音指令之前,都必须先进行唤醒,以上唤醒过程降低用户的体验。为了解决上述问题,本申请一些实施例提供了一种显示设备、服务器及免唤醒语音控制方法。
图5中示例性示出了根据一些实施例的免唤醒语音控制的架构图,如图5所示,免唤醒语音控制过程涉及的终端有显示设备200和服务器10。服务器10中包括语音识别后台服务和语义后台服务,其中,语音识别后台服务用于将音频数据转化为文本数据,语义后台服务用于通过文本数据理解出用户意图。显示设备200中安设有免唤醒语音终端APP(应用程序)以及前台APP,前台APP即为运行在显示设备200前台的应用程序,免唤醒语音终端APP实现前台APP与语音识别后台服务和语义后台服务之间的交互,显示设备200通过声音采集器230采集用户的声音。
本申请在一些实施例中提供了一种显示设备,该显示设备200包括显示器260和控制器250,所述控制器250与所述显示器260通信连接。所述显示器260被配置为显示用户界面,所述控制器250中安设有第一应用和第二应用,其中,第二应用为运行在显示设备200前台的应用,如AA音乐,BB视频等。第一应用即为图5中免唤醒语音终端APP,第一应用被配置为执行图6所示的免唤醒语音控制过程。
图6中示例性示出了根据一些实施例的免唤醒语音控制方法的流程示例图,结合图6,该免唤醒语音控制的过程如下:
S601:获取录音数据,并将所述录音数据发送至服务器。
在一些实施例中,显示设备200中的控制器250通过麦克风阵列采集用户的语音,麦克风阵列采集到语音后,控制器250还可通过音频处理器对采集到的语音进行降噪、数模转换、和放大处理等前端信号处理过程。将采集到的用户声音经过预处理过程得到录音数据。
在一些实施例中,第一应用中的数据获取模块获取录音数据,第一应用通过语音识别引擎将录音数据上传至服务器10中的语音识别后台服务,服务器10件录音数据识别为文本数据,并将文本数据反馈至语音识别引擎。
S602:接收所述服务器反馈的根据所述录音数据识别的文本数据,将包含所述文本数据的控制指令发送至所述第二应用,以使所述第二应用执行所述控制指令。
在一些实施例中,第一应用接收文本数据,生成包含文本数据的控制指令,并将控制指令发送给显示设备200的前台应用,即第二应用。第二应用在接收到控制指令后,根据其中的文本数据进行界面词匹配和控制,以执行该控制指令,此处具体执行过程后文进行描述。
S603:接收所述第二应用反馈的执行标识,在所述执行标识表征所述控制指令执行失败时,获取所述第二应用当前的页面名称,将所述页面名称和所述文本数据发送至所述服务器进行语义理解。
在一些实施例中,第二应用在执行控制指令后,无论执行成功或执行失败,第二应用均可向第一应用反馈执行标识,用于告知第一应用控制指令的执行结果。例如,执行标识为1,则表征控制指令执行成功,执行标识为0,则表征控制指令执行失败。第一应用在接收到执行标识后,通过界面词执行逻辑检测判断执行标识所表征的结果。
在一些实施例中,若第一应用通过执行标识判断出控制指令执行成功后,则终止所述控制指令所表征的当前语音控制过程,也就是终止当前流程。
在一些实施例中,若第一应用通过执行标识判断出控制指令执行失败,则第一应用中的语义数据解析负责将文本数据和页面名称发送至服务器10中的语义后台服务。这里,页面名称为第二应用当前所显示的页面的名称,如播放页面、推荐页面、搜索页面等。此处的页面名称可以由第二应用每跳转至新的页面时,将当前页面的页面名称反馈至第一应用,第一应用进行存储,等后续需要时可直接调出使用。
在一些实施例中,服务器10中的语义后台服务在接收到第一应用发送的页面名称时,能够基于该页面名称获取相应的业务类型。例如,对于播放页面,语义后台服务可以确定出其相对应的业务类型为播放控制,对于直播电视,语义后台服务可以确定其对应的业务类型为频道切换。
在一些实施例中,服务器10中的语义后台服务在接收到第一应用发送的文本数据时,能够将文本数据输入至相应的语言模型进行语义理解,通过文本数据理解出用户意图。例如,文本数据为“播放XX歌曲”,基于该文本数据获取相应的业务类型为播放控制。
S604:在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,接收服务器反馈的业务数据,并控制显示器展示出所述业务数据。
在一些实施例中,语义后台服务在分别获取到页面名称所表征的业务类型和文本数据所表征的业务类型时,对比两者是否一致。若一致,则将与生成与该业务类型的相应的业务数据,并将业务数据反馈至显示设备200进行展示。
在一些实施例中,第一应用在接收到服务器反馈的业务数据时,可以将需要展示的内容通过浮层的形式展示与显示器260的当前页面上。
在一些实施例中,第一应用在接收到服务器反馈的业务数据时,还可以将业务数据反馈至第二应用,由第二应用控制显示器260展示出相应的业务数据。
在一些实施例中,在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型不一致时,说明显示设备200所采集的用户声音可能为闲聊的声音或者其他杂音,则第一应用可终止所述控制指令所表征的当前语音控制过程,即终止当前流程,对于当前采集到的语音不予响应。需要说明的是,此处显示设备200不展示理解失败的提示信息。
下面结合附图具体描述一下免唤醒语音控制的效果。
图7中示例性示出了根据一些实施例的第二应用中的当前页面的显示效果示意图。图8中示例性示出了根据一些实施例的第二应用中的当前页面的另一显示效果示意图。图9中示例性示出了根据一些实施例的第二应用中的当前页面的另一显示效果示意图。结合图7至图9所示,第二应用为音乐APP,其当前页面中有暂停/开始控件、收藏控件、音效控件等。若用户发出“暂停”的语音,第一应用将其转换为文本数据发送至第二应用,第二应用在接收到包含“暂停”控制指令后,控制执行暂停歌曲播放的操作,效果如图7至图8的转换。如若用户发出“BB歌曲”的语音,第一应用将其转换为文本数据发送至第二应用,第二应用在接收到包含“BB歌曲”控制指令后,无法执行,则第一应用将包含“BB歌曲”和播放页面的数据发送至服务器10,服务器10在确定出两者的业务类型均是播放控制时,可进一步获取到“BB歌曲”相关的播放地址等业务数据反馈至第一应用,由第一应用控制第二应用展示出“BB歌曲”,如图7至图9的转换。
图10中示例性示出了根据一些实施例的另一第二应用中的当前页面的显示效果示意图。图11中示例性示出了根据一些实施例的另一第二应用中的当前页面的另一显示效果示意图。图12中示例性示出了根据一些实施例的另一第二应用中的当前页面的另一显示效果示意图。结合图10至图12所示,第二应用为视频APP,其当前页面中有全屏播放控件、收藏控件、相关推荐控件等。若用户发出“全屏播放”的语音,第一应用将其转换为文本数据发送至第二应用,第二应用在接收到包含全屏播放”控制指令后,控制执行暂停歌曲播放的操作,效果如图10至图11的转换。如若用户发出“张XX的电影”的语音,第一应用将其转换为文本数据发送至第二应用,第二应用在接收到包含“张XX的电影”控制指令后,无法执行,则第一应用将包含“张XX的电影”和播放页面的数据发送至服务器10,服务器10在确定出两者的业务类型均是播放控制时,可进一步获取到“张XX的电影”相关的播放地址等业务数据反馈至第一应用,由第一应用控制第二应用展示出“张XX的电影”的推荐结果,如图10至图12的转换。
为了进一步介绍上述免语音控制过程,本申请一些实施例还提供了一种显示设备,该显示设备200包括显示器260和控制器250,所述控制器250与所述显示器260通信连接。所述显示器260被配置为显示用户界面,所述控制器250中安设有第一应用和第二应用,其中,第一应用即为免唤醒语音终端APP,第二应用为运行在显示设备200前台的应用。第二应用被配置为执行图13所示的免唤醒语音控制过程。
图13中示例性示出了根据一些实施例的免唤醒语音控制方法的流程示例图,结合图13,该免唤醒语音控制的过程如下:
S1301:接收所述第一应用发送的包含文本数据的控制指令,根据所述文本数据遍历预先生成的界面词列表。
在一些实施例中,在所述第二应用启动后,或所述第二应用跳转至新的页面时,遍历当前页面中全部的执行功能,并获取实现所述执行功能所需的指令数据,在界面词列表中生成所述执行功能与指令数据相对应的映射关系。如图7所示,当用户打开图7所示音乐APP时,当前所展示的页面为播放页面,该页面上的功能包括:暂停/开始、上一首/下一首、歌曲播放模式(单曲循环、随机播放等)、收藏、音效等,当展示出该页面时,第二应用可遍历该页面上的全部执行功能,以及相应的指令数据,生成执行功能和指令数据相映射的界面词列表。这里,指令数据指示的第二应用在实现执行功能时的操作。
在一些实施例中,在第二应用启动后,或所述第二应用跳转至新的页面时,也可直接将将当前的页面名称发送至所述第一应用,以使第一应用进行存储。
在一些实施例中,第二应用在接收到第一应用所发送的控制指令时,获取控制指令中的文本数据,根据文本数据遍历界面词列表,查询是否存在相匹配的执行功能。
S1302:在所述界面词列表中存在与所述控制指令相匹配的执行功能时,执行所述执行功能相对应的指令数据。
在一些实施例中,在第二应用于界面词列表中确定出存在与所述控制指令相匹配的执行功能时,可直接执行与其相对应的指令数据,以执行该控制指令。当执行成功后,第二应用向第一应用发送用于表征执行成功的执行标识。
S1303:在所述界面词列表中不存在与所述控制指令相匹配的执行功能时,向所述第一应用发送用于表征执行失败的执行标识,以使所述第一应用根据所述执行标识请求服务器进行语义理解。
在一些实施例中,在第二应用于界面词列表中确定出不存在与所述控制指令相匹配的执行功能时,即执行失败,第二应用向第一应用发送用于表征执行失败的执行标识。第一应用在接收到用于表征执行失败的执行标识后,向服务器发送页面名称和文本数据进行语义理解。
图14中示例性示出了根据一些实施例的免唤醒语音控制方法的另一流程示例图。由图13所示,当用户启动第二应用时,第二应用即可生成界面词列表,并将当前所显示的页面名称传递给第一应用。显示设备200通过麦克风阵列进行录音,以获取录音数据,第一应用将获取的录音数据发送至服务器进行语音识别,并将识别后的文本数据发送至第二应用。第二应用在接收到文本数据后,遍历界面词列表,若匹配成功且存在相应的指令数据,则执行相应的界面控制。若匹配失败,则将文本数据和当前的页面名称发送给服务器中语义后台服务。服务器查询页面名称所对应的业务类型和语义理解文本数据所表征的业务类型,在两者一致时,控制界面展示语义理解结果。若两者不一致,则结束当前流程。
基于与上述显示设备同样的发明构思,本申请一些实施例还提供了一种服务器,所述服务器被配置为:预先生成应用名称、页面名称以及业务类型相对应的映射关系,可将所述映射关系上传至关系数据库中保存。
在一些实施例中,服务器10可根据新开发的应用程序或者是已经开发只是做出更新的应用程序对所述映射关系进行更新维护。
以三个应用程序为例,服务器10中所存储的映射关系如表1所示。
表1:
应用程序 | 页面名称 | 业务类型 |
AA音乐 | 播放页面 | 播放控制、歌曲搜索 |
AA音乐 | 推荐页面 | 歌曲搜索 |
BB视频 | 播放页面 | 播放控制 |
BB视频 | 推荐页面 | 影视搜索 |
直播电视 | 直播电视 | 频道切换 |
在一些实施例中,在映射关系中还可对应的存储有应用程序的程序标识,例如,每一应用程序的包头,通过包头来对应用程序进行唯一标识。
在一些实施例中,服务器10能够接收第一应用发送的录音数据,通过语音识别后台服务将录音数据识别为文本数据。
在一些实施例中,服务器10接收显示设备200找第一应用发送的页面名称和文本数据,其中,所述页面名称为运行于所述显示设备前台的应用的当前页面名称,用于表征当前页面的业务类型,所述文本数据为根据录音数据所识别出的文本数据。服务器10中的语义后台服务根据所述页面名称于预先生成的关系数据库中搜寻相对应的业务类型,并对所述文本数据进行语义理解,获取与所述文本数据相对应的业务类型。在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,服务器10向所述显示设备200发送业务数据,以使所述显示设备200通过显示器260展示出所述业务数据。在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型不一致时,服务器10不向所述显示设备200发送业务数据。
下面结合附图进一步介绍一下上述免唤醒语音控制的过程。
图15中示例性示出了根据一些实施例的免唤醒语音控制方法的时序图。如图15所示,显示设备200包含麦克风阵列、第一应用和第二应用。服务器10包括语音识别后台服务和语义后台服务。当第二应用启动后,第二应用可将当前的页面名称发送至第一应用,并生成界面词列表。用户可直接向显示设备200发出语音控制,显示设备200中的麦克风阵列能够手机人声,并进行前端信号处理得到录音数据。第一应用在获取到录音数据时,将录音数据发送至语音识别后台服务。语音识别后台服务将录音数据通过语音识别模型转换为文本数据,并将文本数据反馈至第一应用。第一应用将文本数据发送至第二应用,以使第二应用进行界面词匹配和相应的控制。第二应用将界面词执行结果,即执行标识反馈至第一应用。在界面控制失败的时候,第一应用将文本数据和页面名称发送至语义后台服务,语义后台服务进行业务类型的识别,并生成业务数据。第一应用接收语义后台服务反馈的数据并进行解析,当语义理解成功,也就是页面名称所表征的业务类型与文本数据所表征的业务类型一致时,控制第二应用进行展示,否则终止流程。
本申请中,在想要对显示设备进行语音交互时,连续通过免唤醒获取识别文本,实现当前应用场景的界面控制,以及基于当前应用场景所属业务的语音直达,快速准确理解和响应用户意图,无需对其进行唤醒操作,提升用户体验和执行效率。
基于与上述显示设备同样的发明构思,本申请实施例还提供了一种免唤醒语音控制方法,所述方法包括:显示设备200中的第一应用获取录音数据,并将所述录音数据发送至服务器10。第一应用接收所述服务器10反馈的根据所述录音数据识别的文本数据,将包含所述文本数据的控制指令发送至显示设备200中的第二应用,以使所述第二应用执行所述控制指令,其中,所述第二应用为运行于显示设备200前台的应用。第一应用接收所述第二应用反馈的执行标识,在所述执行标识表征所述控制指令执行失败时,获取所述第二应用当前的页面名称,将所述页面名称和所述文本数据发送至所述服务器进行语义理解,所述页面名称用于表征所述第二应用当前页面的业务类型。在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,第一应用接收服务器10反馈的业务数据,并控制显示器260展示出所述业务数据。
由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。
以上的本申请实施方式并不构成对本申请保护范围的限定。
Claims (10)
1.一种显示设备,其特征在于,所述显示设备包括:
显示器;
控制器,所述控制器与所述显示器通信连接,其安装有第一应用和第二应用,所述第一应用被配置为:
获取录音数据,并将所述录音数据发送至服务器;
接收所述服务器反馈的根据所述录音数据识别的文本数据,将包含所述文本数据的控制指令发送至所述第二应用,以使所述第二应用执行所述控制指令,其中,所述第二应用为运行于所述显示设备前台的应用;
接收所述第二应用反馈的执行标识,在所述执行标识表征所述控制指令执行失败时,获取所述第二应用当前的页面名称,将所述页面名称和所述文本数据发送至所述服务器进行语义理解,所述页面名称用于表征所述第二应用当前页面的业务类型;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,接收服务器反馈的业务数据,并控制显示器展示出所述业务数据。
2.根据权利要求1所述的显示设备,其特征在于,在所述获取录音数据,并将所述录音数据发送至服务器的步骤之前,所述第一应用还被配置为:
在所述第二应用跳转至新的页面时,接收所述第二应用发送的当前的页面名称,并存储所述页面名称。
3.根据权利要求1所述的显示设备,其特征在于,所述第一应用还被配置为:
在所述执行标识表征所述控制指令执行成功时,或,在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型不一致时,终止所述控制指令所表征的当前语音控制过程。
4.根据权利要求1所述的显示设备,其特征在于,在所述获取录音数据的步骤中,所述第一应用还被配置为:
获取声音采集器所接收到的录音数据,其中,所述录音数据指的是所述声音采集器在录取音频数据后,将所述音频数据进行预处理后所得的数据。
5.一种显示设备,其特征在于,所述显示设备包括:
显示器;
控制器,所述控制器与所述显示器通信连接,其安装有第一应用和第二应用,所述第二应用被配置为:
接收所述第一应用发送的包含文本数据的控制指令,根据所述文本数据遍历预先生成的界面词列表,其中,所述界面词列表中包括当前页面中全部执行功能以及与所述执行功能相对应的指令数据;
在所述界面词列表中存在与所述控制指令相匹配的执行功能时,执行所述执行功能相对应的指令数据;
在所述界面词列表中不存在与所述控制指令相匹配的执行功能时,向所述第一应用发送用于表征执行失败的执行标识,以使所述第一应用根据所述执行标识请求服务器进行语义理解。
6.根据权利要求5所述的显示设备,其特征在于,在所述接收所述第一应用发送的包含文本数据的控制指令的步骤之前,所述第二应用还被配置为:
在所述第二应用启动后,或所述第二应用跳转至新的页面时,遍历当前页面中全部的执行功能,并获取实现所述执行功能所需的指令数据,在界面词列表中生成所述执行功能与指令数据相对应的映射关系。
7.根据权利要求5所述的显示设备,其特征在于,在所述接收所述第一应用发送的包含文本数据的控制指令的步骤之前,所述第二应用还被配置为:
在所述第二应用启动后,或所述第二应用跳转至新的页面时,将当前的页面名称发送至所述第一应用。
8.一种服务器,其特征在于,所述服务器被配置为:
接收显示设备发送的页面名称和文本数据,其中,所述页面名称为运行于所述显示设备前台的应用的当前页面名称,用于表征当前页面的业务类型,所述文本数据为根据录音数据所识别出的文本数据;
根据所述页面名称于预先生成的关系数据库中搜寻相对应的业务类型,并对所述文本数据进行语义理解,获取与所述文本数据相对应的业务类型;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,向所述显示设备发送业务数据,以使所述显示设备通过显示器展示出所述业务数据;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型不一致时,不向所述显示设备发送业务数据。
9.根据权利要求8所述的服务器,其特征在于,在所述接收显示设备发送的页面名称和文本数据的步骤之前,所述服务器还被配置为:
在关系数据库中生成应用名称、页面名称以及业务类型相对应的映射关系。
10.一种免唤醒语音控制方法,其特征在于,所述方法包括:
获取录音数据,并将所述录音数据发送至服务器;
接收所述服务器反馈的根据所述录音数据识别的文本数据,将包含所述文本数据的控制指令发送至第二应用,以使所述第二应用执行所述控制指令,其中,所述第二应用为运行于显示设备前台的应用;
接收所述第二应用反馈的执行标识,在所述执行标识表征所述控制指令执行失败时,获取所述第二应用当前的页面名称,将所述页面名称和所述文本数据发送至所述服务器进行语义理解,所述页面名称用于表征所述第二应用当前页面的业务类型;
在所述页面名称所表征的业务类型与所述文本数据所表征的业务类型一致时,接收服务器反馈的业务数据,并控制显示器展示出所述业务数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211008081.0A CN115396709A (zh) | 2022-08-22 | 2022-08-22 | 显示设备、服务器及免唤醒语音控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211008081.0A CN115396709A (zh) | 2022-08-22 | 2022-08-22 | 显示设备、服务器及免唤醒语音控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115396709A true CN115396709A (zh) | 2022-11-25 |
Family
ID=84121097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211008081.0A Pending CN115396709A (zh) | 2022-08-22 | 2022-08-22 | 显示设备、服务器及免唤醒语音控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115396709A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机*** |
US20160034253A1 (en) * | 2014-07-31 | 2016-02-04 | Samsung Electronics Co., Ltd. | Device and method for performing functions |
CN105957530A (zh) * | 2016-04-28 | 2016-09-21 | 海信集团有限公司 | 一种语音控制方法、装置和终端设备 |
CN106101789A (zh) * | 2016-07-06 | 2016-11-09 | 深圳Tcl数字技术有限公司 | 终端的语音交互方法及装置 |
WO2021027476A1 (zh) * | 2019-08-09 | 2021-02-18 | 华为技术有限公司 | 语音控制设备的方法及电子设备 |
US20220051668A1 (en) * | 2020-08-17 | 2022-02-17 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Speech control method, terminal device, and storage medium |
-
2022
- 2022-08-22 CN CN202211008081.0A patent/CN115396709A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160034253A1 (en) * | 2014-07-31 | 2016-02-04 | Samsung Electronics Co., Ltd. | Device and method for performing functions |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机*** |
CN105957530A (zh) * | 2016-04-28 | 2016-09-21 | 海信集团有限公司 | 一种语音控制方法、装置和终端设备 |
CN106101789A (zh) * | 2016-07-06 | 2016-11-09 | 深圳Tcl数字技术有限公司 | 终端的语音交互方法及装置 |
WO2018006489A1 (zh) * | 2016-07-06 | 2018-01-11 | 深圳Tcl数字技术有限公司 | 终端的语音交互方法及装置 |
WO2021027476A1 (zh) * | 2019-08-09 | 2021-02-18 | 华为技术有限公司 | 语音控制设备的方法及电子设备 |
US20220051668A1 (en) * | 2020-08-17 | 2022-02-17 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Speech control method, terminal device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650816B2 (en) | Performing tasks and returning audio and visual feedbacks based on voice command | |
WO2020078300A1 (zh) | 一种终端投屏的控制方法和终端 | |
CN112163086B (zh) | 多意图的识别方法、显示设备 | |
WO2019047878A1 (zh) | 语音操控终端的方法、终端、服务器和存储介质 | |
JP2014002737A (ja) | サーバ及びサーバの制御方法 | |
CN112004157B (zh) | 一种多轮语音交互方法及显示设备 | |
US11907616B2 (en) | Electronic apparatus, display apparatus and method of controlling the same | |
CN112599126B (zh) | 一种智能设备的唤醒方法、智能设备及计算设备 | |
CN114067798A (zh) | 一种服务器、智能设备及智能语音控制方法 | |
EP4343756A1 (en) | Cross-device dialogue service connection method, system, electronic device, and storage medium | |
WO2022247466A1 (zh) | 资源显示的方法、终端及服务器 | |
CN115150501A (zh) | 一种语音交互方法及电子设备 | |
CN116189674A (zh) | 一种语音控制方法及显示设备 | |
CN115396709A (zh) | 显示设备、服务器及免唤醒语音控制方法 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
CN113593559B (zh) | 一种内容显示方法、显示设备及服务器 | |
CN115240665A (zh) | 显示设备、控制方法和存储介质 | |
CN114822598A (zh) | 服务器及语音情感识别方法 | |
CN114627864A (zh) | 显示设备与语音交互方法 | |
CN113079400A (zh) | 显示设备、服务器及语音交互方法 | |
KR20210029383A (ko) | 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 | |
CN111914565A (zh) | 电子设备及用户语句的处理方法 | |
CN112256232A (zh) | 显示设备与自然语言生成后处理方法 | |
CN111580766A (zh) | 一种信息显示方法、装置和信息显示*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |