CN104506906B

CN104506906B - 基于电视场景元素及语音助手的语音交互辅助方法及***

Info

Publication number: CN104506906B
Application number: CN201410634282.0A
Authority: CN
Inventors: 黄海兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2019-01-18
Anticipated expiration: 2034-11-12
Also published as: CN104506906A

Abstract

本发明涉及基于电视场景元素及语音助手的语音交互辅助方法及***，所述电视播放软件与所述语音助手独立运行，所述语音助手获取所述电视播放软件运行的场景信息，所述语音助手将语音识别转换结果与获取的场景信息进行匹配，然后对于匹配的场景信息，根据场景元素信息和场景状态信息和语音信息，由电视播放软件进行操作执行。本发明基于电视场景元素及语音助手的语音交互辅助方法及***，根据电视的实时场景信息进行对其进行操作和使用，使语音电视真正迈向智能化，同时，与电视播放软件分开独立运行，可以一个语音助手与多个电视播放软件配合使用，大大节约***资源。另外，方便对语音引擎进行更新和创新，促进语音技术在智能化方面的发展。

Description

基于电视场景元素及语音助手的语音交互辅助方法及***

技术领域

本发明涉及一种语音交互辅助方法及***，尤其涉及一种基于电视场景元素及语音助手的语音交互辅助方法及***。

背景技术

尽管智能手机、网络等新兴科技大大改变了人们的生产和生活，但在家庭中，电视还是具有不可取代的信息传输地位。随着科技的发展，电视技术也得到了长足的发展，目前电视发展到智能化阶段，智能电视越来越广泛应用到人们生活中。随着语音技术的发展，语音电视也越来越走近人们的生活。目前在语音电视通常采用在电视播放模块中内嵌语音软件进行语音控制操作，多数只能进行具体操作项目进行操作，由于场景信息是根据电视软件的实时运行而变化，因此，现有内嵌操作不能针对电视的实时场景信息进行对其进行操作和使用。另外，对于在智能电视平台装载多个电视播放软件，则每个电视播放软件均进行复杂的语音内嵌开发才能进行使用，同时，在软件进行加载时，会占用大量的内存，特别是同时加载几个电视播放软件时，需要大量的内存资源，影响***的运行效果。随着语音识别的程度越来越高，语音引擎也越来越庞大，语音控制也越来越智能化，这需要语音引擎本身不断的更新和发展，语音内嵌显然大大限制了语音控制的发展。

发明内容

本发明解决的技术问题是：构建一种基于电视场景元素及语音助手的语音交互辅助方法及***，克服现有技术不能针对电视的实时场景信息进行对其进行操作和使用以及影响***的运行效果，限制语音控制在电视上的发展的技术问题。

本发明的技术方案是：提供一种基于电视场景元素及语音助手的语音交互辅助方法，包括电视播放软件、语音助手，所述电视播放软件与所述语音助手独立运行，语音交互辅助方法包括如下步骤：

获取场景信息：所述语音助手获取所述电视播放软件运行的场景信息，所述场景信息包括场景元素信息；

输入语音：所述语音助手采集语音信息，所述语音助手对所述语音信息进行语音识别转换；

匹配执行：所述语音助手将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件运行的场景元素信息与所述语音识别结果在相关信息上相同或相似，则所述语音助手将匹配的场景元素信息传送到所述电视播放软件，由所述电视播放软件执行所述场景元素信息对应的项目。

本发明的进一步技术方案是：所述电视播放软件和所述语音助手通过所述电视播放软件的预留接口建立通信连接或者所述电视播放软件和所述语音助手通过专有协议建立通信连接。

本发明的进一步技术方案是：所述电视播放软件包括多种独立运行的电视播放软件，所述语音助手与当前活动的所述电视播放软件配合工作。

本发明的进一步技术方案是：还包括网络服务器，所述语音助手将采集的场景信息上传到所述网络服务器，所述网络服务器将所述场景信息与预先存储的信息进行匹配，将匹配的信息传送到所述语音助手。

本发明的进一步技术方案是：所述相关信息上相同或相似包括在相关信息在发音、文字、文字含义、所属类型或操作信息上相同或相似，或者匹配双方各自部分信息在发音、文字、文字含义、所属类型或操作信息上相同或相似。

本发明的技术方案是：构建一种基于电视场景元素及语音助手的语音交互辅助***，包括电视播放软件、语音助手，所述电视播放软件与所述语音助手独立运行，所述电视播放软件包括采集场景信息的采集模块、与所述语音助手进行通信的通信模块、执行模块，所述语音助手包括获取所述电视播放软件运行的场景信息的信息获取模块、采集语音信息的语音采集模块、进行语音识别转换的语音识别模块、匹配模块、传输模块，所述信息获取模块获取所述电视播放软件运行的场景信息，所述场景信息包括场景元素信息；所述语音采集模块采集语音信息，所述语音识别模块对所述语音信息进行语音识别转换；所述匹配模块将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件运行的场景元素信息与所述语音识别结果在相关信息上相同或相似，所述传输模块将匹配的场景元素信息传送到所述电视播放软件，所述执行模块执行所述场景元素信息对应的项目。

本发明的进一步技术方案是：所述电视播放软件包括第一信息输出模块或者所述语音助手包括第二信息输出模块。

本发明的技术效果是：构建一种基于电视场景元素及语音助手的语音交互辅助方法及***，包括电视播放软件、语音助手，所述电视播放软件与所述语音助手独立运行，所述语音助手获取所述电视播放软件运行的场景信息，所述场景信息包括场景元素信息；所述语音助手采集语音信息，所述语音助手对所述语音信息进行语音识别转换；所述语音助手将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件运行的场景元素信息与所述语音识别结果在相关信息上相同或相似，则所述语音助手将匹配的场景元素信息传送到所述电视播放软件，由所述电视播放软件执行所述场景元素信息对应的项目。本发明基于电视场景元素及语音助手的语音交互辅助方法及***，所述电视播放软件与所述语音助手独立运行，所述语音助手获取所述电视播放软件运行的场景信息，所述语音助手将语音识别转换结果与获取的场景信息进行匹配，然后对于匹配的场景信息，根据场景元素信息和场景状态信息和语音信息，由电视播放软件进行操作执行。本发明基于电视场景元素及语音助手的语音交互辅助方法及***，根据电视的实时场景信息进行对其进行操作和使用，使语音电视真正迈向智能化，同时，与电视播放软件分开独立运行，可以一个语音助手与多个电视播放软件配合使用，大大节约***资源。另外，方便对语音引擎进行更新和创新，促进语音技术在智能化方面的发展。

附图说明

图1为本发明的结构示意图。

图2为本发明的优选实施方式结构示意图。

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图1所示，本发明的具体实施方式是：提供一种基于电视场景元素及语音助手的语音交互辅助方法，包括电视播放软件1、语音助手2，所述电视播放软件1与所述语音助手2独立运行，语音交互辅助方法包括如下步骤：

获取场景信息：所述语音助手2获取所述电视播放软件1运行的场景信息，所述场景信息包括场景元素信息。

具体实施过程如下：所述语音助手2获取所述电视播放软件1运行的场景信息方式包括两种方式：一种方式是所述电视播放软件1后台采集自身运行的场景信息，这种信息采集方式全面、准确、快速，为首选方式。另外一种方式是：所述语音助手2通过所述电视播放软件1的预留接口采集所述电视播放软件1运行的场景信息，这种方式要根据预留接口的功能决定采集信息的程度。针对所述电视播放软件1采集的场景信息，由所述电视播放软件1传送到所述语音助手2完成场景信息的获取。针对所述语音助手2通过所述电视播放软件1的预留接口采集所述电视播放软件1运行的场景信息，其本身即是场景信息获取的过程。所述场景信息包括场景元素信息。所述场景元素信息包括运行详情界面呈现的可视信息，具体包括运行界面的文字信息、图片信息、视频信息名称等，运行详情界面的文字信息为最主要的信息。所述场景状态信息主要包括运行界面涉及的操作信息，比如：播放视频、播放音乐、操作游戏等相关运行信息。具体实施例中，根据这些信息，通常将采集的元素信息多转换为文字信息。

输入语音：所述语音助手2采集语音信息，所述语音助手2对所述语音信息进行语音识别转换。

具体实施过程如下：通过外部语音输入设备输入语音信息，所述语音助手2采集所述语音信息，然后对所述语音信息进行语音识别转换。具体实施例中，语音识别转换结果包括文字信息，也可以涉及操作信息。比如：打开快乐大本营，则语音识别转换结果涉及操作信息，也包括文字信息。

匹配执行：所述语音助手2将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件1运行的场景元素信息与所述语音识别结果在相关信息上相同或相似，则所述语音助手2将匹配的场景元素信息传送到所述电视播放软件1，由所述电视播放软件1执行所述场景元素信息对应的项目。

具体实施过程如下：所述语音助手2将语音识别转换结果与获取的场景信息进行匹配，主要从各自己相关信息的发音、文字、文字含义或者操作信息进行匹配，所述场景元素信息包括场景元素信息的名称、场景元素信息所在的类型、场景元素信息所涉及的制作人员、场景元素信息涉及的内容信息中的一种或多种。所述相关信息上相同或相似包括在相关信息在发音、文字、文字含义、所属类型或操作信息上相同或相似，比如：当前场景元素信息为“快乐大本营”，从“快乐大本营”的发音、文字进行相同或相似匹配，也可以从其所属类型上进行匹配，如：“快乐大本营”为综艺节目，还可以从其主持人上进行信息的匹配，还可以从其所属电视台上进行信息匹配等。另一种方式是：匹配双方各自部分信息在发音、文字、文字含义、所属类型或操作信息上相同或相似。比如：当前场景元素信息为“快乐大本营”，可以取其部分信息“快乐”和“大本营”进行匹配，若语音识别结果中包括“快乐”或者“大本营”，则也可以将“快乐大本营”匹配为相关。匹配相关后，所述语音助手2将匹配的场景元素信息传送到所述电视播放软件1，由所述电视播放软件1执行所述场景元素信息对应的项目。比如场景元素信息中有显示“快乐大本营”的节目，匹配相关后，所述语音助手2将“快乐大本营”信息传输到所述电视播放软件1，所述电视播放软件1执行该“快乐大本营”的节目，执行结果包括选择、点击等操作。

如图1所示，本发明的优选实施方式是：所述电视播放软件1和所述语音助手2进行信息传输过程中，所述电视播放软件1和所述语音助手2通过以下两种方式建立通信连接。所述电视播放软件1和所述语音助手2通过所述电视播放软件1的预留接口建立通信连接或者所述电视播放软件1和所述语音助手2通过专有协议建立通信连接。所述语音助手2获取采集运行的场景信息包括两种方式：所述电视播放软件1向所述语音助手2传输或者所述语音助手2直接向所述电视播放软件1采集。针对所述电视播放软件1采集运行的场景信息，所述电视播放软件1与所述语音助手2建立通信连接，然后由所述电视播放软件1将采集的运行场景信息传输到所述语音助手2。所述语音助手2也可以通过所述电视播放软件1预留的接口与所述电视播放软件1建立通信连接，所述语音助手2直接向所述电视播放软件1采集获取所述电视播放软件1的运行场景信息。所述语音助手2根据所述电视播放软件1的预留接口与所述电视播放软件1建立通信连接。目前，大多数软件为一些特殊功能，均预留一些通信接口，比如：一些软件为老人看不清楚而预留进行语音朗读的接口，或者，一些软件为盲人预留的辅助操作接口等。所述语音助手2通过所述电视播放软件1的这些功能接口与所述电视播放软件1建立通信连接。所述语音助手2与所述电视播放软件1通过专有协议建立通信连接。通过构建所述语音助手2与所述电视播放软件1通信的专有协议，实现所述语音助手2与所述电视播放软件1的通信连接。

如图1所示，本发明的优选实施方式是：所述电视播放软件包括多种独立运行的电视播放软件，所述语音助手与当前活动的所述电视播放软件配合工作。具体实施过程如下：所述电视播放软件1为多种独立运行的电视播放软件，所述语音助手2与当前活动的所述电视播放软件1配合工作。若当前环境只有一个所述电视播放软件1运行，则所述语音助手2与当前的所述电视播放软件1配合工作，若当前***环境有多个所述电视播放软件1运行,则所述语音助手2通过当前***，比如安卓***，获取***环境中的当前的所述电视播放软件1，然后所述语音助手2与当前的所述电视播放软件1建立通信连接，进行相关工作。

如图2所示，本发明的优选实施方式是：还包括网络服务器3，所述语音助手2将采集的场景信息上传到所述网络服务器3，所述网络服务器3将所述场景信息与预先存储的信息进行匹配，将匹配的信息传送到所述语音助手2。若场景信息为“非诚勿扰”，所述网络服务器3预先存储有“非诚勿扰”的相关信息，比如，“非诚勿扰”的介绍信息、“非诚勿扰”的主持人相关信息，“非诚勿扰”的歌曲链接信息等信息，所述网络服务器3将“非诚勿扰”相关的这些信息传输到所述语音助手2，所述语音助手2将这些信息组织成信息列表，可以直接显示输出，供用户使用，包括查看、播放等操作；也可以传输到所述电视播放软件1，由所述电视播放软件1显示输出，供使用；还可以传输到移动终端，由移动终端显示输出，供使用。

如图1所示，本发明的具体实施方式是：构建一种基于电视场景元素及语音助手的语音交互辅助***，包括电视播放软件1、语音助手2，所述电视播放软件1与所述语音助手2独立运行，所述电视播放软件1包括采集场景信息的采集模块11、与所述语音助手进行通信的通信模块12、执行模块13，所述语音助手2包括获取所述电视播放软件1运行的场景信息的信息获取模块21、采集语音信息的语音采集模块22、进行语音识别转换的语音识别模块23、匹配模块24、传输模块25，所述信息获取模块21获取所述电视播放软件1运行的场景信息，所述场景信息包括场景元素信息；所述语音采集模块22采集语音信息，所述语音识别模块23对所述语音信息进行语音识别转换；所述匹配模块24将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件1运行的场景元素信息与所述语音识别结果在发音、文字、文字含义或者操作信息上相关，所述传输模块25将匹配的场景元素信息传送到所述电视播放软件1，所述执行模块13执行所述场景元素信息对应的项目。

如图1所示，本发明的具体实施过程是：所述信息获取模块21获取所述电视播放软件1运行的场景信息方式包括两种方式：一种方式是所述电视播放软件1后台采集自身运行的场景信息，这种信息采集方式全面、准确、快速，为首选方式。另外一种方式是：所述语音助手2通过所述电视播放软件1的预留接口采集所述电视播放软件1运行的场景信息，这种方式要根据预留接口的功能决定采集信息的程度。针对所述电视播放软件1采集的场景信息，由所述电视播放软件1传送到所述语音助手2完成场景信息的获取。针对所述语音助手2通过所述电视播放软件1的预留接口采集所述电视播放软件1运行的场景信息，其本身即是场景信息获取的过程。所述场景信息包括场景元素信息。所述场景元素信息包括运行详情界面呈现的可视信息，具体包括运行界面的文字信息、图片信息、视频信息名称等，运行详情界面的文字信息为最主要的信息。所述场景状态信息主要包括运行界面涉及的操作信息，比如：播放视频、播放音乐、操作游戏等相关运行信息。具体实施例中，根据这些信息，通常将采集的元素信息多转换为文字信息。

通过外部语音输入设备输入语音信息，所述语音采集模块22采集所述语音信息，然后语音识别模块23对所述语音信息进行语音识别转换。具体实施例中，语音识别转换结果包括文字信息，也可以涉及操作信息。比如：打开快乐大本营，则语音识别转换结果涉及操作信息，也包括文字信息。

所述匹配模块24将语音识别转换结果与获取的场景信息进行匹配，主要从各自己相关信息的发音、文字、文字含义或者操作信息进行匹配，所述场景元素信息包括场景元素信息的名称、场景元素信息所在的类型、场景元素信息所涉及的制作人员、场景元素信息涉及的内容信息中的一种或多种。所述相关信息上相同或相似包括在相关信息在发音、文字、文字含义、所属类型或操作信息上相同或相似，比如：当前场景元素信息为“快乐大本营”，从“快乐大本营”的发音、文字进行相同或相似匹配，也可以从其所属类型上进行匹配，如：“快乐大本营”为综艺节目，还可以从其主持人上进行信息的匹配，还可以从其所属电视台上进行信息匹配等。另一种方式是：匹配双方各自部分信息在发音、文字、文字含义、所属类型或操作信息上相同或相似。比如：当前场景元素信息为“快乐大本营”，可以取其部分信息“快乐”和“大本营”进行匹配，若语音识别结果中包括“快乐”或者“大本营”，则也可以将“快乐大本营”匹配为相关。匹配相关后，所述传输模块25将匹配的场景元素信息传送到所述电视播放软件1，由所述执行模块13执行所述场景元素信息对应的项目。比如场景元素信息中有显示“快乐大本营”的节目，匹配相关后，所述语音助手2将“快乐大本营”信息传输到所述电视播放软件1，所述执行模块13执行该“快乐大本营”的节目，执行结果包括选择、点击等操作。

如图1所示，本发明的优选实施方式是：所述电视播放软件1包括多种独立运行的电视播放软件，所述语音助手与当前活动的所述电视播放软件配合工作。具体实施过程如下：所述电视播放软件1为多种独立运行的电视播放软件，所述语音助手2与当前活动的所述电视播放软件1配合工作。若当前环境只有一个所述电视播放软件1运行，则所述语音助手2与当前的所述电视播放软件1配合工作，若当前***环境有多个所述电视播放软件1运行,则所述语音助手2通过当前***，比如安卓***，获取***环境中的当前的所述电视播放软件1，然后所述语音助手2与当前的所述电视播放软件1建立通信连接，进行相关工作。

如图2所示，本发明的优选实施方式是：还包括网络服务器3，所述语音助手2将采集的场景信息上传到所述网络服务器3，所述网络服务器3将所述场景信息与预先存储的信息进行匹配，将匹配的信息传送到所述语音助手2。若场景信息为“非诚勿扰”，所述网络服务器3预先存储有“非诚勿扰”的相关信息，比如，“非诚勿扰”的介绍信息、“非诚勿扰”的主持人相关信息，“非诚勿扰”的歌曲链接信息等信息，所述网络服务器3将“非诚勿扰”相关的这些信息传输到所述语音助手2，所述语音助手2将这些信息组织成信息列表，由第二信息输出模块26直接显示输出，供用户使用，包括查看、播放等操作；也可以传输到所述电视播放软件1，由所述第一信息输出模块14显示输出，供使用；还可以传输到移动终端，由移动终端显示输出，供使用。

本发明的技术效果是：构建一种基于电视场景元素及语音助手的语音交互辅助方法及***，包括电视播放软件1、语音助手2，所述电视播放软件1与所述语音助手2独立运行，所述语音助手2获取所述电视播放软件1运行的场景信息，所述场景信息包括场景元素信息；所述语音助手2采集语音信息，所述语音助手2对所述语音信息进行语音识别转换；所述语音助手2将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件1运行的场景元素信息与所述语音识别结果在发音、文字、文字含义或者操作信息上相关，由所述语音助手2将匹配的场景元素信息传送到所述电视播放软件1，由所述电视播放软件1执行所述场景元素信息对应的项目。本发明基于电视场景及语音助手2的语音交互辅助方法及***，所述电视播放软件1与所述语音助手2独立运行，所述语音助手2获取所述电视播放软件1运行的场景信息，所述语音助手2将语音识别转换结果与获取的场景信息进行匹配，然后对于匹配的场景信息，根据场景元素信息和场景状态信息和语音信息，由电视播放软件1进行操作执行。本发明基于电视场景及语音助手2的语音交互辅助方法及***，根据电视的实时场景信息进行对其进行操作和使用，使语音电视真正迈向智能化，同时，与电视播放软件1分开独立运行，可以一个语音助手2与多个电视播放软件1配合使用，大大节约***资源。另外，方便对语音引擎进行更新和创新，促进语音技术在智能化方面的发展。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于电视场景元素及语音助手的语音交互辅助方法，包括电视播放软件、语音助手，所述电视播放软件与所述语音助手独立运行，所述电视播放软件和所述语音助手通过所述电视播放软件的预留接口建立通信连接或者所述电视播放软件和所述语音助手通过专有协议建立通信连接，其特征在于，语音交互辅助方法包括如下步骤：

获取场景信息：所述语音助手获取所述电视播放软件运行的场景信息，所述场景信息包括场景元素信息；所述语音助手获取所述电视播放软件运行的场景信息方式包括两种方式：一种方式是所述电视播放软件后台采集自身运行的场景信息，另外一种方式是：所述语音助手通过所述电视播放软件的预留接口采集所述电视播放软件运行的场景信息；所述场景元素信息包括运行详情界面呈现的可视信息；

2.根据权利要求1所述基于电视场景元素及语音助手的语音交互辅助方法，其特征在于，所述电视播放软件包括多种独立运行的电视播放软件，所述语音助手与当前活动的所述电视播放软件配合工作。

3.根据权利要求1所述基于电视场景元素及语音助手的语音交互辅助方法，其特征在于，还包括网络服务器，所述语音助手将采集的场景信息上传到所述网络服务器，所述网络服务器将所述场景信息与预先存储的信息进行匹配，将匹配的信息传送到所述语音助手。

4.根据权利要求1所述基于电视场景元素及语音助手的语音交互辅助方法，其特征在于，所述相关信息上相同或相似包括在相关信息在发音、文字、文字含义、所属类型或操作信息上相同或相似，或者匹配双方各自部分信息在发音、文字、文字含义、所属类型或操作信息上相同或相似。

5.一种基于电视场景元素及语音助手的语音交互辅助***，其特征在于，包括电视播放软件、语音助手，所述电视播放软件与所述语音助手独立运行，所述电视播放软件和所述语音助手通过所述电视播放软件的预留接口建立通信连接或者所述电视播放软件和所述语音助手通过专有协议建立通信连接，所述电视播放软件包括采集场景信息的采集模块、与所述语音助手进行通信的通信模块、执行模块，所述语音助手包括获取所述电视播放软件运行的场景信息的信息获取模块、采集语音信息的语音采集模块、进行语音识别转换的语音识别模块、匹配模块、传输模块，所述信息获取模块获取所述电视播放软件运行的场景信息，所述场景信息包括场景元素信息；所述语音采集模块采集语音信息，所述语音识别模块对所述语音信息进行语音识别转换；所述匹配模块将语音识别转换结果与获取的场景信息进行匹配；若所述电视播放软件运行的场景元素信息与所述语音识别结果在相关信息上相同或相似，所述传输模块将匹配的场景元素信息传送到所述电视播放软件，所述执行模块执行所述场景元素信息对应的项目，所述语音助手获取所述电视播放软件运行的场景信息方式包括两种方式：一种方式是所述电视播放软件后台采集自身运行的场景信息，另外一种方式是：所述语音助手通过所述电视播放软件的预留接口采集所述电视播放软件运行的场景信息；所述场景元素信息包括运行详情界面呈现的可视信息。

6.根据权利要求5基于电视场景元素及语音助手的语音交互辅助***，其特征在于，所述电视播放软件包括多种独立运行的电视播放软件，所述语音助手与当前活动的所述电视播放软件配合工作。

7.根据权利要求5基于电视场景元素及语音助手的语音交互辅助***，其特征在于，还包括网络服务器，所述语音助手将采集的场景信息上传到所述网络服务器，所述网络服务器将所述场景信息与预先存储的信息进行匹配，将匹配的信息传送到所述语音助手。

8.根据权利要求7基于电视场景元素及语音助手的语音交互辅助***，其特征在于，所述电视播放软件包括第一信息输出模块或者所述语音助手包括第二信息输出模块。