CN104681023A

CN104681023A - 一种信息处理方法及电子设备

Info

Publication number: CN104681023A
Application number: CN201510082818.7A
Authority: CN
Inventors: 刘名; 陈剑峰
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2015-02-15
Filing date: 2015-02-15
Publication date: 2015-06-03
Also published as: US9928834B2; US20160240195A1

Abstract

本发明公开了一种信息处理方法及电子设备，所述电子设备具有语音输入输出单元，所述方法包括：检测获得一语言信息；识别所述语音信息，获得所述语音信息中的至少一个语音特征；基于所述语音信息，生成一语音操作指令；基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；根据所述呈现结果呈现所述多媒体数据。

Description

一种信息处理方法及电子设备

技术领域

本发明涉及电子技术领域，特别涉及一种信息处理方法及电子设备。

背景技术

随着科学技术的不断发展，越来越来的电子设备加入了语音功能，例如：某些多媒体互动设备，可以根据的用户的语音信息，回答用户的提出的相关问题；或者可以根据用户的语音指令，打开相应的电影、音乐、或者网页等应用程序。

现有技术中，在电子设备根据用户的语音信息，回答用户提出的相关问题时，回复的语音都是同一个语调，而在使用语音功能打开相应的应用程序时，应用程序的开启可以根据语音信息控制，但是应用程序中所呈现的内容不能根据用户输入的语音信息的不同，而发生改变。

本申请发明人在实现本申请实施例中技术方案的过程中，发现现有技术存在如下技术问题：

由于现有技术中，电子设备与用户通过语音互动时，电子设备的语音回复信息都是同一声调、同一语速，导致部分用户因为年龄、习惯等原因，在与电子设备通过语音互动交流时，效果不佳，例如：听不清电子设备的语音答复，或者电子设备的语音答复并不能满足用户的体验要求，又或者语音答复的声调、语速没有感情色彩令用户厌烦等，进而导致用户体验差，交互效果欠佳，可见，现有技术中存在着电子设备不能根据用户需要的语音特征，输出相应的语音回复信息的技术问题。

由于现有技术中，电子设备通过控制语音信息控制打开应用程序之后，应用程序所呈现的内容都是预定的，例如：如果用户是通过中文的语音信息打开了一个电影，而电影初始时的音轨和字幕都是英文的，那么用户还要自己去重新设置中文音轨和字幕，导致用户的体验欠佳，可见现有技术中存在着电子设备不能根据用户语音特征，自动控制应用程序设置当前呈现结果的技术问题。

发明内容

本申请实施例提供一种信息处理方法及电子设备，用于解决现有技术中不能根据用户需要的语音特征，输出相应的语音回复信息的技术问题，进而实现根据用户的语音的特征生成相应的语音回复的技术效果。

一方面，本申请提供一种信息处理方法，应用于电子设备中，所述电子设备具有语音输入输出单元，所述方法包括：检测获得一语言信息；识别所述语音信息，获得所述语音信息中的至少一个语音特征；基于所述语音信息，生成一语音操作指令；基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；根据所述呈现结果呈现所述多媒体数据。

可选的，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：基于所述语音信息，确定出所述语音信息的第一输入用户。

可选的，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。

可选的，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：基于所述语音信息，确定出输入所述语音信息的第一用户的年龄特征。

可选的，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式。

可选的，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容；将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式。

可选的，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：基于所述语音信息，确定出输入所述语音信息的第一用户的性别特征。

可选的，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式。

可选的，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户。

可选的，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：基于所述语音信息，确定出所述语音信息的语言种类。

可选的，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体为：基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件。

可选的，所述基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件，具体为：基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。

可选的，所述基于所述语音操作指令，获得一语音文件和/或字幕文件，具体包括：在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；或在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；或在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件。

另一方面，本申请提供一种电子设备，所述电子设备具有语音输入输出单元，所述电子设备具体包括：语音信息检测单元，用于检测获得一语言信息；处理单元，用于识别所述语音信息，获得所述语音信息中的至少一个语音特征；基于所述语音信息，生成一语音操作指令；基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；多媒体数据输出单元，用于根据所述呈现结果呈现所述多媒体数据。

可选的，所述处理单元，具体用于基于所述语音信息，确定出所述语音信息的第一输入用户。

可选的，所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。

可选的，所述处理单元，具体用于基于所述语音信息，确定出输入所述语音信息的第一用户的年龄特征。

可选的，所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式。

可选的，所述处理单元，具体用于基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容；将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式。

可选的，所述处理单元，具体用于基于所述语音信息，确定出输入所述语音信息的第一用户的性别特征。

可选的，所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式。

可选的，所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户。

可选的，所述处理单元，具体用于基于所述语音信息，确定出所述语音信息的语言种类。

可选的，所述处理单元，具体用于基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件。

可选的，所述处理单元，具体用于基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。

可选的，所述处理单元，具体用于在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；或在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；或在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果和优点：

由于本申请实施例中的技术方案，可以识别出用户的语音特征，并且根据识别出的语音特征，为用户生成个性化的呈现效果，相较于现有技术中，电子设备只能生成一种较为固定的呈现效果，导致用户在使用电子设备时，体验感很差，交互效果欠佳的技术方案，能够有效解决现有技术中存在着不能根据用户需要的语音特征，输出相应的语音回复信息的技术问题，进而实现根据用户的语音的特征生成相应的语音回复的技术效果。

由于本申请实施例中的技术方案，可以识别出用户的语音特征，并且根据识别出的语音特征，生成相应的内容，相较于现有技术中，电子设备只能基于语音指令生成特定的内容的技术方案，能够有效解决现有技术中存在着电子设备不能根据用户语音特征，自动控制应用程序设置当前呈现结果的技术问题，进而实现根据识别出的语音特征，自动控制电子设备设置当前呈现结果的技术效果。

附图说明

图1为本申请实施例中一种信息处理方法的流程图；

图2为本申请实施例一种信息处理方法中步骤104的第一种具体实现流程图；

图3为本申请实施例一种信息处理方法中步骤104的第二种具体实现中的第一种情况的流程图；

图4为本申请实施例一种信息处理方法中步骤104的第二种具体实现中的第二种情况的流程图；

图5为本申请实施例一种信息处理方法中步骤104的第三种具体实现中的第一种情况的流程图；

图6为本申请实施例一种信息处理方法中步骤104的第三种具体实现中的第二种情况的流程图；

图7为本申请实施例一种信息处理方法中步骤102的具体实现方式；

图8为本申请实施例一种信息处理方法中步骤104的第四种具体实现流程图；

图9为本申请实施例中一种电子设备的结构图。

具体实施方式

本申请实施例中的技术方案为解决上述的技术问题，总体思路如下：一种信息处理方法，应用于电子设备中，所述电子设备具有语音输入输出单元，所述方法包括：检测获得一语言信息；识别所述语音信息，获得所述语音信息中的至少一个语音特征；基于所述语音信息，生成一语音操作指令；基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；根据所述呈现结果呈现所述多媒体数据。

在上述的技术方案中，由于本申请实施例中的技术方案，可以识别出用户的语音特征，并且根据识别出的语音特征，为用户生成个性化的呈现效果，相较于现有技术中，电子设备只能生成一种较为固定的呈现效果，导致用户在使用电子设备时，体验感很差，交互效果欠佳的技术方案，能够有效解决现有技术中存在着不能根据用户需要的语音特征，输出相应的语音回复信息的技术问题，进而实现根据用户的语音的特征生成相应的语音回复的技术效果。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

为了让本领域技术人员能够清楚完整地了解本申请实施例中的技术方案，在下面的具体描述中，将以电子设备为多媒体互动设备为例进行说明，下面结合例子，介绍本申请实施例中方法的具体实现过程：

请参考图1，本申请的实施例一提供一种信息处理方法的具体实现过程进行描述。该方法包括如下步骤：

S101：检测获得一语言信息；

S102：识别所述语音信息，获得所述语音信息中的至少一个语音特征；

S103：基于所述语音信息，生成一语音操作指令；

S104：基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；

S105：根据所述呈现结果呈现所述多媒体数据。

进一步的，请参考图2，在所述至少一个语音特征具体为所述语音信息的第一输入用户时，在步骤S104具体实现的过程中，具体包括：

S301：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；

S302：将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。

进一步的，请参考图3，在所述至少一个语音特征具体为输入所述语音信息的第一用户的年龄特征时，在步骤S104具体实现的过程中，具体包括：

S501：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；

S502：将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式。

进一步的，请参考图4，在所述至少一个语音特征具体为输入所述语音信息的第一用户的年龄特征时，在步骤S104具体实现的过程中，具体包括：

S601：基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容；

S602：将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式。

进一步的，请参考图5，在所述至少一个语音特征具体为输入所述语音信息的第一用户的性别特征时，在步骤S104具体实现的过程中，具体包括：

S801：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；

S802：将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式。

进一步的，请参考图6，在所述至少一个语音特征具体为输入所述语音信息的第一用户的性别特征时，在步骤S104具体实现的过程中，具体包括：

S901：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；

S902：将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户。

进一步的，请参考图7，在所述至少一个语音特征具体为所述语音信息的语言种类时，在步骤S104具体实现的过程中，具体执行步骤S1201：基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。

进一步的，请参考图8，在步骤S1201具体执行的过程中，具体包括：

S1301：在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；或

S1302：在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；或

S1303：在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件。

下面通过具体的例子，描述本申请实施例中信息处理方法的具体实现过程：

在用户A的家庭中有一种多媒体交互式的电子设备，该电子设备类似于互动平板电视，可以根据用户A以及其他人进行语音指令，与其进行互动，由于此时的情况有很多种，下面将详细描述：

第一种实现方式，具体当用户A发出一个语音指令之后，例如：用户A是这个家庭中的男主人，他向电子设备问了一句话：“今天的天气怎么样？”电子设备将执行步骤S101：检测获得一语言信息，继续上面的例子具体来说，电子设备通过设置在内部的音频采集器采集到上述的语音信息。在步骤S101完成之后，执行步骤S102：识别所述语音信息，获得所述语音信息中的至少一个语音特征；具体的，电子设备将执行步骤：基于所述语音信息，确定出所述语音信息的第一输入用户，继续上面的例子具体来说，此时电子设备会识别出这个语音信息的发出人是来自于这个家庭中的男主人用户A，具体的识别方式可以为首先将家庭中的各个用户声音录入到服务器中，并且分析出每个家庭用户的声音的音频，声波特点的信息，并且根据这些特征识别出发出语音信息的人是来自这个家庭中的男主人，当然更为具体的分析过程并不限定，本领域人员可以根据实际的情况进行实行不同的方法。

在步骤S102完成之后，执行步骤S103：基于所述语音信息，生成一语音操作指令；继续上面的例子具体来说，电子设备中的处理单元根据用户A输出的语音生成了一个从网络上查询并且下载天气信息的指令。

在步骤S103完成之后，执行步骤S104：基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，此时电子设备首先执行步骤S301：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；继续上面的例子具体来说，此时，电子设备根据之前获得的天气信息，生成了一天语音回复，例如：“北京今天0到13摄氏度，北风4到5级”。

在步骤S301完成之后，执行步骤S302：将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。继续上面的例子具体来说，由于电子设备识别出是由这个家庭中的男主人用户A提出的问题，就将这个语音回复信息的语音通过模仿这个家庭中的女主人用户B来输出，当然，如果识别出提问的是一个陌生的来客的声音，可以统一设置为用户A的声音或者其他的声音，在这里不作具体的限定；此外，除了生成一个语音回复信息，电子设备还会根据识别出的用户为此用户特别推荐一些信息，例如：用户A在此之前收看了一些足球的比赛，那么电子设备还会为用户推荐一些有关于足球的新闻。

在步骤S104完成之后，执行步骤S105：根据所述呈现结果呈现所述多媒体数据。继续上面的例子具体来说，电子设备中将这个语音回复信息输出来，这样男主人用户A问一个问题，电子设备就模拟女主人用户B来回答，极大的提高了交互的体验效果。

第二种实现方式，除了可以识别用户是否属于这个家庭的用户的方式，电子设备还可以通过识别用户的语音中的年龄特征来生成回复信息。具体为：如果此时用户A是30岁，用户B是6岁，用户C是55岁，假设，用户B向电子设备说：“电影院怎么走？”电子设备首先执行步骤S101：检测获得一语言信息；即，电子设备通过语音采集单元采集到上述语音信息。

在步骤S101完成之后，执行步骤S102：识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体的，电子设备将执行步骤：基于所述语音信息，确定出输入所述语音信息的第一用户的年龄特征，继续上面的例子具体来说，电子设备识别出发出这个语音信息的用户是一个6岁小孩，具体的识别方法可以通过提取语音中的音调、音频等信息，利用语音处理的相关技术识别出来，当然也可以通过采集多个年龄层的用户，通过自学习的方式识别出发出语音信号的用户是哪个年龄的，具体的识别方式在这里并不作限定。

在步骤S102完成之后，执行步骤S103：基于所述语音信息，生成一语音操作指令，继续上面的例子具体来说，通过语音识别，可以获得上述语音信息具体是用户询问电影院路线的信息，电子设备就生成一个查询电影院路线的操作指令。

在步骤S103完成之后，执行步骤S104，即首先执行步骤S501：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容，继续上面的例子，具体来说，由于上面的语音信息是询问电影院路线，那么电子设备就会生成一个回答上述语音的语音回复信息。

在步骤S501完成之后，执行步骤S502：将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式，继续上面的例子具体来说，由于识别出的发出语音的信息的用户的年龄是6岁的小孩，那么在电子设备做出回答的时候，就会将语音回复信息语速设置为慢速，以便使小孩子可以完完整整的听清楚；当然，如果判断出发出语音信息的是类似于用户C的老人，那么电子设备在回复语音信息时，就会适当的调整语音回复信息的音量，以便老年用户的可以较为清楚的听到语音回复信息；此外，除了生成相应的语音回复信息，电子设备还可以通过其他形式来回答用户的提问，例如在识别出询问问题的用户是一个6岁的小孩子，电子设备可以将语音回复信息通过一段动画的方式展示出来，这样用户可以很深刻的了解到这个语音回复信息中的内容，同时这样的交互方式也更为有趣。

当然，为了更好的提升用户的使用体验，还可以在执行完步骤S103之后，执行步骤S601：基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容，继续上面的例子具体来说，根据上述的关于电影院路线的问题，电子设备生成一条具体行走路线的提示信息，比如：“首先，在第一个路口左转，然后，在第二个路口向右走100米”。

在步骤S601完成之后，执行步骤S602：将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式，继续上面的例子具体来说，由于识别出的发出上述语音信息的用户的年龄是一个6岁的小孩，那么这时可以将字幕的字体变大一点，同时还可以将这个字幕变成彩色的，以便吸引用户B的注意；当然如果识别出的发出上述语音信息的用户的年龄是类似于用户C的老年人，那么可以将字幕适当的调节成大的粗体字，以便老人们可以看清，具体的方式在这里不作限定；此外，除了生成上述的字幕提示信息，还可以生成一些带有标记性的建筑，例如：如果识别出的用户是小孩子，可以在生成路线信息的同时，提示用户在终点的附件还有哪些甜品店，如果识别出的用户是老人，可以在生成路线的同时，提示用户在终点附近有哪些老建筑等。

无论在步骤S502还是在步骤S602完成之后，执行步骤S105：根据所述呈现结果呈现所述多媒体数据，继续上面的例子具体来说，通过上述的多媒体互动的电子设备将上述的效果呈现出来。

第三种实现方式，除了可以通过识别用户的语音中的年龄特征来生成回复信息的方式，电子设备还可以通过识别用户的语音中的性别特征来生成回复信息。具体为：假设用户A是男性，而用户B是女性。此时，用户向电子设备说：“今晚的电视节目有什么？”此时，电子设备将执行步骤S101：检测获得一语言信息，继续上面的例子具体来说，电子设备通过语音采集单元获得上述的语音信息。

在步骤S101完成之后，执行步骤S102：识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体的，电子设备将执行步骤：基于所述语音信息，确定出输入所述语音信息的第一用户的性别特征，继续上面的例子具体来说，电子设备可以通过语音识别的相关技术识别出上述的语言信息是由一位男性用户发出的，具体的识别方式可以是通过提取语音信息中的一些特征，例如：音高、音频等特征，检测出输入上述语音信息的用户是男性还是女性，当然，更为具体的实现方式在本申请中并不限定。

在步骤S102完成之后，执行步骤S103：基于所述语音信息，生成一语音操作指令；由于上述的语音问题是关于询问当天的电视节目的，那么生成一个查询电视节目的指令。

在步骤S103完成之后，执行步骤S104，即首先执行步骤S801：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容，继续上面的例子具体来说，此时，根据上述指令，电子设备将生成一个语音指令，例如：“19：00新闻联播；19：00天下足球”。

在步骤S801完成之后，执行步骤S802：将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式，继续上面的例子具体来说，在上述的步骤中判断出了输入的语音信息的用户是男性，那么，电子设备可以将语音回复信息设置为一个男性用户喜欢的音色，例如类似于女生，或者也可以设置为类似的男生的声音。

当然，当电子设备检测出语音信息的是男生之后，也可以执行步骤S901：基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容，继续上面的例子具体来说，基于上述的语音信息直接生成一个语音回复信息，当然，除了语音回复信息之外，还可以生成一些其他的信息，例如图片或者视频等，在这里不作限定。

在步骤S901完成之后，执行步骤S902：将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户，继续上面的例子具体来说，当电子设备检测到输入上述语音信息的用户是男性之后，可以将语音回复信息的输出声音设置为一个女星的名字，或者是这个男性用户喜欢的男星的声音，当然也可以搭配一些明星的图片或者是视频。

无论是在步骤S802还是步骤S902之后，电子设备将执行步骤S105：根据所述呈现结果呈现所述多媒体数据，继续上面的例子具体来说，将上述的呈现效果通过上述的电子设备呈现出来。

第四种实现方式，除了可以通过识别用户的语音中的性别特征来生成回复信息的方式，电子设备还可以通过识别用户的语音的语种特征来生成回复信息。具体为：假设用户A中国人，可以流利的讲普通话，此时，用户向电子设备发出语音信息：“打开电影，阿凡达”当然，具体的语音信息有很多种，例如：“打开浮夸这首歌”、“打开新浪首页”等，那么电子设备将执行步骤S101：检测获得一语言信息，继续上面的例子具体来说，电子设备通过设置在内部的音频采集器采集到上述的语音信息。

在步骤S101完成之后，执行步骤S102：识别所述语音信息，获得所述语音信息中的至少一个语音特征；具体的，电子设备将执行步骤：基于所述语音信息，确定出所述语音信息的语言种类，继续上面的例子具体来说，此时电子设备识别出用户A的语音信息是中文的，具体的识别方式可以为通过提取用户的发生特征，以及一些单词的发音特征，通过这些特征完成对语音信息中语种的识别。

在步骤S102完成之后，执行步骤S103：基于所述语音信息，生成一语音操作指令；继续上面的例子具体来说，电子设备中的处理单元根据用户A输出的语音生成了一个打开电影的指令，当然具体的指令会根据用户输入的信息的不同而生成不同的指令，在这里不作具体的限定。

在步骤S103完成之后，执行步骤S104：基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体的，电子设备将执行步骤：基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件，更为具体的，此时电子设备具体执行步骤S1201：基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。继续上面的例子具体来说，电子设备可以根据输入语音信息的用户所说的语种，生成与之相匹配的文件，具体的实现方式由于输入的语音信息是不同的，那么具体执行的过程也是不同的。

在语音指令具体为用于开启视频的操作指令时，类似于“打开电影，阿凡达”，电子设备将执行步骤S1301：在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；继续上面的例子具体来说，电子设备会在网络上找到“阿凡达”电影，同时加载电影的音轨文件和电影字幕文件，由于电子设备已经识别出了语音信息的语种是中文，那么电子设备就会自动加载中文的音轨和简体中文的字幕。当然，如果电子设备识别出的语种是英语，那么电子设备就会自动加载英语的音轨和英语的字幕，特殊的当识别的出的语种例如是乌克兰的语音，而电子设备没有发现有与上述语种匹配的音轨文件和字幕文件，那么电子设备就会自动加载一个全球通用的音轨文件和字幕文件例如：英语的音轨文件和字幕文件。或者根据乌克兰语属于东欧的语系，进而加载在东欧非常流行的俄语音轨和俄语字幕。

在语音指令具体为用于开启音乐的操作指令时，类似于“打开浮夸这首歌”，电子设备将执行步骤S1302：在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；继续上面的例子具体来说，电子设备会在网络上找到“浮夸”这首歌，同时加载这首歌的歌词，由于电子设备已经识别出了语音信息的语种是中文，那么电子设备就会简体中文的歌词，当然，如果电子设备识别出的语种是英语，那么电子设备就会自动加载英语的歌词，如果识别出的语种是广东话，那么电子设备就会自动加载粤语的歌词，如果用户要求打开的是一个纯音乐的音乐文件，那么电子设备将自动加载一段介绍这首音乐的文字，当然，具体的文字也会根据用户的语种而作相应的改变。

在语音指令具体为用于打开网页的操作指令时，类似于“打开新浪首页”，电子设备将执行步骤S1303：在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件，继续上面的例子具体来说，电子设备会直接打开新浪的首页，由于电子设备已经识别出了语音信息的语种是中文，那么电子设备就会自动的将新浪网页上的文件设置为简体中文。当然，如果电子设备识别出的语种是英语，那么电子设备将会自动将网页上的文字设置为英文的文字，即加载了一个英文的文字，如果电子设备识别出的语种是广东话，那么电子设备将会自动将网页上的文字设置为繁体中文。当然不仅限于以上三种情况，电子设备还可以根据上述的语种，加载一些与这些语种相关的新闻或者是其他娱乐信息。

在步骤S1301或者步骤S1302或者S1303完成之后，执行步骤S105：根据所述呈现结果呈现所述多媒体数据，继续上面的例子具体来说，多媒体互动设备将上述的视频或者音乐或者网页或者其他的信息呈现出来。

实施例二

请参考图9，本申请实施例中，基于同一个发明构思还提供一种电子设备，所述电子设备具有语音输入输出单元，所述电子设备具体包括：

语音信息检测单元10，用于检测获得一语言信息；

处理单元20，用于识别所述语音信息，获得所述语音信息中的至少一个语音特征；基于所述语音信息，生成一语音操作指令；基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；

多媒体数据输出单元30，用于根据所述呈现结果呈现所述多媒体数据。

可选的，处理单元20，具体用于基于所述语音信息，确定出所述语音信息的第一输入用户。

可选的，处理单元20，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。

可选的，处理单元20，具体用于基于所述语音信息，确定出输入所述语音信息的第一用户的年龄特征。

可选的，处理单元20，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式。

可选的，处理单元20，具体用于基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容；将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式。

可选的，处理单元20，具体用于基于所述语音信息，确定出输入所述语音信息的第一用户的性别特征。

可选的，处理单元20，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式。

可选的，处理单元20，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户。

可选的，处理单元20，具体用于基于所述语音信息，确定出所述语音信息的语言种类。

可选的，处理单元20，具体用于基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件。

可选的，处理单元20，具体用于基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。

可选的，处理单元20，具体用于在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；或在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；或在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件。

由于上述的电子设备与前述的一种信息处理方法一一对应，所以在此就不再赘述。

通过本申请实施例中的一个或多个技术方案，可以实现如下一个或多个技术效果：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

具体来讲，本申请实施例中的一种信息处理方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种信息处理方法对应的计算机程序指令被一电子设备读取或被执行时，包括如下步骤：

检测获得一语言信息；

识别所述语音信息，获得所述语音信息中的至少一个语音特征；

基于所述语音信息，生成一语音操作指令；

基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；

根据所述呈现结果呈现所述多媒体数据。

可选的，所述存储介质中存储的与步骤：识别所述语音信息，获得所述语音信息中的至少一个语音特征，对应的计算机指令在具体被执行过程中，具体包括如下步骤：

基于所述语音信息，确定出所述语音信息的第一输入用户。

可选的，所述存储介质中存储的与步骤：基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，对应的计算机指令在具体被执行过程中，具体包括如下步骤：

基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；

将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。

基于所述语音信息，确定出输入所述语音信息的第一用户的年龄特征。

将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式。

基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容；

将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式。

基于所述语音信息，确定出输入所述语音信息的第一用户的性别特征。

将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式。

将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户。

基于所述语音信息，确定出所述语音信息的语言种类。

基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件。

可选的，所述存储介质中存储的与步骤：基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件，对应的计算机指令在具体被执行过程中，具体包括如下步骤：

基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。

可选的，所述存储介质中存储的与步骤：基于所述语音操作指令，获得一语音文件和/或字幕文件，对应的计算机指令在具体被执行过程中，具体包括如下步骤：

在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；或

在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；或

在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，应用于一电子设备，所述电子设备具有语音输入输出单元，所述方法包括：

检测获得一语言信息；

基于所述语音信息，生成一语音操作指令；

根据所述呈现结果呈现所述多媒体数据。

2.如权利要求1所述的方法，其特征在于，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：

基于所述语音信息，确定出所述语音信息的第一输入用户。

3.如权利要求2所述的方法，其特征在于，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：

4.如权利要求1所述的方法，其特征在于，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：

5.如权利要求4所述的方法，其特征在于，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：

6.如权利要求4所述的方法，其特征在于，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：

7.如权利要求1所述的方法，其特征在于，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：

8.如权利要求7所述的方法，其特征在于，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：

9.如权利要求7所述的方法，其特征在于，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体包括：

10.如权利要求1所述的方法，其特征在于，所述识别所述语音信息，获得所述语音信息中的至少一个语音特征，具体为：

基于所述语音信息，确定出所述语音信息的语言种类。

11.如权利要求10所述的方法，其特征在于，所述基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，具体为：

12.如权利要求11所述的方法，其特征在于，所述基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件，具体为：

13.如权利要求12所述的方法，其特征在于，所述基于所述语音操作指令，获得一语音文件和/或字幕文件，具体包括：

14.一种电子设备，所述电子设备具有语音输入输出单元，所述电子设备具体包括：

语音信息检测单元，用于检测获得一语言信息；

处理单元，用于识别所述语音信息，获得所述语音信息中的至少一个语音特征；基于所述语音信息，生成一语音操作指令；基于所述至少一个语音特征和所述语音操作指令，确定出一多媒体数据的呈现结果，其中，所述呈现结果包括所述多媒体数据的呈现内容与所述呈现内容的呈现形式，所述呈现结果匹配于所述语音特征；

多媒体数据输出单元，用于根据所述呈现结果呈现所述多媒体数据。

15.如权利要求14所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音信息，确定出所述语音信息的第一输入用户。

16.如权利要求15所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的第一输出用户设置为所述第一输入用户，或设置为与所述第一输入用户对应的第二输入用户，所述第一输入用户或所述第二输入用户即为所述呈现形式。

17.如权利要求14所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音信息，确定出输入所述语音信息的第一用户的年龄特征。

18.如权利要求17所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的语音速度设置为与所述年龄特征对应的第一语音速度，所述第一语音速度即为所述呈现形式。

19.如权利要求17所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音操作指令，生成一字幕信息，所述字幕信息即为所述呈现内容；将所述字幕信息的字幕显示参数设置为与所述年龄特征对应的第一字幕显示参数，所述第一字幕显示参数即为所述呈现形式。

20.如权利要求14所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音信息，确定出输入所述语音信息的第一用户的性别特征。

21.如权利要求20所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息中的音色设置为与所述性别特征对应的第一音色，所述第一音色即为所述呈现形式。

22.如权利要求20所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音操作指令，生成一语音回复信息，所述语音回复信息即为所述呈现内容；将所述语音回复信息对应的第一输出用户设置为与所述性别特征对应的预设输出用户。

23.如权利要求14所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音信息，确定出所述语音信息的语言种类。

24.如权利要求23所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语言种类，以及所述语音操作指令，确定出与所述语言种类相匹配的适配文件。

25.如权利要求24所述的电子设备，其特征在于，

所述处理单元，具体用于基于所述语音操作指令，获得一语音文件和/或字幕文件，其中，所述语音文件和/或所述字幕文件为所述呈现内容，所述语音文件和/或所述字幕文件与所述语言种类相匹配。

26.如权利要求25所述的电子设备，其特征在于，

所述处理单元，具体用于在所述语音操作指令具体为用于开启一视频的第一语音操作指令时，获得所述视频的视频语音文件和/或视频字幕文件；或在所述语音操作指令具体为用于开启一音乐的第二语音操作指令时，获得所述音乐的音乐字幕文件；或在所述语音操作指令具体为用于开启一网页的第三语音操作指令时，获得所述网页的网页字幕文件。