CN105654950A

CN105654950A - 自适应语音反馈方法和装置

Info

Publication number: CN105654950A
Application number: CN201610060206.2A
Authority: CN
Inventors: 李丰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2016-06-08
Anticipated expiration: 2036-01-28
Also published as: CN105654950B

Abstract

本申请公开了自适应语音反馈方法和装置。所述方法的一具体实施方式包括：获取输入信息；识别所述输入信息的场景信息；解析所述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，所述交流方式信息包括语言类别信息；根据所述用户情绪信息、所述语言类别信息、所述主题内容信息中的至少一项和所述场景信息生成用户属性标签；将所述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈。该实施方式实现了自适应反馈语音，提高了语音反馈的针对性和有效性。

Description

自适应语音反馈方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及自适应语音反馈方法和装置。

背景技术

随着计算机技术尤其是互联网技术的发展，终端设备的客户端应用的功能越来越多样化。语音助手是一类可以通过语音交互来实现或替代部分我们在手机上的查询与操作的应用，当然，实现语音助手功能的还包括具有语音助手功能的应用或者具有语音助手功能的网站。通过此类应用或网站，可以大大提高操作终端设备的便利性。然而，现有的上述应用或网站与人的交互还仅仅停留在如何正确的理解人的语音输入，并尽快给予回答问题，执行某些操作(如查询、展示、应用操作等)，功能较为单一，针对性不强。

发明内容

本申请的目的在于提出一种改进的自适应语音反馈方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种自适应语音反馈方法，所述方法包括：获取输入信息；识别所述输入信息的场景信息；解析所述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，所述交流方式信息包括语言类别信息；根据所述用户情绪信息、所述语言类别信息、所述主题内容信息中的至少一项和所述场景信息生成用户属性标签；将所述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈。

在一些实施例中，所述交流方式信息还包括：语速信息、组句方式信息或昵语类别信息；以及，所述使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈包括：根据所述语速信息、所述组句方式信息或所述昵语类别信息调整所述语音反馈样式；使用经过调整的语音反馈样式进行反馈。

在一些实施例中，所述根据所述语速信息、所述组句方式信息或所述昵语类别信息在调整所述语音反馈样式包括：将所述语音反馈样式的语速调整到与所述语速信息对应的语速；将所述语音反馈样式的组句方式调整到与所述组句方式信息一致；获取预先建立的与所述昵语类别信息一致的昵语集合，其中，所述昵语集合包括正常用语和与所述正常用语对应的昵语；将所述语音反馈样式中的词句与所述昵语集合中的正常用语进行比对；如果所述词句与所述正常用语相同，则用与所述正常用语对应的昵语替换所述词句。

在一些实施例中，所述输入信息包括：语音信息和/或视频信息；以及，解析所述输入信息得到用户情绪信息包括：解析所述语音信息得到语速信息、语调信息或频谱信息中的至少一项；将所述语速信息、语调信息与语速阈值、语调阈值进行比较，得到语音情绪结果；解析所述视频信息得到视频情绪结果；基于所述语音情绪结果和所述视频情绪结果得出用户情绪信息。

在一些实施例中，所述方法还包括：根据从预先设立的推荐内容集合中选取与所述场景信息、所述用户情绪信息、所述主题内容信息相关联的推荐内容；生成推荐内容执行请求；向客户端发送所述推荐内容执行请求，以供客户端选择是否许可所述执行所述推荐内容；如果所述客户端对所述推荐内容执行请求发出许可，则执行所述推荐内容。

在一些实施例中，所述场景信息包括以下至少一项：时间信息、地点信息或终端应用类别信息。

第二方面，本申请提供了一种自适应语音反馈装置，所述装置包括：获取模块，配置用于获取输入信息；识别模块，配置用于识别所述输入信息的场景信息；解析模块，配置用于解析所述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，所述交流方式信息包括语言类别信息；生成模块，配置用于根据所述用户情绪信息、所述语言类别信息、所述主题内容信息中的至少一项和所述场景信息生成用户属性标签；匹配模块，配置用于将所述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；反馈模块，配置用于使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈。

在一些实施例中，所述交流方式信息还包括：语速信息、组句方式信息或昵语类别信息；以及，所述反馈模块包括调整子模块，所述调整子模块配置用于：根据所述语速信息、所述组句方式信息或所述昵语类别信息调整所述语音反馈样式；使用经过调整的语音反馈样式进行反馈。

在一些实施例中，所述装置还包括推荐模块，所述推荐模块配置用于：根据从预先设立的推荐内容集合中选取与所述场景信息、所述用户情绪信息、所述主题内容信息相关联的推荐内容；生成推荐内容执行请求；向客户端发送所述推荐内容执行请求，以供客户端选择是否许可所述执行所述推荐内容；如果所述客户端对所述推荐内容执行请求发出许可，则执行所述推荐内容。

本申请提供的自适应语音反馈方法和装置，通过获取输入信息；识别输入信息的场景信息，解析输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，再根据用户情绪信息、所述语言类别信息、主题内容信息中的至少一项和场景信息生成用户属性标签，然后将用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度，最后使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈，实现了自适应反馈语音，提高了语音反馈的针对性和有效性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是可以应用本申请的自适应语音反馈方法或自适应语音反馈装置的实施例的示例性***架构；

图2是根据本申请的自适应语音反馈方法的一个实施例的流程图；

图3是根据本申请的自适应语音反馈方法的又一个实施例的流程图；

图4是图3所示实施例的一个应用场景的数据流向示意图；

图5是根据本申请的自适应语音反馈装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的自适应语音反馈方法或自适应语音反馈装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105反馈，以接收或发送消息(例如语音信息)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音助手类应用、文档管理类应用、搜索类应用、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上的语音助手类应用等提供支持的后台语音处理服务器。上述后台语音处理服务器可以对从终端设备接收到的语音进行存储、分析等处理，并将处理结果反馈给上述终端设备和执行相应的操作。

如图1所示，通过在终端设备101、102、103上安装相应的语音助手类应用，或者通过在终端设备101、102、103上具有语音助手功能的通信类应用，或者通过在终端设备101、102、103上浏览具有语音助手功能的通信类网站，这些终端设备可以用语音消息的形式向服务器105发出物件配送请求，之后可以由服务器105来执行上述自适应语音反馈方法。相应地，自适应语音反馈装置可以设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的自适应语音反馈方法的一个实施例的流程200。上述的自适应语音反馈方法，包括以下步骤：

步骤201，获取输入信息。

在本实施例中，自适应语音反馈方法运行于其上的电子设备(例如图1所示的服务器)可以从本地或者远程获取用户的输入信息。当输入信息已保存在电子设备的存储器中时，上述电子设备可以直接从本地的存储器获取上述输入信息。或者，当上述电子设备是对终端设备上的语音助手类应用进行支持的后台服务器时，其可以通过有线连接方式或者无线连接方式从上述终端设备获取输入信息。上述无线连接方式包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施例中，输入信息包括但不限于语音信息、视频信息、图像信息或文字信息。

步骤202，识别输入信息的场景信息。

在本实施例中，输入信息的场景信息是指用户发送此输入信息时所处的场景，上述场景信息可以包括但不限于时间信息、地点信息或终端应用类别信息。在这里，时间信息是指用户发送上述输入信息的时间。地点信息是指用户发送上述输入信息的地点，上述地点可以是具体的地址，比如x省x市x区x街道；上述地址也可以是所处场所，比如家、公司、医院。在这里，终端应用类别信息可以是用户指示操作何种终端应用的信息，例如如果用户通过语音指示打开地图类应用，那么终端应用类别信息就是此地图类应用；可选地，终端应用类别信息还可以是用户输入并发送的上述输入信息所使用的是何种终端应用的信息，例如用户使用通信类应用发送文字信息、视频信息、图像信息中的一种或多种，那么终端应用类别信息就是此通信类应用。

在本实施例一些可选的实现方式中，可以通过位置服务(LBS，LocationBasedServices，又称定位服务)识别地点信息。

在本实施例一些可选的实现方式中，可以根据历史的统计数据，建立若干个场景信息模型，例如“晚上-家-外卖”、“上午-公司会议-度秘”、“周日-户外-地图”、“默认”。将获取的输入信息的场景信息与场景信息模型匹配，判断与当前输入信息的场景信息匹配度最高的场景信息模型，如果此场景信息模型满足预定匹配度阈值，那么将此场景信息模型作为场景信息。如果场景信息模型与识别的场景信息的匹配度都不能达到预定的匹配度阈值，则以识别的场景信息作为输入信息的场景信息；或者，以场景信息模型的“默认”模型作为输入信息的场景信息。

步骤203，解析输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项。

在本实施例中，用户的情绪信息是指用户输入上述输入信息时的情绪状态信息，例如愉悦、伤心、累、精力充足等。

在本实施例一些可选的实现方式中，解析上述语音信息得到用户情绪信息可以通过以下方式实现：解析上述语音信息得到语速值、语调值或频谱信息中的至少一项；将上述语速值、语调值与语速阈值、语调阈值进行比较，得到语音情绪结果；解析上述视频信息得到视频情绪结果；基于上述语音情绪结果和上述视频情绪结果得出用户情绪信息。

在本实施例中，上述交流方式信息包括但不限于语言类别信息，上述语言类别信息可以是语种类别信息，例如汉语、英语、日语；上述语言类别信息也可以是同种语言不同的方言种类信息，例如粤语、宁波话、普通话，再例如美式英语、英式英语。

在本实施例中，上述主题内容信息是指上述输入信息所传递的语义信息，例如，输入信息是“我要订外卖”，在一些可选的实现方式中，经过切词处理和语义识别处理，得出主题内容信息可以是“订”“外卖”。

在本实施例一些可选的实现方式中，主要采用语音识别技术识别语音信息的主题内容信息。例如用户的语音信息经识别为购物、查询、XX广场、优衣库，那么将主题内容信息表示为一系列主题关键词{购物、查询、XX广场、优衣库}。

在本实施例一些可选的实现方式中，根据主题内容信息执行相应的操作，例如，输入信息是“我要订外卖”，那么执行打开具有订外卖功能的终端应用的操作，然后向用户推荐外卖订购信息。

步骤204，根据用户情绪信息、语言类别信息、主题内容信息中的至少一项和场景信息生成用户属性标签。

在本实施例中，用户属性标签用于表征与用户的情绪、所使用的语言、当前所处场景等相关的情况，例如，一位女性用户晚上9点在家时，通过方言定外卖，情绪沮丧，那么用户属性标签可以是{晚上，家，女声，沮丧，上海话}。

步骤205，将上述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度。

在本实施例中，预先训练语音若干个语音反馈样式，上述语音反馈样式包括特征标签和适用标签，其中，上述特征标签用于表征此语音反馈样式的特征，例如，语音反馈样式的特征标签是{女声，林志玲，普通话，80后}；上述适用标签用于表征此语音反馈样式适合用于哪些情况，例如特征标签是语音反馈样式的适用标签是{场景1，场景2，情绪1，情绪2，方言1，昵语1，昵语2，主题1，主题2}。

步骤206，使用与上述用户属性匹配度最高的语音反馈样式进行语音反馈。

在本实施例中，基于上述步骤205，通过上述用户属性标签与上述适用标签匹配，获取匹配度最高的语音反馈样式并进行反馈，例如用户在开车心情好时的普通话输入，***将获取{女声，林志玲，普通话，80后}这个语音反馈样式进行语音反馈。

本申请的上述实施例提供的方法通过获取输入信息；识别输入信息的场景信息，解析输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，再根据用户情绪信息、所述语言类别信息、主题内容信息中的至少一项和场景信息生成用户属性标签，然后将用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度，最后使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈，实现了自适应反馈语音，提高了语音反馈的针对性和有效性。

进一步参考图3，其示出了自适应语音反馈方法的又一个实施例的流程300。该自适应语音反馈方法的流程300，包括以下步骤：

步骤301，获取输入信息。

在本实施例中，自适应语音反馈方法运行于其上的电子设备(例如图1所示的服务器)可以从本地或者远程获取用户的输入信息。

在本实施例中，输入信息可以包括但不限于语音信息、视频信息、图像信息或文字信息。

步骤302，识别输入信息的场景信息。

在本实施例中，输入信息的场景信息是指用户发送此输入信息时所处的场景，上述场景信息可以包括但不限于时间信息、地点信息或终端应用类别信息。

步骤303，解析输入信息得到用户情绪信息、交流方式信息、主题内容信息。

在本实施例中，解析上述语音信息得到用户情绪信息可以通过以下方式实现：解析上述语音信息得到语速值、语调值；将上述语速值、语调值与语速阈值、语调阈值进行比较，得到语音情绪结果；解析上述视频信息得到视频情绪结果；基于上述语音情绪结果和上述视频情绪结果得出用户情绪信息。可以理解的是，上述语速阈值、语调阈值根据用户的不同而有所不同。

在本实施例一些可选的实现方式中，如果上述语速值低于语速阈值，且语调值低于语调阈值，那么判定语音情绪结果为负面。如果上述语速值高于语速阈值，且语调值高于语调阈值，那么判定语音情绪结果为正面。如果上述语速值、语调值只有一个高于其阈值，那么判定语音情绪结果为中立。

在本实施例一些可选的实现方式中，解析上述视频信息得到视频情绪结果可以通过视频动态识别或抽样图像识别的方式实现。

在本实施例一些可选的实现方式中，当语音情绪结果和视频情绪结果都为正面或负面时，情绪结果信息才为正面或负面；如果语音情绪结果和视频情绪结果不一致时，判定情绪结果信息为中立。

在本实施例一些可选的实现方式中，可以为上述语音情绪结果和上述视频情绪结果设立不同的权重，例如当语音输入质量较好而视频输入质量较差时，为语音情绪结果设立较高权重。将正面、负面、中立设置分别数值为1、-1、0，将语音情绪结果与视频情绪结果的权重与正面、负面、中立对应的数值运算，得出情绪结果值，判断情绪结果值处于哪种情绪的数值区间，得出情绪结果信息。

在本实施例一些可选的实现方式中，上述交流方式信息包括：语言类别信息、语速值、组句方式信息或昵语类别信息。

上述主题内容信息是指上述输入信息所传递的语义信息，例如，输入信息是“我要订外卖”，在一些可选的实现方式中，经过切词处理和语义识别处理，得出主题内容信息可以是“订”“外卖”。

步骤304，根据上述用户情绪信息、上述语言类别信息、上述主题内容信息和上述场景信息生成用户属性标签。

在本实施例中，用户属性标签用于表征与用户的情绪、所使用的语言、用户所表达的主题内容和当前所处场景等相关的情况，例如，一位女性用户晚上9点在家时，通过方言定外卖，情绪沮丧，那么用户属性标签可以是{晚上，家，女声，沮丧，上海话，订外卖}。

步骤305，将上述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度。

步骤306，根据语速信息、组句方式信息或昵语类别信息调整上述语音反馈样式。

在本实施例的一些可选的实现方式中，根据上述语速信息调整上述语音反馈样式可以通过以下方式实现：将上述语音反馈样式的语速调整到与上述语速信息对应的语速，在这里，语速信息是一个在用户输入语速值数值附近的范围值。例如，用户使用较慢的舒缓的语音，那么也将语音反馈样式的语速也调整为较慢的舒缓的语音，即将语音反馈样式的语速调到此范围值内。再例如，将上述语音反馈样式的语速调整到与上述语速信息不同的范围内，例如用户使用较快的语音，可能用户处于一个急躁的状态，那么将语音反馈样式的语速为较慢的舒缓的语音。

在本实施例的一些可选的实现方式中，可以通过调整语音反馈样式中语音的词与词之间、句子与句子之间的间隔调整语音反馈样式的语速。

在本实施例的一些可选的实现方式中，根据上述组句方式信息调整上述语音反馈样式可以通过以下方式实现：将上述语音反馈样式的组句方式调整到与上述组句方式信息一致；通过语音识别技术得到上述组句方式信息，例如识别得到用户的组句方式习惯为{谓语，主语，宾语}，那么调整语音反馈样式的组句方式为{谓语，主语，宾语}。再例如，如果用户的组句方式习惯为{吃饭，先}，如正常反馈可能是“先走”，根据此处可能根据调整为“走，先”。

在本实施例的一些可选的实现方式中，根据昵语类别信息调整上述语音反馈样式可以通过以下方式实现：获取上述昵语类别信息一致的昵语集合，其中，上述昵语集合包括正常用语和与上述正常用语对应的昵语；将上述语音反馈样式中的词句与上述昵语集合中的正常用语进行比对；如果上述词句与上述正常用语相同，则用与上述正常用语对应的昵语替换上述词句。

步骤307，使用经过调整的语音反馈样式进行反馈。

在本实施例中，基于上述步骤306，使用经过调整的语音反馈样式进行语音反馈。

在本实施例的一些可选的实现方式中，上述自适应语音反馈方法的流程300还可以包括步骤308，在反馈语音后，执行推荐内容；上述执行推荐内容可以通过以下步骤实现：根据从预先设立的推荐内容集合中选取与上述场景信息、上述用户情绪信息、上述主题内容信息相关联的推荐内容；生成推荐内容执行请求；向客户端发送上述推荐内容执行请求，以供客户端选择是否许可上述执行上述推荐内容；如果上述客户端对上述推荐内容执行请求发出许可，则执行上述推荐内容。例如，识别结果为在早上在户外(场景信息)愉快(用户情绪信息)的锻炼(主题内容信息)，那么会推荐播放一首小清新的歌曲，如果用户许可，则执行播放推荐歌曲的操作。再例如，一位女性用户晚上9点在家时，通过方言定外卖，通过用户进行语音输入时的语音和视频识别，判断用户很累很饿很沮丧，则在迅速执行定外卖的同时，会用舒缓的同性方言声音，询问用户是否需要播放喜欢的音乐，或拨打常用闺蜜的电话，如果得到许可，则播放用户喜欢的音乐或拨打常用闺蜜的电话。

在本实施例中，上述实现流程中的步骤301、步骤302、步骤303、步骤304和步骤305分别与前述实施例中的步骤201、步骤202、步骤203、步骤204和步骤205基本相同，在此不再赘述。

从图3中可以看出，与图2对应的实施例主要的不同点是，本实施例中的自适应语音反馈方法的流程300多出了根据语速信息、组句方式信息或昵语类别信息调整上述语音反馈样式的步骤306和在反馈语音后执行推荐内容的步骤308。通过增加的步骤306和308，本实施例描述的方案可以更加有效的反馈预先信息，提高反馈的针对性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种自适应语音反馈装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例上述的自适应语音反馈装置500包括：获取模块501，配置用于获取输入信息；识别模块502，配置用于识别上述输入信息的场景信息；解析模块503，配置用于解析上述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，上述交流方式信息包括语言类别信息；生成模块504，配置用于根据上述用户情绪信息、上述语言类别信息、上述主题内容信息中的至少一项和上述场景信息生成用户属性标签；匹配模块505，配置用于将上述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；反馈模块506，配置用于使用与上述用户属性匹配度最高的语音反馈样式进行语音反馈。

在本实施例的一个可选实施方式中，上述交流方式信息还包括：语速信息、组句方式信息或昵语类别信息；以及，上述反馈模块包括调整子模块，上述调整子模块配置用于：根据上述语速信息、上述组句方式信息或上述昵语类别信息调整上述语音反馈样式；使用经过调整的语音反馈样式进行反馈。

在本实施例的一个可选实施方式中，上述根据上述语速信息、上述组句方式信息或上述昵语类别信息在调整上述语音反馈样式包括：将上述语音反馈样式的语速调整到与上述语速信息对应的语速；将上述语音反馈样式的组句方式调整到与上述组句方式信息一致；获取预先建立的与上述昵语类别信息一致的昵语集合，其中，上述昵语集合包括正常用语和与上述正常用语对应的昵语；将上述语音反馈样式中的词句与上述昵语集合中的正常用语进行比对；如果上述词句与上述正常用语相同，则用与上述正常用语对应的昵语替换上述词句。

在本实施例的一个可选实施方式中，上述输入信息包括：语音信息和/或视频信息；以及，解析上述输入信息得到用户情绪信息包括：解析上述语音信息得到语速信息、语调信息或频谱信息中的至少一项；将上述语速信息、语调信息与语速阈值、语调阈值进行比较，得到语音情绪结果；解析上述视频信息得到视频情绪结果；基于上述语音情绪结果和上述视频情绪结果得出用户情绪信息。

在本实施例的一个可选实施方式中，上述装置500还包括推荐模块507，上述推荐模块配置用于：根据从预先设立的推荐内容集合中选取与上述场景信息、上述用户情绪信息、上述主题内容信息相关联的推荐内容；生成推荐内容执行请求；向客户端发送上述推荐内容执行请求，以供客户端选择是否许可上述执行上述推荐内容；如果上述客户端对上述推荐内容执行请求发出许可，则执行上述推荐内容。

在本实施例的一个可选实施方式中，上述场景信息包括以下至少一项：时间信息、地点信息或终端应用类别信息。

本领域技术人员可以理解，上述自适应语音反馈装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***600的结构示意图。

如图6所示，计算机***600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有***600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分605；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“用于获取输入信息的模块”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：获取输入信息；识别所述输入信息的场景信息；解析所述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，所述交流方式信息包括语言类别信息；根据所述用户情绪信息、所述语言类别信息、所述主题内容信息中的至少一项和所述场景信息生成用户属性标签；将所述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种自适应语音反馈方法，其特征在于，所述方法包括：

获取输入信息；

识别所述输入信息的场景信息；

解析所述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，所述交流方式信息包括语言类别信息；

根据所述用户情绪信息、所述语言类别信息、所述主题内容信息中的至少一项和所述场景信息生成用户属性标签；

将所述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；

使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈。

2.根据权利要求1所述的方法，其特征在于，所述交流方式信息还包括：语速信息、组句方式信息或昵语类别信息；以及，

所述使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈包括：

根据所述语速信息、所述组句方式信息或所述昵语类别信息调整所述语音反馈样式；

使用经过调整的语音反馈样式进行反馈。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语速信息、所述组句方式信息或所述昵语类别信息在调整所述语音反馈样式包括：

将所述语音反馈样式的语速调整到与所述语速信息对应的语速；

将所述语音反馈样式的组句方式调整到与所述组句方式信息一致；

获取预先建立的与所述昵语类别信息一致的昵语集合，其中，所述昵语集合包括正常用语和与所述正常用语对应的昵语；将所述语音反馈样式中的词句与所述昵语集合中的正常用语进行比对；如果所述词句与所述正常用语相同，则用与所述正常用语对应的昵语替换所述词句。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述输入信息包括：语音信息和/或视频信息；以及，

解析所述输入信息得到用户情绪信息包括：

解析所述语音信息得到语速信息、语调信息或频谱信息中的至少一项；

将所述语速信息、语调信息与语速阈值、语调阈值进行比较，得到语音情绪结果；

解析所述视频信息得到视频情绪结果；

基于所述语音情绪结果和所述视频情绪结果得出用户情绪信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据从预先设立的推荐内容集合中选取与所述场景信息、所述用户情绪信息、所述主题内容信息相关联的推荐内容；

生成推荐内容执行请求；

向客户端发送所述推荐内容执行请求，以供客户端选择是否许可所述执行所述推荐内容；

如果所述客户端对所述推荐内容执行请求发出许可，则执行所述推荐内容。

6.根据权利要求5所述的方法，其特征在于，所述场景信息包括以下至少一项：时间信息、地点信息或终端应用类别信息。

7.一种自适应语音反馈装置，其特征在于，所述装置包括：

获取模块，配置用于获取输入信息；

识别模块，配置用于识别所述输入信息的场景信息；

解析模块，配置用于解析所述输入信息得到用户情绪信息、交流方式信息、主题内容信息中的至少一项，其中，所述交流方式信息包括语言类别信息；

生成模块，配置用于根据所述用户情绪信息、所述语言类别信息、所述主题内容信息中的至少一项和所述场景信息生成用户属性标签；

匹配模块，配置用于将所述用户属性标签与预先训练的语音反馈样式的适用标签进行匹配，并得到匹配度；

反馈模块，配置用于使用与所述用户属性匹配度最高的语音反馈样式进行语音反馈。

8.根据权利要求7所述的装置，其特征在于，所述交流方式信息还包括：语速信息、组句方式信息或昵语类别信息；以及，

所述反馈模块包括调整子模块，所述调整子模块配置用于：

使用经过调整的语音反馈样式进行反馈。

9.根据权利要求8所述的装置，其特征在于，所述根据所述语速信息、所述组句方式信息或所述昵语类别信息在调整所述语音反馈样式包括：

10.根据权利要求7-9任一项所述的装置，其特征在于，所述输入信息包括：语音信息和/或视频信息；以及，

解析所述输入信息得到用户情绪信息包括：

解析所述视频信息得到视频情绪结果；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括推荐模块，所述推荐模块配置用于：

生成推荐内容执行请求；

12.根据权利要求11所述的装置，其特征在于，所述场景信息包括以下至少一项：时间信息、地点信息或终端应用类别信息。