CN111916065B

CN111916065B - 用于处理语音的方法和装置

Info

Publication number: CN111916065B
Application number: CN202010779755.1A
Authority: CN
Inventors: 唐子杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2024-07-02
Anticipated expiration: 2040-08-05
Also published as: EP3846164B1; CN111916065A; EP3846164A3; KR20210042277A; EP3846164A2; JP2021144221A; US20210217437A1; JP7230085B2

Abstract

本申请公开了用于处理语音的方法和装置，本公开涉及智能语音识别领域。具体实现方案为：接收用户通过终端发送的用户音频；对上述用户音频进行分类，得到上述用户音频的音频分类信息；根据上述音频分类信息和预设的匹配关系信息，确定与上述音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，其中，上述匹配关系信息匹配关系信息用于表征音频分类信息与匹配音频分类信息之间的匹配关系。该实施方式提高了确定目标匹配音频分类信息的效率。

Description

用于处理语音的方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及语音技术领域。

背景技术

随着互联网技术的发展，人和人之间的社交行为，不再仅仅局限于线下面对面的社交。而逐渐开始通过网络进行文字、图片、语音、视频等多种交互形式的社交。其中，声音作为一种很好的情绪表达工具，在社交上具备天然的情感优势。相比于图片、文字等载体，声音更加有温度。不同的语气、语调、语速等，可以让声音更容易直接表达情感。现阶段，互联网出现了大批声音爱好者，也称“声控”人群。他们普遍对好听的声音有特殊的情结，但不同的声音爱好者又对不同类别的声音有不同的偏好，不同的声音在他们心中也会有不同的魅力指数。由于声音是一个输出效率较低的信息传输介质，因此，声音爱好者想要在网络上寻觅到自己喜欢的声音是非常困难的事情。所以，如何帮助“声控”人群快速、高效的匹配到自己更加心仪的声音，是一件很有价值的事情。

发明内容

本公开提供了一种用于处理语音的方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种用于处理语音的方法，包括：接收用户通过终端发送的用户音频；对上述用户音频进行分类，得到上述用户音频的音频分类信息；根据上述音频分类信息和预设的匹配关系信息，确定与上述音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，其中，上述匹配关系信息用于表征音频分类信息与匹配音频分类信息之间的匹配关系。

根据本公开的第二方面，提供了一种用于处理语音的装置，包括：接收单元，被配置成接收用户通过终端发送的用户音频；分类单元，被配置成对上述用户音频进行分类，得到上述用户音频的音频分类信息；确定单元，被配置成根据上述音频分类信息和预设的匹配关系信息，确定与上述音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，其中，上述匹配关系信息用于表征音频分类信息与匹配音频分类信息之间的匹配关系。

根据本公开的第三方面，提供了一种电子设备，其特征在于，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如第一方面中任一项上述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，上述计算机指令用于使上述计算机执行如第一方面中任一项上述的方法。

根据本公开的第五方面，本公开实施例提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

根据本申请的技术基于用户音频的音频分类信息和匹配关系信息，确定与音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，从而提高了确定目标匹配音频分类信息的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请的用于处理语音的方法一个实施例的流程图；

图2是根据本申请的用于处理语音的方法的一个应用场景的示意图；

图3是根据本申请的用于处理语音的方法的又一个实施例的流程图；

图4是根据本申请的用于处理语音的装置的一个实施例的结构示意图；

图5是用来实现本申请实施例的用于处理语音的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

请参考图1，示出了根据本公开的用于处理语音的方法的一个实施例的流程100。该用于处理语音的方法，包括以下步骤：

S101，接收用户通过终端发送的用户音频。

在本实施例中，用于处理语音的方法的执行主体(例如服务器)可以通过有线连接方式或者无线连接方式从用户所使用的终端接收用户音频。这里，用户音频可以是用户所发出的一段音频。举例来说，用户音频可以是用户随便说或随便唱的一段声音，也可以是用户朗读预设文本发出的声音，还可以是用户演唱预设歌词发出的声音等等。

通常，用户可以利用终端安装的音频采集设备(例如，麦克风、麦克风阵列等等)录制音频。录制完成之后，终端可以将录制的用户音频发送到服务器。这里，服务器可以是提供各种服务的服务器。例如，对终端发送的用户音频等数据进行分析等处理，并基于处理结果向终端推送信息的服务器。

S102，对用户音频进行分类，得到用户音频的音频分类信息。

在本实施例中，执行主体可以对S101中接收到的用户音频进行分类，从而得到用户音频的音频分类信息。这里，音频分类信息可以包括性别和声音类别。其中，性别可以包括男和女。声音类别可以是指音色的分类，举例来说，声音类别可以包括正太音、青年音、大叔音、萝莉音、少女音、御姐音等等。其中，正太音可以是指小男孩的声音，青年音可以是指青少年的声音，大叔音可以是指大龄男性的声音，萝莉音可以是指小女孩的声音，少女音可以是指妙龄少女的声音，御姐音可以是指大龄女性的声音。

实践中，执行主体可以采用各种方式分析得到用户音频的音频分类信息。作为示例，执行主体可以通过各种方式确定用户音频的性别，例如，可以将用户音频输入基于机器学习算法训练得到语音性别分类模型，来得到用户音频的性别。这里，语音性别分类模型可以是基于大量训练数据训练得到的，用于根据输入的语音预测该语音对应的发声者的性别。执行主体还可以采用各种方式根据用户音频识别用户的年龄，并基于用户年龄确定声音类别。之后，执行主体可以将用户音频的性别和声音类别作为用户音频的音频分类信息。

可以理解的是，为了保证分类的准确性，在对用户音频进行分类之前，还可以对用户音频进行预处理，例如，降噪、去除空白等等。

在本实施例的一些可选的实现方式中，S102可以具体如下进行：将用户音频输入预先建立的音频分类模型，得到用户音频的音频分类信息。

在本实现方式中，执行主体内部可以存储有预先建立的音频分类模型。这里，音频分类模型可以用于表征音频信息与音频分类信息之间的对应关系。音频分类模型可以根据输入的音频信息，输出音频分类信息。作为示例，音频分类模型可以是基于机器学习算法训练得到的分类模型。这样，执行主体可以将S101接收的用户音频输入音频分类模型，并将音频分类模型输出的音频分类信息作为用户音频的音频分类信息。

作为示例，训练上述音频分类模型的执行主体可以与上述用于处理语音的方法的执行主体相同，也可以不同。上述音频分类模型可以是通过以下方式训练得到的：

首先，获取训练样本集合。其中，训练样本集合中的训练样本可以包括样本音频和与样本音频对应的样本音频分类信息。

之后，将训练样本集合中的训练样本的样本音频作为输入，将与输入的样本音频对应的样本音频分类信息作为期望输出，训练得到音频分类模型。

可以理解的是，为了提高音频分类模型的分类准确率，在音频分类模型的使用阶段，可以执行以下模型更新步骤：1)将音频分类模型针对输入音频所输出的音频分类信息进行显示；2)接收技术人员针对所显示的音频分类信息输入的校正信息；3)使用输入音频和校正信息组成训练样本，使用该训练样本进一步训练音频分类模型。

通过本实现方式，执行主体可以基于预先训练的音频分类模型，得到用户音频的音频分类信息。由于音频分类模型是基于大量训练样本训练训练得到的，因此，可以使得到的音频分类信息更加准确。

S103，根据音频分类信息和预设的匹配关系信息，确定与音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息。

在本实施例中，执行主体内部可以预先存储有预设的匹配关系信息。其中，上述匹配关系信息可以用于表征音频分类信息与匹配音频分类信息之间的匹配关系。作为示例，上述匹配关系信息可以包括音频分类信息和匹配音频分类信息，以及音频分类信息与匹配音频分类信息所对应音频之间的匹配度。其中，某条匹配关系信息中的匹配音频分类信息可以是指与该条匹配关系信息中音频分类信息进行匹配的音频分类信息。举例来说，以某条匹配关系信息中的音频分类信息为“男，青年音”为例，与该音频分类信息进行匹配的匹配音频分类信息可以包括各种音频分类信息，例如，“女，少女音”、“女，萝莉音”、“女，御姐音”、“男，青年音”、“男，正太音”、“男，大叔音”等。这里，某一条音频分类信息所对应音频可以是指，分类得到的音频分类信息与该音频分类信息相同的音频。音频分类信息与匹配音频分类信息所对应音频之间的匹配度，可以表示音频分类信息与匹配音频分类信息所对应的音频相匹配的程度。作为示例，匹配度可以是数值的形式。通常，两条音频的匹配度越高表示音频分类信息对应的发声者喜欢匹配音频分类信息对应的音频的可能性越高。作为示例，匹配关系信息中的匹配度可以是通过各种方式确定的，例如，可以是技术人员基于对大量的音频分类信息对应音频的发声者之间的交互行为的统计而确定的。

这样，执行主体可以根据S102得到的音频分类信息和匹配关系信息，确定与S102得到音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息。举例来说，执行主体可以确定与S102得到音频分类信息对应音频之间的匹配度满足预设条件，例如，超过预设阈值，的匹配音频分类信息作为目标匹配音频分类信息。

在本实施例的一些可选的实现方式中，上述用于处理语音的方法还可以包括图1中未示出的以下步骤：基于上述目标匹配音频分类信息，确定上述终端安装的预设客户端所播放语音的音色

在本实现方式中，执行主体可以基于确定的目标匹配音频分类信息，确定用户所使用的终端安装的预设客户端所播放语音的音色。举例来说，用户所使用的终端可以安装有各种与语音相关的客户端，例如，语音助手、语音秘书等等，这些客户端可以播放语音。执行主体可以根据目标匹配语音分类信息，调整终端安装的这些客户端播放语音的音色。通过本实现方式，可以根据目标匹配音频分类信息确定用户所使用终端安装的预设客户端所播放语音的音色，从而使客户端所播放语音的音色更加满足用户需求，实现个性化的语音播放。

在本实施例的一些可选的实现方式中，上述用于处理语音的方法还可以包括图1中未示出的以下步骤：

首先，基于音频分类信息和匹配关系信息，确定与音频分类信息的匹配度满足预设条件的匹配音频分类信息为待显示匹配音频分类信息。

在本实现方式中，执行主体可以基于S102中确定的音频分类信息和匹配关系信息，确定与音频分类信息的匹配度满足预设条件的匹配音频分类信息作为待显示匹配音频分类信息。作为示例，执行主体可以将匹配关系信息中的、与S102中确定的音频分类信息的匹配度最高的匹配音频分类信息作为待显示匹配音频分类信息。

然后，向终端发送待显示匹配音频分类信息，以供终端显示给用户。

在本实现方式中，执行主体可以向终端发送待显示匹配音频分类信息，以供终端显示给用户。作为示例，在发送待显示匹配音频分类信息时，还可以搭配预设的术语，例如，最佳CP(Coupling，配对)、最佳组合等等，以待显示匹配音频分类信息为“女，少女音”为例，执行主体可以向终端发送信息“最佳CP：少女音”。可以理解的是，执行主体除了向终端发送待显示匹配音频分类信息之外，还可以搭配预设的术语(例如，主音色、您的音色等等)向终端发送S102中确定的音频分类信息，以S102中确定的音频分类信息为“男，青年音”为例，执行主体可以向终端发送信息“您的音色为：青年音”。通过本实现方式，执行主体可以向终端发送待显示匹配音频分类信息，从而使用终端可以显示满足预设条件的待显示匹配音频分类信息，以供用户查看。

首先，确定用户音频与预设的目标人物音频集合中的目标人物音频的相似度。

在本实现方式中，执行主体内部可以预先存储有目标人物音频集合，其中，目标人物音频集合中可以包括至少一名目标人物的音频。这里，目标人物可以是预设的人物，举例来说，目标人物可以是演艺明星。这样，执行主体可以计算S101中接收的用户音频与目标人物音频集合中的各条目标人物音频的相似度。作为示例，执行主体可以首先分别提取用户音频和各条目标人物音频的音频特征，然后计算用户音频的音频特征与各条目标人物音频的音频特征的相似度，从而得出用户音频与各目标人物音频的相似度。

然后，根据相似度，从至少一名目标人物中选取出目标人物作为相似人物。

在本实现方式中，执行主体可以根据用户音频与各目标人物音频的相似度，从至少一名目标人物中选取出一个或多个目标人物作为相似人物。举例来说，执行主体可以将计算得到的多个相似度按由大到小的顺序进行排序，并将排序在前预设位(例如，第一位)的相似度对应的目标人物音频所对应的目标人物作为相似人物。这里，某一个相似度对应的目标人物音频可以是指计算该相似度时所使用的目标人物音频。

最后，向终端发送相似人物的名称。

在本实现方式中，执行主体可以将选取的相似人物的名称发送给终端，以供终端显示给用户。以相似人物的名称为“张三”为例，终端可以显示信息“相似人物：张三”。通过本实现方式，执行主体可以向终端推送与用户音频相似的目标人物音频对应的目标人物的名称，使终端向用户展示与其声音相似的目标人物的名称。

继续参见图2，图2是根据本实施例的用于处理语音的方法的应用场景的一个示意图。在图2的应用场景中，终端201接收到用户发送的音频之后，可以将用户音频发送到服务器202。之后，服务器202可以对接收的用户音频进行分类，得到用户音频的音频分类信息“男，青年音”。然后，服务器202根据音频分类信息“男，青年音”和预设的匹配关系信息，确定与音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息。

本公开的上述实施例提供的方法基于用户音频的音频分类信息和匹配关系信息，确定与音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，从而提高了确定目标匹配音频分类信息的效率。

进一步参考图3，其示出了用于处理语音的方法的又一个实施例的流程300。该用于处理语音的方法的流程300，包括以下步骤：

S301，接收用户通过终端发送的用户音频。

在本实施例中，S301与图1所示实施例的S101类似，此处不再赘述。

S302，对用户音频进行分类，得到用户音频的音频分类信息。

在本实施例中，S302与图1所示实施例的S102类似，此处不再赘述。

S303，根据音频分类信息和预设的匹配关系信息，确定与音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息。

在本实施例中，S303与图1所示实施例的S103类似，此处不再赘述。

S304，根据目标匹配音频分类信息，从预设的音频信息集合中确定至少一条音频信息作为目标音频信息。

在本实施例中，执行主体内部可以预先存储有音频信息集合。这样，执行主体可以根据目标匹配音频分类信息，从预设的音频信息集合中确定至少一条音频信息作为目标音频信息。这里，音频信息集合中的音频信息标注有音频分类信息。作为一个示例，可以选取音频信息集合中音频分类信息与目标匹配音频分类信息相同的音频信息作为目标音频信息。作为另一示例，可以根据S302中确定的音频分类信息与匹配音频分类信息所对应音频之间的匹配度，从音频信息集合中确定多条音频信息作为目标音频信息。例如，根据匹配度，按比例从音频信息集合中选取不同的音频分类信息所对应的音频，例如，匹配度越高选取的比例越高。

S305，将目标音频信息推送到终端。

在本实施例中，执行主体可以将S304中确定的目标音频信息推送到终端，以供使用终端的用户播放。

S306，接收终端发送的用户针对所推送的音频信息的操作信息。

在本实施例中，执行主体可以接收终端发送的用户针对所推送的音频信息的操作信息。这里，用户针对所推送的音频信息的操作可以包括：点赞、收藏、完整播放、多次播放、与音频信息的发声者交互等等。

S307，基于操作信息，调整匹配关系信息中的匹配度。

在本实施例中，执行主体可以基于S306中接收的操作信息，调整匹配关系信息中的匹配度，以得到针对上述用户的匹配关系信息。通常，如果用户对某一条音频信息执行了点赞、收藏、完整播放、多次播放等操作，则表示该音频信息符合用户的需求。此时，可以将匹配关系信息中的、用户音频的音频分类信息与该条音频信息的音频分类信息之间的匹配度调高预设值。如果用户对某一条音频信息执行了查看后未播放、播放途中关闭等操作，则表示该音频信息不符合用户的需求。此时，可以将匹配关系信息中的、用户音频的音频分类信息与该条音频信息的音频分类信息之间的匹配度调低预设值。作为示例，执行主体还可以统计推送的每一种音频分类信息对应的音频信息的完整播放率，并根据完整播放率调整用户音频的音频分类信息与该音频分类信息之间的匹配度。例如，完整播放率越高调整的值越高。

从图3中可以看出，与图1对应的实施例相比，本实施例中的用于处理语音的方法的流程300突出了向终端推送目标音频信息，以及基于用户针对所推送的音频信息的操作信息调整匹配关系信息中的匹配度的步骤。由此，本实施例描述的方案可以根据用户行为调整匹配关系信息中的匹配度，从而使匹配关系信息更加符合用户的喜好，进而使后续推送的信息更加满足用户需求。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种用于处理语音的装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的用于处理语音的装置400包括：接收单元401、分类单元402和确定单元403。其中，接收单元401被配置成接收用户通过终端发送的用户音频；分类单元402被配置成对上述用户音频进行分类，得到上述用户音频的音频分类信息；确定单元403被配置成根据上述音频分类信息和预设的匹配关系信息，确定与上述音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，其中，上述匹配关系信息用于表征音频分类信息与匹配音频分类信息之间的匹配关系。

在本实施例中，用于处理语音的装置400的接收单元401、分类单元402和确定单元403的具体处理及其所带来的技术效果可分别参考图1对应实施例中S101、S102和S103的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置400还包括：音色确定单元(图中未示出)，被配置成基于上述目标匹配音频分类信息，确定上述终端安装的预设客户端所播放语音的音色。

在本实施例的一些可选的实现方式中，上述装置400还包括：信息确定单元(图中未示出)，被配置成根据上述目标匹配音频分类信息，从预设的音频信息集合中确定至少一条音频信息作为目标音频信息；推送单元(图中未示出)，被配置成将上述目标音频信息推送到上述终端。

在本实施例的一些可选的实现方式中，上述匹配关系信息包括音频分类信息和匹配音频分类信息，以及音频分类信息与匹配音频分类信息所对应音频之间的匹配度；以及上述装置400还包括：信息接收单元(图中未示出)，被配置成接收上述终端发送的上述用户针对所推送的音频信息的操作信息；调整单元(图中未示出)，被配置成基于上述操作信息，调整上述匹配关系信息中的匹配度。

在本实施例的一些可选的实现方式中，上述分类单元402进一步被配置成：将上述用户音频输入预先建立的音频分类模型，得到上述用户音频的音频分类信息，其中，上述音频分类模型用于表征音频信息与音频分类信息之间的对应关系。

在本实施例的一些可选的实现方式中，上述装置400还包括：信息确定单元(图中未示出)，被配置成基于上述音频分类信息和上述匹配关系信息，确定与上述音频分类信息的匹配度满足预设条件的匹配音频分类信息为待显示匹配音频分类信息；信息推送单元(图中未示出)，被配置成向上述终端发送上述待显示匹配音频分类信息，以供上述终端显示给上述用户。

在本实施例的一些可选的实现方式中，上述装置400还包括：相似度确定单元(图中未示出)，被配置成确定上述用户音频与预设的目标人物音频集合中的目标人物音频的相似度，其中，上述目标人物音频集合包括至少一名目标人物的音频；选取单元(图中未示出)，被配置成根据上述相似度，从上述至少一名目标人物中选取出目标人物作为相似人物；名称发送单元(图中未示出)，被配置成向上述终端发送上述相似人物的名称。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图5所示，是根据本申请实施例的用于处理语音的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用于处理语音的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于处理语音的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于处理语音的方法对应的程序指令/模块(例如，附图4所示的接收单元401、分类单元402和确定单元403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于处理语音的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据用于处理语音的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至用于处理语音的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于处理语音的方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与用于处理语音的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，根据用户音频的音频分类信息和匹配关系信息，确定与音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，从而提高了确定目标匹配音频分类信息的效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于处理语音的方法，包括：

接收用户通过终端发送的用户音频；

对所述用户音频进行分类，得到所述用户音频的音频分类信息，所述音频分类信息包括性别和声音类别，声音类别是指音色的分类；

根据所述音频分类信息和预设的匹配关系信息，确定与所述音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，其中，所述匹配关系信息用于表征音频分类信息与匹配音频分类信息之间的匹配关系，包括音频分类信息和匹配音频分类信息，以及音频分类信息与匹配音频分类信息所对应音频之间的匹配度，所述匹配音频分类信息指与所述匹配关系信息中音频分类信息进行匹配的音频分类信息；

根据所述目标匹配音频分类信息，从预设的音频信息集合中确定至少一条音频信息作为目标音频信息；

将所述目标音频信息推送到所述终端；

接收所述终端发送的所述用户针对所推送的音频信息的操作信息，所述操作信息包括点赞、收藏、完全播放、多次播放、查看后不播放或播放途中关闭；

基于所述操作信息，调整所述匹配关系信息中的匹配度。

2.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述目标匹配音频分类信息，确定所述终端安装的预设客户端所播放语音的音色。

3.根据权利要求1所述的方法，其中，所述对所述用户音频进行分类，得到所述用户音频的音频分类信息，包括：

将所述用户音频输入预先建立的音频分类模型，得到所述用户音频的音频分类信息，其中，所述音频分类模型用于表征音频信息与音频分类信息之间的对应关系。

4.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述音频分类信息和所述匹配关系信息，确定与所述音频分类信息的匹配度满足预设条件的匹配音频分类信息为待显示匹配音频分类信息；

向所述终端发送所述待显示匹配音频分类信息，以供所述终端显示给所述用户。

5.根据权利要求1所述的方法，其中，所述方法还包括：

确定所述用户音频与预设的目标人物音频集合中的目标人物音频的相似度，其中，所述目标人物音频集合包括至少一名目标人物的音频；

根据所述相似度，从所述至少一名目标人物中选取出目标人物作为相似人物；

向所述终端发送所述相似人物的名称。

6.一种用于处理语音的装置，包括：

接收单元，被配置成接收用户通过终端发送的用户音频；

分类单元，被配置成对所述用户音频进行分类，得到所述用户音频的音频分类信息，音频分类信息包括性别和声音类别，声音类别是指音色的分类；

确定单元，被配置成根据所述音频分类信息和预设的匹配关系信息，确定与所述音频分类信息相匹配的匹配音频分类信息为目标匹配音频分类信息，其中，所述匹配关系信息用于表征音频分类信息与匹配音频分类信息之间的匹配关系，包括音频分类信息和匹配音频分类信息，以及音频分类信息与匹配音频分类信息所对应音频之间的匹配度，所述匹配音频分类信息指与所述匹配关系信息中音频分类信息进行匹配的音频分类信息；

信息确定单元，被配置成根据所述目标匹配音频分类信息，从预设的音频信息集合中确定至少一条音频信息作为目标音频信息；

推送单元，被配置成将所述目标音频信息推送到所述终端；

信息接收单元，被配置成接收所述终端发送的所述用户针对所推送的音频信息的操作信息，所述操作信息包括点赞、收藏、完全播放、多次播放、查看后不播放或播放途中关闭；

调整单元，被配置成基于所述操作信息，调整所述匹配关系信息中的匹配度。

7.根据权利要求6所述的装置，其中，所述装置还包括：

音色确定单元，被配置成基于所述目标匹配音频分类信息，确定所述终端安装的预设客户端所播放语音的音色。

8.根据权利要求6所述的装置，其中，所述分类单元进一步被配置成：

9.根据权利要求6所述的装置，其中，所述装置还包括：

信息确定单元，被配置成基于所述音频分类信息和所述匹配关系信息，确定与所述音频分类信息的匹配度满足预设条件的匹配音频分类信息为待显示匹配音频分类信息；

信息推送单元，被配置成向所述终端发送所述待显示匹配音频分类信息，以供所述终端显示给所述用户。

10.根据权利要求6所述的装置，其中，所述装置还包括：

相似度确定单元，被配置成确定所述用户音频与预设的目标人物音频集合中的目标人物音频的相似度，其中，所述目标人物音频集合包括至少一名目标人物的音频；

选取单元，被配置成根据所述相似度，从所述至少一名目标人物中选取出目标人物作为相似人物；

名称发送单元，被配置成向所述终端发送所述相似人物的名称。

11. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。