CN110164415A

CN110164415A - 一种基于语音识别的推荐方法、装置及介质

Info

Publication number: CN110164415A
Application number: CN201910353861.0A
Authority: CN
Inventors: 廖锡光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-23
Anticipated expiration: 2039-04-29
Also published as: CN110164415B

Abstract

本发明公开了一种基于语音识别的推荐方法、装置及介质，所述方法包括：获取目标用户输入的待识别语音数据；对所述目标用户进行鉴权，得到鉴权结果；当所述鉴权结果为用户首次使用时，基于所述待识别语音数据进行识别以得到对应的方言类型；根据所述方言类型，从待选用户群体中确定推荐用户；获取所述推荐用户的兴趣列表，根据所述推荐用户的兴趣列表为所述目标用户创建推荐列表。本发明确定目标用户为首次使用时，通过识别出目标用户输入的待识别语音数据的方言类型，利用方言类型确定推荐用户，再根据推荐用户的兴趣列表向目标用户做推荐。提高在用户首次使用场景下个性化推荐的准确性。

Description

一种基于语音识别的推荐方法、装置及介质

技术领域

本发明涉及互联网通信技术领域，尤其涉及一种基于语音识别的推荐方法、装置及介质。

背景技术

随着计算机和互联网技术的快速发展，针对用户进行个性化推荐能够为用户提供更好的使用体验，比如用户可以获取到更准确的浏览内容。

目前，基于用户的个性化推荐主要包含以下几种方式：基于用户的历史信息，预测用户的兴趣标签，再进行基于兴趣的推荐；对于新用户，在没有任何使用行为的情况下，使用热门数据进行推荐；基于用户来源IP地址(互联网协议地址，Internet ProtocolAddress)，按地区推荐运营数据，比如广东省IP的用户推荐粤语类视频。然而，对于新用户而言，缺乏对应的历史信息，使用热门数据并不能很好的满足不同用户的个性化需求，同时根据用户来源IP地址选择的具有地区属性的推荐数据，缺乏针对单个用户个性化的适应性。

发明内容

为了解决现有技术应用在用户首次使用场景下，向对应用户的推荐准确率低等问题，本发明提供了一种基于语音识别的推荐方法、装置及介质：

一方面，本发明提供了一种基于语音识别的推荐方法，所述方法包括：

获取目标用户输入的待识别语音数据；

对所述目标用户进行鉴权，得到鉴权结果；

当所述鉴权结果为用户首次使用时，基于所述待识别语音数据进行识别以得到对应的方言类型；

根据所述方言类型，从待选用户群体中确定推荐用户；

获取所述推荐用户的兴趣列表，根据所述推荐用户的兴趣列表为所述目标用户创建推荐列表。

另一方面提供了一种基于语音识别的推荐装置，所述装置包括：

语音数据获取模块：用于获取目标用户输入的待识别语音数据；

用户鉴权模块：用于对所述目标用户进行鉴权，得到鉴权结果；

方言类型识别模块：用于当所述鉴权结果为用户首次使用时，基于所述待识别语音数据进行识别以得到对应的方言类型；

推荐用户确定模块：用于根据所述方言类型，从待选用户群体中确定推荐用户；

推荐列表创建模块：用于获取所述推荐用户的兴趣列表，根据所述推荐用户的兴趣列表为所述目标用户创建推荐列表。

另一方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的基于语音识别的推荐方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的基于语音识别的推荐方法。

本发明提供的一种基于语音识别的推荐方法、装置及介质，具有如下技术效果：

本发明确定目标用户为首次使用时，通过识别出目标用户输入的待识别语音数据的方言类型，利用方言类型确定推荐用户，再根据推荐用户的兴趣列表向目标用户做推荐。提高在用户首次使用场景下个性化推荐的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种应用环境的示意图；

图2是本发明实施例提供的一种基于语音识别的推荐方法的流程示意图；

图3是本发明实施例提供的获取目标用户输入的待识别语音数据的一种的流程示意图；

图4是本发明实施例提供的对所述目标用户进行鉴权，得到鉴权结果的一种流程示意图；

图5是本发明实施例提供的一种基于语音识别的推荐方法的流程示意图；

图6是本发明实施例提供的一种语音识别模型的应用场景的示意图；

图7是本发明实施例提供的对训练阶段采集得到的采集数据进行特征提取的示意图；

图8是本发明实施例提供的对预测阶段采集得到的原始语音数据进行特征提取的示意图；

图9是本发明实施例提供的一种基于语音识别的推荐装置的组成框图；

图10是本发明实施例提供的用户鉴权模块的组成框图；

图11是本发明实施例提供的一种终端设备的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种应用环境的示意图，如图1所示，该应用环境中，用户可以向遥控器或者其他语音设备等输入待处理语音数据，遥控器或者其他语音设备等可以基于所述待处理语音数据对智能电视进行控制，这样智能电视显示对应的推荐内容供用户实现观看等体验。当然，用户也可以直接向所述智能电视输入待处理语音数据。用户还可以向智能音箱输入待处理语音数据，智能音响根据所述待处理语音数据向用户返回对应的推荐内容。需要说明的是，图1仅仅是一种示例。用户也可以通过终端设备上安装的智能对话工具进行人机对话，用户在所述智能对话工具的通信界面输入待处理语音数据，所述智能对话工具根据所述待处理语音数据在所述通信界面上向用户返回对应的推荐内容。

在本发明实施例中，所述终端设备可以包括但不限于移动智能电话、平板电子设备、便携式计算机(例如笔记本电脑等)、个人数字助理(PDA)、桌面型计算机、带有信息阅读功能的智能穿戴设备。所述智能对话工具可以是一能够与用户进行交互的计算机程序。所述智能对话工具的通信界面可以包括会话窗口，所述会话窗口可以为所述智能对话工具提供的用于与用户进行交互的窗口。

具体的，用户输入的待处理语音数据对应的语义可以为指向对象相对模糊的语义，比如所述待处理语音数据对应的语义可以为“播放电影”、“来点音乐”、“我想了解今天的新闻”等。而非指向对象相对明确的语义，其对应的语义可以为“播放系列电影A的第一部”、“播放歌手B在专辑C中的歌曲D”、“我想了解今天A股的走势新闻”等。

具体的，所述推荐内容包括但不限于视频(比如电影、戏剧、电视剧)、音频(比如歌曲、有声读物)、小说、新闻等。

以下介绍本发明一种基于语音识别的推荐方法的具体实施例，图2是本发明实施例提供的一种基于语音识别的推荐方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：获取目标用户输入的待识别语音数据；

在本发明实施例中，如图3、8所示，所述获取目标用户输入的待识别语音数据，包括：

S301：采集所述目标用户的原始语音数据；

原始语音数据可以由目标用户主动输入(比如目标用户触发通信界面的语音采集指令)，也可以在处于预设的交互环境下，通过相关的采集设备(比如麦克风)主动采集。

S302：对所述原始语音数据进行预处理，得到多个包含语音信号的音频帧数据；

原始语音数据中可以包括有背景音(比如装修噪音、汽车噪音)。原始语音数据中对应有目标用户的声音的部分可以是间隔的，比如目标用户以“我......想.....听......歌......剧”作为原始语音数据输入。对所述原始语音数据进行预处理的步骤，包括对所述原始语音数据作语音活性检测(Voice activity detection，VAD)，提取所述原始语音数据中包含语音信号的待切割语音数据，再切割待切割语音数据可以得到多个音频帧数据。

S303：从所述音频帧数据中提取得到包含特征信息的所述待识别语音数据。

在一个具体实施例中，所述从所述音频帧数据中提取得到包含特征信息的所述待识别语音数据，包括：可以采用快速傅里叶变换将所述音频帧数据中包含的所述语音信号由时域转换至频域，得到第一语音信号；利用梅尔滤波对所述第一语音信号进行过滤降维处理，得到第二语音信号；使用离散余弦变换从所述第二语音信号中提取得到信号特征，所述信号特征对应有特征信息，将包含特征信息的语音数据作为所述待识别语音数据。

将原始语音数据处理为待识别语音数据，所述待识别语音数据中的特征信息与提取得到的信号特征对应，信号特征能够有助于对待识别语音数据的识别，能够有效的提高识别的准确率。

S202：对所述目标用户进行鉴权，得到鉴权结果；

在本发明实施例中，对目标用户鉴权可以帮助当前目标用户所使用的设备获知目标用户的使用情况，尤其对于多用户使用所述设备的场景(比如办公环境、几口之家等)，对目标用户鉴权可以根据不同目标用户的使用情况更好的为他们作更好的推荐，满足用户的个性化需求。

在一个具体的实施例中，如图4所示，所述对所述目标用户进行鉴权，得到鉴权结果，包括：

S401：从所述待识别语音数据中提取出对应的声纹信息；

不同目标用户的声纹信息不仅具有特定性，而且有相对稳定性的特点(成年以后，人的声音可保持长期相对稳定不变。无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹信息却始终相同。)这样从所述待识别语音数据中提取出的声纹信息是与目标用户一一对应的，也就是说，用户A对应有声纹信息A，用户B对应有声纹信息B，用户C对应有声纹信息C。

S402：在声纹数据库中对所述声纹信息进行匹配；

对于多用户使用所述设备的场景，可以在用户首次使用所述设备后将其对于的声纹信息添加进声纹数据库中，这样利用声纹数据库进行匹配就可以获知目标用户的声纹信息是否存在于所述声纹数据库中。

S403：根据匹配状态确定所述鉴权结果。

当声纹数据库中有与所述待识别语音数据对应的声纹信息匹配的声纹信息时，说明目标用户之前有使用过所述设备，目标用户的使用情况为“用户非首次使用”的鉴权结果。当声纹数据库中没有与所述待识别语音数据对应的声纹信息匹配的声纹信息时，说明目标用户之前没有使用过所述设备，目标用户的使用情况为“用户首次使用”的鉴权结果。

利用声纹信息作为对目标用户进行鉴权的依据，可以保证鉴权结果的准确性，进一步的，保证根据鉴权结果进行的推荐也能带给目标用户更好的使用体验。

S203：当所述鉴权结果为用户首次使用时，基于所述待识别语音数据进行识别以得到对应的方言类型；

在本发明实施例中，随着社会的发展，人口的流动性也越来越强，比如位于A省的一线城市B中有大部分来自于其他省份的用户。使用同一方言或者相近方言的用户，可以基于社会、历史、地理方面的因素而感兴趣的推荐内容类似甚至相同。使用不同方言的用户之间，也可以因为社会、历史、地理方面的因素而感兴趣的推荐内容存在明显差异。对于一些地域色彩浓厚的内容，比如粤语歌曲、川剧、客家山歌、上海地方戏，不使用对应方言的用户对这些内容感兴趣的可能很少。一些针对某地区的历史故事、时事新闻也更容易在使用该地区方言的用户中引起关注与共鸣。

具体的，所述方言类型包括但不限于北方方言(比如北京话、东北话、四川话)、吴方言、湘方言、客家方言、闽方言、粤方言、赣方言。当然，地域方言还可以包括世界其他地区的方言，比如高地德语、中地德语和低地德语。

在一个具体的实施例中，所述基于所述待识别语音数据进行识别以得到对应的方言类型，包括：将所述待识别语音数据输入语音识别模型，得到对应的方言类型；其中，所述语音识别模型是通过使用多个已标注的样本语音数据进行机器学习训练而获得的。使用多个已标注的样本语音数据进行机器学习训练得到语音识别模型，由此得到的语音识别模型具有高泛化能力，在利用语音识别模型进行语音识别时可以提高对不同目标用户输入的待识别语音数据的识别适应能力，进而可以大大提高语音识别的可靠性和有效性。

具体的，所述语音识别模型的训练过程包括如下步骤：

首先，获取所述样本数据，所述样本数据标注有对应的方言类型。可以先采集得到采集数据，再对采集数据作特征提取得到所述样本数据。采集数据的采集方式可以包括通过征集使用不同方言用户分别进行对应方言的语音录制。采集数据的采集方式也可以使用存量用户(比如设备声纹数据库中已存储声纹信息的用户)输入的语音数据，根据IP地址进行地域筛选，得到不同方言地区的语音数据。再进行人工标注出不同方言。当然，这里可以主要选取方言属性比较强的地区，比如广州(粤语)、成都(四川话)、梅州(客家话)等，尽量避开外来人口较多的地区，比如北京、深圳，这样可以减少方言筛选的工作量。采集数据的采集方式也可以使用方言的音视频作品，如粤语歌曲、川剧、客家山歌、上海地方戏等。如图7所示，对采集数据进行特征提取得到样本数据的过程，可以参考上述对原始语音数据进行特征提取得到待识别语音识别的过程(包括有预处理、特征信息提取的步骤)，这里不再赘述。

然后，将所述样本数据输入初始网络模型进行语音识别训练。初始网络模型可以采用GMM-UBM模型(Gaussian Mixture Model-Universal Background Model，高斯混合模型-通用背景模型)、CNN模型(Convolutional Neural Networks，卷积神经网络模型)、LSTM模型(Long-Short Term Memory，长短期记忆模型)。具体的，当训练用于识别粤语的语音识别模型时，对于输入的正例样本数据可以为经过特征提取后的粤语语音数据，负例样本数据可以为经过特征提取后的其他方言语音数据。

接着，在训练过程中，调整所述初始网络模型的模型参数至所述初始网络模型输出的方言类型与输入的所述样本数据对应的方言类型相匹配。可以计算所述初始网络模型输出的目标值(作为训练中间结果的方言类型)与所述样本数据的标注值(作为正确答案的方言类型)之间的损失值，根据所述损失值调整所述模型参数。具体的，可以采用梯度下降法对所述初始网络模型进行训练，设置学习率的初始值为0.0005至0.0015，每隔1000至3000次迭代调整所述学习率的取值。比如可以设置学习率的初始值为0.001，每隔2000次迭代调整所述学习率的取值。当然，对学习率的设置方式不限于此。

最后，将所述模型参数的当前值对应的所述初始网络模型作为所述语音识别模型。图6是本发明实施例提供的一种语音识别模型的应用场景的示意图。图6中训练数据为样本数据，每个所述样本数据标注有对应的方言类型；相应的，后续训练出来的语音识别模型可以对待识别语音数据进行方言类型的识别。

在另一个具体的实施例中，所述将所述待识别语音数据输入语音识别模型，得到对应的方言类型，包括：根据每个方言类型对应的所述语音识别模型，分别得到所述待识别语音数据对应各方言类型的预测值。每个方言类型可以有对应的语音识别模型，比如识别粤语的语音识别模型，识别四川话的语音识别模型。待识别语音数据分别输入各个方言类型对应的语音识别模型，进而得到所述待识别语音数据对应各方言类型的预测值，比如目标用户A对应的待识别语音数据在识别粤语的语音识别模型得到的预测值为90分(也可以以概率等形式表示)、在识别四川话的语音识别模型得到的预测值为50分以及在识别东北话的语音识别模型得到的预测值为20分。然后，比较得到所述待识别语音数据对应各方言类型的预测值的最大值，确定所述待识别语音数据属于所述最大值对应的方言类型。其中，在识别粤语的语音识别模型得到的预测值(90分)为最大值，那么可以确定所述待识别语音数据对应的方言类型为粤语。当然，可以对用作最大值的预测值作条件设置，比如预测值高于预设阈值(比如80分)才可以作为最大值。比如，将上述目标用户A对应的待识别语音数据在识别粤语的语音识别模型得到的预测值不是90分而是75分，那么可以视作目标用户A对应的待识别语音数据没有命中任何方言，可以将目标用户A对应的待识别语音数据识别为普通话以兜底。待识别语音数据在多个不同方言类型对应的语音识别模型中进行识别，再综合各个识别得到的预测值，可以保证对待识别语音数据的识别结果的准确度。

在另一个具体的实施例中，所述基于所述待识别语音数据进行识别以得到对应的方言类型，包括：当识别得到对应的方言类型时，创建所述目标用户所使用的设备与所述方言类型的映射关系，存储所述映射关系。具体的，所述目标用户所使用的设备识别出对应的方言类型后，可以在对应服务器存储所述设备与所述方言类型的映射关系。在实际应用中，可以在将所述映射关系在一定时间段(比如两周)内存储，这样当有获取到目标用户的待识别语音数据时可以优先与映射关系中存储的方言类型进行识别，相比于对待识别语音数据输入多个不同方言类型对应的语音识别模型进行识别，基于映射关系中记录的历史方言类型可以在一定程度上提高语音识别的效率，尤其对于多用户使用所述设备的场景中的目标用户相对固定的环境(比如家庭环境中各家庭成员使用设备频率相近)。对于多用户使用所述设备的场景中的目标用户相对变动的环境(比如家庭环境中各家庭成员使用设备频率不一)，为了保持推荐数据的稳定性，在存储映射关系的一定时间段(比如两周)内，如果有对应的方言类型的待识别语音数据输入，可以延长存储时间。

S204：根据所述方言类型，从待选用户群体中确定推荐用户；

在本发明实施例中，待选用户群体为至少一个所述设备对应的存量用户，已知存量用户对应的方言类型。可以根据目标用户的待识别语音数据在对应的语音识别模型中识别得到的预测值，以及存量用户的历史待识别语音数据在对应的语音识别模型中识别得到的预测值，进行相似度计算。当得到所述目标用户与所述用户群体中的每个用户两两之间的相似度之后，将所述相似度按从高到低的顺序进行排序，并选择相似度排名靠前的N个用户作为推荐用户，这里的N是整数，具体值可根据具体要求进行设置。

S205：获取所述推荐用户的兴趣列表，根据所述推荐用户的兴趣列表为所述目标用户创建推荐列表。

在本发明实施例中，根据推荐用户的操作行为(比如点击行为、收藏行为等)可获取所述推荐用户的兴趣列表。在为所述目标用户创建推荐列表时，可以对所述兴趣列表中的项目进行评分与相似度加权，并对所述评分与相似度加权的结果进行降序排序得到排序结果，根据所述排序结果为所述目标用户创建推荐列表。具体的，所述推荐列表可以包括所述推荐用户感兴趣的而所述目标用户没有观看过的视频列表。

利用协同过滤的思想，根据方言类型确定与目标用户使用同一方言或近似方言的推荐用户，利用推荐用户的兴趣列表来向所述目标用户进行推荐。这样可以共用其他人的经验，减少内容分析不完全或不精确的情况出现，并且能够基于一些复杂的、难以表述的概念(如信息质量、个人品味)进行过滤；同时推荐内容可能出现事先预料范围外的内容，有助于帮助目标用户发现潜在兴趣。

如图5所示，所述方法还包括：

S206：当所述鉴权结果为用户非首次使用时，获取所述目标用户的兴趣列表；基于所述待识别语音数据进行识别以得到对应的方言类型，根据所述方言类型，从待选用户群体中确定推荐用户；

在本发明实施例中，当所述鉴权结果为用户非首次使用时，表明所述目标用户为存量用户，也就是说目标用户有对应的历史操作行为(比如点击行为、收藏行为等)，这样可以获取所述目标用户的兴趣列表。这里基于所述待识别语音数据进行识别以得到对应的方言类型，根据所述方言类型，从待选用户群体中确定推荐用户的步骤，可参考上述S203、S204的相关记载，不再赘述。

S207：根据所述推荐用户的兴趣列表和所述目标用户的兴趣列表，为所述目标用户创建推荐列表。

在本发明实施例中，对于目标用户非首次使用时，可以根据所述推荐用户的兴趣列表和所述目标用户的兴趣列表，为所述目标用户创建推荐列表。因为已知目标用户的兴趣列表，相比于目标用户首次使用时，可以增加一个推荐维度。可以对目标用户的兴趣列表中的项目进行评分，不同的评分对应设置不同的权重值。确定所述推荐用户的兴趣列表中的各个项目与目标用户的兴趣列表中对应项目的相似度。利用相似度和权重值，得到所述推荐用户的兴趣列表中的各个项目的待推荐指数，并对所述待推荐指数进行降序排序得到排序结果，根据所述排序结果为所述目标用户创建推荐列表。这样将目标用户的兴趣列表和推荐用户的兴趣列表向结合，考虑了目标用户的历史兴趣，更能够得到满足目标用户需求的推荐内容。

具体的，可以使用声纹信息获取对应所述目标用户的兴趣列表，这样即使使用同一设备的多个用户，他们的兴趣列表也是独立的，利用声纹信息的特征，避免推荐数据的交叉影响。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，确定目标用户为首次使用时，通过识别出目标用户输入的待识别语音数据的方言类型，利用方言类型确定推荐用户，再根据推荐用户的兴趣列表向目标用户做推荐。提高在用户首次使用场景下个性化推荐的准确性。对使用同一方言或近似方言的用户进行协同过滤推荐，即同一个方言或近似方言的用户可以共享兴趣列表(比如观看习惯、收听爱好)。目标用户首次使用时输入语音数据便可获取具有个性化的推荐，解决冷启动问题。同时，身处异乡的用户也可以获取到与家乡相关的推荐内容，能够更好的满足用户的个性化需求。

本发明实施例还提供了一种基于语音识别的推荐装置，如图9所示，所述装置包括：

语音数据获取模块91：用于获取目标用户输入的待识别语音数据；

用户鉴权模块92：用于对所述目标用户进行鉴权，得到鉴权结果；如图10所示，所述用户鉴权模块92包括：声纹信息提取单元921：用于从所述待识别语音数据中提取出对应的声纹信息；声纹信息匹配单元922：用于在声纹数据库中对所述声纹信息进行匹配；鉴权结果确定单元923：用于根据匹配状态确定所述鉴权结果。

方言类型识别模块93：用于当所述鉴权结果为用户首次使用时，基于所述待识别语音数据进行识别以得到对应的方言类型；

推荐用户确定模块94：用于根据所述方言类型，从待选用户群体中确定推荐用户；

推荐列表创建模块95：用于获取所述推荐用户的兴趣列表，根据所述推荐用户的兴趣列表为所述目标用户创建推荐列表。

所述装置还用于：当所述鉴权结果为用户非首次使用时，获取所述目标用户的兴趣列表；基于所述待识别语音数据进行识别以得到对应的方言类型，根据所述方言类型，从待选用户群体中确定推荐用户；根据所述推荐用户的兴趣列表和所述目标用户的兴趣列表，为所述目标用户创建推荐列表。

需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的基于语音识别的推荐方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

所述电子设备可以为终端设备，请参阅图11，其所示为本发明实施例提供的一种终端设备的结构示意图，该终端设备用于实施上述实施例中提供的基于语音识别的推荐方法。具体来讲：

终端设备1100可以包括RF(RadioFrequency，射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、视频传感器1150、音频电路1160、WiFi(wirelessfidelity，无线保真)模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源110等部件。本领域技术人员可以理解，图11中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1180处理；另外，将涉及上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier，低噪声放大器)、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(GlobalSystemofMobilecommunication，全球移动通讯***)、GPRS(GeneralPacketRadioService，通用分组无线服务)、CDMA(CodeDivisionMultipleAccess，码分多址)、WCDMA(WidebandCodeDivisionMultipleAccess,宽带码分多址)、LTE(LongTermEvolution,长期演进)、电子邮件、SMS(ShortMessagingService，短消息服务)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备1100的使用所创建的数据(比如视频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器1180和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括图像输入设备1131以及其他输入设备1132。图像输入设备1131可以是摄像头，也可以是光电扫描设备。除了图像输入设备1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及终端设备1300的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(LiquidCrystalDisplay，液晶显示器)、OLED(OrganicLight-EmittingDiode，有机发光二极管)等形式来配置显示面板1141。

终端设备1100可包括至少一种视频传感器1150，视频传感器用于获取用户的视频信息。终端设备1100还可以包括其它传感器(未示出)，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在终端设备1100移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端设备1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

视频电路1160、扬声器1161，传声器1162可提供用户与终端设备1100之间的视频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1111以发送给比如另一终端设备，或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔，以提供外设耳机与终端设备1100的通信。

WiFi属于短距离无线传输技术，终端设备1100通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于终端设备1100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是终端设备1100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行终端设备1100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理核心；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

终端设备1100还包括给各个部件供电的电源110(比如电池)，优选的，电源可以通过电源管理***与处理器1180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源110还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端设备1100还可以包括蓝牙模块等，在此不再赘述。

具体在本实施例中，终端设备1100还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的基于语音识别的推荐方法的指令。

所述电子设备可以为服务器，本发明实施例还提供了一种服务器的结构示意图，请参阅图12，该服务器1200用于实施上述实施例中提供的基于语音识别的推荐方法。该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，CPU)1210(例如，一个或一个以上处理器)和存储器1230，一个或一个以上存储应用程序1223或数据1222的存储介质1220(例如一个或一个以上海量存储设备)。其中，存储器1230和存储介质1220可以是短暂存储或持久存储。存储在存储介质1220的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1210可以设置为与存储介质1220通信，在服务器1200上执行存储介质1220中的一系列指令操作。服务器1200还可以包括一个或一个以上电源1260，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1240，和/或，一个或一个以上操作***1221，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种基于语音识别的推荐方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的基于语音识别的推荐方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别的推荐方法，其特征在于，所述方法包括：

获取目标用户输入的待识别语音数据；

对所述目标用户进行鉴权，得到鉴权结果；

根据所述方言类型，从待选用户群体中确定推荐用户；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标用户进行鉴权，得到鉴权结果，包括：

从所述待识别语音数据中提取出对应的声纹信息；

在声纹数据库中对所述声纹信息进行匹配；

根据匹配状态确定所述鉴权结果。

3.根据权利要求1或2任一所述的方法，其特征在于，所述方法还包括：

当所述鉴权结果为用户非首次使用时，获取所述目标用户的兴趣列表；基于所述待识别语音数据进行识别以得到对应的方言类型，根据所述方言类型，从待选用户群体中确定推荐用户；

根据所述推荐用户的兴趣列表和所述目标用户的兴趣列表，为所述目标用户创建推荐列表。

4.根据权利要求1所述的方法，其特征在于，所述基于所述待识别语音数据进行识别以得到对应的方言类型，包括：

将所述待识别语音数据输入语音识别模型，得到对应的方言类型；其中，所述语音识别模型是通过使用多个已标注的样本语音数据进行机器学习训练而获得的。

5.根据权利要求4所述的方法，其特征在于，所述语音识别模型的训练过程包括如下步骤：

获取所述样本数据，所述样本数据标注有对应的方言类型；

将所述样本数据输入初始网络模型进行语音识别训练；

在训练过程中，调整所述初始网络模型的模型参数至所述初始网络模型输出的方言类型与输入的所述样本数据对应的方言类型相匹配；

将所述模型参数的当前值对应的所述初始网络模型作为所述语音识别模型。

6.根据权利要求4所述的方法，其特征在于，所述将所述待识别语音数据输入语音识别模型，得到对应的方言类型，包括：

根据每个方言类型对应的所述语音识别模型，分别得到所述待识别语音数据对应各方言类型的预测值；

比较得到所述待识别语音数据对应各方言类型的预测值的最大值，确定所述待识别语音数据属于所述最大值对应的方言类型。

7.根据权利要求1所述的方法，其特征在于，所述基于所述待识别语音数据进行识别以得到对应的方言类型，包括：

当识别得到对应的方言类型时，创建所述目标用户所使用的设备与所述方言类型的映射关系；

存储所述映射关系。

8.根据权利要求1所述的方法，其特征在于，所述获取目标用户输入的待识别语音数据，包括：

采集所述目标用户的原始语音数据；

对所述原始语音数据进行预处理，得到多个包含语音信号的音频帧数据；

从所述音频帧数据中提取得到包含特征信息的所述待识别语音数据。

9.一种基于语音识别的推荐装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-8任一所述的基于语音识别的推荐方法。