CN112948662A

CN112948662A - 一种推荐方法、装置和用于推荐的装置

Info

Publication number: CN112948662A
Application number: CN201911260344.5A
Authority: CN
Inventors: 叶祺; 薛静静; 李正宇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-11

Abstract

本发明实施例提供了一种推荐方法、装置和用于推荐的装置。其中的方法具体包括：获取用户输入的语音信息；对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；根据所述文本信息和所述个性化标签，确定推荐信息。本发明实施例可以提高推荐信息的准确性。

Description

一种推荐方法、装置和用于推荐的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种推荐方法、装置和用于推荐的装置。

背景技术

随着语音识别技术的不断发展，基于语音识别进行推荐的应用也越来越广泛。其中，语音识别技术就是以语音为研究对象，通过信号处理和识别技术让机器自动识别和理解人类口述的语言后，将语音信号转换为相应的文本或命令的一门技术。

推荐***利用语音识别技术，将用户输入的语音数据转换为文本，根据文本中的内容，向用户推荐相关的信息。然而，用户输入的每一句话，通常都是短文本。短文本由于具有长度短、特征稀疏、不规范、歧义大等特点，因此，根据识别得到的短文本获取推荐信息，可能导致获取的推荐信息不够准确，并不符合用户的意图。

发明内容

本发明实施例提供一种推荐方法、装置和用于推荐的装置，可以提高推荐信息的准确性。

为了解决上述问题，本发明实施例公开了一种推荐方法，所述方法包括：

获取用户输入的语音信息；

对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；

根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；

根据所述文本信息和所述个性化标签，确定推荐信息。

另一方面，本发明实施例公开了一种推荐装置，所述装置包括：

语音获取模块，用于获取用户输入的语音信息；

语音识别模块，用于对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

特征提取模块，用于对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；

标签确定模块，用于根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；

信息推荐模块，用于根据所述文本信息和所述个性化标签，确定推荐信息。

再一方面，本发明实施例公开了一种用于推荐的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取用户输入的语音信息；

根据所述文本信息和所述个性化标签，确定推荐信息。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的推荐方法。

本发明实施例包括以下优点：

本发明实施例在获取用户输入的语音信息之后，对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；并且对所述语音信息进行特征提取，得到所述语音信息对应的语音特征，以及根据所述语音特征，确定所述语音信息的个性化标签；进而可以根据所述文本信息和所述个性化标签，确定推荐信息。其中，所述个性化标签可用于表征语音特征中所包含、但是文本信息中无法表达的用户自身状态的信息，例如，所述个性化标签至少可以包括如下任意一种：性别、情绪、健康状况、所属地域。由此，本发明实施例在语音信息转化后的文本信息的基础上，结合语音信息的个性化标签所确定的推荐信息，更加符合用户的自身状态，进而更加符合用户意图，可以提高推荐信息的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种推荐方法实施例的步骤流程图；

图2是本发明的一种推荐装置实施例的结构框图；

图3是本发明的一种用于推荐的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种推荐方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、获取用户输入的语音信息；

步骤102、对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

步骤103、对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；

步骤104、根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；

步骤105、根据所述文本信息和所述个性化标签，确定推荐信息。

本发明实施例的推荐方法可适用于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，MovingPicture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本发明实施例的推荐方法可用于根据用户输入的语音信息，向用户提供更加符合用户意图的推荐信息。所述语音信息指的是一段连续的语音，例如一个句子、一段话等。可以理解，本发明实施例对所述语音信息的来源不加以限制，例如，所述语音信息可以为通过所述电子设备的录音功能实时采集的语音片段。

在本发明的一种可选实施例中，所述获取用户输入的语音信息，具体可以包括：获取用户通过即时通讯应用输入或发送或接收的语音信息。

其中，所述即时通讯应用是通过即时通讯技术来实现在线聊天、交流的应用程序。本发明实施例获取的语音信息可以包括：用户通过即时通讯应用输入的语音信息、用户通过即时通讯应用向通讯对端发送的语音信息、用户通过即时通讯应用从通讯对端接收的语音信息。由此，本发明实施例可以根据用户的聊天内容，向用户实时推荐符合其意图的推荐信息。

在获取用户输入的语音信息之后，可以对语音信息进行预处理，以消除由发声器官和采集设备所带来的混叠、高次谐波失真、高频等因素的影响，提高语音信息的质量。所述预处理可以包括预加重、分帧、加窗等操作。

在对语音信息进行预处理之后，可以对预处理后的语音信息进行语音识别，得到所述语音信息对应的文本信息。为了提高推荐信息的准确性，本发明实施例除了获取语音信息对应的文本信息之外，还可以对预处理后的语音信息逐帧进行特征提取，以削减语音信息中与识别无关的信息的影响，减少后续识别阶段所需处理的数据量，生成表征语音信息中说话人信息的语音特征。所述语音特征可以包括MFCC(Mel-frequencycepstralcoefficient，梅尔频率倒谱系数)，或LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱系数)，或滤波器组特征(Filter Bank Feature)等。

提取的语音特征中包含有文本信息无法表达的用户自身状态的重要信息(本发明实施例中称为个性化标签)，例如用户的性别、情绪、身体状况等。本发明实施例可以根据所述语音特征，确定所述语音信息的个性化标签，用于表达语音特征中包含的用户自身状态的特征信息，所述个性化标签至少可以包括如下任意一种：性别、情绪、健康状况、所属地域。

在本发明的一种应用示例中，假设获取用户输入的语音信息为“我现在嗓子不舒服，咳咳咳…”。本发明实施例可以对该语音信息进行语音识别得到相应的文本信息，还可以对该语音信息进行特征提取，得到该语音信息对应的语音特征，根据该语音特征，确定该语音信息的个性化标签。由于该语音信息中包含严重的咳嗽声，因此，根据提取的语音特征可以确定个性化标签为“感冒”，则可以根据语音识别得到的文本信息“我现在嗓子不舒服，咳咳咳…”和个性化标签“感冒”，确定推荐信息。

例如，根据该文本信息，可以得知用户的“嗓子不舒服”，根据该个性化标签，可以得知用户当前的自身状态为“感冒”。因此，可以获取用于治疗感冒以及嗓子疼的医疗信息、药物信息等作为推荐信息，推荐给用户。

本发明实施例在语音信息转化后的文本信息的基础上，结合语音信息的个性化标签，确定推荐信息。由于该个性化标签根据语音信息中提取的语音特征所确定，能够表达文本信息无法表达的用户自身状态的重要信息，因此，结合该个性化标签获取的推荐信息，更加符合用户的自身状态，进而更加符合用户意图，可以提高推荐信息的准确性。

在本发明的一种可选实施例中，步骤104中所述根据所述语音特征，确定所述语音信息的个性化标签，具体可以包括：

将所述语音特征输入分类模型，以通过所述分类模型输出所述语音特征对应的个性化标签；其中，所述分类模型为根据已标注个性化标签的语音样本数据训练得到。

本发明实施例可以预先训练用于识别个性化标签的分类模型，将语音信息提取的语音特征输入该分类模型，即可输出语音信息对应的个性化标签。该分类模型结合分类算法对语音特征进行分析处理，得到分类结果。可以理解，本发明实施例对所述分类算法的类型不加以限制。所述分类算法可以包括支持向量机、多层感知机、循环神经网络、卷积神经网络以及概率线性判别分析等。

在本发明的一种可选实施例中，所述将所述语音特征输入分类模型之前，所述方法还可以包括：

步骤S11、获取语音样本数据，所述语音样本数据标注有对应的个性化标签；

步骤S12、对所述语音样本数据进行特征提取，得到所述语音样本数据对应的语音样本特征；

步骤S13、将所述语音样本特征输入初始分类模型进行训练；

步骤S14、在训练过程中，调整所述初始分类模型的模型参数至所述初始分类模型输出的个性化标签与所述语音样本数据标注的个性化标签相匹配，得到训练完成的分类模型。

本发明实施例可以收集大量的语音样本数据，并且对所述语音样本数据标注对应的个性化标签，用于训练分类模型。

需要说明的是，本发明实施例可以对语音样本数据按照标注的个性化标签进行分类，对不同个性化标签类别的语音样本数据分别训练不同的分类模型。例如，分别针对用户的情绪、健康状况、性别等不同类别的个性化标签训练不同的分类模型，如情绪分类模型可用于输出用户的情绪，如开心、焦虑、激动等；健康状况分类模型可用于输出用户的健康状况，如感冒、发烧、头疼等；性别分类模型可用于输出用户的性别，如男、女；年龄分类模型可用于输出用户的年龄段，如老年、中年、青年、儿童。在应用时，可以将语音特征分别输入不同个性化标签类别的分类模型，以得到每一个分类模型的分类结果。或者，本发明实施例也可以根据语音样本数据训练一个通用的分类模型，例如，用于训练分类模型的语音样本数据包括健康状况和性别两种个性化标签，则训练后的分类模型可以输出健康状况和性别两个分类结果。

在收集语音样本数据之后，可以对所述语音样本数据进行特征提取，得到所述语音样本数据对应的语音样本特征；然后将所述语音样本特征输入初始分类模型进行训练，并且在训练过程中，调整所述初始分类模型的模型参数至所述初始分类模型输出的个性化标签与所述语音样本数据标注的个性化标签相匹配，得到训练完成的分类模型。

可以理解，本发明实施例对所述分类模型的具体类型不加以限制，所述分类模型可以包括DNN(Deep Neural Networks，深度神经网络)。所述深度神经网络可以融合多种神经网络，所述多种神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-TermMemory，长短时记忆)网络、RNN(Simple Recurrent Neural Network，循环神经网络)、注意力神经网络等。

在本发明的一种可选实施例中，步骤105根据所述文本信息和所述个性化标签，确定推荐信息，具体可以包括：

步骤S21、根据所述文本信息中的实体词，检索得到候选信息；

步骤S22、根据所述个性化标签和所述候选信息，确定推荐信息。

其中，实体词是在文本中具有特定意义的名词或代词，实体词可以包括人名、地名、机构名、专有名词等。例如，实体词可以包括：家电名、服装名、商品品牌名称、药品名称、提供服务名称(如洗车、家电维修、家政信息等)、票务名称、疾病名称等等。

本发明实施例可以识别文本信息中的实体词，将识别得到的实体词作为查询词输入搜索引擎，检索得到候选信息。例如，如果识别到文本信息中包含实体词“电影”，则可以将该实体词作为查询词进行搜索，如检索得到最近上映的电影相关信息、特价电影票的相关信息等，将上述检索结果作为候选信息。

接下来，可以根据所述个性化标签对所述候选信息进行筛选，确定推荐信息。所述个性化标签至少可以包括如下任意一种：性别、情绪、健康状况、所属地域。例如结合性别的个性化标签，可以向男性用户推荐体育新闻等相关信息，向女性用户推荐化妆品等相关信息。结合所属地域的个性化标签，可以对某地域的用户有针对性地推荐商品或服务等相关信息(如房产、餐馆等)。

仍以上述识别到的文本信息中包含实体词“电影”的示例为例，假设根据用户输入的语音信息，确定用户情绪对应的个性化标签为“高兴”，说明用户的情绪状态比较好，则可以从步骤S21中检索到的候选信息中，进一步筛选适合情绪状态比较好的时候观看的电影，作为推荐信息。

在本发明的又一种应用示例中，所述个性化标签还可以表示用户所属地域。例如，本发明实施例可以根据用户输入的语音信息中的语音特征，确定用户的口音，进而可以确定用户所属地域。例如根据用户语音中的口音特征，确定用户所属的地域为“上海”，则可以向用户推荐符合上海人习惯的推荐信息。例如，如果用户输入的语音信息中包含关于美食的实体词，则结合该用户的个性化标签，可以将更加符合上海人口味的美食信息作为推荐信息。

由此，本发明实施例将用户输入的语音信息转换为文本信息，以及提取语音信息中的语音特征，根据该语音特征确定用于表征用户当前状态的个性化标签，结合所述文本信息和所述语音特征，共同确定推荐信息，使得确定的推荐信息不仅符合用户的文本表达，而且符合用户当前的自身状态，可以提高信息推荐的准确性。

在本发明的一种可选实施例中，步骤102所述得到所述语音信息对应的文本信息之后，所述方法还可以包括：对所述文本信息进行意图识别，确定所述用户的推荐意图。

为了进一步提高信息推荐的准确性，使得推荐的信息更加符合用户意图，本发明实施例在对用户输入的语音信息进行语音识别，转化为文本信息之后，还可以对所述文本信息进行意图识别，确定所述用户的推荐意图。具体地，可以对所述文本信息进行分词处理，得到所述文本信息中的关键词，根据所述关键词，确定符合用户的推荐意图。

例如，将用户输入的语音信息转化为如下文本信息：“我现在嗓子不舒服，咳咳咳…”，对该文本信息进行分词，可以得到该文本信息包括如下关键词：“我”、“嗓子”、“不舒服”。根据上述关键词，可以确定用户的推荐意图与医疗健康方面相关。又如，对于文本信息“今晚想吃火锅吗？”，该文本信息包括关键词“今晚”、“吃火锅”。根据上述关键词，可以确定用户的推荐意图与餐馆相关。

推荐意图的识别可以看作是对语义表达进行分类的问题，可以采用分类方法进行识别，所述分类方法包括支持向量机和深度神经网络等。可以理解，本发明实施例对识别推荐意图的具体方式不加以限制。例如，可以预先收集大量的文本样本，对文本样本的推荐意图进行标注，训练得到用于识别推荐意图的识别模型。在具体应用中，将语音信息转化后的文本信息输入该识别模型中，即可输出对应的推荐意图。

在确定用户的推荐意图之后，可以结合推荐意图、个性化标签、以及语音特征，共同确定推荐信息，以进一步提高推荐信息的准确性。

其中，个性化标签可以对用户的推荐意图进行补充，如反映用户的情绪、心情、健康状况等，使得推荐信息更符合用户当前的状态。此外，本发明实施例在确定推荐信息的过程中，还可以进一步结合语音特征，该语音特征从用户原始的语音数据中提取得到，使得最终的推荐结果不仅仅依赖于自然语言理解得到的分析结果，同时可以体现最原始的语音特征，从而使得推荐结果依赖于表征更加丰富的多种特征，进一步提高推荐结果的准确性。

可选地，所述根据所述文本信息和所述个性化标签，确定推荐信息，具体可以包括：

步骤S31、生成所述推荐意图对应的第一向量、所述个性化标签对应的第二向量、以及所述语音特征对应的第三向量；

步骤S32、将所述第一向量、所述第二向量、以及所述第三向量拼接得到用户特征向量；

步骤S33、根据所述文本信息对应的候选信息，生成第四向量；

步骤S34、将所述用户特征向量和所述第四向量输入推荐模型，以通过所述推荐模型输出推荐信息。

本发明实施例可以通过向量化技术，对推荐意图、个性化标签、语音特征、以及推荐信息(如网页信息)均进行向量化表示，通过最近邻或基于深度学习的推荐模型等技术确定推荐信息。

对于推荐意图和个性化标签，可以利用词向量模型进行向量化表示。具体地，将推荐意图输入词向量模型得到第一向量；将个性化标签输入词向量模型得到第二向量。其中，所述词向量模型可以包括Word2Vec或GloVe等。

对于语音特征，其对应的第三向量可以为梅尔频率倒谱系数(MFCC)特征向量。具体地，对于预处理后的语音信息，可以进行傅里叶变换，并进一步对于变换后的信号进行滤波处理及DCT(Discrete Cosine Transform，离散余弦变化)，最终得到对应于该语音信息的MFCC特征向量，作为第三向量。

将所述第一向量、所述第二向量、以及所述第三向量拼接可以得到用户特征向量。本发明实施例可以计算用户特征向量与推荐信息的向量之间的相关性，选择相关性较高的推荐信息推荐给用户。

具体地，根据所述文本信息可以确定待推荐的候选信息(如网页信息)，对候选信息进行向量化表示可以得到第四向量，将所述用户特征向量和所述第四向量输入预先训练的推荐模型，所述推荐模型可以计算所述用户特征向量和所述第四向量之间的相关性，根据所述相关性对候选信息进行排序，选择排序靠前的n(n为正整数)个候选信息作为推荐信息进行推荐。

可以理解，本发明实施例对所述推荐模型的结构以及训练方式不加以限制。

所述推荐模型可以为深度神经网络模型，所述深度神经网络可以融合多种神经网络，所述多种神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN网络、RNN、注意力神经网络等。

在本发明的一种示例中，可以通过如下步骤训练得到所述推荐模型：首先，可以收集大量用户的历史语音信息对应的历史推荐数据，根据用户是否对历史推荐数据产生点击行为，对历史推荐数据进行标注，得到标注结果。然后，根据历史语音信息对应的文本信息，确定历史推荐意图；根据历史语音信息对应的语音特征，确定历史个性化标签。接下来，生成历史推荐意图对应的历史第一向量、历史个性化标签对应的历史第二向量、历史语音信息的语音特征对应的历史第三向量，以及历史候选信息对应的历史第四向量。最后，将历史第一向量、历史第二向量、以及历史第三向量拼接得到的历史用户特征向量和历史第四向量输入初始的推荐模型，根据初始的推荐模型输出的推荐结果与标注结果之间的差异，对所述初始的推荐模型进行参数优化，直到初始的推荐模型输出的推荐结果和标注结果之间的差异小于预设阈值，得到训练完成的推荐模型。

在本发明的一种可选实施例中，所述确定所述用户的推荐意图之后，所述方法还可以包括：

步骤S41、获取所述推荐意图对应的槽位信息；

步骤S42、根据所述槽位信息，对所述文本信息进行槽位填充，得到所述文本信息中对应所述槽位信息的各槽位值。

在本发明实施例中，可以预先设置推荐意图对应的槽位信息。所述槽位信息指的是垂直搜索领域中所需的槽位，不同的推荐意图可以对应不同的槽位信息。例如对于购物意图，对应的槽位信息可以包括：商品名、品牌名、型号、价格等。又如对于医疗健康意图，对应的槽位信息可以包括：身体部位、身体状况、人称、时间等。

如果根据文本信息确定用户的推荐意图为医疗健康意图，则可以获取预先设置的医疗健康意图对应的槽位信息。然后根据该槽位信息，对所述文本信息进行槽位填充，得到所述文本信息中对应所述槽位信息的各槽位值。其中，槽位填充可以看做是序列标注问题，是对所述文本信息中的每个词与预先设置的槽位信息进行匹配，识别出所述文本信息中对应所述槽位信息的各槽位值。

所述生成所述推荐意图对应的第一向量，具体可以包括：根据所述文本信息中对应所述槽位信息的各槽位值，生成所述推荐意图对应的第一向量。

由于文本信息中的槽位值与文本信息对应推荐意图的槽位信息相匹配，因此，在确定文本信息中对应槽位信息的各槽位值之后，可以对文本信息中的各槽位值进行向量化表示，得到所述推荐意图对应的第一向量。

在本发明的一种应用示例中，假设获取用户输入的语音信息为“我现在嗓子不舒服，咳咳咳…”。首先，对该语音信息进行语音识别得到相应的文本信息。根据文本信息中的关键词(如：“我”、“嗓子”、“不舒服”)，可以确定用户的推荐意图为医疗健康意图，因此，可以获取医疗健康意图对应的槽位信息(如：身体部位、身体状况、人称、时间)，通过槽位填充，得到该文本信息中对应该槽位信息的各槽位值具体如下：身体部位＝“嗓子”、身体状况＝“不舒服”、人称＝“我”、时间＝“现在”。此外，可以对该语音信息进行特征提取，得到该语音信息对应的语音特征，根据该语音特征，确定该语音信息的个性化标签。由于该语音信息中包含严重的咳嗽声，因此，根据提取的语音特征可以确定个性化标签为“感冒”。接下来，根据文本信息中的各槽位值，可以生成所述推荐意图对应的第一向量，具体地，可以将(身体部位＝“嗓子”、身体状况＝“不舒服”、人称＝“我”、时间＝“现在”)进行向量化表示，得到第一向量；将个性化标签“感冒”进行向量化表示，得到第二向量；以及将用户输入的语音信息“我现在嗓子不舒服，咳咳咳…”提取的语音特征，进行向量化表示，得到第三向量。最后，将所述第一向量、第二向量和第三向量拼接得到用户特征向量，将所述用户特征向量和所述候选信息对应的第四向量输入推荐模型，得到推荐信息。

在根据用户输入的语音信息确定推荐信息之后，可以向用户显示该推荐信息。具体地，可以在用户当前使用的即时通讯应用的聊天界面中，向用户展示该推荐信息，以使用户通过点击推荐信息即可直接查看该推荐信息的详细内容，提高用户获取推荐信息内容的效率和便利性。

可选地，本发明实施例还可以向用户的通讯对端发送该推荐信息。由于当前用户与通讯对端用户正在使用即时通讯应用进行聊天，两者可能对于当前相同的话题具有相同推荐意图，因此，还可以向通讯对端用户推荐当前用户的推荐信息，以使通讯对端用户可以快速获取所需的推荐信息。

综上，本发明实施例在获取用户输入的语音信息之后，对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；并且对所述语音信息进行特征提取，得到所述语音信息对应的语音特征，以及根据所述语音特征，确定所述语音信息的个性化标签；进而可以根据所述文本信息和所述个性化标签，确定推荐信息。其中，所述个性化标签可用于表征语音特征中所包含、但是文本信息中无法表达的用户自身状态的信息，例如，所述个性化标签至少可以包括如下任意一种：性别、情绪、健康状况、所属地域。由此，本发明实施例在语音信息转化后的文本信息的基础上，结合语音信息的个性化标签所确定的推荐信息，更加符合用户的自身状态，进而更加符合用户意图，可以提高推荐信息的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种推荐装置实施例的结构框图，所述装置具体可以包括：

语音获取模块201，用于获取用户输入的语音信息；

语音识别模块202，用于对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

特征提取模块203，用于对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；

标签确定模块204，用于根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；

信息推荐模块205，用于根据所述文本信息和所述个性化标签，确定推荐信息。

可选地，所述信息推荐模块205，具体可以包括：

检索子模块，用于根据所述文本信息中的实体词，检索得到候选信息；

确定子模块，用于根据所述个性化标签和所述候选信息，确定推荐信息。

可选地，所述装置还可以包括：

意图确定模块，用于对所述文本信息进行意图识别，确定所述用户的推荐意图；

所述信息推荐模块，包括：

第一生成子模块，用于生成所述推荐意图对应的第一向量、所述个性化标签对应的第二向量、以及所述语音特征对应的第三向量；

第二生成子模块，用于将所述第一向量、所述第二向量、以及所述第三向量拼接得到用户特征向量；

第三生成子模块，用于根据所述文本信息对应的候选信息，生成第四向量；

信息确定子模块，用于将所述用户特征向量和所述第四向量输入推荐模型，以通过所述推荐模型输出推荐信息。

可选地，所述装置还可以包括：

槽位获取模块，用于获取所述推荐意图对应的槽位信息；

槽位填充模块，用于根据所述槽位信息，对所述文本信息进行槽位填充，得到所述文本信息中对应所述槽位信息的各槽位值；

所述第一向量确定子模块，具体用于根据所述文本信息中对应所述槽位信息的各槽位值，生成所述推荐意图对应的第一向量。

可选地，所述标签确定模块，具体用于将所述语音特征输入分类模型，以通过所述分类模型输出所述语音特征对应的个性化标签；其中，所述分类模型为根据已标注个性化标签的语音样本数据训练得到。

可选地，所述装置还可以包括：

样本获取模块，用于获取语音样本数据，所述语音样本数据标注有对应的个性化标签；

特征获取模块，用于对所述语音样本数据进行特征提取，得到所述语音样本数据对应的语音样本特征；

特征训练模块，用于将所述语音样本特征输入初始分类模型进行训练；

参数调整模块，用于在训练过程中，调整所述初始分类模型的模型参数至所述初始分类模型输出的个性化标签与所述语音样本数据标注的个性化标签相匹配，得到训练完成的分类模型。

可选地，所述语音获取模块，具体用一个获取用户通过即时通讯应用输入或发送或接收的语音信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于推荐的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取用户输入的语音信息；对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；根据所述文本信息和所述个性化标签，确定推荐信息。

图3是根据一示例性实施例示出的一种用于推荐的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的推荐方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种推荐方法，所述方法包括：获取用户输入的语音信息；对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；对所述语音信息进行特征提取，得到所述语音信息对应的语音特征；根据所述语音特征，确定所述语音信息的个性化标签，所述个性化标签至少包括如下任意一种：性别、情绪、健康状况、所属地域；根据所述文本信息和所述个性化标签，确定推荐信息。

本发明实施例公开了A1、一种推荐方法，包括：

获取用户输入的语音信息；

根据所述文本信息和所述个性化标签，确定推荐信息。

A2、根据A1所述的方法，所述根据所述文本信息和所述个性化标签，确定推荐信息，包括：

根据所述文本信息中的实体词，检索得到候选信息；

根据所述个性化标签和所述候选信息，确定推荐信息。

A3、根据A1所述的方法，所述得到所述语音信息对应的文本信息之后，所述方法还包括：

对所述文本信息进行意图识别，确定所述用户的推荐意图；

所述根据所述文本信息和所述个性化标签，确定推荐信息，包括：

生成所述推荐意图对应的第一向量、所述个性化标签对应的第二向量、以及所述语音特征对应的第三向量；

将所述第一向量、所述第二向量、以及所述第三向量拼接得到用户特征向量；

根据所述文本信息对应的候选信息，生成第四向量；

将所述用户特征向量和所述第四向量输入推荐模型，以通过所述推荐模型输出推荐信息。

A4、根据A3所述的方法，所述确定所述用户的推荐意图之后，所述方法还包括：

获取所述推荐意图对应的槽位信息；

根据所述槽位信息，对所述文本信息进行槽位填充，得到所述文本信息中对应所述槽位信息的各槽位值；

所述生成所述推荐意图对应的第一向量，包括：

根据所述文本信息中对应所述槽位信息的各槽位值，生成所述推荐意图对应的第一向量。

A5、根据A1所述的方法，所述根据所述语音特征，确定所述语音信息的个性化标签，包括：

A6、根据A5所述的方法，所述将所述语音特征输入分类模型之前，所述方法还包括：

获取语音样本数据，所述语音样本数据标注有对应的个性化标签；

对所述语音样本数据进行特征提取，得到所述语音样本数据对应的语音样本特征；

将所述语音样本特征输入初始分类模型进行训练；

在训练过程中，调整所述初始分类模型的模型参数至所述初始分类模型输出的个性化标签与所述语音样本数据标注的个性化标签相匹配，得到训练完成的分类模型。

A7、根据A1至A6任一所述的方法，所述获取用户输入的语音信息，包括：

获取用户通过即时通讯应用输入或发送或接收的语音信息。

本发明实施例公开了B8、一种推荐装置，包括：

语音获取模块，用于获取用户输入的语音信息；

B9、根据B8所述的装置，所述信息推荐模块，包括：

B10、根据B8所述的装置，所述装置还包括：

所述信息推荐模块，包括：

B11、根据B10所述的装置，所述装置还包括：

槽位获取模块，用于获取所述推荐意图对应的槽位信息；

B12、根据B8所述的装置，所述标签确定模块，具体用于将所述语音特征输入分类模型，以通过所述分类模型输出所述语音特征对应的个性化标签；其中，所述分类模型为根据已标注个性化标签的语音样本数据训练得到。

B13、根据B12所述的方法，所述装置还包括：

B14、根据B8至B13任一所述的装置，所述语音获取模块，具体用一个获取用户通过即时通讯应用输入或发送或接收的语音信息。

本发明实施例公开了C15、一种用于推荐的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取用户输入的语音信息；

根据所述文本信息和所述个性化标签，确定推荐信息。

C16、根据C15所述的装置，所述根据所述文本信息和所述个性化标签，确定推荐信息，包括：

根据所述文本信息中的实体词，检索得到候选信息；

根据所述个性化标签和所述候选信息，确定推荐信息。

C17、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述文本信息进行意图识别，确定所述用户的推荐意图；

根据所述文本信息对应的候选信息，生成第四向量；

C18、根据C17所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取所述推荐意图对应的槽位信息；

所述生成所述推荐意图对应的第一向量，包括：

C19、根据C15所述的装置，所述根据所述语音特征，确定所述语音信息的个性化标签，包括：

C20、根据C19所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

将所述语音样本特征输入初始分类模型进行训练；

C21、根据C15至C20任一所述的装置，所述获取用户输入的语音信息，包括：

获取用户通过即时通讯应用输入或发送或接收的语音信息。

本发明实施例公开了D22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的推荐方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种推荐方法、一种推荐装置和一种用于推荐的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种推荐方法，其特征在于，所述方法包括：

获取用户输入的语音信息；

根据所述文本信息和所述个性化标签，确定推荐信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本信息和所述个性化标签，确定推荐信息，包括：

根据所述文本信息中的实体词，检索得到候选信息；

根据所述个性化标签和所述候选信息，确定推荐信息。

3.根据权利要求1所述的方法，其特征在于，所述得到所述语音信息对应的文本信息之后，所述方法还包括：

对所述文本信息进行意图识别，确定所述用户的推荐意图；

根据所述文本信息对应的候选信息，生成第四向量；

4.根据权利要求3所述的方法，其特征在于，所述确定所述用户的推荐意图之后，所述方法还包括：

获取所述推荐意图对应的槽位信息；

所述生成所述推荐意图对应的第一向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征，确定所述语音信息的个性化标签，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述语音特征输入分类模型之前，所述方法还包括：

将所述语音样本特征输入初始分类模型进行训练；

7.根据权利要求1至6任一所述的方法，其特征在于，所述获取用户输入的语音信息，包括：

获取用户通过即时通讯应用输入或发送或接收的语音信息。

8.一种语音识别装置，其特征在于，所述装置包括：

语音获取模块，用于获取用户输入的语音信息；

9.一种用于推荐的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取用户输入的语音信息；

根据所述文本信息和所述个性化标签，确定推荐信息。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的推荐方法。