CN111755015A

CN111755015A - 一种用户画像构建方法及装置

Info

Publication number: CN111755015A
Application number: CN201910233082.7A
Authority: CN
Inventors: 刘克林
Original assignee: Beijing Junlin Technology Co ltd
Current assignee: Suzhou Junlin Intelligent Technology Co ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2020-10-09
Anticipated expiration: 2039-03-26
Also published as: CN111755015B

Abstract

本申请提供一种用户画像构建及装置，所述方法通过深度学习建立多个用户特征标签模型，包括用户身份标签模型、性别标签模型和年龄标签模型等，并分别利用所述用户特征标签模型的判断结果对同一用户各个标签进行判断，从而构建得到用户画像，本申请提供的方法能够在用户无感知的情况下较为准确地完成用户画像。本申请还提供一种利用所述方法及装置提供个性化服务的方法，所述提供个性化服务的方法基于前述无感知的用户画像构建方法，从而提高用户的体验，省去特别进行身份认证和识别的步骤，对于新用户可以按照预设模式提供服务，以提高用户的体验度。

Description

一种用户画像构建方法及装置

技术领域

本申请属于计算机应用技术领域，特别涉及一种用户画像构建方法及装置。

背景技术

随着智能设备的普及以及科技的不断发展，用户对智能设备智能化程度的要求也不断提高。智能设备的智能化程度与其根据用户输入的语音信息生成的用户画像的准确程度相关。

所谓用户画像为包括用户的性别、年龄、喜好等特征的综合信息，通常，智能设备的人物画像是通过声纹注册来实现的，例如，用户需要对智能设备说出预设的标准语句，如“我是中国人”，甚至可能需要反复多次说出相同或者不同的标准语句，从而智能设备根据标准的声纹特征来进行用户画像。采用这种方式进行用户画像，操作繁琐，而且获得的画像特征少。

发明内容

本申请提供一种用户画像构建方法及装置，所述方法通过深度学习建立多个用户特征标签模型，包括用户身份标签模型、性别标签模型和年龄标签模型等，并分别利用所述用户特征标签模型的判断结果对同一用户各个标签进行判断，从而构建得到用户画像。本申请提供的方法能够在用户无感知的情况下较为准确地完成用户画像。

本申请提供的目的在于提供以下几个方面：

第一方面，本申请提供一种用户画像构建方法，所述方法包括：采集第i条用户语音，其中，i＝1，2，3，……；获取短时帧语音，所述短时帧语音由第i条用户语音分帧生成；获取短时帧特征向量，所述短时帧特征向量为根据第i条用户语音生成的每帧短时帧提取的特征向量；获取语音特征向量，所述语音特征向量为根据第i条用户语音对应的所有短时帧特征向量生成；生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签；如果用户身份标签相同的用户语音数量达到预设值，则获取待画像语音，所述待画像语音为标记有所述用户身份标签的所有用户语音；根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像。

本申请提供的用户画像构建方法预设有用户身份标签模型，能够自动采集用户语音并且进行用户画像构建，并且针对同一用户利用多次用户画像构建结果生成最终用户画像，从而在用户无感知的情况下可以自动进行用户画像构建，而不需要用户特别进行身份认证。

结合第一方面，所述方法还包括：如果用户身份标签相同的用户语音数量小于预设值，则采集第i+1条用户语音；获取短时帧语音，所述短时帧语音由第i+1条用户语音分帧生成；获取短时帧特征向量，所述短时帧特征向量为根据第i+1条用户语音生成的每帧短时帧提取的特征向量；获取语音特征向量，所述语音特征向量为根据第i+1条用户语音对应的所有短时帧特征向量生成；生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签。

在一种优选的方式中，所述获取短时帧语音包括：将所述第i条用户语音按照预设时长分割成多个短时帧语音；如果最末一个短时帧语音的时帧长度小于预设时长，则舍去最末一个短时帧语音。

在一种优选的方式中，所述获取短时帧特征向量包括：对每段短时帧语音以帧为单位对所述短时帧语音的高频部分进行预增强；将预增强后的短时帧转换为频域信号；根据所述频域信号计算每段短时帧的短时帧特征向量，所述短时帧特征向量包括倒梅尔能量谱。

在一种优选的方式中，所述获取语音特征向量包括：依次融合第i条用户语音对应的所有短时帧特征向量生成语音特征向量。

在一种优选的方式中，所述根据所述语音特征向量利用预设声纹模型生成用户身份标签包括：根据生成第i条用户语音的语音特征向量利用预设声纹模型生成该条语音的身份向量；获取所有已存身份向量；计算第i条语音的身份向量与每条已存身份向量之间的余弦距离；根据所述余弦距离生成用户身份标签。

在一种优选的方式中，所述根据所述语音特征向量利用性别模型生成性别标签包括：根据第i条用户语音的语音特征向量利用预设性别模型生成性别概率，根据所述性别概率生成性别标签。

在一种优选的方式中，所述根据所述语音特征向量利用所述根据所述语音特征向量利用年龄模型生成年龄标签包括：根据第i条用户语音的语音特征向量利用预设年龄模型生成年龄段概率；根据所述年龄段概率生成年龄标签。

在一种优选的方式中，如果用户语音的数量超过积累预设值，则根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像包括：获取所述待画像语音生成的所有性别标签和年龄标签；利用多数选举法根据所述所有性别标签和年龄标签确定用于建构用户画像的性别标签和年龄标签；生成该用户的用户画像，所述用户画像包括该用户的用户身份标签、利用多数选举法确定的性别标签和年龄标签。

与现有技术相比，本申请提供的用户画像构建方法能够利用预设的用户身份标签模型在用户无感知的情况下自动构建用户画像，从而解决传统的用户画像需要用户特别进行身份识别和认证的问题。

第二方面，本申请还提供一种用户画像构建装置，所述装置包括：用户语音采集单元，用于采集第i条用户语音，其中，i＝1，2，3，……；短时帧获取单元，用于获取短时帧语音，所述短时帧语音由第i条用户语音分帧生成；特征向量生成单元，用于获取短时帧特征向量，所述短时帧特征向量为根据第i条用户语音生成的每帧短时帧提取的特征向量；所述特征向量生成单元还用于获取语音特征向量，所述语音特征向量为根据第i条用户语音对应的所有短时帧特征向量生成；用户特征标签生成单元，用于生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签；用户画像构建单元，用于如果用户身份标签相同的用户语音数量达到预设值，则获取待画像语音，所述待画像语音为标记有所述用户身份标签的所有用户语音；所述用户画像构建单元还用于根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像。

第三方面，本申请还提供一种用户画像构建终端，所述终端包括语音采集装置、如第二方面所述的用户画像构建装置。

第四方面，本申请还提供一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括如第一方面所述状态检测方法的部分或者全部步骤。

第五方面，本申请还提供一种终端，该终端包括：收发器、处理器和存储器等器件，所述处理器可以执行所述存储器中所存储的程序或指令，从而实现如第一方面所述的方法。

第六方面，本申请还提供一种计算机程序，当其在计算机上运行时，所述程序使得所述计算机执行如第一方面所述的方法。

第七方面，本申请还提供一种基于第一方面所述用户画像构建方法提供个性化服务的方法，所述方法包括：获取用户语音，根据所述用户语音生成用户特征标签；调取所述用户特征标签对应的用户画像；根据所述用户画像向智能设备发出提供个性化服务指令。

本申请提供的提供个性化服务的方法基于第一方面所述无感知的用户画像构建方法，从而提高用户的体验，省去特别进行身份认证和识别的步骤，对于新用户可以按照预设模式提供服务，以提高用户的体验度。

结合第七方面，在一种可实现的方式中，所述方法还包括：如果调取用户画像失败，则根据预设模式提供服务，并且，根据所述用户语音利用第一方面所述方法生成该用户的用户画像。

第八方面，本申请还提供一种个性化服务提供装置，所述装置包括：用户语音获取模块，用于获取用户语音，根据所述用户语音生成用户特征标签；用户画像调取模块，用于调取所述用户特征标签对应的用户画像；服务指令生成模块，用于根据所述用户画像向智能设备发出提供个性化服务指令。

第九方面，本申请还提供一种个性化服务提供终端，所述终端包括语音采集装置、如第八方面所述的个性化服务提供装置。

第十方面，本申请还提供一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括如第七方面所述状态检测方法的部分或者全部步骤。

第十一方面，本申请还提供一种终端，该终端包括：收发器、处理器和存储器等器件，所述处理器可以执行所述存储器中所存储的程序或指令，从而实现如第七方面所述的方法。

附图说明

图1为本实施例提供的一种训练预设声纹模型的方法流程示意图；

图2示出本实施例所用的一种三角滤波器；

图3示出本实施例优选的用户画像构建方法的流程示意图。

具体实施方式

下面通过对本发明进行详细说明，本发明的特点和优点将随着这些说明而变得更为清楚、明确。

以下详述本发明。

随着智能设备的发展，生活中越来越多的智能设备被使用，例如智能电视和智能音箱等，这些智能设备可以根据用户的指令提供相应的服务，甚至能够针对某个用户提供个性化服务，例如，一个家庭包括性别、年龄不同的多个家庭成员，每个家庭成员对电视节目的喜好也不相同，在不同家庭成员分别发出“请转到最喜爱的节目”的指令时，智能设备可以提供根据不同家庭成员的个人喜好而转到不同的电视频道。这种提供个性化服务的方法一般基于用户画像结果，而传统进行用户的画像的方法是在使用所述智能设备之前特别进行一次用户画像，以上述示例为例，如果一个家庭包括5名家庭成员，则需要对这5名家庭成员分别进行一次用户画像，输入用户的年龄、性别、喜好等信息，或者向智能设备发出特定语音、做出特定表情等，使智能设备根据这些信息生成用户画像。如果某一位家庭成员在该智能设备上未进行用户画像，则该智能设备不能为其提供个性化服务。

由于传统的用户画像方法需要用户进行一次特别的用户画像过程，而这个过程操作比较繁琐，因此，用户体验度不佳，有些用户甚至为避免这种麻烦或者因为某些原因不会操作用户画像认证过程而放弃用户画像，从而使智能设备的个性化服务功能被动禁用。

本申请提供的用户画像方法无需用户特别进行用户画像，能够在用户无感知的情况下自动启动用户画像，从而提高用户的体验度。

在本实施例中，以对某家庭各个家庭成员进行用户画像为例说明本申请的技术方案。在本示例中，该家庭包括五位家庭成员，其中，所述五位家庭成员分别为爷爷(男，70岁)、奶奶(女，70岁)、爸爸(男，40岁)、妈妈(女，40岁)和孩子(男，10岁)；进行用户画像的智能设备为一台智能电视。所述智能电视上装载有能够本实施例所述方法的程序，自动选择电视频道程序，自动搜索网络电视程序和至少一款购物APP。所述智能电视上安装有语音采集装置、处理器和播放器，其中，语音采集装置与处理器可以通过电连接，也可以通过WIFI等无线通信方式连接。所述播放器用于播放所选定的电视节目，其与所述处理器可以通过电连接，也可以通过WIFI等无线通信方式连接。所述处理器用于根据所述语音采集装置上传的语音信息进行用户画像，并根据用户画像结果为不同用户提供个性化服务。

本申请的方案是基于深度神经网络模型的用户画像构建方法，具体是指利用seqto seq (sequence to sequence，序列到序列)的学习模型在经过大规模的音频训练得到的用户画像构建方法。所述学习模型包括LSTM-RNN等模型，其中，LSTM为长短期记忆网络(Long Short-Term Memory)，RNN为循环神经网络(Recurrent Neural Network)。

在本实施例中，所用模型包括预设声纹模型、预设性别模型和预设年龄模型，所述三种模型均可以在所述模型训练阶段建立，所述三种模型均可以为深度神经网络模型。

作为一种机器学习模型，基于深度神经网络的状态检测***包括模型训练和模型使用两个阶段。

所述模型训练阶段是指根据训练语音，通过反向传播等算法来确定神经网络上各个模块参数的阶段。

所述模型使用阶段是指在所述模型训练阶段结束后，利用已经训练的模型，以由目标设备采集而得的待服务语音为输入，通过神经网络***中各个模块的计算为用户进行用户画像，生成用户画像结果。

为便于理解，首先介绍模型训练阶段。

所述模型训练阶段主要用于确定所述模型中各个计算模块的参数，所述神经网络的参数可以表示为(W，b)，其中，W表示参数矩阵，b表示偏置项，因此，在模型训练阶段所需要确定的参数包括权重矩阵W以及偏置项b。

在本实施例中，以预设声纹模型为例说明模型训练采用的方法，图1为本实施例提供的一种训练预设声纹模型的方法流程示意图，结合图1，具体地，所述预设声纹模型训练阶段包括：

S111，获取训练语音。

在本实施例中，所述训练语音可以来自现场采集，也可以来自网络。用于训练声纹模型的训练语音至少预先标记有身份信息，即，该训练语音的发声者，每名发声者具有唯一的标签。

可选地，每名发声者至少提供2条训练语音。

在本实施例中，所述训练语音可以为数字语音也可以为固定短语或者自由文。

S112，获取短时帧训练语音。

在本实施例中，可以按照一定的时长将所述训练语音分帧成多段语音片段，即，短时帧，例如，每个短时帧的长度可以为20ms。

可选地，本实施例采用帧迭分帧的方法对所述训练语音进行分帧，即，分帧得到的两个相邻的短时帧之间交叠，例如，将所述训练语音的第1ms至20ms划分成第一短时帧，将所述训练语音的第11ms至第31ms划分成第二短时帧，以此类推，获得所述训练语音的所有短时帧。

进一步地，所述帧迭的时长可以为1/2N，其中，N表示每个短时帧的时长，从而避免相两短时帧的能量变化过大，帧迭分帧的方式会使两个相邻的短时帧产生一段重叠区域，所述重叠区域包含M个取样点，通常M的值约为N的1/2或1/3。

进一步地，如果最后一个短时帧的时长小于短时帧的时长，则删除最后一个短时帧。

S113，获取训练短时帧特征向量。

在本实施例中，所述短时帧特征向量包括梅尔能量谱和梅尔倒谱系数等。所述短时帧特征向量用于建立基于音频特征的状态检测模型，所述短时帧特征向量可以作为模型的输入信息。

在一种可实现的方式中，所述对每个短时帧进行特征提取生成短时帧特征向量包括：

S1131，对每帧短时帧进行预增强生成增强短时帧。

在本实施例中，在提取所述短时帧特征向量之前，对所述短时帧中的高频信号进行加强，从而消除发声过程产生的声带效应和嘴唇效应，进而补偿语音信号受到发音***所抑制的高频部分，同时也能够突出高频的共振峰。

可选地，可以利用下式(1)所示的公式对每个短时帧中的高频信号进行加强：

A(n)＝s(n)–k·s(n-1) 式(1)

其中，A(n)表示增强后的信号强度；

s(n)表示第n毫秒的信号强度；

s(n-1)表示第(n-1)毫秒的信号强度；

k表示增强系数，其取值范围为[0,1]，在本实施例中，k的取值可以为0.97；

n＝1，2，3……，N，其中，N为每个短时帧的时长，例如，每个短时帧的时长为20ms，则N＝20。

S1132，依次将每个增强短时帧转换为频域信号。

在本实施例中，将短时帧转换为频域信号的方法为对每个增强短时帧进行FFT变换，所述FFT变换是指快速傅立叶变换，所述快速傅立叶变换是指利用计算机计算离散傅里叶变换的方法，可以采用现有技术中任意一种进行FFT变换的具体方式。

对每个增强短时帧进行FFT变换后，能够将短时帧的时域信号转换为频域信号，从而便于后续处理。所述时域信号是指描述数学函数或物理信号对时间关系的信号，所述频域信号是指描述数学函数或物理信号对频率关系的信号。

由于本实施例所采集的音频是真实音频，即，数字音频，而非模拟音频，因此，本实施例可以采用FFT变换将每个短时帧的时域信号转换为频域信号。

S1133，根据FFT变换结果计算每个短时帧的梅尔能量谱。

由于FFT变换得到的频域信号在每个频带范围上的能量大小不一致，因此，可以利用三角滤波器来生成梅尔能量谱。

在本实施例中，可以根据需要设定三角滤波器的数量，例如，以本实施例为例，可以选用40个三角滤波器。

在一种可实现的方式中，本实施例可以采用如图2所示的三角滤波器。

进一步地，可以利用在步骤S1132中生成的频域信号获取每个短时帧的频谱，所述频谱是指由于信号在时域上的变换通常很难判断出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧短时帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布，即，对短时帧加窗后的各帧信号进行快速傅里叶变换得到各短时帧的频谱，并且，利用所述频谱生成在所述三角滤波器下的对数能量，具体地，可以利用下式(2)所示的公式计算对数能量：

其中，0≤m≤M，

s(m)表示每个三角滤波器组输出的对数能量；

m表示三角滤波器的中心频率；

M表示三角滤波器的个数；

N表示傅里叶变换的点数；

X_a(k)表示语音信号的离散傅里叶变换结果；

a表示汉明窗常数，一般为0.46；

H_m(k)表示梅尔能量谱；

k表示傅立叶变换的点数。

更进一步地，根据所述对数能量采用复数绝对值的方法生成梅尔能量谱，具体地，可以利用下式(3)所示的公式计算梅尔能量谱：

S1134，根据所述梅尔能量谱分别计算每个短时帧的log Fbank特征向量。

在本实施例中，对步骤S1133生成的结果取对数，生成log Fbank特征向量。具体地，可以根据如式(4)所示的公式计算所述log Fbank特征向量，其中，每个短时帧分别对应一个梅尔能量谱：

本实施例计算所述log Fbank特征向量能够放大低能量处的能量差异，并且能够缩小高能量处的能量差异。所述高能量处和低能量处分别是指不同频率处的能量幅度。

在本步骤中，以前述示例为例，可以生成40维的log Fbank向量。

S1135，根据所述log Fbank特征向量生成每个短时帧的MFCC特征向量。

在本实施例中，可以利用步骤S1133中使用的三角滤波器对所述log Fbank特征向量进行离散余弦变换(Discrete Cosine Transform，DCT)，每个三角滤波器可生成一个MFCC特征向量，即梅尔频率倒谱系数(MFCC系数)。

在本步骤中，以前述示例为例，可以生成40个MFCC特征向量。

在本步骤中，可以采用现有技术中利用三角滤波器以及log Fbank特征向量进行离散余弦变换生成MFCC系数的方法来进行计算。

在本实施例中，可以对生成的所有MFCC系数按照中心频率从小到大的顺序进行排序，并保留该序列中前若干个MFCC系数，其余MFCC系数可以弃去。例如，在本实施例中，如果采用步骤S1133中使用的40个三角滤波器会生成40个MFCC系数，可以根据需要将生成的40个MFCC系数按照中心频率从小到大的顺序进行排序，并保留其中前20个MFCC系数，而其余的MFCC系数被弃去，从而压缩数据。

可选地，对所保留的MFCC系数还可以进行一阶差分处理和二阶差分处理，生成delta 系数和delta-delta系数。其中，一阶差分处理和二阶差分处理为现有技术常用的数学方法。

进一步地，将保留的20个MFCC系数、一阶差分和二阶差分三种系数融合，得到一个60维向量。

从而，每个短时帧可以用40维log Fbank向量加上60维MFCC系列向量，即一个100维向量来表示。

S114，获取语音特征向量。

在本实施例中，所述语音特征向量由依次融合当前训练语音对应的所有短时帧特征向量生成。

在本实施例中，所述融合是指取平均值。

S115，根据所述训练语音特征向量以及该训练语音的身份信息生成预设声纹模型。

对于每个训练语音均经过步骤S112至步骤S114的处理，生成相应的语音特征向量，并以所述语音特征向量作为神经网络模型LSTM-RNN的输入信息，以该训练语音对应的身份信息作为输出结果，经过大量训练语音的训练后，所述基于语音特征的预设声纹模型中的各个参数不断更新修正，从而获得较为完善的预设声纹模型。

在本实施例中，所述预设声纹模型利用当前训练语音与历史训练语音相似度来判断当前训练语音是否属于历史训练语音中的某一条，如果属于，则给当前训练语音标记上历史训练语音的标签，如果不属于任何一条历史训练语音，则为当前训练语音分配一个新标签。

在本实施例中，可以利用余弦相似度来计算当前训练语音与历史训练语音的相似度。

可选地，所述余弦相似度是本领域常用的相似度，其计算方法可以采用现有技术常用余弦相似度的计算方法。

随着对所述预设声纹模型不断训练，所述余弦相似度阈值也不断更新。

S116，利用其它训练语音对所述预设声纹模型进行测试，如果测试正确率大于或者等于测试结果阈值，则完成建模。

在本实施例中，为保证所建模型测试结果的准确度，在模型建立末期需要使用训练语音对所述预设声纹模型进行测试，用于测试的训练语音是未被使用过的训练语音。

如果对所述预设声纹模型在测试阶段的正确率低于测试结果阈值，则会继续使用新的训练语音按照前述方法对所述预设声纹模型进行训练，直至所述预设声纹模型在测试阶段的正确率大于或者等于测试结果阈值。

至此，所述基于语音特征的状态预设声纹模型完成建模。

在本实施例中，再以预设性别模型为例说明模型训练采用的方法，具体地，所述预设性别模型训练阶段包括：

S121，获取训练语音。

在训练不同模型时可以采用相同的训练语音，也可以采用不同的训练语音。因此，步骤 S121所使用的训练语音可以与步骤S111所使用的训练语音相同，也可以不同。

用于训练声纹模型的训练语音至少预先标记有性别信息，每名发声者具有唯一的标签。

本步骤的具体实现方式可以参见步骤S111，在此不再赘述。

S122，获取短时帧训练语音。

本步骤的具体实现方式可以参见步骤S112，在此不再赘述。

S123，获取训练短时帧特征向量。

本步骤的具体实现方式可以参见步骤S113，在此不再赘述。

S124，获取训练语音特征向量。

本步骤的具体实现方式可以参见步骤S114，在此不再赘述。

S125，根据所述训练短时帧特征向量以及该训练语音对应的性别生成预设性别模型。

对于每个训练语音均经过步骤S122至步骤S124的处理，生成相应的语音特征向量，并以所述语音特征向量作为神经网络模型LSTM-RNN的输入信息，以该训练语音对应的性别作为输出结果，经过大量训练语音的训练后，所述基于语音特征的预设性别模型中的各个参数不断更新修正，从而获得较为完善的预设性别模型。

在本实施例中，对于同一条训练语音，该训练语音输出为男性的概率与输出为女性的概率之和为1。

S126，利用其它训练语音对所述预设性别模型进行测试，如果测试正确率大于或者等于测试结果阈值，则完成建模。

本步骤的具体实现方式可以参见步骤S116，在此不再赘述。

可选地，步骤S125中的年龄可以根据实际需要使用准确年龄，也可以使用年龄段范围，相应地，训练得到的预设年龄模型的输出结果是准确年龄或者年龄段范围。

在本实施例中，预设年龄模型的训练方式与所述预设性别模型的训练方式类似，区别仅在于步骤S125为根据所述训练语音特征向量以及该训练语音对应的年龄生成预设年龄模型。

在本实施例中，对于同一条训练语音，该训练语音输出为各年龄或者年龄段的概率之和为1。

进一步地，其它用户标签模型的训练方式与所述预设性别模型的训练方式类似，区别仅在于步骤S125为根据所述训练语音特征向量以及该训练语音对应的其它用户标签生成预设身份标签模型。

图3示出本实施例优选的用户画像构建方法的流程示意图，对于模型使用阶段，即，本申请提供的用户画像构建方法，如图3所示，所述方法包括：

S201，采集第i条用户语音，其中，i＝1，2，3，……。

在本实施例中，所述用户语音可以利用智能设备上的语音采集装置采集。

在一种可实现的方式中，所述用户语音包括唤醒词、命令词和/或自由文等。

其中，唤醒词为预设的用于启动所述用户画像处理程序的词，例如：“小i同学”等，所述唤醒词可以用户自定义设定，也可以***开发者设定。

所述命令词为固定的短语，一般为动宾结构，例如：播放音乐。

所述自由文为自由文本，可以为用户随机发出的指令或者问题，例如：今天天气怎么样。

S202，获取短时帧语音，所述短时帧语音由第i条用户语音分帧生成。

在本实施例中，所述获取短时帧语音包括：

S221，将所述第i条用户语音按照预设时长分割成多个短时帧语音；

S222，如果最末一个短时帧语音的时帧长度小于预设时长，则舍去最末一个短时帧语音。

本步骤的具体实现方式可以参见步骤S112，在此不再赘述。

S203，获取短时帧特征向量，所述短时帧特征向量为根据第i条用户语音生成的每帧短时帧提取的特征向量；

在本实施例中，所述获取短时帧特征向量包括：

S231，对每段短时帧语音以帧为单位对所述短时帧语音的高频部分进行预增强；

S232，将预增强后的短时帧转换为频域信号；

S233，根据所述频域信号计算每段短时帧的短时帧特征向量，所述短时帧特征向量包括倒梅尔能量谱。

步骤S203的具体实现方式可以参见步骤S113，在此不再赘述。

S204，获取语音特征向量，所述语音特征向量为根据第i条用户语音对应的所有短时帧特征向量生成。

在本实施例中，所述获取语音特征向量包括：依次融合第i条用户语音对应的所有短时帧特征向量生成语音特征向量。

S205，生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签；

在本实施例中，所述根据所述语音特征向量利用预设声纹模型生成用户身份标签包括：根据生成第i条用户语音的语音特征向量利用预设声纹模型生成该条语音的身份向量；获取所有已存身份向量；计算第i条语音的身份向量与每条已存身份向量之间的余弦距离；根据所述余弦距离生成用户身份标签。

具体地，根据所述余弦距离生成用户身份标签包括：

如果所述用户语音与某一条历史用户语音的余弦相似度大于余弦相似度阈值，则该以所述历史用户语音的身份标签标记该用户语音，如果所述用户语音与任何一条历史用户语音的余弦相似度均小于余弦相似度阈值，则用一个新的身份标签标记该用户语音。

对于同一条用户语音，至少同时标记有身份标签、年龄标签和性别标签。以身份标签为基础，如果属于同一个发声者的累积用户语音数量小于预设累积值，则在接受到该发声者下一条用户语音时，继续利用前述各预设模型对其年龄、性别等用户信息进行判断，并做出标记，再以多数选举法修正该发声者的用户信息，直至属于同一个发声者的累积用户语音数量大于或者等于预设累积值，完成用户画像，具体地：

S2061，如果用户身份标签相同的用户语音数量达到预设值，则获取待画像语音，所述待画像语音为标记有所述用户身份标签的所有用户语音。

S20611，根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像。

在一种优选的方式中，如果用户语音的数量超过积累预设值，则根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像包括：

获取所述待画像语音生成的所有性别标签和年龄标签；

利用多数选举法根据所述所有性别标签和年龄标签确定用于建构用户画像的性别标签和年龄标签；

生成该用户的用户画像，所述用户画像包括该用户的用户身份标签、利用多数选举法确定的性别标签和年龄标签。

S2062，如果用户身份标签相同的用户语音数量小于预设值，则采集第i+1条用户语音；

S20621，获取短时帧语音，所述短时帧语音由第i+1条用户语音分帧生成；

S20622，获取短时帧特征向量，所述短时帧特征向量为根据第i+1条用户语音生成的每帧短时帧提取的特征向量；

S20623，获取语音特征向量，所述语音特征向量为根据第i+1条用户语音对应的所有短时帧特征向量生成；

S20624，生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签。

第二方面，本申请还提供一种用户画像构建装置，所述装置包括：

用户语音采集单元101，用于采集第i条用户语音，其中，i＝1，2，3，……；

短时帧获取单元102，用于获取短时帧语音，所述短时帧语音由第i条用户语音分帧生成；

特征向量生成单元103，用于获取短时帧特征向量，所述短时帧特征向量为根据第i条用户语音生成的每帧短时帧提取的特征向量；

所述特征向量生成单元103还用于获取语音特征向量，所述语音特征向量为根据第i条用户语音对应的所有短时帧特征向量生成；

用户特征标签生成单元104，用于生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签；

用户画像构建单元105，用于如果用户身份标签相同的用户语音数量达到预设值，则获取待画像语音，所述待画像语音为标记有所述用户身份标签的所有用户语音；

所述用户画像构建单元105还用于根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像。

进一步地，在模型使用阶段，本申请实施例还提供一种基于第一方面所述用户画像构建方法提供个性化服务的方法，所述方法包括：

S301，获取用户语音，根据所述用户语音生成用户特征标签。

本步骤具体实现方式可以参见步骤S201至步骤S205，在此不再赘述。

S302，调取所述用户特征标签对应的用户画像。

本步骤具体实现方式可以参见步骤S2061至步骤S20624，在此不再赘述。

S303，根据所述用户画像向智能设备发出提供个性化服务指令。

在本实施例中，可以根据所述用户画像结果为该发声者提供个性化服务。例如，当发声者对智能电视说出“小i同学，我想看电影”时，如果用户画像结果为70岁、男性，则根据该用户画像提供适于老年男性观赏的电影；如果用户画像的结果为40岁、女性，则根据该用户画像提供适于中年女性观赏的电影；如果用户画像的结果为10岁、男性，则根据该用户画像提供适于男性儿童观赏的电影。再如，对于智能电视上的购物APP，当发声者说出“长款风衣”时，如果用户画像结果为70岁、男性，则根据该用户画像提供适于老年男性的长款风衣搜索结果；如果用户画像的结果为40岁、女性，则根据该用户画像提供适于中年女性的长款风衣搜索结果；如果用户画像的结果为10岁、男性，则根据该用户画像提供适于男性儿童的长款风衣搜索结果。

进一步地，如果调取用户画像失败，则根据预设模式提供服务，并且，根据所述用户语音利用前述用户画像构建方法生成该用户的用户画像，并且在生成该发声者的用户画像后，利用步骤S301至步骤S303所述的方法为该发声者提供个性化服务。

第八方面，本申请还提供一种个性化服务提供装置，所述装置包括：

用户语音获取模块301，用于获取用户语音，根据所述用户语音生成用户特征标签；

用户画像调取模块302，用于调取所述用户特征标签对应的用户画像；

服务指令生成模块303，用于根据所述用户画像向智能设备发出提供个性化服务指令。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种用户画像构建方法，其特征在于，包括：

采集第i条用户语音，其中，i＝1，2，3，……；

获取短时帧语音，所述短时帧语音由第i条用户语音分帧生成；

获取短时帧特征向量，所述短时帧特征向量为根据第i条用户语音生成的每帧短时帧提取的特征向量；

获取语音特征向量，所述语音特征向量为根据第i条用户语音对应的所有短时帧特征向量生成；

生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签；

如果用户身份标签相同的用户语音数量达到预设值，则获取待画像语音，所述待画像语音为标记有所述用户身份标签的所有用户语音；

根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：如果用户身份标签相同的用户语音数量小于预设值，则

采集第i+1条用户语音；

获取短时帧语音，所述短时帧语音由第i+1条用户语音分帧生成；

获取短时帧特征向量，所述短时帧特征向量为根据第i+1条用户语音生成的每帧短时帧提取的特征向量；

获取语音特征向量，所述语音特征向量为根据第i+1条用户语音对应的所有短时帧特征向量生成；

生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签。

3.根据权利要求1所述的方法，其特征在于，所述获取短时帧语音包括：

将所述第i条用户语音按照预设时长分割成多个短时帧语音；

如果最末一个短时帧语音的时帧长度小于预设时长，则舍去最末一个短时帧语音。

4.根据权利要求1所述的方法，其特征在于，所述获取短时帧特征向量包括：

对每段短时帧语音以帧为单位对所述短时帧语音的高频部分进行预增强；

将预增强后的短时帧转换为频域信号；

根据所述频域信号计算每段短时帧的短时帧特征向量，所述短时帧特征向量包括倒梅尔能量谱。

5.根据权利要求1所述的方法，其特征在于，所述获取语音特征向量包括：

依次融合第i条用户语音对应的所有短时帧特征向量生成语音特征向量。

6.根据权利要求1所述的方法，其特征在于，如果用户语音的数量超过积累预设值，则根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像包括：

获取所述待画像语音生成的所有性别标签和年龄标签；

7.一种用户画像构建装置，其特征在于，所述装置包括：

用户语音采集单元，用于采集第i条用户语音，其中，i＝1，2，3，……；

短时帧获取单元，用于获取短时帧语音，所述短时帧语音由第i条用户语音分帧生成；

特征向量生成单元，用于获取短时帧特征向量，所述短时帧特征向量为根据第i条用户语音生成的每帧短时帧提取的特征向量；

所述特征向量生成单元还用于获取语音特征向量，所述语音特征向量为根据第i条用户语音对应的所有短时帧特征向量生成；

用户特征标签生成单元，用于生成用户特征标签，所述用户特征标签根据所述语音特征向量利用预设模型生成，所述特征标签包括用户身份标签、性别标签和年龄标签；

用户画像构建单元，用于如果用户身份标签相同的用户语音数量达到预设值，则获取待画像语音，所述待画像语音为标记有所述用户身份标签的所有用户语音；

所述用户画像构建单元还用于根据所述待画像语音生成的所有性别标签和年龄标签生成该用户的用户画像。

8.一种用户画像构建终端，其特征在于，所述终端包括语音采集装置、如权利要求7所述的用户画像构建装置。

9.一种计算机存储介质，其特征在于，该计算机存储介质可存储有程序，该程序执行时可实现包括如权利要求1至6任一项所述状态检测方法的部分或者全部步骤。

10.一种终端，其特征在于，该终端包括：收发器、处理器和存储器等器件，所述处理器可以执行所述存储器中所存储的程序或指令，从而实现如权利要求1至6任一项所述的方法。