CN112733546A

CN112733546A - 表情符号生成方法、装置、电子设备及存储介质

Info

Publication number: CN112733546A
Application number: CN202011580344.6A
Authority: CN
Inventors: 李鹏程; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-30

Abstract

本发明实施例提供一种表情符号生成方法、装置、电子设备及存储介质，所述方法包括：确定语音片段及其对应的文本；将语音片段和文本输入至情感识别模型，得到情感识别模型输出的文本的情感识别结果；基于情感识别结果，在文本中***表情符号；其中，情感识别模型用于提取语音片段的语音特征以及文本的文本特征，并基于语音特征和文本特征进行情感识别；情感识别模型是基于样本语音片段及其对应的样本文本，以及样本情感识别结果训练得到的。本发明实施例提供的表情符号生成方法、装置、电子设备及存储介质，提高了情感识别的准确性，实现了表情符号的自动实时生成。

Description

表情符号生成方法、装置、电子设备及存储介质

技术领域

本发明涉及模式识别技术领域，尤其涉及一种表情符号生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，智能录音笔、手机等电子设备得到了越来越广泛的应用，智能录音笔具有将录音语音转换为文本的功能，但是智能录音笔应用的语音识别技术只能记录语音对应的纯文本，无法体现说话者的情感信息，无法满足用户越来越个性化的需求。

表情符号作为一种符号语言，能够表达丰富的情感，在信息传递过程中使用越来越频繁。目前，在智能录音笔输出的文本中生成表情符号只能依靠用户阅读文本进行手动添加，操作繁琐、耗时较长，难以实现表情符号的实时自动生成。

发明内容

本发明实施例提供一种表情符号生成方法、装置、电子设备及存储介质，用以解决现有技术中操作繁琐、耗时较长，难以实现表情符号的实时自动生成的缺陷。

本发明实施例提供一种表情符号生成方法，包括：

确定语音片段及其对应的文本；

将所述语音片段和所述文本输入至情感识别模型，得到所述情感识别模型输出的所述文本的情感识别结果；

基于所述情感识别结果，在所述文本中***表情符号；

其中，所述情感识别模型用于提取所述语音片段的语音特征以及所述文本的文本特征，并基于所述语音特征和所述文本特征进行情感识别；所述情感识别模型是基于样本语音片段及其对应的样本文本，以及样本情感识别结果训练得到的。

根据本发明一个实施例的表情符号生成方法，所述将所述语音片段和所述文本输入至情感识别模型，得到所述情感识别模型输出的所述文本的情感识别结果，具体包括：

将所述语音片段输入至所述情感识别模型的语音特征层，得到所述语音特征层输出的所述语音片段的语音特征；

将所述文本输入至所述情感识别模型的文本特征层，得到所述文本特征层输出的所述文本的文本特征；

将所述语音特征和所述文本特征输入至所述情感识别模型的情感识别层，得到所述情感识别层输出的所述情感识别结果。

根据本发明一个实施例的表情符号生成方法，所述将所述语音片段输入至所述情感识别模型的语音特征层，得到所述语音特征层输出的所述语音片段的语音特征，具体包括：

将所述语音片段的初始语音特征输入至所述语音特征层的时频特征层，由所述时频特征层分别提取所述语音片段的时域特征和频域特征，并将所述时域特征和所述频域特征融合为时频特征，得到所述时频特征层输出的所述时频特征；

将所述时频特征输入至所述语音特征层的语音特征输出层，得到所述语音特征输出层输出的所述语音特征。

根据本发明一个实施例的表情符号生成方法，所述将所述时频特征输入至所述语音特征层的语音特征输出层，得到所述语音特征输出层输出的所述语音特征，具体包括：

将所述时频特征输入至所述语音特征输出层的高层语音特征层，得到所述高层语音特征层输出的高层语音特征；

将所述高层语音特征输入至所述语音特征输出层的语音注意力层，由所述语音注意力层对所述高层语音特征进行自注意力变换，得到所述语音注意力层输出的所述语音特征。

根据本发明一个实施例的表情符号生成方法，所述将所述文本输入至所述情感识别模型的文本特征层，得到所述文本特征层输出的所述文本的文本特征，具体包括：

将所述文本的初始文本特征输入至所述文本特征层的高层文本特征层，得到所述高层文本特征层输出的所述文本的高层文本特征；

将所述高层文本特征输入至所述文本特征层的文本注意力层，由所述文本注意力层对所述高层文本特征进行自注意力变换，得到所述文本注意力层输出的所述文本特征。

根据本发明一个实施例的表情符号生成方法，所述将所述语音特征和所述文本特征输入至所述情感识别模型的情感识别层，得到所述情感识别层输出的所述情感识别结果，具体包括：

将所述语音特征和所述文本特征输入至所述情感识别层，由所述情感识别层对所述语音特征和所述文本特征进行加权融合，并基于融合后的特征进行情感识别，得到所述情感识别层输出的所述情感识别结果；

其中，所述加权融合的权重是基于所述语音片段的噪声水平确定的。

根据本发明一个实施例的表情符号生成方法，所述基于所述情感识别结果，在所述文本中***表情符号，具体包括：

提高所述情感识别结果中与上一情感类别相同的情感类别的概率，和/或降低与所述上一情感类别不同的情感类别的概率，得到所述文本的校正情感识别结果；所述上一情感类别为排列在所述文本之前的上一文本对应的情感类别；

基于所述校正情感识别结果，在所述文本中***所述表情符号。

根据本发明一个实施例的表情符号生成方法，所述基于所述情感识别结果，在所述文本中***表情符号，之后还包括：

若所述文本中***的表情符号与排列在所述文本之后的下一文本中***的表情符号相同，则删除所述文本中***的表情符号；

和/或，若***所述文本的表情符号对应的情感类别在所述文本的情感识别结果中的概率小于预设概率阈值，则删除所述文本中***的表情符号。

本发明实施例还提供一种表情符号生成装置，包括：

数据确定单元，用于确定语音片段及其对应的文本；

情感识别单元，用于将所述语音片段和所述文本输入至情感识别模型，得到所述情感识别模型输出的所述文本的情感识别结果；

表情符号***单元，用于基于所述情感识别结果，在所述文本中***表情符号；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述表情符号生成方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述表情符号生成方法的步骤。

本发明实施例提供的表情符号生成方法、装置、电子设备及存储介质，通过情感识别模型分别提取语音片段的语音特征及其对应文本的文本特征，并联合语音特征和文本特征进行情感识别，充分利用了语音片段的语音信息以及文本的语义信息，提高了情感识别的准确性；基于文本的情感识别结果，在文本中***表情符号，实现了表情符号的自动实时生成，无需用户手动***，简化了用户操作，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的表情符号生成方法的流程示意图；

图2为本发明实施例提供的情感识别结果确定方法的流程示意图；

图3为本发明实施例提供的语音特征提取方法的流程示意图；

图4为本发明实施例提供的表情符号***方法的流程示意图；

图5为本发明实施例提供的情感识别模型的结构示意图；

图6为本发明实施例提供的表情符号生成装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

表情符号作为一种符号语言，能够表达丰富的情感，在信息传递过程中使用越来越频繁。目前，在智能录音笔输出的文本中生成表情符号只能依靠用户阅读文本，应用对文本的理解选择并添加表情符号，导致语音中蕴含的情感信息未得到充分利用。当文本较长时，耗费时间较长，而且用户需要在完成语音的录入之后，才能手动添加表情符号，无法在录入语音的过程中实时自动生成表情符号。

对此，本发明实施例提供一种表情符号生成方法，本发明实施例提供的表情符号生成方法可以应用于智能录音笔等电子设备，也可以应用于语音聊天软件等其他需要进行语音转写的场景。图1为本发明实施例提供的表情符号生成方法的流程示意图，如图1所示，该方法包括：

步骤110，确定语音片段及其对应的文本。

具体地，语音片段可以为用于生成表情符号的语音片段，语音片段可以为单个句子的语音数据，也可以为多个句子组成的一段语音数据，语音片段对应的文本可以为对语音片段进行语音识别得到的文本，也可以是用户自行录入的与语音片段具有相同表意的文本。语音片段可以通过拾音设备获取，此处拾音设备可以为智能手机、平板电脑或录音笔等，本发明实施例对此不作具体限定。

步骤120，将语音片段和文本输入至情感识别模型，得到情感识别模型输出的文本的情感识别结果；

其中，情感识别模型用于提取语音片段的语音特征以及文本的文本特征，并基于语音特征和文本特征进行情感识别；情感识别模型是基于样本语音片段及其对应的样本文本，以及样本情感识别结果训练得到的。

具体地，在不同情感状态下，说话者发出的语音的语速、语调和音量等存在显著的差别。例如，说话者在高兴时，往往语调较高；在悲伤时，往往语调较低；在生气时，往往语速较快，且音量较大。因此，语音片段的语音信息可以反映说话者的情感状态。与此同时，语音片段对应的文本的语义信息也可以反映说话者的情感状态，例如若文本的语义信息表示为开心、快乐，则可以认为说话者对应的情感为高兴；若文本的语义信息表示为难过、痛苦，则可以认为说话者对应的情感为悲伤。在步骤120中，在得到语音片段及其对应的文本之后，可以将语音片段的语音信息和文本的语义信息进行融合，进而进行情感识别。

将语音片段及其对应的文本输入至情感识别模型，由情感识别模型基于该语音片段及其对应的文本，分别提取该语音片段的语音特征以及文本的文本特征，其中，语音特征用于表征语音片段的语音信息，文本特征用于表征文本的语义信息。

随即，情感识别模型可以联合语音特征和文本特征进行情感识别，得到文本的情感识别结果。此处，由于语音片段与文本是一一对应的，文本的情感识别结果即为语音片段的情感识别结果。其中，文本的情感识别结果可以为该文本对应的情感类别，也可以为该文本对应各个情感类别的概率。此处，情感类别用于表征一种特定的情感，情感类别可以包括高兴、悲伤、平静、生气、厌恶、震惊或恶心等，本发明实施例对预先设定的情感类别的类型和数目不作具体限定。

通过情感识别模型分别提取语音片段的语音特征及其对应的文本的文本特征，并联合语音特征和文本特征进行情感识别，充分利用了语音片段的语音信息以及文本的语义信息，有助于提高情感识别的准确性。

在执行步骤120之前，还可以预先训练得到情感识别模型，具体可以通过如下方式训练得到情感识别模型：首先，收集大量样本语音片段以及对应的样本文本，并标注出样本语音片段的样本情感识别结果。此处，可以将单个句子的语音数据作为一个样本语音片段，将样本语音片段对应的情感类别作为样本语音片段的样本情感识别结果；也可以将单个句子的语音数据进行切分，将该句子中的单个字的语音数据作为一个样本语音片段，将样本语音片段所在的句子对应的情感类别作为样本语音片段的样本情感识别结果。随即，将样本语音片段及其对应的样本文本，以及样本情感识别结果输入至初始模型进行训练，从而得到情感识别模型。

步骤130，基于情感识别结果，在文本中***表情符号。

具体地，在文本的情感识别结果之后，可以基于情感识别结果，确定该文本对应的情感类别。例如，可以将该文本的情感识别结果中概率最高的情感类别作为该文本对应的情感类别。

基于情感类别与表情符号之间的映射关系，将该文本对应的情感类别对应的表情符号***该文本中，例如，可以将表情符号***至该文本的末尾，本发明实施例对表情符号在文本中的***位置不作具体限定。

根据文本的情感识别结果，能够在用户输入语音片段的同时在文本中***表情符号，实现了表情符号的自动实时生成，无需用户手动***，简化了用户操作，提升了用户体验。

此处，表情符号可以为颜文字、emoji表情或用户自定义的表情符号，情感类别与表情符号之间的映射关系可以是在聊天软件或录音笔中事先设置的，也可以是用户自行定义并录入的，例如，用户可以自己设计不同的表情符号，并自定义情感类别和表情符号的映射关系，以满足用户个性化的需求。

表1为本发明实施例提供的情感类别和表情符号的映射关系，如表1所示，情感类别包括高兴、悲伤、平静、生气、厌恶、震惊和恶心七种，分别对应七个数字0-6，表情符号为颜文字。

本发明实施例提供的方法，通过情感识别模型分别提取语音片段的语音特征及其对应文本的文本特征，并联合语音特征和文本特征进行情感识别，充分利用了语音片段的语音信息以及文本的语义信息，提高了情感识别的准确性；基于文本的情感识别结果，在文本中***表情符号，实现了表情符号的自动实时生成，无需用户手动***，简化了用户操作，提升了用户体验。

基于上述实施例，图2为本发明实施例提供的情感识别结果确定方法的流程示意图，如图2所示，该方法包括：

步骤121，将语音片段输入至情感识别模型的语音特征层，得到语音特征层输出的语音片段的语音特征；

步骤122，将文本输入至情感识别模型的文本特征层，得到文本特征层输出的文本的文本特征；

步骤123，将语音特征和文本特征输入至情感识别模型的情感识别层，得到情感识别层输出的情感识别结果。

具体地，语音特征层用于提取语音片段的语音特征，文本特征层用于提取语音片段对应文本的文本特征，语音特征层或文本特征层可以包括卷积层、池化层和全连接层中的一种或多种，本发明实施例对语音特征层和文本特征层的网络结构不作具体限定。需要说明的是，步骤121和步骤122可以同时执行，也可以依次执行，本发明实施例对步骤121和步骤122的执行顺序不作具体限定。

在此基础上，情感识别层用于将语音特征和文本特征进行特征融合，基于融合后的特征，进行情感识别，并输出文本的情感识别结果，情感识别层可以由全连接层构成，本发明实施例对情感识别层的网络结构不作具体限定。此处，情感识别层可以将语音特征和文本特征直接相加，也可以将语音特征和文本特征进行拼接，还可以将语音特征和文本特征进行加权融合，本发明实施例对情感识别层的特征融合的方式不作具体限定。

基于上述任一实施例，图3为本发明实施例提供的语音特征提取方法的流程示意图，如图3所示，该方法包括：

步骤1211，将语音片段的初始语音特征输入至语音特征层的时频特征层，由时频特征层分别提取语音片段的时域特征和频域特征，并将时域特征和频域特征融合为时频特征，得到时频特征层输出的时频特征；

具体地，在执行步骤1211之前，可以基于语音片段，确定语音片段的初始语音特征，此处，初始语音特征为语音片段的特征表示，初始语音特征可以为MFCC(Mel FrequencyCepstrum Coefficient，梅尔频率倒谱系数)特征、PLP(Perceptual Linear Predictive，感知线性预测)特征或FBank(FilterBank)特征等，本发明实施例对此不作具体限定。

在得的语音片段的初始语音特征之后，将初始语音特征输入至时频特征层，由时频特征层基于初始语音特征，分别提取语音片段的时域特征和频域特征，将时域特征和频域特征进行特征融合，并输出融合后的时频特征。此处，时域特征用于表征语音片段的时域信息，频域特征用于表征语音片段的频域信息。

可选地，时频特征层包括时域特征层、频域特征层和时频特征输出层，将初始语音特征输入至时频特征层，由时域特征层基于初始语音特征，提取语音片段的时域信息，并输出时域特征；由频域特征层基于初始语音特征，提取语音片段的频域信息，并输出频域特征。随即，时频特征输出层可以将时域特征和频域特征调整为同一尺度，并将调整后的时域特征和频域特征进行拼接，输出时频特征。

通过融合时域特征和频域特征得到时频特征，使得时频特征具备更加丰富、更加全面的语音信息，提高了基于时频特征确定的语音特征的准确性，进而提高了情感识别的准确性。

步骤1212，将时频特征输入至语音特征层的语音特征输出层，得到语音特征输出层输出的语音特征。

具体地，语音特征输出层用于对时频特征进行进一步地特征提取，并输出语音片段的语音特征。

本发明实施例提供的方法，通过对时域特征和频域特征进行融合得到时频特征，并基于时频特征确定语音特征，提高了语音特征的准确性，进而提高了情感识别的准确性。

基于上述任一实施例，语音片段的初始语音特征可以基于如下步骤确定：

对语音片段进行加窗分帧之后，提取语音片段的傅里叶频谱，然后对语音片段的傅里叶频谱进行归一化，进而确定语音片段的初始语音特征。

具体可以通过如下公式进行频谱归一化：

式中，x为语音片段的傅里叶频谱中任一帧的频率，f(x)为该帧归一化后的频率，sgn为符号函数，μ为归一化系数。

语音片段的傅里叶频谱的幅值范围中最大值和最小值之间的差距高达几个数量级，经过对傅里叶频谱进行归一化后，傅里叶频谱中最大值和最小值之间的差距得到缩小，同时低辐值的频率信息得到加强，能够更好地反映语音能量较低的情感类别，例如悲伤和平静等。

基于上述任一实施例，步骤1212具体包括：

将所述时频特征输入至语音特征输出层的高层语音特征层，得到高层语音特征层输出的高层语音特征；

将高层语音特征输入至语音特征输出层的语音注意力层，由语音注意力层对高层语音特征进行自注意力变换，得到语音注意力层输出的语音特征。

具体地，在得到语音片段的时频特征之后，将时频特征输入至高层语音特征层，由高层语音特征层进一步提取语音片段更高层的特征，并输出高层语音特征。此处，高层语音特征层可以包括多个串联的卷积层，各个卷积层的卷积核的大小可以相同，也可以不同，本发明实施例对此不作具体限定。通过多个串联的卷积层，不断提取更高层的特征，使得高层语音特征具备更多层次、更丰富的信息，进而提高基于高层语音特征确定的语音特征的准确性。

在此基础上，将高层语音特征输出至语音注意力层，由语音注意力层基于注意力机制，对高层语音特征进行自注意力变换，并输出语音特征。通过对高层语音特征进行自注意力变换，充分考虑了语音片段自身上下文的关系，从而更加突出高层语音特征中具有代表性的突出特征，提高了语音特征的准确性。

基于上述任一实施例，步骤122具体包括：

将文本的初始文本特征输入至文本特征层的高层文本特征层，得到高层文本特征层输出的文本的高层文本特征；

将高层文本特征输入至文本特征层的文本注意力层，由文本注意力层对高层文本特征进行自注意力变换，得到文本注意力层输出的文本特征。

具体地，在得到语音片段对应的文本之后，可以基于文本确定文本的初始文本特征。此处，初始文本特征为文本的特征表示，初始文本特征可以是基于该文本中各个词语的词向量确定的，例如可以基于词袋模型或词嵌入向量确定初始文本特征。

高层文本特征层用于基于初始文本特征，进一步提取更高层的特征，并输出高层文本特征。文本注意力层用于基于注意力机制，对高层文本特征进行自注意力变换，并输出文本特征。此处，高层文本特征层和高层语音特征层，以及文本注意力层和语音注意力层的实现方式一致，本发明实施例在此不再赘述。

在噪声环境下，环境噪声对语音片段产生一定干扰，而且不同噪声水平对语音片段的影响程度不同，环境噪声对语音片段的干扰越严重，基于语音片段获取的说话者的语音信息失真程度越高，凭借语音信息进行情感识别的可靠性越低。而相应地，语音片段对应的文本包含的语义信息一定程度上能够反映说话者的情感信息，且不同于语音信息，文本包含的语义信息本身不受环境噪声的影响。

对此，基于上述任一实施例，步骤123具体包括：

将语音特征和文本特征输入至情感识别层，由情感识别层对语音特征和文本特征进行加权融合，并基于融合后的特征进行情感识别，得到情感识别层输出的情感识别结果；

其中，加权融合的权重是基于语音片段的噪声水平确定的。

具体地，可以预先评估语音片段的噪声水平，并根据噪声水平确定语音特征和文本特征进行加权融合时的权重大小。在确定加权融合的权重之后，情感识别层可以对语音特征和文本特征进行加权融合，并对融合后的特征进行情感识别，输出情感识别结果。其中，语音片段的噪声水平用于反映该语音片段中包含的环境噪声的大小，语音片段的噪声水平越高，表明环境噪声对语音片段的干扰越大，语音片段的质量越低，语音片段所反映的情感的可信度越低。此处，噪声水平具体可以表示为信噪比。

加权融合的权重可以为语音特征的权重，也可以为文本特征的权重。例如，语音片段的噪声水平越高，则加权融合时语音特征的权重越小，文本特征的权重越大。

此外，语音片段的噪声水平可以是情感识别模型基于语音片段计算得到，也可以通过预先训练的外部模型基于语音片段计算得到，并输入至情感识别模型。本发明实施例对语音片段的噪声水平的获取方式不作具体限定。

本发明实施例提供的方法，基于语音片段的噪声水平确定加权融合的信噪比，通过情感识别层对语音特征和文本特征进行加权融合，并基于融合后的特征进行情感识别，保证了在不同的噪声环境下情感识别结果的稳定性。

不同情感类别之间的差异程度不同，例如，当用户处于高兴和悲伤两种情感时，分别对应的语音片段的声学特点以及文本的语义内容都存在很大差异，使得此两种情感类别容易区分。相较之下，当用户处于高兴和生气两种情感时，虽然分别对应的文本的语义内容差异明显，但是分别对应的语音片段的声学特点较为相似，使得此两种情感类别区分性小，容易造成差异较小的情感类别的误判。

对此，基于上述任一实施例，图4为本发明实施例提供的表情符号***方法的流程示意图，如图4所示，该方法包括：

步骤131，提高情感识别结果中与上一情感类别相同的情感类别的概率，和/或降低与上一情感类别不同的情感类别的概率，得到文本的校正情感识别结果；上一情感类别为排列在文本之前的上一文本对应的情感类别。

具体地，由于人类的情感变化具有一定的连续性，即当前情感状态会受到上一情感状态的影响，对于多个文本组成的文本序列中，可以基于情感变化的连续性，对各个文本的情感识别结果进行校正，并基于校正后的情感识别结果，在各个文本中***表情符号。

在得到各个文本的情感识别结果之后，可以基于排列在文本之前的上一文本对应的情感类别，对文本的情感识别结果进行校正。其中，上一文本对应的情感类别为上一文本中***的表情符号对应的情感类别。

基于情感变化的连续性，提高文本的情感识别结果中与上一情感类别相同的情感类别的概率，和/或降低与上一情感类别不同的情感类别的概率，得到文本的校正后的情感识别结果。

具体可以通过如下公式对情感识别结果进行校正：

式中，p为文本的情感识别结果中文本对应任一情感类别的概率，p_m为文本对应该情感类别校正后的概率，α为校正系数，α为正数。

需要说明的是，若文本序列中存在情感的转折，即在文本中***的表情符号和在上一文本中***的表情符号本身差异较大，虽然校正过程中提高了文本的情感识别结果中与上一情感类别相同的情感类别的概率，和/或降低了与上一情感类别不同的概率，其中包括文本中***的表情符号的情感类别的概率，但是文本的校正情感识别结果中文本中***的表情符号的情感类别的概率远大于其他情感类别的概率，对情感识别结果的校正不会改变文本中***的表情符号。

例如，若上一文本***的表情符号为笑脸，对应情感类别高兴，文本中***的表情符号为哭脸，对应情感类别悲伤，虽然校正过程中提高了文本的情感识别结果中该文本对应高兴的概率，和/或降低了该文本对应悲伤的概率，但是该文本的校正情感识别结果中该文本对应悲伤的概率仍然是最高的，基于该文本的校正情感识别结果，仍可以在该文本中***哭脸的表情符号。

需要说明的是，本发明实施例对情感识别结果的校正是针对差异较小的情感类别，基于情感变化的连续性，能够减少差异较小的情感类别的误判，且不会影响差异较大的情感类别的识别，进而提高了情感识别的准确性。

步骤132，基于校正情感识别结果，在文本中***表情符号。

具体地，基于文本的校正情感识别结果，可以确定该文本对应的情感类别，例如将该文本的校正情感识别结果中概率最高的情感类别作为该文本对应的情感类别，并基于情感类别和表情符号的映射关系，将该文本对应的情感类别对应的表情符号***至该文本中。

本发明实施例提供的方法，基于上一情感类别，对文本的情感识别结果进行校正，减少了差异较小的情感类别的误判，提高了情感识别的准确性。

在已***表情符号的文本序列中，当文本序列过长或文本序列包含的文本的数量过多时，容易造成表情符号过于密集，以及表情符号大量重复的问题，影响用户的阅读体验。

对此，基于上述任一实施例，步骤130之后还包括：

若文本中***的表情符号与排列在文本之后的下一文本中***的表情符号相同，则删除文本中***的表情符号；

和/或，若***文本的表情符号对应的情感类别在文本的情感识别结果中的概率小于预设概率阈值，则删除文本中***的表情符号。

具体地，为避免文本序列中表情符号过于密集以及大量重复的问题，可以基于一定的规则对文本序列中的表情符号进行适度的删减。

从前至后依次对文本序列进行扫描，若文本中***的表情符号与排列在文本之后的下一文本中***的表情符号相同，则删除文本中***的表情符号。

此处，可以通过直接比对文本与下一文本中***的表情符号进行判断，也可以基于文本与下一文本中***的表情符号对应的情感类别的概率进行判断，例如，若文本与下一文本中***的表情符号对应的情感类别的概率之差的绝对值小于第一阈值，则确定文本与下一文本中***的表情符号相同。又例如，若文本与下一文本中***的表情符号对应的情感类别的概率的平均值大于第二阈值(例如0.9)，则确定文本与下一文本中***的表情符号相同。

此外，还可以基于文本序列中各个文本中***的表情符号对应的情感类别的概率，对文本序列中的表情符号进行删除。若***文本的表情符号对应的情感类别在文本的情感识别结果中的概率小于预设概率阈值，表明***该文本中的表情符号的并不准确，则删除文本中***的表情符号。其中，预设概率阈值可以预先设定，例如，预设概率阈值可以为0.9。

本发明实施例提供的方法，基于一定的规则判断文本中***的表情符号是否需要删除，规整了文本序列中表情符号的分布情况，提升了用户的阅读体验。

基于上述任一实施例，情感识别模型的训练方法包括以下步骤：

首先，收集大量原始语音片段，并通过人工标注得到原始语音片段的情感类别。随即，对原始语音片段进行加窗分帧以及傅里叶变换。例如，对于16千赫兹的原始语音片段，可以使用汉明窗提取短时傅里叶频谱，其中，汉明窗的窗宽为640(即40毫秒时长的语音)，窗移为160，傅里叶点数为1600，据此提取得到的傅里叶频谱中，每一维度反映了10赫兹的频域分辨率。考虑到人声主要集中在0-4000赫兹范围内，可以截取频域0-400维作为特征，以减少计算量。

在得到原始语音片段的傅里叶频谱之后，可以对原始语音片段进行归一化，此处的归一化方法与上述实施例相同，本发明实施例在此不再赘述。

为保证样本语音片段的长度一致，将所有原始语音片段切分为预设时长的样本语音片段，例如，将原始语音片段切分为时长为2秒的样本语音片段。此处样本语音片段的样本情感识别结果可以为样本语音片段对应的原始语音片段的情感类别。

在此基础上，采用词嵌入向量表原始语音片段对应的文本中每一汉字，例如，可以将每一个汉字转换为512维的固定长度向量。词嵌入向量的提取过程可以为：首先确定范围为－0.05到0.05的均匀分布的初始化大小为512×6728的权重向量，其中，6728代表着汉字集合的大小。随即，根据汉字的序号，选择6728维中的一个一维向量，即一个512维的一维向量，作为汉字的特征向量，此处特征向量本身也可以作为情感识别模型网络结构中的权重，在情感识别模型训练过程中进行更新。

训练过程中，情感识别模型的目标损失函数可以为交叉熵损失函数，同时可以使用标准梯度下降法更新网络结构参数。情感识别模型基于上述数据进行多次迭代，直至目标损失函数值趋于稳定，从而得到训练好的情感识别模型。

基于上述任一实施例，图5为本发明实施例提供的情感识别模型的结构示意图，如图5所示，情感识别模型包括语音特征分支和文本特征分支分别用于提取语音特征和文本特征，情感识别层用于对语音特征和文本特征进行融合，并基于融合后的特征，输出情感识别结果。语音特征层包括时频特征层、高层语音特征层以及语音注意力层。文本特征层包括高层文本特征层和文本注意力层。

语音特征层可以通过多个串联的卷积层进行语音特征的提取，例如，语音特征层可以包含5个串联的卷积层，其中，时频特征层可以为第一个卷积层，其他4个卷积层构成高层语音特征层。时频特征层可以包括32个卷积核，其中，16个大小为3×9的卷积核构成时域特征层，时域特征层用于提取0.09秒范围内的时域信息，并输出时域特征；16个大小为11×2的卷积核构成频域特征层，频域特征层用于提取110赫兹范围内的频域信息，并输出频域特征。在得到时域特征和频域特征之后，时频特征层可以采用大小为1×7和9×1的卷积核分别对时域特征和频域特征进行填零，使得时域特征和频域特征的大小一样，然后将时域特征和频域特征进行拼接，通过ReLU激活函数层对拼接后的特征进行激活，并将激活后的特征经过BN(Batch Normalization)归一化层进行归一化，得到时频特征。

高层语音特征层中4个卷积层的卷积核的大小均为3×3，4个卷积层的卷积核的数量分别为48、64、80和96，各个卷积层之间可以间插有ReLU激活函数层和BN归一化层。此处，为了获取更大范围的时频信息，可以在高层语音特征层中的各个卷积层分别设置均值池化层，例如可以在前三个卷积层应用大小为2×2的均值池化，使得输出的特征大小分别为400×100、200×50、100×25。

高层文本特征层可以通过多个串联的卷积层进行文本特征的提取，例如，高层文本特征层可以包含5个串联的卷积层，当输入的初始文本特征大小为512×32时，5个卷积层的卷积核的大小均为3×3，5个卷积层的卷积核的数量分别为16、32、48、64和80，各个卷积层之间可以间插有ReLU激活函数层和BN归一化层。

在得到高层语音特征之后，对高层语音特征采用注意力池化的方式，即先进行注意力转换，再进行池化的方式作进一步的特征处理，具体步骤包括：将高层语音特征输入至语音注意力层，语音注意力层可以采用96×7和96×1的两种全连接层，分别得到7×50×25的第一高层语音特征和1×50×25的第二高层语音特征，并将此两种特征相乘，得到带有自注意力的输出特征，并经过全局均值池化，得到一个7维的语音特征。文本注意力层可以采用上述相同的方式，得到一个7维的文本特征。

最后，情感识别层将语音特征和文本特征相加，并通过softmax函数进行归一化，得到语音片段分别对应7种情感类别的概率，作为语音片段的情感识别结果。

基于上述任一实施例，图6为本发明实施例提供的表情符号生成装置的结构示意图，如图6所示，该装置包括：

数据确定单元610，用于确定语音片段及其对应的文本；

情感识别单元620，用于将语音片段和文本输入至情感识别模型，得到情感识别模型输出的文本的情感识别结果；

表情符号***单元630，用于基于情感识别结果，在文本中***表情符号；

本发明实施例提供的装置，通过情感识别模型分别提取语音片段的语音特征及其对应文本的文本特征，并联合语音特征和文本特征进行情感识别，充分利用了语音片段的语音信息以及文本的语义信息，提高了情感识别的准确性；基于文本的情感识别结果，在文本中***表情符号，实现了表情符号的自动实时生成，无需用户手动***，简化了用户操作，提升了用户体验。

基于上述任一实施例，情感识别单元620具体包括：

语音特征提取子单元，用于将语音片段输入至情感识别模型的语音特征层，得到语音特征层输出的语音片段的语音特征；

文本特征提取子单元，用于将文本输入至情感识别模型的文本特征层，得到文本特征层输出的文本的文本特征；

情感识别子单元，用于将语音特征和文本特征输入至情感识别模型的情感识别层，得到情感识别层输出的情感识别结果。

基于上述任一实施例，语音特征提取子单元具体包括：

时频特征提取模块，用于将语音片段的初始语音特征输入至语音特征层的时频特征层，由时频特征层分别提取语音片段的时域特征和频域特征，并将时域特征和频域特征融合为时频特征，得到时频特征层输出的时频特征；

语音特征输出模块，用于将时频特征输入至语音特征层的语音特征输出层，得到语音特征输出层输出的语音特征。

基于上述任一实施例，语音特征输出模块具体包括：

高层语音特征子模块，用于将所述时频特征输入至语音特征输出层的高层语音特征层，得到高层语音特征层输出的高层语音特征；

语音注意力子模块，用于将高层语音特征输入至语音特征输出层的语音注意力层，由语音注意力层对高层语音特征进行自注意力变换，得到语音注意力层输出的语音特征。

基于上述任一实施例，文本特征提取子单元具体包括：

高层文本特征模块，用于将文本的初始文本特征输入至文本特征层的高层文本特征层，得到高层文本特征层输出的文本的高层文本特征；

文本注意力模块，用于将高层文本特征输入至文本特征层的文本注意力层，由文本注意力层对高层文本特征进行自注意力变换，得到文本注意力层输出的文本特征。

基于上述任一实施例，情感识别子单元具体用于：

其中，加权融合的权重是基于语音片段的噪声水平确定的。

基于上述任一实施例，表情符号***单元630具体用于：

提高情感识别结果中与上一情感类别相同的情感类别的概率，和/或降低与上一情感类别不同的情感类别的概率，得到文本的校正情感识别结果；上一情感类别为排列在文本之前的上一文本对应的情感类别；

基于校正情感识别结果，在文本中***表情符号。

基于上述任一实施例，该装置还包括：

表情符号规整单元，用于若文本中***的表情符号与排列在文本之后的下一文本中***的表情符号相同，则删除文本中***的表情符号；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行表情符号生成方法，该方法包括：确定语音片段及其对应的文本；将语音片段和文本输入至情感识别模型，得到情感识别模型输出的文本的情感识别结果；基于情感识别结果，在文本中***表情符号；其中，情感识别模型用于提取语音片段的语音特征以及文本的文本特征，并基于语音特征和文本特征进行情感识别；情感识别模型是基于样本语音片段及其对应的样本文本，以及样本情感识别结果训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的表情符号生成方法，该方法包括：确定语音片段及其对应的文本；将语音片段和文本输入至情感识别模型，得到情感识别模型输出的文本的情感识别结果；基于情感识别结果，在文本中***表情符号；其中，情感识别模型用于提取语音片段的语音特征以及文本的文本特征，并基于语音特征和文本特征进行情感识别；情感识别模型是基于样本语音片段及其对应的样本文本，以及样本情感识别结果训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的表情符号生成方法，该方法包括：确定语音片段及其对应的文本；将语音片段和文本输入至情感识别模型，得到情感识别模型输出的文本的情感识别结果；基于情感识别结果，在文本中***表情符号；其中，情感识别模型用于提取语音片段的语音特征以及文本的文本特征，并基于语音特征和文本特征进行情感识别；情感识别模型是基于样本语音片段及其对应的样本文本，以及样本情感识别结果训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种表情符号生成方法，其特征在于，包括：

确定语音片段及其对应的文本；

基于所述情感识别结果，在所述文本中***表情符号；

2.根据权利要求1所述的表情符号生成方法，其特征在于，所述将所述语音片段和所述文本输入至情感识别模型，得到所述情感识别模型输出的所述文本的情感识别结果，具体包括：

3.根据权利要求2所述的表情符号生成方法，其特征在于，所述将所述语音片段输入至所述情感识别模型的语音特征层，得到所述语音特征层输出的所述语音片段的语音特征，具体包括：

4.根据权利要求3所述的表情符号生成方法，其特征在于，所述将所述时频特征输入至所述语音特征层的语音特征输出层，得到所述语音特征输出层输出的所述语音特征，具体包括：

5.根据权利要求2所述的表情符号生成方法，其特征在于，所述将所述文本输入至所述情感识别模型的文本特征层，得到所述文本特征层输出的所述文本的文本特征，具体包括：

6.根据权利要求2所述的表情符号生成方法，其特征在于，所述将所述语音特征和所述文本特征输入至所述情感识别模型的情感识别层，得到所述情感识别层输出的所述情感识别结果，具体包括：

7.根据权利要求1-6任一项所述的表情符号生成方法，其特征在于，所述基于所述情感识别结果，在所述文本中***表情符号，具体包括：

8.根据权利要求1-6任一项所述的表情符号生成方法，其特征在于，所述基于所述情感识别结果，在所述文本中***表情符号，之后还包括：

9.一种表情符号生成装置，其特征在于，包括：

数据确定单元，用于确定语音片段及其对应的文本；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述表情符号生成方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述表情符号生成方法的步骤。