CN108733651A

CN108733651A - 表情符号预测方法及模型构建方法、装置、终端

Info

Publication number: CN108733651A
Application number: CN201810475866.6A
Authority: CN
Inventors: 郏昕; 赵立永; 吴新丽; 姚笛
Original assignee: Xinhua Net Co ltd
Current assignee: Xinhua Net Co ltd
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-11-02

Abstract

本发明提供一种基于深度学习的表情符号预测方法，包括：对待预测文本进行预处理，得到文本向量；将文本向量输入预训练的表情符号预测模型，预测待预测文本对应的表情符号，其中，表情符号预测模型包含了词向量、长短神经网络、注意力机制等深度学习网络结构，通过从网络中采集到的海量原始文本数据对神经网络进行训练、测试并验证，以得到符合实际应用场景、预测精度较高的表情符号预测模型。本发明的方法利用基于深度学习的表情符号预测模型，能根据纯文本预测出最能描述用户情绪的表情符号，提高了预测精度；通过表情符号能更直观地反映文本所含的细粒度情绪倾向，更有效、直接地辅助分析者、决策者，快速了解和把握获用户的情感倾向。

Description

表情符号预测方法及模型构建方法、装置、终端

技术领域

本发明涉及人工智能技术领域，具体而言，本发明涉及一种表情符号预测方法及模型构建方法、装置、终端。

背景技术

随着互联网的普及和社交网络的兴起，越来越多的用户***台。微博的短文本不仅传达了用户所要传递、分享的客观信息，通常也蕴含着用户的情绪状态和观点态度。通过人工智能分析微博文本中所包含的情绪，有利于政府、企业等及时有效地掌握机构与个人的公众关系，了解实时舆论走向，做出制度和决策上的相应调整，提高事件处置效率，并维护自身形象。

现有的情绪分析方法仅分析用户的情感极性，如积极、消极倾向。考虑到情绪细化分类的情况下，情感类别也只局限于数种情感大类，分类方式较为粗放。日常生活的经验表明，仅仅以七情六欲来区别情感之间细微的差别是远远不够的。以Robert Plutchik的情绪色轮理论为例，情感可分为乐观、爱、顺从、敬畏、不赞同、悔恨、蔑视、侵略性8个大类，每个大类根据程度不同分为3个层次。举例而言，当用户的微博评论分别为“好可惜啊”和“气死我了”时，单单一个概括性的“消极倾向”无法反映差异明显的两个实际情感。

总结而言，由于情绪的多样性以及对情绪类别的粗略划分，现有的情绪分析方法，无法基于文本分析出用户细微的情感差别，在实际生活场景中的可用性较低。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一。

第一方面，本发明提供一种表情符号预测模型的构建方法，包括如下步骤：

对原始文本数据进行预处理，得到文本向量；

提取所述原始文本数据中的表情符号，对所述表情符号进行编码；

用编码后的表情符号对所述文本向量进行标注，得到样本数据；

利用所述样本数据训练深度学习模型，得到用于预测文本对应的表情符号的表情符号预测模型。

进一步地，所述提取所述原始文本数据中的表情符号，对所述表情符号进行编码，包括：

提取所述原始文本数据中的表情符号；

判断所述表情符号是否包含在表情库中；

若所述表情符号在所述表情库中，则对所述表情符号进行编码。

进一步地，所述表情库的构建方法包括：

对从所述原始文本数据中提取到的表情符号进行统计，得到各个表情符号的使用频率；

根据各个表情符号的使用频率，结合情绪分类规则筛选出多个表情符号，构成表情库。

进一步地，所述对原始文本数据进行预处理，得到文本向量，包括：

过滤原始文本数据中的噪音信息；

对过滤噪音信息后的原始文本数据进行分词处理；

对分词得到的分词片段进行编码，得到文本向量。

进一步地，所述对分词得到的分词片段进行编码，得到文本向量，包括：

利用预先构建的词汇库中的编码信息对分词得到的分词片段进行编码，得到文本向量；

其中，所述词汇库的构建方法包括：

过滤所述原始文本数据中的噪音信息；

对过滤噪音信息后的原始文本数据进行分词处理；

对分词处理后得到的分词片段进行词频统计；

根据词频统计结果筛选出分词片段构成词汇库；

对所述词汇库中的各个分词片段进行编码，将编码信息关联存入所述词汇库。

进一步地，所述用编码后的表情符号对所述文本向量进行标注，得到样本数据，包括：

若从同一原始文本数据中仅提取到一个表情符号，则用编码后的表情符号对所述文本向量进行标注，得到一个样本数据；

若从同一原始文本数据中提取到多个表情符号，则用编码后的各个表情符号分别对所述文本向量进行标注，得到多个样本数据。

进一步地，所述利用所述样本数据训练深度学习模型，得到用于预测文本对应的表情符号的表情符号预测模型，包括：

将所述样本数据划分为训练集、验证集和测试集；

利用所述训练集训初始练深度学习模型，以优化所述初始深度学习模型的参数；

当所述初始深度学习模型满足训练停止条件时，更换所述初始深度学习模型的超参数，继续利用所述训练集训练所述初始深度学习模型，直到遍历完所有超参数的组合为止；

利用所述验证集对各组超参数对应的初始深度学习模型进行验证，选择一组最优的超参数作为所述初始深度学习模型的超参数，得到深度学习模型；

利用所述训练集训练所述深度学习模型，以优化所述深度学习模型的参数；

利用所述测试集评估优化后的所述深度学习模型的性能，将通过性能评估的深度学习模型作为表情符号预测模型。

进一步地，所述利用所述训练集训初始练深度学习模型，以优化所述初始深度学习模型的参数，包括：

从所述训练集中实时采集样本数据得到子训练集，对所述子训练集进行欠采样平衡，并存入缓存；

在采集样本数据的同时，从缓存中读取已完成欠采样平衡的子训练集，利用所述子训练集训练初始深度学习模型，以优化所述初始深度学习模型的参数。

进一步地，所述对所述子训练集进行欠采样平衡，包括：

根据标注的表情符号对所述子训练集中的样本数据进行分类；

采用欠采样的方法平衡各类别中的样本数量的分布。

进一步地，所述利用所述测试集评估优化后的深度学习模型的性能，包括：

将所述测试集中的样本数据输入优化后的深度学习模型，得到所述深度学习模型输出的表情符号；

根据所述深度学习模型输出的表情符号和所述测试集中标注的表情符号，计算交叉熵损失、准确率和前五准确率，以评估优化后的深度学习模型的性能。

进一步地，在所述对原始文本数据进行预处理之前，所述方法还包括：

实时采集原始文本数据并存入缓存；

所述对原始文本数据进行预处理，包括：在采集数据的同时，从缓存中读取原始文本数据，对所述原始文本数据进行预处理。

第二方面，本发明提供了一种基于深度学习的表情符号预测方法，包括如下步骤：

对待预测文本进行预处理，得到文本向量；

将所述文本向量输入预训练的表情符号预测模型，预测所述待预测文本对应的表情符号；

其中，所述表情符号预测模型通过第一方面中任一实施例所述的方法训练得到。

进一步地，所述对待预测文本进行预处理，得到文本向量，包括：

过滤待预测文本中的噪音信息；

对过滤后的待预测文本进行分词处理，得到多个分词片段；

利用预先构建的词汇库，对分词处理后的多个分词片段进行编码，得到符合所述表情符号预测模型的输入数据格式的文本向量。

第三方面，本发明提供了一种表情符号预测模型的构建装置，包括：

数据预处理单元，用于对原始文本数据进行预处理，得到文本向量；

表情符号提取单元，用于提取所述原始文本数据中的表情符号，对所述表情符号进行编码；

样本生成单元，用于用编码后的表情符号对所述文本向量进行标注，得到样本数据；

模型训练单元，用于利用所述样本数据训练深度学习模型，得到用于预测文本对应的表情符号的表情符号预测模型。

第四方面，本发明提供了一种基于深度学习的表情符号预测装置，包括：

文本预处理单元，用于对待预测文本进行预处理，得到文本向量；

表情符号预测单元，用于将所述文本向量输入预训练的表情符号预测模型，预测所述待预测文本对应的表情符号；

第五方面，本发明提供了一种表情符号预测模型的构建终端，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第一方面中任一实施例所述的方法。

第六方面，本发明提供了一种基于深度学习的表情符号预测终端，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第二方面中任一实施例所述的方法。

第七方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一实施例所述的方法。

第八方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时第二方面中任一实施例所述的方法。

上述的表情符号预测模型的构建方法、装置、终端及计算机可读存储介质，直接利用原始文本数据中自带的表情符号作为样本标签，对原始文本数据进行标注，利用标注后的文本数据对深度学习模型进行训练，从而得到揭示文本和表情之间的关联性的表情符号预测模型，以便能够利用表情符号预测模型预测出与输入的文本数据最为相关的表情符号，直观反映文本数据所含的细粒度情绪倾向。此外，利用了网络用户喜欢在文本中加入用以表达情感的表情符号的使用习惯，将海量网络文本中对应的表情符号作为样本标签，自动筛选、过滤文本后直接生成训练数据集，通过这种自动标注样本的方法，大幅提高了训练数据集构建的效率。

上述的基于深度学习的表情符号预测方法、装置、终端及计算机可读存储介质，利用基于深度学习的表情符号预测模型，能够根据纯文本预测出最能描述用户情绪的表情符号，提高了预测精度；与文字相比，表情符号能够更加直观地反映文本所含的细粒度情绪倾向，能更为有效、直接地辅助分析者、决策者，快速了解和把握获用户的情感倾向。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为一个实施例的表情符号预测模型的构建方法流程图；

图2为一个实施例的基于深度学习的表情符号预测方法流程图；

图3为一个实施例的表情符号预测模型的构建装置的结构框图；

图4为一个实施例的基于深度学习的表情符号预测装置的结构框图；

图5为一个实施例的表情符号预测模型的构建终端的内部结构示意图；

图6为一个实施例的基于深度学习的表情符号预测终端的内部结构示意图；

图7为利用分布式Spark Streaming集群进行表情符号预测的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通讯链路上，执行双向通讯的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通讯设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通讯设备；PCS(Personal Communications Service，个人通讯***)，其可以组合语音、数据处理、传真和/或数据通讯能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通讯终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解，这里所使用的远端网络设备，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，远端网络设备、终端设备与WNS服务器之间可通过任何通讯方式实现通讯，包括但不限于，基于3GPP、LTE、WIMAX的移动通讯、基于TCP/IP、UDP协议的计算机网络通讯以及基于蓝牙、红外传输标准的近距无线传输方式。

为了能够高精度地识别文本对应的情绪，首先需要通过数据挖掘发现文本与表情符号之间的关联性，以构建表情符号预测模型，再通过表情符号预测模型预测文本对应的表情符号，达到自动分析用户情绪的目的。

下面先对本发明实施例提供的一种表情符号预测模型的构建方法进行介绍，参见图1所示，本实施例中所述方法包括：

步骤S101、对原始文本数据进行预处理，得到文本向量。

其中，原始文本数据为包含表情符号的文本，例如：“今天是个好日子。”，其中，“今天是个好日子。”为纯文本数据，为表情符号，当该表情符号以文本形式存储时，表达为[可爱]。原始文本数据来源于用户通过网络发布的评论、观点、状态等，例如微博文本、用户状态、评论内容等。

需要注意的是，此处，文本向量是基于原始文本数据中的纯文本数据得到的，并不对表情符号进行向量化处理。

步骤S102、提取原始文本数据中的表情符号，对表情符号进行编码。

其中，对提取的表情符号进行编码的目的是为了让表情符号符合深度学习模型对输入参数的要求。

步骤S103、用编码后的表情符号对文本向量进行标注，得到样本数据。

步骤S104、利用样本数据训练深度学习模型，得到用于预测文本对应的表情符号的表情符号预测模型。

其中，步骤S104中输入表情符号预测模型的文本是指不包含表情符号的纯文本。

本实施例提供的表情符号预测模型的构建方法，直接利用原始文本数据中自带的表情符号作为样本标签，对原始文本数据进行标注，利用标注后的文本数据对深度学习模型进行训练，从而得到揭示文本和表情符号之间关联性的表情符号预测模型，以便能够利用表情符号预测模型预测出与输入的文本最为相关的表情符号，直观反映文本所含的细粒度情绪倾向。此外，本实施例利用了网络用户喜欢在文本中加入用以表达情感的表情符号的使用习惯，将海量网络文本中对应的表情符号作为样本标签，自动筛选、过滤文本后直接生成训练数据集，通过这种自动标注样本的方法，大幅提高了训练数据集构建的效率。

进一步地，步骤S101具体包括步骤S201、步骤S202、步骤S203：

步骤S201、过滤原始文本数据中的噪音信息。

其中，从网络中获取到的原始文本数据通常包含一些噪音信息，比如@用户名、主题标签、网址链接、冗余字符(如非中文字符和部分标点符号)、表情符号等，因此，通过对原始文本数据进行过滤，可以消除噪音信息带来的干扰。此处，过滤后的原始文本数据为纯文本。

步骤S202、对过滤噪音信息后的原始文本数据进行分词处理。

其中，使用Jieba分词工具实现对过滤噪音信息后的原始文本数据进行分词处理的操作。

步骤S203、对分词得到的分词片段进行编码，得到文本向量。

其中，对分词片段的编码方式为独热编码。

对分词后得到的分词片段进行统计，统计结果表明：由于网络用语具有语法不规范、用词较新等特点，分词过程中存在显著的错分情况，导致分词结果中包含一定数量的不符合中文日常使用的词语。为了解决上述情况，本实施例中，预先构建用于编码的词汇库，具体构建过程包括步骤S2001、步骤S2002、步骤S2003、步骤S2004、步骤S2005：

步骤S2001、过滤原始文本数据中的噪音信息。

步骤S2002、对过滤噪音信息后的原始文本数据进行分词处理。

步骤S2003、对分词处理后得到的分词片段进行词频统计。

步骤S2004、根据词频统计结果筛选出分词片段构成词汇库。

步骤S2005、对词汇库中的各个分词片段进行编码，将编码信息关联存入词汇库。

其中，对分词片段的编码方式为独热编码。

本实施例根据统计大量原始文本数据分词后的词语频率，并综合考量中文常用词汇量大小，筛选得到了大小合理的词汇库，以适应网络用语的特殊性。

基于上述方法得到的词汇库，本实施例中，步骤S203的优选实施例方式包括：利用上述预先构建的词汇库中的编码信息对分词得到的分词片段进行编码，得到文本向量。一方面，通过预先构建的词汇库存储分词片段的编码信息，在对原始文本数据进行编码处理时，直接利用词汇库获取到分词片段对应的编码信息，以快速完成对分词片段的编码处理；另一方面，在步骤S203编码的过程中，对于不包含在词汇库中的分词片段，采用统一的编码信息对这些分词片段进行编码，以此提高样本数据质量，降低分词结果中不符合中文日常使用规范的分词片段在模型训练中带来的噪音。

进一步地，步骤S102具体包括步骤S301、步骤S302和步骤S303：

步骤S301、提取原始文本数据中的表情符号。

其中，网络文本中的表情符号通常由特定的“[”和“]”两个符号所标出，通过识别原始文本数据中的“[”和“]”符号，提取原始文本数据中的表情符号。

步骤S302、判断该表情符号是否包含在表情库中；若该表情符号在表情库中，则对该表情符号进行编码；若该表情符号不在表情库中，则不对该表情符号进行编码，剔除该表情符号对应的原始文本数据，不将该原始文本数据作为样本数据，避免引入噪音。

进一步地，网络实际使用中的表情符号有成百上千种，为精简表情符号，达到合理分类的目的，本实施例的方法还包括预先构建表情符号，具体过程包括：从大量的原始文本数据中提取表情符号，对提取到的表情符号进行统计，得到各个表情符号的使用频率；根据各个表情符号的使用频率，结合情绪分类规则筛选出多个表情符号，构成表情库。本实施例的方法，对从原始文本数据中提取到的表情符号进行统计，得到用户日常使用各个表情符号的频率，根据用户日常使用各个表情符号的频率，结合情绪分类理论、其他情绪分析研究结果，筛选出具有代表性的多个表情符号纳入到表情库中。本实施例中，筛选出70个表情符号，涵盖了用户日常使用频率较高的表情符号，同时能够覆盖各种细粒度的情感情绪类别，使得表情库中的表情符号能够直观反映用户细粒度的情绪倾向，举例而言，积极的情绪可细分成[加油]/[可爱]/[偷乐]/[笑cry]/[憧憬]/等不同的感情类别。

进一步地，步骤S103具体包括：

若从同一原始文本数据中仅提取到一个表情符号，则用编码后的表情符号对文本向量进行标注，得到一个样本数据；

若从同一原始文本数据中提取到多个表情符号，则用编码后的各个表情符号分别对文本向量进行标注，得到多个样本数据。

例如，原始文本数据为“今天是个好日子。[心][haha]”，从中提取到“[心]”“[haha]”两个表情符号，用“[心]”“[haha]”分别对“今天是个好日子”进行标注，得到“今天是个好日子。[心]”和“今天是个好日子。[haha]”两个样本数据。对于单个原始文本数据包含多个微博表情符号的情况，本实施例通过为该文本标注不同的表情符号的方式来扩充样本数据。

需要注意的是，当从同一原始文本数据中提取到多个表情符号时，判断提取到的多个表情符号是否包含在表情库中；对包含在表情库中的表情符号进行编码，利用该编码后的表情符号对文本向量进行标注，得到样本数据；剔除不包含在表情库中的表情符号，即不利用该表情符号对文本向量进行标注，避免将噪音引入样本数据。例如，原始文本数据为“今天是个好日子。[心][玫瑰花]”，从中提取到“[心]”“[玫瑰花]”两个表情符号，“[心]”包含在表情库中，而“[玫瑰花]”不包含在表情库中，则仅利用“[haha]”对“今天是个好日子”进行标注，得到“今天是个好日子。[心]”一个样本数据。

进一步地，步骤S104具体包括步骤S401、步骤S402、步骤S403、步骤S404、步骤S405、步骤S406：

步骤S401、将样本数据划分为训练集、验证集和测试集。

其中，将样本数据组成的数据集划分为不重合的三个子集，分别为训练集(trainset)，验证集(validation set)和测试集(test set)，训练集用以训练模型参数，验证集用以选择模型超参数，测试集用以测试模型最终性能。

步骤S402、利用训练集训练初始深度学习模型，以优化初始深度学习模型的参数。

其中，初始深度学习模型经初始化参数后，通过训练集循环进行预测、计算误差、反向传递误差、修正参数等环节，直至误差符合期望。初始深度学习模型包括前馈神经网络、结合注意力机制的长短神经网络(Long Short-Term Memory，LSTM)和分类器。其中，前馈神经网络可选用Skip-Gram模型，通过前馈神经网络将经过独热编码后的文本向量转化为符合长短神经网络入参要求的词向量，以压缩文本向量的维度。前馈神经网络的输出连接长短神经网络的输入，长短神经网络的输出连接分类器的输入，分类器可选用softmax函数，最终通过softmax输出针对文本向量的表情符号预测值。

在训练初始深度学习模型时，其内部前馈神经网络也在进行训练，由于训练使用的原始文本数据来源于实际应用场景，如微博，因此，与通用的词向量模型相比，利用本实施例的前馈神经网络得到的词向量更加符合实际应用场景，有利于提高表情符号识别模型的识别精度。

步骤S403、当初始深度学习模型满足训练停止条件时，更换初始深度学习模型的超参数，继续利用训练集训练初始深度学习模型，直到遍历完所有超参数的组合为止。

其中，训练停止条件包括模型输出的误差符合期望或训练迭代次数达到预设值。超参数是在模型开始学习过程之前设置值的参数，包括：模型复杂度、参数初始化、训练步长、训练迭代次数、正规化参数、随机丢弃、提前中止训练条件等。通过步骤S403选择合适的超参数等超参数，可以提高最终获得的表情符号预测模型的拟合能力和泛化能力。

步骤S404、利用验证集对各组超参数对应的初始深度学习模型进行验证，选择一组最优的超参数作为初始深度学习模型的超参数，得到深度学习模型。

步骤S405、利用训练集训练深度学习模型，以优化深度学习模型的参数。

其中，步骤S405的训练过程与步骤S402的训练过程相同。

步骤S406、利用测试集评估优化后的深度学习模型的性能，将通过性能评估的深度学习模型作为表情符号预测模型。

进一步地，在步骤S401之前，本实施例的方法还包括以下步骤：根据标注的表情符号对样本数据进行分类；采用欠采样的方法平衡各类别中的样本数量的分布。

经统计发现，各个表情符号下的样本数量的差异较为明显，因此，本实施例中，通过欠采样的方式对各类表情符号的样本数量进行了平衡。

进一步地，步骤S406具体包括：

将测试集中的样本数据输入优化后的深度学习模型，得到深度学习模型输出的表情符号；

根据深度学习模型输出的表情符号和测试集中标注的表情符号，计算交叉熵损失、准确率和前五准确率，以评估优化后的深度学习模型的性能，将通过性能评估的深度学习模型作为表情符号预测模型。

其中，模型测试需在全新的数据集上进行，以确保测试的是模型的泛化能力，本实施例中，通过步骤S401划分出的测试集并未用于训练模型，因此满足以上要求。

其中，交叉熵损失用来评估当前训练得到的概率分布与真实分布的差异情况；准确率表示预测的表情符号与样本实际标注的表情符号一致的情况占所有样本数量的比例；前五准确率(top 5accuracy)表示预测概率最大的五个表情符号中包含了样本实际标注的表情符号的情况占所有样本数量的比例。

进一步地，步骤S402包括：

步骤S4021、从训练集中实时采集样本数据得到子训练集，对子训练集进行欠采样平衡，并存入缓存。

其中，对子训练集进行欠采样平衡的方法包括：根据标注的表情符号对子训练集中的样本数据进行分类，采用欠采样的方法平衡各类别中的样本数量的分布。

步骤S4022、在采集样本数据的同时，从缓存中读取已完成欠采样平衡的子训练集，利用所述子训练集训练初始深度学习模型，以优化所述初始深度学习模型的参数。

其中，步骤S4021和步骤S4022是同步进行的，即，将数据量很大的训练集划分为多个子训练集，在对子训练集进行欠采样处理的同时，利用已经完成欠采样平衡的子训练集训练初始深度学习模型。本实施例采用的流水线处理方式，使得欠采样处理与模型训练过程能够同步进行，能够有效地应对训练集规模较大的情况，提高了整个建模过程的效率。

为了提高训练效率，本实施例利用图像处理单元(GPU)进行表情符号预测模型的训练，经过大量调试、测验，最终训练得到误差和准确率满足需求的表情符号预测模型。

如图2所示，本发明实施例还提供了一种基于深度学习的表情符号预测方法，包括如下步骤：

步骤S1、对待预测文本进行预处理，得到文本向量；

步骤S2、将文本向量输入预训练的表情符号预测模型，预测待预测文本对应的表情符号。

其中，通过上述实施例中的表情符号预测模型的构建方法训练得到表情符号预测模型，具体训练方法可参考前述实施例，在此不再赘述。

从需求角度出发，文本形式的情感分析虽相较于图像化表达更为精确，但在直观性上稍有欠缺，当主要分析的情感细粒度较高时，单纯以简短的文字无法区别或精确描述细微的情感差异。本实施例提供的基于深度学习的表情符号预测方法，利用基于深度学习的表情符号预测模型，能够根据纯文本预测出最能描述用户情绪的表情符号，提高了预测精度；与文字相比，表情符号能够更加直观地反映文本所含的细粒度情绪倾向，能更为有效、直接地辅助分析者、决策者，快速了解和把握获用户的情感倾向。

进一步地，步骤S1具体包括步骤S11、步骤S12、步骤S13：

步骤S11、过滤待预测文本中的噪音信息。

其中，从网络中获取到的原始文本数据通常包含一些噪音信息，比如@用户名、主题标签、网址链接、冗余字符(如非中文字符和部分标点符号)、表情符号等，因此，通过对原始文本数据进行过滤，可以消除噪音信息带来的干扰。此处，过滤后的待预测文本为纯文本。

步骤S12、对过滤后的待预测文本进行分词处理，得到多个分词片段。

其中，使用Jieba分词工具实现对过滤掉噪音信息后的待预测文本进行分词处理的操作。

步骤S13、利用预先构建的词汇库，对分词处理后的多个分词片段进行编码，得到符合表情符号预测模型的输入数据格式的文本向量。

其中，使用的词汇库为构建表情符号预测模型过程中筛选出的词汇库。步骤S13具体包括：当通过步骤S12得到的分词片段在词汇库中时，从词汇库中获取到该分词片段对应的编码信息，以快速完成对分词片段的编码处理；当分词片段未出现在词汇库中时，对该分词片段不作编码处理，即该分词片段不参与后续模型的训练，以此过滤掉分词结果中不符合中文日常使用规范的分词片段，最终提高预测精度。

从吞吐量需求和实际数据量两方面考虑，本实施例采用分布式Spark Streaming实现准实时情绪分析，如图7所示，具体过程为：从网络中抓取到的待预测数据实时且不断写入kafka话题，分布式Spark Streaming集群从kafka话题中读取离散数据流(Discretized Stream)，进行文本预处理后，利用已训练的表情符号预测模型进行表情符号的预测，最后预测的表情符号将同样以离散数据流的形式返回到另一个kafka话题中，从而完成一个完整的读取-处理-预测-反馈的流程。

基于与上述表情符号预测模型的构建方法相同的发明构思，本发明实施例还提供了一种表情符号预测模型的构建装置，如图3所示，包括：

表情符号提取单元，用于提取原始文本数据中的表情符号，对表情符号进行编码；

样本生成单元，用于用编码后的表情符号对文本向量进行标注，得到样本数据；

模型训练单元，用于利用样本数据训练深度学习模型，得到用于预测文本对应的表情符号的表情符号预测模型。

进一步地，表情符号提取单元具体用于：

提取原始文本数据中的表情符号；

判断表情符号是否包含在表情库中；

若表情符号在所述表情库中，则对表情符号进行编码。

进一步地，本实施例的表情符号预测模型的构建装置还包括表情库构建单元，用于：

对从原始文本数据中提取到的表情符号进行统计，得到各个表情符号的使用频率；

进一步地，数据预处理单元具体用于：

过滤原始文本数据中的噪音信息；

对过滤噪音信息后的原始文本数据进行分词处理；

对分词得到的分词片段进行编码，得到文本向量。

进一步地，本实施例的表情符号预测模型的构建装置还包括词汇库构建模块，用于：

过滤原始文本数据中的噪音信息；

对过滤噪音信息后的原始文本数据进行分词处理；

对分词处理后得到的分词片段进行词频统计；

根据词频统计结果筛选出分词片段构成词汇库；

对词汇库中的各个分词片段进行编码，将编码信息关联存入所述词汇库。

相应地，数据预处理单元具体用于：过滤原始文本数据中的噪音信息；对过滤噪音信息后的原始文本数据进行分词处理；利用预先构建的词汇库中的编码信息对分词得到的分词片段进行编码，得到文本向量。

进一步地，样本生成单元具体用于：

进一步地，模型训练单元具体包括：

数据集划分单元，用于将样本数据划分为训练集、验证集和测试集；

第一训练单元，用于利用训练集训初始练深度学习模型，以优化初始深度学习模型的参数，当初始深度学习模型满足训练停止条件时，更换初始深度学习模型的超参数，继续利用训练集训练初始深度学习模型，直到遍历完所有超参数的组合为止；

验证单元，用于利用验证集对各组超参数对应的初始深度学习模型进行验证，选择一组最优的超参数作为初始深度学习模型的超参数，得到深度学习模型；

第二训练单元，用于利用训练集训练深度学习模型，以优化深度学习模型的参数；

测试单元，用于利用测试集评估优化后的深度学习模型的性能，将通过性能评估的深度学习模型作为表情符号预测模型。

进一步地，第一训练单元具体包括：

欠采样子单元，用于从训练集中实时采集样本数据得到子训练集，对子训练集进行欠采样平衡，并存入缓存；

第一训练子单元，用于在采集样本数据的同时，从缓存中读取已完成欠采样平衡的子训练集，利用子训练集训练初始深度学习模型，以优化所述初始深度学习模型的参数。

其中，欠采样子单元和第一训练子单元是采用流水线的方式同步执行的。

进一步地，欠采样子单元具体用于：

从训练集中实时采集样本数据得到子训练集；

根据标注的表情符号对子训练集中的样本数据进行分类；

采用欠采样的方法平衡各类别中的样本数量的分布，将欠采样平衡后的训练子集存入缓存。

进一步地，测试单元具体用于：

根据深度学习模型输出的表情符号和测试集中标注的表情符号，计算交叉熵损失、准确率和前5准确率，以评估优化后的深度学习模型的性能。

进一步地，本实施例的表情符号预测模型的构建装置还包括采集单元，用于实时采集原始文本数据并存入缓存。相应地，数据预处理单元具体用于：在采集数据的同时，从缓存中读取原始文本数据，对所述原始文本数据进行预处理。

本实施例的表情符号预测模型的构建装置与表情符号预测模型的构建方法采用相同的发明构思，能够取得相同的技术效果，在此不再赘述。

基于与上述基于深度学习的表情符号预测方法相同的发明构思，本发明实施例还提供了一种基于深度学习的表情符号预测装置，如图4所示，包括：

表情符号预测单元，用于将文本向量输入预训练的表情符号预测模型，预测待预测文本对应的表情符号；

进一步地，文本预处理单元具体用于：

过滤待预测文本中的噪音信息；

对过滤后的待预测文本进行分词处理，得到多个分词片段；

利用预先构建的词汇库，对分词处理后的多个分词片段进行编码，得到符合表情符号预测模型的输入数据格式的文本向量。

本实施例的基于深度学习的表情符号预测装置与基于深度学习的表情符号预测方法采用相同的发明构思，能够取得相同的技术效果，在此不再赘述。

基于与上述表情符号预测模型的构建方法相同的发明构思，本发明实施例还提供了一种表情符号预测模型的构建终端，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行上述任一实施例中的表情符号预测模型的构建方法。

图5为一个实施例中表情符号预测模型的构建终端的内部结构示意图。如图5所示，该终端包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种表情符号预测模型的构建方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种表情符号预测模型的构建方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于与上述基于深度学习的表情符号预测方法相同的发明构思，本发明实施例还提供了一种基于深度学习的表情符号预测终端，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行上述任一实施例中的基于深度学习的表情符号预测方法。

图6为一个实施例中基于深度学习的表情符号预测终端的内部结构示意图。如图6所示，该终端包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于深度学习的表情符号预测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的

存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于深度学习的表情符号预测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于与上述表情符号预测模型的构建方法相同的发明构思，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例的表情符号预测模型的构建方法。

基于与上述基于深度学习的表情符号预测方法相同的发明构思，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例的基于深度学习的表情符号预测方法。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种表情符号预测模型的构建方法，其特征在于，包括如下步骤：

对原始文本数据进行预处理，得到文本向量；

2.根据权利要求1所述的方法，其特征在于，提取所述原始文本数据中的表情符号，对所述表情符号进行编码，包括：

提取所述原始文本数据中的表情符号；

判断所述表情符号是否包含在表情库中；

3.根据权利要求2所述的方法，其特征在于，所述表情库的构建方法包括：

4.根据权利要求1所述的方法，其特征在于，所述对原始文本数据进行预处理，得到文本向量，包括：

过滤原始文本数据中的噪音信息；

对过滤噪音信息后的原始文本数据进行分词处理；

对分词得到的分词片段进行编码，得到文本向量。

5.根据权利要求4所述的方法，其特征在于，所述对分词得到的分词片段进行编码，得到文本向量，包括：

其中，所述词汇库的构建方法包括：

过滤所述原始文本数据中的噪音信息；

对过滤噪音信息后的原始文本数据进行分词处理；

对分词处理后得到的分词片段进行词频统计；

根据词频统计结果筛选出分词片段构成词汇库；

6.根据权利要求1所述的方法，其特征在于，所述用编码后的表情符号对所述文本向量进行标注，得到样本数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述利用所述样本数据训练深度学习模型，得到用于预测文本对应的表情符号的表情符号预测模型，包括：

将所述样本数据划分为训练集、验证集和测试集；

8.根据权利要求7所述的方法，其特征在于，所述利用所述训练集训初始练深度学习模型，以优化所述初始深度学习模型的参数，包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述子训练集进行欠采样平衡，包括：

采用欠采样的方法平衡各类别中的样本数量的分布。

10.根据权利要求7所述的方法，其特征在于，所述利用所述测试集评估优化后的深度学习模型的性能，包括：

11.一种基于深度学习的表情符号预测方法，其特征在于，包括如下步骤：

对待预测文本进行预处理，得到文本向量；

其中，所述表情符号预测模型通过权利要求1-8中任一项所述的方法训练得到。

12.根据权利要求11所述的方法，其特征在于，所述对待预测文本进行预处理，得到文本向量，包括：

过滤待预测文本中的噪音信息；

对过滤后的待预测文本进行分词处理，得到多个分词片段；

13.一种表情符号预测模型的构建装置，其特征在于，包括：

14.一种基于深度学习的表情符号预测装置，其特征在于，包括：

15.一种表情符号预测模型的构建终端，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至10任一项所述的方法。

16.一种基于深度学习的表情符号预测终端，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求11、12任一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求11、12任一项所述的方法。