CN110275953A

CN110275953A - 人格分类方法及装置

Info

Publication number: CN110275953A
Application number: CN201910540702.1A
Authority: CN
Inventors: 林涛; 吴芝明; 冯豆豆
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-24
Anticipated expiration: 2039-06-21
Also published as: CN110275953B

Abstract

本申请提供的人格分类方法及装置，获取待分析的测试文本，并对给测试文本进行预处理使得该测试文本转化成神经网络模型能够处理的词向量，并将该词向量输入循环神经网络。其中，将循环神经网络中预设网络层输出的数据与人格相关系数表中的数据进行拼接后，输入分类层获得该测试文本对应作者的人格分类结果，该人格相关系数表记录有不同人格特质之间的预设相关度。如此，通过该循环神经网络在分析测试文本的过程中，结合不同人格特质之间的预设相关度，使得预测的人格分类结果更加准确。

Description

人格分类方法及装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种人格分类方法及装置。

背景技术

人格是个体内在心理生理***的动力组织，它决定一个人对其环境独特的适应。在人格心理学中有多种人格结构模型，在诸多人格结构模型中，人格流派的大五人格模型因其稳定、可测量、高可信度和适用范围广等优点被广泛使用。大五人格模型共包含五个人格特质，分别是开放性、尽责性、外向性、宜人性和神经质，每个人的人格类型均可通过该五个人格特质决定。

针对文本数据的人格分类是通过分析文本内容，比如博客或者散文等，得出被试文本内容对应作者的人格类型。人格分类中通常根据某个阈值将每个人格划分成高人格和低人格两类，其中，该阈值可以是该人格的平均分、中数等。目前，比较常见的做法是分别为每个人格建立二分类模型，但这种做法忽略了人格特质间的相关性，导致分类准确率低。

发明内容

为了克服现有技术中的至少一个不足，本申请的目的之一在于提供一种人格分类方法，应用于数据处理设备，所述数据处理设备预设有训练好的循环神经网络，所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表，所述方法包括：

获取测试文本的词向量；

将所述词向量输入所述循环神经网络；

将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表中的数据进行拼接，并输入所述分类层获得所述测试文本对应作者的人格类型。

可选地，所述循环神经网络为双向循环神经网络。

可选地，所述方法还包括：

针对当前输入的词向量，通过所述双向循环神经网络获得所述当前输入的词向量的上文特征向量和下文特征向量；

将所述当前输入的词向量、上文特征向量以及下文特征向量拼接成新的特征向量。

可选地，所述预设网络层为最大池化层。

可选地，所述不同人格特质之间的预设相关程度通过计算人格之间的皮尔逊相关获得。

可选地，所述获取测试文本的词向量之前还包括步骤：

对所述测试文本进行分词处理，获得对应的分词结果；

通过词向量转化工具对所述分词结果进行处理，获得所述词向量。

可选地，所述方法还包括对所述循环神经网络的训练步骤：

获取训练文本对应的词向量，该训练文本的词向量标记有多个人格特质标签；

基于预设损失函数，将所述训练文本的词向量输入所述循环神经网络，通过反向传播算法对所述循环神经网络的权值进行迭代调整，直到所述损失函数的输出值小于预设阈值。

本申请实施例的另一目的在于提供一种人格分类装置，应用于数据处理设备，所述数据处理设备预设有训练好的循环神经网络，所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表，所述人格分类装置包括获取模块、输入模块和分类模块；

所述获取模块用于获取测试文本的词向量；

所述输入模块用于将所述词向量输入所述循环神经网络；

所述分类模块用于将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表中的数据进行拼接，并输入所述分类层获得所述测试文本对应作者的人格类型。

可选地，所述人格分类装置还包括训练模块，所述训练模块通过以下方式对所述循环神经网络进行训练：

可选地，所述循环神经网络为双向循环神经网络。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的人格分类方法及装置，获取待分析的测试文本，并对给测试文本进行预处理使得该测试文本转化成神经网络模型能够处理的词向量，并将该词向量输入循环神经网络。其中，将循环神经网络中预设网络层输出的数据与人格相关系数表中的数据进行拼接后，输入分类层获得该测试文本对应作者的人格分类结果，该人格相关系数表记录有不同人格特质之间的预设相关度。如此，通过该循环神经网络在分析测试文本的过程中，结合不同人格特质之间的预设相关度，使得预测的人格分类结果更加准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据处理设备的硬件结构图；

图2为本申请实施例提供的人格分类方法的步骤流程图；

图3为本申请实施例提供的循环神经网络的框架结构示意图；

图4为本申请实施例提供的人格相关系数表；

图5为本申请实施例提供的人格分类装置的结构示意图之一；

图6为本申请实施例提供的人格分类装置的结构示意图之二。

图标：100-数据处理设备；130-处理器；110-人格分类装置；120-存储器；501-递归层；502-池化层；503-全连接层；504-softmax层；505-人格相关系数表；1101-获取模块；1102-输入模块；1103-分类模块；1104-训练模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1，图1是本申请实施例提供的数据处理设备100的硬件结构图，该数据处理设备100包括处理器130、存储器120和人格分类装置110。

所述存储器120和处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述人格分类装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据处理设备100的操作***(operating system，OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述人格分类装置110所包括的软件功能模块及计算机程序等。

其中，所述存储器120可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。

所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述数据处理设备100可以是，但不限于，智能手机、个人电脑(personalcomputer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)等。

请参照图2，图2为应用于图1所示的数据处理设备100的一种人格分类方法的流程图，该数据处理设备100预设有训练好的循环神经网络。请参照图3，图3为本申请实施例提供的循环神经网络的网络结构图。该循环神经网络包括特征提取层、分类层和记录有不同人格特质之间的预设相关程度的人格相关系数表505；其中，该分类层包括全连接层503和softmax层504；该特征提取层包括递归层501和池化层502。以下将对所述方法包括各个步骤进行详细阐述。

步骤S100，获取待测试文本的词向量。

可选地，该数据处理设备100可以从本地或者网络中获取大量的测试文本，该测试文本可以是博客、散文、日记或者作文等。在将该测试文本输入循环神经网络之前，需要对该测试文本进行预处理使得测试文本转化成循环神经网络能够处理的词向量。

例如，在一种可能的实例中，该数据处理设备100通过词表或者词典对测试文本进行分词处理。值得说明的是，若该测试文本为中文类的文本数据，由于中文不同于英文一样通过空格将单词进行区分。因此数据处理设备100对该测试文本处理之前，首先需要对测试文本进行分词处理。分词处理的好坏往往会影响对该测试文本的分析结果。

例如，对“今天天气很好！”进行分词处理，好的分词结果为“今天”“天气”“真好”，而差的分词结果为“今”“天天”“气”“真好”。可以看出，不同的分词结果，将带来完全不同的语义意思。

该数据处理设备100将分词之后的测试文本进行one-hot编码，即多少个状态就有多少个对应的比特位。例如，对“今天天气真好！”的分词结果“今天”“天气”“真好”进行one-hot编码，该分词结果对应有3个状态，因此对应有3个比特位。“今天”的编码结果为“100”；“天气”的编码结果为“010”；“真好”的编码结果为“001”。

该数据处理设备100通过查找预训练好的词向量表获得该测试文本的词向量。例如，“今天”的词向量为[0.2，0.3]；“天气”的词向量为[0.4，0.8]，“真好”的词向量为[0.5，0.9]。其中，预训练的词向量表是使用word2vec中的skip-gram在外部语料库中训练得到。

步骤S200，将所述词向量输入所述循环神经网络。

步骤S300，将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表505中的数据进行拼接，并输入所述分类层获得所述测试文本对应作者的人格类型。

可选地，值得说明的是，往往文本数据中某一位置的语义信息，与文本数据的上下文有联系，因此本实施例中的循环神经网络可以为双向循环神经网络。该循环神经网络为双向循环神经网络(Bidirectional Recurrent Neural Networks，BRNN)能够很好的处理文本数据中的上下文信息。

例如，“我的手机坏了，我打算()一部新手机”，预测括号中应该填入的词语，从括号前文的信息，该括号中可以填入“买”和“修”，或者手机坏了导致心情不好，括号中可以填入“大哭一场”、“走走散心”和“大吃一顿”。但如果考虑到括号后面的信息，该括号内填入“买”的可能性更大。

基于这一思想，该双向循环神经网络当前时刻i的输出不仅依赖序列中之前i-1时刻的输入，还依赖于后续i+1时刻的输入。针对当前输入的词向量，该双向循环神经网络提取当前词向量的上文特征向量和下文特征向量，其中，上文特征向量c_l(w_i)可以表示为：

c_l(w_i)＝f(W^(l)c_l(w_i-1)+W^(sl)e(w_i-1))；

其中，c_l(w_i-1)为i-1时刻该双向循环神经网络递归层501的前向输出，e(w_i-1)为i-1时刻该双向循环神经网络的词向量，W^(l)和W^(sl)分别为其对应的权重。

下文特征向量c_r(w_i)可以表示为：

c_r(w_i)＝f(W^(r)c_r(w_i+1)+W^(sr)e(w_i+1))；

其中，c_r(w_i+1)为i+1时刻该双向循环神经网络递归层501的后向输出，e(w_i+1)为i+1时刻该双向循环神经网络的词向量，W^(r)与W^(sr)分别为其对应的权值。该数据处理设备100将上文特征向量与下文特征向量拼接获得当前的语义特征x_i：

x_i＝[c_l(w_i)；e(w_i)；c_r(w_i)]；

其中，e(w_i)为当前词向量，通过如下方式获得隐含语义

W^h是x_i的权重，b^h是x_i的偏置，tanh(·)是隐藏层的激活函数，计算公式为：

可选地，该预设网络层为最大池化层，数据处理设备100将递归层501的输出特征通过该最大池化层进行处理获得y^pool。计算方式为：

将y^pool与人格相关系数表505中的数据进行拼接获得x^f，然后输入到全连接层503中，计算方式如下：

x^f＝[y^pool；r]；

y^f＝W^fx^f+b^f；

其中，r为人格相关系数表505中记录的不同人格特质之间的预设相关程度，不同人格特质之间的预设相关程度通过计算人格之间的皮尔逊相关获得。W^f是x^f的权重矩阵，b^f是x^f的偏置，y^f是全连接层503的输出。

例如，在一种可能的示例中，用于表示开放性、尽责性、宜人性、外向型和神经质之间的相关程度的人格相关系数表505如图4所示。人格之间的相关程度由“相关系数”和“显著性”决定。图中“双尾”表示一种计量标准，相对应的计量标准还有“单尾”。在“双尾”这种计量标准中，显著性水平小于0.05大于0.01时，用一个“*”表示，若显著性水平小于0.01用于两个“**”表示。如图4所示，“开放性”和“尽责性”之间的相关系数为0.29，且两者之间的显著性小于0.05，大于0.01。

数据处理设备100将人格相关系数表505中的相关系数以及显著性参数转出成列向量，并与最大池化层进行处理获得y^pool进行拼接，并输入分类层中的全连接层503获得该测试文本对应作者的人格类型的分类结果。其中，该全连接层503的输出连接有softmax层504，该数据处理设备100通过softmax层504对全连接层503输出的数据进行归一化处理，获得测试文本对应作者每个特质属于高特质的概率及其概率阈值。

例如，在一种可能的实例中，softmax层的输出共有10个输出，分为5个人格特质的人格概率，以及该5个人格特质对应的概率阈值。其中，每一个人格特质可以分为高特质和低特质，如外向性可以分为高外向性和低外向性。若一个人格的人格概率大于等于其对应的概率阈值，则该人格特质为高特质；若小于其对应的概率阈值，则该人格特质为低特质。其中，softmax的计算方式如下：

若softmax输出为{0.05，0.1，0.16，0.13，0.06，0.11，0.04，0.09，0.14，0.12}其中0.05是作者具有高开放性的概率，0.1是高开放性的阈值，0.05<0.1所以作者不具有高开放性，也就是作者具有低开放性；0.16是作者具有高尽责性的概率，0.16>0.13，所以，作者具有高尽责性。

可选地，本申请实施例还提供一种对该循环神经网络的训练方法，该训练方法的步骤包括：

该数据处理设备100获取训练文本对应的词向量，该训练文本的词向量标记有多个人格特质标签。其中，在获取训练文本的词向量之前，需要对训练文本进行预处理，获得该训练文本的词向量。预处理的方法包括先对该训练文本进行分词处理，将分词处理后的数据进行one-hot编码，然后通过查找预训练好的词向量表，将one-hot编码形式的训练文本转化成对应的词向量。本申请实施例中，该预训练的词向量表是使用word2vec中的skip-gram在外部语料库中训练得到。

基于预设损失函数，将所述训练文本的词向量输入所述循环神经网络，通过反向传播算法对所述循环神经网络的权值进行迭代调整，直到所述损失函数的输出值小于预设阈值。其中，该预设损失函数的计算方式如下：

其中，是训练文本d_i的相关人格。例如，如果训练文本d_i对应作者的人格为高尽责性和高神经质，那么尽责性、神经质为d_i的相关人格；那么剩余的三个人格为开放性、外向性和宜人性为d_i的不相关人格，是的补集，即d_i的不相关人格。是训练文本d_i的第·个神经元的输出，是训练文本d_i相关人格特质标签的输出概率，是训练文本d_i不相关人格特质标签的输出概率，和之间的差距越大越好，是训练文本d_i相关人格特质标签2k的阈值，输出概率高于阈值越大越好。是训练文本d_l不相关人格特质标签2j的阈值。

本申请是实施例还提供一种人格分类装置110。请参照图5，图5为该人格分类装置110的结构示意图，应用于数据处理设备100，所述数据处理设备100预设有训练好的循环神经网络，所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表505，所述人格分类装置110包括获取模块1101、输入模块1102和分类模块1103。

所述获取模块1101用于获取测试文本的词向量。

在本申请实施例中，该获取模块1101用于执行图2中的步骤S100，关于该获取模块1101的详细描述可以参考步骤S100的详细描述。

所述输入模块1102用于将所述词向量输入所述循环神经网络。

在本申请实施例中，该输入模块1102用于执行图2中的步骤S200，关于该输入模块1102的详细描述可以参考步骤S200的详细描述。

所述分类模块1103用于将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表505中的数据进行拼接，并输入所述分类层获得所述测试文本对应作者的人格类型。

在本申请实施例中，该分类模块1103用于执行图2中的步骤S300，关于该分类模块1103的详细描述可以参考步骤S300的详细描述。

请参照图6，该人格分类装置110还包括训练模块1104，该训练模块1104通过以下方式对所述循环神经网络进行训练：

该循环神经网络可以是双向循环神经网络。

综上所述，本申请实施例提供的人格分类方法及装置，获取待分析的测试文本，并对给测试文本进行预处理使得该测试文本转化成神经网络模型能够处理的词向量，并将该词向量输入循环神经网络。其中，将循环神经网络中预设网络层输出的数据与人格相关系数表中的数据进行拼接后，输入分类层获得该测试文本对应作者的人格分类结果，该人格相关系数表记录有不同人格特质之间的预设相关度。如此，通过该循环神经网络在分析测试文本的过程中，结合不同人格特质之间的预设相关度，使得预测的人格分类结果更加准确。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人格分类方法，其特征在于，应用于数据处理设备，所述数据处理设备预设有训练好的循环神经网络，所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表，所述方法包括：

获取测试文本的词向量；

将所述词向量输入所述循环神经网络；

2.根据权利要求1所述的人格分类方法，其特征在于，所述循环神经网络为双向循环神经网络。

3.根据权利要求2所述的人格分类方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的人格分类方法，其特征在于，所述预设网络层为最大池化层。

5.根据权利要求1所述的人格分类方法，其特征在于，所述不同人格特质之间的预设相关程度通过计算人格特质之间的皮尔逊相关获得。

6.根据权利要求1所述的人格分类方法，其特征在于，所述获取测试文本的词向量之前还包括步骤：

对所述测试文本进行分词处理，获得对应的分词结果；

7.根据权利要求1所述的人格分类方法，其特征在于，所述方法还包括对所述循环神经网络的训练步骤：

8.一种人格分类装置，其特征在于，应用于数据处理设备，所述数据处理设备预设有训练好的循环神经网络，所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表，所述人格分类装置包括获取模块、输入模块和分类模块；

所述获取模块用于获取测试文本的词向量；

所述输入模块用于将所述词向量输入所述循环神经网络；

9.根据权利要求8所述的人格分类装置，其特征在于，所述人格分类装置还包括训练模块，所述训练模块通过以下方式对所述循环神经网络进行训练：

10.根据权利要求8所述的人格分类装置，其特征在于，所述循环神经网络为双向循环神经网络。