CN110275953A - 人格分类方法及装置 - Google Patents
人格分类方法及装置 Download PDFInfo
- Publication number
- CN110275953A CN110275953A CN201910540702.1A CN201910540702A CN110275953A CN 110275953 A CN110275953 A CN 110275953A CN 201910540702 A CN201910540702 A CN 201910540702A CN 110275953 A CN110275953 A CN 110275953A
- Authority
- CN
- China
- Prior art keywords
- personality
- neural network
- recurrent neural
- classification
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 83
- 230000000306 recurrent effect Effects 0.000 claims abstract description 78
- 238000013528 artificial neural network Methods 0.000 claims abstract description 77
- 238000012360 testing method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 4
- 206010029216 Nervousness Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 206010027940 Mood altered Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003304 psychophysiological effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的人格分类方法及装置,获取待分析的测试文本,并对给测试文本进行预处理使得该测试文本转化成神经网络模型能够处理的词向量,并将该词向量输入循环神经网络。其中,将循环神经网络中预设网络层输出的数据与人格相关系数表中的数据进行拼接后,输入分类层获得该测试文本对应作者的人格分类结果,该人格相关系数表记录有不同人格特质之间的预设相关度。如此,通过该循环神经网络在分析测试文本的过程中,结合不同人格特质之间的预设相关度,使得预测的人格分类结果更加准确。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种人格分类方法及装置。
背景技术
人格是个体内在心理生理***的动力组织,它决定一个人对其环境独特的适应。在人格心理学中有多种人格结构模型,在诸多人格结构模型中,人格流派的大五人格模型因其稳定、可测量、高可信度和适用范围广等优点被广泛使用。大五人格模型共包含五个人格特质,分别是开放性、尽责性、外向性、宜人性和神经质,每个人的人格类型均可通过该五个人格特质决定。
针对文本数据的人格分类是通过分析文本内容,比如博客或者散文等,得出被试文本内容对应作者的人格类型。人格分类中通常根据某个阈值将每个人格划分成高人格和低人格两类,其中,该阈值可以是该人格的平均分、中数等。目前,比较常见的做法是分别为每个人格建立二分类模型,但这种做法忽略了人格特质间的相关性,导致分类准确率低。
发明内容
为了克服现有技术中的至少一个不足,本申请的目的之一在于提供一种人格分类方法,应用于数据处理设备,所述数据处理设备预设有训练好的循环神经网络,所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表,所述方法包括:
获取测试文本的词向量;
将所述词向量输入所述循环神经网络;
将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表中的数据进行拼接,并输入所述分类层获得所述测试文本对应作者的人格类型。
可选地,所述循环神经网络为双向循环神经网络。
可选地,所述方法还包括:
针对当前输入的词向量,通过所述双向循环神经网络获得所述当前输入的词向量的上文特征向量和下文特征向量;
将所述当前输入的词向量、上文特征向量以及下文特征向量拼接成新的特征向量。
可选地,所述预设网络层为最大池化层。
可选地,所述不同人格特质之间的预设相关程度通过计算人格之间的皮尔逊相关获得。
可选地,所述获取测试文本的词向量之前还包括步骤:
对所述测试文本进行分词处理,获得对应的分词结果;
通过词向量转化工具对所述分词结果进行处理,获得所述词向量。
可选地,所述方法还包括对所述循环神经网络的训练步骤:
获取训练文本对应的词向量,该训练文本的词向量标记有多个人格特质标签;
基于预设损失函数,将所述训练文本的词向量输入所述循环神经网络,通过反向传播算法对所述循环神经网络的权值进行迭代调整,直到所述损失函数的输出值小于预设阈值。
本申请实施例的另一目的在于提供一种人格分类装置,应用于数据处理设备,所述数据处理设备预设有训练好的循环神经网络,所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表,所述人格分类装置包括获取模块、输入模块和分类模块;
所述获取模块用于获取测试文本的词向量;
所述输入模块用于将所述词向量输入所述循环神经网络;
所述分类模块用于将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表中的数据进行拼接,并输入所述分类层获得所述测试文本对应作者的人格类型。
可选地,所述人格分类装置还包括训练模块,所述训练模块通过以下方式对所述循环神经网络进行训练:
获取训练文本对应的词向量,该训练文本的词向量标记有多个人格特质标签;
基于预设损失函数,将所述训练文本的词向量输入所述循环神经网络,通过反向传播算法对所述循环神经网络的权值进行迭代调整,直到所述损失函数的输出值小于预设阈值。
可选地,所述循环神经网络为双向循环神经网络。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的人格分类方法及装置,获取待分析的测试文本,并对给测试文本进行预处理使得该测试文本转化成神经网络模型能够处理的词向量,并将该词向量输入循环神经网络。其中,将循环神经网络中预设网络层输出的数据与人格相关系数表中的数据进行拼接后,输入分类层获得该测试文本对应作者的人格分类结果,该人格相关系数表记录有不同人格特质之间的预设相关度。如此,通过该循环神经网络在分析测试文本的过程中,结合不同人格特质之间的预设相关度,使得预测的人格分类结果更加准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理设备的硬件结构图;
图2为本申请实施例提供的人格分类方法的步骤流程图;
图3为本申请实施例提供的循环神经网络的框架结构示意图;
图4为本申请实施例提供的人格相关系数表;
图5为本申请实施例提供的人格分类装置的结构示意图之一;
图6为本申请实施例提供的人格分类装置的结构示意图之二。
图标:100-数据处理设备;130-处理器;110-人格分类装置;120-存储器;501-递归层;502-池化层;503-全连接层;504-softmax层;505-人格相关系数表;1101-获取模块;1102-输入模块;1103-分类模块;1104-训练模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参照图1,图1是本申请实施例提供的数据处理设备100的硬件结构图,该数据处理设备100包括处理器130、存储器120和人格分类装置110。
所述存储器120和处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述人格分类装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据处理设备100的操作***(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述人格分类装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述数据处理设备100可以是,但不限于,智能手机、个人电脑(personalcomputer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)、移动上网设备(mobile Internet device,MID)等。
请参照图2,图2为应用于图1所示的数据处理设备100的一种人格分类方法的流程图,该数据处理设备100预设有训练好的循环神经网络。请参照图3,图3为本申请实施例提供的循环神经网络的网络结构图。该循环神经网络包括特征提取层、分类层和记录有不同人格特质之间的预设相关程度的人格相关系数表505;其中,该分类层包括全连接层503和softmax层504;该特征提取层包括递归层501和池化层502。以下将对所述方法包括各个步骤进行详细阐述。
步骤S100,获取待测试文本的词向量。
可选地,该数据处理设备100可以从本地或者网络中获取大量的测试文本,该测试文本可以是博客、散文、日记或者作文等。在将该测试文本输入循环神经网络之前,需要对该测试文本进行预处理使得测试文本转化成循环神经网络能够处理的词向量。
例如,在一种可能的实例中,该数据处理设备100通过词表或者词典对测试文本进行分词处理。值得说明的是,若该测试文本为中文类的文本数据,由于中文不同于英文一样通过空格将单词进行区分。因此数据处理设备100对该测试文本处理之前,首先需要对测试文本进行分词处理。分词处理的好坏往往会影响对该测试文本的分析结果。
例如,对“今天天气很好!”进行分词处理,好的分词结果为“今天”“天气”“真好”,而差的分词结果为“今”“天天”“气”“真好”。可以看出,不同的分词结果,将带来完全不同的语义意思。
该数据处理设备100将分词之后的测试文本进行one-hot编码,即多少个状态就有多少个对应的比特位。例如,对“今天天气真好!”的分词结果“今天”“天气”“真好”进行one-hot编码,该分词结果对应有3个状态,因此对应有3个比特位。“今天”的编码结果为“100”;“天气”的编码结果为“010”;“真好”的编码结果为“001”。
该数据处理设备100通过查找预训练好的词向量表获得该测试文本的词向量。例如,“今天”的词向量为[0.2,0.3];“天气”的词向量为[0.4,0.8],“真好”的词向量为[0.5,0.9]。其中,预训练的词向量表是使用word2vec中的skip-gram在外部语料库中训练得到。
步骤S200,将所述词向量输入所述循环神经网络。
步骤S300,将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表505中的数据进行拼接,并输入所述分类层获得所述测试文本对应作者的人格类型。
可选地,值得说明的是,往往文本数据中某一位置的语义信息,与文本数据的上下文有联系,因此本实施例中的循环神经网络可以为双向循环神经网络。该循环神经网络为双向循环神经网络(Bidirectional Recurrent Neural Networks,BRNN)能够很好的处理文本数据中的上下文信息。
例如,“我的手机坏了,我打算()一部新手机”,预测括号中应该填入的词语,从括号前文的信息,该括号中可以填入“买”和“修”,或者手机坏了导致心情不好,括号中可以填入“大哭一场”、“走走散心”和“大吃一顿”。但如果考虑到括号后面的信息,该括号内填入“买”的可能性更大。
基于这一思想,该双向循环神经网络当前时刻i的输出不仅依赖序列中之前i-1时刻的输入,还依赖于后续i+1时刻的输入。针对当前输入的词向量,该双向循环神经网络提取当前词向量的上文特征向量和下文特征向量,其中,上文特征向量cl(wi)可以表示为:
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1));
其中,cl(wi-1)为i-1时刻该双向循环神经网络递归层501的前向输出,e(wi-1)为i-1时刻该双向循环神经网络的词向量,W(l)和W(sl)分别为其对应的权重。
下文特征向量cr(wi)可以表示为:
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1));
其中,cr(wi+1)为i+1时刻该双向循环神经网络递归层501的后向输出,e(wi+1)为i+1时刻该双向循环神经网络的词向量,W(r)与W(sr)分别为其对应的权值。该数据处理设备100将上文特征向量与下文特征向量拼接获得当前的语义特征xi:
xi=[cl(wi);e(wi);cr(wi)];
其中,e(wi)为当前词向量,通过如下方式获得隐含语义
Wh是xi的权重,bh是xi的偏置,tanh(·)是隐藏层的激活函数,计算公式为:
可选地,该预设网络层为最大池化层,数据处理设备100将递归层501的输出特征通过该最大池化层进行处理获得ypool。计算方式为:
将ypool与人格相关系数表505中的数据进行拼接获得xf,然后输入到全连接层503中,计算方式如下:
xf=[ypool;r];
yf=Wfxf+bf;
其中,r为人格相关系数表505中记录的不同人格特质之间的预设相关程度,不同人格特质之间的预设相关程度通过计算人格之间的皮尔逊相关获得。Wf是xf的权重矩阵,bf是xf的偏置,yf是全连接层503的输出。
例如,在一种可能的示例中,用于表示开放性、尽责性、宜人性、外向型和神经质之间的相关程度的人格相关系数表505如图4所示。人格之间的相关程度由“相关系数”和“显著性”决定。图中“双尾”表示一种计量标准,相对应的计量标准还有“单尾”。在“双尾”这种计量标准中,显著性水平小于0.05大于0.01时,用一个“*”表示,若显著性水平小于0.01用于两个“**”表示。如图4所示,“开放性”和“尽责性”之间的相关系数为0.29,且两者之间的显著性小于0.05,大于0.01。
数据处理设备100将人格相关系数表505中的相关系数以及显著性参数转出成列向量,并与最大池化层进行处理获得ypool进行拼接,并输入分类层中的全连接层503获得该测试文本对应作者的人格类型的分类结果。其中,该全连接层503的输出连接有softmax层504,该数据处理设备100通过softmax层504对全连接层503输出的数据进行归一化处理,获得测试文本对应作者每个特质属于高特质的概率及其概率阈值。
例如,在一种可能的实例中,softmax层的输出共有10个输出,分为5个人格特质的人格概率,以及该5个人格特质对应的概率阈值。其中,每一个人格特质可以分为高特质和低特质,如外向性可以分为高外向性和低外向性。若一个人格的人格概率大于等于其对应的概率阈值,则该人格特质为高特质;若小于其对应的概率阈值,则该人格特质为低特质。其中,softmax的计算方式如下:
若softmax输出为{0.05,0.1,0.16,0.13,0.06,0.11,0.04,0.09,0.14,0.12}其中0.05是作者具有高开放性的概率,0.1是高开放性的阈值,0.05<0.1所以作者不具有高开放性,也就是作者具有低开放性;0.16是作者具有高尽责性的概率,0.16>0.13,所以,作者具有高尽责性。
可选地,本申请实施例还提供一种对该循环神经网络的训练方法,该训练方法的步骤包括:
该数据处理设备100获取训练文本对应的词向量,该训练文本的词向量标记有多个人格特质标签。其中,在获取训练文本的词向量之前,需要对训练文本进行预处理,获得该训练文本的词向量。预处理的方法包括先对该训练文本进行分词处理,将分词处理后的数据进行one-hot编码,然后通过查找预训练好的词向量表,将one-hot编码形式的训练文本转化成对应的词向量。本申请实施例中,该预训练的词向量表是使用word2vec中的skip-gram在外部语料库中训练得到。
基于预设损失函数,将所述训练文本的词向量输入所述循环神经网络,通过反向传播算法对所述循环神经网络的权值进行迭代调整,直到所述损失函数的输出值小于预设阈值。其中,该预设损失函数的计算方式如下:
其中,是训练文本di的相关人格。例如,如果训练文本di对应作者的人格为高尽责性和高神经质,那么尽责性、神经质为di的相关人格;那么剩余的三个人格为开放性、外向性和宜人性为di的不相关人格,是的补集,即di的不相关人格。是训练文本di的第·个神经元的输出,是训练文本di相关人格特质标签的输出概率,是训练文本di不相关人格特质标签的输出概率,和之间的差距越大越好,是训练文本di相关人格特质标签2k的阈值,输出概率高于阈值越大越好。是训练文本dl不相关人格特质标签2j的阈值。
本申请是实施例还提供一种人格分类装置110。请参照图5,图5为该人格分类装置110的结构示意图,应用于数据处理设备100,所述数据处理设备100预设有训练好的循环神经网络,所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表505,所述人格分类装置110包括获取模块1101、输入模块1102和分类模块1103。
所述获取模块1101用于获取测试文本的词向量。
在本申请实施例中,该获取模块1101用于执行图2中的步骤S100,关于该获取模块1101的详细描述可以参考步骤S100的详细描述。
所述输入模块1102用于将所述词向量输入所述循环神经网络。
在本申请实施例中,该输入模块1102用于执行图2中的步骤S200,关于该输入模块1102的详细描述可以参考步骤S200的详细描述。
所述分类模块1103用于将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表505中的数据进行拼接,并输入所述分类层获得所述测试文本对应作者的人格类型。
在本申请实施例中,该分类模块1103用于执行图2中的步骤S300,关于该分类模块1103的详细描述可以参考步骤S300的详细描述。
请参照图6,该人格分类装置110还包括训练模块1104,该训练模块1104通过以下方式对所述循环神经网络进行训练:
获取训练文本对应的词向量,该训练文本的词向量标记有多个人格特质标签;
基于预设损失函数,将所述训练文本的词向量输入所述循环神经网络,通过反向传播算法对所述循环神经网络的权值进行迭代调整,直到所述损失函数的输出值小于预设阈值。
该循环神经网络可以是双向循环神经网络。
综上所述,本申请实施例提供的人格分类方法及装置,获取待分析的测试文本,并对给测试文本进行预处理使得该测试文本转化成神经网络模型能够处理的词向量,并将该词向量输入循环神经网络。其中,将循环神经网络中预设网络层输出的数据与人格相关系数表中的数据进行拼接后,输入分类层获得该测试文本对应作者的人格分类结果,该人格相关系数表记录有不同人格特质之间的预设相关度。如此,通过该循环神经网络在分析测试文本的过程中,结合不同人格特质之间的预设相关度,使得预测的人格分类结果更加准确。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种人格分类方法,其特征在于,应用于数据处理设备,所述数据处理设备预设有训练好的循环神经网络,所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表,所述方法包括:
获取测试文本的词向量;
将所述词向量输入所述循环神经网络;
将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表中的数据进行拼接,并输入所述分类层获得所述测试文本对应作者的人格类型。
2.根据权利要求1所述的人格分类方法,其特征在于,所述循环神经网络为双向循环神经网络。
3.根据权利要求2所述的人格分类方法,其特征在于,所述方法还包括:
针对当前输入的词向量,通过所述双向循环神经网络获得所述当前输入的词向量的上文特征向量和下文特征向量;
将所述当前输入的词向量、上文特征向量以及下文特征向量拼接成新的特征向量。
4.根据权利要求3所述的人格分类方法,其特征在于,所述预设网络层为最大池化层。
5.根据权利要求1所述的人格分类方法,其特征在于,所述不同人格特质之间的预设相关程度通过计算人格特质之间的皮尔逊相关获得。
6.根据权利要求1所述的人格分类方法,其特征在于,所述获取测试文本的词向量之前还包括步骤:
对所述测试文本进行分词处理,获得对应的分词结果;
通过词向量转化工具对所述分词结果进行处理,获得所述词向量。
7.根据权利要求1所述的人格分类方法,其特征在于,所述方法还包括对所述循环神经网络的训练步骤:
获取训练文本对应的词向量,该训练文本的词向量标记有多个人格特质标签;
基于预设损失函数,将所述训练文本的词向量输入所述循环神经网络,通过反向传播算法对所述循环神经网络的权值进行迭代调整,直到所述损失函数的输出值小于预设阈值。
8.一种人格分类装置,其特征在于,应用于数据处理设备,所述数据处理设备预设有训练好的循环神经网络,所述训练好的循环神经网络包括特征提取层、分类层及记录有不同人格特质之间的预设相关程度的人格相关系数表,所述人格分类装置包括获取模块、输入模块和分类模块;
所述获取模块用于获取测试文本的词向量;
所述输入模块用于将所述词向量输入所述循环神经网络;
所述分类模块用于将所述循环神经网络中预设网络层输出的数据与所述人格相关系数表中的数据进行拼接,并输入所述分类层获得所述测试文本对应作者的人格类型。
9.根据权利要求8所述的人格分类装置,其特征在于,所述人格分类装置还包括训练模块,所述训练模块通过以下方式对所述循环神经网络进行训练:
获取训练文本对应的词向量,该训练文本的词向量标记有多个人格特质标签;
基于预设损失函数,将所述训练文本的词向量输入所述循环神经网络,通过反向传播算法对所述循环神经网络的权值进行迭代调整,直到所述损失函数的输出值小于预设阈值。
10.根据权利要求8所述的人格分类装置,其特征在于,所述循环神经网络为双向循环神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540702.1A CN110275953B (zh) | 2019-06-21 | 2019-06-21 | 人格分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540702.1A CN110275953B (zh) | 2019-06-21 | 2019-06-21 | 人格分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110275953A true CN110275953A (zh) | 2019-09-24 |
CN110275953B CN110275953B (zh) | 2021-11-30 |
Family
ID=67961812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910540702.1A Expired - Fee Related CN110275953B (zh) | 2019-06-21 | 2019-06-21 | 人格分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110275953B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487184A (zh) * | 2020-11-26 | 2021-03-12 | 北京智源人工智能研究院 | 用户性格判定方法、装置、存储器和电子设备 |
CN113221560A (zh) * | 2021-05-31 | 2021-08-06 | 平安科技(深圳)有限公司 | 人格特质和情绪的预测方法、装置、计算机设备及介质 |
CN113268740A (zh) * | 2021-05-27 | 2021-08-17 | 四川大学 | 一种网站***的输入约束完备性检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN105701460A (zh) * | 2016-01-07 | 2016-06-22 | 王跃明 | 一种基于视频的篮球进球检测方法和装置 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及*** |
CN107451118A (zh) * | 2017-07-21 | 2017-12-08 | 西安电子科技大学 | 基于弱监督深度学习的句子级情感分类方法 |
CN108108354A (zh) * | 2017-06-18 | 2018-06-01 | 北京理工大学 | 一种基于深度学习的微博用户性别预测方法 |
US20180203848A1 (en) * | 2017-01-17 | 2018-07-19 | Xerox Corporation | Author personality trait recognition from short texts with a deep compositional learning approach |
US10169656B2 (en) * | 2016-08-29 | 2019-01-01 | Nec Corporation | Video system using dual stage attention based recurrent neural network for future event prediction |
CN109376784A (zh) * | 2018-10-29 | 2019-02-22 | 四川大学 | 一种人格预测方法及人格预测装置 |
CN109597891A (zh) * | 2018-11-26 | 2019-04-09 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
CN109829154A (zh) * | 2019-01-16 | 2019-05-31 | 中南民族大学 | 基于语义的人格预测方法、用户设备、存储介质及装置 |
-
2019
- 2019-06-21 CN CN201910540702.1A patent/CN110275953B/zh not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN105701460A (zh) * | 2016-01-07 | 2016-06-22 | 王跃明 | 一种基于视频的篮球进球检测方法和装置 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及*** |
US10169656B2 (en) * | 2016-08-29 | 2019-01-01 | Nec Corporation | Video system using dual stage attention based recurrent neural network for future event prediction |
US20180203848A1 (en) * | 2017-01-17 | 2018-07-19 | Xerox Corporation | Author personality trait recognition from short texts with a deep compositional learning approach |
CN108108354A (zh) * | 2017-06-18 | 2018-06-01 | 北京理工大学 | 一种基于深度学习的微博用户性别预测方法 |
CN107451118A (zh) * | 2017-07-21 | 2017-12-08 | 西安电子科技大学 | 基于弱监督深度学习的句子级情感分类方法 |
CN109376784A (zh) * | 2018-10-29 | 2019-02-22 | 四川大学 | 一种人格预测方法及人格预测装置 |
CN109597891A (zh) * | 2018-11-26 | 2019-04-09 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
CN109829154A (zh) * | 2019-01-16 | 2019-05-31 | 中南民族大学 | 基于语义的人格预测方法、用户设备、存储介质及装置 |
Non-Patent Citations (1)
Title |
---|
车丽萍: "《健康人格与自信》", 31 January 2012 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487184A (zh) * | 2020-11-26 | 2021-03-12 | 北京智源人工智能研究院 | 用户性格判定方法、装置、存储器和电子设备 |
CN113268740A (zh) * | 2021-05-27 | 2021-08-17 | 四川大学 | 一种网站***的输入约束完备性检测方法 |
CN113221560A (zh) * | 2021-05-31 | 2021-08-06 | 平安科技(深圳)有限公司 | 人格特质和情绪的预测方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110275953B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN109871545B (zh) | 命名实体识别方法及装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN108920461B (zh) | 一种多类型且含复杂关系的实体抽取方法及装置 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN110275953B (zh) | 人格分类方法及装置 | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
CN111695591B (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及*** | |
CN109376222A (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
Singh et al. | HINDIA: a deep-learning-based model for spell-checking of Hindi language | |
CN113076720B (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114925175A (zh) | 基于人工智能的摘要生成方法、装置、计算机设备及介质 | |
CN111626059B (zh) | 一种信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211130 |