CN109165380B - 一种神经网络模型训练方法及装置、文本标签确定方法及装置 - Google Patents

一种神经网络模型训练方法及装置、文本标签确定方法及装置 Download PDF

Info

Publication number
CN109165380B
CN109165380B CN201810837902.9A CN201810837902A CN109165380B CN 109165380 B CN109165380 B CN 109165380B CN 201810837902 A CN201810837902 A CN 201810837902A CN 109165380 B CN109165380 B CN 109165380B
Authority
CN
China
Prior art keywords
label
neural network
network model
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810837902.9A
Other languages
English (en)
Other versions
CN109165380A (zh
Inventor
刘伟伟
史佳慧
骆世顺
黄萍萍
斯凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Digital Media Co Ltd
Original Assignee
MIGU Digital Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Digital Media Co Ltd filed Critical MIGU Digital Media Co Ltd
Priority to CN201810837902.9A priority Critical patent/CN109165380B/zh
Publication of CN109165380A publication Critical patent/CN109165380A/zh
Application granted granted Critical
Publication of CN109165380B publication Critical patent/CN109165380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种神经网络模型训练方法,包括:获取由若干文本的语义主题特征向量构成的样本特征集,以及可作为文本标签的若干标签构成的标签集;基于所述样本特征集和所述标签集,按照下述方式训练神经网络模型:以所述样本特征集为第1层神经网络模型的输入,以所述标签集中第1个标签为第1层神经网络模型的输出,训练第1级神经网络模型;以第m‑1层的训练结果以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型;其中,2≤m≤M,M为所述标签集包括的标签总数量。本发明还公开了一种神经网络模型训练装置、文本标签确定方法及装置。

Description

一种神经网络模型训练方法及装置、文本标签确定方法及 装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种神经网络模型训练方法及装置、文本标签确定方法及装置。
背景技术
相关技术中,通过多类别分类的方法为文本打标签,每个文本对应一个标签,存在对文本进行标签识别的结果不全面、准确性和鲁棒性低的问题。
发明内容
有鉴于此,本发明实施例期望提供一种神经网络模型训练方法及装置、文本标签确定方法及装置,能够对文本进行多标签识别,提高文本标签的准确性和鲁棒性。
为达到上述目的,本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种神经网络模型训练方法,包括:
获取由若干文本的语义主题特征向量构成的样本特征集;
获取可作为文本标签的若干标签构成的标签集;
基于所述样本特征集和所述标签集,按照下述方式训练神经网络模型:
以所述样本特征集为第1层神经网络模型的输入,以所述标签集中第1个标签为第1层神经网络模型的输出,训练第1级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以第m-1层的训练结果以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型根据关键词预测对应的标签的性能;其中,2≤m≤M,M为所述标签集包括的标签总数量。
第二方面,本发明实施例提供一种基于上述的神经网络模型训练方法的文本标签确定方法,包括:
计算文本对应的关键词的特征向量;
将所述文本对应的关键词的特征向量输入m级神经网络模型,得到对应的m个标签,2≤m;
计算不同类别下标签集中各标签的分布概率;
将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
第三方面,本发明实施例提供一种神经网络模型训练装置,所述装置包括:
获取单元,用于获取由若干文本的语义主题特征向量构成的样本特征集以及可作为文本标签的若干标签构成的标签集;
训练单元,用于所述样本特征集和所述标签集,按照下述方式训练神经网络模型:
以所述样本特征集为第1层神经网络模型的输入,以所述标签集中第1个标签为第1层神经网络模型的输出,训练第1级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以第m-1层的训练结果以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型根据关键词预测对应的标签的性能;其中,2≤m≤M,M为所述标签集包括的标签总数量。
第四方面,本发明实施例提供一种文本标签确定装置,所述装置包括:
第一计算单元,用于计算文本对应的关键词的特征向量;
输入单元,用于将所述文本对应的关键词的特征向量输入m级神经网络模型,得到对应的m个标签,2≤m;
第二计算单元,用于计算不同类别下标签集中各标签的分布概率,将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
本发明实施例提供的神经网络模型训练方法及装置、文本标签确定方法及装置,基于文本的语义主题特征向量构成的样本特征集和若干标签构成的标签集训练神经网络模型,并基于训练得到的神经网络模型确定文本标签;如此,能够对一个文本确定多个标签,提高文本标签的准确性和鲁棒性。
附图说明
图1为本发明实施例提供的神经网络模型训练方法的一个可选处理流程示意图;
图2为本发明实施例提供的获取由若干文本的语义主题特征向量构成的样本特征集的处理流程示意图;
图3为本发明实施例获取文本的关键词的处理流程示意图;
图4为本发明实施例计算每个词的词权重的处理流程示意图;
图5为本发明实施例基于样本特征集和标签集训练神经网络模型的处理流程示意图;
图6为本发明实施例链式神经网络CMLP的具体结构示意图;
图7为本发明实施例神经网络模型训练方法的另个一可选处理流程示意图;
图8为本发明实施例文本标签确定方法的处理流程示意图;
图9为本发明实施例提供的神经网络模型训练装置的组成结构示意图;
图10为本发明实施例提供的文本标签确定装置的组成结构示意图;
图11为本发明实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
在对本发明实施例进行详细说明之前,先对本发明实施例涉及的名词进行解释。
1)停用词,指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。
2)无意义词,是指语气助词、副词、介词、连接词等自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用的词,如常见的“的”、“在”、“过来”、“去”、“怎么了”等。
3)命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
鉴于多类别分类的方法为文本打标签存在的问题,本发明提出利用二值分类法、标签集组合方法、多标记临近分类、一对多组合式支持向量机、随机森林等决策树算法训练样本标签特性的方法,但是,上述方法存在样本特征维度变大时,确定文本标签的准确性不稳定,以及训练难度大、精确度差等问题。
鉴于上述问题,本发明实施例提供的神经网络模型训练方法的一个可选处理流程示意图,如图1所示,包括以下步骤:
步骤S101,获取由若干文本的语义主题特征向量构成的样本特征集。
在一些可选实施方式中,神经网络模型训练装置对文本进行处理,得到多个语义主题特征向量,多个语义主题特征向量构成样本特征集。神经网络模型训练装置获取由若干文本的语义主题特征向量构成的样本特征集的处理过程,如图2所示,包括以下步骤:
步骤S1011,获取文本的关键词。
在一些实施例中,神经网络模型训练装置获取文本的关键词的处理流程,如图3所示,包括以下步骤:
步骤S1a,对文本进行分词处理,得到多个词。
在一可选实施方式中,神经网络模型训练装置采用语言技术平台(LanguageTechnology Platform,LTP)开源工具对文本进行分词,并对分词结果进行停用词过滤、无意义词过滤、对分词结果进行命名实体识别等处理。对分词结果进行命名实体识别时,昆山吴江江阴识别为ns(地名),黄埔军校识别为ni(机构名),长孙无忌识别为nh(人名)。通过对文本进行分词,能够保证文本中的重要特征被有效识别。
步骤S1b,计算每个词的词权重。
在一可选实施方式中,神经网络模型训练装置计算每个词的词权重的处理流程,如图4所示,包括以下步骤:
步骤S1b1,基于每个词的自身属性计算第一词权重。
这里,自身属性至少包括:词性、词位置、与主题相关程度;词性包括:名词、动词、形容词;
在实际实施时,名词的第一词权重大于动词和形容词的第一词权重;助词和其他指代性的词等虚词的第一词权重为零。处于开头和结尾处的词的第一词权重大于其他位置的词的第一词权重,文本中与文本标题相关或相似的词的第一词权重大。如文本的标题为《自由的孩子最自觉》,那么文本中“自由”的第一词权重大。
步骤S1b2,基于每个词的第一词权重与词集合内的词的第一权重计算词间权重。
这里,所述词间权重为以一个词为中心,向前及向后预设数量的词构成的集合;将每个词的第一词权重与所述词集合内各个词的第一权重进行加权迭代,得到词间权重。
以W表示词,S(W,n)表示词集合,其中n表示词集合内词的数量。
在一些实施方式中,基于词特征TEXTRANK图模型计算词间权重,以词A为例,将词A的第一词权重与词A对应的词集合内的每个词的权重进行加权迭代,如下公式所示:
Figure GDA0003558163030000051
步骤S1b3,计算全量下的词权重和类别下的词权重。
在一具体实施方式中,神经网络模型训练装置利用如下公式计算全量下的词权重:
Figure GDA0003558163030000052
Figure GDA0003558163030000053
Tfidf(W)=Tf(W)*idf(W) (2)
其中,f(W)为词w在全部样本中对应的词频,f(all)为总词数,C(all)为所有样本条数,C(W)为包含W的样本条数。
神经网络模型训练装置计算类别下词权重TFidfc的处理过程与计算全量下的词权重的处理过程相似,这里不再赘述。
步骤S1b4,基于所述词间权重、所述全量下的词权重和所述类别下的词权重的乘积,确定每个词的词权重。
神经网络模型训练装置将所述词间权重、所述全量下的词权重和所述类别下的词权重相乘,得到词权重,如下公式所示:
WT(W)=Weight(Wi)*TFidfF*TFidfC (3)
在一些实施例中,还可以对词权重进行归一化处理,如将计算得到的词权除以单样本的最大权重值,得到词权重的归一化权重。
步骤S1c,对词权重按照大小进行排序,将词权重大的N个词作为所述文本的关键词,N为正整数。
在一些实施例中,还可以对获取的关键词基于同义词转换词典进行同义词转换,同义词词典为按照文本特有的转换关键编制得到,同义词词典的示例,如下表1所示:
Figure GDA0003558163030000061
表1
基于表1所示的同义词词典,至少对情节、人物、背景、人物性格和人物身份维度下的标签具有同义关系的词进行转换,同时对各维度下的停用标签或标识错误的标签进行清洗过滤,进而保证不同维度下的标签唯一。同时,针对各类别下同一标签语义的不同,基于各类别标签间的语义映射进行同义转换,转换格式为:类别|原始词|转换词;针对原始词与转换词中包含标签库的标签,将会被初步标记识别出来。
步骤S1012,基于所述关键词确定文本的语义主题特征向量。
在一些实施例中,神经网络模型训练装置针对关键词,对样本集合库进行TF-idf计算;再采用LSI潜在语义索引(Latent Semantic Indexing)进行特征降维与语义主题表示。
在具体实施时,针对关键词对样本集合库进行TF-idf计算时,是以样本集合库作为矩阵的列,以关键词作为行进行TF-idf计算,对关键词做进一步的抽象展示。
采用LSI潜在语义索引进行特征降维与语义主题表示时,是基于奇异值分解(SVD)得到文档、主题、词义与词之间的相关度;对于i个文档j个词的矩阵Aij可被分解为如下公式:
Ai*j=Ui*kSk*kVk*j (4)
其中,U表示文档与主题间的相关度,S表示主题与词义之间的相关度,B表示词与词义之间的相关度。
文本的语义主题特征向量如下述公式所示:
Figure GDA0003558163030000071
其中,X为文本的语义主题特征向量,d为文本的词特征向量。
步骤S1013,基于所述语义主题特征向量构建样本特征集。
在一些实施例中,神经网络模型训练装置基于若干文本的语义主题特征向量构建集合,将所述集合作为样本特征集。
步骤S102,获取可作为文本标签的若干标签构成的标签集。
在一些实施方式中,标签集可以是神经网络模型训练装置预先设置的,或者由服务器发送给神经网络模型训练装置;标签至少包括:都市职场、玄幻奇幻、科幻、武侠仙侠、历史、言情、浪漫、战争等。
步骤S103,基于样本特征集和标签集训练神经网络模型。
由于文本具有复杂多样的特征,文本的表达方式也具有多样化,主题或观点阐述的针对性不强,个人情节臆想、经历描述和背景文化等内容描述凌乱;而神经网络模型具有较强的非线性映射能力,对噪声数据具有较强的泛化能力,且能对样本特征进行自学习,具备较高的自适应能力和容错能力;因此,本发明实施例基于样本特征集和标签集训练神经网络模型,使得所述神经网络模型具有预测文本对应的标签的性能。
在一些实施例中,基于样本特征集和标签集训练神经网络模型的处理流程,如图5所示,样本特征集包括n维样本特征,表示为X(x1,x2,x3…xn);标签集包括m维标签,表示为Y(y1,y2,y3…ym),采用神经网络MLP依次组合构建链式神经网络(简称为CMLP)模型。
在具体实施时,以所述样本特征集X(x1,x2,x3…xn)为第1层神经网络模型的输入,以所述标签集中第1个标签y1为第1层神经网络模型的输出,训练第1级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以第1层的训练结果
Figure GDA0003558163030000081
和样本特征集X(x1,x2,x3…xn)为第2层神经网络模型的输入,以所述标签集中第2个标签y2为第2层神经网络模型的输出,训练第2级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以此类推,以第m-1层的训练结果
Figure GDA0003558163030000082
以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型根据关键词预测对应的标签的性能;其中,3≤m≤M,M为所述标签集包括的标签总数量。
上述实施例中链式神经网络CMLP的具体结构,如图6所示,CMLP由一个输入层、多个隐藏层,一个输出层构成。其中输入层为文本的语义主题特征向量X;为了降低特征噪声以及避免特征稀疏,预先对文本的关键词进行特征提取,同时为突出样本中重要的隐含特征,基于文本的主题分布来表示样本特征,并将文本的语义主题向量X作为链式神经网络的输入。再将文本的语义主题向量X与标签集Y中任一标签y1进行训练获得第一训练结果
Figure GDA0003558163030000083
第一训练结果与文本的语义主题向量X则作为输入与标签集Y中下一标签y2进行参数训练,获得第二训练结果
Figure GDA0003558163030000091
以此类推,上一层神经网络模型的训练结果与文本的语义主题向量X组合作为特征输入进入隐藏层训练,如此迭代训练,根据每层神经网络模型的输入不同,构造训练不同的感知机C(C1,C2…Cm),并通过权值计算与激活函数(如relu函数)进行特征传递,直至标签集中的m个标签均训练完毕。
上述神经网路模型的训练过程,转化为寻找神经元间权重与偏置组合的过程,以使实际值与预期值之间的损失最小。对于输入特征前向传播经过权值计算f=wx+w’,yl+b和下述公式中的激活函数relu计算,得到实际值与预期值之间的损失值。
Figure GDA0003558163030000092
损失函数如下述公式所示,当单个样本预测结果y=1时,若预测概率h=1时,此时损失函数为0;若h=0,则损失值无穷大。通过随机梯度下降法采用链式求导不断更新w、w’和b等参数,经过数次迭代以使损失函数达到最小值,从而得到最优参数模型。
Figure GDA0003558163030000093
本发明实施例中,通过多标签分类的方法使得每个文本对应一组标签集,如一部电影可以对应喜剧、历史、战争等多个标签,提高文本标签的准确性和鲁棒性。而相关技术中多类别分类的方法使得每个文本只能对应一个标签,如同样一部电影仅能对应喜剧、历史和战争中的一个标签,降低文本标签的准确性和鲁棒性。
基于上述神经网络模型训练方法,本发明实施例提供如下表2所示的网文各类别、各维度下图书对应的抽象标签,按照样本类别与抽象标签维度,基于训练样本集与交叉维度标签进行训练。举例来说,随机抽取11499本男生类网文图书与目标502个抽象标签进行链式网络映射训练,整个训练过程从图书内容到最终标签集均从属于图书与标签归属类别。首先,对各类别下网文内容关键词进行同义词转换等预处理预处理,经过特征识别与分布计算得到各网文主题向量特征;其次,抽取目标标签集中任意标签进行样本集训练,如第一训练标签为“爱情”,则整个训练集则会对“爱情”这一结果进行特征的学习与模型训练,得出整体训练集对该标签的识别结果。然后,对于第一次训练结果与整个训练集特征组合,对第二个标签如“浪漫”进行训练得到第二个标签的训练结果。如此迭代下去,将整个抽象标签集中所有标签训练完毕,在损失值达到最小时训练模型完成。每个样本在训练模型识别时均得到502个标签的识别结果,以一本言情小说为例,经过神经网络模型进行多标签识别得到的标签结果集为(“青春”、“校园”、“暗恋”…)。
Figure GDA0003558163030000101
表2
最后,计算类标签中一个标签所覆盖的样本数与该类标签中所有标签的样本数的占比,得到不同类别下标签集中各标签的分布概率。结合下述各类别下标签集中各标签分布概率公式:
Figure GDA0003558163030000102
计算该类标签t所覆盖的样本数St与该类所有标签的样本数
Figure GDA0003558163030000103
的占比,最终每个样本将识别结果与该类下标签分布概率进行加权计算,得到最终标签结果集,得到的标签结果集如下表3所示:
Figure GDA0003558163030000111
表3
本发明实施例提供的神经网络模型训练方法的另个一可选处理流程,如图7所示,包括以下步骤:
步骤S201,基于图书简介和图书正文,进行关键词抽取,得到图书关键词。
步骤S202,对所述图书关键词进行同义词转换。
步骤S203,判断关键词是否能进行标签识别,判断结果为是时,作为初次标签结果;判断结果为否时,执行步骤S204。
步骤S204,对关键词进行TF-idf计算以及LSI主题模型确定主题特征向量。
步骤S205,以主题特征向量作为样本集及标签集利用分类模型进行多标签分类,得到图书标签结果。
本发明实施例还提供一种基于上述神经网络模型训练方法的文本标签确定方法,本发明实施例提供一种文本标签确定方法的处理流程,如图8所示,包括:
步骤S301,计算文本的语义主题特征向量。
本发明实施例中,计算文本的语义主题特征向量的处理过程与上述步骤S101中记载的处理过程相同,这里不再赘述。
步骤S302,将所述文本的语义主题特征向量输入m级神经网络模型,得到对应的m个标签,2≤m。
步骤S303,计算不同类别下标签集中各标签的分布概率。
本发明实施例中,利用上述公式(8)计算不同类别下标签集中各标签的分布概率。
步骤S304,将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
基于上述神经网络模型训练方法,本发明实施例还提供一种神经网络模型训练装置,所述神经网络模型训练装置400的组成结构,如图9所示,包括:
获取单元401,用于获取由若干文本的语义主题特征向量构成的样本特征集以及可作为文本标签的若干标签构成的标签集;
训练单元402,用于所述样本特征集和所述标签集,按照下述方式训练神经网络模型:
以所述样本特征集为第1层神经网络模型的输入,以所述标签集中第1个标签为第1层神经网络模型的输出,训练第1级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以第m-1层的训练结果以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型根据关键词预测对应的标签的性能;其中,2≤m≤M,M为所述标签集包括的标签总数量。
本发明实施例中,所述获取单元401,还用于获取文本的关键词;基于所述关键词确定文本的语义主题特征向量;基于所述语义主题特征向量构建样本特征集。
本发明实施例中,所述获取单元401,还用于对所述文本进行分词处理,得到多个词;
计算每个词的词权重;
对所述词权重按照大小进行排序,将词权重大的N个词作为所述文本的关键词,N为正整数。
本发明实施例中,所述获取单元401,还用于基于每个词的自身属性计算第一词权重;
基于每个词的第一词权重与词集合内的词的第一权重计算词间权重,所述词集合为以一个词为中心,向前以及向后预设数量的词构成的集合;
计算全量下的词权重和类别下的词权重;
基于所述词间权重、所述全量下的词权重和所述类别下的词权重的乘积,确定每个词的词权重。
本发明实施例中,所述获取单元401,还用于将每个词的第一词权重与所述词集合内各个词的第一权重进行加权迭代,得到词间权重。
本发明实施例中,所述获取单元401,还用于计算文本的语义主题特征向量;
将所述文本的语义主题特征向量输入m级神经网络模型,得到对应的m个标签,2≤m;
计算不同类别下标签集中各标签的分布概率;
将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
本发明实施例中,所述获取单元401,还用于计算类标签中一个标签所覆盖的样本数与该类标签中所有标签的样本数的占比,得到不同类别下标签集中各标签的分布概率。
基于上述文本标签确定方法,本发明实施例还提供一种文本标签确定装置,所述文本标签确定装置500的组成结构,如图10所示,包括:
第一计算单元501,用于计算文本对应的关键词的特征向量;
输入单元502,用于将所述文本对应的关键词的特征向量输入m级神经网络模型,得到对应的m个标签,2≤m;
第二计算单元503,用于计算不同类别下标签集中各标签的分布概率,将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
本发明实施例中,所述第二计算单元503,还用于计算类标签中一个标签所覆盖的样本数与该类标签中所有标签的样本数的占比,得到不同类别下标签集中各标签的分布概率。
图11是本发明实施例提供的电子设备(神经网络模型训练装置或文本标签确定装置)的硬件组成结构示意图,电子设备700包括:至少一个处理器701、存储器702和至少一个网络接口704。电子设备700中的各个组件通过总线***705耦合在一起。可理解,总线***705用于实现这些组件之间的连接通信。总线***705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线***705。
可以理解,存储器702可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
本发明实施例中的存储器702用于存储各种类型的数据以支持电子设备700的操作。这些数据的示例包括:用于在电子设备700上操作的任何计算机程序,如应用程序7022。实现本发明实施例方法的程序可以包含在应用程序7022中。
上述本发明实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、MPU、或其他电子元件实现,用于执行前述方法。
相应的,本发明实施例还提供一种存储介质,所述存储介质中存储由计算机程序,所述计算机程序被处理器运行时,用于实现本发明实施例上述神经网络模型训练方法或本发明实施例上述文本标签确定方法。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种神经网络模型训练方法,其特征在于,所述方法包括:
获取由若干文本的语义主题特征向量构成的样本特征集;
获取作为文本标签的若干标签构成的标签集;
基于所述样本特征集和所述标签集,按照下述方式训练所述神经网络模型:
以所述样本特征集为第1层神经网络模型的输入,以所述标签集中第1个标签为第1层神经网络模型的输出,训练第1级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以第m-1层的训练结果以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型根据关键词预测对应的标签的性能;其中,2≤m≤M,M为所述标签集包括的标签总数量;所述神经网络模型包括:一个输入层、M个隐藏层和一个输出层,所述M个隐藏层以M个多层感知机MLP的神经网络作为M个分类器并将该M个分类器以链式结构的形式进行构建。
2.根据权利要求1所述的方法,其特征在于,所述获取由若干文本的语义主题特征向量构成的样本特征集,包括:
获取文本的关键词;
基于所述关键词确定文本的语义主题特征向量;
基于所述语义主题特征向量构建样本特征集。
3.根据权利要求2所述的方法,其特征在于,所述获取文本的关键词,包括:
对所述文本进行分词处理,得到多个词;
计算每个词的词权重;
对所述词权重按照大小进行排序,将词权重大的N个词作为所述文本的关键词,N为正整数。
4.根据权利要求3所述的方法,其特征在于,所述计算每个词的词权重,包括:
基于每个词的自身属性计算第一词权重;
基于每个词的第一词权重与词集合内的词的第一权重计算词间权重,所述词集合为以一个词为中心,向前以及向后预设数量的词构成的集合;
计算全量下的词权重和类别下的词权重;
基于所述词间权重、所述全量下的词权重和所述类别下的词权重的乘积,确定每个词的词权重。
5.根据权利要求4所述的方法,其特征在于,所述基于每个词的第一词权重与词集合内的词的第一权重计算词间权重,包括:
将每个词的第一词权重与所述词集合内各个词的第一权重进行加权迭代,得到词间权重。
6.一种文本标签确定方法,其特征在于,所述方法包括:
计算文本的语义主题特征向量;
将所述的语义主题特征向量输入m级神经网络模型,所述m级神经网络模型是根据权利要求1所述的神经网络模型训练方法训练得到的,得到对应的m个标签,2≤m;
计算不同类别下标签集中各标签的分布概率;
将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
7.根据权利要求6所述的方法,其特征在于,所述计算不同类别下标签集中各标签的分布概率,包括:
计算类标签中一个标签所覆盖的样本数与该类标签中所有标签的样本数的占比,得到不同类别下标签集中各标签的分布概率。
8.一种神经网络模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取由若干文本的语义主题特征向量构成的样本特征集以及作为文本标签的若干标签构成的标签集;
训练单元,用于所述样本特征集和所述标签集,按照下述方式训练所述神经网络模型:
以所述样本特征集为第1层神经网络模型的输入,以所述标签集中第1个标签为第1层神经网络模型的输出,训练第1级神经网络模型根据待分配标签的文本的关键词预测对应的标签的性能;
以第m-1层的训练结果以及所述样本特征集为第m层神经网络模型的输入,以所述标签集中第m个标签为第m层神经网络模型的输出,训练第m级神经网络模型根据关键词预测对应的标签的性能;其中,2≤m≤M,M为所述标签集包括的标签总数量;所述神经网络模型包括:一个输入层、M个隐藏层和一个输出层,所述M个隐藏层以M个多层感知机MLP的神经网络作为M个分类器并将该M个分类器以链式结构的形式进行构建。
9.一种文本标签确定装置,其特征在于,所述装置包括:
第一计算单元,用于计算文本对应的关键词的特征向量;
输入单元,用于将所述文本对应的关键词的特征向量输入m级神经网络模型,所述m级神经网络模型是根据权利要求1所述的神经网络模型训练方法训练得到的,得到对应的m个标签,2≤m;
第二计算单元,用于计算不同类别下标签集中各标签的分布概率,将m个标签与所述分布概率进行加权计算得到文本对应的标签集。
CN201810837902.9A 2018-07-26 2018-07-26 一种神经网络模型训练方法及装置、文本标签确定方法及装置 Active CN109165380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810837902.9A CN109165380B (zh) 2018-07-26 2018-07-26 一种神经网络模型训练方法及装置、文本标签确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810837902.9A CN109165380B (zh) 2018-07-26 2018-07-26 一种神经网络模型训练方法及装置、文本标签确定方法及装置

Publications (2)

Publication Number Publication Date
CN109165380A CN109165380A (zh) 2019-01-08
CN109165380B true CN109165380B (zh) 2022-07-01

Family

ID=64898322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810837902.9A Active CN109165380B (zh) 2018-07-26 2018-07-26 一种神经网络模型训练方法及装置、文本标签确定方法及装置

Country Status (1)

Country Link
CN (1) CN109165380B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992646B (zh) * 2019-03-29 2021-03-26 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN111797325A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 事件贴标方法、装置、存储介质及电子设备
CN110222160B (zh) * 2019-05-06 2023-09-15 平安科技(深圳)有限公司 智能语义文档推荐方法、装置及计算机可读存储介质
CN110147499B (zh) * 2019-05-21 2021-09-14 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110472665A (zh) * 2019-07-17 2019-11-19 新华三大数据技术有限公司 模型训练方法、文本分类方法及相关装置
CN110428052B (zh) * 2019-08-01 2022-09-06 江苏满运软件科技有限公司 深度神经网络模型的构建方法、装置、介质及电子设备
CN110491374A (zh) * 2019-08-27 2019-11-22 北京明日汇科技管理有限公司 基于神经网络的酒店服务语音交互识别方法及装置
CN111177385B (zh) * 2019-12-26 2023-04-07 北京明略软件***有限公司 一种多层次分类模型训练方法、多层次分类方法和装置
CN111339301B (zh) * 2020-02-28 2023-11-28 创新奇智(青岛)科技有限公司 标签确定方法、装置、电子设备及计算机可读存储介质
CN111666769A (zh) * 2020-06-11 2020-09-15 暨南大学 一种年报中的金融领域事件句提取方法
CN111695053A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 序列标注方法、数据处理设备、可读存储介质
CN111695052A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 标签分类方法、数据处理设备、可读存储介质
CN113822013B (zh) * 2021-03-08 2024-04-05 京东科技控股股份有限公司 用于文本数据的标注方法、装置、计算机设备及存储介质
CN113486147A (zh) * 2021-07-07 2021-10-08 中国建设银行股份有限公司 一种文本处理方法、装置、电子设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN105046274A (zh) * 2015-07-13 2015-11-11 浪潮软件集团有限公司 一种电子商务商品类别自动标注方法
KR20170039951A (ko) * 2015-10-02 2017-04-12 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类***及方法
CN107944946A (zh) * 2017-11-03 2018-04-20 清华大学 商品标签生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11086918B2 (en) * 2016-12-07 2021-08-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-label classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN105046274A (zh) * 2015-07-13 2015-11-11 浪潮软件集团有限公司 一种电子商务商品类别自动标注方法
KR20170039951A (ko) * 2015-10-02 2017-04-12 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类***及方法
CN107944946A (zh) * 2017-11-03 2018-04-20 清华大学 商品标签生成方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Classifier chains for multi-label classification;Jsse Read 等;《Machine Learning》;20110630(第85期);第333-359页 *
基于Spark的组合分类器链多标签分类方法;王进 等;《中国科学技术大学学报》;20170415;第47卷(第4期);第350-357页 *
基于路径选择的层次多标签分类;张春焰等;《计算机技术与发展》;20180516(第10期);第40-50页 *

Also Published As

Publication number Publication date
CN109165380A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165380B (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
Syed et al. A survey of the state-of-the-art models in neural abstractive text summarization
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
Zhao et al. ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及***
Wang et al. Encoding syntactic dependency and topical information for social emotion classification
Mahmoud et al. A text semantic similarity approach for Arabic paraphrase detection
Schütz et al. Automatic sexism detection with multilingual transformer models
Menon et al. Semantics-based topic inter-relationship extraction
Li et al. LSTM-based deep learning models for answer ranking
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
Mahmoud et al. Hybrid attention-based approach for arabic paraphrase detection
Le-Hong et al. A semantics-aware approach for multilingual natural language inference
Zhu et al. A named entity recognition model based on ensemble learning
Alarcón et al. Hulat-ALexS CWI Task-CWI for Language and Learning Disabilities Applied to University Educational Texts.
Chakkarwar et al. A Review on BERT and Its Implementation in Various NLP Tasks
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Lazemi et al. Persian plagirisim detection using CNN s
CN113641789A (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及***
Aydinov et al. Investigation of automatic part-of-speech tagging using CRF, HMM and LSTM on misspelled and edited texts
Ma et al. ASR hypothesis reranking using prior-informed restricted boltzmann machine
Choi et al. Korean erroneous sentence classification with Integrated Eojeol Embedding
Jin et al. Multilingual Complementation of Causality Property on Wikidata Based on GPT-3
Thu et al. Generating Myanmar news headlines using recursive neural network
Bharadi et al. Movie genre prediction and sentiment analysis using natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant