CN108846017A - 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 - Google Patents

基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 Download PDF

Info

Publication number
CN108846017A
CN108846017A CN201810426304.2A CN201810426304A CN108846017A CN 108846017 A CN108846017 A CN 108846017A CN 201810426304 A CN201810426304 A CN 201810426304A CN 108846017 A CN108846017 A CN 108846017A
Authority
CN
China
Prior art keywords
word
sentence
gru
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810426304.2A
Other languages
English (en)
Inventor
李雄
张传新
刘春阳
张旭
王萌
王慧
王利军
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianrun Foundation Technology Development Ltd By Share Ltd
National Computer Network and Information Security Management Center
Original Assignee
Beijing Tianrun Foundation Technology Development Ltd By Share Ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tianrun Foundation Technology Development Ltd By Share Ltd, National Computer Network and Information Security Management Center filed Critical Beijing Tianrun Foundation Technology Development Ltd By Share Ltd
Priority to CN201810426304.2A priority Critical patent/CN108846017A/zh
Publication of CN108846017A publication Critical patent/CN108846017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于Bi‑GRU和字向量的大规模新闻文本的端到端分类方法,包括如下步骤:S1.进行Word Embedding的字级别语义特征表示;S2.构建注意力权重的Bi‑GRU字级别的句子特征编码模型;S3.搭建基于注意力权重的Bi‑GRU句子级别特征编码模型;S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度,且有效地防止特征过于稀疏问题。优化了最终的输出向量,增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题,又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器,方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。

Description

基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
技术领域
本发明涉及一种针对大规模新闻语料的文本分类技术,尤其涉及一种基于Bi-GRU(Bi-directional Gated Recurrent Unit)和字向量的大规模新闻文本的端到端分类方法,它整合了文本向量表示技术和深度学习模型Bi-GRU原理。针对文本分类的特征选择问题,设计了Bi-GRU模型用于提取特征,改善了序列神经网络模型在处理长文本中的语义特征训练中的长期依赖问题。同时通过注意力机制(Attention mechanism)的方法,得到含有输入序列节点注意力权重分布的语义编码,并将其作为分类器的输入,减少了特征向量提取过程中的信息丢失和信息冗余。本发明属于自然语言处理领域。
背景技术
目前,互联网己经进入了大数据时代,大量的数据信息源源不断催生,其中文本信息的数量最大,表现为超大规模、特征复杂、难以语义转化等特点。在新闻文本中,蕴含丰富的语义信息,具有非常大的应用价值,是国家政府与企业发展不可或缺的非物质生产要素,其重要性和价值已经得到了各国政府、企业和科研机构的广泛关注。文本信息规模大、种类多、语义信息表示难等特征使得文本的信息数量难以以人工的方法去区分和整理。因此,如何有效地快速地对文本信息分类整理变得相当重要,这也催生了文本分类技术。
文本分类技术意图实现文本的自动分类,解决信息杂乱的问题,提供一种高效的信息分类方法和信息获取途径。同时,文本分类技术也是数据挖掘的基础技术之一。文本分类技术从对文本分类需要获取语义信息的粒度来讲,可以分为:粗粒度的文本语义获取与分类,比如文本主题挖掘;以及面向特定领域提供细粒度的文本语义信息,比如,评论分类、观点分类、情感分类、知识图谱中的实体、关系分类等。文本分类技术对数据挖掘领域的研究有着很宽泛的研究基础以及研究价值。
基于机器学习的文本分类技术在90年代取代了之前的分类技术成为了主流。基于机器学习的分类技术一般需要先获取文本的特征信息,然后构建分类器,这样可以省去大量的人工成本。鉴于文本分类的重要性,许多研究机构致力于文本分类技术的研究,例如,微软亚洲研究院成立了自然语言研究组。与此同时,大量的语料库也相继出现,为研究文本分类技术提供了数据支持。目前,基于深度学习的自然语言处理成为了主流的研究方向。比如基于注意力机制的卷积神经网络(CNN)与循环神经网络(RNN)及其改进的神经网络模型在处理大规模文本分类任务中表现出非常明显的效果。传统做法主要问题的文本表示是高纬度高稀疏的,特征表达能力很弱,此外需要人工进行特征工程,成本很高。运用深度学习解决大规模文本分类问题最重要的是解决文本表示,再利用CNN/RNN等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程,端到端的解决问题。其中循环神经网络模型由于能够表征文本语料的序列语义语法特征,作为文本分类的主要研究方法之一,但经典的RNN模型在求解过程中存在梯度***和消失问题,对长文本的效果不佳。
发明内容
1、目的:面向大规模新闻文本、本发明提供一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,首先基于Bi-GRU特征训练方法,并把注意力机制融入监督学习模型中,实现文本分类。针对词级别的句子词向量表示与句子级别的类别特征表示,分别构造基于注意力机制的特征学习方法。其中GRU使用“门”的方式比长短时记忆循环神经网络(LSTM)的相对简单,可以节约训练时间,同样实现不需要依赖自然语言处理标注工具的端到端的文本分类。本发明提出的方法强化了文本语义信息的特征表示,能有效处理大规模句子级别的文本分类问题。
2、技术方案:根据有监督学习的分类模型的常见过程。针对文本分类中的数据表示的高纬度难以训练问题,本发明采用词嵌入(Word Embedding)机制,对句子进行词级别特征表示,避免高维的输入导致特征抽取模型的维度灾难问题。同时采用词级别和句子级别的注意力机制训练特征向量,提高了文本分类器的性能。这种两种级别的注意力权重机制的Bi-GRU模型用于特征提取,得到含有输入序列节点注意力概率分布的语义编码以及分类类别特征的句子特征编码。并将其作为分类器的输入训练模型。优化了特征的抽取部分。使得分类的效率和准确率提升。技术实现方法主要包括三个任务:Word Embedding的文本数据表示、基于注意力权重的GRU特征训练模型、分层Softmax实现端到端分类实现。
Word Embedding词级别特征分布式表示:
文本表示的方法往往会借助于语义标注比如语法、词性、语义角色标注等来抽取语义特征,粗标注数据的准确率低,细标注数据会引起带来信息冗余,错误标注会引起错误传播问题。本发明提出的处理方法运用Word Embedding方法实现句子的字级别语义编码。WordEmbedding是一种采用机器学习的方法将单词映射到实数低维向量的技术。与传统的词向量的表示方法相比较,这种技术可以解决向量维度过高的问题,并且使用这种技术产生的词向量具有相似词语或者同义词向量相似的特点,丰富了特征向量的语义信息。WordEmbedding技术生的词向量可以用作与文本分类模型的输入向量,较低的维度和附加的语义信息可以提高分类器的性能。
基于注意力机制的Bi-GRU的特征训练方法:
首先,采用Word Embedding处理作为特征输入,Bi-GRU作为训练模型,得到对于长本文中存在远距离依赖的语义特征向量。不依赖语义标注工具或方法实现对语义信息的编码。构造的Bi-GRU的字级别Attention的句子特征编码模型中采用注意力机制捕捉一句话基于字级别特征;而后以每一种类别的句子输入做共同训练,引入句子级别注意力机制,对不同置信度的句子赋予不同的权重,训练时减少噪声句子的影响。整个训练过程将训练语料中的每个句子特征向量与所有有效句子编码的特征向量做迭代训练编码。对每一种类别的句子输入做共同训练得到句子级别的分类文本特征编码。
分层Softmax实现端到端分类实现:
在整个模型训练时,综合考虑字级别的特征和句子级别的特征作为模型训练对象,模型最后采用树的层级结构替代扁平化的标准Softmax,使得在计算分类的概率时,只需计算一条路径上的所有节点的概率值,无需在意其它的节点。从模型的输入是词向量编码的句子,到输出是句子的类别概率。这种处理方式实现了实现不依赖如词性分析、依存句法分析等NLP工具的端到端的分类效果。
本发明的工作原理及工况简介如下:
本发明的目的是解决大规模文本分类问题,主要分为文本的数据表示、文本的特征提取、文本的分类器三部分。本发明采用Word Embedding技术来实现文本数据的语义向量表示。通过Word Embedding语言模型,得到词向量。在特征抽取部分,根据文本分类语料的特征,采用基于注意力机制的Bi-GRU模型进行特征抽取。该模型采用Bi-GRU模型作为编码模型,同时加入字级别和句子级别的Attention权重,计算出字与句子的影响力权重,优化了特征向量。在文本分类部分,采用分层Softmax回归方法作为分类训练,简单高效。以往的文本分类的有监督学习模型相比,构建分类模型完全没有依赖n-gram、词性、依存句法等复杂特征,使用的注意力机制下的Bi-GRU深度学习模型,不需要中文分词,只依靠字向量和大量训练语料端到端的文本分类实现。
一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,流程图见图4。具体包括如下步骤:
S1.进行Word Embedding的字级别语义特征表示
调用Word2vec字向量生成接口。然后将句子中的每一个词转换为高维向量空间中的向量表示,蕴含上下文关系即词语特征求取,得到字级别的每一个句子的特征编码。
S2,构建注意力权重的Bi-GRU字级别的句子特征编码模型。
S21:用训练语料的句子作为输入。选用Word Embedding处理方式先将句子中每个词映射为低维向量,即得到每一个中文字符的特征编码向量,具体如下:
包含T个词的句子S={w1,w2,...,wT},每一个词wi被转化为实值向量ei,设置embedding矩阵其中V表示固定大小的词汇范围。dw是Word Embedding的大小即训练选择的超参数。Mword是需要学习的参数组成矩阵。将一个词wi转化为embedding的词向量ei=Mwordvi。其中vi是V大小下的向量表示:能索引ei的位置表示为1,其余位置表示为0的一组向量。这样句子被编码成为真值向量embs={e1,e2,...,eT},作为神经网络模型中的输入。
S22:利用Bi-GRU模型从输入的向量得到句子的语义强特征,这里的强特征指一些长文本中的远距离依赖的语义特征。而Bi-GRU就是在隐层同时有一个正向GRU和反向GRU,正向GRU捕获了上文的特征信息,而反向GRU捕获了下文的特征信息,这样相对单向GRU来说能够捕获更多的特征信息,考虑了更多的上下文的语义关联。其中语义特征包括词法特征,句法特征,命名实体类型等,这些特征是用深度学习编码,非人工干预。
S23:加入注意力机制,通过计算注意力概率分布,将GRU中的每一个时间节点通过这个权重向量联结起来。
S24:得到每一个句子的语义特征向量编码Si
S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型。
S31:模型输入是上一个模型的计算每一个句子的特征表示向量{S1,S2,...,Sn},作为输入的训练语料。
S32:把所有包含实体对的句子特征向量作为Bi-GRU模型输入,得到句子级别的特征编码。为每一个句子分配权重,通过不断地学习,使有效句子获得较高权重,而有噪音的句子获得较小的权重。降低无效句子影响。
S4.使用分层Softmax实现端到端分类实现。
S41:神经网络的特征训练模型得到的特征编码做分层的Softmax分类,不断地学习后,含有句子级别特征句子应该会有几个候选的文本类别对应了Softmax。这里训练的目标是使分类的准确率最大化。树的结构是根据类标的频数构造的霍夫曼树。k个不同的类标组成所有的叶子节点,k-1个内部节点作为内部参数,从根节点到某个叶子节点经过的节点和边形成一条路径,路径长度被表示为L(yj)。于是,P(yi)被写成:
其中,σ(g)表示sigmoid函数,LC(n)表示n节点的左孩子节点,[x]是一个特殊的函数,被定义为如果里边的x为真,则为1,其余为-1。是中间节点n(yj,l)的参数,X是Softmax的输入即神经网络模型的输出。
在图3中,以高亮的节点为例,高亮的节点和边从根节y2的路径,路径长度L(y2)为4,那么P(y2)表示为:
P(y2)=P(n(y2,1),left)gP(n(y2,2),left)gP(n(y2,3),right)
从根节点走到叶子节点y2,相当于做了3次二分类的逻辑回归。通过分层的Softmax,计算复杂度从复杂度Softmax的|K|降低到log|K|。
S42:模型训练,包括了训练数据(train.txt),测试数据(test.txt)和中文字向量(vec.txt)。训练数据和测试数据可以是将原始数据随机排序,按80%做训练,20%做测试的方法分开。通过超参数调节,直到最后得到相同实体对的不同分类类别的不同概率值,实现文本预定义类别的最佳预测。
3、优点及功效:本发明在词向量表示方面使用了Word Embedding技术。可以降低向量的维度,并且有效地防止特征过于稀疏的问题。构造字和句子两个级别的权重机制,作为Bi-GRU模型的特征抽取优化方法,通过计算输入节点对于输出向量的注意力概率分布,突出重点语义,优化了最终的输出向量,增强了模型特征编码的有效性。基于注意力机制的Bi-GRU模型既可以有效地利用到文本的上下文信息,又解决了RNN模型长期依赖问题,即避免了维度过高造成的模型难以训练的问题,又提供了额外的语义信息。在分类器部分,将分类器与特征抽取部分独立出来设计成2个部分,可以灵活的组合特征抽取模型和各种常见的分类器,方便更换调试分类器,这里采用分层Softmax回归模型,计算复杂度比Softmax从|K|降低到log|K|。
附图说明
图1为基于Bi-GRU的字级别特征训练模型;其中,ei表示embedding的特征,hli示词i及其上文特征编码,hri表示词wi及其下文特征编码,hi表示加入Attention权重并联合hli与hri得到的词wi的上下文编码向量。
图2为基于Bi-GRU的句子级别的特征训练模型;其中,Si为第一个模型输出的句子i的特征向量,Ai表示不同句子的对应权重。
图3为本发明的层次Softmax示意图。
图4为本发明方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。
本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,如图4所示,具体步骤如下:
S1.进行Word Embedding的字级别语义特征表示
调用Word2vec字向量生成接口。然后将句子中的每一个词转换为高维向量空间中的向量表示,蕴含上下文关系即词语特征求取,得到字级别的每一个句子的特征编码。
S2,构建注意力权重的Bi-GRU字级别的句子特征编码模型,如图1。
S21:用训练语料的句子作为输入。选用Word Embedding处理方式先将句子中每个词映射为低维向量,即得到每一个中文字符的特征编码向量,具体如下:
包含T个词的句子S={w1,w2,...,wT},每一个词wi被转化为实值向量ei,设置embedding矩阵其中V表示固定大小的词汇范围。dw是Word Embedding的大小即训练选择的超参数。Mword是需要学习的参数组成矩阵。将一个词wi转化为embedding的词向量ei=Mwordvi。其中vi是V大小下的向量表示:能索引ei的位置表示为1,其余位置表示为0的一组向量。这样句子被编码成为真值向量embs={e1,e2,...,eT},作为神经网络模型中的输入。
S22:利用Bi-GRU模型从输入的向量得到句子的语义强特征,这里的强特征指一些长文本中的远距离依赖的语义特征。而Bi-GRU就是在隐层同时有一个正向GRU和反向GRU,正向GRU捕获了上文的特征信息,而反向GRU捕获了下文的特征信息,这样相对单向GRU来说能够捕获更多的特征信息,考虑了更多的上下文的语义关联。其中语义特征包括词法特征,句法特征,命名实体类型等,这些特征是用深度学习编码,非人工干预。
S23:加入注意力机制,通过计算注意力概率分布,将GRU中的每一个时间节点通过这个权重向量联结起来。
S24:得到每一个句子的语义特征向量编码Si
S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型,如图2。
S31:模型输入是上一个模型的计算每一个句子的特征表示向量{S1,S2,...,Sn},作为输入的训练语料。
S32:把所有包含实体对的句子特征向量作为Bi-GRU模型输入,得到句子级别的特征编码。为每一个句子分配权重,通过不断地学习,使有效句子获得较高权重,而有噪音的句子获得较小的权重。降低无效句子影响。
S4.使用分层Softmax实现端到端分类实现。
S41:神经网络的特征训练模型得到的特征编码做分层的Softmax分类,不断地学习后,含有句子级别特征句子应该会有几个候选的文本类别对应了Softmax。这里训练的目标是使分类的准确率最大化。树的结构是根据类标的频数构造的霍夫曼树。k个不同的类标组成所有的叶子节点,k-1个内部节点作为内部参数,从根节点到某个叶子节点经过的节点和边形成一条路径,路径长度被表示为L(yj)。于是,P(yi)被写成:
其中,σ(g)表示sigmoid函数,LC(n)表示n节点的左孩子节点,[x]是一个特殊的函数,被定义为如果里边的x为真,则为1,其余为-1。是中间节点n(yj,l)的参数,X是Softmax的输入即神经网络模型的输出。
在图3中,以高亮的节点为例,高亮的节点和边从根节y2的路径,路径长度L(y2)为4,那么P(y2)表示为:
P(y2)=P(n(y2,1),left)gP(n(y2,2),left)gP(n(y2,3),right)
从根节点走到叶子节点y2,相当于做了3次二分类的逻辑回归。通过分层的Softmax,计算复杂度从复杂度Softmax的|K|降低到log|K|。
S42:模型训练,包括了训练数据(train.txt),测试数据(test.txt)和中文字向量(vec.txt)。训练数据和测试数据可以是将原始数据随机排序,按80%做训练,20%做测试的方法分开。通过超参数调节,直到最后得到相同实体对的不同分类类别的不同概率值,实现文本预定义类别的最佳预测。
实施例:
将下载的原始数据进行转码,然后给文本标类别的标签,然后制作训练与测试数据,然后控制文本长度,分词,去标点符号。对成功标出来的10个类的新闻,统计一下类别的分布,每个类抽2000个新闻,按4:1分成训练与测试。类别分别是:财经、IT、健康、体育、旅游、军事、文化、娱乐、时尚、汽车。模型训练结果使得对任意一段新闻文本能够测试出分类的类别的最大概率。如:“北京时间3月30日,据美媒体报道,作为当今NBA第一人,勒布朗-詹姆斯在客场打比赛时总能得到客队球迷的欢呼声”,分类的类别是“体育:0.76”、“健康:0.12”、“文化:0.06”……,最后取概率最大的作为分类结果。
本发明提出了一种端到端的文本分类实现方法,从对最初的训练样本数据词嵌入(Word Embedding)机制,对句子进行词级别特征表示。同时采用词级别和句子级别的注意力机制训练特征向量,提高了文本分类器的性能。基于两种级别的注意力权重机制的Bi-GRU模型用于特征提取,得到最终分类类别特征的句子特征编码。并将其作为分类器的输入训练模型。整个过程是一个端到端的分类过程。

Claims (4)

1.一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,其特征在于:该方法包括如下步骤:
S1.进行Word Embedding的字级别语义特征表示
调用Word2vec字向量生成接口,然后将句子中的每一个词转换为高维向量空间中的向量表示,蕴含上下文关系即词语特征求取,得到字级别的每一个句子的特征编码;
S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型;
S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型;
S4.使用分层Softmax实现端到端分类实现。
2.根据权利要求1所述的一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,其特征在于:所述步骤S2具体实现过程如下:
S21:用训练语料的句子作为输入;选用Word Embedding处理方式先将句子中每个词映射为低维向量,即得到每一个中文字符的特征编码向量,具体如下:
包含T个词的句子S={w1,w2,...,wT},每一个词wi被转化为实值向量ei,设置embedding矩阵其中V表示固定大小的词汇范围;dw是Word Embedding的大小即训练选择的超参数;Mword是需要学习的参数组成矩阵;将一个词wi转化为embedding的词向量ei=Mwordvi;其中vi是V大小下的向量表示:能索引ei的位置表示为1,其余位置表示为0的一组向量;这样句子被编码成为真值向量embs={e1,e2,...,eT},作为神经网络模型中的输入;
S22:利用Bi-GRU模型从输入的向量得到句子的语义强特征,这里的强特征指一些长文本中的远距离依赖的语义特征;而Bi-GRU就是在隐层同时有一个正向GRU和反向GRU,正向GRU捕获了上文的特征信息,而反向GRU捕获了下文的特征信息,这样相对单向GRU来说能够捕获更多的特征信息,考虑了更多的上下文的语义关联;其中语义特征包括词法特征,句法特征,命名实体类型等,这些特征是用深度学习编码,非人工干预;
S23:加入注意力机制,通过计算注意力概率分布,将GRU中的每一个时间节点通过这个权重向量联结起来;
S24:得到每一个句子的语义特征向量编码Si
3.根据权利要求1所述的一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,其特征在于:所述步骤S3具体实现过程如下:
S31:模型输入是上一个模型的计算每一个句子的特征表示向量{S1,S2,...,Sn},作为输入的训练语料;
S32:把所有包含实体对的句子特征向量作为Bi-GRU模型输入,得到句子级别的特征编码;为每一个句子分配权重,通过不断地学习,使有效句子获得较高权重,而有噪音的句子获得较小的权重;降低无效句子影响。
4.根据权利要求1所述的一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,其特征在于:所述步骤S4具体实现过程如下:
S41:神经网络的特征训练模型得到的特征编码做分层的Softmax分类,不断地学习后,含有句子级别特征句子应该会有几个候选的文本类别对应了Softmax;树的结构是根据类标的频数构造的霍夫曼树;k个不同的类标组成所有的叶子节点,k-1个内部节点作为内部参数,从根节点到某个叶子节点经过的节点和边形成一条路径,路径长度被表示为L(yj);于是,P(yi)被写成:
其中,σ(g)表示sigmoid函数,LC(n)表示n节点的左孩子节点,[x]是一个特殊的函数,被定义为如果里边的x为真,则为1,其余为-1;是中间节点n(yj,l)的参数,X是Softmax的输入即神经网络模型的输出;
以高亮的节点为例,高亮的节点和边从根节y2的路径,路径长度L(y2)为4,那么P(y2)表示为:
P(y2)=P(n(y2,1),left)gP(n(y2,2),left)gP(n(y2,3),right)
从根节点走到叶子节点y2,相当于做了3次二分类的逻辑回归;通过分层的Softmax,计算复杂度从复杂度Softmax的|K|降低到log|K|;
S42:模型训练,包括了训练数据(train.txt),测试数据(test.txt)和中文字向量(vec.txt);训练数据和测试数据可以是将原始数据随机排序,按80%做训练,20%做测试的方法分开;通过超参数调节,直到最后得到相同实体对的不同分类类别的不同概率值,实现文本预定义类别的最佳预测。
CN201810426304.2A 2018-05-07 2018-05-07 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 Pending CN108846017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810426304.2A CN108846017A (zh) 2018-05-07 2018-05-07 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810426304.2A CN108846017A (zh) 2018-05-07 2018-05-07 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法

Publications (1)

Publication Number Publication Date
CN108846017A true CN108846017A (zh) 2018-11-20

Family

ID=64212685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810426304.2A Pending CN108846017A (zh) 2018-05-07 2018-05-07 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法

Country Status (1)

Country Link
CN (1) CN108846017A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671469A (zh) * 2018-12-11 2019-04-23 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及***
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN110009427A (zh) * 2019-04-10 2019-07-12 国网浙江省电力有限公司 一种基于深度循环神经网络的电力销售金额智能预测方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110196967A (zh) * 2019-06-05 2019-09-03 腾讯科技(深圳)有限公司 基于深度转换架构的序列标注方法和装置
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110414219A (zh) * 2019-07-24 2019-11-05 长沙市智为信息技术有限公司 基于门控循环单元与注意力机制的注入攻击检测方法
CN110489545A (zh) * 2019-07-09 2019-11-22 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110597948A (zh) * 2019-07-11 2019-12-20 东华大学 一种基于深度学习的实体关系抽取方法
CN111263326A (zh) * 2020-01-09 2020-06-09 中国人民解放军国防科技大学 基于多重融合卷积gru的车辆位置预测方法
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
CN111708864A (zh) * 2020-06-11 2020-09-25 兰州理工大学 一种用户评论文本情感分析方法及装置
WO2020192237A1 (zh) * 2019-03-22 2020-10-01 北京京东尚科信息技术有限公司 基于人工智能的语义识别的方法、装置***及存储介质
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及***
CN113168619A (zh) * 2018-11-30 2021-07-23 微软技术许可有限责任公司 用于经由人工智能和数字助理进行事件安排的句子注意力建模
CN113342970A (zh) * 2020-11-24 2021-09-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN113420117A (zh) * 2021-06-23 2021-09-21 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN115017314A (zh) * 2022-06-02 2022-09-06 电子科技大学 一种基于注意力机制的文本分类方法
CN116894115A (zh) * 2023-06-12 2023-10-17 国网湖北省电力有限公司经济技术研究院 一种电网基建档案自动归档方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取***
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取***
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168619A (zh) * 2018-11-30 2021-07-23 微软技术许可有限责任公司 用于经由人工智能和数字助理进行事件安排的句子注意力建模
CN109671469B (zh) * 2018-12-11 2020-08-18 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN109671469A (zh) * 2018-12-11 2019-04-23 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及***
CN109766524B (zh) * 2018-12-28 2022-11-25 重庆邮电大学 一种并购重组类公告信息抽取方法及***
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109885824B (zh) * 2019-01-04 2024-02-20 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
WO2020192237A1 (zh) * 2019-03-22 2020-10-01 北京京东尚科信息技术有限公司 基于人工智能的语义识别的方法、装置***及存储介质
CN110009427A (zh) * 2019-04-10 2019-07-12 国网浙江省电力有限公司 一种基于深度循环神经网络的电力销售金额智能预测方法
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110196967A (zh) * 2019-06-05 2019-09-03 腾讯科技(深圳)有限公司 基于深度转换架构的序列标注方法和装置
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110297889B (zh) * 2019-06-28 2020-10-23 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110489545A (zh) * 2019-07-09 2019-11-22 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110597948A (zh) * 2019-07-11 2019-12-20 东华大学 一种基于深度学习的实体关系抽取方法
CN110414219A (zh) * 2019-07-24 2019-11-05 长沙市智为信息技术有限公司 基于门控循环单元与注意力机制的注入攻击检测方法
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN111263326B (zh) * 2020-01-09 2022-11-04 中国人民解放军国防科技大学 基于多重融合卷积gru的车辆位置预测方法
CN111263326A (zh) * 2020-01-09 2020-06-09 中国人民解放军国防科技大学 基于多重融合卷积gru的车辆位置预测方法
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
CN111708864A (zh) * 2020-06-11 2020-09-25 兰州理工大学 一种用户评论文本情感分析方法及装置
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及***
CN113342970A (zh) * 2020-11-24 2021-09-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN113420117A (zh) * 2021-06-23 2021-09-21 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN113420117B (zh) * 2021-06-23 2023-10-20 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN115017314A (zh) * 2022-06-02 2022-09-06 电子科技大学 一种基于注意力机制的文本分类方法
CN116894115A (zh) * 2023-06-12 2023-10-17 国网湖北省电力有限公司经济技术研究院 一种电网基建档案自动归档方法
CN116894115B (zh) * 2023-06-12 2024-05-24 国网湖北省电力有限公司经济技术研究院 一种电网基建档案自动归档方法

Similar Documents

Publication Publication Date Title
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和***
CN112270379B (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110532554A (zh) 一种中文摘要生成方法、***及存储介质
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
KR20190063978A (ko) 비정형 데이터의 카테고리 자동분류 방법
CN109325112A (zh) 一种基于emoji的跨语言情感分析方法和装置
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索***及其观点检索方法
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN108829823A (zh) 一种文本分类方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN113408619B (zh) 语言模型预训练方法、装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Khan et al. A clustering framework for lexical normalization of Roman Urdu
CN111339779A (zh) 一种用于越南语的命名实体识别方法
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN113901172B (zh) 基于关键词结构编码的涉案微博评价对象抽取方法
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181120

RJ01 Rejection of invention patent application after publication