CN106897371B - 中文文本分类***及方法 - Google Patents

中文文本分类***及方法 Download PDF

Info

Publication number
CN106897371B
CN106897371B CN201710034462.9A CN201710034462A CN106897371B CN 106897371 B CN106897371 B CN 106897371B CN 201710034462 A CN201710034462 A CN 201710034462A CN 106897371 B CN106897371 B CN 106897371B
Authority
CN
China
Prior art keywords
text
semantics
vocabulary
field
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710034462.9A
Other languages
English (en)
Other versions
CN106897371A (zh
Inventor
俞旸
凌志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xinktech Information Technology Co ltd
Original Assignee
Nanjing Xinktech Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xinktech Information Technology Co ltd filed Critical Nanjing Xinktech Information Technology Co ltd
Priority to CN201710034462.9A priority Critical patent/CN106897371B/zh
Publication of CN106897371A publication Critical patent/CN106897371A/zh
Application granted granted Critical
Publication of CN106897371B publication Critical patent/CN106897371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种中文文本分类***,包括广义语义深度学习模块、领域语义深度学习模块和领域文本概念分类模块,广义语义深度学习模块基于海量广义领域无关文本集采用CBOW模型学习词汇的广义语义;领域语义深度学习模块基于各领域相关文本,结合词汇的广义语义采用CBOW模型学习词汇的领域语义;领域文本概念分类模块基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,并得到该文本中每个词汇的深度语义;每次领域语义深度学习模块后得到的词汇的深度语义,还反馈至领域语义深度学习模块,用以采用CBOW模型重新学习词汇的领域语义。本发明还公开了一种中文文本分类方法。本发明分类更精确。

Description

中文文本分类***及方法
技术领域
本发明涉及数据挖掘,尤其涉及一种中文文本分类***及方法。
背景技术
文本分类(Text categorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程,其可以按预先指定的标准对文档进行自动归类,这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类.人工分类非常费时,效率非常低.90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用.
传统的文本分类基本步骤是特征提取,训练模型。而往往特征提取是最费时费力的,因为每一个领域的文本都有其特殊性,但所有的文本又具有某些共性。传统的方法不能很好的自动的去归纳总结这些隐含的特征。中文分词后文本就成了一个一个的词,这些词就是文本的特征,每篇文章通过含有不同的词语、不同的词语数目来进行区分。但是如果直接用分词后的词语集合进行建模的话,一来词语空间比较大,导致性能比较低;二来词语集合中有很多低频词、无意义词等噪音,也会降低分类的效果,实验证明,通过特征提取后的效果,比采用不提取的词语空间的性能和效果都要好。特征提取是要提取出最能代表文本的特征和最能区分文本的特征。首先,先把词语空间中的停用词去掉,停用词主要是一些无意义的高频词,比如语气助词(吗、了、啊等),还有类似的、你我他等词语,这些词语几乎在所有文档中都出现过而且会出现很多次,而且跟文档要表达的主题几乎没有关系,因而需要去掉。去除停用词之后,特征空间仍然很大,这个时候,就要采用统计学规律选取最能区分文本的特征,现有的方法主要有卡方统计、信息增益、互信息、几率比、交叉熵、类间信息差等方法。所有的这些方法和步骤都是需要人特别是行业领域专家的介入,所以这是传统方法的最大缺陷,也是本申请的一大优势。
最近开始有些中文处理工具开始将中文词汇通过计算转化成语义向量。但是大部分的工具,例如word2vec,需要大量的文本为基础进行计算。那么常见和常用于为此目的的大量文本训练数据集合大都是领域无关的,例如***。然而这种(例如***)通用领域的文本集合,经常包含非常多的领域,比如人物,体育,政治,娱乐等等。所以基于它训练出的语义向量比较通用,而不能很好的代表某一个具体的应用领域。然而在现实应用当中,大多文本概念分类器都是工作在某个企事业内部或行业内部,因此需要对特定领域有很深的理解。目前大部分文本分类***只是基于已分类的文本训练数据,直接采用机器学习方法去学习一种从词的组合到类别决定的映射关系。受限于这些用于分类训练的文本数据的覆盖面,这些***没有真正理解这些词本身的广义语义,也没有很好的理解这些词在这个各领域内的可能有的特殊含义。所以需要一个创新的方法,在产生的广义多语义向量的基础上,以应用场景为背景目标,去精细的调整,从而更加完美的解决具体领域内的概念分类问题。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种中文文本分类***及方法,分类更精确。
技术方案:本发明所述的中文文本分类***包括广义语义深度学习模块、领域语义深度学习模块和领域文本概念分类模块,其中:
所述广义语义深度学习模块用于基于海量广义领域无关文本集采用CBOW模型学习词汇的广义语义;
所述领域语义深度学习模块用于基于各领域相关文本,结合词汇的广义语义采用CBOW模型学习词汇的领域语义;
所述领域文本概念分类模块用于基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,得到所属领域类别,以及得到该文本中每个词汇的包含领域语义和文本分类的深度语义;
其中,所述领域文本概念分类模块学习到的每个词汇的深度语义会循环迭代的输入到所述领域语义深度学习模块,直至循环迭代达到预设次数或预设收敛效果,从而反复调整领域语义和文本分类;具体为:所述领域语义深度学习模块对上一次输入的广义语义和本次所述领域文本概念分类模块反馈的深度语义进行average pooling,形成新的输入语义,再基于各领域相关文本,结合新的输入语义采用CBOW模型重新学习词汇的领域语义,所述领域文本概念分类模块再重新分类和学习深度语义。
本发明所述的中文文本分类方法包括以下步骤:
(1)基于海量广义领域无关文本集采用CBOW模型学习词汇的广义语义;
(2)基于各领域相关文本,结合词汇的广义语义采用CBOW模型学习词汇的领域语义;
(3)基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,得到所属领域类别类别,并得到文本中每个词汇的包含领域语义和文本分类的深度语义;
(4)对上一次输入的广义语义和本次学习的深度语义进行average pooling,形成新的输入语义,再基于各领域相关文本,结合新的输入语义采用CBOW模型重新学习词汇的领域语义;
(5)返回执行(3);直至循环迭代达到预设次数或预设收敛效果,从而反复调整领域语义和文本分类。
有益效果:本发明与现有技术相比,其显著优点是:
1、中文词汇的向量学习是分布在第一和第二模块中分别训练。这样的方式使得本发明对中文词汇的学习是在逐层递增的由粗到精和由广到深的一个过程。
2、本发明对词汇的学习影响了最终文本分类模型的构建。更重要的是,文本分类的构建也反过来指导***对词汇的理解,这种反馈是通过我们构建的神经网络的反向反馈从最后一个模块(文本分类模块)逐层传递到第二个模块(领域语义深度学习模块)。
3、本发明对已有的基于卷积神经网络的文本分类算法,在卷积窗口的选择做了改进,使得窗口的选择考虑了语法分析树提供的句子的语法结构信息。
4、整体架构使得***可以充分的学习词汇的广义,领域语义,并且这个学习过程是以最终的文本分类为目标。整个***是端到端自动可微分的深度学习流程。所以***改进了深度学习中每个单独模块对大量数据的依赖,因为每个模块间接的应用了其他模块的数据和学习所得。
附图说明
图1是本发明的中文文本分类***的***框图;
图2是广义语义深度学习模块的CBOW模型图;
图3是领域语义深度学习模块的CBOW模型图;
图4是领域文本概念分类模块(不含深度语义生成单元)的分层次图;
图5是语法解析树的示意图。
具体实施方式
如图1所示,本发明的中文文本分类***包括广义语义深度学习模块、领域语义深度学习模块和领域文本概念分类模块。
广义语义深度学习模块用于基于海量广义领域无关文本集采用CBOW(ContinuousBag-of-Words Model)模型学习词汇的广义语义。具体是将海量广义领域无关文本集的每个词汇以one-hot编码形式输入至CBOW模型,CBOW模型进行学习后,对每个词汇都生成一个向量(词向量),作为词汇的广义语义。CBOW模型如图2所示,它是将文本中每个词汇通过复发神经网络得到其对应的词向量。每个词的输入是one-hot编码形式,即对应字典中该词的一个随机的唯一编号,没有任何语义或其他信息。CBOW的计算可以用层次Softmax算法,这种算法结合了Huffman编码,每个词都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code。本实施例没有使用这种二叉树,而是直接从隐层直接计算每一个输出的概率——即传统的Softmax,就需要对字典中的每一个词都算一遍,这个过程时间复杂度是关于字典大小线性的。而使用了二叉树(如Huffman树),其时间复杂度就降到了O(log2(|V|)),速度大大地加快了。
领域语义深度学习模块用于基于各领域相关文本,结合词汇的广义语义采用CBOW模型学习词汇的领域语义。具体是根据各领域相关文本得到每个词汇所属领域类别,并将词汇的广义语义连同对应的所属领域类别作为输入,采用CBOW模型学习后,对每个词汇都生成一个向量(词向量),作为词汇的领域语义,还用于在循环迭代时,对上一次输入的广义语义的向量和本次所述领域文本概念分类模块反馈的深度语义的向量进行averagepooling,形成新的输入语义向量,再将词汇的新的输入语义向量连同对应的所属领域类别作为输入,采用CBOW模型进行学习后,生成一个向量,作为词汇的领域语义。CBOW模型如图3所示,该CBOW模型的输入与广义语义深度学习模块的不同,创新性的将上阶段学习到的广义语义(词向量)和所属领域类别作为输入,区别于现有技术。而且本发明加入了领域文本类别划分的影响。具体的说,在最初时,每个词加了它所出现的领域类别信息。比如“书”出现在了“教育”和“文化”类别,则“书”的向量里就有这2个类别的代号。而如果“老师”只出现在“教育”类别,则老师的词类别信息只有“教育”。换句话说,如果一个词出现在所有类别,那么就会认为这个词对该领域内所有类别都不是太重要或有信息量。
领域文本概念分类模块用于基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,得到所属领域类别类别,以及得到该文本中每个词汇的包含领域语义和文本分类的深度语义。
如图4所示,领域文本概念分类模块具体包括领域文本概念分类模块具体包括文本矩阵表示层、卷积神经网络层、基于时间的聚会层、全连接预测层和深度语义生成单元。
文本矩阵表示层用于根据学习到的词汇的领域语义,将待分类的文本中每一个词汇都对应采用领域语义进行向量表示,从而将待分类的文本转换为文字矩阵。矩阵的每一行对应于一个分词元素,一般是一个单词,也可以是一个字符。也就是说每一行是表示一个单词的向量。通常,这些向量都是word embeddings(一种底维度表示)的形式,从上一模块获得,但是也可以用one-hot向量的形式,也即根据词在词表中的索引。若是用100维的词向量表示一句10个单词的句子,将得到一个10x100维的矩阵。
卷积神经网络层用于对文字矩阵采用窗口大小为n的两种卷积窗口,对窗口选取到的词汇的向量表示进行卷积,并共同做最大值选取,抽取到文本特征信息;其中一种卷积窗口选取的词汇是根据语法分析树得到的n个语法上连续的词汇,另外一种卷积窗口所选取的词汇是n个文本中实际连续的词汇。如图4所示,传统的操作为:假如卷积窗口宽度为n,那么取n个连续的词(图中的一个例子是“订北京”,n=3),将他们对应的词向量连接在一起得到一个n*d维的向量xi:i+n-1(d表示词向量维度)。然后向量xi:i+n-1与卷积核w相乘(w也是一个向量),ci=f(w·xi:i+n-1+b),窗口滑动得到c=[c1,c2,…,cm-n+1],再对c做最大值选取得到一个值,假设现在又K个卷积核,那么最后得到K维的向量。这些传统的卷积窗口只针对连续的n个词。所以,这里做选取操作的目的就是处理不同长度的句子,使得无论句子长度为多少,卷积核宽度是多少,最终到得到定长的向量表示,同时最大值选取也是去提炼最重要的特征信息,它的假设是最大值代表了某个特征上最显著。通过大量的实验证明了卷积神经网络模型适用于多种任务,而且效果非常显著,相比于传统方法不用进行繁琐的特征工程而且也不需要语法解析树。另外该模型输入预先训练好的词向量比随机初始化词向量效果要好很多,目前使用深度学习都会输入预先训练好的词向量。相比常用的传统的卷积窗口,提出对在语法上连续的n个词也做卷积。这些n个词可能不是实际连续的(图4中的例子是红色标示的“订酒店”),但在语法上它们是一个连续的语义结构。比如图5所示句子“John hit the ball”,如果选择使用卷积窗口大小为3,则会有“John hit the”和“hit the ball”两个完整的3个词的窗口。但是显然,没有一个体现了该句子完整核心语义。而如果从语法分析树出发,去决定“连续”的窗口中的词,则有“John hit ball”和“hitthe ball”两个卷积窗口。所以,很显然,这2个卷积窗口都更体现了完整的合理的语义。有了这两个新的基于语法分析树的卷积窗口,结合以前的传统的卷积窗口,共同做最大值选取。这样所获得的特征信息将使模型更容易的掌握一段文字的含义。
基于时间的聚会层用于将所述文本特征信息按照时间维度进行聚会,得到聚合特征信息。文本字和词的输入是具有前后或时间顺序上的强烈关联性的。这层的主要目标就是从前一个卷积层提取出的特征信息当中,找出它们在时间轴上的关联关系。主要的发掘过程是将前一层中的每个特征矩阵中的时间维度上的相应变化总结归纳。从而形成更加浓缩的特征信息。
全连接预测层用于根据所述聚合特征信息预测得到待分类文本的分类类别。该层实际上包含很多细小的内部层次。首先是将前一模块得到的浓缩的特征信息,进行全排列和组合并搜索所有可能的相应权重组合,从而发现它们之间的共同作用的方式。下一个内部层是Dropout层。Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了。再下一个内部层是tanh(双曲线函数)。这是一个非线性的逻辑转化。最后一个内部层是softmax,它是多分类中常用的激活函数,是基于逻辑回归的。它将每个需要需要预测的可能类别的概率进行锐化,从而使得预测的类别脱颖而出。
深度语义生成单元用于将该文本中词汇的领域语义加上文本分类,得到词汇的深度语义。每个词汇的深度语义会循环迭代的输入到第2个模块,从而反复调整和学习领域语义和文本分类模型。这样的好处是***客服了传统文本分类***的几个局限:1)只用文本分类数据训练会是***没有充分理解词汇的情况下,强行的“发现”某种从词的组合到类别的映射关系。这种映射关系很可能是过度拟合训练数据的错误结果;2)***没有区分广义语义和领域语义。一个形象的理解是,***必须首先是一个“普通读者”(只有世界性的基本的常识),然后是某个领域的专家(对某个领域有深厚的理解)。这2者对进行领域文本分类工作缺一不可。这个迭代的过程,在很多实验中证实一般经过3到5次后,就基本收敛(语义向量的变化小于1%)。根据实际需要,这样的迭代过程也可以人为的定义循环次数。
综合起来,***的3大模块融合在一起,进行深度学习。那么最终的分类结果在训练过程中的错误会经过迭代式的一层一层通过神经网络反馈到每个层次所在的***单元和其中的参数,从而整个***是端到端的无缝式的去自动学习,并且词汇的广义语义,词汇的领域内语义以及深度概念的分类都被***精确的理解和掌握。
本发明的中文文本分类方法包括以下步骤:
(1)基于海量广义领域无关文本集采用CBOW模型学习词汇的广义语义;
(2)基于各领域相关文本,结合词汇的广义语义采用CBOW模型学习词汇的领域语义;
(3)基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,得到所属领域类别类别,并得到文本中每个词汇的包含领域语义和文本分类的深度语义;
(4)对上一次输入的广义语义和本次学习的深度语义进行average pooling,形成新的输入语义,再基于各领域相关文本,结合新的输入语义采用CBOW模型重新学习词汇的领域语义;
(5)返回执行(3);直至循环迭代达到预设次数或预设收敛效果,从而反复调整领域语义和文本分类。
其中,步骤(1)具体包括:
将海量广义领域无关文本集的每个词汇以one-hot编码形式输入至CBOW模型,对每个词汇都生成一个向量,作为词汇的广义语义。
其中,步骤(2)具体包括:
根据各领域相关文本得到每个词汇所属领域类别,并将词汇的广义语义连同对应的所属领域类别作为输入,采用CBOW模型,对每个词汇都生成一个向量,作为词汇的领域语义。
其中,步骤(3)具体包括:
(3-1)根据学习到的词汇的领域语义,将待分类的文本中每一个词汇都对应采用领域语义进行向量表示,从而将待分类的文本转换为文字矩阵;
(3-2)文字矩阵采用窗口大小为n的卷积窗口,对窗口选取到的词汇的向量表示进行卷积,卷积过程分两次,其中的一次卷积过程中卷积窗口所选取的词汇是根据语法分析树得到的n个语法上连续的词汇,另外一次卷积过程中卷积窗口所选取的词汇是n个实际连续的词汇;
(3-3)将文本特征信息按照时间维度进行聚会,得到聚合特征信息;
(3-4)根据聚合特征信息预测得到待分类文本的分类类别。
步骤(4)具体包括:
对上一次输入的广义语义的向量和本次学习的深度语义的向量进行averagepooling,形成新的输入语义向量,再将词汇的新的输入语义向量连同对应的所属领域类别作为输入,采用CBOW模型进行学习后,生成一个向量,作为词汇的领域语义。该方法与上面所述的***一一对应,在此不再赘述。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (8)

1.一种中文文本分类***,其特征在于:包括广义语义深度学习模块、领域语义深度学习模块和领域文本概念分类模块,其中:
所述广义语义深度学习模块用于基于海量广义领域无关文本集采用CBOW模型学习词汇的广义语义;
所述领域语义深度学习模块用于根据各领域相关文本得到每个词汇所属领域类别,并将词汇的广义语义连同对应的所属领域类别作为输入,采用CBOW模型进行学习后,对每个词汇都生成一个向量,作为词汇的领域语义;
所述领域文本概念分类模块用于基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,得到所属领域类别,以及得到该文本中每个词汇的包含领域语义和文本分类的深度语义;
其中,所述领域文本概念分类模块学习到的每个词汇的深度语义会循环迭代的输入到所述领域语义深度学习模块,直至循环迭代达到预设次数或预设收敛效果,从而反复调整领域语义和文本分类;具体为:所述领域语义深度学习模块对上一次输入的广义语义和本次所述领域文本概念分类模块反馈的深度语义进行average pooling,形成新的输入语义,再基于各领域相关文本,结合新的输入语义采用CBOW模型重新学习词汇的领域语义,所述领域文本概念分类模块再重新分类和学习深度语义。
2.根据权利要求1所述的中文文本分类***,其特征在于:所述广义语义深度学习模块具体用于:
将海量广义领域无关文本集的每个词汇以one-hot编码形式输入至CBOW模型,CBOW模型进行学习后,对每个词汇都生成一个向量,作为词汇的广义语义。
3.根据权利要求1所述的中文文本分类***,其特征在于:所述领域语义深度学习模块还用于:在循环迭代时,对上一次输入的广义语义的向量和本次所述领域文本概念分类模块反馈的深度语义的向量进行average pooling,形成新的输入语义向量,再将词汇的新的输入语义向量连同对应的所属领域类别作为输入,采用CBOW模型进行学习后,生成一个向量,作为词汇的领域语义。
4.根据权利要求1所述的中文文本分类***,其特征在于:所述领域文本概念分类模块具体包括文本矩阵表示层、卷积神经网络层、基于时间的聚会层、全连接预测层和深度语义生成单元,其中:
所述文本矩阵表示层用于根据学习到的词汇的领域语义,将待分类的文本中每一个词汇都对应采用领域语义进行向量表示,从而将待分类的文本转换为文字矩阵;
所述卷积神经网络层用于对文字矩阵采用窗口大小为n的两种卷积窗口,对窗口选取到的词汇的向量表示进行卷积,并共同做最大值选取,抽取到文本特征信息;其中一种卷积窗口选取的词汇是根据语法分析树得到的n个语法上连续的词汇,另外一种卷积窗口所选取的词汇是n个文本中实际连续的词汇;
所述基于时间的聚会层用于将所述文本特征信息按照时间维度进行聚会,得到聚合特征信息;
所述全连接预测层用于根据所述聚合特征信息预测得到待分类文本的分类类别;
所述深度语义生成单元用于将该文本中词汇的领域语义加上文本分类,得到词汇的深度语义。
5.一种中文文本分类方法,其特征在于该方法包括以下步骤:
(1)基于海量广义领域无关文本集采用CBOW模型学习词汇的广义语义;
(2)根据各领域相关文本得到每个词汇所属领域类别,并将词汇的广义语义连同对应的所属领域类别作为输入,采用CBOW模型进行学习后,对每个词汇都生成一个向量,作为词汇的领域语义;
(3)基于各领域内的已有分类文本数据,结合学习到的词汇的领域语义,采用深度卷积神经网络将待分类的文本进行概念分类,得到所属领域类别类别,并得到文本中每个词汇的包含领域语义和文本分类的深度语义;
(4)对上一次输入的广义语义和本次学习的深度语义进行average pooling,形成新的输入语义,再基于各领域相关文本,结合新的输入语义采用CBOW模型重新学习词汇的领域语义;
(5)返回执行(3);直至循环迭代达到预设次数或预设收敛效果,从而反复调整领域语义和文本分类。
6.根据权利要求5所述的中文文本分类方法,其特征在于:步骤(1)具体包括:
将海量广义领域无关文本集的每个词汇以one-hot编码形式输入至CBOW模型,CBOW模型进行学习后,对每个词汇都生成一个向量,作为词汇的广义语义。
7.根据权利要求5所述的中文文本分类方法,其特征在于:步骤(3)具体包括:
(3-1)根据学习到的词汇的领域语义,将待分类的文本中每一个词汇都对应采用领域语义进行向量表示,从而将待分类的文本转换为文字矩阵;
(3-2)对文字矩阵采用窗口大小为n的两种卷积窗口,对窗口选取到的词汇的向量表示进行卷积,并共同做最大值选取,抽取到文本特征信息;其中一种卷积窗口选取的词汇是根据语法分析树得到的n个语法上连续的词汇,另外一种卷积窗口所选取的词汇是n个文本中实际连续的词汇;
(3-3)将所述文本特征信息按照时间维度进行聚会,得到聚合特征信息;
(3-4)根据所述聚合特征信息预测得到待分类文本的分类类别;
(3-5)将该文本中词汇的领域语义加上文本分类,得到词汇的深度语义。
8.根据权利要求5所述的中文文本分类方法,其特征在于:步骤(4)具体包括:
对上一次输入的广义语义的向量和本次学习的深度语义的向量进行averagepooling,形成新的输入语义向量,再将词汇的新的输入语义向量连同对应的所属领域类别作为输入,采用CBOW模型进行学习后,生成一个向量,作为词汇的领域语义。
CN201710034462.9A 2017-01-18 2017-01-18 中文文本分类***及方法 Active CN106897371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710034462.9A CN106897371B (zh) 2017-01-18 2017-01-18 中文文本分类***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710034462.9A CN106897371B (zh) 2017-01-18 2017-01-18 中文文本分类***及方法

Publications (2)

Publication Number Publication Date
CN106897371A CN106897371A (zh) 2017-06-27
CN106897371B true CN106897371B (zh) 2020-04-21

Family

ID=59197916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710034462.9A Active CN106897371B (zh) 2017-01-18 2017-01-18 中文文本分类***及方法

Country Status (1)

Country Link
CN (1) CN106897371B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679144B (zh) * 2017-09-25 2021-07-16 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN109635116B (zh) * 2018-12-17 2023-03-24 腾讯科技(深圳)有限公司 文本词向量模型的训练方法、电子设备及计算机存储介质
CN109657061B (zh) * 2018-12-21 2020-11-27 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109740164B (zh) * 2019-01-09 2023-08-15 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
CN110060749B (zh) * 2019-04-10 2022-07-01 华侨大学 基于sev-sdg-cnn的电子病历智能诊断方法
CN112559734B (zh) * 2019-09-26 2023-10-17 中国科学技术信息研究所 简报生成方法、装置、电子设备及计算机可读存储介质
CN110765757A (zh) * 2019-10-16 2020-02-07 腾讯云计算(北京)有限责任公司 文本识别方法、计算机可读存储介质和计算机设备
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111538840B (zh) * 2020-06-23 2023-04-28 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN112052334B (zh) * 2020-09-02 2024-04-05 广州极天信息技术股份有限公司 一种文本释义方法、装置及存储介质
CN113553844B (zh) * 2021-08-11 2023-07-25 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN116383390B (zh) * 2023-06-05 2023-08-08 南京数策信息科技有限公司 一种用于经营管理信息的非结构化数据存储方法及云平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1766871A (zh) * 2004-10-29 2006-05-03 中国科学院研究生院 基于上下文的半结构化数据语义提取的处理方法
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及***
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582495B2 (en) * 2014-06-17 2017-02-28 Business Objects Software Ltd. Domain knowledge driven semantic extraction system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1766871A (zh) * 2004-10-29 2006-05-03 中国科学院研究生院 基于上下文的半结构化数据语义提取的处理方法
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的文本表示与分类方法研究;闫琰;《中国博士学位论文全文数据库 信息科技辑》;20190915;全文 *

Also Published As

Publication number Publication date
CN106897371A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN106897371B (zh) 中文文本分类***及方法
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN107748757B (zh) 一种基于知识图谱的问答方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN110263325B (zh) 中文分词***
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN112417306B (zh) 基于知识图谱的推荐算法性能优化的方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN111460157B (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及***
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN110046223B (zh) 基于改进型卷积神经网络模型的影评情感分析方法
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN109299357B (zh) 一种老挝语文本主题分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111241425A (zh) 一种基于层次注意力机制的poi推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant