CN111506732A - 一种文本多层次标签分类方法 - Google Patents

一种文本多层次标签分类方法 Download PDF

Info

Publication number
CN111506732A
CN111506732A CN202010312275.4A CN202010312275A CN111506732A CN 111506732 A CN111506732 A CN 111506732A CN 202010312275 A CN202010312275 A CN 202010312275A CN 111506732 A CN111506732 A CN 111506732A
Authority
CN
China
Prior art keywords
text
classification
classification model
entity
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010312275.4A
Other languages
English (en)
Other versions
CN111506732B (zh
Inventor
潘永灿
李小青
邓彪
周玉
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202010312275.4A priority Critical patent/CN111506732B/zh
Publication of CN111506732A publication Critical patent/CN111506732A/zh
Application granted granted Critical
Publication of CN111506732B publication Critical patent/CN111506732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理技术领域,公开了一种文本多层次标签分类方法,包括步骤:获取原文档;进行数据增广操作,获得数据增广操作后的样本数据集;对样本数据集的不同实体类型的数量进行统计,并进行均衡操作;建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出;将文本多层次标签分类模型的输出作为文本多层次标签分类结果。本发明首先通过数据增广操作扩充样本数据,并平衡了各类型样本之间的数量,减小了样本不均衡造成的对模型准确率的负面影响;本发明利用了各层分类标签之间的相关信息,进行了多层级特征融合,相对于现有技术,本发明准确率更高,鲁棒性以及泛化性更好。

Description

一种文本多层次标签分类方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本多层次标签分类方法。
背景技术
随着互联网技术的普及,互联网上面的数据也在爆发式增长。互联网上存在大量的文本数据,利用和识别相关文本信息不仅能够充分利用现有数据,也能够发现更有价值的信息,对人们的生产生活都有重要意义。目前文本分类应用广泛,比如情感分析、垃圾邮件分类以及智能推荐等。文本分类技术大致分为两种,一种是基于规则的文本分类,另一种是一种基于机器学习的文本分类。
比如,国家专利公开文献CN107908635A,公开了“建立文本分类模型以及文本分类的方法、装置”,该发明建立方法包括:获取训练样本;基于实体词典对文本进行切词后获取对应的向量矩阵;利用文本的向量矩阵以及文本的分类,训练第一分类模型和第二分类模型;在训练过程中,利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对第一和第二分类模型调整参数,得到由第一和第二分类模型构成的文本分类模型。该发明采用独立的分类方法分别去预测各层的标签,输出独立的预测结果;在合并步骤中,将独立预测的结果进行组合,成为多层次标签;将合成的多层次标签输出并作为最终结果。
该发明预测各个分类方法比较独立,难以有效利用类别之间的相关信息,因此准确率也不太高,鲁棒性和泛化性不好。另外,相关标注数据少以及样本不均衡会极大的影响文本分类任务的准确性,而现有方法没有针对性的解决方案。
发明内容
本发明的目的在于提供一种文本多层次标签分类方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种文本多层次标签分类方法,包括步骤:
S1)获取原文档,原文档至少包含一个字符;
S2)进行数据增广操作,获得数据增广操作后的样本数据集;
S3)对样本数据集的不同实体类型的数量进行统计,并进行均衡操作;
S4)建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出;
S5)将文本多层次标签分类模型的输出作为文本多层次标签分类结果。
进一步的,步骤S2)中进行数据增广操作,获得数据增广操作后的样本数据集,包括步骤:
S21)建立实体识别程序,通过实体识别程序对原文档进行识别,获得原文档中不同类型的实体;不同类型包括人名、地名、机构名、时间、专有名词、种类范畴名词、钱和/或数字;
S22)建立词料库,词料库包括若干实体类型库,将步骤S21)获得的实体分别加入到与实体类型相对应的实体类型库中,获得加入原文档实体后的词料库;
S23)对加入原文档实体后的词料库中的词进行预处理,预处理包括对词进行去重以及剔除识别错误的词,获得预处理后的词料库;
S24)从预处理后的词料库中随机选取与步骤S21)中获得的实体的类型相同的词,对实体进行替换,生成新的句子,将新的句子作为数据增广出的样本。
进一步的,步骤S3)中,对数据增广操作后的样本数据集的样本类型数量进行统计,对样本数据进行均衡操作,包括步骤:
S31)对数据增广操作后的样本数据集的样本类型数量进行统计,获得统计结果{y1,y2,...yi,...,yn},1≤i≤n,yi表示第i个样本类型的数量,n表示样本类型总数;
S32)获取统计结果中的最大值;
S33)获取不同类型的文本库,从与样本类型相同的的文本库中随机选取统计结果中的最大值与第i个样本类型的数量之差个样本;
S34)将随机选取的统计结果中的最大值与第i个样本类型的数量之差个样本依次添加到与实体类型相对应的实体类型库中。
进一步的,步骤S4)中,建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出,包括步骤:
S41)获取文本,利用转化方法将文本转化为词向量;
S42)建立若干个分类模型;
S43)利用第一个分类模型对步骤S41)中的词向量进行分类,获得第一个分类模型的分类结果;
S44)设定第一阈值,判断第一个分类模型的分类结果是否小于第一阈值,若是,则将步骤S41)中的词向量作为第二个分类模型的输入;若否,则将步骤S41)中的词向量与第一个分类模型的分类结果进行融合,获得第一融合向量,将第一融合向量作为第二个分类模型的输入;
S45)获得第二个分类模型的分类结果;
S46)设定第二阈值,判断所述第二个分类模型的分类结果是否小于第二阈值,若是,则将步骤S41)中的词向量作为第三个分类模型的输入;若否,则将步骤S41)中的词向量、第一个分类模型的分类结果和第二个分类模型的分类结果进行融合,获得第三融合向量,将第三融合向量作为第三个分类模型的输入;
S47)获得第三个分类模型的分类结果;依次遍历所有的分类模型,将最后一个分类模型的输出作为文本分类的最终结果。
进一步的,S41)中转化方法包括Bert(Bidirectional Encoder Representationfrom Transformers)方法或Word2vector方法。
进一步的,特征融合包括词向量相加或词向量拼接。
进一步的,若干个分类模型包括CNN、RNN、LSTM、KNN、SVM、Naive Bayes、决策树、GBDT和/或K-means。
进一步的,若干个分类模型分别连接有激活函数,激活函数为softmax函数、sigmoid函数或relu函数。
通过在分类模型后连接激活函数,使得分类模型的输出向量转化为概率向量,每一个维度的概率与每一种分别标签类别一一对应。
本发明的有益效果是:本发明首先通过数据增广操作扩充样本数据,增加样本数量;然后平衡了各类型样本之间的数量,减小样本不均衡造成的对模型准确率的负面影响;本发明利用了各层分类标签之间的相关信息,进行了多层级特征融合,综合预测多层次标签,相对于现有技术,本发明准确率更高,鲁棒性以及泛化性更好。
附图说明
图1是本实施例一整体流程示意图。
图2是本实施例一数据增广操作示意图。
图3是本实施例一进行均衡操作示意图。
图4是本实施例一进行多层级特征融合的流程示意图。
图5是本实施例一的现有多层次标签分类方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例一,一种文本多层次标签分类方法,如图1所示,包括步骤:
S1)获取原文档,原文档至少包含一个字符;
S2)进行数据增广操作,如图2所示,包括步骤:
S21)建立实体识别程序,通过实体识别程序对原文档进行识别,获得原文档中不同类型的实体;图2中对原文档识别出4种类型的实体,分别为实体类型1、实体类型2、实体类型3和实体类型4。不同类型包括人名、地名、机构名、时间、专有名词、种类范畴名词、钱和/或数字。
S22)建立词料库,词料库包括若干实体类型库,将步骤S21)获得的实体分别加入到与实体类型相对应的实体类型库中,获得加入原文档实体后的词料库;
S23)对加入原文档实体后的词料库中的词进行预处理,预处理包括对词进行去重以及剔除识别错误的词,获得预处理后的词料库;预处理后的词料库有各种不同类型词库,比如飞机专有名词词库(如孔探、左发、无线快速采集组件、乘务员休息室、56排左侧显示器、卡箍、燕尾、左翼等);表示食品的词库(如橘子,饼干,烤鸭等);表示机构类的词库(如***教科文组织、***政府、北京邮电大学等);表示时间类的词库(如今晚、明日、2019年8月8日等)。图2中预处理后的词料库有四种,分别为实体类型1库、实体类型2库、实体类型3库和实体类型4库。
S24)从预处理后的词料库中随机选取与步骤S21)中获得的实体的类型相同的词,对实体进行替换,生成新的句子,将新的句子作为数据增广出的样本。获得数据增广操作后的样本数据集,数据增广操作后的样本数据集即数据增广操作后的词料库。
S3)对数据增广操作后的词料库的4种实体类型的数量进行统计,并进行均衡操作,如图3所示,包括步骤:
S31)对数据增广操作后的词料库的样本类型数量(即实体类型数量)进行统计,获得4种实体类型的统计结果{y1,y2,y3,y4},y4表示第4种实体类型的数量;
S32)获取统计结果中的最大值ymax
S33)获取与步骤S31)中实体类型相同的的各个文本库,各个文本库分别为类型1文本库、类型2文本库、类型3文本库和类型4文本库,并从各个文本库中随机选取ymax-y1、ymax-y2、ymax-y3和ymax-y4个样本;
S34)将ymax-y1、ymax-y2、ymax-y3和ymax-y4个样本依次添加到数据增广操作后的词料库的与实体类型相对应的实体类型库中,获得已均衡词料库。
S4)建立文本多层次标签分类模型,进行多层级特征融合,如图4所示,包括步骤:
S41)获取文本,利用Bert方法或Word2vector方法将文本转化为词向量;
S42)建立两个分类模型,两个分类模型为CNN、RNN、LSTM、KNN、SVM、NaiveBayes、决策树、GBDT和K-means中的任意两个。两个分类模型分别连接有激活函数,激活函数为softmax函数。
S43)利用第一个分类模型对步骤S41)中的词向量进行分类,获得第一个分类模型的基于概率的分类结果;
S44)设定第一阈值,判断第一个分类模型的基于概率的分类结果是否小于第一阈值,若是,则将步骤S41)中的词向量作为第二个分类模型的输入;若否,则将步骤S41)中的词向量与第一个分类模型的分类结果进行融合,获得第一融合向量,将第一融合向量作为第二个分类模型的输入;
S45)获得第二个分类模型的基于概率的分类结果;将第二个分类模型的基于概率的分类结果作为文本分类的最终结果,获得文本多层次标签分类模型的输出。
S5)将文本多层次标签分类模型的输出作为文本多层次标签分类结果。
特征融合包括词向量相加或词向量拼接。
本实施例一还提供了一种设备,设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现文本多层次标签分类方法。
将本实施例一与现有多层次标签分类方法进行对比,现有多层次标签分类流程如图5所示。现有多层次标签分类方法首先获取原文档输入文本,原文档至少要包含一个字符;然后通过词向量生成方法生成数字化的词向量,生成的词向量供预测方法使用;现有多层次标签分类方法采用了多个独立的方法分别去预测各层的标签,输出独立的预测结果;在合并步骤中,将独立预测的结果进行组合,成为多层次标签;将合成的多层次标签输出并作为最终结果。现有方法将不同层级标签看作独立的任务,用独立的预测方法进行预测,最后将结果合并。
经过数据分析得知,发现词料库中最多的实体类型数量与最少的实体类型数量相差了50倍。而对文本标签识别准确率较低的恰好就是数量较少的。为了减小样本不均衡对准确率造成的负面影响,本发明设计出了数据增广与数据平衡的方法。与未使用数据增广与数据平衡相比,准确率得到了较大程度的提高,总准确率提高约3个百分点。另外,不同层级的标签其实是由某种包含与被包含关系的,通过对这种层级之间的关系进行数据分析,得到了层级与层级之间的关联关系。本发明利用层级与层级之间的关联关系,将不同预测标签方法进行特征融合。与无特征融合的方法相比,提高了约2个百分点。现有多层次标签分类方法没有考虑层级与层级之间的关联关系,本实施例一与现有多层次标签分类方法相比,整体准确率约提高了5个百分点。
本发明的有益效果是:本发明首先通过数据增广操作扩充样本数据,增加样本数量;然后平衡了各类型样本之间的数量,减小样本不均衡造成的对模型准确率的负面影响;本发明利用了各层分类标签之间的相关信息,进行了多层级特征融合,综合预测多层次标签,相对于现有技术,本发明准确率更高,鲁棒性以及泛化性更好。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (8)

1.一种文本多层次标签分类方法,其特征在于,包括步骤:
S1)获取原文档,所述原文档至少包含一个字符;
S2)进行数据增广操作,获得数据增广操作后的样本数据集;
S3)对所述样本数据集的不同实体类型的数量进行统计,并进行均衡操作;
S4)建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出;
S5)将所述文本多层次标签分类模型的输出作为文本多层次标签分类结果。
2.根据权利要求1所述的文本多层次标签分类方法,其特征在于,步骤S2)中进行数据增广操作,获得数据增广操作后的样本数据集,包括步骤:
S21)建立实体识别程序,通过所述实体识别程序对所述原文档进行识别,获得所述原文档中不同类型的实体;所述不同类型包括人名、地名、机构名、时间、专有名词、种类范畴名词、钱和/或数字;
S22)建立词料库,所述词料库包括若干实体类型库,将步骤S21)获得的实体分别加入到与实体类型相对应的实体类型库中,获得加入原文档实体后的词料库;
S23)对所述加入原文档实体后的词料库中的词进行预处理,所述预处理包括对词进行去重以及剔除识别错误的词,获得预处理后的词料库;
S24)从所述预处理后的词料库中随机选取与步骤S21)中获得的实体的类型相同的词,对实体进行替换,生成新的句子,将所述新的句子作为数据增广出的样本。
3.根据权利要求1或2所述的文本多层次标签分类方法,其特征在于,步骤S3)中,对数据增广操作后的样本数据集的样本类型数量进行统计,对样本数据进行均衡操作,包括步骤:
S31)对数据增广操作后的样本数据集的样本类型数量进行统计,获得统计结果{y1,y2,...yi,...,yn},1≤i≤n,yi表示第i个样本类型的数量,n表示样本类型总数;
S32)获取所述统计结果中的最大值;
S33)获取不同类型的文本库,从与样本类型相同的的文本库中随机选取统计结果中的最大值与第i个样本类型的数量之差个样本;
S34)将随机选取的统计结果中的最大值与第i个样本类型的数量之差个样本依次添加到与实体类型相对应的实体类型库中。
4.根据权利要求1所述的文本多层次标签分类方法,其特征在于,步骤S4)中,建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出,包括步骤:
S41)获取文本,利用转化方法将文本转化为词向量;
S42)建立若干个分类模型;
S43)利用第一个分类模型对步骤S41)中的词向量进行分类,获得第一个分类模型的分类结果;
S44)设定第一阈值,判断所述第一个分类模型的分类结果是否小于第一阈值,若是,则将步骤S41)中的词向量作为第二个分类模型的输入;若否,则将步骤S41)中的词向量与第一个分类模型的分类结果进行融合,获得第一融合向量,将所述第一融合向量作为第二个分类模型的输入;
S45)获得第二个分类模型的分类结果;
S46)设定第二阈值,判断所述第二个分类模型的分类结果是否小于第二阈值,若是,则将步骤S41)中的词向量作为第三个分类模型的输入;若否,则将步骤S41)中的词向量、第一个分类模型的分类结果和第二个分类模型的分类结果进行融合,获得第三融合向量,将所述第三融合向量作为第三个分类模型的输入;
S47)获得第三个分类模型的分类结果;依次遍历所有的分类模型,将最后一个分类模型的输出作为文本分类的最终结果。
5.根据权利要求4所述的文本多层次标签分类方法,其特征在于,S41)中所述转化方法包括Bert方法或Word2vector方法。
6.根据权利要求4所述的文本多层次标签分类方法,其特征在于,特征融合包括词向量相加或词向量拼接。
7.根据权利要求4所述的文本多层次标签分类方法,其特征在于,所述若干个分类模型包括CNN、RNN、LSTM、KNN、SVM、Naive Bayes、决策树、GBDT和/或K-means。
8.根据权利要求4或7所述的文本多层次标签分类方法,其特征在于,所述若干个分类模型分别连接有激活函数,所述激活函数为softmax函数、sigmoid函数或relu函数。
CN202010312275.4A 2020-04-20 2020-04-20 一种文本多层次标签分类方法 Active CN111506732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312275.4A CN111506732B (zh) 2020-04-20 2020-04-20 一种文本多层次标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312275.4A CN111506732B (zh) 2020-04-20 2020-04-20 一种文本多层次标签分类方法

Publications (2)

Publication Number Publication Date
CN111506732A true CN111506732A (zh) 2020-08-07
CN111506732B CN111506732B (zh) 2023-05-26

Family

ID=71875102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312275.4A Active CN111506732B (zh) 2020-04-20 2020-04-20 一种文本多层次标签分类方法

Country Status (1)

Country Link
CN (1) CN111506732B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737476A (zh) * 2020-08-05 2020-10-02 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN112070138A (zh) * 2020-08-31 2020-12-11 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及***
CN112232524A (zh) * 2020-12-14 2021-01-15 北京沃东天骏信息技术有限公司 多标签信息的识别方法、装置、电子设备和可读存储介质
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113505583A (zh) * 2021-05-27 2021-10-15 山东交通学院 基于语义决策图神经网络的情感原因子句对提取方法
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及***
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN110297909A (zh) * 2019-07-05 2019-10-01 中国工商银行股份有限公司 一种无标签语料的分类方法及装置
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110888927A (zh) * 2019-11-14 2020-03-17 东莞理工学院 简历信息抽取方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN110297909A (zh) * 2019-07-05 2019-10-01 中国工商银行股份有限公司 一种无标签语料的分类方法及装置
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110888927A (zh) * 2019-11-14 2020-03-17 东莞理工学院 简历信息抽取方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫琰: "基于深度学习的文本表示与分类方法研究", 《中国优秀博士学位论文全文数据库》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737476A (zh) * 2020-08-05 2020-10-02 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN112070138A (zh) * 2020-08-31 2020-12-11 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及***
CN112070138B (zh) * 2020-08-31 2023-09-05 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及***
CN112232524A (zh) * 2020-12-14 2021-01-15 北京沃东天骏信息技术有限公司 多标签信息的识别方法、装置、电子设备和可读存储介质
CN112232524B (zh) * 2020-12-14 2021-06-29 北京沃东天骏信息技术有限公司 多标签信息的识别方法、装置、电子设备和可读存储介质
CN113505583A (zh) * 2021-05-27 2021-10-15 山东交通学院 基于语义决策图神经网络的情感原因子句对提取方法
CN113505583B (zh) * 2021-05-27 2023-07-18 山东交通学院 基于语义决策图神经网络的情感原因子句对提取方法
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113239205B (zh) * 2021-06-10 2023-09-01 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及***
CN113672736B (zh) * 2021-09-09 2023-08-22 上海德拓信息技术股份有限公司 一种文本多标签分类方法及***

Also Published As

Publication number Publication date
CN111506732B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111506732A (zh) 一种文本多层次标签分类方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN110232395B (zh) 一种基于故障中文文本的电力***故障诊断方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN111078876A (zh) 一种基于多模型集成的短文本分类方法和***
CN112487237B (zh) 基于自适应cnn和半监督自训练模型的音乐分类方法
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、***和介质
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及***
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和***
Wang et al. Linguistic steganalysis in few-shot scenario
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
US20210019611A1 (en) Deep learning system
CN116955818A (zh) 一种基于深度学习的推荐***
CN116384379A (zh) 一种基于深度学习的中文临床术语标准化方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
Abdurrazzaq et al. MAGNET architecture optimization on multi-label text classification
CN114861629B (zh) 一种文本风格的自动化评判方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant