CN110781297A - 基于层次判别树的多标签科研论文的分类方法 - Google Patents

基于层次判别树的多标签科研论文的分类方法 Download PDF

Info

Publication number
CN110781297A
CN110781297A CN201910881086.6A CN201910881086A CN110781297A CN 110781297 A CN110781297 A CN 110781297A CN 201910881086 A CN201910881086 A CN 201910881086A CN 110781297 A CN110781297 A CN 110781297A
Authority
CN
China
Prior art keywords
label
papers
word
words
discriminant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910881086.6A
Other languages
English (en)
Other versions
CN110781297B (zh
Inventor
刘玮
吴俊杰
李超
左源
纪玉春
袁石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201910881086.6A priority Critical patent/CN110781297B/zh
Publication of CN110781297A publication Critical patent/CN110781297A/zh
Application granted granted Critical
Publication of CN110781297B publication Critical patent/CN110781297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

Description

基于层次判别树的多标签科研论文的分类方法
技术领域
本发明涉及科研论文分类领域。更具体地说,本发明涉及一种基于层次判别树的多标签科研论文的分类方法。
背景技术
科研论文的组织和管理一直受到出版机构、科研机构、科研工作者等的重点关注。在科研论文的组织和管理领域,科研论文的分类是一项重要的基础任务。该任务是根据已有的类别标签体系,将科研论文进行层次化的标签分类,对科学论文的快速检索、归纳和总结有非常重要的意义。一方面,科研论文分类可以帮助出版机构快速地定位最新科研论文的类别,并将最新论文加入引文数据库,提供优质化的论文数据服务。另一方面,科研论文分类可以支持科研机构和科研工作者按照已有的类别体系进行论文的快速检索和汇总,提高科研机构和科研工作者的检索和汇总效率。但是,已有的类别标签体系多层复杂的结构给科研论文分类带来了困难,比如现有的多层次标签体系结构,在拿到一个新的科研论文后,要将该论文在多层次标签体系中合理、全面的形成其分类标签,工作量大,工作难度高。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于层次判别树的多标签科研论文的分类方法,可以充分挖掘论文的特征词语,快速、准确对论文进行层次分类。
为了实现根据本发明的这些目的和其它优点,提供了一种基于层次判别树的多标签科研论文的分类方法,包括:
步骤一、构建二元判别模型:
获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;
步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;
步骤三、对标签未知的论文分类:采用文本分词技术获取该论文的文本表征,将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中,二元判别模型计算该论文具有该节点对应标签的概率,若概率大于阈值,则输出该根节点对应的标签;
将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中,二元判别模型计算该论文具有该节点代表标签的概率,若概率大于阈值,则输出该子节点对应的标签;
按照从上至下的层级顺序判断,直至文本表征输入至层次判别树模型的叶节点的二元判别模型,且判别输出结果为止;
将从根节点开始到叶节点结束的路径上输出的所有标签,作为该论文的标签。
优选的是,采用文本分词技术获取文本表征的方法为:
采用分词及词性标注工具,对论文进行分词及词性标注,保留该文本中词性标注结果为名词的所有词语,形成词语集合Ⅰ;
采用BERT预训练语言模型,从论文中获取每个词语集合Ⅰ中的词语的语义向量,形成词语集合Ⅱ;
词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。
优选的是,筛选得到每个标签的特征词语集合的方法为:从多层次标签体系的顶层标签开始,按照自根节点至叶节点的顺序,采用以下方法获取每个标签对应的特征词语;
该方法包括以下步骤:
步骤a、根据每个标签下的所有论文,计算这些论文的文本表征中每个词语的权重,权重计算公式如公式(1)所示:
Figure BDA0002205892290000021
其中,Fj(i)表示词语i在论文j中的频率,计算公式如公式(2)所示:
Figure BDA0002205892290000022
count(i)表示词语i在论文j中出现的次数,total_wordj表示论文j中总的词语数;Nt表示标签t下所有论文的数量;N~t表示与标签t具有相同上级标签的其他标签下所有论文的数量;如果标签t是顶层标签,则~t表示其他的顶层标签;如果标签t是非顶层标签,则~t表示同属于标签t的上级标签下的其他标签;Ni ~t表示在与标签t具有相同上级标签的其他标签下所有论文中,出现词语i的论文的数量;
步骤b、对该标签下的各词语的权重按从大到小的顺序排序,取排名前M个的词语为该标签的特征词语,形成该标签的初始特征词语集合;
步骤c、根据特征词语的语义特征,计算剩下的所有词语和初始特征词语集合中所有词语的语义相似度,计算公式如公式(3)所示:
其中,M表示该标签的初始特征词语集合中词语的数量,cos(j,i)表示词语j和词语i的语义表征的余弦距离,Wt(j)表示词语j在标签t中的权重;
对该标签下的剩下的所有词语按照语义相似度从大到小的顺序排序,排名前K个的词语为该标签的特征词语,形成该标签的补充特征词语集合;
标签的初始特征词语集合和补充特征词语集合,形成该标签的特征词语集合。
优选的是,M的取值为对应标签下的文本表征的词语总数的5%。
优选的是,M的取值不大于1000。
优选的是,每个标签的特征词语总数不大于5000。
优选的是,二元判别模型计算概率后,概率的阈值均为0.5。
优选的是,构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。
本发明至少包括以下有益效果:
第一、已有的多层次标签体系中的标签没有判断功能,只能依靠人的主观性去定义,如此,不能精确的知晓标签与论文之间的是否具备关联性,而形成层次判别树模型后,每个节点具备自动判别功能,只需要输入文本表征,即可输出该论文与该节点所对应的标签是否具备关联性,提高判别的准备性,且更为客观,不易出错。
第二、二元判别模型可以精准全面的反映标签与论文用词的关联关系,得到与该标签关联性最大的特征词语。而且随着论文数量的增加,更新,每个标签的特征词语集合也相应增加,更新,可以提升整个分类体系的准确性。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的其中一个技术方案的框架图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种基于层次判别树的多标签科研论文的分类方法,包括:
步骤一、构建二元判别模型:
获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;该判别模型采用传统的数据挖掘方法,如支持向量积、朴素贝叶斯、逻辑回归等,可以判定一篇科研论文是否属于一个标签。如此得到的二元判别模型可以精准全面的反映标签与论文用词的关联关系,得到与该标签关联性最大的特征词语。而且随着论文数量的增加,更新,每个标签的特征词语集合也相应增加,更新,可以提升整个分类体系的准确性。
步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;已有的多层次标签体系中的标签没有判断功能,只能依靠人的主观性去定义,如此,不能精确的知晓标签与论文之间的是否具备关联性,而形成层次判别树模型后,每个节点具备自动判别功能,只需要输入文本表征,即可输出该论文与该节点所对应的标签是否具备关联性,提高判别的准备性,且更为客观,不易出错。
步骤三、对标签未知的论文分类:采用文本分词技术获取该论文的文本表征,将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中,二元判别模型计算该论文具有该节点对应标签的概率,若概率大于阈值,则输出该根节点对应的标签;
将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中,二元判别模型计算该论文具有该节点代表标签的概率,若概率大于阈值,则输出该子节点对应的标签;
按照从上至下的层级顺序判断,直至文本表征输入至层次判别树模型的叶节点的二元判别模型,且判别输出结果为止;
将从根节点开始到叶节点结束的路径上输出的所有标签,作为该论文的标签。从根节点按照层级顺序至叶节点逐级判别,以免遗漏,而且可以减少判断的工作量,快速准确的输出新论文的层次标签,进行分类。
在上述技术方案中,鉴于科研论文用词用语与标签之间的关联关系,利用已知标签的科研论文及其标签信息,获取每个标签对应的特征词语集合;然后,根据多层次标签体系,针对每个标签构建二元判别模型,并将所有标签的判别模型融合成层次判别树模型;最后,基于层次判别树模型,判定标签未知的科研论文所属的标签。该方法考虑科研论文用词用语和标签间的关联性,能够自动筛选标签相关的特征词语,并构建相应的二元判别模型。利用层次判别树模型实现对标签未知的科研论文的分类任务,充分挖掘标签间的层级关系。
在另一种技术方案中,采用文本分词技术获取文本表征的方法为:
采用分词及词性标注工具,对论文进行分词及词性标注,保留该文本中词性标注结果为名词的所有词语,形成词语集合Ⅰ;
采用BERT预训练语言模型,从论文中获取每个词语集合Ⅰ中的词语的语义向量,形成词语集合Ⅱ;
词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。
在另一种技术方案中,筛选得到每个标签的特征词语集合的方法为:从多层次标签体系的顶层标签开始,按照自根节点至叶节点的顺序,采用以下方法获取每个标签对应的特征词语;
该方法包括以下步骤:
步骤a、根据每个标签下的所有论文,计算这些论文的文本表征中每个词语的权重,权重计算公式如公式(1)所示:
Figure BDA0002205892290000051
其中,Fj(i)表示词语i在论文j中的频率,计算公式如公式(2)所示:
Figure BDA0002205892290000061
count(i)表示词语i在论文j中出现的次数,total_wordj表示论文j中总的词语数;Nt表示标签t下所有论文的数量;N~t表示与标签t具有相同上级标签的其他标签下所有论文的数量;如果标签t是顶层标签,则~t表示其他的顶层标签;如果标签t是非顶层标签,则~t表示同属于标签t的上级标签下的其他标签;Ni ~t表示在与标签t具有相同上级标签的其他标签下所有论文中,出现词语i的论文的数量;
步骤b、对该标签下的各词语的权重按从大到小的顺序排序,取排名前M个的词语为该标签的特征词语,形成该标签的初始特征词语集合;
步骤c、根据特征词语的语义特征,计算剩下的所有词语和初始特征词语集合中所有词语的语义相似度,计算公式如公式(3)所示:
Figure BDA0002205892290000062
其中,M表示该标签的初始特征词语集合中词语的数量,cos(j,i)表示词语j和词语i的语义表征的余弦距离,Wt(j)表示词语j在标签t中的权重;
对该标签下的剩下的所有词语按照语义相似度从大到小的顺序排序,排名前K个的词语为该标签的特征词语,形成该标签的补充特征词语集合;
标签的初始特征词语集合和补充特征词语集合,形成该标签的特征词语集合。
在上述技术方案中,由于科研论文篇幅较长且与多层次标签分类无关的信息较多,所以提取科研论文中与多层次标签分类有关的信息,从而获取科研论文的文本表征,可以有助于提高分类效率和分类准确性。
在另一种技术方案中,M的取值为对应标签下的文本表征的词语总数的5%。M的取值会根据每个标签下的特征词语总数的大小而浮动调整,一般M取值为特征词语总数的5%。
在另一种技术方案中,M的取值不大于1000。考虑到部分标签所属科研论文的特征词语总数很大,会达到万级以上。这会导致M取值过大,容易增加噪声词语,降低多层次标签分类模型的效果。因此,本发明将M的取值上限定为1000,以减少噪声特征词语的数量。
在另一种技术方案中,每个标签的特征词语总数不大于5000。根据计算出的语义相似度,对剩下的所有词语进行排序,并取排名前K个词语,加入该标签的特征词语集合,实现对特征词语集合的扩充。为了防止引入过多的噪声特征词语,将M+K(即每个标签的特征词语总数)的取值上限定为5000。
在另一种技术方案中,二元判别模型计算概率后,概率的阈值均为0.5。以提高标签与论文对应的准确性。
在另一种技术方案中,构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。三种方法的对应关系准确,计算量小,判断快。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (8)

1.基于层次判别树的多标签科研论文的分类方法,其特征在于,包括:
步骤一、构建二元判别模型:
获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;
步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;
步骤三、对标签未知的论文分类:采用文本分词技术获取该论文的文本表征,将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中,二元判别模型计算该论文具有该节点对应标签的概率,若概率大于阈值,则输出该根节点对应的标签;
将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中,二元判别模型计算该论文具有该节点代表标签的概率,若概率大于阈值,则输出该子节点对应的标签;
按照从上至下的层级顺序判断,直至文本表征输入至层次判别树模型的叶节点的二元判别模型,且判别输出结果为止;
将从根节点开始到叶节点结束的路径上输出的所有标签,作为该论文的标签。
2.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,采用文本分词技术获取文本表征的方法为:
采用分词及词性标注工具,对论文进行分词及词性标注,保留该文本中词性标注结果为名词的所有词语,形成词语集合Ⅰ;
采用BERT预训练语言模型,从论文中获取每个词语集合Ⅰ中的词语的语义向量,形成词语集合Ⅱ;
词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。
3.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,筛选得到每个标签的特征词语集合的方法为:从多层次标签体系的顶层标签开始,按照自根节点至叶节点的顺序,采用以下方法获取每个标签对应的特征词语;
该方法包括以下步骤:
步骤a、根据每个标签下的所有论文,计算这些论文的文本表征中每个词语的权重,权重计算公式如公式(1)所示:
其中,Fj(i)表示词语i在论文j中的频率,计算公式如公式(2)所示:
Figure FDA0002205892280000022
count(i)表示词语i在论文j中出现的次数,total_wordj表示论文j中总的词语数;Nt表示标签t下所有论文的数量;N~t表示与标签t具有相同上级标签的其他标签下所有论文的数量;如果标签t是顶层标签,则~t表示其他的顶层标签;如果标签t是非顶层标签,则~t表示同属于标签t的上级标签下的其他标签;Ni ~t表示在与标签t具有相同上级标签的其他标签下所有论文中,出现词语i的论文的数量;
步骤b、对该标签下的各词语的权重按从大到小的顺序排序,取排名前M个的词语为该标签的特征词语,形成该标签的初始特征词语集合;
步骤c、根据特征词语的语义特征,计算剩下的所有词语和初始特征词语集合中所有词语的语义相似度,计算公式如公式(3)所示:
Figure FDA0002205892280000023
其中,M表示该标签的初始特征词语集合中词语的数量,cos(j,i)表示词语j和词语i的语义表征的余弦距离,Wt(j)表示词语j在标签t中的权重;
对该标签下的剩下的所有词语按照语义相似度从大到小的顺序排序,排名前K个的词语为该标签的特征词语,形成该标签的补充特征词语集合;
标签的初始特征词语集合和补充特征词语集合,形成该标签的特征词语集合。
4.如权利要求3所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,M的取值为对应标签下的文本表征的词语总数的5%。
5.如权利要求4所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,M的取值不大于1000。
6.如权利要求3所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,每个标签的特征词语总数不大于5000。
7.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,二元判别模型计算概率后,概率的阈值均为0.5。
8.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。
CN201910881086.6A 2019-09-18 2019-09-18 基于层次判别树的多标签科研论文的分类方法 Active CN110781297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881086.6A CN110781297B (zh) 2019-09-18 2019-09-18 基于层次判别树的多标签科研论文的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881086.6A CN110781297B (zh) 2019-09-18 2019-09-18 基于层次判别树的多标签科研论文的分类方法

Publications (2)

Publication Number Publication Date
CN110781297A true CN110781297A (zh) 2020-02-11
CN110781297B CN110781297B (zh) 2022-06-21

Family

ID=69384249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881086.6A Active CN110781297B (zh) 2019-09-18 2019-09-18 基于层次判别树的多标签科研论文的分类方法

Country Status (1)

Country Link
CN (1) CN110781297B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及***
CN115659969A (zh) * 2022-12-13 2023-01-31 成方金融科技有限公司 文档标注方法、装置、电子设备及存储介质
CN115964487A (zh) * 2022-12-22 2023-04-14 南阳理工学院 基于自然语言的论文标签补充方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187892A1 (en) * 2004-02-09 2005-08-25 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187892A1 (en) * 2004-02-09 2005-08-25 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及***
CN113672736B (zh) * 2021-09-09 2023-08-22 上海德拓信息技术股份有限公司 一种文本多标签分类方法及***
CN115659969A (zh) * 2022-12-13 2023-01-31 成方金融科技有限公司 文档标注方法、装置、电子设备及存储介质
CN115964487A (zh) * 2022-12-22 2023-04-14 南阳理工学院 基于自然语言的论文标签补充方法、装置及存储介质

Also Published As

Publication number Publication date
CN110781297B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN105389379B (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
Inzalkar et al. A survey on text mining-techniques and application
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN109189942A (zh) 一种专利数据知识图谱的构建方法及装置
US10049148B1 (en) Enhanced text clustering based on topic clusters
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
US20060288275A1 (en) Method for classifying sub-trees in semi-structured documents
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN106796600A (zh) 相关项目的计算机实现的标识
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及***
CN113254659A (zh) 一种基于知识图谱技术的档案研判方法及***
CN108446334A (zh) 一种无监督对抗训练的基于内容的图像检索方法
CN105205163B (zh) 一种科技新闻的增量学习多层次二分类方法
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN108027814A (zh) 停用词识别方法与装置
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及***
Van et al. Vietnamese news classification based on BoW with keywords extraction and neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant