CN110347821B - 一种文本类别标注的方法、电子设备和可读存储介质 - Google Patents

一种文本类别标注的方法、电子设备和可读存储介质 Download PDF

Info

Publication number
CN110347821B
CN110347821B CN201910456149.3A CN201910456149A CN110347821B CN 110347821 B CN110347821 B CN 110347821B CN 201910456149 A CN201910456149 A CN 201910456149A CN 110347821 B CN110347821 B CN 110347821B
Authority
CN
China
Prior art keywords
text
category
candidate
classification model
annotated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910456149.3A
Other languages
English (en)
Other versions
CN110347821A (zh
Inventor
过弋
张振豪
王志宏
樊振
韩美琪
王家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Shihezi University
Original Assignee
East China University of Science and Technology
Shihezi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology, Shihezi University filed Critical East China University of Science and Technology
Priority to CN201910456149.3A priority Critical patent/CN110347821B/zh
Publication of CN110347821A publication Critical patent/CN110347821A/zh
Application granted granted Critical
Publication of CN110347821B publication Critical patent/CN110347821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及计算机技术领域,公开了一种针对文本层次结构的类别标注的方法、电子设备和可读存储介质。本发明中文本类别标注的方法,包括:结合认知因子搜索待标注文本对应的候选类别;根据候选类别,确定分类模型,分类模型根据各第一样本文本,以及各第一样本文本对应的底层子类别训练获得,其中,底层子类别位于候选类别所在类别层次结构的底层,候选类别位于类别层次结构的顶层且候选类别为父类别,类别层次结构至少包括2层类别;根据待标注文本以及分类模型,确定待标注文本的实际文本类别,并按照实际文本类别标注待标注文本。本实施方式,使得能够减少标注错误发生的概率,提高标注的准确性。

Description

一种文本类别标注的方法、电子设备和可读存储介质
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种文本类别标注的方法、电子设备和可读存储介质。
背景技术
由于互联网的快速发展,人们也越来越依赖于从网络中获取信息。但是文本数据量的飞速增长,混乱分布极大影响了信息获取的效率与结果。为了更好的提供对文本的检索,通常会对文本数据进行类别标注,例如,对新闻类文本进行类别(如:体育类、娱乐类等)标注,从而当用户在检索时,可以快速且准确地检索到相关文本。早期的文本标注方法来源认知学,人们通过日常生活积累的经验以及一定推理规则判断某一篇文本的所属类别。而随着计算机技术的发展,人们希望通过给予机器AI(Artificial intelligence)智慧,产生认知AI,让机器通过学习产生经验,自动判断文本的类别。当前该方面的研究工作已经取得了较大的成果,也导致了人们直接依赖算法判断结果,而忽略其他因素。
发明人发现相关文本分类技术中至少存在如下问题:由于目前的文本数据量大,而随着数据的增多,类别的种类增加,导致对文本的类别进行自动标注过程中,出现错误的概率大大增加,同时也降低了对文本类别标注的速度。
发明内容
本发明实施方式的目的在于提供一种文本类别标注的方法、电子设备和可读存储介质,使得能够减少标注错误发生的概率,提高标注的准确性。
为解决上述技术问题,本发明的实施方式提供了一种文本类别标注的方法,包括:搜索待标注文本对应的候选类别;根据候选类别,确定分类模型,分类模型根据各第一样本文本,以及各第一样本文本对应的底层子类别训练获得,其中,底层子类别位于候选类别所在类别层次结构的底层,候选类别位于类别层次结构的顶层且候选类别为父类别,类别层次结构至少包括2层类别;根据待标注文本以及分类模型,确定待标注文本的实际文本类别,并按照实际文本类别标注待标注文本。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的文本类别标注的方法。
本发明的实施方式还提供了一种计算机可读存储介质,计算机程序被处理器执行时实现上述的文本类别标注的方法。
本发明实施方式相对于现有技术而言,由于文本类别的种类非常庞大,通过搜索待标注文本对应的候选类别,可以缩小用于确定该待标注文本的类别的规模,同时在搜索候选类别的过程,将得到的认知因子与相似度的值进行结合,从而矫正相似度,提高对各类别的搜索的准确率,且由于该待标注文本所对应的候选类别的底层子类别的数量远远小于所有底层子类别的数量,因而通过分类模型可以快速从该候选类别的底层子类别中确定出该待标注文本的实际文本类别,提高了确定该待标注文本的类别的确定速度,并且创新性的提出利用机器学习算法产生的结果作为认知因子,而非仅仅简单依赖该结果,综合相似度与认知因子提高了候选类搜索的准确度;通过该待标注文本对应的候选类别,可以确定出分类模型,使得用于确定待标注文本的分类模型更具有针对性,提高了确定待标注文本类别的准确性;候选类别在类别层次结构的顶层,且为父类别,该类别层次结构中包括了至少2层类别,由于无需按照该类别层次结构的顺序,依次判断该待标注文本在每层的所属子类别,而是直接获取了对应的候选类别的所有底层子类别,因而可以减小类别判断的错误所造成影响,能够减少标注错误发生的概率,提高标注的准确性。
另外,搜索待标注文本对应的候选类别,具体包括:获取待标注文本的候选类别的认知因子集合,认知因子集合可以是包括匹配的候选类别以及与匹配的候选类别对应的初始概率值;计算待标注文本的类别与各候选类别之间的相似度,聚集各相似度获得相似度集合;根据认知因子集合以及相似度集合,确定候选类别概率集合;按照预设规则以及候选类别概率集合,选取待标注文本的候选类别。结合认知因子集合和相似度集合,确定候选类别概率集合,大大提高了搜寻待标注文本对应的候选类别的准确性。
另外,获取待标注文本的候选类别的认知因子集合,具体包括:将待标注文本输入预设的初始候选类别分类模型,获得待标注文本的候选类别认知因子集合,其中,初始候选类别分类模型根据各第二样本文本以及各第二样本文本对应的候选类别训练获得。通过预先构建的初始候选类别分类模型,可以快速确定出该待标注文本的认知因子集合。
另外,按照预设规则以及候选类别概率集合,选取待标注文本的候选类别,具体包括:从候选类别概率集合中,选取大于预设阈值的概率值,并将选取的概率值所对应的候选类别作为待标注文本的候选类别;或者,将候选类别概率集中的概率值按照降序排列,并从排序后的概率集合中选取预设个数的概率值,并将选取的概率值所对应的候选类别作为待标注文本的候选类别。根据底层子类别集合,可以选取与该底层子类别对应的分类模型,从而可以提高对待标注文本的类别确定的速度;选取值较大的概率值所对应的候选类别,可以提高对后续对实际文本类别确定的速度和准确度。
另外,根据候选类别,确定分类模型,具体包括:根据候选类别,以及候选类别对应的类别层次结构,获取类别层次结构中所有底层子类别构成的底层子类别集合;根据底层子类别集合,确定分类模型。根据底层子类别集合,可以选取与该底层子类别对应的分类模型,从而可以提高对待标注文本的类别确定的速度。
另外,根据底层子类别集合,确定分类模型,具体包括:根据底层子类别集合,以及预设的底层子类别集合与分类模型之间的对应关系,确定分类模型。根据对应关系,可以快速确定出该分类模型。
另外,分类模型的训练过程,具体包括:按照底层子类别集合,获取与底层子类别集合对应的第一样本文本集合,第一样本文本集合包括与每个底层子类别对应的第一样本文本;将各第一样本文本作为分类模型的输入数据,将与各第一样本文本对应的底层子类别作为分类模型的输出数据;根据输入数据和输出数据,训练获得分类模型。分类模型是根据底层子类别集合对应的第一样本文本集合训练获得,使得训练获得的分类模型更具有针对性,从而提高了后续使用该分类模型确定待标注文本的实际文本类别的速度。
另外,在训练获得分类模型之后,且在根据底层子类别集合,确定分类模型之前,文本类别标注的方法还包括:保存训练获得的分类模型,以及分类模型与底层子类别集合之间的对应关系。实时保存训练得到的分类模型,可以不断丰富分类模型的种类,提高后续使用分类模型确定待标注文本的实际文本类别的准确性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式提供的一种文本类别标注的方法的具体流程图;
图2是根据本发明第一实施方式提供的一种类别层次结构的示意图;
图3是根据本发明第一实施方式提供的一种候选类别对应的类别层次结构的示意图;
图4是根据本发明第二实施方式提供的一种文本类别标注的方法中训练分类模型的具体流程示意图;
图5是根据本发明第三实施方式提供的一种电子设备的具体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种文本类别标注的方法。该文本类别标注的方法可以应用于具有搜索功能的电子设备上,如,新闻客户端、搜索引擎设备等。通过对文本类别进行自动标注,有利于用户在搜索文本时,快速定位到相关的文本,提高用户搜索相关文本的速度。待标注文本可以是新闻、论文、杂志等文本。该文本类别标注的方法的具体流程如图1所示。
步骤101:搜索待标注文本对应的候选类别。
具体的说,为便于对文本进行管理,文本的类别通常具有层次结构,每层类别指示文本内容的范围不同,下面结合图2介绍类别层次结构,图2为一种类别层次结构,其中,位于顶层的类别为父类别,该父类别所指示的文本内容的范围最广,例如,A可以表示为体育新闻、B可以表示为娱乐新闻,C可以表示为财经新闻;类别C和类别D位于L2层,类别C为球类新闻,D为滑冰类新闻;L3为具体的类别,如,H类为足球类,I为羽毛球类,G为棒球类;E为短道速滑类。
每个父类别下包括多层子类别,越低层的子类别层所指示的文本内容范围越具体且与对应文本的相关性越强。
一个具体的实现中,该搜索待标注文本对应的候选类别的过程为:获取待标注文本的候选类别的认知因子集合,认知因子集合包括匹配的候选类别以及与匹配的候选类别对应的初始概率值;计算待标注文本的类别与存储的各类别之间的相似度,聚集各相似度获得相似度集合;根据认知因子集合以及相似度集合,确定候选类别概率集合;按照预设规则以及候选类别概率集合,选取待标注文本的候选类别。
计算待标注文本的类别与存储的各类别之间的相似度,下面介绍该计算待标注文本的类别候与候选类别c之间的相似度:
首先获取语料集合中的词频-逆文档频率(TF-IDF)集合D,语料集合为多个文本的集合;将待标注文本输入该集合D中,获得该待标注文本的tf-idf向量w,计算集合D中属于候选类别c的文本的tf-idf向量之和,记为sum(c),计算待标注文本的tf-idf向量w与sum(c)之间的相似度,将该相似度作为待标注文本的类别与候选类别c之间的相似度。
具体的说,待标注文本的候选类别的认知因子集合可以通过初始候选分类模型确定。将待标注文本输入预设的初始候选类别分类模型,获得待标注文本的候选类别认知因子集合,其中,初始候选类别分类模型根据各第二样本文本以及各第二样本文本对应的候选类别训练获得。
第二样本文本可以是人工标注了父类别的样本文本,将各第二样本文本作为该初始候选类别分类模型的输入数据,将标注的父类别作为输出数据,根据该输入数据和输入数据,即可训练得到该初始候选分类模型。
下面以一个具体的例子说明训练该初始候选分类模型的方式:
采集新闻文本,并人工为每个采集到的新闻文本标注父类别,将该采集的新闻文本即为第二样本文本,将该第二样本文本作为输入数据,将对应标注的父类别作为输出数据,可以利用机器学习算法,训练出该初始候选类别模型,机器学习算法可以是朴素贝叶斯、逻辑回归,长短时记忆神经网络等。
可以理解的是,认知因子集合包括与该待标注文本匹配的候选类别以及该匹配的候选类别的初始概率值,每个认知因子为对应的候选类别的初始概率值。即该初始候选类别模型可以输出一个或者多个该待标注文本所属父类别的初始概率值,例如,将待标注文本输入该候选类别分类模型,则输出的是待标注文本I的所属父类别为A类的认知因子以及所属父类别为B的认知因子。
计算各类别对应的相似度与认知因子之积,并将计算的各积组成的集合作为候选类别概率值集合。例如,父类别共有m个,分别为c1,c2,。。。,cm,则该待标注文本的候选类别的初始概率值集合可以表示为P={p1,p2,…,pm},即认知因子集表示为P={p1,p2,…,pm},计算待标注文本与m个候选类别之间的相似度,相似度集合可以表示为U={μ12,..,μm},该候选类别的概率集合可以表示为Ps={p11,p22…pmm}。
为了便于后续可以快速确定出该待标注文本的实际文本类别,可以按照预设规则以及候选类别概率集合,选取该待标注文本的候选类别。
一个具体的实现中,可以按预设规则选取,该预设规则可以根据需要进行设置,例如,可以将候选类别概率集中的概率值降序排列,并从排序后的概率集合中选取预设个数的概率值,并将选取的概率值所对应的候选类别作为待标注文本的候选类别,预设个数至少包括2个。预设的候选类别个数可以根据实际需要进行设置。
还可以从候选类别概率集合中,选取大于预设阈值的概率值,并将选取的概率值所对应的候选类别作为待标注文本的候选类别,预设阈值可以根据需要进行设置,其中,该预设阈值设置越大,则过滤掉干扰的候选类别越多。
步骤102:根据候选类别,确定分类模型;分类模型根据各第一样本文本,以及各第一样本文本对应的底层子类别训练获得,其中,底层子类别位于候选类别所在类别层次结构的底层,候选类别位于类别层次结构的顶层且候选类别为父类别,类别层次结构至少包括2层类别。
一个具体的实现中,根据候选类别,以及候选类别对应的类别层次结构,获取类别层次结构中所有底层子类别构成的底层子类别集合;根据底层子类别集合,确定分类模型。
具体的说,候选类别对应的类别层次结构预先设置,在确定了候选类别之后,可以获取候选类别对应的类别层次结构,并将候选类别对应的类别层次结构中所有底层子类别构成底层子类别集合。其中,类别层次结构包括至少2层类别。下面以一个具体的例子说明确定底层子类别集合的过程:
搜索得到的候选类别为A和B,该候选类别对应的类别层次结构如图3所示,忽略中间的子类别,获取该候选类别的所有底层子类别,如图3中的a1至a3,b1至b4为候选类别的所有底层子类别,将a1至a3,b1至b4组合成底层子类别集合G{a1,a2,a3,b1,b2,b3,b4}。
根据底层子类别集合,确定分类模型的方式有多种。一个具体的实现中,根据底层子类别集合,以及预设的底层子类别集合与分类模型之间的对应关系,确定分类模型。
具体的说,可以根据文本的整体类别层次结构中所有底层子类别,预先训练每种可能的底层子类别集合所对应的分类模型。并存储预设的底层子类别集合与分类模型之间的对应关系,因而在确定了底层子类别集合后,即可快速确定合适的分类模型。其中,可以将存储的分类模型聚集,构成分类模型集合。
还可以根据底层子类别集合的规模以及对应底层子类别集合的文本数据,重新训练新的分类模型,并存储该新的训练的分类模型。
例如,若底层子类别集合表示为G,存储的分类模型集合C,待标注文本t;在分类模型集合C中查找是否存在与该底层子类别集合G对应的分类模型,若有,则获取该分类模型,并利用该分类模型确定该待标注文本的实际文本类别;若不存在,则根据底层子类别集合G的规模,获取与该底层子类集合G对应的训练数据,训练获得新的分类模型B,将B加入存储的分类模型集合C中。
可以理解的是,当候选类别的数量少于n时,n可以根据实际需要设定,如n为100;则可以采用传统的机器学习方式,训练获得分类模型,若候选类别的数量大于或等于n时,可以采用深度学习的方式训练获得该分类模型,如卷积神经网络(Convolutional NeuralNetworks,简称“CNN”),循环神经网络(recurrent neural network,简称“RNN”),对抗神经网络(Generative Adversarial Nets,简称“GAN”)等。
步骤103:根据待标注文本以及分类模型,确定待标注文本的实际文本类别,并按照实际文本类别标注待标注文本。
将待标注文本作为该分类模型的输入数据,即可获得该待标注文本实际文本类别。按照确定的实际文本类别对待标注文本进行标注。
本发明实施方式相对于现有技术而言,由于文本类别的种类非常庞大,通过搜索待标注文本对应的候选类别,可以缩小用于确定该待标注文本的类别的规模,同时在搜索候选类别的过程,将得到的认知因子与相似度的值进行结合,从而矫正相似度,提高对各类别的搜索的准确率,且由于该待标注文本所对应的候选类别的底层子类别的数量远远小于所有底层子类别的数量,因而通过分类模型可以快速从该候选类别的底层子类别中确定出该待标注文本的实际文本类别,提高了确定该待标注文本的类别的确定速度;通过该待标注文本对应的候选类别,可以确定出分类模型,使得用于确定待标注文本的分类模型更具有针对性,提高了确定待标注文本类别的准确性;候选类别在类别层次结构的顶层,且为父类别,该类别层次结构中包括了至少2层类别,由于无需按照该类别层次结构的顺序,依次判断该待标注文本在每层的所属子类别,而是直接获取了对应的候选类别的所有底层子类别,因而可以减小类别判断的错误所造成影响,能够减少标注错误发生的概率,提高标注的准确性。
本发明的第二实施方式涉及一种文本类别标注的方法。第二实施方式是对第一实施方式的进一步改进,主要改进之处在于:在本发明第二实施方式中,还可以根据底层子类别集合,训练获得与底层子类别集合对应的分类模型,并在训练获得了分类模型后,保存该分类模型,以丰富分类模型的数量,同时减少标注成本。本实施方式中训练分类模型的流程如图4所示。
步骤201:按照底层子类别集合,获取与底层子类别集合对应的第一样本文本集合,第一样本文本集合包括与每个底层子类别对应的第一样本文本。
具体的说,可以按照底层子类别集合,采集与该底层子类别集合对应的第一样本文本集合,该第一样本文本集合中包括标注有底层子类别的各第一样本文本。
步骤202:将各第一样本文本作为分类模型的输入数据,将与各第一样本文本对应的底层子类别作为分类模型的输出数据。
步骤203:根据输入数据和输出数据,训练获得分类模型。
具体的说,输入数据为各第一样本文本,输出数据为与各第一样本文本对应的底层子类别,该分类模型通过机器学习的方式,不断优化输入数据和输出数据之间对应关系中的参数,最后训练的到该分类模型。机器学习的方式可以是支持向量机、随机森林、长短时记忆神经网络等方式。
步骤204:保存训练获得的分类模型,以及分类模型与底层子类别集合之间的对应关系。
具体的说,在得到该分类模型后,即可保存该分类模型以及该分类模型与底层子类别集合之间的对应关系,以丰富分类模型的数量,使得可以更加准确地对待标注文本类别的判断。
本实施方式提供的文本类别标注的方法,分类模型是根据底层子类别集合对应的第一样本文本集合训练获得,使得该分类模型更具有针对性,从而提高了后续使用该分类模型确定待标注文本的实际文本类别的速度。实时保存训练得到的分类模型,可以不断丰富分类模型的种类,提高后续使用分类模型确定待标注文本的实际文本类别的准确性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种电子设备,该电子设备的具体结构如图5所示,包括:至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述的文本类别标注的方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路链接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器在执行操作时所使用的数据。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种文本类别标注的方法,其特征在于,包括:
搜索待标注文本对应的候选类别;
根据所述候选类别,确定分类模型,所述分类模型根据各第一样本文本,以及各所述第一样本文本对应的底层子类别训练获得,其中,所述底层子类别位于所述候选类别所在类别层次结构的底层,所述候选类别位于所述类别层次结构的顶层且所述候选类别为父类别,所述类别层次结构至少包括2层类别;
根据所述待标注文本以及所述分类模型,确定所述待标注文本的实际文本类别,并按照所述实际文本类别标注所述待标注文本;
其中,所述搜索待标注文本对应的候选类别,具体包括:
获取所述待标注文本的候选类别的认知因子集合,所述认知因子集合包括匹配的候选类别以及与所述匹配的候选类别对应的初始概率值;
计算所述待标注文本的类别与各候选类别之间的相似度,聚集各相似度获得相似度集合;
根据所述认知因子集合以及所述相似度集合,确定所述候选类别概率集合;
其中,所述根据所述认知因子集合以及所述相似度集合,确定所述候选类别概率集合,包括:
根据所述认知因子集合以及所述相似度集合,计算各类别对应的所述相似度与所述认知因子之积,并将计算的各积组成的集合确定为所述候选类别概率值集合;
按照预设规则以及所述候选类别概率集合,选取所述待标注文本的候选类别。
2.根据权利要求1所述的文本类别标注的方法,其特征在于,所述获取所述待标注文本的候选类别的认知因子集合,具体包括:
将所述待标注文本输入预设的初始候选类别分类模型,获得所述待标注文本的候选类别认知因子集合,其中,所述初始候选类别分类模型根据各第二样本文本以及各所述第二样本文本对应的候选类别训练获得。
3.根据权利要求1所述的文本类别标注的方法,其特征在于,所述按照预设规则以及所述候选类别概率集合,选取所述待标注文本的候选类别,具体包括:
从所述候选类别概率集合中,选取大于预设阈值的概率值,并将选取的概率值所对应的候选类别作为所述待标注文本的候选类别;
或者,
将候选类别概率集中的概率值降序排列,并从排序后的概率集合中选取预设个数的概率值,并将选取的概率值所对应的候选类别作为所述待标注文本的候选类别,所述预设个数至少包括2个。
4.根据权利要求1至3中任一项所述的文本类别标注的方法,其特征在于,所述根据所述候选类别,确定分类模型,具体包括:
根据所述候选类别,以及所述候选类别对应的类别层次结构,获取所述类别层次结构中所有底层子类别构成的底层子类别集合;
根据所述底层子类别集合,确定分类模型。
5.根据权利要求4所述的文本类别标注的方法,其特征在于,所述根据所述底层子类别集合,确定分类模型,具体包括:
根据所述底层子类别集合,以及预设的所述底层子类别集合与所述分类模型之间的对应关系,确定所述分类模型。
6.根据权利要求4所述的文本类别标注的方法,其特征在于,所述分类模型的训练过程,具体包括:
按照所述底层子类别集合,获取与所述底层子类别集合对应的第一样本文本集合,所述第一样本文本集合包括与每个所述底层子类别对应的所述第一样本文本;
将各所述第一样本文本作为所述分类模型的输入数据,将与各第一样本文本对应的底层子类别作为所述分类模型的输出数据;
根据所述输入数据和所述输出数据,训练获得所述分类模型。
7.根据权利要求6所述的文本类别标注的方法,其特征在于,在训练获得所述分类模型之后,且在所述根据所述底层子类别集合,确定分类模型之前,所述文本类别标注的方法还包括:
保存训练获得的所述分类模型,以及所述分类模型与所述底层子类别集合之间的对应关系。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一所述的文本类别标注的方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本类别标注的方法。
CN201910456149.3A 2019-05-29 2019-05-29 一种文本类别标注的方法、电子设备和可读存储介质 Active CN110347821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910456149.3A CN110347821B (zh) 2019-05-29 2019-05-29 一种文本类别标注的方法、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910456149.3A CN110347821B (zh) 2019-05-29 2019-05-29 一种文本类别标注的方法、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN110347821A CN110347821A (zh) 2019-10-18
CN110347821B true CN110347821B (zh) 2023-08-25

Family

ID=68174432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910456149.3A Active CN110347821B (zh) 2019-05-29 2019-05-29 一种文本类别标注的方法、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN110347821B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680155A (zh) * 2020-05-13 2020-09-18 新华网股份有限公司 文本分类方法、装置、电子设备及计算机存储介质
CN112001169B (zh) * 2020-07-17 2022-03-25 北京百度网讯科技有限公司 文本纠错的方法、装置、电子设备和可读存储介质
CN112417857A (zh) * 2020-12-02 2021-02-26 北京华彬立成科技有限公司 专利文本分析方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162155A (ja) * 2015-03-02 2016-09-05 本田技研工業株式会社 電子マニュアル表示システム、端末装置及びプログラム
CN107273295A (zh) * 2017-06-23 2017-10-20 中国人民解放军国防科学技术大学 一种基于文本混乱度的软件问题报告分类方法
CN107679035A (zh) * 2017-10-11 2018-02-09 石河子大学 一种信息意图检测方法、装置、设备和存储介质
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及***
CN109614703A (zh) * 2018-12-11 2019-04-12 南京天航智能装备研究院有限公司 一种汽车电液复合转向***的多学科集成建模及优化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
US20180060728A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc Deep Embedding Forest: Forest-based Serving with Deep Embedding Features
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162155A (ja) * 2015-03-02 2016-09-05 本田技研工業株式会社 電子マニュアル表示システム、端末装置及びプログラム
CN107273295A (zh) * 2017-06-23 2017-10-20 中国人民解放军国防科学技术大学 一种基于文本混乱度的软件问题报告分类方法
CN107679035A (zh) * 2017-10-11 2018-02-09 石河子大学 一种信息意图检测方法、装置、设备和存储介质
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及***
CN109614703A (zh) * 2018-12-11 2019-04-12 南京天航智能装备研究院有限公司 一种汽车电液复合转向***的多学科集成建模及优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于关键词相似度的短文本分类方法研究;张振豪等;《计算机应用研究》;第37卷(第1期);第26-29页 *

Also Published As

Publication number Publication date
CN110347821A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN108463795B (zh) 自助分类***
CN106815252B (zh) 一种搜索方法和设备
El Kourdi et al. Automatic Arabic document categorization based on the Naïve Bayes algorithm
US9031944B2 (en) System and method for providing multi-core and multi-level topical organization in social indexes
US20150074112A1 (en) Multimedia Question Answering System and Method
CN110347821B (zh) 一种文本类别标注的方法、电子设备和可读存储介质
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及***
CN106294783A (zh) 一种视频推荐方法及装置
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
US11256991B2 (en) Method of and server for converting a categorical feature value into a numeric representation thereof
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
JP2008257732A (ja) 文書のクラスタリング又は範疇化のための方法
CN106874292A (zh) 话题处理方法及装置
CN112052356B (zh) 多媒体分类方法、装置和计算机可读存储介质
CN110347701B (zh) 一种面向实体检索查询的目标类型标识方法
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
US20030212663A1 (en) Neural network feedback for enhancing text search
CN110032631B (zh) 一种信息反馈方法、装置和存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN110019794A (zh) 文本资源的分类方法、装置、存储介质及电子装置
US20190287018A1 (en) Categorization for a global taxonomy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant