CN110781292A - 文本数据多层次分类方法、装置、电子设备和存储介质 - Google Patents

文本数据多层次分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110781292A
CN110781292A CN201810828188.7A CN201810828188A CN110781292A CN 110781292 A CN110781292 A CN 110781292A CN 201810828188 A CN201810828188 A CN 201810828188A CN 110781292 A CN110781292 A CN 110781292A
Authority
CN
China
Prior art keywords
classification
level
text data
sub
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810828188.7A
Other languages
English (en)
Inventor
叶君健
田绍伟
薛璐影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810828188.7A priority Critical patent/CN110781292A/zh
Publication of CN110781292A publication Critical patent/CN110781292A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种文本数据多层次分类方法、装置、电子设备和存储介质,其中,装置包括:数据层及多级子分类组件,数据层用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量;每级子分类组件用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定文本数据在该级所属的类别。该分类装置通过将上一级子分类组件的分类结果,作为下一级子分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。

Description

文本数据多层次分类方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本数据多层次分类方法、装置、电子设备和存储介质。
背景技术
随着互联网技术的发展,网络上的资源如文章、图书等文档越来越多,为了便于用户查找文档,通常对文档进行层次化分类。比如,“小学语文”的文档是教育->小学教育->语文这三个层次的类别。
相关技术中,主要采用多个相互独立的支持向量机(Support Vector Machine,简称SVM)分类器对文档进行分类。由于SVM分类器之间相互独立,因而对于层次化分类任务,SVM分类器的分类结果准确性较差。
发明内容
本申请提出一种文本数据多层次分类方法、装置、电子设备和存储介质,用于解决相关技术中SVM分类器对于层次化分类任务,分类结果准确性差的问题。
本申请一方面实施例提出了一种文本数据多层次分类装置,包括:数据层及多级子分类组件;
所述数据层,用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量;
每级子分类组件,用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定所述文本数据在该级所属的类别。
本申请实施例的文本数据多层次分类装置,包括数据层及多级子分类组件,其中,数据层用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量;每级子分类组件用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定文本数据在该级所属的类别。由此,该分类组件通过将上一级子分类组件的分类结果,作为下一级子分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。
本申请实施例另一方面实施例提出一种文本数据多层次分类方法,包括:
对待处理的文本数据进行向量编码处理,以生成所述文本数据对应的词向量;
利用第一级子分类组件,对所述词向量进行特征提取及分类处理,以确定所述文本数据对应的第一级分类结果;
根据所述第一级分类结果,确定所述文本数据对应的第二级目标子分类组件;
利用所述第二级目标子分类组件,对所述词向量及所述第一级分类结果进行特征提取及分类处理,以确定所述文本数据对应的第二级分类结果;
若所述第二级目标子分类组件未包含第三级子分类组件,则根据所述第二级分类结果,确定所述文本数据在各级分类中所属的类别。
本申请实施例的文本数据多层次分类方法,通过首先对待处理的文本数据进行向量编码处理,以生成文本数据对应的词向量,然后利用第一级子分类组件,对词向量进行特征提取及分类处理,以确定文本数据对应的第一级分类结果,根据第一级分类结果,确定文本数据对应的第二级目标子分类组件,再利用第二级目标子分类组件,对词向量及第一级分类结果进行特征提取及分类处理,以确定文本数据对应的第二级分类结果,若第二级目标子分类组件未包含第三级子分类组件,则根据第二级分类结果,确定文本数据在各级分类中所属的类别。由此,通过将第一级分类组件的分类结果,输入至根据第一级分类组件的分类结果确定的第二级目标子分类组件中,作为第二级子目标分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。
本申请另一方面实施例提出一种文本数据多层次分类装置,包括:
通过编码模块,用于对待处理的文本数据进行向量编码处理,以生成所述文本数据对应的词向量;
第一确定模块,用于利用第一级子分类组件,对所述词向量进行特征提取及分类处理,以确定所述文本数据对应的第一级分类结果;
第二确定模块,用于根据所述第一级分类结果,确定所述文本数据对应的第二级目标子分类组件;
第三确定模块,用于利用所述第二级目标子分类组件,对所述词向量及所述第一级分类结果进行特征提取及分类处理,以确定所述文本数据对应的第二级分类结果;
第四确定模块,用于在所述第二级目标子分类组件未包含第三级子分类组件时,根据所述第二级分类结果,确定所述文本数据在各级分类中所属的类别。
本申请实施例的文本数据多层次分类装置,通过对待处理的文本数据进行向量编码处理,以生成文本数据对应的词向量,利用第一级子分类组件,对词向量进行特征提取及分类处理,以确定文本数据对应的第一级分类结果,根据第一级分类结果,确定文本数据对应的第二级目标子分类组件,利用第二级目标子分类组件,对词向量及第一级分类结果进行特征提取及分类处理,以确定文本数据对应的第二级分类结果,当第二级目标子分类组件未包含第三级子分类组件时,根据第二级分类结果,确定文本数据在各级分类中所属的类别。由此,通过将第一级分类组件的分类结果,输入至根据第一级分类组件的分类结果确定的第二级目标子分类组件中,作为第二级子目标分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。
本申请另一方面实施例提出一种电子设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述另一方面实施例所述的文本数据多层次分类方法。
本申请另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述另一方面实施例所述的文本数据多层次分类方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种文本数据多层次分类装置的结构示意图;
图2为本申请实施例提供的一种下一级子分类组件的分类层的输入示意图;
图3为本申请实施例提供的一种文本数据多层次分类方法的流程示意图;
图4为本申请实施例提供的另一种文本数据多层次分类方法的流程示意图;
图5为本申请实施例提供的一种文本数据多层次分类装置的结构示意图;
图6示出了适于用来实现本申请实施方式的示例性电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文本数据多层次分类方法、装置、电子设备和存储介质。
本申请实施例针对相关技术中SVM分类器对于层次化分类任务,分类结果准确性差的问题,提出一种文本数据多层次分类装置。
本申请实施例的文本数据多层次分类装置,包括数据层及多级子分类组件,该文本数据多层次分类装置通过将上一级子分类组件的分类结果,作为下一级子分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。
以文本数据多层次分类装置包括三级子分类组件为例,图1为本申请实施例提供的一种文本数据多层次分类装置的结构示意图。
如图1所示,该文本数据多层次分类装置包括:数据层100,一个第一级子分类组件200,n个第二级子分类组件210、220、230、…、2n0。
其中,第二级子分类组件210包含n1个第三级子分类组件211、…、21n1,第二级子分类组件220包含n2个第三级子分类组件221、…、22n2,第二级子分类组件230包含n3个第三级子分类组件231、…、23n3,…,第二级子分类组件2n0包含nn个第三级子分类组件2n1、…、2nnn。
本实施例中,数据层100用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量。其中,文本数据可以是待分类的文本的标题数据、或者是待分类的文本的关键词集。
例如,对标题为“无线传感器网络的时间同步算法研究”文章进行分类时,标题“无线传感器网络的时间同步算法研究”即为文本数据。
在实际应用中,当文本数据为语句子时,如文章标题、图书名字等,可首先对文本数据进行切词处理,得到文本数据的词序列,然后利用Word2vec模型将词序列进行向量编码处理,生成对应的词向量。
例如,句子中共有N个词,而每个词均用K列向量表示,则文本数据对应的词向量为N×K的矩阵。
当文本数据为关键词集时,如文章的多个关键词等,则可以将所有关键词组成的词序列,进行向量编码,生成关键词集的词向量。
由于Word2vec模型生成词向量是无监督训练,因此可以利用大量无需人工标注的文本数据训练出具有语义信息的词向量,泛化能力更强。
本实施例中,每级子分类组件用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定文本数据在该级所属的类别。
图1中第一级子分类组件200,由于是第一级的分类组件没有前一级子分类组件,所以根据词向量进行特征提取及分类处理,以确定文本数据在第一级分类中所属的类别。
当第一级子分类组件200完成分类后,可根据分类结果从n个第二级子分类组件210、220、230、…、2n0中,确定文本数据对应的第二级目标子分类组件,第二级目标子分类组件可根据词向量和第一级子分类组件200的分类结果,进行特征提取和分类处理,以确定文本数据在第二级分类的第二级分类结果。
若第二级目标子分类组件为第二级子分类组件220,则根据第二级子分类组件220的第二级分类结果,从第二级子分类组件220包含的n2个第三级子分类组件221、…、22n2中,确定出文本数据对应的第三级目标子分类组件。
第三级目标子分类组件根据词向量和第二级分类结果,进行特征提取和分类处理,得到第三级分类结果,进而根据第三级分类结果确定文本数据在各级分类中所属的类别。
需要说明的是,图1中仅示出了三级子类组件不能作为对本申请的限制,子分类组件的级数可以根据实际需要进行调整设置。当不存在下一级子分类组件时,可以确定文本数据在各级分类中所属的类别,对文本数据的分类结束。并且每一级子分类组件对应的下一级子分类组件的个数可以相同,也可以不同。
本申请实施例的文本数据多层次分类装置,通过将前一级子分类组件的分类结果作为下一级分类的依据,实现了根据层次之间的父子关系逐级确定文本数据在各级的所属的类别,大大提高了层次分类结果的准确性。
进一步地,上述实施例中每级子分类组件包括多个卷积层、最大池化层及分类层。图2为本申请实施例提供的一种下一级子分类组件的分类层的输入示意图。
如图2所示,第i级第j个子分类组件中分类层的输入,包括第i-1级第k个子分类组件的最大池化层的输出结果及第i级第j个子分类组件中的最大池化层的输出结果。而第i-1级第k个子分类组件中分类层的输入可包括第i-2级子分类组件的最大池化层的输出结果和第i-1级第k个子分类组件的最大池化层的输出结果。其中,第i-2级子分类组件为包含第i-1级第k个子分类组件的上一级组件。
其中,i、j、k分别为自然数,i为大于或者等于2的自然数。
可以理解的是,当i=2时,第一级子分类组件没有上一级子分类组件,这时,第一级子分类组件的分类层的输入只包括该级的最大池化层的输出结果。
其中,第k个子分类组件为第j个子分类组件的父级组件。例如,第一级子分类组件是第二级子分类组件的父级组件,每个第二级子分类组件又是其包括的各第三级子分类组件的父级组件。
由此,将父级组件的最大池化层的输出结果,作为下一级子分类组件的分类层的输入,可以提高下一级子分类组件的分类结果的准确性。本实施例中,每级子分类组件中的最大池化层的输出结果是词向量经过多个卷积层和最大池化层处理后得到的。具体地,最大池化层对词向量进行卷积特征提取,然后经提取的特征输入至最大池化层,最大池化层将卷积层输出的特征经过池化操作后组合成一个向量特征,并输入至分类层。
需要说明的是,对于第一级子分类组件,其分类层的输入是第一级子分类组件中最大池化层的输出结果。
为了便于处理,每级子分类组件中最大池化层输出结果的维度相同。由此,上一级子分类组件中最大池化层的输出结果,与当前级别的子分类组件中最大池化层的输出结果的维度相同,可以使当前级别的子分类组件的分类层进行分类处理。
本申请实施例中,每级别的子分类组件结合其父级组件提取的特征向量,确定文本数据在该级所属的类别,从而提高了分类结果的准确性。
为了实现上述实施例,本申请实施例还提出一种文本数据多层次分类方法。图3为本申请实施例提供的一种文本数据多层次分类方法的流程示意图。
本申请实施例的文本数据多层次分类方法,可由本申请实施例的提出的另一种文本数据多层次分类装置执行,上述装置可配置于电子设备如电脑、手机等具有操作***的设备中。
如图3所示,该文本数据多层次分类方法包括:
步骤301,对待处理的文本数据进行向量编码处理,以生成文本数据对应的词向量。
其中,待处理的文本数据可以是待分类的文本的标题数据、或者是待分类的文本的关键词集。
例如,对标题为“无线传感器网络的时间同步算法研究”文章进行分类时,标题“无线传感器网络的时间同步算法研究”即为待处理的文本数据。
在实际应用中,当待处理的文本数据为语句子时,如文章标题、图书名字等,可首先对文本数据进行切词处理,得到文本数据的词序列,然后利用Word2vec模型将词序列进行向量编码处理,生成对应的词向量。
例如,句子中共有N个词,而每个词均用K列向量表示,则文本数据对应的词向量为N×K的矩阵。
当文本数据为关键词集时,如文章的多个关键词等,可以将关键词集中的所有关键词组成关键词集对应的词序列,进而对词序列进行向量编码,生成关键词集的词向量。
由于Word2vec模型生成词向量是无监督训练,因此可以利用大量无需人工标注的文本数据训练出具有语义信息的词向量,泛化能力更强。
步骤302,利用第一级子分类组件,对词向量进行特征提取及分类处理,以确定文本数据对应的第一级分类结果。
在生成待处理的文本数据的词向量后,将词向量输入至第一级子分类组件中,由第一级子分类组件对词向量进行特征提取及分类处理,来确定文本数据在第一级的第一级分类结果。
具体地,第一级子分类组件中的多个卷积层对词向量进行卷积特征提取,并将提取的特征输入至最大池化层,由最大池化层对卷积层输出的特征进行池化操作并组合成一个向量特征,然后将该向量特征输入至分类层中,由分类层对卷积池化结果进行处理,得到第一级分类结果。
步骤303,根据第一级分类结果,确定文本数据对应的第二级目标子分类组件。
作为一种可能的实现方式,假设有N个第二级子分类组件,第一级分类结果可以为包括N个元素的向量,其中每个元素,用于表示该文本数据属于对应的第二级子分类组件的概率,那么即可将概率最大的第二级子分类组件作为第二级目标子分类组件。
作为另一种可能的实现方式,第一级分类结果还可以为待分类的文本数据在第一级分类中所属的类别标签,进而可以根据该类别标签,将该类别标签对应的第二级子分类组件,作为第二级目标子分类组件。
步骤304,利用第二级目标子分类组件,对词向量及第一级分类结果进行特征提取及分类处理,以确定文本数据对应的第二级分类结果。
本实施例中,将待处理的文本数据的词向量和第一级分类结果输入至第二级目标子分类组件,由第二级目标子分类组件对词向量及第一级分类结果进行特征提取及分类处理。
作为一种可能的实现方式,第二级目标子分类组件的多个卷积层、最大池化层可以对词向量进行特征提取,进而再利用分类层对最大池化层输出的特征结果及第一级子分类组件的分类结果进行分类处理,以得到文本数据对应的第二级分类结果。
作为另一种可能的实现方式,可对词向量和第一级子分类组件提取的特征向量进行特征提取及分类处理。具体地,第二级目标子分类组件中的多个卷积层和最大池化层对词向量进行特征提取,并将最大池化层输出的结果和第一级子分类组件的最大池化层输出的结果输入至分类层,由分类层进行分类处理,生成第二级分类结果。
为了便于处理,每级子分类组件中最大池化层输出结果的维度相同。由此,上一级子分类组件中最大池化层的输出结果,与当前级别的子分类组件中最大池化层的输出结果的维度相同,可以使当前级别的子分类组件的分类层进行分类处理。
步骤305,若第二级目标子分类组件未包含第三级子分类组件,则根据第二级分类结果,确定文本数据在各级分类中所属的类别。
本实施例中,若第二级目标子分类组件未包含第三级子分类组件,即第二级子分类组件为对应最后一级分类,则根据第二级分类结果,确定文本数据在第一级和第二级中所属的类别。
在第一级子分类组件输出第一级分类结果时,便可以根据第一级分类结果确定待处理的文本数据在第一级分类中所属的类别。在待处理文本数据在第二级分类中所属的类别时,可以根据第二级分类结果,确定文本数据在第二级分类中所属的类别。
进一步地,本实施例中,第二级目标子分类组件也可能包含多个第三级子分类组件,第三级目标子分类组件可根据第二级分类结果,确定第三级分类中待处理的文本数据所属的类别。图4为本申请实施例提供的另一种文本数据多层次分类方法的流程示意图。
上述在确定文本数据对应的第二级分类结果之后,如图4所示,该文本数据多层次分类方法还可包括:
步骤401,若第二级目标子分类组件包含多个第三级子分类组件,则根据第二级分类结果,确定第三级目标子分类组件。
本实施例中,在第二级目标子分类组件包含多个第三级子分类组件时,可根据第二级分类结果,确定待处理文本数据对应的第三级目标子分类组件。具体的确定过程,可参见上述实施例中,根据第一级分类结果确定第二级目标子分类组件的方法。
步骤402,利用第三级目标子分类组件,对词向量及第二级分类结果进行特征提取及分类处理,以确定文本数据对应的第三级分类结果,直至确定文本数据在各级分类中所属的类别。
在确定第三级目标子分类组件后,可将待处理文本数据的词向量和第二级分类结果输入至第三级目标子分类组件,由第三级目标子分类组件对词向量和第二级分类结果进行特征提取和分类处理,得到第三级分类结果。
然后,判断第三级目标子分类组件是否包含第四级子分类组件。若包含第四级子分类组件,则进一步确定第四级分类结果;否则,确定文本数据在各级分类中所属的类别。依次类推,直至最后一级子分类组件,以确定文本数据在各级分类中所属的类别。
本申请实施例的文本数据多层次分类方法,通过当第二级目标子分类组件包含第三级子分类组件时,进一步根据第二级分类结果确定第三级分类结果,实现了在确定下一级分类结果时依据上一级父级组件的分类结果,从而大大提高了分类的准确性。
为了实现上述实施例,本申请还提出一种文本数据多层次分类装置。图5为本申请实施例提供的一种文本数据多层次分类装置的结构示意图。
如图5所示,该文本数据多层次分类装置包括:编码模块510、第一确定模块520、第二确定模块530、第三确定模块540、第四确定模块550。
编码模块510用于对待处理的文本数据进行向量编码处理,以生成所述文本数据对应的词向量;
第一确定模块520用于利用第一级子分类组件,对词向量进行特征提取及分类处理,以确定文本数据对应的第一级分类结果。
第二确定模块530用于根据第一级分类结果,确定文本数据对应的第二级目标子分类组件。
第三确定模块540用于利用第二级目标子分类组件,对词向量及第一级分类结果进行特征提取及分类处理,以确定文本数据对应的第二级分类结果。
第四确定模块550用于在第二级目标子分类组件未包含第三级子分类组件时,根据第二级分类结果,确定文本数据在各级分类中所属的类别。
在本申请实施例一种可能的实现方式中,第三确定模块540还用于:
对词向量及第一级子分类组件提取的特征向量进行特征提取及分类处理。
在本申请实施例一种可能的实现方式中,待处理的文本数据为待分类的文本的标题数据,或者,为待分类的文本对应的关键词集。
在本申请实施例一种可能的实现方式中,第二确定模块530还用于在确定文本数据对应的第二级分类结果之后,当第二级目标子分类组件包含多个第三级子分类组件时,根据第二级分类结果,确定第三级目标子分类组件;
第三确定模块540还用于利用第三级目标子分类组件,对词向量及第二级分类结果进行特征提取及分类处理,以确定文本数据对应的第三级分类结果,直至确定文本数据在各级分类中所属的类别。
在本申请实施例一种可能的实现方式中,若待处理的文本数据为语句;编码模块510还用于:
将待处理的文本数据进行切词处理,确定待处理的文本数据对应的词序列;
利用Word2vec模型,将词序列进行向量编码处理。
需要说明的是,前述对文本数据多层次分类方法实施例的解释说明,也适用于该文本数据多层次分类装置,故在此不再赘述。
本申请实施例的文本数据多层次分类装置,通过对待处理的文本数据进行向量编码处理,以生成文本数据对应的词向量,利用第一级子分类组件,对词向量进行特征提取及分类处理,以确定文本数据对应的第一级分类结果,根据第一级分类结果,确定文本数据对应的第二级目标子分类组件,利用第二级目标子分类组件,对词向量及第一级分类结果进行特征提取及分类处理,以确定文本数据对应的第二级分类结果,当第二级目标子分类组件未包含第三级子分类组件时,根据第二级分类结果,确定文本数据在各级分类中所属的类别。由此,通过将第一级分类组件的分类结果,输入至根据第一级分类组件的分类结果确定的第二级目标子分类组件中,作为第二级子目标分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。
为了实现上述实施例,本申请实施例还提出一种电子设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如上述实施例所述的文本数据多层次分类方法。
图6示出了适于用来实现本申请实施方式的示例性电子设备的框图。图6显示的电子设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的文本数据多层次分类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种文本数据多层次分类装置,其特征在于,包括:数据层及多级子分类组件;
所述数据层,用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量;
每级子分类组件,用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定所述文本数据在该级所属的类别。
2.如权利要求1所述的分类装置,其特征在于,每级子分类组件包括多个卷积层、最大池化层及分类层;
其中,第i级第j个子分类组件中分类层的输入,包括第i-1级第k个子分类组件的最大池化层的输出结果及第i级第j个子分类组件中的最大池化层的输出结果,所述第k个子分类组件为所述第j个子分类组件的父级组件,i、j、k分别为自然数。
3.如权利要求2所述的分类装置,其特征在在于,每级子分类组件中最大池化层输出结果的维度相同。
4.如权利要求1所述的分类装置,其特征在于,所述数据层,具体用于利用Word2vec模型将文本数据进行向量编码处理。
5.一种文本数据多层次分类方法,其特征在于,包括:
对待处理的文本数据进行向量编码处理,以生成所述文本数据对应的词向量;
利用第一级子分类组件,对所述词向量进行特征提取及分类处理,以确定所述文本数据对应的第一级分类结果;
根据所述第一级分类结果,确定所述文本数据对应的第二级目标子分类组件;
利用所述第二级目标子分类组件,对所述词向量及所述第一级分类结果进行特征提取及分类处理,以确定所述文本数据对应的第二级分类结果;
若所述第二级目标子分类组件未包含第三级子分类组件,则根据所述第二级分类结果,确定所述文本数据在各级分类中所属的类别。
6.如权利要求5所述的方法,其特征在于,所述对所述词向量及所述第一级分类结果进行特征提取及分类处理,包括:
对所述词向量及所述第一级子分类组件提取的特征向量进行特征提取及分类处理。
7.如权利要求5所述的方法,其特征在于,所述待处理的文本数据为待分类的文本的标题数据,或者,为待分类的文本对应的关键词集。
8.如权利要求5-7任一所述的方法,其特征在于,所述确定所述文本数据对应的第二级分类结果之后,还包括:
若所述第二级目标子分类组件包含多个第三级子分类组件,则根据所述第二级分类结果,确定第三级目标子分类组件;
利用所述第三级目标子分类组件,对所述词向量及所述第二级分类结果进行特征提取及分类处理,以确定所述文本数据对应的第三级分类结果,直至确定所述文本数据在各级分类中所属的类别。
9.如权利要求5-7任一所述的方法,其特征在于,若所述待处理的文本数据为语句;
所述对待处理的文本数据进行向量编码处理,包括:
将所述待处理的文本数据进行切词处理,确定所述待处理的文本数据对应的词序列;
利用Word2vec模型,将所述词序列进行向量编码处理。
10.一种文本数据多层次分类装置,其特征在于,包括:
编码模块,用于对待处理的文本数据进行向量编码处理,以生成所述文本数据对应的词向量;
第一确定模块,用于利用第一级子分类组件,对所述词向量进行特征提取及分类处理,以确定所述文本数据对应的第一级分类结果;
第二确定模块,用于根据所述第一级分类结果,确定所述文本数据对应的第二级目标子分类组件;
第三确定模块,用于利用所述第二级目标子分类组件,对所述词向量及所述第一级分类结果进行特征提取及分类处理,以确定所述文本数据对应的第二级分类结果;
第四确定模块,用于在所述第二级目标子分类组件未包含第三级子分类组件时,根据所述第二级分类结果,确定所述文本数据在各级分类中所属的类别。
11.一种电子设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求5-9中任一所述的文本数据多层次分类方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求5-9中任一所述的文本数据多层次分类方法。
CN201810828188.7A 2018-07-25 2018-07-25 文本数据多层次分类方法、装置、电子设备和存储介质 Pending CN110781292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810828188.7A CN110781292A (zh) 2018-07-25 2018-07-25 文本数据多层次分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810828188.7A CN110781292A (zh) 2018-07-25 2018-07-25 文本数据多层次分类方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN110781292A true CN110781292A (zh) 2020-02-11

Family

ID=69377258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810828188.7A Pending CN110781292A (zh) 2018-07-25 2018-07-25 文本数据多层次分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110781292A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737465A (zh) * 2020-06-15 2020-10-02 上海理想信息产业(集团)有限公司 一种多层级多类别的中文文本分类的实现方法及装置
WO2022057786A1 (zh) * 2020-09-15 2022-03-24 智慧芽(中国)科技有限公司 基于多类型文本的自动分类方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类***及方法
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类***及方法
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵其鲁, 李宗民: "基于深度多任务学习的层次分类", 《计算机辅助设计与图形学学报》 *
郭利敏: "基于卷积神经网络的文献自动分类研究", 《图书与情报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737465A (zh) * 2020-06-15 2020-10-02 上海理想信息产业(集团)有限公司 一种多层级多类别的中文文本分类的实现方法及装置
WO2022057786A1 (zh) * 2020-09-15 2022-03-24 智慧芽(中国)科技有限公司 基于多类型文本的自动分类方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN107004159B (zh) 主动机器学习
CN108733778B (zh) 对象的行业类型识别方法和装置
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US20240135183A1 (en) Hierarchical classification using neural networks
JP6894058B2 (ja) 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置
CN108427738B (zh) 一种基于深度学习的快速图像检索方法
WO2010119615A1 (ja) 学習データ生成装置、及び固有表現抽出システム
GB2544857A (en) Multimedia document summarization
CN112749547A (zh) 文本分类器训练数据的产生
WO2021034376A1 (en) Example based entity extraction, slot filling and value recommendation
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN105630763A (zh) 用于提及检测中的消歧的方法和***
CN107894979B (zh) 用于语义挖掘的复合词处理方法、装置及其设备
Patel et al. Dynamic lexicon generation for natural scene images
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
JP2020060970A (ja) コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
CN110781292A (zh) 文本数据多层次分类方法、装置、电子设备和存储介质
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CN111709475A (zh) 一种基于N-grams的多标签分类方法及装置
CN114970467B (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination