CN104809131B - 电子文档的自动分类***和方法 - Google Patents
电子文档的自动分类***和方法 Download PDFInfo
- Publication number
- CN104809131B CN104809131B CN201410039197.XA CN201410039197A CN104809131B CN 104809131 B CN104809131 B CN 104809131B CN 201410039197 A CN201410039197 A CN 201410039197A CN 104809131 B CN104809131 B CN 104809131B
- Authority
- CN
- China
- Prior art keywords
- document
- classification
- feature
- electronic
- units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种电子文档的自动分类***和方法。该自动分类***包括预处理单元和至少两个文档分类单元。其中,预处理单元用于将待分类的电子文档表示为对应于电子文档的词频向量,文档分类单元用于根据词频向量输出电子文档的类别属性。文档分类单元进一步包括文本表示单元和分类器。其中文本表示单元用于根据词频向量计算电子文档在特征空间中的特征向量,分类器用于根据电子文档的特征向量输出电子文档的类别属性。其中,所述特征空间的数目与所述文本表示单元的数目相同,每个所述特征空间与每个所述文本表示单元一一对应。采用本发明的***和方法可以有效地针对相似度较高的文档进行分类,并且使得针对一个文档进行复合分类成为可能。
Description
技术领域
本发明涉及信息安全技术领域,特别涉及一种电子文档的自动分类***和自动分类方法。
背景技术
随着计算机技术的发展,越来越多的企业、组织以及政府机构等依赖于计算机处理各类事务,在这一过程中,源源不断地产生大量的电子文档。在日常工作中或是进行档案管理时,一般需要将这些电子文档分入特定的类别。但是,在数据量呈现***性增长的今天,某些企业可能一天内就产生几TB的数据。对应着成千上万的电子文档,对其进行人工甄别及管理无疑效率极低。因此,有必要寻求基于计算机的电子文档自动分类***和方法。
自然语言识别技术是语言信息处理的一个重要组成部分,其采用人工智能的理论和技术将设定的自然语言机理用计算机程序表达处理,从而构造出能够理解和识别自然语言的人工智能技术。在近年来,自然语言识别技术在搜索引擎技术中有所应用,也有望用于电子文档自动分类。
如图1所示,根据自然语言识别技术,对一个文档进行分类的***10主要包括以下部分:预处理单元11、文本表示单元12和分类器13。其中文本表示就是寻找一种理想化的形式化文本表示方法,以能够真实反映文档的内容,且对属于不同类别的文档有区分能力。
目前一种常用的文本表示方法就是基于特征项的向量空间模型。根据这一理论,一个文档可以看作是n(特征项的个数)维向量空间中的一个向量,或者为图示方便,也可以看作是基于n个特征项的一条特征曲线(即将该向量的各个特征值连接而形成曲线,以便于直观地观察所述文档)。在本发明中,将该n维向量空间称为特征空间,其维度为n。
在传统的分类***中,文本表示是基于一个指定的特征空间展开的,但是这种表示方式存在一定的缺陷。在某些情况下,其不能精确区分相似度较高的文档,并且其不能支持一个文档属于多个分类的复合分类。以下举例说明。
参见图2,其示出了一份人民银行公文和一份公安部公文基于同一个特征空间的特征曲线。该特征空间基于多个特征项构造,这些特征项分别进一步划分为银行、公文、公安部等不同的特征集。其中,各个特征集分别包括一个或多个特征项,并且,各个特征集包含的特征项的数目可能相同,也可能不同。为清楚起见,图2中的横轴仅示出上述特征集(下同)。其中,曲线C10代表人民银行公文,曲线C11代表公安部公文。可以看到,在对两者进行文本表示时,由于两者都包含大量的属于公文集的特征项,因此两者的特征曲线相似度较高。这违背了文本表示应该对不同类别的文档有区分能力这一原则,使得文本表示单元之后的分类器无法正确区分人民银行公文和公安部公文。
如图3所示,其示出了一份普通财务文档、一份普通研发文档以及一份研发预算文档基于同一个特征空间(该特征空间基于对应于研发、财务等特征集的特征项构造)的特征曲线。其中,曲线C12代表研发预算文档,曲线C13代表普通财务文档,曲线C14代表普通研发文档。可以看到,研发预算文档C12分别与普通财务文档C13和普通研发文档C14的相似度都较低。因此,如果分类器没有预先学习研发财务这类复合类别的文档特征,那么分类器就无法识别研发预算文档的类别,即无法将其分入研发类别或财务类别。这与期望的其既属于研发类别、又属于财务类别的分类结果大相径庭。因此,分类器必须预先学习研发财务这类复合类别的文档特征。但是问题在于,这类复合文档的样本稀少,甚至可能无法预先找到。此外,很难保证所有的复合类别都能被事先完全穷举而无任何遗漏。另外,穷举方法也缺乏未来的自适应性和扩展性。
鉴于此,有必要寻找一种分类***和分类方法,以至少部分地解决上述问题。
发明内容
本发明的目的在于至少部分地克服上述缺陷,提供一种电子文档的自动分类***和自动分类方法。
根据本发明的第一方面,本发明涉及一种电子文档的自动分类***,其包括:
预处理单元,所述预处理单元用于将待分类的电子文档表示为对应于所述电子文档的词频向量;以及
至少两个文档分类单元,所述文档分类单元用于根据所述词频向量输出所述电子文档的类别属性,所述文档分类单元进一步包括:
文本表示单元,所述文本表示单元用于根据所述词频向量计算所述电子文档在特征空间中的特征向量;
分类器,所述分类器用于根据所述电子文档的特征向量输出所述电子文档的类别属性;
其中,所述特征空间的数目与所述文本表示单元的数目相同,每个所述特征空间与每个所述文本表示单元一一对应。
本发明的核心在于,通过构造多个不同的特征空间,计算同一份电子文档在不同的特征空间中的特征向量,从而可以多角度地对该电子文档进行描述。这样,可以根据不同分类规则对该电子文档进行判定,把这多个判定结果基于某种形式组织在一起,形成最终的分类结果,由此有效地针对相似度较高的文档进行分类,并且使得针对一个文档进行复合分类成为可能。使用本发明的方法对电子文档进行分类可以显著地减少用于数据安全管理所需耗费的人工劳动。
根据本发明的构思,上述***可以进行进一步的改进或变形。其例如而不限于以下情形:
优选地,所述文档分类单元中的每个文档分类单元可以以串联的方式协同工作,后一个文档分类单元细化前一个文档分类单元输出的类别属性,最后一个文档分类单元输出所述电子文档属于或者疑似哪一个或者哪几个类别。
此外,所述文档分类单元中的每个文档分类单元还可以以并联的方式协同工作,此时所述自动分类***还包括判决器,所述判决器设置在所述并联的文档分类单元之后,用于根据并联的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
进一步优选地,所述至少两个文档分类单元以并联和串联混合的方式协同工作,其中在串联连接的两级文档分类单元中,后一级文档分类单元细化前一级文档分类单元输出的类别属性;所述自动分类***还包括判决器,所述判决器设置在最后一级文档分类单元之后,用于根据在先的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
进一步优选地,所述自动分类***还包括分支选择器,所述分支选择器设置在并联的文档分类单元之前,用于选择由哪一个或者哪些文档分类单元继续进行处理。
优选地,所述预处理单元的数目可以为一个或多个。
优选地,当所述预处理单元为多个时,所述预处理单元分别基于不同的条目向量将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
优选地,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目至少有一个不同。
优选地,其中对应的条目至少有一个不同的所述特征空间的维度相同或者不同。
优选地,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目相同,其中所对应的条目相同的所述特征空间所对应的权重矩阵互不相同。
优选地,所述特征向量中的至少一个的维度小于所述词频向量的维度。
根据本发明的第二方面,本发明还公开了一种电子文档的自动分类方法,其包括以下步骤:
预处理步骤,将待分类的电子文档表示为对应于所述电子文档的词频向量;以及
至少两个文档分类步骤,根据所述词频向量输出所述电子文档的类别属性,所述文档分类步骤进一步包括:
文本表示步骤,根据所述词频向量计算所述电子文档在特征空间中的特征向量;
分类步骤,根据所述电子文档的特征向量输出所述电子文档的类别属性;
其中,所述特征空间的数目与所述文本表示步骤的数目相同,每个所述特征空间与每个所述文本表示步骤一一对应。
根据本发明的构思,上述方法可以进行进一步的改进或变形。其例如而不限于以下情形:
优选地,所述文档分类步骤中的每个文档分类步骤可以串联进行,后一个文档分类步骤细化前一个文档分类步骤输出的类别属性,最后一个文档分类步骤输出所述电子文档属于或者疑似哪一个或者哪几个类别。
此外,所述文档分类步骤中的每个文档分类步骤还可以并联进行,所述自动分类方法还包括判决步骤,所述判决步骤在所述并联进行的文档分类步骤之后进行,根据所述并联进行的文档分类步骤输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
进一步优选地,所述至少两个文档分类步骤可以并联和串联混合进行,其中在串联进行的两级文档分类步骤中,后一级文档分类步骤细化前一级文档分类步骤输出的类别属性。
优选地,所述自动分类方法还包括判决步骤,所述判决步骤在最后一级文档分类步骤之后进行,根据在先的各个文档分类步骤输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
进一步优选地,所述自动分类方法还可以包括分支选择步骤,所述分支选择步骤在并联的文档分类步骤之前进行,选择由哪一个或者哪些文档分类步骤继续进行处理。
优选地,所述预处理步骤的数目可以为一个或多个。
优选地,当所述预处理步骤为多个时,所述预处理步骤分别基于不同的条目向量将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
优选地,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目至少有一个不同。
优选地,其中对应的条目至少有一个不同的所述特征空间的维度相同或者不同。
优选地,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目相同,其中所对应的条目相同的所述特征空间所对应的权重矩阵互不相同。
优选地,所述特征向量中的至少一个的维度小于所述词频向量的维度。
通过本发明的方法和***,可以较为有效地针对相似度较高的文档进行分类,并且使得针对一个文档进行复合分类成为可能,由此显著地减少了用于数据安全管理所需耗费的人工劳动。进一步,通过抽取条目,可以使得特征向量的维度小于词频向量的维度,从而进一步减少计算量,提高分类效率。
附图说明
参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
图1示意性地示出了根据自然语言识别技术的简单文本分类***的工作流程图。
图2示意性地示出了两份电子文档基于同一个特征空间的特征曲线。
图3示意性地示出了另外三份电子文档基于同一个特征空间的特征曲线。
图4示意性地示出了采用根据本发明的一个优选实施方式的电子文档的自动分类***对电子文档进行分类的的工作流程图。
图5示意性地示出了图2涉及的两份电子文档经过图4涉及的电子文档的自动分类***的第一个文本表示单元处理后的特征曲线。
图6示意性地示出了图2涉及的两份电子文档经过图4涉及的电子文档的自动分类***的第二个文本表示单元处理后的特征曲线。
图7示意性地示出了采用根据本发明的另一个优选实施方式的电子文档的自动分类***对电子文档进行分类的的工作流程图。
图8示意性地示出了图3涉及的三份电子文档中的两份经过图7涉及的电子文档的自动分类***的第一个文本表示单元处理后的特征曲线。
图9示意性地示出了图3涉及的三份电子文档中的两份经过图7涉及的电子文档的自动分类***的第二个文本表示单元处理后的特征曲线。
图10示意性地示出了图2涉及的两份电子文档经过图4涉及的电子文档的自动分类***的第二个文本表示单元处理后的特征曲线,此时该文本表示单元对应的特征空间不同于图6涉及的文本表示单元所对应的特征空间。
图11示意性地示出了采用根据本发明的又一个优选实施方式的电子文档的自动分类***对电子文档进行分类的的工作流程图。
图12示意性地示出了采用根据本发明的又一个优选实施方式的电子文档的自动分类***对电子文档进行分类的的工作流程图。
具体实施方式
通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
本发明总的涉及一种电子文档的自动分类***和自动分类方法,其实质上是利用自然语言识别技术基于多个特征空间实现对电子文档的精确分类。
以下,首先结合优选实施方式说明本发明利用自然语言识别技术确定电子文档类别的原理。
对于电子文档,我们采用“条目”表示分析和理解文档时所涉及的所有的特征项,以字符“term”表示。优选地,条目term的粒度是关键字或者一个正则表达式所对应的对象。关键字例如为“身份证”、“工资”、“收购”等;正则表达式例如用于表示身份证号码、货币、日期、编码等。显然,对于不同主体,例如银行和一般企业,确定电子文档的类别时所依据的条目可以相同也可以不同。优选地,根据经验预先确定上述条目。
优选地,在分析电子文档时预先确定m个条目,该m个无序的条目可以表示为m维条目向量,即TERM向量:TERM=(term1,term2,…,termm)。
当需要对一份电子文档进行分类时,首先对电子文档进行预处理。在此步骤中,对该文档进行扫描,统计每个term在该文档中出现的次数。优选地,此扫描过程支持关键词匹配以及正则表达式匹配。频率统计完成以后,该文档表示为对应于该文档的词频向量TF=(TF1,TF2,…TFm),其中TFi表示第i个条目termi在该文档中出现的次数。
随后,对电子文档进行文本表示,也就是计算该电子文档对应的特征向量a。
如前所述,特征向量是基于特定的特征空间确定的。换句话说,在不同的特征空间中,对应于同一份电子文档的同一个词频向量可以转化为不同的特征向量a=(a1,a2,…,an),其中n是该特征空间的维度,n≤m。
根据本发明的构思,将基于多个(至少两个)特征空间对词频向量进行处理,以获得期望的结果。
在本发明中,特征空间是基于“条目”和“权重矩阵”定义的,换句话说,通过选取不同的条目和/或权重矩阵,可以获得不同的特征空间。如果两个特征空间的条目和权重矩阵完全相同,则这两个特征空间相同,即其实质上是一个特征空间。由此,基于不同的特征空间,电子文档可以转化为不同的特征向量。
具体地,一方面可以通过抽取不同的条目来构造不同的特征空间,这样形成的特征空间可能具有相同维度,也可能具有不相同的维度。无论其维度相同与否,只要其所依据的条目至少有一个不同,其就属于不同的特征空间。例如为了区分人民银行公文和公安部公文,可以在一个特征空间中去除属于公文集的那些条目(特征项),这样使得两者在该特征空间中的特征向量具有较低的相似度。在实践中,通过仅抽取部分条目的方式(使n<m)来构造不同的特征空间可以有效减小计算量,提高计算效率。这种做法可以简单地称为“降维”,即通过令特征向量的维度小于词频向量的维度来减少计算量。
另一方面,可以通过构造不同的权重矩阵来构造不同的特征空间,这样,对于仅权重矩阵不同的各个特征空间,其维度将是相同的。例如,同样为了区分人民银行公文和公安部公文,可以在一个特征空间中令属于公文集的那些条目(特征项)的权重为零,这样也可以使得两者在该特征空间中的特征向量具有较低的相似度。
显然,在一个复杂的***中,根据实际需求,上述两个方面是可以结合使用的。后文将对此进行进一步描述。
根据本发明,计算特征向量a的一种方法可以表示为:a=f(TF×S,W),即特征向量a是TF×S和W的函数。
其中:
a表示电子文档在某特征空间中的特征向量,其为n维向量,或者称为1×n维矩阵。
TF表示电子文档的词频向量,其为m维向量,或者称为1×m维矩阵。
S表示选取特定条目时所使用的转换矩阵,其为m×n维矩阵。如果抽取TERM向量中第i个条目作为特征空间中第j个条目,则S中的元素sij=1,其中,i=1,…,m;j=1,…,n,除被抽取的条目外其它元素均为零。
在实践中,可以根据需要合理设置S,例如可以使得某个条目或者对应于某特征集的某些条目不被抽取,从而使得特征空间具有较少的条目(特征项)。例如在上文提到的例子中,在对人民银行公文和公安部公文进行分类时,可以不抽取对应于“公文”的特征集所包含的那些特征项。
W表示该特征空间的权重矩阵,其为n×n维对角矩阵,其对角线上的元素wi(i=1,…,m)为该特征空间所对应的各个条目在该特征空间中的权重值。
权重矩阵W的对角线上的元素wi的取值可以通过在样本集合中学习而确定。样本集合内的文档可以根据经验选取,在需要的情况下去除噪声,以获得最优学习效果。当然,也可以采取其它方式构造权重矩阵W,以根据需要在不同的特征空间中增加或者减少所关注的条目的权重。
在计算特征向量a时,在一种优选的情况下,特征向量a与TF×S和W之间为线性关系,其可以表示为,a=TF×S×W。这可以包括多种情形。
显然,一种最简便的做法是令特征向量a=TF,即令ai=TFi,i=1,…m,此时S和W均为单位矩阵。显然,这是在一个最基本的特征空间中进行的处理,该特征向量就是词频向量本身。该特征空间是基于TERM向量(也就是全部条目)形成的,并且对于每个term的权重均设为1。
上面这种做法意味着对词频向量并未进行任何处理,这可能存在一些缺陷,因而只能在特定场合使用,例如文档较为标准的场合。因为文档有长有短,直接根据条目termi出现的次数对文档分类有可能导致无法获得期望的分类效果。此外,在确定类别时每个条目所提供的信息量可能并不相同,一篇电子文档中某些条目出现频率高并不意味着该电子文档一定属于某一特定类别,相反,某些条目可能只出现一次就导致该文档属于某一特定类别。因此,当需要体现不同条目所包含的不同的信息增益时,有必要将条目termi出现的次数TFi转换为不同于该次数TFi的特征值ai。
当仅通过抽取不同的条目来获得不同的特征空间时,各个被抽取的条目的权重均相同,权重矩阵W为对角线元素为1的单位矩阵,此时a=TF×S。
当仅通过改变权重矩阵来获得不同的特征空间时,特征空间的维度与词频向量TF的维度相同(n=m)且每个条目均按序抽取,转换矩阵S为对角线元素均为1的单位矩阵,此时a=TF×W。这也称为TF*IDF方法。即ai=TFi·wi。
可以采用TF′表示抽取过后的词频向量,则TF′=TF×S,它是一个n维向量,可以表示为(TF1′,TF2′,…,TFn′)。
在计算得到对应于某个特征空间的特征向量a之后,可以将a输入分类器以输出电子文档的对应于该特征空间的类别属性。
根据本发明的优选实施方式,在对文档进行分类时,计算特征向量a是在多个特征空间中进行的。该多个特征空间中的每一个都用于对电子文档的某方面的属性进行判断。具体而言,在每一个特征空间中,每个电子文档的特征向量a都可以看作一个点,该特征空间可能设定为包括一个或多个类别,每个类别可以看作特征空间中的一个区域。当某电子文档的特征向量a所对应的点落入某个类别所对应的区域时,认为该电子文档属于该类别。
在一种优选实施方式中,每个类别的范围都可以通过一个中心向量Q和一个预定半径(或预定距离)r确定,通过计算电子文档在该特征空间中的特征向量a与各个类别的中心向量的相似度(距离),可以确定该电子文档的类别属性。例如,当某特征向量a到某类别的中心向量Q的距离小于或等于预定半径r时,即认为该电子文档属于该类别;当特征向量a到中心向量Q的距离大于预定半径r时,即认为该电子文档不属于该类别。
优选地,计算特征向量D(a1,a2,…,am)和目标类别的中心向量Q(b1,b2,…,bm)之间的距离的方法例如为:
优选地,涉密类别的中心向量Q以及预定半径r可以通过在样本集合中进行学习并结合经验予以确定。如前所述,样本集合内的文档可以根据经验选取,在需要的情况下去除噪声,以获得最优学习效果。应当了解,样本集合内的文档应当涵盖各个目标类别。
可以采用常用的分类器例如Rocchio分类器等确定中心向量和预定半径,以对特征向量进行分类。各个类别的预定半径可以相同,也可以不同。关于分类器的设计与选择是本领域已知的技术,在此不再详细描述。
根据本发明的构思,分类器输出的结果可以并不限于电子文档在该特征空间中所属的类别,还可以是与类别有关的其它信息。例如,当某特征空间中仅存在一个类别时,分类器可以输出“是”或“非”的逻辑值。或者,分类器也可以不输出具体的类别,而是输出特征向量到各个类别的中心向量的距离(相似度),例如余弦距离/余弦相似度等,在之后的步骤中通过其它判决规则来确定电子文档的最终类别。在本发明中,将具体的“类别”以及诸如距离、逻辑值等的与类别有关的其它信息通称为“类别属性”。
可以了解,根据本发明的构思,通过在不同特征空间对电子文档进行分类,然后将分类结果进行汇总,可以精确区分相似度较高的文档,并且能够支持一个文档属于多个分类的复合分类。
附图4示出了采用根据本发明的一个优选实施例的电子文档的自动分类***100对电子文档进行分类的工作流程图。该电子文档的自动分类***100包括预处理单元110、两个相串联的文档分类单元120和130。其中文档分类单元120包括文本表示单元121和分类器122,文档分类单元130包括文本表示单元131和分类器132。
在采用该自动分类***100对电子文档进行处理时,首先将待分类的电子文档输入预处理单元110。经过预处理单元110处理,该电子文档表示为对应的词频向量TF。
随后,将词频向量TF输入前一个文档分类单元120的文本表示单元121进行处理,随后通过分类器122进行第一次分类。文本表示单元121将基于特征空间1对电子文档进行文本表示。例如,参见图5,文本表示单元121对应的特征空间1包括“合同”、“公文”、“专利”共三个特征集,一份人民银行公文和一份公安部公文在特征空间1中的特征曲线分别表示为C20和C21,可以看出,两者相似度极高。根据上述文本表示的结果,分类器122将人民银行公文和公安部公文均识别为属于“公文”类别。
在此之后,将词频向量TF再输入后一个文档分类单元130的文本表示单元131进行处理,随后通过分类器132进行第二次分类。文本表示单元131将基于特征空间2对电子文档进行文本表示。例如,参见图6,文本表示单元131对应的特征空间2包括“银行”、“公安部”两个特征集,一份人民银行公文和一份公安部公文在特征空间2中的特征曲线分别表示为C22和C23,可以看出,两者相似度极低。根据上述文本表示的结果,分类器132将人民银行公文识别为属于“银行”类别,将公安部公文识别为属于“公安部”类别。由此,可以顺利地对人民银行公文和公安部公文进行分类。
图4-6对应的示例性的自动分类***100中,文档分类单元120和130是以串联的方式协同工作的,后一个文档分类单元130细化前一个文档分类单元120输出的类别,最后一个文档分类单元120输出电子文档属于哪个类别。显然,根据本发明的构思,自动分类***可以包括多于两个的文档分类***,它们可以同样地以串联的方式协同工作,在后的文档分类单元细化在前的文档分类单元输出的结果。应当了解,按照本发明的构思,“细化”可以包括“否决”的情形。例如,在先的文档分类单元将某电子文档判定为“财务”类别,但是在后的文档分类单元将该电子文档判定为“考卷”类别,此判定结果将否决在先已判定的“财务”类别。此外,如前所述,各个文档分类单元可以不限于输出电子文档的类别,其还能输出其类别属性。最后的文档分类单元是在之前的文档分类结果的基础上进行处理,其最终分类结果可能是输出电子文档属于哪一个类别;在支持复合分类的***中,也可能输出该电子文档属于哪一个或者哪几个类别。进一步,对于最后一级的文档分类单元,在某些情况下(例如当不能明确判定电子文档属于某个类别时),该文档分类单元还可能输出该电子文档“疑似”哪个类别或哪些类别。例如,该文档分类单元输出该电子文档相对于一个或几个目标类别的距离,由用户进行最后的分类判定。
附图7示出了采用根据本发明的另一个优选实施例的电子文档的自动分类***200对电子文档进行分类的工作流程图。该电子文档的自动分类***200包括预处理单元210、两个相并联的文档分类单元220和230以及在两个文档分类单元之后的判决器240。其中文档分类单元220包括文本表示单元221和分类器222,文档分类单元230包括文本表示单元231和分类器232。
在采用该自动分类***200对电子文档进行处理时,首先将待分类的电子文档输入预处理单元210。经过预处理单元210处理,该电子文档表示为对应的词频向量TF。
随后,将词频向量TF输入第一个文档分类单元220的文本表示单元221进行处理,随后通过分类器222进行第一次分类。文本表示单元221将基于特征空间1’对电子文档进行文本表示。例如,参见图8,文本表示单元221对应的特征空间1’包括“合同”、“财务”、“专利”共三个特征集,一份研发预算文档和一份普通财务文档在特征空间1,中的特征曲线分别表示为C30和C31,可以看出,两者相似度极高。根据上述文本表示的结果,分类器122将研发预算文档和普通财务文档均识别为属于“财务”类别。
同时或在此之后,将词频向量TF再输入第二个文档分类单元230的文本表示单元231进行处理,随后通过分类器232进行第二次分类。文本表示单元231将基于特征空间2’对电子文档进行文本表示。例如,参见图9,文本表示单元231对应的特征空间2’包括“合同”、“研发”和“专利”三个特征集,一份研发预算文档和一份普通研发文档在特征空间2’中的特征曲线分别表示为C32和C33,可以看出,两者相似度也极高。根据上述文本表示的结果,分类器232将两者均识别为属于“研发”类别。
最后,将两个文档分类单元220、230识别的结果均输入判决器240,判决器将研发预算文档识别为属于“财务”和“研发”这两个类别。
图7-9对应的示例性的自动分类***200中,文档分类单元220和230是以并联的方式协同工作的,并且***中还包括设置在并联的文档分类单元之后的判决器240,用于根据并联的各个文档分类单元220、230输出的类别判断待分类的电子文档属于哪一个或者哪几个类别。显然,根据本发明的构思,自动分类***可以包括多于两个的文档分类***,它们可以同样地以并联的方式协同工作,最后通过判决器输出判断结果。并且如前所述,各个文档分类单元可以不限于输出电子文档的类别,其还能输出其类别属性。最后的判决器是在之前的文档分类结果的基础上进行处理,其最终可能输出电子文档属于哪一个类别;在支持复合分类的***中,也可能输出该电子文档属于哪一个或者哪几个类别。进一步,在某些情况下(例如当不能明确判定电子文档属于某个类别时),该判决器还可能输出该电子文档“疑似”哪个类别或哪些类别。例如,其输出电子文档相对于一个或几个目标类别的距离,由用户进行最后的分类判定。
在图4-6和图7-9所涉及的示例性的自动分类***中,不同特征空间是通过抽取不同条目构造的,而根据本发明的构思,也可以通过改变条目的权重来构造不同的特征空间。
例如,在图4-6所涉及的示例性的分类***中,在第一个文档分类单元120将人民银行公文和公安部公文均识别为“公文”类别之后,文档分类单元130的文本表示单元131还可以基于不同于特征空间2的特征空间3对电子文档进行文本表示。例如,如图10所示,文本表示单元131对应的特征空间3包括“合同”、“银行”、“公文”、“公安部”和“专利”五个特征集,但是其中降低了公文特征集的权重。此时,人民银行公文和公安部公文在特征空间3中的特征曲线分别表示为C24和C25。可以看出,两者相似度极低。基于此,分类器132将人民银行公文识别为属于“银行”类别,将公安部公文识别为属于“公安部”类别。由此,可以顺利地对人民银行公文和公安部公文进行分类。
显然,特征空间2是通过抽取部分条目构造的,而特征空间3是通过降低某些条目的权重而构造的。如前所述,对本领域技术人员而言,显然可以根据需要结合这两种方式,通过抽取某个(或某些)条目和/或改变(例如增加或降低,甚至降低至0)某个(或某些)条目的权重来构造对应于不同文本表示单元的不同的特征空间。
在存在抽取条目的情况下,多个特征空间中至少一个和至少另一个所对应的条目至少有一个不同。换句话说,在自动分类***的多个特征空间中,即便其它特征空间所对应的条目均相同(仅权重矩阵不同),也至少有一个特征空间所对应的条目与这些对应于相同条目的特征空间所对应的条目不同(至少一个条目不同即导致前者与后者不同)。在某些情况下,各个特征空间两两之间所对应的条目至少有一个不同。但是,无论条目是否相同,特征空间仍然可以具有相同或是不同的维度。在实践中,通过抽取条目来构造不同特征空间的方式可以使得计算量显著降低,大大节约处理时间。
在某些优选情况下,多个特征空间中至少一个和另一个所对应的条目相同,但是,这些特征空间所对应的权重矩阵互不相同。
以上示意性地示出了电子文档的自动分类***的几个优选实施方式,其均为较为简单的***。本领域技术人员了解,根据本发明的构思,电子文档的自动分类***显然也可以设计为较为复杂的***。
在此类***中,文档分类单元可以以并联和串联混合的方式协同工作。其中,在串联连接的两级文档分类单元中,后一级文档分类单元细化前一级文档分类单元输出的类别属性;同时,此类***还包括判决器,其设置在最后一级文档分类单元之后,用于根据在先的各个文档分类单元输出的类别属性判断待分类的电子文档属于或者疑似哪一个或者哪几个类别。
按照本发明的构思,在优选的情况下,电子文档的自动分类***还可以包括分支选择器,其可以设置在并联的文档分类单元之前,用于选择由哪一个或者哪些文档分类单元继续进行处理。作为一种特例情况,“选择由哪一个或者哪些文档分类单元继续进行处理”也可能是指不选择下一级的任何一个文档分类单元,而是直接跳过下一级,前进至在后的处理单元进行处理。当分支选择器设置在第一级的多个文档分类单元之前时,该分支选择器可以通过人工干预或者预先设定的分支选择规则来选择后续参与处理的文档分类单元;当分支选择器设置在中间级的文档分类单元之前时,优选通过预先设定的分支选择规则选择后续由哪个或哪些文档分类单元继续进行处理。
图11示出了采用根据本发明的另一个优选实施例的电子文档的自动分类***300对电子文档进行分类的工作流程图。与自动分类***100和200明显不同的是,其包括数量更多的文档分类单元320-327以及一个分支选择器340。采用该***处理电子文档时,待分类的电子文档首先经过预处理单元310处理,所后输入并联的文档分类单元320-322,然后进入分支选择器340,经过分支选择器340后电子文档会被选择性地输入至并联的文档分类单元323-327中的一个或多个(或直接跳过这些单元),最后通过判决器350输出该电子文档属于或疑似哪个或哪些类别。应当了解,该***中的每个文档分类单元均包括一个文本表示单元和一个分类器,为简单起见,图中仅示出文档分类单元,其内部单元不再详细示出。
需要说明,在并联的文档分类单元之前设置分支选择器只是一种优选的方案,并不是必需的。此外,按照本发明的构思,判决器也可以分级设置,例如可以包括支路判决器和干路判决器。其中支路判决器设置在某个支路的各个文档分类单元之后,用于根据本支路在先的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。干路判决器设置在***的最后级,即在所有的支路判决器以及文档分类单元之后,用于根据各个支路判决器以及文档分类单元输出的信息判断所述电子文档属于或者疑似哪一个或者哪几个类别。
图12示出了采用根据本发明的另一个优选实施例的电子文档的自动分类***400对电子文档进行分类的工作流程图。与自动分类***300类似,其也包括多个文档分类单元420-428,但是与自动分类***300不同的是,其共包括三个支路。采用该***处理电子文档时,待分类的电子文档首先经过预处理单元310处理,所后输入并联的文档分类单元420-423,在此分成三个支路。在第一支路,电子文档随后经过分支选择器440处理,然后被选择性地输入至并联的文档分类单元424-426,随后通过支路判决器450输出该电子文档属于或疑似哪个或哪些类别。在第二支路,电子文档输入文档分类单元421之后直接向下级输出该电子文档的类别属性。在第三支路,电子文档先输入并联的文档分类单元422和423,然后进入分支选择器441,经过分支选择器441后电子文档会被选择性地输入至并联的文档分类单元427和/或428或跳过该级,随后通过支路判决器451输出该电子文档属于或疑似哪个或哪些类别。最后,电子文档输入干路判决器452,干路判决器452在支路判决器450、451以及文档分类单元421输出的信息的基础上进行最终判决,最终输出该电子文档属于或疑似哪个或哪些类别。应当了解,该***中的每个文档分类单元均包括一个文本表示单元和一个分类器,为简单起见,图中仅示出文档分类单元,其内部单元不再详细示出。
此外,根据本发明的构思,自动分类***不限于仅包括一个预处理单元,根据需要,其还可以包括多个所述预处理单元。当所述预处理单元为多个时,这些预处理单元分别基于不同的条目向量将待分类的电子文档表示为对应于该电子文档的不同的词频向量,以便于更加快速地进行文档分类处理。该多个预处理单元中的一个设置于***的第一级,即位于所有的文档分类单元之前;其它的预处理单元则根据需要设置在有关的文档分类单元之前。根据实际情况选取不同的条目向量进行预处理,在某些场合下可以有效减少后期的计算量,显著提高分类效率。
综上,根据本发明的构思,本发明提供了一种电子文档的自动分类***,其包括预处理单元和至少两个文档分类单元。其中,预处理单元用于将待分类的电子文档表示为对应于所述电子文档的词频向量,文档分类单元用于根据所述词频向量输出所述电子文档的类别属性。每个文档分类单元分别包括对应的文本表示单元和分类器。其中,文本表示单元用于根据所述词频向量计算所述电子文档在特征空间中的特征向量,分类器用于根据所述电子文档的特征向量输出所述电子文档的类别属性。根据本发明的构思,特征空间的数目与文本表示单元的数目相同,并且,每个特征空间与每个文本表示单元一一对应。
根据本发明的另一方面,本发明还提供了一种电子文档的自动分类方法,其与上文述及的电子文档的自动分类***对应。也就是说,该自动分类方法包括预处理步骤和至少两个文档分类步骤。其中,在预处理步骤中,将待分类的电子文档表示为对应于该电子文档的词频向量;在文档分类步骤中,根据词频向量输出该电子文档的类别属性。进一步,该文档分类步骤包括文本表示步骤和分类步骤。其中,在文本表示步骤中,根据词频向量计算该电子文档在特征空间中的特征向量;在分类步骤中,根据特征向量输出该电子文档的类别属性。如前所述,按照本发明的构思,特征空间的数目与文本表示步骤的数目相同,每个特征空间与每个文本表示步骤一一对应。
应当了解,前述的电子文档的自动分类***所具有的特征均可单独地或者结合地适用于电子文档的自动分类方法。分类方法的各个处理步骤分别对应于分类***中的各个处理单元。例如,文档分类步骤可以串联进行,也可以并联进行。在并联的文档分类步骤之后可进行判决步骤,输出电子文档属于或者疑似哪一个或者哪几个类别。在较为复杂的***中,文档分类步骤可以根据需要以串联、并联混合的方式进行。某些情况下,在并联的文档分类步骤之前还可以包括分支选择步骤。此外,该分类方法也可以包括一个或多个预处理步骤。为简明起见,对上述或其他特征不再一一赘述。
以上简单描述了根据本发明的电子文档的自动分类***及方法,可以了解,采用如上方法和***判定电子文档的类别使得对电子文档的分类结果较为准确,更为适应复杂的场景。
应当了解,本发明所涉及的电子文档主要是指文档类型的电子文件,包括但不限于文档格式为doc、xls、ppt、wps等的文件、可编辑字符的pdf文件、无格式纯文本文件、压缩文件、电子邮件、网页类型的文件等。
本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由所附的权利要求书及其等效范围所界定。
Claims (18)
1.一种电子文档的自动分类***,其特征在于,所述自动分类***包括:
预处理单元,所述预处理单元用于将待分类的电子文档表示为对应于所述电子文档的词频向量;以及
至少两个文档分类单元,所述文档分类单元用于根据所述词频向量输出所述电子文档的类别属性,所述文档分类单元进一步包括:
文本表示单元,所述文本表示单元用于根据所述词频向量计算所述电子文档在特征空间中的特征向量;以及
分类器,所述分类器用于根据所述电子文档的特征向量输出所述电子文档的类别属性;
其中,所述特征向量的维度小于或者等于所述词频向量的维度,所述特征空间为至少两个特征空间,所述特征空间是基于条目和权重矩阵定义的,所述条目是表示分析和理解文档时所涉及的所有特征项,所述至少两个特征空间是通过选取不同的条目和/或权重矩阵获得的至少两个不同的特征空间;
所述特征空间的数目与所述文本表示单元的数目相同,每个所述特征空间与每个所述文本表示单元一一对应,不同的文档分类单元通过不同的特征空间表示电子文档的特征向量;
所述自动分类***配置为通过在所述至少两个特征空间对所述电子文档进行复合分类,所述复合分类是指一个文档可以属于多个分类。
2.如权利要求1所述的自动分类***,其特征在于,
所述文档分类单元中的每个文档分类单元以串联的方式协同工作,后一个文档分类单元细化前一个文档分类单元输出的类别属性,最后一个文档分类单元输出所述电子文档属于或者疑似属于哪一个或者哪几个类别。
3.如权利要求1所述的自动分类***,其特征在于,
所述文档分类单元中的每个文档分类单元以并联的方式协同工作,所述自动分类***还包括判决器,所述判决器设置在所述并联的文档分类单元之后,用于根据并联的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似属于哪一个或者哪几个类别。
4.如权利要求1所述的自动分类***,其特征在于,
所述至少两个文档分类单元以并联和串联混合的方式协同工作,其中在串联连接的两级文档分类单元中,后一级文档分类单元细化前一级文档分类单元输出的类别属性;
所述自动分类***还包括判决器,所述判决器设置在最后一级文档分类单元之后,用于根据在先的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似属于哪一个或者哪几个类别。
5.如权利要求4所述的自动分类***,其特征在于,
所述自动分类***还包括分支选择器,所述分支选择器设置在并联的文档分类单元之前,用于选择由哪一个或者哪些文档分类单元继续进行处理。
6.如权利要求1所述的自动分类***,其特征在于,所述预处理单元的数目为一个或多个;当所述预处理单元为多个时,所述预处理单元分别基于不同的条目向量将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
7.如权利要求1所述的自动分类***,其特征在于,所述至少两个特征空间中的至少一个特征空间所对应的条目与所述至少两个特征空间中的至少另一个特征空间所对应的条目至少有一个不同。
8.如权利要求1所述的自动分类***,其特征在于,所述至少两个特征空间中的至少一个特征空间所对应的条目与所述至少两个特征空间中的至少另一个特征空间所对应的条目相同,其中所对应的条目相同的所述特征空间所对应的权重矩阵互不相同。
9.如权利要求1所述的自动分类***,其特征在于,所述特征向量中的至少一个的维度小于所述词频向量的维度。
10.一种电子文档的自动分类方法,其特征在于,所述自动分类方法包括以下步骤:
预处理步骤,将待分类的电子文档表示为对应于所述电子文档的词频向量;以及
至少两个文档分类步骤,根据所述词频向量输出所述电子文档的类别属性,所述文档分类步骤进一步包括:
文本表示步骤,根据所述词频向量计算所述电子文档在特征空间中的特征向量;
分类步骤,根据所述电子文档的特征向量输出所述电子文档的类别属性;
其中,所述特征向量的维度小于或者等于所述词频向量的维度,所述特征空间为至少两个特征空间,所述特征空间是基于条目和权重矩阵定义的,所述条目是表示分析和理解文档时所涉及的所有特征项,所述至少两个特征空间是通过选取不同的条目和/或权重矩阵获得的至少两个不同的特征空间;
所述特征空间的数目与所述文本表示步骤 的数目相同,每个所述特征空间与每个所述文本表示步骤 一一对应,不同的文档分类步骤 通过不同的特征空间表示电子文档的特征向量;
所述自动分类方法 配置为通过在所述至少两个特征空间对所述电子文档进行复合分类,所述复合分类是指一个文档可以属于多个分类。
11.如权利要求10所述的自动分类方法,其特征在于,
所述文档分类步骤中的每个文档分类步骤串联进行,后一个文档分类步骤细化前一个文档分类步骤输出的类别属性,最后一个文档分类步骤输出所述电子文档属于或者疑似属于哪一个或者哪几个类别。
12.如权利要求10所述的自动分类方法,其特征在于,
所述文档分类步骤中的每个文档分类步骤并联进行,所述自动分类方法还包括判决步骤,所述判决步骤在所述并联进行的文档分类步骤之后进行,根据所述并联进行的文档分类步骤输出的类别属性判断所述电子文档属于或者疑似属于哪一个或者哪几个类别。
13.如权利要求10所述的自动分类方法,其特征在于,
所述至少两个文档分类步骤并联和串联混合进行,其中在串联进行的两级文档分类步骤中,后一级文档分类步骤细化前一级文档分类步骤输出的类别属性;
所述自动分类方法还包括判决步骤,所述判决步骤在最后一级文档分类步骤之后进行,根据在先的各个文档分类步骤输出的类别属性判断所述电子文档属于或者疑似属于哪一个或者哪几个类别。
14.如权利要求13所述的自动分类方法,其特征在于,
所述自动分类方法还包括分支选择步骤,所述分支选择步骤在并联的文档分类步骤之前进行,选择由哪一个或者哪些文档分类步骤继续进行处理。
15.如权利要求10所述的自动分类方法,其特征在于,所述预处理步骤的数目为一个或多个;当所述预处理步骤为多个时,所述预处理步骤分别基于不同的条目向量将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
16.如权利要求10所述的自动分类方法,其特征在于,所述至少两个特征空间中的至少一个特征空间所对应的条目与所述至少两个特征空间中的至少另一个特征空间所对应的条目至少有一个不同。
17.如权利要求10所述的自动分类方法,其特征在于,所述至少两个特征空间中的至少一个特征空间所对应的条目与所述至少两个特征空间中的至少另一个特征空间所对应的条目相同,其中所对应的条目相同的所述特征空间所对应的权重矩阵互不相同。
18.如权利要求10所述的自动分类方法,其特征在于,所述特征向量中的至少一个的维度小于所述词频向量的维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410039197.XA CN104809131B (zh) | 2014-01-27 | 2014-01-27 | 电子文档的自动分类***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410039197.XA CN104809131B (zh) | 2014-01-27 | 2014-01-27 | 电子文档的自动分类***和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104809131A CN104809131A (zh) | 2015-07-29 |
CN104809131B true CN104809131B (zh) | 2021-06-25 |
Family
ID=53693958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410039197.XA Active CN104809131B (zh) | 2014-01-27 | 2014-01-27 | 电子文档的自动分类***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809131B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357895B (zh) * | 2017-01-05 | 2020-05-19 | 大连理工大学 | 一种基于词袋模型的文本表示的处理方法 |
CN107908620A (zh) * | 2017-11-15 | 2018-04-13 | 珠海金山网络游戏科技有限公司 | 一种基于工作文档预判用户职业的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101561805A (zh) * | 2008-04-18 | 2009-10-21 | 日电(中国)有限公司 | 文档分类器生成方法和*** |
CN101604322A (zh) * | 2009-06-24 | 2009-12-16 | 北京理工大学 | 一种决策级文本自动分类融合方法 |
CN101996326A (zh) * | 2009-08-26 | 2011-03-30 | 索尼株式会社 | 多类目标的检测装置及检测方法 |
-
2014
- 2014-01-27 CN CN201410039197.XA patent/CN104809131B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561805A (zh) * | 2008-04-18 | 2009-10-21 | 日电(中国)有限公司 | 文档分类器生成方法和*** |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101604322A (zh) * | 2009-06-24 | 2009-12-16 | 北京理工大学 | 一种决策级文本自动分类融合方法 |
CN101996326A (zh) * | 2009-08-26 | 2011-03-30 | 索尼株式会社 | 多类目标的检测装置及检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104809131A (zh) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944480B (zh) | 一种企业行业分类方法 | |
CN108363810B (zh) | 一种文本分类方法及装置 | |
AU2005264153B2 (en) | A method for determining near duplicate data objects | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
US11847418B2 (en) | Few-shot language model training and implementation | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
CN112199501A (zh) | 一种科技信息文本分类方法 | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及*** | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN108153899B (zh) | 一种智能化文本分类方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN112148868A (zh) | 一种基于法条共现的法条推荐方法 | |
CN113626604B (zh) | 基于最大间隔准则的网页文本分类*** | |
CN104809131B (zh) | 电子文档的自动分类***和方法 | |
CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
CN109376235A (zh) | 基于文档层词频重排序的特征选择方法 | |
CN110348497B (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
CN111460817A (zh) | 一种刑事法律文书相关法条的推荐方法和*** | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Chandra et al. | Optical character recognition-A review | |
CN111782811A (zh) | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 | |
CN111625578A (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
CN116452353A (zh) | 一种财务数据管理方法及*** | |
CN114238586A (zh) | 基于联邦学习框架的Bert结合卷积神经网络的情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |