CN1158460A

CN1158460A - 一种跨语种语料自动分类与检索方法

Info

Publication number: CN1158460A
Application number: CN 96116654
Authority: CN
Inventors: 韦雄观; 吴立德
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 1996-12-31
Filing date: 1996-12-31
Publication date: 1997-09-03

Abstract

本发明属计算机信息处理技术领域，是一种跨语种语料自动分类与检索方法。其特点是用文本的Gram(n，s)表示以及其中的n-Gram分布特性来表示文本的特征，并由此计算文本之间的相似度；然后，根据相似度大小对文本进行自动聚类、领域分类、检索。与通常的基于字词频统计方法相比，本发明可同时处理多种语言，不需要任何词典，不需要对文本进行分词或抽词干等麻烦的预处理过程。方法的容错性、检索与分类的速度和精度等更为优越，且极易于在微机上实现。因此可广泛用于大规模多语种语料的自动聚类、邮件分类、信息过滤、电子会议以及信息检索服务等领域。

Description

一种跨语种语料自动分类与检索方法

本发明属计算机信息处理领域，是一种跨语种语料自动分类与检索方法。

现代科学认为：信息是人类赖以生存的三大基础(物质、能量、信息)之一。当今社会，信息已被当作取得竞争优势的智力资本(Gartner Group分析报告：“查找数字信息的信息检索***”。国际电子报，1996年2月19日专题)。但在信息时代不可避免地出现了信息超载的现象，特别地，九十年代信息量以大约每1.6年翻一倍的速度急剧增加。面对如此庞大的信息，要快速有效地获取所需要的知识犹如大海捞针，难度也在不断加大。

同时，随着全球网络通讯技术和光盘等信息存储介质的发展，越来越多的新增信息以计算机可读文本的形式存在着，这不仅方便了用户，也大大加快了信息流通的速度。然而，许多文本信息往往是：规模很大，实时性强(如新闻语料)；语言混杂(包含英语、汉语等多种语言)，内容分布广；格式灵活，有时还含有一定的拼写错误……。而对于特定的用户而言，所需要的信息往往只是其中极小的一部分。随着更多的网络和文本信息可供访问，特别是从Internet的World Wide Web上寻找正确的文本(或者将它们分配到所需要的用户)将会更富挑战性。面对日益突出的信息超载问题，迫切需要对这种形式的混合语料进行更快速有效的处理。

目前国内外均已开展了有关的研究，很多成果，包括全文信息检索(刘开英。中文全文检索研究。见：第二届全国计算语言学联合学术会议论文集。厦门：1993年11月)、主题的自动标引(王永成，顾晓明。中文文献主题的自动标引。见：第二届全国计算语言学联合学术会议论文集。厦门：1993年11月)、文本的过滤(Belkin N J，Croft WB。Information Filtering and Information Retrieval：Two Sides of the Same Coin？Commun.ACM，Dec.1992，Vol.35，No.12)以及自动分类(吴军，王作英等。汉语语料的自动分类。中文信息学报，1995，Vol.9，No.4)等，有的已经走向实用化或商品化。例如：国外的GOPHER软件，是一个在Internet上广泛使用的全文查询和检索软件。它试图通过关键词的匹配从Internet上找到使用者所关心的各种文献，并且用户可以对检索出的文献是否感兴趣进行打分，该软件能根据用户打分的情况自动调整下次检索的关键词。经过几次交互过程，检索结果会愈来愈符合使用者口味。其它比较成熟的***还有YAHOO软件、GE的TRUMP***、SRI的TACITUS***等。

上述***，无论是处理中文还是英文，其采用的技术和方法以基于主题词(或关键词)搜索、字词频度比较为主，而且只能处理一种语言。

采用关键词匹配的***一般是以主题词表为基础的，文献的内容以主题词表中词的组合来表征和标引，用户的检索或者分类要求也是以主题词表中的词构成的某种表达式(如布尔表达式)表达的。这种方法往往需要手工建立主题词典，对标引者要求较高，比如有些词很难判断是否可用作关键词，而且主题词表由于其固有的特性不能及时反映变化了的情况。

而基于字词频度比较的***，一般是以文本中的字词或字词的组合来表征文献的内容。这种***需要有词典对输入文本进行各种预处理，并通过禁用词表(STOPLIST)滤掉一些对分类和检索作用不大的高频词(如“的”、“了”、“the”、“a”、“and”等)、标点符号等。对于汉语，预处理包括对输入文本进行分词，主要有切分歧义的问题，例如“热能发电”，只有在特定的语境下才可判断应切分为“热能｜发电”还是“热｜能｜发电”。对于英语，预处理中要对输入文本进行抽词干(Stemming)，例如把“retrieve”、“retrieves”、“retrieved”、“retrieving”、 “retrieval”都要变成词干“retriev”，以便提高性能。无论是哪种语言，处理未知词都是比较棘手的问题，因为语言是个开放集，新词总在不断地出现，很难建立包含所有单词的完备词典(建立禁用词表也有类似问题)。

本发明的目的在提出一种不依赖语种、能避免处理未知词难题的可同时处理多种语言、简单快速、容错能力强的语料自动分类、检索的方法。

为了便于信息处理和交换，计算机在处理文字时一般都采用一个或多个字节对所用的字符进行编码(如：汉字的双字节国标码或机内码表示，英文字符的单字节ASCII码表示)，不管哪一种情况，所有造字或构词的基本元素都可以看成是以字节(8位二进制)为单位所组成，它们的全体构成一个有限的集合(256个元素)：

A＝{e₁，e₂，e₃，…，e₂₅₆}。

我们称A为字母表；A中的每个元素e_i(i＝1，2，…，256)称为字母或字符。由字母或字符所组成的有穷序列称为A上的字符串，字符串所含的字母个数称为该串的长度，而长度为n个字母的字符串我们称为n-Gram。从文本字符流中连续截取n个字节，便可得到该文本的一个n-Gram。设想有一宽度为n(设n不超过文本的长度)的截取窗口置于文本上，从窗口中截取的连续n个字节构成一个n-Gram，则当窗口从文本的开头以单字节步长(每次移动一个字节)移到文本末尾时，我们便可得到该文本的所有n-Gram。截取窗口的移动步长可以是多个字节，以便跳过部分n-Gram。为了方便，对某一文本，当截取窗口的宽度为n，移动步长为s个字节时，我们把得到的所有的 n-Gram记作Gram(n，s)。它是由长度为n的字符串n-Gram组成的一个集合，也称为该文本的Gram(n，s)表示。它具有如下特性：

①从文本中截取的n-Gram，既可能是一个有意义的字、词、词干或词组，也可能不是自然语言中的任何字、词；但当s＝1时文本的Gram(n，s)包括了长度为n个字节的所有词(字、词干或词组)。

②在某一n-Gram中，特定字母既可以出现若干次，也可以不出现；但当n-Gram为有意义的字、词、词干或词组时，它的组成字母以及每个字母的排列次序都应该是有规则的。

③文本的Gram(n，s)显然与文本所包含的字、词以及相邻字、词之间的先后次序(当n＞1时)都有关系。由于文本中的字词及其先后次序(即文本中词序的部分信息)在某种程度上能反映出文本的内容，文本的Gram(n，s)显然也与文本的内容有一定的关系。

本发明用文本的Gram(n，s)表示以及其中的n-Gram分布特性来表示文本的特征，并由此计算文本之间的相似度；然后，根据相似度大小对文本进行自动聚类、领域分类、检索。具体方法如下：

对于件数为M的一批文本T₁，T₂，…，T_M，我们可以求出基于n-Gram的文本特征表示以及文本间的相似度，即①读入文本T_i，从文本开始按给定的长度n和步长s产生T_i的Gram(n，s)，并记录所有n-Gram的总个数N_i(包括重复的n-Gram，n和s的取法在后面说明)。②将①中得到的Gram(n，s)进行快速排序，并将结果放于缓冲区(或文件)中。③重复①②，直到M个文本都处理完毕。④采用多路归并方法(见后面说明)，统计出以上缓冲区(或文件)中M个文本所含的相异n-Gram，并统计各个n-Gram所出现的文本数F_k以及在T_i中的频数F_ik(即T_i的Gram(n，s)排序后第k个n-Gram重复出现的次数)，滤掉只在一个文本中出现(F_k＝1)的所有项，以便压缩n-Gram的总数目。设N为过滤后相异n-Gram的总个数。⑤对④中所有F_k＞1的项，按以下公式计算第k个n-Gram在T_i中的权重w_ik：

w_{ik} = \frac{F_{ik}}{N_{i} * \log_{2} (1 + F_{k})} - - - - (1)

从而得到Ti的特征向量表示(w_i1，w_i2，...，w_iN)。其中：N_i为第①步得到的Ti中所有n-Gram的总数(包括被滤掉的所有项)，i＝1，2，...，M⑥根据向量内积，计算T_i与T_j之间的相似度：

S_{ij} = Sim (T_{i}, T_{j}) = Σ_{k = 1}^{N} w_{ik} * w_{jk} - - - - (2)

容易看出S_ij＝S_ji，并且：0≤w_ik≤1，

0≤s_ij≤1。这里i，j＝1，2，...，M；k＝1，2，...，N。

下面对上述算法中的有关参数加以说明：(1)Gram(n，s)中n和s的选择：

上述方法的第①步一般取s＝1，以便包括文本中所有的n-Gram，其中无效的项可以在第④步中加以过滤。但对于字符为双字节编码的文本(如汉语、全角英文)，在不发生字节错位的情况下(字节错位类似于在汉语文本行中删去半个汉字后所引起的后续文本的显示紊乱)，可以取s＝2或s＞2的整数(一般限定1≤s≤n)，以减小n-Gram的总数目。

同样，可以根据各种语言中高频禁用词(STOP WORD)和关键词(KEY WORD)的词长分布情况来优选n的值，一般取4≤n≤10。对于双字节编码的汉语文本，不妨在步长s＝1或s＝2下取n＝4和n＝6同时统计n-Gram，以便把占有较大比重的二字词和三字词都包括在内，并且可以减轻某些高频一字词(如“的”、“了”等)和全角标点的干扰。而对于英文则取n＞4为好，否则象{the、a、to、of、and、with、-tion(后缀)}等这些高频项会把其他有用的n-Gram淹没掉。由于大多数语言的功能词一般是短词长的居多，而关键词的词长相对较长(如n＞4)；即使对文本没有任何先验知识的情况下，也不妨取n为6左右的值进行试验(如n＝4，5，6，7等，一般限定n≤10)。显然，方法中n和s的值都是很容易调整的。

不难看出，统计Gram(n，s)时直接采用的是文本字节流的信息，对输入文本所需了解的先验知识(如语言知识，内容)很少。这里既不需要任何词典(包括禁用词表STOPLIST)，也不需要对文本进行分词(对于汉语)或抽词干(对于英语)等预处理，避免了对切分歧义及未知词的处理等许多棘手的问题；因此可同时处理多种语言，具有跨语种的特点。

所有这些都是现有的其他方法所还没有的特点。(2)n-Gram的过滤：

理论上，不同n-Gram的总数为256ⁿ＝2⁸ⁿ(个)，当n＝4时便有2³²＝4294967296(个)，但在真实文本中许多n-Gram是不会出现的。对于长度为L字节的文本，算法的第①步至多可产生(L/s)个左右的n-Gram，即至多与文本的长度成线性关系。随着统计文本的不断加大，重复出现的项数也会不断增多，因而不同n-Gram的数目将逐渐趋于饱和，如图1所示。由方法的第⑥步不难发现，若某一n-Gram只在一个文本中出现(F_k＝1)，则用向量内积计算文本间的相似度时该项的贡献为0；因而在第④步进行多路归并时我们可以略去F_k＝1的所有n-Gram。图1是文本中所含的过滤前后不同n-Gram的数目(×10⁴个)与文本长度(×10⁴字节)之间的关系图。试验结果表明，过滤后不同n-Gram的数目是很小的。

显然，进行(示例)检索时也可以进行类似的过滤，即只保留在示例文本和待检文本中都出现的n-Gram。

由于S_ij＝S_ji，对于M篇文章，需要进行

次内积运算，与M²成比例。进行n-Gram的过滤，可以减少存储量，并提高相似度的计算速度。(3)n-Gram频率F_ik、F_k的统计：

第②、④步中快速排序和归并的目的是为了后面统计频率F_ik、F_k以及计算权重w_ik的方便。归并即把两个或两个以上的有序文件合并成一个有序文件的过程，当需要归并两个以上的文件时，采用多路归并可以减少归并(或文件读写)的趟数(克努特DE著，管纪文，苏运霖译，陆汝钤等校。计算机程序设计技巧(第三卷)：排序和查找。北京：国防工业出版社，1984)。因为快速排序和归并可以在准线性时间内完成，所以这种统计频率的方法是高效的。(4)n-Gram权重w_ik的计算：

目前被广泛使用的权重公式是：

W_ik＝F_ik/F_k (3)对这种加权策略的直观解释是：第k个n-Gram在T_i中出现的频率越高，其贡献越大；但若该n-Gram在整个文本集中出现的文本数较多时，它对某一文本的贡献将会被减弱。这种方法已被广泛用于信息检索等领域，并被证明是相当有效的(参见Salton G，AnotherLook at Automatic Text-Retrieval Systems。Commun.ACM，July 1986，Vol.29，No.7)。

算法的第⑤步在计算权重w_ik时，综合考虑了n-Gram在文本Ti中的局部分布(F_ik项)、T_i的长度(N_i项)、以及n-Gram在文本集中的全局分布(F_k项)情况。一些高频的n-Gram，特别是包含在高频禁用词中的那些项，往往分布较广(出现的文本数很大)，这里用log₂(1+Fk)项给予适当的衰减。取对数log₂(.)的目的是使衰减的幅度不至于太大，并使得F_k＝1时与公式(3)等价。(5)根据相似度对文本进行分类、检索：

文本分类就是将大量的文本归到一个或几个文本类别中去，这可广泛应用于许多环境。这些环境有：为信息检索服务：信息检索***必须操纵大量的数据，其文本信息库可能是相当庞大的(如电子图书馆的文献库)；同时用来表示文本内容的词汇数量又是成千上万的。文本分类***的目的就是对文本集进行有序的组织，把相似的、相关的文本组织在一起。它作为知识的组织工具，为信息检索提供了更高效的搜索策略和更准确的查询结果。邮件分类：对用户收到的电子邮件进行分类。例如：麻省理工学院正在为白宫开发的邮件分类***，能自动地确定每天发送给总统的大量的电子邮件所属的类别，如外交、税收、环保、家居等，以安排适当的人员对信件内容进行答复；电子会议：电子会议是一种新兴的会议方式，所有与会者通过网络电脑***举行会议，与会者是匿名的，便于形成平等的气氛，以调动与会者的积极性，因此能产生大量的意见和建议。接下来再由分类***对这些意见进行聚类和组织，最后确定需进一步讨论的主题；信息过滤：每个信息用户都有一个用户模板，以说明该用户的特殊需求；信息服务器提供给用户接触各种各样的信息源的途径，采用信息过滤技术来控制信息的分配，把信息分发给可能有兴趣的用户。

分类时文本的类别及数量可以是预先确定好的，同时对每个文本类都提供一批预先分好类的文本，称为训练文本。根据训练文本确定文本类的表示(即类模板)。在实际分类的时候，根据前面介绍的方法，计算所有需要分类的文本与所有类模板之间的相似度。最后按相似度最大的原则对所有的文本进行分类--将文本归人最相似的一个或多个文本类中，即所谓有指导的分类方法。上面所说的邮件分类、信息过滤等，就都属于有指导的分类。

文本的类别及数量也可以是不确定的，要经过文本的组织、聚类后才能得出。这后一种情况又称为文本聚类。有不少情况，例如电子会议，***对将要处理的文本所属的领域缺乏任何先验知识，只能通过聚类方式形成文本类。聚类方法通常分为两类，一种称为凝聚法，或自底而上的方法，开始时每篇文本都认为是一个文本类，然后根据文本类之间的相似情况，不断地把文本类合并起来；另一种称为分解法，或自顶而下的方法，开始时对全体文本给定一个较粗的分类，然后再不断地加以细化。

凝聚法的首要步骤是计算所有文本之间的相似度，建立起相似度矩阵。假定所要求的文本类数为Mc，文本的总数为M，则有如下的聚类算法(F.Murtagh，A Survey ofRecent Advances in Hierarchical Clustering Algorithms，Computer Journal，Vol.26，No.4，1983)：1.设文本的类数为n，开始时n＝M，有M个文本类：C_i＝{D₁}，i＝1，2，….M；2.若n≤Mc，则退出算法；3.寻找相似度最大的两个类，比如说是G_i和G_j；4.将C_i和G_j合并起来，删去C_j，n＝n-1，5.重新计算合并后各文本类之间的相似度，这可以有很多方法，如最近邻法用两类中最相似的两篇文本之间的相似度作为文本类的相似度，即：

Sim (C_{i}, C_{j}) = \underset{x &Element; c_{i}, y &Element; c_{j}}{MAX} Sim (x, y);

转第2步。

当预先给定的类数要求满足后，凝聚算法就自动停止。也可用给定的相似度门限V来控制凝聚过程，当任意两个文本类的相似度均小于V时，算法终止。

除了文本分类之外，信息检索，特别是基于内容的检索技术，即如何有效地仅根据信息本身的内容找到所需要的信息，也是目前研究的热点。著名期刊BYTE 1995年9月曾预测文本的搜索与检索将成为继文字处理和表格处理之后的未来的最重要的五类软件之一。这中间核心的问题是如何在网络环境下自动地按信息本身的内容来实现信息的检索，而不是如传统的信息检索，需要手工对信息按事先设计好的格式严格进行统一的加工后(包括分类、标记关键词或索引词等)，才能进行有效的检索。因为网络上的大量信息往往是：先验知识不充分、规模大，实时性强(如新闻)；语言混杂(包含英语、汉语等多种语言)，语言的编码方式多样，内容分布广；格式灵活，有时还含有一定的拼写错误和网络传输错误等。对于特定的用户而言，所需要的信息往往只是其中极小的一部分。同时，仅用几个索引词，一些用户往往不能明确表达所要分类或检索的要求，而以示例文本的形式给出则更方便。这时，根据前面介绍的方法，计算所有文本与示例文本之间的相似度，最后按相似度大小对文本进行检索即可。

总之，对包含多语种的混合语料库进行分类和检索，这是模式识别的问题，包括模式特征的选择与抽取(即文本内容的表示)以及模式按特征进行分类(分类算法)两个基本环节。这里提出的直接采用文本字节流中包含的n-Gram作为模式特征进行多语种文本的分类与检索，它具有不依赖语种、简单快速和容错能力强等一系列优点。分类、检索实例

下面的实验以英、汉两种语言语料的Gram(6，1)统计为例，其中汉语文本为全角字符(基于GB-2312-80国标码的两字节内码表示)，而英语为ASCII码文本。所用的方法显然也可用于处理含有更多其他语种(或编码方案)的语料。1。文本的自动聚类(无指导分类)

我们首先从已按内容分好类的各种汉语或英语语料中选出30篇文本(编号为1～30)，每篇长度在1500-6000字节之间，其中汉语文本包括地理(1～5)、法律(6～10)、数理化(11～15)、计算机(16～20)四大类；英语文本分为军事(21～25)、教育(26～30)两大类；每一类均包含五篇文章。然后计算所有文本两两之间的相似度。最后根据相似度和最近邻法对文本进行聚类实验。图2的a～c给出上面30个文本的自动聚类结果，其中中文：1～20，英文：21～30。

图2-a是基于Gram(6，1)(即s取1，n取6)求出的文本之间相似度的直方图，图2-b和图2-c是基于图的连通性(即最近邻法)在不同的相似度门限下进行自动聚类的结果。这里用顶点表示文本，边表示文本之间的相似度；为了直观，各边的长短近似反比于其相似度，并略去相似度小于指定门限的所有边；各门限值取自直方图中适当的谷点V₁，V₂(由直方图选取门限的方法参见Otsu，N.A Threshold SelectionMethod from Gray-Level Histograms。IEEE Trans.on Systems，Man and Cybernetics，Vol.9，No.1，Jan.1979)。

图2-a中可以看出：类内文本间的相似度一般大于类间的相似度，总的分布直方图中存在较明显的峰和谷。三个最明显的峰值区分别对应于：不同语种(英语与汉语)的文本之间的相似度，相同语种的类间文本之间的相似度，相同语种的类内文本间的相似度。

由于字符编码的差异较大，不同语种的文本之间的相似度几乎为0。若采用更复杂的层次聚类的算法，即先选择较低的门限V₁将文本按语种或编码分开，如图2-b；然后再在同一语种中按更高的门限V₂进行领域聚类，如图2-c，将会得到更好的聚类效果。2。示例分类(有指导分类)

我们从已按中图法分好类的各种汉语语料中选出229篇文本，并从LOB语料库中选出27篇英语文本，总的混合语料库共有256篇文本，每篇长度在400-5000字节之间，它们所覆盖的类别Ci(汉语)或Ei(英语)以及各个类别所包含的文本数Ni如表1中的第一行。然后，从各类别中选取一篇文本作为相应类的代表样本Ri，并计算所有文本(包括Ri)与所有代表样本之间的相似度。最后按相似度最大的原则对所有的文本进行分类--将某一文本分入最相似的Ri所在的类别中。

表1的第二、三行分别给出了基于词频统计和基于Gram(6，1)统计的分类结果。如对于C1类的第二行：“15(13)、87％(76％)”表示“有15篇文本被分入该类其中13篇属于正确分类，精度(正确率)为87％，查全率(见后文定义)为76％”。表中最后一列为256篇文本中正确分类的总篇数、总精度和总查全率。

词频统计中分词所用的词典约含有七万词汇，过滤用的禁用词表STOPLIST＝{a，and，for，in，of，that，the，to，不，的，地，和，了，是，一，在}，同时被滤掉还有一些常用的全、半角标点符号。基于Gram(6，1)统计并不需要词典和STOPLIST。

从分类的精度(正确率)来看，基于Gram(6，1)和词频统计的总精度分别为91％和86％，总的查全率也分别为91％和86％，总的结果是基于Gram(6，1)统计较之词频统计的要好。

表1：基于Gram(6，1)和基于词频统计的示例分类结果(Ci：中文，Ei：英文)

类别Ci/Ei(样本数)	地理C1(17)	法律C2(50)	计算机C3(71)	数学C4(13)	化学C5(8)	生物C6(15)	医学C7(55)	宗教E1(4)	教育E2(6)	政治E3(4)	军事E4(9)	经贸E5(4)	总和(256)
类别Ci/Ei(样本数)	地理C1(17)	法律C2(50)	计算机C3(71)	数学C4(13)	化学C5(8)	生物C6(15)	医学C7(55)	宗教E1(4)	教育E2(6)	政治E3(4)	军事E4(9)	经贸E5(4)	总和(256)	词频统计(正确数)精度(查全率)	15(13)87％(76％)	60(50)83％(100％)	69(68)99％(96％)	15(11)73％(85％)	6(5)83％(63％)	7(5)71％(33％)	56(43)77％(78％)	5(3)60％(75％)	5(5)100％(83％)	4(4)100％(100％)	9(8)89％(89％)	5(4)80％(100％)	256(219)86％(86％)
Gram(6，1)(正确数)精度(查全率)	19(15)79％(88％)	48(47)98％(94％)	70(68)97％(96％)	14(12)86％(92％)	8(7)88％(88％)	8(8)100％(53％)	62(53)85％(96％)	2(2)100％(50％)	5(5)100％(83％)	5(4)80％(100％)	11(9)82％(100％)	4(4)100％(100％)	256(234)91％(91％)	词频统计(正确数)精度(查全率)	15(13)87％(76％)	60(50)83％(100％)	69(68)99％(96％)	15(11)73％(85％)	6(5)83％(63％)	7(5)71％(33％)	56(43)77％(78％)	5(3)60％(75％)	5(5)100％(83％)	4(4)100％(100％)	9(8)89％(89％)	5(4)80％(100％)	256(219)86％(86％)

3。不例检索(Example-Based Retrieval)

类似于示例分类，示例检索的目的是检出与示例(代表样本Ri)相关的所有文本。一般是先计算出语料库中各文本与Ri的相似度，然后取出相似度超过一定门限的所有文本作为检索的结果。示例检索还允许示例样本Ri包含有多个文本，但这里假定示例样本Ri为单个文本的情况。测试语料为示例分类时所用的256篇文本。

为了避免选例的偶然性，我们首先在同一类别内选择五个Ri进行实验，分别计算每一次的精度(Precision)和查全率(Recall)，以及该类五次实验的平均精度和平均查全率；然后再用平均值进行不同类别之间的比较。其中：

精度(Precision)＝(检出的相关文本数/检出的总文本数)×100％

查全率(Recall)＝(检出的相关文本数/语料库中相关文本的总数)×100％

表2是对计算机类分别基于词频和基于Gram(6，1)进行实验的结果，每列给出的是同一查全率下各次实验的精度，其中最后一行为同一领域中五次实验的平均精度。图3是3个不同领域中基于Gram(6，1)和基于词频统计的示例检索的平均精度，这里英文语料仅测试一组。(词频统计时所用的词典和STOPLIST同上。)

表2中显然有：无论采用词频还是Gram(6，1)，检索结果都与选例有一定的关系，但它们的变化趋势是一致的。即采用词频检索的效果较好时，则采用Gram(6，1)也同样能得到很好的结果。图3表示基于Gram(6，1)示例检索的平均效果显然要好一些。

表2：同一领域内示例检索的精度％(计算机类)

Recall	10％		20％		30％		40％		50％		60％		70％		80％		90％		100％
Recall	10％		20％		30％		40％		50％		60％		70％		80％		90％		100％		方法	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G
样本R1	100	100	100	100	100	100	97	100	95	100	91	100	83	98	80	98	69	94	35	51	方法	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G	词	n-G
样本R1	100	100	100	100	100	100	97	100	95	100	91	100	83	98	80	98	69	94	35	51	样本R2	88	100	93	100	90	66	93	56	90	54	88	58	85	62	80	62	60	61	36	55
样本R3	100	100	100	100	88	96	90	80	92	66	91	60	88	61	86	65	85	65	39	48	样本R2	88	100	93	100	90	66	93	56	90	54	88	58	85	62	80	62	60	61	36	55
样本R3	100	100	100	100	88	96	90	80	92	66	91	60	88	61	86	65	85	65	39	48	样本R4	88	100	74	94	70	88	74	83	68	78	66	87	60	76	58	75	55	64	34	43
样本R5	83	78	72	78	45	70	35	63	39	63	41	60	41	61	42	57	41	55	37	47	样本R4	88	100	74	94	70	88	74	83	68	78	66	87	60	76	58	75	55	64	34	43
样本R5	83	78	72	78	45	70	35	63	39	63	41	60	41	61	42	57	41	55	37	47	平均值	92	96	88	94	79	84	78	76	77	72	75	73	71	72	69	71	62	68	36	49

下面讨论本发明方法的容错性

我们首先对前面自动聚类时所用的30篇文本进行一定比例的随机污染，即用等概率对文本任一位置处的字节进行随意删除、***或改动(用0-255之间的随机数)，直到原文被变动过的字节数达到一定的比例。下面是污染前后的文本片断，其中被随机污染约10％左右。

【原文】Only 34 per cent of boys leaving school enter apprenticeships or learnerships in skilledoperations.And yet there is need for technical training for those…

【污染】 Onl 34

cent of boys ley，，”ing schoo_ent5r apprYntices＝ips or learner shipN in sk衍la d operatio#ns.And ymt there is

for technical trainiUgfoe those I0【原文】041民事知识产权0103中华人民共和国专利法(1984年3月12日第6届全国人民***常务委员会第4次会议通过)第一条为了保护发明创造专利权，鼓励发明创造有利于发明创造的推广应用，促进科学技术的发展，【污染】041民事□识产权xβt保埃V谢a，，～人民共和国专利法Tǎ保梗福茨辏吃拢保日第#届全国人民‰#表大会牛务瘟员会第4次会议通供第一 □为了保护发明创造

□权，鼓励发明创造有利于发丛i}耐乒阌τ茫□促进科学技术的舴

然后对污染之后的文本进行示例分类(示例文本从各类的原文中任选一篇，但不进行污染)。基于词频统计时错分的文本数为六篇，其中包括两篇英文和四篇汉语；而基于Gram(6，1)统计时只有一篇英文发生分类错误。因此，基于Gram(6，1)统计的方法对拼写错误具有很强的容错性。

本发明提出的基于n-Gram统计特性的文本分类和检索方法，与现有的其他方法比较，其主要特点是：对输入文本所需了解的先验知识很少，可同时处理多种语言；不需要任何词典(包括禁用词表STOPLIST)；不需要对文本进行分词(对于汉语)或抽词干(对于英语)等预处理，避免了对切分歧义及未知词的处理等许多棘手的问题。因此可广泛用于大规模多语种语料的自动聚类、领域分类、过滤、分配以及检索等领域。经对含有英、汉两种语言的语料(共有256篇文本)进行试验，结果表明该方法在鲁棒性(即容错性)、速度、检索与分类精度等方面都优于直接采用词频统计的方法。由于本发明具有不依赖语种、简单快速和容错能力强等一系列优点，极易于在微机上实现，并可集成到各种应用***中。附图说明：

附图1为不同n-Gram的数目(×10⁴个)与文本长度(×10⁴字节)的关系图，

此时n＝6，s＝1。

附图2-a为聚类实例中30个文本两两之间的相似度分布直方图，其归一化相似度

SIM＝(Sij/Max(Sij))×100％。

附图2-b为当门限为V₁时的聚类结果。

附图2-c为当门限为V₂时的聚类结果。

附图3为基于Gram(6，1)和基于词频统计的示例检索结果，其中给出了3个不同领

域示例检索的平均精度％。

Claims

1。一种跨语种语料自动分类与检索方法，设A＝{e₁，e₂，e₃，…，e₂₅₆}为造字或造词基本元素的集合，记A上长度为n个字母的字符串为n-Gram。对于某一文本，当截取窗口宽度为n，移动步长为s个字节时，得到的所有的n-Gram记作Gram(n，s)，称为该文本的Gram(n，s)表示，其特征在于用文本的Gram(n，s)表示以及文本中的n-Gram分布特性来表示文本的特征，并由此计算文本之间的相似度；然后，根据相似度大小对文本进行自动聚类、领域分类、检索。具体步骤如下：

对于件数为M的一批文本T₁，T₂，…，T_M，我们可以求出基于n-Gram的文本特征表示以及文本间的相似度，即①读入文本T_i，从文本开始按给定的长度n和步长s产生T_i的Gram(n，s)，并记录所有n-Gram的总个数N_i；②将①中得到的Gram(n，s)进行快速排序，并将结果放于缓冲区中。③重复①②，直到M个文本都处理完毕。④采用多路归并方法，统计出以上缓冲区中M个文本所含的相异n-Gram，并统计各个n-Gram所出现的文本数F_k以及在T_i中的频数F_ik，滤掉只在一个文本中出现(F_k＝1)的所有项，以便压缩n-Gram的总数目。N为过滤后相异n-Gram的总个数。⑤对④中所有F_k＞1的项，按以下公式计算第k个n-Gram在T_i中的权重w_ik：

w_{ik} = \frac{F_{ik}}{N_{i} * \log_{2} (1 + F_{k})} - - - - (1)

从而得到T_i的特征向量表示(w_i1，w_i2，...，w_iN)。其中：N_i为第①步得到的T_i中所有n-Gram的总数，i＝1，2，...，M⑥根据向量内积，计算T_i与T_i之间的相似度：

S_{ij} = Sim (T_{i}, T_{j}) = Σ_{k = 1}^{N} w_{ik} * w_{jk} - - - - (2)

其中S_ij＝S_ji，并且：0≤w_ik≤1，

0 \leq Σ_{k = 1}^{N} W_{ik} \leq 1,0 \leq S_{ij} \leq 1

。这里i，j＝1，2，...，M；k＝1，2，...，N。

上述步骤①中n的取值为1≤n≤10，s的取值为1≤s≤n。

2。根据权利要求1所述的跨语种语料自动分类与检索方法，其特征在于步骤①中取s＝1或2，n＝2，3，4，5，6。