CN101055593A

CN101055593A - 藏文网页及其编码的识别方法

Info

Publication number: CN101055593A
Application number: CN 200710111099
Authority: CN
Inventors: 吴健; 芮建武; 刘汇丹
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2007-06-15
Filing date: 2007-06-15
Publication date: 2007-10-17

Abstract

本发明涉及一种藏文网页及其编码的识别方法，首先给定一藏文编码中的特征字符串编码，所述特征字符串为音节点和/或选定的高频音节；以该特征字符串编码作为关键词对网页字符流进行扫描搜索；由计数器计算符合特征字符串编码的字符出现的次数；根据计数器结果，判定该网页是否为藏文网页，及采用的藏文编码。本发明充分利用藏文语言文字音节结构特点和藏文用字的统计学特点，结合针对不同的编码分别应用上述识别准则，能够有效地正确区分藏文网页和非藏文网页，并识别网页所使用藏文编码。

Description

藏文网页及其编码的识别方法

所述技术领域

本发明属于文字编码识别技术领域，尤其涉及一种藏文网页及其编码的识别方法。

背景技术

随着互联网的发展，网上的信息越来越多，这给人们的生活带来了极大的方便。而在海量的网络数据中找到我们需要的数据是一个很现实的问题，搜索引擎的出现解决了这个问题。最近两年，搜索引擎的发展如火如荼，涌现了不少的各有特色的中文搜索引擎，如百度、搜狗、酷讯等待。相比之下，作为一个少数民族语言，和藏文相关的搜索产品还未出现。

搜索引擎的功能模块一般可以分为前台和后台。前台提供和最终用户交互的界面。后台要不停地从网络上抓取信息，并经过一系列的处理，将数据存入到数据库中，以备搜索时使用。在后台数据处理的过程中，就包含网页编码的归一化处理，就是将各种不同编码的网页转换为同一种编码存放。要做编码转换，首先就要进行编码识别。

和中文相比，藏文信息处理的发展相对滞后，网络上藏文的网页比较少，而藏文编码如今还是“万马奔腾”的局面，总量并不多的藏文网页却包含了数十种不同的藏文编码。在藏文搜索引擎的后台处理过程中，就要从互联网上大量的英文、中文等各种语言的网页中识别出藏文的网页，识别出其所使用的藏文编码，然后进行编码转换。

在过去的几十年中，众多计算机和藏语文工作者做了大量的工作，成功研制了一些藏文字处理软件，这些藏文软件都是采用自定义编码，形成了藏文“万码奔腾”的局面。根据编码结构的差异，我们将这些编码分为三类：基于ASCII的藏文编码、基于GB2312的藏文编码和基于Unicode的藏文编码。

基于ASCII的藏文编码采用单个字节对藏文字符进行编码，可用编码空间为0x00-0xFF，除去有特殊含义的码点(控制字符等)，实际可用的码点有222个；一些编码只用0x7F以下的码点进行编码，这样实际可用的码点只有94个。由于可用码点较少，一般使用多个字库实现，以一个码点代表多个藏文字符。

这类编码如表1所示：

表1基于ASCII的藏文编码

编码名称	码点范围	音节点编码
编码名称	码点范围	音节点编码	LTibetanTCRCOld SambhotaNew SambhotaTMTMWTibwordTibKeytsamkeySUZTIBUCHAN	0x21-0xFE0x21-0xFE0x21-0xFE0x21-0x7E0x21-0xFE0x21-0x7E0x21-0xFE0x21-0xFE0x21-0x7E0x21-0xFE0x21-0x7E	0x2D0x2D0x2D0x2D0xCD0x2D0x2D0x2D0x2E0x2D0x2D

基于GB2312的藏文编码采用双字节对藏文字丁进行编码，首字节的最高位为1或者两个字节的最高位都为1，从而可以和英文并存。国内软件多采用这类编码，有的占用GB2312的10一15区或88-94区的空余码点，有的干脆占用汉字GB2312的15区至81区的某段码点，有的甚至占用了GBK汉字扩展区的码点，这类编码采用双字节进行编码，编码空间较大，一般用一个字库即可实现，如表2所示：

表2基于GB2312的藏文编码

编码名称	首字节范围	尾字节范围	音节点编码
编码名称	首字节范围	尾字节范围	音节点编码	方正DOS方正Windows华光DOS华光Windows同元编码西藏大学编码	0xC0-0xEE0xAA-0xAC，0xB0-0xDE0xB0-0xFB0xB0-0xFB0x81-0xEE，0xF50xAA-0xAF，0xF8-0xFB	0x21-0x7E0xA0-0xFE0x21-0x7E0xA1-0xFE0x21-0x3D，0x40-0xFE0xA1-0xFE	0xC0320xAAAC0xE1620xE1E20xA6E60xFABB

基于Unicode的藏文编码，除了国际标准的Unicode基本集外，有些藏文软件采用对藏文字丁直接编码的方式，使用Unicode私用区进行编码。表3中所列各个字符集在具体表示时又有UTF-16LE、UTF-16BE、UTF-8等编码方式的差异，所以共有9种编码。

表3基于Unicode标准的藏文字符集

字符集	码点范围	音节点码点
字符集	码点范围	音节点码点	Unicode标准扩充集A直贡藏文	U+0F00-U+0FCFU+F300-U+F8FFU+E000-U+E3A6	U+0F0BU+0F0BU+E0DF

藏文信息处理***，凡是首先要识别网页是否藏文，其次如果是藏文还要识别其所使用的是哪一种藏文编码，然后才能做后续处理。

目前未见有藏文网页编码识别相关工作的报道，而对中文的编码识别一般根据HTML文件的“encoding”和“charset”关键词来识别，“charset”表示网页所使用的字符集，这是最初用来标识网页所使用的字符集的关键词，随着技术的发展进步，charset的表达能力已经不能满足需求，所以后来出现了“encoding”关键词表示网页所采用的编码，这两个关键词的取值有相应的国际组织在统一管理。例如一个中文的网页的头部(<head>与</head>之间的部分)中很可能包含html代码：

这是因为很大一部分中文网页都采用国标编码，这里的“gb2312”表示这个网页采用的是中华人民共和国国家标准GB2312-80规定的字符集。由于藏文的编码大多是自定义的编码，charset和encoding的关键词没有对应于藏文的取值，对应前述各种编码，也都是借用了其它文字的取值，例如在藏文的网页中，可能有“charset＝gb2312”、“charset＝ascii”等类似的信息，这时候无法根据这些信息判断网页是否藏文编码。

发明内容

本发明的目的在于提供一种方法，能够正确区分藏文网页和非藏文网页，并识别藏文网页所使用的是哪一种藏文编码。

本发明的藏文网页及其编码的识别方法，其步骤包括：

1.给定一藏文编码中的特征字符串编码，所述特征字符串为音节点和/或选定的高频音节；

2.以该特征字符串编码作为关键词对网页字符流进行扫描搜索；

3.由计数器计算符合特征字符串编码的字符出现的次数；

4.根据计数器结果，判定该网页是否为藏文网页，及采用的藏文编码。

所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码，或音节点编码与选定的高频音节编码的串集，扫描搜索过程中计数器计算网页字符流中出现特征字符串编码的次数，当该次数达到设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码，扫描搜索过程中计数器计算网页字符流中出现的音节点编码或高频音节编码次数，根据计数器值得到特征字符串在该网页字符流中所占的比例，当该比例达到设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

所述特征字符串编码为一藏文编码中的音节点编码，当扫描搜索过程中相邻两音节点编码对应的网页的字符之间的字符数在1到7时之间时，计数器加一；当计数器值达倒设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

所述特征字符串编码为一藏文编码中的音节点编码，当扫描中出现3个以上顺序相邻的音节点编码对应的网页的字符，每相邻两音节点编码对应的网页的字符之间的字符数在1到7之间时，计数器加一；当计数器值达到设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

藏文的音节(也称藏字，藏文里字符构成音节，音节构成词)可以由一个或多个基本字符组成，最多可以有七个(参见附图)。这七个基本字符里有一个基字和一个元音符号，其它的字符分别加在基字的上、下、前、后、再后。最简单的藏文音节只包含一个基字，而不包含其他组成部分。藏文自左向右横写，各个音节之间用一个小点分开，这个点就是音节点。音节点类似于英文中的空格，它的存在使得藏文网页字符流呈现出明显的规律性：隔几个字符就出现一个音节点。

据相关资料，迄今为止有三位专家曾对藏文的文字学特征进行过统计研究(见表4)。对于藏文高频音节(所谓高频音节是基于以音节为单位进行统计的结果，各个音节按出现频率降序排列，位置靠前的表示在藏文中高频率出现的音节，定义为高频音节)中前十个音节出现的累计频率，三位专家的统计结果分别为：31.83％、22.99％和18.97％，这说明藏文高频音节出现的频率还是相当高的。

本发明可以从这些高频率出现的高频音节中选择一特定的音节，以该特征字符作为搜索关键词对网页字符流进行搜索。至于具体选择哪个在藏文中高频率出现的音节，可以根据实际需要进行设定。

表4为统计数据中出现的一些高频音节，对于本发明来说，就可以选定下表中列举的一个音节作为高频音节。

表4藏文高频音节统计数据表

另外，对于藏文的句子结构，统计结果显示每个藏文句字平均含有7个音节。因此，本发明也将两相邻音节点之间的音节数作为搜索的条件用于藏文网页的识别。

根据藏文的特点，以藏文的音节点和高频音节为特征字符(串)，可以采取以下几种具体的准则来判断网页是否是藏文网页。

准则1：如果网页内容中出现了上述的特征字符串编码，就可以认定该网页为藏文网页，同时认定该网页的藏文采用的是与特征字符串相同的编码。

准则2：计算整个网页内容中特征字符串的比例，如果达到阈值就可以认定该网页为藏文网页，同时认定该网页的藏文采用的是与特征字符串相同的编码。

准则3：计算特征字符串出现的次数，如果达到阈值，就可以认定该网页为藏文网页，同时认定该网页的藏文采用的是与特征字符串相同的编码。

准则4：以相邻音节点的间距有1到7个字符为特征，如果这个特征出现的次数达到阈值，就可以认定该网页为藏文网页，同时认定该网页的藏文采用的是与特征字符串相同的编码。

准则5：以多个(3个以上)音节点的连续出现(相邻两个之间有1至7个字符)为特征，如果这个特征出现的次数达到阈值，就可以认定该网页为藏文网页，同时认定该网页的藏文采用的是与特征字符串相同的编码。

本方法充分利用藏文语言文字音节结构特特点和藏文用字的统计学特点，结合针对不同的编码分别应用上述识别准则，能够有效地正确区分藏文网页和非藏文网页，并识别网页所使用藏文编码。

附图说明

藏文音节结构示意图

藏文的音节可以有一个或多个基本字符组成，最多可以有七个。这七个基本字符里有一个基字和一个元音符号，其它的字符分别加在基字的上、下、前、后、再后。在一个音节里面，除了基字之外，其它部分都可能不出现。最简单的藏文音节只包含一个基字，而不包含其他组成部分。

具体实施方式

实施例1采用准则4识别网页藏文编码是否为方正DOS编码。

对于方正DOS编码，音节点的编码是“C0 32”(这里是16进制表示，下同)，对网页字符流进行扫描，如果发现相邻两个“C0 32”之间包含的字符数在1到7之间，计数器加一，若对当前网页扫描结束之前，计数器达到了预设阈值(例如10)，就认为当前网页是藏文网页，它采用了方正DOS编码。

实施例2采用准则4识别是否方正Windows编码。

过程同例1，只是这时候将音节点的编码由“C0 32”换为“AAAC”。

实施例3采用准则3识别是否TCRC编码。

对于TCRC编码，音节点的的编码是“2D”(16进制，下同)，一个高频音节的TCRC编码序列是“7A F4 68”，那么以“2D 7A F4 68 2D”为特征字符串，计算它在当前网页中出现的次数，如果次数大于阈值(例如10)，就认为是藏文网页，它使用TCRC编码。

实施例4采用准则3识别是否Tibetan Machine编码。

对于Tibetan Machine编码，音节点的编码是“CD”，和例3中同样的一个高频音节，其Tibetan Machine编码序列是“FD 37 DC”，那么以“CD FD 37 DC CD”为特征字符串，计算它在当前网页中出现的次数，如果次数大于阈值(例如10)，就认为是藏文网页，它使用Tibetan Machine编码。

上述准则也可以联合使用，可以更加准确地识别藏文网页及其编码：

实施例4适用多种准则识别藏文网页及其编码

1.第一步：采用准则4依次检测是否是下述编码之一，若是转第四步，否则执行下一步：方正DOS、方正Windows、华光DOS、华光Windows、同元编码、扩充集A三种编码、西藏大学编码、直贡藏文编码三种编码；

2.第二步：采用准则3依次检测是否是下述编码之一，若是转第四步，否则执行下一步：LTibetan、TCRC、Old Sambhota、New Sambhota、Tibetan Machine(TM)、Tibetan MachineWeb(TMW)、TibKey、TibWord、tsamkey、SUZTIB、UCHAN；

3.第三步：认为是非藏文网页；

4.第四步：认为是藏文网页，输出编码方案名称。

Claims

1.一种藏文网页及其编码的识别方法，其步骤包括：

1)给定一藏文编码中的特征字符串编码，所述特征字符串为音节点和/或选定的高频音节；

2)以该特征字符串编码作为关键词对网页字符流进行扫描搜索；

3)由计数器计算符合特征字符串编码的字符出现的次数；

4)根据计数器结果，判定该网页是否为藏文网页，及采用的藏文编码。

2.如权利要求1所述的藏文网页及其编码的识别方法，其特征在于所述高频音节选自选自

或

或

或

或

或

3.如权利要求1或2所述的藏文网页及其编码的识别方法，其特征在于所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码，或音节点编码与选定的高频音节编码的串集，扫描搜索过程中计数器计算网页字符流中出现特征字符串编码的次数，当该次数达到设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

4.如权利要求1或2所述的藏文网页及其编码的识别方法，其特征在于所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码，扫描搜索过程中计数器计算网页字符流中出现的音节点编码或高频音节编码次数，根据计数器值得到特征字符串在该网页字符流中所占的比例，当该比例达到设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

5.如权利要求1或2所述的藏文网页及其编码的识别方法，其特征在于所述特征字符串编码为一藏文编码中的音节点编码，当扫描搜索过程中相邻两音节点编码对应的网页的字符之间的字符数在1到7时之间时，计数器加一；当计数器值达倒设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。

6.如权利要求1或2所述的藏文网页及其编码的识别方法，其特征在于所述特征字符串编码为一藏文编码中的音节点编码，当扫描中出现3个以上顺序相邻的音节点编码对应的网页的字符，每相邻两音节点编码对应的网页的字符之间的字符数在1到7之间时，计数器加一；当计数器值达到设定的阈值时，判定该网页为藏文网页，所用藏文编码为给定的藏文编码。