CN101055593A - 藏文网页及其编码的识别方法 - Google Patents

藏文网页及其编码的识别方法 Download PDF

Info

Publication number
CN101055593A
CN101055593A CN 200710111099 CN200710111099A CN101055593A CN 101055593 A CN101055593 A CN 101055593A CN 200710111099 CN200710111099 CN 200710111099 CN 200710111099 A CN200710111099 A CN 200710111099A CN 101055593 A CN101055593 A CN 101055593A
Authority
CN
China
Prior art keywords
***
coding
webpage
syllable
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710111099
Other languages
English (en)
Inventor
吴健
芮建武
刘汇丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN 200710111099 priority Critical patent/CN101055593A/zh
Publication of CN101055593A publication Critical patent/CN101055593A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种藏文网页及其编码的识别方法,首先给定一藏文编码中的特征字符串编码,所述特征字符串为音节点和/或选定的高频音节;以该特征字符串编码作为关键词对网页字符流进行扫描搜索;由计数器计算符合特征字符串编码的字符出现的次数;根据计数器结果,判定该网页是否为藏文网页,及采用的藏文编码。本发明充分利用藏文语言文字音节结构特点和藏文用字的统计学特点,结合针对不同的编码分别应用上述识别准则,能够有效地正确区分藏文网页和非藏文网页,并识别网页所使用藏文编码。

Description

藏文网页及其编码的识别方法
所述技术领域
本发明属于文字编码识别技术领域,尤其涉及一种藏文网页及其编码的识别方法。
背景技术
随着互联网的发展,网上的信息越来越多,这给人们的生活带来了极大的方便。而在海量的网络数据中找到我们需要的数据是一个很现实的问题,搜索引擎的出现解决了这个问题。最近两年,搜索引擎的发展如火如荼,涌现了不少的各有特色的中文搜索引擎,如百度、搜狗、酷讯等待。相比之下,作为一个少数民族语言,和藏文相关的搜索产品还未出现。
搜索引擎的功能模块一般可以分为前台和后台。前台提供和最终用户交互的界面。后台要不停地从网络上抓取信息,并经过一系列的处理,将数据存入到数据库中,以备搜索时使用。在后台数据处理的过程中,就包含网页编码的归一化处理,就是将各种不同编码的网页转换为同一种编码存放。要做编码转换,首先就要进行编码识别。
和中文相比,藏文信息处理的发展相对滞后,网络上藏文的网页比较少,而藏文编码如今还是“万马奔腾”的局面,总量并不多的藏文网页却包含了数十种不同的藏文编码。在藏文搜索引擎的后台处理过程中,就要从互联网上大量的英文、中文等各种语言的网页中识别出藏文的网页,识别出其所使用的藏文编码,然后进行编码转换。
在过去的几十年中,众多计算机和藏语文工作者做了大量的工作,成功研制了一些藏文字处理软件,这些藏文软件都是采用自定义编码,形成了藏文“万码奔腾”的局面。根据编码结构的差异,我们将这些编码分为三类:基于ASCII的藏文编码、基于GB2312的藏文编码和基于Unicode的藏文编码。
基于ASCII的藏文编码采用单个字节对藏文字符进行编码,可用编码空间为0x00-0xFF,除去有特殊含义的码点(控制字符等),实际可用的码点有222个;一些编码只用0x7F以下的码点进行编码,这样实际可用的码点只有94个。由于可用码点较少,一般使用多个字库实现,以一个码点代表多个藏文字符。
这类编码如表1所示:
       表1基于ASCII的藏文编码
 编码名称  码点范围  音节点编码
 LTibetanTCRCOld SambhotaNew SambhotaTMTMWTibwordTibKeytsamkeySUZTIBUCHAN  0x21-0xFE0x21-0xFE0x21-0xFE0x21-0x7E0x21-0xFE0x21-0x7E0x21-0xFE0x21-0xFE0x21-0x7E0x21-0xFE0x21-0x7E  0x2D0x2D0x2D0x2D0xCD0x2D0x2D0x2D0x2E0x2D0x2D
基于GB2312的藏文编码采用双字节对藏文字丁进行编码,首字节的最高位为1或者两个字节的最高位都为1,从而可以和英文并存。国内软件多采用这类编码,有的占用GB2312的10一15区或88-94区的空余码点,有的干脆占用汉字GB2312的15区至81区的某段码点,有的甚至占用了GBK汉字扩展区的码点,这类编码采用双字节进行编码,编码空间较大,一般用一个字库即可实现,如表2所示:
             表2基于GB2312的藏文编码
编码名称  首字节范围  尾字节范围  音节点编码
方正DOS方正Windows华光DOS华光Windows同元编码西藏大学编码  0xC0-0xEE0xAA-0xAC,0xB0-0xDE0xB0-0xFB0xB0-0xFB0x81-0xEE,0xF50xAA-0xAF,0xF8-0xFB  0x21-0x7E0xA0-0xFE0x21-0x7E0xA1-0xFE0x21-0x3D,0x40-0xFE0xA1-0xFE  0xC0320xAAAC0xE1620xE1E20xA6E60xFABB
基于Unicode的藏文编码,除了国际标准的Unicode基本集外,有些藏文软件采用对藏文字丁直接编码的方式,使用Unicode私用区进行编码。表3中所列各个字符集在具体表示时又有UTF-16LE、UTF-16BE、UTF-8等编码方式的差异,所以共有9种编码。
     表3基于Unicode标准的藏文字符集
字符集 码点范围  音节点码点
Unicode标准扩充集A直贡藏文 U+0F00-U+0FCFU+F300-U+F8FFU+E000-U+E3A6  U+0F0BU+0F0BU+E0DF
藏文信息处理***,凡是首先要识别网页是否藏文,其次如果是藏文还要识别其所使用的是哪一种藏文编码,然后才能做后续处理。
目前未见有藏文网页编码识别相关工作的报道,而对中文的编码识别一般根据HTML文件的“encoding”和“charset”关键词来识别,“charset”表示网页所使用的字符集,这是最初用来标识网页所使用的字符集的关键词,随着技术的发展进步,charset的表达能力已经不能满足需求,所以后来出现了“encoding”关键词表示网页所采用的编码,这两个关键词的取值有相应的国际组织在统一管理。例如一个中文的网页的头部(<head>与</head>之间的部分)中很可能包含html代码:
<meta http-equiv=″content-type″content=″text/html;charset=gb2312″>
这是因为很大一部分中文网页都采用国标编码,这里的“gb2312”表示这个网页采用的是中华人民共和国国家标准GB2312-80规定的字符集。由于藏文的编码大多是自定义的编码,charset和encoding的关键词没有对应于藏文的取值,对应前述各种编码,也都是借用了其它文字的取值,例如在藏文的网页中,可能有“charset=gb2312”、“charset=ascii”等类似的信息,这时候无法根据这些信息判断网页是否藏文编码。
发明内容
本发明的目的在于提供一种方法,能够正确区分藏文网页和非藏文网页,并识别藏文网页所使用的是哪一种藏文编码。
本发明的藏文网页及其编码的识别方法,其步骤包括:
1.给定一藏文编码中的特征字符串编码,所述特征字符串为音节点和/或选定的高频音节;
2.以该特征字符串编码作为关键词对网页字符流进行扫描搜索;
3.由计数器计算符合特征字符串编码的字符出现的次数;
4.根据计数器结果,判定该网页是否为藏文网页,及采用的藏文编码。
所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码,或音节点编码与选定的高频音节编码的串集,扫描搜索过程中计数器计算网页字符流中出现特征字符串编码的次数,当该次数达到设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码,扫描搜索过程中计数器计算网页字符流中出现的音节点编码或高频音节编码次数,根据计数器值得到特征字符串在该网页字符流中所占的比例,当该比例达到设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
所述特征字符串编码为一藏文编码中的音节点编码,当扫描搜索过程中相邻两音节点编码对应的网页的字符之间的字符数在1到7时之间时,计数器加一;当计数器值达倒设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
所述特征字符串编码为一藏文编码中的音节点编码,当扫描中出现3个以上顺序相邻的音节点编码对应的网页的字符,每相邻两音节点编码对应的网页的字符之间的字符数在1到7之间时,计数器加一;当计数器值达到设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
藏文的音节(也称藏字,藏文里字符构成音节,音节构成词)可以由一个或多个基本字符组成,最多可以有七个(参见附图)。这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在基字的上、下、前、后、再后。最简单的藏文音节只包含一个基字,而不包含其他组成部分。藏文自左向右横写,各个音节之间用一个小点分开,这个点就是音节点。音节点类似于英文中的空格,它的存在使得藏文网页字符流呈现出明显的规律性:隔几个字符就出现一个音节点。
据相关资料,迄今为止有三位专家曾对藏文的文字学特征进行过统计研究(见表4)。对于藏文高频音节(所谓高频音节是基于以音节为单位进行统计的结果,各个音节按出现频率降序排列,位置靠前的表示在藏文中高频率出现的音节,定义为高频音节)中前十个音节出现的累计频率,三位专家的统计结果分别为:31.83%、22.99%和18.97%,这说明藏文高频音节出现的频率还是相当高的。
本发明可以从这些高频率出现的高频音节中选择一特定的音节,以该特征字符作为搜索关键词对网页字符流进行搜索。至于具体选择哪个在藏文中高频率出现的音节,可以根据实际需要进行设定。
表4为统计数据中出现的一些高频音节,对于本发明来说,就可以选定下表中列举的一个音节作为高频音节。
                    表4藏文高频音节统计数据表
Figure A20071011109900071
另外,对于藏文的句子结构,统计结果显示每个藏文句字平均含有7个音节。因此,本发明也将两相邻音节点之间的音节数作为搜索的条件用于藏文网页的识别。
根据藏文的特点,以藏文的音节点和高频音节为特征字符(串),可以采取以下几种具体的准则来判断网页是否是藏文网页。
准则1:如果网页内容中出现了上述的特征字符串编码,就可以认定该网页为藏文网页,同时认定该网页的藏文采用的是与特征字符串相同的编码。
准则2:计算整个网页内容中特征字符串的比例,如果达到阈值就可以认定该网页为藏文网页,同时认定该网页的藏文采用的是与特征字符串相同的编码。
准则3:计算特征字符串出现的次数,如果达到阈值,就可以认定该网页为藏文网页,同时认定该网页的藏文采用的是与特征字符串相同的编码。
准则4:以相邻音节点的间距有1到7个字符为特征,如果这个特征出现的次数达到阈值,就可以认定该网页为藏文网页,同时认定该网页的藏文采用的是与特征字符串相同的编码。
准则5:以多个(3个以上)音节点的连续出现(相邻两个之间有1至7个字符)为特征,如果这个特征出现的次数达到阈值,就可以认定该网页为藏文网页,同时认定该网页的藏文采用的是与特征字符串相同的编码。
本方法充分利用藏文语言文字音节结构特特点和藏文用字的统计学特点,结合针对不同的编码分别应用上述识别准则,能够有效地正确区分藏文网页和非藏文网页,并识别网页所使用藏文编码。
附图说明
藏文音节结构示意图
藏文的音节可以有一个或多个基本字符组成,最多可以有七个。这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在基字的上、下、前、后、再后。在一个音节里面,除了基字之外,其它部分都可能不出现。最简单的藏文音节只包含一个基字,而不包含其他组成部分。
具体实施方式
实施例1采用准则4识别网页藏文编码是否为方正DOS编码。
对于方正DOS编码,音节点的编码是“C0 32”(这里是16进制表示,下同),对网页字符流进行扫描,如果发现相邻两个“C0 32”之间包含的字符数在1到7之间,计数器加一,若对当前网页扫描结束之前,计数器达到了预设阈值(例如10),就认为当前网页是藏文网页,它采用了方正DOS编码。
实施例2采用准则4识别是否方正Windows编码。
过程同例1,只是这时候将音节点的编码由“C0 32”换为“AAAC”。
实施例3采用准则3识别是否TCRC编码。
对于TCRC编码,音节点的的编码是“2D”(16进制,下同),一个高频音节的TCRC编码序列是“7A F4 68”,那么以“2D 7A F4 68 2D”为特征字符串,计算它在当前网页中出现的次数,如果次数大于阈值(例如10),就认为是藏文网页,它使用TCRC编码。
实施例4采用准则3识别是否Tibetan Machine编码。
对于Tibetan Machine编码,音节点的编码是“CD”,和例3中同样的一个高频音节,其Tibetan Machine编码序列是“FD 37 DC”,那么以“CD FD 37 DC CD”为特征字符串,计算它在当前网页中出现的次数,如果次数大于阈值(例如10),就认为是藏文网页,它使用Tibetan Machine编码。
上述准则也可以联合使用,可以更加准确地识别藏文网页及其编码:
实施例4适用多种准则识别藏文网页及其编码
1.第一步:采用准则4依次检测是否是下述编码之一,若是转第四步,否则执行下一步:方正DOS、方正Windows、华光DOS、华光Windows、同元编码、扩充集A三种编码、西藏大学编码、直贡藏文编码三种编码;
2.第二步:采用准则3依次检测是否是下述编码之一,若是转第四步,否则执行下一步:LTibetan、TCRC、Old Sambhota、New Sambhota、Tibetan Machine(TM)、Tibetan MachineWeb(TMW)、TibKey、TibWord、tsamkey、SUZTIB、UCHAN;
3.第三步:认为是非藏文网页;
4.第四步:认为是藏文网页,输出编码方案名称。

Claims (6)

1.一种藏文网页及其编码的识别方法,其步骤包括:
1)给定一藏文编码中的特征字符串编码,所述特征字符串为音节点和/或选定的高频音节;
2)以该特征字符串编码作为关键词对网页字符流进行扫描搜索;
3)由计数器计算符合特征字符串编码的字符出现的次数;
4)根据计数器结果,判定该网页是否为藏文网页,及采用的藏文编码。
2.如权利要求1所述的藏文网页及其编码的识别方法,其特征在于所述高频音节选自选自
Figure A2007101110990002C1
Figure A2007101110990002C2
Figure A2007101110990002C3
Figure A2007101110990002C4
Figure A2007101110990002C5
3.如权利要求1或2所述的藏文网页及其编码的识别方法,其特征在于所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码,或音节点编码与选定的高频音节编码的串集,扫描搜索过程中计数器计算网页字符流中出现特征字符串编码的次数,当该次数达到设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
4.如权利要求1或2所述的藏文网页及其编码的识别方法,其特征在于所述特征字符串编码为一藏文编码中的音节点编码或一选定的高频音节编码,扫描搜索过程中计数器计算网页字符流中出现的音节点编码或高频音节编码次数,根据计数器值得到特征字符串在该网页字符流中所占的比例,当该比例达到设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
5.如权利要求1或2所述的藏文网页及其编码的识别方法,其特征在于所述特征字符串编码为一藏文编码中的音节点编码,当扫描搜索过程中相邻两音节点编码对应的网页的字符之间的字符数在1到7时之间时,计数器加一;当计数器值达倒设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
6.如权利要求1或2所述的藏文网页及其编码的识别方法,其特征在于所述特征字符串编码为一藏文编码中的音节点编码,当扫描中出现3个以上顺序相邻的音节点编码对应的网页的字符,每相邻两音节点编码对应的网页的字符之间的字符数在1到7之间时,计数器加一;当计数器值达到设定的阈值时,判定该网页为藏文网页,所用藏文编码为给定的藏文编码。
CN 200710111099 2007-06-15 2007-06-15 藏文网页及其编码的识别方法 Pending CN101055593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710111099 CN101055593A (zh) 2007-06-15 2007-06-15 藏文网页及其编码的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710111099 CN101055593A (zh) 2007-06-15 2007-06-15 藏文网页及其编码的识别方法

Publications (1)

Publication Number Publication Date
CN101055593A true CN101055593A (zh) 2007-10-17

Family

ID=38795428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710111099 Pending CN101055593A (zh) 2007-06-15 2007-06-15 藏文网页及其编码的识别方法

Country Status (1)

Country Link
CN (1) CN101055593A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG155069A1 (en) * 2008-02-14 2009-09-30 Victor Company Of Japan Method of language coding identification and data format therefor
CN101510259B (zh) * 2009-03-18 2011-04-06 西北民族大学 一种联机手写藏文字丁的识别方法
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN102360436A (zh) * 2011-10-24 2012-02-22 中国科学院软件研究所 一种基于部件的联机手写藏文字符的识别方法
CN103176955A (zh) * 2013-01-03 2013-06-26 陈灿华 显示汉字网页字体的***和方法
CN104516862A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其***
CN112003623A (zh) * 2020-08-19 2020-11-27 西藏大学 一种藏文文本压缩算法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG155069A1 (en) * 2008-02-14 2009-09-30 Victor Company Of Japan Method of language coding identification and data format therefor
CN101510259B (zh) * 2009-03-18 2011-04-06 西北民族大学 一种联机手写藏文字丁的识别方法
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN102135956B (zh) * 2011-05-06 2015-09-30 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN102360436A (zh) * 2011-10-24 2012-02-22 中国科学院软件研究所 一种基于部件的联机手写藏文字符的识别方法
CN102360436B (zh) * 2011-10-24 2012-11-07 中国科学院软件研究所 一种基于部件的联机手写藏文字符的识别方法
CN103176955A (zh) * 2013-01-03 2013-06-26 陈灿华 显示汉字网页字体的***和方法
CN104516862A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其***
CN104516862B (zh) * 2013-09-29 2018-05-01 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其***
CN112003623A (zh) * 2020-08-19 2020-11-27 西藏大学 一种藏文文本压缩算法
CN112003623B (zh) * 2020-08-19 2023-11-03 西藏大学 一种藏文文本压缩算法

Similar Documents

Publication Publication Date Title
CN101055593A (zh) 藏文网页及其编码的识别方法
CN102142038B (zh) 用于记号空间资料库的多级查询处理***与方法
Ziviani et al. Compression: A key for next-generation text retrieval systems
CN102915299B (zh) 一种分词方法及装置
Barbay et al. Efficient fully-compressed sequence representations
EP1578020A1 (en) Data compressing method, program and apparatus
CN1702651A (zh) 特定类型信息文件的识别方法和装置
CN101079031A (zh) 一种网页主题提取***和方法
CN101079027A (zh) 一种中文分词方法及***
CN1193779A (zh) 中文语句分词方法及其在中文查错***中的应用
CN1873643A (zh) 使用词汇关联增强搜索引擎查询性能的方法和***
CN1601520A (zh) 识别文本文档中的有机化学名称的***和方法
CN101079060A (zh) 一种中文输入法简拼实现方法和***
CN107038225A (zh) 信息智能检索***的检索方法
CN101046809A (zh) 基于关联规则模式的新词识别方法
CN106570166B (zh) 一种基于多个局部敏感哈希表的视频检索方法及装置
CN1713173A (zh) 计算机可实现的字符集转换方法及***
CN1253815C (zh) 计算机在中文数据中识别中文姓名的方法
CN1345426A (zh) 用于提取索引关键字数据字段的***和方法
Farina et al. Boosting text compression with word-based statistical encoding
Sirén Compressed Full-Text Indexes for Highly Repetitive Collections.
CN1928854A (zh) 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN1492359A (zh) 一种多关键字自动状态机查找匹配方法
CN1263316A (zh) 信息处理***
CN1694092A (zh) 对含四字节字符的文本进行全文检索的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication