CN105807947A

CN105807947A - 一种模块化笔画编码汉字对应识别的方法

Info

Publication number: CN105807947A
Application number: CN201610030705.7A
Authority: CN
Inventors: 金云中
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-01-11
Filing date: 2016-01-11
Publication date: 2016-07-27
Also published as: CN105912139A; CN105912139B

Abstract

一种模块化笔画编码汉字对应识别的方法，属于汉字笔画编码领域，其特征在于以模块化方式压缩汉字字形二维性，进行编码排列，从而解决笔画编码是汉字其存在重码、不可读性的缺点；补充完善现有输入法缺少一种符合我们汉字书写习惯的，简单准确的笔画形式输入法的情况；改变现在汉语字典存在查询汉字步骤繁杂和不合理性，且拼音排版使多音字分开编排的不适用性。

Description

一种模块化笔画编码汉字对应识别的方法

技术领域：

本发明涉及一种用模块化的笔画编码汉字的方法，尤其涉及用模块化的笔画直接查询和输出汉字的方法。

背景技术：

汉字的字体是字义和字音的最终载体，笔画是汉字字形的最小组成单位，而汉字的基础笔画样式是有限的，这使得笔画在计算机编码中可以用单字节表示。

过去，汉字用笔画编码存在着两大方面的问题：一、相比于现在用Unicode字符集UCS-2标准2个字节编码汉字的方式，因为汉字笔画数平均远多于2划，所以表示一个汉字的编码字节远多于2个字节，对计算机硬件要求高的缺点；二、汉字的字形是一个方块的二维图形，直接用笔画编码无法解决重码问题，并且笔画编码后的一条字符串无法辨识成二维的字形。基于以上两点，笔画编码在汉字编码中一直没有起色。

现在随着计算机电子产业与信息传输技术的迅猛发展，在我国网络光纤布设已达到光纤到户的覆盖率，在无线传输方面，4G网络正在紧锣密鼓的普及中，传输速度可达100Mbps，相当于12.5Mb/s。在计算机处理核心上，超级计算机的计算速度达到每秒千万亿次，计算机总线上最新使用PCI-E3.0单信道带宽已达1Gb/s。所以在计算机上使用笔画编码的汉字所需的性能已经富裕很多了。

我们使用的最多的三种输入法：拼音输入法、五笔输入法、笔画输入法。拼音输入法由于其是我们一直使用的拼音习惯得于普遍使用，但因为其没有打字纵深往往我们打完拼音还是没有我们要的字，再翻页查看很费时间；五笔输入法，重码少，输入速度快，但是字根难记，还要非常熟悉字根在键盘上的布局，除了专业的打字员以外，很少有人认真学习五笔输入法；笔画输入法简单易学，是初次学习打字的最易输入法，但其由于笔画少，导致重码较多，难字偏字难打，多字连打能力差，只适用于手机这些小输入设备上。

在我们每一个国人学习汉字时，常遇到不认识的字需要去查字典，但因为字典是拼音排版的，而不认识的字怎么找音来查呢！这使得拼音的排版方式等于零作用，再进一步我们只能使用笔画查询方法，找了部首，再数部首笔画，再找到该部首所在的页，然而我们还得数这个字的笔画数，最后在一群小字中找到该字所在页码数，终于翻到查看了该字的信息，但看到最后一行写了一个拼音再加个页码，还是多音字！在这过程中我们体验到汉语字典查询的步骤繁杂和不合理性。

以上所述现有技术的缺点：笔画编码是汉字单字节编码的关键，但其存在重码、不可读性；现有输入法缺少一种符合我们汉字书写习惯的，简单准确的笔画形式输入法；汉语字典存在查询汉字步骤繁杂和不合理性，且拼音排版使多音字分开编排的不适用性。

发明内容：

本发明所要解决的问题在于提供一种根据汉字字形组成结构，易记忆好学习的，符合汉字标准书写习惯的汉字笔画分拣编码方法，创造新的汉字笔画编码方法在计算机汉字编码、输入法和汉字字典中运用。

为达到上述目的，本发明提供一种模块化笔画编码汉字的方法，将汉字的方块形字形按照不同的分割方式分成13种模块类型，再按照各模块类型中各小模块内字形用笔画编码，由汉字是从左到右、从上到下的书写顺序将各小模块排列，加上开始的模块类型码和各小模块段码的段点，组成一个汉字完整的笔画编码，所述汉字模块化笔画编码步骤如下：

(1)将汉字方块字形按照不同的分割方式，把汉字字形归纳分类为13种标准的模块类型，模块类型如下：

a、“一”型模块类，代表简单字体，字形为一块不可分割的汉字模块类型，所含汉字一般为多模块类型的组成基础。

b、“二”型模块类，代表汉字字形由上下两块模块组成，上下模块中字形不可再分，只可从中间分割的汉字模块类型。

c、“三”型模块类，代表汉字字形由上中下三模块组成，按书写笔画顺序为由上而下，一块一块，三块以上也归纳为此类型，不作增加。

d、“竖二”型模块类，代表汉字字形由左右两个模块组成，各小模块中字形不可再分割的模块类型。

e、“竖三”型模块类，代表汉字字形由左中右三模块组成，按书写笔画顺序为从左到右的模块类型。

f、“右二”型模块类，代表汉字字形主体分为左右两部分，而右边可再分为上下两部分，不可再分为两部以上的模块类型。

g、“左二”型模块类，代表汉字字形主题分为左右两部分，而左边可先分为上下两部分，不可再分为两部以上的模块类型，其与“右二”型相反。

h、“右三”型模块类，代表汉字字形主体分为左右两部分，而右边可再分为上中下三部分，按书写顺序从左到右，再从上到下，可分三部以上也归入该模块类型。

i、“左三”型模块类，代表汉字字形主体分为左右两部分，而左边可先分为上中下三部分，按书写顺序从上到下，再从左到右，可分三部以上也归入该模块类型，其实与“右三”相反。

j、“上二”型模块类，代表汉字字形主体分为上下两部分，而上部分可先分为左右两小部分，按书写顺序是从左到右，再从上到下，上部不可再分两块以上的模块类型。

k、“下二”型模块类，代表汉字字形主体分为上下两部分，而下部分可分为左右两小部分，按书写顺序是从上到下，再从左到右，下部不可再分为两块以上的模块类型，与“上二”型相反。

l、“上三”型模块类，代表汉字字形主体分为上下两部分，而上部可先分为左中右三小部分，按书写顺序是从左到右，再从上到下的模块类型。

m、“下三”型模块类，代表汉字字形主体分为上下两部分，而下部可分为左中右两小部分，按书写顺序是从上到下，再从左到右的模块类型，与“上三”型相反。

总共组成13个模块类型，模块类型间可以互相组合形成别的类型，从而由这13个模块类型映射所有的字形，13模块类型数量不多，规律明显，容易记忆，将模块类表现为二维图形，如图1所示。

由于汉字是中华五千年文化的结晶，其字形多种多样，并不按照固定的模式创造演变的，所以本模块化笔画编码汉字方法总结了6条分割字形为模块类型的规则：

1、能分就分：根据汉字笔画不重叠穿插的部分，先将汉字字形分割成各小块，再对比上面13种模块类型，找到最合适的那个。

2、能分先分：存在一些字体，主体上下或左右部，按照第一原则都是可以分割的，就先分能分的，按照笔画书写顺序。

3、当字体比较复杂，由多种模块类型组成时，将模块数多的保留，少的压缩成以模块，再与上面模块类对比。

4、只有一笔不与字形相交时，不予分割，除横竖笔画部，尽可能的让前面单部笔画多。

5、主体是左右或者上下部分割时，第一部是部首偏旁时不予分割，但部首原字满足其它分割条件的可以予以分割。

6、所有分割都按照字体标准书写顺序，对字形进行模块化分割，当看似左右或上下分，但其起始笔画与结束笔画完成在相同一部时，不予分割。

(2)完成模块化分割字形后，第二步就是按笔画顺序用笔画编码各小模块，作为各运用的方法：

笔画编码表如下：

为了表示各笔画在编码段中的位置，本发明在这里添加“段点”码，此用于二维编码段分段使用，符号暂时用“，”的形状替代，这样一个完整的模块化笔画编码为“模块类型码+笔画编码段(、、、，、、、，、、、)”，这样一个汉字的编码组成中第一个字节码拥有其二维图形的信息，后面的编码拥有其笔画的信息，从而最大可能的减少了汉字笔画编码的相同笔画不同字形的重码问题，且具有了对编码一定的反向可读性。

根据不同运用情况选择不同笔画编码组合：

1、第一个运用方面是计算机编码，其要求没有重码，建立汉字与编码一一对应的关系，虽然模块化笔画编码已经将重码减少到最小可能了，但是因为模块化也只是将大块变小块，小块也是存在它的二维图形性的，由此本发明针对此因素增加了“形变码”，符号暂时由“*”的形状替代，只要在相同笔画不同字形的其中一个的编码后加一个形变码加以区分，这样就彻底的消除了模块化笔画编码的重码问题。因为模块化笔画编码的汉字其是由多个单字节编码组成，所以其没有现在双字节编码的汉字的乱码问题。

模块化笔画编码汉字的最大优势是可更新性，在一个字还没有被录入到电脑编码中时，我们完全可以先将其编码按照模块化编码汉字的方法全部打出来，数据按此形式储存，等该字体被录入到电脑***中后，其是按照相同的模块化编码的方法录入进来，所以该存在的编码段从此刻开始就会完全的显示出来了。

2、第二在汉语字典上跟据基础的模块化笔画编码将每个字进行编码，先把各种模块类进行归类，相同模块类的排版在一起(如图2所示)，然后使用上表中的第一列和第三列对应关系(用0～9的十个***数字表示十种类型笔画)，将每个模块化笔画编码段的第一段和第二段前三个编码用表格第一列的数字表示(一型模块类只转换一段)，形成两个三位数，最后同模块类中汉字先按第一模块的三位数字从小到大排版，当第一模块三位数相同时，相同的字再按第二模块的三位数从小到大排版(如图3所示)，形成由模块化笔画编码汉字方法的新式字典。

3、第三在输入法上，因为输入法不需要唯一的编码性，所以本发明归纳出十种类型的笔画与字典的归纳类型是相辅相成的，将“一、二、三、竖二、竖三、右二、左二、右三、左三、上二、下二、上三、下三”13种模型类、“一(横)、丨(竖)、丿(撇)、(捺)、丶(点)、(钩变)、(竖变)、(撇变)、(横竖变)、(横折变)”十种笔画类和“，(段点)”总计24个键位融入到现有键盘。

其中“三、二、一、竖二、竖三”对映键盘上“QWERT”五个键位，“上二、下二、右三、左三”对映键盘上“ZXCV”四个键，“上三、下三”对映“YB”键位，“右二、左二”对映“NM”键位，“(撇变)、丿(撇)、丶(点)、一(横)、(横竖变)、(横折变)”对映“ASDFGH”六个键位，“(竖变)、丨(竖)、(钩变)、(捺)”对映“UIJL”四个键位，“，(段点)”对映“K”键位，预留“OP”键位放“<>”小于大于号，方便编程人员使用，完全应用到英文26字母键。

模块化笔画编码的输入法，按照字典的查询法相同的步骤，先打模块类型码，确认汉字所属类型，再敲三笔汉字相关笔画的笔画类键(一型只能继续输笔画缩小查询范围)，再敲“段点”键，然后输入三笔，若还没有得到需要的汉字，可以继续敲笔画或者换第三小模块笔画查询，通过查询该模块类中都满足条件的汉字，从而输出汉字。

附图说明

图1是汉字模块化图；

图2是模块化汉字字典侧面图；

图3是模块化汉字字典汉字解析索引布局图；

具体实施方式

下面结合具体实施例对本发明进一步详细说明。

一种模块化笔画编码汉字的方法，将汉字的方块形字形按照不同的分割方式分成13种模块类型，再按照各模块类型中各小模块内字形用笔画编码，由汉字是从左到右、从上到下的书写顺序将各小模块排列，加上开始的模块类型码和各小模块段码的段点，组成一个汉字完整的笔画编码，所述汉字模块化笔画编码步骤如下：

如这些字：一、乙、十、丁、厂、七、人、入、九等字体，结构简单不能分割字形的。

如“雷”，可以分割为上下两个模块，分别由“雨”和“田”的笔画构成，相同类型的有胃、舅、需等。

如“岸”，可以分割为上中下三模块，由笔画“山”、“厂”和“干”组成，而“喜”字，最多可以由上而下分为四部，但因为限定了模块类数不作增加，所以仍然属于“三”型。

如“的”，可以分为左右两模块，由笔画“白”和“勺”组成，相同类型的还有比、叶、钩等。

如“斑”，可分为左中右三模块，各模块笔画由“王”、“文”和“王”组成，相同类型的有班、搬、辩等

如“猫”，主体分左右两部分，右边分上下两部分，笔画由左到右，在从上而下。

如“敏“，主体分左右两部分，左边可先分为上下两部，笔画顺序从上到下，再从左到右。

如“掠”，主体分左右两部，右部可分为上中下三部，笔画书写顺序从左到右，再从上到下。

如“朝”，主体分左右两部，左部可先分为上中下三部，笔画书写顺序从上到下，再从左到右，为“十”、“日”、“十”、“月”。

如“丛”，笔画由两个“人”与“一”组成，上边两部，下一部，书写顺序是从左到右，再从上到下。

如“众”，笔画由三个“人”组成，书写顺序是从上到下，再从左到右。

如“樊”，上部可分三模块，下部一块，按书写顺序是从左到右，再从上到下。

如“雁”，主体分为上下两部，下部可再分为左中右三部，笔画书写顺序是从上到下，再从左到右。

根据上面6条进行汉字模块化分拣实例：“能”字按照第一规则其左右两部都可以上下分割，但因为有第二条所以其分拣为“左二”模块类字；“良”根据第四条不分为“丶”和“艮”，而“疆”，右部三小部笔画，“一”与“田”一起放一部，最后一部剩“一”；“赢”字，按一规则上部可分上下，下部可分左中右，由“二”型和“竖三”型堆叠形成，比较复杂难区分，但再按第三条规则，按单方向多模块的保留，压缩模块少的，所以“赢”字被分拣为“下三”型，相同的油“攀”分为“上三”型；偏旁部首是我们汉字的重要组成部分，按第五条规则，模块化不分第一偏旁部首的，如“笔”，竹子头不予分割，而“竹”本字分为“竖二”型；如“可”，不能分为“丁”和“口”，其不符合汉字书写顺序，按规则六，其被分为“一”型。

(2)完成模块化分割字形后，第二步就是按笔画顺序用笔画编码各小模块，作为各运用的方法：笔画编码表如下：

根据不同运用情况选择不同笔画编码组合：

如“工、土、士”三字，它们都是属于相同的“一”型模块类，笔画顺序都是横竖横，这是模块化笔画的最小组成单位了，还是有重码问题，所以只能增加“*”形变码加以区分。

“工”编码为：“一”型码+“一丨一”；

“土”编码为：“一”型码+“一丨一*”；

“士”编码为：“一”型码+“一丨一**”；

“胃”与“胄”的编码区别：

“胃”编码为：“二”型码+“丨一丨一，丿一一”；

“胄”编码为：“二”型码+“丨一丨一，丿一一*”；

2、第二在汉语字典上跟据基础的模块化笔画编码将每个字进行编码，先把各种模块类进行归类，相同模块类的排版在一起(如图2所示)，然后使用上表中的第一列和第三列对应关系(用0～9的十个***数字表示十种类型笔画)，将每个模块化笔画编码段的第一段和第二段前三个编码用表格第一列的数字表示(一型模块类只转换一段)，形成两个三位数，最后同模块类中汉字先按第一模块的三位数字从小到大排版，当第一模块三位数相同时，相同的字再按第二模块的三位数从小到大排版(如图3所示)，都相同即按笔画少的字排前面，形成由模块化笔画编码汉字方法的新式字典。

对“给”进行查询，过程为：首先对其进行分拣，找出其属于的模块类型，从左到右，从上到下，按照笔画其归属于“右二”型，然后对其第一和第二模块前三笔画编号，对照上表第一和第三列得到为“772”和“230”，现在开始翻字典，首先翻到“右二”型模块类区域，再按照第一模块的“772”找查询编码区，按数字大小从小到大往后翻，直到找到该数值或相邻数值得区域，若在此区域范围很大，相同字很多，可以重复此步骤查询第二模块编号“230”的，找到该字区域，从笔画数少的查起，很快就能得到需要的字了。相比于现有字典的查找方式，本发明提供的更加简洁直观，并且本例中“给”是多音字，本方法查到的是按笔画排序的，多音会整合在一个字下。

相比于字典的查询，输入法就更加便捷快速了，相同“给”，输入法只要敲打“右二”、“(撇变)”、“(撇变)”、“丿(撇)”、“，(段点)”、“丿(撇)”、“(捺)”、“一(横)”八个键，等于敲“NAASKSLF”八个键，在打字过程中计算机不断的查询缩小范围，直到打字栏显示该字，并成功输出，上述打完还没有出现，可以打其第三模块笔画，最终找到该字。

相比于现有的拼音输入法，模块化笔画输入法拥有更有打字纵深，不需要翻查询页，直到打到该字为止，其遇到不会读的字，也不会如拼音输入法一样无能为力；相比于五笔输入法，模块化笔画输入法，更加好记，易学易懂；相比于笔画输入法，模块化笔画输入法支持更多的汉字，可连续拼打。最有特色的是其有模块化笔画编码汉字体系由上而下的支持。

Claims

1.一种基于笔画编码的模块化笔画编码汉字对应识别的方法，将汉字的方块形字形按照不同的分割方式分成13种模块类型，再按照各模块类型中各小模块内字形用笔画编码，由汉字是从左到右、从上到下的书写顺序将各小模块排列，加上开始的模块类型码和各小模块段码的段点，组成一个汉字完整的笔画编码，所述汉字模块化笔画编码步骤如下：

(1)按照字形分割将汉字类型分为：“一”型，“二”型，“三”型，“竖二”型，“竖三”型，“右二”型，“左二”型，“右三”型，“左三”型，“上二”型，“下二”型，“上三”型和“下三”型13种模块类型；

(2)跟据不同的编码集，应用于计算机编码、字典分类排序和笔画输入法编码，组成查询和输出的汉字编码。

2.根据权利1所述的模块化笔画编码汉字对应识别的方法，其特征在于：所述汉字按照书写顺序对各模块进行笔画编码，各应用方向的笔画编码对应如下表：

3.根据权利要求1所述模块化笔画编码汉字对应识别的方法，其特征在于：所述计算机编码，建立汉字与编码一一对应的关系，对相同模块类相同笔画的重码字，添加“形变码(*)”加以区分，由13种模块类型码、28种基础笔画码、形变码和段点码按汉字笔画书写顺序进行组合，形成完整的汉字计算机编码。

4.根据权利要求1所述模块化笔画编码汉字对应识别的方法，其特征在于：所述汉字字典排序，建立由模块化类型分拣，由第一和第二小模块前三笔笔画，对应笔画编码表得到其两组三位数值，按其数值由小到大排序的模式。

5.根据权利要求1所述模块化笔画编码汉字对应识别的方法，其特征在于：所述笔画输入法，将“一、二、三、竖二、竖三、右二、左二、右三、左三、上二、下二、上三、下三”13种模型类、“一(横)、丨(竖)、丿(撇)、(捺)、丶(点)、(钩变)、(竖变)、(撇变)、(横竖变)、(横折变)”十种笔画类和“，(段点)”总计24个键位融入到现有键盘：

其中“三、二、一、竖二、竖三”对映键盘上“QWERT”五个键位，“上二、下二、右三、左三”对映键盘上“ZXCV”四个键，“上三、下三”对映“YB”键位，“右二、左二”对映“NM”键位，“(撇变)、丿(撇)、丶(点)、一(横)、(横竖变)、(横折变)”对映“ASDFGH”六个键位，“(竖变)、丨(竖)、(钩变)、(捺)”对映“UIJL”四个键位，“，(段点)”对映“K”键位，预留“OP”键位放“＜＞”小于大于号，完全应用到英文26字母键；

其打字方式为先打模块类型键，再打笔画键，跳模块按“段点”键，要打下一模块，再按“段点”键，最多打完该模块类模块数，查询输出汉字。