CN107451105B

CN107451105B - 一种基于新型汉字全息编码规则的明盲文转换***

Info

Publication number: CN107451105B
Application number: CN201710517639.0A
Authority: CN
Inventors: 富明慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-04-07
Anticipated expiration: 2037-06-29
Also published as: CN107451105A

Abstract

本发明提供了一种基于新型汉字全息编码规则的明盲文转换***，包括：文本采集模块，用于从外部获取汉字文本；读音数据库，用于存储汉字的读音；分词预处理模块，用于向文本采集模块从外部获取的汉字文本中，自动或手动***分词标记；汉字全息码预编译模块，用于将所述汉字文本编译成汉字全息码的编码格式，并存储到汉字全息文件存储模块中；汉字全息文件存储模块，用于存储汉字全息码格式的文件。本发明采用新型的汉字全息码作为文件存储格式，在确定汉字字形的同时，也唯一确定了其读音，还明确了是否与后面汉字分词，包含了明盲文转换时所需的全部信息。利用本发明，能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。

Description

一种基于新型汉字全息编码规则的明盲文转换***

技术领域

本发明涉及汉字编码及文字处理领域，具体涉及一种基于新型汉字全息编码规则的明盲文转换***。

背景技术

汉字是世界上独一无二的文字，每个字都具有“音”、“形”、“意”三个要素，“音”行于“意”，“意”蕴于“形”，三者密不可分，缺一不可。但目前汉字的盲文，实际是一种拼音方案，由于汉语大量存在同音多字、一字多音的现象，因此汉字转化成盲文后，会普遍存在仅凭读音无法唯一确定词意、从而造成盲人阅读时费解、甚至误解的情况，这也是我国推广和普及盲文所面临的最大难题。

随着信息技术的发展，尤其是电脑和点字显示器(以下简称点显器)的推广和普及，为彻底解决上述问题创造了有利条件。

发明内容

有鉴于此，有必要针对现有技术中存在的问题，提供一种基于新型汉字全息编码规则的明盲文转换***，采用特殊的格式对汉字进行转换和存储，将汉字的“音”、“形”、“意”融合在同一套编码规则中，以提高明盲文转换的含义表达准确性。

为实现上述目的，本发明采用以下技术方案：

一种基于新型汉字全息编码规则的明盲文转换***，包括：

文本采集模块，用于从外部获取汉字文本；

读音数据库，用于存储汉字的读音；其中，每个多音字的多个不同读音被按照一定顺序进行编号，且其中一个读音被设定为默认读音；

分词预处理模块，用于向文本采集模块从外部获取的汉字文本中，自动或手动***分词标记；

汉字全息码预编译模块，用于结合读音数据库中设定的默认读音以及分词预处理模块中***的分词标记，将所述汉字文本编译成汉字全息码的编码格式，并存储到汉字全息文件存储模块中；

汉字全息文件存储模块，用于存储汉字全息码格式的文件；

其中，所述汉字全息码的编码格式为：

一个汉字全息码对应一个汉字；

汉字全息码的前2字节为该汉字的内码；

汉字全息码第3字节的其中一位定义为分词标识码，以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词；

汉字全息码的第4字节定义为读音标识码，以读音标识码的数值大小标识该汉字在上下文中正确读音所对应的编号；

所述***还包括：

文本编辑模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的汉字信息和分词信息进行解译，显示出对应的汉字文本及分词标记，供用户进行审阅和修改；当用户对汉字文本或分词标记进行修改时，同步修改汉字全息文件存储模块中存储的汉字全息码；

注音编辑模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的汉字信息和读音信息进行解译，显示出对应的汉字文本和多音字的读音信息，结合读音数据库，供用户审阅并修正多音字的正确读音；当用户对多音字的读音进行更改时，同步修改汉字全息文件存储模块中存储的汉字全息码；

盲文转换模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的分词信息和读音信息进行解译，并结合读音数据库确定各汉字的读音，以将汉字全息码中的汉字信息转换为盲文供用户审阅及修改；当用户对盲文进行修改时，同步修改汉字全息文件存储模块中存储的汉字全息码。

进一步地，在分词预处理模块中，自动***分词标记是通过结合一外部的或***内置的分词数据库实现的，所述分词数据库中存储有常用分词，所述分词预处理模块将文本采集模块从外部获取的汉字文本与分词数据库中的分词进行比对，以在汉字文本中自动***分词标记。

进一步地，还包括：

听读模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的分词信息和读音信息进行解译，并结合读音数据库确定各汉字的读音，以使用电脑语音进行朗读；其中，朗读的停顿位置根据标点符号以及分词标记的位置确定。

进一步地，还包括：

释义模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的汉字信息、分词信息和读音信息进行解译，确定各汉字的字形、读音和分词状态，以提供各汉字或词组在上下文中的正确含义供用户查询。

进一步地，还包括点显器，用于将文本编辑模块、注音编辑模块、盲文转换模块和释义模块的内容以盲文的形式进行显示。

进一步地，所述汉字全息码的编码格式还包括：

汉字全息码第3字节的其中一位定义为默认读音标识码，以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音；当该汉字在上下文中采用的读音为默认读音时，汉字全息码的第4字节省略。

进一步地，在所述汉字全息码中，所述第3字节中的信息仅用到最末位和次末位；

第3字节中的最末位为默认读音标识码，该位取0时该汉字采用默认读音，取1时该汉字的读音由第4字节指定；

第3字节中的次末位为分词标识码，该位取0时表示该汉字不与下一个汉字组成分词，取1表示该汉字与下一个汉字组成分词。

进一步地，所述汉字全息码的编码格式还包括：

当该汉字为单音字时，汉字全息码的第4字节省略。

进一步地，所述汉字全息码的编码格式还包括：

当该汉字的汉字全息码的第4字节省略，且该汉字不与下一个汉字组成分词时，汉字全息码的第3字节省略。

进一步地，在读音数据库中，多音字的多个不同读音按照使用频率由高至低的顺序排序并进行编号，其中使用频率最高的读音设定为默认读音。

通过以上技术方案，本发明采用新型的汉字全息码作为文件存储格式，在确定汉字字形的同时，也唯一确定了其读音，还明确了是否与后面汉字分词，包含了明盲文转换时所需的全部信息。利用本发明提供的一种基于新型汉字全息编码规则的明盲文转换***，能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。另外，出版部门在利用本发明为盲人制作纸制盲文书籍的过程中，作为“副产品”同步生成的汉字全息码格式的文件，能大幅降低盲人在电脑或手机上听读、在点字显示器上摸读时的误解率。在保证信息传达准确性的同时，实现了一举多得。

附图说明

图1是本发明提供的一种基于新型汉字全息编码规则的明盲文转换***的功能模块示意图。

具体实施方式

下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。

本发明实施例提供了一种基于新型汉字全息编码规则的明盲文转换***，在***中，引入了一种新型的汉字全息编码规则，即汉字全息码；其旨在将汉字的“音”、“形”、“意”融合在同一套编码规则中，以提高明盲文转换的含义表达准确性。

具体地，作为本发明的技术核心，所述汉字全息码的编码格式如下：

一个汉字全息码对应一个汉字；

汉字全息码的前2字节为该汉字的内码；

汉字全息码第3字节的其中一位定义为分词标识码，以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词；第3字节另有一位定义为默认读音标识码，以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音；

汉字全息码的第4字节定义为读音标识码，以读音标识码的数值大小标识该汉字在上下文中正确读音所对应的编号。

第3字节中的最末位为默认读音标识码，该位取0时该汉字采用默认读音，取1时该汉字的读音由第4字节指定；其中，由于单音字有且仅有一个默认读音，因此单音字的汉字全息码第3字节最末位必然为0，多音字的汉字全息码第3字节最末位可能是0也可能是1；

根据以上定义，由于所述第3字节中的信息仅用到最末位和次末位，它们对应的只是4个ASCII码中的不常用控制字符，这样常规的ASCII码字符没被占用，当它们与汉字混排时不会引起歧义，提高了计算机的运算及存储效率。

作为改进，还可以采用以下方式对汉字全息码的第3字节和第4字节进行适当的省略：

当该汉字在上下文中采用的读音为默认读音时，汉字全息码的第4字节省略；当该汉字为单音字时，汉字全息码的第4字节省略；即当第3字节的最末位为0时，第4字节省略；

当该汉字的汉字全息码的第4字节省略，且该汉字不与下一个汉字组成分词时，汉字全息码的第3字节省略；即当第3字节的末两位同时为0时，第3字节也省略，该汉字的汉字全息码只取前2字节即可。

根据以上规则，对不包含实质信息的字节进行适当省略，能够大大减少储存信息所用的数据位数，以减少存贮空间。

下面开始详细介绍本发明实施例提供的一种基于新型汉字全息编码规则的明盲文转换***，如图1所示，所述***具体包括：

文本采集模块，用于从外部获取汉字文本；

读音数据库，用于存储汉字的读音；其中，每个多音字的多个不同读音被按照一定顺序进行编号，且其中一个读音被设定为默认读音。在本实施例中，多音字的多个不同读音按照使用频率由高至低的顺序排序并进行编号，其中使用频率最高的读音设定为默认读音。需要说明的是，读音数据库中存储的不仅仅是多音字的读音，还有单音字的读音，只是单音字的读音唯一且为默认读音，其读音的编号也仅有一个。

分词预处理模块，用于向文本采集模块从外部获取的汉字文本中，自动或手动***分词标记。分词预处理模块中***的分词标记主要用于在汉字文本转换成汉字全息码时提供基本的分词信息参考，分词标记的位置不必完全准确；因此，为了免去手动***分词标记产生的大量工作，还可以采用自动智能***分词标记的形式。具体地，自动***分词标记的功能需结合一外部的或***内置的分词数据库实现，所述分词数据库中存储有常用分词，所述分词预处理模块将文本采集模块从外部获取的汉字文本与分词数据库中的分词进行比对，以在汉字文本中自动***分词标记。

汉字全息码预编译模块，用于结合读音数据库中设定的默认读音以及分词预处理模块中***的分词标记，将所述汉字文本编译成汉字全息码的编码格式，并存储到汉字全息文件存储模块中。

汉字全息文件存储模块，用于存储汉字全息码格式的文件，即汉字全息码文件。基于前面给出的汉字全息码的编码格式的定义，汉字全息码文件中同时包含了汉字信息、分词信息和读音信息。具体地，汉字信息由汉字全息码的前2字节确定，分词信息由汉字全息码第3字节的分词标识码确定，读音信息则由汉字全息码第3字节的默认读音标识码以及第4字节结合读音数据库确定。

文本编辑模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的汉字信息和分词信息进行解译，显示出对应的汉字文本及分词标记，供用户进行审阅和修改。在该模块中，汉字会显示在文本窗口中，此时可以像处理常规纯文本文件那样进行汉字添加、更改和删除等操作，还可以修改分词标记的位置；本实施例中，在标点符号以外的分词结尾，采用TAB键作为分词标记。当用户对汉字文本或分词标记进行修改时，该模块会同步修改汉字全息文件存储模块中存储的汉字全息码。

注音编辑模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的汉字信息和读音信息进行解译，显示出对应的汉字文本和多音字的读音信息，结合读音数据库，供用户审阅并修正多音字的正确读音。在该模块中，文本窗口显示的是汉字文本和符号，当光标移至多音字前，会自动弹出一个下拉菜单，可以通过上下光标选定当前汉字的正确读音。当光标移至非多音字前，注音菜单会自动关闭。当用户对多音字的读音进行更改时，该模块会同步修改汉字全息文件存储模块中存储的汉字全息码。

由于汉字全息码预编译模块中进行的汉字全息码转换，是基于较粗略的分词预处理和***设定的默认读音；虽然可以通过改良分词预处理模块和读音数据库的智能识别功能来提高信息匹配的准确性，但始终无法使汉字全息文件存储模块中最初存储的汉字全息码文件完全准确地表达汉字的分词信息和读音信息。但是，通过借助文本编辑模块和注音编辑模块，可以对少量存在错误的汉字信息、分词信息和读音信息进行调整，进一步提高汉字全息码文件的准确性。在此基础之上，则还可以增加各种功能性模块，利用汉字全息码中包含的汉字信息、分词信息和读音信息为用户服务。

具体地，作为改进，本发明还包括以下功能模块：

盲文转换模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的分词信息和读音信息进行解译，并结合读音数据库确定各汉字的读音，以将汉字全息码中的汉字信息转换为盲文供用户审阅及修改。在该模块中，文本窗口中会显示盲文，用户除了浏览盲文，还可以对盲文进行增、删等校对编辑工作，以及修改不合理的分词标记。当用户对盲文进行修改时，该模块会同步修改汉字全息文件存储模块中存储的汉字全息码。

听读模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的分词信息和读音信息进行解译，并结合读音数据库确定各汉字的读音，以使用电脑语音进行朗读；其中，朗读的停顿位置根据标点符号以及分词标记的位置确定。该模块中，可以用读屏软件对解析后的汉字全息码进行朗读，由于汉字全息码中同时含有读音信息和分词信息，读屏软件能够正确朗读多音字，能够有更合理的停顿，因此不但避免了因多音字误读导致的错误信息，而且还有更舒适的听读效果，这是常规文本文件听读时所无法实现的。

释义模块，用于从汉字全息文件存储模块中读取汉字全息码格式的文件，对汉字全息码中的汉字信息、分词信息和读音信息进行解译，确定各汉字的字形、读音和分词状态，以提供各汉字或词组在上下文中的正确含义供用户查询。由于汉字的盲文是一种表达读音的文字，受汉字同音异意、一字多音的影响，传统的盲文词典软件中经常会出现一个盲文单字或词组对应多个不同的汉字或词组的情况，无法确认汉字原文想要表达的实际含义，而采用本发明提供的汉字全息码进行存储，则可以在读出盲文后实现与汉字原文的一一对应，能够准确实现释义功能。具体地，所述释义模块在确定各汉字的字形、读音和分词状态后，从一释义数据库中进行匹配查询，将查询到的字词含义展示给用户。其中，所述释义数据库可以是一体集成在***中的内部数据库，也可以是从外部引用的网络字典、词典等外部数据库。

点显器，用于将文本编辑模块、注音编辑模块、盲文转换模块和释义模块的内容以盲文的形式进行显示。其中，文本编辑模块、注音编辑模块、盲文编辑模块在点显器上输出的都是完全相同的当前字所在行的ASCII码，只是作为分词标记的TAB键被显示为半角空格；在配合文本编辑模块和盲文编辑模块使用时，点显器会显示当前字所在行的内容，可以通过摸读配合进行校对、内容增删和分词操作；在配合注音编辑模块使用时，当电脑屏幕中显示的汉字注音菜单弹出时，点显器会显示当前读音，通过上下光标切换配合点显器，可以完成注音选定；在配合释义模块使用时，允许对显示的当前字进行解释和组词操作，按下相应快捷键，汉字的解释或组词信息会显示在点显器上。

显而易见地，本发明的显示设备不仅仅局限于点显器，还可以连接液晶显示屏等其他显示设备，对文本编辑模块、注音编辑模块、盲文转换模块和释义模块的内容进行输出显示。

通过以上技术方案，本发明采用汉字全息码作为文件存储格式，在确定汉字字形的同时，也唯一确定了其读音，还明确了是否与后面汉字分词，包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为文件存储格式，能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。

下面将举几个具体例子，来说明汉字全息码的转换过程和技术优势。

具体地，对于单音字，或者读默认读音(在本实施例中特指使用频率最高的读音)的多音字，其第4码均为OX1(16进制)，此时可缺省。

示例一：

大(大小的“大”)，是多音字，有两个读音，da4和dai4，da4为第1读音，因此其全息汉字码＝大的内码加OX1+OX1，其中第3字节的16进制数OX1为连读及多音字提示码，因其最末位为“1”，表示是多音字，读音将由第4字节指定；第4字节为OX1，对应于10进制的1，表示该字读第1读音，也就是频率最高的读音da4。因第3字节OX1的次末位为零，表示不与后面汉字组成分词。

此外，大小的大，因为读音为第1读音，其全息汉字码的第4字节OX1可缺省；因为未与后面字组成分词且第4字节缺省，故第3字节也可省略。这样大(大小的大)的全息汉字码可简化为：大的内码。

再如：大(大夫的“大”)：是多音字“大”的第2读音，因此其全息汉字码＝大的内码+OX1+OX2；

示例二：

富：是单音字，只有一个读音fu4，因此其完整的全息汉字码＝富的内码+OX1+OX1。

因为是单音字，也可简写为：富的内码+OX1；

在不与后面字组成词时，其第3字节为OX1，此时还可继续简化为：富的全息汉字码＝富的内码。

下面看词组状态下的汉字全息汉字码：

爱好：爱是单音字，与后面的字组成分词；好是多音字，第1读音为“hao3”，第2读音为“hao4”。

爱好的全息汉字码＝爱的内码+OX2(相当于二进制10，最末位为零，表示是单音字，次末位为1，表示与后面字组成分词；因为是单音字，第4字节省略)+好的内码+OX1(最末位为1，表示多音字，次末位为零，表示不与后面字组成分词)+OX2(10进制的2，表示读第2读音)。

示例三：

吉林省：吉、林为单音字省为多音字，但读第1读音(sheng3)。

因此，吉林省的全息汉字码＝吉的内码+OX2(单音字、与后字组成分词)+林的内码+OX2+省的内码+OX1+OX1，显然，省的后2字节可省略。

示例四：

好逸恶劳：第一字是多音字，读第2读音；第三字也是多音字(e4,wu4)，读第2读音，因此该词的全息汉字码为：

好的内码+OX3(多音字、与后字组成分词)+OX2+逸的内码+OX2(单音字、与后字组成分词)+恶的内码+OX3(多音字、与后字组词)+OX2(恶的第2读音)+劳的内码(第3、4字节省略))。

全息汉字码中的缺省规则是不会引起混淆的。由于绝大多数情况下汉字都取第1读音(包括唯一读音)，并且一篇文章中一半以上的字不与后字组成分词，因此缺省能大幅节约存贮空间。

通过采用汉字全息码作为文件存储格式，本发明既可避免汉字向盲文转换时，多音字选择上的困扰；还可避免盲文向汉字转换时出现音同义异的错误。通过配合语音软件播放读音编辑后的文本，盲人能更准确、更轻松了解所听内容，能避免常规文本文件听读时出现的多音字误读、词组错搭的问题；盲人在点字显示器摸读遇到陌生或者疑难字时，还可通过计算机操作调用内码对当前字进行解释或给出常用组词，这是传统盲文转换方法所无法提供的技术优势。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于新型汉字全息编码规则的明盲文转换***，其特征在于，包括：

文本采集模块，用于从外部获取汉字文本；

汉字全息文件存储模块，用于存储汉字全息码格式的文件；

其中，所述汉字全息码的编码格式为：

一个汉字全息码对应一个汉字；

汉字全息码的前2字节为该汉字的内码；

所述***还包括：

2.根据权利要求1所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，在分词预处理模块中，自动***分词标记是通过结合一外部的或***内置的分词数据库实现的，所述分词数据库中存储有常用分词，所述分词预处理模块将文本采集模块从外部获取的汉字文本与分词数据库中的分词进行比对，以在汉字文本中自动***分词标记。

3.根据权利要求1所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，还包括：

4.根据权利要求3所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，还包括：

5.根据权利要求4所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，还包括点显器，用于将文本编辑模块、注音编辑模块、盲文转换模块和释义模块的内容以盲文的形式进行显示。

6.根据权利要求1所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，所述汉字全息码的编码格式还包括：

7.根据权利要求6所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，在所述汉字全息码中，所述第3字节中的信息仅用到最末位和次末位；

8.根据权利要求1所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，所述汉字全息码的编码格式还包括：

当该汉字为单音字时，汉字全息码的第4字节省略。

9.根据权利要求6或8所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，所述汉字全息码的编码格式还包括：

10.根据权利要求1或6所述的基于新型汉字全息编码规则的明盲文转换***，其特征在于，在读音数据库中，多音字的多个不同读音按照使用频率由高至低的顺序排序并进行编号，其中使用频率最高的读音设定为默认读音。