CN105404621B

CN105404621B - 一种用于盲人读取汉字的方法及***

Info

Publication number: CN105404621B
Application number: CN201510623525.5A
Authority: CN
Inventors: 王向东; 杨阳; 钱跃良; 刘宏; 张金超; 姜文斌
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2018-07-10
Anticipated expiration: 2035-09-25
Also published as: CN105404621A

Abstract

本发明提出一种用于盲人读取汉字的方法及***，涉及自然语言处理技术领域和面向残疾人的人机交互技术领域，该方法包括获取汉语文本，对所述汉语文本进行分词操作，生成汉字串，通过发音词典、多音字字典与词频信息，参考分词得到的词性标注，将所述汉字串中的每个词转换为对应的拼音并连接为拼音串；通过查找拼音和盲符的对照字典，将所述拼音串转换为盲符串，通过分词模型对所述盲符串进行盲文分词，生成初始盲文分词，将所述汉字串与所述初始盲文分词进行融合，生成新盲文分词，根据盲文分词连写规则对所述新盲文分词进行调整；对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调，生成最终盲文分词，将所述最终盲文分词进行显示。

Description

一种用于盲人读取汉字的方法及***

技术领域

本发明涉及自然语言处理技术领域和面向残疾人的人机交互技术领域，特别是涉及一种用于盲人读取汉字的方法及***。

背景技术

在当今信息社会，信息化水平不断提高，信息技术在人们的工作、学习和生活中得到了广泛应用，而互联网也成为人们日常生活中的一个重要组成部分，网络以一种便捷的方式为人们提供了海量的信息资源。在中国，各种数字化、网络文本资源大多以汉语文本的形式存储，而这些资源难以被我国现有的 1200万盲人所使用。这阻碍了盲人像正常人一样享受海量的信息资源，使盲人和正常人之间的信息鸿沟不断扩大，盲人在信息化社会中的生存和发展能力受到进一步制约。虽然现有的语音合成技术日趋成熟，网络上大量的文本资源可以通过语音合成转换为音频文件使得盲人可以通过听觉获得这些信息，但语音资源的存储比较耗费空间，并且在携带、查询等方面并不方便，而且，语音通道获取信息效率较低，因此，对于盲人来说，阅读文本资源仍然是获得信息最重要的方式。

我国盲人在阅读书写时使用的文字是中国盲文，中国盲文基于布莱尔 (Braille)盲文体系，每个盲符均以两列共6个点作为一个基本结构，这6 个点有的凸起，有的不凸起，形成64种变化，即能表示64种不同的字符。在汉语盲文中，每种字符分别表示汉语拼音中的一个声母、韵母或声调，不同的字符按照汉语拼音规则组成合法音节以表示汉字，因此，中国盲文本质上是一种拼音文字。盲文一般印刷和书写在特制的较厚的盲文纸上，在盲文纸上压出凸起的点位以供盲人摸读。为使盲人能够在计算机上摸读盲文，当前已经设制和生产出了盲用点显器，这种设备可与计算机连接，接收计算机中的盲符串，并将其在点显机面板上显示为相应的凸起的点位，当收到新的盲符串后，可在面板上清除原来的点位重新显示新的点位。

虽然有了点显器，但是盲人仍然很难在计算机上读取汉语文本，原因在于还需要将汉语文本转换为盲文。由于汉语普遍存在的一音多字、一字多音等现象，使得汉语到盲文的转换并非简单的规则对应，而需要综合考虑语法、语义等。更为重要的是，盲文具有分词连写规则，要求将具备一定语义的词或短语用一个“空方”分隔开来，以便于盲人理解。当前已有方法一般基于盲文分词连写规则对汉语分词结果进行调整以得到分词后的盲文，但由于盲文分词连写规则一般与语义相关且有一定的主观性，因此，由计算机自动完成时分词准确率较低，在使用这些方法进行转换之后，还需要做大量人工修正工作，造成了效率低下，也使得盲文文本资源的获取的时间较长且成本较高。因此，提高汉盲转换的准确率，减少人工修正的操作，加快汉盲转换的效率，对于提高中文信息资源在盲人群体中的普及率，让盲人群体更好地融入主流社会中有着重要的现实意义。

发明内容

针对现有技术的不足，本发明提出一种用于盲人读取汉字的方法及***。

本发明提出一种用于盲人读取汉字的方法，包括：

步骤1，获取汉语文本，对所述汉语文本进行分词操作，生成汉字串，通过发音词典、多音字字典与词频信息，参考分词得到的词性标注，将所述汉字串中的每个词转换为对应的拼音并连接为拼音串；

步骤2，通过查找拼音和盲符的对照字典，将所述拼音串转换为盲符串，通过分词模型对所述盲符串进行盲文分词，生成初始盲文分词，将所述汉字串与所述初始盲文分词进行融合，生成新盲文分词，根据盲文分词连写规则对所述新盲文分词进行调整；

步骤3，对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调，生成最终盲文分词，将所述最终盲文分词进行显示。

所述的用于盲人读取汉字的方法，所述步骤1中将所述汉字串转换成拼音串的具体步骤为：

步骤2.1对于所述汉字串中的每个词，判断每个词是否为多字词，若为多字词，且在发音词典中能够找到所述多字词对应的拼音，则直接返回所述多字词对应的拼音，否则执行步骤2.2；

步骤2.2将所述多字词切分为汉字的序列，依次取所述多字词中所有的汉字，对每个汉字，执行步骤2.3至2.4；

步骤2.3对于当前汉字，查找多音字字典，判断所述当前汉字是否为多音字，若非多音字，在发音词典中查找所述当前汉字的拼音并返回所述拼音；否则执行步骤2.4；

步骤2.4若为多音字，则执行以下步骤，具体步骤为：

步骤2.4.1如果当前多音字来自于一个单字词，则直接执行步骤2.4.2；若为多字词，则执行下述步骤：

对于多字词中的多音字w_k，a)步骤，与后续n个字组成一n+1字的词 W_k,n＝w_kw_k+1…w_k+n，在多音字词组字典中查找W_k,n，如查找到，则以W_k,n中被查找到字的发音作为多音字w_k的读音并返回；如未查到，则执行b)步骤，与前面n个字组成一n+1字的词W_n-k,k＝w_n- _kw_n-kk+1…w_n，在多音字词组字典中查找W_n-k,k，如查找到，则以W_k,n中被查找到字的发音作为多音字的读音并返回，如未查找，则分别与后续及前面n-1个字组成一n字的词W_k,n-1、W_n-k+1,k，对所述多字词分别执行a)、b)步骤，直至确定所述多音字w_k发音；

步骤2.4.2假设所述多音字有tone₁,...,tone_n共n个读音，分词词性概率定义为P_pos，权值为λ₁，语言模型概率定义为P_lm，权值为λ₂，分词词频概率定义为P_freq，权值为λ₃，***为所述多音字的每一个读音计算一个得分Score_i，其中 Score_i＝λ₁·P_pos(tone_i)+λ₂·P_lm(tone_i)+λ₃·P_freq(tone_i)，取出得分最高的读音作为多音字的最终拼音并返回。

所述的用于盲人读取汉字的方法，所述步骤2中进行融合的步骤为，对于所述汉字串C＝c₁c₂…c_m与所述初始盲文分词B＝b₁b₂…b_n，其中c_i,b_j分别表示所述汉字串及所述初始盲文分词中的一个分词，对于所述初始盲文分词B，将B映射至对应的所述汉字串B'＝b₁'b'₂…b'_n，其中b'_j为所述初始盲文分词b_j映射为中文后的分词。

所述的用于盲人读取汉字的方法，所述步骤2中盲文分词连写规则如下：

连写规则：POS_k:[m,n]:POS_k-m+…+POS_k+…+POS_k+n→POS_k-m…POS_k+n

POS_k为激活条件，m与n表示需要分别查看当前新盲文分词的前m个词和n个词，如果m和n都为0，则表示这是一条分词规则，第二个冒号后表示的是分词的词性组合，如果满足该组合，则执行右箭头之后的操作。

所述的用于盲人读取汉字的方法，所述步骤3中所述盲文标调的具体步骤为：

依次查看每个调整后的所述新盲文分词对应字的拼音，并与盲文标调集中的规则进行比对，如果满足条件，则对当前新盲文分词进行标调，所述盲文标调集的格式如下：

标调规则：tone_k:[n]:tone_k…tone_k+n

其中tone_k为当前新盲文分词的拼音，n为需要查看当前新盲文分词的后n 个新盲文分词的拼音，tone_k…tone_k+n为标调条件，如果拼音序列满足标调条件，则对tone_k进行标调。

本发明还提出一种用于盲人读取汉字的***，包括：

获取拼音串模块，用于获取汉语文本，对所述汉语文本进行分词操作，生成汉字串，通过发音词典、多音字字典与词频信息，参考分词得到的词性标注，将所述汉字串中的每个词转换为对应的拼音并连接为拼音串；

获取新盲文分词并调整模块，用于通过查找拼音和盲符的对照字典，将所述拼音串转换为盲符串，通过分词模型对所述盲符串进行盲文分词，生成初始盲文分词，将所述汉字串与所述初始盲文分词进行融合，生成新盲文分词，根据盲文分词连写规则对所述新盲文分词进行调整；

盲文显示模块，用于对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调，生成最终盲文分词，将所述最终盲文分词进行显示。

所述的用于盲人读取汉字的***，所述获取拼音串模块中将所述汉字串转换成拼音串的具体步骤为：

步骤2.4若为多音字，则执行以下步骤，具体步骤为：

所述的用于盲人读取汉字的***，所述获取新盲文分词并调整模块中进行融合的步骤为，对于所述汉字串C＝c₁c₂…c_m与所述初始盲文分词B＝b₁b₂…b_n，其中c_i,b_j分别表示所述汉字串及所述初始盲文分词中的一个分词，对于所述初始盲文分词B，将B映射至对应的所述汉字串B'＝b₁'b'₂…b'_n，其中b'_j为所述初始盲文分词b_j映射为中文后的分词。

所述的用于盲人读取汉字的***，所述获取新盲文分词并调整模块中盲文分词连写规则如下：

连写规则：POS_k:[m,n]:POS_k-m+…+POS_k+…+POS_k+n→POS_k-m…POS_k+n

所述的用于盲人读取汉字的***，所述盲文显示模块中所述盲文标调的具体步骤为：

标调规则：tone_k:[n]:tone_k…tone_k+n

由以上方案可知，本发明的优点在于：

本发明不同于现有的汉盲转换技术中，先对汉字串进行汉语分词，再在分词结果上运用一系列复杂的分词连写规则进行二次处理的做法，本发明利用构建的基于统计机器学习技术的盲文分词模型直接对盲符串进行一步式分词，分词结果基本符合盲文分词连写规则，只需进行少量微调即可作为盲文输出，相比现有技术，避免了用计算机处理复杂的、涉及语义的分词连写规则导致的准确率不高的问题，分词准确率和整体汉盲转换准确率都有较大的提升。

附图说明

图1为用于盲人读取汉字的方法流程图；

图2为分词后的汉字串转换为拼音串的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明的用于盲人读取汉字的方法进行进一步详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的用于盲人读取汉字的方法主要流程如附图1所示，其输入为一个汉语句子，即一个汉字串，输出为相应的盲文，并显示在盲用点显器上。

步骤1.汉语分词。即采用汉语分词***将输入的汉字串切分为汉语词的序列，得到分词后的汉字串，同时为每个词标注词性，汉语分词可采用当前已有的各种方法和***，如基于词典的最大或最小匹配方法，基于隐马尔科夫模型(HMM)的方法，基于最大熵模型的方法等；

步骤2.将分词后的汉字串转换为拼音串，即利用发音词典、多音字字典和词频信息，参考分词得到的词性标注，将分词后的汉字串中的每个词转换为对应的拼音并连接为拼音串，所述发音词典为汉字词(包括单字词与多字词) 与拼音的映射表。在一个实施例中，发音词典的规模为7万词左右，所述多音字字典中列出了所有的多音字及其每个多音字对应的多个拼音，所述词频信息为每个汉字的在汉语文本中的出现频率，该信息预先采用大量汉语文本统计得到。在一个实施例中，词频信息中字的规模为7000字左右。

以下为分词的具体步骤，如图2所示：

步骤2.1对于分词后的汉字串中的每个词，判断该词是否为多字词(包含两个或以上的汉字)，若为多字词，且在发音词典中能够找到该词对应的拼音，则直接返回该拼音，否则执行步骤2.2；

步骤2.2对于输入的词(单字词或多字词)，将词切分为汉字的序列，依次取其所有的汉字，对每个汉字，执行步骤2.3至2.4；

步骤2.3对于当前汉字，查找多音字字典，判断该字是否为多音字，若非多音字，在发音词典中查找该字的拼音并返回该拼音；否则执行步骤2.4；

步骤2.4对于多音字，需综合多种信息确定多音字的拼音。具体步骤为：

步骤2.4.1如果当前多音字来自于一个单字词，则直接执行步骤2.4.2；否则先执行下述步骤：

对于多字词中的多音字w_k，a)与后续n个字组成一n+1字的词 W_k,n＝w_kw_k+1…w_k+n，在多音字词组字典中查找W_k,n，如查找到，则以该词组中该字的发音作为多音字的读音并返回；如未查到，则b)与前面n个字组成一n+1 字的词W_n-k,k＝w_n-kw_n-kk+1…w_n，在多音字词组字典中查找W_n-k,k，如查找到，则以该词组中该字的发音作为多音字的读音并返回，如未查找，则分别与后续及前面n-1个字组成一n字的词W_k,n-1、W_n-k+1,k，对该词分别执行a)、b)步骤，直至确定该多音字发音。如果n＝1时，W_k,k+1、W_k-1,k仍然无法在多音字词组字典查找到读音，则返回空；

步骤2.4.2假设多音字有tone₁,...,tone_n共n个读音，分词词性概率定义为 P_pos，权值为λ₁，语言模型概率定义为P_lm，权值为λ₂，分词词频概率定义为P_freq，权值为λ₃，***为多音字的每一个读音计算一个得分Score_i，其中 Score_i＝λ₁·P_pos(tone_i)+λ₂·P_lm(tone_i)+λ₃·P_freq(tone_i)，取出得分最高的读音作为多音字的最终拼音并返回。需要说明的是，对于词性、词频、语言模型各类型每一发音的概率，需要进行归一化处理，各类型的权值可根据经验值设定。

步骤3.将拼音串转换为盲符串。通过查找拼音和盲符的对照字典，将步骤2得到的拼音串转换为盲符串，此时的盲符串是未分词的盲符串。所述拼音和盲符的对照字典为拼音和对应盲符的映射表。

步骤4.采用预先用统计机器学习方法训练好的分词模型进行盲文分词，生成初始盲文分词。采用当前相关领域常用的感知器模型，模型训练时采用已经分好词的盲文语料，采用的特征为一元特征、二元特征和属性特征。分词时对盲符串的每一个可以切分的位置提取特征并利用训练好的模型计算概率，根据概率判断是否需要在该位置进行词语切分。

训练模型采用感知机算法，学习到从输入到输出的判别式映射模型，输入是训练语料中的句子，输出是相应的标注结果。

对盲文句子的分词采用字分类模型。给定一个由n个字组成的句子，分词的过程是将这个句子分成m(m≤n)块，每一块是一个有意义的词。给每个字分配一个代表其在词中位置的类标，将分词问题转化成字分类问题。采用b,m,e,s 作为字的边界类标，b,m,e分别代表该字位于词的开始位置、中间位置、结束位置，s代表该字是单字词。解码过程是寻找使得分数评价函数f(x)最高的标注序列y。

其中，f(x)分数累加了每个字和类标对的分数， (i,t)∈y(s.t.1≤i≤n,t∈{b,m,e,s})，Φ(x,y)是特征提取函数，是参数向量。分词使用维特比解码算法。

步骤5.汉语和初始盲文分词进行融合，即利用汉语盲文分词结果对盲文分词结果进行微调，以进一步提高分词的准确率。

对于中文分词C＝c₁c₂…c_m和盲文分词B＝b₁b₂…b_n，其中c_i,b_j分别表示中文及盲文中的一个分词，对于盲文分词B，可以将B映射至对应的中文分词 B'＝b₁'b'₂…b'_n，其中b'_j为盲文分词b_j映射为中文后的分词。对中文分词C和映射为中文的盲文分词B'进行编辑距离对齐，可以得到C和B'中不同的片段，运用上述的融合规则，确定不同片段的最终结果是采用中文分词结果还是盲文分词结果。假设C和B'中不同的片段分别定义为CH＝ch₁ch₂…ch_m和BR＝br₁br₂…br_n，具体步骤如下：

步骤5.1假设ch_i为CH中第i个分词，br_j为BR中第j个分词，初始值i,j 都设置为1

步骤5.2分别比较ch_i和br_j，如果说明第一个分词中，盲文分词包含中文分词，则对于第一个分词，采用盲文分词的结果br_j；相反的，如果则采用中文分词的结果ch_i

步骤5.3初始设置k＝1

5.3.1对于的情况，定义ch_i,i+k＝ch_i…ch_i+k，比较ch_i,i+k和br_j:

a)如果ch_i,i+1＝br_j，设置i＝i+2,j＝j+1，如果i>m或j>n，跳转至步骤5.4，否则，跳转至步骤5.2

b)如果k＝k+1，跳转至5.3.1

c)如果说明ch_i+k中包含br_j中的最后一个字，定义该字的位置为pos，则以pos为分界，将ch_i+k分为ch_i+k,pos和ch_{i+k,after_pos}，其中 ch_i+k＝ch_i+k,posch_{i+k,after_pos}，ch_i+k,pos表示ch_i+k中第1个到第pos个字组成的词组， ch_{i+k,after_pos}表示ch_i+k中第pos+1字到最后一个字组成的词组。将中文分词中第 i+k个分词用ch_{i+k,after_pos}替换，即更新CH＝ch₁…ch_i+k-1ch_{i+k,after_pos}ch_i+k+1…ch_m， i＝i+k,j＝j+1，跳转至步骤5.2

5.3.2对于的情况，定义br_j,j+k＝br_j…br_j+k，比较br_j,j+k和ch_i:

a)如果br_j,j+1＝ch_i，则i＝i+1,j＝j+2，跳转至步骤5.2

b)如果k＝k+1，跳转至5.3.2

c)如果说明br_j+k中包含ch_i中的最后一个字，定义该字的位置为pos，则以pos为分界，将br_j+k分为br_j+k,pos和br_{j+k,after_pos}，其中 br_j+k＝br_j+k,posbr_{j+k,after_pos}，br_j+k,pos表示br_j+k中第1个到第pos个字组成的词组， br_{j+k,after_pos}表示br_j+k中第pos+1字到最后一个字组成的词组。将盲文分词中第 j+k个分词用br_{j+k,after_pos}替换，即更新BR＝br₁…br_j+k-1br_{j+k,after_pos}br_j+k+1…br_n， i＝i+1,j＝j+k，跳转至步骤5.2

步骤5.4结束整合算法

步骤6.根据盲文分词连写规则调整分词结果。依次查看分词对应的词性，并与盲文分词连写规则集中的激活条件进行比对，如果符合，则运用规则集中的条件对结果进行分词或连写。盲文分词连写规则集格式如下：

连写规则：POS_k:[m,n]:POS_k-m+…+POS_k+…+POS_k+n→POS_k-m…POS_k+n

对于规则集中的规则，第一个冒号前的词性POS_k是激活条件，规则后会跟一中括号，里面的m和n表示需要分别查看当前分词的前m个词和n个词，如果m和n都为0，则表示这是一条分词规则。第二个冒号后表示的是分词的词性组合，如果满足该组合，则执行右箭头之后的操作。

步骤7.盲文标调。依次查看每个分词对应字的拼音，并与盲文标调集中的规则进行比对，如果满足条件，则对当前字进行标调。盲文标调集的格式如下：

标调规则：tone_k:[n]:tone_k…tone_k+n

其中tone_k为当前字的拼音，方括号中的n表示需要查看当前字的后n个字的拼音，tone_k…tone_k+n为标调条件，如果拼音序列满足标调条件，则对tone_k进行标调

步骤8.盲文显示，即将盲文输出到盲用点显器上。可采用当前已有的各种点显器产品，并调用其相应的输出接口。

本发明还提出一种用于盲人读取汉字的***，包括：

所述获取拼音串模块中将所述汉字串转换成拼音串的具体步骤为：

步骤2.4若为多音字，则执行以下步骤，具体步骤为：

所述获取新盲文分词并调整模块中进行融合的步骤为，对于所述汉字串 C＝c₁c₂…c_m与所述初始盲文分词B＝b₁b₂…b_n，其中c_i,b_j分别表示所述汉字串及所述初始盲文分词中的一个分词，对于所述初始盲文分词B，将B映射至对应的所述汉字串B'＝b₁'b'₂…b'_n，其中b'_j为所述初始盲文分词b_j映射为中文后的分词。

所述获取新盲文分词并调整模块中盲文分词连写规则如下：

连写规则：POS_k:[m,n]:POS_k-m+…+POS_k+…+POS_k+n→POS_k-m…POS_k+n

所述盲文显示模块中所述盲文标调的具体步骤为：

标调规则：tone_k:[n]:tone_k…tone_k+n

下面通过对一个汉语句子进行汉语到盲文的转换及显示作为实例，详细介绍本发明的用于盲人读取汉字的方法及***的实施过程,应该明白该例子只是用于举例说明，而不是意图限制本发明的范围。

假设需转换为盲文的汉语句子为：“北京是她们的目的地”,采用汉语分词模块进行汉语分词并进行词性标注，得到的结果为：“北京/NR是/VC她们/PN 的/DEG目的/NN地/NN”。

调用汉字串到拼音串转换模块将分词结果转换为拼音串,对于“北京”、 “是”、“她们”、“目的”这五个词，通过查找发音字典可直接确认读音；对于 “的”和“地”这两个字，由于都是多音字，需调用算法确定多音字发音。

以“的”字为例，通过词性标注可知“的”字的词性为“DEG”，由“DEG” 可以确认该字的发音为“de”，由于通过词性可唯一确认“的”字发音，所以：

P_pos(de)＝1,

P_pos(di)＝0

在前一个词为“她们”的条件下，通过查找语言模型概率，可以得到发音为“de”的概率为0.45，发音为“di”的概率为0.05：

P_lm(de)＝P(de|tamen)＝0.45

P_lm(di)＝P(di|tamen)＝0.05

进行归一化处理后，可以得到：P_lm(de)＝0.9,P_lm(di)＝0.1

在词频字典中查找“的”的单字词频，发音为“de”的次数为185次，发音为“di”的次数为75次，通过计算可知，发音为“de”的概率为0.71，发音为“di”的概率为0.29

根据经验值，设置词性、语言模型、词频三者概率的权重都为1/3，则：

通过得分比较，可以确定多音字“的”的最终发音为“de”。

类似的，可以确定“地”字的发音为“di”。最终得到汉语句子对应的拼音串为“beijing shi ta men de mu di di”。

调用拼音串到盲符串转换模块，得到拼音串对应的盲符串为“B！G*:T9 M0 D MUDI DI”。(本说明书中采用的盲文表示为盲符的ASCII码编码，而非盲符的点位形式。下文中相同。)

调用盲文分词模块对盲符串进行分词，得到分词后的盲符串为“B！G*:|T9 M0|D|MU DI DI”。

调用汉语和盲文分词结果融合模块对中文分词结果和盲文分词结果进行融合。将分词后盲文串对应至汉语串，可得到采用盲文分词的汉字串为“北京是/她们/的/目的地”，将盲文分词的汉字串与汉语分词的汉字串进行编辑距离对齐，可得到附表1：

附表1：中文、盲文分词对照表

对比附表1中汉语和盲文分词，有两个不同的片段，片段1“北京是”和片段2“目的地”。

对片段1进行处理，片段1的汉语分词为“北京/是”，盲文分词为“北京是”，取汉语分词第一个分词“北京”和盲文分词的第一个分词“北京是”进行对比，由于盲文分词中第一个词“北京是”包含了汉语分词中第一个词“北京”，继续查看汉语分词的第二个词“是”，并与第一个词“北京”进行组合形成“北京是”与盲文分词的第一个词“北京是”进行对比，因为两者相同且片段1中不再有其它未处理词，根据选取字数较多的词语作为最终分词的规则，因此确定片段1的分词为“北京是”。

类似的，可以确定片段2的分词为“目的地”。最终，可以确定融合后的分词结果为“北京是/她们/的/目的地”。

调用分词结果调整模块，根据汉语分词标注结果，北京的词性为“NR”，即专有名词，盲文标准中对于专有名词，后跟单音节通用名词才进行连写，示例中“北京”后跟“是”，词性为“VC”，即“系动词”，不满足盲文标准的条件，不应该进行连写，应对融合的分词“北京是”进行拆分，得到“北京/是”, 经调整后，得到的分词结果为“北京/是/她们/的/目的地”，其对应的盲文分词表示形式为“B！G*:T9M0 D MUDIDI”。

调用盲文标调模块对分词结果进行标调。盲文标准中规定，“他”、“她”、 “字”需使用特殊的表示方法，对于“她”字必须要标调。“她”的盲符为“T9”，声调为第一声，盲符中的表示为“A”，标调后盲文串的表示形式为“B！G*:T9AM0 D MUDIDI”。

调用盲文显示模块将盲文串显示在盲用点显器上。

Claims

1.一种用于盲人读取汉字的方法，其特征在于，包括：

步骤2，通过查找拼音和盲符的对照字典，将所述拼音串转换为未分词的盲符串，通过采用预先用统计机器学习方法训练好的分词模型对所述盲符串进行盲文分词，生成初始盲文分词，将所述汉字串与所述初始盲文分词进行融合，生成新盲文分词，根据盲文分词连写规则对所述新盲文分词进行调整；

2.如权利要求1所述的用于盲人读取汉字的方法，其特征在于，所述步骤1中将所述汉字串转换成拼音串的具体步骤为：

步骤2.1 对于所述汉字串中的每个词，判断每个词是否为多字词，若为多字词，且在发音词典中能够找到所述多字词对应的拼音，则直接返回所述多字词对应的拼音，否则执行步骤2.2；

步骤2.2 将所述多字词切分为汉字的序列，依次取所述多字词中所有的汉字，对每个汉字，执行步骤2.3至2.4；

步骤2.3 对于当前汉字，查找多音字字典，判断所述当前汉字是否为多音字，若非多音字，在发音词典中查找所述当前汉字的拼音并返回所述拼音；否则执行步骤2.4；

步骤2.4 若为多音字，则执行以下步骤，具体步骤为：

步骤2.4.1 如果当前多音字来自于一个单字词，则直接执行步骤2.4.2；若为多字词，则执行下述步骤：

对于多字词中的多音字w_k，a)步骤，与后续n个字组成一n+1字的词W_k,n＝w_kw_k+1…w_k+n，在多音字词组字典中查找W_k,n，如查找到，则以W_k,n中被查找到字的发音作为多音字w_k的读音并返回；如未查到，则执行b)步骤，与前面n个字组成一n+1字的词W_n-k,k＝w_n-kw_n-kk+1…w_n，在多音字词组字典中查找W_n-k,k，如查找到，则以W_k,n中被查找到字的发音作为多音字的读音并返回，如未查找，则分别与后续及前面n-1个字组成一n字的词W_k,n-1、W_n-k+1,k，对所述多字词分别执行a)、b)步骤，直至确定所述多音字w_k发音；

步骤2.4.2 假设所述多音字有tone₁,...,tone_n共n个读音，分词词性概率定义为P_pos，权值为λ₁，语言模型概率定义为P_lm，权值为λ₂，分词词频概率定义为P_freq，权值为λ₃，***为所述多音字的每一个读音计算一个得分Score_i，其中Score_i＝λ₁·P_pos(tone_i)+λ₂·P_lm(tone_i)+λ₃·P_freq(tone_i)，取出得分最高的读音作为多音字的最终拼音并返回。

3.如权利要求1所述的用于盲人读取汉字的方法，其特征在于，所述步骤2中进行融合的步骤为，对于所述汉字串C＝c₁c₂…c_m与所述初始盲文分词B＝b₁b₂…b_n，其中c_i,b_j分别表示所述汉字串及所述初始盲文分词中的一个分词，对于所述初始盲文分词B，将B映射至对应的所述汉字串B′＝b′₁b′₂…b′_n，其中b′_j为所述初始盲文分词b_j映射为中文后的分词。

4.如权利要求1所述的用于盲人读取汉字的方法，其特征在于，所述步骤2中盲文分词连写规则如下：

连写规则：POS_k:[m,n]:POS_k-m+…+POS_k+…+POS_k+n→POS_k-m…POS_k+n

分词规则：

5.如权利要求1所述的用于盲人读取汉字的方法，其特征在于，所述步骤3中所述盲文标调的具体步骤为：

标调规则：tone_k:[n]:tone_k…tone_k+n

其中tone_k为当前新盲文分词的拼音，n为需要查看当前新盲文分词的后n个新盲文分词的拼音，tone_k…tone_k+n为标调条件，如果拼音序列满足标调条件，则对tone_k进行标调。

6.一种用于盲人读取汉字的***，其特征在于，包括：

获取新盲文分词并调整模块，用于通过查找拼音和盲符的对照字典，将所述拼音串转换为未分词的盲符串，通过采用预先用统计机器学习方法训练好的分词模型对所述盲符串进行盲文分词，生成初始盲文分词，将所述汉字串与所述初始盲文分词进行融合，生成新盲文分词，根据盲文分词连写规则对所述新盲文分词进行调整；

7.如权利要求6所述的用于盲人读取汉字的***，其特征在于，所述获取拼音串模块中将所述汉字串转换成拼音串的具体步骤为：

步骤2.4 若为多音字，则执行以下步骤，具体步骤为：

8.如权利要求6所述的用于盲人读取汉字的***，其特征在于，所述获取新盲文分词并调整模块中进行融合的步骤为，对于所述汉字串C＝c₁c₂…c_m与所述初始盲文分词B＝b₁b₂…b_n，其中c_i,b_j分别表示所述汉字串及所述初始盲文分词中的一个分词，对于所述初始盲文分词B，将B映射至对应的所述汉字串B′＝b′₁b′₂…b′_n，其中b′_j为所述初始盲文分词b_j映射为中文后的分词。

9.如权利要求6所述的用于盲人读取汉字的***，其特征在于，所述获取新盲文分词并调整模块中盲文分词连写规则如下：

连写规则：POS_k:[m,n]:POS_k-m+…+POS_k+…+POS_k+n→POS_k-m…POS_k+n

分词规则：

10.如权利要求6所述的用于盲人读取汉字的***，其特征在于，所述盲文显示模块中所述盲文标调的具体步骤为：

标调规则：tone_k:[n]:tone_k…tone_k+n