CN105404621B - 一种用于盲人读取汉字的方法及*** - Google Patents

一种用于盲人读取汉字的方法及*** Download PDF

Info

Publication number
CN105404621B
CN105404621B CN201510623525.5A CN201510623525A CN105404621B CN 105404621 B CN105404621 B CN 105404621B CN 201510623525 A CN201510623525 A CN 201510623525A CN 105404621 B CN105404621 B CN 105404621B
Authority
CN
China
Prior art keywords
braille
participle
word
chinese character
polyphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510623525.5A
Other languages
English (en)
Other versions
CN105404621A (zh
Inventor
王向东
杨阳
钱跃良
刘宏
张金超
姜文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510623525.5A priority Critical patent/CN105404621B/zh
Publication of CN105404621A publication Critical patent/CN105404621A/zh
Application granted granted Critical
Publication of CN105404621B publication Critical patent/CN105404621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种用于盲人读取汉字的方法及***,涉及自然语言处理技术领域和面向残疾人的人机交互技术领域,该方法包括获取汉语文本,对所述汉语文本进行分词操作,生成汉字串,通过发音词典、多音字字典与词频信息,参考分词得到的词性标注,将所述汉字串中的每个词转换为对应的拼音并连接为拼音串;通过查找拼音和盲符的对照字典,将所述拼音串转换为盲符串,通过分词模型对所述盲符串进行盲文分词,生成初始盲文分词,将所述汉字串与所述初始盲文分词进行融合,生成新盲文分词,根据盲文分词连写规则对所述新盲文分词进行调整;对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调,生成最终盲文分词,将所述最终盲文分词进行显示。

Description

一种用于盲人读取汉字的方法及***
技术领域
本发明涉及自然语言处理技术领域和面向残疾人的人机交互技术领域,特 别是涉及一种用于盲人读取汉字的方法及***。
背景技术
在当今信息社会,信息化水平不断提高,信息技术在人们的工作、学习和 生活中得到了广泛应用,而互联网也成为人们日常生活中的一个重要组成部分, 网络以一种便捷的方式为人们提供了海量的信息资源。在中国,各种数字化、 网络文本资源大多以汉语文本的形式存储,而这些资源难以被我国现有的 1200万盲人所使用。这阻碍了盲人像正常人一样享受海量的信息资源,使盲 人和正常人之间的信息鸿沟不断扩大,盲人在信息化社会中的生存和发展能力 受到进一步制约。虽然现有的语音合成技术日趋成熟,网络上大量的文本资源 可以通过语音合成转换为音频文件使得盲人可以通过听觉获得这些信息,但语音资源的存储比较耗费空间,并且在携带、查询等方面并不方便,而且,语音 通道获取信息效率较低,因此,对于盲人来说,阅读文本资源仍然是获得信息 最重要的方式。
我国盲人在阅读书写时使用的文字是中国盲文,中国盲文基于布莱尔 (Braille)盲文体系,每个盲符均以两列共6个点作为一个基本结构,这6 个点有的凸起,有的不凸起,形成64种变化,即能表示64种不同的字符。 在汉语盲文中,每种字符分别表示汉语拼音中的一个声母、韵母或声调,不同 的字符按照汉语拼音规则组成合法音节以表示汉字,因此,中国盲文本质上是 一种拼音文字。盲文一般印刷和书写在特制的较厚的盲文纸上,在盲文纸上 压出凸起的点位以供盲人摸读。为使盲人能够在计算机上摸读盲文,当前已经 设制和生产出了盲用点显器,这种设备可与计算机连接,接收计算机中的盲符 串,并将其在点显机面板上显示为相应的凸起的点位,当收到新的盲符串后, 可在面板上清除原来的点位重新显示新的点位。
虽然有了点显器,但是盲人仍然很难在计算机上读取汉语文本,原因在于 还需要将汉语文本转换为盲文。由于汉语普遍存在的一音多字、一字多音等现 象,使得汉语到盲文的转换并非简单的规则对应,而需要综合考虑语法、语义 等。更为重要的是,盲文具有分词连写规则,要求将具备一定语义的词或短语 用一个“空方”分隔开来,以便于盲人理解。当前已有方法一般基于盲文分词 连写规则对汉语分词结果进行调整以得到分词后的盲文,但由于盲文分词连写 规则一般与语义相关且有一定的主观性,因此,由计算机自动完成时分词准确 率较低,在使用这些方法进行转换之后,还需要做大量人工修正工作,造成了 效率低下,也使得盲文文本资源的获取的时间较长且成本较高。因此,提高汉 盲转换的准确率,减少人工修正的操作,加快汉盲转换的效率,对于提高中文 信息资源在盲人群体中的普及率,让盲人群体更好地融入主流社会中有着重要 的现实意义。
发明内容
针对现有技术的不足,本发明提出一种用于盲人读取汉字的方法及***。
本发明提出一种用于盲人读取汉字的方法,包括:
步骤1,获取汉语文本,对所述汉语文本进行分词操作,生成汉字串,通 过发音词典、多音字字典与词频信息,参考分词得到的词性标注,将所述汉字 串中的每个词转换为对应的拼音并连接为拼音串;
步骤2,通过查找拼音和盲符的对照字典,将所述拼音串转换为盲符串, 通过分词模型对所述盲符串进行盲文分词,生成初始盲文分词,将所述汉字串 与所述初始盲文分词进行融合,生成新盲文分词,根据盲文分词连写规则对所 述新盲文分词进行调整;
步骤3,对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调, 生成最终盲文分词,将所述最终盲文分词进行显示。
所述的用于盲人读取汉字的方法,所述步骤1中将所述汉字串转换成拼音 串的具体步骤为:
步骤2.1对于所述汉字串中的每个词,判断每个词是否为多字词,若为 多字词,且在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多 字词对应的拼音,否则执行步骤2.2;
步骤2.2将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉 字,对每个汉字,执行步骤2.3至2.4;
步骤2.3对于当前汉字,查找多音字字典,判断所述当前汉字是否为多 音字,若非多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音; 否则执行步骤2.4;
步骤2.4若为多音字,则执行以下步骤,具体步骤为:
步骤2.4.1如果当前多音字来自于一个单字词,则直接执行步骤2.4.2; 若为多字词,则执行下述步骤:
对于多字词中的多音字wk,a)步骤,与后续n个字组成一n+1字的词 Wk,n=wkwk+1…wk+n,在多音字词组字典中查找Wk,n,如查找到,则以Wk,n中被查 找到字的发音作为多音字wk的读音并返回;如未查到,则执行b)步骤,与前 面n个字组成一n+1字的词Wn-k,k=wn- kwn-kk+1…wn,在多音字词组字典中查找Wn-k,k, 如查找到,则以Wk,n中被查找到字的发音作为多音字的读音并返回,如未查找, 则分别与后续及前面n-1个字组成一n字的词Wk,n-1、Wn-k+1,k,对所述多字词分 别执行a)、b)步骤,直至确定所述多音字wk发音;
步骤2.4.2假设所述多音字有tone1,...,tonen共n个读音,分词词性概率定 义为Ppos,权值为λ1,语言模型概率定义为Plm,权值为λ2,分词词频概率定义 为Pfreq,权值为λ3,***为所述多音字的每一个读音计算一个得分Scorei,其中 Scorei=λ1·Ppos(tonei)+λ2·Plm(tonei)+λ3·Pfreq(tonei),取出得分最高的读音作为多音字的最终拼音并返回。
所述的用于盲人读取汉字的方法,所述步骤2中进行融合的步骤为,对于 所述汉字串C=c1c2…cm与所述初始盲文分词B=b1b2…bn,其中ci,bj分别表示所述 汉字串及所述初始盲文分词中的一个分词,对于所述初始盲文分词B,将B映 射至对应的所述汉字串B'=b1'b'2…b'n,其中b'j为所述初始盲文分词bj映射为中文 后的分词。
所述的用于盲人读取汉字的方法,所述步骤2中盲文分词连写规则如下:
连写规则:POSk:[m,n]:POSk-m+…+POSk+…+POSk+n→POSk-m…POSk+n
POSk为激活条件,m与n表示需要分别查看当前新盲文分词的前m个词 和n个词,如果m和n都为0,则表示这是一条分词规则,第二个冒号后表示 的是分词的词性组合,如果满足该组合,则执行右箭头之后的操作。
所述的用于盲人读取汉字的方法,所述步骤3中所述盲文标调的具体步骤 为:
依次查看每个调整后的所述新盲文分词对应字的拼音,并与盲文标调集中 的规则进行比对,如果满足条件,则对当前新盲文分词进行标调,所述盲文标 调集的格式如下:
标调规则:tonek:[n]:tonek…tonek+n
其中tonek为当前新盲文分词的拼音,n为需要查看当前新盲文分词的后n 个新盲文分词的拼音,tonek…tonek+n为标调条件,如果拼音序列满足标调条件, 则对tonek进行标调。
本发明还提出一种用于盲人读取汉字的***,包括:
获取拼音串模块,用于获取汉语文本,对所述汉语文本进行分词操作,生 成汉字串,通过发音词典、多音字字典与词频信息,参考分词得到的词性标注, 将所述汉字串中的每个词转换为对应的拼音并连接为拼音串;
获取新盲文分词并调整模块,用于通过查找拼音和盲符的对照字典,将所 述拼音串转换为盲符串,通过分词模型对所述盲符串进行盲文分词,生成初始 盲文分词,将所述汉字串与所述初始盲文分词进行融合,生成新盲文分词,根 据盲文分词连写规则对所述新盲文分词进行调整;
盲文显示模块,用于对根据盲文分词连写规则调整后的所述新盲文分词进 行盲文标调,生成最终盲文分词,将所述最终盲文分词进行显示。
所述的用于盲人读取汉字的***,所述获取拼音串模块中将所述汉字串转 换成拼音串的具体步骤为:
步骤2.1对于所述汉字串中的每个词,判断每个词是否为多字词,若为 多字词,且在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多 字词对应的拼音,否则执行步骤2.2;
步骤2.2将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉 字,对每个汉字,执行步骤2.3至2.4;
步骤2.3对于当前汉字,查找多音字字典,判断所述当前汉字是否为多 音字,若非多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音; 否则执行步骤2.4;
步骤2.4若为多音字,则执行以下步骤,具体步骤为:
步骤2.4.1如果当前多音字来自于一个单字词,则直接执行步骤2.4.2; 若为多字词,则执行下述步骤:
对于多字词中的多音字wk,a)步骤,与后续n个字组成一n+1字的词 Wk,n=wkwk+1…wk+n,在多音字词组字典中查找Wk,n,如查找到,则以Wk,n中被查 找到字的发音作为多音字wk的读音并返回;如未查到,则执行b)步骤,与前 面n个字组成一n+1字的词Wn-k,k=wn- kwn-kk+1…wn,在多音字词组字典中查找Wn-k,k, 如查找到,则以Wk,n中被查找到字的发音作为多音字的读音并返回,如未查找, 则分别与后续及前面n-1个字组成一n字的词Wk,n-1、Wn-k+1,k,对所述多字词分 别执行a)、b)步骤,直至确定所述多音字wk发音;
步骤2.4.2假设所述多音字有tone1,...,tonen共n个读音,分词词性概率定 义为Ppos,权值为λ1,语言模型概率定义为Plm,权值为λ2,分词词频概率定义 为Pfreq,权值为λ3,***为所述多音字的每一个读音计算一个得分Scorei,其中 Scorei=λ1·Ppos(tonei)+λ2·Plm(tonei)+λ3·Pfreq(tonei),取出得分最高的读音作为多音字的最终拼音并返回。
所述的用于盲人读取汉字的***,所述获取新盲文分词并调整模块中进行 融合的步骤为,对于所述汉字串C=c1c2…cm与所述初始盲文分词B=b1b2…bn, 其中ci,bj分别表示所述汉字串及所述初始盲文分词中的一个分词,对于所述初 始盲文分词B,将B映射至对应的所述汉字串B'=b1'b'2…b'n,其中b'j为所述初始 盲文分词bj映射为中文后的分词。
所述的用于盲人读取汉字的***,所述获取新盲文分词并调整模块中盲文 分词连写规则如下:
连写规则:POSk:[m,n]:POSk-m+…+POSk+…+POSk+n→POSk-m…POSk+n
POSk为激活条件,m与n表示需要分别查看当前新盲文分词的前m个词 和n个词,如果m和n都为0,则表示这是一条分词规则,第二个冒号后表示 的是分词的词性组合,如果满足该组合,则执行右箭头之后的操作。
所述的用于盲人读取汉字的***,所述盲文显示模块中所述盲文标调的具 体步骤为:
依次查看每个调整后的所述新盲文分词对应字的拼音,并与盲文标调集中 的规则进行比对,如果满足条件,则对当前新盲文分词进行标调,所述盲文标 调集的格式如下:
标调规则:tonek:[n]:tonek…tonek+n
其中tonek为当前新盲文分词的拼音,n为需要查看当前新盲文分词的后n 个新盲文分词的拼音,tonek…tonek+n为标调条件,如果拼音序列满足标调条件, 则对tonek进行标调。
由以上方案可知,本发明的优点在于:
本发明不同于现有的汉盲转换技术中,先对汉字串进行汉语分词,再在分 词结果上运用一系列复杂的分词连写规则进行二次处理的做法,本发明利用构 建的基于统计机器学习技术的盲文分词模型直接对盲符串进行一步式分词,分 词结果基本符合盲文分词连写规则,只需进行少量微调即可作为盲文输出,相 比现有技术,避免了用计算机处理复杂的、涉及语义的分词连写规则导致的准 确率不高的问题,分词准确率和整体汉盲转换准确率都有较大的提升。
附图说明
图1为用于盲人读取汉字的方法流程图;
图2为分词后的汉字串转换为拼音串的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例, 对本发明的用于盲人读取汉字的方法进行进一步详细说明,应当理解,此处所 描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的用于盲人读取汉字的方法主要流程如附图1所示,其输入为一个 汉语句子,即一个汉字串,输出为相应的盲文,并显示在盲用点显器上。
步骤1.汉语分词。即采用汉语分词***将输入的汉字串切分为汉语词的 序列,得到分词后的汉字串,同时为每个词标注词性,汉语分词可采用当前已 有的各种方法和***,如基于词典的最大或最小匹配方法,基于隐马尔科夫模 型(HMM)的方法,基于最大熵模型的方法等;
步骤2.将分词后的汉字串转换为拼音串,即利用发音词典、多音字字典 和词频信息,参考分词得到的词性标注,将分词后的汉字串中的每个词转换为 对应的拼音并连接为拼音串,所述发音词典为汉字词(包括单字词与多字词) 与拼音的映射表。在一个实施例中,发音词典的规模为7万词左右,所述多音 字字典中列出了所有的多音字及其每个多音字对应的多个拼音,所述词频信息 为每个汉字的在汉语文本中的出现频率,该信息预先采用大量汉语文本统计得 到。在一个实施例中,词频信息中字的规模为7000字左右。
以下为分词的具体步骤,如图2所示:
步骤2.1对于分词后的汉字串中的每个词,判断该词是否为多字词(包 含两个或以上的汉字),若为多字词,且在发音词典中能够找到该词对应的拼 音,则直接返回该拼音,否则执行步骤2.2;
步骤2.2对于输入的词(单字词或多字词),将词切分为汉字的序列,依 次取其所有的汉字,对每个汉字,执行步骤2.3至2.4;
步骤2.3对于当前汉字,查找多音字字典,判断该字是否为多音字,若 非多音字,在发音词典中查找该字的拼音并返回该拼音;否则执行步骤2.4;
步骤2.4对于多音字,需综合多种信息确定多音字的拼音。具体步骤为:
步骤2.4.1如果当前多音字来自于一个单字词,则直接执行步骤2.4.2; 否则先执行下述步骤:
对于多字词中的多音字wk,a)与后续n个字组成一n+1字的词 Wk,n=wkwk+1…wk+n,在多音字词组字典中查找Wk,n,如查找到,则以该词组中该 字的发音作为多音字的读音并返回;如未查到,则b)与前面n个字组成一n+1 字的词Wn-k,k=wn-kwn-kk+1…wn,在多音字词组字典中查找Wn-k,k,如查找到,则以 该词组中该字的发音作为多音字的读音并返回,如未查找,则分别与后续及前 面n-1个字组成一n字的词Wk,n-1、Wn-k+1,k,对该词分别执行a)、b)步骤,直至 确定该多音字发音。如果n=1时,Wk,k+1、Wk-1,k仍然无法在多音字词组字典查找 到读音,则返回空;
步骤2.4.2假设多音字有tone1,...,tonen共n个读音,分词词性概率定义为 Ppos,权值为λ1,语言模型概率定义为Plm,权值为λ2,分词词频概率定义为Pfreq, 权值为λ3,***为多音字的每一个读音计算一个得分Scorei,其中 Scorei=λ1·Ppos(tonei)+λ2·Plm(tonei)+λ3·Pfreq(tonei),取出得分最高的读音作为多音字的最终拼音并返回。需要说明的是,对于词性、词频、语言模型各 类型每一发音的概率,需要进行归一化处理,各类型的权值可根据经验值设定。
步骤3.将拼音串转换为盲符串。通过查找拼音和盲符的对照字典,将步 骤2得到的拼音串转换为盲符串,此时的盲符串是未分词的盲符串。所述拼音 和盲符的对照字典为拼音和对应盲符的映射表。
步骤4.采用预先用统计机器学习方法训练好的分词模型进行盲文分词, 生成初始盲文分词。采用当前相关领域常用的感知器模型,模型训练时采用已 经分好词的盲文语料,采用的特征为一元特征、二元特征和属性特征。分词时 对盲符串的每一个可以切分的位置提取特征并利用训练好的模型计算概率,根 据概率判断是否需要在该位置进行词语切分。
训练模型采用感知机算法,学习到从输入到输出的判别式映射模型,输入 是训练语料中的句子,输出是相应的标注结果。
对盲文句子的分词采用字分类模型。给定一个由n个字组成的句子,分词 的过程是将这个句子分成m(m≤n)块,每一块是一个有意义的词。给每个字分 配一个代表其在词中位置的类标,将分词问题转化成字分类问题。采用b,m,e,s 作为字的边界类标,b,m,e分别代表该字位于词的开始位置、中间位置、结束 位置,s代表该字是单字词。解码过程是寻找使得分数评价函数f(x)最高的标 注序列y。
其中,f(x)分数累加了每个字和类标对的分数, (i,t)∈y(s.t.1≤i≤n,t∈{b,m,e,s}),Φ(x,y)是特征提取函数,是参数向量。分词 使用维特比解码算法。
步骤5.汉语和初始盲文分词进行融合,即利用汉语盲文分词结果对盲文 分词结果进行微调,以进一步提高分词的准确率。
对于中文分词C=c1c2…cm和盲文分词B=b1b2…bn,其中ci,bj分别表示中文及 盲文中的一个分词,对于盲文分词B,可以将B映射至对应的中文分词 B'=b1'b'2…b'n,其中b'j为盲文分词bj映射为中文后的分词。对中文分词C和映射 为中文的盲文分词B'进行编辑距离对齐,可以得到C和B'中不同的片段,运用 上述的融合规则,确定不同片段的最终结果是采用中文分词结果还是盲文分词 结果。假设C和B'中不同的片段分别定义为CH=ch1ch2…chm和BR=br1br2…brn, 具体步骤如下:
步骤5.1假设chi为CH中第i个分词,brj为BR中第j个分词,初始值i,j 都设置为1
步骤5.2分别比较chi和brj,如果说明第一个分词中,盲文分词 包含中文分词,则对于第一个分词,采用盲文分词的结果brj;相反的,如果 则采用中文分词的结果chi
步骤5.3初始设置k=1
5.3.1对于的情况,定义chi,i+k=chi…chi+k,比较chi,i+k和brj:
a)如果chi,i+1=brj,设置i=i+2,j=j+1,如果i>m或j>n,跳转至步骤5.4, 否则,跳转至步骤5.2
b)如果k=k+1,跳转至5.3.1
c)如果说明chi+k中包含brj中的最后一个字,定义该字的位置 为pos,则以pos为分界,将chi+k分为chi+k,pos和chi+k,after_pos,其中 chi+k=chi+k,poschi+k,after_pos,chi+k,pos表示chi+k中第1个到第pos个字组成的词组, chi+k,after_pos表示chi+k中第pos+1字到最后一个字组成的词组。将中文分词中第 i+k个分词用chi+k,after_pos替换,即更新CH=ch1…chi+k-1chi+k,after_poschi+k+1…chm, i=i+k,j=j+1,跳转至步骤5.2
5.3.2对于的情况,定义brj,j+k=brj…brj+k,比较brj,j+k和chi:
a)如果brj,j+1=chi,则i=i+1,j=j+2,跳转至步骤5.2
b)如果k=k+1,跳转至5.3.2
c)如果说明brj+k中包含chi中的最后一个字,定义该字的位置 为pos,则以pos为分界,将brj+k分为brj+k,pos和brj+k,after_pos,其中 brj+k=brj+k,posbrj+k,after_pos,brj+k,pos表示brj+k中第1个到第pos个字组成的词组, brj+k,after_pos表示brj+k中第pos+1字到最后一个字组成的词组。将盲文分词中第 j+k个分词用brj+k,after_pos替换,即更新BR=br1…brj+k-1brj+k,after_posbrj+k+1…brn, i=i+1,j=j+k,跳转至步骤5.2
步骤5.4结束整合算法
步骤6.根据盲文分词连写规则调整分词结果。依次查看分词对应的词性, 并与盲文分词连写规则集中的激活条件进行比对,如果符合,则运用规则集中 的条件对结果进行分词或连写。盲文分词连写规则集格式如下:
连写规则:POSk:[m,n]:POSk-m+…+POSk+…+POSk+n→POSk-m…POSk+n
对于规则集中的规则,第一个冒号前的词性POSk是激活条件,规则后会 跟一中括号,里面的m和n表示需要分别查看当前分词的前m个词和n个词, 如果m和n都为0,则表示这是一条分词规则。第二个冒号后表示的是分词的 词性组合,如果满足该组合,则执行右箭头之后的操作。
步骤7.盲文标调。依次查看每个分词对应字的拼音,并与盲文标调集中 的规则进行比对,如果满足条件,则对当前字进行标调。盲文标调集的格式如 下:
标调规则:tonek:[n]:tonek…tonek+n
其中tonek为当前字的拼音,方括号中的n表示需要查看当前字的后n个字 的拼音,tonek…tonek+n为标调条件,如果拼音序列满足标调条件,则对tonek进 行标调
步骤8.盲文显示,即将盲文输出到盲用点显器上。可采用当前已有的各 种点显器产品,并调用其相应的输出接口。
本发明还提出一种用于盲人读取汉字的***,包括:
获取拼音串模块,用于获取汉语文本,对所述汉语文本进行分词操作,生 成汉字串,通过发音词典、多音字字典与词频信息,参考分词得到的词性标注, 将所述汉字串中的每个词转换为对应的拼音并连接为拼音串;
获取新盲文分词并调整模块,用于通过查找拼音和盲符的对照字典,将所 述拼音串转换为盲符串,通过分词模型对所述盲符串进行盲文分词,生成初始 盲文分词,将所述汉字串与所述初始盲文分词进行融合,生成新盲文分词,根 据盲文分词连写规则对所述新盲文分词进行调整;
盲文显示模块,用于对根据盲文分词连写规则调整后的所述新盲文分词进 行盲文标调,生成最终盲文分词,将所述最终盲文分词进行显示。
所述获取拼音串模块中将所述汉字串转换成拼音串的具体步骤为:
步骤2.1对于所述汉字串中的每个词,判断每个词是否为多字词,若为 多字词,且在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多 字词对应的拼音,否则执行步骤2.2;
步骤2.2将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉 字,对每个汉字,执行步骤2.3至2.4;
步骤2.3对于当前汉字,查找多音字字典,判断所述当前汉字是否为多 音字,若非多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音; 否则执行步骤2.4;
步骤2.4若为多音字,则执行以下步骤,具体步骤为:
步骤2.4.1如果当前多音字来自于一个单字词,则直接执行步骤2.4.2; 若为多字词,则执行下述步骤:
对于多字词中的多音字wk,a)步骤,与后续n个字组成一n+1字的词 Wk,n=wkwk+1…wk+n,在多音字词组字典中查找Wk,n,如查找到,则以Wk,n中被查 找到字的发音作为多音字wk的读音并返回;如未查到,则执行b)步骤,与前 面n个字组成一n+1字的词Wn-k,k=wn- kwn-kk+1…wn,在多音字词组字典中查找Wn-k,k, 如查找到,则以Wk,n中被查找到字的发音作为多音字的读音并返回,如未查找, 则分别与后续及前面n-1个字组成一n字的词Wk,n-1、Wn-k+1,k,对所述多字词分 别执行a)、b)步骤,直至确定所述多音字wk发音;
步骤2.4.2假设所述多音字有tone1,...,tonen共n个读音,分词词性概率定 义为Ppos,权值为λ1,语言模型概率定义为Plm,权值为λ2,分词词频概率定义 为Pfreq,权值为λ3,***为所述多音字的每一个读音计算一个得分Scorei,其中 Scorei=λ1·Ppos(tonei)+λ2·Plm(tonei)+λ3·Pfreq(tonei),取出得分最高的读音作为多音字的最终拼音并返回。
所述获取新盲文分词并调整模块中进行融合的步骤为,对于所述汉字串 C=c1c2…cm与所述初始盲文分词B=b1b2…bn,其中ci,bj分别表示所述汉字串及所 述初始盲文分词中的一个分词,对于所述初始盲文分词B,将B映射至对应的 所述汉字串B'=b1'b'2…b'n,其中b'j为所述初始盲文分词bj映射为中文后的分词。
所述获取新盲文分词并调整模块中盲文分词连写规则如下:
连写规则:POSk:[m,n]:POSk-m+…+POSk+…+POSk+n→POSk-m…POSk+n
POSk为激活条件,m与n表示需要分别查看当前新盲文分词的前m个词 和n个词,如果m和n都为0,则表示这是一条分词规则,第二个冒号后表示 的是分词的词性组合,如果满足该组合,则执行右箭头之后的操作。
所述盲文显示模块中所述盲文标调的具体步骤为:
依次查看每个调整后的所述新盲文分词对应字的拼音,并与盲文标调集中 的规则进行比对,如果满足条件,则对当前新盲文分词进行标调,所述盲文标 调集的格式如下:
标调规则:tonek:[n]:tonek…tonek+n
其中tonek为当前新盲文分词的拼音,n为需要查看当前新盲文分词的后n 个新盲文分词的拼音,tonek…tonek+n为标调条件,如果拼音序列满足标调条件, 则对tonek进行标调。
下面通过对一个汉语句子进行汉语到盲文的转换及显示作为实例,详细介 绍本发明的用于盲人读取汉字的方法及***的实施过程,应该明白该例子只是 用于举例说明,而不是意图限制本发明的范围。
假设需转换为盲文的汉语句子为:“北京是她们的目的地”,采用汉语分词 模块进行汉语分词并进行词性标注,得到的结果为:“北京/NR是/VC她们/PN 的/DEG目的/NN地/NN”。
调用汉字串到拼音串转换模块将分词结果转换为拼音串,对于“北京”、 “是”、“她们”、“目的”这五个词,通过查找发音字典可直接确认读音;对于 “的”和“地”这两个字,由于都是多音字,需调用算法确定多音字发音。
以“的”字为例,通过词性标注可知“的”字的词性为“DEG”,由“DEG” 可以确认该字的发音为“de”,由于通过词性可唯一确认“的”字发音,所以:
Ppos(de)=1,
Ppos(di)=0
在前一个词为“她们”的条件下,通过查找语言模型概率,可以得到发音 为“de”的概率为0.45,发音为“di”的概率为0.05:
Plm(de)=P(de|tamen)=0.45
Plm(di)=P(di|tamen)=0.05
进行归一化处理后,可以得到:Plm(de)=0.9,Plm(di)=0.1
在词频字典中查找“的”的单字词频,发音为“de”的次数为185次,发 音为“di”的次数为75次,通过计算可知,发音为“de”的概率为0.71,发 音为“di”的概率为0.29
根据经验值,设置词性、语言模型、词频三者概率的权重都为1/3,则:
通过得分比较,可以确定多音字“的”的最终发音为“de”。
类似的,可以确定“地”字的发音为“di”。最终得到汉语句子对应的拼音串为“beijing shi ta men de mu di di”。
调用拼音串到盲符串转换模块,得到拼音串对应的盲符串为“B!G*:T9 M0 D MUDI DI”。(本说明书中采用的盲文表示为盲符的ASCII码编码,而非 盲符的点位形式。下文中相同。)
调用盲文分词模块对盲符串进行分词,得到分词后的盲符串为“B!G*:|T9 M0|D|MU DI DI”。
调用汉语和盲文分词结果融合模块对中文分词结果和盲文分词结果进行 融合。将分词后盲文串对应至汉语串,可得到采用盲文分词的汉字串为“北京 是/她们/的/目的地”,将盲文分词的汉字串与汉语分词的汉字串进行编辑距离 对齐,可得到附表1:
附表1:中文、盲文分词对照表
对比附表1中汉语和盲文分词,有两个不同的片段,片段1“北京是”和 片段2“目的地”。
对片段1进行处理,片段1的汉语分词为“北京/是”,盲文分词为“北京 是”,取汉语分词第一个分词“北京”和盲文分词的第一个分词“北京是”进 行对比,由于盲文分词中第一个词“北京是”包含了汉语分词中第一个词“北 京”,继续查看汉语分词的第二个词“是”,并与第一个词“北京”进行组合形 成“北京是”与盲文分词的第一个词“北京是”进行对比,因为两者相同且片 段1中不再有其它未处理词,根据选取字数较多的词语作为最终分词的规则, 因此确定片段1的分词为“北京是”。
类似的,可以确定片段2的分词为“目的地”。最终,可以确定融合后的 分词结果为“北京是/她们/的/目的地”。
调用分词结果调整模块,根据汉语分词标注结果,北京的词性为“NR”, 即专有名词,盲文标准中对于专有名词,后跟单音节通用名词才进行连写,示 例中“北京”后跟“是”,词性为“VC”,即“系动词”,不满足盲文标准的条 件,不应该进行连写,应对融合的分词“北京是”进行拆分,得到“北京/是”, 经调整后,得到的分词结果为“北京/是/她们/的/目的地”,其对应的盲文分 词表示形式为“B!G*:T9M0 D MUDIDI”。
调用盲文标调模块对分词结果进行标调。盲文标准中规定,“他”、“她”、 “字”需使用特殊的表示方法,对于“她”字必须要标调。“她”的盲符为“T9”, 声调为第一声,盲符中的表示为“A”,标调后盲文串的表示形式为“B!G*:T9AM0 D MUDIDI”。
调用盲文显示模块将盲文串显示在盲用点显器上。

Claims (10)

1.一种用于盲人读取汉字的方法,其特征在于,包括:
步骤1,获取汉语文本,对所述汉语文本进行分词操作,生成汉字串,通过发音词典、多音字字典与词频信息,参考分词得到的词性标注,将所述汉字串中的每个词转换为对应的拼音并连接为拼音串;
步骤2,通过查找拼音和盲符的对照字典,将所述拼音串转换为未分词的盲符串,通过采用预先用统计机器学习方法训练好的分词模型对所述盲符串进行盲文分词,生成初始盲文分词,将所述汉字串与所述初始盲文分词进行融合,生成新盲文分词,根据盲文分词连写规则对所述新盲文分词进行调整;
步骤3,对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调,生成最终盲文分词,将所述最终盲文分词进行显示。
2.如权利要求1所述的用于盲人读取汉字的方法,其特征在于,所述步骤1中将所述汉字串转换成拼音串的具体步骤为:
步骤2.1 对于所述汉字串中的每个词,判断每个词是否为多字词,若为多字词,且在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多字词对应的拼音,否则执行步骤2.2;
步骤2.2 将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉字,对每个汉字,执行步骤2.3至2.4;
步骤2.3 对于当前汉字,查找多音字字典,判断所述当前汉字是否为多音字,若非多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音;否则执行步骤2.4;
步骤2.4 若为多音字,则执行以下步骤,具体步骤为:
步骤2.4.1 如果当前多音字来自于一个单字词,则直接执行步骤2.4.2;若为多字词,则执行下述步骤:
对于多字词中的多音字wk,a)步骤,与后续n个字组成一n+1字的词Wk,n=wkwk+1…wk+n,在多音字词组字典中查找Wk,n,如查找到,则以Wk,n中被查找到字的发音作为多音字wk的读音并返回;如未查到,则执行b)步骤,与前面n个字组成一n+1字的词Wn-k,k=wn-kwn-kk+1…wn,在多音字词组字典中查找Wn-k,k,如查找到,则以Wk,n中被查找到字的发音作为多音字的读音并返回,如未查找,则分别与后续及前面n-1个字组成一n字的词Wk,n-1、Wn-k+1,k,对所述多字词分别执行a)、b)步骤,直至确定所述多音字wk发音;
步骤2.4.2 假设所述多音字有tone1,...,tonen共n个读音,分词词性概率定义为Ppos,权值为λ1,语言模型概率定义为Plm,权值为λ2,分词词频概率定义为Pfreq,权值为λ3,***为所述多音字的每一个读音计算一个得分Scorei,其中Scorei=λ1·Ppos(tonei)+λ2·Plm(tonei)+λ3·Pfreq(tonei),取出得分最高的读音作为多音字的最终拼音并返回。
3.如权利要求1所述的用于盲人读取汉字的方法,其特征在于,所述步骤2中进行融合的步骤为,对于所述汉字串C=c1c2…cm与所述初始盲文分词B=b1b2…bn,其中ci,bj分别表示所述汉字串及所述初始盲文分词中的一个分词,对于所述初始盲文分词B,将B映射至对应的所述汉字串B′=b′1b′2…b′n,其中b′j为所述初始盲文分词bj映射为中文后的分词。
4.如权利要求1所述的用于盲人读取汉字的方法,其特征在于,所述步骤2中盲文分词连写规则如下:
连写规则:POSk:[m,n]:POSk-m+…+POSk+…+POSk+n→POSk-m…POSk+n
分词规则:
POSk为激活条件,m与n表示需要分别查看当前新盲文分词的前m个词和n个词,如果m和n都为0,则表示这是一条分词规则,第二个冒号后表示的是分词的词性组合,如果满足该组合,则执行右箭头之后的操作。
5.如权利要求1所述的用于盲人读取汉字的方法,其特征在于,所述步骤3中所述盲文标调的具体步骤为:
依次查看每个调整后的所述新盲文分词对应字的拼音,并与盲文标调集中的规则进行比对,如果满足条件,则对当前新盲文分词进行标调,所述盲文标调集的格式如下:
标调规则:tonek:[n]:tonek…tonek+n
其中tonek为当前新盲文分词的拼音,n为需要查看当前新盲文分词的后n个新盲文分词的拼音,tonek…tonek+n为标调条件,如果拼音序列满足标调条件,则对tonek进行标调。
6.一种用于盲人读取汉字的***,其特征在于,包括:
获取拼音串模块,用于获取汉语文本,对所述汉语文本进行分词操作,生成汉字串,通过发音词典、多音字字典与词频信息,参考分词得到的词性标注,将所述汉字串中的每个词转换为对应的拼音并连接为拼音串;
获取新盲文分词并调整模块,用于通过查找拼音和盲符的对照字典,将所述拼音串转换为未分词的盲符串,通过采用预先用统计机器学习方法训练好的分词模型对所述盲符串进行盲文分词,生成初始盲文分词,将所述汉字串与所述初始盲文分词进行融合,生成新盲文分词,根据盲文分词连写规则对所述新盲文分词进行调整;
盲文显示模块,用于对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调,生成最终盲文分词,将所述最终盲文分词进行显示。
7.如权利要求6所述的用于盲人读取汉字的***,其特征在于,所述获取拼音串模块中将所述汉字串转换成拼音串的具体步骤为:
步骤2.1 对于所述汉字串中的每个词,判断每个词是否为多字词,若为多字词,且在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多字词对应的拼音,否则执行步骤2.2;
步骤2.2 将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉字,对每个汉字,执行步骤2.3至2.4;
步骤2.3 对于当前汉字,查找多音字字典,判断所述当前汉字是否为多音字,若非多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音;否则执行步骤2.4;
步骤2.4 若为多音字,则执行以下步骤,具体步骤为:
步骤2.4.1 如果当前多音字来自于一个单字词,则直接执行步骤2.4.2;若为多字词,则执行下述步骤:
对于多字词中的多音字wk,a)步骤,与后续n个字组成一n+1字的词Wk,n=wkwk+1…wk+n,在多音字词组字典中查找Wk,n,如查找到,则以Wk,n中被查找到字的发音作为多音字wk的读音并返回;如未查到,则执行b)步骤,与前面n个字组成一n+1字的词Wn-k,k=wn-kwn-kk+1…wn,在多音字词组字典中查找Wn-k,k,如查找到,则以Wk,n中被查找到字的发音作为多音字的读音并返回,如未查找,则分别与后续及前面n-1个字组成一n字的词Wk,n-1、Wn-k+1,k,对所述多字词分别执行a)、b)步骤,直至确定所述多音字wk发音;
步骤2.4.2 假设所述多音字有tone1,...,tonen共n个读音,分词词性概率定义为Ppos,权值为λ1,语言模型概率定义为Plm,权值为λ2,分词词频概率定义为Pfreq,权值为λ3,***为所述多音字的每一个读音计算一个得分Scorei,其中Scorei=λ1·Ppos(tonei)+λ2·Plm(tonei)+λ3·Pfreq(tonei),取出得分最高的读音作为多音字的最终拼音并返回。
8.如权利要求6所述的用于盲人读取汉字的***,其特征在于,所述获取新盲文分词并调整模块中进行融合的步骤为,对于所述汉字串C=c1c2…cm与所述初始盲文分词B=b1b2…bn,其中ci,bj分别表示所述汉字串及所述初始盲文分词中的一个分词,对于所述初始盲文分词B,将B映射至对应的所述汉字串B′=b′1b′2…b′n,其中b′j为所述初始盲文分词bj映射为中文后的分词。
9.如权利要求6所述的用于盲人读取汉字的***,其特征在于,所述获取新盲文分词并调整模块中盲文分词连写规则如下:
连写规则:POSk:[m,n]:POSk-m+…+POSk+…+POSk+n→POSk-m…POSk+n
分词规则:
POSk为激活条件,m与n表示需要分别查看当前新盲文分词的前m个词和n个词,如果m和n都为0,则表示这是一条分词规则,第二个冒号后表示的是分词的词性组合,如果满足该组合,则执行右箭头之后的操作。
10.如权利要求6所述的用于盲人读取汉字的***,其特征在于,所述盲文显示模块中所述盲文标调的具体步骤为:
依次查看每个调整后的所述新盲文分词对应字的拼音,并与盲文标调集中的规则进行比对,如果满足条件,则对当前新盲文分词进行标调,所述盲文标调集的格式如下:
标调规则:tonek:[n]:tonek…tonek+n
其中tonek为当前新盲文分词的拼音,n为需要查看当前新盲文分词的后n个新盲文分词的拼音,tonek…tonek+n为标调条件,如果拼音序列满足标调条件,则对tonek进行标调。
CN201510623525.5A 2015-09-25 2015-09-25 一种用于盲人读取汉字的方法及*** Active CN105404621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510623525.5A CN105404621B (zh) 2015-09-25 2015-09-25 一种用于盲人读取汉字的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510623525.5A CN105404621B (zh) 2015-09-25 2015-09-25 一种用于盲人读取汉字的方法及***

Publications (2)

Publication Number Publication Date
CN105404621A CN105404621A (zh) 2016-03-16
CN105404621B true CN105404621B (zh) 2018-07-10

Family

ID=55470115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510623525.5A Active CN105404621B (zh) 2015-09-25 2015-09-25 一种用于盲人读取汉字的方法及***

Country Status (1)

Country Link
CN (1) CN105404621B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203508A (zh) * 2016-03-17 2017-09-26 富士施乐实业发展(中国)有限公司 盲文文件生成方法及***
CN107273357B (zh) 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107368474B (zh) * 2017-07-07 2020-08-04 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法
CN108052936B (zh) * 2017-11-03 2021-06-29 中国科学院计算技术研究所 一种盲文图像自动倾斜校正方法及***
CN107886808B (zh) * 2017-11-03 2021-03-09 中国科学院计算技术研究所 一种盲文方辅助标注方法及***
CN108062886A (zh) * 2017-11-03 2018-05-22 中国科学院计算技术研究所 盲文点交互式标注方法及***
CN108491441B (zh) * 2018-02-12 2022-02-01 北京联合大学 一种盲文信息统计***
CN108461111A (zh) * 2018-03-16 2018-08-28 重庆医科大学 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
CN110920268B (zh) * 2019-11-19 2021-05-28 西安交通大学 一种盲文刻印方法及其***
CN111078898B (zh) * 2019-12-27 2023-08-08 出门问问创新科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
CN112257420B (zh) * 2020-10-21 2024-06-18 北京猿力未来科技有限公司 文本处理方法及装置
CN113035026B (zh) * 2021-03-10 2022-06-17 之江实验室 一种盲文信息无障碍的视听触感知匹配方法
CN116432603B (zh) * 2023-03-27 2023-10-13 之江实验室 一种存算一体汉语盲文芯片

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1323004A (zh) * 2001-06-08 2001-11-21 清华大学 汉语盲文到汉字的自动转换方法
CN1323003A (zh) * 2001-06-22 2001-11-21 清华大学 盲人用的汉语智能计算机***
WO2002006916A3 (en) * 2000-07-18 2003-10-30 Yishay Langenthal Reading aid for the blind
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的***和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002006916A3 (en) * 2000-07-18 2003-10-30 Yishay Langenthal Reading aid for the blind
CN1323004A (zh) * 2001-06-08 2001-11-21 清华大学 汉语盲文到汉字的自动转换方法
CN1323003A (zh) * 2001-06-22 2001-11-21 清华大学 盲人用的汉语智能计算机***
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的***和方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EasyBraille:中文汉语盲文自动转换***;朱小燕,包塔;《自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集》;20010801;326-331 *
汉字—盲文转换***的设计;杨潮,车磊;《北京印刷学院学报》;20111231;第19卷(第6期);第4节,图4 *
汉语—盲文机器翻译***的研究与实现;李宏乔 等;《计算机应用》;20021110;第22卷(第11期);第2.3节,第3.2节,第3.4节 *
面向统计机器翻译的领域自适应方法研究;苏晨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815;第I138-765页正文第22页第3.3节 *

Also Published As

Publication number Publication date
CN105404621A (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN105404621B (zh) 一种用于盲人读取汉字的方法及***
CN107741928B (zh) 一种基于领域识别的对语音识别后文本纠错的方法
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
US9613621B2 (en) Speech recognition method and electronic apparatus
WO2018153213A1 (zh) 一种多语言混合语音识别方法
CN104166462A (zh) 一种文字的输入方法和***
CN109241540A (zh) 一种基于深度神经网络的汉盲自动转换方法和***
CN110083711A (zh) 一种汉字拼音转换方法及转换***
CN103810993B (zh) 一种文本注音方法及装置
US20180089176A1 (en) Method of translating speech signal and electronic device employing the same
Stein et al. Hand in hand: automatic sign language to English translation
CN107229611B (zh) 一种基于词对齐的历史典籍分词方法
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Liang et al. A Taiwanese text-to-speech system with applications to language learning
CN111429886B (zh) 一种语音识别方法及***
CN113571037A (zh) 一种汉语盲文语音合成方法及***
JP2001229162A (ja) 中国語文書自動校正方法及び装置
CN110399608A (zh) 一种基于拼音的对话***文本纠错***及方法
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
CN106294310A (zh) 一种藏语声调预测方法及***
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
Dinarelli et al. Concept segmentation and labeling for conversational speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant