CN101118540A - 汉字汉语拼音与汉语语音码双向可逆转换方法 - Google Patents

汉字汉语拼音与汉语语音码双向可逆转换方法 Download PDF

Info

Publication number
CN101118540A
CN101118540A CNA2006100296720A CN200610029672A CN101118540A CN 101118540 A CN101118540 A CN 101118540A CN A2006100296720 A CNA2006100296720 A CN A2006100296720A CN 200610029672 A CN200610029672 A CN 200610029672A CN 101118540 A CN101118540 A CN 101118540A
Authority
CN
China
Prior art keywords
chinese
speech
word
sign indicating
indicating number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100296720A
Other languages
English (en)
Inventor
苗玉水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2006100296720A priority Critical patent/CN101118540A/zh
Publication of CN101118540A publication Critical patent/CN101118540A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明是一种汉字汉语拼音与汉语语音码双向可逆转换方法,属于计算机汉字汉语信息处理技术领域。通过这种方法可以方便地将汉字汉语拼音可逆地转换成一种用且仅用26个拉丁字母以词为单位的汉语语音码,转换成这种汉语语音码后,就克服了目前所有汉语信息只能用汉字和汉语拼音表示,且汉字和汉语拼音与ASCII码不能100%兼容的弊端,需要时该汉语语音码还可以方便地转换成汉字和汉语拼音及汉语语音,本发明能广泛应用于对外汉语教学、幼儿教育、农村地区扫盲、计算机汉字汉语信息处理等领域,给计算机汉字汉语信息处理提供了极大的便利。

Description

汉字汉语拼音与汉语语音码双向可逆转换方法
一、所属技术领域
本发明是一种汉字汉语拼音双向可逆地转换成一种用且仅用26个拉丁字母以词为单位的汉语语音码的方法,属于计算机汉字和汉语信息处理技术领域。
二、背景技术
二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。
众所周知,计算机是通过处理各种符号,特别是通过处理128个ASCII码的方法来进行各种字符信息处理的,由于26个拉丁字母包含在128个ASCII码的码符集内,因此,使用26个拉丁字母以英文为代表的的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。
由于我国记录汉语使用的是方块表意汉字或汉语拼音,众所周知方块表意汉字的计算机机内码不在128个ASCII码的码符集内,而汉语拼音还存在几个不便于计算机信息处理的弊病,比如:第一拼式太长,第二五个声调(含一个轻声)没有字母化且不在ASCII码的范围内,第三汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,而是上下排列,第四如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。所有这些都不便于计算机对汉语信息的处理。由于自身的这些不足,它们不能作为一种拼音文字,这就给计算机的汉语信息处理带来很大的麻烦。
为此,众多专家,学者在这方面进行了研究和探索,但是由于汉语是一种有声调的非常特别的语言,要想用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行编码,而且为了让任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象,每一个音节里还必须隐含一个隔音节符号,这样就使得该技术方案的难度非常大,这也是长期以来这个问题一直没得到有效解决的根本原因。
据了解,目前只有历史上的中国的文字改革方案用过***数字表示汉语音节的声调,在通过计算机汉字与“拼音码”自动转换中,大部分软件只能将汉字转换成非字母化的声调标在韵母上的传统汉语拼音,而且大部分不分词,像交大铭泰出的《东方快车》翻译软件等,美国微软公司的word有将汉字的拼音自动标注在汉字上面的功能,目前看到的拼音是非字母化的声调标在韵母上的传统汉语拼音,过去还看到它与历史上的中国的文字改革方案用***数字表示汉语音节的声调像类似的方法,将五个声调转换成1、2、3、4、5五个***数字标注在音节的韵母后面,这样做是比目前的汉语拼音声调写在韵母上面有进步,解决了上面提到的《汉语拼音方案》本身还存在以下几个方面的不足中的其中一个不足,即汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,但上面提到的《汉语拼音方案》本身还存在其它几个方面的主要不足还是未能解决,从汉语信息的编码技术角度看,其实质是未能发明出用且仅用26个码元,特别是用且仅用26个拉丁字母作为码元,对包含汉语的22个声母(含一个零声母),38个韵母,5个声调进行编码的技术,更不要说发明出解决由于仅用26个拉丁字母作为码元,汉语按词连写后的音节和音节之间的隔音节技术。同时微软的两种转换方法中都是对显示的汉字进行注音而没有直接单独用来表达汉语信息,更主要的不足是包括微软在内的所有转换方法只有汉字转换成汉语拼音,而没有一种方法是解决汉语拼音如何转换成汉字,更不要说有一种从以26个拉丁字母作为码元的汉语语音码转换成汉字或汉语拼音的方法。
三、发明内容
本发明的目的是提供一种全新的,将汉字汉语拼音可逆地转换成一种用且仅用26个拉丁字母以词为单位的汉语语音码的方法来解决以上存在的弊端。
具体来说本发明方法所采用的汉语语音码,它用且仅用26个拉丁字母作为码元,以词为单位采用按词连写的方式对组成词的每一音节的声、韵、调先进行编码转换,再依照“声码+介码+韵码+调码兼隔音节符号”的顺序进行编码,由于26个拉丁字母属于128个ASCII码码符集范围内,因此一旦传统用于表示汉语信息的汉字汉语拼音转换成该种汉语语音码后,世界上一切用于处理西码的所有软硬件资源都可以不加改造地用于处理汉语语音码所表达的汉语信息。
四、具体实施方式
下面结合实施例对本发明的具体实施方式作进一步的说明。
(一)所采用的语音码的每一音节声、韵、调的编码方法可以采用类似以下的方法:
(注:括号内的符号均为汉语拼音符号,不带括号的字母为本发明的汉语每一音节声、韵、调的编码,以上以下叙述均同。)
1、声码的编码:
b:(b)p:(p)m:(m)f:(f)d:(d)t:(t)
n:(n)l:(l)g:(g)k:(k)h:(h)j:(zh)(j)
q:(ch),(q)x:(sh),(x)r:(r)
z:(z)c:(c)s:(s)y:(y)w:(w)
2、介码的编码:
i:(i)u:(u)y:(ü)
3、韵码的编码:
a:(a)o:(o)e:(e)i:(i)u:(u)y:(ü)
k:(ao)c:(ai)s:(an)x:(ou)w:(ei)n:(en)
z:(ua)l:(uo)b:(ang)d:(ong)p:(eng)
q:(ing)g:(ng)(无声母韵母)er:(er)
r:(i)[只与(zh)、(ch)、(sh)相拼]
4、调码的编码:
a:(-)阴平e:(/)阳平v:(V)上声u:(\)去声
o:(不标)轻声
(二)利用上述编码的汉语信息全息表示可以采用如下的方法:
以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开。
这里由于将独立运用的汉字看作单音节词,因此,本发明所采用的汉字编码的方法和汉语单词音节编码的方法相同,在本发明中采用单词音节编码按词连写后得到单词编码,我们将由若干个单词组成的一组词称为词组,本发明所采用词组的编码同汉语句子的编码相同,由于单词可以表示词组和汉语句子,因此在本发明中所采用的词组的编码和汉语句子的编码都可以通过单词的编码实现,而不需要对词组和汉语句子另外制定一套专门的编码,一般在整句整篇以词为单位表示汉语信息时,在理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,用编码表达时也不会产生歧义。
下面例举一些用本发明方法对以词为单位的汉字汉语拼音进行双向转换时的例子:
1、汉字和汉语拼音转换成汉语语音码:
(1)对汉字首先将汉字通过查表的方式转换成对应的汉语拼音:
比如:我们会使用汉语拉丁文。转换成拼音后成为:
wǒmen huìshǐyòng hàn yǔlādīng wěn。
(2)对由汉字转换过来的或原有的汉语拼音则通过以上汉语拼音和语音码码表对照表将汉语拼音转换成如下汉语语音码串。
wov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节和音节之间用空格隔开)
或wovmnohuiuxrvyduhsuyyvlaadqawnv.(音节和音节之间不用空格隔开)
(熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。)
为了让大家看清楚,这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练语音码后,声调兼隔音节符能够方便区分出来。
(3)将语音码串进行分词切割,最终完成语音码转换。
通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码:
wovmno huiu xrvydu hsuyyv laadqawnv.
2、汉语语音码转换成汉字和汉语拼音:
通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音,比如:
wovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词和拼音音节或单词对照表得到wǒmen,再通过wǒmen查找到以词为单位的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后,一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音,直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如:wovmno可以转换为wǒmen,再通过wǒmen可以转换成“我们”,这样wovmno和“我们”便直接建立了对应关系,需要时可以不通过汉语拼音wǒmen进行转换,而直接在wovmno和“我们”之间实现双向可逆转换。
遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如:ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道:前面一句中的“ysvlune”代表邮轮,后面一句中的“ysvlune”代表油轮,这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。
上述双向可逆转换的结果既可以单独显示也可以对照显示,比如:
原句:“我们会使用汉语拉丁文。”用本发明方法计算机可以可逆地转换为以下几种形式:
1.“Wǒmen    huì    shǐyòng    hànyǔ  lādīngwěn。”
2.“wovmno    huiu    xrvydu       hsuyyv   laadqawnv.”
3.“Wǒmen    huì    shǐ         yòng    hànyǔ    lādīngvwěn。”
    我们      会      使           用       汉语       拉丁文。
4.“wovmno    huiu    xrvydu      hsuyyv   laadqawnv.”
    我们      会      使用        汉语     拉丁文。
5.“Wǒmen     huì    shǐyòng   hànyǔ  lādīngwěn。”
“wovmno      huiu     xrvydu      hsuyyv   laadqawnv.”
为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语,也可以在每个对照的单词中***相应的外语单词或少数民族文字,比如在下面的单词中加入相应的英语单词作中文意思的注解:
“wovmno Wǒmen      huiu huì xrvydu shǐyòng   hsuyyvhànyǔ  laadqawnv lādīngwěn。”
  我们   We          会   can  使用   use         汉语Chinese    拉丁文Latine。
依次类推,用上述方法,可以对所有的任意多音节的以词为单位的汉字汉语拼音与汉语语音码之间进行双向可逆转换,并根据需要单独或对照显示,以这些汉语单词为基础,就可以实现任何以词为单位的汉字和汉语拼音与汉语语音码之间的双向可逆转换,从而方便进行各种汉字、汉语信息处理。

Claims (10)

1.一种汉字汉语拼音与汉语语音码双向可逆转换的方法。
2.一种如权利要求书1所述的转换的方法,其特征在于:所采用的汉语语音码以词为单位,采用按词连写的方式,用且仅用26个拉丁字母来表达汉语信息,组成词的每一音节具有声、韵、调信息,采用“声码+介码+韵码+调码兼隔音节符号”的顺序进行编码排列。
3.一种如权利要求书1或2所述的转换的方法,其特征在于:在汉字或汉语拼音转换成汉语语音码时,汉字先转换成汉语拼音,遇异音同形字时将可能的汉语拼音全部列出,汉语拼音则无须先转换,然后再根据汉语音节语音码的声码、介码、韵码、调码与汉语拼音编码对照表先转换成相应的汉语音节语音码串,然后再查词库进行按词切分。
4.一种如权利要求书3所述的转换的方法,其特征在于:对包括异音字引起的多种单词切分,可以依据汉语词法句法上下文联系及统计规律等手段先进行判别后再进行单词分割,对已经分过词的汉字和汉语拼音转换成汉语语音码后则不必再进行单词切分,仍以原来的单词为单位进行转换。
5.一种如权利要求书4所述的转换的方法,其特征在于:上述分割出的单词采取同一单词的音节与音节之间连写,词与词之间空格的方式表示,在汉语信息表示处于汉语语音码状态时其标点符号的用法与英文标点符号的用法相同。
6.一种如权利要求书1或2所述的转换的方法,其特征在于:当汉语语音码需要转换成汉语拼音时,既可以采用查汉语语音码的声码、介码、韵码、调码与汉语拼音编码对照表,也可以查通过该对照表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后输出相应的汉语拼音。
7.一种如权利要求书1或2所述的转换的方法,其特征在于:当汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查语音码与以词为单位的汉字对照表、匹配后输出相应的汉字。
8.一种如权利要求书7所述的转换的方法,其特征在于:遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定。
9.一种如权利要求书1或2所述的转换的方法,其特征在于:在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态。
10.一种如权利要求书1或2所述的转换的方法,其特征在于:需要时转换后的字符可以单独表示汉语信息,也可以与汉字、汉语拼音、汉语语音码、外语单词、少数民族文字按排列组合的方式对照显示表示汉语信息。
CNA2006100296720A 2006-08-02 2006-08-02 汉字汉语拼音与汉语语音码双向可逆转换方法 Pending CN101118540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006100296720A CN101118540A (zh) 2006-08-02 2006-08-02 汉字汉语拼音与汉语语音码双向可逆转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100296720A CN101118540A (zh) 2006-08-02 2006-08-02 汉字汉语拼音与汉语语音码双向可逆转换方法

Publications (1)

Publication Number Publication Date
CN101118540A true CN101118540A (zh) 2008-02-06

Family

ID=39054658

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100296720A Pending CN101118540A (zh) 2006-08-02 2006-08-02 汉字汉语拼音与汉语语音码双向可逆转换方法

Country Status (1)

Country Link
CN (1) CN101118540A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479078A (zh) * 2010-11-26 2012-05-30 苗玉水 汉语语音码计算机汉语编程方法
CN102541821A (zh) * 2010-12-30 2012-07-04 微软公司 交互式多语种语言的带注释显示方法及***
CN102902660A (zh) * 2011-07-26 2013-01-30 苗玉水 汉语语音码全拼和简拼汉语全息信息处理方法
CN103297710A (zh) * 2013-06-19 2013-09-11 江苏华音信息科技有限公司 汉语自动实时标注中外文字幕音像录播设备
CN103297711A (zh) * 2013-06-19 2013-09-11 江苏华音信息科技有限公司 汉语自动实时标注汉语字幕录播设备
CN103309855A (zh) * 2013-06-18 2013-09-18 江苏华音信息科技有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播设备
CN104239361A (zh) * 2013-06-24 2014-12-24 上海能感物联网有限公司 汉语语音遥控查询指路机信息的方法
CN104252448A (zh) * 2013-06-26 2014-12-31 上海能感物联网有限公司 汉语自然人语音现场实时查询指路机信息的方法
CN104252451A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 汉语自然语文本遥控查询指路机信息的方法
CN102541821B (zh) * 2010-12-30 2016-12-14 微软技术许可有限责任公司 交互式多语种语言的带注释显示方法及***
CN109271625A (zh) * 2018-08-28 2019-01-25 江苏省基础地理信息中心 一种汉语地名的拼音拼写规范化方法
CN110189744A (zh) * 2019-04-09 2019-08-30 阿里巴巴集团控股有限公司 文本处理的方法、装置和电子设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479078A (zh) * 2010-11-26 2012-05-30 苗玉水 汉语语音码计算机汉语编程方法
CN102479078B (zh) * 2010-11-26 2016-05-25 青海汉拉信息科技股份有限公司 汉语语音码计算机汉语编程方法
CN102541821A (zh) * 2010-12-30 2012-07-04 微软公司 交互式多语种语言的带注释显示方法及***
CN102541821B (zh) * 2010-12-30 2016-12-14 微软技术许可有限责任公司 交互式多语种语言的带注释显示方法及***
CN102902660B (zh) * 2011-07-26 2016-04-20 青海汉拉信息科技股份有限公司 汉语语音码全拼和混拼汉语全息信息处理方法
CN102902660A (zh) * 2011-07-26 2013-01-30 苗玉水 汉语语音码全拼和简拼汉语全息信息处理方法
CN103309855A (zh) * 2013-06-18 2013-09-18 江苏华音信息科技有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播设备
CN103297711B (zh) * 2013-06-19 2016-11-02 青海汉拉信息科技股份有限公司 汉语自动实时标注汉语字幕录播设备
CN103297710B (zh) * 2013-06-19 2016-08-17 青海汉拉信息科技股份有限公司 汉语自动实时标注中外文字幕音像录播设备
CN103297711A (zh) * 2013-06-19 2013-09-11 江苏华音信息科技有限公司 汉语自动实时标注汉语字幕录播设备
CN103297710A (zh) * 2013-06-19 2013-09-11 江苏华音信息科技有限公司 汉语自动实时标注中外文字幕音像录播设备
CN104239361A (zh) * 2013-06-24 2014-12-24 上海能感物联网有限公司 汉语语音遥控查询指路机信息的方法
CN104252451A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 汉语自然语文本遥控查询指路机信息的方法
CN104252448A (zh) * 2013-06-26 2014-12-31 上海能感物联网有限公司 汉语自然人语音现场实时查询指路机信息的方法
CN109271625A (zh) * 2018-08-28 2019-01-25 江苏省基础地理信息中心 一种汉语地名的拼音拼写规范化方法
CN109271625B (zh) * 2018-08-28 2023-07-14 江苏省基础地理信息中心 一种汉语地名的拼音拼写规范化方法
CN110189744A (zh) * 2019-04-09 2019-08-30 阿里巴巴集团控股有限公司 文本处理的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN101118541B (zh) 汉语语音码汉语语音识别方法
CN101118540A (zh) 汉字汉语拼音与汉语语音码双向可逆转换方法
CN102479208B (zh) 汉语语音码多样网页信息搜索转换翻译方法
CN101118539B (zh) 现代汉语信息全息拉丁化汉语语音码处理法
CN101131689B (zh) 汉语外语句型转换双向机器翻译方法
CN102902660B (zh) 汉语语音码全拼和混拼汉语全息信息处理方法
CN101739393B (zh) 汉语文本智能分词法
CN101123089B (zh) 汉语语音码语音合成方法
CN1558341A (zh) 汉字/拼音/英文翻译方法
CN102479078B (zh) 汉语语音码计算机汉语编程方法
Josan et al. A Punjabi to Hindi machine transliteration system
CN1577325A (zh) 繁体中文字/简体中文字翻译方法
CN1591414A (zh) 一种汉语到盲文的自动翻译转换方法
CN101727195B (zh) 汉语语音码多样信息输入方法
Deep et al. Hybrid approach for Punjabi to English transliteration system
CN103854648A (zh) 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN201600791U (zh) 具有汉字学习功能的电子装置
CN103853709A (zh) 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103853705A (zh) 计算机汉语语音与外语语音实时语音字幕翻译方法
CN103297709A (zh) 汉语有声影像资料加注汉语字幕的装置
CN103854647A (zh) 汉语与外语双向实时语音翻译无线移动通讯设备
CN103279463A (zh) 计算机汉语语音与外语语音实时语音字幕翻译的装置
CN1059976A (zh) 现代汉语单词拉丁化语音码
UzZaman et al. A comprehensive Roman (English)-to-Bangla transliteration scheme
Wang A Brief Discussion on the Logic Problems in Chinese-English News Compilation: Taking China Daily as an Example

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080206