CN104572591A - 一种汉语中多音字辨认的综合分析法 - Google Patents

一种汉语中多音字辨认的综合分析法 Download PDF

Info

Publication number
CN104572591A
CN104572591A CN201310521135.8A CN201310521135A CN104572591A CN 104572591 A CN104572591 A CN 104572591A CN 201310521135 A CN201310521135 A CN 201310521135A CN 104572591 A CN104572591 A CN 104572591A
Authority
CN
China
Prior art keywords
word
speech
chain
words
polyphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310521135.8A
Other languages
English (en)
Inventor
李维良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310521135.8A priority Critical patent/CN104572591A/zh
Publication of CN104572591A publication Critical patent/CN104572591A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出了一种汉语中多音字辨认的综合分析法,包括如下步骤,S0,整理文本,划分小句;S1,查询本法提供的词库,确定小句由哪些词汇组成,并确定其拼音、声调、词性属性,再根据词性链的特点,形成初步的词性链网络;S2,对小句中有两种词性的单音字词,根据与相邻字词词性关系对比,选择一个合理的词性;在小句中逐词进行S2,使小句中,除了多音字之外,都是单音单词性字,因而形成一个较简单的、有利于辨认多音字的词性链网络。本发明的有益效果为:在对多音字的辨认过程中,大幅度的降低出错率,有利于计算机快速准确读取多音字的发音,从而应用的实际的学习、工作以及信息交流方面。

Description

一种汉语中多音字辨认的综合分析法
技术领域
本发明涉及计算机处理汉语信息领域,特别是指一种汉语中多音字辨认的综合分析法。
背景技术
当今,计算机技术飞跃发展,已经深入到生活的方方面面。它能强化或代替人眼、耳、脑、手各种器官的功能,给人们带来诸多便利;但是,计算机在读取汉语的领域还是存在一定的缺陷,不能很好的完成对各种语句或者文章的阅读。其中最主要的原因是,汉语中有很多的多音字,计算机无法准确辨认这些处于不同语言环境下、有不同发音的多音字。
为了准确辨认和朗读汉语中的多音字,许多高校及软件公司都投入精力或者出版朗读软件试图解决这一难题,但是到目前为止都收效甚微。原因是方法单一、措施不全面、不彻底,头疼治头、脚疼治脚。另外,国家对这类软件尚未制定评定标准,对多音字辨认的准确度也没有量化指标。
目前国内普遍在用的朗读软件辨认的出错率都超过千分之一,不宜在正式场合实用。
发明内容
为了解决上述问题,本发明提出的一种汉语中多音字辨认的综合分析法。在对多音字的辨认过程中,大幅度的降低出错率,使准确率达到99.97%以上,有利于计算机快速准确读取多音字的发音,从而应用于实际的学习、工作以及信息交流方面。
本发明的技术方案是这样实现的:
鉴于目前对汉语中多音字辨认准确率不高的现状,因此发明本法,其特征是,辨认前充分准备,搜集大约1000万字语料,并找出日常使用的,约250个多音字,排比分析每个多音字可能遇到的各种语言环境,辨认时使用多种方法、针对性地,按难易程度分批辨认,采用拉网式检索,不留死角,辨认后有收尾。具体步骤是,
S0,整理文本,划分小句:以逗号、句号、分号、问号、惊叹号等为界,划分小句,同时把长的、语法关系复杂的复合句划分成较短的、语法关系简单的小句,以有利于分析和辨认。
S1,在小句中,从前到后,按照词字数由多到少(即先九字词、八字词……最后一字词)的原则,去查询本法提供的词库,确定小句由哪些词汇组成,并确定每个词的拼音、声调、词性属性,特别是要查清多音字,不同发音时的不同词性以备选定,最后形成这句话的各词字的函数网络,再根据词性链的特点,形成初步的词性链网络。
本法词库为自编词库,包括一到九字词共10万条词汇,词库中尽量包含含多音字的词汇、复合词和习惯语。划分词汇时,要注意两个词交界处有多音字时,防止掐分错误,如“他操作时,常出差错”这句话最后3个字,要分成“出”和“差错”两个词,不要分成“出差”和“错”。
S2,辨认多音字前,还要进行词性关系的预处理,即,对其中有两种词性的非多音字词(单音字词),根据与相邻字词词性关系对比,选择一个合理的词性;在小句中逐词进行S2,最后形成小句中,除多音字外,全是单音字单词性,且词性关系合理的、利于辨认多音字的词性链网络。例如,“我们在进行差额选举”这句话,辨认前预处理时,把“差额选举”当个未知词性链,“我们”是个名词链。“进行”是个动词,“在”是单音但有名前词、动前词两个词性,应该选动前词,使“在进行”形成一个动词链。这样,这句话就形成“名词链+动词链+未知链”的简单结构,很容易进入S3。
上述有两种词性的非多音字词,也包括那些虽是多音字但以一种读音及词义为主、又很常用的词,尽可能先行处理成单音字词,以利给下一步创造好的辨认环境。比如,“的、了、呢、吗”等字虽是多音字,但在句尾时就可看作是一种读音及词义单一的单音字,按单音字去组成网络。
S3,对小句中那些两种音有各自词性的多音字词,根据与相邻字词词性关系对比,选择一个合理的词性,反推其合理的发音;对小句中的各个多音字词要先易后难,分批进行S3操作,每批完成后,重新整理词性链,再进入下一批,最后完成本句辨认,形成最终没有多音、词性词义都合理的词性链网络。
S31,上述S1至S3所说的词性,是本发明借用汉语传统的12种词性,简化归并成3大类、9种基本词性,有利于计算机对汉语进行分析、管理和应用。
这3大类词性链包括,
S311,名词链,核心词是名词,指事物或概念的名称。包括代名词,西文字符串、号码、不认识的字;一些常在名词前出现的介词、连接词、副词、指示代词、形容词都属名前词,如“这个、和、虽然、不仅、国内……”;名后词:包括一些尾词,如“的、左右、等等、以下、附近”等。
S3111,姓名词链是名词链的一个分支,派生出姓氏词、名字词、职称词,共同组成姓名词链。
完整的链条如孙中山先生。按一般国人习惯,姓氏词多为一字词,属于单音字常见的姓氏词约一百多个,其中有70个既可以当姓氏词用也可以当其他词性用,如“于、何、安、钱……”,对这些词要在预处理阶段搞清楚是否是姓氏词,这对附近的多音字辨认准确与否至关重要。
名字词多为一个二字词或1-2个一字词,其中有些字词是常用的(如芳、丽、福、顺……),而有些字词是忌用的(如不、这、能、坏……),利用这个原则也可以决定其前面的词是否是姓氏词。名字词原本可能不是名词,但构成姓名词链以后,按名词处理,如“李解放、张二愣……”。
姓氏词、名字词和职称词可以组成不同的(完整的或不完整的)姓名词链,它也是一种名词链,常常和其前后的名前词、名词、动词构成网络关系。姓氏词中,有些多音字不同词性有不同发音,如“曾、解、任、单、仇、查……”。弄清它们是否是姓氏词,就要根据上述姓名词链构成原则,和邻近词汇的词义词性来鉴别确定。
S312,动词链,核心词是动词,说明动作或状态,包括具有“是、有”等含义的词;一些出现在动词前面的副词、能愿动词、象声词属动前词,如“今天、这里、可以、愿意、就、很快、一窝蜂地、砰砰”等;一些常出现在动词后面的、修饰动词的助词属动后词,如“着、了、起来、一下、不停”等;形容词在动词后又在句尾时,也是动后词,如,(搞)好、(弄得)乱七八糟。
S313,数词链,核心词是数词,包括后面有量词的***数字,如“几、十、百……”等;一些出现在数词前面的副词属数前词,如“大约、共、接近、加、减……”等;一些常出现在数词后面的修饰数量的词称量词,如“个、公斤、吨公里”等。
S314,汉语句子中的字、词都用词性关系组成这3种链条,各种链条以其核心词名称确定其链条特性,各种链条可以是完整的或不完整的,互相之间也可以是并列或主从关系,共同组成有完整意思的句子。多音字就是靠这种结构关系进行辨认的。
S4,根据上述的S3,当这个多音字只有一种词性时,即两种发音仅含义不同,要使用词义法,即根据其前后词字的含义,确定这个多音字是哪种含义,从而确定采用哪种发音。例如,“车站人很多,看着行李别丢了。”这句话,“看”只能是动词,有Kan4kan1两个音。用词义法判断,可以根据后面的“别+动词+了”判断“看”应读kan1。其他如“看家、看门、注意看护病人、给别人看两天摊儿……”都要靠邻近词义判断,应读kan1。附近若没有这些相关词义的词,则读Kan4。
S41,词性链法和词义法,有时要互相配合。比如“志愿者为残疾人捐款”和“这100万元为志愿者捐款”两句话中,需要判断“为”的读音。方法是,首先在程序中列出所有可能是捐款者的词汇或其特征,第一句的“志愿者”是其中之一,是名词链;后面的“捐款”是动词,“为残疾人”起动前词作用,“为残疾人捐款”是个动词链,“为”应读wei4;第二句话中,“这100万元”是个数词链,本身不是捐款者;后面的“捐款”既是动词也是名词,“志愿者捐款”指的是“款”,是个名词链,中间的“为”当“是、属于”讲,应读wei2。
S5,小句辨认完成后,对长句子要进行中间停歇处理,变调音处理。各小句都完成后,要提交原文稿、辨认后的拼音稿及辨认报告,包括总字数、辨认字数、出错率等。
具体实施方式
下面所描述的多音字辨认的实施例,仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于目前汉语中多音字辨认的方法单一、准确率不高,因此本发明使用一种汉语中多音字辨认的综合分析法,具体步骤是,
S0,整理文本,划分小句:以逗号、句号、分号、问号、惊叹号等为界,划分小句,同时把长的、语法关系复杂的复合句划分成较短的、语法关系简单的小句,以有利于分析和辨认。
S1,在小句中,从前到后,按照词字数由多到少(即先九字词、八字词……最后一字词)的原则,去查询本法提供的词库,确定小句由哪些词汇组成,并确定每个词的拼音、声调、词性属性,特别是要查清多音字,不同发音时的不同词性以备选定,最后形成这句话的各词字的函数网络,再根据词性链的特点,形成初步的词性链网络。
本法词库为自编词库,包括一到九字词共10万条词汇,词库中尽量包含含多音字的词汇、复合词和习惯语。划分词汇时,要注意两个词交界处有多音字时,防止掐分错误,如“他操作时,常出差错”这句话最后3个字,要分成“出”和“差错”两个词,不要分成“出差”和“错”。
S2,辨认多音字前,还要进行词性关系的预处理,即,对其中有两种词性的非多音字词(单音字词),根据与相邻字词词性关系对比,选择一个合理的词性;在小句中逐词进行S2,最后形成小句中,除多音字外,全是单音字单词性,且词性关系合理的、利于辨认多音字的词性链网络。例如,“我们在进行差额选举”这句话,辨认前预处理时,把“差额选举”当个未知词性链,“我们”是个名词链。“进行”是个动词,“在”是单音但有名前词、动前词两个词性,应该选动前词,使“在进行”形成一个动词链。这样,这句话就形成“名词链+动词链+未知链”的简单结构,很容易进入S3。
上述有两种词性的非多音字词,也包括那些虽是多音字但以一种读音及词义为主、又很常用的词,尽可能先行处理成单音字词,以利给下一步创造好的辨认环境。比如,“的、了、呢、吗”等字虽是多音字,但在句尾时就可看作是一种读音及词义单一的单音字,按单音字去组成网络。
S3,对小句中那些两种音有各自词性的多音字词,根据与相邻字词词性关系对比,选择一个合理的词性,反推其合理的发音;对小句中的各个多音字词要先易后难,分批进行S3操作,每批完成后,重新整理词性链,再进入下一批,最后完成本句辨认,形成最终没有多音、词性词义都合理的词性链网络。
S31,上述S1至S3所说的词性,是本发明借用汉语传统的12种词性,简化归并成3大类、9种基本词性,有利于计算机对汉语进行分析、管理和应用。
这3大类词性链包括,
S311,名词链,核心词是名词,指事物或概念的名称。包括代名词,西文字符串、号码、不认识的字;一些常在名词前出现的介词、连接词、副词、指示代词、形容词都属名前词,如“这个、和、虽然、不仅、国内……”;名后词:包括一些尾词,如“的、左右、等等、以下、附近”等。
S3111,姓名词链是名词链的一个分支,派生出姓氏词、名字词、职称词,共同组成姓名词链。
完整的链条如孙中山先生。按一般国人习惯,姓氏词多为一字词,属于单音字常见的姓氏词约一百多个,其中有70个既可以当姓氏词用也可以当其他词性用,如“于、何、安、钱……”,对这些词要在预处理阶段搞清楚是否是姓氏词,这对附近的多音字辨认准确与否至关重要。
名字词多为一个二字词或1-2个一字词,其中有些字词是常用的(如芳、丽、福、顺……),而有些字词是忌用的(如不、这、能、坏……),利用这个原则也可以决定其前面的词是否是姓氏词。名字词原本可能不是名词,但构成姓名词链以后,按名词处理,如“李解放、张二愣……”。
姓氏词、名字词和职称词可以组成不同的(完整的或不完整的)姓名词链,它也是一种名词链,常常和其前后的名前词、名词、动词构成网络关系。姓氏词中,有些多音字不同词性有不同发音,如“曾、解、任、单、仇、查……”。弄清它们是否是姓氏词,就要根据上述姓名词链构成原则,和邻近词汇的词义词性来鉴别确定。
S312,动词链,核心词是动词,说明动作或状态,包括具有“是、有”等含义的词;一些出现在动词前面的副词、能愿动词、象声词属动前词,如“今天、这里、可以、愿意、就、很快、一窝蜂地、砰砰”等;一些常出现在动词后面的、修饰动词的助词属动后词,如“着、了、起来、一下、不停”等;形容词在动词后又在句尾时,也是动后词,如,(搞)好、(弄得)乱七八糟。
S313,数词链,核心词是数词,包括后面有量词的***数字,如“几、十、百……”等;一些出现在数词前面的副词属数前词,如“大约、共、接近、加、减……”等;一些常出现在数词后面的修饰数量的词称量词,如“个、公斤、吨公里”等。
S314,汉语句子中的字、词都用词性关系组成这3种链条,各种链条以其核心词名称确定其链条特性,各种链条可以是完整的或不完整的,互相之间也可以是并列或主从关系,共同组成有完整意思的句子。多音字就是靠这种结构关系进行辨认的。
S4,根据上述的S3,当这个多音字只有一种词性时,即两种发音仅含义不同,要使用词义法,即根据其前后词字的含义,确定这个多音字是哪种含义,从而确定采用哪种发音。例如,“车站人很多,看着行李别丢了。”这句话,“看”只能是动词,有Kan4kan1两个音。用词义法判断,可以根据后面的“别+动词+了”判断“看”应读kan1。其他如“看家、看门、注意看护病人、给别人看两天摊儿……”都要靠邻近词义判断,应读kan1。附近若没有这些相关词义的词,则读Kan4。
S41,词性链法和词义法,有时要互相配合。比如“志愿者为残疾人捐款”和“这100万元为志愿者捐款”两句话中,需要判断“为”的读音。方法是,首先在程序中列出所有可能是捐款者的词汇或其特征,第一句的“志愿者”是其中之一,是名词链;后面的“捐款”是动词,“为残疾人”起动前词作用,“为残疾人捐款”是个动词链,“为”应读wei4;第二句话中,“这100万元”是个数词链,本身不是捐款者;后面的“捐款”既是动词也是名词,“志愿者捐款”指的是“款”,是个名词链,中间的“为”当“是、属于”讲,应读wei2。
S5,小句辨认完成后,对长句子要进行中间停歇处理,变调音处理。各小句都完成后,要提交原文稿、辨认后的拼音稿及辨认报告,包括总字数、辨认字数、出错率等。
例1,我们已进入10强行列。
“强”在这里应按量词,最后一个词是“行列hang2lie4”;不要划分成“强行”和“列”。
例2,学生们一边背着书包,一边背英文单词。
“背”字当“脊背”讲时是名词,这里不去管它;当“动词”用时,有bei1bei4两个音,判断程序里面,要把附近可能出现的词语中,读音可能是bei1的,(如人、筐、篓、包……),和读音是bei4的,(如单词、口诀、条文、密码……)尽可能悉数列出,供其选定。
例3,全班数他成绩最差。
一句话中至少有一个动词,“数”应是动词,读shu3,“最差”读zui4cha4。本法二字词以上词库中尽量收集含多音字的词汇、成语和习惯语,如最差、较差、差不多、差之毫厘、参差不齐等,方便多音字辨认。
例4,小猫背上的毛,长得很长。
“背上”后面是“的+名词”,这个“背”应是名词,读bei4;第一个“长”后面有动后词“得”,是动词,应读zhang3;第二个“长”前面有“很”又在句尾,再前面是动词链,它应该是形容词做动后词用,应读chang2。
例5,***先生曾任第二任香港特首。
“曾”有两种发音:读zeng1时是姓氏词;读ceng2时是动前词。第一个“曾”符合姓氏词条件,应读zeng1;第二个“曾”不符合姓氏词条件,后面又是动词,应读ceng2。“任”有两种发音:只有当姓氏词时,才读ren2,其他都读ren4。句中两个“任”字都不符合姓氏词条件,都读ren4。第一个“任”是动词,第二个“任”是量词。
以上所述仅为本发明的处理原则,实施时,要靠严谨的程序做保证。另外,这些仅是一部分较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种汉语中多音字辨认的综合分析法,其特征在于,包括如下步骤,
S0,整理文本,划分小句;
S1,查询本法提供的词库,确定小句由哪些词汇组成,并确定其拼音、声调、词性属性,再根据词性链的特点,形成初步的词性链网络;
S2,对小句中有两种词性的单音字词,根据与相邻字词词性关系对比,选择一个合理的词性;在小句中逐词进行S2,使小句中,除了多音字之外,都是单音单词性字,因而形成一个较简单的、有利于辨认多音字的词性链网络;
S3,对小句中有两种词性的多音字词,根据与相邻字词词性关系对比,选择一个合理的词性,反推其合理的发音;对各个多音字词分批次、按照不同的语言环境,采用词性链法、词义法等综合进行辨认,最后使小句形成没有多音字的、字音词性和词义都明确的词性链网络,完成全部辨认;
S4,上述S1至S3的词性链网络包括,
S41,名词链,核心词是名词,包括名前词、名词、名后词;
S411,姓名词链是名词链的一个分支,包括姓氏词、名字词、职称词;
S42,动词链,核心词是动词,包括动前词、动词、动后词;
S43,数词链,核心词是数词,包括数前词、数词、量词。
2.根据权利要求1所述的一种汉语中多音字辨认的综合分析法,其特征在于,步骤S3还包括如下内容,当这个多音字只有一种词性时,即两种发音词性相同、含义不同,要使用词义法,即根据其前后词字的含义,确定这个多音字是哪种含义,从而反推采用哪种发音。
CN201310521135.8A 2013-10-29 2013-10-29 一种汉语中多音字辨认的综合分析法 Pending CN104572591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310521135.8A CN104572591A (zh) 2013-10-29 2013-10-29 一种汉语中多音字辨认的综合分析法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310521135.8A CN104572591A (zh) 2013-10-29 2013-10-29 一种汉语中多音字辨认的综合分析法

Publications (1)

Publication Number Publication Date
CN104572591A true CN104572591A (zh) 2015-04-29

Family

ID=53088696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310521135.8A Pending CN104572591A (zh) 2013-10-29 2013-10-29 一种汉语中多音字辨认的综合分析法

Country Status (1)

Country Link
CN (1) CN104572591A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置
CN110750967A (zh) * 2019-10-21 2020-02-04 广州荔支网络技术有限公司 一种发音的标注方法、装置、计算机设备和存储介质
CN111611810A (zh) * 2020-05-29 2020-09-01 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置
CN110750967A (zh) * 2019-10-21 2020-02-04 广州荔支网络技术有限公司 一种发音的标注方法、装置、计算机设备和存储介质
CN110750967B (zh) * 2019-10-21 2023-06-06 广州荔支网络技术有限公司 一种发音的标注方法、装置、计算机设备和存储介质
CN111611810A (zh) * 2020-05-29 2020-09-01 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法
CN111611810B (zh) * 2020-05-29 2023-08-04 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法

Similar Documents

Publication Publication Date Title
McEnery Corpus linguistics
Shapiro et al. Language and society in South Asia
Biber et al. Corpus linguistics: Investigating language structure and use
Bent The grammar of early music: preconditions for analysis
Scaglione The liberal arts and the Jesuit college system
Rosén Contemporary Hebrew
Hickey The Cambridge handbook of areal linguistics
Boyde Dante's style in his lyric poetry
Guntsetseg Differential case marking in Mongolian
Reid The communicative function of English verb number
Moini et al. Do we need discipline-specific academic word lists? Linguistics academic word list (LAWL)
CN111581953A (zh) 一种自动解析英文文本语法现象的方法
Shimron Semitic languages: Are they really root-based
Tunde-Awe Nativization of English language in multilingual setting: The example of Nigeria
CN104572591A (zh) 一种汉语中多音字辨认的综合分析法
ZAGOOD et al. A contrastive study of relativization in English and Arabic with reference to translation pedagogy
Iurato Learner corpus research meets Chinese as a second language acquisition: Achievements and challenges
Dhomne et al. Accessing database using nlp
Fusi A multilanguage, modular framework for metrical analysis: IT patterns and theorical issues
Szreder et al. Input effects in the acquisition of verb inflection: Evidence from Emirati Arabic
CN113569560A (zh) 一种汉语二语作文自动评分方法
CN101241485A (zh) 汉语中多音字的辨认方法
Rastall In what sense can statements about languages be true?
Djigunovic et al. Language teaching methodology and second language acquisition
Trips English syntax in three dimensions: history–synchrony–diachrony

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429

RJ01 Rejection of invention patent application after publication