CN1043490C - 叠词变换方法和汉字变换装置 - Google Patents

叠词变换方法和汉字变换装置 Download PDF

Info

Publication number
CN1043490C
CN1043490C CN93119115A CN93119115A CN1043490C CN 1043490 C CN1043490 C CN 1043490C CN 93119115 A CN93119115 A CN 93119115A CN 93119115 A CN93119115 A CN 93119115A CN 1043490 C CN1043490 C CN 1043490C
Authority
CN
China
Prior art keywords
syllable
word
speech
conversion
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN93119115A
Other languages
English (en)
Other versions
CN1093185A (zh
Inventor
周峻慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1093185A publication Critical patent/CN1093185A/zh
Application granted granted Critical
Publication of CN1043490C publication Critical patent/CN1043490C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

将有汉语叠词特征的表音字符串准确变换成单词的叠词变换方法和汉字变换装置,其特征是设“P1”、“P2”、“P3”为不同读音且设“P3”为“不”或“一”读音,检查作为变换对象截出的音节中连续4个音节的读音是否为“P1P1P2P2”、“P1P2P1P2”或“P1P3P1P2”结构。若是,则设“P1P2”为辞典部的检索码,当检索到由对应“P1”、“P2”音节的汉字“W1”、“W2”组成的单词“W1W2”,就生成“W1W1W2W2”、“W1W2W1W2”、“W1不W1W2”或“W1-W1W2”形式的叠词。

Description

叠词变换方法和汉字变换装置
本发明涉及汉字变换,特别是关于将表示汉语等发音的表音字符串变换成与其对应的汉字串的叠词变换装置和汉字变换装置。
汉语中使用的汉字有一万字以上。如何从其中准确又高速地输入汉字是包括汉语文字处理器在内的汉语计算机处理中的最重要课题。以往的汉字输入手段有声音识别、字符识别、键盘等。其中以键盘输入最可靠,因此已被广泛使用。用键盘输入汉字大致分为根据读音的方式和根据字形的方式。根据字形的方式必须预先记住字形的输入规则,而且需化相当的时间来记忆,在习惯以前操作费时间。另一方面,根据读音的方式,大家认为自然且易学。因此,预计会成为将来的输入手段的主流而不仅仅是用键盘输入汉字。
作为采用这种读音输入方式的汉字变换装置,有如台湾专利申请号75105838所给出的方案。图5是采用这种汉字读音输入方式的汉字变换装置的方框图。如该图所示,此变换装置由输入部100、寄存器初始化部110、PTR寄存器120、NP寄存器130、NCHAR寄存器140、比较部150、变换控制部160、辞典检索部170、辞典部180以及输出部190组成,以下说明这些组成部分的作用。
输入部100以键盘为主要构成,输入由拼音、注音、罗马字等组成的任意长的表音字符串。PTR寄存器120和NP寄存器130分别在将表音字符串变换成单词时使用,PTR寄存器120存贮从输入表音字符串的什么位置开始进行变换,NP寄存器130存贮将输入表音字符串变换成单词时的单词长度。〔另外,本说明书中的所谓“表音字符串”是指单个和复数个表音字符或者字音(发音)记号。而且“单词”这个概念不仅包括复数个汉字组成的单词也包括一个汉字构成的单词。还有,所谓“单词长”是构成单词的汉字数。〕比较部150控制变换对象的单词数,以便在具有某长度的单词的变换处理进行后,将上述NP寄存器的值减1,由此将下一个长度的单词作为变换对象,从成为输入变换对象的单词中优先变换字符数多的单词。变换控制部160使上述PTR寄存器的设定位置从输入表音字符串的最初位置依次向后推移,以此检查是否有已经变换过的音节,若全都尚未变换,且辞典部180内有对应未变换音节的单词,则使其作为变换对象。辞典检索部170以上述变换控制部160送来的表音字符串作检索关键码,检索辞典部180的内容,若检出相应单词,则将它取出并送至变换控制部160。辞典部180以磁盘为主要构成,存贮(半永久性存贮)着变换结果输出的单词和相对应的音节串。另外,对应同一音节串存在复数个单词时,根据使用频度、笔画数、字符码等决定排列顺序。NCHAR寄存器140以高速半导体存贮器为主要构成,存贮输入表音字符串的音节数。输出部190输出经上述变换控制部190变换的结果。
然而,以上那样的汉字变换装置存在以下问题。
汉字变换原则上以登记在辞典中的单词为变换单位,让字符(汉字)数多的单词优先变换,变换该单词后,再进行剩下单词(多数情况为一个字符)的变换。然而,此方法在变换汉语特有的叠词表现方式的单词时,因辞典部内多数未登记该单词,易造成误变换。例如:
1.输入“喜不喜欢”的读音时,这个“喜不喜欢”本身未登记时,第一个“喜”以一个字符为单位作变换,因排在“洗”的后位,“洗”优先变换,结果变换成“洗不喜欢”。同样,“睡一睡觉”的读音会变换成“税一睡觉”。
2.输入“喜喜欢欢”的读音时,其第2个读音和第3个读音构成“喜欢”这个单词,所以这些读音能正确变换。不过,下一个读音是以一个字符为单位变换,结果成为“洗喜欢欢”。
3.输入“稍加研究研究”的读音时,其第2个读音和第3个读音构成的单词“家严”比第3个读音和第4个读音构成的单词“研究”处优先位,加上其字符数为2,所以优先变换。再有,此时第4个读音成为以一文字为单位变换,这时“就”比“究”也排在前,所以变换结果成为“稍家严就研究”。
可是,将许多汉语所使用的叠词登记在辞典内,不仅辞典内容变得复杂,随之汉字变换装置价格也变高。
本发明鉴于上述课题,目的在于提供一种也适合于叠词变换的叠词变换方法和汉字变换装置。
为实现上述目的,本发明叠词变换方法,利用存储表音字符串与对应汉语单词的辞典部进行叠词变换,该叠词变换方法包含步骤为:
检查输入的一连续音节中,是否有四个连续的音节其读音为具有“P1P1P2P2”,或者是“P1P2P12”,或者是“P1P3P1P2”并且P3的读音为“不”或“一”的叠词特征的叠词检查步骤:
当上述叠词检查步骤检查出有叠词特征时,则以“P1P2”为检索关键码将之送出对上述辞典部作检索,如有对应的单词“W1W2”则产生“W1W1W2W2”或“W1W2W1W2”或“W1不W1W2”或“W1-W1W2”等叠词的叠词生成步骤。
本发明汉字变换装置,包括:
可将拼音、注音、罗马字等表音字符予以输入的输入部;
存储表音字符串与对应汉语单词的辞典部;
以输入的表音字符串为检索关键码以检索上述辞典部的辞典检索部;
对输入的表音字符串的一部分尚未变换的音节截出以作为目前汉字变换对象的音节截出部;
其特征在于,所述汉字变换装置进一步包括:
检查上述音节截出部所截出的一连续音节中,是否有四个连续的音节其读音为具有“P1P1P2P2”,或是者“P1P2P1P2”,或者是“P1P3P1P2”并且P3的读音为“不”或“一”的叠词特征的叠词***;
当上述叠词***检查出有叠词特征时,则以“P1P2”为检索关键码将之送至上述辞典***以检索辞典,如有对应的词“W1W2”,则产生“W1W1W2W2”或“W1W2W1W2”或“W1不W1W2”或“W1-W1W2”等叠词的叠词生成部;
对于上述音节截出部所截出一段要变换的音节中,如果前述辞典检索部或叠词生成部有生成词则变换,反之则不作任何变换的变换处理部。
根据上述构成,在叠词变换方法的发明中,表音字符串及与其对应的汉语单词对应地登记在辞典部中。辞典检索部以输入表音字符串为检索关键码检索上述辞典部内容。叠词***在设“P1”、“P2”、“P3”为不同读音且“P3”为“不”或者“一”的读音时,检查输入音节串内连续四个音节的读音是否为“P1P1P2P2”、“P1P2P1P2”或者“P1P3P1P2”的结构,即检查是否具有叠词特征。叠词生成部在上述叠词***检出叠词特征时,将“P1P2”作为检索关键码送至上述辞典检索部检索上述辞典部内容,若能检出由分别对应各读音“P1”、“P2”的汉字“W1”、“W2”组成的单词“W1W2”,就应把它作为下一个汉字变换的对象,生成所定的叠词。
在汉字变换装置的发明中,将表音字符串及与其对应的汉语单词对应地登记在辞典部中。由输入部输入任意长的表音字符串。辞典检索部以输入表音字符串为检索关键码检索辞典部内容。音节截出部从输入表音字符串中截出与尚未变换的表音字符串对应的音节,使之成为下一个汉字变换的对象。叠词***在设“P1”、“P2”、“P3”为不同读音且设“P3”为“不”或“一”的读音时,检查上述音节截出部截出的连续音节中连续的四个音节的读音是否为“P1P1P2P2”、“P1P2P1P2”或者“P1P3P1P2”的结构,即检查是否具有叠词特征。若用叠词***检出叠词特征,则叠词生成部以“P1P2”为检索关键码送至辞典检索部,使之检索辞典部内容,若能检出由分别对应读音“P1”、“P2”的汉字“W1”、“W2”组成的单词“W1W2”,就让检出的包含此叠词的变换对象的单词中的叠词优先,作为下一个汉字变换的对象,生成所定的单词。
附图概述
图1是有关本发明汉字装置一实施例的方框图;
图2是以上实施例中寄存器初始化部的工作为主的工作流程图;
图3是以上述实施例中变换处理部为中心的工作流程图;(图2之继续)
图4是以上述实施例中变换处理部为中心的工作流程图;(图3文继续)
图5是以往汉字变换装置的方框图;
图6是外文字一览表。
以下举实施例说明本发明。
图1是本发明汉字变换装置一实施例的构成图。如图所示,本汉字变换装置由输入部10、寄存器初始化部11、PRT寄存器12、NP寄存器13、NCHAR寄存器14、比较部15、变换处理部16、辞典检索部17、辞典部18、叠词***19、叠词生成部和输出部21构成。以下说明各部的作用。输入部10输入拼音、注音、罗马字符表音字符(本实施例中,以后具体表示“n/”等。一个或者复数个表音字符集合表现为一音节)。辞典部18中登记(永久存贮)有表音字符串及与其读音对应的汉语单词。NCHRA寄存器14表示输入表音字符串的音节数。另外,在汉语情况下,因一个音节(权利要求中抽象表示为“P1”、“P2”、“P3”,实施例中又以“neng/”等记号具体表示。)对应一个汉字(权利要求中以“W1”、“W2”的记号抽象表示,实施例中又以能、不、一、彻等具体汉字表示。),所以输入表音字符串中的音节数直接成为变换对象的汉字数。PTR寄存器12和NP寄存器13,分别在把表音字符串变换成单词时使用。PTR寄存器12存贮从表音字符串的什么地方开始进行变换的位置。NP寄存器13存贮把输入表音字符串变换成单词(也包括一个汉字)时的变换单词长度(构成单词的汉字数,同时也是构成单词的音节数)。还有,这里各个寄存器的内容ptr、np的意思是指从输入表音字符串的第ptr个开始的以下连续np个音节是下回辞典检索时的检索关键码(以下设:nchar、np、ptr分别表示NCHAR寄存器、NP寄存器和PTR寄存器的值)。寄存器初始化部11计算输入表音字符串的音节数,将该值设在NCHAR寄存器上的同时,若该值大于辞典部18所登记的最长单词的字数max(本实施例中为8),就在NP寄存器13内设此max,若小于max,则在NP寄存器13内设上述输入表音字符串的音节数,并且通过将PTR寄存器12的值设为1,使NCHAR寄存器14、NP寄存器13、PTR寄存器12的内容初始化。后面将详细说明此时的工作过程。比较部15经常检查(np+ptr)>(nchar+1)成立否?若成立,则将NP寄存器13的值减1,再次设PTR寄存器12的值为1。叠词***19检查由上述PTR寄存器和NP寄存器的值指示的要变换的连续音节中,连续4个音节的读音是否为“P1P1P2P2”或者“P1P2P1P2”的结构或者为“P1P3P1P2”的结构,且“P3”的读音为“不”或者“一”,即检查有无叠词特征。若由上述叠词***19检出叠词特征时,叠词生成部20就以“P1P2”为检索关键码送至上述辞典检索部17,使之检索辞典部18的内容,若登记有对应单词“W1W2”,则在检出该单词基础上生成“W1W1W2W2”、“W1W2W1W2”、“W1不W1W2”或者“W1-W1W2”的叠词。变换处理部16检查从输入表音字符中的第PTR个音节开始的连续NP个音节内有否已变换过的音节。若已有变换过的音节,就让PTR寄存器的值加1,若无,则如果辞典部18中登记有对应的单词或者由叠词生成部20生成的单词就进行其变换,同时在PTR上加4,否则,让PTR寄存器12的值只加1,不进行变换处理。其工作过程,后文再详细说明。辞典检索部17,以上述变换处理部16或叠词生成部20送来的音节为检索关键码,从辞典部18内取出该候补单词中可能性最高的单词,送至上述变换处理部16或者叠词生成部20。另外,在辞典部18内登记同一音节的复数个单词时的排列,在本实施例中与通常的文字处理器一样,按使用频度高的顺序,即以可能性最高顺序依次排列。输出部21输出由上述变换处理部变换的结果。
以下参照图2所示的流程图说明寄存器的初始化工作
(S1),设置计算音节数的寄存器为0(零)。
(S2),输入表音字符串。
(S3),检查现在输入的表音字符是否为声调关键码。若是,就进(S4)。若不是则进入(S5)。
(S4),使计算音节数的寄存器的内容加1后回到(S2)
(S5),检查现在输入的表音字符是否为输入结束关键码。若是,就进入(S6),若不是,则回到(S2)。接着,输入表音字符串。
(S6),检查现在输入的音节数是否小于8。若是,就进入(S8)。若比8大(为9以上),则进入(S7)。
(S7),设置NP寄存器的值为8。
(S8),设置NP寄存器的值为当前输入音节数。
(S9),设置NCHAR寄存器的值为当前输入音节数。
(S10),设置PTX寄存器的值为1。而且此设定是为了从输入音节的最初开始进行汉字变换。
以下参照图3和图4所示的流程图说明以变换处理部为中心的工作。(图3和图4与图2一起表示本实施例的一连串工作的流程,因图纸尺寸限制作了分割。)
(S11),从表音字符串的第PTR个开始后连续截出NP个音节。(从而对应于最先输入的全部表音字符串的单词成为检索对象。)
(S12),检查(S11)所截出的音节内有否变换过的音节。若有,就进入(S25),若无,则进入(S13)。
(S13),检查与(S11)所截出的音节对应的单词是否登记在辞典部内。若已登记,由(S14)将(S11)所截出的音节变换成辞典的对应单词。若没登记,则进入(S15)。
(S15),检查(S11)所截出的音节数是否为4。若不为4;则进入(S25),将PTR寄存器的值加1。若是4,则有叠词可能,进入要对此检查的(S16)。
(S16),在(S11)所截出的4个音节中,首先检查第一个音节和第2个音节是否相同,若相同,接着检查第三个音节和第4个音节是否相同。若前后两次检查结果都相同,则因有可能为“P1P1P2P2”的叠词,进入(S17)。若不是,则进入(S19)。
(S17),检查辞典部中有无与(S11)所截出的4个音节中与第2、第3两个音节对应的单词。若登记有对应的单词,就进入(S18)。若设有,则进入(S25)。
(S18),组合由4个文字组成的单词。其中第1、第2个字正好是(S17)所检出的单词的第1个字,而第3、第4个字正好是(S17)所检出的单词的第2个字。让4个字作为单词如此组合后,将(S11)截出的4个音节变换成该单词,然后,进入要将下个音节作汉字变换对象的步骤(S26)。
(S19),在(S11)所截出的4个音节中,首先检查第1个和第3个音节是否相同,如果相同,则接着检查第2个、第4个音节是否相同。若两次检查都相同,则可能是“P1P2P1P2”的叠词,进入(S20)。若不同,则进入(S22)。
(S20),检查有无与(S11)所截出的4个音节中第1、第2个音节所对应的单词。若有,则可能是“P1P2P1P2”的叠词,进入(S21)。若没有,则进入(S25)。
(S21),组合由4个字组成的单词。其中,第1、第3个字是(S20)所检出的单词的第1个字,第2、第4个字是(S20)所检出的单词的第2个字。用以上操作将4个字组成的单词组合后,将(S11)截出的4个音节变换成该单词,然后进入要将下一个音节作为汉字变换的对象的(S16)。
(S22),检查(S11)所截出的4个音节中第1个音节与第3个音节是否相同,如果相同,接着检查第2个音节的读音是否为“不”或者“一”。若相符,则可能是P3为“不”或者“一”的“P1P3P1P2”的叠词,进入(S23)。若不相符,则进入要把下一个音节作为汉字变换对象的(S25)。
(S23),检查有无与(S11)所截出的4个音节中第3、第4个音节所对应的单词。若有,则进入(S24)。若无,则进入(S25)。
(S24)时,组合由4个字组成的单词。其中,第1个字是(S23)所检出的单词的第一个字,第2个字是“不”或者“一”,第3、第4个字分别为(S23)所检出的单词的第1个、第2个字。将由4个字组成的单词组合后,将(S11)截出的4个音节变换成该单词。然后,进入(S26)。另外,此时变换成“不”或者“一”的哪一个,取决于输入音节字符串的发音。
(S25),将未变换的音节从头开始成为汉字变换对象的PTR寄存器的值加1。然后进入(S27)。
(S26),目的与(S25)相同,但由于要根据叠词作4个音节的汉字变换,所以让PTR寄存器的值加上NP寄存器的值后,将其存贮在PTR寄存器上,然后进入(S27)。
(S27),检查(np+prt)>(nchar+1)成立否。若成立,则进入(S28)。若不成立,则回到(S11)。
(S28),将NP寄存器的值减一,并将PTR寄存器的值设为1以后,进入(S29)。
(S29)时,检查NP寄存器的值是否为0。若为0,就结束输入表音字符串的汉字变换处理。若不为0,则回到(S11)。
以下,对上述构成的本实施例的汉字变换装置,具体以“neng/bu\neng/you\che\che\diVdiVde.gaiVjin\”为输入字符串,举例说明其工作。(本文的“”内的“/”、“\”、“V”、“.”正确的表示方法分别为图6(a)、(b)、(c)、(d)所示的记号,是在中国称谓表音字符、字音记号或者注音记号等的表示汉语发音的记号。可是,这些字符在电子情报处理***中无法输入,考虑到让读者易读说明书,而且即使按电子情报***的实施规则也可推定本发明的汉语文字处理器不是连续、繁琐地使用外文字母,本说明书以形状颇相似的上述“/”、“\”、“V”、“.”代用。同样考虑易读性,本说明书中还把图6的(e)所示的汉字表示为(外e)。[本说明书后文将用(外e)]。为使说明便于理解,设现对应此输入串的辞典部内的全部可能单词是“neng/gou\能(外e)”、“che\diV彻底”、“gaiVjin\改进”,并设登记在辞典部内的最长单词的字数为8。
一旦输入上述表音字符串,就由寄存器初始化部通过计算其中所含的声调数求出音节数,将该值11设在NCHAR寄存器(S9)上,同时,因该值比辞典部内的最长单词的字数8大(S6),设8为NP寄存器的初始化值(S7),设PTR寄存器为1(S10)。NP寄存器以现在要变换的单词为单位存贮其构成字数。由于在辞典部上登记后存贮的最长单词的字数为8,因此对无论怎样长的输入串,单词变换的最大单位的单词字数自然为8。还有,PTR寄存器的值ptr表示现在的辞典检索的开始位置是上述输入表音字符串的第ptr个音节。
根据输入音节数设定PTR寄存器,NP寄存器、NCHAR寄存器的初始值后,由变换处理部根据PTR寄存器和NP寄存器的值截出输入部送来的表音字符串的第1-第8个连续音节串“neng/bu\neng/gou\che\che\diVdiV”(S11),在此基础上检查有无变换过的音节(S12)。因所有音节尚未变换,所以把这些音节作为检索关键码,送至辞典检索部,检索辞典内部内容(S13)。由于没检出对应单词,而且现在NP寄存器的值不为4(S15),单给PTR寄存器的值加1还不能进行变换处理(S25)。同样,根据PTR寄存器新的值和NP寄存器的值依次截出“bu\neng/gou\che\che\diVdiVde.”、“neng/gou\che\che\diVdiVde.gaiV”、“gou\che\che\diVidiVde.gaiVjin\”,虽全都是尚未变换的音节,但因辞典部中未登记对应的单词,则不进行变换处理。只是PTR寄存器的值加1(S25)。处理到“che\che\diVdiVde.gaiVjin\”后,PTR寄存器的值成为5。此时,由比较部检出(np+Ptr)>(nchar+1)以及没有8个字长的单词。因此使NP寄存器的值减1为7。设定PTR寄存器的值为1(S28)。此时,NP寄存器的值不为0(S29),所以处理下一个连续音节的截出和变换。
同样,NP寄存器的值为7、6、5时,由于根据PTR寄存器和NP寄存器的值从输入字符串中截出的连续音节全都尚未变换,因此将其作为检索关键码送至辞典检索部,检索辞典部内容。由于没能检出与其对应的单词,将NP寄存器的值减少设为4。并再设PTR寄存器的值为1(S28)。此时,由于NP寄存器的值不为0(S29),处理下一个连续音节的截出与变换。
NP寄存器的值为4、PTR寄存器的值为1时,从输入表音字符串截出“neng/bu\neng/you\”(S11)。因全是尚未变换的音节(S12),辞典检索部以其为检索关键码检索辞典部内部。结果判断未登记有对应的单词(S13)。此时,现在NP寄存器的值为4(S15),所以用叠词***先检查第1和第2个音节是否相同,接着检查第3和第4个音节是否相同(S16)。前后两次检查结果都为不相同,就再检查第1和第3个音节是否相同,接着检查第2和第4个音节是否相同(S19)。前后两次检查结果不一样,就看第1和第3个音节是否相同,若是相同,则检查第2个音节的读音是否为“不”或者“一”(S22)。因现在截出的音节串“neng/bu\nen/gou\”满足此条件,由叠词生成部将“neng/gou\”作为检索关键码送至辞典检索部,检索辞典部内容。此时,辞典部内登记有对应单词“能(外e)”(S23),所以生成“能不能(外e)”并将其送至变换处理部将“neng/bu\neng/gou\”变换成“能不能(外e)”(S24)。然后,使PTR寄存器的值加4成为5(S26)。此时,比较部判断(np+ptr)比(nchar+1)小,表示剩下未处理的音节能变换字长为4的单词(S27)。
NP寄存器的值和PTR寄存器的值均为4时,从输入表音字符串中截出的音节串为“che\che\diVdiV”(S11)。全都是尚未变换的音节(S12)所以检索辞典部内是否登记有对应的单词(S13)。没有对应的单词,而且现在NP寄存器值为4(S15),因此由叠词***先检查第1和第2个音节是否相同,若相同就接着检查第3个和第4个音节是否相同(S16)。两次检查结果都为相同,判断具有叠词特征,因此由叠词生成部将第2个和第3个音节“che\diV”作为检索关键码送至辞典检索部,检索辞内部内容。若检出辞典部内登记有对应的单词“彻底”(S17),就生成“彻彻底底”并将其送至变换处理部,将“che\che\diVdivV”变换成“彻彻底底”(S18)。然后,使PTR寄存器的值加4成为9(S26)。此时,比较部判断(np+ptr)比(nchar+1)大,表示剩下的未处理的音节“degairjia\”不能变换成字节为4的单词(S27)。为此,将NP寄存器的值减1成为3。再设PTR寄存器的值为1(S28)。此时,因NP寄存器的值不为0(S29),进行下一个连续音节的截出和汉字变换处理。
NP寄存器的值为3、PTR寄存器的值为1-8中任意值时,因从输入表音字符串中截出的音节串包含已变换过的音节,所在辞典检索和变换处理都不进行。PTR寄存器的值为9时,截出的音节串是“de.gaiVjin\”(S11)。检索辞典部内容也无对应单词(S13)。NP寄存器的值不为4(S15),所以使PTR寄存器的值加1成为10(S25)。此时,比较部判断(np+ptr)比(nchar=1)大,所以使NP寄存器的值减1为2。再设PTR寄存器的值为1(S28)。此时,NP寄存器的值不为0(S29),所以进行下一次连续音节的截出和变换处理。
NP寄存器的值为2、PTR寄存器的值为1-8种的任意值时,因从输入表音字符串中截出的音节串包含已变换过的音节,所以辞典检索和变换处理都不进行。PTR寄存器的值为9时,被截出的音节为“de.gaiV”(S11)。检索辞典部内容也设有对应的单词。因此,使PTR寄存器的值加1成为10(S25)。此时,以截面的音节串“gaiVjin\”(S11)为检索关键码,由辞典检索部检索辞典部内容。若检出辞典部中存贮有对应的单词“改进”,则生成“改进”,将其送至变换处理部,将“gaiVjin\”变换成“改进”(S14)。然后,将PTR寄存器的值加2设成12(S26)。此时,比较部判断(np+ptr)比(nchar+1)大,因此将NP寄存器的值减1为1。再设PTR寄存器的值为1(S28)。此时,因NP寄存器的值不为0(S29),处理下一个连续音节的截出和变换。
NP寄存器为1、PTR寄存器的值为1-8中的任意值时,从输入表音字符串中截出的音节串包含已变换过的音节,所以辞典检索和变换处理都不进行。PTR寄存器的值为9时,截出的音节是“de.”(S11)。因尚未变换,就将其作为检索关键码送至辞典检索部,检索辞典部内容。检索结果是“的”的使用频率最高。因此将它送至变换处理部,将“de.”变换成“的”(S14)。然后,使PTR寄存器的值加1成为10(S26)。接着PTR寄存器的值无论是10或11,从输入表音字符串中截出的音节都已变换过。此时,PTR寄存器的值成为12。因(np-ptr)比(nchar+1)大,比较部让NP寄存器的值减1为0(S28)。此时,变换处理部判断变换处理结束,作为此变换结果“能不能(外e)彻彻底底的改进”送至输出部。
另外,PTR寄存器、NP寄存器、比较部和部分变换处理部相当于音节截出部。
以上根据实施例说明了本发明,当然本发明不只限定于上述实施例。例如
(1)不一定等表音符串的输入结束键按下后才开始将输入的全部表音字符串变换成汉字,也可以每逢声调关键码输入,即每输入一个音节时,就从上回输入表音字符串的结束位置起至现在输入表音字符串为止进行变换。
(2)一些受中国文化影响的国家,其国语中有时会使用类似叠词的单词。例如日语中有“努力努力”、“悠悠闲闲”、“唯唯诺诺”、“时时刻刻”、“奇奇怪怪”等,还有作为日语的汉文中有“多多益益弁ズ”等。显然也可以将本发明应用于日语文字处理器等。而且在“P1P1P2P2”叠词形式的横写情况下,还可以在第2个“P1”和“P2”部位打印“々”。再有,还可以根据输入者的选择发挥这些功能。(因此上述的“悠悠闲闲”可变成“悠々闲々”)。另外,权利要求中的汉语单词包括已成为外语而原本就是汉语的单词,也包括已汉语化的外语,当然,还包括表音字符、日语的“假名”、朝鲜语的“谚语”。
(3)根据制造等便利情况,也可以将权利要求范围内所记载的本发明的一个组成部分,在物理上分为几个组成部分,反之也可以将复数个组成部分组成一体,还可以将它们适当组合。
(4)输入一篇文章时,还可以将使用频度高的叠词存贮在另设的RAM,添加要即时变换等的学习记号。
(5)即使“P3”的音为“不”,“一”以外的读音,还可以添加进行叠词变换的功能和是否发挥此功能的选择功能。
综上所述,本发明对于汉语文章中的“欢欢喜喜”、“研究研究”“睡一睡觉”、“能不能(外e)”等叠词表现方式,假定该单词未登记在计算机内变换用的辞典部中,通过检出该单词的特征来识别叠词,就能在此基础上利用辞典中登记的短单词准确进行叠词变换。因此,其实用效益极大。

Claims (2)

1.一种叠词变换方法,利用存储表音字符串与对应汉语单词的辞典部进行叠词变换,该叠词变换方法包含步骤为:
检查输入的一连续音节中,是否有四个连续的音节其读音为具有“P1P1P2P2”,或者是“P1P2P12”,或者是“P1P3P1P2”并且P3的读音为“不”或“一”的叠词特征的叠词检查步骤:
当上述叠词检查步骤检查出有叠词特征时,则以“P1P2”为检索关键码将之送出对上述辞典部作检索,如有对应的单词“W1W2”则产生“W1W1W2W2”或“W1W2W1W2”或“W1不W1W2”或“W1-W1W2”等叠词的叠词生成步骤。
2.一种汉字变换装置,包括:
可将拼音、注音、罗马字等表音字符予以输入的输入部;
存储表音字符串与对应汉语单词的辞典部;
以输入的表音字符串为检索关键码以检索上述辞典部的辞典检索部;
对输入的表音字符串的一部分尚未变换的音节截出以作为目前汉字变换对象的音节截出部;
其特征在于,所述汉字变换装置进一步包括:
检查上述音节截出部所截出的一连续音节中,是否有四个连续的音节其读音为具有“P1P1P2P2”,或是者“P1P2P1P2”,或者是“P1P3P1P2”并且P3的读音为“不”或“一”的叠词特征的叠词***;
当上述叠词***检查出有叠词特征时,则以“P1P2”为检索关键码将之送至上述辞典***以检索辞典,如有对应的词“W1W2”,则产生“W1W1W2W2”或“W1W2W1W2”或“W1不W1W2”或“W1-W1W2”等叠词的叠词生成部;
对于上述音节截出部所截出一段要变换的音节中,如果前述辞典检索部或叠词生成部有生成词则变换,反之则不作任何变换的变换处理部。
CN93119115A 1993-04-01 1993-10-13 叠词变换方法和汉字变换装置 Expired - Fee Related CN1043490C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP075911/93 1993-04-01
JP05075911 1993-04-01
JP5075911A JPH06290182A (ja) 1993-04-01 1993-04-01 重辞変換装置と漢字変換装置

Publications (2)

Publication Number Publication Date
CN1093185A CN1093185A (zh) 1994-10-05
CN1043490C true CN1043490C (zh) 1999-05-26

Family

ID=13589996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN93119115A Expired - Fee Related CN1043490C (zh) 1993-04-01 1993-10-13 叠词变换方法和汉字变换装置

Country Status (2)

Country Link
JP (1) JPH06290182A (zh)
CN (1) CN1043490C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949289A (zh) * 2019-12-11 2021-06-11 北大方正集团有限公司 检测叠词错误的方法、装置及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1043809A (zh) * 1988-12-20 1990-07-11 夏普公司 中文文章输入装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1043809A (zh) * 1988-12-20 1990-07-11 夏普公司 中文文章输入装置

Also Published As

Publication number Publication date
CN1093185A (zh) 1994-10-05
JPH06290182A (ja) 1994-10-18

Similar Documents

Publication Publication Date Title
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
CN1252575A (zh) 用于机器翻译的中文生成装置
CN1008016B (zh) 输入处理***
CN1227657A (zh) 采用基于字典的词类概率的自然语言语法分析程序
KR970012111A (ko) 중국어 텍스트 입력 키보드, 중국어 텍스트 프로세싱 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장 방법, 형태 프로세스에 의한 단어 스트링 프로세스 방법, 중국어 어구를 구문적으로 분석하는 방법, 및 컴퓨터에 의해 판독가능한 프로그램 저장 장치
US4468756A (en) Method and apparatus for processing languages
CN1230764C (zh) 用于语音识别的设备、方法和计算机***
CN1095560C (zh) 修改汉字转换结果的***
CN101667099B (zh) 一种连笔键盘文字输入的方法和设备
CN1078565A (zh) 汉语和日语的双向机械翻译机
CN1043490C (zh) 叠词变换方法和汉字变换装置
CN1136496C (zh) 简化拼音-触摸屏鼠标式汉字输入方法
CN1755669A (zh) 人名输入处理方法及***
CN1043542C (zh) 汉字变换装置
CN1257444C (zh) 计算机汉语全音输入法
JPS607514A (ja) ワ−ドプロセツサ
CN1257445C (zh) 音义码汉字输入方法
CN1056457C (zh) 汉语的方块拼音字的电脑输入方法
Shieh The Unified Phonetic Transcription for Teaching and Learning Chinese Languages.
CN1119743C (zh) 计算机汉字组词码输入方法
CN1048341C (zh) 模糊汉字变换装置
CN1043821C (zh) 汉字变换方法
JP3348909B2 (ja) 形態素解析装置
CN1567155A (zh) 基于软键盘的常用字符和常用词输入方法
JP3048793B2 (ja) 文字変換装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee