CN1093184A - 汉字变换装置 - Google Patents

汉字变换装置 Download PDF

Info

Publication number
CN1093184A
CN1093184A CN 93119055 CN93119055A CN1093184A CN 1093184 A CN1093184 A CN 1093184A CN 93119055 CN93119055 CN 93119055 CN 93119055 A CN93119055 A CN 93119055A CN 1093184 A CN1093184 A CN 1093184A
Authority
CN
China
Prior art keywords
word
syllable
conversion
chinese
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 93119055
Other languages
English (en)
Other versions
CN1043542C (zh
Inventor
周峻慧
谢明勲
林启杆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1093184A publication Critical patent/CN1093184A/zh
Application granted granted Critical
Publication of CN1043542C publication Critical patent/CN1043542C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种汉字变换装置,将输入表音字符串中部分未 变换音节截出作下一个汉字变换对象,并以此音节为 检索码检索辞典部内有否对应单词,若无,则用词组 字检出部检查第1音节是否为前置词、连接词等的词 组字,若是,辞典检索部以第2个开始的音节为检索 码检索辞典内有否与该词组字构成一体的汉字字数 较多的单词,若有,扩展单词生成部中让对应单词与 词组字组合构成汉字数较多的扩展单词,然后变换处 理部将扩展单词优先变换成辞典检索到的单词,从而 能准确变换输入者想要的汉字且效率高。

Description

本发明涉及将表音字符串变换成汉字的汉字变换装置。
汉语文章中使用的汉字有一万以上。如何从中准确且高速输入汉语文章作者等所要的汉字,以及如何变换成汉字是包括汉字处理器在内的汉语计算机处理中最重要的课题。其次,以往的面向所要汉字变换装置的输入手段有声音识别、字符识别、键盘等,其中,用键盘输入最准确可靠,获得广泛使用。用键盘的汉字输入方式分为根据汉字读音的输入方式和根据汉字字形的输入方式。而上述根据字形的输入方式必须预先记住输入规则,为了记住它就得化相当多的时间,而且在习惯以前较费时间。另一方面,根据汉字读音的输入方式在日语字处理器中也被广泛采用,因自然又易学,估计会成为将来汉字输入方式的主流。因此,本发明是关于采用这种读音输入方式的汉字变换装置。
以往的读音输入的汉字变换装置,已有如台湾专利申请号75105838所给出的装置。图6为该汉字变换装置的构成图。100是将汉语文章作者所想变换的汉字的拼音、注音、罗马字等表音字符作输入的输入部,能输入任意长度(表音字符数)。180是将表音字符串同与其对应的变换用单词相对应地进行登记(永久存贮)的辞典部。而且复数个汉语单词对应于同一表音字符串时,按汉语单词的字笔画总数,使用频度排列,由一个汉字构成单词时,按该汉字的使用频度、字码的顺序等排列,并按此优先顺序变换。当然,若变换结果并非输入者想要的,可用其它途径操作,按顺序输出下一个单词、汉字,这与日语文字处理器是一样的。还有,所谓表音字符串,其性质上是复数个表音字符作为一体,以变换一个单词或汉字为原则,因此加“串”表示,但此概念也包含一个表音字符。这在以后出现的音节串等中也一样。还有,所谓单词还包含汉字一个字,不用说,“日本”、“东京”未必限定为汉语单词。140是存贮输入表音字符串的音节数的NCHAR寄存器。120、130分别是将表音字符串变换成单词时使用的PTR寄存器和NP寄存器,PTR寄存器120存贮从输入表音字符串的什么位置开始进行汉字变换,NP寄存器存贮的内容是将输入表音字符串变换成单词时的变换单词长度,即存贮构成单词的汉字数或者音节数(汉语中,原则上是一汉字一音节)。150是比较部,它在具有某长度或者说是某构成汉字数的单词的变换处理全部进行后,通过将上述NP寄存器130的值减1,使变换控制部工作,以便让构成汉字数中至少1个单词优先作汉字变换。160是变换控制部,其作用是将上述PTR寄存器120的设定位置由输入表音字符串的最初位置依次向后推移,根据NP寄存器130设定的变换对象一单词的构成汉字数即音节数,检查是否有已经汉字变换的音节,如果一个也没变换,且辞典部180内已登记有对应的单词的话,就变换成该对应单词。170是辞典检索部,将上述变换控制部160送来的音节串为关键码对辞典部180内容作检索。190是输出部,输出由上述变换控制部160所变换的结果。
根据以上的构成和作用,与输入部输入的表音字符串对应的汉语单词,能用所谓最长一致法,即以单词的构成汉字数为第1优先,先输入的音节为第2优先的方法,依次变换显示汉字,进而作成汉语文章。
但是,上述汉字变换装置中,是以登记在辞典部中的单词为变换单位,且用最长一致法变换。因此,在候补单词长度(构成汉字数)相同,且被输入的表音字符串中的某音节和其前后音节分别构成二个对应单词(前单词和后单词)时,对应于较先输入的前音节单词(前单词)优先进行变换,待该单词变换后,对应于后单词的音节,除去与前单词共同音节以外的音节再进行变换,而且多数情况是以一个汉字字符为单位作变换的。这种情况下,由于是以变换剩下的音节为对象的汉字变换,在辞典内的同一音节的汉字排列上会出现以下那样的误变换。例如,想输入“有一天”时,“一”的同音汉字有“益”,因此与输入“有一天”的表音字符串相对应的有“有益”和“一天”的前后单词。因此前单词“有益”优先变换,然后变换“天”,发生“有益天”这样的误变换。还有,要输出“杀人是犯罪的”时,“犯”的同音汉字有“范”,“是”的同音汉字有“示”,由于用两个汉字构成“示范”这个单词,存在“示范”和“犯罪”前后单词,前单词“示范”就优先变换,再有“罪”这个汉字的同音汉字有“最”,而且排列上比“罪”更优先,因此就发生“杀人示范最的”这样的误变换。此外,中文“其特征”也会错变换成“奇特征”。然而,将有可能产生这样误变换的汉语文章全部预先登记在辞典中,实际上是困难的。因此人们希望有一种可防止这种误变换的汉字变换装置。本发明就是在解决此课题的目的下完成的。
为实现上述目的,本发明的结构具有(1)对于输入表音字符串的尚未变换的音节或者该音节的一部分,让变换成最大字符数的单词为第1优先,变换先输入的音节为第二优先,在此基础上逐次减少变换对象的音节数,并使变换对象的音节依次向后挪,截出成为当前变换对象的音节串的音节截出部、(2)预先登记表音字符串及与其对应的汉语单词的辞典部、(3)以上述音节截出部截出的成为变换对象的音节串为检索关键码,检索上述辞书部内容,检出汉语单词的辞典检索部、(4)在上述音节截出部截出的成为变换对象的音节串中,若第1个音节为词组字,则按所定顺序检出该词组字的词组字检出部、(5)用上述词组字检出部检出对应的词组字时,以成为当前变换对象的音节串的第2音节开始的音节为检索关键码,用上述辞典检索部检索辞典部内容,若有对应单词,则将该词组字与该单词组合,生成汉字数较多的扩展单词的扩展单词生成部、(6)进行控制使上述扩展单词生成部生成的扩展单词优先汉字变换成上述辞典检索部所检索的单词的变换处理部。
本发明利用上述结构,音节截出部对被输入的表音字符串中尚未变换的或者该音节的一部分,让变换成最大字数的单词第一优先,让变换先输入的音节第二优先,且逐渐减少变换对象的音节数,并让音节依次向后挪,截出作为当前汉字变换对象的音节串。辞典部中预先登记表音字符串及与其对应的汉语单词。辞典检索部将截出的成为变换对象的音节串作检索关键码,检索辞典部内容,检索对应的汉语单词。词组字检出部对于上述音节截出部截出的成为变换对象的音节串,若第1个音节为词组字,则按所定顺序检出该词组字。扩展单词生成部用上述词组字检出部检出对应的词组字时,以成为当前变换对象的音节串的第二音节开始的其它音节作检索关键码,用上述辞典检索部检索辞典部内容,若有对应的单词,就将该词组字和该单词组合,生成单词字的扩展单词。变换处理部将上述扩展部生成的扩展单词优先变换成上述辞典检索部检索的单词。
以下根据实施例说明本发明。
图1是关于本发明汉字变换装置一实施例的构成图。图2-图4是该实施例的处理流程图。图1中,10是输入对应于汉语文章作者想要变换的汉字、文章的拼音、注音、罗马字等表音字符等的输入部。18是登记(预先的永久性存贮)表音字符串及与其对应的汉语单词的辞典部。另外,当相对一个表音字符串有复数个单词时,将这些单词以使用频度高的顺序排列,并且按此顺序优先汉字变换。14是表示输入表音字符串音节数的NCHAR寄存器。还有,由于汉语是一个汉字对应一个音节,因此输入表音字符串的音节数即变换的汉字数。12、13分别是将表音字符串变换成单词时使用的PTR寄存器和NP寄存器。这儿,PTR寄存器12存贮输入表音字符串从什么位置起进行汉字变换的变换位置。NP寄存器13存贮输入表音字符串变换成单词时成为变换对象的单词长度,即存贮构成该单词的汉字数、音节数。也就是说,设上述两寄存器的内容分别为ptr、np,则表示从输入表音字符串的第ptr个起连续np个音节是辞典检索时的检索关键码(以下设定np、ptr以及下文将出现的nchar分别表示NP、PTR以及NCHAR寄存器的值7)。11是寄存器初始化部。其详细工作内容以后说明,它计算输入表音字符串的音节数nchar,将此值设定在NCHAR寄存器14中,并且若该值大于登记在辞书部18中的最长单词即构成汉字表最多的单词的汉字数max(本实施例中为8)时,将上述max设定在NP寄存器13中,若为8以下,则将上述输入表音字符串的音节数设定在NP寄存器13中,并且将PTR寄存器12的值设定为1。15是不断检查(np+ptr)>(nchar+1)是否成立,若成立的话,则将NP寄存器13的值减1,使PTR寄存器12的值再次设定成1的比较部。因此,只有1个汉字构成的单词也能作为汉字变换对象,而且从输入表音字符的最初开始能对作为其对象的字数的单词作汉字变换。21是存贮特殊的词组字的读音和该文字的词组字字典部。20是以输入表音字符串的第ptr个的音节为检索关键码,检索词组字字典部21的词组字检出部。19是当用上述词组字检出部20检出有对应的词组字,则以输入表音字符串的第ptr+1个音节开始的np-1个音节为检索关键码,检索对应辞典部18内存的单词是否登记到辞典检索部17,若对应的单词已登记,则通过使该对应单词与该词组字组合,生成输入者本来想要变换的单词,即生成扩展单词的扩展单词生成部。16是变换处理部。其详细工作以后说明,它检查输入表音字符串从第ptr个音节开始的连续np个音节内是否已有变换过的音节,若有变换过的音节,则将应该处理其后边的未变换的音节的PTR寄存器12的值增加1,无变换过的音节时,而且若有对应的单词,则在对此单词作汉字变换的同时,在ptr上加np,若无对应的单词时,则在应该按顺序处理后一个音节字符串的ptr上加1。17是将上述变换处理部16或者扩展单词生成部19送来的音节作检索关键码,从辞典部18取出符合的单词,若有复数个单词,则最先取出排列为可能性最高的单词,再把取出的单词送至上述变换处理部16或者扩展单词生成部19的辞典检索部。22是输出上述变换处理部16所变换的结果的输出部。
以下说明本实施例的工作流程。另外,图2至图4原本是一张图,因画面尺寸有限,分成3张图。图2是以寄存器的初始化为中心的工作流程,根据本图说明其工作。
(S1)先将计算音节数的寄存器置零。
(S2)输入表音字符串
(S3)检查当前输入的表音字符是否为声调关键码。若是声调关键码就进入(S4),若不是就进入(S5)。
(S4)随输入音节数的增加,将计算音节数的寄存器的内容加1,回到(S2)。
(S5)检查当前输入的表音字符是否为输入结束关键码。若是输入结束关键码,则进入可以汉字变换(S6)。若不是输入关键码,则回到(S2)。
(S6)检查当前输入的音节数是否超过8。若为9以上,则进入(S7)。若为8以下,则进入(S8)。
(S7)设NP寄存器的值为8。
(S8)设NP寄存器的值为当前输入的音节数。
(S9)设NCHAR寄存器的值为当前输入的音节数。
(S10)设PTR寄存器的值为1。
这样,从输入表音字符串的最初开始,选音节数即选构成汉字数多的单词为汉字变换对象,完成初始化设定。
接着,图3和图4是以变换处理部为中心的工作流程,根据本图说明其工作。
(S11)截出从表音字符串第ptr个音节开始连续np个音节。
(S12)检查用(S11)截出的音节中是否有变换过的音节。若有已变换过的音节,则进入(S16)。而且此时,尚未变换的音节在np值变为更小的阶段中成为变换对象。若没有变换过的音节,则进入(S13)。
(S13)检索与(S11)截出的音节对应的单词是否存贮在辞典部内。若有,则进入(S14),若无,则进入(S17)。
(S14)将输入表音字符串的第ptr个开始的连续np个音节变换成由(S13)检出的对应单词,然后进入(S15)。
(S15)在PTR寄存器的值上加np。这是为了把(S14)汉字变换后紧随而来的音节字符串作为下一个汉字变换的处理对象。
(S16)在PTR寄存器的值上加1。这是为了让下一个音节数相同的音节字符串作汉字变换的处理对象。
(S17)将现在的NP寄存器的值与2作比较。若比2大,则进入(S18),若比2小,则进入(S16)。
(S18)按所定顺序检查由(S11)截出的音节的第一个音节是否为词组字的读音。若是词组字读音,则进入(S19),若不是,则进入(S16)。
(S19)检查由(S11)截出的音节中自第二个音节开始的np-1个音节所对应的单词是否登记在辞典部内。若已登记,则进入(S20)。若没有,则进入(S16)。
(S20)将(S18)检出的词组字和(S19)检出的单词连成一体,组合成所谓一个单词的扩展单词,将从输入音节的第ptr个开始连续np个音节变换成扩展单词,然后进入(S15)。
(S21)检查(np+ptr)的值与(nchar+1)的值的大小。若前者大时,进入(S22)。若前者小,则进入(S11)。
(S22)将NP寄存器13的值减1,并将PTR寄存器12的值设定为1后进入(S23)。这是为了让构成汉字数为1这样少字数的单词作为输入音节字符串中最初开始的下一个汉字变换的对象而进行处理。
(S23)检查NP寄存器13的值是否为零。若为零,则结束输入表音字符串的汉字变换处理。若不为零,则返回(S11)。
以下说明关系本发明的关键部的词组字字典部。
图5是本实施例的词组字字典部的数据结构的示意图。本字典由基本词组字读音及对应其词组字的对应表组成。本实施例把汉语的前置词“在”、“从”、“将”等、接续词“则”、“若”、“和”、“以”等、肯定·否定词“是”、“不”、“有”等以及指定词“其”、“该”等都看作词组字。而且,汉语中,这些词组字与单词连接,构成汉字字数较多的单词。另外,本说明书中把如此组合构成的单词称为扩展单词,例如“从三岁”、“在台北”、“不必要”、“有一天”等。这些扩展单词,本实施例中被视为一个单词(所谓惯用语)。而且,在采用最长一致法的本汉字变换装置中较优先变换。
下面以具体的单词作例说明上述构成的本实施例〔以下,由于是通过电子情报处理***提出申请,所以可使用的字符受限制,本说明书从便于理解出发分别用相似的“sha”、“ren/”、“shi\”、“fan\”、“zui\”、“de.”代替图7(a)、(b)、(c)、(d)、(e)、(f)所示的表音字符和记号,根据电子情报处理***的施行条例,这也本是以汉语文字处理器等为对象的发明,因此别推定外文字被大量又繁琐地使用。〕
现说明“sha    ren/shi\fan\zui\de·”输入字符串方面的工作。下面表示对应该输入字符串的、存贮在辞典内的、有可能变换的全部单词。
“sha    ren/杀人”
“ren/shi\人事”
“fan\zui\示范”
“zui\de.犯罪”
再根据流程进行说明。
当上述表音字符串被输入(S2),寄存器初始化部就根据声调信号将该输入表音字符串按音节分段而求出音节数(S3-S5)。由于上述输入字符串有六个音节,所以将音节数6设定在NCHAR寄存器中(S9)。而且,因该值比辞典部内的最长单词的汉字数8(本实施例中为8)小(S6),因此设6作为NP寄存器的初始值(S8),设PTR寄存器的值为1(S10)。这里,NP寄存器的作用在于存贮通过当前变换想要获得的单词的汉字数。这时,根据初始设定输入6,从构成音节数为6的单词开始依次作为汉字变换的对象。又,PTR寄存器的值ptr是当前辞典检索的起始位置,表示上述输入表音字符串的第ptr个音节。这时,因初始设定输入为1,所以从表音字符串的最初音节开始依次成为汉字变换的对象。
根据输入音节数设定PTR寄存器、NP寄存器、NCHAR寄存器的初始值后,变换处理部先根据PTR寄存器和NP寄存器的值,将输入部送来的表音字符串的第1-第6个连续音节串“sha    ren/shi\fan\zui\de·”截出(S11),进而检查其中是否有已汉字变换过的音节(S12)。若所有音节均未变换,而且这些音节串是刚输入的,因没有一个被汉字变换,所以这六个音节全部作为检索关键码送至辞典检索部,使之检索辞典部内容(S13)。由于没有对应的单词,且当前NP寄存器的值比2大(S17),所以检查第一个音节是否为词组字读音(S18)。判断第1个音节不是词组字时,就让PTR寄存器的值只加1(S16)。此时,比较部判断(np+ptr)的值比(nchar+1)的值大(S21),表示要进行6个音节数的单词的变换,不能截出其它的音节串。因此,让NP寄存器的值减1,变成5,再次设PTR的值为1(S22)。由于NP寄存器的值为不零(S23),进入执行下一个连续音节的截出和汉字变换处理的工作。同样,根据PTR寄存器的新值1和NP寄存器的值5,最初截出的“sha    ren/shi\fan\zui”,这也没有被汉字变换,因此通过ptr加1变为2(S16),接着截出的“ren/shi\fan\zui\de·”(S11)也仍是没变换的音节(S12),对应的单词未存贮在辞典部(S13),加之第1个音节不是词组字的读音(S18),所以不进行汉字变换处理。只是PTR寄存器的值再加1(S16)。“ren/shi\fan\zui\de·”被认为不是汉字变换的对象后(S13),PTR寄存器的值再加1变成3。这时,比较部判断(np+ptr)>(nchar+1)(S21),判断要进行5个构成汉字数的单词变换,已不能截出后面的其它音节串。因此NP寄存器的值减1变为4,并重新设定PTR寄存器的值为1(S22)。由于NP寄存器的值不为零(S23),则着手进行下一个连续音节的截出和汉字变换处理。NP寄存器的值为4时,与5情况相同,根据PTR寄存器与NP寄存器的值,依次从输入表音字符串截出的4个音节组成的连续音节串“sha    ren/shi\fan\”“ren/shi\fan\ziu\”(S11)都尚未变换(S12),因此以它们为检索关键码检索辞典部内容。由于没有对应它们的单词(S13),且第1个音节不是词组字的读音(S18),这些音节不作为汉字变换处理对象。此阶段中,使PTR寄存器的值2又增加1(S16)。当PTR寄存器的值变为3,则截出第3个表音字符串“shi\fan\ziu\de·”(S11),这仍然是尚未变换的音节(S12)。在这个阶段,对应这个音节串的单词没存贮在辞典部内(S13),而且NP寄存器的值比2大(S17),所以变成检查第1个音节是否是词组字读音(S18)。而且因读音“shi\”已登记在词组字字典内,所以要对其它音节“fan\zui\de·”检索是否有对应的单词存贮在辞典部内(S19)。然而由于没登记对应的单词,扩展单词的生成不用说,汉字变换也不行。接着,PTR寄存器的值加1变成4(S16)。此时,由比较部判断(np+ptr)>(nchar+1)(S21),判断:要进行4个音节数的单词变换,已不能截出位于后方的其它音节串。因此,NP寄存器减1变为3。而且PTR寄存器的值再设成1(S22)。这时,由于NP寄存器的值不为零(S23),进行下一个连续音节的截出和变换。
NP寄存器的值为3的情况也与6、5、4的情况相同,根据PTR寄存器和NP寄存器的作用和设定值,从输入表音字符串依次截出连续音节串“sha    ren/shi\”、“ren/shi\fan\”(S11)。此时,这些音节都尚未变换(S12),成为用这些音节作检索关键码检索辞典部内容,但没有对应它们的单词(S13),而且由于第1个音节不是词组字的读音(S18),不能进行汉字变换处理。只是PTR寄存器的值逐次加1(S16)。PTR寄存器的值为3时截出的shi\fan\zui\”(S11)也尚未变换(S12),且辞典部内无对应的单词(S13),再由于NP寄存器的值比2大(S17),成为检查第一个音节是否为词组字的读音(S18)。此时,词组字字典部内有对应读音”shi\”的字“是”。因此检索辞典部内是否登记有与其它音节“fan\zui\”对应的单词(S19)。由于登记有对应的单词“犯罪”,使词组字的“是”与对应单词“犯罪”组合,生成“是犯罪”这个扩展单词(S20)。于是,“shi\fan\zui\”变换成扩展单词“是犯罪”。接着PTR寄存器的值加NP寄存器的值,于是ptr的值为6(S15)。因此,用比较部判断(np+ptr)>(nchar+1)(S21)。由此判断:要进行3个音节数的单词变换,不能将后面其它的音节串截出,NP寄存器的值减1为2。而且再设PTR寄存器的值为1(S22)。此时,由于NP寄存器的值不为零(S23),能作下一个连续音节的截出和汉字变换处理。
NP寄存器的值为2、PTR寄存器的值为1时,将连续音节串“sha    ren/”截出(S11),因是尚未变换的音节(S12),辞典检索部以它为检索关键码检索辞典部内容。由于辞典部内存贮对应的单词“杀人”,将“sha    ren/”变换成“杀人”,使PTR寄存器的值加上NP寄存器的值成为3(S15)。此时,由于比较部判断:(np+ptr)比(nchar+1)小(S21),要进行2个汉字数的单词的变换,可以将其它音节串截出,所以接着截出连续音节串“shi\fan\”、“fan\zui\”、“zui\de·”(S11)。然而,这些音节已包括变换过的音节(S12),所以不能作任何处理。
接着,NP寄存器的值为1时,由于无论PTR寄存器的值是否为1、2、3、4或者5,截出的音节全已变换,所以不能作任何处理。若PTR寄存器的值为6,因该阶段截出的“de·”尚未变换,所以将它送至辞典检索部,检索辞典部内容。因汉语文章中,对应“de·”音的汉字中“的”的使用频度最高,排在最前,所以它最先进行汉字变换,把“de·”变换成“的”。在此基础上,使PTR寄存器的值加NP寄存器的值为7(S15)。此时,比较部判断(np+ptr)比(nchar+1)大(S21)。因此,NP寄存器的值减1为零。接着判断到此为止,变换处理部的输入表音字符串的汉字变换处理已结束,向输出部送出“杀人是犯罪的”这个变换结果。
上面用实施例说明了本发明,不言而喻,本发明并不受上述实施例的任何限止。也就是说,例如
(1)未必在输入结束键按过后才开始将输入表音字符串的所有表音字符串变换成汉字,即若输入声调关键码,则也可以每当输入一个音节,将从上次输入表音字符串的输入结束位置开始至当前被输入的表音字符串进行变换。
(2)也可以利用标记表示词组字,并将这些词组字与该标记对应地存贮在辞典部内,以此替换将词组字独立地存贮在词组字字典内。
(3)根据制造等情况,可以将权利要求项所示的各构成部物理性地分割成复数个部分,也可以将复数个构成部物理性地合并为1个部分,还可以将它们适当组合。例如实施例中PTR寄存器和NP寄存器和比较部和变换处理部16的部分处理相当于音节截出部的处理。
(4)表音字符的概念不只限于例示的音素字符、音节字符等,也包括音素记号,而且日文的假名、朝鲜文的谚文等文字也可以成为汉字变换的对象。
(5)在用途方面,不用说也包括日语中汉字文字处理器等。
(6)当然还可以添加学习功能等。
如上所述,根据本发明,在把输入音节串变换成中文文字(汉字)时,对于在要变换的音节中,有对应于汉语的前置词、连接词、肯定词、否定词、指定词等特性的词组字的读音,且在其后的连续音节上存在与该词组字一体构成汉字数多的单词的单词,则通过使该词组字与该单词组合,成为变换对象,生成多汉字也即多音节的扩展单词。汉字变换是以构成汉字数多的单词优先,因此对于以往仅仅以构成汉字数和前面单词为优先变换原则下存在的困难,如对“有一天”、“杀人是犯罪的”、“其特征”等的误变换都能容易解决。因此,作汉语文章时的汉字变换的准确率高,其技术性效果非常大。
图1是本发明汉字变换装置一实施例的构成图;
图2是上述实施例中寄存器的初始工作流程图;
图3是上述实施例中以变换处理部的工作为中心的流程图;
图4是上述实施例中以变换处理部的工作为中心的流程图;
图5是上述实施例中词组字字典的数据结构示意图;
图6是以往汉字变换装置的构成图;
图7是说明实施例中使用的表音字符串一览表。
图中符号分别为以下含义。10:输入部、11:寄存器初始化部、12:PTR寄存器、13:NP寄存器、14:NCHAR寄存器、15:比较部、16:变换处理部、17:辞典检索部、18:辞典部、19:扩展单词生成部、20:词组字检出部、21:词组字字典部、22:输出部。

Claims (1)

1、一种汉字变换装置,其特征在于具有:(1)对于输入表音字符串的尚未变换的音节或者该音节的一部分,让变换成最大字符数的单词为第一优先,变换先输入的音节为第二优先,在此基础上逐次减少变换对象的音节数,并使变换对象的音节依次向后挪,截出成为当前变换对象的音节串的音节截出部、(2)预先登记表音字符串及与其对应的汉语单词的辞典部、(3)以上述音节截出部截出的成为变换对象的音节串为检索关键码,检索上述辞典部内容,检出汉语单词的辞典检索部、(4)在上述音节截出部截出的成为变换对象的音节串中,若第1个音节为词组字,则按所定顺序检出该词组字的词组字检出部、(5)用上述词组字检出部检出对应的词组字时,以成为当前变换对象的音节串的第2个音节开始的音节为检索关键码,用上述辞典检索部检索辞典部内容,若有对应单词,则该词组字与该单词组合,生成汉字数较多的扩展单词的扩展单词生成部、(6)进行控制,使上述扩展单词生成部生成的扩展单词优先汉字变换成上述辞典检索部所检索的单词的变换处理部。
CN93119055A 1993-04-01 1993-10-22 汉字变换装置 Expired - Fee Related CN1043542C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP075912/93 1993-04-01
JP05-075912 1993-04-01
JP07591293A JP3234338B2 (ja) 1993-04-01 1993-04-01 漢字変換装置

Publications (2)

Publication Number Publication Date
CN1093184A true CN1093184A (zh) 1994-10-05
CN1043542C CN1043542C (zh) 1999-06-02

Family

ID=13590022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN93119055A Expired - Fee Related CN1043542C (zh) 1993-04-01 1993-10-22 汉字变换装置

Country Status (2)

Country Link
JP (1) JP3234338B2 (zh)
CN (1) CN1043542C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101868415B (zh) 2007-11-21 2013-01-16 丰田自动车株式会社 卷材输送装置、卷材输送方法及卷材输送控制程序

Also Published As

Publication number Publication date
JPH06290183A (ja) 1994-10-18
CN1043542C (zh) 1999-06-02
JP3234338B2 (ja) 2001-12-04

Similar Documents

Publication Publication Date Title
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
CN1230764C (zh) 用于语音识别的设备、方法和计算机***
CN1008016B (zh) 输入处理***
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
CN1043542C (zh) 汉字变换装置
CN1136496C (zh) 简化拼音-触摸屏鼠标式汉字输入方法
CN1043490C (zh) 叠词变换方法和汉字变换装置
CN1091895C (zh) 一种以汉语拼音为基础的计算机汉字输入方案
CN1186708C (zh) 一种汉字输入方法及其装置
CN1226692C (zh) 基于语义语言的机器翻译***及方法
CN1257444C (zh) 计算机汉语全音输入法
CN1043821C (zh) 汉字变换方法
JP2003288366A (ja) 類似テキスト検索装置
CN1069420C (zh) 文字式音形汉字输入方法
JPS60132265A (ja) かな漢字変換装置
CN1107895C (zh) 利用中文输入规则输入日文汉字的装置与方法
CN1048341C (zh) 模糊汉字变换装置
CN1151540A (zh) 四合一码计算机汉字编码输入法
CN1041356C (zh) 数据检索装置
JPH0916575A (ja) 発音辞書装置
CN1138714A (zh) 基于词组的汉字输入方法
JPH0760434B2 (ja) 漢字変換装置
CN1567155A (zh) 基于软键盘的常用字符和常用词输入方法
JPH03225462A (ja) ローマ字漢字変換装置
JPH03110675A (ja) 単語辞書検索装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee