CN1101732A - 汉字变换学习装置 - Google Patents

汉字变换学习装置 Download PDF

Info

Publication number
CN1101732A
CN1101732A CN 94104905 CN94104905A CN1101732A CN 1101732 A CN1101732 A CN 1101732A CN 94104905 CN94104905 CN 94104905 CN 94104905 A CN94104905 A CN 94104905A CN 1101732 A CN1101732 A CN 1101732A
Authority
CN
China
Prior art keywords
word
unit
user
learning
access times
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 94104905
Other languages
English (en)
Inventor
郭俊桔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1101732A publication Critical patent/CN1101732A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种汉字变换学习装置包括:按使用频度排列存 贮读出符号及其词语的固定大型词典;按使用次数多 优先新近使用优先原则排列存贮读出符号及其词语 的学习词典;将读出符号作为检索键对两词典检索并 将排在最前面词语作为变换对象的变换单元;按用户 指令选择变换单元输出的词语的选择单元;按上述优 先原则对学习词典重新排列的重新排列单元;从学习 词曲中删除使用次数小于门限值的词语的更新单 元。该学习装置有长期和短期学习经验的优点。

Description

本发明涉及汉字变换装置用的学习装置,尤其涉及长期学习与短期学习并用的汉字变换学习装置。
中文文字处理机等中的汉字读音的输入方式,其构成包括例如,从键盘输入由表示使用者所希望的词语(所谓词语虽多由多个汉字构成,但也包含一个汉字的。还包含如下面说明的句子、短文等)或汉字的读音的注音字母串(在日语中、由于单数和多数本来就没有明确的区别,虽然在本说明书中没有将两者严格分开使用,但暂且认为汉字串、注音字母串,这样带有“串”的指复数)所组成的读音符号。该注音字母串至汉字的变换,其过程包括文字处理机通过采用(1)优先处理构成的汉字数多的词语(中文中此汉字数等于音节数),(2)优先处理先输入的注音字母这两条原则的最长一致法,提取由该输入的注音字母串构成的读出符号(下面,把这样提取的注音字母串称为“形态素”),并将所提取的读出符号作为检索键对词典部进行检索;查出对应的词语,再将该词语变换为构成的汉字串。(又,关于最长一致法为本申请人在特愿平5-25911号、特愿平5-75912号等中公开的那样,已为公知技术,故省略其说明)而且若变换后的词语不是作为文字输入者的使用者所希望的,则通过手动加以修改。因此,存在同音异义的汉字和词语时,如果能从它们之间尽早正确选出正确的,就能提高这种输入方式的效率。然而,作为用于解决这种同音异义的汉字词语的选择问题的手段,通常利用“学习功能”。这就是,通过记录使用者使用的同音异义的汉字、词语的使用频度和使用次数等,并将这些反映到同音异义的汉字及词语间的选择上,以谋求提高其选择的成功率。此时,这种使用频度等的记录内容按照学习对象的时间长、短被分为短期学习与长期学习两种。
所谓短期学习,选择同音异义的汉字、词语时最新使用的优先。例如,对应于中文的读出符号“i4”的同音异义汉字,按其常用频度的顺序为“意、億、易、亦、益、翼、……”等,并将它们按这种顺序排列存贮在词典部中。若这些同音异义的汉字中,使用者已用的最新字为“翼”,则其存贮顺序变成“翼、意、億、易、亦、益……”,以下一输入同样的读出符号“i4”,就自动地最优先选择“翼”。但是,若使用者再次输入“i4”而选择“益”,该“益”字下次输入“i4”时,应作为最优先汉字变换对象排在前头。于是,“翼”字的优先级下降一位,而且,“i4”所对应同音异义汉字的排列变成“益、翼、意、億、易、亦、……”。这种方式的优点是最新使用的汉字、词语自动排在前头,通常对于使用者的输入能正确地选择汉字、词语。其缺点是连不常使用的汉字和词语也作为学习对象,在因所作文件性质及使用者作文中选择词语、汉字的习惯而碰巧上述汉字和词语使用多时,会使这些汉字和词语的变换率极差。
所谓长期学习,每个同音异义的汉字、词语记有它们的使用次数,并按其使用频度高的顺序排列存贮同音异义的汉字、词语。因此,优先选择先存贮的同音异义汉字、词语。这种方式的优点在于,在频繁使用使用频度低的汉字、词语的特殊情况下能避免汉字的正确变换率变低。其缺点是,由于要存贮每个汉字、词语的使用频度,所以必须增加存贮资源量。又,对当前正在输入的文件中的汉字、词语应答迟缓。
又,词典部内的读出符号排列顺序,词语排列的变更,每个特定词语使用次数的存贮,对错误变换的汉字的订正操作,与这种操作所提取注音字母串对应的词语根据优先级在阴极射线管(CRT)预定位置上的显示,从该显示中选择使用者所希望的词语,以及当该显示中不含有所希望的词语时,通过使用者的指令显示下一优先级的词语等方式,都是日文文字处理机所广泛采用的众所周知的技术。所以省略这些说明。又,词典部内的读音和词语的记录、存贮、寄存等,实际上用编码以电磁的形式处理,由于这些也为已知技术,所以也省略其说明。
通常,汉字输入装置,通过采用上述两种学***假名、片假名等注音字母(严格来说,平假名等为“音素文字”,但如后面说明,在本说明书中两者没有区别)。词典单元200先做成使あいうえお顺序构成的日文词语读音和对应于这些读音的汉字作为中心的词语标记具有对应关系的表后,再将该对应表按50音顺序排列进行存贮。文字变换单元300,用输入单元输入的假名串依次检索同音词语顺序存贮单元400与词典单元200,从而获得对应于这些假名的汉字或由汉字和假名构成的词语标记(这里使用“词语标记”的原因在于日文文字处理机中不一定将输入的假名全变换成汉字。即考虑到例如假名串“よびだず”变换成“呼ぴ出す”的情况。但与中文文字处理机中的“汉字”,“词语”没有实质差别)。且,在词典单元200内的检索中,存在多个与作为检索键的输入假名串具有相同读音的词语标记的情况下,按先前存入的顺序选择它们,并与输入的假名串一同输出给同音字选择单元500。同音词语顺序存贮单元400按照与读出对应的选择顺序存贮从同音词语选择单元500选择的同音异议词语标记。因此,越是新选的词语,越是排在后面。于是,同音词语顺序存贮单元400内的检索顺序与词语标记存贮顺序相反,越是新用的词语,越是优先。同音词语选择单元500在从文字变换单元300输出的词语标记中存在同音异义标记的情况下,文字输入者可用下面要述的同音词语指定单元900选择希望的词语标记。显示单元600,通过将同音词语选择单元500选择的词语标记显示在画面上,可由使用者确认汉字变换结果或指定特定的词语标记。词典更新单元700对存贮在上述同音词语顺序存贮单元400内的各同音异义词语标记计算其重复使用次数,并将该计数值超过规定值“3”的词语标记,在词典单元200内该词语标记与同音词语的排列中,置换到最前头。词典更新指定单元800,输入使用者的词典单元更新指示。同音词语指定单元900,指定使用者的多个同音异义词语标记中特定的标记或输入变换终了指示。
实际上,在日文文字处理机中,由于存在像“呼ぴ出す”的词语标记,全部平假名不一定都变换成汉字,和由于在2个平假名“かき”可变换成“柿”、“夏期”等平假名与被变换的汉字之间不存在一音节一汉字这样的数量固定关系等,所以中文文字处理机中的最长一致法,原封不动是不能用的。然而,由于这些差异与本发明主题无关,且其另一方面将平假名作为检索键检索词典单元内部的变换情况的大原则是相同的,且属已知技术,所以关于日文文字处理机中,词典单元检索用输入平假名的提取算法等省略其说明。
下面参照图9所示动作流程图说明该同音异义词语学习装置进行汉字变换时的处理情况。
S91中,从假名输入单元输入假名串。
S92中,确认输入文字变换单元的假名是平假名标记。是平假名标记时进入S93。若不是平假名标记时,直接进入S95,变成显示被变换的文字串后的输入等待状态。
在S93中,进入汉字变换处理进行词语检索。
在S94中,同音词语选择单元通过上述检索结果,对要处理的假名串判定是否含有同音异义的词语标记。若含有,进入S96。若判定不含有时进入S95。
在S95中,由显示单元600显示被变换的文字串。然后变成输入等待状态。
在S96中,将对使用者的同音词语选择指令导语显示在显示画面上。
下面,结合参照图10所示动作流程图来说明对同音异义词语标记进行选择时的处理情况。
S101中,使用者通过同音词语指定单元从文字变换单元收到的同音异义词语标记中选择所需要的。
在S102中,进行该选择是否正确的确认(确定)。
在S103中,将确定的词语标记以选择的顺序排列,并存入同音词语顺序存贮单元中,此后再次转入输入等待状态。
下面,参照图11所示动作流程图,说明进行词典单元更新时的处理情况。
在S111中,使用者通过将词典更新指示输入词典更新指定单元,起动词典更新单元。
在S112中,检查同音词语顺序存贮单元存贮的词语,若存在重复存贮时,对该重复次数计数。
在S113中,对词典单元内重复次数为3以上的词语标记,其同音语中存贮的顺序按预先的选择更换排列。此后,转入下面的输入等待状态。
用以上的程序变换日语的汉字,并作相应的学习。
但是,在如上已有构成的汉字变换学习装置中,存在如下问题。
(1)要用人工进行同音异义的汉字、词语和词语标记的选择和词典单元的更新。
(2)存贮在词典单元、同音词语顺序存贮单元中的同音异义词语等的存贮顺序随学习功能而变。这样,一旦作为变换对象的文章的性质、使用者对文字等选择的癖好等发生变化时,就有必要更新词典单元的存贮顺序。
(3)词典单元用ROM(只读存贮器,仅可读出的存贮单元)构成的情况下,不能对词典单元进行更新。
(4)学习对象限于词典单元,使用者为作文方便而定义的词语不属于学习对象。这样,汉字变换效率必定受到一定的限制。
本发明,鉴于上述课题,为解决上述(1)~(4)问题而提出,其目的在于提供一种汉字变换效率优良的汉字变换学习装置。
为了达到上述目的,在权利要求1的发明中,提供了一种汉字变换学习装置,其特征在于,它备有:若对应的词语有多个,则根据其使用频率排列之后将读出符号与其对应的词语记录下来的固定大型词典单元;按照第一使用次数多优先第二新近使用优先这样的原则排列并存贮读出符号、该符号对应的词语及其使用次数的学习词典单元;将输入的读出符号作为检索键依次检索上述学习词典单元、固定大型词典单元,检出对应的全部词语,若对应的词语是唯一的则将该词语作为变换对象,若有多个对应词语则将排列在最前面的作为变换对象进行选择的变换单元;存在多个对应的词语情况下,若上述变换单元选择结果不正确时,通过使用者的指令可从上述变换单元检出的其它词语中选择使用者想要的词语作为汉字变换结果的选择单元;上述变换单元的选择一直不正确,使用者通过上述选择单元的指令进行订正时,订正后的词语若没有存贮在学习词典单元中,则设使用次数为1后,使该词语对应于作为检索键的读出符号重新存贮,订正后的词语若已存贮,则其使用次数加1后,按照上述第一使用次数多优先、第二新近使用优先的原则对该输入读出符号在上述学习词典单元内的词语排列进行重新排列的重新排列单元;若由上述重新排列单元加1后的该词语使用次数在预定值以上时,检测到这种情况之后,将上述学习词典单元中的全部词语的使用次数减去一定值,再与别的方法确定的门限值进行比较,其值小于门限值的词语从学习词典单元中除去的更新单元。
在权利要求2的发明中,如权利要求1所述的汉字变换学习装置,其特征在于,它还备有:通过使用者定义词语的作成指令作成使用者定义词语,并使该词语对应于作为其检索键输入的读出符号后,将两者存贮于上述学习词典单元中的使用者定义词语作成单元。
在权利要求3的发明中,如权利要求2所述的汉字变换学习装置,其特征在于,所述使用者定义词语作成单元可应用脱机方式。
在权利要求4的发明中,如权利要求2或3所述的汉字变换学习装置,其特征在于,所述重新排列单元在通过上述使用者定义词语作成单元所作成的使用者定义词语的检索用读出符号与同音的其它词语已存入学习词典单元中的情况下,将该新的使用者定义词语的使用次数设定为该同音异义词语的使用次数或比该使用次数多一预定值,若存有多个同音异义词语,则设定为这些词语使用次数中的最大值或比该最大值多一预定值。
按照上述构成,在权利要求1的发明中,固定大型词典单元上,读出符号(注音字母)与其对应的词语,若存在多个对应的词语,则按照其使用频度排列后记录(预先存贮)。
学习词典单元根据第一使用次数多(或其值大)优先、第二新近使用优行的原则,将读出符号与其对应的词语及该词语的使用次数进行排列并存贮(排列变更等作为可能的状态重新存贮或保持存贮)。
变换单元,将输入的读出符号作为检索键顺序检索上述学习词典单元、固定大型词典单元,并检出对应的全部词语,若对应的单语是唯一的则将该词语作为汉字变换的对象,若存在多个对应的词语,则将排列在最前面的作为汉字变换对象进行选择。
因存在多个对应词语而上述变换单元的选择结果不正确时,选择单元通过使用者的指令,可从上述变换单元中检出的其它词语中选择使用者想要的词语作为汉字变换的结果。
上述变换单元的选择一直不正确,使用者通过上述选择单元的指令对其进行订正时,重新排列单元对订正后的词语若没有存贮在上述学习词典单元内,则设使用次数为1后,对应于作为检索键的读出符号重新存贮,若已存入,则将使用次数加1之后按照上述第一使用次数多优先,第二新近使用优先的原则重新排列作为该输入的读出符号的词语(这样,此重新排列单元等于完成重新排列、重新存贮和对使用次数的值追加这3种动作)。更新单元在上述重新排列单元加1后该词语的使用次数大于预定值时,检测出这种状态,并对学习词典单元中全部词语的使用次数减去一定值之后,与别的方法确定的门限值进行比较,其值小于门限值的词语从学习词典单元中删除。
在权利要求2的发明中,使用者定义词语作成部通过来自使用者的词语定义作成指令,根据汉字组合词语,并作成使用者定义词语,并使该词语对应于作为其检索键输入的读出符号,再将两者存入上述学习词典单元中。
在权利要求3的发明中,使用者定义词语作成单元能使用脱机方式(理解使用其他文字输入装置输入到软盘等存贮媒体的使用者文字输入方面的操作,也即通过装有该软盘等的其他装置从该软盘读出知道所输入的操作内容),并具有将所作成的使用者定义词语与其读出符号一起存入上述学习词典单元的功能。
在权利要求4的发明中,重新排列单元在由上述使用者定义词语作成单元所作成的词语的检索用读出符号与同音词语已存入学习词典单元中时,将该新的使用者定义词语的使用次数设定为该词语的使用次数或比该使用次数多一预定值,若存贮有多个同音异义的词语时,将设定为这些词语的使用次数值中的最大值或比该使用次数多一预定值。
如上所述,本发明的汉字变换学习装置,由于具有长期学习和短期学习方面的长处,所以能完全消除已有技术所存在的问题而获得如下的效果。
(1)不用手动,能自动地学习同音异义的汉字、词语和词语标记,并提高了汉字变换的正确率与输入速度。
(2)由于使用者定义词语存贮在学习词典单元中,所以不需要构成已有技术的使用者定义词语词典单元。这样,节约了存贮资源,并当存在多个同音词语时,为了选择其候补,不必判别使用者定义词语词典单元与学习词典单元究竟哪个优先检索。
(3)由于仅限于将固定大型词典单元内用过的汉字、词语存贮在学习词典单元中,所以进一步节约了存贮资源。又,由于构成基础的固定大型词典单元不必更新。所以也可用ROM作成词典单元。
(4)具有长期学习经验、短期学习经验两方面的优点,并消除了这两方面的缺点。这样,汉字变换的正确率得到提高。
(5)本发明中所用词语的使用频度为一般。进而,文字变换的正确率又提高。
下面结合附图所示实施例详细描述本发明。
图1为本发明汉字变换学习装置的一实施例构成图;
图2为上述实施例的汉字变换处理时的动作流程图;
图3为上述实施例中的同音词语的选择和学习词典单元的更新等的动作流程图;
图4为上述实施例中更新学习词典单元等情况的较详细动作流程图;
图5为上述实施例中更新学习词典单元等情况的较详细动作流程图;
图6表示上述实施例中的学习词典单元内的读出符号,对应该读出符号的一些汉字及其使用次数的存贮构成示意图;
图7表示上述实施例中的固定大型词典单元内的读出符号和对应于该读出符号的一些汉字的记录构成示意图;
图8为已有的汉字变换学习装置的示例构成图;
图9为上述已有例同音异义词语学习装置中,进行汉字变换时的动作流程图;
图10为上述已有例同音异义词语学习装置中从多个同音异义词语中选择正确的词语时的动作流程图;
图11为上述已有例同音异义词语学习装置中更新词典单元时的动作流程图。
图1为本发明汉字变换学习装置一实施例的构成图。在该图中,10为输入单元,20为变换单元,25为显示单元,30为选择单元,35为同音词语/使用者定义词语指定单元,40为学习词典单元,45为固定大型词典单元,50为更新单元,60为第一缓冲器,65为第二缓冲器,70为输出单元,80为使用者定义词语作成单元。下面是关于这些单元的作用、构成等的说明。
输入单元10接受使用者用键盘参照阴极射线管(CRT)输入的变换对象的注音字母串。变换单元20参照固定大型词典单元45等将该输入的注音字母串变换为汉字串。显示单元25由CRT构成,它将变换后的汉字串或与其同音的汉字串、词语、词语标记(下面在明显不易混淆的情况下,将这三个词写为“词语”)作为后补选择加以显示。选择单元30与CRT、键盘、按钮等连动(一边调整,一边动作),通过这样进行同音词语的选择,又根据上述变换单元输出的汉字,作成使用者定义词语,可指定词语的含意。同音词语/使用者定义词语指定单元30是使用者进行“从同音汉字、词语、词语标记中选择所希望的”或“作成使用者定义词语”两种指令发放的单元,并和CRT、键盘连动。学习词典单元40由易失性的高速半导体存贮器构成,它存贮读出符号和对应于该读出符号的所有词语及其使用次数,而且每个同音词语预先安排成使用次数高的应优先作为变换对象。若使用次数相同,则最新使用的排在前面,可优先进行变换。图6中表示这种结构的概念。固定大型词典单元45由非易失性的磁盘构成,它存贮着由编码表示的注音字母串构成的读出符号与对应于该读出符号的全部词语,即同音异义词语,其排列顺序取决于一般使用者或通常作成的文件中的使用频度。图7中表示这种结构的概念。更新单元50设在重新排列单元51中,并与其作用相对应,根据读出符号和对应该读出符号的词语及使用次数,以预定的程序更新学习词典单元40,且进行词语的重新排列。第一缓冲器60在选择同音词语时,暂时存贮由所提取注音字母串编码构成的每个形态素对应的全部同音词语。第二缓冲器65在更新学习词典单元时,暂时存贮构成更新基准的词语使用次数值。输出单元70输出汉字变换后的词语。使用者定义词语作成单元80在将使用者常用,固定大型词典单元又没有,而且许多情况下由多个汉字构成的词语作为使用者定义词语编制时,起核心作用,并在编制过程中与键盘、CRT、MCPU等连动。
图2为本实施例中的汉字变换动作流程图。
下面,根据该图说明其内容。
在S201中,用最长一致法提取输入的注音字母串读出符号。
在S202中,将所提取各形态素的读出符号作为检索键,按学习词典单元、固定大型词典单元的顺序检索该发音词语的候补词语,将检出结果的词语群(词语常为多个,所以在“词语”后加上“群”,没有封闭在“群”中的意思)存入第一缓冲器。
在S203中,存贮在第一缓冲器中的汉字、词语群的第一个汉字、词语作为变换结果。
S204中,在显示装置中显示变换结果。
至于候补词语的正确选择和学习词典的更新处理,最后通过使用者用显示装置确认变换结果来完成。若变换结果是正确的,则使用者给指定装置输入“确定”指令码,通过更新单元,以作为正确变换结果的词语对该读音的学习词典单元进行更新。如果由使用者判断没有所要的变换结果时,由选择单元修正变换结果。修正过的变换结果显示在显示装置上。由此等待使用者的指令码。若使用者一旦由同音词语/使用者定义词语指定单元输入“使用者定义词语”指令码,则由使用者定义词语作成单元作成所希望的使用者定义词语。更新单元内的重新排列单元将构成该词语的汉字串与特定的读出符号一同存入学习词典单元内。关于与此同时设定的使用次数,在后文中说明。
图3是本实施例中选择同音词语和更新学习词典单元的操作流程图。下面,参照本图说明这些操作。
S301中,在显示装置上显示变换后的汉字串与光标位置。
S302中,使用者从同音词语/使用者定义词语指定单元输入指令码。
S303中,判字指令码是否为“确定”。若是则进入S304中。否则进入S306。
S304中,将表示更新处理的特征位设定为“一般”值。
S305中,分别以各变换结果的词语及其读出符号对学习词典单元进行后文所述的更新和重新排列处理,并结束这种处理。
S306中,指令码判别是否有“光标移动”。若“光标移动”,进入S307。否则进入S308。
S307中,光标移至要修正的词语位置后,返回S301。
S308中,指令码判别是否为“同音词语的显示”。若是,进入S309。否则进入S311。
S309中,从第一缓冲器取出同音的候补词语,显示于显示装置25上。
S310中使用者用同音词语/使用者定义词语指定单元从同音异义候补词语中选择所希望的,然后进入S315。
S315中,用S310中所选词语替换非正确变换的词语之后返回S301。
S311中,指令码判别是否为“使用者定义词语”。若是,进入S312。若不是,进入S301。
S312中,将表示更新处理的特征位(FLAG、电子符号)设为“使用者定义词语”的值。
S313中,通过一边观察文字处理机,一边对话的汉字变换的联机方式或用存贮在由其他文字处理机输入的软盘中的指令进行工作的脱机方式,作成由读出符号及其对应汉字串构成的使用者定义词语。且,在脱机方式的情况下,通过装软盘时使用者的其它指令及存贮于软盘中的预定信号,可获知各种指令、操作的内容。这里的预定信号是预先确定的,使用类似于发明申请说明书中的“[」、「]”的符号。由于这为已知技术,省略其说明。在此基础上进入S314。
S314中,将由使用者定义词语的读出符号、词语构成的汉字串存入学习词典单元,进行后述的更新、重新排列处理,再返回S301。
在词语存入学习词典单元时,若处理特征位为“一般”,且输入的读出码和词语已存入学习词典单元,则该词语的使用次数加1。虽存入读出符号,但未存入词语时,则将该词语添加于该读出符号栏内,进而该词语的使用次数设为1。又,读出符号、词语都未存入时,将该读出符号与词语作为一个学习数据输入重新存入学习词典单元中。然后,其使用次数设为1。
图4与图5为本实施例学习词典单元中词语重新存贮、所有词语重新排列、更新时,即图3中S305和S314两步骤的详细操作流程图。原来两图应作为一页,由于申请时受电子信息处理***输入规模的限制而分成两页。下面,参照两图说明学习词典单元的重新存贮、重新排列及更新。
首先说明图4中的操作。
在S401中,将输入后的读出符号、词语处理特征位分别设为变量YOMI、LEX、FLAG,并存贮在内部的存贮单元中(未图示)。将使用次数的最大值和更新中使用的常数值分别设为TH和FUNM,并将它们存入同一存贮单元中,然后进入S402。
在S402中,YOMI作为检索键检索学习词典单元。将检索值(词语、使用次数)存入第二缓冲器的寄存器群A中。
在S403中,判别寄存器群A是否为空集(什么都没输入)。若为空集,则进入S404。又,对于空集合在学习词典单元中表示没有上述读出符号。若不是空集,则进入S406。
在S404中,设使用次数为1。
在S405中,将YOMI、LEX和使用次数(此时为1)存入学习词典单元中之后,结束处理。
在S406中,判定FLAG是否为“使用者定义词语”。若不是“使用者定义词语”,则进入S407;若是,则进入S414。
在S407中,将LEX作为检索键检索寄存器群A。将检索值(LEX的使用次数)存入第二缓冲器的寄存器b中。然后进入S408。
在S408中,判别寄存器b是否为空集。若不是空集,进入S409。若是空集,进入S412。
在S409中,寄存器b的值加1之后进入410。
S410中,将LEX作为检索键(Key),用寄存器b的值更新寄存器群A内该词语使用次数的值。
在S411中,将使用次数的值作为基准,相对于寄存器群A所输入的YOMI,订正所存词语的排列顺序。由此,进入后文所述图5的处理节点B。
在S412中,寄存器b的值设为1。
在S413中,将LEX作为检索键,把寄存器b的值存入寄存器群A的值的最后处。然后,进入图5所示的处理节点B。
在S414中,从寄存器A取出使用次数的最大值存入寄存器b中。
在S415中,对LEX表现的词语赋予寄存器b的值作为使用次数,并存贮在用寄存器群A的该读出符号所表示词语群的最前面。然后进入图5中所示的处理节点A中。
下面,说明示于图5中的操作。
由处理节点进入S501。
在S501中,将LEX作为检索键,把寄存器群A中的LEX与其使用次数按使用次数值大小的顺序重新排列。
在S502中,将YOMI作为检索的键,用寄存器群A的值变更学习词典单元内的使用者定义词语与词语的排列。
在S503中,判别寄存器b的值是否等于TH。若是,进入504。若不是,则结束该处理。
在S504中,将学习词典单元中的所有使用次数的值只减FUNM。然后进入S505。
在S505中将学习词典单元中的使用次数为0或负数的词语从学习词典单元中除去,并结束该处理。
由处理节点A进入S502。
图6为本实施例中的学习词典单元构成示意图。在该图中,写于汉字、词语后面的数字为该汉字等的使用次数。且,汉字、词语存贮时的排列都是根据使用次数多少的顺序进行的。这样,排在各读出符号最前面的汉字、词语,当该读出符号作为检索键被输入时,最优先被选择。
图7为本实施例的固定大型词典单元构成示意图。同音异义的各汉字、词语的排列是根据对一般使用者和文件(文献、语言资料)中使用频度的调查结果作成的,使用频度高的优先排列,因而,作为汉字变换的对象优先输出。
对于如上构成的本实施例,具体说明当输入“di2ren2gong lsh4men 3lie4”时的中文文件汉字变换操作。
参照学习词典单元和固定大型词典单元,经变换单元后,其结果变为“敌人「公式」猛烈”(这里,围以框号「」的词语指作为本发明实施例说明对象的词语)。通过选择单元,处理结果为“敌人「攻势」猛烈”。下面列出,该阶段中上述更新单元更新排列前后的学习词典单元的内容:
(前)gonglsh4公式3、公事3、攻势3、工事2
(后)gonglsh4攻势4、公式3、公事3、工事2
接着输入“uo3xioulgai3fang2yu4gonglsh4”,通过变换单元后,汉字变换的结果是“我修改防御「攻势」”。通过选择单元,修正后的结果变成“我修改防御「工事」”。此时,通过更新单元更新后的学习词典单元的内容如下所示:
gonglsh4攻势4、工事3、公式3、公事3
接着输入“di2ren2 de 0gongl sh4 shou4zu3”,文字变换单元进行处理后的结果是“敌人的「攻势」受阻”。没有变成“敌人的「工事」受阻”而直接输出“敌人的「攻势」受阻”。此时,由上述更新单元处理的学习词典单元的内容如下所示:
gonglsh4攻势5、工事3、公式3、公事3
上述选择单元中,从同音词语/使用者定义词语指示单元获得的输入码为“使用者定义词语”时,则进入使用者定义词语单元。如果使用者输入使用者定义词语的读出符号“gonglsh4”和词语“宫室”,则通过更新单元处理后的学习词典单元中该读出符号一栏的构成如下所示:
gonglsh4宫室5、攻势5、工事3、公式3、公事3。
这时,由于“宫室”在使用次数值最大值为5的词语中排在最前面,所以下次将读出符号“gonglsh4”变换汉字时,最优先选出“宫室”作为该使用者定义词语。
此后,如“公事”被使用了几次,这样它就进入读出符号“gonglsh4”的最前面,且使用次数为6,从而达到预定的上限值TH时,从相对于存贮在学习词典单元中的各读出符号的所有词语的使用次数中减去一定值FUNM(=3)。
然后,将减算结果对应的使用次数在0以下的词语从学习词典单元中除去。且,对应的词语全被除去的读出符号也随之一起删除。
利用上述方法,防止学习词典单元内存贮的词语的总数增大,取得处理速度提高及其存贮资源所需量在一定值以下的效果。
以上虽然根据实施例对本发明进行了说明,但本发明并不限定于上述实施例,在其要旨不变的范围内,不言而喻,可经适当变形而实施本发明。例如:
(1)进行日文文字处理机中的汉字变换时,可应用本发明更新其学习词典单元。
(2)更新学习词典单元时使用的门限值等也可根据词语设定最佳值。例如,对于在中文中起日语中助词作用的「的」、「是」等,将更新单元起作用的规定值TH设为50、60等较大的数。
(3)所谓注音字母、读出符号,其含意指为特定表意文字输入的字母和符号,它包含罗马字母那样的注音字母、假名那样的音素字等多种表意文字构成要素的字母和***数字那样的符号,也包含台湾的注音符号、同注音符号第二式等。所谓「输入」不仅指键盘输入,也可以是近年开始付诸实用的手写输入。又,所谓汉字不限于表意文字,也包含如日语词语标记中的假名那样,与表意文字综合使用的注音字母及音素字。进而,所谓表意文字不限定于中文中的纯汉字,也包含通常文章中使用的各种标号,不管它是日本创造的“峠”等外国(从中国的角度看)文字或表示汉字重复的“峠”等原汉字和各种外国汉字。
(4)在本实施例中,更新单元和重新排列单元制成一体,但也可以象这样,在编制程序等情况下,将本发明的一构成要素,必要条件或物理上作为多个单元,或将多个构成要素物理上作为一体,并使这两种方式适当组合。固定大型词典单元的存贮器也不限ROM、易失性等种类,还可根据日文、中文等作成的文件更换。
(5)在学习词典单元中重新存贮使用者定义词语的情况下,尽管以前没有存贮同音词语,但其使用次数取为:更新单元更新减法中用的最小数(FUNM)+门限值+余量(1)。这样,防止仅一次更新作用就将使用者定义词语从学习词典单元中除去。
(6)与使用者定义词语所对应的读记号,不一定是该词语的正确读出符号,也可用方便于使用者的略音构成。

Claims (4)

1、一种汉字变换学习装置,其特征在于,它备有:
若对应的词语有多个,则根据其使用频度排列之后,将读出符号与对应该读出符号的词语记录下来的固定大型词典单元;
按照第一使用次数多优先、第二新近使用优先的原则排列后、存贮读出符号与对应于该读出符号的词语及其使用次数的学习词典单元;
将输入的读出符号作为检索键顺次检索上述学习词典单元、固定大型词典单元,检出对应的全部词语、若对应的词语是唯一的,则将该词语作为汉字变换对象,若有多个对应词语,则将排列在最前面的作为汉字变换对象进行选择的变换单元;
存在多个对应的词语时,若上述变换单元选择结果不正确时,
通过使用者的指令可从上述变换单元检出的其它词语中选择使用者想要的词语作为汉字变换结果的选择单元;
上述变换单元的选择一直不正确,使用者通过上述选择单元的指令进行订正时,订正后的词语若没有存贮在学习词典单元中,则使用次数设为1后,使该词语对应于作为检索键的读出符号进行新的存贮,订正的词语若已存贮,则其使用次数加1后,按照上述第一使用次数多优先、第二新近使用优先的原则对该输入读出符号在上述学习词典单元内的词语排进行重新排列的重新排列单元;
若由上述重新排列单元加1后的该词语使用次数在预定值以上时,检测到这种情况后,将上述学习词典单元中的全部词语的使用次数减去一定值,再与别的方法确定的门限值进行比较,其值小于门限值的词语从学习词典单元中除去的更新单元。
2、如权利要求1所述的汉字变换学习装置,其特征在于,它可进一步备有:通过使用者定义词语的作成指令作成使用者定义词语,并使该词语对应于作为其检索键输入的读出符号后,将两者存贮于上述学习词典单元中的使用者定义词语作成单元。
3、如权利要求2所述的汉字变换学习装置,其特征在于,所述使用者定义词语作成单元可应用脱机方式。
4、如权利要求2或3所述的汉字变换学习装置,其特征在于,所述重新排列单元,在通过上述使用者定义词语作成单元所作成的使用者定义词语的检索用读出符号和同音的其它词语已存入学习词典单元中的情况下,将该新的使用者定义词语的使用次数设定为该同音异义词语的使用次数或比该使用次数多一预定值,若存有多个同音异义词语,则设定为这些词语使用次数中的最大值或比该最大值多一预定值。
CN 94104905 1993-08-06 1994-04-29 汉字变换学习装置 Pending CN1101732A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP196372/93 1993-08-06
JP19637293A JP3154875B2 (ja) 1993-08-06 1993-08-06 漢字変換学習装置

Publications (1)

Publication Number Publication Date
CN1101732A true CN1101732A (zh) 1995-04-19

Family

ID=16356773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 94104905 Pending CN1101732A (zh) 1993-08-06 1994-04-29 汉字变换学习装置

Country Status (2)

Country Link
JP (1) JP3154875B2 (zh)
CN (1) CN1101732A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324878B (zh) * 2007-06-15 2012-06-13 夏普株式会社 新单词自动学习方法及装置和文字输入***
CN105069028A (zh) * 2015-07-16 2015-11-18 广东小天才科技有限公司 一种基于拼音的汉字推送方法和汉字推送装置
CN112748809A (zh) * 2019-10-16 2021-05-04 北京搜狗科技发展有限公司 输入法词条的展现方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324878B (zh) * 2007-06-15 2012-06-13 夏普株式会社 新单词自动学习方法及装置和文字输入***
CN105069028A (zh) * 2015-07-16 2015-11-18 广东小天才科技有限公司 一种基于拼音的汉字推送方法和汉字推送装置
CN105069028B (zh) * 2015-07-16 2018-05-25 广东小天才科技有限公司 一种基于拼音的汉字推送方法和汉字推送装置
CN112748809A (zh) * 2019-10-16 2021-05-04 北京搜狗科技发展有限公司 输入法词条的展现方法及装置

Also Published As

Publication number Publication date
JP3154875B2 (ja) 2001-04-09
JPH0749863A (ja) 1995-02-21

Similar Documents

Publication Publication Date Title
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1279426C (zh) 去多义性的简化键盘***
CN1023916C (zh) 简繁五笔字根汉字输入***
CN1232226A (zh) 句子处理装置及其方法
CN86105610A (zh) 使用汉语拼音的汉字数据处理和字处理的方法和装置
CN1607491A (zh) 使用操纵杆输入中文的***和方法
CN1648828A (zh) 去多义性语音输入***和方法
CN1910573A (zh) 用来识别并分类命名实体的***
CN1095560C (zh) 修改汉字转换结果的***
CN101038508A (zh) Gb拼音输入法
CN1102779C (zh) 中文简繁体字文件转换装置
CN1556458A (zh) 一种中文整句输入法
CN1101732A (zh) 汉字变换学习装置
CN1084500C (zh) 汉字变换装置
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和***
CN1195142A (zh) 汉语文档自动校正方法及其装置
CN1556452A (zh) 数字键盘智能拼音汉字输入方法
CN1052200A (zh) 音形义字词兼容编码系列及键盘
CN1144141C (zh) 汉语输入变换处理装置及汉语输入变换处理方法
CN1085859C (zh) 汉字变换学习装置
CN1287321A (zh) 文本制作装置、转换处理方法和记录转换处理程序的记录媒体
CN1058342C (zh) 汉字编码的计算机输入方法
CN1147809C (zh) 可以省略声调符号的汉字变换装置
CN1089175C (zh) 规范部首笔画合成输入法
CN1773432A (zh) U码汉字输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication