CN1077545A

CN1077545A - 语言再现装置

Info

Publication number: CN1077545A
Application number: CN 92102017
Authority: CN
Inventors: 罗进财; 林启轩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-03-24
Filing date: 1992-03-24
Publication date: 1993-10-20
Anticipated expiration: 2007-03-24
Also published as: CN1040702C

Abstract

使用者从输入部11输入任意长度的发音符号序列。索引码处理部12把所输入的发音符号序列转换为检索用的索引码。码组检索部14将上述转换成的索引码作为检索关键码参照索引存储部15 检索与索引码相应的辞书中的对应码组。辞书16 中形成与索引存储部15的各读音一一对应的码组，并存储有与各对应码组相应的读音为起始的全部单词索引码以及单词各文字的汉字码。转换部17将所输入的索引码作为检索关键码参照辞书16从对应码组检索出对应单词向输出部输出。

Description

本发明涉及能有效地用于中国语/日本语的输入***、文字处理机，特别是能用所输入的索引码从小型辞书高速地查出对应的单词以及相关信息的语言再现装置。

普通的语言再现装置，是将所输入的读音或部首等信息作为检索关键码而从辞书转换为相应单词的文字序列的装置。

作为已有的语言再现装置有例如日本特开昭59-121425公报中所记载的中国语汉字转换装置，是将中国语的发音符号作为检索关键码从辞书查出对应的单词的装置。该发明的***框图示于图4（a）中。图4（b）是相应实施例中辞书的构成方式：

中国语的表音方式有台湾（注意、拼音2）以及中国大陆（拼音1）使用的三种发音符号。该已有例是用中国大陆（拼音1）进行说明的。

中国语原则上是一个汉字对应于一个音节。音节由声明、韵母以及声调构成，而韵母还能细分为介母以及主韵母，因而其构成如下：

声母+介母+主韵母+声调

在图4（a）中，31是将所输入的数据分离为罗马字数据和声调数据的分离装置。33是以示于图4（b）中的要点存储各单词的罗马字序列、汉字序列、声调以及频度各项目的辞书。32是将与经上述分离装置31送给的罗马字序列相应的全部同音异义词从上述辞书33取出的参照装置。34是将经参照装置32得到的汉字序列与分离装置31的声调数据进行比较而输出规定的汉字序列，同时在没有上述声调数据的场合利用相应汉字序列的使用频度按频度高低的顺序输出且能选择所要的汉字序列的比较装置。

在如上述构成的已有的语言再现装置中，例如想输入“中国”的场合首先从键盘输入其读音“zhong 1 guo 2”。于是分离装置31将其分离为（zhong guo）罗马字序列与（1，2）声调数据。由参照装置34将（zhong guo）作为检索关键码从辞书33逐次检索单词。然而在辞书33中所收纳的单词有“中国”与“中果”，而声调数据为（1，2）的是“中国”，因而由比较装置判断并输出“中国”。

上述已有例的辞书中如图4（b）所示不仅存储了读音符号以及对应单词，作为转换时的参照还存储声调数据以及单词的使用频度。分别存储数据的方式使存储空间浪费。而且另一方面将“中国”、“中国语”等有重复文字序列的某些单词作为不同的项目存储也浪费了存储空间。

鉴于上述缺点，本发明将单词的使用频度设定在索引码中，并且利用字数少的单词包含在字数多的单词中（即短的单词包含在长的单词中）的所谓单词特征，藉助于分隔关键码把有些重复文字序列的多个单词连结起来作为一个单词存储在辞书中。采用上述辞书结构能节约存储空间。

为解决上述问题，本发明目的在于提供一种语言再现装置，其特征是包括，按顺序存入单词的索引码以及对应的文字序列的汉字码并分作码组将单词的使用频度、把含有短单词的较长单词分成各个单词的分隔关键码等信息分别配置在索引码或汉字码中的辞书;根据起动转换键而将输入的索引码的前部分作为检索关键码在所述辞书中检索出对应码组的码组检索装置;将输入的索引码作为检索关键码从检索出的对应码组中检索出对应单词，或者通过起动再转换键检索出含有对应单词的较长单词以及这些单词的使用频度的转换装置。

本发明因如上述构成，使用者输入某个单词的索引码，码组检索部就检索出与该索引码相应的辞书中的对应码组。接着转换部将所输入的索引码作为检索关键码从对应码组检索出对应单词以及相应单词的使用频度。而且使用者还能通过按再转换键选择索引码的前部分一致的、作为候补单词的多个单词。

附图的说明

图1为表示本发明一实施例语言再现装置构成的框图。

图2为表示本发明一实施例的处理过程的流程图。

图3为表示本发明一实施例的处理过程的流程图。

图4（a）为表示已有的语言再现装置构成的框图。

图4（b）为表示同一已有例中辞书构成的说明图。

图5为表示本发明实施例一种中国语发音符号编码的说明图，图5（a）为表示索引码第一字节发音符号编码的说明图，图5（b）为表示索引码第二字节发音符号编码的说明图。

图6为表示本发明实施例的中国语发音符号码顺序的说明图。

图7为示出本发明的索引码处理部操作的流程图。

图8为说明本发明同一实施例的辞书构成的说明图。

符号的说明

11为输入部，12为索引码处理部，13为存储部，131C、132R、135H分别为寄存器，133A、134B、136BC分别为缓冲器，1361为单词字段，1362为使用频度字段，14为码组检索部，15为索引存储部，16、33分别为辞书，17为转换部，18为输出部，31为分离装置，32为参照装置，34为比较装置，35为输出装置。

图4为本发明中一实施例的一种索引码配置图。把图5（a）中示出的各中国语读音的声母以及声调一起配置在第一字节中，把图5（b）中示出的韵母以及介母一起配置在第二字节中，通过这种方式将一个文字的读音转换为索引码。以读音

[外1]

为例，参照图5立刻就明白相应的索引码为3306H。根据该配置方式用规则的结构就可很容易地将发音符号转换为索引码。而且能将单词的频度等信息存入第二字节的高2位中，从而供转换时用。

图1是本发明语言再现装置中一实施例的***框图。图1中11是能输入任意长度的发音符号序列的输入部。12是将所输入的发音符号序列转换为供检索用的索引码的索引码处理部。索引码处理部12的转换处理如图7的流程图所示，以赋于图6所示各顺序值之一的中国语发音符号为基础，通过简单地判断以及计算，便将所输入的发音符号转换为索引码。这里以读音（外1）为例详细说明索引码的转换处理。参照图6的顺序值，声母

[外2]

是声母顺序的第10号，第1声是声调顺序的第0号，因而第一字节的数值被转换如下。

01H+10·5+0＝33H

韵母

[外3]

是韵母顺序的第0号，介母

[外4]

是介母顺序的第2号，因而第二字节的数值如下所示。

04H+0·4+2＝06H

综上所述读音（外1）的索引码应该为3306H。

图1中，码组检索部14能将上述所转换的索引码作为检索关键码通过参照索引存储部15而检索相应于索引码的辞书中的对应码组。辞书16的详细构造如图8所示，与索引存储部15的各读音形成一一对应的码组，各对应码组中存储了从相应读音开始的全部单词的索引码以及单词各文字的汉字码并以检索码顺序排列在辞书16中。索引码中设定了多级单词使用频度。汉字码中填入了表明长单词中含有重复文字的短单词的分隔关键码。

在本实施例中，单词的使用频度被设定在单词索引码的最后字节中不用的高2位上。分作最常用、常用、较常用、不常用四级，分别将相应位配置为二进制的11、10、01、00。以单词

[外5]

（欢迎）为例时，通过索引码处理部12的处理其相应索引码为“3326H 6b31H”。该单词是最常用单词，而且相应单词字数为2，因而最后字节即第四字节的b₀以及b₁上设定为1来表明是最常用单词。于是索引码各位配置如下（表1）所述，

[表1]

变为“3326H 6bF1H”。

中国语有所谓字数少的单词可包含在字数多的单词中的特征。例如，“立法院”中含有“立法”的单词，而“立法院长”单词中又含有这两个单词。若利用中国语这一构词特征，由分隔关键码分隔各单词而仅将字数最长的单词存储在辞书中，就可在高速检索出适当的单词的基础上节约辞书的存储容量。象“立法院长”这样的较长的单词如下所述由“～”分隔关键码分隔。

[外6]

立法“院”长

根据索引码的转换方式，该单词就如图6中所示以

“2701 1284 6da7 496c 立法”院”长”

的形式存储在辞书16中。

汉字码中各文字占2字节，而“～”符号只占1字节。而且因“立法”、“立法院”、“主法院长”的频度分别设定为常用、常用以及不常用，因而各索引码的位的配置如（表2）那样被存储。

[表2]

图1中，13是由寄存器以及缓冲器构成的存储部。C寄存器131存储所要检索的文字序列的字数。R寄存器132存储索引码转换结果以及检索出的单词的使用频度。A缓冲器133存储将所输入的发音符号序列转换成的索引码。为了便于从长单词中选出短单词，还把所检索出的对应单词的汉字码写入A缓冲器133。B缓冲器134存储作为比较对象的辞书的对应单词的索引码。H寄存器135存储作为检索出的候补单词的单词个数。BC缓冲器136分为单词字段1361以及相应使用频度字段1362，并分别存储全部的候补单词以及相应使用频度。15是存储中国语1335个文字读音的索引码以及与相应读音对应的辞书16中的对应码组地址的索引存储部。14是将通过索引码处理部12转换成的索引码作为检索关键码，并通过索引存储部15的比较处理检索出对应码组，并将由对应码组的相应读音开始的全部单词作为转换的候补单词存储于BC缓冲器136中的码组检索部。

17是根据索引码参照辞书16转换为相应汉字序列，或在使用者按下再变换键后依次一一显示存储于BC缓冲器136中的候补单词供使用者选择的转换部。18是输出转换结果的输出部。

对于上述本发明的实施例语言再现装置，一面参照图2、图3的处理流程一面对本发明的转换操作进行说明。

首先将从输入部11输入的发音符号序列存入B缓冲器134中。一旦判断是执行键时，进入S6的处理，进行索引码处理部12的操作，将所输入的发音符号序列转换为索引码，存入A缓冲器133中的同时在寄存器131中设定索引码的长度。如果有再转换键就进行S27的候补单词的转换处理。

S6的处理一结束，就进入S7的码组检索部14的处理，参照索引存储部15的索引表读出辞书16中的对应码组。而且进入转换部17的处理。首先经S8将存储对应单词的个数的H寄存器135置0。而且经S9在把对应码组内各单词的索引码存入B缓冲器134中之后，与存入A缓冲器133的索引码进行比较。由于比较对象的索引码的偶数字节设定了使用频度，因而在比较时有必要预先屏蔽B缓冲器134的索引码的偶数字节。通过顺序地比较若A缓冲器133的索引码全部被包含在B缓冲器134的索引码中，通过S13到S16的处理便判定在BC缓冲器136中是否存入第1号对应单词。若有第一号对应单词，就进行S17至S20的处理，在H寄存器的设定递增的同时，将从相应输入的发音符号序列的第一号读音开始的相关单词一一读入BC缓冲器136中，重复从S20到S22的处理直到读出相关单词的最长单词。在经S13判断出A与B相同的场合，或经S15判断存储在BC缓冲器136中已分隔的长度与C寄存器131相同的场合，通过S18的处理直接从对应单词的汉字码中去除分隔关键码，并存入BC缓冲器136的第H项目的单词字段1361中，而且经S19将使用频度信息存入BC缓冲器136的第H项目的使用频度字段1362中。

接着S23判定是否是符号索引码的对应单词。若是对应单词就经S24向输出部19输出存储在BC缓冲器136的第0项目的对应单词。那时，S26按先单词长度后使用频度的优先顺序排列与对应单词有关的候补单词群。输入再转换键时，通过S27到S30根据存储在C寄存器131中的候补单词群的值以及候补单词的总数H，逐次转换候补单词群并在屏幕上显示。

以中国语发音符号序列

[外7]

（立法院）为例，一面参照图2、图3一面对下述本发明实施例的语言再现装置的操作进行详细的说明。

为较好地说明，分别设C寄存器131、R寄存器132、A缓冲器133、B缓冲器134、H寄存器135、BC缓冲器136的值为C、R、A、B、H、BC。

输入相应发音符号序列时，在将由输入部11输入的发声符号序列存入B缓冲器134中后，如图7所示通过索引码处理部12转换为检索用的索引码。转换后的结果为“2701 1204 6d27”。该索引码存入A缓冲器133。接着通过码组检索部14参照索引存储部15读出辞书16中的与索引码相应的对应码组，逐次地将该对应码组中的单词的索引码存入B缓冲器134。而与存入A缓冲器133中的索引码进行比较。如图8所示，在将第一单词的索引码“2701 0301 6C45”（利比亚）读入B缓冲器134中的同时，屏蔽偶数的字节的高2位与A进行比较。A不被B包含，B的码值就比A小，因而较合适的单词在后面，故继续读出下一单词进行比较，与后面的“力不从心”以及“立命”两单词的索引码比较后B也不含有A。屏蔽此后的索引码“2701 1284 6da7 496c”偶数字节的高2位而进行比较时，前6个字节是一致的即B含有A，从而在BC缓冲器136中存入B的相应索引码的汉字码“立法”院”长”。存入BC缓冲器136中的汉字码的分隔长度被设定为4、6、以及最大的字数8，从而与C寄存器131的值进行比较时，6的设定与C一致因而就能判断含有三字数的单词。这样就去除该8字节单词的第六字节以后的文字序列，而在BC缓冲器136的第0项目的单词字段1361中存入“立法院”的文字序列，而“立法院”是常用单词，因而在向BC缓冲器136的第0项目的使用频度字段存入第六字节的高2位“10”的同时，对H寄存器135加1。根据该单词长度6而且有最大长度8的较长单词，因而在C寄存器131中设定8。在BC缓冲器136的第1项目中存入较长单词“立法院长”以及使用频度（较常用）。接着单词“立方体”的索引码比索引码大因而结束转换部17的操作。就可根据BC缓冲器136的第0项目的信号把单词“立法院”以及使用频度通过输出部18输出正确的结果。

那时，使用者输入再转换键时便按单词长度、长度相同的单词则按频度高低的顺序逐个显示。在上述例中，输入再转换键时，转换部17向输出部18输出BC缓冲器136的候补单词“立法院长”以及频度。以这种方式即使不输入长单词的发音符号序列的全部也能获得所需要的单词。就能提高输入速度。

本发明不仅仅限于上述实施例，也能在不改变要旨的范围进行适当变形来实施。例如，输入的符号并不限于发音符号也可以用简易仓（颉）符号。而且输入符号的索引码的转换规则也没有限定，如果按照索引码对应表所规定的那样进行修改也可以。而且根据需要变更辞书内容也设关系。例如把用于上述实施例的单词的使用频度的位改作表示分隔符号的位的设定，就能使使用频度多等级化。就是说，能将表示长单词含有短单词的分隔符号设定在原来用于设定使用频度的其1位上，原来用于设定分隔符号的字节为避免与中国语的汉字码混淆而去除高1位其他7位全部设定使用频度。那样的话就可最多定义128个等级。在这种情况下，只要修正转换部的比较装置就能顺利地执行。还有作为由转换部逐个选出候补单词功能的检索对象不仅是辞书，学习文件、略语辞书、专用辞书等只要能将由码组检索部查出的辞书中对应码组的单词存入寄存器便可采用。上述方式均属于本发明。

根据上面说明的本发明语言再现装置，通过将使用频度设定在索引码未用的位上，在汉字码上设定将含有短单词的长单词分作各单词的分隔符号，与已有方法相比能节约辞书的存储容量。且能提高检索速度。

而且由于把从所输入读音序列的第一个读音开始的相关单词作为候补单词，将候补单词群按单词长短或同样长度则按使用频度高低的顺序存入寄存器，因而在使用者按再转换键时，就能一一显示从相应读音开始的单词群供使用者选择。而且由于存储的是最长的单词、没必要全部输入所需要的单词序列，从而可以提高输入和转换的速度。对于中国语、日本语等汉字的转换实用性很强。

Claims

1、一种语言再现装置其特征在于它包括：把单词的索引码以及对应的文字序列的汉字码按顺序存储并分作码组，将单词的使用频度、把含有短单词的长单词分成每个单词的分隔关键码等信息，分别配置在索引码或汉字码中的辞书；通过起动转换键将所输入的索引码的前部分作为检索关键码在上述辞书中检索出对应码组的码组检索装置；将所输入的索引码作为检索关键码从所检索出的对应码组检索出对应单词，或通过起动再转换键检索出含有对应单词的较长单词以及这些单词的使用频度的转换装置。