JPH06290183A - 漢字変換装置 - Google Patents

漢字変換装置

Info

Publication number
JPH06290183A
JPH06290183A JP5075912A JP7591293A JPH06290183A JP H06290183 A JPH06290183 A JP H06290183A JP 5075912 A JP5075912 A JP 5075912A JP 7591293 A JP7591293 A JP 7591293A JP H06290183 A JPH06290183 A JP H06290183A
Authority
JP
Japan
Prior art keywords
word
syllable
unit
converted
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5075912A
Other languages
English (en)
Other versions
JP3234338B2 (ja
Inventor
Shiyunkei Shiyuu
峻慧 周
Meikun Shiya
明勲 謝
Hironoki Hayashi
啓軒 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP07591293A priority Critical patent/JP3234338B2/ja
Priority to CN93119055A priority patent/CN1043542C/zh
Publication of JPH06290183A publication Critical patent/JPH06290183A/ja
Application granted granted Critical
Publication of JP3234338B2 publication Critical patent/JP3234338B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 中国語文章作成用の漢字変換装置で、入力者
の意図する漢字に正しく変換される効率を高める。 【構成】 入力された表音文字列の一部分のまだ変換さ
れていない音節を次の漢字変換の対象として切り出し、
次に、この音節を検索キーとして辞書検索部が辞書部内
に対応する単語があるか否かを検索する。もし、対応す
る単語がない場合には、連語字検出部により一番目の音
節が前置詞、接続詞などの連語字か否かを検出し、もし
連語字であれば、辞書検索部は二番目からの音節を検索
キーとして辞書部内に該連語字と一体となってより漢字
数の多い単語を構成する単語があるか否かを検索する。
もしそのような単語があれば、拡張単語生成部にこのよ
り対応する単語を連語字と組み合わせてより漢字数の多
い拡張単語を構成する。この上で変換処理部は、拡張単
語を辞書で検索された単語に優先して漢字変換させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、表音文字列を漢字に変
換する漢字変換装置に関する。
【0002】
【従来の技術】中国語文章に使用される漢字は一万以上
ある。その中から中国語文章作成者等が意図する漢字を
如何に正しくかつ高速に入力するか、そして漢字に変換
するかが中国語ワードプロセッサーを含む中国語の計算
機処理で最も重要な課題である。次に、従来の意図する
漢字の変換装置への入力手段としては、音声認識、文字
認識、キーボードなどがある。その内、キーボードによ
る入力は最も確実であるため、広く実用化されている。
さて、キーボードを利用する漢字の入力方式は、漢字の
読みによる入力方式と漢字の字形による入力方式とに分
けられる。ところで、前者の字形による入力方式は入力
の規則を予め暗記しておかなければならず、しかも暗記
するには相当の時間が必要であり、また慣れるまでに時
間がかかる。一方、漢字の読みによる入力方式は日本語
ワードプロセッサーでも広く採用されているものであ
り、自然で習い易いため、将来の漢字入力方式の主流に
なると思われている。そして、本発明はこの読みによる
入力方式を採用した漢字変換装置に関する。
【0003】ところで、この読みを入力とする従来の漢
字変換装置としては、例えば、中華民国特許出願番号7
5105838に示されているようなものがある。図6
はこの漢字変換装置の構成図である。本図において、1
00は中国語文章作成者が漢字変換を意図するへい音、
注音、ローマ字などの表音文字を入力する入力部であ
り、任意の長さ(表音文字数)が入力可能である。18
0は、表音文字列とこれに対応して変換するための単語
を対応させて登録(永久記憶)されている辞書部であ
る。そして、同一表音文字列に複数の中国語単語が対応
する場合には、中国語単語の字画総数、使用頻度、漢字
一字からなる場合には当該漢字の使用頻度、文字コード
の順等に応じて配列されており、この順に優先して変換
されることとなる。勿論、変換結果が入力者の意図しな
いものであれば、別途の操作により次の順位の単語、漢
字が出力されるのは日本語ワードプロセッサーと同じで
ある。なお、表音文字列とは、その性質上複数の表音文
字が一体となって一の単語若しくは漢字に変換されるの
が原則であるため「列」を付しているのであり、一の表
音文字をも包含する概念である。これは、後にでてくる
音節列等でも同様である。また、単語とは漢字一字をも
包含し、「日本」、「東京」等必ずしも中国語単語に限
定されないのは勿論である。140は、入力された表音
文字列の音節数を記憶するNCHARレジスタである。
120、130はそれぞれ表音文字列を単語に変換する
ときに使用されるPTRレジスタとNPレジスタであ
り、PTRレジスタ120は入力された表音文字列のど
の位置から漢字変換を行なうかを記憶し、NPレジスタ
は入力された表音文字列を単語に変換する際の変換単語
長、すなわち単語を構成する漢字若しくは音節数(中国
語では、原則として漢字一字は一音節である。)を記憶
する。150は、ある長さ若しくは構成する漢字数を持
っている単語の変換処理が全て行なわれた後に、上記N
Pレジスタ130の値を1減らすことにより、次に構成
する漢字数の1つ少ない単語を優先して漢字変換するこ
ととなるように変換制御部を作動させる比較部である。
160は、上記PTRレジスタ120の設定位置を入力
表音文字列の最初の位置より順次後方へずらし、NPレ
ジスタ130に設定された変換対象となる単語の構成漢
字数すなわち音節数のもとですでに漢字変換された音節
が有るか否を検査し、もしいずれもまだ変換されておら
ず、且つ辞書部180内に対応する単語が登録されてお
れば、該対応する単語に変換するように作用する変換制
御部である。170は、上記変換制御部160から送っ
てきた音節列をキーとして辞書部180内を検索する辞
書検索部である。190は、上記変換制御部160によ
って変換された結果を出力する出力部である。
【0004】以上の構成、作用により、入力部により入
力された表音文字列に対応する中国語単語が最長一致
法、すなわち第1に単語の構成漢字数を優先し、第2に
先に入力された音節を優先するという方法で順次漢字に
変換表示され、ひいては中国語文章が作成されていくこ
ととなる。
【0005】
【発明が解決しようとする課題】しかしながら、上記の
ような漢字変換装置においては、辞書部に登録されてい
る単語を変換単位としかつ最長一致法により変換する。
このため、候補単語の長さ(構成する漢字数)が同じ、
且つ入力された表音文字列中のある音節がその前後の音
節と各々二つの対応単語(前単語と後単語)を構成する
場合には、より先に入力された前の音節に対応する単語
(前単語)を優先的に変換し、該単語を変換してから後
単語に相応する音節は前単語と共通する音節を除外した
音節、そして多くの場合は漢字一文字を単位とし変換す
ることとなる。この場合には、変換され残った音節を対
象としての漢字変換となるため、辞書内での同一音節に
対する漢字の配列上以下のような誤変換が出ることとな
る。例えば、「有一天」を入力しようとするとき、
「一」と同じ発音の漢字「益」があり、このため入力さ
れた「有一天」に相応する表音文字列に「有益」と「一
天」の前後単語があることとなる。このため前単語の
「有益」を優先的に変換し、しかる後「天」が変換され
るため「有益天」という誤変換が生じる。また、「殺人
是犯罪的」を出力しようとする場合には、「犯」と同じ
発音の漢字「範」があり、また「是」と同じ発音の漢字
「示」があり、両漢字で「示範」という単語を構成する
ため「示範」と「犯罪」の前後単語が存在することとな
るので、前単語の「示範」を優先して変換することとな
り、更に「罪」という漢字と同じ発音の漢字「最」が存
在する上に「罪」よりも優先的に変換されるよう配列さ
れているため、「殺人示範最的」という誤変換が生じる
こととなる。その他、「其特徴」という中国語文も間違
った「奇特征」に変換されえる。その一方、かかる該変
換の生じるおそれのある中国語文章を全て辞書に登録し
ておくことは実際問題として困難である。このため、か
かる誤った変換の防止を図れる漢字変換装置の実現が望
まれていた。本発明は、かかる課題を解決する目的でな
されたものである。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明は入力された表音文字列のまだ変換されてい
ない音節若しくは該音節の一部について、第1に最大文
字数の単語に変換することを優先し、第2に先に入力さ
れた音節を変換することを優先し、このもとで変換対象
の音節数を逐次に減らし、また変換対象の音節を順次後
方にずらすことにより現在の変換の対象となる音節列を
切り出す音節切り出し部と、予め表音文字列及びこれに
対応する中国語単語が登録されている辞書部と、前記音
節切り出し部により切り出された変換対象となる音節列
を検索キーとして、前記辞書部内を検索し中国語の単語
を検出する辞書検索部と、上記音節切り出し部により切
り出された変換対象となる音節列において、一番目の音
節が連語字であれば所定の手順で該連語字を検出する連
語字検出部と、上記連語字検出部により対応する連語字
を検出したときには、現在変換対象となる音節列の二番
目からの音節を検索キーとして、上記辞書検索部により
辞書部内を検索し、対応する単語があれば該連語字及び
該単語を組み合わせてより構成漢字数の多い拡張単語を
生成する拡張単語生成部と、上記拡張単語生成部により
生成された拡張単語を、上記辞書検索部により検索され
た単語に優先して漢字変換させるよう制御する変換処理
部とを備えたことを特徴とする漢字変換装置としてい
る。
【0007】
【作用】本発明は上記構成により、音節切り出し部が入
力された表音文字列ののまだ変換されていない若しくは
該音節の一部について、第1に最大文字数の単語に変換
することを優先し、第2に先に入力された音節を変換す
ることを優先しつつ変換対象の音節数を逐次に減らし、
また音節を順次後方へずらし現在の漢字変換の対象とな
る音節列を切り出す。辞書部に予め表音文字列及びこれ
に対応する中国語単語が登録されている。辞書検索部が
切り出された音節列を検索キーとして、辞書部内を検索
し対応する中国語の単語を検索する。連語字検出部が上
記音節切り出し部により切り出された変換対象となる音
節列において、一番目の音節が連語字であれば所定の手
順で該連語字を検出する。拡張単語生成部が上記連語字
検出部により対応する連語字を検出したとき、現在変換
対象となる音節列の二番目からの他の音節を検索キーと
して、上記辞書検索部により辞書部内を検索し、対応す
る単語があれば該連語字及び該単語を組み合わせてより
長い拡張単語を生成する。変換処理部が上記拡張単語生
成部により生成された拡張単語を上記辞書検索部により
検索された単語に優先して漢字変換させる。
【0008】
【実施例】以下、本発明を実施例にもとづき説明する。
図1は本発明に係る漢字変換装置の一実施例の構成図で
ある。図2〜図4はこの実施例の処理流れ図である。図
1において、10は、中国語文章作成者が変換を意図す
る漢字、文章に相応したへい音、注音、ローマ字などの
表音文字を入力する入力部である。18は、表音文字列
及びこれに対応する中国語単語が登録(あらかじめの永
久記憶)されている辞書部である。なお、一の表音文字
列に複数の単語が存在する場合には、これらの単語は使
用頻度の高い順に配列され、またこれにより漢字変換が
優先される。14は、入力された表音文字列の音節数を
表わすNCHARレジスタである。なお、中国語では一
つの漢字が一つの音節に対応しているので、入力された
表音文字列の音節数はつまり変換する漢字数である。1
2、13はそれぞれ、表音文字列を単語に変換する際に
使用されるPTRレジスタとNPレジスタである。ここ
に、PTRレジスタ12は、入力された表音文字列のど
の位置から漢字変換を行うかの変換位置を記憶する。N
Pレジスタ13は、入力された表音文字列を単語に変換
する際の変換対象となる単語長、すなわち該単語を構成
する漢字、音節の数を記憶する。即ち、上記の二レジス
タの内容をそれぞれptr、npとすれば、入力された
表音文字列のptr番目から連続したnp個の音節が辞
書検索時の検索キーであることを示すものである(以
下、nchar、np、ptr及び後にでてくるnch
arをそれぞれNP、PTR及びNCHARレジスタの
値を表わすことにする)。11は、レジスタ初期化部で
ある。その詳しい動作の内容は後に説明するが、入力さ
れた表音文字列の音節数ncharを計算し、その値を
NCHARレジスタ14に設定すると共に、もし、その
値が辞書部18に登録されている最長単語、すなわち構
成する漢字の最も多い単語の漢字数max(本実施例に
おいては8。)より大きい場合には、上記maxをNP
レジスタ13に設定し、8以下であれば、上記入力され
た表音文字列の音節数をNPレジスタ13に設定し、そ
して、PTRレジスタ12の値を1に設定する。15
は、(np+ptr)>(nchar+1)が設立する
か否かを絶えず検査し、もし成立すれば、NPレジスタ
13の値を1減らし、PTRレジスタ12の値を再度1
に設定する比較部である。これにより、構成する漢字数
が1つ少ない単語が漢字変換の対象とされ、また入力さ
れた表音文字の最初からその対象とする字数の単語が漢
字変換されることとなる。21は、特別の連語字の読み
及び該文字を記憶している連語字字典部である。20
は、入力された表音文字列のptr番目の音節を検索キ
ーとして連語字字典部21を検索する連語字検出部であ
る。19は、上記連語字検出部20により対応する連語
字があることが検出されると、入力された表音文字列の
ptr+1番目からのnp−1個の音節を検索キーとし
て辞書検索部17に辞書部18内に対応する単語が登録
されているか否かを検索し、もし対応する単語が登録さ
れているならば、この対応する単語を当該連語字と組み
合わせることにより入力者が本来変換を意図している単
語、すなわち拡張単語を生成する拡張単語生成部であ
る。16は、変換処理部である。その詳しい動作は後に
説明するが、入力された表音文字列のptr番目から連
続したnp個の音節の内、すでに変換された音節の有無
を検査し、もし、変換された音節があれば、より後方の
未変換の音節を処理すべくPTRレジスタ12の値を1
増やし、変換された音節がない場合には、そしてもし、
対応する単語があればこれを漢字変換することに伴い、
ptrにnpを加え、もし対応する単語がない場合に
は、1つ後順位の音節文字列を処理すべくptrに1を
加える。17は、上記変換処理部16或いは拡張単語生
成部19から送られてきた音節を検索キーとして、辞書
部18から該当する単語を、若し複数の単語があるなら
ば最先に配列されている一番可能性の高い単語を取り出
し、これを上記変換処理部16或いは拡張単語生成部1
9に送る辞書検索部である。22は、上記変換処理部1
6によって変換された結果を出力する出力部である。
【0009】以下、本実施例の動作の流れを説明する。
なお、図2から図4は、本来は一枚の図であるが、画面
の大きさの制限のため3図に分割したものである。図2
はレジスタの初期化の動作の流れを中心としたものであ
り、本図にもとづいてこの動作を説明する。 (S1)まず、音節数を計算するレジスタをゼロにする。
【0010】(S2)表音文字列を入力する。 (S3)現在入力された表音文字は声調キーか否かを検査
する。もし、声調キーであれば(S4)に行く。そうでな
ければ(S5)へ行く。 (S4)入力された音節数の増加に伴い、音節数を計算す
るレジスタの内容を1増やし(S2)へ戻る。
【0011】(S5)現在入力された表音文字は入力終了
キーか否かを検査する。もし、入力終了キーであれば漢
字変換すべく(S6)へいく。入力キーでなければ(S2)
へ戻る。 (S6)現在入力された音節数が8を越えるか否かを検査
する。もし、9以上であれば(S7)へ行く。8以下であ
れば(S8)へ行く。
【0012】(S7)NPレジスタの値を8に設定する。 (S8)NPレジスタの値を現在入力された音節数に設定
する。 (S9)NCHARレジスタの値を現在入力された音節数
に設定する。 (S10)PTRレジスタの値を1に設定する。 これにより、入力された表音文字列の先頭から、音節数
が、そして構成する漢字数が多い単語から漢字変換の対
象として処理することの初期設定が完了したこととな
る。
【0013】次に、図3と図4は変換処理部の動作を中
心とたものであり、本図にもとづいてこの動作を説明す
る。 (S11)表音文字列のptr番目から連続したnp個の音
節を切り出す。 (S12)(S11)で切り出された音節中に変換された音節が
あるか否かを検査する。もし、すでに変換された音節が
あれば(S16)へ行く。なおこの際、まだ変換されていな
い音節は、npの値がより小さくなった段階で変換の対
象とされる。もし、すでに変換された音節がなければ
(S13)へ行く。
【0014】(S13)(S11)で切り出された音節に対応す
る単語が辞書部内に格納されているか否かを検索する。
もし、あれば(S14)へ行き、なければ(S17)へ行く。 (S14)入力された表音文字列のptr番目から連続した
np個の音節を(S13)で検出された対応単語に変換し、
その後(S15)へ行く。 (S15)PTRレジスタの値にnpを加える。これは、(S
14)で漢字変換した直後の音節文字列を次の漢字変換の
処理対象とするためである。
【0015】(S16)PTRレジスタの値に1を加える。
これは、次の同じ音節数の音節文字列を漢字変換の処理
対象とするためである。 (S17)現在のNPレジスタの値と2とを比較する。も
し、2より大きい場合には(S18)へ行き、小さければ
(S16)へ行く。 (S18)(S11)で切り出された音節の一番目の音節は連語
字の読みであるか否かを所定の手順で検査する。もし、
連語字の読みであれば(S19)へ行き、そうでなければ
(S16)へ行く。
【0016】(S19)(S11)で切り出された音節の内、二
番目の音節からnp−1個の音節に対応する単語が辞書
部内に登録されているか否かを検査する。もし、登録さ
れておれば(S20)へ行く。なければ(S16)へ行く。 (S20)(S18)で検出された連語字と(S19)で抽出された
単語を一体にして、いわば一の単語たる拡張単語に組み
合わせて、入力された音節のptrから連続したnp個
の音節を拡張単語に変換する。しかる後(S15)へ行く。
【0017】(S21)では、(np+ptr)の値と(n
char+1)の値との大小を検査する。もし、前者が
大きい場合には(S22)へ行く。小さければ(S11)へ行
く。 (S22)NPレジスタ13の値を1減らし、PTRレジス
タ12の値を1に設定してから(S23)へ行く。これは、
構成漢字数の1つ少ない単語を入力された音節文字列中
の最初から次の漢字変換の対象として処理するためであ
る。
【0018】(S23)では、NPレジスタ13の値が零か
否かを検査する。もし、零であれば、入力された表音文
字列の漢字変換処理を終える。そうでなければ、(S11)
へ戻る。 次に、本発明の要部に係る連語字字典部について説明す
る。図5は本実施例の連語字字典部のデータ構造の概念
図である。本字典は、基本的な連語字の読み音及びそれ
に対応する連語字の対応表からなる。本実施例では、中
国語の前置詞「在」、「從」、「將」等、同じく接続詞
「則」、「若」、「和」、「以」等、同じく肯定詞、否
定詞の「是」、「不」、「有」等及び同じく指定詞
「其」、「該」等を連語字と見なす。なお、中国語にお
いては、これらの連語字は単語と連結し、構成する漢字
数がより多い単語を構成する。なお、このような組み合
わせで構成された単語を本明細書では拡張単語と称して
いる。例えば、「從三歳」、「在台北」、「不必要」、
「有一天」などである。こられの拡張単語は、本実施例
では一の単語(いわば慣用句)と見なされる。そして、
最長一致法を採用している本漢字変換装置では、より優
先的に変換されることとなる。
【0019】次に、以上のように構成された本実施例に
ついて、具体的に単語を例にとって説明する。(以下、
電子情報処理システムを通じての出願による使用可能な
文字の制限のため、本明細書では、図7の(a)、
(b)、(c)、(d)、(e)、(f)に示す表音文
字や記号を、電子情報処理システムの施行規則でも本中
国語ワードプロセッサー等を対象とした発明であり、こ
のため外字が多数しかも煩雑に使用されるということは
想定していなかったと推定されること、明細書の読み易
さを考慮の上各々相似た「sha」、「ren/」、
「shi\」、「fan\」、「zui\」、「de
・」で代用する。) 「sha ren/ shi\ fan\ zui\
de・」の入力列における動作を説明する。下記にこの
入力列に対応する辞書部内に格納されている変換の可能
性のある全ての単語を示す。
【0020】「sha ren/ 殺人」 「ren/ shi\ 人事」 「fan\ zui\ 示範」 「zui\ de・ 犯罪」 再度、フロー図をもとに説明する。
【0021】上記の表音文字列が入力されると(S2)、レ
ジスタ初期化部は、この入力された表音文字列を声調信
号で音節毎に区切ることにより音節数を求める(S3 〜S
5) 。上記の入力列には六つの音節があるので、音節数
6をNCHARレジスタに設定する(S9)。そして、その
値が辞書部内の最長の単語の漢字数8(本実施例では
8。)より小さいので(S6)、NPレジスタの初期値とし
て6を設定し(S8)、PTRレジスタの値を1に設定する
(S10) 。ここに、NPレジスタの役割は、現在変換によ
り得ようとする単語の漢字数を記憶することにある。こ
の場合、初期設定で6が入力されることから、構成する
音節数が6の単語から順に漢字変換の対象とされること
となる。又、PTRレジスタの値ptrは現在の辞書検
索の開始位置が、上記入力された表音文字列のptr番
目の音節であることを表わす。この場合、初期設定では
1が入力されるため、表音文字列の最初の音節から順に
漢字への変換対象となる。
【0022】入力された音節数に基づいてPTRレジス
タ、NPレジスタ、NCHARレジスタの初期値が設定
された後、変換処理部では、まずPTRレジスタとNP
レジスタの値によって、入力部から送られてきた表音文
字列の1〜6番目の連続した音節列「sha ren/
shi\ fan\ zui\ de・」を切り出し
(S11) 、その上でこの中に既に漢字変換された音節があ
るか否かを検査する(S12) 。もし全ての音節がまだ変換
されていないならば、そして、これらの音節列は入力さ
れたばかりであり、まだ一つも漢字変換されていないた
めそれらの六つの音節全てを検索キーとして辞書検索部
に送り辞書部内を検索させる(S13) 。それに対応する単
語がない、且つ現在NPレジスタの値が2より大きいの
で(S17)、一番目の音節は連語字の読みか否かを検査す
る(S18) 。一番目の音節は連語字ではないと判定された
場合には、PTRレジスタの値を1増やすだけにする(S
16) 。その際、比較部は(np+ptr)の値が(nc
har+1)の値より大きいこととなるのでこの旨を判
定し(S21) 、音節数が6の単語の変換を行うためにほか
の音節列を切り出さすことはできないことを示す。この
ため、NPレジスタの値は1減らされ、5となり、PT
Rレジスタの値は再度1に設定される(S22)。NPレジ
スタの値はゼロではないので(S23) 、次の連続した音節
の切り出しと漢字変換の処理のための動作に入る。 同
様に、PTRレジスタの新しい値1とNPレジスタの値
5によって最初に切り出された「sha ren/ s
hi\fan\ zui\」、そしてこれも漢字変換を
されないため、prtは1を加えて2となることにより
(S16)、次に切り出された「ren/ shi\ fa
n\ zui\ de・」も(S11) 、まだ変換されてい
ない音節であるが(S12) 、辞書部に対応する単語が格納
されていない(S13) 上に一番目の音節は連語字の読みで
はないので(S18) 、漢字変換処理は行なわれない。た
だ、PTRレジスタの値が1増やす(S16) だけである。
「ren/ shi\ fan\ zui\ de・」
が漢字変換の対象でないとされた後(S13)、PTRレジ
スタの値は更に1が加えられて3となる。この場合に
は、比較部により(np+ptr)>(nchar+
1)と判定され(S21) 、構成漢字数が5である単語の変
換を行うために後方にあるほかの音節列を切り出すこと
はもうできないものと判断される。このため、NPレジ
スタの値は1減らされ4となる。またPTRレジスタの
値は新しく1に設定される(S22) 。NPレジスタの値は
零でないので(S23) 、次の連続した音節の切り出しと漢
字変換処理にとりかかることとなる。 NPレジスタの
値が4となる場合には、5の場合と同様にPTRレジス
タとNPレジスタの値により、入力された表音文字列か
ら順に切り出された4個からなる連続した音節列「sh
a ren/ shi\ fan\」、「ren/ s
hi\ fan\ zui\」(S11) は全てまだ変換さ
れていないので(S12) 、それらを検索キーとして、辞書
部内を検索する。それらに対応する単語がなく(S13) 、
且つ一番目の音節は連語字の読みではないので(S18) 、
これらは漢字変換処理対象とされない。この段階で、P
TRレジスタの値2は更に1増やされる(S16) 。PTR
レジスタの値が3となると、3番めの表音文字列「sh
i\ fan\ zui\ de・」が切り出されるが
(S11) 、これもまだ変換されていない音節である(S12)
。さて、この段階で、辞書部内にこの音節列に対応す
る単語が格納されておらず(S13) 、且つNPレジスタの
値は2より大きいので(S17) 、一番目の音節は連語字の
読みか否かが検査されることとなる(S18) 。そして、読
み「shi\」が連語字字典部内に登録されているの
で、その他の音節「fan\ zui\de・」につい
て辞書部内に対応する単語が格納されているか否かを検
索する(S19) 。しかしながら対応する単語が登録されて
いないため拡張単語の生成はもとより漢字変換もなされ
ない。次いで、PTRレジスタの値を1増やし4とする
(S16) 。この際、比較部により(np+ptr)>(n
char+1)と判定され(S21) 、音節数4の単語の変
換を行うために後方にある他の音節列を切り出すことは
もうできないことが判定される。このため、NPレジス
タの値を1減らして3とする。またPTRレジスタの値
は再度1に設定される(S22) 。この場合、NPレジスタ
の値は零ではないので(S23) 、次の連続した音節の切り
出しと変換を行う。
【0023】NPレジスタの値が3の場合にも、6,
5,4の場合と同様に、PTRレジスタとNPレジスタ
の作用、設定値により、入力された表音文字列から連続
した音節列「sha ren/ shi\」、「ren
/ shi\ fan\」が順に切り出される(S11) 。
この場合、これらの音節は全てまだ変換されておらず(S
12) 、それらを検索キーとして辞書部内を検索すること
となるがそれらに対応する単語がなく(S13) 、且つ一番
目の音節は連語字の読みではないため(S18) 、漢字変換
処理はなされないこととなる。ただ、PTRレジスタの
値が逐次1増やされることとなる(S16) 。PTRレジス
タの値が3となったときに切り出された「shi\ f
an\ zui\」(S11) も、まだ変換されておらず(S
12) 、また辞書部内に対応する単語がなく(S13) 、更に
NPレジスタの値が2より大きいので(S17) 、一番目の
音節が連語字の読みか否かが検査されることになる(S1
8) 。さて、この場合には、連語字字典部内には読み
「shi\」に対応する字「是」がある。このため、そ
のほかの音節「fan\zui\」について辞書部内に
対応する単語が登録されているか否かを検索する(S19)
。対応する単語「犯罪」が登録されているので、連語
字の「是」と対応単語「犯罪」と組み合わせて「是犯
罪」という拡張単語が生成される(S20) 。そして、「s
hi\ fan\ zui\」が拡張単語「是犯罪」に
変換される。次にPTRレジスタの値とNPレジスタの
値を加える。これによりptrの値は6となる(S15) 。
このため、比較部により(np+ptr)>(ncha
r+1)と判定される(S21) 。これにより、音節数が3
の単語の変換を行うために後方のほかの音節列を切り出
すことはできないと判定され、NPレジスタの値は1減
らし2とされる。またPTRレジスタの値は再度1に設
定される(S22) 。この場合、NPレジスタの値は零では
ないので(S23) 、次の連続した音節の切り出しと漢字変
換処理がなされる。
【0024】NPレジスタの値が2であり、PTRレジ
スタの値が1である場合には、連続した音節列「sha
ren/」を切り出す(S11) 、まだ変換されていない
音節であるので(S12) 、辞書検索部はそれを検索キーと
して辞書部内を検索する。辞書部内には対応する単語
「殺人」が格納されているので、「sha ren/」
を「殺人」に変換し、PTRレジスタの値にNPレジス
タの値を加えて3とする(S15) 。この際、比較部により
(np+ptr)は(nchar+1)より小さいと判
定される(S21) 、構成漢字数が2である単語の変換を行
うために他の音節列を切り出すことが可能であるので、
続けて連続した音列節「shi\ fan\」、「fa
n\ zui\」、「zui\ de・」を切り出す(S
11) 。しかしながら、これらの音節は既に変換された音
節を含むので(S12) 、どんな処理もなされない。
【0025】次いで、NPレジスタの値が1となったと
きには、、PTRレジスタの値の1、2、3、4若しく
は5であるか否かにかかわらず、切り出された音節はす
べて変換されていることとなるので、どのような処理も
なされないこととなる。PTRレジスタの値が6となる
と、この段階で切り出された「de・」はまだ変換され
ていないので、これを辞書検索部に送り、辞書部内を検
索する。中国語文章では、「de・」の音に対応する漢
字の中で「的」の使用頻度が一番高く、最初に配列され
ているのでこれが最先に漢字変換されることとなり、
「de・」を「的」に変換する。そのうえで、PTRレ
ジスタの値にNPレジスタの値を加えて7とする(S15)
。この場合、比較部により(np+ptr)は(nc
har+1)より大きいと判定されるの(S21) 。このた
め、NPレジスタの値は1減らされ、0となる。ここま
でで変換処理部は入力された表音文字列の漢字変換処理
が終了したと判定し、「殺人是犯罪的」という変換結果
を出力部に送る。
【0026】以上、本発明を実施例に基づき説明してき
たが、本発明は何も上記実施例に限定されないのは勿論
である。すなわち、例えば、 必ずしも入力終了キーが押されてから、入力された表
音文字列の全ての表音文字列を漢字に変換し始める必要
はなく、声調キーが入力されたら、つまり、一つの音節
が入力される度に、前回入力された表音文字列の入力終
了位置から、現在入力された表音文字列までを変換する
ようにしてもよい。 連語字を独立に連語字字典部内に記憶するのに換え
て、フラグによりこれらの連語字を表示することにし、
併せてこのフラグに対応して辞書部内に格納してもよ
い。 製造等の都合で、請求項に示した各構成部を物理的に
複数の部分に分割してもよいし、また複数の構成部を物
理的に1つの物としてもよいし、またこれらを適宜組み
合わせてもよい。例えば、実施例におけるPTRレジス
タとNPレジスタと比較部と変換処理部16の一部の処
理は音節切り出し部の処理に相当する。 表音文字とは、例示した音素文字や音節文字に限らず
音素記号をも含む概念であり、更に漢字変換の対象とな
るならば、日本語のかな、朝鮮語のハングル等の文字で
あってもよい。 用途は、日本語における漢文用ワードプロセッサー等
を包含するのは勿論である。 学習機能等が付加されていてもよいのは勿論である。
【0027】
【発明の効果】以上説明したように、本発明によれば、
入力された音節列を中国語の文字(漢字)に変換する
際、変換しようとする音節に中国語の前置詞、接続詞、
肯定詞、否定詞、指定詞などの特性を持っている連語字
に対して、その文字の読みがあり、且つその後の連続し
た音節に該連語字と一体的になって漢字数の多い単語を
つくる単語があれば、該連語字とその単語とを組み合わ
せることにより、変換対象となるより漢字数の多い、そ
して音節数の多い拡張単語を生成する。さて、漢字変換
はこの上で構成する漢字数の多い単語から優先的になさ
れるため、従来の単に構成漢字数と前方単語を優先して
変換する原則のみでは困難であった「有一天」、「殺人
是犯罪的」、「其特徴」などの誤変換を容易に解決する
ことが可能となる。このため中国語文章作成における漢
字変換の際の正確率が高まり、その技術的効果は非常に
大きい。
【図面の簡単な説明】
【図1】本発明に係る漢字変換装置の一実施例の構成図
である。
【図2】上記実施例におけるレジスタの初期における動
作の流れ図である。
【図3】上記実施例における変換処理部の動作を中心と
した流れ図である。
【図4】上記実施例における変換処理部の動作を中心と
した流れ図である。
【図5】上記実施例における連語字字典のデータ構造の
概念図である。
【図6】従来の漢字変換装置の構成図である。
【図7】明細書中の実施例の説明に使用した表音文字列
の一覧である。
【符号の説明】
10 入力部 11 レジスタ初期化部 12 PTRレジスタ 13 NPレジスタ 14 NCHARレジスタ 15 比較部 16 変換処理部 17 辞書検索部 18 辞書部 19 拡張単語生成部 20 連語字検出部 21 連語字字典部 22 出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 謝 明勲 台湾・タイ・ペイ・シ・ター・アン・チ ー・10628・レン・アイ・ル・サン・トォ アン・136・ハオ・10・ロウ スン・シ ャ・ティエン・チ・チ・シュー・カイ・フ ァー・クゥー・フェン・ユウ・シエン・コ ン・スー内 (72)発明者 林 啓軒 台湾・タイ・ペイ・シ・ター・アン・チ ー・10628・レン・アイ・ル・サン・トォ アン・136・ハオ・10・ロウ スン・シ ャ・ティエン・チ・チ・シュー・カイ・フ ァー・クゥー・フェン・ユウ・シエン・コ ン・スー内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力された表音文字列のまだ変換されて
    いない音節若しくは該音節の一部について、第1に最大
    文字数の単語に変換することを優先し、第2に先に入力
    された音節を変換することを優先し、このもとで変換対
    象の音節数を逐次に減らし、また変換対象の音節を順次
    後方にずらすことにより現在の変換の対象となる音節列
    を切り出す音節切り出し部と、予め表音文字列及びこれ
    に対応する中国語単語が登録されている辞書部と、前記
    音節切り出し部により切り出された変換対象となる音節
    列を検索キーとして、前記辞書部内を検索し中国語の単
    語を検出する辞書検索部と、上記音節切り出し部により
    切り出された変換対象となる音節列において、一番目の
    音節が連語字であれば所定の手順で該連語字を検出する
    連語字検出部と、上記連語字検出部により対応する連語
    字を検出したときには、現在変換対象となる音節列の二
    番目からの音節を検索キーとして、上記辞書検索部によ
    り辞書部内を検索し、対応する単語があれば該連語字及
    び該単語を組み合わせてより構成漢字数の多い拡張単語
    を生成する拡張単語生成部と、上記拡張単語生成部によ
    り生成された拡張単語を、上記辞書検索部により検索さ
    れた単語に優先して漢字変換させるよう制御する変換処
    理部とを備えたことを特徴とする漢字変換装置。
JP07591293A 1993-04-01 1993-04-01 漢字変換装置 Expired - Fee Related JP3234338B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP07591293A JP3234338B2 (ja) 1993-04-01 1993-04-01 漢字変換装置
CN93119055A CN1043542C (zh) 1993-04-01 1993-10-22 汉字变换装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07591293A JP3234338B2 (ja) 1993-04-01 1993-04-01 漢字変換装置

Publications (2)

Publication Number Publication Date
JPH06290183A true JPH06290183A (ja) 1994-10-18
JP3234338B2 JP3234338B2 (ja) 2001-12-04

Family

ID=13590022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07591293A Expired - Fee Related JP3234338B2 (ja) 1993-04-01 1993-04-01 漢字変換装置

Country Status (2)

Country Link
JP (1) JP3234338B2 (ja)
CN (1) CN1043542C (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009066399A1 (ja) 2007-11-21 2009-05-28 Toyota Jidosha Kabushiki Kaisha ウェブ搬送装置、ウェブ搬送方法およびウェブ搬送制御プログラム

Also Published As

Publication number Publication date
CN1043542C (zh) 1999-06-02
JP3234338B2 (ja) 2001-12-04
CN1093184A (zh) 1994-10-05

Similar Documents

Publication Publication Date Title
US7810030B2 (en) Fault-tolerant romanized input method for non-roman characters
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
JP2003514304A (ja) スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ
JP2003527676A (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
JP2000298667A (ja) 構文情報による漢字変換装置
JPH07114558A (ja) 漢字変換訂正処理方式
JPH06290183A (ja) 漢字変換装置
JPS58123129A (ja) 仮名漢字変換装置
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JP3152802B2 (ja) 漢字変換装置
JP2002189490A (ja) ピンイン音声入力の方法
JPH0630052B2 (ja) 音声認識表示装置
JP2798931B2 (ja) 中国語の語音区切方式および語音漢字変換方式
JPS62117060A (ja) 文字・音声入力変換方式
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP3084864B2 (ja) 文章入力装置
JPH06208560A (ja) 曖昧漢字変換装置
JPH0749858A (ja) 漢字変換装置
JPH0991278A (ja) 文書作成装置
JPH0546612A (ja) 文章誤り検出装置
JPH06290182A (ja) 重辞変換装置と漢字変換装置
JPS619757A (ja) カナ漢字変換処理装置
JPS58200328A (ja) カナ漢字変換装置
JPH09245023A (ja) 情報処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees