JP2000298667A - 構文情報による漢字変換装置 - Google Patents

構文情報による漢字変換装置

Info

Publication number
JP2000298667A
JP2000298667A JP11107806A JP10780699A JP2000298667A JP 2000298667 A JP2000298667 A JP 2000298667A JP 11107806 A JP11107806 A JP 11107806A JP 10780699 A JP10780699 A JP 10780699A JP 2000298667 A JP2000298667 A JP 2000298667A
Authority
JP
Japan
Prior art keywords
word
character
syllable
dictionary
collocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11107806A
Other languages
English (en)
Inventor
Keishi Ro
桂枝 呂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11107806A priority Critical patent/JP2000298667A/ja
Priority to CNB001056069A priority patent/CN1200376C/zh
Priority to SG200002152A priority patent/SG93236A1/en
Priority to US09/549,517 priority patent/US6587819B1/en
Priority to TW089107006A priority patent/TW494318B/zh
Publication of JP2000298667A publication Critical patent/JP2000298667A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 中国語単語の品詞属性を利用することにより
高い漢字変換率を得る構文情報による漢字変換装置を提
供する。 【解決手段】 音節切り出し手段は入力された表音文字
列における部分の音節を変換対象とし、辞書検索手段は
切り出された音節列を検索キーとして辞書を検索し対応
する中国語の単語を検索し、対応の単語がなければ対応
の文字を検索する。連語字検出手段は対応する連語字が
あるかを検索し、対応の連語字があれば、品詞属性処理
手段は検出された対応の連語字の前後の単語候補又は文
字候補から該当候補の品詞属性により自動的に検出した
連語字に接続可能の同音字、語候補を選択してその連語
字及び選択された単語を組み合わせて拡張単語を生成し
て変換制御手段へ送り、変換制御手段は辞書検索手段に
より検出された単語を品詞属性処理手段により生成され
た拡張単語に優先して漢字変換する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は漢字変換に関し、特に単
語の品詞属性情報を利用して表音文字列を漢字に変換す
る構文情報による漢字変換装置に関する。
【0002】
【従来の技術】中国語文章に使用される漢字は一万以上
ある。その中から中国語文章作成者等が意図する漢字を
如何に正しくかつ高速に入力するか、そして漢字に変換
するかが中国語ワードプロセッサーを含む中国語の計算
機処理で最も重要な課題である。次に、従来の意図する
漢字の変換装置への入力手段としては、音声認識、文字
認識、キーボードなどがある。その内、キーボードによ
る入力は最も確実であるため、広く実用化されている。
【0003】さて、キーボードを利用する漢字の入力方
式は、漢字の読みによる入力方式と漢字の字形による入
力方式とに分けられる。ところで、前者の字形による入
力方式は入力の規則を予め暗記しておかなければなら
ず、しかも暗記するには相当の時間が必要であり、また
慣れるまでに時間がかかる。一方、漢字の読みによる入
力方式は日本語ワードプロセッサーでも広く採用されて
いるものであり、自然で習い易いため、将来の漢字入力
方式の主流になると思われている。そして、本発明はこ
の読みによる入力方式を採用した漢字変換装置に関す
る。
【0004】ところで、この読みを入力とする従来の漢
字変換装置としては、例えば、中華民国特許出願番号7
5105838に示されているようなものがある。図6
はこの漢字変換装置の構成図である。
【0005】本図において、100は中国語文章作成者
が漢字変換を意図するへい音、注音、ローマ字などの表
音文字を入力する入力手段であり、任意の長さ(表音文
字数)が入力可能である。180は、表音文字列とこれ
に対応して変換するための単語を対応させて登録されて
いる辞書である。140は、入力された表音文字列の音
節数を記憶するNCHARレジスタである。
【0006】120、130はそれぞれ表音文字列を単
語に変換するとき使用されるPTRレジスタとNPレジ
スタであり、PTRレジスタ120は入力された表音文
字列のどの位置から漢字変換を行うかを記憶し、NPレ
ジスタは入力された表音文字列を単語に変換する際の変
換単語長、すなわち単語を構成する漢字もしくは音節数
(中国語では、原則として漢字一字は一音節である。)
を記憶する。
【0007】150は、ある長さ若しくは構成する漢字
数を持っている単語の変換処理が全て行われた後に、上
記NPレジスタ130の値を1減らすことにより、次に
構成する漢字数の1つ少ない単語を優先して漢字変換す
ることとなるように変換制御手段を作動させる比較手段
である。
【0008】160は、上記PTRレジスタ120の設
定位置を入力表音文字列の最初の位置より順次後方へず
らし、NPレジスタ130に設定された変換対象となる
単語の構成漢字数すなわち音節数のもとですでに漢字変
換された音節が有るか否かを検査し、もしいずれもまだ
変換されておらず、且つ辞書180内に対応する単語が
登録されておれば、該対応する単語に変換するように作
用する変換制御手段である。
【0009】170は、上記変換制御手段160から送
ってきた音節列をキーとして辞書180内を検索する辞
書検索手段である。190は、上記変換制御手段160
によって変換された結果を出力する出力手段である。
【0010】
【発明が解決しようとする課題】しかしながら、上記の
ような漢字変換装置においては、その変換正確率は約9
%である。その残った4%の誤変換は単語登録なし(4
0.2%)、単語境界検出のミス(8.0%)、同音異
義字、語の誤選択(33.9%)及び破音字、音調変換
などから起こった間違いである。この中では、単語境界
検出と同音異義字、語の選択に関する問題は一番解決し
にくい。
【0011】このため、上記の単語境界検出のミス及び
同音異義字、語の誤選択から起こった誤った変換の防止
を図れる構文情報による漢字変換装置の実現が望まれて
いた。本発明はかかる課題を解決する目的でなされたも
のである。
【0012】1985年に台湾での単語使用頻度アンケート
(多面分野、全部で180万字)による調査結果は以下
に示されている。
【表1】 単語の数量について2文字以上の単語は88%を占め、
1文字の単語は12%のみ。単語使用回数(使用頻度)
について、2文字以上の単語は35.7%のみ、1文字
の単語は64.3%を占める。単語の数量上でみれば、
2文字以上の単語は1文字の単語より多い。使用頻度で
みれば、1文字の単語のほうが多い。実に、中国語にと
って使用頻度が高いダミーワード(語頭、語末、助詞、
定詞、代名詞、助数詞、副詞、連続詞、前置詞、後置
詞、感動詞)は殆ど1文字の単語である。「漢字変換装
置」における最長一致法の原則に従って1文字単語はよ
り長い単語に含まれているので、変換することができな
くなるようになる。
【0013】このため、単語境界検出を行う場合、よく
間違った結果が出ている。また、使用頻度による同音異
義字の選択或は前の単語を優先的に変換する(同じ読み
にとってその前、後に変換できる単語がある)という原
則に従っても同音異義字の選択もよく間違えられる。
【0014】本発明はかかる問題点に鑑みて、辞書に記
憶されている各単語に品詞属性(名詞、動詞等)を与
え、連語字の検索に合わせて、間違った同音異義字、語
の選択を検査、修正する構文情報による漢字変換装置を
提供することを目的とする。
【0015】
【課題を解決するための手段】上記目的を達成するた
め、本発明は中国語連語字の表音記号とそれに対応する
連語字及び該連語字への接続可能な品詞属性を記憶して
いる連語字字典と、表音記号とそれに対応する単語及び
該単語の品詞属性が、もし対応する単語が複数存在する
ならばその使用頻度に従って配列の上、登録されている
辞書と、入力された表音文字列のまだ変換されていない
音節若しくは該音節の一部について第1に最大文字数の
単語に変換することを優先し、第2に先に入力された音
節を変換することを優先し、このもとで変換対象の音節
数を逐次に減らし、また変換対象の音節を順次後方にず
らすことにより現在の変換の対象となる音節列を切り出
す音節切り出し手段と、前記音節切り出し手段により切
り出された変換対象となる音節列を検索キーとして、前
記辞書内を検索し中国語の単語を検出する辞書検索手段
と、上記音節切り出し手段により切り出された変換対象
となる音節列において、その音節列に連語字に対応する
音節が存在であれば所定の手順で該連語字及びそれに接
続可能な品詞属性を検出する連語字検出手段と、上記連
語字検出手段により対応する連語字を検出したときに
は、該連語字におけるその前またはその後の音節を検索
キーとして、上記辞書検索手段により辞書内を検索し、
品詞属性により該連語字への接続可能の単語があれば、
該連語字及び該単語を組み合わせる品詞属性処理手段
と、上記辞書検索手段により検索された単語を、上記品
詞属性処理手段により生成された拡張単語に優先して漢
字変換させるよう制御する変換制御手段とを備えたこと
を特徴とする構文情報による漢字変換装置としている。
【0016】
【作用】本発明は上記構成により、連語字字典が中国語
連語字の表音記号とそれに対応する連語字及び該連語字
への接続可能な品詞属性を記憶している。辞書に表音記
号とそれに対応する単語及び該単語の品詞属性が、もし
対応する単語が複数存在するならばその使用頻度に従っ
て配列の上、登録されている。音節切り出し手段が入力
された表音文字列のまだ変換されていない音節若しくは
該音節の一部について第1に最大文字数の単語に変換す
ることを優先し、第2に先に入力された音節を変換する
ことを優先し、このもとで変換対象の音節数を逐次に減
らし、また変換対象の音節を順次後方にずらすことによ
り現在の変換の対象となる音節列を切り出す。辞書検索
手段が前記音節切り出し手段により切り出された変換対
象となる音節列を検索キーとして、前記辞書内を検索し
中国語の単語を検出する。連語字検出手が上記音節切り
出し手段により切り出された変換対象となる音節列にお
いて、その音節列に連語字に対応する音節が存在であれ
ば所定の手順で該連語字及びそれに接続可能な品詞属性
を検出する。品詞属性処理手段が上記連語字検出手段に
より対応する連語字を検出したときには、該連語字にお
けるその前またはその後の音節を検索キーとして、上記
辞書検索手段により辞書内を検索し、品詞属性により該
連語字への接続可能の単語があれば、該連語字及び該単
語を組み合わせる。変換制御手段が上記辞書検索手段に
より検索された単語を、上記品詞属性処理手段により生
成された拡張単語に優先して漢字変換させるよう制御す
る。
【0017】
【発明の実施の形態】以下、本発明を実施例に基づき説
明する。図1は本発明に係る構文処理をもつ漢字変換装
置の一実施例の構成図である。図2、3はこの実施例の
処理流れ図である。図4はこの実施例における連語字字
典のデータ構造の概念図である。図5はこの実施例にお
ける品詞属性を記録している辞書のデータ構造の概念図
である。
【0018】図1において、10は、へい音、注音、ロ
ーマ字などの表音文字を入力する入力手段である。18
は、表音文字列及びこれに対応する中国語単語及び該単
語の品詞属性が記録されている辞書である(辞書のデー
タ構造の概念図は図5に示されている)。14は、入力
された表音文字列の音節数を表すNCHARレジスタで
ある。なお、中国語では一つの漢字が一つの音節に対応
しているので、入力された表音文字列の音節数はつまり
変換する漢字数である。
【0019】12、13はぞれぞれ、表音文字列を単語
に変換する際に使用されるPTRレジスタとNPレジス
タである。ここに、PTRレジスタ12は、入力された
表音文字列のどの位置から漢字変換を行うかの変換位置
を記憶する。NPレジスタ13は、入力された表音文字
列を単語に変換する際の変換対象となる単語長、即ち該
単語を構成する漢字、音節の数を記憶する。即ち、上記
の二レジスタの内容をそれぞれptr、npとすれば、
入力された表音文字列のptr番目から連続したnp個
の音節が辞書検索時の検索キーであることを示すもので
ある(以下、nchar、np、ptr及び後にでてく
るncharをぞれぞれNP、PTR及びNCHARレ
ジスタの値を表すことにする)。
【0020】11は、NCHARレジスタ14、NPレ
ジスタ13、PTRレジスタ12等の三つのレジスタの
レジスタ初期化手段である。その詳しい動作の内容は図
2に示されているが、入力された表音文字列の音節数n
charを計算し、その値をNCHARレジスタ14に
設定すると共に、もし、その値が辞書18に登録されて
いる最長単語、すなわち構成する漢字の最も多い単語の
漢字数max(本実施例にいては5。)より大きい場合
には、上記maxをNPレジスタ13に設定し、5以下
であれば、上記入力された表音文字列の音節数をNPレ
ジスタ13に設定し、そして、PTRレジスタ12の値
を0に設定する。
【0021】15は、音節切り出し手段である。漢字変
換の動作が完了であるかを否かを検査し、もし、完了で
あれば、PTRレジスタ12の値にNPレジスタ13に
記憶されている変換対象とする単語の長さ(最短変換の
長さは単漢字変換、その長さが1)を加え、NPレジス
タ13の値をnchar−ptrに設定直し、再設定さ
れた値がmaxより大きい場合、上記maxをNPレジ
スタ13に設定する。21は、特別の連語字の読み、該
文字及び該連語字への接続可能な品詞属性を記憶してい
る連語字字典である。20は、入力された表音文字列の
ptr番目の音節を検索キーとして連語字字典21を検
索する連語字検出手段である。
【0022】19は、上記連語字検出手段20により対
応する連語字があることが検出されると、且つ、該連語
字への品詞接続は後接続の場合、入力された表音文字列
のptr+1番目からのnp−1個の音節を検索キーと
して辞書検索手段17に送り、辞書18内を検索させ、
該当連語字への接続可能な品詞属性に対応する単語が登
録されているか否かを検索し、もし対応する単語が登録
されているならば、この対応する単語を当該連語字と組
み合わせることにより入力者が本来変換を意図している
単語、すなわち拡張単語を生成する品詞属性処理手段で
ある。
【0023】16は、変換制御手段である。その詳しい
動作の内容は図3に示されているが、入力された表音文
字列のptr番目から連続したnp個の音節を検索キー
として辞書検索手段17に送り、辞書18内を検索さ
せ、検出された単語を最優先変換、そして品詞属性処理
手段19によって生成された単語を第2優先変換の原則
として変換処理を行う。もし、この音節はすでに変換完
了の場合、音節切り出しの手段によって再設定したPTR
レジスタ12の値及びNPレジスタの値により変換を行
う。
【0024】17は、上記変換制御手段16或は品詞属
性処理手段から送られてきた音節を検索キーとして辞書
18から該当する単語を、若し複数の単語があるならば
最先に配列されている一番可能性の高い単語を取り出
し、これを上記変換制御手段16に送る品詞属性処理手
段である。22は上記変換制御手段16によって変換さ
れた結果を出力する出力手段である。
【0025】図4は本実施例の連語字字典のデータ構造
の概念図である。本字典は、基本的な連語字の読み音及
びそれに対応する連語字、該連語字への接続可能な品詞
属性の対応表からなる。本実施例では、中国語の前置詞
「在」、「従」、「将」等、同じく接続詞「則」、
「若」、「和」、「以」等、同じく肯定詞、否定詞の
「是」、「不」、「有」等及び同じく指定詞「其」、
「該」等を連語字と見なす。なお、中国語においては、
これらの連語字は単語と連結し、構成する漢字数がより
多い単語を構成する。なお、このような組み合わせで構
成された単語を本明細書では拡張単語と称している。例
えば、「在台北」、「有一天」等である。本字典は、あ
る音節に対応する文字が連語字であるかどうかを連語字
検出手段が検索するときに使用されるものである。
【0026】図5は品詞属性を記録している辞書のデー
タ構造の概念図である。中国語の字、語にとって各々名
詞、動詞、形容詞、副詞等の属性を持っている。連語字
が検出された場合、辞書に記録されている各品詞の属性
定義により該連語字への前後接続可能な単語を検出して
連語字と組み合わせて拡張単語となる。以下、本実施例
の動作の流れを説明する。
【0027】図2は本発明に係る漢字変換装置の一実施
例のレジスタの初期化の動作の流れを中心としたもので
あり、本図に基づいてこの動作を説明する。 (S1) まず、音節数を計算するレジスタLをゼロにす
る。 (S2) 表音文字列を入力する。 (S3) 現在入力された表音文字は声調キーか否かを検査
する。もし、声調キーであれば(S4)に行く。そうでなけ
れば(S5)へ行く。 (S4) 音節数を計算するレジスタLの内容を1増やし(S
2)へ戻る。 (S5) 現在入力された表音文字列は入力終了キーか否か
を検査する。もし、入力終了キーであれば、且つ、音節
数が0ではない場合、(S6)へ行く。入力終了キーでなけ
れば(S2)へ戻る。 (S6) 現在入力された音節数が5を超えるか否かを検査
する。もし、5以上であれば(S7)へ行く。5以下であれ
ば(S8)へ行く。 (S7) NPレジスタの値を5に設定する。 (S8) NPレジスタの値を現在入力された音節数に設定
する。 (S9) NCHARレジスタの値を現在入力された音節数
に設定する。 (S10)PTRレジスタの値を0に設定する。
【0028】次に図3は変換制御手段の動作を中心とし
たものであり、本図に基づいてこの動作を説明する。 (S20) 表音文字列のptr番目から連続したnp個の音
節を切り出す。 (S21) 表音文字列の変換長さnpを1減らし、(S20)へ
戻る。 (S22) (S20)で切り出された音節に対応する単語が辞書
内に格納されているか否かを検索する。もし、あれば(S
23)へ行き、なければ(S26)に行く。 (S23) 入力された表音文字列のptr番目から連続した
np個の音節を(S22)で検出された対応単語に変換し、
その後、(S24)へ行く。 (S24) PTRレジスタの値にnpを加える。NPレジス
タの値を5に設定する。 (S25) PTRレジスタの値に1を加える。NPレジスタ
の値を5に設定する。 (S26) 現在NPレジスタの値が1より大きいかを検査す
る。もし、1より大きい場合には(S27)へ行き、小さけ
れば、(S30)へ行く。 (S27) (S20)で切り出された音節の一番目の音節は連語
字の読みであるか否かを検査する。もし、連語字の読み
であれば(S34)へ行き、そうでなければ(S21)へ行く。 (S34) (S20)で切り出された音節の内、二番目の音節か
ら各音節数に対応する単語を切り出す。 (S28) (S34)で切り出された音節の内、対応する単語が
あるかどうかを検査する。あれば、(S29)へ行き、なけ
れば、(S21)へ行く。 (S29) (S27)で検出された連語字と(S28)で検出された単
語を一体にして、いわば一の単語たる拡張単語に組み合
わせて、入力された音節のptrから連続したnp個の
音節を拡張単語に変換する。しかる後(S23)へ行く。 (S30) 入力された表音文字列のptr位置の音節を対応
する文字に変換し、(S25)へ行く。 (S31) (ptr+np)の値とncharの値との大小
を検査する。もし、前者が大きい場合には(S32)へ行
く。小さければ、(S20)へ行く。 (S32) 表音文字列における変換長さnpを1減らしてか
ら(S33)へ行く。 (S33) NPレジスタの値が零か否かを検査する。もし、
零であれば、入力された表音文字列の漢字変換処理を終
える。そうでなければ、(S31)へ行く。
【0029】図4は本実施例の連語字字典のデータ構造
の概念図である。本字典は、基本的な連語字の読み音と
それに対応する連語字及び該連語字への接続可能な品詞
属性の対応表からなる。本実施例では、中国語における
「的」、「会」、「很」、「太」、「所」、「過」、
「較」、「著」、「了」、「能」、「真」等の単漢字を
連語字と見なす。本発明によれば、その連語字への前後
接続可能な品詞属性に従って最適な漢字または単語候補
を選択できる。例えば、現在台湾では「好遜」という言
葉はよく若者たちに使われている。この言葉はふつう辞
書に登録されていない。「最長一致法」という変換原則
を採用している漢字変換装置においては、単語の属性に
よってよりよい高い変換率を得ることができる。
【0030】次に、以上のように構成された本実施例に
ついて、具体的に入力例として「ma ma・ suo
eV juV de・ fan\ 」を例にとって、そ
の動作を説明する。説明易さを考慮の上、下記にこの入
力列に対応する辞書に格納されている変換の可能最高の
単語を示す。 「ma ma・ 媽媽」 「suoeV 所」 「juV 主」 「de・ 的」 「fan\ 犯」
【0031】再度、フロー図をもとに説明する。上記の
表音文字列が入力されると、図2に示されているレジス
タ初期化手段は、この入力された表音文字列を声調信号
で音節毎に区切ることにより音節数を求める。上記の入
力列には六つの音節があるので、音節数6をNCHAE
Rレジスタ14に設定する(S9)。そして、その値が辞書
内の最長の単語の漢字数5(本実施例では5。)より大
きいので(S6)、NPレジスタ13の初期値として5を設
定し(S7)、PTRレジスタ12の値を0に設定する。P
TRレジスタの値ptrは現在の辞書検索の開始位置
が、上記入力された表音文字列のptr番目の音節であ
ることを表す。
【0032】入力された音節数に基づいてPTRレジス
タ12、NPレジスタ13、NCHARレジスタ14の
初期値が設定された後、図3に示されている変換制御手
段では、まずPTRレジスタ12とNPレジスタ13の
値によって、入力手段10から送られてきた表音文字列
の0〜4番目の連続した音節列「ma ma・ suo
eV juV de・」を切り出し(S20)、その上で該
音節列を検索キーとして辞書検索手段17に送り辞書1
8を検索させる(S22)。それに対応する単語がないの
で、連語字検索手段により連語字典を検索する。「m
a」は連語字の読みではないと判定され、次に0〜3番
目「ma ma・ suoeV juV」を切り出し
て、NPレジスタ13の値を1減らす。次にこの音節列
を検索キーとして辞書検索手段17に送り辞書18を検
索させる(S22)。それに対応する単語がないので、連語
字検索手段により連語字典を検索して「ma」は連語字
の読みではないと判定される。
【0033】上記のようなステップを繰り返して入力さ
れた表音文字列から連続した音節列が順に切り出され、
且つNPレジスタ13の値を順番に減らす。NPレジス
タ13の値が2である場合には、連続した音節列「ma
ma・」を切り出す。辞書検索手段はそれを検索キー
として辞書内を検索する (S22)。辞書内には対応する単
語「媽媽」が格納されているので、「最長一致法」の変
換原則に基づいて「ma ma・」を「媽媽」に変換す
る。この場合には、PTRレジスタ12の値を2に加
え、NPレジスタの値を最大可能単語長5に設定する。
ただし、この場合にはPTRレジスタ12の値2にNP
レジスタの値5を加えて7とする。この際、7はNCH
ARレジスタの音節数6より大きい。このため、NPレ
ジスタ13の値は最大変換可能単語長4に設定される。
【0034】そして、入力手段10により送られてきた
2〜5番目の連続した音節列「suoeV juV d
e・ fan\ 」を切り出し(S20)、その上で該音節列
を検索キーとして辞書検索手段17に送り辞書18を検
索させる(S22)。辞書内に対応する単語がないので、一
番目の音節「suoeV」が連語字の読みか否かが検査
されることになる(S27)。さて、この場合には、連語字
字典内には読み「suoeV」に対応する字「所」があ
る。また、該連語字字典に登録されている「所」への接
続可能な品詞属性は動詞属性をもつ単語である。
【0035】続けて連続した音節列「juV de・
fan\ 」、「juV de・」、「juV」を順に
切り出す(S34)。上記の切り出された音節について辞書
内に対応する単語が登録されているか否かを検索する(S
28)。対応する動詞属性をもつ文字「煮」が登録されて
いるので、連語字の「所」と対応文字「煮」を組み合わ
せて「所煮」という拡張単語が生成される(S29)。そし
て、「suoeV juV 」が拡張単語「所煮」に変
換される(S23)。
【0036】次にPTRレジスタ12の値に拡張単語の
長さ2を加えて4とする。NPレジスタ13の値を最大
可能単語長5に設定する。ただし、この場合にはPTR
レジスタ12の値4にNPレジスタの値5を加えて9と
する。この際、9はNCHARレジスタの音節数6より
大きい。このため、NPレジスタ13の値は最大変換可
能単語長2に設定される。
【0037】そして、入力手段10により送られてきた
4〜5番目の連続した音節列「 de・ fan\ 」を
切り出し(S20)、その上で該音節列を検索キーとして辞
書検索手段17に送り辞書18を検索させる(S22)。辞
書内に対応する単語がないので、一番目の音節「de
・」が連語字の読みか否かが検査されることになる(S2
7)。この場合には、連語字字典内には読み「de・」に
対応する字「的」がある。また、該連語字字典に登録さ
れている「的」への接続可能な品詞属性は名詞属性をも
つ単語である。
【0038】次に最後の読み「fan\ 」を切り出す
(S34)。上記の切り出された音節「fan\ 」について
辞書内に対応する単語が登録されているか否かを検索す
る(S28)。対応する名詞属性をもつ文字「飯」が登録さ
れているので、連語字の「的」と対応文字「飯」を組み
合わせて「的飯」という拡張単語が生成される(S29)。
そして、「 de・ fan\ 」が拡張単語「的飯」に
変換される(S23)。
【0039】次にPTRレジスタ12の値に拡張単語の
長さ2を加えて6とする(S24)。この際、6はNCHA
Rレジスタの音節数6と同じである。音節の切り出しが
できなくなった。ここまでで変換制御手段は入力された
表音文字列の漢字変換処理が終了したと判定し(S32)、
「媽媽所煮的飯」という変換結果を出力手段22に送る。
【0040】以上、本発明を実施例に基づき説明してき
たが、本発明は何も上記の実施例に限定されないのは勿
論である。即ち、例えば、 連語字は切り出された音節における一番目の音節に限
られない。切り出された音節のうち、その何れの音節で
あってもよい。 検索範囲としては、連語字の後の単語が該連語字への
接続可能であるかどうかを検索することに限られず、そ
の連語字における前の単語が該連語字と接続可能である
かどうかを検索することもできる。このため、検索範囲
を広め、よりよい変換率が得られる。 表音文字とは、例示した音素文字や音節文字に限らず
音素記号をも含む概念であり、更に漢字変換の対象とな
るならば、日本語のかな、朝鮮語のハングル等の文字で
あってもよい。 用途は、日本語における漢文用ワードプロセッサー等
を包含するのは勿論である。 学習機能等が付加されていてもよいのは勿論である。
【0041】
【発明の効果】以上説明したように、本発明によれば、
入力された音節列を中国語の文字(漢字)に変換する
際、変換しようとする音節に中国語の前置詞、接続詞、
肯定詞、否定詞、指定詞などの特性を持っている連語字
に対して、その文字の読みがあり、且つその前或はその
後の連続した音節に該連語字への接続可能な品詞属性を
もつ同音字、語があれば、自動的に最適な同音字、語を
選択して該連語字とその選択された単語を組み合わせて
拡張単語を生成する。このような構文情報による漢字変
換装置により、同音字、語による誤変換を容易に解決す
ることが可能となる。このため中国語文章作成における
漢字変換の際の正確率が高まり、その技術的効果は非常
に大きい。
【図面の簡単な説明】
【図1】 本発明に係る漢字変換装置の一実施例の構成
図である。
【図2】 上記実施例におけるレジスタの初期における
動作の流れ図である。
【図3】 上記実施例における変換制御手段の動作を中
心とした流れ図である。
【図4】 上記実施例における連語字字典のデータ構造
の概念図である。そのうち、 AN:その後に名詞接続可能 AV:その後に動詞接続可能 AA:その後に副詞接続可能 AJ:その後に形容詞接続可能 BN:その前に名詞接続可能 BV:その前に動詞接続可能 BA:その前に副詞接続可能 BJ:その前に形容詞接続可能 …。
【図5】 上記実施例における品詞属性を記録している
辞書のデータ構造の概念図である。そのうち、各同音
字、語は使用頻度に従って配列されるものである。
【図6】 従来の漢字変換装置の構成図である。
【符号の説明】
10 入力手段 11 レジスタ初期化手段 12 PTRレジスタ 13 NPレジスタ 14 NCHARレジスタ 15 音節切り出し手段 16 変換制御手段 17 辞書検索手段 18 辞書 19 品詞属性処理手段 20 連語字検出手段 21 連語字字典 22 出力手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 中国語連語字の表音記号とそれに対応す
    る連語字及び該連語字への接続可能な品詞属性を記憶し
    ている連語字字典と、 表音記号とそれに対応する単語及び該単語の品詞属性
    が、もし対応する単語が複数存在するならばその使用頻
    度に従って配列の上、登録されている辞書と、 入力された表音文字列のまだ変換されていない音節若し
    くは該音節の一部について第1に最大文字数の単語に変
    換することを優先し、第2に先に入力された音節を変換
    することを優先し、このもとで変換対象の音節数を逐次
    に減らし、また変換対象の音節を順次後方にずらすこと
    により現在の変換の対象となる音節列を切り出す音節切
    り出し手段と、 前記音節切り出し手段により切り出された変換対象とな
    る音節列を検索キーとして、前記辞書内を検索し中国語
    の単語を検出する辞書検索手段と、 上記音節切り出し手段により切り出された変換対象とな
    る音節列において、その音節列に連語字に対応する音節
    が存在であれば所定の手順で該連語字及びそれに接続可
    能な品詞属性を検出する連語字検出手段と、 上記連語字検出手段により対応する連語字を検出したと
    きには、該連語字におけるその前またはその後の音節を
    検索キーとして、上記辞書検索手段により辞書内を検索
    し、品詞属性により該連語字への接続可能の単語があれ
    ば、該連語字及び該単語を組み合わせる品詞属性処理手
    段と、 上記辞書検索手段により検索された単語を、上記品詞属
    性処理手段により生成された拡張単語に優先して漢字変
    換させるよう制御する変換制御手段とを備えたことを特
    徴とする構文情報による漢字変換装置。
JP11107806A 1999-04-15 1999-04-15 構文情報による漢字変換装置 Pending JP2000298667A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP11107806A JP2000298667A (ja) 1999-04-15 1999-04-15 構文情報による漢字変換装置
CNB001056069A CN1200376C (zh) 1999-04-15 2000-04-11 使用语法信息的汉字转换装置
SG200002152A SG93236A1 (en) 1999-04-15 2000-04-14 Chinese character conversion apparatus using syntax information
US09/549,517 US6587819B1 (en) 1999-04-15 2000-04-14 Chinese character conversion apparatus using syntax information
TW089107006A TW494318B (en) 1999-04-15 2000-04-14 Chinese character conversion apparatus using syntax information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11107806A JP2000298667A (ja) 1999-04-15 1999-04-15 構文情報による漢字変換装置

Publications (1)

Publication Number Publication Date
JP2000298667A true JP2000298667A (ja) 2000-10-24

Family

ID=14468518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11107806A Pending JP2000298667A (ja) 1999-04-15 1999-04-15 構文情報による漢字変換装置

Country Status (5)

Country Link
US (1) US6587819B1 (ja)
JP (1) JP2000298667A (ja)
CN (1) CN1200376C (ja)
SG (1) SG93236A1 (ja)
TW (1) TW494318B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
US7512666B2 (en) * 2001-04-18 2009-03-31 Yahoo! Inc. Global network of web card systems and method thereof
TWI220727B (en) * 2003-06-11 2004-09-01 Asustek Comp Inc Character element input correcting device and method
CA2552622A1 (en) * 2004-01-06 2005-07-21 In-Seop Lee The auto translator and the method thereof and the recording medium to program it
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US20050276480A1 (en) * 2004-06-10 2005-12-15 Microsoft Corporation Handwritten input for Asian languages
US7861164B2 (en) * 2005-11-03 2010-12-28 Bin Qin Method to sequentially encode PINYIN of Chinese character with few symbols
CN102203853B (zh) * 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
CN102478971A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 一种方块字的键盘输入方法及具有键盘的数字电子装置
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
US8976118B2 (en) 2012-01-20 2015-03-10 International Business Machines Corporation Method for character correction
CN104182390B (zh) * 2014-08-14 2017-08-18 百度在线网络技术(北京)有限公司 对用户信息进行个性化处理的方法及***
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN109308126B (zh) * 2017-07-27 2022-09-13 北京搜狗科技发展有限公司 一种候选词展示方法和装置
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPH0760434B2 (ja) 1986-12-02 1995-06-28 松下電器産業株式会社 漢字変換装置
TW268115B (ja) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count
CN1120436C (zh) * 1997-09-19 2003-09-03 国际商业机器公司 用于识别孤立、非相关汉字的语音识别方法和***
JP2000235567A (ja) * 1999-02-17 2000-08-29 Matsushita Electric Ind Co Ltd 声調符号無入力式中国語文字変換装置

Also Published As

Publication number Publication date
US6587819B1 (en) 2003-07-01
CN1200376C (zh) 2005-05-04
SG93236A1 (en) 2002-12-17
CN1271132A (zh) 2000-10-25
TW494318B (en) 2002-07-11

Similar Documents

Publication Publication Date Title
US7810030B2 (en) Fault-tolerant romanized input method for non-roman characters
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
JP2515726B2 (ja) 情報検索方法及び装置
US7630880B2 (en) Japanese virtual dictionary
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
US20100180199A1 (en) Detecting name entities and new words
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JP2003527676A (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
JP2000298667A (ja) 構文情報による漢字変換装置
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2006243673A (ja) データ検索装置および方法
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JPS58123129A (ja) 仮名漢字変換装置
CN1323004A (zh) 汉语盲文到汉字的自动转换方法
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法
JP3234338B2 (ja) 漢字変換装置
JP2798931B2 (ja) 中国語の語音区切方式および語音漢字変換方式
JP2008140074A (ja) 例文検索装置および例文検索処理プログラム
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JPH1063651A (ja) 中国語入力装置
JP5229448B2 (ja) 読み付与装置、およびプログラム
JPH06149872A (ja) 文章入力装置
JP2000330998A (ja) 発音電子辞書