JPH06243162A

JPH06243162A - 機械翻訳装置

Info

Publication number: JPH06243162A
Application number: JP5070870A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒; Hideo Ito; 秀夫伊東
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-04-15
Filing date: 1993-03-05
Publication date: 1994-09-02

Abstract

(57)【要約】【目的】品詞や訳語などの目的言語の情報だけを選択
して提示し、対象言語の読解を容易にする。【構成】入力文書３１はＯＣＲ３２などによって入力
される。その際、文書の内容だけでなく、文書の書式に
関する情報（フォント、段組みなど）も同時に記憶す
る。入力された文書は、形態素解析処理によって形態素
に分割され、辞書引きされる。分割された形態素の品詞
に品詞連接確率に基づいて品詞推定処理を施し、各形態
素に対して最適な品詞を決定する。決定された最適品詞
にしたがって第２言語の情報（訳語など）を検索する。
第１言語文と第２言語の情報とを対応させ、先に記憶し
ておいた書式情報にしたがって出力形態を整形する。最
後に、プリンタなどで対訳文書を出力する。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、機械翻訳装置に関し、より詳細
には、対象言語文に対応する目的言語情報を、対象言語
文書の書式にしたがって表示あるいは印刷する機能を有
する機械翻訳装置に関する。

【０００２】

【従来技術】従来、第１言語（対象言語）文からそれに
対応する第２言語（目的言語）情報を得る手段として
は、例えば、特開平１−２３４９７７号公報に「イメー
ジスキャナ付き電子辞書」が提案されている。この公報
のものは、入力部としてイメージスキャナーを備え、読
み取った第１言語を電子化された辞書（以下、電子辞
書）によって第２言語に変換する方法である。この方法
では、読み取った第１言語を原形（標準形）に変形し、
電子辞書を検索することによって、第２言語情報を出力
するものである。

【０００３】しかしながら、この方法は、読み取った電
子辞書から第１言語を検索し、当該箇所に記述している
情報を、単に出力するものである。一つの言語単位
（文、句、単語）は、一般的に複数の解釈が可能であ
り、電子辞書にも一つの見出し項目に複数の解釈が記載
されている場合が多い。したがって、前述した特開平１
−２３４９７７号公報に基づく方法では、複数出力され
た第２言語情報を利用者が随時選択しなければならな
い。この作業は、第１言語によって記述された内容を第
２言語によって理解する際には、多大な負担となる。他
にも従来技術としては、特開平２−１３８６６０号公報
に「訳語表示装置」があるが、前述した特開平１−２３
４９７７号公報と同様に、入力された第１言語の項目を
電子辞書から検索し、記載されている第２言語の情報を
単に出力するものであり、第１言語文の理解に適した第
２言語の情報を選択するものではない。

【０００４】ＯＣＲミスや辞書の見出し語登録不足など
によって、第１言語原文に未知語が含まれている場合が
ある。語の並びの統計に基づいて品詞を推定するので、
第１言語文中に未知語が多くなると、語の並びの統計が
利用できない場合が多くなる。未知語に対しては全品詞
を候補として仮定すれば、隣接する語が未知語である場
合には語の並びの統計が確度の低いものになってしま
う。したがって、間違って訂正してしまう例も増えるの
で、品詞推定精度が下がってしまう。また、複数の文の
集合である文書を一括して翻訳するにあたり、一文単位
に分割してから言語的な処理を実施するのが通常であ
る。しかしながら、一文単位に自動分割することは難し
いので、先に提案した特願平４−１２１２７７号では、
物理的な行単位にしか分割していない。該特願平４−１
２１２７７号では、構文制約を局所的に適用して品詞推
定するので、処理単位が一文全体でなくても致命的な問
題にはならない。しかし、物理行の両端の単語は、本来
ならば隣接している単語が前行または次行に分離してい
るので、連接情報が利用できない。そのために、物理行
の両端付近の単語の品詞推定精度が下がることがあっ
た。

【０００５】

【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、第１言語の品詞の連接確率を記憶し、連接確率に
基づいて、第１言語文の各単語の品詞を決定し、決定さ
れた品詞にしたがって電子辞書から第１言語に対応する
第２言語情報（訳語）を検索し、第１言語の文書の書式
にのっとって表示あるいは印刷出力する機能を有する機
械翻訳装置を提供することを目的としてなされたもので
ある。

【０００６】

【構成】本発明は、上記目的を達成するために、（１）
少なくとも、対象言語文を入力するための入力手段と、
該入力手段により入力された対象言語文を記憶する記憶
手段と、言語解析に必要な知識を記憶している解析辞書
と、前記対象言語文及びその翻訳結果である目的言語文
を表示するための表示手段とを備えた言語処理系におい
て、対象言語の品詞を推定する品詞推定手段と、該品詞
推定手段によって推定された品詞にしたがって、前記解
析辞書から対象言語に対応する目的言語の情報（訳語）
を抽出する抽出手段とから成ること、更には、（２）前
記品詞推定手段が、対象言語の品詞の連接確率を記憶す
る第１の記憶手段と、該連接確率に基づいて、対象言語
文の各単語の品詞を決定する決定手段とを有すること、
更には、（３）前記入力手段が光学的文字読取装置手段
を使用するものであること、更には、（４）前記表示手
段が、対象言語文と目的言語情報を対応させて、表示あ
るいは印刷出力する出力手段を有すること、更には、
（５）前記（４）において、前記出力手段が、対象言語
の文書の書式を記憶する第２の記憶手段と、対象言語の
文書の書式に基づいて、対象言語文と目的言語の情報と
を表示あるいは印刷出力する出力手段を有すること、或
いは、（６）少なくとも、対象言語文を入力するための
入力手段と、該入力手段により入力された対象言語文を
記憶する記憶手段と、言語解析に必要な知識を記憶して
いる解析辞書と、前記対象言語文及びその翻訳結果であ
る目的言語文を表示するための表示手段と、対象言語の
品詞を推定する品詞推定手段と、該品詞推定手段によっ
て推定された品詞にしたがって、前記解析辞書から対象
言語に対応する目的言語の情報を抽出する抽出手段とを
備えた言語処理系において、単語間の連接に関する情報
を用いて多品詞語の品詞を推定する品詞推定手段と、現
在行の他に、直前行および直後行を記憶する記憶手段
と、該記憶手段で記憶した直前行および直後行を現在行
に連結する連結手段と、該連結手段で作成した連結後の
行に対して品詞を推定する品詞推定手段とから成るこ
と、更には、（７）前記（６）において、前記対象言語
文に含まれる未知語を判定する判定手段と、該判定手段
で判定した未知語の数を計数する計数手段と、該計数手
段の計数結果に基づいて品詞推定処理を実施するか否か
を判断する判断手段から成ること、更には、（８）前記
（６）において、対象言語文において基本的な語を判定
する判定手段と、該判定手段の判定結果に基づいて目的
言語情報の出力を抑制する抑制手段とから成ること、更
には、（９）前記（６）において、品詞推定した品詞の
辞書中の優先度を判定する判定手段と、該判定手段に基
づいて目的言語情報の出力を抑制する抑制手段とから成
ること、更には、（１０）前記（６）において、品詞推
定によって品詞の可能性の順位を求める認定手段と、該
認定手段による順位にしたがって、上位複数個の品詞候
補の対応する第２言語情報を出力する出力手段とから成
ること、更には、（１１）前記（６）において、品詞推
定によって品詞の複数の可能性を求める認定手段と、該
認定手段の可能性の程度を評価する評価手段と、該評価
の可能性の程度を複数個用いて第１解の確度を判定する
判定手段と、該判定手段の判定結果に基づいて、出力す
る解の個数を変更する変更手段とから成ること、或い
は、（１２）少なくとも、対象言語文を入力するための
入力手段と、該入力手段により入力された対象言語文を
記憶する記憶手段と、言語解析に必要な知識を記憶して
いる解析辞書と、前記対象言語文及びその翻訳結果であ
る目的言語文を表示するための表示手段と、対象言語の
品詞を推定する品詞推定手段と、該品詞推定手段によっ
て推定された品詞にしたがって、前記解析辞書から対象
言語に対応する目的言語の情報を抽出する抽出手段とを
備えた言語処理系において、単語間の連接に関する情報
を用いて多品詞語の品詞を推定する品詞推定手段と、対
象言語の熟語の構文型を記述するところの熟語テンプレ
ートを、対応する目的言語情報（訳語，品詞等）を併せ
て記憶する記憶手段と、記憶されたテンプレートと対象
言語文とを照合する照合手段と、該照合手段において熟
語テンプレート中の要素に対応する対象言語文中の単語
あるいは語句を抽出する抽出手段と、前記照合手段と前
記抽出手段の実施結果に基づいて、熟語テンプレートに
対応する目的言語情報を表示する表示手段とを有するこ
と、更には、（１３）前記（１２）において、熟語テン
プレートの目的言語情報と、当該テンプレート中の要素
に合致した対象言語文中の単語（語句）に対応する目的
言語情報とを分離して出力する出力手段とを有するこ
と、更には、（１４）前記（１２）において、熟語テン
プレートの目的言語情報と、当該テンプレート中の要素
に合致した対象言語文中の単語あるいは語句に対応する
目的言語情報とを基に変形・合成し、一つの目的言語語
句として出力する出力手段とを有すること、更には、
（１５）前記（１２）において、対象言語文中の未知語
を検出する検出手段と、対象言語の語の変形パターンと
変形後の構文的カテゴリ（品詞等）を記憶する記憶手段
と、前記検出手段で検出された未知語に対して、前記変
形パターンを適用し、変形前の語を求める認定手段と、
該認定手段で求めた変形前の語を第１言語解析辞書にお
いて検索する検索手段と、該検索手段の結果にしたがっ
て、未知語の構文的カテゴリを決定する決定手段とを有
すること、更には、（１６）前記（１５）において、前
記検索手段の結果にしたがって、変形前の対象言語単語
の目的言語情報と、変形情報とを併せて表示する表示手
段とを有すること、更には、（１７）前記（１６）にお
いて、前記検索手段の結果にしたがって、変形前の対象
言語単語の目的言語情報を対象言語文における変形情報
で変形した後に表示する表示手段とを有することを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。

【０００７】図１は、本発明による適訳語選択機能を有
する機械翻訳装置の一実施例を説明するための構成図
で、図中、１は表示装置、２は表示制御部、３は言語処
理部、４は入力制御部、５は入力装置である。入力装置
５により入力された第１言語（対象言語）は入力制御部
４を介して言語処理部３で第２言語（目的言語）に翻訳
される。翻訳された第２言語は、表示制御部２を介して
表示装置１で表示される。

【０００８】図２は、本発明による対訳文書作成機能を
有する機械翻訳装置における対訳文書作成処理のブロッ
ク図で、図中、２１はキーボード、ＯＣＲ（Optical Ch
aracter Reader；光学式文字読取装置）などの第１言語
の入力手段、２２は第１言語文を形態素に分割する形態
素解析手段、２３は形態素解析で使用する言語情報が記
載されている解析辞書、２４は第１言語文に対する最適
品詞を求める品詞推定手段、２５は品詞推定手段が使用
する品詞連接確率表、２６は第１言語と第２言語の情報
とを対応させた出力を作成する出力形態決定手段、２７
は出力形態決定手段によって作成された内容に従って出
力装置に出力する手段である。

【０００９】第１言語文を入力するための入力手段（Ｏ
ＣＲなど）２１により入力された第１言語文（原文）は
記憶手段により記憶される。言語解析に必要な知識を記
憶している解析辞書２３を利用して形態素解析手段２２
により形態素解析される。第１言語文（原文）及びその
翻訳結果である第２言語文は表示手段により表示され
る。第１言語の品詞の連接確率は連接確率表２５として
記憶される。上記５の連接確率に基づいて、第１言語文
の各単語の品詞を品詞推定手段２４により推定し、該連
接手段によって推定された品詞にしたがって、解析辞書
２３から第１言語に対応する第２言語の情報（訳語）を
抽出し、また、第１言語文と第２言語の情報を対応させ
て、出力形態を決定手段２６により決定し、出力手段２
７により表示あるいは印刷出力する。第１言語の文書の
書式に基づいて、第１言語文と第２言語の情報を出力手
段２７により表示あるいは印刷出力する。これによっ
て、不必要な情報を提示されることなく、第１言語文を
第２言語によって円滑に理解することができる。

【００１０】図３は、対訳文書作成処理部の構成図で、
図中、３１は第１言語で記述された入力文書の例、３２
はＯＣＲ、３３は対訳作成処理、３４は印刷装置、３５
が第２言語の情報を付与された出力文書例である。入力
文書３１はＯＣＲ装置３２などによって入力される。そ
の際、文書の内容だけでなく、文書の書式に関する情報
（フォント、段組みなど）も同時に記憶する。入力され
た文書は、形態素解析処理によって形態素に分割され、
辞書引きされる。分割された形態素の品詞に品詞連接確
率に基づいて品詞推定処理を施し、各形態素に対して最
適な品詞を決定する。決定された最適品詞にしたがって
第２言語の情報（訳語など）を検索する。そして第１言
語文と第２言語の情報とを対応させ、先に記憶しておい
た書式情報にしたがって出力形態を整形する。最後に、
プリンタなどで対訳文書を出力する。図では、第１言語
文に対する対訳は、第１言語文の下で破線で示した。訳
語を付与する場合には、第１言語の単語の下にその第２
言語訳を出力すれば、２言語間対応が視覚的にとりやす
い。

【００１１】以下、本発明を構成する各手段について説
明する。以下、特にことわらない限り英日機械翻訳を例
に説明するが、他の２言語間においても同様に成立する
ものである。（１）入力手段第１言語の文書を、キーボードによるタイプ入力、スキ
ャナによるＯＣＲ入力、などによって機械翻訳システム
に入力する。第１言語の文書の書式情報には、文書の大
きさ、使用フォント、文書中の各単語の位置、段組み
数、などがあり、文書内容と併せて記憶する。

【００１２】（２）形態素解析手段第１言語文を、形態素（単語に相当）に分割する。英語
のように単語と単語との間に空白をいれて別ち書きする
言語では、活用変化表によって原形（標準形）に戻し、
辞書引きして、活用、品詞、訳語などを求める。日本語
のようにべた書きされる言語の場合、最長一致法、最小
文節法などの規別に基づいて、最適な単語範囲が求めら
れる。

【００１３】（３）品詞推定手段品詞タグの付けられた第１言語コーパスから品詞の連接
確率を推定し、その連接確率に基づいて翻訳対象である
第１言語文のとり得る品詞列の出現確率を算出し、その
内で確率が最大である品詞列を選択する。すなわち、言
語の確率モデルとして以下を仮定する。品詞列Ｔ＝ｔ₁,
ｔ₂,ｔ₃,…,ｔnが出現する確率Ｐ(Ｔ)は

【００１４】

【数１】

【００１５】で示される。ここでＰ(ｔi｜ｔ₁,ｔ₂,ｔ₃,
…,ｔ_i-1）は、品詞列ｔ₁,ｔ₂,ｔ₃,…,ｔ_i-1が出現した
後にｔiが連接する確率である。しかし、実際にＰ(ｔi
｜ｔ₁,ｔ₂,ｔ₃,…,ｔ_i-1）を求めることは困難である。
例えば、品詞種数をＶとすれば、ｔ₁,ｔ₂,ｔ₃,…,ｔ_i-1
の異なる品詞列数はＶの(ｉ-１)乗となり、これらの各
々について確率を求めておくことは不可能である（Ｖ＝
１００とすれば、Ｖ¹⁰＝１０²⁰通りになる）。連接確率
Ｐ(ｔi｜ｔ₁,ｔ₂,ｔ₃,…,ｔ_i-1）は近似的に求めざるを
得ない。

【００１６】そこで品詞の連接に影響する品詞を直前２
品詞までに制限するtrigramモデルＰ(ｔi｜ｔ₁,ｔ₂,ｔ₃,…,ｔ_i-1）＝Ｐ(ｔi｜ｔ_i-2,ｔ
_i-1）が使用する。trigramモデルを仮定すれば、品詞列Ｔの
出現確率は

【００１７】

【数２】

【００１８】で近似できる。連接確率Ｐ(ｔi｜ｔ_i-2,ｔ
_i-1）は、品詞タグの付けられた英文コーパスから、次
式のように二つ組（bigram）と三つ組（trigram）の出
現頻度Ｃ（ｔ_i-2,ｔ_i-1）とＣ（ｔ_i-2,ｔ_i-1,ｔi）の比
によって推定できる。

【００１９】

【数３】

【００２０】多品詞語は、等確率に各品詞が使用される
わけではなく、各名詞が使用される確率には偏りがあ
る。この情報を併用すれば、更に精度よく品詞列出現確
率を推定することができる。（３.３）式は、品詞列の
出現確率であり単語列の出現確率ではない。機械翻訳で
は入力として既に単語列が与えられているので、（３.
３）式を「単語列Ｗ＝ｗ₁,ｗ₂,…,ｗnかつ、その品詞列
がＴである確率」に拡張する。そのために、単語内相対
品詞出現確率Ｐ(ｔi・ｗi）：単語ｗiが出現し、その品詞がｔiであ
る同時確率を求める。Ｐ(ｔi・ｗi）は、タグ付きコーパスから次
式によって容易に求めることができる。

【００２１】

【数４】

【００２２】対数確率を用いれば、乗算部分が加算にな
るので確率計算を高速化できる。

【００２３】第１言語の各単語に最適な品詞を割り当て
るには、（３.３）式あるいは（３.５）式において最大
確率である品詞列Ｔを品詞候補の集合（形態素解析処理
結果）から選択しなければならない。形態素解析後の結
果は、単語の範囲（複数単語が連結する場合あり）単語原形その範囲の品詞ペナルティなどが一組となった形態素の集合である。この集合から
Left-to-Rightに形態素を選択していく。基本的にはビ
ームサーチ・アルゴリズムである。その際、一つの形態
素が複数単語から構成される場合があるために、形態素
数に同期して処理を進めるのではなく、形態素の終端点
に同期して処理を進めねばらない。

【００２４】図４（ａ）〜（ｃ）は、最大出現確率品詞
列選択手順を示す図で、図（ａ）は形態素解析結果、図
（ｂ）は選択処理の進行、図（ｃ）は解の管理方法を各
々示している。選択アルゴリズムをまとめると次のよう
になる。文頭から始まる形態素を記憶テーブルにストアする。
ビーム幅を越える場合には上位ビーム幅個をストアす
る。形態素終端点ｉ＝１,２,３，…,Ｉまでを実行す
る。ビーム幅ｗ＝１,２,３,…,Ｗまでを実行する。終端点ｉに連接し得る形態素を探し、品詞列パスPath
(ｉ,ｗ)と連結後の出現確率を求める。

【００２５】連結後の終端位置の記憶テーブルを次の
要領で更新する。 ○もし、記憶テーブルに余裕があれば（ビーム幅未満な
らば）、で求めた連結後のパスの履歴と出現確率をス
トアする。 ○もし、記憶テーブルに余裕がなければ（ビーム幅が満
たされているなら）、記憶テーブルに記憶されている品
詞列パスの内で出現確率最小のパスを選ぶ。それがで
求めた出現確率より ★低ければ、代わりにで求めた連結後のパス履歴と出
現確率をストアする。 ★高ければ、で求めたパスを棄却する。文末であるところの、終端位置ｉ＝Ｉの記憶テーブル
に保持されている品詞列パスを出現確率でソートする。

【００２６】図５は、最大出現確率品詞列選択手順のフ
ローチャートを示す図である。以下、各ステップに従っ
て順に説明する。step１；文頭から始まる形態素を初期化済みの記憶テー
ブルにビーム幅個をストアする。ビーム幅を越える場合
には出現確率上位ビーム幅個をストアする。step２へ進
む。step２；位置カウンタを、step１でストアされた形態素
の内、最も文頭に近い終端位置（すなわち最も短い形態
素の終端位置）にセットする。step３へ進む。step３；位置カウンタが文尾の位置であれば、step１３
へ進む。文尾に達していなければstep４へ進む。step４；ビーム幅カウンタをクリアする。step５へ進
む。step５；ビーム幅を越えたか、あるいは現ビーム位置に
解候補が無ければstep１２へ進む。ビーム幅未満で、か
つ現ビーム位置に解候補があればstep６へ進む。 step６；現解候補に、連結可能な形態素を抽出する。st
ep７へ進む。

【００２７】step７；連結可能な形態素が無ければstep
１１へ進む。あれば、step８へ進む。 step８；連結可能な形態素を一つ取り出す。step９へ進
む。step９；現解候補と取り出した形態素を連結し、連結後
の解候補の出現確率を（３.３）式あるいは（３.５）式
によって算出する。step１０へ進む。step１０；連結後の解候補を解候補更新処理に入力す
る。step７へ進む。step１１；ビーム幅カウンタをインクリメントする。st
ep５へ進む。step１２；位置カウンタをインクリメントする。step３
へ進む。step１３；文尾位置に記憶されている解候補を出現確率
の高い順にソートする。第１位の解候補が最適品詞列で
ある。

【００２８】図６は、解候補更新処理のフローチャート
を示す図である。以下、各ステップに従って順に説明す
る。step１０-1 ；連結後の解候補の終端位置の記憶テーブル
がビーム幅未満であればstep１０-2へ進む。ビーム幅が
満たされていればstep１０-4へ進む。step１０-2 ；連結後の解候補を終端位置の記憶テーブル
にストアする。step１０-3へ進む。step１０-3 ；連結後の解候補を終端位置の記憶テーブル
のビーム幅カウンタをインクリメントする。step１１へ
進む。step１０-4 ；連結後の終端位置の記憶テーブルにストア
されている解候補の中で、最も低出現確率である解候補
を求める。step１０-5へ進む。step１０-5 ；step１０-4で求めた出現確率が、連結後の
解候補の出現確率より低ければ、連結後の解候補を、st
ep１０-4で求めた解候補の代わりにストアし、step１１
へ進む。高ければ、更新処理は行なわずstep１１へ進
む。

【００２９】（４）出力形態決定手段品詞推定処理によって第１言語の単語の品詞が推定さ
れ、その品詞に対応した第２言語の情報を辞書から得ら
れる。本処理では、第１言語文と対応する第２言語の情
報を第１言語の文書の書式に基づいて表示あるいは印刷
出力するべく、出力内容を整形する。（１）の入力手段
において、第１言語の文書の書式情報は記憶してあるの
で、第１言語文は、それにしたがって出力すればよい。
対応する第２言語の情報は、第１言語文の下にルビのよ
うに出力すれば、視覚的に２言語間の対応がとれるので
都合がよい。ルビのように出力するには、第１言語文の
書式情報から行間の空白距離を計算し、その距離におさ
まるフォントを選択し、対応する各単語の位置からフォ
ントの大きさだけ行空白方向（縦書きなら左に、横書き
なら下に）ずらした位置に、第２言語の情報を出力すれ
ばよい。

【００３０】このように、品詞推定手段によって第１言
語の品詞を推定し、それに対応する第２言語の情報だけ
を利用者に提示する。品詞推定手段は実施例で述べた方
法以外に、品詞候補を構文解析し、構文解析によって適
当な言語単位（文、句など）にまとまる品詞を各単語の
品詞と推定する方法や言語モデルとしてＨＭＭ（Hidden
Markov Model：隠れマルコフモデル）を用いる方法が
ある。

【００３１】以上が実施例１，２（請求項１，２）につ
いての説明である。次に、実施例３（請求項３）につい
て説明する。特に入力手段にＯＣＲ処理を利用する場合
には、入力速度が著しく向上し、かつ人手を煩わせるこ
とがないために、利用者は出力結果の理解に専念するこ
とができるので、第１言語文を読解するための負担が著
しく軽減される。

【００３２】次に、実施例４（請求項４）について説明
する。自然言語はあいまいであるので、（３）の品詞推
定手段によっても必ず正解品詞を選ぶことは困難であ
る。したがって、得られた第２言語の情報と、その元と
なった第１言語文とを対照させながら、読解していかね
ばならない。出力形態決定手段において、視覚的に２言
語間の対応がとれるよう、第２言語の情報を第１言語の
ルビであるがごとく出力すれば、利用者は２言語を容易
に対照することができるので、読解にかかる負担が著し
く軽減される。

【００３３】次に、実施例５（請求項５）について説明
する。第１言語文の書式を保存し、第２言語の情報を付
与した後の結果を第１言語の文書のイメージのまま出力
すれば、第１言語の文書の印象を損うことなく第２言語
の情報も理解できる。例えば、図表を含んだ第１言語の
文書や、段組みなどを行なっている第１言語の文書を書
式を保存することなく出力した場合、利用者は、第１言
語の文書と本発明で得られる２言語文との２つの文書を
照合させながら読解をすすめねばならない。第１言語の
文書の図表や段組などの書式情報にのっとって、本発明
による２言語文書を出力すれば、利用者は本発明による
文書だけに専念することができ、読解にかかる負担が著
しく軽減される。

【００３４】文の集合である文書を一括して処理する場
合、品詞推定処理などの言語処理を実施する前に一文単
位に分割することが通常である。しかしながら、一文単
位に自動分割することは難しく、使用者による確認・修
正が必要である。一方、実施例において説明した trigr
am を用いた品詞推定法は品詞推定処理構文制約を局所
的に適用して品詞推定するので、処理単位が一文全体で
なくても致命的な問題にはならないので都合がよい。し
かし、物理行の両端の単語は、本来ならば隣接している
単語が前行または次行に分離しているので、連接情報が
利用できない。そのために、物理行の両端付近の単語の
品詞推定精度が下がることがあった。そこで、直前行と
直後行を記憶し現在行と連結し、連結後の行に対して上
述の品詞推定処理を実施すれば、行両端付近の単語は行
の中間になるので、品詞推定精度は下がることがない。

【００３５】図７は、直前行と直後行とを現在行に連結
する品詞推定処理のフローチャートである。以下、各ス
テップに従って順に説明する。step１：直前行記憶バッファ、現在行記憶バッファ、直
後行記憶バッファの内容をクリアする。step２：行が終了ならば、step６に進む。終了でなけれ
ば、step３に進む。step３：現在行記憶バッファに一行読み込む。step４：行が終了ならば、step６に進む。終了でなけれ
ば、step５に進む。step５：直後行記憶バッファに一行読み込む。step６：直前行記憶バッファ、現在行記憶バッファ、直
後行記憶バッファ、各バッファの内容を連結し、入力行
を作成する。

【００３６】step７：連結後の行に対して品詞推定処理
を実施する。step８：品詞推定処理の結果に基づいて、現在行に関す
る対訳を作成する。step９：現在行記憶バッファの内容を直前行記憶バッフ
ァに複写する。直後行記憶バッファの内容を現在行バッ
ファに複写する。step１０：直後行記憶バッファに一行読み込む。step１１：行が終了ならば、step１２に進む。終了でな
ければ、step６に戻る。 step１２：直前行記憶バッファ内容と現在行記憶バッフ
ァ内容とを連結し、入力行を作成する。step１３：連結後の行に対して品詞推定処理を実施す
る。step１４：品詞推定処理の結果に基づいて、現在行に関
する対訳を作成する。

【００３７】実施例では直前行および直後行の全体を現
在行に連結したが、隣接する数単語のみを現在行に連結
しても同様な効果が得られる。更に、入力行が短くなる
ので処理時間が短縮されるという利点もある。以上が、
請求項６についての説明である。

【００３８】次に、請求項７について説明する。ＯＣＲ
ミスや辞書の見出し語登録不足などによって、第１言語
原文に未知語が含まれている場合がある。語の並びの統
計に基づいて品詞を推定するので、第１言語文中に未知
語が多くなると、語の並びの統計が利用できない場合が
多くなる。未知語に対しては全品詞を候補として仮定す
れば、隣接する語が未知語である場合には語の並びの統
計が確度の低いものになってしまう。したがって、間違
って訂正してしまう例も増えるので、品詞推定精度が下
がってしまう。

【００３９】そこで、入力行中に含まれる未知語の割合
が設定値を越えた場合には、品詞推定処理を実施せず、
辞書中の第１品詞を無条件に選択する方法に切り替え
る。未知語か否かの判定は当該単語が辞書の見出し語に
無ければ未知語であると容易に判断できる。また、一行
中の未知語の割合を算出するには、一行中の単語カウン
タと未知語カウンタとを用意し、一行中の単語数と未知
語数を計数すればよい。未知語率を次式で定義する。未知語率＝未知語数／全単語数これが、設定値よりも大きければ品詞推定処理を実施し
ない。これによって、未知語が多い行に対して誤って品
詞推定してしまうことを避けることができる。

【００４０】図８は、未知語の割合に基づく、品詞推定
処理の実施の判断のフローチャートである。以下、各ス
テップに従って順に説明する。step１：単語が終了ならば、step９に進む。終了でなけ
れば、step２に進む。step２：一単語読み込む。step３：単語カウンタをインクリメントする。step４：読み込んだ単語を辞書引きする。step５：辞書引きした結果、見出し語が存在しているな
らば、step６へ進む。見出し語が無いならば、step７に
進む。step６：辞書情報を格納する。step７：未知語に対してデフォルト情報を格納する。step８：未知語カウンタをインクリメントする。step９：当該行の入力が終ったので、当該行の未知語率
を算出する。step１０：未知語率が設定値よりも大きければ、品詞推
定処理は行なわないのでstep１２に進む。未知語率が設
定値よりも小さければ、品詞推定処理を行なうので ste
p１１に進む。

【００４１】次に、請求項８について説明する。第１言
語文に対応する第２言語情報の内、よく知られた内容が
頻繁に出力されるのは煩わしい。そこで、出力を抑制す
る単語のリストを予め設定しておき、このリストに該当
する単語については、その第２言語情報の出力を抑制す
る。出力を抑制する単語リストは、辞書中に出力抑制欄
を設けておき、出力を抑制したい単語については、出力
抑制欄にマークしておくことによって容易に実現でき
る。出力抑制欄を設けた辞書の例を図９に示す。

【００４２】図９において、「出力抑制」欄に〇印のあ
る見出し語については、第２言語情報表示の際、その出
力を抑制する。これによって、第２言語情報がよく知ら
れた第１言語については出力が抑制され、使用者は使用
者にとって必要な情報に集中できるので、使用感が著し
く改善される。

【００４３】次に、請求項９について説明する。複数の
用法がある見出し語の内、一つの用法は非常によく知ら
れており、その用法に関する第２言語情報は出力する必
要がないと思われる語でも、他の用法で使用されている
場合には、その第２言語情報を出力する。例えば、英単
語“book”はほとんどの場合、名詞として使われ、動詞
として使われることは比較的少ない。したがって、名詞
として使用されている場合にその第２言語情報を出力す
ることは繁雑になるが、動詞として使用されている場合
にはその第２言語情報を出力することは非常に有効であ
る。使用者は、一般的に稀な用法であるゆえに、よく知
られていない第２言語情報を見失うことがない。

【００４４】稀な用法を判断する一例には、図１０に示
すように用法毎に優先度を数値で記入しておく手段があ
る。優先度の数値が大きくなるほど、その用法を優先す
る。優先度に対して予めしきい値を設定しておき、しき
い値を越える優先度をもつ用法は、よく知られた情報で
あると判断し、その第２言語情報の出力を抑制すればよ
い。あるいは、優先度を数値化して記入するのは多大な
労力を必要とするので、図９のように、優先する順に用
法を並べておいても構わない。この場合には、「出力抑
制」欄に〇印があれば、最優先用法（第１番目）だけ、
その第２言語情報の出力を抑制する。本発明にしたがう
表示例を図１１に示す。英単語“book”が名詞用法の場
合にはその第２言語情報を表示しないが、動詞用法の場
合には第２言語情報を表示する。

【００４５】次に、請求項１０について説明する。自然
言語の機械処理は完成しておらず、その精度は十分高い
とはいえない状態である。品詞推定処理も全ての場合に
おいて正しいとは限らない。そこで、正解である確度を
付けて複数個の解を求める場合が多い。本実施例で述べ
た品詞推定処理の一例では、解の確度として品詞推定結
果の出現確率を求めている。品詞推定処理の第１解に対
応する第２言語情報のみを出力する場合、もしこの解が
誤っていれば、使用者は正しい第２言語情報を得ること
ができない。そこで、第２言語情報を品詞推定結果の確
度の順に出力すれば、使用者は複数解を確度の高い順に
得ることができるので、仮に品詞推定結果が誤っていて
も、第２言語情報を全く得られなくなることを避けるこ
とができる。全解を順に出力するだけでなく、上位解を
いくつ出力するかを予め設定しておいてもよい。図１２
は複数解を出力する一例を示す図である。

【００４６】次に、請求項１１について説明する。上述
したように自然言語処理においては、唯一解を求めるの
でなく、確度を付けて複数解を求める場合が多い。した
がって、非常に確度の高い解についてはその解だけを出
力し、あいまいな解については複数解出力すれば、不要
な解が過剰に出力されることを避けることができるの
で、使用感が著しく改善される。確度の高い解を判定す
るには、求めた複数解の確度（数値化されている場合が
多い）を比較すればよい。例えば、先の英単語“book”
の場合、 book 名詞である確度：１００ book 動詞である確度：５０と求められているとする。確度は数値が大きくなるほど
正解である可能性が高いことを表わす。確度が予め設定
してある値よりも大きければ、正解である可能性がある
と判断して、対応する第２言語情報を出力する。設定値
が３０である場合、 book 本予約すると、名詞および動詞の各々の訳語が出力される。

【００４７】確度にしきい値を設ける方法の他に、第１
解の確度と第２解の確度の比が大きければ、第１解と第
２解の確度の差が大きいわけであるから、第１解が正解
である可能性が高いと判断する方法もある。例えば、第
１解と第２解の比が１０：６以上であれば、第１解だけ
を出力するとすれば、先の例においては book 名詞である確度： book 動詞である確度＝１００：５０＝１０：５となるので、第１解のみを出力する。他にも、上位複数
解の確度の平均値を求め、平均値を越える解だけを出力
する方法もある。

【００４８】次に、請求項１２について説明する。第１
言語原文に未知語が含まれている場合がある。請求項１
〜５記載の発明では、語の並びの統計に基づいて品詞を
推定するので、第１言語文中に未知語が多くなると、語
の並びの統計が利用できない場合が多くなる。未知語に
対しては、全品詞を候補として仮定すれば、隣接する語
が未知語である場合には、語の並びの統計が確度の低い
ものになってしまう。したがって、間違って訂正してし
まう例も増えるので、品詞推定精度が下がってしまう。
また、英語における相関語句（例 "would rather … t
han 〜"：「〜するくらいなら…したほうがましだ」）な
どのように、複数単語から構成され、かつ全単語が連接
していない場合には、離れている語の並びの情報が利用
しにくく、請求項６〜１１記載の発明では、これに対応
する第２言語情報を求めることができなかった。

【００４９】連接していない複数の単語から構成される
熟語・相関語句（以下、相関語句）を扱うには、英文中
に当該相関語句が含まれているか否かを判定しなくては
ならない。そのためには、相関語句をパターン化して記
憶し、英文と照合すればよい。具体的には以下の手順で
照合処理を行う。相関語句を構成する複数単語の内、表層の定まって
いない語については（例"would rather … than 〜" に
おける "〜","…" に相当する語）、その構文的カテゴ
リを定めて（先の例では動詞あるいは動詞句）、以下の
表１のようにテンプレートを作成する（以下、熟語テン
プレート）。表１において、表層単語の間に記述されて
いるのは、識別子とその構文的カテゴリを示す。例え
ば、Ａ(名詞句)：識別子Ａ，その構文的カテゴリは名詞句を表わす。ここで使用する構文的カテゴリは、表１にも
添付しているが、文脈自由文法によって定義されてい
る。

【００５０】

【表１】

【００５１】

【００５２】入力文を先に述べたように形態素解析
する。入力文と表１の熟語テンプレートとを照合する。例
えば、入力文が "I would rather die than disgrace myself." …（４）とする。表１の「第１言語による熟語パターン」欄と入
力文とを比較照合する。表層単語の文字列照合により、熟語パターン：would rather Ａ(動詞) than Ｂ(動詞句) …（５）が合致する。このとき、Ａ（動詞句）：die …（６）Ｂ（動詞句）：disgrace myself …（７）との対応がある。既に実施済みの形態素解析により、であることがわかっている。したがって、構文カテゴリ
「動詞句」が、前記（６）および（７）の対応を満足す
ることは、「動詞句」の（文脈自由文法による）定義か
ら容易に確認できる。文脈自由文法による定義と形態素
結果との照合処理は、一般的な文脈自由文法の解析法で
実現できる。

【００５３】照合処理によって、入力文に適合す
る熟語テンプレートは、 would rather Ａ(動詞句) than Ｂ(動詞句)

【相】ＢするくらいならＡするほうがましだ …（８）であることがわかったので、これを形態素候補に追加す
る。例えば、以下の形式でまとめる。（開始位置，終了位置，第１言語表層，品詞，第２言語情報）＝(2,7, would rather die than disgrace myself.

【相】ＢするくらいならＡするほうがましだ）以上の処理の結果、相関語句の候補を従来通りの形態素
候補の形式で扱うことができる。したがって、先に述べ
た実施例の品詞多義解消処理を変更することなく、品詞
多義を解消できる。

【００５４】次に、請求項１３について説明する。請求
項１２によって、第１言語において連接していない複数
単語から構成される熟語・相関語句の第２言語情報を得
ることができるようになるが、先の方法では、相関語句
の第２言語情報は得られるが、相関語句中の不定な要素
に関する第２言語情報は得られない。先の例では、ＢするくらいならＡするほうがましだのみ表示されるので、熟語テンプレートの不定要素に対
応するＡ(動詞句)：die …（６）Ｂ(動詞句)：disgrace myself …（７）の情報は表示されない。熟語だけの第２言語情報では、
当該英文を読解するに十分であるとはいえない。

【００５５】そこで、熟語の情報に加えて、熟語テンプ
レートの不定要素に関する情報も併せて表示すれば、当
該英文を読解するに必要な第２言語情報がそろう。例え
ば、以下のように表示する。ＢするくらいならＡするほうがましだ(A：死ぬ，B：の
恥となる私自身) 熟語テンプレート中の識別子Ａ,Ｂを残し、Ａ,Ｂに対応
する第２言語情報を識別子とともに後続させる。Ａ,Ｂ
に対応する第２言語情報は、前記（３）,（４）の対応
関係および形態素解析結果によって容易に求められる。
この実施例では、第１言語における熟語パターンでの出
現順に識別子を付与し、その順に対応する第２言語情報
を表示したが、第２言語情報における識別子の出現順
に、対応する第２言語情報を表示しても構わない。これ
に従えば、ＢするくらいならＡするほうがましだ(B：の恥となる
私自身，A：死ぬ) となる。したがって、各々の情報を単に連結するだけで
あるから、高度な言語処理を必要としない。

【００５６】次に、請求項１４について説明する。請求
項１３は、高度な言語処理を必要としないが、識別子が
残ってしまうので、第２言語としての自然さを損ねてし
まう。そこで、第２言語において言語処理を行うことに
よって、熟語全体にわたって自然な第２言語情報を作成
する。これによって第２言語による不自然さは著しく改
善され、理解容易性が向上する。以下、実施例を示す。
第２言語において変形・合成するために、第２言語にお
いて、活用のある語は活用情報を辞書に追加する。 die

【動】死ぬ（ナ・五段） disgrace

【名】不名誉

【動】の恥となる（ナ・五段） myself

【名】私自身構文的カテゴリの定義において、第２言語における語順
を加える。例えば、英語においては、動詞名詞：例 disgrace myself の順であるが、日本語では、名詞動詞：例私自身の恥となるとなる。表１における構文カテゴリに対する一例を示
す。 "：" より左が第１言語の語順、右が第２言語の語
順である。

【００５７】このように、第２言語における語順と、形
態素候補の第２言語活用情報を整備することによって、
形態素候補 "would rather die than disgrace myself" の第２言語情報は、「私自身の恥となるくらいなら死ぬほうがましだ」となる。この変形・合成処理は、機械翻訳等の一般的な
文生成の手法である。このように、第２言語に関する言
語処理を実施することによって、識別子などが不要にな
るので、第２言語において自然な形式で表示することが
でき、読解性を著しく向上させる。

【００５８】次に、請求項１５について説明する。ＯＣ
Ｒミスや辞書の見出し語登録不足などによって、第１言
語原文に未知語が含まれている場合がある。前述した実
施例では、語の並びの統計に基づいて品詞を推定するの
で、第１言語文中に未知語が多くなると、語の並びの統
計が利用できない場合が多くなる。未知語に対しては全
品詞を候補として仮定すれば、隣接する語が未知語であ
る場合には、語の並びの統計が確度の低いものになって
しまう。したがって、間違って訂正してしまう例も増え
るので、品詞推定精度が下がってしまう。

【００５９】ところで、一般的に同じ構文的カテゴリに
属する単語には、特徴的な表層パターンが見受けられ
る。例えば、英語の場合、動詞（まれには形容詞）に "
ment"を語尾に連結することによって名詞化する。他に
も "able", "ish" で終る語は形容詞である。このよう
に、特徴的な表層パターンに注目することによって、当
該単語の構文的カテゴリを推定することができる。上述
したように、この実施例において、未知語には、Ａ．ＯＣＲミスに起因するものＢ．辞書の見出し語に存在しないものの２種がある。いずれの場合でも、表層パターンを検出
することができれば、当該未知語の構文的カテゴリを推
定することができる。以下、実施例を用いて説明する。
表層パターンを以下の表２のようにまとめる。

【００６０】

【表２】

【００６１】辞書引きの結果、該当する見出し語がない
場合に、当該未知語の構文的カテゴリを推定することを
試みる。未知語に対して表２の表層パターンを適用し、
合致した場合、パターンの属する構文カテゴリを未知語
の構文カテゴリと決定する。合致する表層パターンがな
ければ、全構文カテゴリを候補にする。この処理によっ
て、未知語の構文カテゴリを推定できるので、未知語に
起因する品詞推定精度の低下を抑えることができる。

【００６２】図１３は、請求項１５の表層パターンを用
いる未知語の構文カテゴリ推定処理のフローチャートで
ある。step１：まず、単語を読み込み、step２に進む。step２：次に、辞書を検索し、step３に進む。step３：辞書の見出し語に当該単語が存在していれば、
step５に進む。存在していなければ、step４に進む。step４：当該単語を構文カテゴリ推定用表層パターンと
照合し、step６に進む。 step５：辞書に基づいて、当該単語の構文カテゴリを決
定する。step６：当該単語に合致する表層パターンがあるならst
ep８に進む。ないならばstep７に進む。step７：当該単語を未知語であると判定する。step８：合致する表層パターンに対応する構文カテゴリ
を当該単語の構文カテゴリに決定する。

【００６３】次に、請求項１６について説明する。未知
語の内、辞書に見出し語が存在しないために未知語と判
定されるものがある。全くの新語は見出し語として登録
されていないのは当然であるが、基本語が容易に導出で
きる派生語も登録されていない場合も多い。このような
派生語は、基本語を表２の表層パターンに基づいて変形
させたものである。したがって、表２の表層パターンを
未知語に対して適用し、基本語に戻してから再度辞書を
検索し、基本語が存在しているならば、その第２言語情
報と表層パターン情報とを併せて表示する。表示例を図
１４に示す。英単語 "embellishment" は使用頻度の低
い語であり、簡易的な辞書には記載されていないことが
多い。したがって、見出し語数の多い辞書を使用しない
と、未知語と判定されやすい。このような難解な語で
も、その第２言語情報を不完全ながら得ることができ
る。図１４の例は、"embellish"（

【動】美しくする）が存在し、"embellishment" が存在
していなかった場合を示す。これによって、未知語の構
文カテゴリを決定できるだけでなく、未知語の第２言語
情報も不完全ながら表示することができ、当該未知語を
含んだ英文の読解を著しく容易にする。また、辞書の見
出し語数を増加させることなく、見かけの未知語（全く
の新語を除いた語）を減少させることができる。

【００６４】図１５は、請求項１６の表層パターンを用
いる、未知語の第２言語情報の合成処理のフローチャー
トである。step１：まず、単語を読み込み、step２に進む。step２：次に、辞書を検索し、step３に進む。step３：辞書の見出し語に当該単語が存在していればst
ep５に進む。存在していなければstep４に進む。step４：当該単語を構文カテゴリ推定用表層パターンと
照合し、step６に進む。 step５：辞書に基づいて、当該単語の第２言語情報を決
定する。step６：当該単語に合致する表層パターンがあるならst
ep８に進む。ないならばstep７に進む。step７：当該単語は未知語であると判定し、step12に進
む。step８：表層パターンを元に、当該単語を基本形に戻
し、step９に進む。step９：前記step８において求めた基本形を辞書検索
し、step10に進む。step10 ：辞書の見出し語に当該単語の基本形が存在して
いればstep11に進む。存在していなければstep13に進
む。step11 ：構文カテゴリ推定用表層パターンから得た第２
言語情報と、基本形を辞書検索して得た第２言語情報と
を合成する。step12 ：第２言語情報は空とする。step13 ：第２言語情報は空とする。

【００６５】請求項１６によって、未知語に関する第２
言語情報を得ることができるが、第２言語としては不自
然な、第１言語における構文カテゴリ名（図１４におけ
る

【名】）が表示されてしまう。使用者は、第２言語情報
（「美しくする」）と第１言語における構文カテゴリ（

【名】）との異なった２種類の情報を組み合わせてから
理解しなくてはならないので、円滑さを損ねてしまう。
そこで、第２言語情報を第１言語の構文カテゴリを示す
ように典型的に変形すれば、第１言語の構文カテゴリを
併わせて表示する必要がなくなる。

【００６６】以下、本発明を実施例を用いて説明する。
表２のように第１言語の構文カテゴリを表現する、第２
言語の典型的な表現をまとめておく。例えば、語尾が "
ish" である第１言語（英語）単語の構文的カテゴリは
形容詞であり、第２言語（日本語）における、それを示
す典型的な表現は「〜のような」である。この表現と、
この表現の元になった部分以外の第２言語情報とを組み
合わす。先の例の "embellishment" は、"embellish"
＋ "ment"であるから、 embellish：美しくする ment ：〜こととの第２言語情報が求められ、これらを組み合わせる
と、 embellishment：美しくすることが求められる。

【００６７】この実施例では、第２言語における言語処
理を実施するので、第２言語情報には変形情報（活用の
型など）を合わせて記憶しておかなくてはならない。こ
の第２言語での言語処理は、機械翻訳等の一般的な文生
成の手法である。なお、通常の方法によって得た第２言
語情報と、本発明によって得た第２言語情報とを区別す
るために、本発明による第２言語情報を表示する際に
は、以下のように、ハイフン（"−"），かっ
こ（"("，")"）などの記号を用いて変形の範囲を明示し
てもよい。 embellishment 美しくする−こと美しくする（こと）美しくする＋こと

【００６８】さらに、ＯＣＲ装置と印刷装置とを併合
し、２言語文書作成処理を内蔵し、コピーマシン様の装
置にまとめれば、利用者は文書を複写する感覚で２言語
文書を得ることができるので、図３のように個々の装置
を組み合わせて実現した場合と比較して、使用感が著し
く改善される。加えて、ＯＣＲ装置のスキャニング工程
と印刷装置の印刷工程とは、市販のコピーマシンの複写
工程に非常に似ており、本発明をコピーマシンに実装す
る際のコスト向上はわずかで済む。図１６に対訳複写機
の装置イメージを示す。

【００６９】本発明は以上の実施例に限定されるもので
はなく、１．第１言語の品詞を推定する手段２．第１言語文と第２言語情報を対応させて、表示ある
いは印刷出力する手段３．第１言語の文書の書式を記憶する手段４．第１言語の文書の書式に基づいて、第１言語文と第
２言語の情報とを表示あるいは印刷出力する手段５．ＯＣＲ（光学的文字読取装置）と印刷装置を併合
し、コピーマシン様の装置にまとめ、コピーマシンの使
用感をまねることによって、利用者に繁雑な操作を強い
ることなく、第１言語の文書の第２言語による読解を助
ける機能を有する機械翻訳装置を提供することに本質が
ある。

【００７０】また、６．第１言語文を入力するための入力手段７．第１言語文（原文）記憶手段８．言語解析に必要な知識を記憶している解析辞書９．第１言語文（原文）及び、その翻訳結果である第２
言語文を表示するための表示手段１０．第１言語の品詞を推定する手段１１．前記１０の推定手段によって推定された品詞にし
たがって、解析辞書から第１言語に対応する第２言語情
報（訳語）を抽出する手段を備えた言語処理系において、１２．単語間の連接に関する情報を用いて多品詞語の品
詞を推定する手段１３．現在行の他に、直前行および直後行を記憶する手
段１４．前記１３で記憶した直前行および直後行を現在行
に連結する手段１５．前記１４で作成した連結後の行に対して品詞を推
定する手段１６．第１言語文に含まれる未知語を判定する手段１７．前記１６で判定した未知語の数を計数する手段１８．前記１７の計数結果に基づいて品詞推定処理を実
施するか否かを判断する手段１９．第１言語文において基本的な語を判定する手段２０．前記１９の判定結果に基づいて第２言語情報の出
力を抑制する手段２１．品詞推定した品詞の辞書中の優先度を判定する手
段２２．前記２１の判定手段に基づいて第２言語情報の出
力を抑制する手段２３．品詞推定によって、品詞の可能性の順位を求める
手段２４．前記２３の順位にしたがって、上位複数個の品詞
候補の対応する第２言語情報を出力する手段を備えることによって、使用者にとって必要な第２言語
情報だけを高精度に出力する機能を有する機械翻訳装置
を提供することに本質がある。

【００７１】また、２５．第１言語文を入力するための入力手段２６．第１言語文（原文）記憶手段２７．言語解析に必要な知識を記憶している解析辞書２８．第１言語文（原文）及びその翻訳結果である第２
言語文を表示するための表示手段２９．第１言語の品詞を推定する手段３０．前記２９の推定手段によって推定された品詞にし
たがって、解析辞書から第１言語に対応する第２言語情
報（訳語）を抽出する手段を備えた言語処理系におい
て、３１．単語間の連接に関する情報を用いて多品詞語の品
詞を推定する手段３２．第１言語の熟語の構文型を記述するところの熟語
テンプレートを対応する第２言語情報（訳語，品詞等）
を併せて記憶する手段３３．前記３２で記憶したテンプレートと第１言語文と
を照合する手段３４．前記３３の照合手段において、熟語テンプレート
中の要素に対応する第１言語文中の単語（語句）を抽出
する手段３５．前記３３の照合手段と前記３４の抽出手段の実施
結果に基づいて熟語テンプレートに対応する第２言語情
報を表示する手段を持つことを特徴とする機械翻訳装
置。３６．熟語テンプレートの第２言語情報と、当該テンプ
レート中の要素に合致した第１言語文中の単語（語句）
に対応する第２言語情報とを分離して出力する手段を持
つことを特徴とする機械翻訳装置。３７．熟語テンプレートの第２言語情報と当該テンプレ
ート中の要素に合致した第１言語文中の単語（語句）に
対応する第２言語情報とを基に変形・合成し、一つの第
２言語語句として出力する手段３８．第１言語文中の未知語を検出する手段３９．第１言語の語の変形パターンと変形後の構文的カ
テゴリ（品詞等）を記憶する手段４０．前記３７の検出手段によって検出された未知語に
対して、１４の変形パターンを適用し、変形前の語を求
める手段４１．前記４０で求めた変形前の語を第１言語解析辞書
において検索する手段４２．前記４１の検索手段の結果にしたがって変形前の
第１言語単語の第２言語情報と変形情報とを併せて表示
する手段を持つことを特徴とする機械翻訳装置。４３．前記４１の検索手段の結果にしたがって、変形前
の第１言語単語の第２言語情報を、第１言語文における
変形情報にしたがって変形した後、表示する手段を備え
ることによって、使用者にとって必要な第２言語情報だ
けを高精度に出力する機能を有する機械翻訳装置を提供
することに本質がある。

【００７２】

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。（１）請求項１，２においては、第１言語文を理解する
のに必要な第２言語の情報（品詞、訳語など）だけを選
択して利用者に提示することができ、第１言語文の読解
に要する負担を著しく軽減することができる。（２）請求項３においては、入力速度が著しく向上し、
人手を煩わすことがないために、利用者は出力結果の理
解に専念することができるので、第１言語文を読解する
ための負担が著しく軽減される。（３）請求項４においては、視覚的に２言語間の対応が
とれるよう、第２言語の情報を第１言語のルビであるが
ごとく出力すれば、利用者は２言語を容易に照合するこ
とができるので、読解にかかる負担が著しく軽減され
る。（４）請求項５においては、第１言語の文書の図表や段
組などの書式情報にのっとって、本発明による２言語文
書を出力すれば、利用者は、元原稿を参照する必要がな
いので、本発明による文書だけに専念することができ、
読解にかかる負担が著しく軽減される。（５）請求項６においては、行の両端付近でも連接制約
を利用できるようになるので品詞推定精度が低下するこ
とを避けることができる。（６）請求項７においては、未知語の多い行に対して品
詞推定処理を実施することを避けることができるので、
品詞推定精度が下がることを避けることができる。（７）請求項８においては、既知の情報の出力が抑制さ
れるので、使用者は未知の情報の理解に専念でき、使用
感が著しく改善される。（８）請求項９においては、稀な用法に関する第２言語
情報が出力されるので、使用者の理解を助けることがで
きる。（９）請求項１０においては、複数解を優先順位につけ
て出力するので、品詞推定処理を誤っている場合でも、
使用者は適切な解を自ら選択して読解を続けることがで
きる。（１０）請求項１１においては、あいまいな解に限って
解を複数個出力するので、使用者は正解である可能性の
高い解については不要な情報を見ることなく、あいまい
な解については複数から適切な解を選択することがで
き、読解にかかる負担を著しく軽減することができる。（１１）請求項１２においては、連接していない複数単
語から構成される第１言語の熟語・相関語句の第２言語
情報を得ることができるので、第１言語文の読解を著し
く容易にする。（１２）請求項１３においては、連接していない複数単
語から構成される第１言語の熟語相関語句の第２言語情
報を、第２言語において言語処理せずに出力するので、
第２言語に関する言語処理を具備する必要がない。（１３）請求項１４においては、連接していない複数単
語から構成される第１言語の熟語・相関語句の第２言語
情報を、第２言語において言語処理することによって変
形・合成できるので、第２言語による読解容易性を著し
く向上させる。（１４）請求項１５においては、未知語に対する構文的
カテゴリ候補を限定することができるので、隣接する単
語の品詞推定精度を下げることを避けられる。（１５）請求項１６においては、未知語に対する構文的
カテゴリ候補を限定することができ、かつ当該未知語の
第２言語情報を第２言語としては不自然ながらも出力す
ることができるので、第２言語に関する言語処理を具備
することなく、第２言語による読解容易性を著しく向上
させる。（１６）請求項１７においては、未知語に対する構文的
カテゴリ候補を限定することができ、かつ当該未知語の
第２言語情報を第２情報として自然な形態で出力するこ
とができるので、第２言語による読解容易性を著しく向
上させる。

【図面の簡単な説明】

【図１】本発明による機械翻訳装置の一実施例を説明
するための構成図である。

【図２】本発明による対訳文書作成処理のブロック図
である。

【図３】本発明による対訳文書作成処理部の構成図で
ある。

【図４】本発明による最大出現確率品詞列選択手順を
示す図である。

【図５】本発明による最大出現確率品詞列選択手順の
フローチャートを示す図である。

【図６】本発明による解候補更新処理のフローチャー
トを示す図である。

【図７】本発明による直前行と直後行とを現在行に連
結する品詞推定処理のフローチャートを示す図である。

【図８】本発明による未知語率に基づく品詞推定処理
実施の判断のフローチャートを示す図である。

【図９】本発明による出力抑制欄のある辞書の例を示
す図である。

【図１０】本発明による品詞優先度のある辞書の例を
示す図である。

【図１１】本発明による頻出用法に対する出力抑制の
一例を示す図である。

【図１２】本発明による複数解を出力する一例を示す
図である。

【図１３】本発明による表層パターンを用いる未知語
の構文カテゴリ推定処理のフローチャートである。

【図１４】本発明による未知語の第２言語情報の表示
例である。

【図１５】本発明による表層パターンを用いる未知語
の第２言語情報の合成処理のフローチャートである。

【図１６】本発明による対訳複写機の装置のイメージ
を示す図である。

【符号の説明】

１…表示装置、２…表示制御部、３…言語処理部、４…
入力制御部、５…入力装置、２１…第１言語の入力手
段、２２…形態素解析手段、２３…解析辞書、２４…品
詞推定手段、２５…品詞連接確率表、２６…出力形態決
定手段、２７…出力手段。

Claims

【特許請求の範囲】

【請求項１】少なくとも、対象言語文を入力するため
の入力手段と、該入力手段により入力された対象言語文
を記憶する記憶手段と、言語解析に必要な知識を記憶し
ている解析辞書と、前記対象言語文及びその翻訳結果で
ある目的言語文を表示するための表示手段とを備えた言
語処理系において、対象言語の品詞を推定する品詞推定
手段と、該品詞推定手段によって推定された品詞にした
がって、前記解析辞書から対象言語に対応する目的言語
の情報を抽出する抽出手段とから成ることを特徴とする
機械翻訳装置。
【請求項２】前記品詞推定手段が、対象言語の品詞の
連接確率を記憶する第１の記憶手段と、該連接確率に基
づいて、対象言語文の各単語の品詞を決定する決定手段
とを有することを特徴とする請求項１記載の機械翻訳装
置。
【請求項３】前記入力手段が光学的文字読取装置手段
を使用するものであることを特徴とする請求項１記載の
機械翻訳装置。
【請求項４】前記表示手段が、対象言語文と目的言語
情報を対応させて、表示あるいは印刷出力する出力手段
を有することを特徴とする請求項１記載の機械翻訳装
置。
【請求項５】前記出力手段が、対象言語の文書の書式
を記憶する第２の記憶手段と、対象言語文書の書式に基
づいて、対象言語文と目的言語の情報とを表示あるいは
印刷出力する出力手段を有することを特徴とする請求項
４記載の機械翻訳装置。
【請求項６】少なくとも、対象言語文を入力するため
の入力手段と、該入力手段により入力された対象言語文
を記憶する記憶手段と、言語解析に必要な知識を記憶し
ている解析辞書と、前記対象言語文及びその翻訳結果で
ある目的言語文を表示するための表示手段と、対象言語
の品詞を推定する品詞推定手段と、該品詞推定手段によ
って推定された品詞にしたがって、前記解析辞書から対
象言語に対応する目的言語の情報を抽出する抽出手段と
を備えた言語処理系において、単語間の連接に関する情
報を用いて多品詞語の品詞を推定する品詞推定手段と、
現在行の他に、直前行および直後行を記憶する記憶手段
と、該記憶手段で記憶した直前行および直後行を現在行
に連結する連結手段と、該連結手段で作成した連結後の
行に対して品詞を推定する品詞推定手段とから成ること
を特徴とする機械翻訳装置。
【請求項７】前記対象言語文に含まれる未知語を判定
する判定手段と、該判定手段で判定した未知語の数を計
数する計数手段と、該計数手段の計数結果に基づいて品
詞推定処理を実施するか否かを判断する判断手段から成
ることを特徴とする請求項６記載の機械翻訳装置。
【請求項８】対象言語文において基本的な語を判定す
る判定手段と、該判定手段の判定結果に基づいて目的言
語情報の出力を抑制する抑制手段とから成ることを特徴
とする請求項６記載の機械翻訳装置。
【請求項９】品詞推定した品詞の辞書中の優先度を判
定する判定手段と、該判定手段に基づいて目的言語情報
の出力を抑制する抑制手段とから成ることを特徴とする
請求項６記載の機械翻訳装置。
【請求項１０】品詞推定によって品詞の可能性の順位
を求める認定手段と、該認定手段による順位にしたがっ
て、上位複数個の品詞候補の対応する第２言語情報を出
力する出力手段とから成ることを特徴とする請求項６記
載の機械翻訳装置。
【請求項１１】品詞推定によって品詞の複数の可能性
を求める認定手段と、該認定手段の可能性の程度を評価
する評価手段と、該評価の可能性の程度を複数個用いて
第１解の確度を判定する判定手段と、該判定手段の判定
結果に基づいて、出力する解の個数を変更する変更手段
とから成ることを特徴とする請求項６記載の機械翻訳装
置。
【請求項１２】少なくとも、対象言語文を入力するた
めの入力手段と、該入力手段により入力された対象言語
文を記憶する記憶手段と、言語解析に必要な知識を記憶
している解析辞書と、前記対象言語文及びその翻訳結果
である目的言語文を表示するための表示手段と、対象言
語の品詞を推定する品詞推定手段と、該品詞推定手段に
よって推定された品詞にしたがって、前記解析辞書から
対象言語に対応する目的言語の情報を抽出する抽出手段
とを備えた言語処理系において、単語間の連接に関する
情報を用いて多品詞語の品詞を推定する品詞推定手段
と、対象言語の熟語の構文型を記述するところの熟語テ
ンプレートを、対応する目的言語情報を併せて記憶する
記憶手段と、記憶されたテンプレートと対象言語文とを
照合する照合手段と、該照合手段において熟語テンプレ
ート中の要素に対応する対象言語文中の単語あるいは語
句を抽出する抽出手段と、前記照合手段と前記抽出手段
の実施結果に基づいて、熟語テンプレートに対応する目
的言語情報を表示する表示手段とを有することを特徴と
する機械翻訳装置。
【請求項１３】熟語テンプレートの目的言語情報と、
当該テンプレート中の要素に合致した対象言語文中の単
語あるいは語句に対応する目的言語情報とを分離して出
力する出力手段とを有することを特徴とする請求項１２
記載の機械翻訳装置。
【請求項１４】熟語テンプレートの目的言語情報と、
当該テンプレート中の要素に合致した対象言語文中の単
語あるいは語句に対応する目的言語情報とを基に変形・
合成し、一つの目的言語語句として出力する出力手段と
を有することを特徴とする請求項１２記載の機械翻訳装
置。
【請求項１５】対象言語文中の未知語を検出する検出
手段と、対象言語の語の変形パターンと変形後の構文的
カテゴリを記憶する記憶手段と、前記検出手段で検出さ
れた未知語に対して、前記変形パターンを適用し、変形
前の語を求める認定手段と、該認定手段で求めた変形前
の語を第１言語解析辞書において検索する検索手段と、
該検索手段の結果にしたがって、未知語の構文的カテゴ
リを決定する決定手段とを有することを特徴とする請求
項１２記載の機械翻訳装置。
【請求項１６】前記検索手段の結果にしたがって、変
形前の対象言語単語の目的言語情報と、変形情報とを併
せて表示する表示手段とを有することを特徴とする請求
項１５記載の機械翻訳装置。
【請求項１７】前記検索手段の結果にしたがって、変
形前の対象言語単語の目的言語情報を対象言語文におけ
る変形情報で変形した後に表示する表示手段とを有する
ことを特徴とする請求項１６記載の機械翻訳装置。