JPH06243162A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH06243162A
JPH06243162A JP5070870A JP7087093A JPH06243162A JP H06243162 A JPH06243162 A JP H06243162A JP 5070870 A JP5070870 A JP 5070870A JP 7087093 A JP7087093 A JP 7087093A JP H06243162 A JPH06243162 A JP H06243162A
Authority
JP
Japan
Prior art keywords
speech
target language
language
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5070870A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Hideo Ito
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5070870A priority Critical patent/JPH06243162A/ja
Publication of JPH06243162A publication Critical patent/JPH06243162A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 品詞や訳語などの目的言語の情報だけを選択
して提示し、対象言語の読解を容易にする。 【構成】 入力文書31はOCR32などによって入力
される。その際、文書の内容だけでなく、文書の書式に
関する情報(フォント、段組みなど)も同時に記憶す
る。入力された文書は、形態素解析処理によって形態素
に分割され、辞書引きされる。分割された形態素の品詞
に品詞連接確率に基づいて品詞推定処理を施し、各形態
素に対して最適な品詞を決定する。決定された最適品詞
にしたがって第2言語の情報(訳語など)を検索する。
第1言語文と第2言語の情報とを対応させ、先に記憶し
ておいた書式情報にしたがって出力形態を整形する。最
後に、プリンタなどで対訳文書を出力する。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、機械翻訳装置に関し、より詳細
には、対象言語文に対応する目的言語情報を、対象言語
文書の書式にしたがって表示あるいは印刷する機能を有
する機械翻訳装置に関する。
【0002】
【従来技術】従来、第1言語(対象言語)文からそれに
対応する第2言語(目的言語)情報を得る手段として
は、例えば、特開平1−234977号公報に「イメー
ジスキャナ付き電子辞書」が提案されている。この公報
のものは、入力部としてイメージスキャナーを備え、読
み取った第1言語を電子化された辞書(以下、電子辞
書)によって第2言語に変換する方法である。この方法
では、読み取った第1言語を原形(標準形)に変形し、
電子辞書を検索することによって、第2言語情報を出力
するものである。
【0003】しかしながら、この方法は、読み取った電
子辞書から第1言語を検索し、当該箇所に記述している
情報を、単に出力するものである。一つの言語単位
(文、句、単語)は、一般的に複数の解釈が可能であ
り、電子辞書にも一つの見出し項目に複数の解釈が記載
されている場合が多い。したがって、前述した特開平1
−234977号公報に基づく方法では、複数出力され
た第2言語情報を利用者が随時選択しなければならな
い。この作業は、第1言語によって記述された内容を第
2言語によって理解する際には、多大な負担となる。他
にも従来技術としては、特開平2−138660号公報
に「訳語表示装置」があるが、前述した特開平1−23
4977号公報と同様に、入力された第1言語の項目を
電子辞書から検索し、記載されている第2言語の情報を
単に出力するものであり、第1言語文の理解に適した第
2言語の情報を選択するものではない。
【0004】OCRミスや辞書の見出し語登録不足など
によって、第1言語原文に未知語が含まれている場合が
ある。語の並びの統計に基づいて品詞を推定するので、
第1言語文中に未知語が多くなると、語の並びの統計が
利用できない場合が多くなる。未知語に対しては全品詞
を候補として仮定すれば、隣接する語が未知語である場
合には語の並びの統計が確度の低いものになってしま
う。したがって、間違って訂正してしまう例も増えるの
で、品詞推定精度が下がってしまう。また、複数の文の
集合である文書を一括して翻訳するにあたり、一文単位
に分割してから言語的な処理を実施するのが通常であ
る。しかしながら、一文単位に自動分割することは難し
いので、先に提案した特願平4−121277号では、
物理的な行単位にしか分割していない。該特願平4−1
21277号では、構文制約を局所的に適用して品詞推
定するので、処理単位が一文全体でなくても致命的な問
題にはならない。しかし、物理行の両端の単語は、本来
ならば隣接している単語が前行または次行に分離してい
るので、連接情報が利用できない。そのために、物理行
の両端付近の単語の品詞推定精度が下がることがあっ
た。
【0005】
【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、第1言語の品詞の連接確率を記憶し、連接確率に
基づいて、第1言語文の各単語の品詞を決定し、決定さ
れた品詞にしたがって電子辞書から第1言語に対応する
第2言語情報(訳語)を検索し、第1言語の文書の書式
にのっとって表示あるいは印刷出力する機能を有する機
械翻訳装置を提供することを目的としてなされたもので
ある。
【0006】
【構成】本発明は、上記目的を達成するために、(1)
少なくとも、対象言語文を入力するための入力手段と、
該入力手段により入力された対象言語文を記憶する記憶
手段と、言語解析に必要な知識を記憶している解析辞書
と、前記対象言語文及びその翻訳結果である目的言語文
を表示するための表示手段とを備えた言語処理系におい
て、対象言語の品詞を推定する品詞推定手段と、該品詞
推定手段によって推定された品詞にしたがって、前記解
析辞書から対象言語に対応する目的言語の情報(訳語)
を抽出する抽出手段とから成ること、更には、(2)前
記品詞推定手段が、対象言語の品詞の連接確率を記憶す
る第1の記憶手段と、該連接確率に基づいて、対象言語
文の各単語の品詞を決定する決定手段とを有すること、
更には、(3)前記入力手段が光学的文字読取装置手段
を使用するものであること、更には、(4)前記表示手
段が、対象言語文と目的言語情報を対応させて、表示あ
るいは印刷出力する出力手段を有すること、更には、
(5)前記(4)において、前記出力手段が、対象言語
の文書の書式を記憶する第2の記憶手段と、対象言語の
文書の書式に基づいて、対象言語文と目的言語の情報と
を表示あるいは印刷出力する出力手段を有すること、或
いは、(6)少なくとも、対象言語文を入力するための
入力手段と、該入力手段により入力された対象言語文を
記憶する記憶手段と、言語解析に必要な知識を記憶して
いる解析辞書と、前記対象言語文及びその翻訳結果であ
る目的言語文を表示するための表示手段と、対象言語の
品詞を推定する品詞推定手段と、該品詞推定手段によっ
て推定された品詞にしたがって、前記解析辞書から対象
言語に対応する目的言語の情報を抽出する抽出手段とを
備えた言語処理系において、単語間の連接に関する情報
を用いて多品詞語の品詞を推定する品詞推定手段と、現
在行の他に、直前行および直後行を記憶する記憶手段
と、該記憶手段で記憶した直前行および直後行を現在行
に連結する連結手段と、該連結手段で作成した連結後の
行に対して品詞を推定する品詞推定手段とから成るこ
と、更には、(7)前記(6)において、前記対象言語
文に含まれる未知語を判定する判定手段と、該判定手段
で判定した未知語の数を計数する計数手段と、該計数手
段の計数結果に基づいて品詞推定処理を実施するか否か
を判断する判断手段から成ること、更には、(8)前記
(6)において、対象言語文において基本的な語を判定
する判定手段と、該判定手段の判定結果に基づいて目的
言語情報の出力を抑制する抑制手段とから成ること、更
には、(9)前記(6)において、品詞推定した品詞の
辞書中の優先度を判定する判定手段と、該判定手段に基
づいて目的言語情報の出力を抑制する抑制手段とから成
ること、更には、(10)前記(6)において、品詞推
定によって品詞の可能性の順位を求める認定手段と、該
認定手段による順位にしたがって、上位複数個の品詞候
補の対応する第2言語情報を出力する出力手段とから成
ること、更には、(11)前記(6)において、品詞推
定によって品詞の複数の可能性を求める認定手段と、該
認定手段の可能性の程度を評価する評価手段と、該評価
の可能性の程度を複数個用いて第1解の確度を判定する
判定手段と、該判定手段の判定結果に基づいて、出力す
る解の個数を変更する変更手段とから成ること、或い
は、(12)少なくとも、対象言語文を入力するための
入力手段と、該入力手段により入力された対象言語文を
記憶する記憶手段と、言語解析に必要な知識を記憶して
いる解析辞書と、前記対象言語文及びその翻訳結果であ
る目的言語文を表示するための表示手段と、対象言語の
品詞を推定する品詞推定手段と、該品詞推定手段によっ
て推定された品詞にしたがって、前記解析辞書から対象
言語に対応する目的言語の情報を抽出する抽出手段とを
備えた言語処理系において、単語間の連接に関する情報
を用いて多品詞語の品詞を推定する品詞推定手段と、対
象言語の熟語の構文型を記述するところの熟語テンプレ
ートを、対応する目的言語情報(訳語,品詞等)を併せ
て記憶する記憶手段と、記憶されたテンプレートと対象
言語文とを照合する照合手段と、該照合手段において熟
語テンプレート中の要素に対応する対象言語文中の単語
あるいは語句を抽出する抽出手段と、前記照合手段と前
記抽出手段の実施結果に基づいて、熟語テンプレートに
対応する目的言語情報を表示する表示手段とを有するこ
と、更には、(13)前記(12)において、熟語テン
プレートの目的言語情報と、当該テンプレート中の要素
に合致した対象言語文中の単語(語句)に対応する目的
言語情報とを分離して出力する出力手段とを有するこ
と、更には、(14)前記(12)において、熟語テン
プレートの目的言語情報と、当該テンプレート中の要素
に合致した対象言語文中の単語あるいは語句に対応する
目的言語情報とを基に変形・合成し、一つの目的言語語
句として出力する出力手段とを有すること、更には、
(15)前記(12)において、対象言語文中の未知語
を検出する検出手段と、対象言語の語の変形パターンと
変形後の構文的カテゴリ(品詞等)を記憶する記憶手段
と、前記検出手段で検出された未知語に対して、前記変
形パターンを適用し、変形前の語を求める認定手段と、
該認定手段で求めた変形前の語を第1言語解析辞書にお
いて検索する検索手段と、該検索手段の結果にしたがっ
て、未知語の構文的カテゴリを決定する決定手段とを有
すること、更には、(16)前記(15)において、前
記検索手段の結果にしたがって、変形前の対象言語単語
の目的言語情報と、変形情報とを併せて表示する表示手
段とを有すること、更には、(17)前記(16)にお
いて、前記検索手段の結果にしたがって、変形前の対象
言語単語の目的言語情報を対象言語文における変形情報
で変形した後に表示する表示手段とを有することを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。
【0007】図1は、本発明による適訳語選択機能を有
する機械翻訳装置の一実施例を説明するための構成図
で、図中、1は表示装置、2は表示制御部、3は言語処
理部、4は入力制御部、5は入力装置である。入力装置
5により入力された第1言語(対象言語)は入力制御部
4を介して言語処理部3で第2言語(目的言語)に翻訳
される。翻訳された第2言語は、表示制御部2を介して
表示装置1で表示される。
【0008】図2は、本発明による対訳文書作成機能を
有する機械翻訳装置における対訳文書作成処理のブロッ
ク図で、図中、21はキーボード、OCR(Optical Ch
aracter Reader;光学式文字読取装置)などの第1言語
の入力手段、22は第1言語文を形態素に分割する形態
素解析手段、23は形態素解析で使用する言語情報が記
載されている解析辞書、24は第1言語文に対する最適
品詞を求める品詞推定手段、25は品詞推定手段が使用
する品詞連接確率表、26は第1言語と第2言語の情報
とを対応させた出力を作成する出力形態決定手段、27
は出力形態決定手段によって作成された内容に従って出
力装置に出力する手段である。
【0009】第1言語文を入力するための入力手段(O
CRなど)21により入力された第1言語文(原文)は
記憶手段により記憶される。言語解析に必要な知識を記
憶している解析辞書23を利用して形態素解析手段22
により形態素解析される。第1言語文(原文)及びその
翻訳結果である第2言語文は表示手段により表示され
る。第1言語の品詞の連接確率は連接確率表25として
記憶される。上記5の連接確率に基づいて、第1言語文
の各単語の品詞を品詞推定手段24により推定し、該連
接手段によって推定された品詞にしたがって、解析辞書
23から第1言語に対応する第2言語の情報(訳語)を
抽出し、また、第1言語文と第2言語の情報を対応させ
て、出力形態を決定手段26により決定し、出力手段2
7により表示あるいは印刷出力する。第1言語の文書の
書式に基づいて、第1言語文と第2言語の情報を出力手
段27により表示あるいは印刷出力する。これによっ
て、不必要な情報を提示されることなく、第1言語文を
第2言語によって円滑に理解することができる。
【0010】図3は、対訳文書作成処理部の構成図で、
図中、31は第1言語で記述された入力文書の例、32
はOCR、33は対訳作成処理、34は印刷装置、35
が第2言語の情報を付与された出力文書例である。入力
文書31はOCR装置32などによって入力される。そ
の際、文書の内容だけでなく、文書の書式に関する情報
(フォント、段組みなど)も同時に記憶する。入力され
た文書は、形態素解析処理によって形態素に分割され、
辞書引きされる。分割された形態素の品詞に品詞連接確
率に基づいて品詞推定処理を施し、各形態素に対して最
適な品詞を決定する。決定された最適品詞にしたがって
第2言語の情報(訳語など)を検索する。そして第1言
語文と第2言語の情報とを対応させ、先に記憶しておい
た書式情報にしたがって出力形態を整形する。最後に、
プリンタなどで対訳文書を出力する。図では、第1言語
文に対する対訳は、第1言語文の下で破線で示した。訳
語を付与する場合には、第1言語の単語の下にその第2
言語訳を出力すれば、2言語間対応が視覚的にとりやす
い。
【0011】以下、本発明を構成する各手段について説
明する。以下、特にことわらない限り英日機械翻訳を例
に説明するが、他の2言語間においても同様に成立する
ものである。 (1)入力手段 第1言語の文書を、キーボードによるタイプ入力、スキ
ャナによるOCR入力、などによって機械翻訳システム
に入力する。第1言語の文書の書式情報には、文書の大
きさ、使用フォント、文書中の各単語の位置、段組み
数、などがあり、文書内容と併せて記憶する。
【0012】(2)形態素解析手段 第1言語文を、形態素(単語に相当)に分割する。英語
のように単語と単語との間に空白をいれて別ち書きする
言語では、活用変化表によって原形(標準形)に戻し、
辞書引きして、活用、品詞、訳語などを求める。日本語
のようにべた書きされる言語の場合、最長一致法、最小
文節法などの規別に基づいて、最適な単語範囲が求めら
れる。
【0013】(3)品詞推定手段 品詞タグの付けられた第1言語コーパスから品詞の連接
確率を推定し、その連接確率に基づいて翻訳対象である
第1言語文のとり得る品詞列の出現確率を算出し、その
内で確率が最大である品詞列を選択する。すなわち、言
語の確率モデルとして以下を仮定する。品詞列T=t1,
2,t3,…,tnが出現する確率P(T)は
【0014】
【数1】
【0015】で示される。ここでP(ti|t1,t2,t3,
…,ti-1)は、品詞列t1,t2,t3,…,ti-1が出現した
後にtiが連接する確率である。しかし、実際にP(ti
|t1,t2,t3,…,ti-1)を求めることは困難である。
例えば、品詞種数をVとすれば、t1,t2,t3,…,ti-1
の異なる品詞列数はVの(i-1)乗となり、これらの各
々について確率を求めておくことは不可能である(V=
100とすれば、V10=1020通りになる)。連接確率
P(ti|t1,t2,t3,…,ti-1)は近似的に求めざるを
得ない。
【0016】そこで品詞の連接に影響する品詞を直前2
品詞までに制限するtrigramモデル P(ti|t1,t2,t3,…,ti-1)=P(ti|ti-2,t
i-1) が使用する。trigramモデルを仮定すれば、品詞列Tの
出現確率は
【0017】
【数2】
【0018】で近似できる。連接確率P(ti|ti-2,t
i-1)は、品詞タグの付けられた英文コーパスから、次
式のように二つ組(bigram)と三つ組(trigram)の出
現頻度C(ti-2,ti-1)とC(ti-2,ti-1,ti)の比
によって推定できる。
【0019】
【数3】
【0020】多品詞語は、等確率に各品詞が使用される
わけではなく、各名詞が使用される確率には偏りがあ
る。この情報を併用すれば、更に精度よく品詞列出現確
率を推定することができる。(3.3)式は、品詞列の
出現確率であり単語列の出現確率ではない。機械翻訳で
は入力として既に単語列が与えられているので、(3.
3)式を「単語列W=w1,w2,…,wnかつ、その品詞列
がTである確率」に拡張する。そのために、単語内相対
品詞出現確率 P(ti・wi):単語wiが出現し、その品詞がtiであ
る同時確率 を求める。P(ti・wi)は、タグ付きコーパスから次
式によって容易に求めることができる。
【0021】
【数4】
【0022】対数確率を用いれば、乗算部分が加算にな
るので確率計算を高速化できる。
【0023】第1言語の各単語に最適な品詞を割り当て
るには、(3.3)式あるいは(3.5)式において最大
確率である品詞列Tを品詞候補の集合(形態素解析処理
結果)から選択しなければならない。形態素解析後の結
果は、 単語の範囲(複数単語が連結する場合あり) 単語原形 その範囲の品詞 ペナルティ などが一組となった形態素の集合である。この集合から
Left-to-Rightに形態素を選択していく。基本的にはビ
ームサーチ・アルゴリズムである。その際、一つの形態
素が複数単語から構成される場合があるために、形態素
数に同期して処理を進めるのではなく、形態素の終端点
に同期して処理を進めねばらない。
【0024】図4(a)〜(c)は、最大出現確率品詞
列選択手順を示す図で、図(a)は形態素解析結果、図
(b)は選択処理の進行、図(c)は解の管理方法を各
々示している。選択アルゴリズムをまとめると次のよう
になる。 文頭から始まる形態素を記憶テーブルにストアする。
ビーム幅を越える場合には上位ビーム幅個をストアす
る。 形態素終端点i=1,2,3,…,Iまでを実行す
る。 ビーム幅w=1,2,3,…,Wまでを実行する。 終端点iに連接し得る形態素を探し、品詞列パスPath
(i,w)と連結後の出現確率を求める。
【0025】連結後の終端位置の記憶テーブルを次の
要領で更新する。 ○もし、記憶テーブルに余裕があれば(ビーム幅未満な
らば)、で求めた連結後のパスの履歴と出現確率をス
トアする。 ○もし、記憶テーブルに余裕がなければ(ビーム幅が満
たされているなら)、記憶テーブルに記憶されている品
詞列パスの内で出現確率最小のパスを選ぶ。それがで
求めた出現確率より ★低ければ、代わりにで求めた連結後のパス履歴と出
現確率をストアする。 ★高ければ、で求めたパスを棄却する。 文末であるところの、終端位置i=Iの記憶テーブル
に保持されている品詞列パスを出現確率でソートする。
【0026】図5は、最大出現確率品詞列選択手順のフ
ローチャートを示す図である。以下、各ステップに従っ
て順に説明する。step1 ;文頭から始まる形態素を初期化済みの記憶テー
ブルにビーム幅個をストアする。ビーム幅を越える場合
には出現確率上位ビーム幅個をストアする。step2へ進
む。step2 ;位置カウンタを、step1でストアされた形態素
の内、最も文頭に近い終端位置(すなわち最も短い形態
素の終端位置)にセットする。step3へ進む。step3 ;位置カウンタが文尾の位置であれば、step13
へ進む。文尾に達していなければstep4へ進む。step4 ;ビーム幅カウンタをクリアする。step5へ進
む。step5 ;ビーム幅を越えたか、あるいは現ビーム位置に
解候補が無ければstep12へ進む。ビーム幅未満で、か
つ現ビーム位置に解候補があればstep6へ進む。 step6 ;現解候補に、連結可能な形態素を抽出する。st
ep7へ進む。
【0027】step7;連結可能な形態素が無ければstep
11へ進む。あれば、step8へ進む。 step8 ;連結可能な形態素を一つ取り出す。step9へ進
む。step9 ;現解候補と取り出した形態素を連結し、連結後
の解候補の出現確率を(3.3)式あるいは(3.5)式
によって算出する。step10へ進む。step10 ;連結後の解候補を解候補更新処理に入力す
る。step7へ進む。step11 ;ビーム幅カウンタをインクリメントする。st
ep5へ進む。step12 ;位置カウンタをインクリメントする。step3
へ進む。step13 ;文尾位置に記憶されている解候補を出現確率
の高い順にソートする。第1位の解候補が最適品詞列で
ある。
【0028】図6は、解候補更新処理のフローチャート
を示す図である。以下、各ステップに従って順に説明す
る。step10-1 ;連結後の解候補の終端位置の記憶テーブル
がビーム幅未満であればstep10-2へ進む。ビーム幅が
満たされていればstep10-4へ進む。step10-2 ;連結後の解候補を終端位置の記憶テーブル
にストアする。step10-3へ進む。step10-3 ;連結後の解候補を終端位置の記憶テーブル
のビーム幅カウンタをインクリメントする。step11へ
進む。step10-4 ;連結後の終端位置の記憶テーブルにストア
されている解候補の中で、最も低出現確率である解候補
を求める。step10-5へ進む。step10-5 ;step10-4で求めた出現確率が、連結後の
解候補の出現確率より低ければ、連結後の解候補を、st
ep10-4で求めた解候補の代わりにストアし、step11
へ進む。高ければ、更新処理は行なわずstep11へ進
む。
【0029】(4)出力形態決定手段 品詞推定処理によって第1言語の単語の品詞が推定さ
れ、その品詞に対応した第2言語の情報を辞書から得ら
れる。本処理では、第1言語文と対応する第2言語の情
報を第1言語の文書の書式に基づいて表示あるいは印刷
出力するべく、出力内容を整形する。(1)の入力手段
において、第1言語の文書の書式情報は記憶してあるの
で、第1言語文は、それにしたがって出力すればよい。
対応する第2言語の情報は、第1言語文の下にルビのよ
うに出力すれば、視覚的に2言語間の対応がとれるので
都合がよい。ルビのように出力するには、第1言語文の
書式情報から行間の空白距離を計算し、その距離におさ
まるフォントを選択し、対応する各単語の位置からフォ
ントの大きさだけ行空白方向(縦書きなら左に、横書き
なら下に)ずらした位置に、第2言語の情報を出力すれ
ばよい。
【0030】このように、品詞推定手段によって第1言
語の品詞を推定し、それに対応する第2言語の情報だけ
を利用者に提示する。品詞推定手段は実施例で述べた方
法以外に、品詞候補を構文解析し、構文解析によって適
当な言語単位(文、句など)にまとまる品詞を各単語の
品詞と推定する方法や言語モデルとしてHMM(Hidden
Markov Model:隠れマルコフモデル)を用いる方法が
ある。
【0031】以上が実施例1,2(請求項1,2)につ
いての説明である。次に、実施例3(請求項3)につい
て説明する。特に入力手段にOCR処理を利用する場合
には、入力速度が著しく向上し、かつ人手を煩わせるこ
とがないために、利用者は出力結果の理解に専念するこ
とができるので、第1言語文を読解するための負担が著
しく軽減される。
【0032】次に、実施例4(請求項4)について説明
する。自然言語はあいまいであるので、(3)の品詞推
定手段によっても必ず正解品詞を選ぶことは困難であ
る。したがって、得られた第2言語の情報と、その元と
なった第1言語文とを対照させながら、読解していかね
ばならない。出力形態決定手段において、視覚的に2言
語間の対応がとれるよう、第2言語の情報を第1言語の
ルビであるがごとく出力すれば、利用者は2言語を容易
に対照することができるので、読解にかかる負担が著し
く軽減される。
【0033】次に、実施例5(請求項5)について説明
する。第1言語文の書式を保存し、第2言語の情報を付
与した後の結果を第1言語の文書のイメージのまま出力
すれば、第1言語の文書の印象を損うことなく第2言語
の情報も理解できる。例えば、図表を含んだ第1言語の
文書や、段組みなどを行なっている第1言語の文書を書
式を保存することなく出力した場合、利用者は、第1言
語の文書と本発明で得られる2言語文との2つの文書を
照合させながら読解をすすめねばならない。第1言語の
文書の図表や段組などの書式情報にのっとって、本発明
による2言語文書を出力すれば、利用者は本発明による
文書だけに専念することができ、読解にかかる負担が著
しく軽減される。
【0034】文の集合である文書を一括して処理する場
合、品詞推定処理などの言語処理を実施する前に一文単
位に分割することが通常である。しかしながら、一文単
位に自動分割することは難しく、使用者による確認・修
正が必要である。一方、実施例において説明した trigr
am を用いた品詞推定法は品詞推定処理構文制約を局所
的に適用して品詞推定するので、処理単位が一文全体で
なくても致命的な問題にはならないので都合がよい。し
かし、物理行の両端の単語は、本来ならば隣接している
単語が前行または次行に分離しているので、連接情報が
利用できない。そのために、物理行の両端付近の単語の
品詞推定精度が下がることがあった。そこで、直前行と
直後行を記憶し現在行と連結し、連結後の行に対して上
述の品詞推定処理を実施すれば、行両端付近の単語は行
の中間になるので、品詞推定精度は下がることがない。
【0035】図7は、直前行と直後行とを現在行に連結
する品詞推定処理のフローチャートである。以下、各ス
テップに従って順に説明する。step1 :直前行記憶バッファ、現在行記憶バッファ、直
後行記憶バッファの内容をクリアする。step2 :行が終了ならば、step6に進む。終了でなけれ
ば、step3に進む。step3 :現在行記憶バッファに一行読み込む。step4 :行が終了ならば、step6に進む。終了でなけれ
ば、step5に進む。step5 :直後行記憶バッファに一行読み込む。step6 :直前行記憶バッファ、現在行記憶バッファ、直
後行記憶バッファ、各バッファの内容を連結し、入力行
を作成する。
【0036】step7:連結後の行に対して品詞推定処理
を実施する。step8 :品詞推定処理の結果に基づいて、現在行に関す
る対訳を作成する。step9 :現在行記憶バッファの内容を直前行記憶バッフ
ァに複写する。直後行記憶バッファの内容を現在行バッ
ファに複写する。step10 :直後行記憶バッファに一行読み込む。step11 :行が終了ならば、step12に進む。終了でな
ければ、step6に戻る。 step12 :直前行記憶バッファ内容と現在行記憶バッフ
ァ内容とを連結し、入力行を作成する。step13 :連結後の行に対して品詞推定処理を実施す
る。step14 :品詞推定処理の結果に基づいて、現在行に関
する対訳を作成する。
【0037】実施例では直前行および直後行の全体を現
在行に連結したが、隣接する数単語のみを現在行に連結
しても同様な効果が得られる。更に、入力行が短くなる
ので処理時間が短縮されるという利点もある。以上が、
請求項6についての説明である。
【0038】次に、請求項7について説明する。OCR
ミスや辞書の見出し語登録不足などによって、第1言語
原文に未知語が含まれている場合がある。語の並びの統
計に基づいて品詞を推定するので、第1言語文中に未知
語が多くなると、語の並びの統計が利用できない場合が
多くなる。未知語に対しては全品詞を候補として仮定す
れば、隣接する語が未知語である場合には語の並びの統
計が確度の低いものになってしまう。したがって、間違
って訂正してしまう例も増えるので、品詞推定精度が下
がってしまう。
【0039】そこで、入力行中に含まれる未知語の割合
が設定値を越えた場合には、品詞推定処理を実施せず、
辞書中の第1品詞を無条件に選択する方法に切り替え
る。未知語か否かの判定は当該単語が辞書の見出し語に
無ければ未知語であると容易に判断できる。また、一行
中の未知語の割合を算出するには、一行中の単語カウン
タと未知語カウンタとを用意し、一行中の単語数と未知
語数を計数すればよい。未知語率を次式で定義する。 未知語率=未知語数/全単語数 これが、設定値よりも大きければ品詞推定処理を実施し
ない。これによって、未知語が多い行に対して誤って品
詞推定してしまうことを避けることができる。
【0040】図8は、未知語の割合に基づく、品詞推定
処理の実施の判断のフローチャートである。以下、各ス
テップに従って順に説明する。step1 :単語が終了ならば、step9に進む。終了でなけ
れば、step2に進む。step2 :一単語読み込む。step3 :単語カウンタをインクリメントする。step4 :読み込んだ単語を辞書引きする。step5 :辞書引きした結果、見出し語が存在しているな
らば、step6へ進む。見出し語が無いならば、step7に
進む。step6 :辞書情報を格納する。step7 :未知語に対してデフォルト情報を格納する。step8 :未知語カウンタをインクリメントする。step9 :当該行の入力が終ったので、当該行の未知語率
を算出する。step10 :未知語率が設定値よりも大きければ、品詞推
定処理は行なわないのでstep12に進む。未知語率が設
定値よりも小さければ、品詞推定処理を行なうので ste
p11に進む。
【0041】次に、請求項8について説明する。第1言
語文に対応する第2言語情報の内、よく知られた内容が
頻繁に出力されるのは煩わしい。そこで、出力を抑制す
る単語のリストを予め設定しておき、このリストに該当
する単語については、その第2言語情報の出力を抑制す
る。出力を抑制する単語リストは、辞書中に出力抑制欄
を設けておき、出力を抑制したい単語については、出力
抑制欄にマークしておくことによって容易に実現でき
る。出力抑制欄を設けた辞書の例を図9に示す。
【0042】図9において、「出力抑制」欄に〇印のあ
る見出し語については、第2言語情報表示の際、その出
力を抑制する。これによって、第2言語情報がよく知ら
れた第1言語については出力が抑制され、使用者は使用
者にとって必要な情報に集中できるので、使用感が著し
く改善される。
【0043】次に、請求項9について説明する。複数の
用法がある見出し語の内、一つの用法は非常によく知ら
れており、その用法に関する第2言語情報は出力する必
要がないと思われる語でも、他の用法で使用されている
場合には、その第2言語情報を出力する。例えば、英単
語“book”はほとんどの場合、名詞として使われ、動詞
として使われることは比較的少ない。したがって、名詞
として使用されている場合にその第2言語情報を出力す
ることは繁雑になるが、動詞として使用されている場合
にはその第2言語情報を出力することは非常に有効であ
る。使用者は、一般的に稀な用法であるゆえに、よく知
られていない第2言語情報を見失うことがない。
【0044】稀な用法を判断する一例には、図10に示
すように用法毎に優先度を数値で記入しておく手段があ
る。優先度の数値が大きくなるほど、その用法を優先す
る。優先度に対して予めしきい値を設定しておき、しき
い値を越える優先度をもつ用法は、よく知られた情報で
あると判断し、その第2言語情報の出力を抑制すればよ
い。あるいは、優先度を数値化して記入するのは多大な
労力を必要とするので、図9のように、優先する順に用
法を並べておいても構わない。この場合には、「出力抑
制」欄に〇印があれば、最優先用法(第1番目)だけ、
その第2言語情報の出力を抑制する。本発明にしたがう
表示例を図11に示す。英単語“book”が名詞用法の場
合にはその第2言語情報を表示しないが、動詞用法の場
合には第2言語情報を表示する。
【0045】次に、請求項10について説明する。自然
言語の機械処理は完成しておらず、その精度は十分高い
とはいえない状態である。品詞推定処理も全ての場合に
おいて正しいとは限らない。そこで、正解である確度を
付けて複数個の解を求める場合が多い。本実施例で述べ
た品詞推定処理の一例では、解の確度として品詞推定結
果の出現確率を求めている。品詞推定処理の第1解に対
応する第2言語情報のみを出力する場合、もしこの解が
誤っていれば、使用者は正しい第2言語情報を得ること
ができない。そこで、第2言語情報を品詞推定結果の確
度の順に出力すれば、使用者は複数解を確度の高い順に
得ることができるので、仮に品詞推定結果が誤っていて
も、第2言語情報を全く得られなくなることを避けるこ
とができる。全解を順に出力するだけでなく、上位解を
いくつ出力するかを予め設定しておいてもよい。図12
は複数解を出力する一例を示す図である。
【0046】次に、請求項11について説明する。上述
したように自然言語処理においては、唯一解を求めるの
でなく、確度を付けて複数解を求める場合が多い。した
がって、非常に確度の高い解についてはその解だけを出
力し、あいまいな解については複数解出力すれば、不要
な解が過剰に出力されることを避けることができるの
で、使用感が著しく改善される。確度の高い解を判定す
るには、求めた複数解の確度(数値化されている場合が
多い)を比較すればよい。例えば、先の英単語“book”
の場合、 book 名詞である確度:100 book 動詞である確度: 50 と求められているとする。確度は数値が大きくなるほど
正解である可能性が高いことを表わす。確度が予め設定
してある値よりも大きければ、正解である可能性がある
と判断して、対応する第2言語情報を出力する。設定値
が30である場合、 book 本 予約する と、名詞および動詞の各々の訳語が出力される。
【0047】確度にしきい値を設ける方法の他に、第1
解の確度と第2解の確度の比が大きければ、第1解と第
2解の確度の差が大きいわけであるから、第1解が正解
である可能性が高いと判断する方法もある。例えば、第
1解と第2解の比が10:6以上であれば、第1解だけ
を出力するとすれば、先の例においては book 名詞である確度 : book 動詞である確度 =100:50 = 10:5 となるので、第1解のみを出力する。他にも、上位複数
解の確度の平均値を求め、平均値を越える解だけを出力
する方法もある。
【0048】次に、請求項12について説明する。第1
言語原文に未知語が含まれている場合がある。請求項1
〜5記載の発明では、語の並びの統計に基づいて品詞を
推定するので、第1言語文中に未知語が多くなると、語
の並びの統計が利用できない場合が多くなる。未知語に
対しては、全品詞を候補として仮定すれば、隣接する語
が未知語である場合には、語の並びの統計が確度の低い
ものになってしまう。したがって、間違って訂正してし
まう例も増えるので、品詞推定精度が下がってしまう。
また、英語における相関語句(例 "would rather … t
han 〜":「〜するくらいなら…したほうがましだ」)な
どのように、複数単語から構成され、かつ全単語が連接
していない場合には、離れている語の並びの情報が利用
しにくく、請求項6〜11記載の発明では、これに対応
する第2言語情報を求めることができなかった。
【0049】連接していない複数の単語から構成される
熟語・相関語句(以下、相関語句)を扱うには、英文中
に当該相関語句が含まれているか否かを判定しなくては
ならない。そのためには、相関語句をパターン化して記
憶し、英文と照合すればよい。具体的には以下の手順で
照合処理を行う。 相関語句を構成する複数単語の内、表層の定まって
いない語については(例"would rather … than 〜" に
おける "〜","…" に相当する語)、その構文的カテゴ
リを定めて(先の例では動詞あるいは動詞句)、以下の
表1のようにテンプレートを作成する(以下、熟語テン
プレート)。表1において、表層単語の間に記述されて
いるのは、識別子とその構文的カテゴリを示す。例え
ば、 A(名詞句):識別子A,その構文的カテゴリは名詞句 を表わす。ここで使用する構文的カテゴリは、表1にも
添付しているが、文脈自由文法によって定義されてい
る。
【0050】
【表1】
【0051】
【0052】 入力文を先に述べたように形態素解析
する。 入力文と表1の熟語テンプレートとを照合する。例
えば、入力文が "I would rather die than disgrace myself." …(4) とする。表1の「第1言語による熟語パターン」欄と入
力文とを比較照合する。表層単語の文字列照合により、 熟語パターン:would rather A(動詞) than B(動詞句) …(5) が合致する。このとき、 A(動詞句):die …(6) B(動詞句):disgrace myself …(7) との対応がある。既に実施済みの形態素解析により、 であることがわかっている。したがって、構文カテゴリ
「動詞句」が、前記(6)および(7)の対応を満足す
ることは、「動詞句」の(文脈自由文法による)定義か
ら容易に確認できる。文脈自由文法による定義と形態素
結果との照合処理は、一般的な文脈自由文法の解析法で
実現できる。
【0053】 照合処理によって、入力文に適合す
る熟語テンプレートは、 would rather A(動詞句) than B(動詞句)
【相】BするくらいならAするほうがましだ …(8) であることがわかったので、これを形態素候補に追加す
る。例えば、以下の形式でまとめる。 (開始位置,終了位置,第1言語表層,品詞,第2言語情報) =(2,7, would rather die than disgrace myself.
【相】BするくらいならAするほうがましだ) 以上の処理の結果、相関語句の候補を従来通りの形態素
候補の形式で扱うことができる。したがって、先に述べ
た実施例の品詞多義解消処理を変更することなく、品詞
多義を解消できる。
【0054】次に、請求項13について説明する。請求
項12によって、第1言語において連接していない複数
単語から構成される熟語・相関語句の第2言語情報を得
ることができるようになるが、先の方法では、相関語句
の第2言語情報は得られるが、相関語句中の不定な要素
に関する第2言語情報は得られない。先の例では、 BするくらいならAするほうがましだ のみ表示されるので、熟語テンプレートの不定要素に対
応する A(動詞句):die …(6) B(動詞句):disgrace myself …(7) の情報は表示されない。熟語だけの第2言語情報では、
当該英文を読解するに十分であるとはいえない。
【0055】そこで、熟語の情報に加えて、熟語テンプ
レートの不定要素に関する情報も併せて表示すれば、当
該英文を読解するに必要な第2言語情報がそろう。例え
ば、以下のように表示する。 BするくらいならAするほうがましだ(A:死ぬ,B:の
恥となる 私自身) 熟語テンプレート中の識別子A,Bを残し、A,Bに対応
する第2言語情報を識別子とともに後続させる。A,B
に対応する第2言語情報は、前記(3),(4)の対応
関係および形態素解析結果によって容易に求められる。
この実施例では、第1言語における熟語パターンでの出
現順に識別子を付与し、その順に対応する第2言語情報
を表示したが、第2言語情報における識別子の出現順
に、対応する第2言語情報を表示しても構わない。これ
に従えば、 BするくらいならAするほうがましだ(B:の恥となる
私自身,A:死ぬ) となる。したがって、各々の情報を単に連結するだけで
あるから、高度な言語処理を必要としない。
【0056】次に、請求項14について説明する。請求
項13は、高度な言語処理を必要としないが、識別子が
残ってしまうので、第2言語としての自然さを損ねてし
まう。そこで、第2言語において言語処理を行うことに
よって、熟語全体にわたって自然な第2言語情報を作成
する。これによって第2言語による不自然さは著しく改
善され、理解容易性が向上する。以下、実施例を示す。
第2言語において変形・合成するために、第2言語にお
いて、活用のある語は活用情報を辞書に追加する。 die
【動】死ぬ(ナ・五段) disgrace
【名】不名誉
【動】の恥となる(ナ・五段) myself
【名】私自身 構文的カテゴリの定義において、第2言語における語順
を加える。例えば、英語においては、 動詞 名詞:例 disgrace myself の順であるが、日本語では、 名詞 動詞:例 私自身 の恥となる となる。表1における構文カテゴリに対する一例を示
す。 ":" より左が第1言語の語順、右が第2言語の語
順である。
【0057】このように、第2言語における語順と、形
態素候補の第2言語活用情報を整備することによって、
形態素候補 "would rather die than disgrace myself" の第2言語情報は、 「私自身の恥となるくらいなら死ぬほうがましだ」 となる。この変形・合成処理は、機械翻訳等の一般的な
文生成の手法である。このように、第2言語に関する言
語処理を実施することによって、識別子などが不要にな
るので、第2言語において自然な形式で表示することが
でき、読解性を著しく向上させる。
【0058】次に、請求項15について説明する。OC
Rミスや辞書の見出し語登録不足などによって、第1言
語原文に未知語が含まれている場合がある。前述した実
施例では、語の並びの統計に基づいて品詞を推定するの
で、第1言語文中に未知語が多くなると、語の並びの統
計が利用できない場合が多くなる。未知語に対しては全
品詞を候補として仮定すれば、隣接する語が未知語であ
る場合には、語の並びの統計が確度の低いものになって
しまう。したがって、間違って訂正してしまう例も増え
るので、品詞推定精度が下がってしまう。
【0059】ところで、一般的に同じ構文的カテゴリに
属する単語には、特徴的な表層パターンが見受けられ
る。例えば、英語の場合、動詞(まれには形容詞)に "
ment"を語尾に連結することによって名詞化する。他に
も "able", "ish" で終る語は形容詞である。このよう
に、特徴的な表層パターンに注目することによって、当
該単語の構文的カテゴリを推定することができる。上述
したように、この実施例において、未知語には、 A.OCRミスに起因するもの B.辞書の見出し語に存在しないもの の2種がある。いずれの場合でも、表層パターンを検出
することができれば、当該未知語の構文的カテゴリを推
定することができる。以下、実施例を用いて説明する。
表層パターンを以下の表2のようにまとめる。
【0060】
【表2】
【0061】辞書引きの結果、該当する見出し語がない
場合に、当該未知語の構文的カテゴリを推定することを
試みる。未知語に対して表2の表層パターンを適用し、
合致した場合、パターンの属する構文カテゴリを未知語
の構文カテゴリと決定する。合致する表層パターンがな
ければ、全構文カテゴリを候補にする。この処理によっ
て、未知語の構文カテゴリを推定できるので、未知語に
起因する品詞推定精度の低下を抑えることができる。
【0062】図13は、請求項15の表層パターンを用
いる未知語の構文カテゴリ推定処理のフローチャートで
ある。step1 :まず、単語を読み込み、step2に進む。step2 :次に、辞書を検索し、step3に進む。step3 :辞書の見出し語に当該単語が存在していれば、
step5に進む。存在していなければ、step4に進む。step4 :当該単語を構文カテゴリ推定用表層パターンと
照合し、step6に進む。 step5 :辞書に基づいて、当該単語の構文カテゴリを決
定する。step6 :当該単語に合致する表層パターンがあるならst
ep8に進む。ないならばstep7に進む。step7 :当該単語を未知語であると判定する。step8 :合致する表層パターンに対応する構文カテゴリ
を当該単語の構文カテゴリに決定する。
【0063】次に、請求項16について説明する。未知
語の内、辞書に見出し語が存在しないために未知語と判
定されるものがある。全くの新語は見出し語として登録
されていないのは当然であるが、基本語が容易に導出で
きる派生語も登録されていない場合も多い。このような
派生語は、基本語を表2の表層パターンに基づいて変形
させたものである。したがって、表2の表層パターンを
未知語に対して適用し、基本語に戻してから再度辞書を
検索し、基本語が存在しているならば、その第2言語情
報と表層パターン情報とを併せて表示する。表示例を図
14に示す。英単語 "embellishment" は使用頻度の低
い語であり、簡易的な辞書には記載されていないことが
多い。したがって、見出し語数の多い辞書を使用しない
と、未知語と判定されやすい。このような難解な語で
も、その第2言語情報を不完全ながら得ることができ
る。図14の例は、"embellish"(
【動】美しくする)が存在し、"embellishment" が存在
していなかった場合を示す。これによって、未知語の構
文カテゴリを決定できるだけでなく、未知語の第2言語
情報も不完全ながら表示することができ、当該未知語を
含んだ英文の読解を著しく容易にする。また、辞書の見
出し語数を増加させることなく、見かけの未知語(全く
の新語を除いた語)を減少させることができる。
【0064】図15は、請求項16の表層パターンを用
いる、未知語の第2言語情報の合成処理のフローチャー
トである。step1 :まず、単語を読み込み、step2に進む。step2 :次に、辞書を検索し、step3に進む。step3 :辞書の見出し語に当該単語が存在していればst
ep5に進む。存在していなければstep4に進む。step4 :当該単語を構文カテゴリ推定用表層パターンと
照合し、step6に進む。 step5 :辞書に基づいて、当該単語の第2言語情報を決
定する。step6 :当該単語に合致する表層パターンがあるならst
ep8に進む。ないならばstep7に進む。step7 :当該単語は未知語であると判定し、step12に進
む。step8 :表層パターンを元に、当該単語を基本形に戻
し、step9に進む。step9 :前記step8において求めた基本形を辞書検索
し、step10に進む。step10 :辞書の見出し語に当該単語の基本形が存在して
いればstep11に進む。存在していなければstep13に進
む。step11 :構文カテゴリ推定用表層パターンから得た第2
言語情報と、基本形を辞書検索して得た第2言語情報と
を合成する。step12 :第2言語情報は空とする。step13 :第2言語情報は空とする。
【0065】請求項16によって、未知語に関する第2
言語情報を得ることができるが、第2言語としては不自
然な、第1言語における構文カテゴリ名(図14におけ
【名】)が表示されてしまう。使用者は、第2言語情報
(「美しくする」)と第1言語における構文カテゴリ(
【名】)との異なった2種類の情報を組み合わせてから
理解しなくてはならないので、円滑さを損ねてしまう。
そこで、第2言語情報を第1言語の構文カテゴリを示す
ように典型的に変形すれば、第1言語の構文カテゴリを
併わせて表示する必要がなくなる。
【0066】以下、本発明を実施例を用いて説明する。
表2のように第1言語の構文カテゴリを表現する、第2
言語の典型的な表現をまとめておく。例えば、語尾が "
ish" である第1言語(英語)単語の構文的カテゴリは
形容詞であり、第2言語(日本語)における、それを示
す典型的な表現は「〜のような」である。この表現と、
この表現の元になった部分以外の第2言語情報とを組み
合わす。先の例の "embellishment" は、"embellish"
+ "ment"であるから、 embellish:美しくする ment :〜こと との第2言語情報が求められ、これらを組み合わせる
と、 embellishment:美しくすること が求められる。
【0067】この実施例では、第2言語における言語処
理を実施するので、第2言語情報には変形情報(活用の
型など)を合わせて記憶しておかなくてはならない。こ
の第2言語での言語処理は、機械翻訳等の一般的な文生
成の手法である。なお、通常の方法によって得た第2言
語情報と、本発明によって得た第2言語情報とを区別す
るために、本発明による第2言語情報を表示する際に
は、以下のように、ハイフン("−"),かっ
こ("(",")")などの記号を用いて変形の範囲を明示し
てもよい。 embellishment 美しくする−こと 美しくする(こと) 美しくする+こと
【0068】さらに、OCR装置と印刷装置とを併合
し、2言語文書作成処理を内蔵し、コピーマシン様の装
置にまとめれば、利用者は文書を複写する感覚で2言語
文書を得ることができるので、図3のように個々の装置
を組み合わせて実現した場合と比較して、使用感が著し
く改善される。加えて、OCR装置のスキャニング工程
と印刷装置の印刷工程とは、市販のコピーマシンの複写
工程に非常に似ており、本発明をコピーマシンに実装す
る際のコスト向上はわずかで済む。図16に対訳複写機
の装置イメージを示す。
【0069】本発明は以上の実施例に限定されるもので
はなく、 1.第1言語の品詞を推定する手段 2.第1言語文と第2言語情報を対応させて、表示ある
いは印刷出力する手段 3.第1言語の文書の書式を記憶する手段 4.第1言語の文書の書式に基づいて、第1言語文と第
2言語の情報とを表示あるいは印刷出力する手段 5.OCR(光学的文字読取装置)と印刷装置を併合
し、コピーマシン様の装置にまとめ、コピーマシンの使
用感をまねることによって、利用者に繁雑な操作を強い
ることなく、第1言語の文書の第2言語による読解を助
ける機能を有する機械翻訳装置を提供することに本質が
ある。
【0070】また、 6.第1言語文を入力するための入力手段 7.第1言語文(原文)記憶手段 8.言語解析に必要な知識を記憶している解析辞書 9.第1言語文(原文)及び、その翻訳結果である第2
言語文を表示するための表示手段 10.第1言語の品詞を推定する手段 11.前記10の推定手段によって推定された品詞にし
たがって、解析辞書から第1言語に対応する第2言語情
報(訳語)を抽出する手段 を備えた言語処理系において、 12.単語間の連接に関する情報を用いて多品詞語の品
詞を推定する手段 13.現在行の他に、直前行および直後行を記憶する手
段 14.前記13で記憶した直前行および直後行を現在行
に連結する手段 15.前記14で作成した連結後の行に対して品詞を推
定する手段 16.第1言語文に含まれる未知語を判定する手段 17.前記16で判定した未知語の数を計数する手段 18.前記17の計数結果に基づいて品詞推定処理を実
施するか否かを判断する手段 19.第1言語文において基本的な語を判定する手段 20.前記19の判定結果に基づいて第2言語情報の出
力を抑制する手段 21.品詞推定した品詞の辞書中の優先度を判定する手
段 22.前記21の判定手段に基づいて第2言語情報の出
力を抑制する手段 23.品詞推定によって、品詞の可能性の順位を求める
手段 24.前記23の順位にしたがって、上位複数個の品詞
候補の対応する第2言語情報を出力する手段 を備えることによって、使用者にとって必要な第2言語
情報だけを高精度に出力する機能を有する機械翻訳装置
を提供することに本質がある。
【0071】また、 25.第1言語文を入力するための入力手段 26.第1言語文(原文)記憶手段 27.言語解析に必要な知識を記憶している解析辞書 28.第1言語文(原文)及びその翻訳結果である第2
言語文を表示するための表示手段 29.第1言語の品詞を推定する手段 30.前記29の推定手段によって推定された品詞にし
たがって、解析辞書から第1言語に対応する第2言語情
報(訳語)を抽出する手段を備えた言語処理系におい
て、 31.単語間の連接に関する情報を用いて多品詞語の品
詞を推定する手段 32.第1言語の熟語の構文型を記述するところの熟語
テンプレートを対応する第2言語情報(訳語,品詞等)
を併せて記憶する手段 33.前記32で記憶したテンプレートと第1言語文と
を照合する手段 34.前記33の照合手段において、熟語テンプレート
中の要素に対応する第1言語文中の単語(語句)を抽出
する手段 35.前記33の照合手段と前記34の抽出手段の実施
結果に基づいて熟語テンプレートに対応する第2言語情
報を表示する手段を持つことを特徴とする機械翻訳装
置。 36.熟語テンプレートの第2言語情報と、当該テンプ
レート中の要素に合致した第1言語文中の単語(語句)
に対応する第2言語情報とを分離して出力する手段を持
つことを特徴とする機械翻訳装置。 37.熟語テンプレートの第2言語情報と当該テンプレ
ート中の要素に合致した第1言語文中の単語(語句)に
対応する第2言語情報とを基に変形・合成し、一つの第
2言語語句として出力する手段 38.第1言語文中の未知語を検出する手段 39.第1言語の語の変形パターンと変形後の構文的カ
テゴリ(品詞等)を記憶する手段 40.前記37の検出手段によって検出された未知語に
対して、14の変形パターンを適用し、変形前の語を求
める手段 41.前記40で求めた変形前の語を第1言語解析辞書
において検索する手段 42.前記41の検索手段の結果にしたがって変形前の
第1言語単語の第2言語情報と変形情報とを併せて表示
する手段を持つことを特徴とする機械翻訳装置。 43.前記41の検索手段の結果にしたがって、変形前
の第1言語単語の第2言語情報を、第1言語文における
変形情報にしたがって変形した後、表示する手段を備え
ることによって、使用者にとって必要な第2言語情報だ
けを高精度に出力する機能を有する機械翻訳装置を提供
することに本質がある。
【0072】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1,2においては、第1言語文を理解する
のに必要な第2言語の情報(品詞、訳語など)だけを選
択して利用者に提示することができ、第1言語文の読解
に要する負担を著しく軽減することができる。 (2)請求項3においては、入力速度が著しく向上し、
人手を煩わすことがないために、利用者は出力結果の理
解に専念することができるので、第1言語文を読解する
ための負担が著しく軽減される。 (3)請求項4においては、視覚的に2言語間の対応が
とれるよう、第2言語の情報を第1言語のルビであるが
ごとく出力すれば、利用者は2言語を容易に照合するこ
とができるので、読解にかかる負担が著しく軽減され
る。 (4)請求項5においては、第1言語の文書の図表や段
組などの書式情報にのっとって、本発明による2言語文
書を出力すれば、利用者は、元原稿を参照する必要がな
いので、本発明による文書だけに専念することができ、
読解にかかる負担が著しく軽減される。 (5)請求項6においては、行の両端付近でも連接制約
を利用できるようになるので品詞推定精度が低下するこ
とを避けることができる。 (6)請求項7においては、未知語の多い行に対して品
詞推定処理を実施することを避けることができるので、
品詞推定精度が下がることを避けることができる。 (7)請求項8においては、既知の情報の出力が抑制さ
れるので、使用者は未知の情報の理解に専念でき、使用
感が著しく改善される。 (8)請求項9においては、稀な用法に関する第2言語
情報が出力されるので、使用者の理解を助けることがで
きる。 (9)請求項10においては、複数解を優先順位につけ
て出力するので、品詞推定処理を誤っている場合でも、
使用者は適切な解を自ら選択して読解を続けることがで
きる。 (10)請求項11においては、あいまいな解に限って
解を複数個出力するので、使用者は正解である可能性の
高い解については不要な情報を見ることなく、あいまい
な解については複数から適切な解を選択することがで
き、読解にかかる負担を著しく軽減することができる。 (11)請求項12においては、連接していない複数単
語から構成される第1言語の熟語・相関語句の第2言語
情報を得ることができるので、第1言語文の読解を著し
く容易にする。 (12)請求項13においては、連接していない複数単
語から構成される第1言語の熟語相関語句の第2言語情
報を、第2言語において言語処理せずに出力するので、
第2言語に関する言語処理を具備する必要がない。 (13)請求項14においては、連接していない複数単
語から構成される第1言語の熟語・相関語句の第2言語
情報を、第2言語において言語処理することによって変
形・合成できるので、第2言語による読解容易性を著し
く向上させる。 (14)請求項15においては、未知語に対する構文的
カテゴリ候補を限定することができるので、隣接する単
語の品詞推定精度を下げることを避けられる。 (15)請求項16においては、未知語に対する構文的
カテゴリ候補を限定することができ、かつ当該未知語の
第2言語情報を第2言語としては不自然ながらも出力す
ることができるので、第2言語に関する言語処理を具備
することなく、第2言語による読解容易性を著しく向上
させる。 (16)請求項17においては、未知語に対する構文的
カテゴリ候補を限定することができ、かつ当該未知語の
第2言語情報を第2情報として自然な形態で出力するこ
とができるので、第2言語による読解容易性を著しく向
上させる。
【図面の簡単な説明】
【図1】 本発明による機械翻訳装置の一実施例を説明
するための構成図である。
【図2】 本発明による対訳文書作成処理のブロック図
である。
【図3】 本発明による対訳文書作成処理部の構成図で
ある。
【図4】 本発明による最大出現確率品詞列選択手順を
示す図である。
【図5】 本発明による最大出現確率品詞列選択手順の
フローチャートを示す図である。
【図6】 本発明による解候補更新処理のフローチャー
トを示す図である。
【図7】 本発明による直前行と直後行とを現在行に連
結する品詞推定処理のフローチャートを示す図である。
【図8】 本発明による未知語率に基づく品詞推定処理
実施の判断のフローチャートを示す図である。
【図9】 本発明による出力抑制欄のある辞書の例を示
す図である。
【図10】 本発明による品詞優先度のある辞書の例を
示す図である。
【図11】 本発明による頻出用法に対する出力抑制の
一例を示す図である。
【図12】 本発明による複数解を出力する一例を示す
図である。
【図13】 本発明による表層パターンを用いる未知語
の構文カテゴリ推定処理のフローチャートである。
【図14】 本発明による未知語の第2言語情報の表示
例である。
【図15】 本発明による表層パターンを用いる未知語
の第2言語情報の合成処理のフローチャートである。
【図16】 本発明による対訳複写機の装置のイメージ
を示す図である。
【符号の説明】
1…表示装置、2…表示制御部、3…言語処理部、4…
入力制御部、5…入力装置、21…第1言語の入力手
段、22…形態素解析手段、23…解析辞書、24…品
詞推定手段、25…品詞連接確率表、26…出力形態決
定手段、27…出力手段。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも、対象言語文を入力するため
    の入力手段と、該入力手段により入力された対象言語文
    を記憶する記憶手段と、言語解析に必要な知識を記憶し
    ている解析辞書と、前記対象言語文及びその翻訳結果で
    ある目的言語文を表示するための表示手段とを備えた言
    語処理系において、対象言語の品詞を推定する品詞推定
    手段と、該品詞推定手段によって推定された品詞にした
    がって、前記解析辞書から対象言語に対応する目的言語
    の情報を抽出する抽出手段とから成ることを特徴とする
    機械翻訳装置。
  2. 【請求項2】 前記品詞推定手段が、対象言語の品詞の
    連接確率を記憶する第1の記憶手段と、該連接確率に基
    づいて、対象言語文の各単語の品詞を決定する決定手段
    とを有することを特徴とする請求項1記載の機械翻訳装
    置。
  3. 【請求項3】 前記入力手段が光学的文字読取装置手段
    を使用するものであることを特徴とする請求項1記載の
    機械翻訳装置。
  4. 【請求項4】 前記表示手段が、対象言語文と目的言語
    情報を対応させて、表示あるいは印刷出力する出力手段
    を有することを特徴とする請求項1記載の機械翻訳装
    置。
  5. 【請求項5】 前記出力手段が、対象言語の文書の書式
    を記憶する第2の記憶手段と、対象言語文書の書式に基
    づいて、対象言語文と目的言語の情報とを表示あるいは
    印刷出力する出力手段を有することを特徴とする請求項
    4記載の機械翻訳装置。
  6. 【請求項6】 少なくとも、対象言語文を入力するため
    の入力手段と、該入力手段により入力された対象言語文
    を記憶する記憶手段と、言語解析に必要な知識を記憶し
    ている解析辞書と、前記対象言語文及びその翻訳結果で
    ある目的言語文を表示するための表示手段と、対象言語
    の品詞を推定する品詞推定手段と、該品詞推定手段によ
    って推定された品詞にしたがって、前記解析辞書から対
    象言語に対応する目的言語の情報を抽出する抽出手段と
    を備えた言語処理系において、単語間の連接に関する情
    報を用いて多品詞語の品詞を推定する品詞推定手段と、
    現在行の他に、直前行および直後行を記憶する記憶手段
    と、該記憶手段で記憶した直前行および直後行を現在行
    に連結する連結手段と、該連結手段で作成した連結後の
    行に対して品詞を推定する品詞推定手段とから成ること
    を特徴とする機械翻訳装置。
  7. 【請求項7】 前記対象言語文に含まれる未知語を判定
    する判定手段と、該判定手段で判定した未知語の数を計
    数する計数手段と、該計数手段の計数結果に基づいて品
    詞推定処理を実施するか否かを判断する判断手段から成
    ることを特徴とする請求項6記載の機械翻訳装置。
  8. 【請求項8】 対象言語文において基本的な語を判定す
    る判定手段と、該判定手段の判定結果に基づいて目的言
    語情報の出力を抑制する抑制手段とから成ることを特徴
    とする請求項6記載の機械翻訳装置。
  9. 【請求項9】 品詞推定した品詞の辞書中の優先度を判
    定する判定手段と、該判定手段に基づいて目的言語情報
    の出力を抑制する抑制手段とから成ることを特徴とする
    請求項6記載の機械翻訳装置。
  10. 【請求項10】 品詞推定によって品詞の可能性の順位
    を求める認定手段と、該認定手段による順位にしたがっ
    て、上位複数個の品詞候補の対応する第2言語情報を出
    力する出力手段とから成ることを特徴とする請求項6記
    載の機械翻訳装置。
  11. 【請求項11】 品詞推定によって品詞の複数の可能性
    を求める認定手段と、該認定手段の可能性の程度を評価
    する評価手段と、該評価の可能性の程度を複数個用いて
    第1解の確度を判定する判定手段と、該判定手段の判定
    結果に基づいて、出力する解の個数を変更する変更手段
    とから成ることを特徴とする請求項6記載の機械翻訳装
    置。
  12. 【請求項12】 少なくとも、対象言語文を入力するた
    めの入力手段と、該入力手段により入力された対象言語
    文を記憶する記憶手段と、言語解析に必要な知識を記憶
    している解析辞書と、前記対象言語文及びその翻訳結果
    である目的言語文を表示するための表示手段と、対象言
    語の品詞を推定する品詞推定手段と、該品詞推定手段に
    よって推定された品詞にしたがって、前記解析辞書から
    対象言語に対応する目的言語の情報を抽出する抽出手段
    とを備えた言語処理系において、単語間の連接に関する
    情報を用いて多品詞語の品詞を推定する品詞推定手段
    と、対象言語の熟語の構文型を記述するところの熟語テ
    ンプレートを、対応する目的言語情報を併せて記憶する
    記憶手段と、記憶されたテンプレートと対象言語文とを
    照合する照合手段と、該照合手段において熟語テンプレ
    ート中の要素に対応する対象言語文中の単語あるいは語
    句を抽出する抽出手段と、前記照合手段と前記抽出手段
    の実施結果に基づいて、熟語テンプレートに対応する目
    的言語情報を表示する表示手段とを有することを特徴と
    する機械翻訳装置。
  13. 【請求項13】 熟語テンプレートの目的言語情報と、
    当該テンプレート中の要素に合致した対象言語文中の単
    語あるいは語句に対応する目的言語情報とを分離して出
    力する出力手段とを有することを特徴とする請求項12
    記載の機械翻訳装置。
  14. 【請求項14】 熟語テンプレートの目的言語情報と、
    当該テンプレート中の要素に合致した対象言語文中の単
    語あるいは語句に対応する目的言語情報とを基に変形・
    合成し、一つの目的言語語句として出力する出力手段と
    を有することを特徴とする請求項12記載の機械翻訳装
    置。
  15. 【請求項15】 対象言語文中の未知語を検出する検出
    手段と、対象言語の語の変形パターンと変形後の構文的
    カテゴリを記憶する記憶手段と、前記検出手段で検出さ
    れた未知語に対して、前記変形パターンを適用し、変形
    前の語を求める認定手段と、該認定手段で求めた変形前
    の語を第1言語解析辞書において検索する検索手段と、
    該検索手段の結果にしたがって、未知語の構文的カテゴ
    リを決定する決定手段とを有することを特徴とする請求
    項12記載の機械翻訳装置。
  16. 【請求項16】 前記検索手段の結果にしたがって、変
    形前の対象言語単語の目的言語情報と、変形情報とを併
    せて表示する表示手段とを有することを特徴とする請求
    項15記載の機械翻訳装置。
  17. 【請求項17】 前記検索手段の結果にしたがって、変
    形前の対象言語単語の目的言語情報を対象言語文におけ
    る変形情報で変形した後に表示する表示手段とを有する
    ことを特徴とする請求項16記載の機械翻訳装置。
JP5070870A 1992-04-15 1993-03-05 機械翻訳装置 Pending JPH06243162A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5070870A JPH06243162A (ja) 1992-04-15 1993-03-05 機械翻訳装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP12127792 1992-04-15
JP4-121277 1992-12-22
JP4-356645 1992-12-22
JP35664592 1992-12-22
JP5070870A JPH06243162A (ja) 1992-04-15 1993-03-05 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH06243162A true JPH06243162A (ja) 1994-09-02

Family

ID=27300462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5070870A Pending JPH06243162A (ja) 1992-04-15 1993-03-05 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH06243162A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749075A2 (en) * 1995-06-14 1996-12-18 Sharp Kabushiki Kaisha Machine translation system
US5978798A (en) * 1996-06-14 1999-11-02 Sharp Kabushiki Kaisha Apparatus for and method of accessing a database
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749075A2 (en) * 1995-06-14 1996-12-18 Sharp Kabushiki Kaisha Machine translation system
EP0749075A3 (en) * 1995-06-14 1997-01-22 Sharp Kabushiki Kaisha Machine translation system
US5873055A (en) * 1995-06-14 1999-02-16 Sharp Kabushiki Kaisha Sentence translation system showing translated word and original word
US5978798A (en) * 1996-06-14 1999-11-02 Sharp Kabushiki Kaisha Apparatus for and method of accessing a database
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
WO2014199681A1 (ja) * 2013-06-10 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP2014238772A (ja) * 2013-06-10 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP2014238808A (ja) * 2013-11-22 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法

Similar Documents

Publication Publication Date Title
JP4047885B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
Cowan et al. A discriminative model for tree-to-tree translation
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
US8407040B2 (en) Information processing device, method and program
JPH096787A (ja) 訳振り機械翻訳装置
WO2000062193A1 (en) System for chinese tokenization and named entity recognition
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP3903993B2 (ja) 文章の感情認識装置及び文章の感情認識方法ならびにそのプログラム
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JP2007072594A (ja) 翻訳装置、翻訳方法および翻訳プログラム、媒体
JPH06243162A (ja) 機械翻訳装置
JPH08315078A (ja) 日本語文字認識方法及び装置
Hajic et al. Czech language processing, POS tagging.
JPH052605A (ja) 機械翻訳方式
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JP3305953B2 (ja) 翻訳パターン作成方法および装置
JPS61248160A (ja) 文書情報登録方式
JP2688020B2 (ja) 派生語処理方式
Nederhof Automatic alignment of hieroglyphs and transliteration
JP3692711B2 (ja) 機械翻訳装置
JP4021813B2 (ja) 複合語登録プログラムおよび登録装置
JPS62224859A (ja) 日本語処理方式
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
JP2000029882A (ja) 要約文作成装置