JP2002132764A

JP2002132764A - 機械翻訳前処理装置

Info

Publication number: JP2002132764A
Application number: JP2000328469A
Authority: JP
Inventors: Kozue Kimura; こずえ木村
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-10-27
Filing date: 2000-10-27
Publication date: 2002-05-10

Abstract

(57)【要約】【課題】機械翻訳システムの内部に組み込まれた辞
書の内容を変更することなく、辞書の登録語数を実質的
に増大させた場合と同様の精度で機械翻訳することを可
能とする。【解決手段】ソース言語の入力テキストを機械翻訳装
置に入力するに先立って、機械翻訳の精度を高めるため
に入力テキストを前処理するための機械翻訳前処理装置
は、ソース言語のテキストを入力するための入力部１０
２と、ソース言語の見出し語と、予め定められた言語の
対応語との対を含むエントリを有する前処理辞書テーブ
ル１０４１を記憶するテーブルメモリ１０４と、入力さ
れたテキストに含まれる語に対し、前処理辞書テーブル
１０４１から該当する見出し語を有するエントリを検索
する辞書引き部１０５１と、検索されたエントリに含ま
れる予め定められた言語の対応語で、テキストの一部を
置換する置換部１０５２とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明はソース言語のテキ
ストをターゲット言語のテキストに翻訳する機械翻訳シ
ステムに関し、特に、機械翻訳に先立ち、機械翻訳の制
度を向上させることおよび機械翻訳の速度を向上させる
ことを目的として、ソース言語のテキストを前処理する
ための装置に関する。

【０００２】

【従来の技術】機械翻訳システムは、自然言語で書かれ
たテキストを、主としてコンピュータ処理を用いて他の
言語のテキストに翻訳する。機械翻訳においては、ソー
ス言語の翻訳対象の文をすべて正しく解析し、適切にタ
ーゲット言語に翻訳することが望まれる。

【０００３】文の解析には、ソース言語の辞書が参照さ
れる。ソース言語の翻訳対象の文に辞書にない単語があ
らわれたときには、その部分の解析に失敗するため、そ
の部分の翻訳も失敗することが多い。

【０００４】したがって、機械翻訳を適切に行なうため
には、システムのソース言語の辞書にできるだけ多く語
彙を登録すること、および辞書の内容を充実させること
が最も重要となる。

【０００５】しかし、辞書に登録された語数を増大させ
ようとすると、多大な手間が必要となり、実用的な機械
翻訳システムを商業的に市場に供給しようとする場合に
は問題である。特に機械翻訳システムが大きくなればな
るほど、また辞書に登録されている単語数が多くなれば
なるほど、それまでに構築されてきた辞書およびシステ
ムとの整合性を保ちながら辞書の登録語数を増大させる
ことは困難な作業で、多大な人的資源を必要とし、その
結果辞書のコスト、したがって機械翻訳システムのコス
トを上昇させてしまう。

【０００６】また、他から購入した機械翻訳システムを
使用する場合などには、システムの内部を参照できなか
ったり、変更できなかったりして、辞書の登録語数を増
大させることが不可能な場合がある。したがって、こう
した制約にもかかわらず、実質的に辞書の登録語数を増
大させたのと同じように精度の高い機械翻訳が可能な機
械翻訳システムが望まれている。機械翻訳システム自体
に組込まれている辞書の内容を変更できないのであるか
ら、機械翻訳の前処理としてなんらかの形でソース言語
のテキストを前処理することによって、こうした効果を
達成することが必要である。

【０００７】

【発明が解決しようとする課題】ソース言語のテキスト
を前処理することによって機械翻訳の精度を高める先行
技術として、機械翻訳の前処理を行なうための、特開平
５−２２５２３２号公報に開示されたものがある。しか
しこの先行技術の公報は、通常は人手で行なう、機械翻
訳のためのテキストの前編集を自動化することによっ
て、機械翻訳の精度については間接的に高めようとする
ものであって、実質的に辞書の登録語数を増大させたの
と同じ効果をもたらすことによって直接的に機械翻訳の
精度を向上させるものではない。

【０００８】したがって、本発明の目的は、機械翻訳シ
ステムの内部に組み込まれた辞書の内容を変更すること
なく、辞書の登録語数を実質的に増大させた場合と同様
の精度で機械翻訳することを可能とする機械翻訳のため
の前処理装置を提供することである。

【０００９】

【課題を解決するための手段】この発明のある局面によ
る機械翻訳前処理装置は、ソース言語の入力テキストを
機械翻訳装置に入力するに先立って、機械翻訳の精度を
高めるために入力テキストを前処理するための機械翻訳
前処理装置であって、ソース言語のテキストを入力する
ための入力手段と、ソース言語の見出し語と、予め定め
られた言語の対応語との対を含むエントリを有する前処
理辞書テーブルを記憶するための手段と、入力手段によ
って入力されたテキストに含まれる語に対し、前処理辞
書テーブルから該当する見出し語を有するエントリを検
索するための検索手段と、検索手段によって検索された
エントリに含まれる予め定められた言語の対応語で、テ
キストの一部を置換するための置換手段とを含む。

【００１０】好ましくは機械翻訳前処理装置はさらに、
ソース言語の単語についての形態素情報を含んだ形態素
情報テーブルを記憶するための手段と、形態素情報テー
ブルを参照してテキストを解析し形態素に分割して検索
手段に与えるための形態素解析手段とを含む。

【００１１】好ましくは、予め定められた言語は、ソー
ス言語とは異なる言語であり、前処理辞書テーブルのエ
ントリの各々は、ソース言語の見出し語と、予め定めら
れた言語の対応語との対に加えて、ソース言語の見出し
語の意味情報をさらに含み、置換手段は、検索手段によ
って検索されたエントリに含まれる予め定められた言語
の対応語で、テキストの一部を置換し、さらに予め定め
られた言語の対応語に対応の見出し語の意味情報を付与
するための手段を含み、機械翻訳前処理装置は、付与手
段によって一部が置換されたテキストを機械翻訳装置に
よって予め定められた言語の文に機械翻訳した結果か
ら、付与するための手段によって付与された意味情報を
削除するための手段をさらに含む。

【００１２】好ましくはまた、前処理辞書テーブルのエ
ントリの各々の、ソース言語の見出し語に対応する意味
情報は、対応の見出し語を構成する形態素の中の一つで
ある。

【００１３】好ましくは、前処理辞書テーブルのエント
リの見出し語は表意文字の組合わせを含み、見出し語に
対応する意味情報は、見出し語の末尾の一文字のみを含
んでもよい。

【００１４】本発明のある局面によれば、ソース言語
は、表意文字として漢字を使用する言語であり、意味情
報は、対応の見出しの末尾の漢字一文字のみを含む。

【００１５】さらに他の局面によれば、前処理辞書テー
ブルのエントリの各々は、ソース言語の見出し語と、予
め定められた言語の対応語との対に加えて、予め定めら
れた言語の対応語の語形情報をさらに含み、置換手段
は、検索手段によって検索されたエントリに含まれる予
め定められた言語の対応語で、テキストの一部を置換
し、さらに予め定められた言語の対応語の語形情報を付
与するための手段を含み、機械翻訳前処理装置は、付与
手段によって一部が置換されたテキストを機械翻訳装置
によって予め定められた言語の文に機械翻訳した結果か
ら、付与するための手段によって付与された語形情報に
したがって、機械翻訳した結果中に含まれる予め定めら
れた言語の対応語の語形を修正するための手段をさらに
含む。

【００１６】予め定められた言語は、ソース言語と同一
言語であってもよい。

【００１７】

【発明の実施の形態】以下、本発明の機械翻訳前処理装
置について第１〜第７の実施の形態の装置について説明
する。以下の説明では機械翻訳は日本語から英語への翻
訳であるもの（日英翻訳システム）とするが、本発明は
日英翻訳システムに限定されるわけではない。［第１の実施の形態］図１を参照して、本願発明の第１
の実施の形態にかかる機械翻訳前処理装置は、コンピュ
ータのＣＰＵ（中央演算処理装置）によって構成され、
制御プログラムにしたがって機械翻訳前処理装置の各部
を制御するための制御部１０１と、自然言語で入力され
た文の入力、前編集処理のためのオペレータによる指示
の入力、他の情報処理端末とのデータ通信、および制御
プログラムのインストールなどを行なうための入力部１
０２と、入力部１０２による入力結果、制御部１０１の
制御によるソース言語のテキストの前処理による変換結
果などを表示したり印刷したりするための出力部１０３
と、ソース言語のテキストを前処理するための見出し語
とその訳語との対からなるエントリを含む前編集のため
の辞書を記憶するためのテーブルメモリ１０４と、制御
部１０１によって実行される制御プログラムを記憶する
ためのプログラムメモリ１０５と、ソース言語の前編集
処理における作業領域として使用されるバッファメモリ
１０６と、これら各部１０１、１０２、１０３、１０
４、１０５および１０６を互いに結合し、制御プログラ
ムおよびアドレスデータをこれらの間で転送するための
バス１０８とを含む。

【００１８】制御部１０１は、プログラムメモリ１０５
から制御プログラムを読出し、この制御プログラムを実
行することによってバス１０８を介して各部を制御し、
本実施の形態の機械翻訳前処理装置を実現する。

【００１９】入力部１０２は、キーボード、マウス、ペ
ン、タブレット、スキャナーなどの入力装置、文字認識
装置、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−Ｒｅ
ａｄＯｎｌｙＭｅｍｏｒy）、ＦＤ（Ｆｌｅｘｉｂｌ
ｅＤｉｓｋ）、ＤＶＤ（ＤｉｇｉｔａｌＶｉｄｅｏ
Ｄｉｓｃ）などの記憶媒体から情報を読取るための記
憶媒体読取装置、通信回線と接続される通信装置などを
含む。

【００２０】出力部１０３は、ＣＲＴ（陰極線管）ディ
スプレイ、ＬＣＤ（液晶表示装置）、ＰＤ（プラズマデ
ィスプレイ）などからなる表示装置と、サーマルプリン
タ、レーザプリンタなどからなる印刷装置とを含む。

【００２１】テーブルメモリ１０４、プログラムメモリ
１０５、およびバッファメモリ１０６は、たとえば、マ
スクＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｍｅｏｒｙ）、Ｅ
ＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌ
ｅＲＯＭ），ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌ
ｙＥｒａｓａｂｌｅＲＯＭ）、フラッシュＲＯＭな
どからなる半導体メモリ、または磁気テープもしくはカ
セットテープなどのテープ系の記憶媒体、またはＦＤも
しくはハードディスクなどの磁気ディスク、またはＣＤ
−ＲＯＭ，ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌ），
ＤＶＤなどの光ディスクもしくは光磁気ディスク、また
はメモリカードも含むＩＣカードもしくは光カードなど
のカード系の記憶媒体の任意の組み合わせを含む。

【００２２】テーブルメモリ１０４は、前処理に必要な
日本語の見出し語と、その英語の訳語とを連付けて記憶
した前編集辞書テーブル１０４１を記憶している。

【００２３】図２を参照して、前編集辞書テーブル１０
４１は、ソース言語の語彙と、機械翻訳システムにおけ
るターゲット言語の訳語に相当する語彙とが対となった
見出しを複数個記憶している。

【００２４】プログラムメモリ１０５は、入力されたソ
ース言語のテキストに対して、前処理辞書テーブル１０
４１を参照した辞書引き処理を行なう辞書引き部１０５
１と、前処理辞書テーブル１０４１内に対応の見出し語
が見出された語彙を見出し語の内容にしたがってしかる
べき語彙で置換するための置換部１０５２として機能す
るプログラムとを記憶している。

【００２５】バッファメモリ１０６は、入力されたソー
ス言語の翻訳対象の文を記憶するための入力文バッファ
１０６１と、入力文に対して前処理辞書テーブル１０４
１を参照して行なわれた辞書引き処理の結果を記憶する
ための辞書引き結果バッファ１０６２と、入力文の語彙
を、辞書引きの結果にしたがってしかるべき語彙で置換
した結果を記憶するための置換結果バッファ１０６３と
を含む。

【００２６】記憶媒体１０７は、たとえば、マスクＲＯ
Ｍ（Ｒｅａｄ−ＯｎｌｙＭｍｅｏｒｙ）、ＥＰＲＯＭ
（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯ
Ｍ），ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒ
ａｓａｂｌｅＲＯＭ）、フラッシュＲＯＭなどからな
る半導体メモリ、または磁気テープもしくはカセットテ
ープなどのテープ系の記憶媒体、またはＦＤもしくはハ
ードディスクなどの磁気ディスク、またはＣＤ−ＲＯ
Ｍ，ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌ），ＤＶＤ
などの光ディスクもしくは光磁気ディスク、またはメモ
リカードも含むＩＣカードもしくは光カードなどのカー
ド系の記憶媒体の任意の組み合わせを含む。記憶媒体１
０７は、この機械翻訳前処理装置の入力部１０２に着脱
可能であって、本実施の形態の機械翻訳前処理を実現す
るための機械翻訳前処理プログラムを固定的に担持する
ためのものである。

【００２７】この機械翻訳前処理プログラムを入力部１
０２の記憶媒体読取装置を介してプログラム１０５内の
領域にインストールすることにより、本実施の形態の機
械翻訳前処理装置が実現できる。または、入力部１０２
中の通信装置を介して接続された外部ネットワークのい
ずれかのコンピュータからプログラムを受信し、プログ
ラムメモリ１０５にインストールしてもよい。通信ネッ
トワークからプログラムを受信する場合には、そのため
の通信プログラムをあらかじめプログラムメモリ１０５
等に格納しておけばよい。

【００２８】図３を参照して、この第１の実施の形態の
機械翻訳前処理装置を実現するための制御プログラムは
次のような制御構造を有する。入力部１０２に入力され
た日本語文を、制御部１０１により入力バッファ１０６
１に格納する（ステップ２０１）。

【００２９】辞書引き部１０５１により、入力バッファ
１０６１に格納した日本語文の各語に対して前処理辞書
テーブル１０４１内に対応するエントリがあるか否かを
調べる（２０２）。対応するエントリがあった場合に
は、そのエントリの見出し語と訳語とを辞書引き結果バ
ッファ１０６２に格納してステップ２０４に進む。対応
するエントリがなかった場合には、入力文バッファ１０
６１の内容を置換結果バッファ１０６３にコピーしてス
テップ２０５に進む。

【００３０】ステップ２０４では、置換部１０５２が、
入力文バッファ１０６１に格納された日本語文中の、辞
書引き結果バッファ１０６２に格納された見出し語を辞
書引き結果バッファ１０６２に格納された対応する訳語
に変換して置換結果バッファ１０６３に格納する。

【００３１】続いてステップ２０５で、置換結果バッフ
ァ１０６３に格納されている日本語文を出力部１０３を
介して図示しない機械翻訳システムに与え、翻訳を行な
わせる。こうして、翻訳結果が得られる。得られた翻訳
結果は、機械翻訳システムの辞書にない単語であって
も、この機械翻訳前処理装置による前処理を行なうこと
により、機械翻訳の前に適切な訳語に置換されているた
め、得られた翻訳結果は前処理を行なわなかった場合と
比較してより適切なものとなる。

【００３２】たとえば、例として「彼はプリンストン大
学に入学した。」という文を翻訳する場合を例として説
明する。機械翻訳システムの辞書には「プリンストン大
学」という語がなかったものとする。すると、前処理を
行なわなかった場合には「プリンストン」という語が適
切に訳されないこととなり、望ましい結果を得られな
い。これに対して、前処理辞書テーブル１０４１の内容
が図２に示すようなものである場合には、辞書引き部１
０５１の機能によって、入力文バッファ中の「プリンス
トン大学」という語（図４の上段参照）に対して、「Pr
inceton University」という語が訳語として辞書引き結
果バッファに格納される。さらに置換部１０５２の機能
によって、入力文バッファ中の文の「プリンストン大
学」という語が「Princeton University」と置換されて
置換結果バッファ１０６３に「彼はPrinceton Universi
tyに入学した。」となって格納される。この文を機械翻
訳システムに与えて翻訳することにより、「He entered
Princeton University」と翻訳される。

【００３３】一方、このような前処理を行なわず、入力
文バッファ１０６１の内容をそのまま同じ機械翻訳シス
テムに与えて翻訳させたところ、「He entered プリン
ストン university」となる。両者を比較すると、本実
施の形態の機械翻訳前処理システムを行なった場合の方
が、原文の「プリンストン大学」の部分がきちんと訳さ
れており、より適切な英文が翻訳結果として得られた。

【００３４】本実施の形態のシステムでは、機械翻訳シ
ステム内の辞書に「プリンストン大学」と「Princeton
University」という語との対からなるエントリを登録す
ることなく、適切な翻訳を得ることができる。仮に機械
翻訳システムの辞書の内容を変更することが不可能な場
合であっても、実質的に機械翻訳システムの辞書の登録
語数を増加させたのと同様の効果を得ることができる。
しかも本実施の形態の機械翻訳前処理装置では、機械翻
訳システムの辞書の形式とは独立に前処理辞書テーブル
１０４１を作成すればよく、その登録語数も自由に設定
することができる。そのため、機械翻訳システムの内部
を全く変更することなく、実質的に機械翻訳システムに
含まれる辞書の登録語数を大幅に増やしたのと同様に翻
訳の精度を向上させることができるという効果を得るこ
とができる。［第２の実施の形態］第２の実施の形態にかかる機械翻
訳前処理装置は、入力文に対して形態素解析を行なう点
で第１の実施の形態の装置とは異なる。図５を参照し
て、この第２の実施の形態の装置が、その構成上で第１
の実施の形態の装置と異なるのは、テーブルメモリ１０
４が前処理辞書テーブル１０４１に加えて、形態素解析
のための形態素情報テーブル１０４２を含むことと、プ
ログラムメモリ１０５が、辞書引き部１０５１、置換部
１０５２に加えて、入力文バッファ１０６１に格納され
たソース言語の入力文に対して形態素解析を行なうため
の形態素解析部１０５４を含むことと、バッファメモリ
１０６が、入力文１０６１、辞書引き結果バッファ１０
６２，置換結果バッファ１０６３に加えて、形態素解析
部１０５４による形態素解析結果を格納するための形態
素解析結果バッファ１０６４をさらに含むこととであ
る。図５において、図１と同じ部品には同じ参照番号お
よび同じ名称を付してある。それらの機能も同じであ
る。したがってここではそれらについての詳細な説明は
繰り返さない。なお、形態素解析はこの分野においては
周知の事項であり、その実現方法についても周知であ
る。したがってここではその内容の詳細については触れ
ない。

【００３５】図６を参照して、この第２の実施の形態の
機械翻訳前処理装置を実現するプログラムは、図３に示
される第１の実施の形態の装置の制御プログラムにおい
て、ステップ２０２に代えて、形態素解析部１０５４に
相当するステップ３０２１および３０２２を含んでいる
点が異なる。図６において、図３と同じステップには図
３と同じ参照番号を付してある。

【００３６】この第２の実施の形態の装置では、入力文
バッファ１０６１に格納された入力文に対して、ステッ
プ３０２１において、形態素情報テーブル１０４２を参
照した形態素解析が行なわれ、その結果が形態素解析結
果バッファ１０６４に格納される。その形態素解析され
た結果に基づいて、辞書引き部１０５１がステップ３０
２２で前処理辞書テーブル１０４１に対応のエントリが
存在するか否かを調べる。入力文が形態素解析の結果、
適切に形態素に分割されているので、辞書引き部１０５
１は、分割された形態素と、それらの結合のみについ
て、対応のエントリを検索すればよい。そのため、文を
不適切な形で分割した結果をも含んで辞書引きを行なう
場合と比較して、処理を高速化でき、辞書引きの精度、
したがって最終的な機械翻訳の精度も向上させることが
できる。

【００３７】たとえば、前述の例文「彼はプリンストン
大学に入学した。」という文を考える。この文は、形態
素解析の結果「彼/は/プリンストン/大学/に/入学し/た
/。」というように形態素に分割される。辞書引きの際
には、これら単語と、その結合のみについて、対応のエ
ントリを検索すればよい。この結果、たとえば「彼は
プ」とか、「学に入学し」などのように辞書のエントリ
として存在するはずのない文字列でエントリを検索する
ことがなくなり、辞書引きが高速化できること、精度も
向上することがわかる。

【００３８】以上のようにこの第２の実施の形態の装置
では、第１の実施の形態の効果に加えて、前処理を高速
化でき、かつその精度を向上させることができる。その
結果、機械翻訳システムによる翻訳の精度も向上させる
ことができる。［第３の実施の形態］図７に、本発明の第３の実施の形
態の機械翻訳前処理システムのブロック図を示す。この
装置が図１に示すものと異なるのは、前処理辞書テーブ
ル１０４１の各エントリが、見出し語と、訳語と、意味
情報とを含んでいることと、プログラムメモリ１０５
が、辞書引き部１０５１、置換部１０５２に加えて、辞
書引きの結果得られた単語の意味情報を含んで置き換え
られた単語を用いて機械翻訳された結果から、意味情報
に相当する部分を削除する後処理を行なうための後処理
部１０５３を含んでいる点と、バッファメモリ１０６
が、図示しない機械翻訳システムで翻訳された結果を格
納するための翻訳結果バッファ１０６５を含んでいる点
とである。

【００３９】図８に、この第３の実施の形態の前処理辞
書テーブル１０４１の見出しの例を示す。たとえば「大
量出血」という見出しには「hemorrhage」という訳語が
割り当てられているが、さらに意味情報として［出血］
が割り当てられている。ほかの見出しについても同様で
ある。

【００４０】図９に、この第３の実施の形態の装置にお
ける制御プログラムのフローチャートを示す。図９を参
照して、入力部１０２に入力された日本語文を、制御部
１０１により入力文バッファ１０６１に格納する（４０
１）。

【００４１】辞書引き部１０５１により、入力文バッフ
ァ１０６１に格納された日本語文に対して前処理辞書テ
ーブル１０４１のエントリを辞書引きする。続いてステ
ップ４０３で辞書引きが成功したか否かを判定し、成功
した場合には結果の見出し語と訳語と意味情報とを辞書
引き結果バッファ１０６２に格納して制御はステップ４
０４に進み、失敗した場合には入力文を置換結果バッフ
ァ１０６３にコピーして制御はステップ４０５に進む。

【００４２】ステップ４０４では、置換部１０５２によ
り、入力文バッファ１０６１に格納された日本語文中
の、辞書引き結果バッファ１０６２に格納された見出し
語を訳語に変換し、置換結果バッファ１０６３に格納す
る。このとき、辞書引き結果バッファ１０６２に格納さ
れた意味情報を、機械翻訳システムが正しく解釈できる
形式で置換結果バッファ１０６３に格納する。たとえば
機械翻訳システムが、ある単語に対して記号「◎」を挟
んで意味情報が後置されている場合に、記号「◎」の前
の語の関連部分を訳すときに、記号「◎」の後の意味情
報に即した単語を使用する機能を有している場合、ステ
ップ４０４では訳語の後ろに記号「◎」を挟んで意味情
報を後置する。

【００４３】続いて、置換結果バッファ１０６３に格納
された日本語文を出力部１０３を介して図示しない機械
翻訳システムで翻訳する。その結果を翻訳結果バッファ
１０６５に格納する。

【００４４】ステップ４０６では、ステップ４０４での
意味情報の付加が行なわれた文か否かについての判定が
行なわれ、付加が行なわれた文である場合には制御はス
テップ４０７に、それ以外の場合には制御はステップ４
０８に、それぞれ進む。

【００４５】ステップ４０７では、翻訳結果バッファ１
０６５に格納された翻訳結果文から、ステップ４０４で
付与された意味情報に該当する部分を削除する後処理を
行ない、翻訳結果バッファ１０６５に格納し直す処理が
行なわれる。この処理が図７の後処理部１０５３が行な
う処理に相当する。上の説明の場合、記号「◎」に続く
語が削除される。こうして得られた結果の文をステップ
４０８で出力する。

【００４６】より具体的な文を例としてこの第３の実施
の形態の機械翻訳前処理装置の動作について説明する。
例として「妊婦が大量出血を起こした。」という文が入
力されたものとする。この文に対する辞書引きの結果、
「大量出血」という語に対して「hemorrhage」が辞書引
きされたとする。このとき、辞書引き結果バッファ１０
６２には、「大量出血」「hemorrhage」という、見出し
語、訳語の対に加えて「病気」という意味情報も格納さ
れる。図８に示すように、「大量出血」「hemorrhage」
という対には「病気」という意味情報が付加されている
ためである。

【００４７】ステップ４０４の結果、置換結果バッファ
１０６２の内容は「妊婦が<hemorrhage◎病気>を起こし
た。」となる。これを機械翻訳装置に与えたとすると、
前述の通りこの機械翻訳システムが、記号「◎」の前の
単語の関連部分については、記号「◎」に後置されてい
る意味情報を考慮して翻訳する機能を有しているので、
「A pregnant woman caused hemorrhage◎illness.」が
翻訳結果として得られる。後処理部１０５３によりステ
ップ４０７で「◎illness」が削除されるので、最終的
に得られる訳文は「A preg nant woman caused hemorr
hage.」となる。この結果は、意味情報を付与せずに入
力文の「大量出血」を「hemorrhage」と置換しただけの
文「妊婦がhemorrhageを起こした。」を機械翻訳した結
果得られた訳文「A pregnant woman set up large-scal
e bleeding.」と比較すると、より適切な英文が得られ
ていることがわかる。つまり、「起こした」の箇所が
「set up」から「caused」に、「大量出血」の意味を反
映してより適切な単語に置き換えられている。

【００４８】以上のようにこの第３の実施の形態の装置
によれば、前処理辞書テーブルに意味情報が付与されて
おり、機械翻訳システムには英語訳語に加えてその意味
情報が与えられる。そのため、機械翻訳システムはこの
意味情報を用いてより適切な翻訳を行なうことができ、
翻訳システム全体の翻訳精度を向上させることができ
る。［第４の実施の形態］第４の実施の形態の機械翻訳前処
理装置は、第３の実施の形態の装置とほぼ同様の構成で
あるが、前処理情報テーブル１０４１の中の意味情報と
して見出し語の部分形態素を採用している点が異なる。
つまり、予め見出し語を形態素分析しておき、得られた
形態素のうちの一つを意味情報として用いる。

【００４９】この場合の前処理辞書テーブル１０４１の
内容の一例を図１０に示す。図１０を参照して、たとえ
ば「大量出血」という見出し語は、「大量/出血」と形
態素分析される。そこで、この二つの形態素「大量」お
よび「出血」のうち、意味を表すためにより適切と思わ
れる「出血」という語を意味情報として用いる。

【００５０】前処理辞書テーブル１０４１をこのように
作成した場合、第３の実施の形態の装置と全く同様のハ
ードウェア構成、機能ブロック構成およびソフトウェア
構成で、第３の実施の形態と同様に、意味情報を用いた
精度の高い機械翻訳を実現するための前編集処理が可能
となる。

【００５１】たとえば、第３の実施の形態の装置では、
「妊婦が大量出血を起こした。」という入力文に対する
置換結果バッファ１０６３の内容は、「妊婦が<hemorrh
age◎病気>を起こした。」となっていた。それに対して
本実施の形態の装置では、置換結果バッファ１０６３の
内容は「妊婦が<hemorrhage◎出血>を起こした。」とな
る。この文を機械翻訳にかけた結果、「出血」という意
味情報に応じて適切な訳語が選択され、「A pregnant w
oman caused hemorrhage◎bleeding.」という翻訳結果
が得られる。後処理部１０５３による後処理によって
「◎」の次の語を削除した結果、「A pregnant woman c
aused hemorrhage.」という、第３の実施の形態の装置
によるものと同じ訳文が得られる。

【００５２】前処理辞書テーブルの見出し語に意味情報
を付与するためには、大規模なシソーラスを用いて見出
し語に対する意味情報を決定したり、人手で意味情報を
チェックしたりする必要がある。そのために、前処理辞
書テーブルのコストが上昇するおそれがある。しかしこ
の第４の実施の形態の装置では、予め見出し語を形態素
解析し、分割された形態素のうちの一つを意味情報とし
て用いる。特に、日本語の漢字の組合わせからなる複合
語の場合には、分割された形態素のうちの一つ、たとえ
ば最後の一つが適切にその複合語の意味情報を表す場合
が多い。そのため、大規模なシソーラスを用いる必要が
なく、各見出し語に意味情報を付与することができる。
また、形態素分析し、そのうちの一語を意味情報として
見出し語に付与する操作は自動的に行なうことができ
る。そのため、前処理辞書テーブル１０４１のコストの
上昇を抑えることができる。［第５の実施の形態］第５の実施の形態の機械翻訳前処
理装置は、図７に示す第３の実施の形態にかかる機械翻
訳前処理装置と同様のハードウェア構成、機能ブロック
構成およびソフトウェア構成で、ただ前処理辞書テーブ
ルの各見出し語への意味情報の付与の方法のみが異な
る。したがってこの第５の実施の形態の装置の構成およ
び機能は、第４の実施の形態にかかる機械翻訳前処理装
置の場合と類似している。

【００５３】この第５の実施の形態の装置の前処理辞書
テーブルでは、各見出し語に付与される意味情報とし
て、見出し語の末尾の一文字を用いる。たとえば図１１
に示すように、「大量出血」に対して「血」を、「血友
病患者」に対して「者」を、「血色素」に対して「素」
のごとくである。

【００５４】一般に、日本語の漢字の組合わせからなる
複合語では末尾の語がその複合語の意味を最もよく表し
ている。また漢字は表意文字であって、一文字である意
味を表せる。複合語では、「形容詞的な漢字」＋「修飾
される概念を表す漢字」という組合わせがおおい。つま
りある語がたとえば二文字の漢字からなっている場合、
「出血」「止血」「吐血」がいずれも「血」に関連する
語群に属し、「白雲」「黒雲」「青雲」がいずれも
「雲」に関連する語群に属するように、二文字のうちの
末尾の漢字一文字によって、その語が属する包括的な語
群が表わされていることが多い。そこで、この第５の実
施の形態のように見出し語の末尾の一文字を見出し語の
意味情報として採用した。

【００５５】この第５の実施の形態の場合、前述の「妊
婦が大量出血を起こした。」という入力文に対する置換
結果バッファ１０６３の内容は、「妊婦が<hemorrhage
◎血>を起こした。」となる。この文を機械翻訳にかけ
た結果、「血」という意味情報に応じて適切な訳語が選
択され、「A pregnant woman caused hemorrhage◎bloo
d.」という翻訳結果が得られる。後処理部１０５３によ
る後処理によって「◎」の次の語を削除した結果、「A
pregnant woman caused hemorrhage.」という、第３お
よび第４の実施の形態の装置によるものと同じ訳文が得
られる。

【００５６】このように、見出し語の末尾の一文字をそ
の意味情報として採用する場合、第４の実施の形態の場
合よりもさらに意味情報の付与作業が簡単となる。その
ため前処理辞書テーブル１０４１を作成する場合に要す
る手間を削減でき、コストの上昇を抑えることができ
る。さらにこのような方法を採用する場合には、前処理
辞書テーブル１０４１に意味情報を付与しておくことな
く、前処理時に、置換部１０５２による作業のときに意
味情報を付与することが容易に行なえる。［第６の実施の形態］第６の実施の形態にかかる機械翻
訳前処理装置のハードウェア、および機能ブロックの構
成は、図７に示した第３の実施の形態のものと同様であ
る。第６の実施の形態の装置では、前処理辞書テーブル
１０４１において、各エントリを、見出し語と、英語訳
語、および英語の語形情報とからなるようにした点が第
３の実施の形態と異なる点である。図１２に、この第６
の実施の形態における前処理辞書テーブル１０４１の内
容の例について示す。

【００５７】図１２に示す例では、語形情報として英語
単語の複数形に関する語形情報を与えている。

【００５８】図１３に、この第６の実施の形態の機械翻
訳前処理装置の制御プログラムのフローチャートを示
す。図１３に示すフローチャートは、図９に示した第３
の実施の形態の装置のフローチャートにおいて、ステッ
プ４０３および４０４をそれぞれステップ５０３および
５０４で置換し、ステップ４０６および４０７をそれぞ
れステップ５０６および５０７で置換したものである。
ステップ４０１、４０２、４０５、および４０８は図９
に示すものと同様である。したがってこれらステップに
ついてはその詳細な説明はここでは繰返さない。

【００５９】ステップ５０３では、ステップ４０２での
辞書引き処理の結果、辞書引きが成功したか否かを判定
する。辞書引きに成功した場合には、結果の見出し語と
訳語と語形情報とを辞書引き結果バッファ１０６２に格
納して、制御はステップ５０４に進む。辞書引きに失敗
した場合には、入力文を置換結果バッファ１０６３にコ
ピーして制御はステップ４０５に進む。

【００６０】ステップ５０４では、置換部１０５２によ
り、入力文バッファ１０６１に格納された日本語文中
の、辞書引き結果バッファ１０６２に格納された見出し
語を訳語に置換し、置換結果バッファ１０６３に格納す
る。このとき、後に見出し語に対応する語形情報によ
り、置換後の訳語を複数形にするために、この後に用い
る機械翻訳システムにおいて複数形情報が正しく解釈で
きる形式に置換結果バッファ１０６３の内容を修正す
る。ここでは、後に使用する機械翻訳システムにおい
て、複数形情報を正しく解釈し翻訳できるようにするた
めには、辞書引きによって得られた英語訳語の後に、一
例として記号「◎」をはさんで、見出し語の意味を表す
語であって、機械翻訳システムが容易に複数形にできる
語を付加するものとする。

【００６１】ステップ４０５で、置換結果バッファ１０
６３の内容を機械翻訳システムによって翻訳する。

【００６２】ステップ５０６において、ステップ５０４
で語形情報を付与したか否かについて判定し、付与した
場合には制御はステップ５０７に進み、付与しなかった
場合には制御はステップ４０８に進む。

【００６３】ステップ５０７では、ステップ５０４で入
力文に付与した情報の翻訳結果と、ステップ４０２での
辞書引きの結果得られた語形情報とから、見出し語に対
応する語の語形を修正する。ここでは、機械翻訳の結
果、見出し語に対応する英語訳語の直後に、記号「◎」
を挟んでステップ５０４で付与された語の複数形が出力
され、翻訳結果バッファ１０６５に格納される。この記
号「◎」の直後の語が機械翻訳システムにより複数形と
して訳されていれば、その直前の語を複数形にしなけれ
ばならないことが分かる。そこで、辞書引きの結果得ら
れた複数形に基づき、翻訳結果中の英語訳語を複数形に
修正し、翻訳結果バッファ１０６５に結果を再格納す
る。

【００６４】ステップ４０８で翻訳結果を出力し、処理
を終了する。具体的な例を挙げて説明する。入力文とし
て「３人の妊産婦が呼ばれた。」が与えられたものとす
る。図１２に示される前処理辞書テーブルに対する辞書
引きにより、「妊産婦」に対する英語訳語として「part
urient」が得られ、さらにその複数形に関する語形情報
「-s」も得られる。

【００６５】ステップ５０４では、「３人の妊産婦が呼
ばれた。」という語が置換部１０５２の処理によって
「３人の<parturient◎少女>が呼ばれた。」という文に
変換される。「◎」の直後の「少女」が翻訳後の語形修
正のために原文に付与される情報であるこの文を機械翻
訳システムに与えることにより、翻訳結果として「Thre
e parturient◎, girls, were called.」という文が得
られたものとする。「少女」が「girls」と訳されてい
ることから、「◎」の直前の「parturient」を複数形に
しなければならないことが分かる。一方、ステップ４０
２および５０３での辞書引き処理の結果、「parturien
t」の複数形が「parturients」であることは分かってい
る。そこで、ステップ５０７においては後処理として
「Three parturient◎, girls, were called.」の「par
turient」をその複数形である「parturients」に修正
し、ステップ５０４で付与された記号「◎」とその直後
の単語に該当する部分「◎, girs」とを翻訳結果から削
除する。その結果、「Three parturients were calle
d.」という正しい翻訳結果が得られる。

【００６６】以上のようにこの第６の実施の形態の機械
翻訳前処理装置によれば、翻訳後の単語の複数形などの
語形を正しく修正し、翻訳の精度を高めることが可能と
なる。［第７の実施の形態］第７の実施の形態にかかる機械翻
訳前処理装置は、図１に示した第１の実施の形態の装置
と同様のハードウェア構成、機能ブロック構成およびソ
フトウェア構成を有する。この第７の実施の形態の装置
は、前処理辞書テーブル１０４１の各エントリが、図１
４に示すように、ソース言語である日本語の見出し語
と、同じ日本語で見出し語を言い換えた語との対からな
る点で第１の実施例と異なっている。その他の点では両
者は同じである。

【００６７】ここでの「言い換え」とは、機械翻訳シス
テムの辞書中に含まれていない単語を、機械翻訳システ
ムの辞書に登録されているそれとほぼ同じ意味の単語に
置換することをいう。このように、入力文に含まれる、
機械翻訳システムの辞書に含まれていない単語を、機械
翻訳システムに含まれているよく似た意味の単語と置換
する処理を予め前処理として入力文に適用することによ
り、機械翻訳の精度が向上するであろうことは当業者で
あれば容易に理解できるであろう。

【００６８】たとえば、ある機械翻訳システムの辞書に
「懐妊」はないが「妊娠」ならある場合を考える。入力
文が「王女の懐妊が伝えられた。」というものである場
合、これを直接この機械翻訳システムで翻訳すると、
「懐妊」がうまく翻訳できず、たとえば「Princess' bo
som 妊 was transmitted.」などという翻訳結果とな
る。しかしこれを前処理によって「王女の妊娠が伝えら
れた。」と言い換えておくことにより、同じ機械翻訳シ
ステムで翻訳すると「Princess' pregnancy was transm
itted.」となり、言い換えをしなかった場合と比較して
より適切な翻訳結果を得ることができる。

【００６９】この実施の形態の装置では、前処理辞書テ
ーブル１０４１として、「懐妊」「妊娠」のような類義
語を登録しておくだけでなく、「見積もり」「見積り」
などの異綴り語を言い換え語として登録してもよい。ま
た、「資料収集」などの複合語を「資料の収集」と基本
的な語の組合わせに言い換えるエントリを登録してもよ
い。要は、機械翻訳システムの辞書に登録されていない
単語を、前処理によって、機械翻訳システムの辞書に登
録されている単語またはそれらの組合わせに置換えてし
まう、ということである。

【００７０】この実施の形態の装置によれば、前処理辞
書の各エントリが、ソース言語の語の対となるため、ソ
ース言語と訳語との対でエントリを構成する場合と比較
して、前処理辞書テーブルの作成が容易であるという効
果がある。

【００７１】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態にかかる機械翻訳
前処理装置の機能ブロック図である。

【図２】第１の実施の形態の装置の前処理辞書テーブ
ルの内容の例を示す図である。

【図３】第１の実施の形態の装置の制御プログラムの
フローチャートである。

【図４】第１の実施の形態の装置における各バッファ
の内容を示す図である。

【図５】本発明の第２の実施の形態にかかる機械翻訳
前処理装置の機能ブロック図である。

【図６】第２の実施の形態の装置の制御プログラムの
フローチャートである。

【図７】本発明の第３の実施の形態にかかる機械翻訳
前処理装置の機能ブロック図である。

【図８】第３の実施の形態の装置の前処理辞書テーブ
ルの内容の例を示す図である。

【図９】第３の実施の形態の装置の制御プログラムの
フローチャートである。

【図１０】第４の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。

【図１１】第５の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。

【図１２】第６の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。

【図１３】第６の実施の形態の装置の制御プログラム
のフローチャートである。

【図１４】第７の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。

【符号の説明】

１０１制御部、１０２入力部、１０３出力部、１
０４テーブルメモリ、１０５プログラムメモリ、１
０６バッファメモリ、１０４１前処理辞書テーブ
ル、１０４２形態素情報テーブル、１０５１辞書引
き部、１０５２置換部、１０５３後処理部、１０５４
形態素解析部、１０６１入力文バッファ、１０６２
辞書引き結果バッファ、１０６３置換結果バッフ
ァ、１０６４形態素解析結果バッファ、１０６５翻
訳結果バッファ。

Claims

【特許請求の範囲】

【請求項１】ソース言語の入力テキストを機械翻訳装
置に入力するに先立って、機械翻訳の精度を高めるため
に入力テキストを前処理するための機械翻訳前処理装置
であって、前記ソース言語のテキストを入力するための入力手段
と、前記ソース言語の見出し語と、予め定められた言語の対
応語との対を含むエントリを有する前処理辞書テーブル
を記憶するための手段と、前記入力手段によって入力された前記テキストに含まれ
る語に対し、前記前処理辞書テーブルから該当する見出
し語を有するエントリを検索するための検索手段と、前記検索手段によって検索されたエントリに含まれる前
記予め定められた言語の対応語で、前記テキストの一部
を置換するための置換手段とを含む、機械翻訳前処理装
置。
【請求項２】さらに、前記ソース言語の単語について
の形態素情報を含んだ形態素情報テーブルを記憶するた
めの手段と、前記形態素情報テーブルを参照して前記テキストを解析
し形態素に分割して前記検索手段に与えるための形態素
解析手段とを含む、請求項１に記載の機械翻訳前処理装
置。
【請求項３】前記予め定められた言語は、前記ソース
言語とは異なる言語であり、前記前処理辞書テーブルのエントリの各々は、前記ソー
ス言語の見出し語と、前記予め定められた言語の対応語
との対に加えて、前記ソース言語の見出し語の意味情報
をさらに含み、前記置換手段は、前記検索手段によって検索されたエン
トリに含まれる前記予め定められた言語の対応語で、前
記テキストの一部を置換し、さらに前記予め定められた
言語の対応語に対応の見出し語の意味情報を付与するた
めの手段を含み、前記機械翻訳前処理装置は、前記付与手段によって一部
が置換された前記テキストを前記機械翻訳装置によって
前記予め定められた言語の文に機械翻訳した結果から、
前記付与するための手段によって付与された意味情報を
削除するための手段をさらに含む、請求項１または２に
記載の機械翻訳前処理装置。
【請求項４】前記前処理辞書テーブルのエントリの各
々の、前記ソース言語の見出し語に対応する意味情報
は、対応の見出し語を構成する形態素の中の一つであ
る、請求項２に記載の機械翻訳前処理装置。
【請求項５】前記前処理辞書テーブルのエントリの見
出し語は表意文字の組合わせを含み、前記見出し語に対応する意味情報は、前記見出し語の末
尾の一文字のみを含む、請求項２に記載の機械翻訳前処
理装置。
【請求項６】前記ソース言語は、表意文字として漢字
を使用する言語であり、前記意味情報は、対応の見出しの末尾の漢字一文字のみ
を含む、請求項５に記載の機械翻訳前処理装置。
【請求項７】前記前処理辞書テーブルのエントリの各
々は、前記ソース言語の見出し語と、前記予め定められ
た言語の対応語との対に加えて、前記予め定められた言
語の対応語の語形情報をさらに含み、前記置換手段は、前記検索手段によって検索されたエン
トリに含まれる前記予め定められた言語の対応語で、前
記テキストの一部を置換し、さらに前記予め定められた
言語の対応語の語形情報を付与するための手段を含み、前記機械翻訳前処理装置は、前記付与手段によって一部
が置換された前記テキストを前記機械翻訳装置によって
前記予め定められた言語の文に機械翻訳した結果から、
前記付与するための手段によって付与された語形情報に
したがって、前記機械翻訳した結果中に含まれる前記予
め定められた言語の前記対応語の語形を修正するための
手段をさらに含む、請求項１または２に記載の機械翻訳
前処理装置。
【請求項８】前記予め定められた言語は、前記ソース
言語と同一言語である、請求項１または２に記載の機械
翻訳前処理装置。