JP2002132764A - 機械翻訳前処理装置 - Google Patents

機械翻訳前処理装置

Info

Publication number
JP2002132764A
JP2002132764A JP2000328469A JP2000328469A JP2002132764A JP 2002132764 A JP2002132764 A JP 2002132764A JP 2000328469 A JP2000328469 A JP 2000328469A JP 2000328469 A JP2000328469 A JP 2000328469A JP 2002132764 A JP2002132764 A JP 2002132764A
Authority
JP
Japan
Prior art keywords
machine translation
language
word
headword
preprocessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000328469A
Other languages
English (en)
Inventor
Kozue Kimura
こずえ 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000328469A priority Critical patent/JP2002132764A/ja
Publication of JP2002132764A publication Critical patent/JP2002132764A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 機械翻訳システムの内部に組み込まれた辞
書の内容を変更することなく、辞書の登録語数を実質的
に増大させた場合と同様の精度で機械翻訳することを可
能とする。 【解決手段】 ソース言語の入力テキストを機械翻訳装
置に入力するに先立って、機械翻訳の精度を高めるため
に入力テキストを前処理するための機械翻訳前処理装置
は、ソース言語のテキストを入力するための入力部10
2と、ソース言語の見出し語と、予め定められた言語の
対応語との対を含むエントリを有する前処理辞書テーブ
ル1041を記憶するテーブルメモリ104と、入力さ
れたテキストに含まれる語に対し、前処理辞書テーブル
1041から該当する見出し語を有するエントリを検索
する辞書引き部1051と、検索されたエントリに含ま
れる予め定められた言語の対応語で、テキストの一部を
置換する置換部1052とを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明はソース言語のテキ
ストをターゲット言語のテキストに翻訳する機械翻訳シ
ステムに関し、特に、機械翻訳に先立ち、機械翻訳の制
度を向上させることおよび機械翻訳の速度を向上させる
ことを目的として、ソース言語のテキストを前処理する
ための装置に関する。
【0002】
【従来の技術】機械翻訳システムは、自然言語で書かれ
たテキストを、主としてコンピュータ処理を用いて他の
言語のテキストに翻訳する。機械翻訳においては、ソー
ス言語の翻訳対象の文をすべて正しく解析し、適切にタ
ーゲット言語に翻訳することが望まれる。
【0003】文の解析には、ソース言語の辞書が参照さ
れる。ソース言語の翻訳対象の文に辞書にない単語があ
らわれたときには、その部分の解析に失敗するため、そ
の部分の翻訳も失敗することが多い。
【0004】したがって、機械翻訳を適切に行なうため
には、システムのソース言語の辞書にできるだけ多く語
彙を登録すること、および辞書の内容を充実させること
が最も重要となる。
【0005】しかし、辞書に登録された語数を増大させ
ようとすると、多大な手間が必要となり、実用的な機械
翻訳システムを商業的に市場に供給しようとする場合に
は問題である。特に機械翻訳システムが大きくなればな
るほど、また辞書に登録されている単語数が多くなれば
なるほど、それまでに構築されてきた辞書およびシステ
ムとの整合性を保ちながら辞書の登録語数を増大させる
ことは困難な作業で、多大な人的資源を必要とし、その
結果辞書のコスト、したがって機械翻訳システムのコス
トを上昇させてしまう。
【0006】また、他から購入した機械翻訳システムを
使用する場合などには、システムの内部を参照できなか
ったり、変更できなかったりして、辞書の登録語数を増
大させることが不可能な場合がある。したがって、こう
した制約にもかかわらず、実質的に辞書の登録語数を増
大させたのと同じように精度の高い機械翻訳が可能な機
械翻訳システムが望まれている。機械翻訳システム自体
に組込まれている辞書の内容を変更できないのであるか
ら、機械翻訳の前処理としてなんらかの形でソース言語
のテキストを前処理することによって、こうした効果を
達成することが必要である。
【0007】
【発明が解決しようとする課題】ソース言語のテキスト
を前処理することによって機械翻訳の精度を高める先行
技術として、機械翻訳の前処理を行なうための、特開平
5−225232号公報に開示されたものがある。しか
しこの先行技術の公報は、通常は人手で行なう、機械翻
訳のためのテキストの前編集を自動化することによっ
て、機械翻訳の精度については間接的に高めようとする
ものであって、実質的に辞書の登録語数を増大させたの
と同じ効果をもたらすことによって直接的に機械翻訳の
精度を向上させるものではない。
【0008】したがって、本発明の目的は、機械翻訳シ
ステムの内部に組み込まれた辞書の内容を変更すること
なく、辞書の登録語数を実質的に増大させた場合と同様
の精度で機械翻訳することを可能とする機械翻訳のため
の前処理装置を提供することである。
【0009】
【課題を解決するための手段】この発明のある局面によ
る機械翻訳前処理装置は、ソース言語の入力テキストを
機械翻訳装置に入力するに先立って、機械翻訳の精度を
高めるために入力テキストを前処理するための機械翻訳
前処理装置であって、ソース言語のテキストを入力する
ための入力手段と、ソース言語の見出し語と、予め定め
られた言語の対応語との対を含むエントリを有する前処
理辞書テーブルを記憶するための手段と、入力手段によ
って入力されたテキストに含まれる語に対し、前処理辞
書テーブルから該当する見出し語を有するエントリを検
索するための検索手段と、検索手段によって検索された
エントリに含まれる予め定められた言語の対応語で、テ
キストの一部を置換するための置換手段とを含む。
【0010】好ましくは機械翻訳前処理装置はさらに、
ソース言語の単語についての形態素情報を含んだ形態素
情報テーブルを記憶するための手段と、形態素情報テー
ブルを参照してテキストを解析し形態素に分割して検索
手段に与えるための形態素解析手段とを含む。
【0011】好ましくは、予め定められた言語は、ソー
ス言語とは異なる言語であり、前処理辞書テーブルのエ
ントリの各々は、ソース言語の見出し語と、予め定めら
れた言語の対応語との対に加えて、ソース言語の見出し
語の意味情報をさらに含み、置換手段は、検索手段によ
って検索されたエントリに含まれる予め定められた言語
の対応語で、テキストの一部を置換し、さらに予め定め
られた言語の対応語に対応の見出し語の意味情報を付与
するための手段を含み、機械翻訳前処理装置は、付与手
段によって一部が置換されたテキストを機械翻訳装置に
よって予め定められた言語の文に機械翻訳した結果か
ら、付与するための手段によって付与された意味情報を
削除するための手段をさらに含む。
【0012】好ましくはまた、前処理辞書テーブルのエ
ントリの各々の、ソース言語の見出し語に対応する意味
情報は、対応の見出し語を構成する形態素の中の一つで
ある。
【0013】好ましくは、前処理辞書テーブルのエント
リの見出し語は表意文字の組合わせを含み、見出し語に
対応する意味情報は、見出し語の末尾の一文字のみを含
んでもよい。
【0014】本発明のある局面によれば、ソース言語
は、表意文字として漢字を使用する言語であり、意味情
報は、対応の見出しの末尾の漢字一文字のみを含む。
【0015】さらに他の局面によれば、前処理辞書テー
ブルのエントリの各々は、ソース言語の見出し語と、予
め定められた言語の対応語との対に加えて、予め定めら
れた言語の対応語の語形情報をさらに含み、置換手段
は、検索手段によって検索されたエントリに含まれる予
め定められた言語の対応語で、テキストの一部を置換
し、さらに予め定められた言語の対応語の語形情報を付
与するための手段を含み、機械翻訳前処理装置は、付与
手段によって一部が置換されたテキストを機械翻訳装置
によって予め定められた言語の文に機械翻訳した結果か
ら、付与するための手段によって付与された語形情報に
したがって、機械翻訳した結果中に含まれる予め定めら
れた言語の対応語の語形を修正するための手段をさらに
含む。
【0016】予め定められた言語は、ソース言語と同一
言語であってもよい。
【0017】
【発明の実施の形態】以下、本発明の機械翻訳前処理装
置について第1〜第7の実施の形態の装置について説明
する。以下の説明では機械翻訳は日本語から英語への翻
訳であるもの(日英翻訳システム)とするが、本発明は
日英翻訳システムに限定されるわけではない。 [第1の実施の形態]図1を参照して、本願発明の第1
の実施の形態にかかる機械翻訳前処理装置は、コンピュ
ータのCPU(中央演算処理装置)によって構成され、
制御プログラムにしたがって機械翻訳前処理装置の各部
を制御するための制御部101と、自然言語で入力され
た文の入力、前編集処理のためのオペレータによる指示
の入力、他の情報処理端末とのデータ通信、および制御
プログラムのインストールなどを行なうための入力部1
02と、入力部102による入力結果、制御部101の
制御によるソース言語のテキストの前処理による変換結
果などを表示したり印刷したりするための出力部103
と、ソース言語のテキストを前処理するための見出し語
とその訳語との対からなるエントリを含む前編集のため
の辞書を記憶するためのテーブルメモリ104と、制御
部101によって実行される制御プログラムを記憶する
ためのプログラムメモリ105と、ソース言語の前編集
処理における作業領域として使用されるバッファメモリ
106と、これら各部101、102、103、10
4、105および106を互いに結合し、制御プログラ
ムおよびアドレスデータをこれらの間で転送するための
バス108とを含む。
【0018】制御部101は、プログラムメモリ105
から制御プログラムを読出し、この制御プログラムを実
行することによってバス108を介して各部を制御し、
本実施の形態の機械翻訳前処理装置を実現する。
【0019】入力部102は、キーボード、マウス、ペ
ン、タブレット、スキャナーなどの入力装置、文字認識
装置、CD−ROM(Compact Disc−Re
adOnly Memory)、FD(Flexibl
e Disk)、DVD(Digital Video
Disc)などの記憶媒体から情報を読取るための記
憶媒体読取装置、通信回線と接続される通信装置などを
含む。
【0020】出力部103は、CRT(陰極線管)ディ
スプレイ、LCD(液晶表示装置)、PD(プラズマデ
ィスプレイ)などからなる表示装置と、サーマルプリン
タ、レーザプリンタなどからなる印刷装置とを含む。
【0021】テーブルメモリ104、プログラムメモリ
105、およびバッファメモリ106は、たとえば、マ
スクROM(Read−Only Mmeory)、E
PROM(Erasable Programmabl
e ROM),EEPROM(Electricall
y Erasable ROM)、フラッシュROMな
どからなる半導体メモリ、または磁気テープもしくはカ
セットテープなどのテープ系の記憶媒体、またはFDも
しくはハードディスクなどの磁気ディスク、またはCD
−ROM,MO(Magneto−Optical),
DVDなどの光ディスクもしくは光磁気ディスク、また
はメモリカードも含むICカードもしくは光カードなど
のカード系の記憶媒体の任意の組み合わせを含む。
【0022】テーブルメモリ104は、前処理に必要な
日本語の見出し語と、その英語の訳語とを連付けて記憶
した前編集辞書テーブル1041を記憶している。
【0023】図2を参照して、前編集辞書テーブル10
41は、ソース言語の語彙と、機械翻訳システムにおけ
るターゲット言語の訳語に相当する語彙とが対となった
見出しを複数個記憶している。
【0024】プログラムメモリ105は、入力されたソ
ース言語のテキストに対して、前処理辞書テーブル10
41を参照した辞書引き処理を行なう辞書引き部105
1と、前処理辞書テーブル1041内に対応の見出し語
が見出された語彙を見出し語の内容にしたがってしかる
べき語彙で置換するための置換部1052として機能す
るプログラムとを記憶している。
【0025】バッファメモリ106は、入力されたソー
ス言語の翻訳対象の文を記憶するための入力文バッファ
1061と、入力文に対して前処理辞書テーブル104
1を参照して行なわれた辞書引き処理の結果を記憶する
ための辞書引き結果バッファ1062と、入力文の語彙
を、辞書引きの結果にしたがってしかるべき語彙で置換
した結果を記憶するための置換結果バッファ1063と
を含む。
【0026】記憶媒体107は、たとえば、マスクRO
M(Read−Only Mmeory)、EPROM
(Erasable Programmable RO
M),EEPROM(Electrically Er
asable ROM)、フラッシュROMなどからな
る半導体メモリ、または磁気テープもしくはカセットテ
ープなどのテープ系の記憶媒体、またはFDもしくはハ
ードディスクなどの磁気ディスク、またはCD−RO
M,MO(Magneto−Optical),DVD
などの光ディスクもしくは光磁気ディスク、またはメモ
リカードも含むICカードもしくは光カードなどのカー
ド系の記憶媒体の任意の組み合わせを含む。記憶媒体1
07は、この機械翻訳前処理装置の入力部102に着脱
可能であって、本実施の形態の機械翻訳前処理を実現す
るための機械翻訳前処理プログラムを固定的に担持する
ためのものである。
【0027】この機械翻訳前処理プログラムを入力部1
02の記憶媒体読取装置を介してプログラム105内の
領域にインストールすることにより、本実施の形態の機
械翻訳前処理装置が実現できる。または、入力部102
中の通信装置を介して接続された外部ネットワークのい
ずれかのコンピュータからプログラムを受信し、プログ
ラムメモリ105にインストールしてもよい。通信ネッ
トワークからプログラムを受信する場合には、そのため
の通信プログラムをあらかじめプログラムメモリ105
等に格納しておけばよい。
【0028】図3を参照して、この第1の実施の形態の
機械翻訳前処理装置を実現するための制御プログラムは
次のような制御構造を有する。入力部102に入力され
た日本語文を、制御部101により入力バッファ106
1に格納する(ステップ201)。
【0029】辞書引き部1051により、入力バッファ
1061に格納した日本語文の各語に対して前処理辞書
テーブル1041内に対応するエントリがあるか否かを
調べる(202)。対応するエントリがあった場合に
は、そのエントリの見出し語と訳語とを辞書引き結果バ
ッファ1062に格納してステップ204に進む。対応
するエントリがなかった場合には、入力文バッファ10
61の内容を置換結果バッファ1063にコピーしてス
テップ205に進む。
【0030】ステップ204では、置換部1052が、
入力文バッファ1061に格納された日本語文中の、辞
書引き結果バッファ1062に格納された見出し語を辞
書引き結果バッファ1062に格納された対応する訳語
に変換して置換結果バッファ1063に格納する。
【0031】続いてステップ205で、置換結果バッフ
ァ1063に格納されている日本語文を出力部103を
介して図示しない機械翻訳システムに与え、翻訳を行な
わせる。こうして、翻訳結果が得られる。得られた翻訳
結果は、機械翻訳システムの辞書にない単語であって
も、この機械翻訳前処理装置による前処理を行なうこと
により、機械翻訳の前に適切な訳語に置換されているた
め、得られた翻訳結果は前処理を行なわなかった場合と
比較してより適切なものとなる。
【0032】たとえば、例として「彼はプリンストン大
学に入学した。」という文を翻訳する場合を例として説
明する。機械翻訳システムの辞書には「プリンストン大
学」という語がなかったものとする。すると、前処理を
行なわなかった場合には「プリンストン」という語が適
切に訳されないこととなり、望ましい結果を得られな
い。これに対して、前処理辞書テーブル1041の内容
が図2に示すようなものである場合には、辞書引き部1
051の機能によって、入力文バッファ中の「プリンス
トン大学」という語(図4の上段参照)に対して、「Pr
inceton University」という語が訳語として辞書引き結
果バッファに格納される。さらに置換部1052の機能
によって、入力文バッファ中の文の「プリンストン大
学」という語が「Princeton University」と置換されて
置換結果バッファ1063に「彼はPrinceton Universi
tyに入学した。」となって格納される。この文を機械翻
訳システムに与えて翻訳することにより、「He entered
Princeton University」と翻訳される。
【0033】一方、このような前処理を行なわず、入力
文バッファ1061の内容をそのまま同じ機械翻訳シス
テムに与えて翻訳させたところ、「He entered プリン
ストン university」となる。両者を比較すると、本実
施の形態の機械翻訳前処理システムを行なった場合の方
が、原文の「プリンストン大学」の部分がきちんと訳さ
れており、より適切な英文が翻訳結果として得られた。
【0034】本実施の形態のシステムでは、機械翻訳シ
ステム内の辞書に「プリンストン大学」と「Princeton
University」という語との対からなるエントリを登録す
ることなく、適切な翻訳を得ることができる。仮に機械
翻訳システムの辞書の内容を変更することが不可能な場
合であっても、実質的に機械翻訳システムの辞書の登録
語数を増加させたのと同様の効果を得ることができる。
しかも本実施の形態の機械翻訳前処理装置では、機械翻
訳システムの辞書の形式とは独立に前処理辞書テーブル
1041を作成すればよく、その登録語数も自由に設定
することができる。そのため、機械翻訳システムの内部
を全く変更することなく、実質的に機械翻訳システムに
含まれる辞書の登録語数を大幅に増やしたのと同様に翻
訳の精度を向上させることができるという効果を得るこ
とができる。 [第2の実施の形態]第2の実施の形態にかかる機械翻
訳前処理装置は、入力文に対して形態素解析を行なう点
で第1の実施の形態の装置とは異なる。図5を参照し
て、この第2の実施の形態の装置が、その構成上で第1
の実施の形態の装置と異なるのは、テーブルメモリ10
4が前処理辞書テーブル1041に加えて、形態素解析
のための形態素情報テーブル1042を含むことと、プ
ログラムメモリ105が、辞書引き部1051、置換部
1052に加えて、入力文バッファ1061に格納され
たソース言語の入力文に対して形態素解析を行なうため
の形態素解析部1054を含むことと、バッファメモリ
106が、入力文1061、辞書引き結果バッファ10
62,置換結果バッファ1063に加えて、形態素解析
部1054による形態素解析結果を格納するための形態
素解析結果バッファ1064をさらに含むこととであ
る。図5において、図1と同じ部品には同じ参照番号お
よび同じ名称を付してある。それらの機能も同じであ
る。したがってここではそれらについての詳細な説明は
繰り返さない。なお、形態素解析はこの分野においては
周知の事項であり、その実現方法についても周知であ
る。したがってここではその内容の詳細については触れ
ない。
【0035】図6を参照して、この第2の実施の形態の
機械翻訳前処理装置を実現するプログラムは、図3に示
される第1の実施の形態の装置の制御プログラムにおい
て、ステップ202に代えて、形態素解析部1054に
相当するステップ3021および3022を含んでいる
点が異なる。図6において、図3と同じステップには図
3と同じ参照番号を付してある。
【0036】この第2の実施の形態の装置では、入力文
バッファ1061に格納された入力文に対して、ステッ
プ3021において、形態素情報テーブル1042を参
照した形態素解析が行なわれ、その結果が形態素解析結
果バッファ1064に格納される。その形態素解析され
た結果に基づいて、辞書引き部1051がステップ30
22で前処理辞書テーブル1041に対応のエントリが
存在するか否かを調べる。入力文が形態素解析の結果、
適切に形態素に分割されているので、辞書引き部105
1は、分割された形態素と、それらの結合のみについ
て、対応のエントリを検索すればよい。そのため、文を
不適切な形で分割した結果をも含んで辞書引きを行なう
場合と比較して、処理を高速化でき、辞書引きの精度、
したがって最終的な機械翻訳の精度も向上させることが
できる。
【0037】たとえば、前述の例文「彼はプリンストン
大学に入学した。」という文を考える。この文は、形態
素解析の結果「彼/は/プリンストン/大学/に/入学し/た
/。」というように形態素に分割される。辞書引きの際
には、これら単語と、その結合のみについて、対応のエ
ントリを検索すればよい。この結果、たとえば「彼は
プ」とか、「学に入学し」などのように辞書のエントリ
として存在するはずのない文字列でエントリを検索する
ことがなくなり、辞書引きが高速化できること、精度も
向上することがわかる。
【0038】以上のようにこの第2の実施の形態の装置
では、第1の実施の形態の効果に加えて、前処理を高速
化でき、かつその精度を向上させることができる。その
結果、機械翻訳システムによる翻訳の精度も向上させる
ことができる。 [第3の実施の形態]図7に、本発明の第3の実施の形
態の機械翻訳前処理システムのブロック図を示す。この
装置が図1に示すものと異なるのは、前処理辞書テーブ
ル1041の各エントリが、見出し語と、訳語と、意味
情報とを含んでいることと、プログラムメモリ105
が、辞書引き部1051、置換部1052に加えて、辞
書引きの結果得られた単語の意味情報を含んで置き換え
られた単語を用いて機械翻訳された結果から、意味情報
に相当する部分を削除する後処理を行なうための後処理
部1053を含んでいる点と、バッファメモリ106
が、図示しない機械翻訳システムで翻訳された結果を格
納するための翻訳結果バッファ1065を含んでいる点
とである。
【0039】図8に、この第3の実施の形態の前処理辞
書テーブル1041の見出しの例を示す。たとえば「大
量出血」という見出しには「hemorrhage」という訳語が
割り当てられているが、さらに意味情報として[出血]
が割り当てられている。ほかの見出しについても同様で
ある。
【0040】図9に、この第3の実施の形態の装置にお
ける制御プログラムのフローチャートを示す。図9を参
照して、入力部102に入力された日本語文を、制御部
101により入力文バッファ1061に格納する(40
1)。
【0041】辞書引き部1051により、入力文バッフ
ァ1061に格納された日本語文に対して前処理辞書テ
ーブル1041のエントリを辞書引きする。続いてステ
ップ403で辞書引きが成功したか否かを判定し、成功
した場合には結果の見出し語と訳語と意味情報とを辞書
引き結果バッファ1062に格納して制御はステップ4
04に進み、失敗した場合には入力文を置換結果バッフ
ァ1063にコピーして制御はステップ405に進む。
【0042】ステップ404では、置換部1052によ
り、入力文バッファ1061に格納された日本語文中
の、辞書引き結果バッファ1062に格納された見出し
語を訳語に変換し、置換結果バッファ1063に格納す
る。このとき、辞書引き結果バッファ1062に格納さ
れた意味情報を、機械翻訳システムが正しく解釈できる
形式で置換結果バッファ1063に格納する。たとえば
機械翻訳システムが、ある単語に対して記号「◎」を挟
んで意味情報が後置されている場合に、記号「◎」の前
の語の関連部分を訳すときに、記号「◎」の後の意味情
報に即した単語を使用する機能を有している場合、ステ
ップ404では訳語の後ろに記号「◎」を挟んで意味情
報を後置する。
【0043】続いて、置換結果バッファ1063に格納
された日本語文を出力部103を介して図示しない機械
翻訳システムで翻訳する。その結果を翻訳結果バッファ
1065に格納する。
【0044】ステップ406では、ステップ404での
意味情報の付加が行なわれた文か否かについての判定が
行なわれ、付加が行なわれた文である場合には制御はス
テップ407に、それ以外の場合には制御はステップ4
08に、それぞれ進む。
【0045】ステップ407では、翻訳結果バッファ1
065に格納された翻訳結果文から、ステップ404で
付与された意味情報に該当する部分を削除する後処理を
行ない、翻訳結果バッファ1065に格納し直す処理が
行なわれる。この処理が図7の後処理部1053が行な
う処理に相当する。上の説明の場合、記号「◎」に続く
語が削除される。こうして得られた結果の文をステップ
408で出力する。
【0046】より具体的な文を例としてこの第3の実施
の形態の機械翻訳前処理装置の動作について説明する。
例として「妊婦が大量出血を起こした。」という文が入
力されたものとする。この文に対する辞書引きの結果、
「大量出血」という語に対して「hemorrhage」が辞書引
きされたとする。このとき、辞書引き結果バッファ10
62には、「大量出血」「hemorrhage」という、見出し
語、訳語の対に加えて「病気」という意味情報も格納さ
れる。図8に示すように、「大量出血」「hemorrhage」
という対には「病気」という意味情報が付加されている
ためである。
【0047】ステップ404の結果、置換結果バッファ
1062の内容は「妊婦が<hemorrhage◎病気>を起こし
た。」となる。これを機械翻訳装置に与えたとすると、
前述の通りこの機械翻訳システムが、記号「◎」の前の
単語の関連部分については、記号「◎」に後置されてい
る意味情報を考慮して翻訳する機能を有しているので、
「A pregnant woman caused hemorrhage◎illness.」が
翻訳結果として得られる。後処理部1053によりステ
ップ407で「◎illness」が削除されるので、最終的
に得られる訳文は「A preg nant woman caused hemorr
hage.」となる。この結果は、意味情報を付与せずに入
力文の「大量出血」を「hemorrhage」と置換しただけの
文「妊婦がhemorrhageを起こした。」を機械翻訳した結
果得られた訳文「A pregnant woman set up large-scal
e bleeding.」と比較すると、より適切な英文が得られ
ていることがわかる。つまり、「起こした」の箇所が
「set up」から「caused」に、「大量出血」の意味を反
映してより適切な単語に置き換えられている。
【0048】以上のようにこの第3の実施の形態の装置
によれば、前処理辞書テーブルに意味情報が付与されて
おり、機械翻訳システムには英語訳語に加えてその意味
情報が与えられる。そのため、機械翻訳システムはこの
意味情報を用いてより適切な翻訳を行なうことができ、
翻訳システム全体の翻訳精度を向上させることができ
る。 [第4の実施の形態]第4の実施の形態の機械翻訳前処
理装置は、第3の実施の形態の装置とほぼ同様の構成で
あるが、前処理情報テーブル1041の中の意味情報と
して見出し語の部分形態素を採用している点が異なる。
つまり、予め見出し語を形態素分析しておき、得られた
形態素のうちの一つを意味情報として用いる。
【0049】この場合の前処理辞書テーブル1041の
内容の一例を図10に示す。図10を参照して、たとえ
ば「大量出血」という見出し語は、「大量/出血」と形
態素分析される。そこで、この二つの形態素「大量」お
よび「出血」のうち、意味を表すためにより適切と思わ
れる「出血」という語を意味情報として用いる。
【0050】前処理辞書テーブル1041をこのように
作成した場合、第3の実施の形態の装置と全く同様のハ
ードウェア構成、機能ブロック構成およびソフトウェア
構成で、第3の実施の形態と同様に、意味情報を用いた
精度の高い機械翻訳を実現するための前編集処理が可能
となる。
【0051】たとえば、第3の実施の形態の装置では、
「妊婦が大量出血を起こした。」という入力文に対する
置換結果バッファ1063の内容は、「妊婦が<hemorrh
age◎病気>を起こした。」となっていた。それに対して
本実施の形態の装置では、置換結果バッファ1063の
内容は「妊婦が<hemorrhage◎出血>を起こした。」とな
る。この文を機械翻訳にかけた結果、「出血」という意
味情報に応じて適切な訳語が選択され、「A pregnant w
oman caused hemorrhage◎bleeding.」という翻訳結果
が得られる。後処理部1053による後処理によって
「◎」の次の語を削除した結果、「A pregnant woman c
aused hemorrhage.」という、第3の実施の形態の装置
によるものと同じ訳文が得られる。
【0052】前処理辞書テーブルの見出し語に意味情報
を付与するためには、大規模なシソーラスを用いて見出
し語に対する意味情報を決定したり、人手で意味情報を
チェックしたりする必要がある。そのために、前処理辞
書テーブルのコストが上昇するおそれがある。しかしこ
の第4の実施の形態の装置では、予め見出し語を形態素
解析し、分割された形態素のうちの一つを意味情報とし
て用いる。特に、日本語の漢字の組合わせからなる複合
語の場合には、分割された形態素のうちの一つ、たとえ
ば最後の一つが適切にその複合語の意味情報を表す場合
が多い。そのため、大規模なシソーラスを用いる必要が
なく、各見出し語に意味情報を付与することができる。
また、形態素分析し、そのうちの一語を意味情報として
見出し語に付与する操作は自動的に行なうことができ
る。そのため、前処理辞書テーブル1041のコストの
上昇を抑えることができる。 [第5の実施の形態]第5の実施の形態の機械翻訳前処
理装置は、図7に示す第3の実施の形態にかかる機械翻
訳前処理装置と同様のハードウェア構成、機能ブロック
構成およびソフトウェア構成で、ただ前処理辞書テーブ
ルの各見出し語への意味情報の付与の方法のみが異な
る。したがってこの第5の実施の形態の装置の構成およ
び機能は、第4の実施の形態にかかる機械翻訳前処理装
置の場合と類似している。
【0053】この第5の実施の形態の装置の前処理辞書
テーブルでは、各見出し語に付与される意味情報とし
て、見出し語の末尾の一文字を用いる。たとえば図11
に示すように、「大量出血」に対して「血」を、「血友
病患者」に対して「者」を、「血色素」に対して「素」
のごとくである。
【0054】一般に、日本語の漢字の組合わせからなる
複合語では末尾の語がその複合語の意味を最もよく表し
ている。また漢字は表意文字であって、一文字である意
味を表せる。複合語では、「形容詞的な漢字」+「修飾
される概念を表す漢字」という組合わせがおおい。つま
りある語がたとえば二文字の漢字からなっている場合、
「出血」「止血」「吐血」がいずれも「血」に関連する
語群に属し、「白雲」「黒雲」「青雲」がいずれも
「雲」に関連する語群に属するように、二文字のうちの
末尾の漢字一文字によって、その語が属する包括的な語
群が表わされていることが多い。そこで、この第5の実
施の形態のように見出し語の末尾の一文字を見出し語の
意味情報として採用した。
【0055】この第5の実施の形態の場合、前述の「妊
婦が大量出血を起こした。」という入力文に対する置換
結果バッファ1063の内容は、「妊婦が<hemorrhage
◎血>を起こした。」となる。この文を機械翻訳にかけ
た結果、「血」という意味情報に応じて適切な訳語が選
択され、「A pregnant woman caused hemorrhage◎bloo
d.」という翻訳結果が得られる。後処理部1053によ
る後処理によって「◎」の次の語を削除した結果、「A
pregnant woman caused hemorrhage.」という、第3お
よび第4の実施の形態の装置によるものと同じ訳文が得
られる。
【0056】このように、見出し語の末尾の一文字をそ
の意味情報として採用する場合、第4の実施の形態の場
合よりもさらに意味情報の付与作業が簡単となる。その
ため前処理辞書テーブル1041を作成する場合に要す
る手間を削減でき、コストの上昇を抑えることができ
る。さらにこのような方法を採用する場合には、前処理
辞書テーブル1041に意味情報を付与しておくことな
く、前処理時に、置換部1052による作業のときに意
味情報を付与することが容易に行なえる。 [第6の実施の形態]第6の実施の形態にかかる機械翻
訳前処理装置のハードウェア、および機能ブロックの構
成は、図7に示した第3の実施の形態のものと同様であ
る。第6の実施の形態の装置では、前処理辞書テーブル
1041において、各エントリを、見出し語と、英語訳
語、および英語の語形情報とからなるようにした点が第
3の実施の形態と異なる点である。図12に、この第6
の実施の形態における前処理辞書テーブル1041の内
容の例について示す。
【0057】図12に示す例では、語形情報として英語
単語の複数形に関する語形情報を与えている。
【0058】図13に、この第6の実施の形態の機械翻
訳前処理装置の制御プログラムのフローチャートを示
す。図13に示すフローチャートは、図9に示した第3
の実施の形態の装置のフローチャートにおいて、ステッ
プ403および404をそれぞれステップ503および
504で置換し、ステップ406および407をそれぞ
れステップ506および507で置換したものである。
ステップ401、402、405、および408は図9
に示すものと同様である。したがってこれらステップに
ついてはその詳細な説明はここでは繰返さない。
【0059】ステップ503では、ステップ402での
辞書引き処理の結果、辞書引きが成功したか否かを判定
する。辞書引きに成功した場合には、結果の見出し語と
訳語と語形情報とを辞書引き結果バッファ1062に格
納して、制御はステップ504に進む。辞書引きに失敗
した場合には、入力文を置換結果バッファ1063にコ
ピーして制御はステップ405に進む。
【0060】ステップ504では、置換部1052によ
り、入力文バッファ1061に格納された日本語文中
の、辞書引き結果バッファ1062に格納された見出し
語を訳語に置換し、置換結果バッファ1063に格納す
る。このとき、後に見出し語に対応する語形情報によ
り、置換後の訳語を複数形にするために、この後に用い
る機械翻訳システムにおいて複数形情報が正しく解釈で
きる形式に置換結果バッファ1063の内容を修正す
る。ここでは、後に使用する機械翻訳システムにおい
て、複数形情報を正しく解釈し翻訳できるようにするた
めには、辞書引きによって得られた英語訳語の後に、一
例として記号「◎」をはさんで、見出し語の意味を表す
語であって、機械翻訳システムが容易に複数形にできる
語を付加するものとする。
【0061】ステップ405で、置換結果バッファ10
63の内容を機械翻訳システムによって翻訳する。
【0062】ステップ506において、ステップ504
で語形情報を付与したか否かについて判定し、付与した
場合には制御はステップ507に進み、付与しなかった
場合には制御はステップ408に進む。
【0063】ステップ507では、ステップ504で入
力文に付与した情報の翻訳結果と、ステップ402での
辞書引きの結果得られた語形情報とから、見出し語に対
応する語の語形を修正する。ここでは、機械翻訳の結
果、見出し語に対応する英語訳語の直後に、記号「◎」
を挟んでステップ504で付与された語の複数形が出力
され、翻訳結果バッファ1065に格納される。この記
号「◎」の直後の語が機械翻訳システムにより複数形と
して訳されていれば、その直前の語を複数形にしなけれ
ばならないことが分かる。そこで、辞書引きの結果得ら
れた複数形に基づき、翻訳結果中の英語訳語を複数形に
修正し、翻訳結果バッファ1065に結果を再格納す
る。
【0064】ステップ408で翻訳結果を出力し、処理
を終了する。具体的な例を挙げて説明する。入力文とし
て「3人の妊産婦が呼ばれた。」が与えられたものとす
る。図12に示される前処理辞書テーブルに対する辞書
引きにより、「妊産婦」に対する英語訳語として「part
urient」が得られ、さらにその複数形に関する語形情報
「-s」も得られる。
【0065】ステップ504では、「3人の妊産婦が呼
ばれた。」という語が置換部1052の処理によって
「3人の<parturient◎少女>が呼ばれた。」という文に
変換される。「◎」の直後の「少女」が翻訳後の語形修
正のために原文に付与される情報であるこの文を機械翻
訳システムに与えることにより、翻訳結果として「Thre
e parturient◎, girls, were called.」という文が得
られたものとする。「少女」が「girls」と訳されてい
ることから、「◎」の直前の「parturient」を複数形に
しなければならないことが分かる。一方、ステップ40
2および503での辞書引き処理の結果、「parturien
t」の複数形が「parturients」であることは分かってい
る。そこで、ステップ507においては後処理として
「Three parturient◎, girls, were called.」の「par
turient」をその複数形である「parturients」に修正
し、ステップ504で付与された記号「◎」とその直後
の単語に該当する部分「◎, girs」とを翻訳結果から削
除する。その結果、「Three parturients were calle
d.」という正しい翻訳結果が得られる。
【0066】以上のようにこの第6の実施の形態の機械
翻訳前処理装置によれば、翻訳後の単語の複数形などの
語形を正しく修正し、翻訳の精度を高めることが可能と
なる。 [第7の実施の形態]第7の実施の形態にかかる機械翻
訳前処理装置は、図1に示した第1の実施の形態の装置
と同様のハードウェア構成、機能ブロック構成およびソ
フトウェア構成を有する。この第7の実施の形態の装置
は、前処理辞書テーブル1041の各エントリが、図1
4に示すように、ソース言語である日本語の見出し語
と、同じ日本語で見出し語を言い換えた語との対からな
る点で第1の実施例と異なっている。その他の点では両
者は同じである。
【0067】ここでの「言い換え」とは、機械翻訳シス
テムの辞書中に含まれていない単語を、機械翻訳システ
ムの辞書に登録されているそれとほぼ同じ意味の単語に
置換することをいう。このように、入力文に含まれる、
機械翻訳システムの辞書に含まれていない単語を、機械
翻訳システムに含まれているよく似た意味の単語と置換
する処理を予め前処理として入力文に適用することによ
り、機械翻訳の精度が向上するであろうことは当業者で
あれば容易に理解できるであろう。
【0068】たとえば、ある機械翻訳システムの辞書に
「懐妊」はないが「妊娠」ならある場合を考える。入力
文が「王女の懐妊が伝えられた。」というものである場
合、これを直接この機械翻訳システムで翻訳すると、
「懐妊」がうまく翻訳できず、たとえば「Princess' bo
som 妊 was transmitted.」などという翻訳結果とな
る。しかしこれを前処理によって「王女の妊娠が伝えら
れた。」と言い換えておくことにより、同じ機械翻訳シ
ステムで翻訳すると「Princess' pregnancy was transm
itted.」となり、言い換えをしなかった場合と比較して
より適切な翻訳結果を得ることができる。
【0069】この実施の形態の装置では、前処理辞書テ
ーブル1041として、「懐妊」「妊娠」のような類義
語を登録しておくだけでなく、「見積もり」「見積り」
などの異綴り語を言い換え語として登録してもよい。ま
た、「資料収集」などの複合語を「資料の収集」と基本
的な語の組合わせに言い換えるエントリを登録してもよ
い。要は、機械翻訳システムの辞書に登録されていない
単語を、前処理によって、機械翻訳システムの辞書に登
録されている単語またはそれらの組合わせに置換えてし
まう、ということである。
【0070】この実施の形態の装置によれば、前処理辞
書の各エントリが、ソース言語の語の対となるため、ソ
ース言語と訳語との対でエントリを構成する場合と比較
して、前処理辞書テーブルの作成が容易であるという効
果がある。
【0071】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態にかかる機械翻訳
前処理装置の機能ブロック図である。
【図2】 第1の実施の形態の装置の前処理辞書テーブ
ルの内容の例を示す図である。
【図3】 第1の実施の形態の装置の制御プログラムの
フローチャートである。
【図4】 第1の実施の形態の装置における各バッファ
の内容を示す図である。
【図5】 本発明の第2の実施の形態にかかる機械翻訳
前処理装置の機能ブロック図である。
【図6】 第2の実施の形態の装置の制御プログラムの
フローチャートである。
【図7】 本発明の第3の実施の形態にかかる機械翻訳
前処理装置の機能ブロック図である。
【図8】 第3の実施の形態の装置の前処理辞書テーブ
ルの内容の例を示す図である。
【図9】 第3の実施の形態の装置の制御プログラムの
フローチャートである。
【図10】 第4の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。
【図11】 第5の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。
【図12】 第6の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。
【図13】 第6の実施の形態の装置の制御プログラム
のフローチャートである。
【図14】 第7の実施の形態の装置の前処理辞書テー
ブルの内容の例を示す図である。
【符号の説明】
101 制御部、102 入力部、103 出力部、1
04 テーブルメモリ、105 プログラムメモリ、1
06 バッファメモリ、1041 前処理辞書テーブ
ル、1042 形態素情報テーブル、1051 辞書引
き部、1052置換部、1053 後処理部、1054
形態素解析部、1061 入力文バッファ、1062
辞書引き結果バッファ、1063 置換結果バッフ
ァ、1064 形態素解析結果バッファ、1065 翻
訳結果バッファ。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 ソース言語の入力テキストを機械翻訳装
    置に入力するに先立って、機械翻訳の精度を高めるため
    に入力テキストを前処理するための機械翻訳前処理装置
    であって、 前記ソース言語のテキストを入力するための入力手段
    と、 前記ソース言語の見出し語と、予め定められた言語の対
    応語との対を含むエントリを有する前処理辞書テーブル
    を記憶するための手段と、 前記入力手段によって入力された前記テキストに含まれ
    る語に対し、前記前処理辞書テーブルから該当する見出
    し語を有するエントリを検索するための検索手段と、 前記検索手段によって検索されたエントリに含まれる前
    記予め定められた言語の対応語で、前記テキストの一部
    を置換するための置換手段とを含む、機械翻訳前処理装
    置。
  2. 【請求項2】 さらに、前記ソース言語の単語について
    の形態素情報を含んだ形態素情報テーブルを記憶するた
    めの手段と、 前記形態素情報テーブルを参照して前記テキストを解析
    し形態素に分割して前記検索手段に与えるための形態素
    解析手段とを含む、請求項1に記載の機械翻訳前処理装
    置。
  3. 【請求項3】 前記予め定められた言語は、前記ソース
    言語とは異なる言語であり、 前記前処理辞書テーブルのエントリの各々は、前記ソー
    ス言語の見出し語と、前記予め定められた言語の対応語
    との対に加えて、前記ソース言語の見出し語の意味情報
    をさらに含み、 前記置換手段は、前記検索手段によって検索されたエン
    トリに含まれる前記予め定められた言語の対応語で、前
    記テキストの一部を置換し、さらに前記予め定められた
    言語の対応語に対応の見出し語の意味情報を付与するた
    めの手段を含み、 前記機械翻訳前処理装置は、前記付与手段によって一部
    が置換された前記テキストを前記機械翻訳装置によって
    前記予め定められた言語の文に機械翻訳した結果から、
    前記付与するための手段によって付与された意味情報を
    削除するための手段をさらに含む、請求項1または2に
    記載の機械翻訳前処理装置。
  4. 【請求項4】 前記前処理辞書テーブルのエントリの各
    々の、前記ソース言語の見出し語に対応する意味情報
    は、対応の見出し語を構成する形態素の中の一つであ
    る、請求項2に記載の機械翻訳前処理装置。
  5. 【請求項5】 前記前処理辞書テーブルのエントリの見
    出し語は表意文字の組合わせを含み、 前記見出し語に対応する意味情報は、前記見出し語の末
    尾の一文字のみを含む、請求項2に記載の機械翻訳前処
    理装置。
  6. 【請求項6】 前記ソース言語は、表意文字として漢字
    を使用する言語であり、 前記意味情報は、対応の見出しの末尾の漢字一文字のみ
    を含む、請求項5に記載の機械翻訳前処理装置。
  7. 【請求項7】 前記前処理辞書テーブルのエントリの各
    々は、前記ソース言語の見出し語と、前記予め定められ
    た言語の対応語との対に加えて、前記予め定められた言
    語の対応語の語形情報をさらに含み、 前記置換手段は、前記検索手段によって検索されたエン
    トリに含まれる前記予め定められた言語の対応語で、前
    記テキストの一部を置換し、さらに前記予め定められた
    言語の対応語の語形情報を付与するための手段を含み、 前記機械翻訳前処理装置は、前記付与手段によって一部
    が置換された前記テキストを前記機械翻訳装置によって
    前記予め定められた言語の文に機械翻訳した結果から、
    前記付与するための手段によって付与された語形情報に
    したがって、前記機械翻訳した結果中に含まれる前記予
    め定められた言語の前記対応語の語形を修正するための
    手段をさらに含む、請求項1または2に記載の機械翻訳
    前処理装置。
  8. 【請求項8】 前記予め定められた言語は、前記ソース
    言語と同一言語である、請求項1または2に記載の機械
    翻訳前処理装置。
JP2000328469A 2000-10-27 2000-10-27 機械翻訳前処理装置 Pending JP2002132764A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000328469A JP2002132764A (ja) 2000-10-27 2000-10-27 機械翻訳前処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000328469A JP2002132764A (ja) 2000-10-27 2000-10-27 機械翻訳前処理装置

Publications (1)

Publication Number Publication Date
JP2002132764A true JP2002132764A (ja) 2002-05-10

Family

ID=18805316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000328469A Pending JP2002132764A (ja) 2000-10-27 2000-10-27 機械翻訳前処理装置

Country Status (1)

Country Link
JP (1) JP2002132764A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008615A (ja) * 2009-06-26 2011-01-13 Toshiba Corp 対訳登録システム及びプログラム
JP2020077134A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP2020077356A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP2020123215A (ja) * 2019-01-31 2020-08-13 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008615A (ja) * 2009-06-26 2011-01-13 Toshiba Corp 対訳登録システム及びプログラム
JP2020077134A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP2020077356A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP7333933B2 (ja) 2018-11-06 2023-08-28 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP2020123215A (ja) * 2019-01-31 2020-08-13 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP7396608B2 (ja) 2019-01-31 2023-12-12 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
US8959011B2 (en) Indicating and correcting errors in machine translation systems
US8126698B2 (en) Technique for improving accuracy of machine translation
JP3038079B2 (ja) 自動翻訳装置
JPH05158401A (ja) 文書速読支援表示方式並びに文書処理装置及び文書検索装置
JP2002132764A (ja) 機械翻訳前処理装置
JP4350566B2 (ja) 機械翻訳システム
JP3236027B2 (ja) 機械翻訳装置
JP3389313B2 (ja) 機械翻訳装置
JP2715419B2 (ja) 翻訳装置
JPH0561902A (ja) 機械翻訳システム
JP3385206B2 (ja) 自然言語処理装置
JP2723886B2 (ja) 機械翻訳装置及びその翻訳規則作成方法
JP4021813B2 (ja) 複合語登録プログラムおよび登録装置
JP2894064B2 (ja) 機械翻訳装置
JP2727076B2 (ja) 翻訳支援装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JPH07200605A (ja) 翻訳装置
JP3267168B2 (ja) 自然言語変換システム
JP3809238B2 (ja) 文書処理方法及びその装置
JP3353873B2 (ja) 機械翻訳装置
JP3253311B2 (ja) 言語処理装置および言語処理方法
JPH11232275A (ja) 自然言語翻訳装置
JP2002197086A (ja) 自然言語変換システム
JPH09146937A (ja) 文字列変換装置および文字列変換方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030218