JPH05225232A

JPH05225232A - テキスト自動前編集装置

Info

Publication number: JPH05225232A
Application number: JP4023780A
Authority: JP
Inventors: Hitoshi Suzuki; 等鈴木; Ryuji Okabe; 龍治岡部
Original assignee: Sharp Corp; Sharp System Products Co Ltd
Current assignee: Sharp Corp; Sharp System Products Co Ltd
Priority date: 1992-02-10
Filing date: 1992-02-10
Publication date: 1993-09-03

Abstract

(57)【要約】【目的】機械翻訳の翻訳精度を高めるとともに、翻訳
速度を向上させる。【構成】翻訳対象の文献の分野別に、前編集規則群を
分類して記憶装置９に格納しておく。バッファＸに格納
された入力文に対し、メモリ１９に格納された前編集プ
ログラムをＣＰＵ１８で実行することにより、入力文内
の前編集規則を適用すべき箇所を検出し、検出された箇
所に、前編集規則で特定される処理を行なって機械翻訳
に適した形に前編集された入力テキストを得る。各規則
群２２〜２４は、いずれか適切なものを選択できる。ま
た各規則群はエディタプログラム２０によって追加・削
除できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は機械翻訳システムに関
し、特に、機械翻訳に先立ち、機械翻訳の翻訳精度の向
上や高速化を目的として、ソース言語のテキストを前編
集するためのテキスト自動前編集装置に関する。

【０００２】

【従来の技術】機械翻訳システムは、自然言語で書かれ
た文章を、主としてコンピュータ処理を用いて他の言語
に機械的に翻訳するものである。機械翻訳システムによ
り、たとえば各種装置の取扱い説明書（マニュアル）
や、特許文献などの文書を効率よく翻訳することが期待
される。

【０００３】しかし従来の機械翻訳システムにおいて
は、一般に一文の長さが長くなるにつれて、翻訳処理に
要する時間が長くなるとともに、その翻訳精度が落ちる
ということが知られている。これは、長文の場合には、
テキストに含まれる語、句、節の間の係り受け関係が曖
昧になり、解釈の可能性が増えるためである。特に特許
関係の文や、法律関係の文においては、１文が長くなる
傾向があり、人間にとっても解釈が容易でない場合があ
る。このような文章をそのまま機械翻訳システムによっ
て翻訳させた場合、非常に長い翻訳処理時間が必要とさ
れた上、翻訳結果も好ましいものとはならない。

【０００４】このような問題を解決するために、機械翻
訳システムに入力する前に、入力テキストをエディタな
どによって利用者により前編集することが考えられる。
長文を予め短い文に分割したり、機械翻訳システムに対
し、節の切れ目を示すような記号を文章中に挿入してお
くことにより、機械翻訳の結果がより好ましくなる。

【０００５】

【発明が解決しようとする課題】しかし、上述のように
入力テキストを利用者によって前編集する場合には、利
用者にある程度の語学力のあることが要求され、さらに
入力テキストが扱う分野の専門用語についての知識も必
要とされる。そのため、機械翻訳の前編集処理そのもの
に多くの時間が費やされる結果となり、機械翻訳システ
ム全体としての翻訳効率を向上させることは難しかっ
た。また、利用者によっては扱う分野や文書の傾向が特
殊であったりして、他の人に前編集処理を依頼すること
が難しい場合もある。

【０００６】それゆえに請求項１に記載の発明の目的
は、機械翻訳の精度をより高めるために、利用者の介入
を最小限に抑えながら入力テキストの前編集を行なうこ
とができるテキスト自動前編集装置を提供することであ
る。

【０００７】請求項２に記載の発明の目的は、異なった
分野の入力テキストに対し、それぞれ機械翻訳の精度を
より高めるために、利用者の介入を最小限に抑えながら
入力テキストの前編集処理を行なうことができるテキス
ト自動前編集装置を提供することである。

【０００８】請求項３に記載の目的は、各利用者の専門
分野を取扱う入力テキストを特に高い精度で効率よく機
械翻訳することが可能となるように、利用者の介入を最
小限に抑えつつ入力テキストの前編集を行うことか可能
なテキスト自動前編集装置を提供することである。

【０００９】

【課題を解決するための手段】請求項１に記載の発明に
係るテキスト自動前編集装置は、各々が、その適用条件
と編集方法とを特定する情報を含む複数の前編集規則か
らなる前編集規則群を格納するための格納手段と、入力
テキスト内の、前編集規則を適用すべき箇所を検出する
ための適用箇所検出手段と、適用箇所検出手段により検
出された箇所に、対応する前編集規則を適用して入力テ
キストを前編集するための前編集規則適用手段とを含
む。

【００１０】請求項２に記載の発明に係るテキスト自動
前編集装置は、請求項１に記載のテキスト自動前編集装
置においてさらに、格納手段は、予め所定の基準に従っ
て分類された複数種類の前編集規則群を格納する。そし
てテキスト自動前編集装置はさらに、前編集処理に先立
って、複数種類の前編集規則群のいずれか１つを選択す
るための選択手段を含み、適合箇所検出手段は、選択手
段により選択された前編集規則群に含まれる前編集規則
の適用箇所のみを入力テキスト中に検出する。

【００１１】請求項３に記載の発明に係るテキスト自動
前編集装置は、請求項１に記載のテキスト自動前編集装
置であってさらに、格納手段に格納された前編集規則群
に含まれる前編集規則を変更するための、利用者により
手操作可能な前編集規則変更手段を含む。

【００１２】

【作用】請求項１に記載のテキスト自動前編集装置にお
いては、格納手段に予め前編集規則群が格納されてお
り、適用箇所検出手段は、入力テキスト内において、格
納手段に格納された前編集規則を適用すべき箇所を検出
する。そして検出された箇所に、前編集規則適用手段に
よって、対応する前編集規則による編集が行なわれ、入
力テキストが機械翻訳装置に与えられる前に、利用者に
よる操作を介することなく機械翻訳に適した形に編集さ
れる。

【００１３】請求項２に記載のテキスト自動前編集装置
においては、請求項１に記載の装置による作用に加えて
さらに、格納手段に、所定の基準に従って分類された複
数種類の前編集規則群が格納されており、前編集処理に
先立ってそのうちの１つの前編集規則群が選択される。
適用箇所検出手段は、選択された前編集規則群に含まれ
る前編集規則の適用箇所のみを入力テキスト中に検出す
る。したがって最終的に入力テキストに対して適用され
る前編集規則は、選択された前編集規則群に含まれるも
ののみとなる。

【００１４】請求項３に記載のテキスト自動前編集装置
においては、請求項１に記載の装置による作用に加えて
さらに、格納手段に格納された前編集規則群に含まれる
前編集規則を、利用者が任意に変更することができる。
規則の変更には規則の追加、削除などが含まれており、
テキストの機械翻訳を最も効率よく行なえるように、前
編集規則群の内容を調整することができる。

【００１５】

【実施例】以下、本発明に係るテキスト自動前編集装置
の一実施例として、英日機械翻訳システムに適用された
ものを例にして説明する。しかし本発明は英日機械翻訳
システムには限定されず、一般的に複数の言語間の機械
翻訳システムにおける入力テキストの前編集処理に適用
可能である。

【００１６】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。第１図を参照して、機械翻訳にお
いて行なわれる解析処理には、様々な解析レベルがあ
る。機械翻訳は、図１の左上に示されるソース言語が入
力されると、各レベルの処理を順に行なって最終的に図
１の右側に示されるターゲット言語を得るための処理で
ある。たとえばソース言語が入力されると、まずレベル
Ｌ１の辞書引き処理、レベルＬ２の形態素解析処理、レ
ベルＬ３の構文解析処理、…と処理が進められ、最終的
にレベルＬ１０の形態素生成処理が行なわれてターゲッ
ト言語が生成される。

【００１７】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の２つに分けられる。第１
は、レベルＬ６に示される中間言語まで解析し、そこか
らターゲット言語を生成していくピボット方式である。
第２は、上述のレベルＬ２〜レベルＬ５のいずれかまで
解析を行なってソース言語の内部構造を得、次に、得ら
れたソース言語の内部構造と同じレベルのターゲット言
語の内部構造に変換した後、ターゲット言語を生成する
トランスファ方式である。

【００１８】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。

【００１９】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の入力テキスト自動前編集装置を含む機械翻訳システ
ムもトランスファ方式を用いたものである。

【００２０】以下、図１に示される各解析処理の内容に
ついて説明する。（１）辞書引き、形態素解析この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列（単語列）に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。前編集処理において入力テ
キストに挿入された記号等は、主としてここで処理され
る。

【００２１】（２）構文解析前編集この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造（構造解析木）を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。前編集処理において入力テ
キストに挿入された前編集記号の一部はここで処理され
る。

【００２２】（３）意味解析構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
可能性の高いもののみを採用する処理が行なわれる。

【００２３】（４）文脈解析文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。

【００２４】以下で説明する機械翻訳システムの翻訳モ
ジュールにおいては、レベルＬ３までの解析処理を行な
うものとする。すなわち、後述の機械翻訳システムは、
図２に示されるような構造を有する。この翻訳システム
は、図２を参照して、入力されるソース言語のテキスト
に対して、後続する機械翻訳処理が容易となるように前
編集を行なうための前編集部１０と、前編集がされたソ
ース言語に対して辞書引き・形態素解析処理を行なうた
めの辞書引き・形態素解析部１１と、形態素解析された
入力文章に対して構文解析を行なうための構文解析部１
２と、構文解析の結果を変換してターゲット言語の構造
解析木を生成するための変換部１３と、変換部１３によ
って生成されたターゲット言語の構造解析木に基づき、
ターゲット言語の翻訳文を生成するための翻訳文生成部
１４とを含む。各部１１〜１４で行なわれる処理につい
ては、実施例において詳しく説明する。

【００２５】図３は、この発明の一実施例のテキスト自
動前編集装置を含む機械翻訳システムのブロック図であ
る。図３を参照して、この機械翻訳システムは、メイン
ＣＰＵ（中央処理装置）１と、メインＣＰＵ１が接続さ
れたバス７と、バス７に接続されたメインメモリ２と、
バス７に接続されたＣＲＴ（陰極線管）やＬＣＤ（液晶
表示装置）などからなる表示装置３と、キーボード４
と、バス７に接続された翻訳モジュール５と、翻訳モジ
ュール５に接続された翻訳用の辞書・文法規則および木
変換構造規則などの知識ベースを格納しているメモリ６
と、バス７に接続され、入力されるソース言語のテキス
トに対して、所定の前編集処理を行なうためのテキスト
自動前編集装置２１と、バス７に接続されたハードディ
スク１７とを含む。

【００２６】テキスト自動前編集装置２１は、それぞれ
バス７に接続された前編集モジュール８と、前編集のた
めの複数の規則を格納するためのハードディスクなどか
らなる記憶装置９とを含む。

【００２７】前編集モジュール８は、ソース言語のテキ
ストが入力されると、それを所定の手順に従って機械翻
訳に適した形に前編集して出力するためのものである。
図４を参照して、前編集モジュール８は、バス７に接続
され、バス７を介してたとえばディスク１７などから入
力されるソース言語（本実施例の場合は英語）のテキス
トを、後述するような前編集プログラムに従って編集し
て出力する処理を行なうための前編集ＣＰＵ１８と、前
編集プログラムを格納するメモリ１９と、記憶装置９に
格納された前編集規則群を編集して前編集規則を追加し
たり、削除したりするためのエディタプログラムを格納
するためのメモリ２０と、前編集モジュール８に入力さ
れるソース言語のテキストおよび処理途中のテキストを
格納するためのバッファＸとを含む。前編集プログラム
およびエディタプログラムはともに、前編集ＣＰＵ１８
によって実行される。

【００２８】記憶装置９には、３種類の前編集規則群が
格納されている。すなわちこの前編集モジュール８で用
いられる前編集規則群は、特許文献を翻訳する際に用い
られる特許文献前編集規則群２２と、マニュアル類の機
械翻訳の際に用いられるマニュアル前編集規則群２３
と、一般文献を機械翻訳する際に用いられる一般文献前
編集規則群２４とからなる。各前編集規則には、所定の
ポインタをその前編集規則１に合わせることによりアク
セスできる。各前編集規則群の先頭は、記憶装置９の所
定アドレスに固定されている。したがって、ポインタを
各前編集規則群の先頭に合わせることにより、各前編集
規則群のいずれでも選択することが可能である。

【００２９】図５を参照して、たとえば特許文献前編集
規則群２２に格納されている規則は次のようなものであ
る。各規則は、入力されるソース言語のテキスト中にお
いて検索すべき文字列と、その文字列が発見された場合
にこの規則を適用すべきか否かを決定するための条件
と、文字列が発見され、適用すべき条件が満たされた場
合にテキストに対していかなる処理をほどこすかについ
ての情報からなっている。

【００３０】たとえば図５に示される規則１において
は、検索文字列として英文特許文献に特徴的に現われる
「ｗｈｅｒｅｉｎ」という文字列が指定されている。規
則１の適用条件としては特に何も指定されていない。し
たがって、文字列「ｗｈｅｒｅｉｎ」が入力テキスト中
に発見された場合には、以下に述べる処理が行なわれる
ことになる。

【００３１】規則１が指定する前編集処理は、図５に示
されるとおり２つの操作からなる。第１番目は、発見さ
れた「ｗｈｅｒｅｉｎ」という文字列の前に、分割記号
と呼ばれる記号を挿入することである。分割記号とは、
「／／」のことを指す。この分割記号が入力テキスト中
に存在する場合、後に行なわれる機械翻訳処理において
は、この分割記号の前後で文が分かれるものとして翻訳
を行なうことになる。文字列「ｗｈｅｒｅｉｎ」が発見
されたときに行なわれる第２の処理は、この文字列「ｗ
ｈｅｒｅｉｎ」を無翻訳記号と呼ばれる記号
「（（））」で囲むことである。本説明における機械
翻訳処理においては、この無翻訳記号で囲まれた部分
は、所定の指示が行なわれない限り翻訳の対象外として
取扱われる。

【００３２】すなわち、規則１による処理の結果、図６
のルール１の「編集前」の欄で示される文字列は、同じ
く「編集後」で示される文字列に変換されることにな
る。このように分割記号や無翻訳記号を挿入することに
より、機械翻訳処理においては、この文字列の前後で意
味的な切れ目があるものとして翻訳を行なうとともに、
この文字列自体は翻訳しない。

【００３３】同様にこの特許文献前編集規則群２２に
は、規則２、３以下に示されるような特許文献に特徴的
に現われる文字列を検索し、所定の条件が成立した場合
にその文字列付近の入力テキストに対して各規則に示さ
れる処理を行なうことを示す規則が含まれる。また図５
では、検索文字列として「，」のみとなる規則Ｎ１が規
則群の最後に設けられている。このように検索文字列の
文字数が少ない場合には、できるだけ規則群の末尾の方
に配置することが好ましい。同じ文字を含むより長い文
字列を検索することを条件とする規則が他に存在する可
能性があるためである。

【００３４】図６には、図５に示される各ルールによっ
て入力テキストがどのように編集されるかの実際の例が
示されている。図５、６において、「品詞指定記号」と
は、図６において「ｐｎ」という文字列で示された記
号である。この記号は、この直後に続く単語が連体修飾
の前置詞であることを示す。また図５の規則Ｎ１の「処
理」の欄に現われる「部分翻訳記号」とは、図６に示さ
れる記号「［［」を示す。この部分翻訳記号とは、前置
詞句や従属節のように、文として完結しないものを翻訳
処理するときに付加する記号である。

【００３５】各ルールは、記憶装置９（図４参照）内
に、図７に示されるような形式で格納されている。図７
を参照して、各規則は記憶装置９内にレコード２５とし
て、互いにレコードセパレータ２６を隔てて記録されて
いる。レコードセパレータとしてはたとえば、「改行」
コード等が用いられる。

【００３６】各レコード２５には、検索文字列を格納す
るフィールド２７と、条件をチェックするためのプログ
ラム名を格納するフィールド２８と、文字列が発見され
条件が満たされた場合にテキストに対して所定の前編集
処理を行なうための前編集処理プログラム名を格納する
ためのフィールド２９が、それぞれフィールドセパレー
タ３０を介して記録されている。

【００３７】条件チェックプログラムは、たとえば入力
文を入力パラメタとし、所定の条件が満足されているか
否かを示すフラグを出力パラメタとして動作するプログ
ラムである。前編集処理プログラムは同様に、編集前の
文字列を入力とし、所定の編集を行なった文字列を出力
とするプログラムである。これらプログラムはいずれ
も、図４に示されるメモリ１９に格納されている。

【００３８】なお、本実施例ではこのテキスト自動前編
集装置は、自動翻訳システムに組込まれたものとして説
明されているが、この装置のみを単独としてもよく、機
械翻訳システムとは別個のシステムとして動作させても
よい。

【００３９】図４には、特許文献前編集規則群の他に、
マニュアル文を機械翻訳する際のマニュアル前編集規則
群２３や、その他一般文献を機械翻訳する際の規則群２
４が示されている。これら各規則群に含まれる規則は、
特許文献前編集規則群２２と一部共通したものもある
し、たとえばマニュアル類を翻訳する際の前編集規則と
しては、特許文献を前編集する際の規則とは異なったも
のもある。その例が図８に示されている。

【００４０】図８を参照して、マニュアル前編集規則群
２３のＮ２番目（最後の規則であるものとする）とし
て、特許文献前編集規則群２２の規則Ｎ１に代えて、別
の規則が採用されている。この規則Ｎ２によれば、入力
テキスト中に文字列“，”が存在した場合には、特許文
献の前編集のときのように文そのものを分割する処理と
は異なり、単に“，”の後に、分割記号“／／”を挿入
する処理が行なわれる。これは、マニュアル類の文章
は、特許文献の文章と異なり、それほど長くなることは
なく、あえて文を分割しない方が翻訳後の文がかえって
わかりやすくなるからである。このように、各規則群に
は、扱う文献の分野に従って最も適当に機械翻訳が行な
えるように前処理を行なうためのルールを予め格納して
おく。

【００４１】なお、これら各規則は、図４に示されるメ
モリ２０に格納されたエディタプログラムによって、追
加・削除することができる。これは、たとえば予め準備
された規則群であっても、実際に利用者が主として取扱
う分野の文献に最適なものとは限らないからである。利
用者が実際にこのテキスト自動前編集装置を稼働してみ
て、ルールとして追加すべきものがある場合にはそれを
追加し、ルールとして適用すべきでないと判断されるも
のはそれを規則群から削除すれば、その利用者にとって
最もよい形でのテキストの前編集処理が行なえることと
なる。

【００４２】翻訳モジュール５は、ソース言語の文章が
入力されると、それを所定の手順で翻訳してターゲット
言語を出力するためのものである。図９を参照して、翻
訳モジュール５は、バス７に接続され、バス７を介して
入力されるソース言語（本実施例の場合には英語）を、
所定の翻訳プログラムに従って翻訳してターゲット言語
（本実施例の場合には日本語）としてバス７に出力する
ための翻訳ＣＰＵ１５と、バス７に接続され、翻訳ＣＰ
Ｕ１５で実行される翻訳プログラムを格納するための翻
訳プログラムメモリ１６と、入力されたソース言語の原
文を各単語ごとに格納するためのバッファＡと、バッフ
ァＡに格納された各単語につき、メモリ６に含まれる辞
書を参照して得た各単語の品詞、訳語などの情報を格納
するためのバッファＢと、ソース言語の構造解析木に関
する情報を格納するためのバッファＣと、バッファＣに
格納されたソース言語の構造解析木が変換されたターゲ
ット言語の構造解析木を格納するためのバッファＤと、
バッファＤに格納された日本語の構造解析木に適切な助
詞を助動詞などを補充して、日本語の形として整えられ
た文章を格納するためのバッファＥとを含む。

【００４３】以下、図３〜図１８を参照して、本実施例
のテキスト自動前編集を装置を含む機械翻訳システムに
よる英日翻訳の動作を説明する。

【００４４】機械翻訳の対象となる英文のテキストは、
予めハードディスク１７内にファイルとして格納されて
いる。前処理後の英文テキスト、および機械翻訳後の和
文テキストのいずれも、同様にディスク１７に新たなフ
ァイルとして格納される。

【００４５】特に図１０〜図１２を参照して、テキスト
の前編集は以下のようにして行なわれる。まず図１０を
参照して、ステップＳ（以下単にＳと呼ぶ）１におい
て、機械翻訳される英文テキストが取扱う分野に従い、
図４に示される３つの規則群２２〜２４のうちのいずれ
を前処理の際のルール群として選択するかを定める処理
が行なわれる。この処理の詳細は図１２のフローチャー
トを参照して後述する。

【００４６】続いてＳ２において、選択されたルール群
に対して、ルールの追加・削除などの修正を行なう必要
があるかどうについての判断が行なわれる。この判断は
図３に示される表示装置３上にルールの内容を修正する
かどうかを示すメッセージを表示し、使用者からその入
力を得ることで行なわれる。ルール群の内容を修正する
必要がない場合には直接処理はＳ４に進み、それ以外の
場合には処理はＳ３に進む。

【００４７】Ｓ３においては、図４に示されるメモリ２
０に格納されているエディタプログラムが前編集ＣＰＵ
１８によって実行され、選択された規則群に対し、新た
なルールの追加あるいは不要なルールの削除が行なわれ
る。このようにルールを追加したり削除したりすること
により、利用者がこのテキスト前編集装置を使用してい
る過程において得た経験が規則群の形で整えられていく
こととなり、利用者の扱う分野のテキストを最適に機械
翻訳できるように前処理を行なうことが可能となる。Ｓ
３の後制御はＳ４に進む。

【００４８】Ｓ４においては、ディスク１７内の被処理
テキストが読込まれ、テキスト内に、前編集の対象とな
る入力文が残っているかどうかの判断が行なわれる。残
されていない場合にはすべての入力テキストに対して前
処理が終了したということであるから処理は終了する。
入力文が残されていない場合には処理はＳ５に進む。

【００４９】Ｓ５においては、入力テキストの一文が読
込まれ、図４に示されるバッファＸに格納される。

【００５０】続いてＳ６においては、入力されたテキス
トの一文に対して適用すべき前編集規則を調べるため
に、まず、Ｓ１で選択された規則群のうちの先頭の規則
にルールポインタをセットする処理が行なわれる。たと
えばＳ１において特許文献前処理規則群２２が選択され
た場合には、このＳ６において、図５に示される規則１
にルールポインタがセットされる。

【００５１】続いてＳ７において、ルールポインタによ
って指し示された位置に、適用すべき規則があるかどう
かについての判断が行なわれる。適用すべき規則がない
場合には、選択された規則群の最終位置まで規則の適用
が終わったということであるから、入力文に対する前編
集処理は終了したものと判断され、処理はＳ１７に進
む。規則がある場合には図１１のＳ８以下の処理が行な
われる。

【００５２】Ｓ１７では、バッファＸに格納されてい
る、前編集後の文章を、図３に示されるディスク１７内
に確保された、前編集処理後のテキスト格納用のファイ
ルに追加出力する処理が行なわれる。Ｓ１７の処理の後
制御はＳ４に進み、入力テキストの次の文以下の処理が
繰返し行なわれる。

【００５３】図１１を参照して、Ｓ８以下においては、
バッファＸ（図４）に格納された一文の先頭から最後ま
でに対して、図１０のＳ１で選択された規則群の規則を
適用すべきかどうかについては、すべての規則について
判断する処理が行なわれる。すなわちＳ８では、バッフ
ァＸ（図４）に格納された入力テキストのうちの一文の
文頭に、文字列ポインタがセットされる。

【００５４】続いてＳ９において、文字列ポインタで指
し示される位置に、入力文の文字列の残りがあるかどう
かの判断が行なわれる。残りがない場合には入力文の最
終位置まで到達したということであるから、現在適用を
検討中の規則についての処理は終わったものと判断され
て、Ｓ１６以下の処理に進む。入力文の残りがある場合
にはさらに、その残りの文字列と現在調査中の規則の検
索文字列とを比較する必要があることから、処理はＳ１
０以下に進む。

【００５５】Ｓ１０においては、入力文と、現在適用を
検討中の規則について予め定められた検索文字列（図５
参照）とを比較する処理が行なわれる。

【００５６】Ｓ１１では、比較の結果両者が一致したか
否かの判断が行なわれる。一致しない場合には現在検討
中の規則を適用することはできないということであるか
ら、処理はＳ１６に進み次の規則の適用を検討する過程
に進む。両者が一致している場合には処理はＳ１２に進
む。

【００５７】Ｓ１２においては、現在適用を検討中の規
則に対して予め定められた条件の評価が、入力文に対し
て行なわれる。たとえば図５に示される規則３の場合に
は、この文字列が文頭にあるかどうかの判断が所定の条
件チェックプログラム（図７参照）によって行なわれ
る。

【００５８】Ｓ１３では、Ｓ１２において行なわれた条
件チェックの結果、入力文が所定の条件を満たしている
がどうかについての判断が行なわれる。満たしていない
場合には、現在までのところこのルールを適用すること
ができないということであるから処理は再びＳ９に進
み、以後の処理が繰返し行なわれる。条件が満たされて
いる場合には、処理はＳ１４に進む。

【００５９】Ｓ１４においては、当該規則について予め
定められた前編集を実行する処理が行なわれる。この前
編集処理は、図７に示される、当該規則について定めら
れた前編集処理プログラムにこの入力文を引き渡してこ
のプログラムを実行し、その出力として前編集後の文を
得ることにより行なわれる。

【００６０】続いてＳ１５では、入力文の文字列ポイン
タを、Ｓ１３で条件が一致したアドレスの次にセットす
る処理が行なわれ、処理は再びＳ９に戻る。そしてさら
にＳ９以下の処理を繰返し行なうことにより、一文の中
に同一の規則を適用すべき箇所が２箇所以上ある場合に
ももれなく前編集処理が行なわれる。

【００６１】Ｓ９、Ｓ１１からＳ１６に処理が進んだ場
合、Ｓ１６では現在適用を検討中の規則を、これ以上入
力文に対して適用する余地がないということであるか
ら、次の規則についてその適用可能性を検討するため
に、ルールポインタを次の規則にセットする処理が行な
われる。Ｓ１６の後処理は図１０に示されるＳ７に戻
る。

【００６２】このように、入力された一文に対してＳ８
〜Ｓ１６の処理を各規則ごとに繰返して行ない、かつ入
力テキストのすべての入力文に対してＳ４〜Ｓ７および
Ｓ１７の処理を繰返し行なうことにより、図３に示され
るディスク１７内の所定のファイルに格納されていた入
力テキストは一文ずつ順次図４に示されるバッファＸに
格納され、前編集処理が行なわれた後、図３に示される
ディスク１７内の前編集処理後のテキストを格納するた
めのファイルに次々と出力されていく。そして入力テキ
ストのすべての入力文に対して前編集が終了すれば、デ
ィスク１７内には、前編集後の入力テキスト文が得られ
ることになる。

【００６３】図１０に示されるＳ１の処理は、次のよう
にして行なわれる。図１２を参照して、まずＳ２１にお
いて、図３に示される表示装置３上に、選択すべきルー
ル群が、メニュー形式で表示される。

【００６４】続いてＳ２２において、各ルール群に対し
て割り当てられた番号を、図３に示されるキーボード４
などを利用して利用者が入力する。

【００６５】Ｓ２３では、Ｓ２２で入力された番号がど
の値であるかによって次の４つの処理がそれぞれ行なわ
れる。

【００６６】入力された番号が「１」である場合には処
理はＳ２４に進み、ルール群１（図４に示される特許文
献前編集規則群２２）の先頭の規則へのポインタを所定
の記憶領域に記憶する。選択された番号が「２」である
場合にはＳ２５において、図４に示されるマニュアル前
編集規則群２３の先頭の規則へのポインタが記憶され
る。選択された番号が「３」である場合には、Ｓ２６で
一般文献前編集規則群の先頭の規則へのポインタが記憶
される。Ｓ２４〜Ｓ２６の後には、いずれもこの処理は
終了しメインルーチンに復帰する。

【００６７】一方、Ｓ２２で入力された番号が１〜３以
外である場合には、該当する規則群がないことからＳ２
７でエラー処理（たとえばエラーメッセージの表示な
ど）が行なわれ、再び処理はＳ２１に戻る。

【００６８】このように図１２に示される処理を行な
い、選択されたルール群の先頭のルールへのポインタを
予め記憶しておき、図１０のＳ６でこの記憶されたポイ
ンタ位置にルールポインタをセットすることにより、選
択された規則群を用いた前編集処理を行なうことができ
る。

【００６９】図３に示されるディスク１７に格納されて
いる、前編集処理後の入力テキストは次のように機械翻
訳される。まず、この前編集処理後の入力テキストか
ら、一文が図９に示される翻訳モジュールに読込まれ
る。読込まれた前編集処理後の入力テキストの一文は形
態素解析によって形態素に分解され、図１３に示される
ようにバッファＡ（図９参照）に格納される。

【００７０】続いて翻訳プログラム１６に基づく翻訳Ｃ
ＰＵ１５の制御の下に、図２に示される辞書引き・形態
素解析部１１によって、バッファＡに格納された原文の
各単語につき、メモリ６に格納されている辞書を参照す
ることにより各単語の訳語や品詞情報などの情報が得ら
れる。この情報は図９に示されるバッファＢに格納され
る。これらの情報の一部として、各単語の品詞情報が含
まれるが、これら品詞情報は図１４に示されるように格
納される。すなわち“ｔｈｉｓ”は多品詞語であって代
名詞、指示形容詞の２つの品詞を持つ。また“ｉｓ”の
品詞は動詞である。同様に“ａ”、“ｐｅｎ”について
もそれぞれの品詞がバッファＢに格納される。“ｔｈｉ
ｓ”は多品詞語であるが、文中の品詞が何であるかにつ
いては、図２に示される構文解析部１２に相当する処理
によって後に一意に決定される。

【００７１】翻訳プログラムのうち図２に示される構文
解析部１２に相当する処理においては、メモリ６に格納
された辞書および文法規則に従って、各単語間のかかり
受け関係を示す構造解析木がたとえば図１５に示される
ように決定される。この構文解析結果は図９のバッファ
Ｃに格納される。

【００７２】構造解析木の決定は次のようにして行なわ
れる。メモリ６に格納された文法規則のうち、英語に関
する文法規則は次の表１に示されるようなものから成り
立っている。

【００７３】

【表１】これらの規則のうちたとえば１つ目の規則は、「文は主
部と述部からできている。」ということを表わす。他
の規則についても同様である。これらの規則に従って構
造解析木が決定されるのである。なお、このような文法
規則は同じように日本語についても用意されており、英
語の文法規則と日本語の文法規則との間で対応づけがな
されている。

【００７４】翻訳プログラムのうち、図２に示される変
換部１３に相当する処理においては、入力された英文の
構造解析木（図１５参照）の構造が、図１６に示される
日本文に対する構文解析木の構造に変換される。この変
換においては、上述の構文解析部１２が利用したのと同
様に、メモリ６に格納されている「木構造変換規則」が
用いられる。この変換は、図１でいえばレベルＬ３から
ターゲット言語のレベルＬ９への変換に相当する。得ら
れた結果は図９に示されるバッファＤに格納される。こ
の説明において用いられている例文“Ｔｈｉｓｉｓ
ａｐｅｎ”は、この変換によって日本語文字列「これ
ペンである」に変換されたことになる。

【００７５】翻訳プログラムのうち図２の翻訳文生成部
１４に相当する処理を行なう部分は、得られた日本語文
字列「これペンである」に適切な助詞「は」や助動
詞をつけることにより、図１７に示されるような文法的
な日本語の形にし、図９に示されるバッファＥに格納す
る。この処理は、図１に示されるレベルＬ９からレベル
Ｌ１０への変換に相当する。得られた日本文「これはペ
ンである。」は、図９に示される翻訳モジュール５から
出力され、ディスク１７内の翻訳文用のファイルとメイ
ンメモリ２とに格納されるとともに、表示装置３に表示
される。

【００７６】図１８に、ある米国特許文献のクレームの
原文と、この原文に対して前編集処理を行なわずに、本
件発明の出願人が実用化した機械翻訳装置で日本語に翻
訳した結果とを示す。また図１９には、本件発明に係る
テキスト自動前編集装置によって、図１８に示される英
文テキストを前編集した結果と、その前編集された英文
テキストを同一の機械翻訳装置で日本語に翻訳した結果
とを示す。なお、この機械翻訳装置には、前述の部分翻
訳記号“［［”、分割記号“／／”、記号“ｐｎ ”な
どを、各記号に予め割り当てられた機能に従って解釈し
て翻訳を実行する機能が組込まれている。

【００７７】図１８、図１９を参照して明らかなよう
に、元々の英文のクレームの長大な一文は、本発明に係
るテキスト自動前編集装置によって図１９に示されるよ
うに３つの文に分けられた。前述のように一文が短くな
るほど翻訳精度は向上し、かつ翻訳時間も短縮される。
本件発明を用いて行なった処理の結果、図１８、図１９
に示されるように、得られた日本語の文章としては、テ
キスト前編集を行なって後に機械翻訳をしたものの方が
はるかに正確で、かつわかりやすい。機械翻訳に要した
時間も、図１８に示される英文テキストの場合には１分
１４秒を必要としたのに比べ、図１９に示される前編集
後のテキストを機械翻訳した場合、同一の機械翻訳装置
を用いたにもかかわらず、翻訳処理時間は０分１１秒と
大幅に短縮されている。また英文テキストを前編集する
処理そのものに要する時間は１秒程度のものであって、
翻訳処理全体に要する時間は、本発明に係るテキスト自
動前編集装置を利用することによってはるかに短縮され
た。

【００７８】以上、この発明に係るテキスト自動前編集
装置を、機械翻訳システムに組込んだ形で説明した。し
かし本発明はこれには限定されず、このテキスト自動前
編集装置を単独のシステムとして、たとえばパーソナル
コンピュータなどの上で実現し、既存の機械翻訳装置に
対する入力テキストを作成するために利用してもよい。

【００７９】

【発明の効果】以上のように請求項１に記載の発明によ
れば、入力テキスト内において前編集規則を適用すべき
箇所があれば、その箇所の入力テキストに対応する前編
集規則が適用され、機械翻訳しやすい形に入力テキスト
が前編集される。その結果、機械翻訳の精度をより高め
るために、利用者の介入を最小限に抑えながら入力テキ
ストの前編集を行なうことができるテキスト自動前編集
装置を提供することができる。

【００８０】請求項２に記載の発明によれば、前編集の
際に適用されるべき規則は予め所定の基準に従って複数
種類の規則群に分類されており、前編集処理に先立って
そのうちのいずれか１つを選択することができる。した
がって、分野によって前編集の際に適用すべきルールが
異なるような場合にも予め最も適した前編集規則を選択
しておくことができる。その結果、異なる分野の入力テ
キストに対して、それぞれ機械翻訳の精度をより高める
ことが可能なように、利用者の介入を最小限に抑えつつ
入力テキストの前編集処理を行なうことができるテキス
ト自動前編集装置を提供することができる。

【００８１】請求項３に記載の発明によれば、前編集規
則群に含まれる前編集規則は、利用者によって手操作で
変更することができる。そのため、テキスト自動前編集
装置の利用の過程で得られた経験などを前編集規則に生
かすことができ、各利用者の専門分野を扱う入力テキス
トを特に高い精度で機械翻訳することを可能とすること
ができるとともに、利用者の介入を最小限に抑えながら
入力テキストの前編集を行なうことができるテキスト自
動前編集装置を提供することができる。

【図面の簡単な説明】

【図１】機械翻訳の概念を模式的に示す図である。

【図２】トランスファ方式による機械翻訳の構成を示す
模式図である。

【図３】本発明の一例のテキスト自動前編集装置を含む
機械翻訳システムのブロック図である。

【図４】本発明の一実施例に係るテキスト自動前編集装
置のブロック図である。

【図５】特許文献前編集規則群の一例を示す模式図であ
る。

【図６】特許文献前編集規則群の各規則の処理の詳細を
示す模式図である。

【図７】前編集規則のフォーマットを示す模式図であ
る。

【図８】マニュアル前編集規則の一例を示す模式図であ
る。

【図９】図３に示される翻訳モジュール５の詳細なブロ
ック図である。

【図１０】前編集モジュールで実行される前編集プログ
ラムのメインルーチンの前半部のフローチャートであ
る。

【図１１】前編集プログラムのメインルーチンの後半部
のフローチャートである。

【図１２】規則群選択処理のフローチャートである。

【図１３】バッファＡの格納内容を模式的に示す図であ
る。

【図１４】バッファＢの格納内容を模式的に示す図であ
る。

【図１５】バッファＣの格納内容を模式的に示す図であ
る。

【図１６】バッファＤの格納内容を模式的に示す図であ
る。

【図１７】バッファＥの格納内容を模式的に示す図であ
る。

【図１８】前編集前の英文テキストと、この英文テキス
トを機械翻訳した結果得られた日本語テキストを示す模
式図である。

【図１９】図１８に示される英文テキストを本発明の一
実施例に係るテキスト自動前編集装置によって前編集し
た後の英文テキストと、前編集された英文テキストを機
械翻訳装置で翻訳した結果得られた日本語テキストを模
式的に示す図である。

【符号の説明】

１メインＣＰＵ２メインメモリ３表示装置４キーボード５翻訳モジュール６メモリ８前編集モジュール９前編集規則群記憶装置１０前編集部１１辞書引き・形態素解析部１２構文解析部１３変換部１４翻訳文生成部１５翻訳ＣＰＵ１６翻訳プログラムメモリ１８前編集ＣＰＵ１９前編集プログラムメモリ２０エディタプログラムメモリ２１テキスト自動前編集装置２２特許文献前編集規則群２３マニュアル前編集規則群２４一般文献前編集規則群

Claims

【特許請求の範囲】

【請求項１】ソース言語のテキストを機械翻訳装置に
入力するに先立って、機械翻訳の精度を高めるように入
力テキストを前編集するためのテキスト自動前編集装置
であって、各々が、その適用条件と編集方法とを特定する情報を含
む複数の前編集規則からなる前編集規則群を格納するた
めの格納手段と、入力テキスト内の、各前記前編集規則を適用すべき箇所
を検出するための適用箇所検出手段と、前記適用箇所検出手段により検出された箇所に、対応す
る前記前編集規則を適用して、入力テキストを前編集す
るための前編集規則適用手段とを含むテキスト自動前編
集装置。
【請求項２】前記格納手段は、予め所定の基準に従っ
て分類された複数種類の前記前編集規則群を格納し、前記テキスト自動前編集装置はさらに、前編集処理に先立って、前記複数種類の前編集規則群の
いずれか１つを選択するための選択手段を含み、前記適用箇所検出手段は、前記選択手段により選択され
た前編集規則群に含まれる前記前編集規則の適用箇所の
みを入力テキスト中に検出する、請求項１に記載のテキ
スト自動前編集装置。
【請求項３】さらに、前記格納手段に格納された前記
前編集規則群に含まれる前編集規則を変更するための、
利用者により手操作可能な前編集規則変更手段を含む、
請求項１に記載のテキスト自動前編集装置。