JPH05225232A - テキスト自動前編集装置 - Google Patents

テキスト自動前編集装置

Info

Publication number
JPH05225232A
JPH05225232A JP4023780A JP2378092A JPH05225232A JP H05225232 A JPH05225232 A JP H05225232A JP 4023780 A JP4023780 A JP 4023780A JP 2378092 A JP2378092 A JP 2378092A JP H05225232 A JPH05225232 A JP H05225232A
Authority
JP
Japan
Prior art keywords
editing
rule
text
sentence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4023780A
Other languages
English (en)
Inventor
Hitoshi Suzuki
等 鈴木
Ryuji Okabe
龍治 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Sharp System Products Co Ltd
Original Assignee
Sharp Corp
Sharp System Products Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp, Sharp System Products Co Ltd filed Critical Sharp Corp
Priority to JP4023780A priority Critical patent/JPH05225232A/ja
Publication of JPH05225232A publication Critical patent/JPH05225232A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 機械翻訳の翻訳精度を高めるとともに、翻訳
速度を向上させる。 【構成】 翻訳対象の文献の分野別に、前編集規則群を
分類して記憶装置9に格納しておく。バッファXに格納
された入力文に対し、メモリ19に格納された前編集プ
ログラムをCPU18で実行することにより、入力文内
の前編集規則を適用すべき箇所を検出し、検出された箇
所に、前編集規則で特定される処理を行なって機械翻訳
に適した形に前編集された入力テキストを得る。各規則
群22〜24は、いずれか適切なものを選択できる。ま
た各規則群はエディタプログラム20によって追加・削
除できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は機械翻訳システムに関
し、特に、機械翻訳に先立ち、機械翻訳の翻訳精度の向
上や高速化を目的として、ソース言語のテキストを前編
集するためのテキスト自動前編集装置に関する。
【0002】
【従来の技術】機械翻訳システムは、自然言語で書かれ
た文章を、主としてコンピュータ処理を用いて他の言語
に機械的に翻訳するものである。機械翻訳システムによ
り、たとえば各種装置の取扱い説明書(マニュアル)
や、特許文献などの文書を効率よく翻訳することが期待
される。
【0003】しかし従来の機械翻訳システムにおいて
は、一般に一文の長さが長くなるにつれて、翻訳処理に
要する時間が長くなるとともに、その翻訳精度が落ちる
ということが知られている。これは、長文の場合には、
テキストに含まれる語、句、節の間の係り受け関係が曖
昧になり、解釈の可能性が増えるためである。特に特許
関係の文や、法律関係の文においては、1文が長くなる
傾向があり、人間にとっても解釈が容易でない場合があ
る。このような文章をそのまま機械翻訳システムによっ
て翻訳させた場合、非常に長い翻訳処理時間が必要とさ
れた上、翻訳結果も好ましいものとはならない。
【0004】このような問題を解決するために、機械翻
訳システムに入力する前に、入力テキストをエディタな
どによって利用者により前編集することが考えられる。
長文を予め短い文に分割したり、機械翻訳システムに対
し、節の切れ目を示すような記号を文章中に挿入してお
くことにより、機械翻訳の結果がより好ましくなる。
【0005】
【発明が解決しようとする課題】しかし、上述のように
入力テキストを利用者によって前編集する場合には、利
用者にある程度の語学力のあることが要求され、さらに
入力テキストが扱う分野の専門用語についての知識も必
要とされる。そのため、機械翻訳の前編集処理そのもの
に多くの時間が費やされる結果となり、機械翻訳システ
ム全体としての翻訳効率を向上させることは難しかっ
た。また、利用者によっては扱う分野や文書の傾向が特
殊であったりして、他の人に前編集処理を依頼すること
が難しい場合もある。
【0006】それゆえに請求項1に記載の発明の目的
は、機械翻訳の精度をより高めるために、利用者の介入
を最小限に抑えながら入力テキストの前編集を行なうこ
とができるテキスト自動前編集装置を提供することであ
る。
【0007】請求項2に記載の発明の目的は、異なった
分野の入力テキストに対し、それぞれ機械翻訳の精度を
より高めるために、利用者の介入を最小限に抑えながら
入力テキストの前編集処理を行なうことができるテキス
ト自動前編集装置を提供することである。
【0008】請求項3に記載の目的は、各利用者の専門
分野を取扱う入力テキストを特に高い精度で効率よく機
械翻訳することが可能となるように、利用者の介入を最
小限に抑えつつ入力テキストの前編集を行うことか可能
なテキスト自動前編集装置を提供することである。
【0009】
【課題を解決するための手段】請求項1に記載の発明に
係るテキスト自動前編集装置は、各々が、その適用条件
と編集方法とを特定する情報を含む複数の前編集規則か
らなる前編集規則群を格納するための格納手段と、入力
テキスト内の、前編集規則を適用すべき箇所を検出する
ための適用箇所検出手段と、適用箇所検出手段により検
出された箇所に、対応する前編集規則を適用して入力テ
キストを前編集するための前編集規則適用手段とを含
む。
【0010】請求項2に記載の発明に係るテキスト自動
前編集装置は、請求項1に記載のテキスト自動前編集装
置においてさらに、格納手段は、予め所定の基準に従っ
て分類された複数種類の前編集規則群を格納する。そし
てテキスト自動前編集装置はさらに、前編集処理に先立
って、複数種類の前編集規則群のいずれか1つを選択す
るための選択手段を含み、適合箇所検出手段は、選択手
段により選択された前編集規則群に含まれる前編集規則
の適用箇所のみを入力テキスト中に検出する。
【0011】請求項3に記載の発明に係るテキスト自動
前編集装置は、請求項1に記載のテキスト自動前編集装
置であってさらに、格納手段に格納された前編集規則群
に含まれる前編集規則を変更するための、利用者により
手操作可能な前編集規則変更手段を含む。
【0012】
【作用】請求項1に記載のテキスト自動前編集装置にお
いては、格納手段に予め前編集規則群が格納されてお
り、適用箇所検出手段は、入力テキスト内において、格
納手段に格納された前編集規則を適用すべき箇所を検出
する。そして検出された箇所に、前編集規則適用手段に
よって、対応する前編集規則による編集が行なわれ、入
力テキストが機械翻訳装置に与えられる前に、利用者に
よる操作を介することなく機械翻訳に適した形に編集さ
れる。
【0013】請求項2に記載のテキスト自動前編集装置
においては、請求項1に記載の装置による作用に加えて
さらに、格納手段に、所定の基準に従って分類された複
数種類の前編集規則群が格納されており、前編集処理に
先立ってそのうちの1つの前編集規則群が選択される。
適用箇所検出手段は、選択された前編集規則群に含まれ
る前編集規則の適用箇所のみを入力テキスト中に検出す
る。したがって最終的に入力テキストに対して適用され
る前編集規則は、選択された前編集規則群に含まれるも
ののみとなる。
【0014】請求項3に記載のテキスト自動前編集装置
においては、請求項1に記載の装置による作用に加えて
さらに、格納手段に格納された前編集規則群に含まれる
前編集規則を、利用者が任意に変更することができる。
規則の変更には規則の追加、削除などが含まれており、
テキストの機械翻訳を最も効率よく行なえるように、前
編集規則群の内容を調整することができる。
【0015】
【実施例】以下、本発明に係るテキスト自動前編集装置
の一実施例として、英日機械翻訳システムに適用された
ものを例にして説明する。しかし本発明は英日機械翻訳
システムには限定されず、一般的に複数の言語間の機械
翻訳システムにおける入力テキストの前編集処理に適用
可能である。
【0016】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。第1図を参照して、機械翻訳にお
いて行なわれる解析処理には、様々な解析レベルがあ
る。機械翻訳は、図1の左上に示されるソース言語が入
力されると、各レベルの処理を順に行なって最終的に図
1の右側に示されるターゲット言語を得るための処理で
ある。たとえばソース言語が入力されると、まずレベル
L1の辞書引き処理、レベルL2の形態素解析処理、レ
ベルL3の構文解析処理、…と処理が進められ、最終的
にレベルL10の形態素生成処理が行なわれてターゲッ
ト言語が生成される。
【0017】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の2つに分けられる。第1
は、レベルL6に示される中間言語まで解析し、そこか
らターゲット言語を生成していくピボット方式である。
第2は、上述のレベルL2〜レベルL5のいずれかまで
解析を行なってソース言語の内部構造を得、次に、得ら
れたソース言語の内部構造と同じレベルのターゲット言
語の内部構造に変換した後、ターゲット言語を生成する
トランスファ方式である。
【0018】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。
【0019】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の入力テキスト自動前編集装置を含む機械翻訳システ
ムもトランスファ方式を用いたものである。
【0020】以下、図1に示される各解析処理の内容に
ついて説明する。 (1) 辞書引き、形態素解析 この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列(単語列)に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。前編集処理において入力テ
キストに挿入された記号等は、主としてここで処理され
る。
【0021】(2) 構文解析前編集 この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造(構造解析木)を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。前編集処理において入力テ
キストに挿入された前編集記号の一部はここで処理され
る。
【0022】(3) 意味解析 構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
可能性の高いもののみを採用する処理が行なわれる。
【0023】(4) 文脈解析 文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。
【0024】以下で説明する機械翻訳システムの翻訳モ
ジュールにおいては、レベルL3までの解析処理を行な
うものとする。すなわち、後述の機械翻訳システムは、
図2に示されるような構造を有する。この翻訳システム
は、図2を参照して、入力されるソース言語のテキスト
に対して、後続する機械翻訳処理が容易となるように前
編集を行なうための前編集部10と、前編集がされたソ
ース言語に対して辞書引き・形態素解析処理を行なうた
めの辞書引き・形態素解析部11と、形態素解析された
入力文章に対して構文解析を行なうための構文解析部1
2と、構文解析の結果を変換してターゲット言語の構造
解析木を生成するための変換部13と、変換部13によ
って生成されたターゲット言語の構造解析木に基づき、
ターゲット言語の翻訳文を生成するための翻訳文生成部
14とを含む。各部11〜14で行なわれる処理につい
ては、実施例において詳しく説明する。
【0025】図3は、この発明の一実施例のテキスト自
動前編集装置を含む機械翻訳システムのブロック図であ
る。図3を参照して、この機械翻訳システムは、メイン
CPU(中央処理装置)1と、メインCPU1が接続さ
れたバス7と、バス7に接続されたメインメモリ2と、
バス7に接続されたCRT(陰極線管)やLCD(液晶
表示装置)などからなる表示装置3と、キーボード4
と、バス7に接続された翻訳モジュール5と、翻訳モジ
ュール5に接続された翻訳用の辞書・文法規則および木
変換構造規則などの知識ベースを格納しているメモリ6
と、バス7に接続され、入力されるソース言語のテキス
トに対して、所定の前編集処理を行なうためのテキスト
自動前編集装置21と、バス7に接続されたハードディ
スク17とを含む。
【0026】テキスト自動前編集装置21は、それぞれ
バス7に接続された前編集モジュール8と、前編集のた
めの複数の規則を格納するためのハードディスクなどか
らなる記憶装置9とを含む。
【0027】前編集モジュール8は、ソース言語のテキ
ストが入力されると、それを所定の手順に従って機械翻
訳に適した形に前編集して出力するためのものである。
図4を参照して、前編集モジュール8は、バス7に接続
され、バス7を介してたとえばディスク17などから入
力されるソース言語(本実施例の場合は英語)のテキス
トを、後述するような前編集プログラムに従って編集し
て出力する処理を行なうための前編集CPU18と、前
編集プログラムを格納するメモリ19と、記憶装置9に
格納された前編集規則群を編集して前編集規則を追加し
たり、削除したりするためのエディタプログラムを格納
するためのメモリ20と、前編集モジュール8に入力さ
れるソース言語のテキストおよび処理途中のテキストを
格納するためのバッファXとを含む。前編集プログラム
およびエディタプログラムはともに、前編集CPU18
によって実行される。
【0028】記憶装置9には、3種類の前編集規則群が
格納されている。すなわちこの前編集モジュール8で用
いられる前編集規則群は、特許文献を翻訳する際に用い
られる特許文献前編集規則群22と、マニュアル類の機
械翻訳の際に用いられるマニュアル前編集規則群23
と、一般文献を機械翻訳する際に用いられる一般文献前
編集規則群24とからなる。各前編集規則には、所定の
ポインタをその前編集規則1に合わせることによりアク
セスできる。各前編集規則群の先頭は、記憶装置9の所
定アドレスに固定されている。したがって、ポインタを
各前編集規則群の先頭に合わせることにより、各前編集
規則群のいずれでも選択することが可能である。
【0029】図5を参照して、たとえば特許文献前編集
規則群22に格納されている規則は次のようなものであ
る。各規則は、入力されるソース言語のテキスト中にお
いて検索すべき文字列と、その文字列が発見された場合
にこの規則を適用すべきか否かを決定するための条件
と、文字列が発見され、適用すべき条件が満たされた場
合にテキストに対していかなる処理をほどこすかについ
ての情報からなっている。
【0030】たとえば図5に示される規則1において
は、検索文字列として英文特許文献に特徴的に現われる
「wherein」という文字列が指定されている。規
則1の適用条件としては特に何も指定されていない。し
たがって、文字列「wherein」が入力テキスト中
に発見された場合には、以下に述べる処理が行なわれる
ことになる。
【0031】規則1が指定する前編集処理は、図5に示
されるとおり2つの操作からなる。第1番目は、発見さ
れた「wherein」という文字列の前に、分割記号
と呼ばれる記号を挿入することである。分割記号とは、
「//」のことを指す。この分割記号が入力テキスト中
に存在する場合、後に行なわれる機械翻訳処理において
は、この分割記号の前後で文が分かれるものとして翻訳
を行なうことになる。文字列「wherein」が発見
されたときに行なわれる第2の処理は、この文字列「w
herein」を無翻訳記号と呼ばれる記号
「(( ))」で囲むことである。本説明における機械
翻訳処理においては、この無翻訳記号で囲まれた部分
は、所定の指示が行なわれない限り翻訳の対象外として
取扱われる。
【0032】すなわち、規則1による処理の結果、図6
のルール1の「編集前」の欄で示される文字列は、同じ
く「編集後」で示される文字列に変換されることにな
る。このように分割記号や無翻訳記号を挿入することに
より、機械翻訳処理においては、この文字列の前後で意
味的な切れ目があるものとして翻訳を行なうとともに、
この文字列自体は翻訳しない。
【0033】同様にこの特許文献前編集規則群22に
は、規則2、3以下に示されるような特許文献に特徴的
に現われる文字列を検索し、所定の条件が成立した場合
にその文字列付近の入力テキストに対して各規則に示さ
れる処理を行なうことを示す規則が含まれる。また図5
では、検索文字列として「,」のみとなる規則N1が規
則群の最後に設けられている。このように検索文字列の
文字数が少ない場合には、できるだけ規則群の末尾の方
に配置することが好ましい。同じ文字を含むより長い文
字列を検索することを条件とする規則が他に存在する可
能性があるためである。
【0034】図6には、図5に示される各ルールによっ
て入力テキストがどのように編集されるかの実際の例が
示されている。図5、6において、「品詞指定記号」と
は、図6において「pn 」という文字列で示された記
号である。この記号は、この直後に続く単語が連体修飾
の前置詞であることを示す。また図5の規則N1の「処
理」の欄に現われる「部分翻訳記号」とは、図6に示さ
れる記号「[[」を示す。この部分翻訳記号とは、前置
詞句や従属節のように、文として完結しないものを翻訳
処理するときに付加する記号である。
【0035】各ルールは、記憶装置9(図4参照)内
に、図7に示されるような形式で格納されている。図7
を参照して、各規則は記憶装置9内にレコード25とし
て、互いにレコードセパレータ26を隔てて記録されて
いる。レコードセパレータとしてはたとえば、「改行」
コード等が用いられる。
【0036】各レコード25には、検索文字列を格納す
るフィールド27と、条件をチェックするためのプログ
ラム名を格納するフィールド28と、文字列が発見され
条件が満たされた場合にテキストに対して所定の前編集
処理を行なうための前編集処理プログラム名を格納する
ためのフィールド29が、それぞれフィールドセパレー
タ30を介して記録されている。
【0037】条件チェックプログラムは、たとえば入力
文を入力パラメタとし、所定の条件が満足されているか
否かを示すフラグを出力パラメタとして動作するプログ
ラムである。前編集処理プログラムは同様に、編集前の
文字列を入力とし、所定の編集を行なった文字列を出力
とするプログラムである。これらプログラムはいずれ
も、図4に示されるメモリ19に格納されている。
【0038】なお、本実施例ではこのテキスト自動前編
集装置は、自動翻訳システムに組込まれたものとして説
明されているが、この装置のみを単独としてもよく、機
械翻訳システムとは別個のシステムとして動作させても
よい。
【0039】図4には、特許文献前編集規則群の他に、
マニュアル文を機械翻訳する際のマニュアル前編集規則
群23や、その他一般文献を機械翻訳する際の規則群2
4が示されている。これら各規則群に含まれる規則は、
特許文献前編集規則群22と一部共通したものもある
し、たとえばマニュアル類を翻訳する際の前編集規則と
しては、特許文献を前編集する際の規則とは異なったも
のもある。その例が図8に示されている。
【0040】図8を参照して、マニュアル前編集規則群
23のN2番目(最後の規則であるものとする)とし
て、特許文献前編集規則群22の規則N1に代えて、別
の規則が採用されている。この規則N2によれば、入力
テキスト中に文字列“,”が存在した場合には、特許文
献の前編集のときのように文そのものを分割する処理と
は異なり、単に“,”の後に、分割記号“//”を挿入
する処理が行なわれる。これは、マニュアル類の文章
は、特許文献の文章と異なり、それほど長くなることは
なく、あえて文を分割しない方が翻訳後の文がかえって
わかりやすくなるからである。このように、各規則群に
は、扱う文献の分野に従って最も適当に機械翻訳が行な
えるように前処理を行なうためのルールを予め格納して
おく。
【0041】なお、これら各規則は、図4に示されるメ
モリ20に格納されたエディタプログラムによって、追
加・削除することができる。これは、たとえば予め準備
された規則群であっても、実際に利用者が主として取扱
う分野の文献に最適なものとは限らないからである。利
用者が実際にこのテキスト自動前編集装置を稼働してみ
て、ルールとして追加すべきものがある場合にはそれを
追加し、ルールとして適用すべきでないと判断されるも
のはそれを規則群から削除すれば、その利用者にとって
最もよい形でのテキストの前編集処理が行なえることと
なる。
【0042】翻訳モジュール5は、ソース言語の文章が
入力されると、それを所定の手順で翻訳してターゲット
言語を出力するためのものである。図9を参照して、翻
訳モジュール5は、バス7に接続され、バス7を介して
入力されるソース言語(本実施例の場合には英語)を、
所定の翻訳プログラムに従って翻訳してターゲット言語
(本実施例の場合には日本語)としてバス7に出力する
ための翻訳CPU15と、バス7に接続され、翻訳CP
U15で実行される翻訳プログラムを格納するための翻
訳プログラムメモリ16と、入力されたソース言語の原
文を各単語ごとに格納するためのバッファAと、バッフ
ァAに格納された各単語につき、メモリ6に含まれる辞
書を参照して得た各単語の品詞、訳語などの情報を格納
するためのバッファBと、ソース言語の構造解析木に関
する情報を格納するためのバッファCと、バッファCに
格納されたソース言語の構造解析木が変換されたターゲ
ット言語の構造解析木を格納するためのバッファDと、
バッファDに格納された日本語の構造解析木に適切な助
詞を助動詞などを補充して、日本語の形として整えられ
た文章を格納するためのバッファEとを含む。
【0043】以下、図3〜図18を参照して、本実施例
のテキスト自動前編集を装置を含む機械翻訳システムに
よる英日翻訳の動作を説明する。
【0044】機械翻訳の対象となる英文のテキストは、
予めハードディスク17内にファイルとして格納されて
いる。前処理後の英文テキスト、および機械翻訳後の和
文テキストのいずれも、同様にディスク17に新たなフ
ァイルとして格納される。
【0045】特に図10〜図12を参照して、テキスト
の前編集は以下のようにして行なわれる。まず図10を
参照して、ステップS(以下単にSと呼ぶ)1におい
て、機械翻訳される英文テキストが取扱う分野に従い、
図4に示される3つの規則群22〜24のうちのいずれ
を前処理の際のルール群として選択するかを定める処理
が行なわれる。この処理の詳細は図12のフローチャー
トを参照して後述する。
【0046】続いてS2において、選択されたルール群
に対して、ルールの追加・削除などの修正を行なう必要
があるかどうについての判断が行なわれる。この判断は
図3に示される表示装置3上にルールの内容を修正する
かどうかを示すメッセージを表示し、使用者からその入
力を得ることで行なわれる。ルール群の内容を修正する
必要がない場合には直接処理はS4に進み、それ以外の
場合には処理はS3に進む。
【0047】S3においては、図4に示されるメモリ2
0に格納されているエディタプログラムが前編集CPU
18によって実行され、選択された規則群に対し、新た
なルールの追加あるいは不要なルールの削除が行なわれ
る。このようにルールを追加したり削除したりすること
により、利用者がこのテキスト前編集装置を使用してい
る過程において得た経験が規則群の形で整えられていく
こととなり、利用者の扱う分野のテキストを最適に機械
翻訳できるように前処理を行なうことが可能となる。S
3の後制御はS4に進む。
【0048】S4においては、ディスク17内の被処理
テキストが読込まれ、テキスト内に、前編集の対象とな
る入力文が残っているかどうかの判断が行なわれる。残
されていない場合にはすべての入力テキストに対して前
処理が終了したということであるから処理は終了する。
入力文が残されていない場合には処理はS5に進む。
【0049】S5においては、入力テキストの一文が読
込まれ、図4に示されるバッファXに格納される。
【0050】続いてS6においては、入力されたテキス
トの一文に対して適用すべき前編集規則を調べるため
に、まず、S1で選択された規則群のうちの先頭の規則
にルールポインタをセットする処理が行なわれる。たと
えばS1において特許文献前処理規則群22が選択され
た場合には、このS6において、図5に示される規則1
にルールポインタがセットされる。
【0051】続いてS7において、ルールポインタによ
って指し示された位置に、適用すべき規則があるかどう
かについての判断が行なわれる。適用すべき規則がない
場合には、選択された規則群の最終位置まで規則の適用
が終わったということであるから、入力文に対する前編
集処理は終了したものと判断され、処理はS17に進
む。規則がある場合には図11のS8以下の処理が行な
われる。
【0052】S17では、バッファXに格納されてい
る、前編集後の文章を、図3に示されるディスク17内
に確保された、前編集処理後のテキスト格納用のファイ
ルに追加出力する処理が行なわれる。S17の処理の後
制御はS4に進み、入力テキストの次の文以下の処理が
繰返し行なわれる。
【0053】図11を参照して、S8以下においては、
バッファX(図4)に格納された一文の先頭から最後ま
でに対して、図10のS1で選択された規則群の規則を
適用すべきかどうかについては、すべての規則について
判断する処理が行なわれる。すなわちS8では、バッフ
ァX(図4)に格納された入力テキストのうちの一文の
文頭に、文字列ポインタがセットされる。
【0054】続いてS9において、文字列ポインタで指
し示される位置に、入力文の文字列の残りがあるかどう
かの判断が行なわれる。残りがない場合には入力文の最
終位置まで到達したということであるから、現在適用を
検討中の規則についての処理は終わったものと判断され
て、S16以下の処理に進む。入力文の残りがある場合
にはさらに、その残りの文字列と現在調査中の規則の検
索文字列とを比較する必要があることから、処理はS1
0以下に進む。
【0055】S10においては、入力文と、現在適用を
検討中の規則について予め定められた検索文字列(図5
参照)とを比較する処理が行なわれる。
【0056】S11では、比較の結果両者が一致したか
否かの判断が行なわれる。一致しない場合には現在検討
中の規則を適用することはできないということであるか
ら、処理はS16に進み次の規則の適用を検討する過程
に進む。両者が一致している場合には処理はS12に進
む。
【0057】S12においては、現在適用を検討中の規
則に対して予め定められた条件の評価が、入力文に対し
て行なわれる。たとえば図5に示される規則3の場合に
は、この文字列が文頭にあるかどうかの判断が所定の条
件チェックプログラム(図7参照)によって行なわれ
る。
【0058】S13では、S12において行なわれた条
件チェックの結果、入力文が所定の条件を満たしている
がどうかについての判断が行なわれる。満たしていない
場合には、現在までのところこのルールを適用すること
ができないということであるから処理は再びS9に進
み、以後の処理が繰返し行なわれる。条件が満たされて
いる場合には、処理はS14に進む。
【0059】S14においては、当該規則について予め
定められた前編集を実行する処理が行なわれる。この前
編集処理は、図7に示される、当該規則について定めら
れた前編集処理プログラムにこの入力文を引き渡してこ
のプログラムを実行し、その出力として前編集後の文を
得ることにより行なわれる。
【0060】続いてS15では、入力文の文字列ポイン
タを、S13で条件が一致したアドレスの次にセットす
る処理が行なわれ、処理は再びS9に戻る。そしてさら
にS9以下の処理を繰返し行なうことにより、一文の中
に同一の規則を適用すべき箇所が2箇所以上ある場合に
ももれなく前編集処理が行なわれる。
【0061】S9、S11からS16に処理が進んだ場
合、S16では現在適用を検討中の規則を、これ以上入
力文に対して適用する余地がないということであるか
ら、次の規則についてその適用可能性を検討するため
に、ルールポインタを次の規則にセットする処理が行な
われる。S16の後処理は図10に示されるS7に戻
る。
【0062】このように、入力された一文に対してS8
〜S16の処理を各規則ごとに繰返して行ない、かつ入
力テキストのすべての入力文に対してS4〜S7および
S17の処理を繰返し行なうことにより、図3に示され
るディスク17内の所定のファイルに格納されていた入
力テキストは一文ずつ順次図4に示されるバッファXに
格納され、前編集処理が行なわれた後、図3に示される
ディスク17内の前編集処理後のテキストを格納するた
めのファイルに次々と出力されていく。そして入力テキ
ストのすべての入力文に対して前編集が終了すれば、デ
ィスク17内には、前編集後の入力テキスト文が得られ
ることになる。
【0063】図10に示されるS1の処理は、次のよう
にして行なわれる。図12を参照して、まずS21にお
いて、図3に示される表示装置3上に、選択すべきルー
ル群が、メニュー形式で表示される。
【0064】続いてS22において、各ルール群に対し
て割り当てられた番号を、図3に示されるキーボード4
などを利用して利用者が入力する。
【0065】S23では、S22で入力された番号がど
の値であるかによって次の4つの処理がそれぞれ行なわ
れる。
【0066】入力された番号が「1」である場合には処
理はS24に進み、ルール群1(図4に示される特許文
献前編集規則群22)の先頭の規則へのポインタを所定
の記憶領域に記憶する。選択された番号が「2」である
場合にはS25において、図4に示されるマニュアル前
編集規則群23の先頭の規則へのポインタが記憶され
る。選択された番号が「3」である場合には、S26で
一般文献前編集規則群の先頭の規則へのポインタが記憶
される。S24〜S26の後には、いずれもこの処理は
終了しメインルーチンに復帰する。
【0067】一方、S22で入力された番号が1〜3以
外である場合には、該当する規則群がないことからS2
7でエラー処理(たとえばエラーメッセージの表示な
ど)が行なわれ、再び処理はS21に戻る。
【0068】このように図12に示される処理を行な
い、選択されたルール群の先頭のルールへのポインタを
予め記憶しておき、図10のS6でこの記憶されたポイ
ンタ位置にルールポインタをセットすることにより、選
択された規則群を用いた前編集処理を行なうことができ
る。
【0069】図3に示されるディスク17に格納されて
いる、前編集処理後の入力テキストは次のように機械翻
訳される。まず、この前編集処理後の入力テキストか
ら、一文が図9に示される翻訳モジュールに読込まれ
る。読込まれた前編集処理後の入力テキストの一文は形
態素解析によって形態素に分解され、図13に示される
ようにバッファA(図9参照)に格納される。
【0070】続いて翻訳プログラム16に基づく翻訳C
PU15の制御の下に、図2に示される辞書引き・形態
素解析部11によって、バッファAに格納された原文の
各単語につき、メモリ6に格納されている辞書を参照す
ることにより各単語の訳語や品詞情報などの情報が得ら
れる。この情報は図9に示されるバッファBに格納され
る。これらの情報の一部として、各単語の品詞情報が含
まれるが、これら品詞情報は図14に示されるように格
納される。すなわち“this”は多品詞語であって代
名詞、指示形容詞の2つの品詞を持つ。また“is”の
品詞は動詞である。同様に“a”、“pen”について
もそれぞれの品詞がバッファBに格納される。“thi
s”は多品詞語であるが、文中の品詞が何であるかにつ
いては、図2に示される構文解析部12に相当する処理
によって後に一意に決定される。
【0071】翻訳プログラムのうち図2に示される構文
解析部12に相当する処理においては、メモリ6に格納
された辞書および文法規則に従って、各単語間のかかり
受け関係を示す構造解析木がたとえば図15に示される
ように決定される。この構文解析結果は図9のバッファ
Cに格納される。
【0072】構造解析木の決定は次のようにして行なわ
れる。メモリ6に格納された文法規則のうち、英語に関
する文法規則は次の表1に示されるようなものから成り
立っている。
【0073】
【表1】 これらの規則のうちたとえば1つ目の規則は、「文は主
部と述部からできている 。」ということを表わす。他
の規則についても同様である。これらの規則に従って構
造解析木が決定されるのである。なお、このような文法
規則は同じように日本語についても用意されており、英
語の文法規則と日本語の文法規則との間で対応づけがな
されている。
【0074】翻訳プログラムのうち、図2に示される変
換部13に相当する処理においては、入力された英文の
構造解析木(図15参照)の構造が、図16に示される
日本文に対する構文解析木の構造に変換される。この変
換においては、上述の構文解析部12が利用したのと同
様に、メモリ6に格納されている「木構造変換規則」が
用いられる。この変換は、図1でいえばレベルL3から
ターゲット言語のレベルL9への変換に相当する。得ら
れた結果は図9に示されるバッファDに格納される。こ
の説明において用いられている例文“This is
a pen”は、この変換によって日本語文字列「これ
ペン である」に変換されたことになる。
【0075】翻訳プログラムのうち図2の翻訳文生成部
14に相当する処理を行なう部分は、得られた日本語文
字列「これ ペン である」に適切な助詞「は」や助動
詞をつけることにより、図17に示されるような文法的
な日本語の形にし、図9に示されるバッファEに格納す
る。この処理は、図1に示されるレベルL9からレベル
L10への変換に相当する。得られた日本文「これはペ
ンである。」は、図9に示される翻訳モジュール5から
出力され、ディスク17内の翻訳文用のファイルとメイ
ンメモリ2とに格納されるとともに、表示装置3に表示
される。
【0076】図18に、ある米国特許文献のクレームの
原文と、この原文に対して前編集処理を行なわずに、本
件発明の出願人が実用化した機械翻訳装置で日本語に翻
訳した結果とを示す。また図19には、本件発明に係る
テキスト自動前編集装置によって、図18に示される英
文テキストを前編集した結果と、その前編集された英文
テキストを同一の機械翻訳装置で日本語に翻訳した結果
とを示す。なお、この機械翻訳装置には、前述の部分翻
訳記号“[[”、分割記号“//”、記号“pn ”な
どを、各記号に予め割り当てられた機能に従って解釈し
て翻訳を実行する機能が組込まれている。
【0077】図18、図19を参照して明らかなよう
に、元々の英文のクレームの長大な一文は、本発明に係
るテキスト自動前編集装置によって図19に示されるよ
うに3つの文に分けられた。前述のように一文が短くな
るほど翻訳精度は向上し、かつ翻訳時間も短縮される。
本件発明を用いて行なった処理の結果、図18、図19
に示されるように、得られた日本語の文章としては、テ
キスト前編集を行なって後に機械翻訳をしたものの方が
はるかに正確で、かつわかりやすい。機械翻訳に要した
時間も、図18に示される英文テキストの場合には1分
14秒を必要としたのに比べ、図19に示される前編集
後のテキストを機械翻訳した場合、同一の機械翻訳装置
を用いたにもかかわらず、翻訳処理時間は0分11秒と
大幅に短縮されている。また英文テキストを前編集する
処理そのものに要する時間は1秒程度のものであって、
翻訳処理全体に要する時間は、本発明に係るテキスト自
動前編集装置を利用することによってはるかに短縮され
た。
【0078】以上、この発明に係るテキスト自動前編集
装置を、機械翻訳システムに組込んだ形で説明した。し
かし本発明はこれには限定されず、このテキスト自動前
編集装置を単独のシステムとして、たとえばパーソナル
コンピュータなどの上で実現し、既存の機械翻訳装置に
対する入力テキストを作成するために利用してもよい。
【0079】
【発明の効果】以上のように請求項1に記載の発明によ
れば、入力テキスト内において前編集規則を適用すべき
箇所があれば、その箇所の入力テキストに対応する前編
集規則が適用され、機械翻訳しやすい形に入力テキスト
が前編集される。その結果、機械翻訳の精度をより高め
るために、利用者の介入を最小限に抑えながら入力テキ
ストの前編集を行なうことができるテキスト自動前編集
装置を提供することができる。
【0080】請求項2に記載の発明によれば、前編集の
際に適用されるべき規則は予め所定の基準に従って複数
種類の規則群に分類されており、前編集処理に先立って
そのうちのいずれか1つを選択することができる。した
がって、分野によって前編集の際に適用すべきルールが
異なるような場合にも予め最も適した前編集規則を選択
しておくことができる。その結果、異なる分野の入力テ
キストに対して、それぞれ機械翻訳の精度をより高める
ことが可能なように、利用者の介入を最小限に抑えつつ
入力テキストの前編集処理を行なうことができるテキス
ト自動前編集装置を提供することができる。
【0081】請求項3に記載の発明によれば、前編集規
則群に含まれる前編集規則は、利用者によって手操作で
変更することができる。そのため、テキスト自動前編集
装置の利用の過程で得られた経験などを前編集規則に生
かすことができ、各利用者の専門分野を扱う入力テキス
トを特に高い精度で機械翻訳することを可能とすること
ができるとともに、利用者の介入を最小限に抑えながら
入力テキストの前編集を行なうことができるテキスト自
動前編集装置を提供することができる。
【図面の簡単な説明】
【図1】機械翻訳の概念を模式的に示す図である。
【図2】トランスファ方式による機械翻訳の構成を示す
模式図である。
【図3】本発明の一例のテキスト自動前編集装置を含む
機械翻訳システムのブロック図である。
【図4】本発明の一実施例に係るテキスト自動前編集装
置のブロック図である。
【図5】特許文献前編集規則群の一例を示す模式図であ
る。
【図6】特許文献前編集規則群の各規則の処理の詳細を
示す模式図である。
【図7】前編集規則のフォーマットを示す模式図であ
る。
【図8】マニュアル前編集規則の一例を示す模式図であ
る。
【図9】図3に示される翻訳モジュール5の詳細なブロ
ック図である。
【図10】前編集モジュールで実行される前編集プログ
ラムのメインルーチンの前半部のフローチャートであ
る。
【図11】前編集プログラムのメインルーチンの後半部
のフローチャートである。
【図12】規則群選択処理のフローチャートである。
【図13】バッファAの格納内容を模式的に示す図であ
る。
【図14】バッファBの格納内容を模式的に示す図であ
る。
【図15】バッファCの格納内容を模式的に示す図であ
る。
【図16】バッファDの格納内容を模式的に示す図であ
る。
【図17】バッファEの格納内容を模式的に示す図であ
る。
【図18】前編集前の英文テキストと、この英文テキス
トを機械翻訳した結果得られた日本語テキストを示す模
式図である。
【図19】図18に示される英文テキストを本発明の一
実施例に係るテキスト自動前編集装置によって前編集し
た後の英文テキストと、前編集された英文テキストを機
械翻訳装置で翻訳した結果得られた日本語テキストを模
式的に示す図である。
【符号の説明】
1 メインCPU 2 メインメモリ 3 表示装置 4 キーボード 5 翻訳モジュール 6 メモリ 8 前編集モジュール 9 前編集規則群記憶装置 10 前編集部 11 辞書引き・形態素解析部 12 構文解析部 13 変換部 14 翻訳文生成部 15 翻訳CPU 16 翻訳プログラムメモリ 18 前編集CPU 19 前編集プログラムメモリ 20 エディタプログラムメモリ 21 テキスト自動前編集装置 22 特許文献前編集規則群 23 マニュアル前編集規則群 24 一般文献前編集規則群

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ソース言語のテキストを機械翻訳装置に
    入力するに先立って、機械翻訳の精度を高めるように入
    力テキストを前編集するためのテキスト自動前編集装置
    であって、 各々が、その適用条件と編集方法とを特定する情報を含
    む複数の前編集規則からなる前編集規則群を格納するた
    めの格納手段と、 入力テキスト内の、各前記前編集規則を適用すべき箇所
    を検出するための適用箇所検出手段と、 前記適用箇所検出手段により検出された箇所に、対応す
    る前記前編集規則を適用して、入力テキストを前編集す
    るための前編集規則適用手段とを含むテキスト自動前編
    集装置。
  2. 【請求項2】 前記格納手段は、予め所定の基準に従っ
    て分類された複数種類の前記前編集規則群を格納し、 前記テキスト自動前編集装置はさらに、 前編集処理に先立って、前記複数種類の前編集規則群の
    いずれか1つを選択するための選択手段を含み、 前記適用箇所検出手段は、前記選択手段により選択され
    た前編集規則群に含まれる前記前編集規則の適用箇所の
    みを入力テキスト中に検出する、請求項1に記載のテキ
    スト自動前編集装置。
  3. 【請求項3】 さらに、前記格納手段に格納された前記
    前編集規則群に含まれる前編集規則を変更するための、
    利用者により手操作可能な前編集規則変更手段を含む、
    請求項1に記載のテキスト自動前編集装置。
JP4023780A 1992-02-10 1992-02-10 テキスト自動前編集装置 Pending JPH05225232A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4023780A JPH05225232A (ja) 1992-02-10 1992-02-10 テキスト自動前編集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4023780A JPH05225232A (ja) 1992-02-10 1992-02-10 テキスト自動前編集装置

Publications (1)

Publication Number Publication Date
JPH05225232A true JPH05225232A (ja) 1993-09-03

Family

ID=12119845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4023780A Pending JPH05225232A (ja) 1992-02-10 1992-02-10 テキスト自動前編集装置

Country Status (1)

Country Link
JP (1) JPH05225232A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1984003801A1 (fr) * 1983-03-14 1984-09-27 Jack Kenneth Ibbott Batterie et son procede de production
WO2014196457A1 (ja) * 2013-06-07 2014-12-11 シャープ株式会社 字幕付きコンテンツ再生装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1984003801A1 (fr) * 1983-03-14 1984-09-27 Jack Kenneth Ibbott Batterie et son procede de production
AU574021B2 (en) * 1983-03-14 1988-06-23 Ibbott, J.K. Battery and process for its production
WO2014196457A1 (ja) * 2013-06-07 2014-12-11 シャープ株式会社 字幕付きコンテンツ再生装置

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
JP2892548B2 (ja) 自動翻訳装置
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
JPH05314166A (ja) 電子化辞書および辞書検索装置
JPH04235673A (ja) 翻訳装置
JPH05225232A (ja) テキスト自動前編集装置
JPH08190562A (ja) 機械翻訳装置
JPH0561902A (ja) 機械翻訳システム
JP2719453B2 (ja) 機械翻訳装置
JPH0320866A (ja) テキストベース検索方式
JPH08235180A (ja) 機械翻訳装置
JP2000207395A (ja) 日本語解析装置および日本語解析方法ならびに日本語解析プログラムを記録した記録媒体
JPH1031676A (ja) 対訳例文検索装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP3233800B2 (ja) 機械翻訳装置
JP2608384B2 (ja) 機械翻訳装置及びその方法
JPH0635964A (ja) 機械翻訳装置
JPH07191995A (ja) 機械翻訳装置
JPH11259473A (ja) 機械翻訳装置及び機械翻訳方法
JPH04130577A (ja) 自然言語処理装置
JPH07230461A (ja) 構文解析装置及び機械翻訳装置
JPH07249044A (ja) 機械翻訳装置
JPH05324647A (ja) 文章作成装置
JPH08185405A (ja) 機械翻訳装置
JPH06332938A (ja) 自然言語解析装置および機械翻訳装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19990427