JPH10312382A - 類似用例翻訳システム - Google Patents

類似用例翻訳システム

Info

Publication number
JPH10312382A
JPH10312382A JP9137425A JP13742597A JPH10312382A JP H10312382 A JPH10312382 A JP H10312382A JP 9137425 A JP9137425 A JP 9137425A JP 13742597 A JP13742597 A JP 13742597A JP H10312382 A JPH10312382 A JP H10312382A
Authority
JP
Japan
Prior art keywords
sentence
translation
original
database
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9137425A
Other languages
English (en)
Inventor
Keiichi Shinoda
恵壱 信田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP9137425A priority Critical patent/JPH10312382A/ja
Publication of JPH10312382A publication Critical patent/JPH10312382A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 用例データベースを利用する機械翻訳システ
ムにおいて、簡単な構成で高速に統一のとれた翻訳をす
る。 【解決手段】 用例データベース8に数多くの対訳文を
蓄積し、同一文または類似文を抽出して翻訳する。類似
文がない場合は、原文を分割して、分割文について、同
一文または類似文を抽出して翻訳する。分割文について
も類似文がない場合は、辞書データベース9を検索し
て、語単位または熟語単位で翻訳する。翻訳結果を、用
例データベース8と辞書データベース9を参照して後編
集する。完成した翻訳文は原文とともに用例データベー
ス8に格納する。翻訳するたびに用例データが蓄積され
るので、自動的に用例データベースが充実される。簡単
な文法ルール3、5、6と用例データベース8と辞書デ
ータベース9を用いるだけで、統一のとれた翻訳が高速
にできる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、インターネットを
使ったネットワークコンピューティング(NC)に適し
た機械翻訳システムに関し、特に、用例データベースか
ら完全一致文または類似文を検索し、その対訳文を利用
して翻訳を行なう類似用例翻訳システムに関する。
【0002】
【従来の技術】機械で翻訳しようという考えは、コンピ
ュータが発明される以前からあったし、コンピュータを
使って翻訳をする試みは、コンピュータが発明されると
すぐ始まった。
【0003】第一段階の機械翻訳システムとしては、図
11に示すような、語と対訳の語を辞書引きするダイレク
ト方式の機械翻訳システムがある。これは、1950年代〜
1960年代に研究開発が行なわれた。この段階の翻訳処理
技術は、原文を解析し、原文の中の語ないしはいくつか
の少数の語の集まりを単位として認識し、その認識され
た単位で原言語から翻訳先言語への置き換えを行ない、
最後にこれらの単位の順序を並べ換えることによって訳
文を作り上げるというものである。このとき、認識の単
位は、一つの語と同等に扱える程度のものである。した
がって、この時期の翻訳処理を語対語翻訳という。ま
た、認識の内容は、品詞や極めて単純な文法的機能につ
いてである。そのため、原文の中の語を訳語に置き換え
て翻訳するのとあまり変わらない。このような翻訳処理
の方法を直接翻訳と呼ぶ。
【0004】この時期の機械翻訳システムが辞書にもっ
ていた単語の数はせいぜい数百くらいまでであり、か
つ、辞書の内容も極めて単純であった。そのため、文法
情報以外に語の出現頻度を使うことも考えられた。ま
た、翻訳処理を簡単化するために、後で述べるピボット
方式も考えられた。
【0005】機械翻訳システムを使うという観点から
は、翻訳処理がしやすいように原文を人間が修正する前
編集、及び訳文における誤りや不十分な点を人間が修正
する後編集が考えられた。このように、今日に見られる
機械翻訳システムの処理方法及び利用方法に関する基本
的な考え方のほとんどは、既にこの時期に考えられてい
た。
【0006】第二段階の機械翻訳システムとしては、図
12に示すような、文書の構文変換(文法解析と言語生
成)をするトランスファ方式の機械翻訳システムと、図
13に示すような、中間言語を使って翻訳するピボット方
式の機械翻訳システムがある。これらは、1960年代〜19
70年代に研究開発が行なわれた。この段階の翻訳処理技
術は、1950年代の終わりに米国MITの言語学者N.Chom
skyにより提案された変形生成句構造文法理論という言
語理論及びそれに基づく構文解析法に基礎をおいてい
る。すなわち、原文を文法的に解析した結果を構文構造
表現として表し、その構文構造表現を翻訳先言語と構文
構造表現に変換し、変換された構文構造表現から訳文を
作り上げる。このように、構文構造表現という間接的な
中間表現を経由して翻訳するため、このような翻訳処理
の方法を間接翻訳と呼ぶ。すなわち、第二段階の機械翻
訳技術は、第一段階の語の置き換えという単純なものと
は異なり、文の構造を解析するものである。したがっ
て、言語データとしても、辞書だけでなく構造に関する
文法も使うようになった。
【0007】構文構造表現は言語の文法的特性に依存し
ており、同一の内容を表す文であっても言語が異なれば
それぞれ文の構文構造表現も異なってくる。そのため、
翻訳するには、構文構造表現の変換が必要となる。した
がって、このような翻訳処理の方式をトランスファ方式
と呼ぶ。
【0008】これに対して、構文構造表現の代わりに言
語の特性に依存しない一つの表現手段を設定し、その表
現手段を使って記述した中間表現から変換という処理を
経ないで直接的に訳文を作り出す翻訳処理の方式をピボ
ット方式(中間言語方式)と呼ぶ。また、そのような表
現手段を与える記述言語をピボット言語と呼ぶ。ピボッ
ト言語としては、構文的な情報を表すもの、意味的な情
報を表すものなどのいろいろな種類がある。ピボット方
式の翻訳処理も、中間表現という間接的な表現を経由し
て翻訳するため、間接翻訳の一種である。
【0009】ダイレクト方式、トランスファ方式、ピボ
ット方式の何れも、70%以上の翻訳結果を得るには、基
本語辞書、専門用語辞書やユーザ辞書を充実したり、文
法ルールを充実させるなどの必要がある。これらの翻訳
方式ではシステムの構築にかなりの困難があり、システ
ムが複雑で大規模になるにもかかわらず、完全な翻訳は
難しく、人間による後編集などの修正作業が必要にな
り、100%の完全翻訳は依然として達成されない。そこ
で、最近では、従来の方式と異なった翻訳方式が見直さ
れてきた。コンピュータの高速化、記憶装置の大容量化
により、大量の例文をデータベースに記憶しておき、原
文に一致または類似する例文を検索し、対訳文を利用し
て翻訳することが可能になってきた。この例文データベ
ースを利用する翻訳方式の例としては、特開平8-221422
号公報、佐藤理史著「アナロジーによる機械翻訳」(19
97年4月共立出版株式会社発行)、長尾真編「岩波講座
ソフトウエア科学15自然言語処理」(1996年4月株式会
社岩波書店発行)、長尾真・牧野武則編著「コンピュー
タで翻訳する」(1995年2月共立出版株式会社発行)に
記載されたものなどがある。
【0010】例文利用翻訳の第1の例は、特開平8-2214
22号公報に開示された、一文一致により翻訳する機械翻
訳システムである。この機械翻訳システムは、図14に示
すように、機械翻訳装置が、通信ネットワークに接続さ
れた対訳データベースを検索して、一致する文があれば
その訳文を取り出して翻訳文とするものである。
【0011】例文利用翻訳の第2の例は、<パターン翻
訳>とよばれる、対訳パターンによる翻訳方式である。
「詳細が知りたい場合は第3章を見てください。」とい
う原文に対して、“Refer to Chapter 3 for the detai
ls.”という訳文の関係を、対訳パターンとして登録す
る。「<X>が知りたい場合は<Y>を見てください」という
文に対して、“Refer to <Y> for <X>.”という訳文を
出力するようにする。<X>と<Y>は、いろいろな表現が入
る変数部分である。<X>や<Y>の部分にどんな言葉が入っ
ても、“Refer to <Y> for <X>.”という訳文を出力で
きるようになる。類似する翻訳が数多く現れる場合には
効率的である。
【0012】例文利用翻訳の第3の例は、用例に基づく
翻訳あるいは実例型機械翻訳(Example-Based Machine
Translation;EBMT)と呼ばれるものである。これ
は、1980年代半ばに提案された手法であるが、実際に計
算機上に実現されたのは1980年代の終わりごろである。
用例に基づく翻訳とは、あらかじめ翻訳された「翻訳
対」を用意して、その中からよく似た文を手本として、
翻訳を行なおうとするものである。しかし、一文まるご
とがよく似た文であることはあまりないから、文の一部
分であっても、それとよく似た部分を用例から見つけ
て、それをもとに翻訳しようとしている。このとき、翻
訳は、単なる単語の置き換えではなく、その単語が用い
られている環境に大きく左右されるから、どの部分を、
翻訳に意味のあるひとつの単位として認定し、部分訳と
して利用するか、また、どの程度似ているのかを判定す
る類似度の定義が、大きな課題となっている。
【0013】現在、日本国内だけでも既に10種以上の機
械翻訳システム(Machine Translation、略してMT)
がユーザに提供されている。数年前までシステムの多く
は、数百万円もするワークステーションの上で稼働する
高価なものであった。そのためユーザは、翻訳会社や企
業の翻訳部門など大規模な文書の翻訳を行なうオフィス
に限られていた。しかし最近ではパソコンの上で稼働す
るシステムが販売されるようになり、またパソコンネッ
トで機械翻訳のサービスがなされるなど、個人ユーザが
増えてきている。
【0014】
【発明が解決しようとする課題】従来の機械翻訳システ
ムは、複雑な構文解析をして翻訳をするものか、大量の
例文をあらかじめ用意しておいて翻訳するものであった
ために、大規模なシステムを構築する必要があり、翻訳
のコストと時間がかかった。または、小規模なシステム
で翻訳するものは、実用的な翻訳文を作成することが困
難であり、翻訳文の修正作業が負担となっていた。
【0015】また、用例データベースを利用する翻訳に
おいても、実用的な翻訳を行なうためには百万程度の文
例を用意する必要がある。従来の用例データのひとつ
の、英国のバーミンガム大学と辞書出版のコリンズ社と
の共同で作成した「バーミンガムコーパス」は、1960年
代のイギリス英語の、特に社会科学を中心とした約27万
例のデータから始まって現在では2億語のコーパスとな
っている。James Murray氏を中心にして50年の歳月をか
けて作成した「オックスフォード・ディクショナリ」に
は、500万の用例データがある。しかし、両方とも自然
科学、医学、バイオ、原子力、情報、航空、宇宙分野な
どの用例データはほとんど含まれていない。専門分野の
翻訳を行なうにはそれぞれの分野の用例データを大量に
用意しなければならない。
【0016】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明では、用例データベースと辞書データベー
スと、完全一致文翻訳手段と、類似用例翻訳手段と、文
分割手段と、分割文完全一致文翻訳手段と、分割文類似
用例翻訳手段と、新規文翻訳手段と、を設けて、以前に
翻訳した文と同一か類似の文は用例データベースを利用
して翻訳することにより、簡単な構成で高速に統一のと
れた翻訳を行なえるようにする。また、用例データベー
スと辞書データベースを利用する全文後編集手段を設け
て、人間による後編集が容易にできるようにする。
【0017】用例データベースには、翻訳が完了した原
文と翻訳文を対にした対訳文を自動的に格納し、対訳文
を集積するようにしておく。完全一致文翻訳手段は、原
文と完全に一致する用例を用例データベースから検索し
て、その対訳文を出力する。類似用例翻訳手段は、用例
データベースを検索して、原文と一語ないし数語が不一
致となる例文を抽出し、原文と一致しない用例文の語に
対応する対訳文の語を、原文の語の訳を使って変更する
ことにより翻訳を行なう。文分割手段は、用例データベ
ースを検索して、原文と半分以上の語が一致する例文を
発見できなかった場合に、原文をコンマなどの区切りに
よって分割する。分割文完全一致文翻訳手段は、用例デ
ータベースを検索して、分割原文と完全に一致した例文
の対訳文を出力する。分割文類似用例翻訳手段は、用例
データベースを検索して、分割原文と一語ないし数語が
不一致となる例文を抽出し、分割原文と一致しない用例
文の語に対応する対訳文の語を、分割原文の語の訳を使
って変更することにより翻訳を行なう。新規文翻訳手段
は、用例データベースを検索して分割原文と半分以上の
語が一致する例文を発見できなかった場合に、辞書デー
タベースを検索して、語対語あるいは熟語単位の翻訳を
する。全文後編集手段は、用例データベースを参照して
関連する例文を表示する手段と辞書データベースを参照
して関連する語を表示する手段とを有する。
【0018】専門分野の用例データについては、その分
野のマニュアルや用語辞典などで対訳があるものを入力
して作成しておく。
【0019】
【発明の実施の形態】本発明の請求項1記載の発明は、
翻訳すべき原文章を入力する入力装置と、入力された原
文章を文単位に切り出し原文を出力する一文切出手段
と、辞書データベースおよび例文とその対訳文を対にし
て記憶した用例データベースからなるデータベース部
と、用例データベースを検索して原文と完全に一致した
例文の対訳文を出力する完全一致文翻訳手段と、用例デ
ータベースを検索して原文と一部不一致となる例文を抽
出し、その対訳文を原文に従って変更することにより翻
訳を行なう類似用例翻訳手段と、用例データベースを検
索して原文と所定率以上一致する例文を発見できなかっ
た場合に、原文を所定の規則に従って分割する文分割手
段と、用例データベースを検索して分割原文と完全に一
致した例文の対訳文を出力する分割文完全一致文翻訳手
段と、用例データベースを検索して分割原文と一部不一
致となる例文を抽出し、その対訳文を分割原文に従って
変更することにより翻訳を行なう分割文類似用例翻訳手
段と、用例データベースを検索して分割原文と所定率以
上一致する例文を発見できなかった場合に、辞書データ
ベースを検索して翻訳する新規文翻訳手段と、分割原文
のそれぞれの翻訳文を組み立てて原文の翻訳文を出力す
る分割翻訳文組立手段と、を具備する類似用例翻訳シス
テムであり、以前に翻訳した原文に対しては同じ翻訳文
が出力されるので、高速に統一した翻訳ができるという
作用を有する。
【0020】本発明の請求項2記載の発明は、請求項1
記載の類似用例翻訳システムにおいて、用例データベー
スを参照して関連する例文を表示する手段と辞書データ
ベースを参照して関連する語を表示する手段とを有する
全文後編集手段を設けたものであり、用例を参照しなが
ら後編集ができるので、翻訳文の修正が容易になるとい
う作用を有する。
【0021】以下、本発明の実施の形態を図1〜図10を
参照しながら詳細に説明する。
【0022】(第1の実施の形態)本発明の第1の実施
の形態は、用例データベースから原文と完全に一致する
用例を検索して、その対訳文を訳文とし、完全一致の例
文がない場合は、1語ないし数語が一致しない例文を検
索して、その対訳文を変更して訳文とし、原文と半分以
上の語が一致する例文がない場合は、原文をコンマなど
の位置で分割し、分割原文について用例データベースを
検索し、分割原文と完全に一致する用例があればその対
訳文を訳文とし、完全一致の例文がない場合は、1語な
いし数語が一致しない例文を検索して、その対訳文を変
更して訳文とし、分割原文と半分以上の語が一致する例
文がない場合は、語単位または熟語単位で辞書データベ
ースを検索して訳語を出力する、類似用例翻訳システム
である。
【0023】以下、図1〜図8を参照して第1の実施の
形態を説明する。図1は、本発明の第1の実施の形態の
類似用例翻訳システムの装置構成図である。
【0024】入力装置1は、キーボード、OCRなどの
入力手段を介して、翻訳すべき原文章を入力するもので
ある。フロッピーディスクなどの記録媒体から入力して
もよいし、LAN、FAXなどの通信手段を介して入力
してもよい。入力バッファー2は、入力された原文章を
格納するものである。一文切出ルールテーブル3は、入
力バッファー2に入力された原文章から1文を切り出す
際に参照される。編集バッファー4は、切り出された1
分を格納するものである。出力装置11は、翻訳文を出力
するものである。出力手段はLANなどの通信手段でも
よいし、ディスクなどの記憶手段でもよい。置換ルール
テーブル5は、原文と例文の不一致の単語や熟語などを
置換するための規則を格納した表である。文分割ルール
テーブル6は、文を分割するための規則を格納した表で
ある。CPU10は、演算手段と主記憶手段を有し、検索
や翻訳処理を行なう処理手段である。
【0025】データベース部7は、用例データベース部
8と辞書データベース部9とからなる。用例データベー
ス部8は、例文とその対訳文を対にして記憶している。
1文ごとに構文解析データを記憶しておき、原文の1語
または熟語が訳文のどの部分に対応するかがすぐにわか
るようにしておく。慣用表現などで、原文と訳文の単語
の間に対応が取れないような場合は、対応関係は不明と
しておく。このような文は、単語が変わることはないの
で、実用上の障害はない。
【0026】例文は、例えば文字コードのハッシュ値を
キーとして記憶しておく。対訳文は、1つの例文に複数
あってもよい。1語ずつをポインタでリンクした木構造
のデータとして記憶しておいてもよい。あるいは、リレ
ーショナルデータベースとして格納しておけば、検索が
容易にできる。
【0027】すべての例文のすべての単語を抽出して、
単語辞書を作成し、各単語がどの例文のどの位置にある
かという索引を作成しておく。全文検索の手法を使っ
て、部分的に単語が一致する例文を高速に検索できるよ
うにしておく。単語辞書を圧縮辞書として例文を圧縮す
れば、ディスク装置や主記憶装置を小型にできる。対訳
文についても、圧縮辞書を使って圧縮することができ
る。
【0028】各例文に技術分野などの分野のデータを付
与しておく。
【0029】辞書データベース9は、単語辞書とColloc
ation辞書とIdiom辞書からなる。単語辞書は、通常の英
和辞書とほぼ同じものである。Collocation辞書とIdiom
辞書は、連語、慣用句、熟語を収めた辞書である。
【0030】図2は、一文翻訳の手順を示すフローチャ
ートである。図2に従って、一文翻訳の各機能手段と処
理手順を説明する。 (1)一文切出手段 まず、一文切出ルールテーブルを参照して、原文章から
所定の規則に従って一文を切り出す。通常は、英文の場
合ピリオドを区切りとして切り出す。その他、コロンや
セミコロンや括弧も文の区切りとしてもよい。コロンな
どで一文として切り出すか、コロンなどは文分割の際に
切る区切りとするかは、対象の文章の種類などに応じて
決める。 (2)用例データベース検索手段 切り出した文について、ハッシュ法か全文検索法によ
り、用例データベースを検索し、完全一致の例文を探
す。例えば、原文の文字コードのハッシュ値を求めて、
それをキーとして用例データベースを検索する。100%
一致した例文が発見できた場合は、対訳文を完全一致文
翻訳手段に出力する。この段階で部分一致の例文をすべ
て抽出してもよいが、部分一致の例文を検索する処理量
は、完全一致の例文を検索する処理量に比較して格段に
多いので、完全一致の例文の検索のみを行なったほうが
無駄が少ない。 (3)完全一致文翻訳手段 原文と完全に一致した例文の対訳文を出力する。複数の
対訳文があれば、すべて翻訳文の候補として出力する。
その際に、直前に登録された翻訳文に最も高い点数を付
与し、最も過去に登録された翻訳文に最も低い点数を付
与して出力する。また、技術分野の関連度を付けてお
き、関連度の高い翻訳文を優先して出力する。例えば、
情報処理分野は電気分野と関連度が高く、化学分野とは
関連度が低いとする。 (4)一致語マトリクス作成手段 完全一致文が発見できなかった場合は、再び全文検索法
などにより、用例データベースを検索する。その結果を
図3の一致語マトリクスにして出力する。
【0031】原文の各単語について、用例データベース
を検索し、一致する単語を含む例文を抽出し、対応する
単語の位置に合わせて、例文を記入して行く。どのよう
な検索手法を用いても可能であるが、単語辞書索引を予
め作成して検索する全文検索方法が高速である。このマ
トリクスは、一語のみ一致する例文まですべて記入して
作成すると無駄が多くなるので、一致率が所定値以上の
例文のみとするか、一致率の大きい上位の所定数の例文
のみとするのがよい。所定値をいくらにするかは、用例
データベースの大きさなどにより決める。図3の例で
は、入力原文に対して例文が短いもののみであるが、原
文より長い例文であってもよい。例文をすべてカバーす
る例文のときは、一致率が100%になるが、完全一致で
はないので、類似用例翻訳処理を行なう。
【0032】一致語マトリクスに50%以上の一致率の例
文があれば、類似用例翻訳を行なう。50%以上の一致率
の例文がなければ、文分割を行なう。 (5)類似用例翻訳手段 原文と一部不一致となる例文の対訳文を、原文に従って
変更することにより翻訳を行なう。
【0033】まず、一致語マトリクスから最も一致率の
高い例文を抽出し、不一致の単語を調べる。置換ルール
テーブルを参照して、数字や記号の不一致、代名詞の不
一致、固有名詞の異なり、動詞の変化形、名詞の複数形
について、違いを見つけたら、辞書を検索して訳語を作
成し、対訳文を変更して出力する。
【0034】不一致の1語が単数形と複数形の違いであ
れば、対訳文をそのまま出力する。不一致の1語が数字
であれば、対訳文の対応する数字を原文の数字と入れ替
え、翻訳文を作成する。不一致の1語が記号であれば、
対訳文の対応する記号を原文の記号と入れ替え、翻訳文
を作成する。不一致の1語が主語代名詞であれば、原文
の主語代名詞を翻訳して、対訳文の対応語をそれと入れ
替え、翻訳文を作成する。その他の代名詞の場合もほぼ
同様に翻訳処理する。不一致の1語が固有名詞であれ
ば、原文の固有名詞を翻訳(あるいは音訳)して、対訳
文の対応語をそれと入れ替え、翻訳文を作成する。不一
致の1語が動詞の時制の違いであれば、対訳文の対応す
る動詞の時制を原文の動詞の時制に変えて、翻訳文を作
成する。その他の動詞の変化形についても同様に処理す
る。この処理によって未処理の単語がなければ、翻訳終
了として訳文を出力する。
【0035】未処理の単語があれば、Collocation辞書
とIdiom辞書を参照して、連語、慣用句、熟語について
訳語を求め、対訳文を変更する。この処理によって未処
理の単語がなければ、翻訳終了として訳文を出力する。
【0036】未処理の単語があれば、辞書を参照して訳
語を求め、対訳文を変更する。この処理によって未処理
の単語がなければ、翻訳終了として訳文を出力する。未
処理の単語があれば、原語のまま残し、翻訳を終了す
る。
【0037】不完全一致の場合に、対訳文を変更するこ
とにより、不一致語句をすべて翻訳できたときは、完全
一致していない旨を白菱形マークを付して表示する。ま
た、原文の何%の語が例文と一致したかをヒット率で表
示する。
【0038】1文の翻訳が完了するごとに、自動的に原
文とその訳文を1対の対訳文として用例データベースに
格納する。 (6)文分割手段 原文を文分割ルールに従って分割する。文分割は、an
d、that、関係代名詞、カンマ、括弧処理などの部分で
行なう。分割できる語やコンマがない場合は分割不可能
として、文の分割はしない。分割の際に、文の構造を記
憶しておき、訳文の組立てに用いる。関係代名詞、代名
詞、定冠詞を代名詞、名詞、不定冠詞に変換しておき、
訳文の再構成の際にもとに戻せるようにしておく。
【0039】分割された各分割文について、一致語マト
リクスを参照して、100%一致する例文があれば、分割
文完全一致文翻訳処理をする。分割文の一致率が50〜99
%であれば、類似用例翻訳と同じ処理をする。分割文の
一致率が49%以下であれば、新規文翻訳の処理をする。
文分割が不可能な場合は新規文翻訳処理となる。 (7)分割文完全一致文翻訳手段 用例データベースを検索して分割原文と完全に一致した
例文の対訳文を出力する。この翻訳処理は完全一致文翻
訳手段と同様である。翻訳文は分割翻訳文組立手段に渡
す。 (8)分割文類似用例翻訳手段 用例データベースを検索して分割原文と一部不一致とな
る例文を抽出し、その対訳文を分割原文に従って変更す
ることにより翻訳を行なう。この翻訳処理は、類似用例
翻訳手段と同様である。翻訳文は分割翻訳文組立手段に
渡す。 (9)新規文翻訳手段 辞書データベースを参照して、連語、慣用句、熟語、単
語の単位で訳語を求め、文法規則に従って並び替え、助
詞などを補って訳文を作成する。この処理によって未処
理の単語がなければ、翻訳終了として訳文を出力する。
辞書にない単語の場合は、原語のまま残し、翻訳を終了
する。訳文の作成が不可能な場合は、訳語または原語を
並べたものを、その旨を表示して出力する。辞書を参照
して単語レベルで翻訳したことを示すために、黒菱形マ
ークを付して出力する。また、同時に例文との一致率で
あるヒット率も表示する。翻訳文は分割翻訳文組立手段
に渡す。 (10)分割翻訳文組立手段 文分割の際の構文データに従って、各分割翻訳文を組み
立て、翻訳文を再構成する。
【0040】英語から日本語に翻訳する例を説明する。
【0041】“She is my sister.”という原文を入力
する場合を考える。ハッシュ値で検索するときは、スペ
ースコードとピリオドを含めたすべての文字コードを加
算してハッシュ値を求め、その値が一致する用例をすべ
て抽出する。その中から、すべての語と語順が一致する
例文を探し、あれば対応する訳文を取り出す。リレーシ
ョナルデータベースの場合は、各語をキーとして、[Sh
e]*[is]*[my]*[sister]という検索式で検索
する。ヒットすれば回答の中から語順が一致するものを
探す。あれば対応する訳文を取り出す。
【0042】完全一致の例文がない場合に、部分一致の
例文から翻訳する例を説明する。
【0043】“The blonde girl who is wearing blue
jeans is my sister.”という原文を入力する場合を考
える。用例データベースには“The girl is my siste
r.”と“She is wearing blue jeans.”と“She is my
sister.”が格納されているとする。リレーショナルデ
ータベースの場合は、各語をキーとして、[The]*[b
londe]*[girl]*・・・という検索式で検索する。
ヒットした回答の中から語順が一致するものを探す。単
語辞書索引を予め作成して全文検索を行なう手法を用い
る場合は、原文の各単語について例文の番号を求め、各
単語に共通する例文の番号があれば、その例文について
語順を確認して、一致する例文を抽出する。このように
して用例データベースを検索した結果を、図3の一致語
マトリクスにする。
【0044】この例の場合、半分以上の語が一致しない
ので、原文を分割する。“The blonde girl is my sist
er.”と“who is wearing blue jeans”について用例デ
ータベースを検索し、類似文を求める。“who is weari
ng blue jeans”については、“She is wearing blue j
eans.”の対訳文の主語を変更して、部分訳文とする。
“The blonde girl is my sister.”については、“The
girl is my sister.”と“blonde”の1語を除いて一
致するので、辞書を引いて“blonde”の訳語を求め、対
訳文を変更して部分訳文とする。2つの部分訳文を、構
文データに従って結合して訳文とする。
【0045】上記のように、本発明の第1の実施の形態
の類似用例翻訳システムでは、過去の翻訳文を用例デー
タベースから検索して利用することにより、簡単な構成
で高速に翻訳文を生成することができる。また、同一原
文に対しては同じ翻訳文を生成するので、翻訳文を統一
することができる。
【0046】なお、例文の半分以上の単語が原文と一致
しない場合に原文を分割したが、どのような割合のとき
に原文を分割するかは、翻訳の条件に応じて適宜決めれ
ばよい。この割合を任意に指定できるようにしてもよ
い。
【0047】(第2の実施の形態)本発明の第2の実施
の形態は、類似用例翻訳システムに全文後編集手段を設
け、用例データベースを参照して関連する例文を表示す
るとともに、辞書データベースを参照して関連する語を
表示するものである。
【0048】以下、図9を参照して第2の実施の形態を
説明する。
【0049】類似用例翻訳システムが、完全一致の対訳
文を発見した場合は、最も最近に登録または参照された
対訳文を原文とともに出力するので、翻訳の適不適をチ
ェックすることができる。適切な翻訳であればそのまま
採用して次に進む。不適切な翻訳であれば、次の候補を
選択する。適切な翻訳がなければ、最も近い翻訳文を候
補として、一部の単語または熟語を修正する。その際
に、単語をキーワードとして用例データベースを検索し
て、複数の翻訳文の候補を表示させることができる。ま
たは、辞書データベースを検索して訳語を見つけて修正
することもできる。あるいは、原文を修正して再度翻訳
させることもできる。
【0050】類似用例翻訳システムが、完全一致の対訳
文を発見しなかった場合は、類似文に基づく翻訳文と原
文を、どの部分が不一致であってどのように変更したか
を注記して出力するので、翻訳の適不適を容易にチェッ
クすることができる。不適切な翻訳であれば、完全一致
の場合と同様にして翻訳文の修正を行なう。
【0051】類似用例翻訳システムが、完全一致の対訳
文も不完全一致の対訳文も発見しなかった場合は、文分
割による翻訳文の複数の候補を原文とともに、どのよう
に翻訳したかを注記して表示するので、それらを参考に
して翻訳文の修正を行なう。この場合の翻訳文は不完全
であることが多いので、用例データベースと辞書データ
ベースを検索しながら、適切な翻訳文を作成して行くこ
とになる。
【0052】いずれの場合も、翻訳文が確定すると、用
例データベースに自動的に格納される。完全一致の対訳
文が採用された場合は、登録日時が更新される。あるい
は、翻訳者や専門分野などの属性情報を付加して、同一
の翻訳文でもすべて登録するようにしてもよい。その他
の場合は、原文と翻訳文と構文データがセットになった
ものが登録され、キーテーブルも更新される。
【0053】(第3の実施の形態)本発明の第3の実施
の形態は、類似用例翻訳システムをインターネットを介
して利用できるようにしたものである。
【0054】以下、図10を参照して第3の実施の形態を
説明する。
【0055】上記第1と第2の実施の形態の機械翻訳シ
ステムをインターネットを介して利用できるようにした
ものを、図10に示す。機械翻訳サーバを1カ所に設置し
ておき、インターネットを通じて端末機からアクセスし
て翻訳できるようにする。端末機は、インターネットに
アクセスする機能さえあればよいので、どのような端末
からでも、どのようなところからでも、機械翻訳を利用
することができる。
【0056】
【発明の効果】本発明は、用例データベースを検索して
完全一致する例文から対訳を求めたり、類似の例文を利
用して翻訳するので、簡単な構成で高速に翻訳すること
ができる。また、以前に翻訳した文を用いるので、重複
した翻訳作業を省くことができるとともに、翻訳文の統
一を図ることができる。
【0057】さらに、後編集の際にも用例データベース
を参照して翻訳文を修正するので、簡単に編集作業がで
きる。
【0058】また、インターネットを介して翻訳処理が
できるので、利用者は小型の端末機だけでどこからでも
機械翻訳を利用することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の類似用例翻訳シス
テムの機器構成図である。
【図2】本発明の第1の実施の形態の一文翻訳処理のフ
ローチャートである。
【図3】本発明の第1の実施の形態で作成する、一部不
一致となる例文の一致語マトリクスである。
【図4】本発明の第1の実施の形態の完全一致文翻訳処
理のフローチャートである。
【図5】本発明の第1の実施の形態の類似用例翻訳処理
のフローチャートである。
【図6】本発明の第1の実施の形態の文分割処理のフロ
ーチャートである。
【図7】本発明の第1の実施の形態の新規文翻訳処理の
フローチャートである。
【図8】本発明の第1の実施の形態の分割翻訳文組立処
理のフローチャートである。
【図9】本発明の第2の実施の形態のブロック図であ
る。
【図10】本発明の第3の実施の形態のブロック図であ
る。
【図11】従来の直接方式の機械翻訳の概念図である。
【図12】従来のトランスファ方式の機械翻訳の概念図
である。
【図13】従来のピボット方式の機械翻訳の概念図であ
る。
【図14】従来の一文一致方式の機械翻訳のブロック図
である。
【符号の説明】
1 入力装置 2 入力バッファー 3 文切出ルールテーブル 4 編集バッファー 5 置換ルールテーブル 6 文分割ルールテーブル 7 データベース部 8 用例データベース 9 辞書データベース 10 CPU 11 出力装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 (1)翻訳すべき原文章を入力する入力
    装置と、(2)入力された原文章を文単位に切り出し原
    文を出力する一文切出手段と、(3)辞書データベース
    および例文とその対訳文を対にして記憶した用例データ
    ベースからなるデータベース部と、(4)用例データベ
    ースを検索して原文と完全に一致した例文の対訳文を出
    力する完全一致文翻訳手段と、(5)用例データベース
    を検索して原文と一部不一致となる例文を抽出し、その
    対訳文を原文に従って変更することにより翻訳を行なう
    類似用例翻訳手段と、(6)用例データベースを検索し
    て原文と所定率以上一致する例文を発見できなかった場
    合に、原文を所定の規則に従って分割する文分割手段
    と、(7)用例データベースを検索して分割原文と完全
    に一致した例文の対訳文を出力する分割文完全一致文翻
    訳手段と、(8)用例データベースを検索して分割原文
    と一部不一致となる例文を抽出し、その対訳文を分割原
    文に従って変更することにより翻訳を行なう分割文類似
    用例翻訳手段と、(9)用例データベースを検索して分
    割原文と所定率以上一致する例文を発見できなかった場
    合に、辞書データベースを検索して翻訳する新規文翻訳
    手段と、(10)分割原文のそれぞれの翻訳文を組み立て
    て原文の翻訳文を出力する分割翻訳文組立手段と、を具
    備することを特徴とする類似用例翻訳システム。
  2. 【請求項2】 用例データベースを参照して関連する例
    文を表示する手段と辞書データベースを参照して関連す
    る語を表示する手段とを有する全文後編集手段を設けた
    ことを特徴とする請求項1記載の類似用例翻訳システ
    ム。
JP9137425A 1997-05-13 1997-05-13 類似用例翻訳システム Pending JPH10312382A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9137425A JPH10312382A (ja) 1997-05-13 1997-05-13 類似用例翻訳システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9137425A JPH10312382A (ja) 1997-05-13 1997-05-13 類似用例翻訳システム

Publications (1)

Publication Number Publication Date
JPH10312382A true JPH10312382A (ja) 1998-11-24

Family

ID=15198338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9137425A Pending JPH10312382A (ja) 1997-05-13 1997-05-13 類似用例翻訳システム

Country Status (1)

Country Link
JP (1) JPH10312382A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006012168A (ja) * 2004-06-24 2006-01-12 Sharp Corp 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
JP2008090709A (ja) * 2006-10-04 2008-04-17 Yafoo Japan Corp 共同翻訳装置
JP2008262587A (ja) * 2002-06-28 2008-10-30 Microsoft Corp 用例ベースの機械翻訳システム
JP2009245053A (ja) * 2008-03-31 2009-10-22 Funai Electric Advanced Applied Technology Research Institute Inc 翻訳プログラム、翻訳システム及び対訳データ生成方法
JP2010515123A (ja) * 2006-12-20 2010-05-06 マイクロソフト コーポレーション 中国語バナーの生成
JP2011022924A (ja) * 2009-07-17 2011-02-03 Fuji Xerox Co Ltd 翻訳装置及び翻訳プログラム
CN103189859A (zh) * 2010-08-26 2013-07-03 谷歌公司 输入文本字符串的转换
JP2014056492A (ja) * 2012-09-13 2014-03-27 Nec Corp 翻訳支援装置、翻訳支援方法および翻訳支援プログラム
WO2018146864A1 (ja) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JP2019508824A (ja) * 2016-01-11 2019-03-28 陳勇 音声コンバーター
CN113191162A (zh) * 2021-04-21 2021-07-30 零壹人工智能科技研究院(南京)有限公司 一种基于人工智能ai翻译的医疗翻译***

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262587A (ja) * 2002-06-28 2008-10-30 Microsoft Corp 用例ベースの機械翻訳システム
JP2006012168A (ja) * 2004-06-24 2006-01-12 Sharp Corp 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
JP2008090709A (ja) * 2006-10-04 2008-04-17 Yafoo Japan Corp 共同翻訳装置
JP2010515123A (ja) * 2006-12-20 2010-05-06 マイクロソフト コーポレーション 中国語バナーの生成
US8862459B2 (en) 2006-12-20 2014-10-14 Microsoft Corporation Generating Chinese language banners
JP2009245053A (ja) * 2008-03-31 2009-10-22 Funai Electric Advanced Applied Technology Research Institute Inc 翻訳プログラム、翻訳システム及び対訳データ生成方法
JP2011022924A (ja) * 2009-07-17 2011-02-03 Fuji Xerox Co Ltd 翻訳装置及び翻訳プログラム
JP2013540304A (ja) * 2010-08-26 2013-10-31 グーグル・インコーポレーテッド 入力テキスト文字列の変換
CN103189859A (zh) * 2010-08-26 2013-07-03 谷歌公司 输入文本字符串的转换
US10133737B2 (en) 2010-08-26 2018-11-20 Google Llc Conversion of input text strings
JP2014056492A (ja) * 2012-09-13 2014-03-27 Nec Corp 翻訳支援装置、翻訳支援方法および翻訳支援プログラム
JP2019508824A (ja) * 2016-01-11 2019-03-28 陳勇 音声コンバーター
WO2018146864A1 (ja) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JPWO2018146864A1 (ja) * 2017-02-07 2019-04-25 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
CN113191162A (zh) * 2021-04-21 2021-07-30 零壹人工智能科技研究院(南京)有限公司 一种基于人工智能ai翻译的医疗翻译***

Similar Documents

Publication Publication Date Title
Hutchins The origins of the translator's workstation
Hutchins Machine translation over fifty years
US5895446A (en) Pattern-based translation method and system
US7565281B2 (en) Machine translation
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US20050137853A1 (en) Machine translation
US20040254781A1 (en) Machine translation
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
CA2562366A1 (en) A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
EP1497752A2 (en) Machine translation
JPS62163173A (ja) 機械翻訳方法
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH10312382A (ja) 類似用例翻訳システム
Wong Example-based machine translation
Meyers et al. A multilingual procedure for dictionary-based sentence alignment
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Freigang Automation of translation: past, presence, and future
JP3236027B2 (ja) 機械翻訳装置
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Chorozoglou et al. Review of Parsing in Modern Greek-A New Approach
JPS63109572A (ja) 派生語処理方式
Tien Machine Translation and Vernacular: Interpreting the Informal
EP1306773A1 (en) Machine translation
EP1306774A1 (en) Machine translation
JPH04130577A (ja) 自然言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061017