JP3982726B2 - 翻訳知識学習装置及び機械翻訳装置 - Google Patents

翻訳知識学習装置及び機械翻訳装置 Download PDF

Info

Publication number
JP3982726B2
JP3982726B2 JP19404498A JP19404498A JP3982726B2 JP 3982726 B2 JP3982726 B2 JP 3982726B2 JP 19404498 A JP19404498 A JP 19404498A JP 19404498 A JP19404498 A JP 19404498A JP 3982726 B2 JP3982726 B2 JP 3982726B2
Authority
JP
Japan
Prior art keywords
dictionary
morpheme
translation
document
translation pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19404498A
Other languages
English (en)
Other versions
JP2000029878A (ja
Inventor
美穂子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP19404498A priority Critical patent/JP3982726B2/ja
Publication of JP2000029878A publication Critical patent/JP2000029878A/ja
Application granted granted Critical
Publication of JP3982726B2 publication Critical patent/JP3982726B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、既存の対訳文書から翻訳パターンや文書情報等の翻訳知識を学習する機能を有する翻訳知識学習方法および装置とこの翻訳知識を用いて翻訳処理を行う用例主導方式の機械翻訳方法および装置に関するものである。
【0002】
【従来の技術】
従来、既存の対訳文書を用いて翻訳パターンや文書情報等の翻訳知識を学習する方法としては、例えば次のようなものがあった。
【0003】
文献1:「特開平7−244665 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置」
文献2:「特開平7−85056 辞書作成支援方法」
【0004】
上記二つの従来技術は、対訳文書から翻訳知識を抽出し、それに基づいて翻訳する機械翻訳方法または装置である。翻訳パターン、文法規則がここでいう翻訳知識に相当する。上記のような機械翻訳装置は一般に用例主導型の機械翻訳装置と呼ばれる。この型の利点は、予め与えられる対訳文書中の目的言語表現が機械翻訳装置の翻訳結果に反映されることである。
【0005】
文献1の技術は、予め学習対象となる対訳文書を読み込んでおき、翻訳対象となる原言語入力文が翻訳される度に、その翻訳結果と対訳文(理想訳文)と比較し、翻訳結果と理想訳文の差異がもっとも小さい理想訳文を用いて、辞書や文法規則を変更していくというものである。これは対訳文書読み込み時に学習処理を行うのではなく、翻訳対象となる原文が入力される度に、対訳文から最適な用例を選択して、その用例から辞書や文法規則を学習するタイプの典型例である。
【0006】
この方法の利点は、用例に特別な加工を施さず、一文単位で翻訳処理に利用するため、一文全体の情報を翻訳処理に利用することである。また、翻訳対象となる原文が入力される時に、辞書や文法規則の追加、修正が行われるため、無駄な辞書や文法規則が作成されずに済み、辞書や文法規則間での副作用も発生しにくい。
【0007】
一方、文献2の技術は、予め対訳文書から翻訳パターンと呼ばれる原言語と目的言語の変換辞書を自動的に作成する辞書学習装置の典型例である。このような装置は、対訳文書から翻訳パターンを抽出することによって、ユーザ辞書などに登録すべき辞書候補を抽出すると共に、その登録候補のデータを編集する際に有用である原文文書情報、訳文文書情報を抽出する。そして、この抽出結果を用いて翻訳することにより、対訳文書中の表現が翻訳結果に反映する。
【0008】
この方法の利点は、用例学習部と翻訳処理部が個別に存在し、かつ、用例はユーザにとって理解しやすい翻訳パターン形式であるため、ユーザは学習部によって作成された辞書を簡単に管理(追加、削除、変更)できることである。更に、その辞書は学習対象となる対訳文書毎に管理することもできる。
【0009】
【発明が解決しようとする課題】
しかしながら、上記の二つの従来技術には、以下の課題が存在する。
文献1の技術は、一文入力する度に最適な用例の検索処理や辞書、文法規則の追加、変更処理が発生するため、翻訳に時間がかかる。更に、一文入力する毎に辞書や文法規則が書き換えられてしまうため、たとえ学習効果による悪影響を発見した場合でも、辞書や文法規則を元に戻すことはできない。更に、ユーザは翻訳結果に対して予測ができないため、ユーザによる辞書追加および修正による訳出向上は困難である(実用的な機械翻訳装置では、機械翻訳装置による自動学習とユーザ支援の協調が欠かせない)。
【0010】
また、対訳文書中に種類の異なった文書(例えば、手紙文、マニュアル)などが混在すると、辞書や文法に表現形式が全く異なった規則や辞書が混在するため、辞書や規則の見通しが悪くなり、副作用が発生し易くなり訳質低下の要因となる。更に、文書全体を用例として格納しているにもかかわらず、翻訳時には一文の情報しか利用しない。
【0011】
一方、文献2の技術では、翻訳処理での利用の有無にかかわらず、かつ、機械翻訳装置がもつ辞書とは無関係に、対訳文書から翻訳パターン辞書を作成する。そのため、ユーザは、翻訳対象となる入力文書に対し、常にユーザ自ら適切な辞書を選択してから翻訳を行う必要がある。仮に全ての辞書を用いて翻訳した場合でも、辞書間での副作用が発生する要因となり、翻訳品質の低下を伴う。
【0012】
また、辞書自動作成の際、対訳文書全体を参照しているのにもかかわらず、ある原言語の単語がどの単語に対応するか、その単語に翻訳される時の条件は何かという翻訳に関する局所的な知識は抽出しても、例えば、その単語が対訳文書中に何回出現しているか、また、対訳文書はどんな種類か、等の対訳文書全体に関する知識は抽出しない。
【0013】
このような点から、ユーザが翻訳知識を管理し易く、かつ、翻訳品質を向上させることのできる翻訳知識学習方法および装置、機械翻訳方法および装置の実現が望まれていた。
【0014】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する
【0015】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数を抽出する語彙知識学習部と、翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数に基づいて形態素頻度辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加する文書環境学習部とを備えたことを特徴とする翻訳知識学習装置。
【0016】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数を抽出する語彙知識学習部と、翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数に基づいて形態素頻度辞書および翻訳パターン辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加し、かつ、前記翻訳パターン辞書を翻訳パターン学習辞書に登録する文書環境学習部と、前記文書環境学習部から前記形態素頻度辞書新たな文法規則が追加された形態素辞書・文法規則と、前記翻訳パターン学習辞書とを用いて、原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
【0017】
〈構成3〉
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える翻訳知識学習装置であって、入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部とを含むことを特徴とする翻訳知識学習装置。
【0018】
〈構成4〉
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える機械翻訳装置であって、入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部と、原言語の翻訳すべき文書が入力されると、前記翻訳用パターン辞書と前記翻訳用形態素辞書及び前記文法規則に基づいて前記翻訳すべき文書を目的言語の文書に翻訳する翻訳エンジン部とを含むことを特徴とする機械翻訳装置。
【0019】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力する環境適応辞書構築部とを備えたことを特徴とする翻訳知識学習装置。
【0020】
〈構成
請求項に記載の翻訳知識学習装置において、対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする翻訳知識学習装置。
【0021】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力すると共に、翻訳パターン辞書を作成し、当該翻訳パターン辞書を翻訳パターン学習辞書として出力する環境適応辞書構築部と、前記環境適応辞書構築部によって形態素頻度辞書と文法規則とが追加された前記形態素辞書・文法規則と、前記翻訳パターン学習辞書を用いて原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
【0022】
〈構成
構成に記載の機械翻訳装置において、対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルと翻訳パターン学習辞書とを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする機械翻訳装置。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態を図面を用いて詳細に説明する。
《具体例1》
〈構成〉
図1は本発明の機械翻訳方法の具体例1を示すフローチャートであるが、この説明に先立ち、本発明の具体例1による機械翻訳装置の構成を説明する。
【0024】
図2は、本発明の具体例1による機械翻訳装置の構成図である。
本発明の機械翻訳装置はコンピュータでその機能が実現され、本装置は大きく分けて、入出力部1、学習エンジン部2、翻訳エンジン部3と、形態素辞書・文法規則4、対訳文書別形態素頻度辞書・翻訳パターン辞書5、翻訳パターン学習辞書6から構成されている。
【0025】
入出力部1は、コンピュータにおけるキーボードやディスプレイといった一般的な入出力装置や入出力端子あるいはネットワーク等からなり、対訳文書入力部11、原言語文入力部12、目的言語文出力部13から構成されている。
【0026】
対訳文書入力部11は、自然言語による原言語と目的言語からなる対訳文書を入力する機能部である。原言語文入力部12は、翻訳エンジン部3における原言語文を入力するための機能部である。目的言語文出力部13は、翻訳エンジン部3によって翻訳された目的言語文を出力するための機能部である。
【0027】
学習エンジン部2は、翻訳知識の学習を行う機能部で、語彙知識学習部21、文書環境学習部22、形態素頻度辞書・翻訳パターン辞書23の記憶装置から構成されている。
【0028】
語彙知識学習部21は、形態素辞書・文法規則4を参照して、対訳文書入力部11で入力された対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、形態素頻度辞書・翻訳パターン辞書23を作成する機能を有している。
【0029】
文書環境学習部22は、形態素頻度辞書・翻訳パターン辞書23と、対訳文書別形態素頻度辞書・翻訳パターン辞書5を参照して、翻訳パターン学習辞書6を作成すると共に、形態素辞書・文法規則4に情報を追加する機能を有している。即ち、文書環境学習部22は、対訳文書別形態素頻度辞書・翻訳パターン辞書5の中から、形態素頻度辞書・翻訳パターン辞書23との形態素の出現回数に基づいて最適辞書を選出し、この最適辞書と、形態素頻度辞書・翻訳パターン辞書23とマージし、その結果得られた形態素頻度知識を形態素辞書・文法規則4に新たに追加すると共に、形態素辞書・文法規則4における文法規則に基づいて対訳文書から抽出した文法知識を新たに形態素辞書・文法規則4に追加する機能を有している。
【0030】
翻訳エンジン部3は、形態素辞書・文法規則4と翻訳パターン学習辞書6とを参照して、原言語文入力部12から入力された原言語文を翻訳し、目的言語文出力部13に出力する機能を有している。
【0031】
形態素辞書・文法規則4は、学習エンジン部2と翻訳エンジン部3と共通で用いるデータベースであり、学習エンジン部2で得られた翻訳知識が追加され、この追加された情報を含めて翻訳エンジン部3が翻訳を行うためのものである。
【0032】
対訳文書別形態素頻度辞書・翻訳パターン辞書5は学習対象となる対訳文書毎に、複数の形態素頻度辞書・翻訳パターン辞書を格納するデータベースである。
【0033】
翻訳パターン学習辞書6は、文書環境学習部22によって作成され、翻訳処理時に翻訳エンジン部3が用いる辞書である。
【0034】
尚、上記構成において、学習エンジン部2における語彙知識学習部21および文書環境学習部22と、翻訳エンジン部3は、この機能に対応したプログラムとこれを実行するためのCPUやメモリ等によって、その機能を実現している。また、上記の形態素頻度辞書・翻訳パターン辞書23、形態素辞書・文法規則4、対訳文書別形態素頻度辞書・翻訳パターン辞書5、翻訳パターン学習辞書6は、主記憶装置上に一時的に作成されるデータベース、あるいは補助記憶装置内に格納されるデータベースである。
【0035】
〈動作〉
以下、図1のフローチャートを用いて本具体例の動作を説明する。
【0036】
本具体例の対訳文書とは、日本語と英語の文対応が既についた文書とする。
ユーザが、英語文書system.en、日本語文書system.jaからなる対訳文書を入力し、英文“This command pushes modules on and/or pops modules of the stream.”を翻訳する場合を例に挙げて説明する。尚、system.enの“system”は文書名を表し、また、system.enの“.en”は英語文書を、system.jaの“.ja”は日本語文書を示す識別子である。
【0037】
図13は、system.enとsystem.jaの例を示す図である。
図示のように、文の対応を示すタグがen=1,2,…,sと、ja=1,2,…,s(sは対訳文数)として記されているのがわかる。
【0038】
先ず、ユーザが対訳文書入力部11より、対訳文書system.en、system.jaを入力する(ステップS1)と、対訳文書は学習エンジン部2の語彙知識学習部21に渡される。
【0039】
語彙知識学習部21では、翻訳パターン、および、原言語文と目的言語文を構成する全形態素とその出現回数を対訳文書から自動抽出し、その結果を形態素頻度辞書・翻訳パターン辞書23として記憶装置に格納する(ステップS2)。
【0040】
また、本具体例における形態素解析処理は、形態素辞書・文法規則4を用いる。この理由は、学習エンジン部2と翻訳エンジン部3の形態素単位のずれによる翻訳品質低下を防止するためである。
【0041】
図14は、本具体例における語彙知識学習処理後の形態素頻度辞書23の例を示す図である。
図15は、翻訳パターン辞書23の例を示す図である。
【0042】
両図に示すように、フィールドセパレータをタブとして、第1フィールドには形態素(図14)または翻訳パターン(図15)が格納され、第2フィールドにはその出現回数が格納されている。尚、図15において、*NPは名詞句、*VPは動詞句を意味している。
【0043】
次に、文書環境学習部22では、この形態素頻度辞書・翻訳パターン辞書23と対訳文書別形態素頻度辞書・翻訳パターン辞書5から、翻訳パターン学習辞書6の作成、および、形態素辞書・文法規則4への情報追加を行う(ステップS3)。
【0044】
図3は、文書環境学習部22の動作を説明するフローチャートである。
先ず、語彙知識学習部21で作成された形態素頻度辞書・翻訳パターン辞書23と類似する辞書を既存の対訳文書別形態素頻度辞書・翻訳パターン辞書5から選択する処理である最適辞書選択処理(ステップS31)を行う。
【0045】
図4は、最適辞書選択処理の動作を説明するフローチャートである。
先ず、形態素頻度辞書23(英語、日本語どちらの形態素頻度辞書でもよい。またその両方を用いても良い。本具体例では英語形態素頻度辞書を用いる)から高頻度に出現する形態素上位n語を抽出し、ワークテーブルWT1に格納する(ステップS41)(nは1以上の自然数である。本具体例ではn=50とする)。
【0046】
次に、全ての対訳文書別形態素頻度辞書5に対して処理が終了していなければ(ステップS42)、その中の形態素頻度辞書のうちの一つをワークテーブルWT2に格納し(ステップS43)、ステップS41の処理と同様に、高頻度に出現する形態素上位n語を抽出し、ワークテーブルWT3に格納する(ステップS44)。
【0047】
次に、WT1とWT3に格納されている形態素で共通の形態素の数xを求め(ステップS45)、xをnで割った値が閾値yより大きければ、その辞書を最適辞書と認定し、ワークテーブルWT0にその辞書名を格納する(ステップS46)。尚、yは0以上1以下の数である。本具体例ではy=0.8とする。
【0048】
ステップS42において、全ての対訳文書別形態素頻度辞書5について、上記処理(ステップS43〜ステップS46)を繰り返したと判定した場合は、本処理を終了し、学習辞書構築処理に進む(ステップS32)。
【0049】
図16は、最適辞書選択処理後の本具体例におけるWT0の例を示す図である。
本具体例では、“os.dic、unix.dic、users_guide.dic”という名前の辞書が、対訳文書system.en,system.jaから作成された辞書と類似することを示している。
【0050】
次に学習辞書構築処理に進む(ステップS32)。
図5および図6は、学習辞書構築処理の動作を説明するフローチャートである。
先ず、ワークテーブルWT1〜6を初期化し(ステップS501)、英語形態素頻度辞書23をWT1に、日本語形態素頻度辞書23をWT2に、翻訳パターン辞書23をWT3に格納する(ステップS502)。但し、ワークテーブルWT1〜WT3に格納する場合、形態素頻度辞書23及び翻訳パターン辞書23の出現回数の値に重み係数αをかけた値を重み回数として格納する。ここで、重み係数αは、既存辞書(対訳文書別形態素頻度辞書・翻訳パターン辞書5)を1とした場合、今回入力した文書による辞書(形態素頻度辞書・翻訳パターン辞書23)をどれだけ優先するかの優位度を示す数値であり、通常1以上の値が与えられる(本具体例ではα=2とする)。
【0051】
次に、WT0に格納されている全ての辞書について処理が終了していなければ(ステップS503)、辞書名、例えば、os.dicをWT0から取り出し、その辞書名に対応する英語形態素頻度辞書5をWT4に、日本語形態素頻度辞書5をWT5に、翻訳パターン辞書5をWT6に格納する(ステップS504)。
【0052】
次に、WT4に格納されている英語形態素頻度辞書5の全ての形態素について処理が終了していなければ(ステップS505)、未処理の形態素とその出現回数の組を一つ取り出す(ステップS506)。取り出した形態素がWT1に登録されていれば(ステップS507)、WT1の英語形態素頻度辞書23の形態素の重み回数値と、取り出した各形態素の出現回数を比較し、取り出した形態素の方が大きければWT1の英語形態素頻度辞書23の重み回数値を、取り出した形態素の出現回数に変更し、取り出した形態素の方が小さければ何もしない(ステップS508)。
【0053】
一方、ステップS507において登録されていなければ、取り出した形態素とその出現回数をWTlの英語形態素頻度辞書23に新たに登録する(ステップS509
【0054】
全ての形態素に対してステップS506〜ステップS509の処理を繰り返し行った後(ステップS505)、日本語形態素頻度辞書23、5が格納されているWT2とWT5(ステップS510〜ステップS514)、そして、翻訳パターン辞書23、5が格納されたWT3とWT6(ステップS601〜ステップS605)についても同様の処理を行う。
【0055】
ステップS601において、WT6の全ての翻訳パターンに対して処理が終了すれば、ステップS503に戻り、WT0に格納されている残りの辞書名に対して同様の処理を繰り返し行った後(ステップS504〜S514およびステップS601〜S605)、次の処理に進む。
【0056】
次に、WT1に登録されている全ての形態素とその出現回数等を英語形態素辞書4として更新登録し(ステップS606)、WT2に登録されている全ての形態素とその出現回数等を日本語形態素辞書4として更新登録する(ステップS607)。
【0057】
即ち、形態素辞書既に形態素が存在すれば、該形態素に対応させてWT1またはWT2の出現回数を登録する。形態素が存在しない場合は、形態素辞書4にWT1またはWT2の新たな形態素及び対応する出現回数を登録する。
【0058】
一方、WT1またはWT2に存在せず、形態素辞書に存在する形態素の出現回数値には、デフォルト値dを与える(本具体例ではd=1とする)。
【0059】
図17は、本具体例での学習辞書構築処理前後の英語形態素頻度辞書23の例を示す図である。
処理前は、出現回数(“,”をフィールドセパレータとする第3フィールド)には“−”が登録されているが、処理後では、1以上の数値が登録されているのがわかる。
【0060】
次に、WT3に登録されている全ての翻訳パターンとその出現回数等を翻訳パターン学習辞書6に登録する(ステップS608)。
【0061】
図18は、本具体例での学習辞書構築処理後の翻訳パターン学習辞書の例を示す図である。
図示のように、“翻訳パターン,出現回数”のフォーマットで翻訳パターン学習辞書が作成されているのがわかる。
【0062】
次に、文法知識抽出処理に進む(ステップS33)。
図7は、文法知識抽出処理の動作を説明するフローチャートである。
先ず、ワークテーブルWT1〜5を初期化し(ステップS71)、対訳文書入力部11によって入力された日本語文書、英語文書を各言語の形態素辞書・文法規則4を用いて形態素解析(ステップS72)、および構文解析を行う(ステップS73)。
【0063】
次に、この形態素解析結果および構文解析結果から日本語文末表現、受身傾向、疑問傾向、句読点表現、接続詞訳(例:if、and、ofの訳)に関する知識を抽出する(ステップS74)。ここでの処理は、以下のようになる。
【0064】
例えば、日本語文末表現の知識抽出処理では、日本語文末表現候補として、予め「肯定ダ形:だ,です,である,であります」、「肯定スル形:する,します」、「否定ダ形:ではない,ではありません」、「否定スル形:しない,しません」、「命令肯定形:しなさい,して下さい,しましょう」、「命令否定形:しない,してはいけない,しないで下さい,してはいけません」を持っている。
【0065】
日本語形態素解析結果から用言性接尾辞を全て抽出し、上記の候補から、出現回数の最も多い文末表現(用言性接尾辞)をWT1に格納する。一方、受身傾向、疑問傾向は、日本語構文解析結果から文全体に対する受身形および疑問文の割合を計算し、閾値以上の値であれば、その傾向が強いと判断し、WT1にその結果を格納する。句読点表現は、対訳文書中に、“.,”または、“。、”のいずれが用いられているかを日本語形態素結果から判断し、WT1にその結果を格納する。
【0066】
接続詞訳は、英語形態素解析において対象となる接続詞(例えば“if”)が存在する英文とその対訳日本語文の形態素解析結果を抽出し、“if”に対応する日本語訳を抽出し、WT1に格納する。例えば、“if”を含む英語文に対応する日本語文に「もし〜ならば」が含まれていれば、「もし〜ならば」を格納し、「〜と」が含まれていれば、「〜と」を格納する。また、複数存在する場合は、その全てを格納する。
【0067】
図19は、本具体例における文法知識抽出処理後のWT1の例を示す図である。
ここではフィールドセパレータをタブとして、第1フィールドには属性が、第2フィールドにはその属性値(抽出結果)が示されている。例えば、日本語文末表現の肯定スル形(koute_da)には、「します」が格納されているのがわかる。尚、“passive_tendency high”とは、受身傾向が強いことを表し、“interrogative low”とは、疑問傾向が低いといったことを示している。
【0068】
文法情報抽出処理を終了した後、WT1の値を文法規則4に追加する(ステップS75)。文法規則4では、WT1の値に応じて、以降の翻訳処理(ステップS4)で適用される文法規則が変更されるようになっている。
【0069】
次に、語彙知識学習部21で自動作成された形態素頻度辞書・翻訳パターン辞書23を対訳文書ファイル名の識別子“.en”,“.ja”を除いたものに“.dic”を付与したものを辞書名として、対訳文書別形態素頻度辞書・翻訳パターン辞書5として記憶装置に格納する(ステップS34)。本具体例の場合は、入力対訳文書のファイル名は、system.en,system.jaであるので、格納される辞書の名前はsystem.dicとなる。ここで文書環境学習処理(ステップS3)が終了する。
【0070】
次に、翻訳処理に入る。
図8は、翻訳処理の動作を説明するフローチャートを示す。
先ず、翻訳対象の英文“This command pushes modules on and/of pops modules off the stream.”を原言語文入力部12により入力する(ステップS81)。
【0071】
翻訳エンジン部3は、入力文書を一文単位に区切り(ステップS82)、一文毎に、形態素解析処理(ステップS84)、構文・翻訳パターン解析処理(ステップS85)、形態素生成処理(ステップS86)を行い、翻訳結果を目的言語文出力部13により出力する(ステップS87)。そして、全ての原言語文に対して処理したら(ステップS83)、翻訳処理を終了する。
【0072】
即ち、原言語文形態素解析処理(ステップS84)および目的言語文形態素生成処理(ステップS86)では、学習エンジン部2により抽出された形態素の出現回数の値(形態素辞書・文法規則4に格納されている値)を参照し、一方、構文・翻訳パターン解析処理(ステップS85)では、学習エンジン部2により抽出された翻訳パターンおよび出現回数の値(翻訳パターン学習辞書6の値)を参照して、対訳文書の表現が反映された翻訳結果を得る。
【0073】
図20は、本具体例における原文入力画面例と翻訳結果出力画面例を示す図である。
図において、原文入力画面例を(a)に、翻訳結果出力画面例を(c)に示す。また、(b)にこの入力文における学習なしの翻訳結果出力画面例を示す。学習効果が(b)、(c)の例から読み取れる。
【0074】
〈効果〉
以上のように、具体例1によれば以下の効果を有する。
●学習知識は、図18、図17に示すように、翻訳パターン、形態素出現回数等というユーザにとって分かりやすい形式であるため、ユーザは翻訳知識の管理がし易く、かつ、翻訳結果の予測もし易い。
●例えば、ある学習用文書からはsystem.dicが得られるといったように、複数の学習用文書が存在した場合は、各学習用文書に応じて学習知識を分類して管理することができ、再利用も可能である。
●翻訳エンジン部3で用いられる形態素辞書・文法規則4は、学習エンジン部2で用いられる形態素辞書・文法規則4に学習エンジン部2で獲得された知識を追加したものである、従って、各エンジンの核となる言語知識は共通であるため、副作用が起こりにくい。
●学習エンジン部2で獲得した翻訳知識は、翻訳処理で用いる形態素辞書・文法規則4に追加するが、書き換えてしまうのではないため、元の辞書の状態に簡単に復元することができる。
●学習エンジン部2は、対訳文書から原言語と目的言語の単語間の対応といった辞書的な知識を獲得するだけでなく、その対訳文書全体を参照することによって得られる知識(例えば、出現頻度等)も獲得し、その結果を翻訳処理に利用する。
【0075】
《具体例2》
〈構成〉
図9は、本発明の機械翻訳装置の具体例2のブロック図である。
【0076】
具体例2の装置は、大きく分けて、入出力部100、学習エンジン部200、環境適応辞書構築部300、翻訳エンジン部400と、形態素辞書・文法規則500と、対訳文書別形態素頻度辞書・翻訳パターン辞書600と、対訳文書別文書環境設定ファイル700、翻訳パターン学習辞書800からなる。
【0077】
入出力部100は、対訳文書入力部101、原言語文入力部102、目的言語文出力部103と辞書/環境設定ファイル編集部104から構成されている。ここで、対訳文書入力部101、原言語文入力部102および目的言語文出力部103は、具体例1における入出力部11〜目的言語文出力部13と同様である。
【0078】
また、辞書/環境設定ファイル編集部104は、対訳文書別形態素頻度辞書・翻訳パターン辞書600、対訳文書別文書環境設定ファイル700および翻訳パターン学習辞書800の編集を行うための機能部であり、具体的には、ディスプレイやキーボード等の入出力装置から構成されている。
【0079】
学習エンジン部200は、語彙知識学習部201、文書環境学習部202から構成される。語彙知識学習部201は、対訳文書入力部101から入力された対訳文書に対して、形態素辞書・文法規則500を参照して、形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、この抽出結果を対訳文書別形態素頻度辞書・翻訳パターン辞書600に格納する機能を有している。また、文書環境学習部202は、対訳文書別形態素頻度辞書・翻訳パターン辞書600の中から、語彙知識学習部201で抽出した知識に基づいて最適辞書を選出し、この最適辞書と抽出した知識とをマージし、その結果得られた形態素頻度知識と、形態素辞書・文法規則500における文法規則に基づいて対訳文書から抽出した文法知識とを対訳文書別文書環境設定ファイル700として出力する機能を有している。
【0080】
環境適応辞書構築部300は、対訳文書別形態素頻度辞書・翻訳パターン辞書600と、対訳文書別環境設定ファイル700を参照して、翻訳パターン学習辞書800を作成すると共に、形態素頻度知識と文法知識とを作成し、これら知識を形態素辞書・文法規則500へ追加する機能を有している。
【0081】
翻訳エンジン部400は、形態素辞書・文法規則500と翻訳パターン学習辞書800を参照して翻訳処理を行う機能部である。
【0082】
辞書/環境設定ファイル編集部104は、ユーザが対訳文書別形態素頻度辞書・翻訳パターン辞書600、対訳文書別文書環境設定ファイル700および翻訳パターン学習辞書800を参照したり、編集(追加、削除、修正)したりする機能を提供するもので、具体的にはディスプレイやキーボードといった入出力装置から構成されている。
【0083】
〈動作〉
本具体例と具体例1との大きな相違点は三点ある。第一は学習エンジン部200の文書環境学習部202が、文書環境設定ファイル700を出力すること、第二は、新たに環境適応辞書構築部300が存在し、形態素頻度辞書・翻訳パターン辞書600と文書環境設定ファイル700を元に、形態素辞書・文法規則500および翻訳パターン学習辞書800を構築すること、第三は、学習により獲得された各辞書600、800並びに対訳文書別文書環境設定ファイル700を、辞書/環境設定ファイル編集部104によって参照、編集できることである。
【0084】
図10は具体例2の動作を説明するフローチャートである。
具体例2も具体例1と同様の例を用いて説明する。
先ず、ユーザが対訳文書入力部101により対訳文書system.en、system.jaを入力する(ステップS1001)と、対訳文書は学習エンジン部200の語彙知識学習部201に渡され、語彙知識学習処理を行う(ステップS1002)。
【0085】
語彙知識学習処理は具体例1に準じるが、その学習結果は、具体例1のように形態素頻度辞書・翻訳パターン辞書として学習エンジン部2内に保持するのではなく、対訳文書別形態素頻度辞書・翻訳パターン辞書600に格納する。尚、格納方法は、具体例1の文書環境学習処理(ステップS3)の辞書格納処理(ステップS34)に準じる。
【0086】
次に文書環境学習処理を行う(ステップS1003)。
図11は、具体例2における文書環境学習部202の動作を説明するフローチャートである。
【0087】
先ず、最適辞書選択処理(ステップS1101)、文法知識抽出処理(ステップS1102)を行う。これらの処理も具体例1に準じる。その結果、最適辞書選択処理の結果がWT0に、文法知識抽出処理の結果がWT1に格納されていることになる。
【0088】
WT0の結果は一つの値にまとめられ、WT1の結果と共に対訳文書別文書環境設定ファイル700に格納される(ステップS1103)。尚、文書環境設定ファイル名は、学習対象の対訳文書のファイル名の識別子を取り除き、“.env”を付与したものとする。
【0089】
図21に本具体例による文書環境設定ファイルの例を示す。
図示のように、具体例2では、具体例1の図19に示した状態に最適辞書の項目use_dicと、その値“os.dic、unix.dic、users_guide.dic”が追加されている。
【0090】
次に、環境適応辞書構築処理を行う(ステップS1004)。
図12は、具体例2における環境適応辞書構築部300の動作を説明するフローチャートである。
【0091】
先ず、ワークテーブルWT0の初期化を行った後(ステップS1201)、環境設定ファイル700に設定されている対訳文書別形態素頻度辞書・翻訳パターン辞書ファイル名(ここではsystem.envの属性use_dicの値)を具体例1のWT0と同様の形式に従ってWT0に格納し(ステップS1202)、次に、学習辞書構築処理(ステップS1203)、文法知識設定処理(ステップS1204)を行う。学習辞書構築処理、文法知識設定処理は、いずれも具体例1に準じる。
【0092】
ユーザは、この時点において、対訳文書別環境設定ファイル700の参照・編集(ステップS1005、ステップS1006)、および、対訳文書別形態素頻度辞書・翻訳パターン辞書600、翻訳パターン学習辞書800の参照・編集(ステップS1007、ステップS1008)を、辞書/環境設定ファイル編集部104によって行うことができる。
【0093】
編集処理の終了後、具体例1と同様に翻訳処理を行い、目的言語文出力部103で翻訳結果を出力する(ステップS1009)。
【0094】
〈効果〉
具体例2では具体例1に加えて更に以下の効果を有する。
●学習エンジン部200と翻訳エンジン部400が明確に分離され、かつ、学習エンジン部200で獲得される翻訳知識を対訳文書別文書環境設定ファイル700としてユーザに開示する方法を提供することにより、ユーザは、その結果をみて、翻訳結果を予測することができる。
【0095】
●ユーザは、上記の予測に基づき、対訳文書別文書環境設定ファイル700、対訳文書別形態素頻度辞書・翻訳パターン辞書600および翻訳パターン学習辞書800を、辞書/環境設定ファイル編集部104を用いて、自分の好みに応じて変更することができる。つまり、学習によって獲得した翻訳知識を加工して、更に質の高い翻訳環境を構築することができる。
【0096】
●具体例1では、文書環境を学習するために、対訳文書を入力した後、翻訳処理を実行する必要があったが、具体例2では、環境設定ファイルも辞書と同様に格納しておけるので、一度、環境設定ファイルを作成しておけば、再翻訳の際、対訳文書の入力は不要になる。
【0097】
《利用形態》
上述した具体例1、2は、以下のように変形(あるいは応用)することができる。
●学習エンジン部2,200や具体例2における環境適応辞書構築部300は、翻訳エンジン部3,400とは切り放して機能することも可能である。また、学習エンジン部2,200だけ、または、学習エンジン部2,200と環境適応辞書構築部300とをセットにして、翻訳知識学習装置とすることができる。
【0098】
●文書環境学習部22,202が抽出する文法知識として、日本語文末情報等を挙げたが、if以外の接続詞の訳や、体言止め傾向など、その他の情報も抽出し、翻訳処理に利用することもできる。
【0099】
●具体例1で説明した各種パラメータ(例えば、重み係数αや最適辞書選択処理での閾値y)は、ユーザによるパラメータ設定機能を設けることにより、ユーザの好みに応じた設定ができる。
【0100】
●対訳文書ではなく、単言語文書が入力された場合、翻訳パターン辞書の構築はできないが、形態素頻度辞書や文書環境情報の一部は学習可能である。範囲を限定すれば、単言語文書の入力においても本装置の一部は機能する。
【0101】
●英日翻訳を例に挙げて説明したが、日英翻訳でも、英語、日本語以外の二言語間でも、本装置は応用可能である。
【0102】
●具体例2では、翻訳対象となる原言語文書の翻訳環境設定ファイルが、対訳文書別文書環境設定ファイル700に存在している場合、環境適応辞書構築処理から処理を開始することができる。その場合、ユーザは、対訳文書を入力するのではなく、環境設定ファイル名を入力する。これにより、そのファイル名が環境適応辞書構築部300に渡され、環境適応辞書構築処理が開始される。
【0103】
●ユーザによる辞書や環境設定ファイルの編集は具体例2のフローチャートに示した動作に限定されるものではなく、いつでも編集することが可能である。
【0104】
●具体例2では、語彙知識学習処理と文書環境学習処理を直列的に処理したが並列的に処理することも可能である。
【図面の簡単な説明】
【図1】本発明の機械翻訳装置の具体例1の構成図である。
【図2】本発明の機械翻訳装置の具体例1の全体の動作を示すフローチャートである。
【図3】本発明の機械翻訳装置の具体例1における文書環境学習処理の動作を示すフローチャートである。
【図4】本発明の機械翻訳装置の具体例1における最適辞書選択処理の動作を示すフローチャートである。
【図5】本発明の機械翻訳装置の具体例1における学習辞書構築処理の動作を示すフローチャート(その1)である。
【図6】本発明の機械翻訳装置の具体例1における学習辞書構築処理の動作を示すフローチャート(その2)である。
【図7】本発明の機械翻訳装置の具体例1における文法知識抽出処理の動作を示すフローチャートである。
【図8】本発明の機械翻訳装置の具体例1における翻訳処理の動作を示すフローチャートである。
【図9】本発明の機械翻訳装置の具体例2の構成図である。
【図10】本発明の機械翻訳装置の具体例2の動作を示すフローチャートである。
【図11】本発明の機械翻訳装置の具体例2における文書環境学習処理を示すフローチャートである。
【図12】本発明の機械翻訳装置の具体例2における環境適応辞書構築処理を示すフローチャートである。
【図13】本発明の機械翻訳装置における対訳文書の例を示す説明図である。
【図14】本発明の機械翻訳装置の具体例1における語彙知識学習処理後の形態素頻度辞書の説明図である。
【図15】本発明の機械翻訳装置の具体例1における語彙知識学習処理後の翻訳パターン辞書の説明図である。
【図16】本発明の機械翻訳装置の具体例1における最適辞書選択後のワークテーブルWT0の説明図である。
【図17】本発明の機械翻訳装置の具体例1における学習辞書構築処理後の英語形態素辞書の説明図である。
【図18】本発明の機械翻訳装置の具体例1における学習辞書構築処理後の翻訳パターン学習辞書の説明図である。
【図19】本発明の機械翻訳装置の具体例1における文法知識抽出後のワークテーブルWT1の説明図である。
【図20】本発明の機械翻訳装置の具体例1における翻訳処理結果の説明図である。
【図21】本発明の機械翻訳装置の具体例2における環境設定ファイルの説明図である。
【符号の説明】
2,200 学習エンジン部
3,400 翻訳エンジン部
4,500 形態素辞書・文法規則
5,600 対訳文書別形態素頻度辞書・翻訳パターン辞書
6,800 翻訳パターン学習辞書
11,101 対訳文書入力部
15,600 対訳文書別形態素頻度辞書・翻訳パターン辞書
21,201 語彙知識学習部
22,202 文書環境学習部
23 形態素頻度辞書・翻訳パターン辞書
104 辞書/環境設定ファイル編集部

Claims (8)

  1. 自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
    前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数を抽出する語彙知識学習部と、
    翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数に基づいて形態素頻度辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加する文書環境学習部とを備えたことを特徴とする翻訳知識学習装置。
  2. 自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
    前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数を抽出する語彙知識学習部と、
    翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数に基づいて形態素頻度辞書および翻訳パターン辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加し、かつ、前記翻訳パターン辞書を翻訳パターン学習辞書に登録する文書環境学習部と、
    前記文書環境学習部から前記形態素頻度辞書新たな文法規則が追加された形態素辞書・文法規則と、前記翻訳パターン学習辞書とを用いて、原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
  3. 自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える翻訳知識学習装置であって、
    入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、
    対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、
    前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部とを含むことを特徴とする翻訳知識学習装置。
  4. 自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える機械翻訳装置であって、
    入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、
    対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、
    前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部と、
    原言語の翻訳すべき文書が入力されると、前記翻訳用パターン辞書と前記翻訳用形態素辞書及び前記文法規則に基づいて前記翻訳すべき文書を目的言語の文書に翻訳する翻訳エンジン部とを含むことを特徴とする機械翻訳装置。
  5. 自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
    原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、
    対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
    前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、
    前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、
    前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力する環境適応辞書構築部とを備えたことを特徴とする翻訳知識学習装置。
  6. 請求項に記載の翻訳知識学習装置において、
    対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする翻訳知識学習装置。
  7. 自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
    原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、
    対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
    前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、
    前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、
    前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力すると共に、翻訳パターン辞書を作成し、当該翻訳パターン辞書を翻訳パターン学習辞書として出力する環境適応辞書構築部と、
    前記環境適応辞書構築部によって形態素頻度辞書と文法規則とが追加された前記形態素辞書・文法規則と、前記翻訳パターン学習辞書を用いて原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
  8. 請求項に記載の機械翻訳装置において、
    対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルと翻訳パターン学習辞書とを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする機械翻訳装置。
JP19404498A 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置 Expired - Fee Related JP3982726B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19404498A JP3982726B2 (ja) 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19404498A JP3982726B2 (ja) 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置

Publications (2)

Publication Number Publication Date
JP2000029878A JP2000029878A (ja) 2000-01-28
JP3982726B2 true JP3982726B2 (ja) 2007-09-26

Family

ID=16318016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19404498A Expired - Fee Related JP3982726B2 (ja) 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置

Country Status (1)

Country Link
JP (1) JP3982726B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5125083B2 (ja) * 2006-12-07 2013-01-23 富士ゼロックス株式会社 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
KR101416098B1 (ko) 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치

Also Published As

Publication number Publication date
JP2000029878A (ja) 2000-01-28

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP2005507525A (ja) 機械翻訳
Probst et al. MT for minority languages using elicitation-based learning of syntactic transfer rules
JP2005507524A (ja) 機械翻訳
JPH06251057A (ja) 機械翻訳方法及び機械翻訳装置
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JPS62271064A (ja) 機械翻訳システム
US20100228538A1 (en) Computational linguistic systems and methods
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP7511381B2 (ja) 文生成装置、文生成方法および文生成プログラム
JP3982726B2 (ja) 翻訳知識学習装置及び機械翻訳装置
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
JPH04160473A (ja) 事例再利用型翻訳方法および装置
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
JP2838984B2 (ja) 汎用参照装置
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP2626722B2 (ja) 日本語生成装置
Nirenburg et al. Two principles and six techniques for rapid MT development
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP3389313B2 (ja) 機械翻訳装置
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP4092861B2 (ja) 自然言語パターン作成装置及び方法
JP3233800B2 (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040223

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040226

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070629

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees