JP3982726B2

JP3982726B2 - 翻訳知識学習装置及び機械翻訳装置

Info

Publication number: JP3982726B2
Application number: JP19404498A
Authority: JP
Inventors: 美穂子北村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-07-09
Filing date: 1998-07-09
Publication date: 2007-09-26
Anticipated expiration: 2018-07-09
Also published as: JP2000029878A

Description

【０００１】
【発明の属する技術分野】
本発明は、既存の対訳文書から翻訳パターンや文書情報等の翻訳知識を学習する機能を有する翻訳知識学習方法および装置とこの翻訳知識を用いて翻訳処理を行う用例主導方式の機械翻訳方法および装置に関するものである。
【０００２】
【従来の技術】
従来、既存の対訳文書を用いて翻訳パターンや文書情報等の翻訳知識を学習する方法としては、例えば次のようなものがあった。
【０００３】
文献１：「特開平７−２４４６６５機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置」
文献２：「特開平７−８５０５６辞書作成支援方法」
【０００４】
上記二つの従来技術は、対訳文書から翻訳知識を抽出し、それに基づいて翻訳する機械翻訳方法または装置である。翻訳パターン、文法規則がここでいう翻訳知識に相当する。上記のような機械翻訳装置は一般に用例主導型の機械翻訳装置と呼ばれる。この型の利点は、予め与えられる対訳文書中の目的言語表現が機械翻訳装置の翻訳結果に反映されることである。
【０００５】
文献１の技術は、予め学習対象となる対訳文書を読み込んでおき、翻訳対象となる原言語入力文が翻訳される度に、その翻訳結果と対訳文（理想訳文）と比較し、翻訳結果と理想訳文の差異がもっとも小さい理想訳文を用いて、辞書や文法規則を変更していくというものである。これは対訳文書読み込み時に学習処理を行うのではなく、翻訳対象となる原文が入力される度に、対訳文から最適な用例を選択して、その用例から辞書や文法規則を学習するタイプの典型例である。
【０００６】
この方法の利点は、用例に特別な加工を施さず、一文単位で翻訳処理に利用するため、一文全体の情報を翻訳処理に利用することである。また、翻訳対象となる原文が入力される時に、辞書や文法規則の追加、修正が行われるため、無駄な辞書や文法規則が作成されずに済み、辞書や文法規則間での副作用も発生しにくい。
【０００７】
一方、文献２の技術は、予め対訳文書から翻訳パターンと呼ばれる原言語と目的言語の変換辞書を自動的に作成する辞書学習装置の典型例である。このような装置は、対訳文書から翻訳パターンを抽出することによって、ユーザ辞書などに登録すべき辞書候補を抽出すると共に、その登録候補のデータを編集する際に有用である原文文書情報、訳文文書情報を抽出する。そして、この抽出結果を用いて翻訳することにより、対訳文書中の表現が翻訳結果に反映する。
【０００８】
この方法の利点は、用例学習部と翻訳処理部が個別に存在し、かつ、用例はユーザにとって理解しやすい翻訳パターン形式であるため、ユーザは学習部によって作成された辞書を簡単に管理（追加、削除、変更）できることである。更に、その辞書は学習対象となる対訳文書毎に管理することもできる。
【０００９】
【発明が解決しようとする課題】
しかしながら、上記の二つの従来技術には、以下の課題が存在する。
文献１の技術は、一文入力する度に最適な用例の検索処理や辞書、文法規則の追加、変更処理が発生するため、翻訳に時間がかかる。更に、一文入力する毎に辞書や文法規則が書き換えられてしまうため、たとえ学習効果による悪影響を発見した場合でも、辞書や文法規則を元に戻すことはできない。更に、ユーザは翻訳結果に対して予測ができないため、ユーザによる辞書追加および修正による訳出向上は困難である（実用的な機械翻訳装置では、機械翻訳装置による自動学習とユーザ支援の協調が欠かせない）。
【００１０】
また、対訳文書中に種類の異なった文書（例えば、手紙文、マニュアル）などが混在すると、辞書や文法に表現形式が全く異なった規則や辞書が混在するため、辞書や規則の見通しが悪くなり、副作用が発生し易くなり訳質低下の要因となる。更に、文書全体を用例として格納しているにもかかわらず、翻訳時には一文の情報しか利用しない。
【００１１】
一方、文献２の技術では、翻訳処理での利用の有無にかかわらず、かつ、機械翻訳装置がもつ辞書とは無関係に、対訳文書から翻訳パターン辞書を作成する。そのため、ユーザは、翻訳対象となる入力文書に対し、常にユーザ自ら適切な辞書を選択してから翻訳を行う必要がある。仮に全ての辞書を用いて翻訳した場合でも、辞書間での副作用が発生する要因となり、翻訳品質の低下を伴う。
【００１２】
また、辞書自動作成の際、対訳文書全体を参照しているのにもかかわらず、ある原言語の単語がどの単語に対応するか、その単語に翻訳される時の条件は何かという翻訳に関する局所的な知識は抽出しても、例えば、その単語が対訳文書中に何回出現しているか、また、対訳文書はどんな種類か、等の対訳文書全体に関する知識は抽出しない。
【００１３】
このような点から、ユーザが翻訳知識を管理し易く、かつ、翻訳品質を向上させることのできる翻訳知識学習方法および装置、機械翻訳方法および装置の実現が望まれていた。
【００１４】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する。
【００１５】
〈構成１〉
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数を抽出する語彙知識学習部と、翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数に基づいて形態素頻度辞書を求め、これら形態素頻度辞書と新たな文法規則とを前記形態素辞書・文法規則に追加する文書環境学習部とを備えたことを特徴とする翻訳知識学習装置。
【００１６】
〈構成２〉
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数を抽出する語彙知識学習部と、翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数に基づいて形態素頻度辞書および翻訳パターン辞書を求め、これら形態素頻度辞書と新たな文法規則とを前記形態素辞書・文法規則に追加し、かつ、前記翻訳パターン辞書を翻訳パターン学習辞書に登録する文書環境学習部と、前記文書環境学習部から前記形態素頻度辞書と新たな文法規則が追加された形態素辞書・文法規則と、前記翻訳パターン学習辞書とを用いて、原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
【００１７】
〈構成３〉
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える翻訳知識学習装置であって、入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部とを含むことを特徴とする翻訳知識学習装置。
【００１８】
〈構成４〉
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える機械翻訳装置であって、入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部と、原言語の翻訳すべき文書が入力されると、前記翻訳用パターン辞書と前記翻訳用形態素辞書及び前記文法規則に基づいて前記翻訳すべき文書を目的言語の文書に翻訳する翻訳エンジン部とを含むことを特徴とする機械翻訳装置。
【００１９】
〈構成５〉
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則部と、対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力する環境適応辞書構築部とを備えたことを特徴とする翻訳知識学習装置。
【００２０】
〈構成６〉
請求項５に記載の翻訳知識学習装置において、対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとを編集する辞書／環境設定ファイル編集部を備えたことを特徴とする翻訳知識学習装置。
【００２１】
〈構成７〉
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則部と、対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力すると共に、翻訳パターン辞書を作成し、当該翻訳パターン辞書を翻訳パターン学習辞書として出力する環境適応辞書構築部と、前記環境適応辞書構築部によって形態素頻度辞書と文法規則とが追加された前記形態素辞書・文法規則と、前記翻訳パターン学習辞書を用いて原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
【００２２】
〈構成８〉
構成７に記載の機械翻訳装置において、対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルと翻訳パターン学習辞書とを編集する辞書／環境設定ファイル編集部を備えたことを特徴とする機械翻訳装置。
【００２３】
【発明の実施の形態】
以下、本発明の実施の形態を図面を用いて詳細に説明する。
《具体例１》
〈構成〉
図１は本発明の機械翻訳方法の具体例１を示すフローチャートであるが、この説明に先立ち、本発明の具体例１による機械翻訳装置の構成を説明する。
【００２４】
図２は、本発明の具体例１による機械翻訳装置の構成図である。
本発明の機械翻訳装置はコンピュータでその機能が実現され、本装置は大きく分けて、入出力部１、学習エンジン部２、翻訳エンジン部３と、形態素辞書・文法規則４、対訳文書別形態素頻度辞書・翻訳パターン辞書５、翻訳パターン学習辞書６から構成されている。
【００２５】
入出力部１は、コンピュータにおけるキーボードやディスプレイといった一般的な入出力装置や入出力端子あるいはネットワーク等からなり、対訳文書入力部１１、原言語文入力部１２、目的言語文出力部１３から構成されている。
【００２６】
対訳文書入力部１１は、自然言語による原言語と目的言語からなる対訳文書を入力する機能部である。原言語文入力部１２は、翻訳エンジン部３における原言語文を入力するための機能部である。目的言語文出力部１３は、翻訳エンジン部３によって翻訳された目的言語文を出力するための機能部である。
【００２７】
学習エンジン部２は、翻訳知識の学習を行う機能部で、語彙知識学習部２１、文書環境学習部２２、形態素頻度辞書・翻訳パターン辞書２３の記憶装置から構成されている。
【００２８】
語彙知識学習部２１は、形態素辞書・文法規則４を参照して、対訳文書入力部１１で入力された対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、形態素頻度辞書・翻訳パターン辞書２３を作成する機能を有している。
【００２９】
文書環境学習部２２は、形態素頻度辞書・翻訳パターン辞書２３と、対訳文書別形態素頻度辞書・翻訳パターン辞書５を参照して、翻訳パターン学習辞書６を作成すると共に、形態素辞書・文法規則４に情報を追加する機能を有している。即ち、文書環境学習部２２は、対訳文書別形態素頻度辞書・翻訳パターン辞書５の中から、形態素頻度辞書・翻訳パターン辞書２３との形態素の出現回数に基づいて最適辞書を選出し、この最適辞書と、形態素頻度辞書・翻訳パターン辞書２３とマージし、その結果得られた形態素頻度知識を形態素辞書・文法規則４に新たに追加すると共に、形態素辞書・文法規則４における文法規則に基づいて対訳文書から抽出した文法知識を新たに形態素辞書・文法規則４に追加する機能を有している。
【００３０】
翻訳エンジン部３は、形態素辞書・文法規則４と翻訳パターン学習辞書６とを参照して、原言語文入力部１２から入力された原言語文を翻訳し、目的言語文出力部１３に出力する機能を有している。
【００３１】
形態素辞書・文法規則４は、学習エンジン部２と翻訳エンジン部３と共通で用いるデータベースであり、学習エンジン部２で得られた翻訳知識が追加され、この追加された情報を含めて翻訳エンジン部３が翻訳を行うためのものである。
【００３２】
対訳文書別形態素頻度辞書・翻訳パターン辞書５は学習対象となる対訳文書毎に、複数の形態素頻度辞書・翻訳パターン辞書を格納するデータベースである。
【００３３】
翻訳パターン学習辞書６は、文書環境学習部２２によって作成され、翻訳処理時に翻訳エンジン部３が用いる辞書である。
【００３４】
尚、上記構成において、学習エンジン部２における語彙知識学習部２１および文書環境学習部２２と、翻訳エンジン部３は、この機能に対応したプログラムとこれを実行するためのＣＰＵやメモリ等によって、その機能を実現している。また、上記の形態素頻度辞書・翻訳パターン辞書２３、形態素辞書・文法規則４、対訳文書別形態素頻度辞書・翻訳パターン辞書５、翻訳パターン学習辞書６は、主記憶装置上に一時的に作成されるデータベース、あるいは補助記憶装置内に格納されるデータベースである。
【００３５】
〈動作〉
以下、図１のフローチャートを用いて本具体例の動作を説明する。
【００３６】
本具体例の対訳文書とは、日本語と英語の文対応が既についた文書とする。
ユーザが、英語文書ｓｙｓｔｅｍ．ｅｎ、日本語文書ｓｙｓｔｅｍ．ｊａからなる対訳文書を入力し、英文“This command pushes modules on and/or pops modules of the stream．”を翻訳する場合を例に挙げて説明する。尚、ｓｙｓｔｅｍ．ｅｎの“ｓｙｓｔｅｍ”は文書名を表し、また、ｓｙｓｔｅｍ．ｅｎの“．ｅｎ”は英語文書を、ｓｙｓｔｅｍ．ｊａの“．ｊａ”は日本語文書を示す識別子である。
【００３７】
図１３は、ｓｙｓｔｅｍ．ｅｎとｓｙｓｔｅｍ．ｊａの例を示す図である。
図示のように、文の対応を示すタグがｅｎ＝１，２，…，ｓと、ｊａ＝１，２，…，ｓ（ｓは対訳文数）として記されているのがわかる。
【００３８】
先ず、ユーザが対訳文書入力部１１より、対訳文書ｓｙｓｔｅｍ．ｅｎ、ｓｙｓｔｅｍ．ｊａを入力する（ステップＳ１）と、対訳文書は学習エンジン部２の語彙知識学習部２１に渡される。
【００３９】
語彙知識学習部２１では、翻訳パターン、および、原言語文と目的言語文を構成する全形態素とその出現回数を対訳文書から自動抽出し、その結果を形態素頻度辞書・翻訳パターン辞書２３として記憶装置に格納する（ステップＳ２）。
【００４０】
また、本具体例における形態素解析処理は、形態素辞書・文法規則４を用いる。この理由は、学習エンジン部２と翻訳エンジン部３の形態素単位のずれによる翻訳品質低下を防止するためである。
【００４１】
図１４は、本具体例における語彙知識学習処理後の形態素頻度辞書２３の例を示す図である。
図１５は、翻訳パターン辞書２３の例を示す図である。
【００４２】
両図に示すように、フィールドセパレータをタブとして、第１フィールドには形態素（図１４）または翻訳パターン（図１５）が格納され、第２フィールドにはその出現回数が格納されている。尚、図１５において、＊ＮＰは名詞句、＊ＶＰは動詞句を意味している。
【００４３】
次に、文書環境学習部２２では、この形態素頻度辞書・翻訳パターン辞書２３と対訳文書別形態素頻度辞書・翻訳パターン辞書５から、翻訳パターン学習辞書６の作成、および、形態素辞書・文法規則４への情報追加を行う（ステップＳ３）。
【００４４】
図３は、文書環境学習部２２の動作を説明するフローチャートである。
先ず、語彙知識学習部２１で作成された形態素頻度辞書・翻訳パターン辞書２３と類似する辞書を既存の対訳文書別形態素頻度辞書・翻訳パターン辞書５から選択する処理である最適辞書選択処理（ステップＳ３１）を行う。
【００４５】
図４は、最適辞書選択処理の動作を説明するフローチャートである。
先ず、形態素頻度辞書２３（英語、日本語どちらの形態素頻度辞書でもよい。またその両方を用いても良い。本具体例では英語形態素頻度辞書を用いる）から高頻度に出現する形態素上位ｎ語を抽出し、ワークテーブルＷＴ１に格納する（ステップＳ４１）（ｎは１以上の自然数である。本具体例ではｎ＝５０とする）。
【００４６】
次に、全ての対訳文書別形態素頻度辞書５に対して処理が終了していなければ（ステップＳ４２）、その中の形態素頻度辞書のうちの一つをワークテーブルＷＴ２に格納し（ステップＳ４３）、ステップＳ４１の処理と同様に、高頻度に出現する形態素上位ｎ語を抽出し、ワークテーブルＷＴ３に格納する（ステップＳ４４）。
【００４７】
次に、ＷＴ１とＷＴ３に格納されている形態素で共通の形態素の数ｘを求め（ステップＳ４５）、ｘをｎで割った値が閾値ｙより大きければ、その辞書を最適辞書と認定し、ワークテーブルＷＴ０にその辞書名を格納する（ステップＳ４６）。尚、ｙは０以上１以下の数である。本具体例ではｙ＝０．８とする。
【００４８】
ステップＳ４２において、全ての対訳文書別形態素頻度辞書５について、上記処理（ステップＳ４３〜ステップＳ４６）を繰り返したと判定した場合は、本処理を終了し、学習辞書構築処理に進む（ステップＳ３２）。
【００４９】
図１６は、最適辞書選択処理後の本具体例におけるＷＴ０の例を示す図である。
本具体例では、“ｏｓ．ｄｉｃ、ｕｎｉｘ．ｄｉｃ、ｕｓｅｒｓ_ｇｕｉｄｅ．ｄｉｃ”という名前の辞書が、対訳文書ｓｙｓｔｅｍ．ｅｎ，ｓｙｓｔｅｍ．ｊａから作成された辞書と類似することを示している。
【００５０】
次に学習辞書構築処理に進む（ステップＳ３２）。
図５および図６は、学習辞書構築処理の動作を説明するフローチャートである。
先ず、ワークテーブルＷＴ１〜６を初期化し（ステップＳ５０１）、英語形態素頻度辞書２３をＷＴ１に、日本語形態素頻度辞書２３をＷＴ２に、翻訳パターン辞書２３をＷＴ３に格納する（ステップＳ５０２）。但し、ワークテーブルＷＴ１〜ＷＴ３に格納する場合、形態素頻度辞書２３及び翻訳パターン辞書２３の出現回数の値に重み係数αをかけた値を重み回数値として格納する。ここで、重み係数αは、既存辞書（対訳文書別形態素頻度辞書・翻訳パターン辞書５）を１とした場合、今回入力した文書による辞書（形態素頻度辞書・翻訳パターン辞書２３）をどれだけ優先するかの優位度を示す数値であり、通常１以上の値が与えられる（本具体例ではα＝２とする）。
【００５１】
次に、ＷＴ０に格納されている全ての辞書について処理が終了していなければ（ステップＳ５０３）、辞書名、例えば、ｏｓ．ｄｉｃをＷＴ０から取り出し、その辞書名に対応する英語形態素頻度辞書５をＷＴ４に、日本語形態素頻度辞書５をＷＴ５に、翻訳パターン辞書５をＷＴ６に格納する（ステップＳ５０４）。
【００５２】
次に、ＷＴ４に格納されている英語形態素頻度辞書５の全ての形態素について処理が終了していなければ（ステップＳ５０５）、未処理の形態素とその出現回数の組を一つ取り出す（ステップＳ５０６）。取り出した形態素がＷＴ１に登録されていれば（ステップＳ５０７）、ＷＴ１の英語形態素頻度辞書２３の形態素の重み回数値と、取り出した各形態素の出現回数を比較し、取り出した形態素の方が大きければＷＴ１の英語形態素頻度辞書２３の重み回数値を、取り出した形態素の出現回数に変更し、取り出した形態素の方が小さければ何もしない（ステップＳ５０８）。
【００５３】
一方、ステップＳ５０７において登録されていなければ、取り出した形態素とその出現回数をＷＴｌの英語形態素頻度辞書２３に新たに登録する（ステップＳ５０９
【００５４】
全ての形態素に対してステップＳ５０６〜ステップＳ５０９の処理を繰り返し行った後（ステップＳ５０５）、日本語形態素頻度辞書２３、５が格納されているＷＴ２とＷＴ５（ステップＳ５１０〜ステップＳ５１４）、そして、翻訳パターン辞書２３、５が格納されたＷＴ３とＷＴ６（ステップＳ６０１〜ステップＳ６０５）についても同様の処理を行う。
【００５５】
ステップＳ６０１において、ＷＴ６の全ての翻訳パターンに対して処理が終了すれば、ステップＳ５０３に戻り、ＷＴ０に格納されている残りの辞書名に対して同様の処理を繰り返し行った後（ステップＳ５０４〜Ｓ５１４およびステップＳ６０１〜Ｓ６０５）、次の処理に進む。
【００５６】
次に、ＷＴ１に登録されている全ての形態素とその出現回数等を英語形態素辞書４として更新登録し（ステップＳ６０６）、ＷＴ２に登録されている全ての形態素とその出現回数等を日本語形態素辞書４として更新登録する（ステップＳ６０７）。
【００５７】
即ち、形態素辞書４に既に形態素が存在すれば、該形態素に対応させてＷＴ１またはＷＴ２の出現回数を登録する。形態素が存在しない場合は、形態素辞書４にＷＴ１またはＷＴ２の新たな形態素及び対応する出現回数を登録する。
【００５８】
一方、ＷＴ１またはＷＴ２に存在せず、形態素辞書に存在する形態素の出現回数値には、デフォルト値ｄを与える（本具体例ではｄ＝１とする）。
【００５９】
図１７は、本具体例での学習辞書構築処理前後の英語形態素頻度辞書２３の例を示す図である。
処理前は、出現回数（“，”をフィールドセパレータとする第３フィールド）には“−”が登録されているが、処理後では、１以上の数値が登録されているのがわかる。
【００６０】
次に、ＷＴ３に登録されている全ての翻訳パターンとその出現回数等を翻訳パターン学習辞書６に登録する（ステップＳ６０８）。
【００６１】
図１８は、本具体例での学習辞書構築処理後の翻訳パターン学習辞書の例を示す図である。
図示のように、“翻訳パターン，出現回数”のフォーマットで翻訳パターン学習辞書が作成されているのがわかる。
【００６２】
次に、文法知識抽出処理に進む（ステップＳ３３）。
図７は、文法知識抽出処理の動作を説明するフローチャートである。
先ず、ワークテーブルＷＴ１〜５を初期化し（ステップＳ７１）、対訳文書入力部１１によって入力された日本語文書、英語文書を各言語の形態素辞書・文法規則４を用いて形態素解析（ステップＳ７２）、および構文解析を行う（ステップＳ７３）。
【００６３】
次に、この形態素解析結果および構文解析結果から日本語文末表現、受身傾向、疑問傾向、句読点表現、接続詞訳（例：ｉｆ、ａｎｄ、ｏｆの訳）に関する知識を抽出する（ステップＳ７４）。ここでの処理は、以下のようになる。
【００６４】
例えば、日本語文末表現の知識抽出処理では、日本語文末表現候補として、予め「肯定ダ形：だ，です，である，であります」、「肯定スル形：する，します」、「否定ダ形：ではない，ではありません」、「否定スル形：しない，しません」、「命令肯定形：しなさい，して下さい，しましょう」、「命令否定形：しない，してはいけない，しないで下さい，してはいけません」を持っている。
【００６５】
日本語形態素解析結果から用言性接尾辞を全て抽出し、上記の候補から、出現回数の最も多い文末表現（用言性接尾辞）をＷＴ１に格納する。一方、受身傾向、疑問傾向は、日本語構文解析結果から文全体に対する受身形および疑問文の割合を計算し、閾値以上の値であれば、その傾向が強いと判断し、ＷＴ１にその結果を格納する。句読点表現は、対訳文書中に、“．，”または、“。、”のいずれが用いられているかを日本語形態素結果から判断し、ＷＴ１にその結果を格納する。
【００６６】
接続詞訳は、英語形態素解析において対象となる接続詞（例えば“ｉｆ”）が存在する英文とその対訳日本語文の形態素解析結果を抽出し、“ｉｆ”に対応する日本語訳を抽出し、ＷＴ１に格納する。例えば、“ｉｆ”を含む英語文に対応する日本語文に「もし〜ならば」が含まれていれば、「もし〜ならば」を格納し、「〜と」が含まれていれば、「〜と」を格納する。また、複数存在する場合は、その全てを格納する。
【００６７】
図１９は、本具体例における文法知識抽出処理後のＷＴ１の例を示す図である。
ここではフィールドセパレータをタブとして、第１フィールドには属性が、第２フィールドにはその属性値（抽出結果）が示されている。例えば、日本語文末表現の肯定スル形（ｋｏｕｔｅ＿ｄａ）には、「します」が格納されているのがわかる。尚、“ｐａｓｓｉｖｅ＿ｔｅｎｄｅｎｃｙｈｉｇｈ”とは、受身傾向が強いことを表し、“ｉｎｔｅｒｒｏｇａｔｉｖｅｌｏｗ”とは、疑問傾向が低いといったことを示している。
【００６８】
文法情報抽出処理を終了した後、ＷＴ１の値を文法規則４に追加する（ステップＳ７５）。文法規則４では、ＷＴ１の値に応じて、以降の翻訳処理（ステップＳ４）で適用される文法規則が変更されるようになっている。
【００６９】
次に、語彙知識学習部２１で自動作成された形態素頻度辞書・翻訳パターン辞書２３を対訳文書ファイル名の識別子“．ｅｎ”，“．ｊａ”を除いたものに“．ｄｉｃ”を付与したものを辞書名として、対訳文書別形態素頻度辞書・翻訳パターン辞書５として記憶装置に格納する（ステップＳ３４）。本具体例の場合は、入力対訳文書のファイル名は、ｓｙｓｔｅｍ．ｅｎ，ｓｙｓｔｅｍ．ｊａであるので、格納される辞書の名前はｓｙｓｔｅｍ．ｄｉｃとなる。ここで文書環境学習処理（ステップＳ３）が終了する。
【００７０】
次に、翻訳処理に入る。
図８は、翻訳処理の動作を説明するフローチャートを示す。
先ず、翻訳対象の英文“Ｔｈｉｓｃｏｍｍａｎｄｐｕｓｈｅｓｍｏｄｕｌｅｓｏｎａｎｄ／ｏｆｐｏｐｓｍｏｄｕｌｅｓｏｆｆｔｈｅｓｔｒｅａｍ．”を原言語文入力部１２により入力する（ステップＳ８１）。
【００７１】
翻訳エンジン部３は、入力文書を一文単位に区切り（ステップＳ８２）、一文毎に、形態素解析処理（ステップＳ８４）、構文・翻訳パターン解析処理（ステップＳ８５）、形態素生成処理（ステップＳ８６）を行い、翻訳結果を目的言語文出力部１３により出力する（ステップＳ８７）。そして、全ての原言語文に対して処理したら（ステップＳ８３）、翻訳処理を終了する。
【００７２】
即ち、原言語文形態素解析処理（ステップＳ８４）および目的言語文形態素生成処理（ステップＳ８６）では、学習エンジン部２により抽出された形態素の出現回数の値（形態素辞書・文法規則４に格納されている値）を参照し、一方、構文・翻訳パターン解析処理（ステップＳ８５）では、学習エンジン部２により抽出された翻訳パターンおよび出現回数の値（翻訳パターン学習辞書６の値）を参照して、対訳文書の表現が反映された翻訳結果を得る。
【００７３】
図２０は、本具体例における原文入力画面例と翻訳結果出力画面例を示す図である。
図において、原文入力画面例を（ａ）に、翻訳結果出力画面例を（ｃ）に示す。また、（ｂ）にこの入力文における学習なしの翻訳結果出力画面例を示す。学習効果が（ｂ）、（ｃ）の例から読み取れる。
【００７４】
〈効果〉
以上のように、具体例１によれば以下の効果を有する。
●学習知識は、図１８、図１７に示すように、翻訳パターン、形態素出現回数等というユーザにとって分かりやすい形式であるため、ユーザは翻訳知識の管理がし易く、かつ、翻訳結果の予測もし易い。
●例えば、ある学習用文書からはｓｙｓｔｅｍ．ｄｉｃが得られるといったように、複数の学習用文書が存在した場合は、各学習用文書に応じて学習知識を分類して管理することができ、再利用も可能である。
●翻訳エンジン部３で用いられる形態素辞書・文法規則４は、学習エンジン部２で用いられる形態素辞書・文法規則４に学習エンジン部２で獲得された知識を追加したものである、従って、各エンジンの核となる言語知識は共通であるため、副作用が起こりにくい。
●学習エンジン部２で獲得した翻訳知識は、翻訳処理で用いる形態素辞書・文法規則４に追加するが、書き換えてしまうのではないため、元の辞書の状態に簡単に復元することができる。
●学習エンジン部２は、対訳文書から原言語と目的言語の単語間の対応といった辞書的な知識を獲得するだけでなく、その対訳文書全体を参照することによって得られる知識（例えば、出現頻度等）も獲得し、その結果を翻訳処理に利用する。
【００７５】
《具体例２》
〈構成〉
図９は、本発明の機械翻訳装置の具体例２のブロック図である。
【００７６】
具体例２の装置は、大きく分けて、入出力部１００、学習エンジン部２００、環境適応辞書構築部３００、翻訳エンジン部４００と、形態素辞書・文法規則５００と、対訳文書別形態素頻度辞書・翻訳パターン辞書６００と、対訳文書別文書環境設定ファイル７００、翻訳パターン学習辞書８００からなる。
【００７７】
入出力部１００は、対訳文書入力部１０１、原言語文入力部１０２、目的言語文出力部１０３と辞書／環境設定ファイル編集部１０４から構成されている。ここで、対訳文書入力部１０１、原言語文入力部１０２および目的言語文出力部１０３は、具体例１における入出力部１１〜目的言語文出力部１３と同様である。
【００７８】
また、辞書／環境設定ファイル編集部１０４は、対訳文書別形態素頻度辞書・翻訳パターン辞書６００、対訳文書別文書環境設定ファイル７００および翻訳パターン学習辞書８００の編集を行うための機能部であり、具体的には、ディスプレイやキーボード等の入出力装置から構成されている。
【００７９】
学習エンジン部２００は、語彙知識学習部２０１、文書環境学習部２０２から構成される。語彙知識学習部２０１は、対訳文書入力部１０１から入力された対訳文書に対して、形態素辞書・文法規則５００を参照して、形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、この抽出結果を対訳文書別形態素頻度辞書・翻訳パターン辞書６００に格納する機能を有している。また、文書環境学習部２０２は、対訳文書別形態素頻度辞書・翻訳パターン辞書６００の中から、語彙知識学習部２０１で抽出した知識に基づいて最適辞書を選出し、この最適辞書と抽出した知識とをマージし、その結果得られた形態素頻度知識と、形態素辞書・文法規則５００における文法規則に基づいて対訳文書から抽出した文法知識とを対訳文書別文書環境設定ファイル７００として出力する機能を有している。
【００８０】
環境適応辞書構築部３００は、対訳文書別形態素頻度辞書・翻訳パターン辞書６００と、対訳文書別環境設定ファイル７００を参照して、翻訳パターン学習辞書８００を作成すると共に、形態素頻度知識と文法知識とを作成し、これら知識を形態素辞書・文法規則５００へ追加する機能を有している。
【００８１】
翻訳エンジン部４００は、形態素辞書・文法規則５００と翻訳パターン学習辞書８００を参照して翻訳処理を行う機能部である。
【００８２】
辞書／環境設定ファイル編集部１０４は、ユーザが対訳文書別形態素頻度辞書・翻訳パターン辞書６００、対訳文書別文書環境設定ファイル７００および翻訳パターン学習辞書８００を参照したり、編集（追加、削除、修正）したりする機能を提供するもので、具体的にはディスプレイやキーボードといった入出力装置から構成されている。
【００８３】
〈動作〉
本具体例と具体例１との大きな相違点は三点ある。第一は学習エンジン部２００の文書環境学習部２０２が、文書環境設定ファイル７００を出力すること、第二は、新たに環境適応辞書構築部３００が存在し、形態素頻度辞書・翻訳パターン辞書６００と文書環境設定ファイル７００を元に、形態素辞書・文法規則５００および翻訳パターン学習辞書８００を構築すること、第三は、学習により獲得された各辞書６００、８００並びに対訳文書別文書環境設定ファイル７００を、辞書／環境設定ファイル編集部１０４によって参照、編集できることである。
【００８４】
図１０は具体例２の動作を説明するフローチャートである。
具体例２も具体例１と同様の例を用いて説明する。
先ず、ユーザが対訳文書入力部１０１により対訳文書ｓｙｓｔｅｍ．ｅｎ、ｓｙｓｔｅｍ．ｊａを入力する（ステップＳ１００１）と、対訳文書は学習エンジン部２００の語彙知識学習部２０１に渡され、語彙知識学習処理を行う（ステップＳ１００２）。
【００８５】
語彙知識学習処理は具体例１に準じるが、その学習結果は、具体例１のように形態素頻度辞書・翻訳パターン辞書として学習エンジン部２内に保持するのではなく、対訳文書別形態素頻度辞書・翻訳パターン辞書６００に格納する。尚、格納方法は、具体例１の文書環境学習処理（ステップＳ３）の辞書格納処理（ステップＳ３４）に準じる。
【００８６】
次に文書環境学習処理を行う（ステップＳ１００３）。
図１１は、具体例２における文書環境学習部２０２の動作を説明するフローチャートである。
【００８７】
先ず、最適辞書選択処理（ステップＳ１１０１）、文法知識抽出処理（ステップＳ１１０２）を行う。これらの処理も具体例１に準じる。その結果、最適辞書選択処理の結果がＷＴ０に、文法知識抽出処理の結果がＷＴ１に格納されていることになる。
【００８８】
ＷＴ０の結果は一つの値にまとめられ、ＷＴ１の結果と共に対訳文書別文書環境設定ファイル７００に格納される（ステップＳ１１０３）。尚、文書環境設定ファイル名は、学習対象の対訳文書のファイル名の識別子を取り除き、“．ｅｎｖ”を付与したものとする。
【００８９】
図２１に本具体例による文書環境設定ファイルの例を示す。
図示のように、具体例２では、具体例１の図１９に示した状態に最適辞書の項目ｕｓｅ＿ｄｉｃと、その値“ｏｓ．ｄｉｃ、ｕｎｉｘ．ｄｉｃ、ｕｓｅｒｓ＿ｇｕｉｄｅ．ｄｉｃ”が追加されている。
【００９０】
次に、環境適応辞書構築処理を行う（ステップＳ１００４）。
図１２は、具体例２における環境適応辞書構築部３００の動作を説明するフローチャートである。
【００９１】
先ず、ワークテーブルＷＴ０の初期化を行った後（ステップＳ１２０１）、環境設定ファイル７００に設定されている対訳文書別形態素頻度辞書・翻訳パターン辞書ファイル名（ここではｓｙｓｔｅｍ．ｅｎｖの属性ｕｓｅ＿ｄｉｃの値）を具体例１のＷＴ０と同様の形式に従ってＷＴ０に格納し（ステップＳ１２０２）、次に、学習辞書構築処理（ステップＳ１２０３）、文法知識設定処理（ステップＳ１２０４）を行う。学習辞書構築処理、文法知識設定処理は、いずれも具体例１に準じる。
【００９２】
ユーザは、この時点において、対訳文書別環境設定ファイル７００の参照・編集（ステップＳ１００５、ステップＳ１００６）、および、対訳文書別形態素頻度辞書・翻訳パターン辞書６００、翻訳パターン学習辞書８００の参照・編集（ステップＳ１００７、ステップＳ１００８）を、辞書／環境設定ファイル編集部１０４によって行うことができる。
【００９３】
編集処理の終了後、具体例１と同様に翻訳処理を行い、目的言語文出力部１０３で翻訳結果を出力する（ステップＳ１００９）。
【００９４】
〈効果〉
具体例２では具体例１に加えて更に以下の効果を有する。
●学習エンジン部２００と翻訳エンジン部４００が明確に分離され、かつ、学習エンジン部２００で獲得される翻訳知識を対訳文書別文書環境設定ファイル７００としてユーザに開示する方法を提供することにより、ユーザは、その結果をみて、翻訳結果を予測することができる。
【００９５】
●ユーザは、上記の予測に基づき、対訳文書別文書環境設定ファイル７００、対訳文書別形態素頻度辞書・翻訳パターン辞書６００および翻訳パターン学習辞書８００を、辞書／環境設定ファイル編集部１０４を用いて、自分の好みに応じて変更することができる。つまり、学習によって獲得した翻訳知識を加工して、更に質の高い翻訳環境を構築することができる。
【００９６】
●具体例１では、文書環境を学習するために、対訳文書を入力した後、翻訳処理を実行する必要があったが、具体例２では、環境設定ファイルも辞書と同様に格納しておけるので、一度、環境設定ファイルを作成しておけば、再翻訳の際、対訳文書の入力は不要になる。
【００９７】
《利用形態》
上述した具体例１、２は、以下のように変形（あるいは応用）することができる。
●学習エンジン部２，２００や具体例２における環境適応辞書構築部３００は、翻訳エンジン部３，４００とは切り放して機能することも可能である。また、学習エンジン部２，２００だけ、または、学習エンジン部２，２００と環境適応辞書構築部３００とをセットにして、翻訳知識学習装置とすることができる。
【００９８】
●文書環境学習部２２，２０２が抽出する文法知識として、日本語文末情報等を挙げたが、ｉｆ以外の接続詞の訳や、体言止め傾向など、その他の情報も抽出し、翻訳処理に利用することもできる。
【００９９】
●具体例１で説明した各種パラメータ（例えば、重み係数αや最適辞書選択処理での閾値ｙ）は、ユーザによるパラメータ設定機能を設けることにより、ユーザの好みに応じた設定ができる。
【０１００】
●対訳文書ではなく、単言語文書が入力された場合、翻訳パターン辞書の構築はできないが、形態素頻度辞書や文書環境情報の一部は学習可能である。範囲を限定すれば、単言語文書の入力においても本装置の一部は機能する。
【０１０１】
●英日翻訳を例に挙げて説明したが、日英翻訳でも、英語、日本語以外の二言語間でも、本装置は応用可能である。
【０１０２】
●具体例２では、翻訳対象となる原言語文書の翻訳環境設定ファイルが、対訳文書別文書環境設定ファイル７００に存在している場合、環境適応辞書構築処理から処理を開始することができる。その場合、ユーザは、対訳文書を入力するのではなく、環境設定ファイル名を入力する。これにより、そのファイル名が環境適応辞書構築部３００に渡され、環境適応辞書構築処理が開始される。
【０１０３】
●ユーザによる辞書や環境設定ファイルの編集は具体例２のフローチャートに示した動作に限定されるものではなく、いつでも編集することが可能である。
【０１０４】
●具体例２では、語彙知識学習処理と文書環境学習処理を直列的に処理したが並列的に処理することも可能である。
【図面の簡単な説明】
【図１】本発明の機械翻訳装置の具体例１の構成図である。
【図２】本発明の機械翻訳装置の具体例１の全体の動作を示すフローチャートである。
【図３】本発明の機械翻訳装置の具体例１における文書環境学習処理の動作を示すフローチャートである。
【図４】本発明の機械翻訳装置の具体例１における最適辞書選択処理の動作を示すフローチャートである。
【図５】本発明の機械翻訳装置の具体例１における学習辞書構築処理の動作を示すフローチャート（その１）である。
【図６】本発明の機械翻訳装置の具体例１における学習辞書構築処理の動作を示すフローチャート（その２）である。
【図７】本発明の機械翻訳装置の具体例１における文法知識抽出処理の動作を示すフローチャートである。
【図８】本発明の機械翻訳装置の具体例１における翻訳処理の動作を示すフローチャートである。
【図９】本発明の機械翻訳装置の具体例２の構成図である。
【図１０】本発明の機械翻訳装置の具体例２の動作を示すフローチャートである。
【図１１】本発明の機械翻訳装置の具体例２における文書環境学習処理を示すフローチャートである。
【図１２】本発明の機械翻訳装置の具体例２における環境適応辞書構築処理を示すフローチャートである。
【図１３】本発明の機械翻訳装置における対訳文書の例を示す説明図である。
【図１４】本発明の機械翻訳装置の具体例１における語彙知識学習処理後の形態素頻度辞書の説明図である。
【図１５】本発明の機械翻訳装置の具体例１における語彙知識学習処理後の翻訳パターン辞書の説明図である。
【図１６】本発明の機械翻訳装置の具体例１における最適辞書選択後のワークテーブルＷＴ０の説明図である。
【図１７】本発明の機械翻訳装置の具体例１における学習辞書構築処理後の英語形態素辞書の説明図である。
【図１８】本発明の機械翻訳装置の具体例１における学習辞書構築処理後の翻訳パターン学習辞書の説明図である。
【図１９】本発明の機械翻訳装置の具体例１における文法知識抽出後のワークテーブルＷＴ１の説明図である。
【図２０】本発明の機械翻訳装置の具体例１における翻訳処理結果の説明図である。
【図２１】本発明の機械翻訳装置の具体例２における環境設定ファイルの説明図である。
【符号の説明】
２，２００学習エンジン部
３，４００翻訳エンジン部
４，５００形態素辞書・文法規則
５，６００対訳文書別形態素頻度辞書・翻訳パターン辞書
６，８００翻訳パターン学習辞書
１１，１０１対訳文書入力部
１５，６００対訳文書別形態素頻度辞書・翻訳パターン辞書
２１，２０１語彙知識学習部
２２，２０２文書環境学習部
２３形態素頻度辞書・翻訳パターン辞書
１０４辞書／環境設定ファイル編集部

Claims

自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数を抽出する語彙知識学習部と、
翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数に基づいて形態素頻度辞書を求め、これら形態素頻度辞書と新たな文法規則とを前記形態素辞書・文法規則に追加する文書環境学習部とを備えたことを特徴とする翻訳知識学習装置。
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数を抽出する語彙知識学習部と、
翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数に基づいて形態素頻度辞書および翻訳パターン辞書を求め、これら形態素頻度辞書と新たな文法規則とを前記形態素辞書・文法規則に追加し、かつ、前記翻訳パターン辞書を翻訳パターン学習辞書に登録する文書環境学習部と、
前記文書環境学習部から前記形態素頻度辞書と新たな文法規則が追加された形態素辞書・文法規則と、前記翻訳パターン学習辞書とを用いて、原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える翻訳知識学習装置であって、
入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、
対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、
前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部とを含むことを特徴とする翻訳知識学習装置。
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える機械翻訳装置であって、
入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、
対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、
前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部と、
原言語の翻訳すべき文書が入力されると、前記翻訳用パターン辞書と前記翻訳用形態素辞書及び前記文法規則に基づいて前記翻訳すべき文書を目的言語の文書に翻訳する翻訳エンジン部とを含むことを特徴とする機械翻訳装置。
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則部と、
対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力する環境適応辞書構築部とを備えたことを特徴とする翻訳知識学習装置。
請求項５に記載の翻訳知識学習装置において、
対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとを編集する辞書／環境設定ファイル編集部を備えたことを特徴とする翻訳知識学習装置。
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則部と、
対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力すると共に、翻訳パターン辞書を作成し、当該翻訳パターン辞書を翻訳パターン学習辞書として出力する環境適応辞書構築部と、
前記環境適応辞書構築部によって形態素頻度辞書と文法規則とが追加された前記形態素辞書・文法規則と、前記翻訳パターン学習辞書を用いて原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
請求項７に記載の機械翻訳装置において、
対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルと翻訳パターン学習辞書とを編集する辞書／環境設定ファイル編集部を備えたことを特徴とする機械翻訳装置。