JP2004362249A - 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体 - Google Patents

翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体 Download PDF

Info

Publication number
JP2004362249A
JP2004362249A JP2003159662A JP2003159662A JP2004362249A JP 2004362249 A JP2004362249 A JP 2004362249A JP 2003159662 A JP2003159662 A JP 2003159662A JP 2003159662 A JP2003159662 A JP 2003159662A JP 2004362249 A JP2004362249 A JP 2004362249A
Authority
JP
Japan
Prior art keywords
translation
rule
knowledge
corpus
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003159662A
Other languages
English (en)
Inventor
Kenji Imamura
賢治 今村
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003159662A priority Critical patent/JP2004362249A/ja
Priority to US10/840,391 priority patent/US20040255281A1/en
Priority to CNA2004100452541A priority patent/CN1573739A/zh
Publication of JP2004362249A publication Critical patent/JP2004362249A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対訳コーパスから自動獲得された翻訳規則をクリーニングしてより翻訳品質を向上させる事ができる翻訳知識最適化装置を提供する。
【解決手段】翻訳知識最適化装置34は、翻訳知識を記憶する翻訳規則集合記憶部40と、評価コーパス36と、翻訳規則集合記憶部40に記憶された翻訳知識を利用して、評価コーパス36中の原言語の文を目的言語に翻訳する機械翻訳エンジン42と、機械翻訳エンジン42による翻訳結果の品質を、評価コーパス36を参照して自動的に評価する訳質自動評価部44と、訳質自動評価部44の出力する評価値が極値をとる様に、翻訳規則集合記憶部40内の翻訳知識の集合の最適化を行なう規則寄与度算出部46及び翻訳規則削除部48とを含む。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は翻訳規則等の翻訳知識を用いた機械翻訳装置のための翻訳知識の作成装置に関し、特に、訓練コーパスから自動構築した翻訳知識等の様に誤り又は冗長な情報を含む知識を取捨選択する事により、的確な翻訳知識の集合を自動的に作成するための装置及びそのためのコンピュータプログラムに関する。
【0002】
【従来の技術】
機械翻訳の一手法として、構文トランスファ方式のものが知られている。構文トランスファ方式は、予め原言語の単語又は句から目的言語への単語又は句などへのマッピング規則(変換規則)及び単語の対訳等を準備しておき、原言語の入力文を解析した後にこのマッピング規則と単語の対訳とを適用して目的言語の翻訳文を得ようとするものである。構文トランスファ方式の機械翻訳システムの構築において最も手間がかかる作業は、この翻訳規則及び単語の対訳の様な翻訳知識の作成である。
【0003】
元々は翻訳規則は人手で準備されるものであった。しかし、原言語と目的言語との対訳文の集合である対訳コーパスの充実に伴い、翻訳規則を対訳コーパスから自動的に獲得する手法が提案されている。翻訳規則を自動的に獲得できれば、機械翻訳システムの構築のための作業量が大いに削減される。
【0004】
翻訳規則を対訳コーパスから自動的に獲得する手法として複数のものが提案されている。しかし、その様に自動獲得した規則には以下の様な問題がある。
【0005】
例えば、従来の翻訳規則の自動構築方法は不完全であり、構築された翻訳規則にはどうしても誤りが含まれる事が避けられない。たとえば、後掲の非特許文献1では対訳コーパスから翻訳規則の基になる句の対応関係を自動抽出しているが、約8%の対応関係が誤っていると報告されている。誤りを含む規則が翻訳時に使用されると誤訳を生じる。
【0006】
また、通常は一つの原文でも複数通りの翻訳を行なう事が可能である。対訳コーパスにその様な対訳群が含まれていると、その多様性のために多数の冗長な規則が獲得される。その結果、互いに競合する複数の規則が獲得されてしまう。
【0007】
例えば言換え表現が存在すると、それらの表現ごとに異なる翻訳規則が作成される。その結果、機械翻訳を行なう際のあいまい性が増大する。あいまい性が増大すると、適切な翻訳を生成する事が困難になる。すなわち、対訳コーパス中の言換え表現により、機械翻訳の精度が低下する。
【0008】
また、対訳コーパス中に、文脈に依存する訳又は状況に依存する訳が含まれていると、過剰な省略を行なったり、湧き出し語を生じたりする翻訳規則が得られてしまう。そうした翻訳規則は誤訳の原因となる。
【0009】
従来、こうした冗長/競合規則を処理するためのアプローチとして、以下の二つが提案されている。第1のアプローチは、翻訳時に適切な規則を選択する事によりあいまい性を解消する方法である。第2のアプローチは、翻訳規則を自動獲得した後に、後処理として競合規則を取捨選択し、翻訳規則をより的確なものにするという方法である。本発明は、この第2のアプローチをとる。
【0010】
この第2のアプローチによる競合規則の整理及び最適化(これを以後「翻訳規則のクリーニング」又は単に「クリーニング」と呼ぶ。)として知られているものに、後掲の非特許文献2において提案されているものと、非特許文献3において提案されているものとがある。
【0011】
非特許文献2において提案されている手法は、自動獲得された翻訳規則のうち、同じパターンの出現する頻度が所定の値(例えば2)以上の規則のみを採用するという、規則の出現頻度に基づく手法である。非特許文献3において提案されている手法は、特に多数出現するパターンのみを処理対象とし、さらにχ二乗検定による仮説検定を行なう事によって統計的に信頼性が高い規則のみを抽出するという手法である。
【0012】
【非特許文献1】
イマムラ、K.(2001).構文解析と融合した階層的句アライメント.第6回自然言語処理パシフィックリムシンポジウム(NLPRS2001)予稿集377頁から384頁(Hierarchical phrase alignment harmonized with parsing.In Proceedings of the 6th Natural Language Processing Pacific Rim Symposium(NLPRS2001)、pp.374−384)
【0013】
【非特許文献2】
メネツェス、A.、リチャードソン、スティーブン D.(2001).バイリンガルコーパスからの変換マッピングの自動抽出のための最良優先アルゴリズム.MTサミットVIIIにおける『用例ベース機械翻訳ワークショップ』予稿集、35頁から42頁(Menezes,A.、Richardson,Stephen D.(2001)A best first alignment algorithm for automatic extraction of transfer mappings from bilingual corpora.In Proceedings of the ’Workshop on Example−Based Machine Translation’in MT Summit VIII、pp.35−42)
【0014】
【非特許文献3】
イマムラ、K.(2002).パターンベース機械翻訳のための句アライメントにより得られた翻訳知識の応用.第9回機械翻訳における理論的及び方法論的問題に関する会議予稿集、74頁から84頁(Imamura,K.(2002).Application of translation knowledge acuired by hierarchical phrase alignment for pattern−based MT.In Proceedings of the 9th Conferernce On Theoretical and Methodological Issues in Machine Translation(TMI−2002)、pp.74−84)
【0015】
【発明が解決しようとする課題】
上記した非特許文献2に記載の手法では、規則の数はクリーニング前の1/9程度になり、かつ翻訳品質の若干の向上が見られたという例が非特許文献3に報告されている。しかし、冗長規則が大幅に削減されたにもかかわらず、それに見合う様な翻訳品質の向上は得られていない。
【0016】
また、非特許文献3で提案された手法では、統計的に信頼できる規則として得られるものの数が、コーパスサイズに比べて少ない。そのため、十分な数の翻訳規則を得るためには超大規模コーパスを必要とする問題点がある。また統計的に信頼でき、かつ機械翻訳に十分な数の規則を作成可能な超大規模コーパスは現在は存在しない。
【0017】
それゆえにこの発明の目的は、対訳コーパスから自動獲得された翻訳規則をクリーニングしてより翻訳品質を向上させる事ができる翻訳知識最適化装置及びそのためのコンピュータプログラムを提供する事である。
【0018】
この発明のほかの目的は、通常規模の対訳コーパスから自動獲得された翻訳規則をクリーニングして、より翻訳品質を向上させる事ができる翻訳知識最適化装置及びそのためのコンピュータプログラムを提供する事である。
【0019】
この発明のほかの目的は、通常規模の対訳コーパスから自動獲得された翻訳規則を比較的短時間にクリーニングして、より翻訳品質を向上させる事ができる翻訳知識最適化装置及びそのためのコンピュータプログラムを提供する事である。
【0020】
【課題を解決するための手段】
本発明の第1の局面に係る翻訳知識最適化装置は、機械翻訳のための翻訳知識を最適化するための翻訳知識最適化装置であって、翻訳知識の集合を記憶するための翻訳知識記憶手段と、原言語と目的言語との対訳文を複数個含む、機械読取可能な対訳コーパスを記憶するための手段と、翻訳知識記憶手段に記憶された翻訳知識の集合を利用して、対訳コーパス中の原言語の文を目的言語に機械翻訳するための機械翻訳手段と、機械翻訳手段による翻訳結果の品質を、対訳コーパスを参照して自動的に評価して評価値を出力するための訳質自動評価手段と、訳質自動評価手段の出力する評価値が極値をとる様に、翻訳知識の集合の最適化を行なうための最適化手段とを含む。
【0021】
好ましくは、翻訳知識は、原言語の構文パターンから目的言語の構文パターンへの構文変換規則を含む。
【0022】
さらに好ましくは、最適化手段は、翻訳知識の集合に含まれる翻訳知識の各々について、その規則寄与度を算出するための手段と、規則寄与度が予め定める条件を満足する翻訳知識を、翻訳知識の集合から削除するための手段とを含む。
【0023】
規則寄与度を算出するための手段は、翻訳知識の集合の全体を用いて、機械翻訳手段による翻訳、及びその翻訳の結果の訳質自動評価手段による訳質評価を行ない、初期評価値を得るための手段と、翻訳知識の集合から、ある翻訳知識を削除して得られる翻訳知識の集合を用いて、機械翻訳による翻訳、及びその翻訳の結果の訳質自動評価手段による訳質評価を行ない、削除後評価値を得るための手段と、削除後評価値と初期評価値との差分を、ある翻訳知識の規則寄与度として算出するための手段とを含んでもよい。
【0024】
さらに好ましくは、最適化手段は、翻訳知識の集合の全体を用いて、機械翻訳手段による翻訳、及びその翻訳結果の訳質自動評価手段による訳質評価を行ない、初期評価値を得るための手段と、予め定められた方法に従って、翻訳知識の集合から複数の部分集合を作成するための手段と、複数の部分集合の各々を用いて機械翻訳手段による翻訳、及びその翻訳の訳質自動評価手段による訳質の評価を行ない、その評価値が初期評価値に対して所定の条件を満足するか否かを判定するための判定手段と、判定するための手段により評価値が所定の条件を満足すると判定された部分集合の各々について、その補集合に属する翻訳知識を翻訳知識の集合から削除するための手段とを含む。
【0025】
部分集合を作成するための手段は、翻訳知識の集合から予め定められる数の翻訳知識を除いて得られる部分集合を複数個作成するための手段を含んでもよい。
【0026】
好ましくは、部分集合を複数個作成するための手段は、翻訳知識の集合から一つの翻訳知識を除いて得られる部分集合を複数個作成するための手段を含む。
【0027】
さらに好ましくは、部分集合を作成するための手段は、翻訳知識の集合から予め定められる数の翻訳知識を除いて得る事が可能な全ての部分集合を作成するための手段を含む。
【0028】
機械翻訳手段は、原言語の文を機械翻訳する際に、翻訳知識の集合内のどの翻訳知識を使用したかについての情報を出力する機能を持ち、翻訳知識最適化装置はさらに、初期評価値を得る際に翻訳された文ごとに、機械翻訳手段から出力される、翻訳の際に使用した翻訳規則を特定する情報を記憶するための手段を含み、判定手段は、記憶するための手段に記憶されている、翻訳規則を特定する情報を参照して、複数の部分集合の各々について、当該部分集合の補集合に含まれる翻訳規則を用いて翻訳された原言語の文の集合を特定するための手段と、部分集合の各々を用いて、当該部分集合の補集合に含まれる翻訳規則を用いて翻訳された原言語の文の集合を機械翻訳手段により再び機械翻訳するための手段と、部分集合の各々に対し、初期翻訳結果のうち、当該部分集合の補集合に含まれる翻訳規則を用いて翻訳された翻訳結果を、再び機械翻訳するための手段による翻訳結果で置換え、当該置換え後の初期翻訳結果に対して訳質自動評価手段による訳質評価を行なって、当該部分集合による翻訳結果の評価値を得るための手段と、部分集合の各々に対し、当該部分集合による翻訳結果の評価値と初期評価値とが所定の条件を満足しているか否かを判定するための手段とを含んでもよい。
【0029】
好ましくは、判定するための手段は、部分集合の各々に対し、当該部分集合による翻訳結果の評価値が、初期評価値を上回っているか否かを判定するための手段を含む。
【0030】
好ましくは、翻訳知識最適化装置はさらに、予め準備された、原言語と目的言語との対訳文からなる訓練コーパスから、各々が訓練サブコーパス及び評価サブコーパスを含む複数個のサブコーパス対を作成するための手段と、予め定められる翻訳規則の構築方式に従って、与えられる対訳コーパスから翻訳規則を自動的に構築するための翻訳知識自動構築手段と、翻訳知識自動構築手段を用いて訓練コーパスから翻訳知識を自動構築し、基本翻訳知識として記憶するための基本翻訳知識記憶手段と、複数個のサブコーパス対の各々に対して、訓練サブコーパスから翻訳知識自動構築手段を用いて翻訳知識の集合を自動構築し、当該翻訳知識の集合に対し、評価サブコーパスを機械読取可能な対訳コーパスとして、翻訳知識記憶手段、機械読取可能な対訳コーパスを記憶するための手段、機械翻訳手段、訳質自動評価手段、及び最適化手段による最適化を行なうための手段と、最適化を行なうための手段によって最適化された、複数個のサブコーパス対の各々に対して得られる翻訳知識の集合を、一つの翻訳知識の集合に集約するための手段とを含む。
【0031】
さらに好ましくは、集約するための手段は、基本翻訳知識記憶手段に記憶された基本翻訳知識に含まれる翻訳知識の各々について、最適化手段により算出された差分を、複数個のサブコーパス対の全てにわたって合計するための差分合計手段と、差分合計手段により合計された差分が所定の条件を満足する翻訳知識を削除する様に基本翻訳知識記憶手段に記憶されている基本翻訳知識を更新するための手段とを含む。
【0032】
基本翻訳知識を更新するための手段は、差分合計手段により合計された差分が負となる翻訳知識を削除する様に基本翻訳知識記憶手段に記憶されている基本翻訳知識を更新するための手段を含んでもよい。
【0033】
好ましくは、複数個のサブコーパス対を作成するための手段は、訓練コーパスを予め定める個数に実質的に等分して予め定める個数の評価サブコーパスを作成するための手段と、予め定める個数の評価サブコーパスの各々に対して、訓練コーパスから当該評価サブコーパスを除いたコーパスを作成し、当該評価サブコーパスと対となる訓練サブコーパスを作成するための手段とを含む。
【0034】
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの翻訳知識最適化装置として動作させるものである。
【0035】
本発明の第3の局面に係るコンピュータは、上記したコンピュータプログラムによりプログラムされたコンピュータプログラムによりプログラムされたコンピュータである。
【0036】
本発明の第4の局面に係る記憶媒体は、上記したコンピュータプログラムを記録した、コンピュータ読取可能な記憶媒体である。
【0037】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。以下の説明では、同じ部品には同じ参照番号を付す。それらの機能も同一である。従って、それらについての詳細な説明は繰返さない。
【0038】
なお以下の説明では、第1及び第2の実施の形態を説明する。これらの実施の形態の基本的な考え方は以下の通りである。すなわち、自動構築された翻訳規則を用いて評価コーパス中の原言語の文を機械翻訳する。機械翻訳した結果に対し、非特許文献4に記載されている様な訳質の自動評価を行ない、自動評価値を得る。この自動評価値を向上させる様に翻訳規則の取捨選択を行なう事により、最適な翻訳規則の組合せ(最適な翻訳規則集合)を得る。
【0039】
以下の実施の形態では、最適な翻訳規則の組合せには山登り法を使用する。この際、組合せごとに得られる自動評価値を評価関数の出力とみなす。
【0040】
特に以下の実施の形態では、自動構築された翻訳規則集合に対し規則の削除だけを行なう事により、翻訳規則集合の最適化を行なう。この様に規則の削除に限定する事により、クリーニングのための処理が早くなるという効果がある。
【0041】
また、以下の実施の形態では英語から日本語に翻訳する際の翻訳規則集合を最適化する場合について説明する。しかし、本発明はこうした言語の組合せに限定されるわけではなく、翻訳規則を適用する事により翻訳できる言語の組合せであればどの様なものに対しても適用できる。
【0042】
[第1の実施の形態]
‐構成‐
図1は本発明の第1の実施の形態に係る翻訳規則抽出装置20の機能的構成を示すブロック図である。図1を参照して、翻訳規則抽出装置20は、原言語(英語)と目的言語(日本語)との対訳文を多数含む訓練コーパス30と、訓練コーパス30から機械翻訳規則を自動的に構築するための機械翻訳規則自動構築部32と、機械翻訳規則自動構築部32が構築した翻訳規則集合に対して、後述する様なフィードバッククリーニング処理を行なうためのフィードバッククリーニング部34と、フィードバッククリーニング部34がフィードバッククリーニングを行なう際に、訳質評価のために参照する評価コーパス36とを含む。評価コーパス36中の対訳文は、英語の原文と、原文を人が日本語に翻訳した結果(参照訳と呼ぶ。)とからなる。
【0043】
フィードバッククリーニング部34は、機械翻訳規則自動構築部32により訓練コーパス30から自動的に構築された翻訳規則の集合を記憶するための翻訳規則集合記憶部40と、翻訳規則集合記憶部40に記憶された翻訳規則を用いて評価コーパス36中の全ての英語の原文を目的言語の文に翻訳するための機械翻訳エンジン42とを含む。機械翻訳エンジン42は構文トランスファ方式のものであえる。
【0044】
フィードバッククリーニング部34はさらに、機械翻訳エンジン42による翻訳結果を、各文の翻訳の際に使用された翻訳規則を特定する情報とともに記憶するための翻訳結果記憶部43を含む。翻訳結果記憶部35はまた、翻訳結果ともに各文の翻訳の際に使用された翻訳規則を特定する情報も記憶する。
【0045】
フィードバッククリーニング部34はこれに加えて、翻訳結果記憶部43に記憶されている日本語の文(翻訳文)の訳の品質(訳質)を、評価コーパス36を用いて自動的に評価するための訳質自動評価部44と、翻訳規則集合記憶部40に含まれる規則ごとに、その規則を削除した後の自動評価値を算出し、削除前の自動評価値との差分(この差分をその規則の「規則寄与度」と呼ぶ。)を算出するための規則寄与度算出部46とを含む。規則寄与度算出部46は、寄与度の算出の際には、訳質自動評価部44による評価値と、翻訳結果記憶部43に記憶されている、翻訳の際に使用された翻訳規則を特定する情報とを用いる。
【0046】
フィードバッククリーニング部34はさらに、翻訳規則のうち、寄与度算出部46が算出した規則寄与度が所定の条件を充足した翻訳規則(本実施の形態では規則寄与度が負の値である翻訳規則)を翻訳規則集合記憶部40中の翻訳規則の集合から削除するための翻訳規則削除部48を含む。
【0047】
本実施の形態では、機械翻訳規則自動構築部32による翻訳規則の自動構築には、前述の非特許文献3に記載された方法を使用する。
【0048】
本実施の形態では、機械翻訳エンジン42は、構文トランスファ方式であって、後掲の参考文献1に記載されたものを使用する。機械翻訳エンジン42は、英語の構文構造を日本語の構文構造に変換する翻訳規則を使用する。機械翻訳エンジン42が使用する翻訳規則の例を図2に示す。この例では、1つの規則は、構文規則と、原言語パターンと、目的言語パターンと、用例とを含む。
【0049】
構文カテゴリは、この規則が適用される英語構文ノードのカテゴリを表す。
【0050】
原言語パターンは、この規則が適用される英語構文構造のパターンを示す。原言語パターンは、X,Yなどの非終端記号(変数)と、単語又はマーカなどの終端記号との列である。
【0051】
目的言語パターンは、この規則が適用された場合に生成される日本語構文構造のパターンを示す。原言語パターンに対応する変数(X’、Y’など)と、単語で表現された終端記号との列である。
【0052】
用例は、訓練コーパス中に現れた変数の実例である。変数の数と一致する主辞単語の組である。本実施の形態における翻訳規則集合記憶部40中の各規則の用例は、訓練コーパス30中での出現例となる。
【0053】
翻訳規則集合記憶部40が記憶する翻訳規則は機械翻訳エンジン42が使用する翻訳規則のフォーマットに従ったものである。
【0054】
図2に示す規則のうち、たとえば規則番号1のものは、英語の”present at the conference”という句に適用され、「会議(conferenceの訳)で発表する(presentの訳)」という訳を生成する事を表している。
【0055】
訳質自動評価部44は、後掲の参考文献2に記載のBLEUを用いる。BLEUの様な機械翻訳の自動評価法についてはこの他にもいくつか提案されている。これらは、機械翻訳システムの開発時、従来主観評価を行なっていた部分を置換える事により、開発サイクルのスピードアップを狙ったものである。これらは全自動で行なわれるため、従来考えられていた様な開発支援ばかりではなく、本実施の形態の様に翻訳システムの自動チューニングにも利用できる。
【0056】
本実施の形態で訳質自動評価に使用するBLEUは、評価コーパスの原文を機械翻訳エンジン42により機械翻訳した結果と、評価コーパス36中の参照訳との類似度を計算し、訳質をスコア(BLEUスコア)として出力する。類似度は、両者のN−gram一致数で測定される。Nは可変であるが、本実施の形態では1−gramから4−gramまでを用いる。
【0057】
ここで注意すべきは、BLEUスコアを本実施の形態の様に機械翻訳規則集合の評価に用いるためには、ある程度の大きさを持った文集合を用いる必要がある事である。BLEUスコアを1文ごとに算出する事も可能ではあるが、そのままでは主観評価とのずれが大きい。個々の類似度を翻訳結果集合に含まれる翻訳文の全体について計算し総和をとる事により、個々の誤差を相殺できる。
【0058】
規則寄与度算出部46は、次の様にして規則ごとに規則寄与度を算出する。まず、機械翻訳エンジン42による評価コーパス36の原言語の全ての文の翻訳結果に対し訳質自動評価部44が算出したスコアを用い、基準となる自動評価値を得る。この値を削除前自動評価値と呼ぶ。この翻訳により、どの文の翻訳にどの規則が使用されたかという情報も得られる。
【0059】
次に、翻訳規則集合記憶部40内の翻訳規則ごとに、翻訳規則集合記憶部40からその規則を削除して得られる部分集合を用いて評価コーパス36の原言語の全ての文の翻訳を行なった場合のスコアを計算する。このスコアと削除前自動評価値の差分が規則寄与度である。本実施の形態では、削除後のスコアの計算を以下の考え方に従って行なう。なお、この例では、当然の事ながら、削除される一つの翻訳規則からなる集合と、その翻訳規則を削除する事により形成される部分集合とは互いに補集合の関係にある。
【0060】
基本的考え方に従って、翻訳規則集合記憶部40内の規則の組合せ(部分集合)ごとに評価コーパス36を全て翻訳する事も理論的には考えられる。しかしその場合には翻訳回数が非常に多くなる。よほど計算機資源に恵まれていないと合理的な時間内に結果を得る事ができない。そこで、以下の様にして計算量を少なくする。
【0061】
機械翻訳エンジン42による機械翻訳では、1文を翻訳すると、その翻訳に使用された翻訳規則を特定できる。その情報は翻訳結果記憶部43に記憶されている。逆にいうと、評価コーパス36全体を翻訳すると、各規則が使われる文を特定できる。
【0062】
ある規則を翻訳規則集合から削除して得られる部分集合を用いて機械翻訳エンジン42により翻訳を行なうとき、それによって変化する翻訳文は、そのある規則の削除前にその規則を使用して翻訳された翻訳文だけである。他の文は別の規則を使用して翻訳されたので、削除対象の規則が削除された後の翻訳規則集合を用いた翻訳を行なっても翻訳結果は変化しない。
【0063】
従って、翻訳規則集合からある規則を削除した場合、削除前にその規則を使用して翻訳した文のみを削除後の翻訳規則集合を用いて翻訳し、他の訳文とあわせて参照訳との類似度を求めれば削除後のBLEUスコアが得られる。全ての文を翻訳する必要はない。
【0064】
以上から、翻訳規則の削除のみを行なう事により、合理的な時間内に結果を得る事が可能になる。
【0065】
すなわち規則寄与度算出部46は、訳質自動評価部44による削除前自動評価値と、翻訳にどの規則が使用されたか(どの規則がどの文の翻訳に使用されたか)に関する、翻訳結果記憶部43に記憶されている情報を得る。規則ごとに、その規則を用いて翻訳された文を、その規則以外の規則を用いて再翻訳した場合の、訳文全体の自動評価値を算出する。この評価値と削除前自動評価値との差分(削除前自動表価値−削除後の評価値)を算出し、それをその規則の規則寄与度とする。規則寄与度算出部46はさらに、こうして算出された規則寄与度が負となる(つまり、削除する事により自動評価値が大きくなる)規則の規則番号を翻訳規則削除部48に与える機能を持つ。なお、規則寄与度算出部46では、その処理の収束を早めるため、削除される規則同士は互いに独立であると仮定し、1回の繰返しで、削除すべき規則を全て決定し削除している。
【0066】
より具体的には、規則寄与度算出部46は以下の様にして規則寄与度を算出する。翻訳規則集合のうち、機械翻訳エンジン42による翻訳の際に使用された翻訳規則の各々について、その規則を翻訳の際に使用した文の集合を求める。その文の集合が空集合でなければ、基の規則集合からその翻訳規則を取除いて得られる部分集合を用いて、その文の集合内の各文について機械翻訳エンジン42による翻訳を再度行なう。翻訳結果記憶部43に記憶された翻訳結果のうち、この翻訳規則を用いて翻訳が行なわれたものを、再翻訳したものと置換える。そして再度訳質自動評価部44によって訳質の自動評価を行なう。こうして得られた削除後の評価値と削除前自動評価値との差分がこの翻訳規則の規則寄与度となる。
【0067】
この処理を、翻訳規則集合記憶部40内の全ての翻訳規則に対して行ない、規則寄与度が負の規則を特定する事により、削除すべき翻訳規則が決定される。
【0068】
翻訳規則削除部48は、翻訳規則集合記憶部40内の規則のうち、規則寄与度算出部46から与えられた情報に対応する翻訳規則を削除する機能を持つ。
【0069】
‐動作‐
第1の実施の形態に係る翻訳規則抽出装置20は以下の様に動作する。訓練コーパス30及び評価コーパス36は予め準備されているものとする。機械翻訳規則自動構築部32は、訓練コーパス30内の各対訳文から翻訳規則を自動構築し、翻訳規則集合記憶部40に記憶させる。
【0070】
機械翻訳エンジン42は、評価コーパス36に含まれる対訳文のうちの原文の全てを、翻訳規則集合記憶部40に記憶されている翻訳規則を用いて翻訳する。翻訳結果は、翻訳の際に使用された翻訳規則を特定する情報とともに翻訳結果記憶部43に記憶される。
【0071】
訳質自動評価部44は、翻訳結果記憶部43に記憶されている翻訳文の訳質を、評価コーパス36に記憶されている参照訳を用いて自動的にBLEUスコアとして評価し、その結果を規則寄与度算出部46に与える。
【0072】
規則寄与度算出部46は、訳質自動評価部44から与えられたBLEUスコアを削除前自動評価値とする。次に規則寄与度算出部46は、翻訳規則集合記憶部40内の各翻訳規則について、上記した方法に従って規則寄与度を算出する。そして、規則寄与度が負となる規則を特定し、その情報を翻訳規則削除部48に与える。
【0073】
翻訳規則削除部48は、この情報に従って翻訳規則集合記憶部40に記憶されている翻訳規則集合内の規則を削除する。削除処理後の翻訳規則集合記憶部40に記憶されている翻訳規則集合は、クリーニングされ最適化されたものとなる。
【0074】
‐具体例‐
翻訳例及び規則寄与度の算出の具体例を示す。なお、削除前自動評価値は0.233363とする。
【0075】
‐翻訳例1‐
図2の規則5は、文脈依存訳から作成された誤り規則の例である。”the nearest subway station”と「最寄りの地下鉄」から作成された規則であり、原文の”station”の訳が日本語では省略されている。
【0076】
英語”Please tell me where the nearestrailroad station is.”を翻訳すると,この規則5が適用されて,日本語「最寄りの鉄道はどこにありますか、教えていただけますか。」と翻訳される。
【0077】
規則5を削除すると、この翻訳は「最寄りの鉄道の駅はどこにありますか、教えていただけますか」に変化する。削除後自動評価値は0.233549となる。
【0078】
従って、規則5の規則寄与度は0.233363−0.233549=−0.000186となる。従って規則5は削除される。削除の結果、”the nearest railroad station”は「最寄りの鉄道の駅」と正しく翻訳されるようになる。
【0079】
‐翻訳例2‐
図2の規則6は、翻訳規則自動構築誤りによって作成された誤った規則の例である。自動構築時、”rent two bicycles”を解析した結果、”rent two”が動詞句、”bicycles”が名詞句になった例である。正しくは、”rent”が動詞句、”two bicycles”が名詞句であるが、翻訳規則の自動構築の際にはこの種の誤りの発生を完全に防止する事はできない。
【0080】
英語“I want to rent two rackets”を翻訳すると、規則6が適用されて「ラケットを2借りたいのですが」と翻訳される。規則6を削除すると、この翻訳は「ラケットを2本借りたいのですが」に変化する。すると、規則6の削除後の自動評価値は0.233529となる。規則6の規則寄与度は−0.000166となり、規則6は削除される。
【0081】
‐翻訳例3‐
図2の規則7及び規則8は、言換え表現から作られた規則の例である。どちらも正しい規則であるが、互いに競合する規則である。
【0082】
英語“Please cash this traveler’s check.”を翻訳する際には、規則7又は規則8のいずれかが適用される。今回は規則7が選ばれたものとする。翻訳結果は「このトラベラーズチェックを現金にしたいのですが」となる。
【0083】
規則7を削除すると、この翻訳は「このトラベラーズチェックを現金にしてください」に変化する。すると削除後自動評価値は0.233585となる。これは、評価コーパス36中に、規則8に一致する対訳文が、規則7に一致する対訳文よりも多く含まれている事を示す。
【0084】
規則7の規則寄与度はこの場合−0.000222となる。その結果、規則7が削除され、評価コーパス36中により多く出現する表現に一致する翻訳が行なわれる様になる。
【0085】
‐実施の形態1の効果‐
以上の第1の実施の形態の翻訳規則抽出装置20では、フィードバッククリーニング部34の機能により、対訳コーパスから自動構築された翻訳規則群を、訳質自動評価部を用いて自動的にクリーニングする事ができる。その結果、機械翻訳結果に悪影響を及ぼす翻訳規則が排除されるので、自動構築された翻訳規則を用いる翻訳システムの翻訳結果の品質が向上するという効果が得られる。現実に、クリーニング後の翻訳規則を用いて翻訳を行なった結果に対しては、未クリーニングの翻訳規則を用いた翻訳結果よりもよい評価が得られた。
【0086】
‐コンピュータによる実現‐
以上述べた第1の実施の形態に係る翻訳規則抽出装置20は、コンピュータ及びその上で実行されるソフトウェアによっても実現される。図3に翻訳規則抽出装置20を構成するコンピュータの外観図を、図4にそのブロック図を、それぞれ示す。
【0087】
図3を参照して、翻訳規則抽出装置20を構成するコンピュータシステムは、CD−ROM(Compact Disc Read−Only Memory)ドライブ70及びFD(Flexible Disk)ドライブ72を有するコンピュータ60と、いずれもコンピュータ60に接続されたモニタ62、キーボード66、及びマウス68とを含む。
【0088】
図4を参照して、コンピュータ60はさらに、CPU(中央演算処理装置:Central Processing Unit)76と、CPU76に接続されたバス86と、バス86を介してCPU76と相互に接続されたRAM78、ROM80、及びハードディスク74とを含む。バス86にはCD−ROMドライブ70及びFDドライブ72も接続される。CD−ROMドライブ70にはCD−ROM82が、FDドライブ72にはFD84が、それぞれ装着され、CPU76等との間のデータの入出力を行なう事ができる。
【0089】
図3及び図4に示すコンピュータは、以下に述べる様な制御構造を有するコンピュータプログラム(以下単に「プログラム」と呼ぶ。)を実行する事により、図1に示す翻訳規則抽出装置20として動作する。このプログラムは、たとえばCD−ROM82上にコンピュータ読取可能なデータとして記録されて流通する。このCD−ROM82をCD−ROMドライブ70に装着し、プログラムを読出してハードディスク74に記憶する事により、コンピュータ60はいつでもこのプログラムを実行する事ができる。なお、訓練コーパス30、評価コーパス36などはハードディスク74に記憶しておく。CPU76はまた、必要なデータはハードディスク74から読出してRAM78に格納する。
【0090】
プログラムの実行時には、ハードディスク74に記憶されているプログラムをROM80にロードする。CPU76は、図示しないプログラムカウンタにより示されるアドレスの命令をROM80から読出して実行する。CPU76は、実行結果を所定のアドレスに出力し、あわせて実行結果に従ってプログラムカウンタの内容を更新する。
【0091】
こうした処理を繰返し行なう事により、最終的な翻訳規則の集合が得られる。得られた結果は、本実施の形態では最終的にハードディスク74に格納される。
【0092】
なお、コンピュータ60の動作自体は周知であるので、ここではその詳細については繰返さない。
【0093】
‐プログラムの制御構造‐
図5を参照して、フィードバッククリーニング部34を実現するプログラムは以下の制御構造を有する。まず、このプログラムは、起動されるとステップ100で削除規則集合Rremoveを空集合とする。ステップ102で、機械翻訳エンジン42を用いて評価コーパス36の全ての原文を翻訳規則集合記憶部40の翻訳規則を参照して翻訳し、翻訳結果集合Docを得る。このとき同時に、翻訳するためにどの規則が使われたかを記録する。この記録に基づき、ある規則rを用いて翻訳された原文集合を求める。この原文集合を、規則rに対してS[r]とする。続いてステップ104で、この翻訳結果集合Docから、訳質自動評価部44を用いて初期(削除前)自動評価値scoreを算出する。
【0094】
続いて以下に述べるステップ108〜ステップ120までの処理を、翻訳規則集合記憶部40内の全ての翻訳規則rについて繰返す。まずステップ108では、規則rを用いた原文集合S[r]が空集合か否かを判定する。空集合の場合にはこの規則rに対しては何も行なわない。S[r]が空集合でない場合、制御はステップ110に進む。
【0095】
ステップ110では、原文集合S[r]に含まれる原文の全てを、翻訳規則集合から規則rを取除いたものを用いて、機械翻訳エンジン42により翻訳する。その結果得られる訳文の集合をT[r]とする。続くステップ112で、ステップ102で求めた翻訳結果集合Doc中の、規則rを用いて翻訳された文の集合を集合T[r]で置換えた新たな翻訳結果集合Doc[r]を求める。ステップ114で、この翻訳結果集合Doc[r]に対する、訳質自動評価部44による自動評価値score[r]を算出する。この自動評価値score[r]が削除後自動評価値である。ステップ116で、初期自動評価値scoreからこの削除後自動評価値score[r]を減算し、その結果を規則寄与度contrib[r]に代入する。
【0096】
ステップ118では、規則寄与度contrib[r]が負か否かを判定する。規則寄与度contrib[r]が負であれば、制御はステップ120に進み、この規則rを削除規則集合Rremoveに追加する。規則寄与度contrib[r]が負でなければその規則については何もしない。
【0097】
以上のステップ108〜120の処理を全ての規則rについて繰返し行なった後、制御はステップ124に進む。ステップ124では、削除規則集合Rremoveが空集合でないか判定する。削除規則集合Rremoveが空集合であればこのプログラムの実行を終了する。削除規則集合Rremoveが空集合でない場合には、ステップ126でこの削除規則集合Rremoveに含まれる規則を翻訳規則集合記憶部40に含まれる翻訳規則集合から削除する。この後、制御は先頭のステップ100に戻り、ステップ124で削除規則集合Rremoveが空集合であると判定されるまで、以上の処理を繰返す。
【0098】
以上の様な制御構造を有するプログラムを図3及び図4に示すコンピュータ60で実行する事により、図1に示す第1の実施の形態の翻訳規則抽出装置20を実現する事ができる。
【0099】
‐変形例‐
上記した第1の実施の形態では、翻訳規則の全てについてその規則寄与度を算出して削除するか否かを判定している。しかし、全ての翻訳規則についてこうした処理を行なう必要はなく、一部の規則のみに対して行なってもそれなりの効果が得られる。しかし、翻訳規則の全てについて規則寄与度を算出して削除するか否かを判定した方が、明らかに最終的に得られる翻訳規則に誤った規則又は冗長な規則が含まれる可能性が低くなる。従って、翻訳規則の全てについて上記した処理を行なう方が好ましい。
【0100】
また上記した実施の形態では、一度に一つずつの翻訳規則についてその規則寄与度を算出している。この様にすると、翻訳規則の各々について削除すべきか否かを判定できるので、翻訳規則の最適化を目指す上では好ましい。しかし、この判定を翻訳規則の一つずつについて行なう事が必須というわけではない。原理的には、一度に複数の翻訳規則を削除した場合を想定してその寄与度を算出し、その結果に従ってそれら複数の翻訳規則をまとめて削除する事も可能であり、そうした方法によってもある程度は上記した実施の形態と同様の効果を奏すると考えられる。
【0101】
また、削除すべきか否かを決定する翻訳規則の数は、上記した実施の形態では「1」に固定されている。この様に数を固定する事により、処理が簡単になるので、実際にはこうした形で本発明を実施する事が多いと思われる。しかしこの数も常に同じ数である必要はない。たとえば何らかの基準によってその都度決められる数の翻訳規則を処理対象として、その規則寄与度を算出する様にしてもよい。
【0102】
本発明では、翻訳規則の集合の任意の部分集合(当初の翻訳規則内の翻訳規則の任意の組合せ)を取出し、どの部分集合を用いて機械翻訳を行なえば翻訳結果の訳質として最もよい評価値が得られるか、を確認し、その結果によって最終的な翻訳規則の集合を決定する、という考え方を基本的枠組みとしている。その基本的枠組みの中で、さらに計算機資源を節約しつつどの様にすれば効率的にある程度好ましい基本規則の集合が得られるか、についての一つの実施の形態が上記した第1の実施の形態である。この基本的枠組みの中で、第1の実施の形態とは細部で異なる実施の形態が他にもあり得る事、及びそうした実施の形態が上記した第1の実施の形態についての詳細な説明に基づいて容易に実施する事ができる事は、当業者であれば容易に理解できるであろう。
【0103】
[第2の実施の形態]
‐概略‐
第1の実施の形態の装置によりクリーニングした翻訳規則集合を用いる事により、翻訳の品質はかなり向上する。しかし、未だ向上の余地があると思われる。また、第1の実施の形態では、訓練コーパスとは別に評価コーパスを準備する必要がある。評価コーパスについては、原文に対する参照訳が必要となるため、できれば評価コーパスを特に準備する必要がないほうが望ましい。
【0104】
また、一般的には、訓練コーパスに比べ、評価コーパスはサイズが小さい場合が多い。そのため、たとえ大域最適解を発見する事ができても、評価コーパスではすべての規則をテストできず、クリーニング漏れが発生する。その様なクリーニング漏れの発生を防止できる事が望ましい。
【0105】
そこでこの第2の実施の形態の装置では、第1の実施の形態の装置で用いたフィードバッククリーニング部34によるクリーニング結果に対し、交差検定と同様な考え方を用い、より最適解に近いものを得るためのクリーニングを行なう。本明細書では、こうしたクリーニングの仕方を「交差クリーニング」と呼ぶ。
【0106】
一般的にN分割交差検定とは、データをN個のサブデータにほぼ等分し、一つをあるモデルのパラメータ推定に用い、推定されたモデルの当てはまりのよさを残りのデータで評価する事をN個のサブデータの全てについて行なう、という方法である。この交差クリーニングにより、上記した様なクリーニング漏れを防止する事ができる。
【0107】
図6に、この実施の形態で行なわれる交差クリーニングの概要を示す。以下、この処理の概要を説明する。
【0108】
ステップ1. 訓練コーパス140をN個に分割する。
【0109】
ステップ2. 分割によって得られたN個のサブコーパスを評価サブコーパス162A、162B、…とする。元の訓練コーパス140から一つの評価サブコーパス(例えば評価サブコーパス162A)を除いたN−1個のサブコーパス(評価サブコーパス162Aの場合、評価サブコーパス162B、162C、…)を一つにまとめ、訓練サブコーパス160Aを作成する。評価サブコーパス162Aと訓練サブコーパス160Aとを対にする。
【0110】
同様に、各評価サブコーパス162B、162C、…に対し、訓練サブコーパス160B,160C,…を作成し、それらを元の評価サブコーパス162B、162C、…と対にする。
【0111】
以上の処理の結果、N個のサブコーパス対150A,150B、…が形成される。これらN個のサブコーパス対150A、150B,…に含まれる訓練サブコーパス160A,160B,…の各々から、第1の実施の形態と同様にして翻訳規則の自動構築151を行なう。その結果、N個の自動構築翻訳規則集合152A,152B、…が得られる。
【0112】
ステップ3. さらに、これら自動構築翻訳規則集合152A,152B,に対し、それぞれ評価サブコーパス162A,162B,…を用いて、第1の実施の形態と同様のフィードバッククリーニング153を行なう。その結果、N個のクリーニング後規則集合154A,154B,…が得られる。
【0113】
ステップ4. 最後に、N個のクリーニング後規則集合154A,154B,…に対して機械翻訳規則集約処理156を行ない、最終的な交差クリーニング後翻訳規則集合158を作成する。
【0114】
通常の交差検定との相違点はステップ4である。本実施の形態では、規則毎に規則寄与度の総和を算出し、それが0以上である場合に最終翻訳規則集合にその規則を出力する。逆にいえば、規則寄与度の総和が0未満の規則は翻訳規則集合から削除する。
【0115】
‐構成‐
図7にこの第2の実施の形態の翻訳規則抽出装置180の機能的ブロック図を示す。図7を参照して、この翻訳規則抽出装置180は、訓練コーパス140と、訓練コーパス140から自動的に翻訳規則を構築するための機械翻訳規則自動構築部198と、機械翻訳規則自動構築部198により自動構築された翻訳規則の集合(これを「基本翻訳規則集合」と呼ぶ。)を記憶するための基本規則集合記憶部196とを含む。機械翻訳規則自動構築部198は第1の実施の形態で使用されている機械翻訳規則自動構築部32と全く同一の機能を持つ。
【0116】
翻訳規則抽出装置180はさらに、訓練コーパス140をN個に分割し、その一つからなる評価サブコーパス162と、他のN−1個からなる一つの訓練サブコーパス160とに分ける機能を持つ訓練コーパス分割部190と、訓練サブコーパス160から翻訳規則を自動構築するための機械翻訳規則自動構築部32と、機械翻訳規則自動構築部32の出力する翻訳規則集合を評価サブコーパス162を用いて第1の実施の形態と同様にしてフィードバッククリーニングするためのフィードバッククリーニング部34とを含む。フィードバッククリーニング部34及びその各部の機能は、第1の実施の形態におけるフィードバッククリーニング部34及びその各部の機能と同じである。従ってそれらの詳細な説明はここでは繰返さない。
【0117】
翻訳規則抽出装置180はさらに、機械翻訳規則自動構築部32による翻訳規則の自動構築及びフィードバッククリーニング部34による翻訳規則のフィードバッククリーニングをN回繰返して実行する様に、訓練コーパス分割部190、機械翻訳規則自動構築部32、及びフィードバッククリーニング部34を制御するための繰返制御部192を含む。繰返制御部192による繰返は、訓練コーパス分割部190により選択される評価サブコーパス162を一つずつ入替えながら行なわれる。
【0118】
翻訳規則抽出装置180はこれに加えて、フィードバッククリーニング部34の規則寄与度算出部46により算出された規則寄与度を規則ごと及び繰返しごとに記憶するための規則寄与度記憶部202と、機械翻訳規則自動構築部32及びフィードバッククリーニング部34により作成されたN個のフィードバッククリーニング済みの翻訳規則集合を集約し、最終的な一つの交差クリーニング後翻訳規則集合を基本規則集合記憶部196内に作成するための翻訳規則集約部194とを含む。翻訳規則集約部194は、規則寄与度記憶部202に記憶されている規則ごと及び繰返しごとの規則寄与度を用いて、基本規則集合記憶部196に記憶されている基本翻訳規則集合から不要な規則を削除する事により規則の集約を行なう。
【0119】
機械翻訳規則自動構築部32及びフィードバッククリーニング部34の機能はそれぞれ第1の実施の形態で説明したものと同じである。
【0120】
訓練コーパス分割部190は、訓練コーパス140を以下の様に繰返しごとに異なる形で分割する。まず、前述の様に訓練コーパス140はN個のサブコーパスにほぼ等分に分割される。それらをそれぞれ第1のサブコーパス、第2のサブコーパス、…第Nのサブコーパスと呼ぶ事にする。
【0121】
繰返しの第1回目では、訓練コーパス分割部190は第1のサブコーパスを評価サブコーパス162とし、第2のサブコーパスから第Nのサブコーパスまでをまとめて訓練サブコーパス160とする。繰返しの第2回目では訓練コーパス分割部190は、第2のサブコーパスを評価サブコーパス162とし、第1のサブコーパス、及び第3のサブコーパスから第Nのサブコーパスまでをまとめて訓練サブコーパス160とする。繰返しの第3回目では訓練コーパス分割部190は、第3のサブコーパスを評価サブコーパス162とし、第1のサブコーパス、第2のサブコーパス、及び第4のサブコーパスから第Nのサブコーパスまでをまとめて訓練サブコーパス160とする。以下同様にして、繰返しの第N回目では訓練コーパス分割部190は、第Nのサブコーパスを評価サブコーパス162とし、第1のサブコーパスから第N−1のサブコーパスまでをまとめて訓練サブコーパス160とする。
【0122】
以上が訓練コーパス分割部190の機能である。
【0123】
翻訳規則集約部194は、次の様にしてフィードバッククリーニング後の翻訳規則を集約する。機械翻訳規則自動構築部198により、訓練コーパス140の全体から基本翻訳規則集合が自動構築される。この基本翻訳規則集合は基本規則集合記憶部196に記憶される。
【0124】
次に、繰返制御部192によるN回のフィードバッククリーニングにより、訓練コーパス140のN個の訓練サブコーパス160よりN個の翻訳規則集合が得られる。これらを第1の翻訳規則集合、第2の翻訳規則集合、…第Nの翻訳規則集合と呼ぶ事とする。そして、これらの翻訳規則集合を作成する際に規則寄与度算出部46により計算された各規則の規則寄与度が規則寄与度記憶部202に繰返しごとに別々に記憶される。規則rについてのi回目の繰返しの際に計算された規則寄与度をcontrib[i][r]と表す(1≦i≦N、1≦r≦基本規則数)。
【0125】
翻訳規則集約部194は、全てのフィードバッククリーニングが終了すると、規則寄与度記憶部202を参照して、翻訳規則rごとに、規則寄与度記憶部202に記憶されている規則寄与度の総和contrib[r]=Σcontib[i][r]を計算する。そして、総和contrib[r]が負であればその規則rを基本規則集合記憶部196に記憶されている基本規則集合から削除する。この処理を全ての規則rに対して実行する事により、基本規則集合記憶部196に記憶されている基本規則集合に対するクリーニングが行なわれ、最終的な交差フィードバッククリーニング後の翻訳規則集合が得られる。
【0126】
‐動作‐
この第2の実施の形態に係る翻訳規則抽出装置180は以下の様に動作する。訓練コーパス140は最初に準備されているものとする。また訓練コーパス140をN個にほぼ等分する方法も予め決定されているものとする。まず機械翻訳規則自動構築部198が訓練コーパス140から翻訳規則を自動構築する。構築された翻訳規則集合(基本規則集合)は基本規則集合記憶部196に記憶される。
【0127】
以下の繰返し処理は、繰返制御部192による制御の下で実行される。まず訓練コーパス分割部190は、訓練コーパス140から第1のサブコーパスを選び、それを評価サブコーパス162とする。訓練コーパス分割部190はさらに、残りのN−1個のサブコーパスをまとめて訓練サブコーパス160とする。機械翻訳規則自動構築部32は、訓練サブコーパス160から翻訳規則を自動構築する。構築された翻訳規則集合は翻訳規則集合記憶部40に記憶される。
【0128】
機械翻訳エンジン42は、翻訳規則集合記憶部40に記憶されている翻訳規則を用いて、評価サブコーパス162中の原文集合に対する翻訳を行なう。訳質自動評価部44は、機械翻訳エンジン42による翻訳結果の訳質を自動評価し、スコアとして規則寄与度算出部46に与える。
【0129】
規則寄与度算出部46は、第1の実施の形態で説明した通り、翻訳規則集合記憶部40に記憶されている各規則について、規則寄与度を算出する。算出された規則寄与度は、規則寄与度記憶部202に規則ごと、繰返しごとにcontrib[i][r]として記憶される。
【0130】
上記した処理をN回繰返す事により、規則寄与度記憶部202には、規則寄与度contrib[i][r](1≦i≦N、1≦r≦基本翻訳規則数)が記憶される。
【0131】
翻訳規則集約部194は、基本規則集合記憶部196に記憶されている各規則について、前述した通り規則寄与度の総和contrib[r]=Σcontib[i][r]を計算する。contrib[r]が負の場合、その規則は基本規則集合記憶部196内の基本規則集合から削除される。
【0132】
翻訳規則集約部194が、基本規則集合記憶部196に記憶されている全ての翻訳規則に対して以上の処理を実行する事により、最終的に基本規則集合記憶部196には、交差クリーニング後の基本規則集合が得られる。
【0133】
‐第2の実施の形態の効果‐
この第2の実施の形態の翻訳規則抽出装置180によって交差クリーニングした後の翻訳規則集合を用いて機械翻訳を行なったところ、第1の実施の形態により得られたものよりもさらによい結果が得られた。また、第1の実施の形態の翻訳規則抽出装置20では、訓練コーパスとは別に評価コーパスを準備する必要があった。それに対してこの第2の実施の形態の翻訳規則抽出装置180では、訓練コーパス140のみを使用し、それと別に評価コーパスを用意する必要はない。従って、翻訳規則のクリーニングが、限られた対訳コーパスを用いて行なえ、その結果得られた翻訳規則集合を用いて、精度の高い機械翻訳を行なう事が可能になる。
【0134】
‐コンピュータによる実現‐
この第2の実施の形態に係る翻訳規則抽出装置180も、図3及び図4に示すコンピュータと、その上で実行されるプログラムとにより実現可能である。図8に、この第2の実施の形態に係る翻訳規則抽出装置180を実現するためのプログラムの制御構造をフローチャート形式で示す。
【0135】
図8を参照して、このプログラムは、訓練コーパス140から基本規則集合を自動構築するステップ210と、訓練コーパス140を均等にN個のサブコーパスに分類するステップ212とを含む。これらN個のサブコーパスをEC[i](1≦i≦N)とする。
【0136】
このプログラムはさらに、以下のステップ216からステップ220を、変数iを1からNまで1ずつ増加させながら繰返すステップを含む。まずステップ216では、訓練コーパス140からサブコーパスEC[i]を取除き、訓練サブコーパス160を作成する。この訓練サブコーパスをTC[i]とする。
【0137】
続いてステップ218で、訓練サブコーパスTC[i]から翻訳規則集合R[i]を自動構築する。さらにステップ220で、サブコーパスEC[i]を評価コーパスとみなして翻訳規則集合R[i]をフィードバッククリーニングする。このフィードバッククリーニング処理の内容は、図5に示した第1の実施の形態のものと同様である。ただしこの際、図5のステップ116で算出された規則寄与度contrib[r]をcontrib[i][r]として記憶しておく事に注意する必要がある。
【0138】
ステップ216からステップ220までの処理をN回繰返した後、今度は以下に説明するステップ226からステップ232の処理を、ステップ210で自動構築された基本規則集合内の全ての規則rについて繰返し行なう(1≦r≦基本規則集合内の規則数)。
【0139】
ステップ226では、翻訳規則集合R[i](1≦i≦N)から、規則rの規則寄与度contrib[i][r]を取得する。具体的には、前述した通り図5のステップ116で記憶されていた規則寄与度を記憶領域から取出す。ステップ228で、基本規則rの寄与度contrib[r]=Σcontib[i][r]を算出する。
【0140】
続くステップ230では、ステップ228で算出された寄与度contrib[r]が負か否かを判定する。負であればステップ232でこの規則rを基本規則集合から取除く。負でない場合には何もしない。
【0141】
以上のステップ226からステップ232までの処理を、基本規則集合内の全ての規則に対して行なう事により、最終的に交差フィードバッククリーニングが行なわれた翻訳規則が得られる事については前述した通りである。この交差クリーニングにより、第2の実施の形態の説明の冒頭で説明した様なクリーニング漏れを防止する事ができる。
【0142】
‐第2の実施の形態の変形例‐
上記した第2の実施の形態の装置では、機械翻訳規則自動構築部32とは別に機械翻訳規則自動構築部198を設けている。しかしこれらは必ずしも別個のものとする必要はない。同じ機械翻訳規則自動構築部を用いて、その入力及び出力の接続先を切替える様にしてもよい。
【0143】
また、上記した実施の形態の装置では訓練コーパス140をN個のサブコーパスにほぼ等分する事により、訓練サブコーパスと評価サブコーパスとを作成している。しかし本発明はその様な実施の形態に限定されるわけではない。例えば、訓練コーパス140を必ずしも等分する必要はない。実質的に大きさの異なったコーパスに分割し、後は上記した通りの処理を行なう様にしてもよい。ただしその場合には、翻訳規則集約部194で規則を集約する際の規則寄与度の総和計算において、コーパスの大きさに従った重みを各寄与度に乗じた後に加算する事が望ましい。
【0144】
‐共通の変形例‐
上記した二つの実施の形態では、機械翻訳エンジン42として参考文献1に記載されたものを使用している。しかし本発明はその様な実施の形態に限定されるわけではない。翻訳規則を用いた構文トランスファ方式の機械翻訳エンジンであればどの様なものを用いてもよい。
【0145】
さらに、上記した二つの実施の形態では、訳質自動評価部44による訳質の自動評価にBLEUを用いた。しかし訳質の自動評価にはBLEUのみが使用可能なわけではない。例えば、後掲の参考文献3又は参考文献4に記載のものを用いる事も可能である。
【0146】
自動評価値として、本実施の形態では評価コーパス内の訳文との類似度が高い場合に評価値が高くなるものを使用した。しかし自動評価値としてはその様なものには限定されず、類似度が高い場合に評価値が低くなる様なものでもよい。また、評価コーパス内の訳文との類似度が高くなるほど、特定の値に近くなる様な評価値を用いてもよい。
【0147】
なお、ソフトウェアの流通形態は上記した様に記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通する事もあり得る。また、ソフトウェアの一部が予めハードディスク54中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク54に取込んで実行時に統合する様な形の流通形態もあり得る。
【0148】
一般的に、現代のプログラムはコンピュータのオペレーティングシステム(OS)によって提供される汎用の機能を利用し、それらを所望の目的に従って組織化した形態で実行する事により前記した所望の目的を達成する。従って、以下に述べる本実施の形態の各機能のうち、OS又はサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれる事は明らかである。
【0149】
‐参考文献リスト‐
[参考文献1] 古瀬蔵、山本和英、及び山田節夫(1999).構成素境界解析を用いた多言語話し言葉翻訳.自然言語処理、6(5):63−91。
【0150】
[参考文献2] ペネニ、K.,ルーコス、S.,ウォード、T,及びツー、W.−J.(2002).Bleu:機械翻訳の自動評価方法.第40回計算言語学学会第40回年次大会予稿集、311頁から318頁(Paineni,K.,Roukos,S.,Ward、T.,and Zhu,W.−J.(2002).Bleu:a method for automatic evaluation of machine translation.In Proceedings of the 40th Annual Meeting of the Association for ComputationalLinguistics(ACL),pp.311−318)
【0151】
[参考文献3] ヤスダ、K.,スガヤ、F.,タケザワ、T.,ヤマモト、S.,及びヤナギダ、M.、(2001).パラレルコーパスから検索された翻訳解候補を用いた翻訳品質の自動評価法、機械翻訳サミット予稿集VIII,373頁から378頁(Yasuda,K.,Sugaya、F.,Takezawa,T.,Yamamoto,S.,and Yanagida,M.,(2001).An automatic evaluation method of translation quality using translation answer candidates queried from a parallel corpus.In Proceedings of Machine Translation Summit VIII,pp.373‐378)
【0152】
[参考文献4] アキバ、Y.,イマムラ、K.,及びスミタ、E.,(2001)(Akiba,Y.,Imamura,K.,and Sumita,E.,(2001).複数編集距離を用いた機械翻訳の自動評価.機械翻訳サミット予稿集VIII、15頁から20頁(Using multiple edit distances to automatically rank machine translation output.In Proceedings of Machine Translation Summit VIII,pp.15−20)
【0153】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る翻訳規則抽出装置20の機能的ブロック図である。
【図2】翻訳規則の例を示す図である。
【図3】翻訳規則抽出装置20を実現するコンピュータの外観図である。
【図4】図3に示すコンピュータの回路構成を概略的に示す図である。
【図5】第1の実施の形態に係る翻訳規則抽出装置20をコンピュータで実現するためのプログラムの制御構造を示すフローチャートである。
【図6】本発明の第2の実施の形態における交差クリーニング法の概略を説明するための図である。
【図7】第2の実施の形態の翻訳規則抽出装置180の機能的ブロック図である。
【図8】翻訳規則抽出装置180を実現するためのプログラムの制御構造を示すフローチャートである。
【符号の説明】
20,180 翻訳規則抽出装置、30,140 訓練コーパス、32,198 機械翻訳規則自動構築部、34 フィードバッククリーニング部、36 評価コーパス、40 翻訳規則集合記憶部、42 機械翻訳エンジン、43 翻訳結果記憶部、44 訳質自動評価部、46 規則寄与度算出部、48 翻訳規則削除部、160 訓練サブコーパス、162 評価サブコーパス、190 訓練コーパス分割部、192 繰返制御部、194 翻訳規則集約部、196 基本規則集合記憶部、202 規則寄与度記憶部

Claims (17)

  1. 機械翻訳のための翻訳知識を最適化するための翻訳知識最適化装置であって、
    翻訳知識の集合を記憶するための翻訳知識記憶手段と、
    原言語と目的言語との対訳文を複数個含む、機械読取可能な対訳コーパスを記憶するための手段と、
    前記翻訳知識記憶手段に記憶された前記翻訳知識の集合を利用して、前記対訳コーパス中の前記原言語の文を前記目的言語に機械翻訳するための機械翻訳手段と、
    前記機械翻訳手段による翻訳結果の品質を、前記対訳コーパスを参照して自動的に評価して評価値を出力するための訳質自動評価手段と、
    前記訳質自動評価手段の出力する評価値が極値をとる様に、前記翻訳知識の集合の最適化を行なうための最適化手段とを含む、翻訳知識最適化装置。
  2. 前記翻訳知識は、前記原言語の構文パターンから前記目的言語の構文パターンへの構文変換規則を含む、請求項1に記載の翻訳知識最適化装置。
  3. 前記最適化手段は、
    前記翻訳知識の集合に含まれる翻訳知識の各々について、その規則寄与度を算出するための手段と、
    前記規則寄与度が予め定める条件を満足する翻訳知識を、前記翻訳知識の集合から削除するための手段とを含む、請求項1に記載の翻訳知識最適化装置。
  4. 前記規則寄与度を算出するための手段は、
    前記翻訳知識の集合の全体を用いて、前記機械翻訳手段による翻訳、及び当該翻訳の結果の前記訳質自動評価手段による訳質評価を行ない、初期評価値を得るための手段と、
    前記翻訳知識の集合中の翻訳知識ごとに、前記翻訳知識の集合から当該翻訳知識を削除して得られる部分集合を用いて、前記機械翻訳による翻訳、及びその翻訳結果の前記訳質自動評価手段による訳質評価を行ない、削除後評価値を得るための手段と、
    前記削除後評価値と前記初期評価値との差分を、前記ある翻訳知識の前記規則寄与度として算出するための手段とを含む、請求項3に記載の翻訳知識最適化装置。
  5. 前記最適化手段は、
    前記翻訳知識の集合の全体を用いて、前記機械翻訳手段による翻訳、及び当該翻訳の結果の前記訳質自動評価手段による訳質評価を行ない、初期評価値を得るための手段と、
    予め定められた方法に従って、前記翻訳知識の集合から複数の部分集合を作成するための手段と、
    前記複数の部分集合の各々を用いて前記機械翻訳手段による翻訳、及びその翻訳結果の前記訳質自動評価手段による訳質評価を行ない、その評価値が前記初期評価値に対し所定の条件を満足するか否かを判定するための判定手段と、
    前記判定するための手段により前記評価値が前記所定の条件を満足すると判定された部分集合の各々について、その補集合に属する翻訳知識を前記翻訳知識の集合から削除するための手段とを含む、請求項1に記載の翻訳知識最適化装置。
  6. 前記部分集合を作成するための手段は、前記翻訳知識の集合から予め定められる数の翻訳知識を除いて得られる部分集合を複数個作成するための手段を含む、請求項5に記載の翻訳知識最適化装置。
  7. 前記部分集合を複数個作成するための手段は、前記翻訳知識の集合から一つの翻訳知識を除いて得られる部分集合を複数個作成するための手段を含む、請求項6に記載の翻訳知識最適化装置。
  8. 前記部分集合を作成するための手段は、前記翻訳知識の集合から予め定められる数の翻訳知識を除いて得る事が可能な全ての部分集合を作成するための手段を含む、請求項5に記載の翻訳知識最適化装置。
  9. 前記機械翻訳手段は、原言語の文を機械翻訳する際に、前記翻訳知識の集合内のどの翻訳知識を使用したかについての情報を出力する機能を持ち、
    前記翻訳知識最適化装置はさらに、前記初期評価値を得る際に翻訳された文ごとに、前記機械翻訳手段から出力される、翻訳の際に使用した翻訳規則を特定する情報を記憶するための手段を含み、
    前記判定手段は、
    前記記憶するための手段に記憶されている、前記翻訳規則を特定する情報を参照して、前記複数の部分集合の各々について、当該部分集合の補集合に含まれる翻訳規則を用いて翻訳された前記原言語の文の集合を特定するための手段と、
    前記部分集合の各々を用いて、当該部分集合の補集合に含まれる翻訳規則を用いて翻訳された前記原言語の文の集合を前記機械翻訳手段により再び機械翻訳するための手段と、
    前記部分集合の各々に対し、前記初期翻訳結果のうち、当該部分集合の補集合に含まれる翻訳規則を用いて翻訳された翻訳結果を、前記再び機械翻訳するための手段による翻訳結果で置換え、当該置換え後の初期翻訳結果に対して前記訳質自動評価手段による訳質評価を行なって、当該部分集合による翻訳結果の評価値を得るための手段と、
    前記部分集合の各々に対し、当該部分集合による翻訳結果の評価値が前記初期評価値に対し前記所定の条件を満足しているか否かを判定するための手段とを含む、請求項5に記載の翻訳知識最適化装置。
  10. 前記判定するための手段は、前記部分集合の各々に対し、当該部分集合による翻訳結果の評価値が、前記初期評価値を上回っているか否かを判定するための手段を含む、請求項9に記載の翻訳知識最適化装置。
  11. 予め準備された、前記原言語と前記目的言語との対訳文からなる訓練コーパスから、各々が訓練サブコーパス及び評価サブコーパスを含む複数個のサブコーパス対を作成するための手段と、
    予め定められる翻訳規則の構築方式に従って、与えられる対訳コーパスから翻訳規則を自動的に構築するための翻訳知識自動構築手段と、
    前記翻訳知識自動構築手段を用いて前記訓練コーパスから翻訳知識を自動構築し、基本翻訳知識として記憶するための基本翻訳知識記憶手段と、
    前記複数個のサブコーパス対の各々に対して、前記訓練サブコーパスから前記翻訳知識自動構築手段を用いて翻訳知識の集合を自動構築し、当該翻訳知識の集合に対し、前記評価サブコーパスを前記機械読取可能な対訳コーパスとして、前記翻訳知識記憶手段、前記機械読取可能な対訳コーパスを記憶するための手段、前記機械翻訳手段、前記訳質自動評価手段、及び前記最適化手段による最適化を行なうための手段と、
    前記最適化を行なうための手段によって最適化された、前記複数個のサブコーパス対の各々に対して得られる翻訳知識の集合を、一つの翻訳知識の集合に集約するための手段とをさらに含む、請求項1に記載の翻訳知識最適化装置。
  12. 前記集約するための手段は、
    前記基本翻訳知識記憶手段に記憶された前記基本翻訳知識に含まれる翻訳知識の各々について、前記最適化手段により算出された差分を、前記複数個のサブコーパス対の全てにわたって合計するための差分合計手段と、
    前記差分合計手段により合計された差分が所定の条件を満足する翻訳知識を削除する様に前記基本翻訳知識記憶手段に記憶されている前記基本翻訳知識を更新するための手段とを含む、請求項11に記載の翻訳知識最適化装置。
  13. 前記基本翻訳知識を更新するための手段は、前記差分合計手段により合計された差分が負となる翻訳知識を削除する様に前記基本翻訳知識記憶手段に記憶されている前記基本翻訳知識を更新するための手段を含む、請求項12に記載の翻訳知識最適化装置。
  14. 前記複数個のサブコーパス対を作成するための手段は、
    前記訓練コーパスを予め定める個数に実質的に等分して前記予め定める個数の評価サブコーパスを作成するための手段と、
    前記予め定める個数の評価サブコーパスの各々に対して、前記訓練コーパスから当該評価サブコーパスを除いたコーパスを作成し、当該評価サブコーパスと対となる訓練サブコーパスを作成するための手段とを含む、請求項11に記載の翻訳知識最適化装置。
  15. コンピュータにより実行されると、当該コンピュータを、請求項1から請求項14のいずれかに記載の翻訳知識最適化装置として動作させる、翻訳知識最適化のためのコンピュータプログラム。
  16. 請求項15に記載のコンピュータプログラムによりプログラムされたコンピュータ。
  17. 請求項15に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記憶媒体。
JP2003159662A 2003-06-04 2003-06-04 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体 Pending JP2004362249A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003159662A JP2004362249A (ja) 2003-06-04 2003-06-04 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体
US10/840,391 US20040255281A1 (en) 2003-06-04 2004-05-07 Method and apparatus for improving translation knowledge of machine translation
CNA2004100452541A CN1573739A (zh) 2003-06-04 2004-06-04 用于改良机器翻译之翻译知识的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003159662A JP2004362249A (ja) 2003-06-04 2003-06-04 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2004362249A true JP2004362249A (ja) 2004-12-24

Family

ID=33508529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003159662A Pending JP2004362249A (ja) 2003-06-04 2003-06-04 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体

Country Status (3)

Country Link
US (1) US20040255281A1 (ja)
JP (1) JP2004362249A (ja)
CN (1) CN1573739A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008146583A1 (ja) * 2007-05-23 2008-12-04 Nec Corporation 辞書登録システム、辞書登録方法および辞書登録プログラム
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
JP2013120407A (ja) * 2011-12-06 2013-06-17 Nec Corp 機械翻訳システム、機械翻訳方法および機械翻訳プログラム
WO2013118569A1 (ja) * 2012-02-08 2013-08-15 株式会社石田大成社 翻訳支援装置、翻訳支援方法、および記録媒体
JP2017142757A (ja) * 2016-02-12 2017-08-17 日本電信電話株式会社 情報処理方法、装置、及びプログラム

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7475051B1 (en) * 2004-09-22 2009-01-06 International Business Machines Corporation System and method for the cascading definition and enforcement of EDI rules
US8219907B2 (en) 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US7698126B2 (en) * 2005-03-08 2010-04-13 Microsoft Corporation Localization matching component
US7774195B2 (en) * 2005-03-08 2010-08-10 Microsoft Corporation Method and system for creating, storing, managing and consuming culture specific data
US7653528B2 (en) * 2005-03-08 2010-01-26 Microsoft Corporation Resource authoring incorporating ontology
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US20080306984A1 (en) * 2007-06-08 2008-12-11 Friedlander Robert R System and method for semantic normalization of source for metadata integration with etl processing layer of complex data across multiple data sources particularly for clinical research and applicable to other domains
US7788213B2 (en) * 2007-06-08 2010-08-31 International Business Machines Corporation System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record
US8185377B2 (en) * 2007-08-11 2012-05-22 Microsoft Corporation Diagnostic evaluation of machine translators
JP5572624B2 (ja) * 2008-07-03 2014-08-13 グーグル・インコーポレーテッド 機械翻訳に対するパラメータの最適化
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
KR101794274B1 (ko) * 2010-07-13 2017-11-06 에스케이플래닛 주식회사 계층적 구문 기반의 통계적 기계 번역에서의 번역규칙 필터링과 목적단어 생성을 위한 방법 및 장치
US8756050B1 (en) * 2010-09-14 2014-06-17 Amazon Technologies, Inc. Techniques for translating content
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
CN102184171B (zh) * 2011-04-20 2013-08-14 传神联合(北京)信息技术有限公司 机器翻译检查方法
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US20130103695A1 (en) * 2011-10-21 2013-04-25 Microsoft Corporation Machine translation detection in web-scraped parallel corpora
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9652453B2 (en) * 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
JP6259804B2 (ja) * 2014-11-26 2018-01-10 ネイバー コーポレーションNAVER Corporation コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法
JP6499555B2 (ja) * 2015-09-07 2019-04-10 日本電信電話株式会社 書き換え規則作成支援装置、方法、及びプログラム
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
JP6988872B2 (ja) * 2019-11-08 2022-01-05 トヨタ自動車株式会社 貢献度評価装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732563B2 (ja) * 1986-05-20 1998-03-30 株式会社東芝 機械翻訳方法及び装置
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5392419A (en) * 1992-01-24 1995-02-21 Hewlett-Packard Company Language identification system and method for a peripheral unit
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5848386A (en) * 1996-05-28 1998-12-08 Ricoh Company, Ltd. Method and system for translating documents using different translation resources for different portions of the documents
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6513027B1 (en) * 1999-03-16 2003-01-28 Oracle Corporation Automated category discovery for a terminological knowledge base
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008146583A1 (ja) * 2007-05-23 2008-12-04 Nec Corporation 辞書登録システム、辞書登録方法および辞書登録プログラム
JPWO2008146583A1 (ja) * 2007-05-23 2010-08-19 日本電気株式会社 辞書登録システム、辞書登録方法および辞書登録プログラム
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
JP2013120407A (ja) * 2011-12-06 2013-06-17 Nec Corp 機械翻訳システム、機械翻訳方法および機械翻訳プログラム
WO2013118569A1 (ja) * 2012-02-08 2013-08-15 株式会社石田大成社 翻訳支援装置、翻訳支援方法、および記録媒体
JP2013161403A (ja) * 2012-02-08 2013-08-19 Ishida Taiseisha Inc 翻訳支援装置、翻訳支援方法、およびプログラム
JP2017142757A (ja) * 2016-02-12 2017-08-17 日本電信電話株式会社 情報処理方法、装置、及びプログラム

Also Published As

Publication number Publication date
US20040255281A1 (en) 2004-12-16
CN1573739A (zh) 2005-02-02

Similar Documents

Publication Publication Date Title
JP2004362249A (ja) 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体
JP4410486B2 (ja) 機械翻訳装置及びプログラム
US7565281B2 (en) Machine translation
CN110874537A (zh) 多语言翻译模型的生成方法、翻译方法及设备
US20050137853A1 (en) Machine translation
US20040254781A1 (en) Machine translation
US20050171757A1 (en) Machine translation
US20080306728A1 (en) Apparatus, method, and computer program product for machine translation
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
KR20040044176A (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 및장치
RU2638634C2 (ru) Автоматическое обучение программы синтаксического и семантического анализа с использованием генетического алгоритма
JP4239505B2 (ja) 翻訳装置と翻訳方法ならびにプログラムと記録媒体
Harris et al. Glast: Learning formal grammars to translate natural language specifications into hardware assertions
JP5410334B2 (ja) 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
CA2561087A1 (en) Induction of grammar rules
Flickinger et al. ParDeepBank: Multiple parallel deep treebanking
Rikters Hybrid machine translation by combining output from multiple machine translation systems
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
KR20120060666A (ko) 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법
JP3759086B2 (ja) 対訳コーパスの前処理装置およびプログラム、ならびに機械翻訳システムおよびプログラム
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070313