JP6678087B2

JP6678087B2 - 対訳文抽出装置、対訳文抽出方法およびプログラム

Info

Publication number: JP6678087B2
Application number: JP2016165873A
Authority: JP
Inventors: 松永　務; 務松永; 佐藤　大輔; 大輔佐藤
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2020-04-08
Anticipated expiration: 2036-08-26
Also published as: JP2018032324A

Description

本発明は、対訳コーパスを作成する技術に関する。

近年、統計的機械翻訳やテキストマイニングに利用するため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。対訳コーパスを作成する方法としては、例えば、対訳文書を構成する一方の言語の文書を他方の言語に翻訳し、作成した翻訳文と他方の言語の文の間で単語の一致数を計ることで、文の対応付けを行う方法が知られている（非特許文献１参照）。

石坂達也、内山将夫、隅田英一郎、山本和英、「大規模オープンソース日英対訳コーパスの構築」、情報処理学会研究報告、2009-NL-191、p.1-6、2009年5月

しかし、従来のコーパス作成方法では、単語の一致数のみに着目して文同士を対応付ける結果、文全体として見たときに対訳となっていない文同士を対応付けてしまう場合があった。

本発明は、このような事情に鑑みてなされたものであり、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することを目的とする。

上記の課題を解決するため、本発明は、第１言語と第２言語の対訳文書を取得する対訳文書取得部と、前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の１以上の対訳文を取得する対訳文取得部と、前記取得された１以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、前記取得された１以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第１言語の文を前記第２言語に翻訳する翻訳部と、前記取得された１以上の対訳文の各々について、前記第２言語に翻訳された前記第１言語の文と、当該文に対応する前記第２言語の文との間の編集距離を算出する編集距離算出部と、前記取得された１以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部とを備える対訳文抽出装置を提供する。

また、本発明は、１以上のコンピュータにより実行される対訳文抽出方法であって、第１言語と第２言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の１以上の対訳文を取得するステップと、前記取得された１以上の対訳文に基づいて翻訳モデルを生成するステップと、前記取得された１以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第１言語の文を前記第２言語に翻訳するステップと、前記取得された１以上の対訳文の各々について、前記第２言語に翻訳された前記第１言語の文と、当該文に対応する前記第２言語の文との間の編集距離を算出するステップと、前記取得された１以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップとを備える対訳文抽出方法を提供する。

また、本発明は、コンピュータに、第１言語と第２言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の１以上の対訳文を取得するステップと、前記取得された１以上の対訳文に基づいて翻訳モデルを生成するステップと、前記取得された１以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第１言語の文を前記第２言語に翻訳するステップと、前記取得された１以上の対訳文の各々について、前記第２言語に翻訳された前記第１言語の文と、当該文に対応する前記第２言語の文との間の編集距離を算出するステップと、前記取得された１以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップとを実行させるためのプログラムを提供する。

本発明によれば、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することができる。

対訳文抽出装置１の構成の一例を示すブロック図である。対訳文抽出処理の一例を示すフロー図である。対訳文書の一例を示す図である。対訳文記憶部１０６のデータの一例を示す図である。対訳文記憶部１０６のデータの一例を示す図である。対訳文記憶部１０６のデータの一例を示す図である。

１．実施形態
１−１．構成
図１は、本実施形態に係る対訳文抽出装置１の構成の一例を示すブロック図である。対訳文抽出装置１は、ＣＰＵ等の演算処理装置と、ＨＤＤ等の記憶装置を備えるコンピュータである。この対訳文抽出装置１は、対訳文書記憶部１０１と、対訳文書取得部１０２と、単語分割部１０３と、対訳辞書記憶部１０４と、対訳文取得部１０５と、対訳文記憶部１０６と、翻訳モデル生成部１０７と、翻訳部１０８と、編集距離算出部１０９と、対訳文選別部１１０と、対訳文編集部１１１という機能を備える。これらの機能のうち、対訳文書記憶部１０１、対訳辞書記憶部１０４および対訳文記憶部１０６の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。

対訳文書記憶部１０１は、第１言語と第２言語の対訳文書を記憶する。ここで、第１言語は日本語であり、第２言語は英語である。対訳文書とは、日本語の文書と、当該文書を英語に翻訳して作成した英語の文書の対である。対訳文書は、例えば、同じ特許ファミリに属する日本特許出願の特許公報と米国特許出願の特許公報の対である。または、日本語の新聞記事と、当該新聞記事の英語版の対である。または、オープンソースソフトウェアの英語版のマニュアルと、当該マニュアルの日本語訳の対である。

対訳文書取得部１０２は、対訳文書記憶部１０１から対訳文書を取得する。

単語分割部１０３は、対訳文書取得部１０２により取得された対訳文書を文に分割し、かつ、各文を単語に分割する。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。その際、語尾の解析を行って活用語を基本形に変換してもよい。また、大文字を小文字に変換し、かつ、複数形を単数形に変換してもよい。

対訳辞書記憶部１０４は、対訳辞書を記憶する。ここで、対訳辞書とは、日本語の単語と、当該単語と同じ意味を持つ英語の単語の対の集合である。

対訳文取得部１０５は、単語分割部１０３により切り出された日本語の文と英語の文を、対訳辞書記憶部１０４に記憶される対訳辞書を用いてマッチングして、日本語と英語の１以上の対訳文を取得する。具体的には、対訳文取得部１０５は、単語分割部１０３により切り出された日本語の文を英語に翻訳し、作成した翻訳文と英語の各文との類似度を算出し、算出した類似度が最大となる英語の文と上記日本語の文の対を対訳文として取得する。ここで、類似度とは、作成した翻訳文と英語の文の間で一致する単語の数に基づいて算出される値である。より具体的には、翻訳文と英語の文に含まれるすべての自立語の数に対する、両者の間で一致する自立語の数の割合により表現される値である。例えば、対訳文取得部１０５は、上記の非特許文献に記載の対訳コーパス作成方法のように、ＤＰ（Dynamic Programming）マッチングを用いて対訳文を取得する。別の例として、対訳文取得部１０５は、Takehito Utsuro, et al. "Bilingual Text Matching using Bilingual Dictionary and Statistics," COLING, p.1076-1082, 1994に記載のようにＤＰマッチングを用いて対訳文を取得してもよい。なおここで、対訳文とは、日本語の文と、当該文を英語に翻訳して作成した英語の文の対である。言い換えると、日本語の文と、当該文と同じ意味を持つ英語の文の対である。

対訳文記憶部１０６は、対訳文取得部１０５により取得された１以上の対訳文（言い換えると、対訳コーパス）を記憶する。その際、対訳文記憶部１０６は、各対訳文を、当該対訳文を識別する対訳文ＩＤと対応付けて記憶する。

翻訳モデル生成部１０７は、対訳文記憶部１０６に記憶された１以上の対訳文に基づいて翻訳モデルを生成する。その際、翻訳モデル生成部１０７は、例えばMosesデコーダ（http://www.statmt.org/moses/）を用いて翻訳モデルを生成する。Mosesデコーダについては、例えば、Philipp Koehn, et al. "Moses: Open Source Toolkit for Statistical Machine Translation," Annual Meeting of the Association for Computational Linguistics, demonstration session, Prague, Czech Republic, June 2007を参照のこと。

翻訳部１０８は、対訳文記憶部１０６に記憶された１以上の対訳文の各々について、翻訳モデル生成部１０７により生成された翻訳モデルを用いて、当該対訳文を構成する日本語の文を英語に翻訳する。翻訳部１０８は、作成した翻訳文を、原文である日本語の文と対応付けて対訳文記憶部１０６に記憶する。

編集距離算出部１０９は、対訳文記憶部１０６に記憶された１以上の対訳文の各々について、翻訳部１０８により英語に翻訳された日本語の文と、当該文に対応する英語の文との間の編集距離を算出する。ここで編集距離とは、英語に翻訳された日本語の文を、当該文に対応する英語の文に変更するために必要とされる編集操作の回数に基づいて算出される値である。具体的には、編集距離算出部１０９は、編集距離としてＴＥＲ（Translation Error Rate）を算出する。ここで、編集操作とは、具体的には、挿入、削除、置換および並び替えの４つの操作である。ＴＥＲについては、例えば、Matthew Snover, et al. "A study of translation edit rate with targeted human annotation," Proceedings of Association for Machine Translation in the Americas, p.223-231, 2006を参照のこと。編集距離算出部１０９は、ＴＥＲを算出すると、算出したＴＥＲを、対応する対訳文と対応付けて対訳文記憶部１０６に記憶する。

対訳文選別部１１０は、対訳文記憶部１０６に記憶された１以上の対訳文のうち、編集距離算出部１０９により算出されたＴＥＲが閾値よりも大きい対訳文を選別する。ここで閾値は、例えば、対訳文記憶部１０６に記憶された１以上の対訳文のうち所定の割合の対訳文が選別されるように設定される。対訳文を選別すると、編集距離算出部１０９は、当該対訳文の対訳文ＩＤを、削除対象として対訳文編集部１１１に通知する。

対訳文編集部１１１は、対訳文選別部１１０から通知された対訳文ＩＤにより識別される対訳文を対訳文記憶部１０６から削除する。

１−２．動作
対訳文抽出装置１の動作について説明する。図２は、対訳文抽出装置１により実行される対訳文抽出処理の一例を示すフロー図である。

この対訳文抽出処理のステップＳ１において、対訳文抽出装置１の対訳文書取得部１０２は、対訳文書記憶部１０１から対訳文書を取得する。図３は、対訳文書の一例を示す図である。

対訳文書取得部１０２により対訳文書が取得されると、単語分割部１０３は、取得された対訳文書を文に分割し、かつ、各文を単語に分割する（ステップＳ２）。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。

単語分割部１０３により対訳文書が文に分割され、かつ、各文が単語に分割されると、対訳文取得部１０５は、単語分割部１０３により切り出された日本語の文と英語の文を、対訳辞書記憶部１０４に記憶される対訳辞書を用いてマッチングして、日本語と英語の１以上の対訳文を取得する（ステップＳ３）。１以上の対訳文を取得すると、対訳文取得部１０５は、各対訳文を対訳文ＩＤと対応付けて対訳文記憶部１０６に記憶する（ステップＳ４）。図４は、対訳文取得部１０５により対訳文が記憶された対訳文記憶部１０６のデータの一例を示す図である。

対訳文取得部１０５により１以上の対訳文が対訳文記憶部１０６に記憶されると、翻訳モデル生成部１０７は、記憶された１以上の対訳文に基づいて翻訳モデルを生成する（ステップＳ５）。

翻訳モデル生成部１０７により翻訳モデルが生成されると、翻訳部１０８は、対訳文記憶部１０６に記憶された１以上の対訳文の各々について、生成された翻訳モデルを用いて、当該対訳文を構成する日本語の文を英語に翻訳する（ステップＳ６）。翻訳部１０８は、作成した翻訳文を、原文である日本語の文と対応付けて対訳文記憶部１０６に記憶する。図５は、翻訳部１０８により翻訳文が記憶された対訳文記憶部１０６のデータの一例を示す図である。

翻訳部１０８により対訳文を構成する日本語の文が英語に翻訳されると、編集距離算出部１０９は、対訳文記憶部１０６に記憶された１以上の対訳文の各々について、英語に翻訳された日本語の文と、当該文に対応する英語の文との間のＴＥＲを算出する（ステップＳ７）。編集距離算出部１０９は、ＴＥＲを算出すると、算出したＴＥＲを、対応する対訳文と対応付けて対訳文記憶部１０６に記憶する。図６は、編集距離算出部１０９によりＴＥＲが記憶された対訳文記憶部１０６のデータの一例を示す図である。同図に示すＴＥＲの「総合」とは、挿入、削除、置換および並び替えの各操作の回数を合計した値である。

編集距離算出部１０９によりＴＥＲが算出されると、対訳文選別部１１０は、対訳文記憶部１０６に記憶された１以上の対訳文のうち、ＴＥＲが閾値よりも大きい対訳文を選別する（ステップＳ８）。対訳文を選別すると、編集距離算出部１０９は、当該対訳文の対訳文ＩＤを、削除対象として対訳文編集部１１１に通知する。例えば、閾値が「５」に設定されていたとすると、対訳文選別部１１０は、図６に示す対訳文のうち、対訳文ＩＤ「０３２」を削除対象として対訳文編集部１１１に通知する。

対訳文編集部１１１は、対訳文選別部１１０から対訳文ＩＤが通知されると、当該対訳文ＩＤにより識別される対訳文を対訳文記憶部１０６から削除する（ステップＳ９）。
以上が、対訳文抽出処理についての説明である。

以上説明した対訳文抽出装置１によれば、対訳文取得部１０５によりＤＰマッチングを用いて対訳文書から対訳文が取得された後に、その取得された対訳文の中から、対訳文選別部１１０により、ＴＥＲに基づいて選別が行われる。そのため、この対訳文書記憶部１０１によれば、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することができる。

２．変形例
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する１以上の変形例は、互いに組み合わせてもよい。

２−１．変形例１
上記の実施形態に係る対訳文抽出装置１は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置１が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置１と接続されてもよい。

２−２．変形例２
上記の実施形態において、第１言語を英語とし、第２言語を日本語としてもよい。また、第１言語と第２言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。

２−３．変形例３
翻訳モデル生成部１０７は、Mosesデコーダ以外の他のデコーダを用いて翻訳モデルを生成してもよい。例えば、Pharaohデコーダを用いて翻訳モデルを生成してもよい。Pharaohデコーダについては、例えば、Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p.115-124, 2004を参照のこと。

２−４．変形例４
上記の実施形態において、翻訳モデル生成部１０７を省略し、翻訳部１０８は、予め定められた翻訳モデルを用いて、対訳文記憶部１０６に記憶された１以上の対訳文の各々について、当該対訳文を構成する日本語の文を英語に翻訳してもよい。

２−５．変形例５
上記の実施形態に係る編集距離算出部１０９は、編集距離として、ＴＥＲ以外の値を算出してもよい。例えば、Levenshtein距離や、Damerau-Levenshtein距離や、Jaro-Winkler距離を算出してもよい。

別の例として、編集距離算出部１０９は、対訳文記憶部１０６に記憶された１以上の対訳文の各々について、翻訳部１０８により英語に翻訳された日本語の文と、当該文に対応する英語の文との間のBLUEまたはRIBESを算出してもよい。BLUEについては、例えば、
Kishore Papineni, et al. "BLUE: a method for automatic evaluation of machine translation," Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002を参照のこと。RIBESについては、例えば、平尾努，他「RIBES: 順位相関に基づく翻訳の自動評価法」、言語処理学会第17回年次大会発表論文集、p.1115-1118、2011年3月を参照のこと。

２−６．変形例６
上記の実施形態に係る対訳文選別部１１０は、ＴＥＲが閾値よりも大きい対訳文を選別した後、選別した対訳文以外の対訳文であって対訳文記憶部１０６に記憶されている対訳文の対訳文ＩＤを、削除せずに残す対訳文として対訳文編集部１１１に通知してもよい。この場合、対訳文編集部１１１は、対訳文選別部１１０から通知された対訳文ＩＤにより識別される対訳文以外の対訳文を対訳文記憶部１０６から削除する。

２−７．変形例７
対訳文抽出装置１の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。

１…対訳文抽出装置、１０１…対訳文書記憶部、１０２…対訳文書取得部、１０３…単語分割部、１０４…対訳辞書記憶部、１０５…対訳文取得部、１０６…対訳文記憶部、１０７…翻訳モデル生成部、１０８…翻訳部、１０９…編集距離算出部、１１０…対訳文選別部、１１１…対訳文編集部

Claims

第１言語と第２言語の対訳文書を取得する対訳文書取得部と、
前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の１以上の対訳文を取得する対訳文取得部と、
前記取得された１以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、
前記取得された１以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第１言語の文を前記第２言語に翻訳する翻訳部と、
前記取得された１以上の対訳文の各々について、前記第２言語に翻訳された前記第１言語の文と、当該文に対応する前記第２言語の文との間の編集距離を算出する編集距離算出部と、
前記取得された１以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部と
を備える対訳文抽出装置。
１以上のコンピュータにより実行される対訳文抽出方法であって、
第１言語と第２言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の１以上の対訳文を取得するステップと、
前記取得された１以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された１以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第１言語の文を前記第２言語に翻訳するステップと、
前記取得された１以上の対訳文の各々について、前記第２言語に翻訳された前記第１言語の文と、当該文に対応する前記第２言語の文との間の編集距離を算出するステップと、
前記取得された１以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を備える対訳文抽出方法。
コンピュータに、
第１言語と第２言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の１以上の対訳文を取得するステップと、
前記取得された１以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された１以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第１言語の文を前記第２言語に翻訳するステップと、
前記取得された１以上の対訳文の各々について、前記第２言語に翻訳された前記第１言語の文と、当該文に対応する前記第２言語の文との間の編集距離を算出するステップと、
前記取得された１以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を実行させるためのプログラム。