JP2006268375A

JP2006268375A - 翻訳メモリシステム

Info

Publication number: JP2006268375A
Application number: JP2005084903A
Authority: JP
Inventors: Hiroshi Masuichi; 博増市; Michihiro Tamune; 道弘田宗; Masatoshi Tagawa; 昌俊田川; Kiyoshi Tashiro; 潔田代; Atsushi Ito; 篤伊藤; Kyosuke Ishikawa; 恭輔石川; Naoko Sato; 直子佐藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2006-10-05
Also published as: US20060217963A1

Abstract

【課題】翻訳メモリシステムに処理対象として新たな翻訳元言語が追加された場合であっても、それぞれの異種言語間の対訳ペアを作成するのに要する手間や時間を軽減する。
【解決手段】ペア格納部１１は、翻訳先言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納している。構文意味解析部１２は、翻訳元言語（言語ａ）で表現された自然言語文が入力されると、その自然言語文に対して構文意味解析を施すことによって、その自然言語文を中間言語表現に変換する。検索部１３は、ペア格納部１１に格納されている内容を検索し、構文意味解析部１２によって得られる中間言語表現と一致する中間言語表現を特定する。さらに、検索部１３は、特定した中間言語表現とペアをなす翻訳先言語（言語ｂ）で表現された自然言語文をペア格納部１１から抽出する。出力部１４は、抽出された自然言語文を翻訳結果として出力する。
【選択図】図３

Description

本発明は、異種言語間で翻訳を行うための翻訳メモリシステムに関する。

日本語や英語などのように、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。自然言語は自然発生的な起源を持ち、人類の歴史とともに進化して、現在では多種多様な自然言語が存在している。自然言語は、本来は抽象的で曖昧な性質を持っているが、この自然言語からなる文章（自然言語文）を数学的に取り扱うことにより、各種のコンピュータ処理を施すことが可能である。このようなコンピュータ処理によって、機械翻訳や対話システム或いは検索システムなど、自然言語に関する様々なアプリケーションやサービスが実現されている。これらのうち「機械翻訳」は、言語の異なる者どうしが行なうコミュニケーションをコンピュータ処理を活用して支援するアプリケーション乃至サービスである。

現在実用化されている機械翻訳システムには、「ダイレクト方式」と呼ばれる方式や、「トランスファ方式」と呼ばれる方式がある。ダイレクト方式は、予め用意された単語辞書に基づいて、翻訳元言語の単語を翻訳先言語の単語へと単純に置き換えていくものである。これは、日本語と韓国語との間の翻訳のように、翻訳元言語と翻訳先言語の文法がおおよそ似通っている場合にのみ有効な方式である。これに対し、トランスファ方式は、単語の置き換えとともに、構文構造を置き換える処理も含んでいる。よって、このトランスファ方式によれば、文法が異なる異種言語の翻訳にも対処することができる。

上記の機械翻訳システムとは別の原理で翻訳を行うものとして、「翻訳メモリシステム」或いは「対訳データベースシステム」と呼ばれる仕組みがある（例えば特許文献１参照）。この翻訳メモリシステムでは、翻訳元言語で書かれた自然言語文（以下、翻訳元言語文という）と、それと同じ意味になるように翻訳先言語で書かれた自然言語文（以下、翻訳先言語文という）とのペアを、できるだけ多く記憶装置に格納しておく。そして、翻訳対象の自然言語文が入力されると、記憶装置内をサーチして、その入力文と完全一致或いは類似する翻訳元言語文を特定し、その翻訳元言語文とペアをなす翻訳先言語文を出力する。記憶装置に格納された翻訳先言語文は、その翻訳先言語を母国語として利用している者（ネイティブスピーカ）によって表現された正しい文であるから、翻訳者は、この翻訳メモリシステムによって出力された翻訳先言語文をほとんど修正することなく、十分に正確な翻訳結果を得ることが可能となる。

これまでに数多くの翻訳メモリシステムが商品化され、実際の翻訳作業現場で使用されている。先に述べた機械翻訳システムが実用的に利用されているとは言い難い状況であるのに対し、翻訳メモリシステムが広く実用に供されている事実は、その高い信頼性に拠るものが大きいと解される。なぜなら、翻訳メモリシステムによって提示される翻訳先言語文は、その翻訳先言語のネイティブスピーカによって正しいと認められた文であるからである。また、翻訳結果を多少修正する必要があったとしても、修正によって得られる翻訳先言語文も、ネイティブスピーカが正しいと感じる文である可能性は極めて高い。これに対し、機械翻訳システムによって提示される翻訳先言語文は、実際にはコンピュータが機械的に作り出した文であるため、ネイティブスピーカから見ると不自然な文章に感じることが少なくない。この結果、翻訳精度が低くなり、翻訳者による修正箇所も多くなってしまう。場合によっては翻訳者が最初から翻訳した方が効率がよかった、ということにもなりかねない。
特開２００３−０９９４２８号公報

ところで、翻訳メモリシステムの問題点は、対訳ペアの集合を作成するのに要する手間や時間が膨大になってしまうところである。この結果、例えば英語と日本語を処理対象とした翻訳メモリシステムに対して新たにフランス語を追加するといったように、新しい翻訳元言語あるいは新しい翻訳先言語を追加する場合には、多大な人的コストを投入しなければならない。このように翻訳対象となる言語を追加するケースは頻繁に発生する。例えば携帯電話機やコピー機等の電気製品のマニュアルは、ある一つの翻訳元言語で書かれたものを、その製品の出荷先の国に応じて多数の翻訳先言語に翻訳する必要がある。製品の販売状況に応じて出荷先の国が増えれば、翻訳先言語も増加していくことになる。また、出荷先の国が仮に同じであっても、オリジナルのマニュアルが別の言語で書かれていれば、新たな対訳ペアの集合を作成するための膨大な人的コストが必要になってしまう。よって、すべての異種言語間の組み合わせに対応することが可能な翻訳メモリシステムを構築することは大変な作業であると言える。

本発明はこのような問題点に鑑みてなされたものであり、その目的は、翻訳メモリシステムに処理対象として新たな翻訳元言語が追加された場合に、それぞれの異種言語間の対訳ペアを作成するのに要する手間や時間を軽減することである。

上述した課題を解決するため、本発明は、第１の言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納したペア格納手段と、第２の言語で表現された自然言語文に対して構文意味解析を行い、該自然言語文を中間言語表現に変換する構文意味解析手段と、前記ペア格納手段に格納されている内容を検索し、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定し、この中間言語表現とペアをなす前記第１の言語で表現された自然言語文を抽出する検索手段と、前記検索手段によって抽出された自然言語文を翻訳結果として出力する出力手段とを備えることを特徴とする翻訳メモリシステムを提供する。

この翻訳メモリシステムによれば、仮に処理対象として新たな翻訳元言語が追加された場合であっても、構文意味解析手段が、その新たな言語で表現された自然言語文に対して構文意味解析を行って中間言語表現に変換し、検索手段が、その中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定し、この中間言語表現とペアをなす前記第１の言語で表現された自然言語文を抽出すると、出力手段がこれを翻訳結果として出力する。よって、従来のように新たな対訳ペアの集合を作成することなく、ペア格納手段に蓄積された中間言語表現及び自然言語文のペアの集合を活用して翻訳を行うことが可能となる。

前記ペア格納手段は、中間言語表現として格構造表現を格納しており、前記構文意味解析手段は、構文意味解析によって得られた結果を格構造表現に変換するようにしてもよい。また、前記ペア格納手段は、木構造をなす中間言語表現を格納しており、前記構文意味解析手段は、Lexical Functional Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換するようにしてもよい。また、前記ペア格納手段は、木構造をなす中間言語表現を格納しており、前記構文意味解析手段は、Head-driven Phrase Structure Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換するようにしてもよい。

本発明の好ましい態様においては、前記ペア格納手段は、複数種類の言語について、各々の言語の種類ごとに自然言語文とその中間言語表現とをペアとして格納している。これにより、複数種類の言語を翻訳対象とすることができる。

本発明の好ましい態様においては、前記構文意味解析手段によって得られた解析結果として複数の中間言語表現の候補が存在する場合には、前記検索手段は、これら複数の中間言語表現の候補の中から、前記ペア格納手段によって格納されている中間言語表現と類似する候補を特定し、特定された候補の中間言語表現とペアをなす前記第１の言語で表現された自然言語文を抽出する。このようにすれば、文の係り受けに曖昧性が含まれているが故に、複数の中間言語表現の候補が存在する場合であっても、正しい係り受けを反映した自然言語文を得ることができる。

本発明の好ましい態様においては、前記ペア格納手段に格納される中間言語表現に含まれている単語情報部分に対して、複数種類の言語の単語が併記されている。このように中間言語表現の単語情報部分に単語を併記するので、ある単語の意味について複数通りに捉えられる場合であっても、併記されている単語の中から選択するだけで、単語の意味を正確に判断することができる。

本発明の好ましい態様においては、２種類の異種言語で表現された自然言語文の対訳ペアに対してそれぞれ構文意味解析処理を施し、その結果得られる中間言語表現の候補を相互に比較して、類似する候補と自然言語文とのペアを作成するペア生成手段を有し、前記ペア格納手段は、前記ペア生成手段によって作成されたペアを格納する。このようにすれば、自然言語文の対訳ペアに基づいて精度よく中間言語表現を生成することができる。

本発明の好ましい態様においては、前記検索手段は、前記中間言語表現の部分構造を対象にして、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定する。このようにすれば、翻訳元言語文の文全体と類似する文に対応する中間言語表現が予め記憶されていなくても、中間言語表現の部分構造（翻訳元言語文の一部）に対して翻訳を行うことができる。よって、翻訳者の翻訳作業を支援することが可能となる

本発明の好ましい態様においては、前記ペア格納手段によって格納されている中間言語表現に基づいて、第３の言語で表現された自然言語文を生成する機械翻訳手段と、第３の言語と、中間言語表現において単語情報部分に併記されている単語に対応する各言語との間の対訳を格納する辞書格納手段とを有し、前記機械翻訳手段は、自然言語文を生成する際に単語を選択する場合には、中間言語表現における単語情報部分に併記された各言語の単語を、前記辞書格納手段に格納された対訳を参照してそれぞれ第３の言語の単語に翻訳し、得られた翻訳単語に共通して存在する単語を選択する。このように、中間言語表現と自然言語文とでペアをなし、かつ、中間言語表現の単語情報部分に各言語の単語を併記することで、その併記された単語の中から選択して機械翻訳を行うことができる。よって、今までは翻訳対象としていなかった言語を翻訳先言語とする場合にも、適切な単語選択を行なうことが可能となる。

次に、発明を実施するための最良の形態について説明する。
（１）第１実施形態
本発明の第１実施形態では、従来のように自然言語文どうしの対訳ペアを翻訳メモリシステムに格納しておくのではなく、特定の言語に依存しない中間言語によって表現された中間言語表現と自然言語文とのペアを翻訳メモリシステムに格納しておき、これを用いて翻訳を行う。ここでいう「中間言語」とは、複数の自然言語に対して共通のメタ言語（説明的言語）として機能するものであり、コンピュータが理解可能なように設計されている。現在までに幾つかの方式の中間言語が提案されており、その１つに、文献「Miriam Butt, et. al., “A Grammar Writer’s Cookbook”, CSLI Publication (1999)」に解説されているLFG(Lexical Functional Grammar)と呼ばれる言語解析理論に基づく解析によって得られるf-structureがある。このf-structureは、文の構文的及び意味的情報が属性と属性値とのペアの入れ子構造によって表現されているところが特徴である。そして、文を構成するそれぞれの単語情報は、PRED(predicate: 述語)と呼ばれる属性に対応する属性値としてf-structureに記述されることになる。このf-structureにおいて個別の言語に依存して変化する部分は、上記のPREDに対応する属性値(単語)のみであり、その他の属性及び属性値は、全言語を通して共通化(標準化)されている。すなわち、言語が異なっても同じ意味内容を表す文であれば、単語情報を除いて、まったく同じ構造のf-structureとなるというわけである。よって、翻訳元言語文をいったん中間言語表現に変換し、その中間言語表現の意味内容に合致する翻訳先言語文を特定できれば、正しい翻訳結果（翻訳先言語文）を得ることが可能である。

図１は、例えば「太郎が花子にプレゼントを渡した。」という日本語文に対し、LFG解析を施して得られるf-structureの例を示した図である。図１において、属性と、それに対応する属性値との対応関係は、互いに水平な位置に配置することで表現している。例えば、属性「PRED」と属性値「渡す」とが対応関係にある。また、図中で下線を引いて示した部分は、単語情報(PRED属性に対応する属性値)であり、その他の部分は全て全言語に共通の概念である。ただし、全言語に共通の部分は、表記上は英語で表現している。なお、図において、「PRED」は述語、「SUBJ」は主格、「OBJ」は目的格、「GOAL」は終点格、「TENSE」は時制、そして、「PAST」は過去という意味を表している。

また、中間言語には、上記のようなf-structure以外にも、文献「アイバン・A・サグ, トマス・ワッソー著, 郡司隆男, 原田康也訳, 統語論入門(上)・(下), 株式会社岩波書店 (2001)」に解説されているHPSG(Head-driven Phrase Structure Grammar)と呼ばれる言語解析理論に基づく言語解析から得られるMRS（Minimal Recursion Semantics）構造がある。さらに、一般的な構文意味解析によって得られる格構造表現(文献「長尾真編, 自然言語処理, 岩波書店 (1996)」参照)を中間言語として用いることも可能である。例えば図２は、図１で例示した日本語文「太郎が花子にプレゼントを渡した。」に対応する格構造表現を示したものである。このように格構造表現は、文を構成する複数の単語情報（ノード）が階層的に連結されてなる木構造によって表現されている。

上記で述べたいずれの構造も、要するに、文を単語に分割したうえで、さらに「単語の係り受け関係」と「(主語であるか目的語であるか等の)係り受けの種類」とを表現したものと言える。よって、上記の構造どうしを相互に変換することも可能である。例えば文献「Hiroshi Masuichi, Tomoko Ohkuma, Hiroki Yoshimura, and Yasunari Harada, "Japanese parser on the basis of the Lexical-Functional Grammar Formalism and its Evaluation", In Proceedings of The 17th Pacific Asia Conference on Language, Information and Computation (PACLIC17), pp. 298-309 (2003)」には、f-structureを格構造表現に変換する(ダウングレードする)方法が解説されている。即ち、f-structureは格構造表現を包含する構造なのである。

以下、第１実施形態にかかる翻訳メモリシステムにおいて、上記の「格構造表現」を中間言語表現として用いた場合について説明する。
図３は、第１実施形態に係る翻訳メモリシステム１００の構成を示すブロック図である。この翻訳メモリシステム１００はコンピュータによって構成されており、コンピュータがプログラムを実行することにより、図３に示すペア格納部１１と、構文意味解析部１２と、検索部１３と、出力部１４と、単語辞書１５が実現される。ペア格納部１１は、ハードディスク等の大容量の記憶装置によって実現されており、翻訳先言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納している。図３では、翻訳先言語（言語ｂ）で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアが複数格納されている例を示している。

構文意味解析部１２は、翻訳元言語（例えば言語ａ）で表現された自然言語文が入力されると、その自然言語文に対して構文意味解析を施すことによって、その自然言語文を中間言語表現に変換する。検索部１３は、ペア格納部１１に格納されている内容を検索し、構文意味解析部１２によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定する。さらに、検索部１３は、特定した中間言語表現とペアをなす翻訳先言語（言語ｂ）で表現された自然言語文をペア格納部１１から抽出する。出力部１４は、抽出された自然言語文を翻訳結果として出力する。この出力部１４による出力形態は、表示装置に表示するという出力形態であってもよいし、媒体に印刷するという出力形態であってもよい。単語辞書１５は、異種言語の単語の対訳を含んでおり、検索部１３が構文意味解析部１２によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定する際に利用される。

さて、図２に示した通り、格構造表現は、単語情報をノードとする木構造として表現される。したがって、図３に示す翻訳メモリシステム１００では、木構造（中間言語表現）と、翻訳先言語で書かれた自然言語文とのペアの集合がペア格納部１１に格納されることになる。このような場合、翻訳メモリシステム１００に翻訳元言語文が入力されると、まず構文意味解析部１２がその入力文に対して構文意味解析を施して木構造（中間言語表現）を得る。そして、検索部１３が、得られた木構造と一致するか或いは或るレベルの類似度を超える木構造を、ペア格納部１１に格納されている木構造の中から特定する。さらに、検索部１３は、特定した木構造とペアをなす自然言語文をペア格納部１１から抽出する。出力部１４は、抽出された自然言語文を翻訳先言語文として出力する。なお、木構造の類似度の判定に関しては多くの手法が提案されているから、これらの周知の手法の中から適当なものを適宜選択して用いればよい。例えば文献「高橋哲郎, 乾健太郎, 松本裕治, “テキストの構文的類似度の評価方法について”, 情報処理学会研究報告, 2002-NL-150, pp. 163-170 (2002)」に、類似度判定の一手法について詳細に説明されている。

次に、翻訳メモリシステム１００によって奏される効果を具体的な例に沿って説明する。
まず、図４を参照しながら、従来技術による翻訳作業の例を述べる。ある翻訳会社が、スウェーデンの携帯電話メーカＡから、スウェーデン語で書かれたマニュアルを、英語、フランス語、ドイツ語、スペイン語及びイタリア語の各言語に翻訳する仕事の依頼を受け、その翻訳作業をすでに実施したと仮定する。この翻訳作業を通じて、「スウェーデン語-英語」、「スウェーデン語-フランス語」、「スウェーデン語-ドイツ語」、「スウェーデン語-スペイン語」、「スウェーデン語-イタリア語」のそれぞれの自然言語どうしの対訳ペアの集合が既に人間の手作業によって作成され、翻訳メモリシステムに格納されているはずである。

次に、同じ翻訳会社が、日本の携帯電話メーカＢから、日本語で書かれたマニュアルを、英語、フランス語、ドイツ語、スペイン語及びイタリア語の各言語に翻訳する仕事の依頼を新たに受けたとする。この場合、従来技術では、少なくとも「日本語-スウェーデン語」の自然言語どうしの対訳ペアの集合を新たに作成しなければならない。さらに、場合によっては、「日本語-英語」、「日本語-フランス語」、「日本語-ドイツ語」、「日本語-スペイン語」及び「日本語-イタリア語」のいずれかの対訳ペアをも作成しなければならないこともある。これでは膨大な人的コストが必要となってしまう。図４は、このように、「スウェーデン語-英語」、「スウェーデン語-フランス語」、「スウェーデン語-ドイツ語」、「スウェーデン語-スペイン語」、「スウェーデン語-イタリア語」の対訳ペアが作成済みであるのに対し、少なくとも「日本語-スウェーデン語」の対訳ペアについては新たに作成しなければならない様子を模式的に示した図である。

これに対して、第１実施形態に係る翻訳メモリシステム１００によれば、次のような手順を踏むだけでよい。
まず、上記翻訳会社が、スウェーデンの携帯電話メーカＡから依頼された第１回目の翻訳作業を終えた時点では、図５の実線で示すように、中間言語表現と、スウェーデン語、英語、フランス語、ドイツ語、スペイン語及びイタリア語の自然言語文とのそれぞれのペアがペア格納部１１に格納されているはずである。

次に、翻訳会社が、日本の携帯電話メーカＢから依頼された第２回目の翻訳作業を行う際には、まず翻訳メモリシステム１００の構文意味解析部１２が、日本語の自然言語文を格構造表現に変換する。次に、検索部１３が、日本語と他の言語（英語、スウェーデン語、フランス語、ドイツ語、スペイン語、イタリア語）との間の単語辞書１５を用いることで、構文意味解析部１２によって得られた格構造表現と一致又は類似する格構造表現を特定する。なお、構文意味解析部１２が、翻訳元言語文を格構造表現に変換する際には、１つの自然言語文に対して複数の格構造表現の候補に変換されることが多い。このような場合には、検索部１３は、複数の格構造表現の候補のうち、ペア格納部１１に格納されているペアの集合に存在する格構造表現と類似度がもっとも高い格構造表現の候補を選択（特定）すればよい。これは、ペアの集合中に存在する格構造表現は本来正しいものであるため、それに近い格構造表現もやはり正しい可能性が高いためである。

このようにして格構造表現が特定されると、検索部１３は、その格構造表現とペアをなす各々の翻訳先言語（英語、スウェーデン語、フランス語、ドイツ語、スペイン語、イタリア語）で表現された自然言語文をペア格納部１１から抽出する。出力部１４は、検索部１３によって抽出された自然言語文を翻訳結果として出力する。

このように、第１実施形態によれば、従来のように新たな対訳ペアの集合を作成することなく、過去に作成した中間言語表現−自然言語文のペアの集合を活用して翻訳を行うことが可能となる。また、このようにして得られた翻訳結果は、ネイティブスピーカにより正しいと認められた文であるから、先の背景技術欄で述べた翻訳メモリシステムの本来の長所を損なうこともない。

（２）第２実施形態
ペア格納部１１内の中間言語表現と自然言語文とのペアは、人間の手作業で作成することも可能であるが、その作業に要する手間が煩雑である。そこで、以下に述べる第２実施形態では、異種言語の自然言語文どうしの対訳ペアが既に存在する場合には、その対訳ペアを中間言語及び自然言語文のペアに変換するようにしている。具体的には、図６に示すように、言語１で表現された自然言語文に構文意味解析を施して中間言語表現を生成するとともに、言語２で表現された自然言語文に構文意味解析を施して中間言語表現を生成する。そして、言語１の自然言語文と言語２の自然言語文とを共通の中間言語表現を介して対応づける。

図７は、第２実施形態に係る翻訳メモリシステム１０１の構成を示すブロック図である。この翻訳メモリシステム１０１は、第１実施形態に係る翻訳メモリシステム１００が備えるペア格納部１１、構文意味解析部１２、検索部１３、出力部１４及び単語辞書１５のほか、対訳ペア格納部１６と、ペア生成部１７とを備えている。対訳ペア格納部１６は、ハードディスク等の大容量の記憶装置によって実現されており、異種言語で表現された自然言語文どうしの対訳ペアを複数格納している。ペア生成部１７は、対訳ペア格納部１６に格納されている対訳ペアを中間言語及び自然言語文のペアに変換し、ペア格納部１１に格納する。

この翻訳メモリシステム１０１の動作を具体例に沿って説明する。
図８の上段に示すように、例えば「太郎が花子にプレゼントを渡した。」という日本語文と、「Taro gave a present to Hanako.」という英語文との対訳ペアが対訳ペア格納部１６に存在している場合、ペア生成部１７は、これらの双方に対してそれぞれ構文意味解析を施し、この解析結果（中間言語表現）の単語情報部分に両言語の単語をそれぞれ併記しておく。ここでいう単語情報部分とは、LFG解析においては「PRED」属性であるし、格構造表現においてはノードである。具体的には、図８の下段に示すように、中間言語表現においては、「渡す」と「give」が併記され、主格では「太郎」と「Taro」が併記され、目的格では「花子」と「Hanako」が併記され、終点格では「プレゼント」と「present」が併記される。これにより、日本語の自然言語文と英語の自然言語文とを、共通の中間言語表現を介して対応づけることができる。

図８に示した例は、構文意味解析の結果にいわゆる曖昧性が存在しない場合であったが、特に日本語のような文法の言語には曖昧性が生じることが多い。図９は、構文意味解析の結果に曖昧性が生じる場合の一例を示している。例えば、「赤い髪の白人は珍しい。」という日本語文の構文意味解析の結果は、「赤い」が「白人」に係ると考えた中間言語表現候補１と、「赤い」が「髪」に係ると考えた中間言語表現候補２とがあり、これら候補のいずれが正しい係り受けを反映したものであるかが不明である。この結果、前述の図６と図１０とを比較すると理解できるように、図１０では、言語１（日本語）の自然言語文に構文意味解析を施した結果、複数通りの中間言語表現が得られることになる。これが、構文意味解析の結果に生じる「曖昧性」である。

この第２実施形態では、上記のような曖昧性が生じた場合であっても、正しい係り受けを反映した中間言語表現を得ることができる。その理由は以下の通りである。
ペア生成部１７は、図９に示すように言語２（英語）の自然言語文に対しても構文意味解析を行う。よって、仮に言語１（日本語）に対する構文意味解析の結果（中間言語表現）が複数とおり存在していたとしても、これらの複数の中間言語表現のうち、言語２（英語）の自然言語文に対する構文意味解析の結果（中間言語表現）と一致又は類似するものを選択し、それを正しい構文意味解析の結果であると判断する。なぜなら、上記日本語文「太郎が花子にプレゼントを渡した。」と対訳ペアをなす英語文「A Caucasian with red hair is unusual.」には、係り受けに不明な点はなく、日本語にありがちな「曖昧性」が生じないからである。

なお、中間言語表現どうしの類似度の計算については、前記文献「高橋哲郎, 乾健太郎, 松本裕治, “テキストの構文的類似度の評価方法について”, 情報処理学会研究報告, 2002-NL-150, pp. 163-170 (2002)」に従えばよい。木構造の類似度測定は、この文献にも述べられているように、一般に、比較対象における木構造そのものの間の距離と、ノード間の距離という、２種類の距離が考慮される。この第２実施形態においては、上述したように、木構造中の単語情報部分(ノード内情報部分)には、翻訳メモリシステム１０１が処理対象とする言語の単語情報が併記されるようになっている。これにより、入力文に対応する木構造と対訳ペア中の各木構造の類似度を計算する際の、ノード内情報に関する距離の計算を精度よく行なうことが可能となる。

また、上記のように中間言語表現（木構造）の単語情報部分(ノード内情報部分)には、単語情報が併記されるようになっているので、今までは単語の意味的曖昧性を理由として解消できなかった問題を解決することも可能となる。例えば、英語単語「bank」と、日本語単語「土手」又は日本語単語「銀行」との類似度距離を考えると、どちらの日本語単語も「bank」の和訳として適切であるため、いかなる辞書を用いても、どちらの日本語が英語単語「bank」に類似しているかを判断することはできない。しかし、ノードに英語単語「bank」と例えばフランス語単語「banque」が併記されていれば、フランス語単語「banque」は「土手」の意味を持たないため、日本語単語「土手」よりも「銀行」のほうが英語単語「bank」との距離が近いと判断することができる。

以上説明した第２実施形態によれば、既存の自然言語文どうしの対訳ペアから精度よく中間言語表現を生成することができる。また、２種類の異種言語で表現された自然言語文の対訳ペアに対してそれぞれ構文意味解析処理を施し、その結果得られる中間言語表現の候補を相互に比較して、類似する候補と自然言語文とのペアを作成するので、いわゆる曖昧性の問題を解消することも可能となる。この効果は対訳ペアとなる言語の数が増えるほど高いものとなる。さらに、中間言語表現の単語情報部分に単語情報を併記するので、翻訳対象となる単語の意味を正確に判断することも可能となる。

なお、図８や図９に示す例は、いずれも格構造表現の構造が完全に一致する場合であった。しかし、最も類似度が高い解析結果どうしでも構造が完全に一致しない場合もある。この場合は、第１の言語に対応する中間言語と、第２の言語に対応する中間言語とをそれぞれ別の構造としてもよい。また、例えば特開２００３−２４２１３６号公報には、自然言語文に対して、正しい係り受け関係及び係り受けの種類を人間の手作業で判断する際の支援方法が提案されている。このような手法を用いて、正しい中間言語の作成を半自動で行なうことも可能である。

（３）第３実施形態
従来技術の翻訳メモリシステムでは、対訳ペアの集合の中から入力文に一致又は類似する自然言語文を検索する際に、単語の表記や順番などの「表層情報」だけに基づいて両者の類似性を判断していた。以下に述べる第３実施形態では、自然言語文の「構造」をも考慮した検索を行う。

まず、自然言語文の表層情報だけに基づいて入力文に一致又は類似する自然言語文を検索する際の問題点を説明する。例えば、翻訳メモリシステムに対して、以下のような長い自然言語文を入力したとしても、一致又は類似する翻訳先言語文が対訳ペアの集合中に存在する可能性は極めて低い。

「最高裁は、バブル期の土地賃貸借をめぐり、賃料が上がることはあっても下がりはしない「不減額特約」を交わした場合、景気変動を理由に賃料減額を求められるかどうかが争われた訴訟で、「減額できる」とする判断を示した。」

このような問題は、自然言語文が長くなればなるほど、頻繁に発生する。この場合、一致又は類似する翻訳先言語文が対訳ペアの集合中に存在しないのだから、どうしても人間の手による翻訳作業にすべてを頼らざるを得なくなり、作業効率が悪い。

そこで、第３実施形態にかかる翻訳メモリシステム１０２は、自然言語文の構造を解析し、その構造の一部分（以下、部分構造という）を対象にして、入力文と一致又は類似する中間言語表現を特定し、その中間言語表現とペアをなす自然言語文を抽出する。この第３実施形態にかかる翻訳メモリシステム１０２は、図３に示した第１実施形態にかかる翻訳メモリシステム１００と同じ構成であるため図示は省略するが、その動作が異なっている。

例えば上記長文の格構造表現の最上位の部分構造は、図１１に示す通り、比較的単純なものである。このような単純な格構造表現であれば、ペア格納部１１に記憶されたペアの集合に存在する可能性が高い。つまり、検索部１３は、格構造表現の最上位の部分構造を検索対象とすれば、以下のような英語文の一部を得ることができる可能性が高い。

英語文の一部：「The Supreme Court rendered the judgment ・・・ in a legal case ・・・.」
（最高裁は、×××訴訟において、×××判断を示した。）

検索部１３は、ペア格納部１１を検索して、上記のような英語文（翻訳先言語文）「The Supreme Court rendered the judgment ・・・ in a legal case ・・・.」の中間言語表現と一致又は類似する中間言語表現を特定する。さらに、検索部１３は、その中間言語表現とペアをなす日本語文（翻訳先言語文）「最高裁は、×××訴訟において、×××判断を示した。」
をペア格納部１１から抽出する。出力部１４は、その日本語文を出力する。翻訳者は、出力された「最高裁は、×××訴訟において、×××判断を示した。」という日本語文の「×××」の箇所だけを手作業で翻訳すればよい。

このように第３実施形態によれば、自然言語文の構造を考慮した検索を行なうことにより、翻訳元言語文の文全体と類似する文に対応する中間言語表現が予め記憶されていなくても、その翻訳元言語文の少なくとも一部に対して翻訳を行うことができる。よって、翻訳者の翻訳作業を支援することが可能となる。なお、この第３実施形態においては、上記のように格構造表現の最上位部分だけを検索対象とする以外にも、例えば文中の関係節の部分だけを検索対象とするとか、埋め込み節の部分だけを検索対象とする、といったように、必要に応じて任意の部分構造を検索対象とすることが可能である。

（４）第４実施形態
次に述べる第４実施形態は、翻訳先言語が翻訳メモリシステムの処理対象となっていない言語であっても、比較的精度よく機械翻訳を行うことを目的としている。図１２は、第４実施形態にかかる翻訳メモリシステム１０３の構成を示したブロック図である。この翻訳メモリシステム１０３は、第２実施形態に係る翻訳メモリシステム１０１が備えるペア格納部１１、構文意味解析部１２、出力部１４、単語辞書１５、対訳ペア格納部１６及びペア生成部１７とを備えるほか、検索部１３に代えて機械翻訳部２１を備えている。この機械翻訳部２１は、中間言語表現を入力として、翻訳先言語文を生成する翻訳エンジンである。つまり、翻訳メモリシステム１０３は、機械翻訳機能を備えた翻訳メモリシステムであるといえる。

例えば、図５に示す例において、スウェーデン語を新たにポルトガル語（第３の言語）に翻訳する必要が生じたと仮定する。ここで、スウェーデン語の入力文に一致又は類似する中間言語表現が既にペア格納部１１によって格納されているペアの集合に存在する場合、機械翻訳部２１が、その中間言語表現を入力としてポルトガル語文を生成することを考える。この場合に問題となるのは、前述した英語単語「bank」と、日本語単語「土手」又は日本語単語「銀行」との関係のような、単語の意味的曖昧性である。すなわち、一つのスウェーデン語単語に対応するポルトガル語単語は多数存在する場合、そのうちのどれを選ぶのが適切であるかを判断することは一般に難しい。

そこで、第４実施形態の中間言語表現における単語情報部分には、図８、図９及び図１０に示した通り、複数の異種言語の単語が併記されている。図８、図９及び図１０では日本語と英語の２ヶ国語であったが、図５の例に沿った場合であれば、６ヶ国語の単語が１つの単語情報部分に併記されることになる。したがって、単語辞書１５として、これら６ヶ国語のそれぞれとポルトガル語の間の２ヶ国語の単語辞書(合計６種類の単語辞書)を格納しておく。機械翻訳部２１は、まずこの単語辞書１５に含まれる対訳を参照して、単語情報部分に併記されている各言語の単語をポルトガル語単語に翻訳する。次に、機械翻訳部２１は、翻訳の結果得られたポルトガル語単語の群に共通して存在するポルトガル語単語を選択する。そして、機械翻訳部２１は、このようにして選択した単語を用いて自然言語文を生なすればよい。このようにすれば、翻訳メモリシステム１０３は正しい意味で翻訳することができる。

このように第４実施形態によれば、中間言語表現と自然言語文とでペアをなし、かつ、中間言語表現の単語情報部分に各言語の単語を併記することで、今までは翻訳対象としていなかった言語を翻訳先言語とする場合にも、適切な単語選択を行なうことができる。よって、効率の良い機械翻訳支援を行なうことが可能となる。

なお、以上に述べた翻訳メモリシステムが前述の動作を行うためのプログラムは、ＣＰＵ等の演算装置によって読み取り可能な磁気記録媒体、光記録媒体あるいはＲＯＭなどの記録媒体に記録して翻訳メモリシステムに提供することができる。また、インターネットのようなネットワーク経由で翻訳メモリシステムにダウンロードさせることも可能である。

f-structureの一例を示す図である。格構造表現の一例を示す図である。本発明の第１実施形態に係る翻訳メモリシステムの構成を示すブロック図である。従来技術による翻訳メモリシステムを多言語に適用した場合の概念図である。第１実施形態に係る翻訳メモリシステムを多言語に適用した場合の概念図である。自然言語文の対訳ペアを中間言語と自然言語文の対訳ペアに変換する処理の概念図である。本発明の第２実施形態に係る翻訳メモリシステムの構成を示すブロック図である。自然言語文の対訳ペアから中間言語と自然言語文の対訳ペアへの変換例である。自然言語文の対訳ペアから中間言語と自然言語文の対訳ペアへの変換例である。自然言語文の対訳ペアを中間言語と自然言語文の対訳ペアに変換する際に曖昧性が発生した様子を示す概念図である。格構造表現の最上位部分の一例である。本発明の第４実施形態に係る翻訳メモリシステムの構成を示すブロック図である。

符号の説明

１００，１０１，１０２，１０３・・・翻訳メモリシステム、１１・・・ペア格納部、１２・・・構文意味解析部、１３・・・検索部、１４・・・出力部、１５・・・単語辞書、１６・・・対訳ペア格納部、１７・・・ペア生成部、２１・・・機械翻訳部。

Claims

第１の言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納したペア格納手段と、
第２の言語で表現された自然言語文に対して構文意味解析を行い、該自然言語文を中間言語表現に変換する構文意味解析手段と、
前記ペア格納手段に格納されている内容を検索し、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定し、この中間言語表現とペアをなす前記第１の言語で表現された自然言語文を抽出する検索手段と、
前記検索手段によって抽出された自然言語文を翻訳結果として出力する出力手段と
を備えることを特徴とする翻訳メモリシステム。
前記ペア格納手段は、中間言語表現として格構造表現を格納しており、
前記構文意味解析手段は、構文意味解析によって得られた結果を格構造表現に変換することを特徴とする請求項１記載の翻訳メモリシステム。
前記ペア格納手段は、木構造をなす中間言語表現を格納しており、
前記構文意味解析手段は、Lexical Functional Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換することを特徴とする請求項１記載の翻訳メモリシステム。
前記ペア格納手段は、木構造をなす中間言語表現を格納しており、
前記構文意味解析手段は、Head-driven Phrase Structure Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換することを特徴とする請求項１記載の翻訳メモリシステム。
前記ペア格納手段は、複数種類の言語について、各々の言語の種類ごとに自然言語文とその中間言語表現とをペアとして格納していることを特徴とする請求項１〜４のいずれか１項に記載の翻訳メモリシステム。
前記構文意味解析手段によって得られた解析結果として複数の中間言語表現の候補が存在する場合には、前記検索手段は、これら複数の中間言語表現の候補の中から、前記ペア格納手段によって格納されている中間言語表現と類似する候補を特定し、特定された候補の中間言語表現とペアをなす前記第１の言語で表現された自然言語文を抽出することを特徴とする請求項１〜５のいずれか１項に記載の翻訳メモリシステム。
前記ペア格納手段に格納される中間言語表現に含まれている単語情報部分に対して、複数種類の言語の単語が併記されていることを特徴とする請求項１〜５のいずれか１項に記載の翻訳メモリシステム。
２種類の異種言語で表現された自然言語文の対訳ペアに対してそれぞれ構文意味解析処理を施し、その結果得られる中間言語表現の候補を相互に比較して、類似する候補と自然言語文とのペアを作成するペア生成手段を有し、
前記ペア格納手段は、前記ペア生成手段によって作成されたペアを格納することを特徴とする請求項１〜５のいずれか１項に記載の翻訳メモリシステム。
前記検索手段は、前記中間言語表現の部分構造を対象にして、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定することを特徴とする請求項１〜５のいずれか１項に記載の翻訳メモリシステム。
前記ペア格納手段によって格納されている中間言語表現に基づいて、第３の言語で表現された自然言語文を生成する機械翻訳手段と、
第３の言語と、中間言語表現において単語情報部分に併記されている単語に対応する各言語との間の対訳を格納する辞書格納手段とを有し、
前記機械翻訳手段は、自然言語文を生成する際に単語を選択する場合には、中間言語表現における単語情報部分に併記された各言語の単語を、前記辞書格納手段に格納された対訳を参照してそれぞれ第３の言語の単語に翻訳し、得られた翻訳単語に共通して存在する単語を選択することを特徴とする請求項７記載の翻訳メモリシステム。