JP2004163991A

JP2004163991A - ソースシーケンスから情報を復元するための方法およびプログラム

Info

Publication number: JP2004163991A
Application number: JP2002238818A
Authority: JP
Inventors: Paul Michael; ミヒャエルパウル; Eiichiro Sumida; 英一郎隅田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-08-20
Filing date: 2002-08-20
Publication date: 2004-06-10

Abstract

【課題】情報が明示的にではなく暗黙に表現されている場合に、ある表現形式から情報を復元可能な方法とプログラムを提供する。
【解決手段】この方法は、（ａ）バイリンガルコーパス２０を準備するステップと、（ｂ）入力センテンス１０に最も近い英語のセンテンスを含むセンテンス対を選択するステップ（１２）と、（ｃ）選択された各対の英語と日本語のセンテンスとを対応付けて（１４）、入力センテンス中の数に対応する英語と日本語の対応する句を特定できるようにするステップと、（ｄ）用いるべき数詞を判定し、入力センテンス１０中の特定の構成要素に対してその数詞を割当てるステップとを含む。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
この発明はソースシーケンスから情報を復元するための方法およびプログラムに関し、特に、この発明は、バイリンガルコーパス等の、異なる表現形式での表現例の集合の統計的情報を利用して、ある情報を明示的には表現していないソースシーケンスから、その情報を復元するための方法およびプログラムに関する。
【０００２】
【従来の技術】
機械翻訳では、入力センテンスと出力センテンスとの意味が同じになるように、ソース語をターゲット言語に翻訳しなければならない。しかしこれは容易な課題ではない。なぜなら、特定の語の意味はそれらが用いられる文脈に依存して大きく変る可能性があるからである。
【０００３】
典型的な例を、日本語の数詞にみることができる。日本語には多数の数詞があるが、英語等の他の言語にはそれがない。別の例は、英語には見られるが、日本語には見られない、語の活用である。数詞や語の活用形の選択はその語の意味に依存し、かつ英語には数詞がないので、機械翻訳で英語のセンテンスを正確に日本語に翻訳することは困難で、その逆もまた困難である。
【０００４】
図１は、日本語の数詞「枚」の英語への翻訳を示す。図２は英語の数の日本語への翻訳を示す。図１および２から分かるように、数詞や語の活用形の選択に単純な規則を見出すことができない。
【０００５】
このため、数を含む英語のセンテンスを翻訳する際には、機械翻訳では適切な数詞を生成しなければならない。日本語のセンテンスを翻訳する際には、数詞を省き、適切な形（単数、複数）を有する語を生成しなければならない。
【０００６】
適切な数詞を割り当てるためのアプローチが、Ｖ．ソーンラートランヴァニック、Ｗ．パンタチャットおよびＳ．メクナビンの『コーパスベースのアプローチによる分類辞の割当』、第１５回ＣＯＬＩＮＧ予稿集、第１５２−１５４頁、１９９４年（ｂｙＶ．Ｓｏｒｎｌｅｒｔｌａｍｖａｎｉｃｈ，Ｗ．ＰａｎｔａｃｈａｔａｎｄＳ．Ｍｅｋｎａｖｉｎｉｎ “Ｃｌａｓｓｉｆｉｅｒａｓｓｉｇｎｍｅｎｔｂｙｃｏｒｐｕｓ−ｂａｓｅｄａｐｐｒｏａｃｈ”，Ｐｒｏｃ．ｏｆｔｈｅ１５ｔｈＣＯＬＩＮＧ，ｐｐ．１５２−１５９，１９９４．）で提案されている。
【０００７】
別のアプローチが、Ｆ．ボンドおよびＫ．パイクの『数詞生成のためのオントロジーの再利用』、第１８回ＣＯＬＩＮＧ予稿集、第９０−９６頁、２０００年（Ｆ．ＢｏｎｄａｎｄＫ．Ｐａｉｋｉｎ “Ｒｅｕｓｉｎｇａｎｏｎｔｏｌｏｇｙｔｏｇｅｎｅｒａｔｅｎｕｍｅｒａｌｃｌａｓｓｉｆｉｅｒｓ” ｉｎＰｒｏｃ．ｏｆｔｈｅ１８ｔｈＣＯＬＩＮＧ，ｐｐ．９０−９６，２０００）で提案されている。
【０００８】
【発明が解決しようとする課題】
上述の第一のアプローチは、入力センテンスの文脈を考慮にいれていない。このため、用いられる文脈に依存して形を変えた適切な数詞を生成することができない。
【０００９】
第二のアプローチは数量を表す名詞のない数には適用できない。さらに、所与の入力センテンスの文脈に基づいて名詞のいくつかの意味を区別することもできない。
【００１０】
考えられるアプローチの一つは、バイリンガルコーパスをスキャンして、翻訳機械のトレーニングを行ない、文脈によって最もふさわしいと判断された数詞を割り当てるようにすることである。しかし、数詞を割り当てる作業が困難なのは、トレーニング用コーパスから抽出される、割り当て可能な別々の数詞の数が非常に多いからである。このように多数の数詞分類からふさわしい数詞を選択するのは困難な作業であろう。
【００１１】
一般に、明示的にではなく暗黙に表現された情報を機械で復元するのは容易ではない。もしこのような情報の復元が可能になれば、この技法は、数を含む名詞句や、数、時制、モダリティ等の他の言語学的特徴による語の曖昧さをなくすことに拡張できるであろう。この技法はさらに、言語処理以外の分野にも拡張可能かもしれない。
【００１２】
従って、この発明の目的は、情報が明示的にではなく暗黙に表現されている場合に、ある表現からその情報を復元できる方法およびプログラムを提供することである。
【００１３】
この発明の別の目的は、異なる表現形式の表現の集合から得られる統計的情報を利用して、情報が明示的にではなく暗黙に表現されている場合に、ある表現からその情報を復元できる方法およびプログラムを提供することである。
【００１４】
【課題を解決するための手段】
この発明のある局面によれば、第一の表現形態の入力表現において特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法は、（ａ）コンピュータで読取可能な表現対の集合を準備するステップを含む。表現対の各々は第一の表現形態の第一の表現と第二の表現形態の第二の表現とを含み、同じ表現対の第一の表現と第二の表現とは実質的に同じ意味を有する。この方法はさらに、（ｂ）コンピュータに、入力表現と予め定められた関係を満足する第一の表現を含む表現対を集合から選択させるステップと、（ｃ）コンピュータに、ステップ（ｂ）で選択された表現対の各々において第一の表現と第二の表現とを対応付けさせ、第一の表現と第二の表現の、入力表現の特定の構成要素に対応する、対応の構成要素を特定させるステップと、（ｄ）コンピュータに、ステップ（ｃ）で特定された第二の表現の構成要素の少なくとも一部に明示的に表現されており、かつステップ（ｃ）で特定された第一の表現の構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力表現の特定の構成要素に割り当てさせるステップとをさらに含む。
【００１５】
ステップ（ｂ）は、（ｂ１）コンピュータに、入力表現と、集合中の表現対の各々の第一の表現との意味的距離を計算させるステップと、（ｂ２）コンピュータに、入力表現からの意味的距離が予め定められたしきい値以下の第一の表現を含む表現対を選択させるステップとを含む。
【００１６】
ステップ（ｂ１）は、（ｂ１１）コンピュータに、入力表現と、集合中の表現対の各々の第一の表現との意味的距離をダイナミックプログラミングにより計算させるステップを含む。
【００１７】
この発明のある局面によれば、この方法は第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、ステップ（ｂ１１）は、コンピュータに、シソーラスを参照して、入力シーケンスと表現対の各々の第一の表現との間での、入力シーケンスと表現対の各々の第一の表現とのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、この操作の回数の合計を計算するステップと、計算された合計を、入力表現の長さと表現対の各々の第一の表現の長さとの合計により正規化するステップとをさらに含む。
【００１８】
この方法はさらに、第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップを含み、ステップ（ｂ１１）はコンピュータに、以下の式により意味的距離を計算させるステップを含み、
【００１９】
【数５】

ここでＩおよびＤはそれぞれ挿入操作および削除操作の回数を示し、Ｋは置換操作により置換された要素の、シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Ｎはシソーラスの高さを示し、Ｌ_{ｉｎｐｕｔ}は入力表現の長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は各表現対の第一の表現の長さを示す。
【００２０】
この発明の別の局面によれば、ソース言語の入力シーケンスにおいて特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法は、（ａ）コンピュータで読取可能なシーケンス対のバイリンガルコーパスを準備するステップを含む。各シーケンス対はソース言語の第一のシーケンスとターゲット言語の第二のシーケンスとを含み、同じシーケンス対の第一のシーケンスと第二のシーケンスとは実質的に同じ意味を有する。この方法はさらに、（ｂ）コンピュータに、入力シーケンスと予め定められた関係を満足する第一のシーケンスを含むシーケンス対をバイリンガルコーパスから選択させるステップと、（ｃ）コンピュータに、ステップ（ｂ）で選択された各シーケンス対において第一のシーケンスと第二のシーケンスとを対応付けさせ、第一のシーケンスと第二のシーケンスの、入力シーケンスの特定の構成要素に対応する、対応の構成要素を特定させるステップと、（ｄ）コンピュータに、ステップ（ｃ）で特定された第二のシーケンスの構成要素の少なくとも一部に明示的に表現されており、かつステップ（ｃ）で特定された第一のシーケンスの構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力シーケンスの特定の構成要素に割り当てさせるステップとをさらに含む。
【００２１】
ステップ（ｂ）は、（ｂ１）コンピュータに、入力シーケンスと、バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離を計算させるステップと、（ｂ２）コンピュータに、入力シーケンスからの意味的距離が予め定められたしきい値以下の第一のシーケンスを含むシーケンス対を選択させるステップとを含む。
【００２２】
ステップ（ｂ１）は、（ｂ１１）コンピュータに、入力シーケンスと、バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離をダイナミックプログラミングにより計算させるステップを含む。
【００２３】
この方法は、ソース言語とターゲット言語のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、ステップ（ｂ１１）はコンピュータに、シソーラスを参照して、入力シーケンスと各シーケンス対の第一のシーケンスとの間での、入力シーケンスと各シーケンス対の第一のシーケンスとのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、この操作の回数の合計を計算するステップと、この合計を、入力シーケンスの長さと各シーケンス対の第一のシーケンスの長さとの合計により正規化するステップとをさらに含む。
【００２４】
ソース言語とターゲット言語のためのコンピュータで読取可能なシソーラスがコンピュータに接続されていてもよく、ステップ（ｂ１１）はコンピュータに、以下の式により意味的距離を計算させるステップを含み、
【００２５】
【数６】

ここでＩおよびＤはそれぞれ挿入操作および削除操作の回数を示し、Ｋは置換操作により置換された要素の、シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Ｎはシソーラスの高さを示し、Ｌ_{ｉｎｐｕｔ}は入力シーケンスの長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は各シーケンス対の第一のシーケンスの長さを示す。
【００２６】
上述の方法は、コンピュータで実行可能なプログラムで実現されてもよい。
【００２７】
【発明の実施の形態】
語選択作業に必要とされる文脈情報は、それぞれのバイリンガルセンテンス対間の句の対応に基づいてバイリンガルコーパスから得ることができる。以下で、図４から図１２を参照して、この発明の装置と方法の実施例を説明する。
【００２８】
図４はこの発明の実施例の装置のブロック図である。図４を参照して、装置２は、コンピュータ読取可能なバイリンガルコーパス２０を含み、その中ではセンテンスが予め対応付けられており、さらに装置２は、日本語と英語とのシソーラス４を含み、これは語の対応付けを支援するとともに語間の意味的距離を考慮するのに用いられる。
【００２９】
シソーラス４は、日本語のシソーラスと英語のシソーラスとを含む。図５は日本語のシソーラスの構造を例示する。図５を参照して、シソーラスは、管理されたインデックス語のコンピュータ読取可能なボキャブラリであり、形式的に階層構造に組織化され、概念間の自明な関係（たとえば「広い」と「狭い」等）が明示的に表現されている。たとえば、「りんご」という語を特定することで、「りんご」よりも広い概念である「果物」という概念を取り出すことができる。
【００３０】
この装置はさらに、入力センテンス１０と、同じ言語のトレーニングセンテンスとの「ダイナミックプログラミング」マッチングを行なってトレーニングコーパスからバイリンガルセンテンス対を取り出すための取出しモジュール１２と、同じ意味を共有する表現間の、翻訳上の等価性に関する知識を抽出し、対応する句を同定するための句対応付けモジュール１４と、対応付けモジュールによって用いられる形態素タグ付け部６および英和パーサ８と、対応付けられた句の知識を再利用して、文脈に即したターゲット表現を選択し、ターゲット表現を翻訳出力１８に挿入するためのターゲット語割当モジュール１６とを含む。
【００３１】
図６はこの実施例のシステムの外観図であり、図７はシステム３０のブロック図である。図６を参照して、この実施例を実現するコンピュータシステム３０は、ＦＤ（フレキシブルディスク）ドライブ５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ５０を有するコンピュータ４０と、キーボード４６と、マウス４８と、モニタ４２とを含む。
【００３２】
図７を参照して、コンピュータ４０は、ＦＤドライブ５２およびＣＤ−ＲＯＭドライブ５０に加えて、ＣＰＵ（中央処理装置）５６と、ＣＰＵ５６、ＦＤドライブ５２およびＣＤ−ＲＯＭドライブ５０に接続されたバス６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）５８と、バス６６に接続され、プログラム命令、システムプログラム、およびデータを記憶するランダムアクセスメモリ（ＲＡＭ）６０とを含む。
【００３３】
ここでは示さないが、コンピュータ４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。
【００３４】
コンピュータシステム３０にこの機械翻訳方法を行なわせるプログラムは、ＣＤ−ＲＯＭドライブ５０またはＦＤドライブ５２に挿入されるＣＤ−ＲＯＭ６２またはＦＤ６４に記憶されさらにハードディスク５４に転送されてもよい。これに代えて、プログラムは図示しないネットワークを通じてコンピュータ４０に送信されハードディスク５４に記憶されてもよい。プログラムは実行の際にＲＡＭ６０にロードされる。プログラムはＣＤ−ＲＯＭ６２、ＦＤ６４、またはネットワークを介してＲＡＭ６０に直接ロードされてもよい。
【００３５】
以下に説明するプログラムは、コンピュータ４０にこの実施例の方法を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能の幾つかはコンピュータ４０のオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ４０にインストールされたモジュールにより提供されるので、このプログラムはこの実施例の方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより最適化プロセスを実行する命令のみを含んでいればよい。コンピュータシステム３０の動作は周知であるので、ここでは繰り返さない。
【００３６】
プログラムのフローチャート
図８はコンピュータ４０上で実行されるプログラムの制御の流れを示すフローチャートである。図８に示されるステップは図４のモジュールに対応し、それらの動作の詳細は追って説明する。ここでは、コンピュータ４０の一般的動作を説明する。
【００３７】
ステップ１００で、ある英語のセンテンスが与えられると、コーパス２０内のソース（英語）センテンス例であって入力センテンスに最も類似するものが、入力センテンスとコーパス２０内のセンテンス例とのＤＰマッチングにより選択される（ステップ１０２）。ステップ１０４で、選択された英語センテンスに対応するターゲット（日本語）センテンスが、コーパス２０から選択される。
【００３８】
ステップ１０６で、コーパス２０から抽出された各対の英語と日本語のセンテンスが対応付けられ、対応付けられた句が抽出される。ステップ１０８で、数詞を含む対応付けられた句が抽出される。ステップ１１０で、挿入（Ｉ）、削除（Ｄ）、置換（Ｓ）のＤＰマッチングシーケンスを逆転させることで、コーパスの対応付けが入力センテンスにマッピングされる。最後に、ステップ１１２で、数に関する、句の対応付けのターゲット（日本語）情報を用いて翻訳が生成され出力される。
【００３９】
センテンス取出しモジュール
ある入力センテンス１０が与えられると、取出しモジュール１２は、シソーラス４を参照して語の意味的距離を測定しながら入力センテンス１０とセンテンス例とのＤＰ（ダイナミックプログラミング）マッチングを行なって、入力センテンス１０と最も類似する例をバイリンガルコーパス２０から取出す。バイリンガルコーパス中の全てのセンテンス例のソース部分が調べられる。入力センテンスとセンテンス例との語のシーケンス間の距離を測定することにより、最小距離を示す例が取出される。ただし、距離が所与のしきい値より小さいことが前提条件であり、さもなければ、取出しモジュールはなんら結果を出力しない。
【００４０】
距離は、以下の標準的なダイナミックプログラム技術によって計算される。
【００４１】
【数７】

ここで、「Ｉ」は入力センテンスを得るためにセンテンス例から削除された語の数を示し、「Ｄ」は入力センテンスを得るためにセンテンス例に挿入された語の数を示し、最後の項は置換の重みを示す。置換は、センテンス例と挿入されたセンテンスとの間で２個の置換された語同士の意味的距離を考慮し、２個の語のシソーラスにおける共通の抽象化レベルのうち最小のレベルであるＫを、シソーラスの高さＮで除算したものとして定義される。図５に示された例では、Ｎ＝４、Ｋ＝１である。Ｌ_{ｉｎｐｕｔ}はソースシーケンスの長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は例示シーケンスの長さを示す。
【００４２】
簡潔に言えば、挿入（Ｉ）、削除（Ｄ）、置換（Ｓ）の操作回数が合計され、その総計が、ソースの長さ（Ｌ_{ｉｎｐｕｔ}）と例示シーケンスの長さ（Ｌ_{ｅｘａｍｐｌｅ}）との合計で正規化される。
【００４３】
句対応付けモジュール
ある日本語のテキストとその英訳とが与えられると、対応付けモジュール１４は句対応付けアルゴリズムを用いて、同じ意味を共有する表現間の翻訳上の等価性についての知識を抽出する。「句の対応付け」という用語は、バイリンガルのセンテンス間で、互いに等価な、部分的な語のシーケンスを抽出することを指す。単語だけでなく、名詞句、または動詞句といったより複雑な文法的構成要素も、各センテンスの統語構造に基づいて対応付けることができる。
【００４４】
等価な句は、二つの言語間での対応する表現を示す。バイリンガルセンテンス間の語シーケンスは同じ意味的情報を有するとの仮定のもので、一方の言語にはあるが他方の言語にはない特定の特徴に関する知識を、これらの句の対応付けから抽出することができる。
【００４５】
さまざまな句の対応付け方法が提案されている。例を挙げれば以下の通りである。
［１］Ｈ．カジ、Ｙ．キダ、Ｙ．モリモト、『バイリンガルテキストからの翻訳テンプレートの学習』、第１４回ＣＯＬＩＮＧ予稿集、フランス、１９９２年。（Ｈ．Ｋａｊｉ，Ｙ．Ｋｉｄａ，ａｎｄＹ．Ｍｏｒｉｍｏｔｏ． “Ｌｅａｒｎｉｎｇｔｒａｎｓｌａｔｉｏｎｔｅｍｐｌａｔｅｓｆｒｏｍｂｉｌｉｎｇｕａｌｔｅｘｔ”．ＩｎＰｒｏｃｏｆｔｈｅ１４ｔｈＣＯＬＩＮＧ．Ｆｒａｎｃｅ．１９９２．）
［２］Ｙ．マツモト、Ｈ．イシモト、Ｔ．ウツロ、『パラレルテキストの構造的マッチング』第３１回ＡＣＬ予稿集、２３−３０頁、１９９３年。（Ｙ．Ｍａｔｓｕｍｏｔｏ，Ｈ．Ｉｓｈｉｍｏｔｏ，ａｎｄＴ．Ｕｔｓｕｒｏ． “Ｓｔｒｕｃｔｕｒａｌｍａｔｃｈｉｎｇｏｆｐａｒａｌｌｅｌｔｅｘｔｓ２．ＩｎＰｒｏｃ．ｏｆｔｈｅ３１ｓｔＡＣＬ．，ｐｐ．２３−３０．１９９３．）
［３］Ｍ．キタムラ、Ｙ．マツモト、『パラレルコーパラから獲得される翻訳規則に基づく機械翻訳システム』、ＮＬＰの進展、予稿集、２７−３６頁、１９９５年。（Ｍ．ＫｉｔａｍｕｒａａｎｄＹ．Ｍａｔｓｕｍｏｔｏ． “Ａｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｔｒａｎｓｌａｔｉｏｎｒｕｌｅｓａｃｑｕｉｒｅｄｆｒｏｍｐａｒａｌｌｅｌｃｏｒｐｏｒａ”．ＩｎＰｒｏｃ．ｏｆＲｅｃｅｎｔＡｄｖａｎｃｅｓｉｎＮＬＰ，ｐｐ．２７−３６．１９９５．）
［４］Ａ．メイヤース、Ｒ．ヤンバーガ、Ｒ．グリシャム『バイリンガルコーポラのための共有フォレストの対応付け』、第１４回ＣＯＬＩＮＧ予稿集、４６０−４６５頁、コペンハーゲン、デンマーク、１９９６年。（［４］ＡＭｅｙｅｒｓ，Ｒ．Ｙａｒｎｇａｂｅｒ，ａｎｄＲ．Ｇｒｉｓｈｍａｎ． “Ａｌｉｇｎｍｅｎｔｏｆｓｈａｒｅｄｆｏｒｅｓｔｓｆｏｒｂｉｌｉｎｇｕａｌｃｏｒｐｏｒａ”．ＩｎＰｒｏｃｏｆｔｈｅ１６ｔｈＣＯＬＩＮＧ，ｐｐ．４６０−４６５．Ｃｏｐｅｎｈａｇｅｎ．Ｄｅｎｍａｒｋ．１９９６．）
［５］Ｋ．ヤマモト、Ｙ．マツモト、『依存構造を用いた句レベルのバイリンガル対応の獲得』、第１４回ＣＯＬＩＮＧ予稿集、９３３−９３９頁、ザールブリュッケン、ドイツ。（Ｋ．ＹａｍａｍｏｔｏａｎｄＹ．Ｍａｔｓｕｍｏｔｏ． “Ａｃｑｕｉｓｉｔｉｏｎｏｆｐｈｒａｓｅ−ｌｅｖｅｌｂｉｌｉｎｇｕａｌｃｏｒｒｅｓｐｏｎｄｅｎｃｅｕｓｉｎｇｄｅｐｅｎｄｅｎｃｙｓｔｒｕｃｔｕｒｅ”．ＩｎＰｒｏｃ．ｏｆｔｈｅ１８ｔｈＣＯＬＩＮＧ，ｐｐ．９３３−９３９．Ｓａａｒｂｒｕｅｃｋｅｎ．Ｇｅｒｍａｎｙ．）
［６］Ｋ．イマムラ、『パーシングによりハーモナイズされた階層的句対応付け』、ＮＬＰＲＳ，‘０１予稿集、３７７−３８４頁、東京、日本、２００１年。（Ｋ．Ｉｍａｍｕｒａ． “Ｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅａｌｉｇｎｍｅｎｔｈａｒｍｏｎｉｚｅｄｗｉｔｈｐａｒｓｉｎｇ”．ＩｎＰｒｏｃｏｆＮＬＰＲＳ’０１，ｐｐ．３７７−３８４．Ｔｏｋｙｏ．Ｊａｐａｎ．２００１．）
［７］Ｓ．リチャードソン、Ｗ．ドーラン、Ａ．メンゼス、Ｊ．ピンカーン、『例ベースの方法による商業品質の翻訳の達成』、機械翻訳サミット、ＶＩＩＩ、２９３−２９７頁、サンチャゴデコンポステラ、スペイン、２００１年。（Ｓ．Ｒｉｃｈａｒｄｓｏｎ，Ｗ．Ｄｏｌａｎ，Ａ．Ｍｅｎｅｚｅｓ，ａｎｄＪ．Ｐｉｎｋｈａｍ． “Ａｃｈｉｅｖｉｎｇｃｏｍｍｅｒｃｉａｌ−ｑｕａｌｉｔｙｔｒａｎｓｌａｔｉｏｎｗｉｔｈｅｘａｍｐｌｅ−ｂａｓｅｄｍｅｔｈｏｄｓ”．ＩｎｐｒｏｃｏｆｔｈｅＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｕｍｍｉｔＶＩＩＩ，ｐｐ．２９３−２９７．ＳａｎｔｉａｇｏｄｅＣｏｍｐｏｓｔｅｌａ．Ｓｐａｉｎ．２００１．）
この実施例では、イマムラ［６］の提案する、階層的句対応付けアルゴリズムを利用する。
【００４６】
この方法では、部分的な分析結果から、バイリンガルテキストを句対句で対応付ける。始めに、両方のセンテンスを形態素分析し、チャートパーサを用いてパースし、その結果、（おそらくは部分的な）センテンス構造を得る。第二のステップでは、単語間のリンクを確定する。最後に、対応する句同士が両方のパースツリーのノードの統語的カテゴリの類似性に従って特定される。もし、あるセンテンスを完全にパースすることができなければ、システムは対応付け処理のために部分的な結果ツリーの組合せを用いる。割当ての曖昧さは、言語間の構造的類似性を用いて解決できる。
【００４７】
バイリンガルセンテンス間の句対応付けの例を図９に示す。図９を参照して、丸で囲んだ語と接続線とが、語の対応付けを示す。これらの制約を元に、両センテンス構造を比較することができ、等価な句を抽出することができる。用いられている略語については図９の表を参照されたい。タグ付け部６とパーサ８とはセンテンスをパースし、分析する役割を果たす。
【００４８】
抽出された等価な句を図１０に示す。例の中の等価な句（２）ＮＰ（名詞句）および（４）ＮＰは、英語の数を、対応する日本語の数詞表現と対応付けている。英語の句、”ａｔｓｅｖｅｎ”が時間の表現であり、（“Ｘ時”＝“Ｘｏ’ｃｌｏｃｋ”）、”ｔｗｏ”が予約する人の数である（“Ｘ人”＝“Ｘｐｅｒｓｏｎ（ｓ）”）と解釈することができる。
【００４９】
ターゲット語割当てモジュール
その後、数値表現を含む対応付けられた句の全てが入力センテンスにマッピングされる。すなわち、句対応付けの表層語が、図１１に示すように、ＤＰマッチングの挿入（Ｉ）、削除（Ｄ）、置換（Ｓ）のシーケンスをマッピング規則として利用して、入力センテンスのそれらに置き換えられる。図１１では、「Ｏ」、「Ｉ」、「Ｓ」のマークはそれぞれ「オリジナル」（挿入、削除、置換なし）、「置換」、「削除」を示す。図１１には挿入は示されていない。
【００５０】
こうして、英語の入力内の数の各々について、日本語の数詞との可能な対応付けのリストが得られる。マッチする発話の頻度と対応付けられた数の句とに基づき、最も頻度の高いものを選択して、割当てられる数詞表現を生成する。
【００５１】
加えて、ＤＰマッチにより得られる、日本語の発話の各々において得られたパターンの照応を示すヒューリスティックな規則の組からも、数詞の種類を得ることができる。これらの規則はそれぞれのセンテンスのパターン構成要素の存在と順序とを検証し、数詞の生成には最も頻度の高い種類が選択される。
【００５２】
具体例
図２に示される例２を用いて、この実施例中の情報の流れと、装置および方法の動作とを説明する。入力センテンスは、“Ｉｗｏｕｌｄｌｉｋｅｔｏｒｅｓｅｒｖｅａｔａｂｌｅｆｏｒｔｗｏａｔｅｉｇｈｔ．”であり、この英語センテンスから２個の数値表現、すなわち（Ａ）ｔｗｏと（Ｂ）ｅｉｇｈｔとを抽出することができる。
【００５３】
取出しモジュール１２が、バイリンガルコーパス２０をスキャンし、シソーラス４を利用して、入力された英語センテンスと英語センテンス例とのＤＰマッチングにより、図１２に示すような４個のセンテンス対を取出すと仮定する。各例の対に対するＤＰマッチングの結果を示すが、ここで、「Ｏ」、「Ｉ」、「Ｄ」および「Ｓ」はそれぞれ「オリジナル」、「挿入」、「削除」、「置換」を示す。「Ｏ」、「Ｉ」、「Ｄ」の各々の場合について、対応する語を括弧内に示す。置換については、置換される語の両方を括弧内に示す。
【００５４】
たとえば、（２）では、“ｉ”、“ｗｏｕｌｄ”、“ｌｉｋｅ”、“ｔｏ”、“ｒｅｓｅｒｖｅ”、“ａ”、“ｔａｂｌｅ”、および“ｆｏｒ”の語は入力センテンスとセンテンス例とで共通である。センテンス例の語“８”（ｅｉｇｈｔ）は、“２”に置換されている。“ａｔ”と“ｅｉｇｈｔ”の語が入力センテンス中に挿入されている。
【００５５】
対応付けモジュール１４はコーパス２０から取出したセンテンス対を分析し、取出されたセンテンス対の数値表現を対応付ける。結果は図１３に示すとおりである。たとえば、図１２の（１）では、“ｆｏｕｒ”が「４人分」と対応付けられている。図１２の（２）では、“ｅｉｇｈｔ”が「８時」と対応付けられている。図１２の（３）では、“ｔｗｏ”が「２人」と対応付けられている。最後に、図１２の（４）では、“ｔｈｒｅｅ”が「３人」と対応付けられている。２個の日本語表現（例（３）と（４））が数詞「人」に対応し、他の数詞は全て一度しか現れないので、翻訳生成のための最も頻度の高いターゲット語として、「人」が選ばれる。
【００５６】
同様に、図１３（Ｂ）に示されるように、「時」の数詞が翻訳生成のために選ばれる。
【００５７】
対応付けモジュール１６は、取出しモジュール１２によって取出された英語のセンテンスから、入力センテンスに最も近い英語センテンスを選択する。図１２に示した例では、３番目の例が式（１）で計算された最も短い距離を有し、従って、このセンテンス対が翻訳の基礎として選択される。入力センテンス中の語“ｔｗｏ”が英語センテンスの語“ｔｗｏ”にマッピングされる。英語センテンスの語“ｔｗｏ”は対応する日本語センテンスの「２人」と対応付けられており、マッピング規則「（：Ｏ（“２”））」を利用し、対応付けモジュール１４によって選択された数詞を割当てることにより、入力センテンスの語“ｔｗｏ”に対する翻訳として「２人」が生成される。
【００５８】
同様に、入力センテンスの句“ａｔｅｉｇｈｔ”の訳として、「８時」が生成される。この場合、「７時」に対しマッピング規則「（：Ｓ（“７”）（“８”）」が適用され、数詞「時」が割当てられて、「８時」の表現が生成される。
【００５９】
このようにして得られた翻訳の結果は、「８時に２人で予約をしたいのです」となる。
【００６０】
この実施例に従った数詞割当ての評価のため、英語の入力発話文、この発明のバイリンガルコーパスからの対応する日本語の発話文、抽出された数、およびこの実施例によって割当てられたそれぞれの数詞情報を、日本語を母語とする人に示して以下のランクづけを得た。
【００６１】
ランク評価
Ａコーパスのものと同じ数詞
Ｂ異なる数詞であるが、受容できる
Ｃ誤った数詞
Ｄ出力なし
コーパス２０から類似のセンテンスを取出す際の距離しきい値が小さいほど、取出せる例は少なくなり、（正しく割当てられた数詞の数）／（テストの組の数値の数）＝（Ａ＋Ｂ）／（Ａ＋Ｂ＋Ｃ＋Ｄ）で計算されるシステムの再現率が減少した。しかし、例が類似すればするほど、より正確な数詞を選択することができ、（正しく割当てられた数詞の数）／（割当てられた数詞の数）＝（Ａ＋Ｂ）／（Ａ＋Ｂ＋Ｃ）で計算される正確さは増した。
【００６２】
ＤＰマッチングのしきい値をｄｉｓｔ＜０．３と選択すると、取出しステップで類似例が取出せない事または割当てモジュールでの失敗のため、再現率は４２．０％となる。各ランクの詳細な数を表１に示す。
【００６３】
【表１】

従って、うまくマッチングされ対応付けられたテスト発話文の８４．２％について、正しく数詞を生成することができた。正しいマッチングサンプルの正確さ（ｄｉｓｔ＝０．０）は９０％である。再現率が低いのは、比較的長い発話を扱う場合の入力に類似する例の取出しが、現在の実現例では不備であることによるものである。このような欠点はあるものの、このアプローチはさまざまな自然言語に広く適用可能である。さらに、ここで評価された作業に限らず、多くの名詞句、または、数、時制、モダリティなど、一方の言語では明示的に表わされないが他方の言語では必須であるような、他の言語学的特徴に関する語の曖昧さをなくすことにも拡張可能である。
【００６４】
この発明を具体的な実施例を参照して説明したが、この発明はこれに限られるものではない。発明の範囲は請求項によってのみ制限される。
【図面の簡単な説明】
【図１】日本語の数詞「枚」の訳例を表形式で示す図である。
【図２】英語の数の訳例を表形式で示す図である。
【図３】例示のバイリンガルコーパスに見られる日本語の数詞を表形式で示す図である。
【図４】この発明の実施例を実現するシステムの概略図である。
【図５】シソーラスの構造を示す機能図である。
【図６】この発明の実施例が実現されるコンピュータシステムの斜視図である。
【図７】図６のコンピュータシステムの内部構成図である。
【図８】この発明の実施例に従ったシステムの動作の制御全体を示すフローチャートである。
【図９】この発明の実施例で行なわれる語の対応付けを示す概略図である。
【図１０】この発明の実施例で対応付けられる句を示す概略図である。
【図１１】この発明の実施例における数詞の対応付け、マッピングおよび割当ての処理を示す概略図である。
【図１２】この発明の実施例においてバイリンガルコーパスから抽出される対と、その対応のＤＰマッチング動作とを、表形式で示す概略図である。
【図１３】数詞判定の処理を示す概略図である。
【図１４】対応付けおよび割当て処理を示す概略図である。
【符号の説明】
４シソーラス、６形態素タグ付け部、８パーサ、１０入力センテンス、１２取出しモジュール、１４対応付けモジュール、１６割当てモジュール、２０バイリンガルコーパス。

Claims

第一の表現形態の入力表現において特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法であって、
（ａ）コンピュータで読取可能な表現対の集合を準備するステップを含み、前記表現対の各々は前記第一の表現形態の第一の表現と第二の表現形態の第二の表現とを含み、同じ表現対の第一の表現と第二の表現とは実質的に同じ意味を有し、
（ｂ）コンピュータに、前記入力表現と予め定められた関係を満足する第一の表現を含む表現対を前記集合から選択させるステップと、
（ｃ）コンピュータに、ステップ（ｂ）で選択された表現対の各々において第一の表現と第二の表現とを対応付けさせ、第一の表現と第二の表現の、前記入力表現の特定の構成要素に対応する、対応の構成要素を特定させるステップと、
（ｄ）コンピュータに、ステップ（ｃ）で特定された第二の表現の構成要素の少なくとも一部に明示的に表現されており、かつステップ（ｃ）で特定された第一の表現の構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を前記入力表現の特定の構成要素に割り当てさせるステップとをさらに含む、方法。
ステップ（ｂ）は、
（ｂ１）コンピュータに、前記入力表現と、集合中の表現対の各々の第一の表現との意味的距離を計算させるステップと、
（ｂ２）コンピュータに、前記入力表現からの意味的距離が予め定められたしきい値以下の第一の表現を含む表現対を選択させるステップとを含む、請求項１に記載の方法。
ステップ（ｂ１）は、
（ｂ１１）コンピュータに、前記入力表現と、前記集合中の表現対の各々の第一の表現との意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項２に記載の方法。
第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
ステップ（ｂ１１）は
コンピュータに、前記シソーラスを参照して、前記入力表現と表現対の各々の第一の表現との間で、前記入力表現と表現対の各々の第一の表現のうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
前記操作の回数の合計を計算するステップと、
前記合計を、前記入力表現の長さと表現対の各々の第一の表現の長さとの合計により正規化するステップとをさらに含む、請求項３に記載の方法。
前記第一の表現形態と前記第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
ステップ（ｂ１１）は
コンピュータに、以下の式により意味的距離を計算させるステップを含み、

ここでＩおよびＤはそれぞれ挿入操作および削除操作の回数を示し、Ｋは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Ｎは前記シソーラスの高さを示し、Ｌ_{ｉｎｐｕｔ}は前記入力表現の長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は各表現対の第一の表現の長さを示す、請求項３に記載の方法。
第一の表現形態の入力表現において特定の構成要素により、明示的にではなく暗黙に含まれる情報を、コンピュータで読取可能な表現対の集合を用いて復元させる方法をコンピュータに行なわせるためのコンピュータで実行可能なプログラムであって、前記表現対の各々は前記第一の表現形態の第一の表現と第二の表現形態の第二の表現とを含み、同じ表現対の第一の表現と第二の表現とは実質的に同じ意味を有し、前記復元方法は、
（ｂ）コンピュータに、前記入力表現と予め定められた関係を満足する第一の表現を含む表現対を前記集合から選択させるステップと、
（ｃ）コンピュータに、ステップ（ｂ）で選択された表現対の各々において第一の表現と第二の表現とを対応付けさせ、第一の表現と第二の表現の、前記入力表現の特定の構成要素に対応する、対応の構成要素を特定させるステップと、
（ｄ）コンピュータに、ステップ（ｃ）で特定された第二の表現の構成要素の少なくとも一部に明示的に表現されており、かつステップ（ｃ）で特定された第一の表現の構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を前記入力表現の特定の構成要素に割り当てさせるステップとをさらに含む、プログラム。
ステップ（ｂ）は、
（ｂ１）コンピュータに、前記入力表現と、前記集合中の表現対の各々の第一の表現との意味的距離を計算させるステップと、
（ｂ２）コンピュータに、前記入力表現からの意味的距離が予め定められたしきい値以下の第一の表現を含む表現対を選択させるステップとを含む、請求項６に記載のプログラム。
ステップ（ｂ１）は、
（ｂ１１）コンピュータに、前記入力表現と、集合中の表現対の各々の第一の表現との意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項７に記載のプログラム。
第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
ステップ（ｂ１１）は
コンピュータに、前記シソーラスを参照して、前記入力表現と表現対の各々の第一の表現との間での、入力シーケンスと表現対の各々の第一の表現のうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
前記操作の回数の合計を計算するステップと、
前記合計を、前記入力表現の長さと表現対の各々の第一の表現の長さとの合計により正規化するステップとをさらに含む、請求項８に記載のプログラム。
前記第一の表現形態と前記第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
ステップ（ｂ１１）は
コンピュータに、以下の式により意味的距離を計算させるステップを含み、

ここでＩおよびＤはそれぞれ挿入操作および削除操作の回数を示し、Ｋは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Ｎは前記シソーラスの高さを示し、Ｌ_{ｉｎｐｕｔ}は入力表現の長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は各表現対の第一の表現の長さを示す、請求項８に記載のプログラム。
ソース言語の入力シーケンスにおいて特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法であって、
（ａ）コンピュータで読取可能なシーケンス対のバイリンガルコーパスを準備するステップを含み、各シーケンス対は前記ソース言語の第一のシーケンスとターゲット言語の第二のシーケンスとを含み、同じシーケンス対の第一のシーケンスと第二のシーケンスとは実質的に同じ意味を有し、
（ｂ）コンピュータに、前記入力シーケンスと予め定められた関係を満足する第一のシーケンスを含むシーケンス対を前記バイリンガルコーパスから選択させるステップと、
（ｃ）コンピュータに、ステップ（ｂ）で選択された各シーケンス対において第一のシーケンスと第二のシーケンスとを対応付けさせ、第一のシーケンスと第二のシーケンスの、入力シーケンスの特定の構成要素に対応する、対応の構成要素を特定させるステップと、
（ｄ）コンピュータに、ステップ（ｃ）で特定された第二のシーケンスの構成要素の少なくとも一部に明示的に表現されており、かつステップ（ｃ）で特定された第一のシーケンスの構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力シーケンスの特定の構成要素に割り当てさせるステップとをさらに含む、方法。
ステップ（ｂ）は、
（ｂ１）コンピュータに、前記入力シーケンスと、前記バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離を計算させるステップと、（ｂ２）コンピュータに、前記入力シーケンスからの意味的距離が予め定められたしきい値以下の第一のシーケンスを含むシーケンス対を選択させるステップとを含む、請求項１１に記載の方法。
ステップ（ｂ１）は、
（ｂ１１）コンピュータに、前記入力シーケンスと、バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項１２に記載の方法。
前記ソース言語と前記ターゲット言語のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
ステップ（ｂ１１）は
コンピュータに、前記シソーラスを参照して、前記入力シーケンスと各シーケンス対の第一のシーケンスとの間での、前記入力シーケンスと各シーケンス対の第一のシーケンスとのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
前記操作の回数の合計を計算するステップと、
前記合計を、前記入力シーケンスの長さと各シーケンス対の第一のシーケンスの長さとの合計により正規化するステップとをさらに含む、請求項１３に記載の方法。
前記ソース言語と前記ターゲット言語のためのコンピュータで読取可能なシソーラスがコンピュータに接続されており、
ステップ（ｂ１１）は
コンピュータに、以下の式により意味的距離を計算させるステップを含み、

ここでＩおよびＤはそれぞれ挿入操作および削除操作の回数を示し、Ｋは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Ｎは前記シソーラスの高さを示し、Ｌ_{ｉｎｐｕｔ}は前記入力シーケンスの長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は各シーケンス対の第一のシーケンスの長さを示す、請求項１３に記載の方法。
ソース言語の入力シーケンスにおいて特定の構成要素により、明示的にではなく暗黙に含まれる情報を復元させる方法をコンピュータに行なわせるためのコンピュータで実行可能なプログラムであって、前記方法は、
シーケンス対からなる、コンピュータで読取可能なバイリンガルコーパスを準備するステップを含み、各シーケンス対は前記ソース言語の第一のシーケンスとターゲット言語の第二のシーケンスとを含み、同じシーケンス対の第一のシーケンスと第二のシーケンスとは実質的に同じ意味を有し、さらに、
（ｂ）コンピュータに、前記入力シーケンスと予め定められた関係を満足する第一のシーケンスを含むシーケンス対を前記バイリンガルコーパスから選択させるステップと、
（ｃ）コンピュータに、ステップ（ｂ）で選択された各シーケンス対において第一のシーケンスと第二のシーケンスとを対応付けさせ、第一のシーケンスと第二のシーケンスの、前記入力シーケンスの特定の構成要素に対応する、対応の構成要素を特定させるステップと、
（ｄ）コンピュータに、ステップ（ｃ）で特定された第二のシーケンスの構成要素の少なくとも一部に明示的に表現されており、かつステップ（ｃ）で特定された第一のシーケンスの構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力シーケンスの特定の構成要素に割り当てるステップとをさらに含む、プログラム。
ステップ（ｂ）は、
（ｂ１）コンピュータに、前記入力シーケンスと、前記バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離を計算させるステップと、（ｂ２）コンピュータに、前記入力シーケンスからの意味的距離が予め定められたしきい値以下の第一のシーケンスを含むシーケンス対を選択させるステップとを含む、請求項１６に記載のプログラム。
ステップ（ｂ１）は、
（ｂ１１）コンピュータに、前記入力シーケンスと、前記集合中の各シーケンス対の第一のシーケンスとの意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項１７に記載のプログラム。
第一のシーケンスと第二のシーケンスのためのコンピュータで読取可能なシソーラスがコンピュータに接続されており、
ステップ（ｂ１１）は
コンピュータに、前記シソーラスを参照して、前記入力シーケンスと各シーケンス対の第一のシーケンスとの間での、前記入力シーケンスと各シーケンス対の第一のシーケンスとのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
前記操作の回数の合計を計算するステップと、
前記合計を、前記入力シーケンスの長さと各シーケンス対の第一のシーケンスの長さとの合計により正規化するステップとをさらに含む、請求項１８に記載のプログラム。
前記ソース言語とターゲット言語のためのコンピュータで読取可能なシソーラスがコンピュータに接続されており、
ステップ（ｂ１１）は
コンピュータに、以下の式により意味的距離を計算させるステップを含み、

ここでＩおよびＤはそれぞれ挿入操作および削除操作の回数を示し、Ｋは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Ｎは前記シソーラスの高さを示し、Ｌ_{ｉｎｐｕｔ}は前記入力シーケンスの長さを示し、Ｌ_{ｅｘａｍｐｌｅ}は各シーケンス対の第一のシーケンスの長さを示す、請求項１８に記載のプログラム。