JP2004163991A - ソースシーケンスから情報を復元するための方法およびプログラム - Google Patents

ソースシーケンスから情報を復元するための方法およびプログラム Download PDF

Info

Publication number
JP2004163991A
JP2004163991A JP2002238818A JP2002238818A JP2004163991A JP 2004163991 A JP2004163991 A JP 2004163991A JP 2002238818 A JP2002238818 A JP 2002238818A JP 2002238818 A JP2002238818 A JP 2002238818A JP 2004163991 A JP2004163991 A JP 2004163991A
Authority
JP
Japan
Prior art keywords
expression
sequence
computer
input
causing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002238818A
Other languages
English (en)
Inventor
Paul Michael
ミヒャエル パウル
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002238818A priority Critical patent/JP2004163991A/ja
Publication of JP2004163991A publication Critical patent/JP2004163991A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

【課題】情報が明示的にではなく暗黙に表現されている場合に、ある表現形式から情報を復元可能な方法とプログラムを提供する。
【解決手段】この方法は、(a)バイリンガルコーパス20を準備するステップと、(b)入力センテンス10に最も近い英語のセンテンスを含むセンテンス対を選択するステップ(12)と、(c)選択された各対の英語と日本語のセンテンスとを対応付けて(14)、入力センテンス中の数に対応する英語と日本語の対応する句を特定できるようにするステップと、(d)用いるべき数詞を判定し、入力センテンス10中の特定の構成要素に対してその数詞を割当てるステップとを含む。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
この発明はソースシーケンスから情報を復元するための方法およびプログラムに関し、特に、この発明は、バイリンガルコーパス等の、異なる表現形式での表現例の集合の統計的情報を利用して、ある情報を明示的には表現していないソースシーケンスから、その情報を復元するための方法およびプログラムに関する。
【0002】
【従来の技術】
機械翻訳では、入力センテンスと出力センテンスとの意味が同じになるように、ソース語をターゲット言語に翻訳しなければならない。しかしこれは容易な課題ではない。なぜなら、特定の語の意味はそれらが用いられる文脈に依存して大きく変る可能性があるからである。
【0003】
典型的な例を、日本語の数詞にみることができる。日本語には多数の数詞があるが、英語等の他の言語にはそれがない。別の例は、英語には見られるが、日本語には見られない、語の活用である。数詞や語の活用形の選択はその語の意味に依存し、かつ英語には数詞がないので、機械翻訳で英語のセンテンスを正確に日本語に翻訳することは困難で、その逆もまた困難である。
【0004】
図1は、日本語の数詞「枚」の英語への翻訳を示す。図2は英語の数の日本語への翻訳を示す。図1および2から分かるように、数詞や語の活用形の選択に単純な規則を見出すことができない。
【0005】
このため、数を含む英語のセンテンスを翻訳する際には、機械翻訳では適切な数詞を生成しなければならない。日本語のセンテンスを翻訳する際には、数詞を省き、適切な形(単数、複数)を有する語を生成しなければならない。
【0006】
適切な数詞を割り当てるためのアプローチが、V.ソーンラートランヴァニック、W.パンタチャットおよびS.メクナビンの『コーパスベースのアプローチによる分類辞の割当』、第15回COLING予稿集、第152−154頁、1994年(by V. Sornlertlamvanich ,W. Pantachat and S. Meknavin in “Classifier assignment by corpus−based approach”, Proc. of the 15th COLING, pp. 152−159, 1994.)で提案されている。
【0007】
別のアプローチが、F.ボンドおよびK.パイクの『数詞生成のためのオントロジーの再利用』、第18回COLING予稿集、第90−96頁、2000年(F. Bond and K. Paik in “Reusing an ontology to generate numeral classifiers” in Proc. of the 18th COLING, pp. 90−96, 2000)で提案されている。
【0008】
【発明が解決しようとする課題】
上述の第一のアプローチは、入力センテンスの文脈を考慮にいれていない。このため、用いられる文脈に依存して形を変えた適切な数詞を生成することができない。
【0009】
第二のアプローチは数量を表す名詞のない数には適用できない。さらに、所与の入力センテンスの文脈に基づいて名詞のいくつかの意味を区別することもできない。
【0010】
考えられるアプローチの一つは、バイリンガルコーパスをスキャンして、翻訳機械のトレーニングを行ない、文脈によって最もふさわしいと判断された数詞を割り当てるようにすることである。しかし、数詞を割り当てる作業が困難なのは、トレーニング用コーパスから抽出される、割り当て可能な別々の数詞の数が非常に多いからである。このように多数の数詞分類からふさわしい数詞を選択するのは困難な作業であろう。
【0011】
一般に、明示的にではなく暗黙に表現された情報を機械で復元するのは容易ではない。もしこのような情報の復元が可能になれば、この技法は、数を含む名詞句や、数、時制、モダリティ等の他の言語学的特徴による語の曖昧さをなくすことに拡張できるであろう。この技法はさらに、言語処理以外の分野にも拡張可能かもしれない。
【0012】
従って、この発明の目的は、情報が明示的にではなく暗黙に表現されている場合に、ある表現からその情報を復元できる方法およびプログラムを提供することである。
【0013】
この発明の別の目的は、異なる表現形式の表現の集合から得られる統計的情報を利用して、情報が明示的にではなく暗黙に表現されている場合に、ある表現からその情報を復元できる方法およびプログラムを提供することである。
【0014】
【課題を解決するための手段】
この発明のある局面によれば、第一の表現形態の入力表現において特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法は、(a)コンピュータで読取可能な表現対の集合を準備するステップを含む。表現対の各々は第一の表現形態の第一の表現と第二の表現形態の第二の表現とを含み、同じ表現対の第一の表現と第二の表現とは実質的に同じ意味を有する。この方法はさらに、(b)コンピュータに、入力表現と予め定められた関係を満足する第一の表現を含む表現対を集合から選択させるステップと、(c)コンピュータに、ステップ(b)で選択された表現対の各々において第一の表現と第二の表現とを対応付けさせ、第一の表現と第二の表現の、入力表現の特定の構成要素に対応する、対応の構成要素を特定させるステップと、(d)コンピュータに、ステップ(c)で特定された第二の表現の構成要素の少なくとも一部に明示的に表現されており、かつステップ(c)で特定された第一の表現の構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力表現の特定の構成要素に割り当てさせるステップとをさらに含む。
【0015】
ステップ(b)は、(b1)コンピュータに、入力表現と、集合中の表現対の各々の第一の表現との意味的距離を計算させるステップと、(b2)コンピュータに、入力表現からの意味的距離が予め定められたしきい値以下の第一の表現を含む表現対を選択させるステップとを含む。
【0016】
ステップ(b1)は、(b11)コンピュータに、入力表現と、集合中の表現対の各々の第一の表現との意味的距離をダイナミックプログラミングにより計算させるステップを含む。
【0017】
この発明のある局面によれば、この方法は第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、ステップ(b11)は、コンピュータに、シソーラスを参照して、入力シーケンスと表現対の各々の第一の表現との間での、入力シーケンスと表現対の各々の第一の表現とのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、この操作の回数の合計を計算するステップと、計算された合計を、入力表現の長さと表現対の各々の第一の表現の長さとの合計により正規化するステップとをさらに含む。
【0018】
この方法はさらに、第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップを含み、ステップ(b11)はコンピュータに、以下の式により意味的距離を計算させるステップを含み、
【0019】
【数5】
Figure 2004163991
ここでIおよびDはそれぞれ挿入操作および削除操作の回数を示し、Kは置換操作により置換された要素の、シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Nはシソーラスの高さを示し、Linputは入力表現の長さを示し、Lexampleは各表現対の第一の表現の長さを示す。
【0020】
この発明の別の局面によれば、ソース言語の入力シーケンスにおいて特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法は、(a)コンピュータで読取可能なシーケンス対のバイリンガルコーパスを準備するステップを含む。各シーケンス対はソース言語の第一のシーケンスとターゲット言語の第二のシーケンスとを含み、同じシーケンス対の第一のシーケンスと第二のシーケンスとは実質的に同じ意味を有する。この方法はさらに、(b)コンピュータに、入力シーケンスと予め定められた関係を満足する第一のシーケンスを含むシーケンス対をバイリンガルコーパスから選択させるステップと、(c)コンピュータに、ステップ(b)で選択された各シーケンス対において第一のシーケンスと第二のシーケンスとを対応付けさせ、第一のシーケンスと第二のシーケンスの、入力シーケンスの特定の構成要素に対応する、対応の構成要素を特定させるステップと、(d)コンピュータに、ステップ(c)で特定された第二のシーケンスの構成要素の少なくとも一部に明示的に表現されており、かつステップ(c)で特定された第一のシーケンスの構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力シーケンスの特定の構成要素に割り当てさせるステップとをさらに含む。
【0021】
ステップ(b)は、(b1)コンピュータに、入力シーケンスと、バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離を計算させるステップと、(b2)コンピュータに、入力シーケンスからの意味的距離が予め定められたしきい値以下の第一のシーケンスを含むシーケンス対を選択させるステップとを含む。
【0022】
ステップ(b1)は、(b11)コンピュータに、入力シーケンスと、バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離をダイナミックプログラミングにより計算させるステップを含む。
【0023】
この方法は、ソース言語とターゲット言語のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、ステップ(b11)はコンピュータに、シソーラスを参照して、入力シーケンスと各シーケンス対の第一のシーケンスとの間での、入力シーケンスと各シーケンス対の第一のシーケンスとのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、この操作の回数の合計を計算するステップと、この合計を、入力シーケンスの長さと各シーケンス対の第一のシーケンスの長さとの合計により正規化するステップとをさらに含む。
【0024】
ソース言語とターゲット言語のためのコンピュータで読取可能なシソーラスがコンピュータに接続されていてもよく、ステップ(b11)はコンピュータに、以下の式により意味的距離を計算させるステップを含み、
【0025】
【数6】
Figure 2004163991
ここでIおよびDはそれぞれ挿入操作および削除操作の回数を示し、Kは置換操作により置換された要素の、シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Nはシソーラスの高さを示し、Linputは入力シーケンスの長さを示し、Lexampleは各シーケンス対の第一のシーケンスの長さを示す。
【0026】
上述の方法は、コンピュータで実行可能なプログラムで実現されてもよい。
【0027】
【発明の実施の形態】
語選択作業に必要とされる文脈情報は、それぞれのバイリンガルセンテンス対間の句の対応に基づいてバイリンガルコーパスから得ることができる。以下で、図4から図12を参照して、この発明の装置と方法の実施例を説明する。
【0028】
図4はこの発明の実施例の装置のブロック図である。図4を参照して、装置2は、コンピュータ読取可能なバイリンガルコーパス20を含み、その中ではセンテンスが予め対応付けられており、さらに装置2は、日本語と英語とのシソーラス4を含み、これは語の対応付けを支援するとともに語間の意味的距離を考慮するのに用いられる。
【0029】
シソーラス4は、日本語のシソーラスと英語のシソーラスとを含む。図5は日本語のシソーラスの構造を例示する。図5を参照して、シソーラスは、管理されたインデックス語のコンピュータ読取可能なボキャブラリであり、形式的に階層構造に組織化され、概念間の自明な関係(たとえば「広い」と「狭い」等)が明示的に表現されている。たとえば、「りんご」という語を特定することで、「りんご」よりも広い概念である「果物」という概念を取り出すことができる。
【0030】
この装置はさらに、入力センテンス10と、同じ言語のトレーニングセンテンスとの「ダイナミックプログラミング」マッチングを行なってトレーニングコーパスからバイリンガルセンテンス対を取り出すための取出しモジュール12と、同じ意味を共有する表現間の、翻訳上の等価性に関する知識を抽出し、対応する句を同定するための句対応付けモジュール14と、対応付けモジュールによって用いられる形態素タグ付け部6および英和パーサ8と、対応付けられた句の知識を再利用して、文脈に即したターゲット表現を選択し、ターゲット表現を翻訳出力18に挿入するためのターゲット語割当モジュール16とを含む。
【0031】
図6はこの実施例のシステムの外観図であり、図7はシステム30のブロック図である。図6を参照して、この実施例を実現するコンピュータシステム30は、FD(フレキシブルディスク)ドライブ52およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ50を有するコンピュータ40と、キーボード46と、マウス48と、モニタ42とを含む。
【0032】
図7を参照して、コンピュータ40は、FDドライブ52およびCD−ROMドライブ50に加えて、CPU(中央処理装置)56と、CPU56、FDドライブ52およびCD−ROMドライブ50に接続されたバス66と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)58と、バス66に接続され、プログラム命令、システムプログラム、およびデータを記憶するランダムアクセスメモリ(RAM)60とを含む。
【0033】
ここでは示さないが、コンピュータ40はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
【0034】
コンピュータシステム30にこの機械翻訳方法を行なわせるプログラムは、CD−ROMドライブ50またはFDドライブ52に挿入されるCD−ROM62またはFD64に記憶されさらにハードディスク54に転送されてもよい。これに代えて、プログラムは図示しないネットワークを通じてコンピュータ40に送信されハードディスク54に記憶されてもよい。プログラムは実行の際にRAM60にロードされる。プログラムはCD−ROM62、FD64、またはネットワークを介してRAM60に直接ロードされてもよい。
【0035】
以下に説明するプログラムは、コンピュータ40にこの実施例の方法を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能の幾つかはコンピュータ40のオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ40にインストールされたモジュールにより提供されるので、このプログラムはこの実施例の方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより最適化プロセスを実行する命令のみを含んでいればよい。コンピュータシステム30の動作は周知であるので、ここでは繰り返さない。
【0036】
プログラムのフローチャート
図8はコンピュータ40上で実行されるプログラムの制御の流れを示すフローチャートである。図8に示されるステップは図4のモジュールに対応し、それらの動作の詳細は追って説明する。ここでは、コンピュータ40の一般的動作を説明する。
【0037】
ステップ100で、ある英語のセンテンスが与えられると、コーパス20内のソース(英語)センテンス例であって入力センテンスに最も類似するものが、入力センテンスとコーパス20内のセンテンス例とのDPマッチングにより選択される(ステップ102)。ステップ104で、選択された英語センテンスに対応するターゲット(日本語)センテンスが、コーパス20から選択される。
【0038】
ステップ106で、コーパス20から抽出された各対の英語と日本語のセンテンスが対応付けられ、対応付けられた句が抽出される。ステップ108で、数詞を含む対応付けられた句が抽出される。ステップ110で、挿入(I)、削除(D)、置換(S)のDPマッチングシーケンスを逆転させることで、コーパスの対応付けが入力センテンスにマッピングされる。最後に、ステップ112で、数に関する、句の対応付けのターゲット(日本語)情報を用いて翻訳が生成され出力される。
【0039】
センテンス取出しモジュール
ある入力センテンス10が与えられると、取出しモジュール12は、シソーラス4を参照して語の意味的距離を測定しながら入力センテンス10とセンテンス例とのDP(ダイナミックプログラミング)マッチングを行なって、入力センテンス10と最も類似する例をバイリンガルコーパス20から取出す。バイリンガルコーパス中の全てのセンテンス例のソース部分が調べられる。入力センテンスとセンテンス例との語のシーケンス間の距離を測定することにより、最小距離を示す例が取出される。ただし、距離が所与のしきい値より小さいことが前提条件であり、さもなければ、取出しモジュールはなんら結果を出力しない。
【0040】
距離は、以下の標準的なダイナミックプログラム技術によって計算される。
【0041】
【数7】
Figure 2004163991
ここで、「I」は入力センテンスを得るためにセンテンス例から削除された語の数を示し、「D」は入力センテンスを得るためにセンテンス例に挿入された語の数を示し、最後の項は置換の重みを示す。置換は、センテンス例と挿入されたセンテンスとの間で2個の置換された語同士の意味的距離を考慮し、2個の語のシソーラスにおける共通の抽象化レベルのうち最小のレベルであるKを、シソーラスの高さNで除算したものとして定義される。図5に示された例では、N=4、K=1である。Linputはソースシーケンスの長さを示し、Lexampleは例示シーケンスの長さを示す。
【0042】
簡潔に言えば、挿入(I)、削除(D)、置換(S)の操作回数が合計され、その総計が、ソースの長さ(Linput)と例示シーケンスの長さ(Lexample)との合計で正規化される。
【0043】
句対応付けモジュール
ある日本語のテキストとその英訳とが与えられると、対応付けモジュール14は句対応付けアルゴリズムを用いて、同じ意味を共有する表現間の翻訳上の等価性についての知識を抽出する。「句の対応付け」という用語は、バイリンガルのセンテンス間で、互いに等価な、部分的な語のシーケンスを抽出することを指す。単語だけでなく、名詞句、または動詞句といったより複雑な文法的構成要素も、各センテンスの統語構造に基づいて対応付けることができる。
【0044】
等価な句は、二つの言語間での対応する表現を示す。バイリンガルセンテンス間の語シーケンスは同じ意味的情報を有するとの仮定のもので、一方の言語にはあるが他方の言語にはない特定の特徴に関する知識を、これらの句の対応付けから抽出することができる。
【0045】
さまざまな句の対応付け方法が提案されている。例を挙げれば以下の通りである。
[1]H.カジ、Y.キダ、Y.モリモト、『バイリンガルテキストからの翻訳テンプレートの学習』、第14回COLING予稿集、フランス、1992年。(H. Kaji, Y. Kida, and Y. Morimoto. “Learning translation templates from bilingual text”. In Proc of the 14th COLING. France. 1992.)
[2]Y.マツモト、H.イシモト、T.ウツロ、『パラレルテキストの構造的マッチング』第31回ACL予稿集、23−30頁、1993年。( Y. Matsumoto, H. Ishimoto, and T. Utsuro. “Structural matching of parallel texts2. In Proc. of the 31st ACL., pp. 23−30. 1993.)
[3]M.キタムラ、Y.マツモト、『パラレルコーパラから獲得される翻訳規則に基づく機械翻訳システム』、NLPの進展、予稿集、27−36頁、1995年。(M. Kitamura and Y. Matsumoto. “A machine translation system based on translation rules acquired from parallel corpora”. In Proc. of Recent Advances in NLP, pp. 27−36. 1995.)
[4]A.メイヤース、R.ヤンバーガ、R.グリシャム『バイリンガルコーポラのための共有フォレストの対応付け』、第14回COLING予稿集、460−465頁、コペンハーゲン、デンマーク、1996年。([4] A Meyers, R.Yarngaber, and R. Grishman. “Alignment of shared forests forbilingual corpora”. In Proc of the 16th COLING, pp. 460−465.Copenhagen. Denmark. 1996.)
[5]K.ヤマモト、Y.マツモト、『依存構造を用いた句レベルのバイリンガル対応の獲得』、第14回COLING予稿集、933−939頁、ザールブリュッケン、ドイツ。(K. Yamamoto and Y. Matsumoto. “Acquisition of phrase−level bilingual correspondence using dependency structure”.In Proc. of the 18th COLING, pp. 933−939. Saarbruecken. Germany.)
[6]K.イマムラ、『パーシングによりハーモナイズされた階層的句対応付け』、NLPRS,‘01予稿集、377−384頁、東京、日本、2001年。(K. Imamura. “Hierarchical phrase alignment harmonized with parsing”. In Proc of NLPRS’01, pp. 377−384. Tokyo. Japan. 2001.)
[7]S.リチャードソン、W.ドーラン、A.メンゼス、J.ピンカーン、『例ベースの方法による商業品質の翻訳の達成』、機械翻訳サミット、VIII、293−297頁、サンチャゴ デ コンポステラ、スペイン、2001年。(S. Richardson, W. Dolan, A. Menezes, and J. Pinkham. “Achieving commercial−quality translation with example−based methods”. In procof the Machine Translation Summit VIII, pp. 293−297. Santiagode Compostela. Spain. 2001.)
この実施例では、イマムラ[6]の提案する、階層的句対応付けアルゴリズムを利用する。
【0046】
この方法では、部分的な分析結果から、バイリンガルテキストを句対句で対応付ける。始めに、両方のセンテンスを形態素分析し、チャートパーサを用いてパースし、その結果、(おそらくは部分的な)センテンス構造を得る。第二のステップでは、単語間のリンクを確定する。最後に、対応する句同士が両方のパースツリーのノードの統語的カテゴリの類似性に従って特定される。もし、あるセンテンスを完全にパースすることができなければ、システムは対応付け処理のために部分的な結果ツリーの組合せを用いる。割当ての曖昧さは、言語間の構造的類似性を用いて解決できる。
【0047】
バイリンガルセンテンス間の句対応付けの例を図9に示す。図9を参照して、丸で囲んだ語と接続線とが、語の対応付けを示す。これらの制約を元に、両センテンス構造を比較することができ、等価な句を抽出することができる。用いられている略語については図9の表を参照されたい。タグ付け部6とパーサ8とはセンテンスをパースし、分析する役割を果たす。
【0048】
抽出された等価な句を図10に示す。例の中の等価な句(2)NP(名詞句)および(4)NPは、英語の数を、対応する日本語の数詞表現と対応付けている。英語の句、”at seven”が時間の表現であり、(“X 時”=“X o’clock”)、”two”が予約する人の数である(“X 人”=“X person(s)”)と解釈することができる。
【0049】
ターゲット語割当てモジュール
その後、数値表現を含む対応付けられた句の全てが入力センテンスにマッピングされる。すなわち、句対応付けの表層語が、図11に示すように、DPマッチングの挿入(I)、削除(D)、置換(S)のシーケンスをマッピング規則として利用して、入力センテンスのそれらに置き換えられる。図11では、「O」、「I」、「S」のマークはそれぞれ「オリジナル」(挿入、削除、置換なし)、「置換」、「削除」を示す。図11には挿入は示されていない。
【0050】
こうして、英語の入力内の数の各々について、日本語の数詞との可能な対応付けのリストが得られる。マッチする発話の頻度と対応付けられた数の句とに基づき、最も頻度の高いものを選択して、割当てられる数詞表現を生成する。
【0051】
加えて、DPマッチにより得られる、日本語の発話の各々において得られたパターンの照応を示すヒューリスティックな規則の組からも、数詞の種類を得ることができる。これらの規則はそれぞれのセンテンスのパターン構成要素の存在と順序とを検証し、数詞の生成には最も頻度の高い種類が選択される。
【0052】
具体例
図2に示される例2を用いて、この実施例中の情報の流れと、装置および方法の動作とを説明する。入力センテンスは、“I would like to reserve a table for two at eight.”であり、この英語センテンスから2個の数値表現、すなわち(A)twoと(B)eightとを抽出することができる。
【0053】
取出しモジュール12が、バイリンガルコーパス20をスキャンし、シソーラス4を利用して、入力された英語センテンスと英語センテンス例とのDPマッチングにより、図12に示すような4個のセンテンス対を取出すと仮定する。各例の対に対するDPマッチングの結果を示すが、ここで、「O」、「I」、「D」および「S」はそれぞれ「オリジナル」、「挿入」、「削除」、「置換」を示す。「O」、「I」、「D」の各々の場合について、対応する語を括弧内に示す。置換については、置換される語の両方を括弧内に示す。
【0054】
たとえば、(2)では、“i”、“would”、“like”、“to”、“reserve”、“a”、“table”、および“for”の語は入力センテンスとセンテンス例とで共通である。センテンス例の語“8”(eight)は、“2”に置換されている。“at”と“eight”の語が入力センテンス中に挿入されている。
【0055】
対応付けモジュール14はコーパス20から取出したセンテンス対を分析し、取出されたセンテンス対の数値表現を対応付ける。結果は図13に示すとおりである。たとえば、図12の(1)では、“four”が「4人分」と対応付けられている。図12の(2)では、“eight”が「8時」と対応付けられている。図12の(3)では、“two”が「2人」と対応付けられている。最後に、図12の(4)では、“three”が「3人」と対応付けられている。2個の日本語表現(例(3)と(4))が数詞「人」に対応し、他の数詞は全て一度しか現れないので、翻訳生成のための最も頻度の高いターゲット語として、「人」が選ばれる。
【0056】
同様に、図13(B)に示されるように、「時」の数詞が翻訳生成のために選ばれる。
【0057】
対応付けモジュール16は、取出しモジュール12によって取出された英語のセンテンスから、入力センテンスに最も近い英語センテンスを選択する。図12に示した例では、3番目の例が式(1)で計算された最も短い距離を有し、従って、このセンテンス対が翻訳の基礎として選択される。入力センテンス中の語“two”が英語センテンスの語“two”にマッピングされる。英語センテンスの語“two”は対応する日本語センテンスの「2人」と対応付けられており、マッピング規則「(:O (“2”))」を利用し、対応付けモジュール14によって選択された数詞を割当てることにより、入力センテンスの語“two”に対する翻訳として「2人」が生成される。
【0058】
同様に、入力センテンスの句“at eight”の訳として、「8時」が生成される。この場合、「7時」に対しマッピング規則「(:S (“7”) (“8”)」が適用され、数詞「時」が割当てられて、「8時」の表現が生成される。
【0059】
このようにして得られた翻訳の結果は、「8時に2人で予約をしたいのです」となる。
【0060】
この実施例に従った数詞割当ての評価のため、英語の入力発話文、この発明のバイリンガルコーパスからの対応する日本語の発話文、抽出された数、およびこの実施例によって割当てられたそれぞれの数詞情報を、日本語を母語とする人に示して以下のランクづけを得た。
【0061】
ランク 評価
A コーパスのものと同じ数詞
B 異なる数詞であるが、受容できる
C 誤った数詞
D 出力なし
コーパス20から類似のセンテンスを取出す際の距離しきい値が小さいほど、取出せる例は少なくなり、(正しく割当てられた数詞の数)/(テストの組の数値の数)=(A+B)/(A+B+C+D)で計算されるシステムの再現率が減少した。しかし、例が類似すればするほど、より正確な数詞を選択することができ、(正しく割当てられた数詞の数)/(割当てられた数詞の数)=(A+B)/(A+B+C)で計算される正確さは増した。
【0062】
DPマッチングのしきい値をdist<0.3と選択すると、取出しステップで類似例が取出せない事または割当てモジュールでの失敗のため、再現率は42.0%となる。各ランクの詳細な数を表1に示す。
【0063】
【表1】
Figure 2004163991
従って、うまくマッチングされ対応付けられたテスト発話文の84.2%について、正しく数詞を生成することができた。正しいマッチングサンプルの正確さ(dist=0.0)は90%である。再現率が低いのは、比較的長い発話を扱う場合の入力に類似する例の取出しが、現在の実現例では不備であることによるものである。このような欠点はあるものの、このアプローチはさまざまな自然言語に広く適用可能である。さらに、ここで評価された作業に限らず、多くの名詞句、または、数、時制、モダリティなど、一方の言語では明示的に表わされないが他方の言語では必須であるような、他の言語学的特徴に関する語の曖昧さをなくすことにも拡張可能である。
【0064】
この発明を具体的な実施例を参照して説明したが、この発明はこれに限られるものではない。発明の範囲は請求項によってのみ制限される。
【図面の簡単な説明】
【図1】日本語の数詞「枚」の訳例を表形式で示す図である。
【図2】英語の数の訳例を表形式で示す図である。
【図3】例示のバイリンガルコーパスに見られる日本語の数詞を表形式で示す図である。
【図4】この発明の実施例を実現するシステムの概略図である。
【図5】シソーラスの構造を示す機能図である。
【図6】この発明の実施例が実現されるコンピュータシステムの斜視図である。
【図7】図6のコンピュータシステムの内部構成図である。
【図8】この発明の実施例に従ったシステムの動作の制御全体を示すフローチャートである。
【図9】この発明の実施例で行なわれる語の対応付けを示す概略図である。
【図10】この発明の実施例で対応付けられる句を示す概略図である。
【図11】この発明の実施例における数詞の対応付け、マッピングおよび割当ての処理を示す概略図である。
【図12】この発明の実施例においてバイリンガルコーパスから抽出される対と、その対応のDPマッチング動作とを、表形式で示す概略図である。
【図13】数詞判定の処理を示す概略図である。
【図14】対応付けおよび割当て処理を示す概略図である。
【符号の説明】
4 シソーラス、6 形態素タグ付け部、8 パーサ、10 入力センテンス、12 取出しモジュール、14 対応付けモジュール、16 割当てモジュール、20 バイリンガルコーパス。

Claims (20)

  1. 第一の表現形態の入力表現において特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法であって、
    (a)コンピュータで読取可能な表現対の集合を準備するステップを含み、前記表現対の各々は前記第一の表現形態の第一の表現と第二の表現形態の第二の表現とを含み、同じ表現対の第一の表現と第二の表現とは実質的に同じ意味を有し、
    (b)コンピュータに、前記入力表現と予め定められた関係を満足する第一の表現を含む表現対を前記集合から選択させるステップと、
    (c)コンピュータに、ステップ(b)で選択された表現対の各々において第一の表現と第二の表現とを対応付けさせ、第一の表現と第二の表現の、前記入力表現の特定の構成要素に対応する、対応の構成要素を特定させるステップと、
    (d)コンピュータに、ステップ(c)で特定された第二の表現の構成要素の少なくとも一部に明示的に表現されており、かつステップ(c)で特定された第一の表現の構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を前記入力表現の特定の構成要素に割り当てさせるステップとをさらに含む、方法。
  2. ステップ(b)は、
    (b1)コンピュータに、前記入力表現と、集合中の表現対の各々の第一の表現との意味的距離を計算させるステップと、
    (b2)コンピュータに、前記入力表現からの意味的距離が予め定められたしきい値以下の第一の表現を含む表現対を選択させるステップとを含む、請求項1に記載の方法。
  3. ステップ(b1)は、
    (b11)コンピュータに、前記入力表現と、前記集合中の表現対の各々の第一の表現との意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項2に記載の方法。
  4. 第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
    ステップ(b11)は
    コンピュータに、前記シソーラスを参照して、前記入力表現と表現対の各々の第一の表現との間で、前記入力表現と表現対の各々の第一の表現のうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
    前記操作の回数の合計を計算するステップと、
    前記合計を、前記入力表現の長さと表現対の各々の第一の表現の長さとの合計により正規化するステップとをさらに含む、請求項3に記載の方法。
  5. 前記第一の表現形態と前記第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
    ステップ(b11)は
    コンピュータに、以下の式により意味的距離を計算させるステップを含み、
    Figure 2004163991
    ここでIおよびDはそれぞれ挿入操作および削除操作の回数を示し、Kは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Nは前記シソーラスの高さを示し、Linputは前記入力表現の長さを示し、Lexampleは各表現対の第一の表現の長さを示す、請求項3に記載の方法。
  6. 第一の表現形態の入力表現において特定の構成要素により、明示的にではなく暗黙に含まれる情報を、コンピュータで読取可能な表現対の集合を用いて復元させる方法をコンピュータに行なわせるためのコンピュータで実行可能なプログラムであって、前記表現対の各々は前記第一の表現形態の第一の表現と第二の表現形態の第二の表現とを含み、同じ表現対の第一の表現と第二の表現とは実質的に同じ意味を有し、前記復元方法は、
    (b)コンピュータに、前記入力表現と予め定められた関係を満足する第一の表現を含む表現対を前記集合から選択させるステップと、
    (c)コンピュータに、ステップ(b)で選択された表現対の各々において第一の表現と第二の表現とを対応付けさせ、第一の表現と第二の表現の、前記入力表現の特定の構成要素に対応する、対応の構成要素を特定させるステップと、
    (d)コンピュータに、ステップ(c)で特定された第二の表現の構成要素の少なくとも一部に明示的に表現されており、かつステップ(c)で特定された第一の表現の構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を前記入力表現の特定の構成要素に割り当てさせるステップとをさらに含む、プログラム。
  7. ステップ(b)は、
    (b1)コンピュータに、前記入力表現と、前記集合中の表現対の各々の第一の表現との意味的距離を計算させるステップと、
    (b2)コンピュータに、前記入力表現からの意味的距離が予め定められたしきい値以下の第一の表現を含む表現対を選択させるステップとを含む、請求項6に記載のプログラム。
  8. ステップ(b1)は、
    (b11)コンピュータに、前記入力表現と、集合中の表現対の各々の第一の表現との意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項7に記載のプログラム。
  9. 第一の表現形態と第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
    ステップ(b11)は
    コンピュータに、前記シソーラスを参照して、前記入力表現と表現対の各々の第一の表現との間での、入力シーケンスと表現対の各々の第一の表現のうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
    前記操作の回数の合計を計算するステップと、
    前記合計を、前記入力表現の長さと表現対の各々の第一の表現の長さとの合計により正規化するステップとをさらに含む、請求項8に記載のプログラム。
  10. 前記第一の表現形態と前記第二の表現形態のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
    ステップ(b11)は
    コンピュータに、以下の式により意味的距離を計算させるステップを含み、
    Figure 2004163991
    ここでIおよびDはそれぞれ挿入操作および削除操作の回数を示し、Kは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Nは前記シソーラスの高さを示し、Linputは入力表現の長さを示し、Lexampleは各表現対の第一の表現の長さを示す、請求項8に記載のプログラム。
  11. ソース言語の入力シーケンスにおいて特定の構成要素により、明示的にではなく暗黙に含まれる情報をコンピュータに復元させる方法であって、
    (a)コンピュータで読取可能なシーケンス対のバイリンガルコーパスを準備するステップを含み、各シーケンス対は前記ソース言語の第一のシーケンスとターゲット言語の第二のシーケンスとを含み、同じシーケンス対の第一のシーケンスと第二のシーケンスとは実質的に同じ意味を有し、
    (b)コンピュータに、前記入力シーケンスと予め定められた関係を満足する第一のシーケンスを含むシーケンス対を前記バイリンガルコーパスから選択させるステップと、
    (c)コンピュータに、ステップ(b)で選択された各シーケンス対において第一のシーケンスと第二のシーケンスとを対応付けさせ、第一のシーケンスと第二のシーケンスの、入力シーケンスの特定の構成要素に対応する、対応の構成要素を特定させるステップと、
    (d)コンピュータに、ステップ(c)で特定された第二のシーケンスの構成要素の少なくとも一部に明示的に表現されており、かつステップ(c)で特定された第一のシーケンスの構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力シーケンスの特定の構成要素に割り当てさせるステップとをさらに含む、方法。
  12. ステップ(b)は、
    (b1)コンピュータに、前記入力シーケンスと、前記バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離を計算させるステップと、(b2)コンピュータに、前記入力シーケンスからの意味的距離が予め定められたしきい値以下の第一のシーケンスを含むシーケンス対を選択させるステップとを含む、請求項11に記載の方法。
  13. ステップ(b1)は、
    (b11)コンピュータに、前記入力シーケンスと、バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項12に記載の方法。
  14. 前記ソース言語と前記ターゲット言語のためのコンピュータで読取可能なシソーラスを準備するステップをさらに含み、
    ステップ(b11)は
    コンピュータに、前記シソーラスを参照して、前記入力シーケンスと各シーケンス対の第一のシーケンスとの間での、前記入力シーケンスと各シーケンス対の第一のシーケンスとのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
    前記操作の回数の合計を計算するステップと、
    前記合計を、前記入力シーケンスの長さと各シーケンス対の第一のシーケンスの長さとの合計により正規化するステップとをさらに含む、請求項13に記載の方法。
  15. 前記ソース言語と前記ターゲット言語のためのコンピュータで読取可能なシソーラスがコンピュータに接続されており、
    ステップ(b11)は
    コンピュータに、以下の式により意味的距離を計算させるステップを含み、
    Figure 2004163991
    ここでIおよびDはそれぞれ挿入操作および削除操作の回数を示し、Kは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Nは前記シソーラスの高さを示し、Linputは前記入力シーケンスの長さを示し、Lexampleは各シーケンス対の第一のシーケンスの長さを示す、請求項13に記載の方法。
  16. ソース言語の入力シーケンスにおいて特定の構成要素により、明示的にではなく暗黙に含まれる情報を復元させる方法をコンピュータに行なわせるためのコンピュータで実行可能なプログラムであって、前記方法は、
    シーケンス対からなる、コンピュータで読取可能なバイリンガルコーパスを準備するステップを含み、各シーケンス対は前記ソース言語の第一のシーケンスとターゲット言語の第二のシーケンスとを含み、同じシーケンス対の第一のシーケンスと第二のシーケンスとは実質的に同じ意味を有し、さらに、
    (b)コンピュータに、前記入力シーケンスと予め定められた関係を満足する第一のシーケンスを含むシーケンス対を前記バイリンガルコーパスから選択させるステップと、
    (c)コンピュータに、ステップ(b)で選択された各シーケンス対において第一のシーケンスと第二のシーケンスとを対応付けさせ、第一のシーケンスと第二のシーケンスの、前記入力シーケンスの特定の構成要素に対応する、対応の構成要素を特定させるステップと、
    (d)コンピュータに、ステップ(c)で特定された第二のシーケンスの構成要素の少なくとも一部に明示的に表現されており、かつステップ(c)で特定された第一のシーケンスの構成要素のいずれにも明示的に表現されていない情報を判定させ、判定された情報を入力シーケンスの特定の構成要素に割り当てるステップとをさらに含む、プログラム。
  17. ステップ(b)は、
    (b1)コンピュータに、前記入力シーケンスと、前記バイリンガルコーパス中の各シーケンス対の第一のシーケンスとの意味的距離を計算させるステップと、(b2)コンピュータに、前記入力シーケンスからの意味的距離が予め定められたしきい値以下の第一のシーケンスを含むシーケンス対を選択させるステップとを含む、請求項16に記載のプログラム。
  18. ステップ(b1)は、
    (b11)コンピュータに、前記入力シーケンスと、前記集合中の各シーケンス対の第一のシーケンスとの意味的距離をダイナミックプログラミングにより計算させるステップを含む、請求項17に記載のプログラム。
  19. 第一のシーケンスと第二のシーケンスのためのコンピュータで読取可能なシソーラスがコンピュータに接続されており、
    ステップ(b11)は
    コンピュータに、前記シソーラスを参照して、前記入力シーケンスと各シーケンス対の第一のシーケンスとの間での、前記入力シーケンスと各シーケンス対の第一のシーケンスとのうち一方を他方に変形するための要素の挿入、削除、および置換操作の回数を計数させるステップと、
    前記操作の回数の合計を計算するステップと、
    前記合計を、前記入力シーケンスの長さと各シーケンス対の第一のシーケンスの長さとの合計により正規化するステップとをさらに含む、請求項18に記載のプログラム。
  20. 前記ソース言語とターゲット言語のためのコンピュータで読取可能なシソーラスがコンピュータに接続されており、
    ステップ(b11)は
    コンピュータに、以下の式により意味的距離を計算させるステップを含み、
    Figure 2004163991
    ここでIおよびDはそれぞれ挿入操作および削除操作の回数を示し、Kは置換操作により置換された要素の、前記シソーラスにおける共通の抽象化レベルのうち最も低いものを示し、Nは前記シソーラスの高さを示し、Linputは前記入力シーケンスの長さを示し、Lexampleは各シーケンス対の第一のシーケンスの長さを示す、請求項18に記載のプログラム。
JP2002238818A 2002-08-20 2002-08-20 ソースシーケンスから情報を復元するための方法およびプログラム Pending JP2004163991A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002238818A JP2004163991A (ja) 2002-08-20 2002-08-20 ソースシーケンスから情報を復元するための方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002238818A JP2004163991A (ja) 2002-08-20 2002-08-20 ソースシーケンスから情報を復元するための方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2004163991A true JP2004163991A (ja) 2004-06-10

Family

ID=32800895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002238818A Pending JP2004163991A (ja) 2002-08-20 2002-08-20 ソースシーケンスから情報を復元するための方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2004163991A (ja)

Similar Documents

Publication Publication Date Title
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
US5895446A (en) Pattern-based translation method and system
Taji et al. An Arabic morphological analyzer and generator with copious features
EP1351158A1 (en) Machine translation
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
Weller et al. Using subcategorization knowledge to improve case prediction for translation to German
Lavie Stat-XFER: A general search-based syntax-driven framework for machine translation
Nuriev et al. Machine translation of Russian connectives into French: Errors and quality failures
Rikters et al. Combining machine translated sentence chunks from multiple MT systems
Rajendran Parsing in tamil: Present state of art
JP2004163991A (ja) ソースシーケンスから情報を復元するための方法およびプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム
WO2024004183A1 (ja) 抽出装置、生成装置、抽出方法、生成方法、及びプログラム
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
JP2003308319A (ja) 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
Thant et al. Grammatical Relations of Myanmar Sentences Augmented by Transformation-Based Learning of Function Tagging
JP2011186507A (ja) 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム
Win et al. Myanmar-English Bidirectional Machine Translation System with Numerical Particles Identification
JP2007102530A (ja) 特定言語の文法を生成する装置
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
Kharate et al. Rearrangement Algorithm in Marathi to English Translation Using Phrases and Rules