JP2006268375A - 翻訳メモリシステム - Google Patents

翻訳メモリシステム Download PDF

Info

Publication number
JP2006268375A
JP2006268375A JP2005084903A JP2005084903A JP2006268375A JP 2006268375 A JP2006268375 A JP 2006268375A JP 2005084903 A JP2005084903 A JP 2005084903A JP 2005084903 A JP2005084903 A JP 2005084903A JP 2006268375 A JP2006268375 A JP 2006268375A
Authority
JP
Japan
Prior art keywords
language
translation
expression
intermediate language
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005084903A
Other languages
English (en)
Inventor
Hiroshi Masuichi
博 増市
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Kiyoshi Tashiro
潔 田代
Atsushi Ito
篤 伊藤
Kyosuke Ishikawa
恭輔 石川
Naoko Sato
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005084903A priority Critical patent/JP2006268375A/ja
Priority to US11/219,660 priority patent/US20060217963A1/en
Publication of JP2006268375A publication Critical patent/JP2006268375A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 翻訳メモリシステムに処理対象として新たな翻訳元言語が追加された場合であっても、それぞれの異種言語間の対訳ペアを作成するのに要する手間や時間を軽減する。
【解決手段】 ペア格納部11は、翻訳先言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納している。構文意味解析部12は、翻訳元言語(言語a)で表現された自然言語文が入力されると、その自然言語文に対して構文意味解析を施すことによって、その自然言語文を中間言語表現に変換する。検索部13は、ペア格納部11に格納されている内容を検索し、構文意味解析部12によって得られる中間言語表現と一致する中間言語表現を特定する。さらに、検索部13は、特定した中間言語表現とペアをなす翻訳先言語(言語b)で表現された自然言語文をペア格納部11から抽出する。出力部14は、抽出された自然言語文を翻訳結果として出力する。
【選択図】 図3

Description

本発明は、異種言語間で翻訳を行うための翻訳メモリシステムに関する。
日本語や英語などのように、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。自然言語は自然発生的な起源を持ち、人類の歴史とともに進化して、現在では多種多様な自然言語が存在している。自然言語は、本来は抽象的で曖昧な性質を持っているが、この自然言語からなる文章(自然言語文)を数学的に取り扱うことにより、各種のコンピュータ処理を施すことが可能である。このようなコンピュータ処理によって、機械翻訳や対話システム或いは検索システムなど、自然言語に関する様々なアプリケーションやサービスが実現されている。これらのうち「機械翻訳」は、言語の異なる者どうしが行なうコミュニケーションをコンピュータ処理を活用して支援するアプリケーション乃至サービスである。
現在実用化されている機械翻訳システムには、「ダイレクト方式」と呼ばれる方式や、「トランスファ方式」と呼ばれる方式がある。ダイレクト方式は、予め用意された単語辞書に基づいて、翻訳元言語の単語を翻訳先言語の単語へと単純に置き換えていくものである。これは、日本語と韓国語との間の翻訳のように、翻訳元言語と翻訳先言語の文法がおおよそ似通っている場合にのみ有効な方式である。これに対し、トランスファ方式は、単語の置き換えとともに、構文構造を置き換える処理も含んでいる。よって、このトランスファ方式によれば、文法が異なる異種言語の翻訳にも対処することができる。
上記の機械翻訳システムとは別の原理で翻訳を行うものとして、「翻訳メモリシステム」或いは「対訳データベースシステム」と呼ばれる仕組みがある(例えば特許文献1参照)。この翻訳メモリシステムでは、翻訳元言語で書かれた自然言語文(以下、翻訳元言語文という)と、それと同じ意味になるように翻訳先言語で書かれた自然言語文(以下、翻訳先言語文という)とのペアを、できるだけ多く記憶装置に格納しておく。そして、翻訳対象の自然言語文が入力されると、記憶装置内をサーチして、その入力文と完全一致或いは類似する翻訳元言語文を特定し、その翻訳元言語文とペアをなす翻訳先言語文を出力する。記憶装置に格納された翻訳先言語文は、その翻訳先言語を母国語として利用している者(ネイティブスピーカ)によって表現された正しい文であるから、翻訳者は、この翻訳メモリシステムによって出力された翻訳先言語文をほとんど修正することなく、十分に正確な翻訳結果を得ることが可能となる。
これまでに数多くの翻訳メモリシステムが商品化され、実際の翻訳作業現場で使用されている。先に述べた機械翻訳システムが実用的に利用されているとは言い難い状況であるのに対し、翻訳メモリシステムが広く実用に供されている事実は、その高い信頼性に拠るものが大きいと解される。なぜなら、翻訳メモリシステムによって提示される翻訳先言語文は、その翻訳先言語のネイティブスピーカによって正しいと認められた文であるからである。また、翻訳結果を多少修正する必要があったとしても、修正によって得られる翻訳先言語文も、ネイティブスピーカが正しいと感じる文である可能性は極めて高い。これに対し、機械翻訳システムによって提示される翻訳先言語文は、実際にはコンピュータが機械的に作り出した文であるため、ネイティブスピーカから見ると不自然な文章に感じることが少なくない。この結果、翻訳精度が低くなり、翻訳者による修正箇所も多くなってしまう。場合によっては翻訳者が最初から翻訳した方が効率がよかった、ということにもなりかねない。
特開2003−099428号公報
ところで、翻訳メモリシステムの問題点は、対訳ペアの集合を作成するのに要する手間や時間が膨大になってしまうところである。この結果、例えば英語と日本語を処理対象とした翻訳メモリシステムに対して新たにフランス語を追加するといったように、新しい翻訳元言語あるいは新しい翻訳先言語を追加する場合には、多大な人的コストを投入しなければならない。このように翻訳対象となる言語を追加するケースは頻繁に発生する。例えば携帯電話機やコピー機等の電気製品のマニュアルは、ある一つの翻訳元言語で書かれたものを、その製品の出荷先の国に応じて多数の翻訳先言語に翻訳する必要がある。製品の販売状況に応じて出荷先の国が増えれば、翻訳先言語も増加していくことになる。また、出荷先の国が仮に同じであっても、オリジナルのマニュアルが別の言語で書かれていれば、新たな対訳ペアの集合を作成するための膨大な人的コストが必要になってしまう。よって、すべての異種言語間の組み合わせに対応することが可能な翻訳メモリシステムを構築することは大変な作業であると言える。
本発明はこのような問題点に鑑みてなされたものであり、その目的は、翻訳メモリシステムに処理対象として新たな翻訳元言語が追加された場合に、それぞれの異種言語間の対訳ペアを作成するのに要する手間や時間を軽減することである。
上述した課題を解決するため、本発明は、第1の言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納したペア格納手段と、第2の言語で表現された自然言語文に対して構文意味解析を行い、該自然言語文を中間言語表現に変換する構文意味解析手段と、前記ペア格納手段に格納されている内容を検索し、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定し、この中間言語表現とペアをなす前記第1の言語で表現された自然言語文を抽出する検索手段と、前記検索手段によって抽出された自然言語文を翻訳結果として出力する出力手段とを備えることを特徴とする翻訳メモリシステムを提供する。
この翻訳メモリシステムによれば、仮に処理対象として新たな翻訳元言語が追加された場合であっても、構文意味解析手段が、その新たな言語で表現された自然言語文に対して構文意味解析を行って中間言語表現に変換し、検索手段が、その中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定し、この中間言語表現とペアをなす前記第1の言語で表現された自然言語文を抽出すると、出力手段がこれを翻訳結果として出力する。よって、従来のように新たな対訳ペアの集合を作成することなく、ペア格納手段に蓄積された中間言語表現及び自然言語文のペアの集合を活用して翻訳を行うことが可能となる。
前記ペア格納手段は、中間言語表現として格構造表現を格納しており、前記構文意味解析手段は、構文意味解析によって得られた結果を格構造表現に変換するようにしてもよい。また、前記ペア格納手段は、木構造をなす中間言語表現を格納しており、前記構文意味解析手段は、Lexical Functional Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換するようにしてもよい。また、前記ペア格納手段は、木構造をなす中間言語表現を格納しており、前記構文意味解析手段は、Head-driven Phrase Structure Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換するようにしてもよい。
本発明の好ましい態様においては、前記ペア格納手段は、複数種類の言語について、各々の言語の種類ごとに自然言語文とその中間言語表現とをペアとして格納している。これにより、複数種類の言語を翻訳対象とすることができる。
本発明の好ましい態様においては、前記構文意味解析手段によって得られた解析結果として複数の中間言語表現の候補が存在する場合には、前記検索手段は、これら複数の中間言語表現の候補の中から、前記ペア格納手段によって格納されている中間言語表現と類似する候補を特定し、特定された候補の中間言語表現とペアをなす前記第1の言語で表現された自然言語文を抽出する。このようにすれば、文の係り受けに曖昧性が含まれているが故に、複数の中間言語表現の候補が存在する場合であっても、正しい係り受けを反映した自然言語文を得ることができる。
本発明の好ましい態様においては、前記ペア格納手段に格納される中間言語表現に含まれている単語情報部分に対して、複数種類の言語の単語が併記されている。このように中間言語表現の単語情報部分に単語を併記するので、ある単語の意味について複数通りに捉えられる場合であっても、併記されている単語の中から選択するだけで、単語の意味を正確に判断することができる。
本発明の好ましい態様においては、2種類の異種言語で表現された自然言語文の対訳ペアに対してそれぞれ構文意味解析処理を施し、その結果得られる中間言語表現の候補を相互に比較して、類似する候補と自然言語文とのペアを作成するペア生成手段を有し、前記ペア格納手段は、前記ペア生成手段によって作成されたペアを格納する。このようにすれば、自然言語文の対訳ペアに基づいて精度よく中間言語表現を生成することができる。
本発明の好ましい態様においては、前記検索手段は、前記中間言語表現の部分構造を対象にして、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定する。このようにすれば、翻訳元言語文の文全体と類似する文に対応する中間言語表現が予め記憶されていなくても、中間言語表現の部分構造(翻訳元言語文の一部)に対して翻訳を行うことができる。よって、翻訳者の翻訳作業を支援することが可能となる
本発明の好ましい態様においては、前記ペア格納手段によって格納されている中間言語表現に基づいて、第3の言語で表現された自然言語文を生成する機械翻訳手段と、第3の言語と、中間言語表現において単語情報部分に併記されている単語に対応する各言語との間の対訳を格納する辞書格納手段とを有し、前記機械翻訳手段は、自然言語文を生成する際に単語を選択する場合には、中間言語表現における単語情報部分に併記された各言語の単語を、前記辞書格納手段に格納された対訳を参照してそれぞれ第3の言語の単語に翻訳し、得られた翻訳単語に共通して存在する単語を選択する。このように、中間言語表現と自然言語文とでペアをなし、かつ、中間言語表現の単語情報部分に各言語の単語を併記することで、その併記された単語の中から選択して機械翻訳を行うことができる。よって、今までは翻訳対象としていなかった言語を翻訳先言語とする場合にも、適切な単語選択を行なうことが可能となる。
次に、発明を実施するための最良の形態について説明する。
(1)第1実施形態
本発明の第1実施形態では、従来のように自然言語文どうしの対訳ペアを翻訳メモリシステムに格納しておくのではなく、特定の言語に依存しない中間言語によって表現された中間言語表現と自然言語文とのペアを翻訳メモリシステムに格納しておき、これを用いて翻訳を行う。ここでいう「中間言語」とは、複数の自然言語に対して共通のメタ言語(説明的言語)として機能するものであり、コンピュータが理解可能なように設計されている。現在までに幾つかの方式の中間言語が提案されており、その1つに、文献「Miriam Butt, et. al., “A Grammar Writer’s Cookbook”, CSLI Publication (1999)」に解説されているLFG(Lexical Functional Grammar)と呼ばれる言語解析理論に基づく解析によって得られるf-structureがある。このf-structureは、文の構文的及び意味的情報が属性と属性値とのペアの入れ子構造によって表現されているところが特徴である。そして、文を構成するそれぞれの単語情報は、PRED(predicate: 述語)と呼ばれる属性に対応する属性値としてf-structureに記述されることになる。このf-structureにおいて個別の言語に依存して変化する部分は、上記のPREDに対応する属性値(単語)のみであり、その他の属性及び属性値は、全言語を通して共通化(標準化)されている。すなわち、言語が異なっても同じ意味内容を表す文であれば、単語情報を除いて、まったく同じ構造のf-structureとなるというわけである。よって、翻訳元言語文をいったん中間言語表現に変換し、その中間言語表現の意味内容に合致する翻訳先言語文を特定できれば、正しい翻訳結果(翻訳先言語文)を得ることが可能である。
図1は、例えば「太郎が花子にプレゼントを渡した。」という日本語文に対し、LFG解析を施して得られるf-structureの例を示した図である。図1において、属性と、それに対応する属性値との対応関係は、互いに水平な位置に配置することで表現している。例えば、属性「PRED」と属性値「渡す」とが対応関係にある。また、図中で下線を引いて示した部分は、単語情報(PRED属性に対応する属性値)であり、その他の部分は全て全言語に共通の概念である。ただし、全言語に共通の部分は、表記上は英語で表現している。なお、図において、「PRED」は述語、「SUBJ」は主格、「OBJ」は目的格、「GOAL」は終点格、「TENSE」は時制、そして、「PAST」は過去という意味を表している。
また、中間言語には、上記のようなf-structure以外にも、文献「アイバン・A・サグ, トマス・ワッソー著, 郡司隆男, 原田康也訳, 統語論入門(上)・(下), 株式会社岩波書店 (2001)」に解説されているHPSG(Head-driven Phrase Structure Grammar)と呼ばれる言語解析理論に基づく言語解析から得られるMRS(Minimal Recursion Semantics)構造がある。さらに、一般的な構文意味解析によって得られる格構造表現(文献「長尾真編, 自然言語処理, 岩波書店 (1996)」参照)を中間言語として用いることも可能である。例えば図2は、図1で例示した日本語文「太郎が花子にプレゼントを渡した。」に対応する格構造表現を示したものである。このように格構造表現は、文を構成する複数の単語情報(ノード)が階層的に連結されてなる木構造によって表現されている。
上記で述べたいずれの構造も、要するに、文を単語に分割したうえで、さらに「単語の係り受け関係」と「(主語であるか目的語であるか等の)係り受けの種類」とを表現したものと言える。よって、上記の構造どうしを相互に変換することも可能である。例えば文献「Hiroshi Masuichi, Tomoko Ohkuma, Hiroki Yoshimura, and Yasunari Harada, "Japanese parser on the basis of the Lexical-Functional Grammar Formalism and its Evaluation", In Proceedings of The 17th Pacific Asia Conference on Language, Information and Computation (PACLIC17), pp. 298-309 (2003)」には、f-structureを格構造表現に変換する(ダウングレードする)方法が解説されている。即ち、f-structureは格構造表現を包含する構造なのである。
以下、第1実施形態にかかる翻訳メモリシステムにおいて、上記の「格構造表現」を中間言語表現として用いた場合について説明する。
図3は、第1実施形態に係る翻訳メモリシステム100の構成を示すブロック図である。この翻訳メモリシステム100はコンピュータによって構成されており、コンピュータがプログラムを実行することにより、図3に示すペア格納部11と、構文意味解析部12と、検索部13と、出力部14と、単語辞書15が実現される。ペア格納部11は、ハードディスク等の大容量の記憶装置によって実現されており、翻訳先言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納している。図3では、翻訳先言語(言語b)で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアが複数格納されている例を示している。
構文意味解析部12は、翻訳元言語(例えば言語a)で表現された自然言語文が入力されると、その自然言語文に対して構文意味解析を施すことによって、その自然言語文を中間言語表現に変換する。検索部13は、ペア格納部11に格納されている内容を検索し、構文意味解析部12によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定する。さらに、検索部13は、特定した中間言語表現とペアをなす翻訳先言語(言語b)で表現された自然言語文をペア格納部11から抽出する。出力部14は、抽出された自然言語文を翻訳結果として出力する。この出力部14による出力形態は、表示装置に表示するという出力形態であってもよいし、媒体に印刷するという出力形態であってもよい。単語辞書15は、異種言語の単語の対訳を含んでおり、検索部13が構文意味解析部12によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定する際に利用される。
さて、図2に示した通り、格構造表現は、単語情報をノードとする木構造として表現される。したがって、図3に示す翻訳メモリシステム100では、木構造(中間言語表現)と、翻訳先言語で書かれた自然言語文とのペアの集合がペア格納部11に格納されることになる。このような場合、翻訳メモリシステム100に翻訳元言語文が入力されると、まず構文意味解析部12がその入力文に対して構文意味解析を施して木構造(中間言語表現)を得る。そして、検索部13が、得られた木構造と一致するか或いは或るレベルの類似度を超える木構造を、ペア格納部11に格納されている木構造の中から特定する。さらに、検索部13は、特定した木構造とペアをなす自然言語文をペア格納部11から抽出する。出力部14は、抽出された自然言語文を翻訳先言語文として出力する。なお、木構造の類似度の判定に関しては多くの手法が提案されているから、これらの周知の手法の中から適当なものを適宜選択して用いればよい。例えば文献「高橋哲郎, 乾健太郎, 松本裕治, “テキストの構文的類似度の評価方法について”, 情報処理学会研究報告, 2002-NL-150, pp. 163-170 (2002)」に、類似度判定の一手法について詳細に説明されている。
次に、翻訳メモリシステム100によって奏される効果を具体的な例に沿って説明する。
まず、図4を参照しながら、従来技術による翻訳作業の例を述べる。ある翻訳会社が、スウェーデンの携帯電話メーカAから、スウェーデン語で書かれたマニュアルを、英語、フランス語、ドイツ語、スペイン語及びイタリア語の各言語に翻訳する仕事の依頼を受け、その翻訳作業をすでに実施したと仮定する。この翻訳作業を通じて、「スウェーデン語-英語」、「スウェーデン語-フランス語」、「スウェーデン語-ドイツ語」、「スウェーデン語-スペイン語」、「スウェーデン語-イタリア語」のそれぞれの自然言語どうしの対訳ペアの集合が既に人間の手作業によって作成され、翻訳メモリシステムに格納されているはずである。
次に、同じ翻訳会社が、日本の携帯電話メーカBから、日本語で書かれたマニュアルを、英語、フランス語、ドイツ語、スペイン語及びイタリア語の各言語に翻訳する仕事の依頼を新たに受けたとする。この場合、従来技術では、少なくとも「日本語-スウェーデン語」の自然言語どうしの対訳ペアの集合を新たに作成しなければならない。さらに、場合によっては、「日本語-英語」、「日本語-フランス語」、「日本語-ドイツ語」、「日本語-スペイン語」及び「日本語-イタリア語」のいずれかの対訳ペアをも作成しなければならないこともある。これでは膨大な人的コストが必要となってしまう。図4は、このように、「スウェーデン語-英語」、「スウェーデン語-フランス語」、「スウェーデン語-ドイツ語」、「スウェーデン語-スペイン語」、「スウェーデン語-イタリア語」の対訳ペアが作成済みであるのに対し、少なくとも「日本語-スウェーデン語」の対訳ペアについては新たに作成しなければならない様子を模式的に示した図である。
これに対して、第1実施形態に係る翻訳メモリシステム100によれば、次のような手順を踏むだけでよい。
まず、上記翻訳会社が、スウェーデンの携帯電話メーカAから依頼された第1回目の翻訳作業を終えた時点では、図5の実線で示すように、中間言語表現と、スウェーデン語、英語、フランス語、ドイツ語、スペイン語及びイタリア語の自然言語文とのそれぞれのペアがペア格納部11に格納されているはずである。
次に、翻訳会社が、日本の携帯電話メーカBから依頼された第2回目の翻訳作業を行う際には、まず翻訳メモリシステム100の構文意味解析部12が、日本語の自然言語文を格構造表現に変換する。次に、検索部13が、日本語と他の言語(英語、スウェーデン語、フランス語、ドイツ語、スペイン語、イタリア語)との間の単語辞書15を用いることで、構文意味解析部12によって得られた格構造表現と一致又は類似する格構造表現を特定する。なお、構文意味解析部12が、翻訳元言語文を格構造表現に変換する際には、1つの自然言語文に対して複数の格構造表現の候補に変換されることが多い。このような場合には、検索部13は、複数の格構造表現の候補のうち、ペア格納部11に格納されているペアの集合に存在する格構造表現と類似度がもっとも高い格構造表現の候補を選択(特定)すればよい。これは、ペアの集合中に存在する格構造表現は本来正しいものであるため、それに近い格構造表現もやはり正しい可能性が高いためである。
このようにして格構造表現が特定されると、検索部13は、その格構造表現とペアをなす各々の翻訳先言語(英語、スウェーデン語、フランス語、ドイツ語、スペイン語、イタリア語)で表現された自然言語文をペア格納部11から抽出する。出力部14は、検索部13によって抽出された自然言語文を翻訳結果として出力する。
このように、第1実施形態によれば、従来のように新たな対訳ペアの集合を作成することなく、過去に作成した中間言語表現−自然言語文のペアの集合を活用して翻訳を行うことが可能となる。また、このようにして得られた翻訳結果は、ネイティブスピーカにより正しいと認められた文であるから、先の背景技術欄で述べた翻訳メモリシステムの本来の長所を損なうこともない。
(2)第2実施形態
ペア格納部11内の中間言語表現と自然言語文とのペアは、人間の手作業で作成することも可能であるが、その作業に要する手間が煩雑である。そこで、以下に述べる第2実施形態では、異種言語の自然言語文どうしの対訳ペアが既に存在する場合には、その対訳ペアを中間言語及び自然言語文のペアに変換するようにしている。具体的には、図6に示すように、言語1で表現された自然言語文に構文意味解析を施して中間言語表現を生成するとともに、言語2で表現された自然言語文に構文意味解析を施して中間言語表現を生成する。そして、言語1の自然言語文と言語2の自然言語文とを共通の中間言語表現を介して対応づける。
図7は、第2実施形態に係る翻訳メモリシステム101の構成を示すブロック図である。この翻訳メモリシステム101は、第1実施形態に係る翻訳メモリシステム100が備えるペア格納部11、構文意味解析部12、検索部13、出力部14及び単語辞書15のほか、対訳ペア格納部16と、ペア生成部17とを備えている。対訳ペア格納部16は、ハードディスク等の大容量の記憶装置によって実現されており、異種言語で表現された自然言語文どうしの対訳ペアを複数格納している。ペア生成部17は、対訳ペア格納部16に格納されている対訳ペアを中間言語及び自然言語文のペアに変換し、ペア格納部11に格納する。
この翻訳メモリシステム101の動作を具体例に沿って説明する。
図8の上段に示すように、例えば「太郎が花子にプレゼントを渡した。」という日本語文と、「Taro gave a present to Hanako.」という英語文との対訳ペアが対訳ペア格納部16に存在している場合、ペア生成部17は、これらの双方に対してそれぞれ構文意味解析を施し、この解析結果(中間言語表現)の単語情報部分に両言語の単語をそれぞれ併記しておく。ここでいう単語情報部分とは、LFG解析においては「PRED」属性であるし、格構造表現においてはノードである。具体的には、図8の下段に示すように、中間言語表現においては、「渡す」と「give」が併記され、主格では「太郎」と「Taro」が併記され、目的格では「花子」と「Hanako」が併記され、終点格では「プレゼント」と「present」が併記される。これにより、日本語の自然言語文と英語の自然言語文とを、共通の中間言語表現を介して対応づけることができる。
図8に示した例は、構文意味解析の結果にいわゆる曖昧性が存在しない場合であったが、特に日本語のような文法の言語には曖昧性が生じることが多い。図9は、構文意味解析の結果に曖昧性が生じる場合の一例を示している。例えば、「赤い髪の白人は珍しい。」という日本語文の構文意味解析の結果は、「赤い」が「白人」に係ると考えた中間言語表現候補1と、「赤い」が「髪」に係ると考えた中間言語表現候補2とがあり、これら候補のいずれが正しい係り受けを反映したものであるかが不明である。この結果、前述の図6と図10とを比較すると理解できるように、図10では、言語1(日本語)の自然言語文に構文意味解析を施した結果、複数通りの中間言語表現が得られることになる。これが、構文意味解析の結果に生じる「曖昧性」である。
この第2実施形態では、上記のような曖昧性が生じた場合であっても、正しい係り受けを反映した中間言語表現を得ることができる。その理由は以下の通りである。
ペア生成部17は、図9に示すように言語2(英語)の自然言語文に対しても構文意味解析を行う。よって、仮に言語1(日本語)に対する構文意味解析の結果(中間言語表現)が複数とおり存在していたとしても、これらの複数の中間言語表現のうち、言語2(英語)の自然言語文に対する構文意味解析の結果(中間言語表現)と一致又は類似するものを選択し、それを正しい構文意味解析の結果であると判断する。なぜなら、上記日本語文「太郎が花子にプレゼントを渡した。」と対訳ペアをなす英語文「A Caucasian with red hair is unusual.」には、係り受けに不明な点はなく、日本語にありがちな「曖昧性」が生じないからである。
なお、中間言語表現どうしの類似度の計算については、前記文献「高橋哲郎, 乾健太郎, 松本裕治, “テキストの構文的類似度の評価方法について”, 情報処理学会研究報告, 2002-NL-150, pp. 163-170 (2002)」に従えばよい。木構造の類似度測定は、この文献にも述べられているように、一般に、比較対象における木構造そのものの間の距離と、ノード間の距離という、2種類の距離が考慮される。この第2実施形態においては、上述したように、木構造中の単語情報部分(ノード内情報部分)には、翻訳メモリシステム101が処理対象とする言語の単語情報が併記されるようになっている。これにより、入力文に対応する木構造と対訳ペア中の各木構造の類似度を計算する際の、ノード内情報に関する距離の計算を精度よく行なうことが可能となる。
また、上記のように中間言語表現(木構造)の単語情報部分(ノード内情報部分)には、単語情報が併記されるようになっているので、今までは単語の意味的曖昧性を理由として解消できなかった問題を解決することも可能となる。例えば、英語単語「bank」と、日本語単語「土手」又は日本語単語「銀行」との類似度距離を考えると、どちらの日本語単語も「bank」の和訳として適切であるため、いかなる辞書を用いても、どちらの日本語が英語単語「bank」に類似しているかを判断することはできない。しかし、ノードに英語単語「bank」と例えばフランス語単語「banque」が併記されていれば、フランス語単語「banque」は「土手」の意味を持たないため、日本語単語「土手」よりも「銀行」のほうが英語単語「bank」との距離が近いと判断することができる。
以上説明した第2実施形態によれば、既存の自然言語文どうしの対訳ペアから精度よく中間言語表現を生成することができる。また、2種類の異種言語で表現された自然言語文の対訳ペアに対してそれぞれ構文意味解析処理を施し、その結果得られる中間言語表現の候補を相互に比較して、類似する候補と自然言語文とのペアを作成するので、いわゆる曖昧性の問題を解消することも可能となる。この効果は対訳ペアとなる言語の数が増えるほど高いものとなる。さらに、中間言語表現の単語情報部分に単語情報を併記するので、翻訳対象となる単語の意味を正確に判断することも可能となる。
なお、図8や図9に示す例は、いずれも格構造表現の構造が完全に一致する場合であった。しかし、最も類似度が高い解析結果どうしでも構造が完全に一致しない場合もある。この場合は、第1の言語に対応する中間言語と、第2の言語に対応する中間言語とをそれぞれ別の構造としてもよい。また、例えば特開2003−242136号公報には、自然言語文に対して、正しい係り受け関係及び係り受けの種類を人間の手作業で判断する際の支援方法が提案されている。このような手法を用いて、正しい中間言語の作成を半自動で行なうことも可能である。
(3)第3実施形態
従来技術の翻訳メモリシステムでは、対訳ペアの集合の中から入力文に一致又は類似する自然言語文を検索する際に、単語の表記や順番などの「表層情報」だけに基づいて両者の類似性を判断していた。以下に述べる第3実施形態では、自然言語文の「構造」をも考慮した検索を行う。
まず、自然言語文の表層情報だけに基づいて入力文に一致又は類似する自然言語文を検索する際の問題点を説明する。例えば、翻訳メモリシステムに対して、以下のような長い自然言語文を入力したとしても、一致又は類似する翻訳先言語文が対訳ペアの集合中に存在する可能性は極めて低い。
「最高裁は、バブル期の土地賃貸借をめぐり、賃料が上がることはあっても下がりはしない「不減額特約」を交わした場合、景気変動を理由に賃料減額を求められるかどうかが争われた訴訟で、「減額できる」とする判断を示した。」
このような問題は、自然言語文が長くなればなるほど、頻繁に発生する。この場合、一致又は類似する翻訳先言語文が対訳ペアの集合中に存在しないのだから、どうしても人間の手による翻訳作業にすべてを頼らざるを得なくなり、作業効率が悪い。
そこで、第3実施形態にかかる翻訳メモリシステム102は、自然言語文の構造を解析し、その構造の一部分(以下、部分構造という)を対象にして、入力文と一致又は類似する中間言語表現を特定し、その中間言語表現とペアをなす自然言語文を抽出する。この第3実施形態にかかる翻訳メモリシステム102は、図3に示した第1実施形態にかかる翻訳メモリシステム100と同じ構成であるため図示は省略するが、その動作が異なっている。
例えば上記長文の格構造表現の最上位の部分構造は、図11に示す通り、比較的単純なものである。このような単純な格構造表現であれば、ペア格納部11に記憶されたペアの集合に存在する可能性が高い。つまり、検索部13は、格構造表現の最上位の部分構造を検索対象とすれば、以下のような英語文の一部を得ることができる可能性が高い。
英語文の一部:「The Supreme Court rendered the judgment ・・・ in a legal case ・・・.」
(最高裁は、×××訴訟において、×××判断を示した。)
検索部13は、ペア格納部11を検索して、上記のような英語文(翻訳先言語文)「The Supreme Court rendered the judgment ・・・ in a legal case ・・・.」の中間言語表現と一致又は類似する中間言語表現を特定する。さらに、検索部13は、その中間言語表現とペアをなす日本語文(翻訳先言語文)「最高裁は、×××訴訟において、×××判断を示した。」
をペア格納部11から抽出する。出力部14は、その日本語文を出力する。翻訳者は、出力された「最高裁は、×××訴訟において、×××判断を示した。」という日本語文の「×××」の箇所だけを手作業で翻訳すればよい。
このように第3実施形態によれば、自然言語文の構造を考慮した検索を行なうことにより、翻訳元言語文の文全体と類似する文に対応する中間言語表現が予め記憶されていなくても、その翻訳元言語文の少なくとも一部に対して翻訳を行うことができる。よって、翻訳者の翻訳作業を支援することが可能となる。なお、この第3実施形態においては、上記のように格構造表現の最上位部分だけを検索対象とする以外にも、例えば文中の関係節の部分だけを検索対象とするとか、埋め込み節の部分だけを検索対象とする、といったように、必要に応じて任意の部分構造を検索対象とすることが可能である。
(4)第4実施形態
次に述べる第4実施形態は、翻訳先言語が翻訳メモリシステムの処理対象となっていない言語であっても、比較的精度よく機械翻訳を行うことを目的としている。図12は、第4実施形態にかかる翻訳メモリシステム103の構成を示したブロック図である。この翻訳メモリシステム103は、第2実施形態に係る翻訳メモリシステム101が備えるペア格納部11、構文意味解析部12、出力部14、単語辞書15、対訳ペア格納部16及びペア生成部17とを備えるほか、検索部13に代えて機械翻訳部21を備えている。この機械翻訳部21は、中間言語表現を入力として、翻訳先言語文を生成する翻訳エンジンである。つまり、翻訳メモリシステム103は、機械翻訳機能を備えた翻訳メモリシステムであるといえる。
例えば、図5に示す例において、スウェーデン語を新たにポルトガル語(第3の言語)に翻訳する必要が生じたと仮定する。ここで、スウェーデン語の入力文に一致又は類似する中間言語表現が既にペア格納部11によって格納されているペアの集合に存在する場合、機械翻訳部21が、その中間言語表現を入力としてポルトガル語文を生成することを考える。この場合に問題となるのは、前述した英語単語「bank」と、日本語単語「土手」又は日本語単語「銀行」との関係のような、単語の意味的曖昧性である。すなわち、一つのスウェーデン語単語に対応するポルトガル語単語は多数存在する場合、そのうちのどれを選ぶのが適切であるかを判断することは一般に難しい。
そこで、第4実施形態の中間言語表現における単語情報部分には、図8、図9及び図10に示した通り、複数の異種言語の単語が併記されている。図8、図9及び図10では日本語と英語の2ヶ国語であったが、図5の例に沿った場合であれば、6ヶ国語の単語が1つの単語情報部分に併記されることになる。したがって、単語辞書15として、これら6ヶ国語のそれぞれとポルトガル語の間の2ヶ国語の単語辞書(合計6種類の単語辞書)を格納しておく。機械翻訳部21は、まずこの単語辞書15に含まれる対訳を参照して、単語情報部分に併記されている各言語の単語をポルトガル語単語に翻訳する。次に、機械翻訳部21は、翻訳の結果得られたポルトガル語単語の群に共通して存在するポルトガル語単語を選択する。そして、機械翻訳部21は、このようにして選択した単語を用いて自然言語文を生なすればよい。このようにすれば、翻訳メモリシステム103は正しい意味で翻訳することができる。
このように第4実施形態によれば、中間言語表現と自然言語文とでペアをなし、かつ、中間言語表現の単語情報部分に各言語の単語を併記することで、今までは翻訳対象としていなかった言語を翻訳先言語とする場合にも、適切な単語選択を行なうことができる。よって、効率の良い機械翻訳支援を行なうことが可能となる。
なお、以上に述べた翻訳メモリシステムが前述の動作を行うためのプログラムは、CPU等の演算装置によって読み取り可能な磁気記録媒体、光記録媒体あるいはROMなどの記録媒体に記録して翻訳メモリシステムに提供することができる。また、インターネットのようなネットワーク経由で翻訳メモリシステムにダウンロードさせることも可能である。
f-structureの一例を示す図である。 格構造表現の一例を示す図である。 本発明の第1実施形態に係る翻訳メモリシステムの構成を示すブロック図である。 従来技術による翻訳メモリシステムを多言語に適用した場合の概念図である。 第1実施形態に係る翻訳メモリシステムを多言語に適用した場合の概念図である。 自然言語文の対訳ペアを中間言語と自然言語文の対訳ペアに変換する処理の概念図である。 本発明の第2実施形態に係る翻訳メモリシステムの構成を示すブロック図である。 自然言語文の対訳ペアから中間言語と自然言語文の対訳ペアへの変換例である。 自然言語文の対訳ペアから中間言語と自然言語文の対訳ペアへの変換例である。 自然言語文の対訳ペアを中間言語と自然言語文の対訳ペアに変換する際に曖昧性が発生した様子を示す概念図である。 格構造表現の最上位部分の一例である。 本発明の第4実施形態に係る翻訳メモリシステムの構成を示すブロック図である。
符号の説明
100,101,102,103・・・翻訳メモリシステム、11・・・ペア格納部、12・・・構文意味解析部、13・・・検索部、14・・・出力部、15・・・単語辞書、16・・・対訳ペア格納部、17・・・ペア生成部、21・・・機械翻訳部。

Claims (10)

  1. 第1の言語で表現された自然言語文と、その自然言語文を中間言語で表現した中間言語表現とのペアを複数格納したペア格納手段と、
    第2の言語で表現された自然言語文に対して構文意味解析を行い、該自然言語文を中間言語表現に変換する構文意味解析手段と、
    前記ペア格納手段に格納されている内容を検索し、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定し、この中間言語表現とペアをなす前記第1の言語で表現された自然言語文を抽出する検索手段と、
    前記検索手段によって抽出された自然言語文を翻訳結果として出力する出力手段と
    を備えることを特徴とする翻訳メモリシステム。
  2. 前記ペア格納手段は、中間言語表現として格構造表現を格納しており、
    前記構文意味解析手段は、構文意味解析によって得られた結果を格構造表現に変換することを特徴とする請求項1記載の翻訳メモリシステム。
  3. 前記ペア格納手段は、木構造をなす中間言語表現を格納しており、
    前記構文意味解析手段は、Lexical Functional Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換することを特徴とする請求項1記載の翻訳メモリシステム。
  4. 前記ペア格納手段は、木構造をなす中間言語表現を格納しており、
    前記構文意味解析手段は、Head-driven Phrase Structure Grammarに基づく構文意味解析を行い、得られた解析結果を、木構造をなす中間言語表現に変換することを特徴とする請求項1記載の翻訳メモリシステム。
  5. 前記ペア格納手段は、複数種類の言語について、各々の言語の種類ごとに自然言語文とその中間言語表現とをペアとして格納していることを特徴とする請求項1〜4のいずれか1項に記載の翻訳メモリシステム。
  6. 前記構文意味解析手段によって得られた解析結果として複数の中間言語表現の候補が存在する場合には、前記検索手段は、これら複数の中間言語表現の候補の中から、前記ペア格納手段によって格納されている中間言語表現と類似する候補を特定し、特定された候補の中間言語表現とペアをなす前記第1の言語で表現された自然言語文を抽出することを特徴とする請求項1〜5のいずれか1項に記載の翻訳メモリシステム。
  7. 前記ペア格納手段に格納される中間言語表現に含まれている単語情報部分に対して、複数種類の言語の単語が併記されていることを特徴とする請求項1〜5のいずれか1項に記載の翻訳メモリシステム。
  8. 2種類の異種言語で表現された自然言語文の対訳ペアに対してそれぞれ構文意味解析処理を施し、その結果得られる中間言語表現の候補を相互に比較して、類似する候補と自然言語文とのペアを作成するペア生成手段を有し、
    前記ペア格納手段は、前記ペア生成手段によって作成されたペアを格納することを特徴とする請求項1〜5のいずれか1項に記載の翻訳メモリシステム。
  9. 前記検索手段は、前記中間言語表現の部分構造を対象にして、前記構文意味解析手段によって得られる中間言語表現と一致する又は或るレベルの類似度を超える中間言語表現を特定することを特徴とする請求項1〜5のいずれか1項に記載の翻訳メモリシステム。
  10. 前記ペア格納手段によって格納されている中間言語表現に基づいて、第3の言語で表現された自然言語文を生成する機械翻訳手段と、
    第3の言語と、中間言語表現において単語情報部分に併記されている単語に対応する各言語との間の対訳を格納する辞書格納手段とを有し、
    前記機械翻訳手段は、自然言語文を生成する際に単語を選択する場合には、中間言語表現における単語情報部分に併記された各言語の単語を、前記辞書格納手段に格納された対訳を参照してそれぞれ第3の言語の単語に翻訳し、得られた翻訳単語に共通して存在する単語を選択することを特徴とする請求項7記載の翻訳メモリシステム。
JP2005084903A 2005-03-23 2005-03-23 翻訳メモリシステム Pending JP2006268375A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005084903A JP2006268375A (ja) 2005-03-23 2005-03-23 翻訳メモリシステム
US11/219,660 US20060217963A1 (en) 2005-03-23 2005-09-07 Translation memory system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005084903A JP2006268375A (ja) 2005-03-23 2005-03-23 翻訳メモリシステム

Publications (1)

Publication Number Publication Date
JP2006268375A true JP2006268375A (ja) 2006-10-05

Family

ID=37036282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005084903A Pending JP2006268375A (ja) 2005-03-23 2005-03-23 翻訳メモリシステム

Country Status (2)

Country Link
US (1) US20060217963A1 (ja)
JP (1) JP2006268375A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008107861A2 (en) * 2007-03-08 2008-09-12 Globalinguist, Inc. Process for procedural generation of translations and synonyms from core dictionaries

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984071B2 (en) * 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
JP4256891B2 (ja) * 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
US20080221892A1 (en) * 2007-03-06 2008-09-11 Paco Xander Nathan Systems and methods for an autonomous avatar driver
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US20090144280A1 (en) * 2007-12-03 2009-06-04 Barry Rongsheng Su Electronic multilingual business information database system
US7962557B2 (en) * 2007-12-06 2011-06-14 International Business Machines Corporation Automated translator for system-generated prefixes
US7984034B1 (en) * 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
CN101303692B (zh) * 2008-06-19 2012-08-29 徐文和 一种供机器语言翻译的通用数码语义库
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
CN102622342B (zh) * 2011-01-28 2018-09-28 上海肇通信息技术有限公司 中间语***、中间语引擎、中间语翻译***和相应方法
JP2014075073A (ja) * 2012-10-05 2014-04-24 Fuji Xerox Co Ltd 翻訳処理装置及びプログラム
US9817821B2 (en) * 2012-12-19 2017-11-14 Abbyy Development Llc Translation and dictionary selection by context
CN103605644B (zh) * 2013-12-02 2017-02-01 哈尔滨工业大学 一种基于相似度匹配的枢轴语言翻译方法和装置
RU2579873C2 (ru) * 2013-12-19 2016-04-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи семантического классификатора
RU2642343C2 (ru) * 2013-12-19 2018-01-24 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое построение семантического описания целевого языка
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
US10503769B2 (en) * 2015-07-06 2019-12-10 Rima Ghannam System for natural language understanding
CN106557467A (zh) * 2015-09-28 2017-04-05 四川省科技交流中心 基于桥梁语的机器翻译***及翻译方法
WO2018000272A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
US11250842B2 (en) * 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价***及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JPH08501166A (ja) * 1992-09-04 1996-02-06 キャタピラー インコーポレイテッド 総合オーサリング及び翻訳システム
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US6233546B1 (en) * 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US6463404B1 (en) * 1997-08-08 2002-10-08 British Telecommunications Public Limited Company Translation
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
DE19910621C2 (de) * 1999-03-10 2001-01-25 Thomas Poetter Vorrichtung und Verfahren zum Verbergen von Informationen und Vorrichtung und Verfahren zum Extrahieren von Informationen
US6330530B1 (en) * 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
US20020042707A1 (en) * 2000-06-19 2002-04-11 Gang Zhao Grammar-packaged parsing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008107861A2 (en) * 2007-03-08 2008-09-12 Globalinguist, Inc. Process for procedural generation of translations and synonyms from core dictionaries
WO2008107861A3 (en) * 2007-03-08 2008-11-20 Globalinguist Inc Process for procedural generation of translations and synonyms from core dictionaries

Also Published As

Publication number Publication date
US20060217963A1 (en) 2006-09-28

Similar Documents

Publication Publication Date Title
JP2006268375A (ja) 翻訳メモリシステム
JP4993762B2 (ja) 用例ベースの機械翻訳システム
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US20060224378A1 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成***及方法
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Aswani et al. A hybrid approach to align sentences and words in English-Hindi parallel corpora
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP2004070636A (ja) 概念検索装置
JPH0261763A (ja) 機械翻訳装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JP4114526B2 (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0561902A (ja) 機械翻訳システム
JP2715875B2 (ja) 多言語要約生成装置
JP2994080B2 (ja) 訳語選択方式
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3135221B2 (ja) 用例主導型言語構造解析装置
JPH07182347A (ja) 文解析装置