JP2007087157A - 翻訳システム、翻訳装置、翻訳方法及びプログラム - Google Patents

翻訳システム、翻訳装置、翻訳方法及びプログラム Download PDF

Info

Publication number
JP2007087157A
JP2007087157A JP2005275820A JP2005275820A JP2007087157A JP 2007087157 A JP2007087157 A JP 2007087157A JP 2005275820 A JP2005275820 A JP 2005275820A JP 2005275820 A JP2005275820 A JP 2005275820A JP 2007087157 A JP2007087157 A JP 2007087157A
Authority
JP
Japan
Prior art keywords
translation
sentence
search
hit probability
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005275820A
Other languages
English (en)
Other versions
JP4940606B2 (ja
Inventor
Hiroki Yoshimura
宏樹 吉村
Katsuhiko Itonori
勝彦 糸乘
Hideaki Ashikaga
英昭 足利
Shunichi Kimura
俊一 木村
Masanori Onda
昌徳 恩田
Masahiro Kato
雅弘 加藤
Masaki Satake
雅紀 佐竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005275820A priority Critical patent/JP4940606B2/ja
Publication of JP2007087157A publication Critical patent/JP2007087157A/ja
Application granted granted Critical
Publication of JP4940606B2 publication Critical patent/JP4940606B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 翻訳先言語を母国語として利用している者から見ても、より自然な文章となるように翻訳する。
【解決手段】 翻訳装置10は、機械翻訳により得られた複数の翻訳文候補を、インターネット20上の検索エンジンサーバ装置30に対して検索キーワードとして入力する。検索エンジンサーバ装置30は、指定された検索キーワードと、WWWサイトで公開されている様々な文章とを比較し、そのヒット件数乃至ヒット確率を出力する。つまり、この検索エンジンでヒットする件数乃至確率が高い表現は、多くの人間が使用している表現であると言える。よって、複数の翻訳文候補のうち、ヒットした件数乃至確率が大きい翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。従って、検索エンジンでヒットした件数乃至確率が大きい翻訳文候補を用いて翻訳文を作成すれば、ネイティブスピーカにとって自然な言い回しの翻訳文となる。
【選択図】 図1

Description

本発明は異種言語間で翻訳を行うための技術に関する。
日本語や英語などのように、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。自然言語は自然発生的な起源を持ち、人類の歴史とともに進化して、現在では多種多様な自然言語が存在している。自然言語は、本来は抽象的で曖昧な性質を持っているが、この自然言語からなる文章(自然言語文)を数学的に取り扱うことにより、各種のコンピュータ処理を施すことが可能である。このようなコンピュータ処理によって、機械翻訳や対話システム或いは検索システムなど、自然言語に関する様々なアプリケーションやサービスが実現されている。これらのうち「機械翻訳」は、言語の異なる者どうしが行なうコミュニケーションをコンピュータ処理を活用して支援するアプリケーション乃至サービスである。
現在実用化されている機械翻訳システムには、「ダイレクト方式」と呼ばれる方式や、「トランスファ方式」と呼ばれる方式がある。ダイレクト方式は、予め用意された単語辞書に基づいて、翻訳元言語の単語を翻訳先言語の単語へと単純に置き換えていくものである。これは、日本語と韓国語との間の翻訳のように、翻訳元言語と翻訳先言語の文法がおおよそ似通っている場合にのみ有効な方式である。これに対し、トランスファ方式は、単語の置き換えとともに、構文構造を置き換える処理も含んでいる。よって、このトランスファ方式によれば、文法が異なる異種言語の翻訳にも対処することができる。さらに、例えば特許文献1には、上記の機械翻訳システムを改良した技術が開示されている。
特開平10−32627号公報
しかしながら、いかに精度が高い機械翻訳システムを用いたとしても、その結果得られる翻訳文は、翻訳先言語を母国語として利用している者(ネイティブスピーカ)から見ると不自然な文章になっていることが少なくない。つまり、コンピュータによる数学的な処理だけに立脚して翻訳を行っている限り、その翻訳結果には人間的で曖昧な要素が入り込む余地がないので不自然にならざるを得ない。
本発明はこのような問題点に鑑みてなされたものであり、その目的は、翻訳先言語を母国語として利用している者(ネイティブスピーカ)から見ても、より自然な文章となるような翻訳を実現することにある。
上述した課題を解決するため、本発明は、ネットワークを介して複数のコンピュータに接続されており、検索キーワードを指定されると、当該検索キーワードが前記複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率を出力する検索装置と、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、前記検索装置に対して前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、前記複数の翻訳文候補のうち前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備える翻訳装置とを備えることを特徴とする翻訳システムを提供する。
また、本発明は、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒットしたヒット確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備えることを特徴とする翻訳装置を提供する。
また、本発明は、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳ステップと、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒットしたヒット確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索ステップと、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を用いて翻訳文を作成して出力する出力ステップとを備えることを特徴とする翻訳方法を提供する。
また、本発明は、コンピュータに、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳機能と、指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒットしたヒット確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索機能と、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を用いて翻訳文を作成し出力する出力機能とを実現させるプログラムを提供する。
本発明によれば、検索装置に対して、複数の翻訳文候補に含まれる語句をそれぞれ検索キーワードとして指定し、その検索結果であるヒット件数乃至ヒット確率を取得する。検索装置は、指定された検索キーワードを用いて、複数のコンピュータに記憶されている様々な情報を検索するので、ヒット件数乃至ヒット確率が高い語句は、多くの人間が使用している語句である。よって、複数の翻訳文候補のうち、ヒット件数乃至ヒット確率が高い語句を含む翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。このような翻訳文候補を翻訳文として出力する、又は、必要に応じて、このような翻訳文を用いて翻訳文を作成して出力するので、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができる。
次に、発明を実施するための最良の形態について説明する。以下の説明において、「語句」とは、その文字どおり、「語」(単語)のみならず、句(フレーズ)を含む意味で用いている。
本実施形態では、従来の機械翻訳によって、ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する。この結果、得られた複数の翻訳文候補に含まれる語句を、インターネット上の検索エンジンに検索キーワードとして指定して検索を実行させる。検索エンジンは、指定された検索キーワードと、個人や組織が開設しているWWW(World Wide Web)サイトで公開されている様々な文章とを比較し、そのヒット件数乃至ヒット確率を出力するものである。つまり、この検索エンジンでヒットする件数乃至確率が高い表現は、多くの人間が使用している表現である。よって、複数の翻訳文候補のうち、ヒット件数乃至ヒット確率が大きい翻訳文候補は、語句の組み合わせや順序などがより自然で一般的な文章と言える。従って、検索エンジンでヒットした件数乃至確率が高い語句を含む翻訳文候補を用いて翻訳文を作成すれば、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができるというわけである。
図1は、本実施形態に係る翻訳装置10の構成を示す図である。この翻訳装置10は、例えば汎用のパーソナルコンピュータに、翻訳処理の手順が記述された翻訳プログラムと、インターネットを介した通信を行う手順が記述されたWWWブラウザプログラムとがインストールされたものである。これらの翻訳プログラムやWWWブラウザプログラムは、例えばハードディスク装置などの記憶部11に記憶されている。翻訳プログラムには、機械翻訳に用いられる翻訳辞書が含まれている。この翻訳辞書には、翻訳元言語の語句と、翻訳先言語の語句とが対応付けられて記述されており、いわゆる機械翻訳のために利用される。
制御部12は例えばCPUであり、記憶部11に記憶されている各種プログラムを実行する。通信部13は、例えば公衆電話回線、ISDN(Integrated Services Digital Network)回線或いはADSL(Asymmetric Digital Subscriber Line)回線を介してインターネット20に接続されている。インターネット20は、標準化された通信プロトコル(TCP/IP)を用いて全世界のネットワークを相互に接続した巨大なコンピュータネットワークである。多数のコンピュータがこのインターネット20に接続されており、このインターネット20を介して相互に通信を行うことができるようになっている。インターネット20に接続されたコンピュータの1つが検索エンジンサーバ装置30である。検索エンジンサーバ装置30は、WWWサーバ装置の1種であり、コンピュータからインターネット20を介して指定されたキーワードに基づいて、インターネット20上で公開されている情報(インターネット20に接続されているコンピュータによって記憶されている情報)を検索し、その検索結果をコンピュータに返す、という検索サービスを提供する。検索結果には、検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率が含まれている。代表的な検索サービスとしては、「Google」、「goo」、「Yahoo!」(いずれも登録商標)などがある。
データ入出力部14は、翻訳装置10に対するデータの入出力を行うものであり、例えば各種の記憶媒体に対してデータの読み書きを行うドライブ装置や、LAN(Local Area Network)等のネットワークを介して他の装置とデータの遣り取りを行う通信装置などである。表示部15は、例えば液晶ディスプレイやCRT(Cathode Ray Tube)ディスプレイである。操作部16は、例えばキーボードやマウスによって構成されている。
本実施形態では、LFG(Lexical Functional Grammar)と呼ばれる言語解析理論を用いるため、その内容について簡単に説明する。
このLFGに基づく言語解析では、構文解析と意味解析(格構造解析)を行なうことにより、それぞれconstituent structure(c-structure)とfunctional structure (f-structure)と呼ばれる構造を解析結果として出力する。f-structureは、文の構文的及び意味的情報が属性と属性値とのペアの入れ子構造によって表現されているところが特徴である。文を構成するそれぞれの語句は、PRED(predicate: 述語)と呼ばれる属性に対応する属性値としてf-structureに記述される。このf-structureにおいて各言語に依存して変化する部分は、上記のPREDに対応する属性値(語句)のみであり、それ以外は全言語を通して共通化(標準化)されている。すなわち、言語が異なっても同じ意味内容を表す文であれば、語句そのものを除いて、まったく同じ構造のf-structureとなるというわけである。
このf-structureについて、一例を挙げて説明する。
図2は、例えば「太郎が花子にプレゼントを渡した。」という日本語文に対し、LFG解析を施して得られるf-structureの例を示した図である。図2では、属性とその属性値との対応関係は、互いに水平な位置に配置することで表現している。例えば、属性「PRED」と属性値「渡す」とが対応関係にある。図中で下線を引いて示した部分は、語句(PRED属性に対応する属性値)であり、語句の内容以外は全て全言語に共通の概念である。ただし、全言語に共通の部分は、表記上は英語で表現している。なお、図において、属性「PRED」は述語、属性「SUBJ」は主格、属性「OBJ」は目的格、属性「OBL」は斜格、属性「TENSE」は時制、そして、「PAST」は過去という意味を表している。なお、図3は、属性のより詳細なリストである。f-structureの詳細については、文献「Miriam Butt, et. al., “A Grammar Writer’s Cookbook”, CSLI Publication (1999)」に開示されている。
次に、本実施形態の動作について説明する。
図4〜7は、翻訳プログラムに記述された制御部12の実行手順を示すフローチャートである。このフローチャートによって表した翻訳手順は、おおよそ次の内容に大別することができる。
基本構造文の抽出・選択(図4:ステップS1〜ステップS5)
基本構造文の子構造の抽出・選択(図4:ステップS6〜図5:ステップS17)
基本構造文に含まれない語句の抽出・選択(図5:ステップS23〜ステップS26、図6:ステップS18〜図7:ステップS31)
まず、ユーザが翻訳装置10の操作部16を操作することで、翻訳元言語で表現された文章(以下、原文という)をデータ入出力部14から翻訳装置10に入力させ、翻訳するように指示する。ここでは翻訳元言語を英語とし、その英語の原文は以下のような内容とする。また、翻訳先言語は日本語とする。
“Japanese children enter the first grade of elementary school in the April after their sixth birthday.”
制御部12は、ユーザからの翻訳の指示に応じて翻訳プログラムを実行し、図4に示す処理を開始する。まず、制御部12は、翻訳辞書を用いて上記の原文を日本語に機械翻訳する(ステップS1)。この翻訳処理により、制御部12は以下のような3通りの翻訳結果を得たとする。
(a)「日本人の子供は4月に彼らの6回目の誕生日以降、小学校の一学年に入る。」
(b)「日本の子供は彼らの6才の誕生日の後に4月に第1の等級の小学校に入ります。」
(c)「日本の子供は彼らの第6誕生日の後の4月に小学校の最初等級を入れる。」
以下、上記の3つの文(a)、(b)、(c)を「翻訳文候補」という。
次に、制御部12は、これらの翻訳文候補に対して。LFGを用いた構文意味解析を行う(ステップS2)。これにより、制御部12は、翻訳文候補(a)に対するf-structure(図8参照)、翻訳文候補(b)に対するf-structure(図9参照)、翻訳文候補(c)に対するf-structure(図10参照)を得る。
次に、制御部12は、翻訳文候補(a)、(b)、(c)の各々のf-structureから、属性「PRED」、「SUBJ」、「OBJ」「OBL」の属性値(語句)を取り出し、取り出した属性値(語句)からなる文(以下、基本構造文という)を生成する(ステップS3)。これらの属性「PRED」、「SUBJ」、「OBJ」「OBL」は、文中の主要な語句の属性と言えるから、これらの属性の属性値(語句)からなる基本構造文は、一般に「格」と呼ばれ、原文の基本的な構造を表した文と言える。なお、属性「OBL」の「PRED」には、格助詞(「に」、「を」など)が属性値として記述されるが、制御部12は、基本構造文を生成する際にはこの属性「OBL」の「PRED」に自立語を対応させる。
これにより、制御部12は、以下のような3つの基本構造文を得る。なお、翻訳文候補(a)と基本構造文(a1)が対応しており、翻訳文候補(b)と基本構造文(b1)が対応しており、翻訳文候補(c)と基本構造文(c1)が対応している。
(a1)「子供は一学年に入る。」
(b1)「子供は小学校に入る。」
(c1)「子供は等級を入れる。」
次に、制御部12は、WWWブラウザプログラムを起動させて検索エンジンサーバ装置30にアクセスし、上記の基本構造文(a1)、(b1)、(c1)を検索キーワードとして検索エンジンサーバ装置30に送信する(ステップS4)。これに応じて、検索エンジンサーバ装置30からはその検索結果が返信されてくる。以下に、検索エンジンサーバ装置30として、「***」(登録商標)を用いた場合の検索結果を示す。
(a1)「子供は一学年に入る」 ヒット件数:0件 同一フレーズ率:0/0 = 0.000
(b1)「子供は小学校に入る」 ヒット件数:11件 同一フレーズ率:10/11= 0.909
(c1)「子供は等級を入れる」 ヒット件数:0件 同一フレーズ率:0/0 = 0.000
「***」には、例えば「子供は小学校に入る」という検索キーワードを指定した場合、「子供は近くの小学校に入る」というように、検索キーワードと完全一致しない情報も検索するようなサービスがある。「ヒット件数」とは、このような完全一致でないものも含んだ件数である。これに対し、「同一フレーズ率」とは、検索におけるヒット確率の1種であり、検索キーワードと完全一致したヒット件数を、完全一致しない件数も含む総ヒット件数で除した値である。
次に、制御部12は、上記の3つの基本構造文(a1)、(b1)、(c1)の中から、検索エンジンサーバ装置30による検索の結果に基づいて、最も自然な文章であると考えられる基本構造文を選択する(ステップS5)。具体的には、制御部12は、上記の3つの基本構造文(a1)、(b1)、(c1)の中から、同一フレーズ率が最も高い基本構造文を選択する。基本構造文の同一フレーズ率が高いということは、その基本構造文がより多くの人間によって使われているということを意味するからである。ただし、複数の基本構造文の同一フレーズ率が同値であった場合には、制御部12は、それらの基本構造文のうち、ヒット件数が多い基本構造文を選択する。基本構造文のヒット件数が多い場合も、その基本構造文に類似した文章がより多くの人間によって使われていることになるからである。本実施形態の例では、基本構造文(b1)である「子供は小学校に入る」の同一フレーズ率が「0.909」と最も高いので、制御部12は、基本構造文(b1)を選択することになる。
次に、制御部12は、ステップS5で選択した基本構造文(b2)の内容に基づき、子構造を抽出する(ステップS6)。子構造とは、基本構造文を構成する属性「SUBJ」、「OBJ」、「OBL」の属性値(語句)と、その属性値を翻訳文候補(a)、(b)、(c)において修飾している語句とによって構成されるフレーズを指す。より具体的には、制御部12は、まず選択した基本構造文(b2)から、属性「SUBJ」の属性値を抽出する。この例では、基本構造文(b1)における属性「SUBJ」の属性値「子供」が抽出される。そして、制御部12は、この「子供」をいう語句を、翻訳文候補(a)、(b)、(c)においてそれぞれ修飾している語句を抽出する。つまり「日本人の」と「日本の」という語句である。そして、制御部12は、基本構造文から抽出した語句「子供」と、それを修飾する語句「日本人の」又は「日本の」とによって構成される子構造を抽出する。この結果、制御部12は以下のような2通りの子構造を得ることになる。なお、子構造(a2)と翻訳文候補(a)及び基本構造文(a1)とが対応しており、子構造(b2)と翻訳文候補(b)及び基本構造文(b1)とが対応している。
(a2)「日本人の子供」
(b2)「日本の子供」
次に、制御部12は、WWWブラウザプログラムによって検索エンジンサーバ装置30にアクセスし、上記の子構造(a2)、(b2)を検索キーワードとして検索エンジンサーバ装置30に送信する(ステップS7)。以下に、その検索結果を示す。
(a2)「日本人の子供」 ヒット件数:4480件
(b2)「日本の子供」 ヒット件数:18,800件
制御部12は、それぞれのヒット件数がゼロでないことを確認してから(ステップS8;No)、それぞれのヒット件数を予め決められた閾値(ここでは1000件とする)と比較して、その大小関係を判断する(ステップS9)。ここで、それぞれのヒット件数が閾値を超えていなければ(ステップS9;No)、制御部12は、ヒット件数が多い方の子構造を選択する(ステップS10)。子構造を選択したら、制御部12は、図5のステップS17の処理に進む。
一方、それぞれのヒット件数が閾値を超えている場合には(ステップS9:Yes)、いずれの子構造のヒット件数も比較的多いということを意味するので、制御部12は、どちらが自然な表現であるかを判断することができない。この場合、制御部12は、ステップS5で選択した基本構造文(b1)「子供は小学校に入る」に対して、上述した子構造(a2)、(b2)を挿入した文(以下、詳細構造文という)を生成する(ステップS11)。この例では、詳細構造文は次のようになる。なお、詳細構造文(a3)と子構造(a2)とが対応しており、詳細構造文(b3)と子構造(b2)とが対応している。
(a3)「日本人の子供は小学校に入る」
(b3)「日本の子供は小学校に入る」
そして、制御部12は、この詳細構造文を検索キーワードに指定して検索エンジンサーバ装置30による検索を行う(ステップS12)。そして、制御部12は、検索結果のヒット件数がいずれも0件ではないことを確認した上で(ステップS13:No)、ヒット件数が多い方の子構造を選択する(ステップS10)。
一方、ステップS13において、以下のように、検索結果のヒット件数がいずれも0件の場合には(ステップS13;Yes)、制御部12の処理は図5のステップS14に進む。
(a3)「日本人の子供は小学校に入る」 ヒット件数:0件
(b3)「日本の子供は小学校に入る」 ヒット件数:0件
ステップS14において、制御部12は、詳細構造文を格助詞および係助詞で区切って、複数の語句に分離する。そして、制御部12は、これらをアンド条件で検索キーワードに指定して検索エンジンサーバ装置30による検索を行う(ステップS15)。この検索結果の例を以下に示す。
(a4)「日本人の子供は」&「小学校に」&「入る」 ヒット件数:18件
(b4)「日本の子供は」&「小学校に」&「入る」 ヒット件数:47件
制御部12は、ヒット件数が多い方の詳細構造文に挿入されている子構造、ここでは、(b2)「日本の子供」を選択する(ステップS16)。
上述した処理により、制御部12は、選択した基本構造文(b2)において属性「SUBJ」の属性値「子供」と、それを修飾する語句とによって構成される子構造については確定することができた。次に、制御部12は、ステップS5で選択した基本構造文(b2)の内容に基づいて、さらに子構造を抽出できるかどうかを判断する(ステップS17)。この例では、基本構造文(b2)において、属性「OBL」の属性値「小学校」と、それを修飾する語句「第一の等級の」とによって構成される子構造「第一の等級の小学校」が存在するので(ステップS17;Yes)、制御部12は図4〜図5の上記ステップS6〜S16の手順を繰り返して、その子構造の内容でよいかどうかを確認すればよい。ただし、この例では、ステップS7の検索結果が、
(b4)「第1の等級の小学校」 ヒット件数:0件
というように、ヒット件数がゼロであったとする。
このようにヒット件数がゼロである場合(ステップS8;Yes)、制御部12は、「第一の等級の小学校」のいう表現に対して構文意味解析を施し、以下のように、各語句の係り受け関係を特定する(図6のステップS18)。
(b5)「第一の」→「等級の」→「小学校」
そして、制御部12は、属性「OBL」の属性値「子供」と、その属性値を直接修飾する語句「等級の」とを結合した語句「等級の小学校」を検索キーワードに指定して、検索エンジンサーバ装置30による検索を行う(ステップS19)。この検索の結果は以下のようになる。
(b5)「等級の小学校」 ヒット件数:0件
このように、ヒット件数がゼロの場合には(ステップS20;Yes)、制御部12は、属性「OBL」の属性値を一切修飾しないままの「小学校」、又は、子構造そのものである「第一の等級の小学校」の2通りの語句(フレーズ)を翻訳候補として記憶部11に記憶する(ステップS21)。一方、ヒット件数がゼロでない場合には(ステップS20;No)、制御部12は、その子構造「第一の等級の小学校」を翻訳候補として記憶部11に記憶する(ステップS22)。
再び図5に戻り、制御部12は、基本構造文の子構造の抽出・選択に関する処理が終了すると(ステップS17;No)、翻訳文候補(a)、(b)、(c)において、それぞれの基本構造文(a1)、(b1)、(c1)に含まれていない語句を抽出する(ステップS23)。次に、制御部12は、抽出した語句のうち、翻訳文候補(a)、(b)、(c)の全てに共通して含まれている語句があるか否かを判断する(ステップS24)。この例の場合、「彼らの」、「誕生」、「日」という語句がそれぞれ該当することになる。そのような語句がある場合(ステップS24;Yes)、制御部12は、それぞれの翻訳文候補(a)、(b)、(c)からこれらの語句を連ねた語句(フレーズ)を抽出し、それらの語句(フレーズ)を検索キーワードとして検索エンジンサーバ装置30による検索を行う(ステップS25)。この場合、翻訳文候補(a)からは「6回目の誕生日」という語句(フレーズ)が抽出され、翻訳文候補(b)からは「6才の誕生日」という語句(フレーズ)が抽出され、翻訳文候補(c)からは「第6誕生日」という語句(フレーズ)が抽出されて検索がなされる。その検索結果は以下の通りである。
(a6)「6回目の誕生日」 ヒット件数:16,500件 同一フレーズ率:209 / 16,500 =0.013
(b6)「6才の誕生日」 ヒット件数:9,180件 同一フレーズ率:262 /9,180 =0.029
(c6)「第6誕生日」 ヒット件数:158,000件 同一フレーズ率:1/158,000 =0.000
制御部12は、この検索結果から、同一フレーズ率の最も高い語句を選択する(ステップS26)。この例では、「6才の誕生日」という語句が選択されることとなる.
そして、制御部12の処理は図7に進む。制御部12は、翻訳文候補(a)、(b)、(c)においてそれぞれの基本構造文(a1)、(b1)、(c1)に含まれない語句のうち、語句の順番が異なる部分があるか否かを判断する(ステップS27)。この例の場合、翻訳文候補(a)では、「4月に」が「彼らの6才の誕生日の後に」の前であるが、翻訳文候補(b)、(c)では、「彼らの6才の誕生日の後に」に相当する表現は「4月に」の後である。このように語順が異なる場合は(ステップS27;Yes)、制御部12は、原文に対して構文意味解析を行い、その結果に基づいてこれらの語句の係り受け関係を特定する(ステップS28)。この例では、構文意味解析の結果が図8に示すような内容となる。つまり、「4月に」という語句は、「彼らの6才の誕生日の後に」、「彼らの第6誕生日の後の」、「彼らの6回目の誕生日以降」によって修飾される語句であることがわかる。そして、制御部12は、翻訳文候補(a)、(b)、(c)においてこの係り受け関係を反映した語句(フレーズ)を作成し、この語句を検索キーワードとして検索エンジンサーバ装置30による検索を行う(ステップS29)。その結果は以下の通りである。
(a7)「誕生日以降4月」 ヒット件数:0件 同一フレーズ率 0.000
(b8)「誕生日の後に4月」 ヒット件数:52件 同一フレーズ率 0.000
(c8)「誕生日の後の4月」 ヒット件数:30件 同一フレーズ率 0.100
制御部12は、この検索結果を参照し、同一フレーズ率の最も高い語句(フレーズ)を選択する(ステップS30)。この例では、「誕生日の後の4月」という語句が選択されることになる。これにより、制御部12は、「6才の誕生日の後の4月に」というフレーズを採用する。
そして、制御部12は、以上の処理によって選択された基本構造文の内容に対して、その基本構造文以外の語句を適切に組み合わせることで、最終的な翻訳結果を得る(ステップS31)。つまり、制御部12は、
「日本の子供は彼らの6才の誕生日の後の4月に小学校に入る.」
もしくは
「日本の子供は彼らの6才の誕生日の後の4月に(第一の等級の)小学校に入る.」
という翻訳結果を得て、これを表示部15に表示する。なお、ステップS27において、制御部12は、翻訳文候補(a)、(b)、(c)においてそれぞれの基本構造文(a1)、(b1)、(c1)に含まれない語句のうち、語句の順番が異なる部分がないと判断した場合には(ステップS27;No)、上述したステップS31の処理に進めばよい。
以上の実施形態によれば、検索エンジンでヒットした件数乃至確率が高い語句を用いて翻訳文を作成するので、ネイティブスピーカにとって自然な言い回しの翻訳文を得ることができる。
なお、上述した図4のステップS10において、制御部12は、ヒット件数が多い方の子構造を選択するのではなくて、検索結果における検索キーワードどうしの距離の近さを算出し、距離が近い方の子構造を選択するようにしてもよい。検索キーワードどうしの距離とは、コンピュータによって記憶されている情報のうち、検索キーワードを含むひとまとまりの文章情報において、各検索キーワード間にある形態素の数であり、その形態素の数が多いほど距離が遠く、形態素の数が少ないほど距離が短い。具体的には、制御部12は、検索結果に含まれている文章情報に形態素解析処理を施し、各検索キーワード間にある形態素を計数し、さらにその平均を求めて、その平均値が小さい方の子構造を選択する。
また、実施形態では、検索結果から基本構造文、子構造及びその他の語句を選択する際の基準として、ヒット件数又はヒット確率(同一フレーズ率)を適宜使い分けていたが、これらのヒット件数又はヒット確率のいずれを(又はその両方を)使うかどうかは設計者が適切に定めることができる。要するに、翻訳装置10は、検索キーワードが複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率に基づいて選択すればよい。
なお、制御部12が実行する翻訳プログラムは、コンピュータによって読み取り可能な磁気記録媒体、光記録媒体あるいはROMなどの記録媒体に記録して翻訳装置10に提供することができる。また、インターネット20のようなネットワーク経由で翻訳装置10にダウンロードさせることも可能である。
本発明の実施形態に係る翻訳装置の構成を示すブロック図である。 f-structureの一例を示す図である。 属性の詳細なリストを示す図である。 翻訳プログラムに記述された制御部の実行手順を示すフローチャートである 翻訳プログラムに記述された制御部の実行手順を示すフローチャートである 翻訳プログラムに記述された制御部の実行手順を示すフローチャートである 翻訳プログラムに記述された制御部の実行手順を示すフローチャートである 翻訳文候補に対するf-structureである。 翻訳文候補に対するf-structureである。 翻訳文候補に対するf-structureである。 原文に構文意味解析を施した結果を示す図である。
符号の説明
10・・・翻訳装置、11・・・記憶部、12・・・制御部、13・・・通信部、14・・・データ入出力部、15・・・表示部、16・・・操作部、20・・・インターネット、30・・・検索エンジンサーバ装置。

Claims (13)

  1. ネットワークを介して複数のコンピュータに接続されており、検索キーワードを指定されると、当該検索キーワードが前記複数のコンピュータに記憶されている情報にヒットしたヒット件数乃至ヒット確率を出力する検索装置と、
    ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、前記検索装置に対して前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、前記複数の翻訳文候補のうち前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段とを備える翻訳装置と
    を備えることを特徴とする翻訳システム。
  2. ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳手段と、
    指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索手段と、
    前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句を含む翻訳文候補を用いて翻訳文を作成して出力する出力手段と
    を備えることを特徴とする翻訳装置。
  3. 前記検索手段は、
    前記複数の翻訳文候補に対して構文意味解析を行い、各々の翻訳文候補に含まれる語句の属性を特定する手段と、
    前記構文意味解析の結果に基づいて、予め決められた第1の属性に該当する語句からなる基本構造文を前記複数の翻訳文候補の各々から抽出する手段と、
    抽出された各々の前記基本構造文を前記検索装置に対する前記検索キーワードとして指定し、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
    前記出力手段は、前記複数の基本構造文のうち、前記ヒット件数乃至ヒット確率が大きい基本構造文を用いて翻訳文を作成する
    ことを特徴とする請求項2記載の翻訳装置。
  4. 前記第1の属性は、LFG(Lexical Functional Grammar)に基づく言語解析で得られるfunctional structure (f-structure)における属性「PRED」、「SUBJ」、「OBJ」及び「OBL」であることを特徴とする請求項3記載の翻訳装置。
  5. 前記検索手段は、
    前記検索装置による検索の結果取得したヒット件数乃至ヒット確率が大きい基本構造文を構成する語句のうち、予め決められた第2の属性に相当する語句を前記基本構造文から抽出し、当該語句を修飾する語句を前記複数の翻訳文候補の各々から抽出し、抽出した語句とそれを修飾する語句からなる複数の子構造を特定する手段と、
    特定した前記子構造を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
    前記出力手段は、前記複数の子構造のうち、前記ヒット件数乃至ヒット確率が大きい子構造を用いて翻訳文を作成する
    ことを特徴とする請求項3記載の翻訳装置。
  6. 前記第2の属性は、LFG(Lexical Functional Grammar)に基づく言語解析で得られるfunctional structure (f-structure)における属性「SUBJ」、「OBJ」及び「OBL」であることを特徴とする請求項5記載の翻訳装置。
  7. 前記検索手段は、
    前記子構造を前記検索装置に対する前記検索キーワードとして指定して取得したヒット件数乃至ヒット確率がいずれも閾値を超える場合には、当該複数の子構造の各々を前記複数の基本構造文の各々に挿入して詳細構造文を生成する手段と、
    生成した前記詳細構造文を前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
    前記出力手段は、前記複数の詳細構造文のうち、前記ヒット件数乃至ヒット確率が大きい詳細構造文を用いて翻訳文を作成する
    ことを特徴とする請求項5記載の翻訳装置。
  8. 前記検索手段は、
    複数の前記詳細構造文を前記検索装置に対する前記検索キーワードに指定して取得したヒット件数乃至ヒット確率がゼロであった場合には、前記複数の詳細構造文をそれぞれ助詞で区切って複数の語句に分離する手段と、
    これら複数の語句をアンド条件で前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
    前記出力手段は、前記複数の詳細構造文のうち前記ヒット件数乃至ヒット確率が大きい語句を含む詳細構造文を用いて翻訳文を作成する
    ことを特徴とする請求項5記載の翻訳装置。
  9. 前記出力手段は、前記検索装置による検索結果として、前記検索キーワードを含む情報の一部を取得し、取得した情報の一部に形態素解析を施して各々の検索キーワード間にある形態素を計数し、更にその計数値の平均を求めて最も小さい平均値に対応する詳細構造文を用いて翻訳文を作成する
    ことを特徴とする請求項8記載の翻訳装置。
  10. 前記検索手段は、
    前記基本構造文に含まれない語句であって、前記複数の翻訳文候補の全てに含まれる語句を抽出し、各々の翻訳文候補から複数のフレーズを生成する手段と、
    生成した複数のフレーズを前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
    前記出力手段は、前記複数のフレーズのうち前記ヒット件数乃至ヒット確率が大きいフレーズを用いて翻訳文を作成する
    ことを特徴とする請求項3記載の翻訳装置。
  11. 前記検索手段は、
    前記複数の翻訳文候補において、前記基本構造文に含まれない語句の順番が異なる部分があるか否かを判断する手段と、
    語句の順番が異なる部分があると判断された場合には、前記ある言語で表現された自然言語文に対して構文意味解析を行って順番が異なる語句の係り受け関係を特定し、その係り受け関係を反映した複数のフレーズを作成する手段と、
    作成した複数のフレーズを前記検索装置に対する前記検索キーワードとして指定して、前記検索装置による検索の結果得られたヒット件数乃至ヒット確率を取得する手段とを有し、
    前記出力手段は、前記複数のフレーズのうち前記ヒット件数乃至ヒット確率が大きいフレーズを用いて翻訳文を作成する
    ことを特徴とする請求項3記載の翻訳装置。
  12. ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳ステップと、
    指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索ステップと、
    前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を用いて翻訳文を作成して出力する出力ステップと
    を備えることを特徴とする翻訳方法。
  13. コンピュータに、
    ある言語で表現された自然言語文を、別の言語で表現された複数の翻訳文候補に翻訳する翻訳機能と、
    指定された検索キーワードが複数のコンピュータに記憶されている情報にヒットした件数乃至ヒットした確率を出力する検索装置に対して、前記複数の翻訳文候補に含まれる語句を検索キーワードとして指定し、当該検索装置によって出力されたヒット件数乃至ヒット確率を取得する検索機能と、
    前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を翻訳文として出力するか、又は、前記複数の翻訳文候補のうち、前記ヒット件数乃至ヒット確率が大きい語句又はフレーズを含む翻訳文候補を用いて翻訳文を作成し出力する出力機能と
    を実現させるプログラム。
JP2005275820A 2005-09-22 2005-09-22 翻訳システム、翻訳装置、翻訳方法及びプログラム Expired - Fee Related JP4940606B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005275820A JP4940606B2 (ja) 2005-09-22 2005-09-22 翻訳システム、翻訳装置、翻訳方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005275820A JP4940606B2 (ja) 2005-09-22 2005-09-22 翻訳システム、翻訳装置、翻訳方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007087157A true JP2007087157A (ja) 2007-04-05
JP4940606B2 JP4940606B2 (ja) 2012-05-30

Family

ID=37974071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005275820A Expired - Fee Related JP4940606B2 (ja) 2005-09-22 2005-09-22 翻訳システム、翻訳装置、翻訳方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4940606B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009059290A (ja) * 2007-09-03 2009-03-19 Just Syst Corp 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JP2010527494A (ja) * 2007-05-16 2010-08-12 グーグル・インコーポレーテッド 多言語情報検索
JP2012185654A (ja) * 2011-03-04 2012-09-27 Fujitsu Ltd 翻訳装置、翻訳プログラムおよび翻訳方法
JP2013500541A (ja) * 2009-07-30 2013-01-07 アルカテル−ルーセント ウェブ・ページへのキーワード割り当て

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0320866A (ja) * 1989-03-07 1991-01-29 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方式
JPH10307824A (ja) * 1997-05-09 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 辞書検索方法及び装置及び辞書検索プログラムを格納した記憶媒体
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
JP2005182280A (ja) * 2003-12-17 2005-07-07 Ibm Japan Ltd 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0320866A (ja) * 1989-03-07 1991-01-29 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方式
JPH10307824A (ja) * 1997-05-09 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 辞書検索方法及び装置及び辞書検索プログラムを格納した記憶媒体
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
JP2005182280A (ja) * 2003-12-17 2005-07-07 Ibm Japan Ltd 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527494A (ja) * 2007-05-16 2010-08-12 グーグル・インコーポレーテッド 多言語情報検索
JP2009059290A (ja) * 2007-09-03 2009-03-19 Just Syst Corp 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JP2013500541A (ja) * 2009-07-30 2013-01-07 アルカテル−ルーセント ウェブ・ページへのキーワード割り当て
US8959091B2 (en) 2009-07-30 2015-02-17 Alcatel Lucent Keyword assignment to a web page
JP2012185654A (ja) * 2011-03-04 2012-09-27 Fujitsu Ltd 翻訳装置、翻訳プログラムおよび翻訳方法

Also Published As

Publication number Publication date
JP4940606B2 (ja) 2012-05-30

Similar Documents

Publication Publication Date Title
US10073843B1 (en) Method and apparatus for cross-lingual communication
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
JP4494706B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
JP3114181B2 (ja) 異言語交信用翻訳方法およびシステム
JP4714400B2 (ja) スケーラブル機械翻訳システム
US9098489B2 (en) Method and system for semantic searching
US6243670B1 (en) Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
WO2010046782A2 (en) Hybrid machine translation
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
JPH0261763A (ja) 機械翻訳装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Thadani et al. Towards strict sentence intersection: decoding and evaluation strategies
JP5528376B2 (ja) 文書平易化装置およびプログラム
Strassel et al. Data acquisition and linguistic resources
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Petasis et al. A Greek morphological lexicon and its exploitation by natural language processing applications
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
Singla Methods for Leveraging Lexical Information in SMT
Narita Constructing a Tagged EJ Parallel Corpus for Assisting Japanese Software Engineers in Writing English Abstracts.
JP2005157823A (ja) 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム
Kuo et al. Active learning for constructing transliteration lexicons from the Web

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees