JP2009075791A - 機械翻訳を行う装置、方法、プログラムおよびシステム - Google Patents

機械翻訳を行う装置、方法、プログラムおよびシステム Download PDF

Info

Publication number
JP2009075791A
JP2009075791A JP2007243195A JP2007243195A JP2009075791A JP 2009075791 A JP2009075791 A JP 2009075791A JP 2007243195 A JP2007243195 A JP 2007243195A JP 2007243195 A JP2007243195 A JP 2007243195A JP 2009075791 A JP2009075791 A JP 2009075791A
Authority
JP
Japan
Prior art keywords
sentence
dictionary information
translation
dictionary
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007243195A
Other languages
English (en)
Inventor
Hirokazu Suzuki
博和 鈴木
Satoshi Kinoshita
聡 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007243195A priority Critical patent/JP2009075791A/ja
Priority to US12/050,464 priority patent/US20090083024A1/en
Priority to CNA200810149207XA priority patent/CN101393547A/zh
Publication of JP2009075791A publication Critical patent/JP2009075791A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】翻訳の精度を向上させる機械翻訳装置を提供する。
【解決手段】入力文と辞書情報とを含む翻訳要求を受付ける受付部101と、入力文と原文との類似度を算出し、類似度が閾値より大きい原文を原文記憶部121から取得する原文取得部102と、取得された原文に対応する辞書情報IDの辞書情報を辞書記憶部122から取得する辞書情報取得部103と、取得した辞書情報内の第1単語が入力文に含まれるか否かを判断し、含まれる場合に、入力文に含まれる第1単語を、取得した辞書情報内の対応する第2単語で翻訳する翻訳部104と、翻訳要求に含まれる辞書情報を辞書記憶部122に保存するとともに、保存した辞書情報の辞書情報IDと、入力文とを対応づけて原文記憶部121に保存する保存部105とを備えた。
【選択図】 図1

Description

この発明は、クライアント端末からの翻訳要求を受付け、サーバ側で入力文の言語である第1言語から出力文の言語である第2言語への翻訳処理を行い、翻訳結果を要求元のクライアント端末に送信する装置、方法、プログラムおよびシステムに関するものである。
翻訳を要求するユーザが利用する複数のクライアント端末と、翻訳機能を提供する機械翻訳サーバとを備え、翻訳時にユーザから指定された原言語の単語と訳語との組みである辞書情報または文書分野情報を用いて翻訳を行う機械翻訳システムが知られている。このような機械翻訳システムは、ユーザが辞書情報で指示した訳語を使用すること、または指定された文書分野情報で決定される翻訳辞書を用いることなどによって、高品質な機械翻訳を実現可能としている。
例えば、特許文献1では、ユーザが指定した辞書情報を分野毎に学習し、翻訳時には学習した辞書情報を利用する技術が提案されている。また、特許文献2では、ユーザから与えられた分野情報を用いて使用する辞書を決定する技術が提案されている。
特開2003−223442号公報 特開2003−296327号公報
しかしながら、特許文献1や特許文献2のような手法は、翻訳対象の文書が1つの分野に依存しているような場合には効果があるが、ニュース記事のように1文書に複数の分野に関する文章が含まれる場合には翻訳品質が悪化する場合があるという問題があった。
また、上記のような手法では翻訳の際に分野を明示的に与えなければならないが、分野の粒度によって翻訳品質が変化するという問題点も存在する。例えば、「スポーツ」という分野を設けた場合、同じ単語でも「野球」または「サッカー」などのスポーツの種類によって訳語が異なる場合があり、このような場合には訳語選択に曖昧性が生じる。
逆に、「野球」または「サッカー」のようにスポーツの種類毎に細かく分けた分野を設けた場合、上記のような曖昧性は生じにくくなる。しかし、他のスポーツでも共通に用いられる訳語が存在する場合、指定分野が細かいために、共通に用いられる訳語が参照できなくなり、翻訳品質が低下する可能性がある。
本発明は、上記に鑑みてなされたものであって、辞書情報を参照して機械翻訳するときの翻訳の精度を向上させることができる装置、方法、プログラムおよびシステムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、第1言語による第1単語および第2言語による第2単語を対応づけた辞書情報と、前記辞書情報を識別する識別情報とを記憶する辞書記憶部と、第1言語による原文と、前記原文を翻訳した際に利用した前記辞書情報の前記識別情報とを対応づけて記憶する原文記憶部と、第1言語による入力文を含む翻訳要求を受付ける受付部と、前記翻訳要求に含まれる前記入力文と前記原文との類似度を算出し、前記類似度が予め定められた閾値より大きい前記原文を前記原文記憶部から取得する原文取得部と、取得された前記原文に対応する前記識別情報の前記辞書情報を前記辞書記憶部から取得する辞書情報取得部と、取得した前記辞書情報内の前記第1単語が前記入力文に含まれるか否かを判断し、含まれる場合に、前記入力文に含まれる前記第1単語を、取得した前記辞書情報の前記第2単語で翻訳する翻訳部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
また、本発明は、翻訳を要求する端末装置と、前記端末装置とネットワークを介して接続された機械翻訳装置とを備えた機械翻訳システムであって、前記端末装置は、第1言語による入力文を含む翻訳要求を前記機械翻訳装置に送信する要求送信部と、翻訳結果を受信する結果受信部と、を備え、前記機械翻訳装置は、第1言語による第1単語および第2言語による第2単語を対応づけた辞書情報と、前記辞書情報を識別する識別情報とを記憶する辞書記憶部と、第1言語による原文と、前記原文を翻訳した際に利用した前記辞書情報の前記識別情報とを対応づけて記憶する原文記憶部と、前記翻訳要求を前記端末装置から受付ける受付部と、前記翻訳要求に含まれる前記入力文と前記原文との類似度を算出し、前記類似度が予め定められた閾値より大きい前記原文を前記原文記憶部から取得する原文取得部と、取得された前記原文に対応する前記識別情報の前記辞書情報を前記辞書記憶部から取得する辞書情報取得部と、取得した前記辞書情報内の前記第1単語が前記入力文に含まれるか否かを判断し、含まれる場合に、前記入力文に含まれる前記第1単語を、取得した前記辞書情報の前記第2単語で翻訳する翻訳部と、前記翻訳部による翻訳結果を前記端末装置に出力する出力部と、を備えたことを特徴とする。
本発明によれば、辞書情報を参照して機械翻訳するときの翻訳の精度を向上させることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる装置、方法、プログラムおよびシステムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる機械翻訳システムは、端末装置であるクライアントからの翻訳要求を受付け、機械翻訳装置である機械翻訳サーバで入力文の言語である第1言語から出力文の言語である第2言語への翻訳処理を行いその結果を要求元に送信するシステムである。このとき、ユーザは、第1言語の単語と、その対訳単語である第2言語の単語の組を辞書情報として指定することができる。そして、機械翻訳サーバは、翻訳時に指定された辞書情報を用いて訳出を行う。
また、第1の実施の形態にかかる機械翻訳システムは、複数のユーザから指定された辞書情報と入力文とを対応づけて保存し、翻訳が要求された入力文と類似する文が保存されている場合は、保存された文に対応づけられた辞書情報も参照して高精度に入力文を翻訳するものである。
なお、以下では、英語および日本語間の機械翻訳を例に説明するが、翻訳に用いる言語はこれに限られず、あらゆる言語間の機械翻訳に適用することができる。
図1は、第1の実施の形態にかかる機械翻訳システム10の構成を示すブロック図である。図1に示すように、機械翻訳システム10は、機械翻訳サーバ100と、複数のクライアント200a〜200cとが、インターネット、LANなどのネットワーク300で接続された構成となっている。
クライアント200a〜200cは、翻訳の対象とする入力文と、当該入力文の翻訳時に利用する辞書情報とを含む翻訳要求を、機械翻訳サーバ100に送信し、翻訳結果を機械翻訳サーバ100から受信することにより、所望の入力文を翻訳するものである。なお、クライアント200a〜200cは、同様の構成を備えるため、以下では単にクライアント200という場合がある。また、クライアント200の個数は3つに限られるものではない。
機械翻訳サーバ100は、クライアント200a〜200cからの翻訳要求に応じて機械翻訳を実行し、翻訳結果をクライアント200a〜200cのうち翻訳を要求した装置に返信するものである。機械翻訳サーバ100の機能の詳細については後述する。
次に、クライアント200の機能の詳細について説明する。同図に示すように、クライアント200は、要求送信部201と、結果受信部202とを備えている。
要求送信部201は、翻訳要求を機械翻訳サーバ100に送信するものである。上述のように、翻訳要求は、翻訳の対象とする入力文と翻訳に利用する辞書情報とを含んでいる。翻訳要求には、さらに翻訳を要求したユーザのユーザ名などのユーザを識別可能な識別情報が含まれる。この識別情報は、翻訳要求を送信したユーザを識別するために利用される。なお、ユーザは辞書情報を指定せずに翻訳要求を行ってもよい。この場合は、翻訳要求には辞書情報を除く情報が設定される。
結果受信部202は、翻訳要求に応じて機械翻訳サーバ100が入力文を翻訳した翻訳結果を、機械翻訳サーバ100から受信するものである。
なお、クライアント200は、翻訳する入力文や利用する辞書情報を指定する機能や、翻訳結果を表示する機能を有するアプリケーション等(図示せず)によって、上述のような翻訳要求の送信、翻訳結果の受信を行うことができる。
次に、機械翻訳サーバ100の機能の詳細について説明する。同図に示すように、機械翻訳サーバ100は、原文記憶部121と、辞書記憶部122と、受付部101と、原文取得部102と、辞書情報取得部103と、翻訳部104と、保存部105と、出力部106と、を備えている。
原文記憶部121は、過去に翻訳が要求された入力文を、当該入力文を過去に翻訳したときに利用した辞書情報を参照できるように記憶するものである。以下では、原文記憶部121に記憶された過去の入力文を原文情報という場合がある。
図2は、原文記憶部121に記憶されるデータのデータ構造の一例を示す図である。図2に示すように、原文記憶部121は、構成単語インデックスと、原文情報と、辞書情報IDとを対応づけたデータが記憶される。構成単語インデックスは、原文情報を効率的に検索するための索引である。
第1の実施の形態では、原文情報を形態素解析して得られた単語を列挙した構成単語インデックスを索引として用いる。入力文と類似する原文情報を検索するときに、構成単語インデックスを用いて絞り込んだ原文情報のみを対象とすることにより、すべての原文情報を対象とする必要をなくし、検索処理を効率化することができる。
辞書情報IDは、原文情報が翻訳要求されたときに指定された辞書情報を識別するための識別情報である。
図1に戻り、辞書記憶部122は、翻訳が要求された入力文と同時に指定された第1言語の単語と第2言語による訳語との組である辞書情報を格納するものである。図3は、辞書記憶部122に記憶されるデータのデータ構造の一例を示す図である。
図3に示すように、辞書記憶部122は、ユーザ名と、辞書情報と、辞書情報IDとを対応づけたデータが記憶される。ユーザ名は、翻訳を要求したユーザのユーザ名である。辞書情報は、「第1言語の単語=第2言語の訳語」の形式で設定される。第1言語の単語と第2言語の訳語との組が複数指定された場合は、辞書情報には複数の組が設定される。同図では、ユーザ名=UserAの辞書情報として、「Ew4=Jw4」および「Ew5=Jw5」の2つの組が指定された例が示されている。
辞書情報IDは、上述のように辞書情報を識別するためのIDである。辞書情報IDは、原文記憶部121に格納されている原文情報と、辞書記憶部122に格納されている辞書情報とを関連付けるための情報である。すなわち、原文記憶部121のある原文情報に対応する辞書情報IDを用いて辞書記憶部122を検索すれば、その原文情報が翻訳要求された際に指定された辞書情報を取得することができる。
なお、原文記憶部121および辞書記憶部122は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
また、原文情報および辞書情報の記憶方式は上述に限られるものではなく、任意の原文情報に対して、当該原文情報の翻訳要求時に指定された辞書情報が特定可能であればあらゆる記憶方式を適用できる。
図1に戻り、受付部101は、クライアント200から送信された翻訳要求を受付けるものである。
原文取得部102は、入力文と、原文記憶部121中に格納されている原文情報との類似度を算出し、類似度が予め定められた閾値以上の原文情報を取得するものである。具体的には、原文取得部102は、まず、入力文を形態素解析して単語に分割する。そして、分割して得られた各単語を構成単語インデックスに含む原文情報を原文記憶部121から取得する。
次に、原文取得部102は、取得した原文情報それぞれと入力文との類似度を算出する。原文取得部102は、原文情報と入力文との編集距離により類似度を算出する。すなわち、原文取得部102は、入力文との編集距離が小さい原文情報に対して、入力文との編集距離が大きい原文情報より大きい類似度を算出する。なお、類似度の算出方法はこれに限られるものではなく、文間の類似する度合いを算出可能なものであればあらゆる方法を適用できる。
辞書情報取得部103は、原文取得部102により取得された原文情報に対応する辞書情報IDをキーとして、辞書記憶部122から辞書情報を取得するものである。
原文取得部102および辞書情報取得部103により、入力文と類似する原文情報、および当該原文情報の翻訳時に利用された辞書情報を取得することができる。
翻訳部104は、翻訳が要求された入力文を翻訳するものである。翻訳部104による翻訳方式は、解析、変換、および生成などの処理段階で構成されるトランスファー方式でもよいし、中間言語方式でもよい。すなわち、辞書情報で指定された訳語で翻訳を実行する方式であれば、従来から用いられているあらゆる翻訳方式を適用できる。
なお、翻訳部104は、図示しないユーザ用カスタマイズ辞書、用語辞書、および翻訳規則辞書など各種の翻訳用辞書を参照して入力文を翻訳する。このため、翻訳部104は、ユーザが指定した見出し語・訳語・条件などその他の情報をユーザ用カスタマイズ辞書に登録・削除・修正する機能を有する。
なお、翻訳部104は、翻訳要求でユーザにより指定された辞書情報を用いて入力文を翻訳する。すなわち、翻訳用辞書で得られる訳語よりも辞書情報に指定された訳語を優先して入力文を翻訳する。さらに、翻訳部104は、辞書情報取得部103により辞書情報が取得されたか否かを判断し、取得された場合は、翻訳要求でユーザにより指定された辞書情報に加え、取得された辞書情報を用いて入力文を翻訳する。翻訳要求に辞書情報が指定されていない場合は、翻訳部104は、辞書情報取得部103により取得された辞書情報のみを利用して入力文を翻訳する。また、翻訳要求に辞書情報が指定されておらず、辞書情報取得部103により辞書情報が取得されなかった場合は、翻訳部104は、辞書情報は利用せずに上述のような翻訳用辞書のみを参照して入力文を翻訳する。
保存部105は、翻訳要求に含まれる辞書情報に新たな辞書情報IDを付与して辞書記憶部122に保存するものである。また、保存部105は、保存した辞書情報の辞書情報IDと、翻訳が要求された入力文とを対応づけて原文記憶部121に保存する。
出力部106は、翻訳部104による入力文の翻訳結果をクライアント200に出力するものである。
次に、このように構成された第1の実施の形態にかかる機械翻訳サーバ100による機械翻訳処理について図4を用いて説明する。図4は、第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
まず、受付部101が、入力文と辞書情報とを含む翻訳要求を、クライアント200から受付ける(ステップS401)。次に、原文取得部102が、入力文と、原文記憶部121に格納された原文情報との類似度を算出する(ステップS402)。
具体的には、原文取得部102は、まず、入力文を形態素解析して得られた各単語を構成単語インデックスに含む原文情報を原文記憶部121から取得する。そして、原文取得部102は、取得した原文情報と入力文との編集距離が小さいほど類似度の値が大きくなるように、各原文情報と入力文との類似度を算出する。
次に、原文取得部102は、類似度と予め定められた閾値とを比較し、類似度が閾値より大きい原文情報を取得する(ステップS403)。なお、原文取得部102は、類似度が閾値より大きい原文情報のうち、類似度の大きさが上位の予め定められた個数の原文情報を取得するように構成してもよい。また、原文取得部102は、類似度が閾値より大きく、かつ類似度が最大の原文情報のみを取得するように構成してもよい。
次に、辞書情報取得部103は、原文情報が取得されたか否かを判断し(ステップS404)、取得された場合は(ステップS404:YES)、原文情報に対応する辞書情報IDを原文記憶部121から取得する(ステップS405)。そして、辞書情報取得部103は、取得した辞書情報IDが一致する辞書情報を辞書記憶部122から取得する(ステップS406)。
次に、翻訳部104は、辞書情報取得部103により辞書情報が取得されたか否かを判断する(ステップS407)。取得された場合は(ステップS407:YES)、翻訳部104は、翻訳要求でユーザにより指定された辞書情報に加え、取得された辞書情報を用いて入力文を翻訳する(ステップS408)。
このような処理により、ユーザにより辞書情報が指定されていない単語に対しても、過去に類似した文が翻訳済みであれば、そのときに利用した辞書情報を用いてより適切な翻訳結果を得ることができる。
辞書情報が取得されなかった場合は(ステップS407:NO)、翻訳部104は、翻訳要求でユーザにより指定された辞書情報を用いて入力文を翻訳する(ステップS409)。
次に、保存部105は、入力文および辞書情報を、それぞれ原文記憶部121および辞書記憶部122に保存する(ステップS410)。具体的には、保存部105は、まず、翻訳要求に含まれる辞書情報に新たな辞書情報IDを付与し、辞書記憶部122に保存する。そして、保存部105は、ステップS402で原文取得部102によって得られた単語から構成単語インデックスを生成し、生成した構成単語インデックスと、入力文と、付与した辞書情報IDとを対応づけたデータを原文記憶部121に保存する。
次に、出力部106は、翻訳部104による入力文の翻訳結果を、翻訳要求を送信したクライアント200に出力し(ステップS411)、機械翻訳処理を終了する。
なお、上記各ステップは、必ずしも上記のような順序で実行しなくてもよい。例えば、翻訳部104が実行する処理のうち、辞書情報を用いて単語の訳語を選択する処理以外の処理については、関連する辞書情報を取得する処理(ステップS402〜ステップS407)と並行して実行することができる。また、各記憶部に情報を保存する処理(ステップS410)、およびクライアント200への翻訳結果の出力処理(ステップS411)の実行順序を入れ替えてもよいし、並行して実行してもよい。
次に、第1の実施の形態における機械翻訳処理の具体例について説明する。ここでは、ユーザ名がUserAであるユーザ(以下、単にUserAという。)がクライアント200から翻訳を要求する場合を例に説明する。UserAは、翻訳する入力文と、当該入力文の翻訳で採用すべき辞書情報とを含む翻訳要求を機械翻訳サーバ100に送信する。
ここでは、UserAは、3つの単語Ew1、Ew2、Ew3を含む入力文「----- Ew1 --- -- Ew2 -- -- Ew3 ----」と、英単語Ew2に対する日本語訳語をJw2にするために、「Ew2=Jw2」という辞書情報とを指定したものとする。
なお、記号「-」で表した部分は類似度判定で重要でない部分を表す。採用する類似度判定の手法によっては、入力文の全ての文字列を用いる場合もあれば、一部の単語だけを用いる場合もある。いずれの文字列を用いるかは、採用する類似度判定手法に依存するため記号「-」で表される部分はどのようなものであるかは重要ではない。
機械翻訳サーバ100は、この入力文と辞書情報とを含む翻訳要求をクライアント200から受付ける(ステップS401)。入力文に対して通常行われる機械翻訳の処理を行うと同時に、原文取得部102は、原文記憶部121内に格納されている原文情報のうち入力文と最も類似度が高い原文情報を検索する(ステップS403)。ここでは図2のようなデータが記憶された原文記憶部121から、Ew1、Ew2、Ew3、およびEw4の4つの単語が含まれている原文情報「----- Ew1 --- -- Ew2 -- -- Ew3 Ew4--」が最も類似度が高い原文として検索されたものとする。
辞書情報取得部103は、この原文情報に対応づけられている辞書情報IDを取得する(ステップS405)。図2の場合、辞書情報取得部103は、辞書情報IDとして1を取得する。
次に、辞書情報取得部103は、辞書情報ID=1の辞書情報を、図3に示すような辞書記憶部122から検索する(ステップS406)。この処理によって得られる登録済みの辞書情報は、「Ew1=Jw1’」、「Ew2=Jw2’」、「Ew3=Jw3’」、および「Ew4=Jw4’」の4つである。
入力文中に存在する単語はEw1、Ew2、およびEw3であり、UserAが指定している辞書情報はEw2に関してのみである。したがって、翻訳部104は、それ以外のEw1、Ew3について、上記で得られた辞書情報「Ew1=Jw1’」および「Ew3=Jw3’」を用いて入力文を翻訳する(ステップS408)。
仮にUserAが辞書情報を指定していなかった場合は、翻訳部104は、「Ew1=Jw1’」、「Ew2=Jw2’」、および「Ew3=Jw3’」の3つの辞書情報を用いて入力文を翻訳する。
なお、複数の原文情報が取得された場合は、それぞれに対応する辞書情報をマージして利用するように構成してもよい。また、類似度が大きい原文情報に対応する辞書情報を利用するように構成してもよい。
翻訳後、保存部105は、原文記憶部121に入力文の情報を保存し、辞書記憶部122にユーザが指定した辞書情報を保存する(ステップS410)。図5は、図2で示す原文記憶部121に対して入力文の情報を登録した後の状態を表す図である。図5に示すように、3つの単語(Ew1、Ew2、Ew3)を含む入力文が、新たな原文情報として追加されている。
図6は、図3で示す辞書記憶部122に今回の翻訳で指定された辞書情報を登録した後の状態を表す図である。図6に示すように、辞書情報ID=3の辞書情報が新たに追加されている。
この後、さらに翻訳が要求された場合は、更新された新しい原文情報および辞書情報を用いて、翻訳処理、原文情報の格納処理、および辞書情報の格納処理が繰り返される。すなわち、クライアント200から翻訳が要求されるたびに、原文記憶部121と辞書記憶部122の情報が拡充され、翻訳知識が蓄積されていく。
第1の実施の形態のように、多数のユーザが利用しうる機械翻訳システム10では、あるユーザが翻訳要求している文またはそれに類似している文が、他のユーザからの翻訳要求により既に翻訳されている場合がある。
第1の実施の形態にかかる機械翻訳装置では、過去の翻訳知識を蓄積することができるため、このような場合、翻訳知識を参照することにより高品質な訳出が可能となる。具体的には、訳語が指示されていない単語に対しては、入力文と類似度する文の翻訳時に参照された辞書情報を用いて翻訳を行うことができる。このため、単純に辞書見出し語を検索してその訳語を出力するよりも高品質な訳出が可能となる。
また、1つの文書に複数分野の文章が存在する場合でも、文単位での類似度判定を行うため、文毎に適切な訳語を選択することができる。このため、1文書に複数の分野に関する文章が含まれる場合でも、翻訳品質が悪化することがない。また、ユーザが原文に辞書情報をつけて翻訳要求を行うたびに、当該辞書情報が逐次拡充されるため、多数のユーザによって翻訳が要求されるほど高品質の翻訳を行えるようになる。
(第2の実施の形態)
第2の実施の形態にかかる機械翻訳装置は、入力文を、他の文との類似度を比較可能な形式に変換した上で、過去に翻訳された文であって同様に変換済みの文との類似度を比較して関連する辞書情報を取得するものである。
図7は、第2の実施の形態にかかる機械翻訳システム70の構成を示すブロック図である。図7に示すように、機械翻訳システム70は、機械翻訳サーバ700と、複数のクライアント200a〜200cとが、ネットワーク300で接続された構成となっている。
第2の実施の形態では、機械翻訳サーバ700の構成が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる機械翻訳システム10の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
機械翻訳サーバ700は、原文記憶部721と、辞書記憶部122と、受付部101と、原文取得部702と、辞書情報取得部103と、翻訳部104と、保存部105と、出力部106と、変換部707と、を備えている。
第2の実施の形態では、原文記憶部721に格納されたデータのデータ構造、原文取得部702の機能、および変換部707が追加されたことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる機械翻訳システム10の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
原文記憶部721は、他の文との類似度を比較可能な形式で変換した原文情報を格納する点が、第1の実施の形態の原文記憶部121と異なっている。類似度を比較可能な形式とは、類似度の算出方法に応じて定まる形式である。第2の実施の形態では、入力文に含まれる単語の頻度をベクトル化したベクトル形式に変換し、類似度としてコサイン類似度を用いる例について説明する。
なお、類似度の算出方法や変換形式はこれに限られるものではなく、入力文を変換した上で他の文との類似度を比較する方法であればあらゆる類似度算出方法および変換形式を適用できる。例えば、分割した単語を正規化してから類似度を算出するように構成してもよい。正規化とは、例えば「コンピューター」と「コンピュータ」のように同じ意味で表記が異なる単語を代表的な表記に統一することを言う。また、文の構文構造を参照して構文的な類似度を算出する方法や、言語表現の依存構造の類似性を考慮して言語表現の類似度を求める方法などを適用してもよい。
図8は、原文記憶部721に記憶されるデータのデータ構造の一例を示す図である。図8に示すように、原文記憶部721は、ベクトル形式で表した原文情報と、辞書情報IDとを対応づけたデータが記憶される。なお、同図は説明のため、左からそれぞれ単語Ew1、Ew2、Ew3、Ew4、およびEw5が出現する頻度を表したベクトルの例を表している。他の単語については、記号「・・・」によって省略したことを表している。
また、同図は、第1の実施の形態の原文記憶部121を表す図2の各データの原文情報をベクトル形式に変換した場合の例を表している。すなわち、図2の1行目の原文情報には、単語Ew1、Ew2、Ew3、およびEw4が含まれているため、対応する図8のベクトルは、(・・・、1、1、1、1、0、・・・)となる。また、図2の2行目の原文情報には、単語Ew4およびEw5が含まれているため、対応する図8のベクトルは、(・・・、0、0、0、1、1、・・・)となる。
変換部707は、入力文を、他の文との類似度を比較可能な予め定められた形式に変換するものである。具体的には、変換部707は、まず入力文を形態素解析して単語に分割する。そして、変換部707は、入力文を、得られた各単語の頻度をベクトル化したベクトル形式に変換する。
原文取得部702は、変換部707によって変換された形式の入力文と、原文記憶部721に格納されている原文情報との間のコサイン類似度を算出し、コサイン類似度が予め定められた閾値以上の原文情報を取得する。
次に、このように構成された第2の実施の形態にかかる機械翻訳サーバ700による機械翻訳処理について図9を用いて説明する。図9は、第2の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
ステップS901の翻訳要求受付処理は、第1の実施の形態にかかる機械翻訳サーバ100におけるステップS401と同様の処理なので、その説明を省略する。
次に、変換部707が、入力文を類似度比較可能な形式、すなわち、ベクトル形式に変換する(ステップS902)。次に、原文取得部702が、入力文と、原文記憶部721に格納された原文情報とのコサイン類似度を算出する(ステップS903)。
次に、原文取得部702は、算出したコサイン類似度と予め定められた閾値とを比較し、コサイン類似度が閾値より大きい原文情報を取得する(ステップS904)。
ステップS905からステップS910の辞書情報取得処理および翻訳処理は、第1の実施の形態にかかる機械翻訳サーバ100におけるステップS404からステップS409と同様の処理なので、その説明を省略する。
翻訳部104によって入力文が翻訳された後、保存部105は、変換された入力文および辞書情報を、それぞれ原文記憶部721および辞書記憶部122に保存する(ステップS911)。
ステップS912の翻訳結果出力処理は、第1の実施の形態にかかる機械翻訳サーバ100におけるステップS411と同様の処理なので、その説明を省略する。
このように、第2の実施の形態にかかる機械翻訳装置では、入力文を、他の文との類似度を比較可能な形式に変換した上で、過去に翻訳された文であって同様に変換済みの文との類似度を比較して関連する辞書情報を取得することができる。
(変形例)
上記実施の形態では、複数の原文情報が取得された場合、すべての辞書情報を利用するか、より類似度が大きい原文情報に対応する辞書情報を利用するように構成することができることを説明した。これに対し、原文情報または辞書情報に関連情報を対応づけて保存し、関連情報を元に辞書情報の優先度を求めて、優先度の高い辞書情報を利用するように構成してもよい。
図10は、このように構成した上記実施の形態の変形例にかかる辞書記憶部122に記憶されるデータのデータ構造の一例を示す図である。
図10に示すように、本変形例では、辞書記憶部122内に、ユーザ名、辞書情報、および辞書情報IDに加えて、辞書記憶部122に登録した日時と、辞書情報を適用すべき分野とを関連情報として対応づけたデータを格納する。
そして、辞書情報取得部103は、複数の辞書情報が取得された場合、例えば、登録日時がより新しい辞書情報を優先して取得するように構成する。また、翻訳要求内に分野の指定を含め、辞書情報取得部103が、指定された分野に対応づけられた辞書情報を優先して取得するように構成してもよい。
さらに、ユーザの権限に応じて辞書情報の優先度を決定するように構成してもよい。例えば、図示しないユーザ管理用のデータベース等を利用してユーザ名に対応するユーザの権限を取得し、ユーザが管理者権限を有する場合に、その他の権限のユーザより優先して辞書情報を選択するように構成してもよい。また、辞書記憶部122のユーザ名を判定することにより、ユーザ自身が過去に翻訳を要求したときの辞書情報を、他のユーザの辞書情報より優先して利用するように構成してもよい。また、複数のユーザが属するグループ単位でユーザを管理している場合は、ユーザが属するグループが過去に翻訳を要求したときの辞書情報を、他のグループのユーザの辞書情報より優先して利用するように構成してもよい。この場合、辞書記憶部122のユーザ名の代わりに、またはユーザ名とともにグループを識別するグループ名を登録するように構成すればよい。
次に、第1および第2の実施の形態にかかる機械翻訳装置のハードウェア構成について図11を用いて説明する。図11は、第1および第2の実施の形態にかかる機械翻訳装置のハードウェア構成を示す図である。
第1および第2の実施の形態にかかる機械翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
第1および第2の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、第1および第2の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1および第2の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、第1および第2の実施の形態の機械翻訳プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1および第2の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部(受付部、原文取得部、辞書情報取得部、翻訳部、保存部、出力部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる装置、方法、プログラムおよびシステムは、クライアントから送信された翻訳要求に応じて翻訳サーバで翻訳を行う機械翻訳システムに適している。
第1の実施の形態にかかる機械翻訳システムの構成を示すブロック図である。 第1の実施の形態にかかる原文記憶部に記憶されるデータのデータ構造の一例を示す図である。 第1の実施の形態にかかる辞書記憶部に記憶されるデータのデータ構造の一例を示す図である。 第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 第1の実施の形態にかかる原文記憶部に記憶されるデータのデータ構造の一例を示す図である。 第1の実施の形態にかかる辞書記憶部に記憶されるデータのデータ構造の一例を示す図である。 第2の実施の形態にかかる機械翻訳システムの構成を示すブロック図である。 第2の実施の形態にかかる原文記憶部に記憶されるデータのデータ構造の一例を示す図である。 第2の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 第2の実施の形態にかかる辞書記憶部に記憶されるデータのデータ構造の一例を示す図である。 第1および第2の実施の形態にかかる機械翻訳装置のハードウェア構成を示す図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
10、70 機械翻訳システム
100、700 機械翻訳サーバ
101 受付部
102、702 原文取得部
103 辞書情報取得部
104 翻訳部
105 保存部
106 出力部
121、721 原文記憶部
122 辞書記憶部
200a〜200c クライアント
201 要求送信部
202 結果受信部
300 ネットワーク
707 変換部

Claims (13)

  1. 第1言語による第1単語および第2言語による第2単語を対応づけた辞書情報と、前記辞書情報を識別する識別情報とを記憶する辞書記憶部と、
    第1言語による原文と、前記原文を翻訳した際に利用した前記辞書情報の前記識別情報とを対応づけて記憶する原文記憶部と、
    第1言語による入力文を含む翻訳要求を受付ける受付部と、
    前記翻訳要求に含まれる前記入力文と前記原文との類似度を算出し、前記類似度が予め定められた閾値より大きい前記原文を前記原文記憶部から取得する原文取得部と、
    取得された前記原文に対応する前記識別情報の前記辞書情報を前記辞書記憶部から取得する辞書情報取得部と、
    取得した前記辞書情報内の前記第1単語が前記入力文に含まれるか否かを判断し、含まれる場合に、前記入力文に含まれる前記第1単語を、取得した前記辞書情報の前記第2単語で翻訳する翻訳部と、
    を備えたことを特徴とする機械翻訳装置。
  2. 前記受付部は、前記入力文と、前記入力文の翻訳で利用する前記辞書情報である入力辞書情報とを含む前記翻訳要求を受付け、
    前記翻訳部は、取得した前記辞書情報内の前記第1単語と前記入力辞書情報内の前記第1単語とが一致するか否かをさらに判断し、取得した前記辞書情報内の前記第1単語と前記入力辞書情報内の前記第1単語とが一致し、かつ、一致する前記第1単語が前記入力文に含まれる場合に、前記入力文に含まれる前記第1単語を、前記入力辞書情報の前記第2単語で翻訳すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  3. 前記原文取得部は、前記翻訳要求に含まれる前記入力文と前記原文との間の編集距離を算出し、前記編集距離が小さい前記原文に対して、前記編集距離が大きい前記原文より大きい前記類似度を算出すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  4. 前記原文記憶部は、前記原文内の単語を含む索引と、前記原文と、前記識別情報とを対応づけて記憶し、
    前記原文取得部は、前記入力文内の単語を含む前記索引に対応づけられた前記原文を前記原文記憶部から取得し、取得した前記原文と前記入力文との前記類似度を算出すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  5. 前記原文取得部は、前記類似度が前記閾値より大きい前記原文のうち、前記類似度が大きい順に予め定められた個数の前記原文を前記原文記憶部から取得すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  6. 前記入力文を、他の文との間の類似度を比較可能な予め定められた形式に変換する変換部をさらに備え、
    前記原文記憶部は、前記形式に変換された前記原文と前記識別情報とを対応づけて記憶し、
    前記原文取得部は、変換された前記入力文と前記原文との前記類似度を算出し、前記類似度が前記閾値より大きい前記原文を前記原文記憶部から取得すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  7. 前記形式は、前記入力文を形態素解析して得られた形態素をベクトル化したベクトル形式であり、
    前記原文取得部は、ベクトル形式の前記入力文と、ベクトル形式の前記原文との間のコサイン類似度である前記類似度を算出し、前記コサイン類似度が前記閾値より大きい前記原文を前記原文記憶部から取得すること、
    を特徴とする請求項6に記載の機械翻訳装置。
  8. 前記辞書記憶部は、前記辞書情報と、前記識別情報と、前記辞書情報を記憶した日時とを対応づけて記憶し、
    前記辞書情報取得部は、取得された前記原文に対応する前記識別情報の前記辞書情報のうち、対応する前記日時が古い前記辞書情報より対応する前記日時が新しい前記辞書情報を優先して前記辞書記憶部から取得すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  9. 前記辞書記憶部は、前記辞書情報と、前記識別情報と、前記辞書情報を適用する分野とを対応づけて記憶し、
    前記受付部は、前記分野をさらに含む前記翻訳要求を受付け、
    前記辞書情報取得部は、取得された前記原文に対応する前記識別情報の前記辞書情報のうち、対応する前記分野が前記翻訳要求に含まれる前記分野と一致しない前記辞書情報より、対応する前記分野が前記翻訳要求に含まれる前記分野と一致する前記辞書情報を優先して前記辞書記憶部から取得すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  10. 前記受付部は、前記入力文と、前記入力文の翻訳で利用する前記辞書情報である入力辞書情報とを含む前記翻訳要求を受付け、
    前記入力辞書情報を前記辞書記憶部に保存するとともに、保存した前記入力辞書情報の前記識別情報と、前記入力文とを対応づけて前記原文記憶部に保存する保存部をさらに備えたこと、
    を特徴とする請求項1に記載の機械翻訳装置。
  11. 受付部によって、第1言語による入力文を含む翻訳要求を受付ける受付ステップと、
    原文取得部によって、前記翻訳要求に含まれる前記入力文と、第1言語による原文との類似度を算出し、前記原文と、前記原文を翻訳した際に利用した、第1言語による第1単語および第2言語による第2単語を対応づけた辞書情報を識別する識別情報とを対応づけて記憶する原文記憶部から、前記類似度が予め定められた閾値より大きい前記原文を取得する原文取得ステップと、
    辞書情報取得部によって、前記辞書情報と前記識別情報とを記憶する辞書記憶部から、取得された前記原文に対応する前記識別情報の前記辞書情報を取得する辞書情報取得ステップと、
    翻訳部によって、取得した前記辞書情報内の前記第1単語が前記入力文に含まれるか否かを判断し、含まれる場合に、前記入力文に含まれる前記第1単語を、取得した前記辞書情報の前記第2単語で翻訳する翻訳ステップと、
    を備えたことを特徴とする機械翻訳方法。
  12. コンピュータに実行させる機械翻訳プログラムであって、
    前記コンピュータは、
    第1言語による第1単語および第2言語による第2単語を対応づけた辞書情報と、前記辞書情報を識別する識別情報とを記憶する辞書記憶部と、
    第1言語による原文と、前記原文を翻訳した際に利用した前記辞書情報の前記識別情報とを対応づけて記憶する原文記憶部と、を備え、
    第1言語による入力文を含む翻訳要求を受付ける受付手順と、
    前記翻訳要求に含まれる前記入力文と前記原文との類似度を算出し、前記類似度が予め定められた閾値より大きい前記原文を前記原文記憶部から取得する原文取得手順と、
    取得された前記原文に対応する前記識別情報の前記辞書情報を前記辞書記憶部から取得する辞書情報取得手順と、
    取得した前記辞書情報内の前記第1単語が前記入力文に含まれるか否かを判断し、含まれる場合に、前記入力文に含まれる前記第1単語を、取得した前記辞書情報の前記第2単語で翻訳する翻訳手順と、
    を前記コンピュータに実行させる機械翻訳プログラム。
  13. 翻訳を要求する端末装置と、前記端末装置とネットワークを介して接続された機械翻訳装置とを備えた機械翻訳システムであって、
    前記端末装置は、
    第1言語による入力文を含む翻訳要求を前記機械翻訳装置に送信する要求送信部と、
    翻訳結果を受信する結果受信部と、を備え、
    前記機械翻訳装置は、
    第1言語による第1単語および第2言語による第2単語を対応づけた辞書情報と、前記辞書情報を識別する識別情報とを記憶する辞書記憶部と、
    第1言語による原文と、前記原文を翻訳した際に利用した前記辞書情報の前記識別情報とを対応づけて記憶する原文記憶部と、
    前記翻訳要求を前記端末装置から受付ける受付部と、
    前記翻訳要求に含まれる前記入力文と前記原文との類似度を算出し、前記類似度が予め定められた閾値より大きい前記原文を前記原文記憶部から取得する原文取得部と、
    取得された前記原文に対応する前記識別情報の前記辞書情報を前記辞書記憶部から取得する辞書情報取得部と、
    取得した前記辞書情報内の前記第1単語が前記入力文に含まれるか否かを判断し、含まれる場合に、前記入力文に含まれる前記第1単語を、取得した前記辞書情報の前記第2単語で翻訳する翻訳部と、
    前記翻訳部による翻訳結果を前記端末装置に出力する出力部と、
    を備えたことを特徴とする機械翻訳システム。
JP2007243195A 2007-09-20 2007-09-20 機械翻訳を行う装置、方法、プログラムおよびシステム Pending JP2009075791A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007243195A JP2009075791A (ja) 2007-09-20 2007-09-20 機械翻訳を行う装置、方法、プログラムおよびシステム
US12/050,464 US20090083024A1 (en) 2007-09-20 2008-03-18 Apparatus, method, computer program product, and system for machine translation
CNA200810149207XA CN101393547A (zh) 2007-09-20 2008-09-17 机器翻译设备、方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007243195A JP2009075791A (ja) 2007-09-20 2007-09-20 機械翻訳を行う装置、方法、プログラムおよびシステム

Publications (1)

Publication Number Publication Date
JP2009075791A true JP2009075791A (ja) 2009-04-09

Family

ID=40472643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007243195A Pending JP2009075791A (ja) 2007-09-20 2007-09-20 機械翻訳を行う装置、方法、プログラムおよびシステム

Country Status (3)

Country Link
US (1) US20090083024A1 (ja)
JP (1) JP2009075791A (ja)
CN (1) CN101393547A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015531499A (ja) * 2012-08-28 2015-11-02 オラクル・インターナショナル・コーポレイション インデックス付き文字列マッチングを用いたコンテキストブラインドデータ変換
US10482128B2 (en) 2017-05-15 2019-11-19 Oracle International Corporation Scalable approach to information-theoretic string similarity using a guaranteed rank threshold
JP2020140469A (ja) * 2019-02-28 2020-09-03 富士ゼロックス株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US8983850B2 (en) 2011-07-21 2015-03-17 Ortsbo Inc. Translation system and method for multiple instant message networks
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
JP2016091266A (ja) * 2014-11-04 2016-05-23 富士通株式会社 翻訳装置、翻訳方法、及び翻訳プログラム
JP6259804B2 (ja) 2014-11-26 2018-01-10 ネイバー コーポレーションNAVER Corporation コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法
CN106776590A (zh) * 2016-12-22 2017-05-31 北京金山办公软件股份有限公司 一种获取词条译文的方法及***
CN108572953B (zh) * 2017-03-07 2023-06-20 上海颐为网络科技有限公司 一种词条结构的合并方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN107632982B (zh) * 2017-09-12 2021-11-16 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN110147881B (zh) * 2018-03-13 2022-11-22 腾讯科技(深圳)有限公司 语言处理方法、装置、设备及存储介质
CN110472256B (zh) * 2019-08-20 2020-07-03 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015531499A (ja) * 2012-08-28 2015-11-02 オラクル・インターナショナル・コーポレイション インデックス付き文字列マッチングを用いたコンテキストブラインドデータ変換
US10482128B2 (en) 2017-05-15 2019-11-19 Oracle International Corporation Scalable approach to information-theoretic string similarity using a guaranteed rank threshold
JP2020140469A (ja) * 2019-02-28 2020-09-03 富士ゼロックス株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム
JP7322428B2 (ja) 2019-02-28 2023-08-08 富士フイルムビジネスイノベーション株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム

Also Published As

Publication number Publication date
CN101393547A (zh) 2009-03-25
US20090083024A1 (en) 2009-03-26

Similar Documents

Publication Publication Date Title
JP2009075791A (ja) 機械翻訳を行う装置、方法、プログラムおよびシステム
RU2686590C1 (ru) Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US20200265074A1 (en) Searching multilingual documents based on document structure extraction
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
CN112528001B (zh) 一种信息查询方法、装置及电子设备
JP5002271B2 (ja) 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP2011028379A (ja) データ構造変換プログラムおよびデータ構造変換装置
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP6787755B2 (ja) 文書検索装置
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
JP3921543B2 (ja) 機械翻訳装置
JP3765800B2 (ja) 翻訳用辞書制御装置、翻訳用辞書制御方法、および翻訳用辞書制御プログラム
JP2004280467A (ja) 翻訳装置、翻訳方法、及びそのプログラム