JP2001101185A - 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体 - Google Patents

辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体

Info

Publication number
JP2001101185A
JP2001101185A JP27021299A JP27021299A JP2001101185A JP 2001101185 A JP2001101185 A JP 2001101185A JP 27021299 A JP27021299 A JP 27021299A JP 27021299 A JP27021299 A JP 27021299A JP 2001101185 A JP2001101185 A JP 2001101185A
Authority
JP
Japan
Prior art keywords
dictionary
priority
machine translation
translation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27021299A
Other languages
English (en)
Inventor
Tomohiro Miyahira
知博 宮平
Toshiro Kamiyama
淑朗 神山
Hiromi Hatori
洋美 羽鳥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP27021299A priority Critical patent/JP2001101185A/ja
Priority to US09/667,372 priority patent/US6876963B1/en
Publication of JP2001101185A publication Critical patent/JP2001101185A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 辞書の自動切り換えが可能な機械翻訳方法お
よび装置、並びにそのような機械翻訳方法を実行するた
めのプログラムを記憶したプログラム記憶媒体を提供す
ること。 【解決手段】 一般的な語が登録されているシステム基
本辞書および少なくとも1つの分野別辞書を使用して第
1言語から第2言語への翻訳を行う機械翻訳システムに
おいて、辞書の自動切り換えが可能な機械翻訳方法であ
って、前記第1言語の原文を入力するステップと、入力
された原文を解析して、そこで使用されている複合語を
決定するステップと、決定された複合語を含む分野別辞
書の優先度を前記システム基本辞書より高く設定するス
テップと、前記優先度が高く設定された分野別辞書を使
用して前記第2言語の訳文を生成するステップと、を含
む機械翻訳方法が提供される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は機械翻訳システムに
関するものであり、特に各種辞書の自動切り換えが可能
な機械翻訳方法および装置、並びにそのような機械翻訳
方法を実行するためのプログラムを記憶したプログラム
記憶媒体に関する。
【0002】
【従来の技術】一般に、機械翻訳システムは、一般的な
語が登録されているシステム基本辞書およびユーザがユ
ーザ固有の語を登録したユーザ辞書の他に、政治、スポ
ーツ、芸術などの各種の専門分野ごとにその専門用語を
登録した1以上の分野別辞書を備えており、それらの辞
書を選択的に使用することによって、翻訳処理を実行し
ている。例えば、本出願人が日本で販売している翻訳ソ
フト「インターネット翻訳の王様」は、基本辞書の他
に、「インターネット」、「アート」、「ビジネス」、
「スポーツ」、「政治」、および「エンターテイメン
ト」の6つの分野別辞書を備えている。翻訳の質を上げ
るためには、翻訳に使用する辞書、特に分野別辞書を適
切に選択する必要があるが、従来はユーザが原文に合わ
せて自分で辞書を選択あるいは切り換えるのが普通であ
った。
【0003】辞書の選択あるいは切り換えを自動的に行
う技術も幾つか知られている。辞書の自動切り換えに当
たっては、原文の大意を掴んだ上で、適切な分野の辞書
を選択することが理想的であるが、大意の把握は容易で
はなく、また、話題が転換していく文章においてどの部
分を辞書を切り換えるべき単位とするかの決定も難し
い。そのため、辞書の自動切り換えを行う現在の一般的
な方法は、各辞書を選択するためのキーワードを予め選
んでおき、原文中に特定のキーワードが現れたら、その
キーワードに対応する分野別辞書を選択するというもの
である。
【0004】その他には、例えば特開平6−60117
号公報は、データファイルに記憶される原文データをワ
ークステーションに読み出して構文解析し、その構文毎
の訳語が5つの専門用語辞書のそれぞれに存在するか否
かを翻訳システムを介してチェックすると共に、訳語の
存在した辞書に対応する訳語チェックカウンタをカウン
トアップさせ、この訳語チェックカウンタにおけるカウ
ントデータの大小に応じて各専門用語辞書の選択順位を
設定する技術を開示している。
【0005】また、特開平10−21222号公報は、
第1の言語の文書をアクセスする際にその文書を特定す
るために用いる文書識別情報をもとにして、翻訳処理の
基となる所定の条件を設定するようにした技術を開示し
ている。その一実施例によれば、インターネットのUR
Lを文書識別情報として用いて専門分野を決定し、そし
て決定した専門分野に対応する専門用語辞書を選択して
いる。
【0006】
【発明が解決しようとする課題】ユーザが翻訳に先立っ
て自分で辞書を選択する場合、翻訳すべき原文の専門分
野が予めわかっていれば、辞書を人手で選択するという
手間だけですむ。しかしながら、専門分野が不明あるい
は判断できない場合や、1つの原文が複数の専門分野に
関係している場合などは、予め特定の分野別辞書を選択
してしまうと、訳語が不適切になるおそれがある。ま
た、キーワードに応じて分野別辞書を切り換える技術で
は、予め適正なキーワードを決定する手間が発生する上
に、分野別辞書の更新(新しい用語の追加や古い用語の
削除)などを行った場合に、キーワードも同時に見直す
必要がある。更に、原文のどの範囲を辞書の切り換えの
単位とすべきかの決定が難しい。
【0007】特開平6−60117号公報のように、訳
語の頻度(カウントデータ)に基づいて辞書の選択順位
を設定するやり方では、単語と複合語を区別しないた
め、一般的な単語が特別の意味で用いられるような場合
(例えば、“tour”は一般的には「旅行」である
が、ゴルフなどのスポーツ分野では「ツアー」であ
る)、その分野別辞書が間違って選択される可能性が高
くなる。また、特開平10−21222号公報のよう
に、文書識別情報(URL)を利用する技術では、識別
データと分野の対応表を作成する手間が必要な上、爆発
的に増加するウェブ・サイトに合わせて、その対応表を
常に更新し続ける必要がある。
【0008】従って、本発明の目的は、以上のような問
題を解決するために、原文中に現れる複合語に基づいて
辞書を自動的に切り換える機械翻訳方法および装置を提
供することにある。
【0009】本発明の他の目的は、そのような機械翻訳
方法を実行するためのプログラムを記憶したプログラム
記憶媒体を提供することにある。
【0010】
【課題を解決するための手段】本発明の第1の態様によ
れば、一般的な語が登録されているシステム基本辞書お
よび少なくとも1つの分野別辞書を使用して第1言語か
ら第2言語への翻訳を行う機械翻訳システムにおいて、
辞書の自動切り換えが可能な機械翻訳方法であって、前
記第1言語の原文を入力するステップと、入力された原
文を解析して、そこで使用されている複合語を決定する
ステップと、決定された複合語を含む分野別辞書の優先
度を前記システム基本辞書より高く設定するステップ
と、前記優先度が高く設定された分野別辞書を使用して
前記第2言語の訳文を生成するステップと、を含む機械
翻訳方法が提供される。
【0011】本発明の第2の態様によれば、一般的な語
が登録されているシステム基本辞書および少なくとも1
つの分野別辞書を使用し、それらの辞書を自動的に切り
換えることによって第1言語から第2言語への翻訳を行
う機械翻訳装置であって、前記第1言語の原文を入力す
る手段と、入力された原文を解析して、そこで使用され
ている複合語を決定する手段と、決定された複合語を含
む分野別辞書の優先度を前記システム基本辞書より高く
設定する手段と、前記優先度が高く設定された分野別辞
書を使用して前記第2言語の訳文を生成する手段と、を
含む機械翻訳装置が提供される。
【0012】本発明の第3の態様によれば、第1の態様
における機械翻訳方法を実行するためのプログラムを記
憶した、コンピュータ読取可能なプログラム記憶媒体が
提供される。
【0013】本発明の好ましい実施形態においては、特
定の分野別辞書の優先度をシステム基本辞書より高く設
定する場合に、当該分野別辞書に登録されている単語の
優先度だけがシステム基本辞書より高く設定され、複合
語の優先度はシステム基本辞書より低いままに保たれ
る。その理由は、同じ複合語が特定の分野別辞書および
システム基本辞書の両方に登録されていた場合には、シ
ステム基本辞書の複合語を使用した方が好ましいと思わ
れるからである。もしそのような考慮が不要であれば、
単語と複合語両方の優先度をシステム基本辞書より高く
しても差し支えない。
【0014】なお、本明細書において、「複合語」と
は、2以上の単語からなる有意語のことを意味する。そ
のような複合語は、専門分野に固有の語であることが多
く、そのため本発明では、複合語を辞書切り換えのトリ
ガとしているのである。
【0015】
【発明の実施の形態】本発明に従う機械翻訳システム1
0の構成を図1に示す。以下で説明する実施形態では、
機械翻訳システム10は英語から日本語への翻訳を実行
するが、本発明はそれに限らず、任意の2カ国語間の翻
訳に適用可能なものである。システム10は、翻訳すべ
き第1言語(英語)の原文を入力するための入力部1
2、入力された原文から第2言語(日本語)の訳文を生
成する翻訳処理部14、この翻訳処理部14で使用する
辞書を自動的に切り換えるための辞書切り換え部16、
翻訳処理部14で使用する複数の辞書を記憶している辞
書記憶部18、および翻訳処理部14で生成された訳文
を出力する出力部20を具備している。
【0016】入力部12は、原文のテキストを翻訳処理
部14へ入力できるものであれば、キーボード、文字認
識装置、音声認識装置、インターネットのウェブ・ペー
ジ画面、など任意のものでよい。翻訳処理部14は、従
来からある通常の機械翻訳エンジンでよい。例えば、そ
のような翻訳エンジンの一例が、K. Takeda "Pattern-B
ased Context-Free Grammer for Machine Translatio
n", Proc. of 34th ACL,pp.144-151, 1996およびK. Tak
eda "Pattern-Based Machine Translation", Proc. of
16th Coling, Vol.2, pp.1155-1158, 1996に記載されて
いる。
【0017】辞書切り換え部16は本発明の骨子を成す
ものであり、後述のように、辞書記憶部18(例えばハ
ード・ディスク・ドライブ)に記憶されている分野別辞
書の優先度を自動的に切り換える。辞書記憶部18は、
一般的な語が登録されているシステム基本辞書18A、
特定の専門分野の語が登録されている少なくとも1つの
分野別辞書18B、およびユーザ固有の語が登録されて
いるユーザ辞書18Cを記憶している。最後のユーザ辞
書18Cはオプションでよい。なお、各辞書に登録され
ている「語」は単語および複合語の両方を含む。出力部
20は、翻訳処理部14で生成された訳文を所与の形
式、例えば音声、ディスプレイ、印刷、ファイル記憶、
などの形式で出力する。
【0018】図1の機械翻訳システム10における翻訳
処理の流れを図2に示す。まず最初のステップ21で、
入力部12から英語の原文が入力される。次に、ステッ
プ22で、入力された原文から1文が切り出される。英
語の場合、(1)単語の最後がピリオドで、次の語の先
頭が大文字のとき、または(2)単語の最後が感嘆符、
コロン、もしくはセミコロンの場合に、文の区切りとす
る。ただし、条件(1)が満たされても、例えば "Mr."
のように、文末には現れない表現もあるので、そのよ
うな表現をデータとして持ち、原文中の語をそれらの表
現と比較して、一致しない場合に文の区切りとする。ま
た、ピリオドを挟んでその両側に数字があった場合、ピ
リオドの直後にスペースがあれば、そこで文を区切り、
スペースがなければ、ピリオドを小数点とみなして、文
を続ける。
【0019】1文が切り出されると、次のステップ23
でその1文の原文解析が行われる。原文解析23では、
切り出された1文のどの部分が主語で、どの部分が動詞
であるかなどの解析が行われ、文の構造が決定される。
その際に文法ルールと共に、すべての辞書中の複合語も
文の各要素を決定するために使用される。原文の解析が
終わると、ステップ24に進んで、分野別辞書の優先度
が変更される。本実施形態では、ステップ23で解析さ
れた構文に実際に使用されている複合語を含む分野別辞
書の単語の優先度がシステム基本辞書(以下、単に「基
本辞書」という)より高く設定され、複合語の優先度は
元のまま、すなわち基本辞書より低いままである。この
優先度変更の詳細については、図3のところで説明す
る。次のステップ25で、単語の優先度が変更された分
野別辞書を使用して訳文が生成される。優先度の高い分
野別辞書の単語の訳語を使用することにより、適切な訳
語が得られる。次のステップ26で、訳文が生成された
文がステップ21で入力された原文における最後の文か
どうかがチェックされ、最後の文でなければステップ2
2に戻り、最後の文であれば終了する。
【0020】前述のように、本実施形態では、分野別辞
書の単語の優先度だけを基本辞書よりも上げて、複合語
の優先度は低いままにしているが、その理由は、同じ複
合語が分野別辞書と基本辞書の両方にあった場合には、
基本辞書の複合語を使用した方が好ましいと考えられる
からである。ただし、同じ複合語が分野別辞書と基本辞
書の両方にある可能性はかなり低いので、そのようなこ
とを考慮しなくてもよいのであれば、分野別辞書の単語
と複合語両方の優先度を同時に変更しても問題はない。
【0021】次に、実際の原文を例に挙げて、図2の流
れを説明する。以下の例は、インターネットのウェブ・
ページの翻訳を想定しており、分野別辞書18Bとして
次の6つの辞書が使用されるものとするが、もちろん本
発明はウェブ・ページ以外の翻訳および以下とは異なっ
た分野別辞書の使用も可能である。 分野別辞書18B ・インターネット一般 ・アート ・ビジネス ・スポーツ ・政治 ・エンターテイメント
【0022】上記の6種類の分野別辞書の他に、辞書記
憶部18には、基本辞書18Aおよびオプションとして
のユーザ辞書18Cが記憶されており、その優先度は高
いものから順に下記のように初期設定されているものと
する。 1.ユーザ辞書 2.基本辞書 3.インターネット一般 4.アート 5.ビジネス 6.スポーツ 7.政治 8.エンターテイメント
【0023】3から8までの分野別辞書の優先順位は便
宜上のものであり、任意に設定することができる。例え
ば、翻訳エンジンを初期化したときに見つかった辞書の
順番でもよい。初期状態では、すべての分野別辞書の優
先度が基本辞書より下になっているが、ユーザにより選
択された特定の分野別辞書(例えばスポーツ分野辞書)
の優先度を基本辞書より上に設定することは可能であ
る。その場合、選択されなかった分野別辞書の優先度は
基本辞書より下のままである。優先度の管理方法は任意
でよい。例えば、辞書名等の辞書識別情報を優先度の順
にリストに並べておいてもよい。そのような優先順位リ
ストは、図2のフローを実行する計算機システムの所定
のメモリ領域(例えばメインメモリの一部)に保持して
おくことができる。
【0024】上記のような辞書を用いた機械翻訳に際
し、まず最初のステップ21で次の2文が入力されたと
する。 "Jack Nicklaus led the Tour at 30.5%. On par-5 hol
es Woods made a birdie an amazing 49.5% of the tim
e."
【0025】次の1文入力ステップ22では、前述の条
件(1)または(2)を満たすところで文を区切ること
により、1文を切り出す。上記の例では、最初のピリオ
ドが"30"と"5"の間にあるが、ピリオドと"5"の間にはス
ペースがないので、ここでは文を区切らない。次のピリ
オドは"%"の後にあり、それに続く語"On"が大文字で始
まっているので、ここで文を区切り、次の1文を切り出
す。 "Jack Nicklaus led the Tour at 30.5%."
【0026】次に、ステップ22で切り出した1文に対
し、上述の1から8までのすべての辞書を用いて、原文
解析ステップ23が実行される。よく知られているよう
に、各辞書中には単語および複合語があり、更にそれぞ
れに対応する品詞情報が格納されている。また、 ・名詞は1つで名詞句を構成することができる ・動詞は1つで動詞句を構成することができる ・動詞句と名詞句で再び動詞句を構成することができる ・名詞句と動詞句で文を構成することができる といった文法ルールも基本辞書中に格納されている。原
文解析ステップ23はそれらの情報を用いて、図4に示
すような構文木を作成する。このような構文木の作成方
法は周知であるから、作成方法の詳細については省略す
る。
【0027】図4に示されている略語の意味は下記の通
りである。 DET 冠詞 N 名詞 NP 名詞句 PP 前置詞句 PREP 前置詞 PUNCT 句読点 S 文 V 動詞 VP 動詞句
【0028】図4の構文木は、文Sが名詞句NP、動詞
句VPおよび句読点PUNCTから成っていることを示
している。文Sから出ている3本の枝のうち左の枝、す
なわち最初の名詞句NPは2つの名詞"Jack"および"Nic
klaus"から成っている。この名詞句は複合語であり、本
例では、スポーツ分野辞書にのみ登録されている。構文
木の真ん中の枝、すなわち名詞句NPに続く動詞句VP
は、第2の動詞句VPおよび前置詞句PPから成ってい
る。第2の動詞句VPは、1つの動詞"led"により構成
される動詞句VPと、冠詞"the"および名詞"tour"から
成る名詞句NPとから成っている。前置詞句PPは、前
置詞"at"と、2つの名詞"30.5"および"%"から成る名詞
句NPとから成っている。右の枝にある最後の句読点P
UNCTはピリオド"."である。
【0029】原文の解析が終わると、辞書優先度変更ス
テップ24に進む。上記の例では、"Jack Nicklaus"と
いう複合語がスポーツ分野辞書から使用されたので、後
で説明する図3のステップ31で肯定のパスを通り、そ
の結果、辞書の優先順位リストは次のようになる。 1.ユーザ辞書 2.スポーツ 3.基本辞書 4.インターネット一般 5.アート 6.ビジネス 7.政治 8.エンターテイメント
【0030】次の訳文生成ステップ25では、この変更
された優先順位リストに従って訳文の生成が行われる。
最初の複合語"Jack Nicklaus"は、他の辞書に同じ複合
語がないので、スポーツ分野辞書の単語「ジャック・ニ
クラウス」という訳語が使用される。更に、スポーツ分
野辞書の単語の優先度が基本辞書より高いので、"tour"
という単語には、スポーツ分野辞書からの「ツアー」と
いう訳語が使用される。基本辞書には、"tour"という単
語に対して「旅行」という訳語が登録されているが、優
先度がスポーツ分野辞書より低いので、この訳語は使用
されない。最終的に以下の訳文が生成される。 「ジャック・ニクラウスは30.5%のツアーを導きま
した。」
【0031】上記の文は最後の文ではないので、ステッ
プ26からステップ22に戻り、次の文"On par-5 hole
s Woods made a birdie an amazing 49.5% of the tou
r."が切り出されて、同様な処理が繰り返される。この
繰り返しにおいては、スポーツ分野辞書に固有の複合語
は検出されないが、後で図3を参照して説明するよう
に、スポーツ分野辞書の単語の優先度はまだ基本辞書よ
りも高い状態に保たれている。従って、例えば、スポー
ツ分野辞書および基本辞書の両方に登録されている単
語"birdie"に対しては、スポーツ分野辞書からの訳語
「バーディー」が使用され、基本辞書にある訳語「小
鳥」は使用されない。他の単語についても同様である。
2回目の繰り返しで生成される訳文は次の通りである。 「パー5のホールで、ウッズは、当時の驚くような4
9.5パーセント(で)バーディーを出しました。」
【0032】上記の例では、原文は2文だけであるか
ら、2回目の繰り返しで最後の文に達し、従って2番目
の訳文が生成された後、終了する。なお、これらの訳文
は、いずれも本発明に従う機械翻訳システムが実際に出
力したものである。2番目の訳文における「(で)」
は、ユーザが必要に応じて修正すればよい。
【0033】最後に、図3を参照しながら、分野別辞書
の優先度変更処理の詳細について説明する。図3のプロ
セスは各分野別辞書毎に実行される。まず最初のステッ
プ31で、図4に示したような原文解析結果を見て、当
該分野別辞書にある複合語がヒットした(使用された)
かどうかをチェックする。ヒットした場合には、ステッ
プ32に進み、その分野別辞書の優先度が既に基本辞書
よりも高くなっているかどうかを、例えば前述の優先順
位リストを見てチェックする。既に高優先度になってい
れば、ステップ34に進み、さもなければステップ33
に進む。ステップ33では、当該分野別辞書の優先度を
基本辞書よりも上げる。上記の例では、"Jack Nicklau
s" という、スポーツ分野辞書にある複合語がヒットし
ているので、スポーツ分野辞書の優先度が基本辞書より
上にされていた。次のステップ34では、未ヒット文
数、すなわち当該分野別辞書にある複合語がヒットしな
かった文の数が0にリセットされ、その後図2のステッ
プ25に進む。この未ヒット文数は、分野別辞書毎に設
定され、その辞書の複合語が最後にヒットしてから何文
の間ヒットしていないかをカウントするものである。こ
れは、特定の分野別辞書の複合語が所定数(例えば1
0)の連続する文の翻訳でヒットしなかった場合に、当
該専門分野の話題が終わったものとして、その分野別辞
書の優先度を基本辞書より下げるために使用される。
【0034】ステップ31で分野別辞書にある複合語が
ヒットしなかった場合は、ステップ35に進む。ステッ
プ35はステップ32と同じであり、当該分野別辞書の
優先度が既に基本辞書より高くなっているかどうかをチ
ェックする。もし高くなっていなければ、何もせずに図
2のフローに戻る。基本辞書より高優先度になっている
と、ステップ36に進んで、上述の未ヒット文数を1だ
け増分する。次に、ステップ37で、増分された未ヒッ
ト文数が所定の設定値(例えば10)より大きいかどう
かをチェックする。未ヒット文数が設定値以下であれば
図2のフローに戻り、さもなければステップ38に進ん
で、当該分野別辞書の優先度を基本辞書よりも下げる。
図2のフローの実例において、2回目の繰り返しでスポ
ーツ分野辞書の優先度が基本辞書より高い状態に保たれ
ていたのは、ステップ37から否定(NO)のパスに進
んだからである。前述のように、ここで言う優先度は単
語の優先度であるが、単語および複合語の両方を含めた
ものであっても構わない。また、未ヒット文数の設定値
は10以外の値であってもよい。
【0035】前述のように、図3のフローは分野別辞書
毎に実行されるので、図2のステップ21で入力された
原文の翻訳中に2以上の分野別辞書の優先度が基本辞書
より高くなることがある。例えば、スポーツ分野辞書の
優先度が基本辞書より高い状態で、次の文に政治分野辞
書の複合語が現れたとき、政治分野別辞書の優先度も基
本辞書より高くされる。その場合、後で複合語がヒット
したものほど優先度を高くするのが好ましい。従って、
この例では辞書の優先順位リストは次のようになる。 1.ユーザ辞書 2.政治 3.スポーツ 4.基本辞書 5.インターネット一般 6.アート 7.ビジネス 8.エンターテイメント
【0036】以上、本発明の良好な実施形態について具
体例を挙げて説明してきたが、当業者であれば、本発明
の実施に当たっては、上記以外に本発明の精神の範囲内
で様々な変更および修正をなし得ることは明らかであろ
う。例えば、図2および図3に示したフローは、専用の
ハードウェアで実行することも、パーソナル・コンピュ
ータなどの汎用の計算機システムでソフトウェアにより
実行することも可能である。後者の場合、図2および図
3のフローを実行するためのプログラムが、フロッピー
・ディスク、CD−ROM、ハード・ディスクなどのコ
ンピュータ読取可能なプログラム記憶媒体に記憶され
る。そのようなプログラム記憶媒体ももちろん本発明に
含まれるものである。
【図面の簡単な説明】
【図1】本発明に従う機械翻訳システムの構成を示すブ
ロック図。
【図2】図1の機械翻訳システムで実行される翻訳処理
の流れを示すフローチャート。
【図3】図2のフローチャートにおける辞書優先度変更
処理の詳細を示すフローチャート。
【図4】図2のフローチャートにおける原文解析の結果
を示す構文木図。
【符号の説明】
10 機械翻訳システム 12 入力部 14 翻訳処理部 16 辞書切り換え部 18 辞書記憶部 20 出力部
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成12年10月11日(2000.10.
11)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正内容】
【0024】上記のような辞書を用いた機械翻訳に際
し、まず最初のステップ21で次の2文が入力されたと
する。 "Tom Miyahira led the Tour at 30.5%. On par-5 hole
s Hatori made a birdie an amazing 49.5% of the tim
e."
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0025
【補正方法】変更
【補正内容】
【0025】次の1文入力ステップ22では、前述の条
件(1)または(2)を満たすところで文を区切ること
により、1文を切り出す。上記の例では、最初のピリオ
ドが"30"と"5"の間にあるが、ピリオドと"5"の間にはス
ペースがないので、ここでは文を区切らない。次のピリ
オドは"%"の後にあり、それに続く語"On"が大文字で始
まっているので、ここで文を区切り、次の1文を切り出
す。 "Tom Miyahira led the Tour at 30.5%."
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0028
【補正方法】変更
【補正内容】
【0028】図4の構文木は、文Sが名詞句NP、動詞
句VPおよび句読点PUNCTから成っていることを示
している。文Sから出ている3本の枝のうち左の枝、す
なわち最初の名詞句NPは2つの名詞"Tom"および"Miya
hira"から成っている。この名詞句は複合語であり、本
例では、スポーツ分野辞書にのみ登録されている。構文
木の真ん中の枝、すなわち名詞句NPに続く動詞句VP
は、第2の動詞句VPおよび前置詞句PPから成ってい
る。第2の動詞句VPは、1つの動詞"led"により構成
される動詞句VPと、冠詞"the"および名詞"tour"から
成る名詞句NPとから成っている。前置詞句PPは、前
置詞"at"と、2つの名詞"30.5"および"%"から成る名詞
句NPとから成っている。右の枝にある最後の句読点P
UNCTはピリオド"."である。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0029
【補正方法】変更
【補正内容】
【0029】原文の解析が終わると、辞書優先度変更ス
テップ24に進む。上記の例では、"Tom Miyahira"とい
う複合語がスポーツ分野辞書から使用されたので、後で
説明する図3のステップ31で肯定のパスを通り、その
結果、辞書の優先順位リストは次のようになる。 1.ユーザ辞書 2.スポーツ 3.基本辞書 4.インターネット一般 5.アート 6.ビジネス 7.政治 8.エンターテイメント
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0030
【補正方法】変更
【補正内容】
【0030】次の訳文生成ステップ25では、この変更
された優先順位リストに従って訳文の生成が行われる。
最初の複合語"Tom Miyahira"は、他の辞書に同じ複合語
がないので、スポーツ分野辞書の単語「トム・ミヤヒ
」という訳語が使用される。更に、スポーツ分野辞書
の単語の優先度が基本辞書より高いので、"tour"という
単語には、スポーツ分野辞書からの「ツアー」という訳
語が使用される。基本辞書には、"tour"という単語に対
して「旅行」という訳語が登録されているが、優先度が
スポーツ分野辞書より低いので、この訳語は使用されな
い。最終的に以下の訳文が生成される。 「トム・ミヤヒラは30.5%のツアーを導きまし
た。」
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0031
【補正方法】変更
【補正内容】
【0031】上記の文は最後の文ではないので、ステッ
プ26からステップ22に戻り、次の文"On par-5 hole
s Hatori made a birdie an amazing 49.5% of the tou
r."が切り出されて、同様な処理が繰り返される。この
繰り返しにおいては、スポーツ分野辞書に固有の複合語
は検出されないが、後で図3を参照して説明するよう
に、スポーツ分野辞書の単語の優先度はまだ基本辞書よ
りも高い状態に保たれている。従って、例えば、スポー
ツ分野辞書および基本辞書の両方に登録されている単
語"birdie"に対しては、スポーツ分野辞書からの訳語
「バーディー」が使用され、基本辞書にある訳語「小
鳥」は使用されない。他の単語についても同様である。
2回目の繰り返しで生成される訳文は次の通りである。 「パー5のホールで、ハトリは、当時の驚くような4
9.5パーセント(で)バーディーを出しました。」
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0033
【補正方法】変更
【補正内容】
【0033】最後に、図3を参照しながら、分野別辞書
の優先度変更処理の詳細について説明する。図3のプロ
セスは各分野別辞書毎に実行される。まず最初のステッ
プ31で、図4に示したような原文解析結果を見て、当
該分野別辞書にある複合語がヒットした(使用された)
かどうかをチェックする。ヒットした場合には、ステッ
プ32に進み、その分野別辞書の優先度が既に基本辞書
よりも高くなっているかどうかを、例えば前述の優先順
位リストを見てチェックする。既に高優先度になってい
れば、ステップ34に進み、さもなければステップ33
に進む。ステップ33では、当該分野別辞書の優先度を
基本辞書よりも上げる。上記の例では、"Tom Miyahira"
という、スポーツ分野辞書にある複合語がヒットして
いるので、スポーツ分野辞書の優先度が基本辞書より上
にされていた。次のステップ34では、未ヒット文数、
すなわち当該分野別辞書にある複合語がヒットしなかっ
た文の数が0にリセットされ、その後図2のステップ2
5に進む。この未ヒット文数は、分野別辞書毎に設定さ
れ、その辞書の複合語が最後にヒットしてから何文の間
ヒットしていないかをカウントするものである。これ
は、特定の分野別辞書の複合語が所定数(例えば10)
の連続する文の翻訳でヒットしなかった場合に、当該専
門分野の話題が終わったものとして、その分野別辞書の
優先度を基本辞書より下げるために使用される。
【手続補正8】
【補正対象書類名】図面
【補正対象項目名】図4
【補正方法】変更
【補正内容】
【図4】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 神山 淑朗 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 (72)発明者 羽鳥 洋美 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 Fターム(参考) 5B091 AA06 AB11 BA03 CC02 CC15 CC17 EA07

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】一般的な語が登録されているシステム基本
    辞書および少なくとも1つの分野別辞書を使用して第1
    言語から第2言語への翻訳を行う機械翻訳システムにお
    いて、辞書の自動切り換えが可能な機械翻訳方法であっ
    て、 前記第1言語の原文を入力するステップと、 入力された原文を解析して、そこで使用されている複合
    語を決定するステップと、 決定された複合語を含む分野別辞書の優先度を前記シス
    テム基本辞書より高く設定するステップと、 前記優先度が高く設定された分野別辞書を使用して前記
    第2言語の訳文を生成するステップと、 を含む機械翻訳方法。
  2. 【請求項2】前記設定するステップは、前記決定された
    複合語を含む分野別辞書に登録されている単語の優先度
    を前記システム基本辞書より高く設定する、請求項1に
    記載の機械翻訳方法。
  3. 【請求項3】前記第1言語の原文から1文を切り出すス
    テップを更に含み、切り出した1文毎に前記決定するス
    テップ、前記設定するステップ、および前記訳文を生成
    するステップを実行する、請求項1または2に記載の機
    械翻訳方法。
  4. 【請求項4】前記設定するステップは、前記決定された
    複合語を含む分野別辞書の優先度を前記システム基本辞
    書より高く設定した後、該分野別辞書に含まれる複合語
    が所定数の文にわたって使用されなかったときに、該分
    野別辞書の優先度を前記システム辞書よりも下げる、請
    求項3に記載の機械翻訳方法。
  5. 【請求項5】一般的な語が登録されているシステム基本
    辞書および少なくとも1つの分野別辞書を使用し、それ
    らの辞書を自動的に切り換えることによって第1言語か
    ら第2言語への翻訳を行う機械翻訳装置であって、 前記第1言語の原文を入力する手段と、 入力された原文を解析して、そこで使用されている複合
    語を決定する手段と、 決定された複合語を含む分野別辞書の優先度を前記シス
    テム基本辞書より高く設定する手段と、 前記優先度が高く設定された分野別辞書を使用して前記
    第2言語の訳文を生成する手段と、 を含む機械翻訳装置。
  6. 【請求項6】前記設定する手段は、前記決定された複合
    語を含む分野別辞書に登録されている単語の優先度を前
    記システム基本辞書より高く設定する、請求項5に記載
    の機械翻訳装置。
  7. 【請求項7】前記第1言語の原文から1文を切り出す手
    段を更に含み、切り出した1文毎に前記決定する手段、
    前記設定する手段、および前記訳文を生成する手段が使
    用される、請求項5または6に記載の機械翻訳装置。
  8. 【請求項8】前記設定する手段は、前記決定された複合
    語を含む分野別辞書の優先度を前記システム基本辞書よ
    り高く設定した後、該分野別辞書に含まれる複合語が所
    定数の文にわたって使用されなかったときに、該分野別
    辞書の優先度を前記システム辞書よりも下げる、請求項
    7に記載の機械翻訳装置。
  9. 【請求項9】請求項1〜4のいずれかに記載の機械翻訳
    方法を実行するためのプログラムを記憶した、コンピュ
    ータ読取可能なプログラム記憶媒体。
JP27021299A 1999-09-24 1999-09-24 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体 Pending JP2001101185A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP27021299A JP2001101185A (ja) 1999-09-24 1999-09-24 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
US09/667,372 US6876963B1 (en) 1999-09-24 2000-09-22 Machine translation method and apparatus capable of automatically switching dictionaries

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27021299A JP2001101185A (ja) 1999-09-24 1999-09-24 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体

Publications (1)

Publication Number Publication Date
JP2001101185A true JP2001101185A (ja) 2001-04-13

Family

ID=17483110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27021299A Pending JP2001101185A (ja) 1999-09-24 1999-09-24 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体

Country Status (2)

Country Link
US (1) US6876963B1 (ja)
JP (1) JP2001101185A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089493B2 (en) 2001-09-25 2006-08-08 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary
US7318021B2 (en) 2001-03-02 2008-01-08 International Business Machines Corporation Machine translation system, method and program

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100520768C (zh) 2000-04-24 2009-07-29 微软公司 带有跨语言阅读向导的计算机辅助阅读***和方法
US7136803B2 (en) 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US20030101044A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
EP1576586A4 (en) * 2002-11-22 2006-02-15 Transclick Inc LANGUAGE TRANSLATION SYSTEM AND METHOD
JP4355138B2 (ja) * 2002-12-13 2009-10-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳サーバ、コラボレーションサーバ及びプログラム
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP4398144B2 (ja) * 2002-12-24 2010-01-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体
TWI237991B (en) * 2004-06-28 2005-08-11 Delta Electronics Inc Integrated dialogue system and method thereof
US7860873B2 (en) * 2004-07-30 2010-12-28 International Business Machines Corporation System and method for automatic terminology discovery
US20070282594A1 (en) * 2006-06-02 2007-12-06 Microsoft Corporation Machine translation in natural language application development
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
US7895030B2 (en) 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
US7593844B1 (en) 2008-09-22 2009-09-22 International Business Machines Corporation Document translation systems and methods employing translation memories
TW201020816A (en) * 2008-11-25 2010-06-01 Univ Nat Taiwan Information retrieval oriented translation apparatus and methods, and storage media
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
WO2012090027A1 (en) * 2010-12-30 2012-07-05 Nokia Corporation Language models for input text prediction
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
CN102662935A (zh) * 2012-04-08 2012-09-12 北京语智云帆科技有限公司 一种交互式的机器翻译方法和机器翻译***
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US8914395B2 (en) 2013-01-03 2014-12-16 Uptodate, Inc. Database query translation system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
JP2840662B2 (ja) 1995-09-05 1998-12-24 消防庁長官 梯子車
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318021B2 (en) 2001-03-02 2008-01-08 International Business Machines Corporation Machine translation system, method and program
US7089493B2 (en) 2001-09-25 2006-08-08 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary

Also Published As

Publication number Publication date
US6876963B1 (en) 2005-04-05

Similar Documents

Publication Publication Date Title
JP2001101185A (ja) 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
US6965857B1 (en) Method and apparatus for deriving information from written text
US6760695B1 (en) Automated natural language processing
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
US8126698B2 (en) Technique for improving accuracy of machine translation
US7630880B2 (en) Japanese virtual dictionary
JPH1074203A (ja) 大文字及び非強調テキストの語彙処理の方法及びシステム
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2001523019A (ja) テキストの本文の談話構造の自動認識
JPH079655B2 (ja) スペルの誤りの検出訂正方法及び装置
JP2003527676A (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
JP2002108858A (ja) 機械翻訳方法、機械翻訳装置および記録媒体
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US20040133417A1 (en) Machine translation of chat room sessions and other collaborative work using session-specific dictionaries
Ganfure et al. Design and implementation of morphology based spell checker
WO1997040453A1 (en) Automated natural language processing
Jacobs Generation in a Natural Language Interface.
Šostaka et al. The Semi-Algorithmic Approach to Formation of Latvian Information and Communication Technology Terms.
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP3884001B2 (ja) 言語解析システムおよび方法
CN114661917A (zh) 文本扩增方法、***、计算机设备及可读存储介质
KR100214629B1 (ko) 자연언어 인터페이스 에이전트의 애매성 제거방법
JP2002351871A (ja) 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
JP3253311B2 (ja) 言語処理装置および言語処理方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法