JP3960562B2 - 機械翻訳の学習方法 - Google Patents

機械翻訳の学習方法 Download PDF

Info

Publication number
JP3960562B2
JP3960562B2 JP23808594A JP23808594A JP3960562B2 JP 3960562 B2 JP3960562 B2 JP 3960562B2 JP 23808594 A JP23808594 A JP 23808594A JP 23808594 A JP23808594 A JP 23808594A JP 3960562 B2 JP3960562 B2 JP 3960562B2
Authority
JP
Japan
Prior art keywords
translation
translated
stored
word
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23808594A
Other languages
English (en)
Other versions
JPH08101836A (ja
Inventor
公人 武田
佳美 齋藤
秀樹 平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP23808594A priority Critical patent/JP3960562B2/ja
Priority to US08/538,417 priority patent/US5826220A/en
Publication of JPH08101836A publication Critical patent/JPH08101836A/ja
Application granted granted Critical
Publication of JP3960562B2 publication Critical patent/JP3960562B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、コンピュータを利用して第1の言語を第2の言語に翻訳する機械翻訳の過程で第2の言語となった訳語を学習する機械翻訳の学習方法に関するものである。
【0002】
【従来の技術】
近年、コンピュータを利用して原文を自動的に機械翻訳し、その訳文を求める機械翻訳システムが注目されている。例えば日本語文を入力してその英訳文を求めたり、また英語文を入力してその和訳文を求めたりする自然言語の機械翻訳システムの開発が種々試みられている。
【0003】
この種の装置は、基本的には入力原文を形態素解析や構文解析等して、例えば(語句)等の所定の処理単位に区分する。そして上記処理単位毎に翻訳辞書を検索して各処理単位に対応した訳語(訳語句)を求め、これらの訳語(訳語句)を所定の訳文規則に従って結合してその訳文を求める如く構成されている。
【0004】
ところが、自然言語に対する意味解釈技術が十分に確立されていない為、上記機械翻訳によって適切な訳文を確実に得ることは甚だ困難である。具体的には、例えば(find)なる単語が(わかる、感じる、見付け出す、解く、見破る、暴露する、発見する、判決する)等の訳語を持つように、1つの原語が複数の訳語候補を持つことが多くある。これ故、どの訳語を選択するかによって訳文の言語表現が大きく変化し、訳文の意味的ニュアンスにずれが生じ易い。
【0005】
そこで従来は、この訳語のずれを解消する為に、上記各処理単位(原語)に対する複数の訳語候補をオペレータに呈示し、オペレータが最も適切である訳語を選択できる。この選択された訳語を学習することで以後、同じ原語が出現したとき優先されるように構成されている。訳語の学習方法としては、原語と選択された訳語をペアにして記憶する方法、選択された訳語を辞書上で先頭に並び替える方法、全ての訳語に対して語彙規則と訳語に番号をつけてその番号を記憶する方法等が知られている。例えば、選択された訳語を最新使用訳語として他と区別する情報を記憶する方法が特開昭63−314676号公報に示されている。
【0006】
然しながら、機械翻訳の辞書には、原語に対応する訳語を記憶しているだけでなく、例えば、動詞の目的語によって訳語を訳し分ける語彙規則を記憶している。この辞書の場合は、翻訳規則毎に訳語が記憶されている。この辞書を使って翻訳した訳語の学習方法として、原語と選択された訳語をペアにして記憶する方法、選択された訳語を辞書上で先頭に並び替える方法及び選択された訳語を最新使用訳語として他と区別する情報を記憶する方法を適用すると、原語に対して1つの訳語しか記憶できないため、翻訳規則を使って訳し分けされた訳語が学習辞書を反映することによって意図しない訳語に変更されてしまう。
【0007】
例えば、「take」の訳語として、「とる、得る、持って行く、連れて行く、つかむ、握る、抱く、捕らえる、負かす、獲得する、買う、予約する、受ける、採用する、使用する、利用する、引用する、携帯する、かかる、引き受ける、呈する、雇う、引き継ぐ、取り除く、脱ぐ、離陸する、離れる、似る、持ち上げる、取り上げる、始める、取り出す、入る、旅行、旅、乗る、……」等が記憶され、また、「take」にはなにも学習されていない状態とする。この状態で、「The child took my arm.」を翻訳すると、「子供は私の腕をとりました。」と出力されることになる。ここで、「とる」を他の訳語「握る」に変更すると、「take:握る」と学習される。次に「take:握る」が学習されている状態で、「The child took a bus.」を翻訳すると、「子供はバスを握りました。」と先に学習された「握る」が学習される。このため、同様に「握る」を適切な「乗る」に変更すると、「take:乗る」が学習される。ここで再度、「The child took a bath.」を翻訳すると、同様に、意図しない訳語「乗る」が出力される。このように、原語に対して1つの訳語しか記憶できないと、目的語等により、訳し分けが必要な文においては適切な訳を得ることが困難になる。
【0008】
これを解決する為に、全ての訳語に対して語彙規則と訳語の番号をつけて、その番号を記憶する方法がある。原語に依存しない語彙規則ごとに訳語に番号が付けられているので、訳し分けされた訳語の学習には有効である。しかしながら、この方法は語彙規則と訳語の番号をユニークにする必要があり、機械翻訳で使用する辞書を変更することができない。また、辞書が修正された場合には学習辞書の全て番号を新しい番号に付け替える必要がある。
【0009】
【発明が解決しようとする課題】
従来の機械翻訳の学習方法にあっては、語彙規則を使って訳し分けされている訳語に対しては、語彙規則と訳語の番号を記憶する方法が有効な手段であったが、この方法は語彙規則または訳語の順番が変更されないことを前提としている。
【0010】
然しながら、機械翻訳の辞書は、語彙の追加、訳語の追加、翻訳規則の追加などによって翻訳される訳文をより自然にするため、翻訳辞書の修正は不可欠である。
【0011】
本発明は、上述のような事情を考慮してなされたもので、一つの見出し語に対して複数の語彙規則と、その語彙規則に対応する一つ以上の訳語を記憶する辞書を用いて翻訳をする機械翻訳方法において、語彙規則ごとに訳語を簡単に学習できる方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するため、本願の第1発明は、入力部から入力された翻訳処理対象とする原文をコンピュータによって機械翻訳して訳語を得る繰り返しの過程で訳語を学習するコンピュータによる機械翻訳の学習方法において、前記コンピュータが、前記入力部から入力された前記原文の言語の形態解析を行い、前記原文の各原語に応じ、少なくとも適用する語彙規則及び訳語のいずれかを含む情報を求めるステップと、前記情報に従って前記原語の訳語候補の接続を検証して前記原文の構文解析を行うステップと、構文解析された前記原文の構造を訳文の構造に変換し、この変換した前記訳文構造の各単語に対応する学習された訳語が訳語学習辞書記憶部に存在するか検索し、前記学習された訳語が存在する場合は前記学習された訳語の候補の並びより成る訳文を生成するステップと、訳文を格納する訳文記憶部に前記訳文を記憶させ、表示部に表示するステップと、前記表示部に表示された前記訳文の訳語が、前記原文に対して適切でないと利用者により判断されたことを示す信号を受けた場合、他の訳語を前記訳文記憶部から取り出して前記表示部へ表示し、利用者により適切な訳語を選択させるステップと、学習辞書制御部により、この選択された訳語とこの訳語に対応する見出し語及び適用された前記語彙規則の最初に記憶されている訳語とを対応付け、学習された訳語として前記訳語学習辞書記憶部に記憶させるステップと、以降の翻訳において、前記見出し語に対応する訳語が前記語彙規則の最初に記憶している訳語と一致する場合には、前記訳語学習辞書記憶部内に対応付けて記憶されている前記学習された訳語を訳し分けするステップとを実行することを特徴とする機械翻訳の学習方法であることを要旨とする。
【0013】
本願の第2発明は、入力部から入力された翻訳処理対象とする原文をコンピュータによって機械翻訳して訳語を得る繰り返しの過程で訳語を学習するコンピュータによる機械翻訳の学習方法において、前記コンピュータが、前記入力部から入力された前記原文の言語の形態解析を行い、前記原文の各原語に応じ、少なくとも適用する語彙規則及び訳語のいずれかを含む情報を求めるステップと、前記情報に従って前記原語の訳語候補の接続を検証して前記原文の構文解析を行うステップと、構文解析された前記原文の構造を訳文の構造に変換し、この変換した前記訳文構造の各単語に対応する学習された訳語が訳語学習辞書記憶装置に存在するか検索し、前記学習された訳語が存在する場合は前記学習された訳語の候補の並びより成る訳文を生成するステップと、前記訳文を表示部に表示するステップと、前記表示部に表示された前記訳文の訳語が、前記原文に対して適切でないと利用者により判断されたことを示す信号を受けた場合、利用者に新たな訳語を入力させるステップと、学習辞書制御部により、この入力された訳語とこの訳語に対応する見出し語及び適用された前記語彙規則の最初に記憶されている訳語とを対応付け、学習された訳語として前記訳語学習辞書記憶部に記憶させるステップと、以降の翻訳において、前記見出し語に対応する訳語が前記語彙規則の最初に記憶している訳語と一致する場合には、前記訳語学習辞書記憶部内に対応付けて記憶されている前記学習された訳語を訳し分けするステップとを実行することを特徴とする機械翻訳の学習方法であることを特徴とする。
【0014】
【作用】
本願の第1発明によれば、見出し語が等しい単語に対して、構文、意味解析によって決定された語彙規則ごとに別々の訳語を記憶することができるので、語彙規則が異なる見出し語に対して学習された結果が、別の語彙規則が適用された機械翻訳を行える。
【0015】
本願の第2発明によれば、見出し語が等しい単語に対して、構文、意味解析によって決定された語彙規則ごとに別々の訳語を新たに追加することができるので、語彙規則が異なる見出し語に対して学習された結果が、別の語彙規則が適用された訳語に影響しない機械翻訳を行える。
【0016】
【実施例】
以下、図面を参照しながら本発明の一実施例について説明する。
【0017】
図1は、本発明の一実施例に係る概略構成を示している。
【0018】
図1において、1はキーボード等からなる入力部である。この入力部1等から入力された英語文は翻訳処理に供せられる原文として原文記憶部2に格納される。
【0019】
翻訳部4は、編集制御部3の制御の下で翻訳辞書部5に予め格納されている翻訳処理の為の知識情報を用い、上記原文記憶部2に格納された原文を順次所定の処理単位で機械翻訳する。
【0020】
尚、翻訳辞書部5に格納された知識情報は、例えば規則・不規則変化辞書5a、単語辞書5b、接続不可能品詞列規則辞書5c、係り受け辞書5d、訳語学習辞書5eからなる。例えば、単語辞書5bは、見出し語、品詞、訳語、活用形、語彙規則が格納されている。図3に語彙規則の一例を示す。図3(a)〜(c)はそれぞれ次のことを意味している。(a)takeの目的語がtripならば「旅行する」という意味である。(b)takeの目的語の意味マーカが「乗物」ならば「乗る」という意味である。(c)takeの目的語がbathならば「入る」という意味である。この語彙規則を用いて、「I take a bus.」を解析する場合について説明する。入力された原文は、図3(d)の原文の構文構造が求められ、この構文構造の点線で囲んだ部分構造に図3(b)の規則が適用され、takeは「乗る」という意味であると決定される。
【0021】
このような知識情報を用いて上記原文を機械翻訳して求められた訳文である日本語文は、これを得た原文に対応付け管理されて順次訳文記憶部6に格納される。
【0022】
しかして編集制御部3は、表示制御部7を駆動して前記原文記憶部2に格納された英語文、および訳文記憶部6に記憶された日本語文を相互に対応付けて表示部8にて同時表示させ、その訳文の後編集処理に供している。この後編集処理は、前記入力部1から入力される制御情報に従って、後述するように、例えば前記翻訳辞書部5に格納される訳語学習辞書5eを更新する。学習辞書制御部9は、他の訳語に変更する制御情報を入力部1から受取り、選択された訳語または追加された訳語情報を訳語学習辞書5eに記憶する。
【0023】
このような後編集処理が施されて完成された前記原文(英語文)に対する訳文(日本語文)が、印刷部10にて出力される。
【0024】
図4はこのように構成された実施例装置の基本的な動作シーケンスを示すものである。編集制御部3はこのような動作シーケンスに従って、翻訳部4から与えられる翻訳終了の情報や前記入力部1から入力される各種のキー情報を判定し、対話的にその翻訳・編集処理を制御する。
【0025】
即ち、編集制御部3は、翻訳部4における翻訳処理状態を監視し(ステップA)、翻訳部4における一つの原文の翻訳処理の終了を検出したとき、その翻訳処理によって求められた訳文を前記訳文記憶部6に格納すると共に、その訳文を原文に対応させて表示部8に表示する(ステップB)。
【0026】
また翻訳部4において翻訳処理が継続中、或いは翻訳処理が行われていない場合には、編集制御部3は前記入力部1から入力されるキー情報を判定している(ステップC,D,E,F)。そして、その入力キー情報が「翻訳指示キー」である場合(ステップC)、編集制御部3は前記原文記憶部2に格納された入力原文を翻訳部4に与え、その翻訳処理を開始させる(ステップG)。
【0027】
また入力キー情報が「文字キー」である場合には(ステップD)、その文字キーが示す文字コードを入力バッファに格納し(ステップH)、その文字コードを前記原文記憶部2に格納すると共に、その文字パターンを前記表示部8に表示する(ステップI)。この入力バッファに格納された文字コードの各文字パターン表示によって、前記入力部1から入力された原文が表示されることになる。
【0028】
更に入力キー情報が「編集キー」である場合には(ステップE)、その編集キーに対応した編集処理が前記訳文に対して実行される(ステップJ)。同様にして入力キー情報が「機能キー」である場合には(ステップF)、その機能キーに対応した処理が実行される(ステップK)。
【0029】
そしてキー情報の入力がない場合、或いは入力キー情報が上述した「キー」以外のものである場合には、その他の処理、例えば前記訳文記憶部6に得られた訳文の印刷出力等が行われる。
【0030】
このような編集制御部3の動作シーケンスにより、例えば利用者図2に示すキーボードの文字入力用キー群1aを操作して文字入力すると、その文字情報は入力バッファに順次セットされ、翻訳処理の供せられる原文として原文記憶部2に順に格納される(ステップD,H)。そしてその入力原文が表示部8に表示される(ステップI)。
【0031】
しかして文字入力の任意の時点、例えば1文の入力終了時点で図2に示す翻訳指示キー1bを操作すると、そのキー入力情報に従って上記入力バッファに格納された入力原文に対する翻訳処理が開始される(ステップC,G)。そしてその翻訳処理が終了すると、これによって求められた訳文が前記表示部8に表示されることになる(ステップA,B)。
【0032】
尚、入力原文の修正等の編集が必要な場合には、文字入力用キー群1aの操作による原文入力の途中で、例えば図2に示す前記カーソル制御キー群1eを操作してその修正箇所にカーソルを合せ、訂正・挿入・削除・移動等の図2に示す編集キー群1cを操作することによって、その編集処理が実行される(ステップE,J)。
【0033】
このようにして機械翻訳処理の基本的動作が制御される。
【0034】
ところで前記原文の翻訳処理は、例えば次のようにして実行される。
【0035】
図5はその処理シーケンスの一例を示すものである。
【0036】
翻訳部4では、先ず翻訳処理対象とする原文の言語的形態を前記規則・不規則変化辞書5aを用いて解析する(ステップP)。この形態解析によって、例えば活用変化を生じた原語がその原形(基本形)に変換される。
【0037】
次に上記の如く形態解析された原文の各原語に対して、前記単語辞書5bを用いて品詞情報、語彙規則、訳語等の情報が求められる(ステップQ)。この処理は、上記原語を見出し語として前記単語辞書5bを検索することによって行われる。
【0038】
しかる後、辞書検索された情報に従ってその訳語候補の接続可能性が検証される(ステップR)。この検証は、前記接続不可能品詞列規則辞書5cを参照して行われ、矛盾のない構文解析結果(言語の品詞列の並び)が得られるまで繰り返して行われる。この構文解析によって、原文を構成する原語の品詞の並び構造や、その係り受け関係、時制の形態等が求められることになる。
【0039】
その後、この構文解析された原文の構造を、前記係り受け辞書5dを用いて訳文の構造に変換する(ステップS)。次に変換された訳文構造の各単語に学習された訳語が存在するか訳語学習辞書5eを参照する(ステップT)。訳語学習辞書5eに記憶される訳語があるときは第1訳語と学習されている訳語とを入れ替えた後、訳語候補の並びからなる訳文を生成する(ステップU)。この際、前記原文の構文解析結果に従って、各訳語候補を活用変形および語尾変形処理し、訳文を適切な言語表現とする。
【0040】
このような翻訳処理によって求められた前記原文に対する訳文が、前記訳文記憶部6に格納されると共に、その原文に対応して表示部8に表示される。
【0041】
ところでこのようにして求められた訳文と、その訳文を得た原文が前記表示部8に表示されると、ここで利用者は適切な訳語が選択されているか訳文をチェックする。適切な訳文が選択されていない場合の編集処理は次のようにして行われる。前記表示部8の画面上で、適切でない訳語をカーソルによって指示し、訳語キーを押す。この操作によってカーソルが指示する単語の訳語を訳文記憶部6から取り出して表示する。利用者は一覧表の形で表示された訳語から適切な訳語を選択または新たな訳語を登録する。この選択させた訳語または追加登録された訳語は学習辞書制御部9を介して翻訳辞書部5の中の訳語学習辞書5eに記憶される。
【0042】
尚、編集処理には訳語の選択機能の他に、辞書表示、辞書登録、辞書削除、文字挿入、削除、移動、複写などが操作された編集キーに対応して実現されている。このような各種の機能を利用して前述した訳文に対する訳語修正などの後処理が対話的に行われる。
【0043】
以上が本装置が基本的に持つ翻訳処理機能である。ここで本装置が特徴とするところは、上記訳文中の不適切な訳語を修正するとき、語彙規則が適用されて訳し分けされている訳語ごとに学習できるようにした点にある。
【0044】
即ち、本装置は、例えば、「The child took my arm.」を翻訳すると、「子供は私の腕をとりました。」と出力された状態で、「とる」を「握る」に変更すると、「take:とる:握る」と学習する。語彙規則が適用されて訳し分けされる最初に記憶される訳語(この場合は、「とる」)と選択された訳語(「握る」)及び見出し語の3つをペアにして記憶する。この様に学習することによって、「The child took a bus.」を翻訳した場合には、適用される語彙規則の最初に記憶される訳語(この場合は、「入る」)が不一致となるため、学習された結果は反映されず、「子供はバスに乗りました。」を得ることができる。
【0045】
同様に、対応した語彙規則に訳語を登録する場合には、訳語を選択する変わりにキーボードから登録する訳語を入力するだけで、同じ方法で学習することができる。「The child took a bus.」の「take」の訳語に「乗車する」が登録された場合は、「take:乗る:乗車する」と学習する。これによって、適用される語彙規則の最初に記憶される訳語(この場合は、「乗る」)が一致するため、「子供はバスに乗車しました。」を得ることができる。
【0046】
この学習方法によれば、語彙規則の最初の訳語を変更しなければ辞書の修正の影響を受けることがない。
【0047】
図6及び図7はその処理シーケンスを示すものであり、その流れを前記例を参照しながら説明する。
【0048】
今、「The child took my arm.」なる原文がキーボードから入力され、翻訳要求がなされると翻訳処理が行われる(ステップ601)。翻訳処理の概要は図4を基に説明したのでここでは省略する。また、ここでの説明は、動詞「take」の目的語の違いによって異なる語彙規則が適用される例について説明する。
【0049】
見出し語を参照するカウンターiをクリアする(ステップ602)。
【0050】
i番目の見出し語を取り出す(ステップ603)。学習辞書は見出し語をキーとして高速な検索ができる構成になっているため、学習辞書に該当する単語が記憶されているかの検索キーとして見出し語を取り出す。
【0051】
取り出したi番目の見出し語が学習辞書に有るかサーチする(ステップ604)。見出し語が一致した場合には、一致した学習辞書の位置をjに設定する(ステップ605)。学習辞書のj番目の適用された語彙規則の最初に記憶される訳語を取り出し(ステップ606)、i番目の見出し語に対応する最初の訳語と比較する(ステップ607)。例文においては、i番目の見出し語に対応する最初の訳語は、「とる」である。不一致の場合は、ステップ604に戻り、学習辞書のサーチを継続する。
【0052】
一致する場合は、訳語追加マークが付いているか調べ(ステップ608)、訳語追加マークがオフの場合は、i番目の見出し語に対する訳語の順番を学習辞書に記憶されている選択された訳語が最初になるように入れ替える(ステップ609)。訳語追加マークがオンの場合には、学習辞書のj番目の適用された語彙規則の最初に記憶される訳語の前に登録する訳語を追加する(ステップ610)。
【0053】
見出し語または語彙規則の最初の訳語が不一致の場合は見出し語を取り出すカウンターiを加算する(ステップ611)。翻訳した文の最後の見出し語まで、学習辞書と比較したか検査し、未比較の見出し語がある場合は、ステップ603に戻り学習辞書のサーチを継続する(ステップ612)。全ての見出し語に対して学習辞書のサーチが終了したら、訳文を生成する(ステップ613)。
【0054】
ここからの説明は、「take」に学習された訳語が記憶されていない状態とする。このため、前記ステップでは訳語の入れ替えは発生せず、「子供は私の腕をとりました。」と出力される(ステップ614)。
【0055】
次に表示された訳文を見て、「とる」の訳語を「握る」に変更する流れを説明する。まず、利用者は「取る」にカーソルを移動して(ステップ615)、訳語キーを押す(ステップ616)。この操作により、この文においての「take」の適用された語彙規則に該当する訳語の一覧が表示される(ステップ617)。ここで、適切な訳語がある場合は選択する(ステップ618)。
【0056】
ステップ615〜617は利用者との会話であるので、図8に表示例を示し、詳細な説明は省略する。
【0057】
ここで、他の訳語が選択された場合は、見出し語、適用された語彙規則の最初の訳語および選択された訳語を取り出す(ステップ619)。例文において、「とる」が「握る」に変更されたとすると、「take:とる:握る」が学習データとして得られる。ここでは詳細な説明を省略するが、この他、見出し語の品詞、訳語の活用形などを一緒に学習しても良い。
【0058】
得られた見出し語、適用された語彙規則の最初の訳語および選択訳語を訳語学習辞書5eに記憶する(ステップ620)。学習辞書に記憶する方法としては、見出し語、適用された語彙規則の最初の訳語が一致する場合には、選択された訳語のみ入れ替え、一致しない場合には、所定の場所に追加する。実施例においては、一致した場合は選択された訳語に入れ替える例で説明したが、複数の訳語を記憶できるような構成にして、学習辞書から選択された訳語を取り出す場合に、登録の逆順に出力するようにすることもできる。
【0059】
次に、この様に学習された状態で、同じ例文を翻訳するとステップ604において、見出し語が一致し、ステップ607で適用された語彙規則の最初の訳語が一致するので、ステップ609で「とる」が「握る」に入れ替えられ、訳文として、「子供は私の腕を握りました。」が得られる。
【0060】
しかしながら、「The child took a bus.」なる例文を翻訳した場合は、ステップ604では見出し語が一致するが、ステップ607では、適用された語彙規則の最初の訳語(「乗る」)と学習辞書に記憶される適用された語彙規則の最初の訳語(「とる」)が不一致となり、訳語の入れ替えは発生しない。よって訳文としては、「子供はバスに乗りました。」が出力される。
【0061】
次に対応した語彙規則に訳語を登録する場合について説明する。ステップ617で訳語の一覧表が表示されて、その訳語の中に適切な訳語がない場合は、訳語を選択する代りに、登録キーを押す。この操作によって、訳語の入力モードに切り替わり、利用者は、追加する訳語を入力する(ステップ621)。例えば、前記、「The child took a bus.」の訳文として、「子供はバスに乗りました。」が出力されるが、「take」の訳語を「乗車する」にしたい場合には、登録キーを押して、「乗車する」と訳語を入力する。
【0062】
この操作によって、見出し語、適用された語彙規則の最初の訳語および入力訳語から、「take:乗る:乗車する」を学習データとして得る(ステップ622)。
【0063】
取り出された、見出し語、適用された語彙規則の最初の訳語および入力訳語を訳語学習辞書に記憶する(ステップ623)。学習辞書に記憶する方法としては、選択された訳語と異なり、見出し語、適用された語彙規則の最初の訳語が一致する場合には、入力された訳語を最初に取り出される位置に追加する。一致しない場合には、選択された場合と同様に所定の場所に追加する。訳語を追加した場合は、選択した訳語と区別するマークを付けて記憶する。
【0064】
例文においては、「take:乗る:乗車する」と学習する。これによって、ステップ607で適用される語彙規則の最初に記憶される訳語(この場合は、「乗る」)が一致するため、ステップ608で訳語追加マークが付けられている「乗車する」)が訳語の最初に追加され、「子供はバスに乗車しました。」を得ることができる。
【0065】
このように本装置によれば、構文、意味解析によって決定された語彙規則ごとに別々の訳語を記憶又は新たに追加することができるので、学習された結果が別の語彙規則が適用された訳語に影響することがない。
【0066】
更に、翻訳される訳文をより自然にするためになされる語彙の追加、訳語の追加、翻訳規則の追加などの翻訳辞書の修正に対しても影響することがない。
【0067】
尚、本発明は上述した実施例に限定されるものではない。ここでは英語文から日本語文への機械翻訳について説明したが、他の自然言語間の機械翻訳にも同様に適用することができる。また、訳語の一覧表示から選択キーまたは登録キーで語彙規則に対して訳語の選択または登録をする例で実施例を説明したが、訳語の一覧表を表示させた時に削除キーを押すことで、学習された訳語を同様に削除することができる。要するに本発明は、その要旨を逸脱しない範囲で種々変形して実施することができる。
【0068】
【発明の効果】
本発明によれば、複数の語彙規則とその語彙規則に対応する一つ以上の訳語を記憶する辞書を用いて翻訳する機械翻訳方法において、
構文、意味解析によって決定された語彙規則に一致した訳語候補を辞書から読みだして利用者に呈示し、利用者が最も適切である訳語を選択したときに、その選択された訳語および適用された語彙規則の最初に記憶されている訳語とを一緒に記憶することによって、以降の翻訳において、同じ語彙規則が適用された場合にのみ学習効果がある学習方法を実現することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る機械翻訳装置の概略構成図である。
【図2】同実施例におけるキーボードの構成例を示す図である。
【図3】同実施例における単語辞書の語彙規則の一例を示す図である。
【図4】同実施例における基本的な動作シーケンスを示すフローチャートである。
【図5】同実施例における翻訳処理の動作シーケンスを示すフローチャートである。
【図6】同実施例における訳語の学習の動作シーケンスの一部を示すフローチャートである。
【図7】同実施例における訳語の学習の動作シーケンスの他の一部を示すフローチャートである。
【図8】同実施例における訳語選択の表示例を示す図である。
【符号の説明】
1 入力部
2 原文記憶部
3 編集制御部
4 翻訳部
5 翻訳辞書部
6 訳文記憶部
7 表示制御部
8 表示部
9 学習辞書制御部
10 印刷部

Claims (2)

  1. 一つの見出し語に対して複数の語彙規則と、その語彙規則に対応する複数の訳語を記憶する辞書を用いて、入力部から入力された翻訳処理対象とする原文をコンピュータによって機械翻訳して訳を得る繰り返しの過程で訳語を学習するコンピュータによる機械翻訳の学習方法において、
    前記コンピュータが、
    前記入力部から入力された前記原文の形態素解析および構文解析を行い、動詞とその目的語によって、当該動詞の語彙規則を求め、当該動詞の語彙規則の最初に記憶されている訳語を決定するステップと、
    構文解析された前記原文の構造を訳文の構造に変換し、前記最初に記憶されている訳語に対応する学習された訳語が訳語学習辞書記憶部に存在するか検索し、前記学習された訳語が存在する場合は前記訳文の構造中の前記最初に記憶されている訳語と前記学習された訳語とを入れ替え、入れ替えた後の訳文の構造から訳文を生成するステップと、
    訳文を格納する訳文記憶部に前記訳文を記憶させ、表示部に表示するステップと、
    前記表示部に表示された前記訳文の訳語が、前記原文に対して適切でないと利用者により判断されたことを示す信号を受けた場合、他の訳語を前記辞書から取り出して前記表示部へ表示し、利用者により適切な訳語を選択させるステップと、
    学習辞書制御部により、この選択された訳語この訳語に対応する見出し語及び適用された前記語彙規則の最初に記憶されている訳語対応付け、新たに学習された訳語として前記訳語学習辞書記憶部に記憶させるステップと、
    以降の翻訳において、前記見出し語に対応する訳語が前記語彙規則の最初に記憶している訳語と一致する場合には、前記訳語学習辞書記憶部内に対応付けて記憶されている前記新たに学習された訳語に入れ替えることで、前記語彙規則に対応する複数の訳語を訳し分けするステップ
    とを実行することを特徴とする機械翻訳の学習方法。
  2. 一つの見出し語に対して複数の語彙規則と、その語彙規則に対応する複数の訳語を記憶する辞書を用いて、入力部から入力された翻訳処理対象とする原文をコンピュータによって機械翻訳して訳を得る繰り返しの過程で訳語を学習するコンピュータによる機械翻訳の学習方法において、
    前記コンピュータが、
    前記入力部から入力された前記原文の形態素解析および構文解析を行い、動詞とその目的語によって、当該動詞の語彙規則を求め、当該動詞の語彙規則の最初に記憶されている訳語を決定するステップと、
    構文解析された前記原文の構造を訳文の構造に変換し、前記最初に記憶されている訳語に対応する学習された訳語が訳語学習辞書記憶部に存在するか検索し、前記学習された訳語が存在する場合は前記訳文の構造中の前記最初に記憶されている訳語と前記学習された訳語とを入れ替え、入れ替えた後の訳文の構造から訳文を生成するステップと、
    前記訳文を表示部に表示するステップと、
    前記表示部に表示された前記訳文の訳語が、前記原文に対して適切でないと利用者により判断されたことを示す信号を受けた場合、利用者に新たな訳語を入力させるステップと、
    学習辞書制御部により、この入力された訳語この訳語に対応する見出し語及び適用された前記語彙規則の最初に記憶されている訳語対応付け、新たに学習された訳語として前記訳語学習辞書記憶部に記憶させるステップと、
    以降の翻訳において、前記見出し語に対応する訳語が前記語彙規則の最初に記憶している訳語と一致する場合には、前記訳語学習辞書記憶部内に対応付けて記憶されている前記新たに学習された訳語に入れ替えることで、前記語彙規則に対応する複数の訳語を訳し分けするステップ
    とを実行することを特徴とする機械翻訳の学習方法。
JP23808594A 1994-09-30 1994-09-30 機械翻訳の学習方法 Expired - Lifetime JP3960562B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP23808594A JP3960562B2 (ja) 1994-09-30 1994-09-30 機械翻訳の学習方法
US08/538,417 US5826220A (en) 1994-09-30 1995-10-02 Translation word learning scheme for machine translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23808594A JP3960562B2 (ja) 1994-09-30 1994-09-30 機械翻訳の学習方法

Publications (2)

Publication Number Publication Date
JPH08101836A JPH08101836A (ja) 1996-04-16
JP3960562B2 true JP3960562B2 (ja) 2007-08-15

Family

ID=17024944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23808594A Expired - Lifetime JP3960562B2 (ja) 1994-09-30 1994-09-30 機械翻訳の学習方法

Country Status (2)

Country Link
US (1) US5826220A (ja)
JP (1) JP3960562B2 (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720106A3 (en) * 1994-12-28 1997-07-23 Canon Kk Device and method for generating natural language information from information defined by concepts
JP2987099B2 (ja) * 1996-03-27 1999-12-06 株式会社日立国際ビジネス 文書作成支援システム及び用語辞書
US6298158B1 (en) * 1997-09-25 2001-10-02 Babylon, Ltd. Recognition and translation system and method
US6192332B1 (en) * 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
US6345243B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically propagating translations in a translation-memory system
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US20030061022A1 (en) * 2001-09-21 2003-03-27 Reinders James R. Display of translations in an interleaved fashion with variable spacing
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
DE60212330T2 (de) * 2002-04-12 2007-06-21 Targit A/S Verfahren zur Verarbeitung von mehrsprachigen Abfragen
JP3813911B2 (ja) 2002-08-22 2006-08-23 株式会社東芝 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム
JP4355138B2 (ja) * 2002-12-13 2009-10-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳サーバ、コラボレーションサーバ及びプログラム
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US7383542B2 (en) * 2003-06-20 2008-06-03 Microsoft Corporation Adaptive machine translation service
AU2004202391A1 (en) * 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
JP4301515B2 (ja) * 2005-01-04 2009-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 文章表示方法、情報処理装置、情報処理システム、プログラム
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
WO2008009682A2 (en) * 2006-07-17 2008-01-24 Total Recall Aps A computer-implemented translation tool
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US7983897B2 (en) * 2007-02-14 2011-07-19 Google Inc. Machine translation feedback
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US20100106480A1 (en) * 2007-03-27 2010-04-29 Nec Corporation Character data processing method, computer program, and character data processing system
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
WO2008146583A1 (ja) * 2007-05-23 2008-12-04 Nec Corporation 辞書登録システム、辞書登録方法および辞書登録プログラム
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
JP4985689B2 (ja) * 2009-03-30 2012-07-25 ブラザー工業株式会社 印刷装置
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US9053098B2 (en) * 2010-01-14 2015-06-09 Abbyy Development Llc Insertion of translation in displayed text consisting of grammatical variations pertaining to gender, number and tense
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8352243B2 (en) 2010-05-18 2013-01-08 Hai-Shan Jang Multi-language translator for specific fields of knowledge
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
CN105808527A (zh) * 2016-02-24 2016-07-27 北京百度网讯科技有限公司 基于人工智能的定向翻译方法及装置
US10769386B2 (en) * 2017-12-05 2020-09-08 Sap Se Terminology proposal engine for determining target language equivalents

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
GB2199170A (en) * 1986-11-28 1988-06-29 Sharp Kk Translation apparatus
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
JPS6470871A (en) * 1987-09-11 1989-03-16 Hitachi Ltd Maintenance system for word order relation dictionary
JPH01233668A (ja) * 1988-03-15 1989-09-19 Matsushita Electric Ind Co Ltd 機械翻訳機
JPH0242572A (ja) * 1988-08-03 1990-02-13 Hitachi Ltd 共起関係辞書生成保守方法
JPH02140868A (ja) * 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5329446A (en) * 1990-01-19 1994-07-12 Sharp Kabushiki Kaisha Translation machine
JP2870279B2 (ja) * 1992-01-13 1999-03-17 日本電気株式会社 訳語選択装置
JP2880601B2 (ja) * 1992-01-22 1999-04-12 シャープ株式会社 言語処理装置
JPH05298349A (ja) * 1992-04-20 1993-11-12 Hitachi Ltd 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法
JP3038079B2 (ja) * 1992-04-28 2000-05-08 シャープ株式会社 自動翻訳装置
US5373442A (en) * 1992-05-29 1994-12-13 Sharp Kabushiki Kaisha Electronic translating apparatus having pre-editing learning capability

Also Published As

Publication number Publication date
US5826220A (en) 1998-10-20
JPH08101836A (ja) 1996-04-16

Similar Documents

Publication Publication Date Title
JP3960562B2 (ja) 機械翻訳の学習方法
US4821230A (en) Machine translation system
EP0370774B1 (en) Machine translation system
EP0247395B2 (en) Machine translation system
US20030040900A1 (en) Automatic or semiautomatic translation system and method with post-editing for the correction of errors
JPS62203273A (ja) 機械翻訳システム
EP0213905B1 (en) Machine translation system
KR900008402B1 (ko) 기계번역장치
JP2588167B2 (ja) 機械翻訳装置
GB2208730A (en) A translating apparatus
JPS62203267A (ja) 機械翻訳システム
JPS6244876A (ja) 機械翻訳装置
JPH0550778B2 (ja)
JPS6244872A (ja) 機械翻訳装置
JPH0442706B2 (ja)
JPS6320570A (ja) 機械翻訳システム
JPS62180465A (ja) 仮名漢字変換方式
JPH0434644A (ja) 機械翻訳システム
JPS62200462A (ja) 機械翻訳システム
JPS62163170A (ja) 機械翻訳システム
JPS63165961A (ja) 機械翻訳装置
JPH0433072B2 (ja)
JPH09231226A (ja) 機械翻訳用辞書メンテナンス装置
JPH01245358A (ja) 機械翻訳装置
JPH07253984A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040120

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040326

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070514

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140525

Year of fee payment: 7

EXPY Cancellation because of completion of term