JP3657338B2 - 翻訳装置 - Google Patents

翻訳装置 Download PDF

Info

Publication number
JP3657338B2
JP3657338B2 JP02909296A JP2909296A JP3657338B2 JP 3657338 B2 JP3657338 B2 JP 3657338B2 JP 02909296 A JP02909296 A JP 02909296A JP 2909296 A JP2909296 A JP 2909296A JP 3657338 B2 JP3657338 B2 JP 3657338B2
Authority
JP
Japan
Prior art keywords
translation
word
learning
dictionary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP02909296A
Other languages
English (en)
Other versions
JPH09223146A (ja
Inventor
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP02909296A priority Critical patent/JP3657338B2/ja
Publication of JPH09223146A publication Critical patent/JPH09223146A/ja
Application granted granted Critical
Publication of JP3657338B2 publication Critical patent/JP3657338B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、第1言語の文を第2言語の文に翻訳する機械翻訳装置に関する。
【0002】
【従来の技術】
機械翻訳とは、コンピュータを利用してある言語による文章を自動的に別の言語の文章に変換する技術である。そして、コンピュータ技術を含め電子技術や半導体技術の目覚ましい発展に伴い、手軽に誰でもがコンピュータを利用することが可能になり、また、自然言語処理技術の向上、計算機能力の向上など機械翻訳技術の分野を取り巻く環境の一層の進展に伴って、高い品質の訳文を提供することが可能になり、近年、機械翻訳システムに対する注目が高まっている。ところで、機械翻訳に求められることは、速く、しかも、原文の内容を正しく反映して言語としておかしくない訳文を生成することである。
【0003】
しかしながら、原文書には様々な種類があり、様々な表現があって全てのユーザの全ての原文の訳文を満足のゆくように訳出させるほどに充実した大量の知識を翻訳辞書として提供するには至っていない。現状では、これに対処するための手段として、各種専門用語辞書、ユーザ辞書を利用可能にしたり、訳語学習機能を提供する程度にとどまっている。
【0004】
専門用語辞書は、原文書にしたためられた内容を訳出するにあたり、その現文書が対象としている分野に依存した訳語を訳文に反映するためのものであり、その分野独特の表現を踏襲するために用いる辞書である。
【0005】
また、ユーザ辞書は、ユーザ固有の表現・語句を見出し語として定義し、その訳語を指定するためのものである。また、訳語学習機能は、その他の一般的な語に対して、文書に応じてユーザの所望する訳語を学習させ、以降の翻訳においてその学習内容を反映させることで、再度ユーザが訳語の選択をする必要を省くように機能するものであり、ユーザの好みを訳文に自然に反映させることができるようにするために、重要な機能である。
【0006】
訳語学習機能においては、同じ見出し語に対して、異なる箇所で、異なる訳語を選択した場合、基本的に最後の選択結果が学習される。しかし、実際には、このように異なる箇所で、異なる訳語を選択するといった相反する選択が行われた場合、最新の選択による訳語が学習結果に反映されて、その後の翻訳に影響を与えるようにすることが好ましいとは限らない。
【0007】
つまり、個々の文における単語の使われ方によって、訳語をそこだけ変えたいというようなケースは多々あり、このような場合に、最新の選択を次の翻訳に反映させてしまうと、その部分でユーザは再選択をしなければならないことになり、使いにくいものとなる。
【0008】
また、以降の翻訳には反映させる必要のない(学習の必要がない)、その一文にのみ妥当な選択であることもある。そのため、機械翻訳システムにおいては、学習の要・不要については、これまではユーザが意識的に指定するか、あるいは、学習不要な語については訳語学習機能の使用を避けるいったことを行う必要があった。
【0009】
【発明が解決しようとする課題】
上記のように、機械翻訳システムにおいては、ユーザの満足のゆく訳文を、全てのユーザに提供できる程、充実した大量の知識を翻訳辞書として提供するには至っていないことから、現状では、これに対処するための手段として、各種専門用語辞書、ユーザ辞書を利用可能にしたり、訳語学習機能を持たせたりしている。そして、専門用語辞書、ユーザ辞書を利用可能にすることで、分野対応の、あるいはユーザの好みに適合する訳出を可能にしている。
【0010】
また、ユーザの訳語利用傾向を反映させてユーザ気に入らない訳をできるだけ避けるようにするために、あるのが訳語学習機能であるが、しかし、従来の訳語学習機能では、−般的に、時間的により新しい選択結果を学習し、後の翻訳に反映するような構成になっている。
【0011】
そのため、ユーザが意識しないで訳語選択を行うことにより、ある一文だけに有効で後の文に反映させる必要のない学習が行われてしまったり、学習が必要か否かを判断して、コマンドを使い分ける必要がある、など使い勝手の悪い一面を残しているという問題があった。
【0012】
また、語と語の共起の仕方によって、同じ見出し語に対して、異なる訳語を学習しわけたくてもできず、後の学習が先の学習を打ち消してしまうという問題もあった。
【0013】
そこで、この発明の目的とするところ、上記問題点に対処するため、相反する学習内容も生かし、後の翻訳において最も期待値の高い訳語を反映でき、結果としてユーザの訳語選択・後編集の手間を軽減することができるようにした機械翻訳装置を提供することにある。
【0014】
【課題を解決するための手段】
上記目的を達成するため、本発明の翻訳装置は、文字を入力するための入力手段と、学習情報を保持する学習辞書を含み、前記入力手段により入力された第1言語による自然言語文を第2の言語に変換するための知識情報を保持し、前記知識情報における見出し語の各々に対し、見出し語の品詞毎に定義している共起条件のパターンを前記辞書手段に保持する辞書手段と、前記入力手段により入力された第1言語による自然言語文の単語列を、前記辞書手段の知識情報を用いて翻訳処理時に品詞を決定すると共に前記第2の言語の単語列に変換処理し、前記辞書手段の持つ知識情報における見出し語は一致するが共起語が一致しない場合に、利用実績が最高となる訳語である学習デフォルト語を訳語として決定して翻訳処理をする翻訳手段と、前記翻訳手段における翻訳結果を出力する出力手段と、訳語の選択をするための訳語選択手段と、この訳語選択手段による訳語選択の内容に基づいて前記辞書手段に対し、見出し語における訳語別の共起情報および頻度情報を含む学習情報を更新すべく制御し、前記訳語選択手段により選択された訳語を前記辞書手段の知識情報における見出し語の中から探し、当該訳語が前記翻訳手段により決定された前記訳語の品詞が前記共起条件のパターンとして前記辞書手段に保持されている品詞のとき、ユーザが共起条件を指定することなしに前記共起条件のパターンに示される特定の共起条件のもとで登録することで自動的に訳語を学習させ、この学習されたものは、前記見出し語の共起条件毎に別個に記憶されるように制御し、また、頻度情報最多の訳語は学習デフォルト訳語として更新すべく制御する学習制御手段とを具備する。
【0015】
本システムは、入力手段より第1言語である自然言語の文および単語列が入力されると制御手段に送られ、制御手段はその入力データを翻訳手段に送る。翻訳手段は、辞書手段内の知識を用いて翻訳処理を行ない、制御手段を介して出力手段に訳文を出力する。翻訳結果に対し、ユーザにより訳語選択手段を介して訳語選択が行なわれるとその内容は一旦、制御手段へ送られる。
【0016】
制御手段は選択内容に沿って出力手段に訳語の置換表示の命令を送り、訳語の置換が行なわれる。一方、選択内容は学習制御手段へも送られる。学習制御手段では過去の訳語選択内容を学習辞書に記録する。同じ見出し語に対して異なる選択が行なわれる度に、選択内容が記録され、かつ、その時点までに翻訳処理・後編集処理を終えた文の範囲内に生起する当該見出し語に関して、訳語の種類毎の頻度も記録される。
【0017】
この頻度を元に、以後の翻訳処理における学習訳語群中からデフォルト訳語(最も期待値の高い訳語)を選定し、学習辞書に記録する。翻訳手段における翻訳処理では訳語を決定する際に、学習辞書を参照する。新規に翻訳する文が、学習辞書に記録された訳語選択条件群のいずれかにマッチするものであれば、その条件時に選択された訳語をその文の訳語として決定する。見出し語は一致するが共起語が一致しない場合は、デフォルト訳語を訳語として決定する。
【0018】
このように作用することにより、1つの見出し語に対して相反する訳語が選択されても、一方が無効になることなく、共起語を条件にすることにより、すべてを学習知識として、以後の翻訳に生かすことができる。かつ、過去の生かされた訳語の頻度を元に、後の翻訳において最も期待値の高い訳語を推定し、デフォルト訳語として記憶することにより、ユーザの後編集作業を軽減することができるようになる。
【0019】
【発明の実施の形態】
以下、図面を参照しながら、本発明の具体例の説明をする。図1は、本発明の一具体例としての機械翻訳システムの構成を示したブロック図である。図において、1は入力部、2は訳語選択部、3は学習制御部、4は出力部、5は制御部、6は翻訳部、7は辞書部である。入力部1は翻訳対象となる文の入力や各種コマンドの入力を行なうためのものであって、制御部5に対し、翻訳対象となる文の入力や各種コマンドの入力を行なうためのものである。
【0020】
入力部1としては、通常、キーボード、マウスなどが用いられる。翻訳対象文の入力には、キーボードによる場合の他、OCR(光学式文字読取装置)、フロッピディスク、磁気テープ、磁気ディスク、光磁気ディスクなどからの読み込みも考えられる。出力部4は、翻訳部6の出力である翻訳結果を出力したり、入力部1や訳語選択部2から制御部5への各種命令に対する制御部5からの応答を表示するためのものである。出力部4としては表示手段、例えば、CRT表示装置や液晶表示装置、プラズマディスプレイなどの如き画像表示用ディスプレイなどが通常使用されることになるが、翻訳結果の出力には、印刷機(プリンタ)などの印字手段、あるいは直接、フロッピディスク、磁気テープ、磁気ディスクなどの記録媒体ヘ出力する場合や他のメディアヘ送信する送信手段(通信手段)を適用することもできる。
【0021】
制御部5はシステム全体の制御の中枢であって、システム全体の動きを制御するためのものである。訳語選択部2は、編集モード時に訳語の選択をするためのものであり、編集モード時において入力部1からの操作により制御部5を介して与えられるユーザの指示対応に訳語選択を行うものである。
【0022】
学習制御部3は、訳語選択部2を介して行なわれた訳語選択の内容に基づいて、見出し語と訳語の関係が相反する複数の選択内容、および一つの見出し語に対する最後の選択以前の選択内容などの学習制御を行って辞書部7における学習辞書部7bの学習辞書情報の記録や更新などの制御を行うと共に、翻訳部6での翻訳において有効な学習情報を与えることのできるように学習辞書部7bの学習辞書内容を制御するものである。
【0023】
翻訳部6は入力部1から入力され、制御部5を介して与えられた原文(第1言語の文書)を、辞書部7の持つ各種の情報(知識)を参照して翻訳する処理を実施する部分であり、最も期待値の高い訳語の決定を行う学習内容選択手段6aを有している。
【0024】
翻訳部6は翻訳処理にあたっては辞書部7の持つ知識を用いて翻訳を実施する。辞書部7は、翻訳処理に必要な各種の辞書情報や規則を保持するものであり、語彙部7a、学習辞書部7b、形態素解析規則7c、構文・意味解析規則7d、変換規則7e、生成規則7f、形態素生成規則7gからなる。これらのうち、語彙部7aとは語彙の情報を集めた辞書部分であり、学習辞書部7bとはユーザの訳語選択により学習された学習内容を収納する辞書である。
【0025】
また、形態素解析規則7cは入力文書を形態素に分けるための解析規則情報を保持した部分であり、構文・意味解析規則7dは入力文書を構文解析し、意味解析するための規則情報を保持した部分であり、変換規則7eは第1言語から第2言語への変換のための規則情報を保持した部分である。
【0026】
また、生成規則7fは第2言語を生成するための規則情報を保持した部分であり、形態素生成規則7gは第2言語の形態素を生成するための規則情報を保持した部分である。次に、上記構成の本システムの作用を説明する。
【0027】
入力部1より処理対象の原文が入力されると、この原文は制御部5へ送られる。そして、制御部5はこの原文のデータを翻訳部6へ送って翻訳処理させることになる。原文のデータを受け、ユーザから翻訳指示が与えられると翻訳部6は、辞書部7の知識・規則を利用してこの入力原文に対して、第2言語の文、あるいは第1言語の文字列を含んだ第2言語の文への翻訳処理を行う。翻訳処理にあたり、ある見出し語に対する訳語を決定する際には、学習辞書部7bを参照し、学習内容選択手段6aを用いて、最も期待値の高い訳語の決定を行う。入力原文に対する翻訳処理を終了すると、翻訳部6はその翻訳結果を制御部5に渡し、制御部5はこの翻訳結果を出力部4へ送って出力させ、一通りの処理を終える。
【0028】
翻訳結果をみてユーザが修正の必要があると判断すると、ユーザがそのための操作を入力部1から行なうが、当該操作により編集のモードに入ることになる。すなわち、編集のモードは、ある文の翻訳結果が得られた状態で、ユーザが入力部1を操作して制御部5に、ある語に対する訳語選択機能起動の命令を与えることで移行する。そして、この訳語選択機能起動の命令が与えられると、制御部5は、訳語選択部2へ訳語選択開始の信号を送る。
【0029】
訳語選択部2は、この訳語選択開始の信号を受け取ると、ユーザに訳語選択を促すための画面を出力部1へ表示させるための信号を制御部5へ送る。一方、制御部5は翻訳部6に指令を与えて画面のカーソル位置にある語についてその訳語候補を辞書部から取得させる。翻訳部6はこの取得した訳語候補を制御部5に渡し、制御部5ではそれを訳語選択部2へ渡すので、訳語選択部2は候補一覧とし、この一覧から目的の語を選択できるような画面にして制御部5に渡し、さらに制御部5はこれを出力部4の画面上に表示させるようにする。
【0030】
これにより、出力部1には選択をガイドする訳語候補一覧と操作ボタンなどが画面表示されることになり、この画面を見てユーザが訳語選択の操作を入力部1から行うと、その内容は制御部5に与えられ、制御部5は当該選択内容に沿った表示命令を出力部4へ与えて表示させると共に、選択内容に沿った指令(選択指示)を訳語選択部2に与える。
【0031】
訳語選択部2は当該指令をさらに学習制御部3に送ると共に、制御部5を介して翻訳部6にも送る。この指令を受け取ることにより、置き換え指令が出され、また、一方、学習制御部3では辞書部7における学習辞書部7bの内容と今回の選択内容などから学習辞書部7bの該当部分の学習内容の更新を行ない、以降の翻訳処理に反映されることになる。
【0032】
翻訳結果に対し、必要な箇所について、上述の編集のモードによる上述のような処理を行なうことで、必要箇所での所望の訳語を指定しての翻訳結果が得られ、また、学習情報が辞書部7に学習されることになる。
【0033】
以上は大まかな処理動作の説明であり、本システムでは個々の文における単語の使われ方に応じて特定の訳語か望ましい、特定の訳語を学習させたいという場合に、その学習がその後の翻訳に影響を与えないように工夫しており、この点に特徴があるので、以下その詳細を具体的に説明する。
【0034】
<制御部3での対話的翻訳処理>
制御部3における対話的な翻訳処理の流れを図2に示す。編集部5は、入力部1から何等かのキー入力があると、それぞれのキー・コマンドに応じた処理を行なう。入力部1より終了命令が入力されると(ステップS201)全ての処理を終了する。
【0035】
入力部1より翻訳指示命令を受けた場合には(ステップS202)、ステップS207へ進み、指示対象文に対する翻訳処理開始命令を翻訳部6へ送る。翻訳部6における翻訳処理の流れについては別の図を用いて後に説明する。翻訳処理が終了するとステップS208へ進み、出力部4に対して訳文を表示する命令を送る。
【0036】
入力部1より文字キーの入力があった場合には(ステップS203)、ステップS209へ進み、原文の文字列として出力部4へ表示命令を送る。入力部1より編集キーの入力があった場合には(ステップS204)、ステップS210へ進み、編集処理を行なう。
【0037】
入力部1より訳語選択の命令が入力された場合には(ステップS205)、ステップS206へ進み、訳語選択部2に対して訳語選択を起動する命令を送り、訳語選択機能が起動される。入力部1より入力されたのがその他のキー・命令の場合は、ステップS211に進み、その入力に応じた処理を行う。
【0038】
<訳語選択部2での処理>
続いて、訳語選択部2における処理の流れを図3に示す。制御部5より、訳語選択機能起動の命令が送られてくると、訳語選択部2は、制御部5を通じて表示部4へ、訳語候補の一覧と共にユーザに選択を促す画面の表示命令を送る(ステップS301)。図4は、その画面表示の一例である。この例は、英日翻訳において見出し語“number”の訳語選択を促す画面である。
【0039】
図に示すように、この画面には“number”に対する種々の訳語(例では、“数”、“数字”、“数詞”、“番号”、“号”)と“適用ボタン”、“取消しボタン”が表示され、例えば、マウスカーソルにより、いずれかの訳語を指定し、“適用ボタン”あるいは“取消しボタン”を指定してマウスのボタンを操作するとそれを選択、あるいは指示することができる。
【0040】
訳語の左側の四角が黒く表示されているのは、現在、訳文中に生成されている訳語である。その後、ユーザにより取り消しボタンが押された場合には(ステップS302)、そのまま処理を終了する。適用ボタンを押された場合には(ステップS303)、ステップS307へ進み、学習制御部3へ選択に関係する諸データを送付する。学習されるのは、画面上で、黒四角でマークされている訳語である。これを受けた学習制御部3は、学習辞書部7bの更新を行う(ステップS308)。
【0041】
この更新処理の詳細については、後に別の図を用いて説明する。
【0042】
ユーザにより訳語のクリックが行われた場合には(ステップS304)、ステップS305へ進み、クリックされた訳語横の四角を黒色表示し、代わりにそれまで黒色表示していた項目は白色表示するよう、制御部5を通じて表示部4へ信号を送る。ユーザが選択したい訳語をクリックし黒色表示に変えることで、学習したい訳語を示したことになる。
【0043】
通常の処理の流れとしては、訳語候補をディスプレイに表示させた後(ステップS301)、ユーザがこの表示されている訳語候補中の望む訳語を例えば、マウスカーソルで指し示してマウスの操作ボタンをクリックすると(ステップS304)、これによりディスプレイ上では当該訳語がマーキング表示されるように表示制御される(ステップS305)。
【0044】
その後、ユーザによって適用ボタンが押されて(ステップS303)学習内容が決定される。ユーザにより上記以外のコマンド・キーが入力された場合は(ステップS306)、ステップS307へ進み、警告音を発するよう、制御部5を通じて出力部4へ信号を送る。
【0045】
<学習辞書部7bでの学習内容の構成>
学習辞書部7bに記憶される学習内容の構成を図5を用いて説明する。学習内容は、ある一つの見出し語毎に、学習なしでの訳語、学習デフォルト訳語、共起学習情報とを有している。
【0046】
共起とは、ある表現・文において一緒に用いられることになる複数の単語の関係をいい、このような関係の単語と文との関係の情報を学習した情報が共起学習情報である。
【0047】
「学習なしでの訳語」とは、ある見出し語に対して訳語選択が全く行われていない状態で訳語として出力されていた訳語のことで、その見出し語に対して代表として初期設定した訳語のことをいう。全く学習されていない状態での語は、それが参照された場合には初期設定されたその代表の訳語が翻訳の際の訳語として採用される。
【0048】
共起学習情報欄は、訳語毎に区別するための項目番号が順に“[1]”、“[2]”、…“[n]”の如く付されて訳語毎に別れて記述され、登録されている。
【0049】
項目番号“[1]”、“[2]”、…“[n]”の中はさらに、例えば、“[1]”は枝番号を“[1,1]”、“[1,2]”、…“[1,m]”、“[2]”は“[2,1]”、“[2,2]”、…“[2,m]”の如く付して、細分化させている。そして、例えば、枝番号“[1,1]”、…“[2,1]”、“[3,1]”、…[n,1]には、当該訳語が選択された原文、あるいは当該訳語が生成されている状態でユーザが「それでよし」として別段、訳語選択操作をしなかった原文における共起条件とその頻度が記述される。
【0050】
これら共起学習情報が更新されるタイミング、更新データの対象とする文については、後に別の図を用いて説明する。
【0051】
本システムでは、見出し語の品詞毎に、条件として記憶すべきパターンを別に定義してある。そして、原文がそのパターンに適合するものでない場合は、“X”が“[m]”の最大値とすると、“[1,X]”、“[2,X]”などの“[?,X]”(但し、?は1,2,3,4,…)の欄にその他項目としてまとめられて頻度のみが記憶される。その頻度の記憶場所は訳語毎に対応して設定した計数変数に対してである。
【0052】
また、訳語毎に計数変数として「頻度計」を持ち、ここには枝番号“[?,1]”から“[?,X]”までの頻度の合計値を記憶する。英日翻訳システムとして例示した本具体例において、見出し語の品詞毎に定義している共起条件として記憶するパターンの一覧を以下に示す。記述方法欄内の“????”に、該当する単語を記述する。複数ある場合は、コンマで区切って列挙するものとする。
【0053】
(1)名詞
(a) 名詞に前置修飾する名詞・形容詞があるとき
記述方法:(前置修飾“WORD”)
WORD:前置修飾する名詞あるいは形容詞
(b) (a)以外で、後置修飾前置詞句があるとき
記述方法:(後置修飾“PRE_NOUN”)
PRE:前置詞
NOUN:前置詞が従える名詞句のヘッド名詞
(2)形容詞
(a) 限定用法(名詞を連体修飾しているとき)
記述方法:(限定“NOUN”)
NOUN:修飾先の名詞
(b) 叙述用法で主語があるとき
記述方法:(叙述“NOUN”)
NOUN:主語の名詞句のヘッド名詞
(3) 動詞
(a) 目的語(受動態の時は主語)があるとき
記述方法:(目的語“NOUN”)
NOUN:目的語の名詞句のヘッド名詞
(4) 副詞
(a)動詞あるいは形容詞を修飾しているとき
記述方法:(修飾先“WORD”)
WORD:修飾先の動詞あるいは形容詞
本具体例において、見出し語の品詞毎に定義している共起条件として記憶するパターンは、例えば、このようなものである。
【0054】
<翻訳部6における翻訳処理>
次に、翻訳部6における翻訳処理の詳細を説明する。
【0055】
図6は、翻訳部6における翻訳処理の流れを示すフローチャートである。図6に従って翻訳部6での翻訳処理を説明すると、まず、入力文が翻訳部6に送られてくることにより、当該翻訳部6ではこの入力文に対して辞書部7中の語彙部7aの情報と形態素解析規則7cの規則情報を用いて、形態素解析・辞書引き処理を行い、その品詞と訳語など、翻訳処理に必要な各種情報を求める(ステップS601)。
【0056】
次に、翻訳部6は辞書部7中の構文・意味解析規則7dの情報を用いて構文・意味解析処理を行い(ステップS602)、続いて、ステップS603において、変換規則7eを用いて解析結果から第2言語の構造への変換を行う。この時点では、辞書部7中の学習辞書部7bにある学習辞書は参照せず、システムの持つ知識のみから、各見出し語に対する訳語を決定している。
【0057】
その後、ステップS604に進み、翻訳部6は辞書部7中の学習辞書部7bを参照し、当該原文の見出し語に付与された訳語のうち、学習辞書部7bの内容を反映すべき訳語をチェックし、必要なものに対して訳語の置き換え処理を行う。この際の、学習辞書部7bの学習辞書との照合処理や、置き換える訳語を決定する処理については、図7により後述する。
【0058】
ステップS604での処理を終えた段階で、訳文側の構造が完成する。その後、ステップS605に進み、翻訳部6は辞書部7中の構文生成規則7fの情報を用いて訳文側の一次元的構造の生成を行い、続いてステップS606で形態素の生成を行い、一通りの翻訳処理を終了する。
【0059】
<学習内容を反映させるための照合処理>
図7は、翻訳部6での照合処理の流れを示すフローチャートであり、翻訳部6の持つ学習内容選択手段6aの機能により、学習辞書部7bの内容を参照しながら学習内容を反映させるようにする際での学習辞書部7bとの照合処理の流れを示す図である。当該照合処理は基本的には、一原文内の各語について文頭から順番に、学習辞書部7bとの照合を行っていく。但し、図7に示した流れは、一つの見出し語に対する処理の流れである。
【0060】
学習内容を反映するには、以下の条件が前提となる。従って、この条件が成立するかを最初に判定する(ステップS701、S702)。この前提が成り立たない場合は、学習内容を反映する対象ではないので、照合処理を終了する。
【0061】
学習内容を反映するための条件は、(1)見出し語が一致すること(2)学習辞書を使わない状態で生成されている訳語が“学習なしでの訳語”と一致することである。
【0062】
そして、この前提条件が成り立っている場合は、共起学習情報の中から、当該原文の状況に適合するものを選ぶことになる。
【0063】
“[1,1]” -->“[1,2]” --> ……“[1,n]” -->“[2,1]” -->“[2,2]” -->“[2,n]” --> ……“[m,n]”という順番に個々の共起情報と照合を進めていく。この個々の共起情報の照合順序を制御しているのが、図中の“i”と“j”の数値制御である。“i”を順番に繰り上げていき(インクリメント)、“[i]”という情報がなくなれば(ステップS704)、ステップS706へ進み、“学習デフォルト訳語”に置換することに決定する。
【0064】
ある枝番号“[i,j]”の条件が当該原文の状況に適合すれば(ステップS709)、ステップS710に進み、項目番号“[i]”の登録訳語を置換訳語と決定する。ステップS706、S710のいずれかを経て、置換する訳語が決定したら、照合処理を終える。
【0065】
以上が、学習内容を反映させるようにする際での学習辞書部7bとの照合処理の詳細である。
【0066】
<学習辞書部7bの更新処理>
次に、ユーザがシステムと対話的に、原文書の頭から適宜訳語選択・後編集を行いながら翻訳処理を行う際の、学習制御部3による学習辞書部7bの更新処理について説明する。
【0067】
図8は、訳語選択が行われた時点での、訳語選択対象語の選択結果をもとにした学習辞書部7bの更新の処理の流れを示している。
【0068】
図8に沿って当該更新処理を説明する。訳語選択部2から、訳語選択結果として送られてくるのは、見出し語、学習がない状態での訳語、学習させたい訳語、および、当該原文における共起情報の4種類である。これらが学習制御部3へ送られてくると、最初にステップS801で、当該訳語および学習なしでの訳語との組み合わせで、既に学習辞書部7bに記憶されているかをチェックする。
【0069】
その結果、登録されていない組み合わせなら、ステップS803へ進み、この組み合わせで学習項目を新規に登録し、学習させたい訳語を学習デフォルト訳語として登録する。
【0070】
続いて、ステップS805へ進み、当該原文の共起情報を元に、“[1]”を登録する。当該原文の共起情報が、別に定義した品詞・共起条件と一致する場合には“[1,1]”を登録し、それ以外の場合には“[1,X]”を登録する。但し、“X”は“[1,m]”の“m”の最大値を示す。以下の説明における「X」の扱いも同様である。いずれにしても、ある見出し語の項目番号“[1]”の「頻度計」の値は最初は“1”である。
【0071】
当該訳語と学習なしでの訳語の組み合わせが既に登録されている場合は、ステップS802へ進む。ここで、特定品詞(別に定義した品詞群のいずれか)、すなわち名詞、動詞、形容詞、副詞のいずれかと一致するかどうかを判定する。
【0072】
その判定の結果、特定品詞以外である場合は、ステップS804へ進む。ここで、共起学習情報内に登録されている学習情報のうち、学習させたい訳語と一致する“[i]”を見つけ、“[i,X]”の「頻度」を加算し、“[i]”の「頻度計」を加算する。
【0073】
一方、学習させたい訳語と一致する“[i]”がない場合は、新規の“[i]”を追加し、“[i,X]”の「頻度」と“[i]”の「頻度計」の値を加算する。ステップS802で、特定品詞と一致すると判定された場合は、ステップS806へ進む。ここでは、学習させたい訳語に関する共起学習情報がすでに登録されているかどうかをチェックする。
【0074】
まだ登録がない場合は、ステップS807へ進み、当該原文の共起情報が別に定義した共起条件に該当するものならば、ステップS809において、新規に項目番号“[i]”と枝番号“[i,1]”を登録し、「頻度計」の置数内容を“1”と設定する。当該原文の共起条件が特定条件以外なら、ステップS811において、新しい項目番号“[i]”と枝番号“[i,X]”を登録し、その「頻度計」の置数内容を“1”と設定する。
【0075】
ステップS806で学習させたい訳語に関する共起学習情報の登録があると判定された場合は、ステップS808へ進む。このステップS808では、当該原文の共起情報が別に定義した共起条件に該当するかどうかをチェックする。その結果、特定条件以外なら、ステップS813へ進み、同じ訳語に関する“[i]”の“[i,X]”を更新し、“[i]”の「頻度計」を加算する。
【0076】
ステップS808でのチェックの結果、当該原文の共起情報が別に定義した共起条件に該当すると判定された場合は、ステップS810へ進む。ここで、当該項目番号“[i]”の項に記述されている任意の枝番号“[i,j]”の共起情報が、当該原文の共起情報と一致するかどうかを判定する。
【0077】
その結果、一致すると判定された場合はステップS812へ進み、一致した枝番号“[i,j]”の共起情報内容を更新する。
【0078】
具体的には、見出し語が名詞であれば、“前置修飾”、“後置修飾”などの単語記載欄に当該原文の共起情報として送られてきた単語を追加し(すでに含まれていれば追加しない)、「頻度」の値を加算する(インクリメントする)。
【0079】
一方、当該項目番号“[i]”に記述されている任意の枝番号“[i,j]”の共起条件と一致しない場合は、ステップS815へ進み、新しい枝番号“[i,j]”を登録し、項目番号“[i]”の「頻度計」を加算する(インクリメントする)。
【0080】
いずれかの“[i]”の「頻度計」が加算された場合、すなわち、ステップS813、S804、S815を経た場合は、各“[i]”の「頻度計」を比較し、その値が最大である「頻度計」を持つ項目番号“[i]”を見付ける。
【0081】
そして、その見付けた項目番号“[i]”の登録訳語が「学習デフォルト訳語」と異なる場合はその見出し語における「学習デフォルト訳語」を、「頻度計」の値最大の項目番号“[i]”の登録訳語の訳語と置き換えて、新しい「学習デフォルト訳語」とし、学習辞書部7bの更新処理を終了する。
【0082】
「頻度計」の値最大の項目番号“[i]”の登録訳語が複数ある時は、時間的に新しい選択結果、すなわち、今回選択された訳語の方を「学習デフォルト訳語」として更新登録する。訳語選択対象文に対して学習辞書部7bを更新したあと、学習制御部3はさらに、前回同じ見出し語、学習なしでの訳語に対して訳語選択をした文以降から現在の文の間において、今回の学習と同じ見出し語、学習なしでの訳語に関する学習結果が反映されている箇所を検出し、その各々について、図8での説明と同様の処理を行い、対応する項目番号“[i]”の「頻度計」の更新、学習デフォルト訳語の更新を行う。
【0083】
この時、これまでに同じ見出し語、学習なしでの訳語に対しては訳語選択が行われていない場合は、文書の第1文目から現在の処理文の間において上記の処理を行う。ただし、これまでに作業者が編集作業を済ませた分の中で、最も文書末に近い箇所より後方(より文書頭側)へ作業者の編集箇所の対象点が移動し、そこで訳語選択を行った場合には、当該選択結果のみに基づき学習辞書部7bを更新し、上記の後方箇所を元にした学習辞書部7bの更新処理は行わない。
【0084】
つまり、訳語選択操作をした最新時点での文書位置より前の文書位置で、訳語選択操作をしなかった部分の訳語の学習は行なわない。
【0085】
上記では、対話的に翻訳処理を行なっていく上で訳語選択に基づき学習辞書部7bが自動更新され、以降の文で出力される訳語の適切度合の期待値を高めることにより、以降の文の翻訳における後処理作業の手間が軽減されることについて説明してきた。
【0086】
このような対話的翻訳処理に対比する翻訳作業の進め方として、最初に一括的に翻訳を行ない、その後で、対話的に後編集を行なうという方法がある。この作業方法でも、訳語選択に基づく学習辞書部7bの更新処理の流れは共通である。こうすることにより、「学習デフォルト訳語」には、頻度的にみて最も期待値の高い訳語が設定されることになり、以降の翻訳での訳語決定に反映される。
【0087】
しかも、特定の共起条件のもとで訳語が学習されたものは、別個に記憶されるため、相反する訳語選択がされても、前の選択結果が、後の選択結果に打ち消されることはない。
【0088】
例えば、入力原文のある行に、“the number of computer terminals”という文字列があり、その後方の行に“identification number”という文字列があったとする。そして、学習辞書部7bにおける見出し語“number”に関しての学習辞書内容として、例えば、“identification number”という原文文字列に対して、見出し語“number”における図5の項目番号“[1]”の登録内容の如き共起情報と共に、訳語として“番号”という語が学習されて保持されており、その後出現した、“the number of computer terminals”という文字列に対して図5の項目番号“[2]”の登録内容の如き共起情報と共に訳語として“数”という語が学習されて保持されたとした場合、「頻度計」の値の大きい方の訳語である“番号”という語が「学習デフォルト訳語」に設定されていても、再度原文中に生起する“the number of terminals”における“the number”に対しては、その訳語として“数”という言葉が出力されることが保証される。
【0089】
本具体例では、共起学習情報として、選択時の原文の単語の用いられ方を記憶することにより、デフォルト学習訳語が変化しても過去の選択結果の効果は保証するようにしている。
【0090】
この際に、本具体例では、処理を簡単にするために、予め単語の用いられ方(他の単語との共起状況)として記憶すべきパターンを限定している。
【0091】
このように限定することも、また限定したパターンの種類も、単に本発明のー実施形態にすぎないので、処理速度、学習辞書としての記憶容量に応じて、様々な形態で実施可能である。
【0092】
また、本具体例では、一つの原文書全体を一つの範囲として、頻度を計上したが、“原文書の章の別れ”、“節の別れ”などで区切りを設け、頻度計上を調整することも可能である。こうすることにより、例えば、“章によって内容が異なり望ましい訳語も異なる”、というような場合には効果がある。
【0093】
以上、本システムは、入力された自然言語による第1言語の原文を第2言語へ変換するための知識情報を有する辞書部の知識情報を用い、翻訳部により、前記原文の単語列を前記第2言語の単語列に変換する翻訳処理を行うようにした翻訳装置において、前記辞書部にはその知識情報として、第1言語の見出し語別に設けられる初期設定の訳語(学習なし状態での最優先採用となる訳語)および利用実績が最高となる訳語である学習デフォルト訳語および訳語別に登録される共起情報および頻度情報とを含む更新可能な学習辞書をさらに保持させて構成し、また、前記翻訳部の翻訳結果を出力するための出力部と、学習辞書内容に基づき前記出力部に出力される訳語候補中の所望訳語に対し、選択指示操作するとその選択指示内容に基づき前記翻訳部での翻訳に使用する訳語を選択指示する訳語選択部と、この訳語選択指示の内容に基づいて、見出し語における訳語別の共起情報および頻度情報を含む学習情報を更新し、頻度情報最多の訳語は学習デフォルト訳語として更新する学習制御部とを具備して構成したものである。
【0094】
そして、入力部より第1言語である自然言語の文および単語列を入力するとその入力データは翻訳部に送られ、翻訳部は辞書部内の知識を用いて翻訳処理を行い、その翻訳結果を出力部へ出力する。翻訳結果に対しての編集処理に入ると、訳語選択部は編集のため学習辞書から訳語候補を得て出力部に表示させ、ユーザが入力部によりこの候補中から訳語選択操作を行なうと、翻訳文に対しては、訳語置換が行なわれる。一方、訳語選択操作に基づく選択内容は訳語選択部から学習制御部へも送られ、学習制御部では、今回の訳語選択内容の他、翻訳文に生成されている訳語でよしとしてユーザが訳語を選択しなかった文についての情報を学習辞書に記録する。記録する内容は、基本的に見出し語、学習内容が空の場合に出力されるはずの訳語、選択された訳語、および、原文中で共起する語(品詞・構文により対象は定義する)の4種類である。
【0095】
同じ見出し語に対して異なる選択が行われる度に、選択内容が記録され、かつ、その時点までに翻訳処理・編集処理を終えた文書の範囲内に生起する当該見出し語に関して、訳語の種類毎の頻度も記録され、この頻度を元に当該見出し語における学習訳語群中から1つの訳語を選定し、学習デフォルト訳語として学習辞書に記録する。翻訳部における翻訳処理では、訳語を決定する際に、学習辞書を参照するが、新規に翻訳する文が、学習辞書に記録された、訳語選択条件群のいずれかにマッチするものであれば、その条件時に選択された訳語をその文の訳語として決定し、見出し語は一致するが共起語が一致しない場合は、学習デフォルト訳語を訳語として決定する。
【0096】
このような処理を施すようにした結果、一つの見出し語に対して相反する訳語が選択されても、一方が無効になることなく、共起語を条件にすることにより、すべてを学習知識として以降の翻訳に生かすことができる。さらにまた、単語の使われ方が学習辞書中の共起情報に一致しない新たな文の中の訳語については、過去の生かされた訳語の頻度情報を元に、後の翻訳において最も期待値の高い訳語を推定し、これをデフォルト訳語として記憶するようにすることにより、ユーザ所望の翻訳結果が得られる確率が高くなり、ユーザの後編集作業を軽減することができるようになる。
【0097】
【発明の効果】
上述したように、本発明は、原文を所望言語の文章に翻訳するにあたり、共起学習情報として、選択時の原文の単語の用いられ方を記憶することにより、デフォルト学習訳語が変化しても過去の選択結果の効果は保証されるようにしたので、ユーザが訳語選択を重ねることにより、相反する内容の選択がされても、時間的に前の選択結果が無効になることもなく、過去の選択結果は、後の翻訳においても保証される。かつ、特に原文の単語の使われ方が過去の学習結果に一致しないときには、頻度的にもっとも期待値の高い訳語を学習結果として反映するため、ユーザの後編集作業を軽減することができる。また、従来は、ユーザがとくに考慮せずに行った「訳語選択」による学習結果が、別の文で悪い影響をするということがあったが、本発明によれば、その影響をいちいち考慮して使わなければいけないという煩わしさからも開放される。従って、本発明によれば、相反する学習内容も生かし、後の翻訳において最も期待値の高い訳語を反映でき、結果としてユーザの訳語選択・後編集の手間を軽減することができるようにした機械翻訳装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の一具体例にかかわる機械翻訳システムの全体構成を示すブロック図。
【図2】図1の構成の機械翻訳システムの制御部での対話翻訳時の処理の流れを示すフローチャート。
【図3】図1の構成の機械翻訳システムの訳語選択部における処理の流れを示すフローチャート。
【図4】図1の構成の機械翻訳システムにおいてユーザの訳語選択処理をガイドする画面の一例を示す図。
【図5】図1の構成の機械翻訳システムの学習辞書部の保持情報内容の一例を示す図。
【図6】図1の構成の機械翻訳システムの翻訳部における翻訳処理の流れを示すフローチャート。
【図7】図1の構成の機械翻訳システムの翻訳部における学習辞書部との照合処理の流れを示すフローチャート。
【図8】図1の構成の機械翻訳システムの翻訳部における学習辞書部の更新の処理の流れを示すフローチャート。
【符号の説明】
1…入力部
2…訳語選択部
3…学習制御部
4…出力部
5…制御部
6…翻訳部
6a…学習内容選択手段
7…辞書部
7a…語粟部
7b…学習辞書部
7c…形態素解析規則
7d…構文・意味解析規則
7e…変換規則
7f…構文生成規則
7g…形態素生成規則。

Claims (2)

  1. 文字を入力するための入力手段と、
    学習情報を保持する学習辞書を含み、前記入力手段により入力された第1言語による自然言語文を第2の言語に変換するための知識情報を保持し、前記知識情報における見出し語の各々に対し、見出し語の品詞毎に定義している共起条件のパターンを前記辞書手段に保持する辞書手段と、
    前記入力手段により入力された第1言語による自然言語文の単語列を、前記辞書手段の知識情報を用いて翻訳処理時に品詞を決定すると共に前記第2の言語の単語列に変換処理し、前記辞書手段の持つ知識情報における見出し語は一致するが共起語が一致しない場合に、利用実績が最高となる訳語である学習デフォルト語を訳語として決定して翻訳処理をする翻訳手段と、
    前記翻訳手段における翻訳結果を出力する出力手段と、
    訳語の選択をするための訳語選択手段と、
    この訳語選択手段による訳語選択の内容に基づいて前記辞書手段に対し、見出し語における訳語別の共起情報および頻度情報を含む学習情報を更新すべく制御し、前記訳語選択手段により選択された訳語を前記辞書手段の知識情報における見出し語の中から探し、当該訳語が前記翻訳手段により決定された前記訳語の品詞が前記共起条件のパターンとして前記辞書手段に保持されている品詞のとき、ユーザが共起条件を指定することなしに前記共起条件のパターンに示される特定の共起条件のもとで登録することで自動的に訳語を学習させ、この学習されたものは、前記見出し語の共起条件毎に別個に記憶されるように制御し、また、頻度情報最多の訳語は学習デフォルト訳語として更新すべく制御する学習制御手段とを具備することを特徴とする翻訳装置。
  2. 文字を入力するための入力手段と、
    学習情報を保持する学習辞書を含み、前記入力された第1言語による自然言語文を第2の言語に変換するための知識情報を保持し、前記知識情報における見出し語の各々に対し、見出し語の品詞毎に定義している共起条件のパターンを前記辞書手段に保持する辞書手段と、
    この辞書手段の知識情報を用いて翻訳処理時に品詞を決定すると共に第1言語の単語列を前記第2の言語の単語列に変換すると共に、この変換には前記学習辞書の知識情報を用いて、第1言語の文の単語列の変換しようとする語に対する最も期待値の高い学習内容を反映させて変換することにより翻訳処理し、前記辞書手段の持つ知識情報における見出し語は一致するが共起語が一致しない場合に、利用実績が最高となる訳語である学習デフォルト語を訳語として決定して翻訳処理をするようにした翻訳手段と、
    前記翻訳手段における翻訳結果を出力する出力手段と、
    訳語の選択をするための訳語選択手段と、
    この訳語選択手段による訳語選択の内容に基づいて前記辞書手段に対し、見出し語における訳語別の共起情報および頻度情報を含む学習情報を更新すべく制御し、前記訳語選択手段により選択された訳語を前記辞書手段の知識情報における見出し語の中から探し、当該訳語が前記翻訳手段により決定された前記訳語の品詞が前記共起条件のパターンとして前記辞書手段に保持されている品詞のとき、ユーザが共起条件を指定することなしに前記共起条件のパターンに示される特定の共起条件のもとで登録することで自動的に訳語を学習させ、この学習されたものは、前記見出し語の共起条件毎に別個に記憶されるように制御し、また、頻度情報最多の訳語は学習デフォルト訳語として更新すべく制御する学習制御手段とを具備することを特徴とする翻訳装置。
JP02909296A 1996-02-16 1996-02-16 翻訳装置 Expired - Lifetime JP3657338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02909296A JP3657338B2 (ja) 1996-02-16 1996-02-16 翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02909296A JP3657338B2 (ja) 1996-02-16 1996-02-16 翻訳装置

Publications (2)

Publication Number Publication Date
JPH09223146A JPH09223146A (ja) 1997-08-26
JP3657338B2 true JP3657338B2 (ja) 2005-06-08

Family

ID=12266719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02909296A Expired - Lifetime JP3657338B2 (ja) 1996-02-16 1996-02-16 翻訳装置

Country Status (1)

Country Link
JP (1) JP3657338B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008226115A (ja) * 2007-03-15 2008-09-25 Toshiba Corp 機械翻訳装置
JP2013065222A (ja) * 2011-09-19 2013-04-11 Nec Corp 選択候補学習装置、訳語学習装置、選択候補学習方法、及びコンピュータ・プログラム
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
WO2021015117A1 (ja) * 2019-07-25 2021-01-28 京セラドキュメントソリューションズ株式会社 データ処理システム、およびデータ処理方法

Also Published As

Publication number Publication date
JPH09223146A (ja) 1997-08-26

Similar Documents

Publication Publication Date Title
EP0692765B1 (en) Text preparing system using knowledge base and method therefor
US5675815A (en) Language conversion system and text creating system using such
US5721938A (en) Method and device for parsing and analyzing natural language sentences and text
US5826220A (en) Translation word learning scheme for machine translation
US5140522A (en) Method and apparatus for machine translation utilizing previously translated documents
EP0247395B2 (en) Machine translation system
JP2000200291A (ja) 選択された文字列をテキスト内で自動検出する方法
US4805132A (en) Machine translation system
JPS62203273A (ja) 機械翻訳システム
JP3657338B2 (ja) 翻訳装置
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JPH06348751A (ja) 言語変換装置
JP4043176B2 (ja) 自然言語処理装置
JP2002183134A (ja) 翻訳装置
JPH1021242A (ja) 機械翻訳装置及び機械翻訳後編集方法
JP2000222407A (ja) 機械翻訳装置および機械翻訳方法
JPH05314172A (ja) 機械翻訳装置
JP3999773B2 (ja) 機械翻訳プログラム、機械翻訳システム、機械翻訳方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH11259474A (ja) 機械翻訳装置及び機械翻訳方法
JPH1063665A (ja) テキスト翻訳方法および装置
JPH07253984A (ja) 機械翻訳システム
JPH0887504A (ja) 前編集支援方法および装置
JPS6320570A (ja) 機械翻訳システム
JPH0728820A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050309

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080318

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090318

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130318

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140318

Year of fee payment: 9

EXPY Cancellation because of completion of term