JP2004220266A - Machine translation device and machine translation method - Google Patents

Machine translation device and machine translation method Download PDF

Info

Publication number
JP2004220266A
JP2004220266A JP2003006061A JP2003006061A JP2004220266A JP 2004220266 A JP2004220266 A JP 2004220266A JP 2003006061 A JP2003006061 A JP 2003006061A JP 2003006061 A JP2003006061 A JP 2003006061A JP 2004220266 A JP2004220266 A JP 2004220266A
Authority
JP
Japan
Prior art keywords
sentence
word
translated
translation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003006061A
Other languages
Japanese (ja)
Inventor
Katsuo Koga
賀 勝 夫 古
Tatsuya Kawasaki
崎 立 八 川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CROSS LANGUAGE Inc
Original Assignee
CROSS LANGUAGE Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CROSS LANGUAGE Inc filed Critical CROSS LANGUAGE Inc
Priority to JP2003006061A priority Critical patent/JP2004220266A/en
Publication of JP2004220266A publication Critical patent/JP2004220266A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a machine translation system and a machine translation method which enable the past translation results to be utilized to a high degree, and a labor and time for reviewing a translation sentence by machine translation to be remarkably reduced. <P>SOLUTION: This machine translation device is provided with an example database 2 in which the same text in different language is stored and managed so as to correspond to each other, a dictionary 3 in which the same word or word ream in different language are stored and managed so as to correspond to each other, a syntax processing means 4 for determining the kind of the structure of the text and a translation engine 5 for comparing the text of an original with a text in an example database 2, and for, when the completely matched text of the example database 2 exists, settling the translation sentence, and for, when the text structure of the text of the original and the text in the example database 2 are similar to each other, adopting the corresponding translation as a temporary translation, and for retrieving and replacing any word or word ream mismatched with the original from the dictionary 3 to generate the translation. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、機械翻訳システム及び機械翻訳方法に係り、特に、過去の翻訳実績を例文データベースに蓄積し、原文と前記例文データベースとの類似度によって翻訳の正確さ(確度)を段階的に決定することができる機械翻訳システムおよび機械翻訳方法に関する。
【0002】
【従来の技術】
翻訳は、その翻訳の対象によって独特な文章や単語を使用する。たとえば、特許明細書の翻訳などは原文は特定のスタイルをもち、独特な単語を使用する。また、特定の分野であっても、著作者によっては独特な言い回し等をする。たとえば、特許明細書を例に挙げれば、特定の企業は特定の術語を使用し、特定の表現を繰り返すことが多い。
【0003】
従来の機械翻訳は、特定分野ごとに特定の単語や単語連(単語と単語、あるいは単語と助詞の組合せなどのような単語の連なりをいう)の辞書を用意し、その分野の翻訳の確度を上げるようにしている。さらに、特定のユーザー(著作者)の文章を翻訳する場合、そのユーザーが使用する独特な単語および単語連のための辞書を用意し、他の辞書と組み合わせて使用することにより、更に翻訳の確度を上げるようにしている。
【0004】
【特許文献1】
特開2002−202967号公報(第12図)
【0005】
【発明が解決しようとする課題】
しかし、従来の機械翻訳では、特定の著作者の著作物の翻訳実績を完全には活用することができなかった。
【0006】
たとえば、ある著作者がしばしばある独特な表現あるいは一般の意味と異なる意味で使用する単語を用いる場合、従来の機械翻訳ではその表現や単語を繰り返し不自然な翻訳にすることが多かった。
【0007】
従来の機械翻訳では、上記独特な表現や単語に対してその表現に使用される単語あるいは単語連をユーザー辞書に登録し、そのユーザー辞書と他の辞書(一般辞書)とを組み合わせて使用し、それらの辞書の訳語を使用することによってより自然な翻訳をするようにしていた。
【0008】
しかし、単語や単語連をユーザー辞書に登録することによって翻訳の質を改善することには限界があった。たとえば、ユーザー辞書と一般辞書は使用の優先順序が必ずしも適切に選択されないため、不自然な翻訳をすることがしばしばあった。また、特殊な表現や単語は必ずしも同じ文章として表れるのではなく、多少変化されて使用されることがある。このような場合には、ユーザー辞書に登録された単語連は完全に合致しないために、特殊な表現の単語連が置き換えられずに不自然な翻訳をすることがあった。
【0009】
従来は、上述したように機械翻訳が不完全であったため、機械翻訳を行った後に人間が翻訳文を見直し、かかる不自然な翻訳を修正していた。
【0010】
そこで、本発明が解決しようとする一つの課題は、ある著作者の著作物の翻訳実績をより高度に活用し、もってその著作者が使用する独特な表現や一般の意味と異なる意味で使用する単語を正しく翻訳することができる機械翻訳システムおよび機械翻訳方法を提供することにある。
【0011】
また、機械翻訳を行った後に人間が翻訳文を見直す場合に、従来は翻訳文の各文章がそれぞれどの程度の翻訳確度(正しさ)で翻訳されたものかが分からないために、見直しをする者は翻訳文の全部を見直さなければならなかった。かかる作業は正確に翻訳された確率が高い文章までも見直すことになり、無駄な労力と時間がかかっていた。
【0012】
そこで、本発明が解決しようとするもう一つの課題は、機械翻訳で正しく翻訳されたであろう文章と、そうでない文章とを区別し、翻訳の見直しをする者が翻訳確度が低い文章に集中して見直しあるいは人間翻訳を行うことができるようにした機械翻訳システムおよび機械翻訳方法を提供することにある。
【0013】
【課題を解決するための手段】
本発明に係る機械翻訳システムは、
第1言語と第2言語による同一の文章を対応させて記憶管理する例文データベースと、第1言語と第2言語による同一の単語あるいは単語連を対応させて記憶管理する辞書と、文章の構成の類否を判断する構文処理手段と、第1言語による原文の文章と前記例文データベース中の第1言語による文章とを比較し、前記例文データベース中に原文と完全に合致する第1言語による文章が存在する場合にはそれに対応する第2言語による文章を翻訳文として確定し、前記例文データベース中に前記構文処理手段によって原文に文章構成が類似すると判断された第1言語による文章が存在する場合には、対応する第2言語による文章を仮翻訳文として採用するとともに、原文と合致しない単語あるいは単語連を前記辞書から検索して置換して翻訳文を生成する翻訳エンジンと、を有することを特徴とするものである。
【0014】
本発明によれば、所定の著作者の著作物の翻訳実績を例文データベースに蓄積することにより、例文データベース中に完全に合致する文章が存在する場合はほぼ完全に正しい翻訳文を確定できる。また、原文と例文データベースとを比較し、前記構文処理手段によって前記例文データベース中に原文と文章構成が類似する文章が存在する場合には、その翻訳文を採用した上で原文と合致しない単語あるいは単語連を前記辞書から検索して置換することによって、著作者の独特な表現の変形にも柔軟に対応してほぼ正しく翻訳できる。
【0015】
前記構文処理手段は、文章の構文解析を行って構文ツリーのパターンマッチングによって文章の構成の類否を判断することができる。
【0016】
翻訳を実行する前に、第1言語による原文から単語あるいは単語連を抽出し、使用回数が多い所定の単語あるいは単語連について前記辞書から検索した前記単語あるいは単語連の訳語を採用する訳語前処理手段を有することができる。
【0017】
本発明によれば、使用頻度が高い単語あるいは単語連の訳語を予め決定し統一することができる。
【0018】
前記翻訳エンジンから翻訳文および翻訳文の前記原文の文章と前記例文データベース中の第1言語による文章の合致の度合いの情報を入力し、前記合致の度合いに応じて翻訳文の各文章の表示方法を変更し原文と翻訳文の各文章を対比することができる画面データを生成する画面データ生成手段を有することが好ましい。
【0019】
本発明によれば、翻訳文中の各文章の翻訳確度が確認でき、翻訳を見直す者は翻訳確度が低い文章に集中することができる。
【0020】
前記画面データ生成手段は、所定の合致の度合いに達しない原文の文章については翻訳文中にその対応する位置に前記原文のままの文章あるいは機械翻訳した翻訳文を表示することが好ましい。
【0021】
本発明による機械翻訳システムは、翻訳家によって修正された単語あるいは単語連あるいは修正または作成された翻訳文をそれぞれ前記辞書および例文データベースに登録する登録手段を有することができる。
【0022】
本発明によれば、翻訳家によって修正された単語あるいは単語連、および翻訳家によって作成された翻訳文が、辞書および例文テータベースに登録され、著作者の翻訳実績をさらに充実させることができる。
【0023】
前記例文データベースと、前記辞書と、前記翻訳エンジンとを有し、必要に応じて前記訳語前処理手段あるいは前記画面データ生成手段を備えたサーバーを有し、前記サーバーはクライアントから原文のデータを受信し、その翻訳文のデータを前記クライアントに返信するようにすることができる。
【0024】
本発明による機械翻訳方法は、第1言語による原文の文章と、第1言語と第2言語による同一の文章を対応させて記憶管理する例文データベース中の第1言語による文章とを比較し、前記例文データベース中に原文と完全に合致する第1言語による文章が存在する場合には対応する第2言語による文章を翻訳文として確定し、残る原文の文章と前記例文データベースの第1言語による文章の構成を解析して原文の文章構成に類似する例文データベースの第1言語による文章に対応する第2言語による文章を仮翻訳文として採用するとともに、原文と合致しない単語あるいは単語連を所定の訳語に置換して翻訳文を生成することを特徴とするものである。
【0025】
前記文章構成の類否判断は構文ツリーのパターンマッチングによって判断することが好ましい。
【0026】
翻訳を実行する前に、第1言語による原文から単語あるいは単語連を抽出し、使用回数が多い所定の単語あるいは単語連について前記辞書から検索した対応する単語あるいは単語連の訳語を採用することができる。
【0027】
本発明によれば、使用頻度が高い単語あるいは単語連の訳語を予め決定し統一することができる。
【0028】
原文の文章と前記例文データベース中の第1言語による文章の合致の度合いの情報を入力し、前記合致の度合いに応じて翻訳文の各文章の表示方法を変更し、原文と翻訳文の各文章を対比することができる画面データを生成することができる。
【0029】
本発明によれば、翻訳文中の各文章の翻訳確度が確認でき、翻訳を見直す者は翻訳確度が低い文章に集中することができる。
【0030】
所定の合致の度合いに達しない原文の文章については翻訳文中にその対応する位置に前記原文のままの文章あるいは機械翻訳した翻訳文を表示することができる。
【0031】
本発明による機械翻訳方法は、翻訳家によって修正された単語あるいは単語連あるいは修正または作成された翻訳文をそれぞれ前記辞書および例文データベースに登録することができる。
【0032】
本発明によれば、翻訳家によって修正された単語あるいは単語連、および翻訳家によって作成された翻訳文が、辞書および例文テータベースに登録され、著作者の翻訳実績をさらに充実させることができる。
【0033】
【発明の実施の形態】
以下、本発明に係る機械翻訳システムおよび機械翻訳方法について、図面を参照しながら詳細に説明する。
【0034】
図1は本発明に係る機械翻訳システムの一実施形態のブロック図である。
図1に示すように、本実施形態による機械翻訳システム1は、例文データベース2と、辞書3と、構文処理手段4と、翻訳エンジン5と、訳語前処理手段6と、画面データ生成手段7と、登録手段8とからなる。
【0035】
例文データベース2は、第1言語と第2言語による同一の文章を対応させて記憶管理するデータベースである。ここで、本明細書において「第1言語と第2言語」というのは、特定の言語に限られない意である。また、第1言語と第2言語と第3言語によるそれぞれ同一の文章を対応させて記憶する場合のように、複数の言語による対応する文章を記憶管理するものでもよい意である。
【0036】
例文データベース2は、特定の著作者の著作物に関する翻訳実績を蓄積したものであることが好ましい。すなわち、ある著作者の著作物に関して過去に行った翻訳のうち、満足のいく翻訳の原文とその翻訳文を対応させて記憶したデータベースであることが好ましい。なおまた、本明細書では便宜的に「所定の著作者の著作物」と言っているが、たとえば特定の企業の文書のように、実際の著作者は異なるが一定の表現方法をもつ一連の著作物をいう場合も含むものとする。
【0037】
辞書3は、異なる言語の同一の単語あるいは単語連を対応させて記憶管理するデータベースである。すなわち、例文データベース2が文章単位で対応させて記憶するものであるのに対して、辞書3は単語または単語連の訳語を対応させて記憶するものである。
【0038】
本実施形態の辞書3は、ユーザー辞書と一般辞書とを有する。一般辞書はさらに専門語辞書と基本語辞書とを有する。
【0039】
ユーザー辞書は、特定の著作者の著作物でよく使用される特殊な単語または単語連、あるいは、一般と異なる意味で使用される単語または単語連を登録したものである。専門語辞書は特定分野の用語を登録したものである。基本語辞書は汎用的な用語を登録したものである。
【0040】
次に、構文処理手段4は文章の構成の類否を判断する手段である。
本明細書において「文章の構成」とは、文章の中心を占める単語と文章の構造の両方を含む概念である。たとえば、「文章の構成が類似する」というときは、2つの文章間で文章の中心を占める動詞や名詞が同一または類似であり、かつ、主要な文章の構造(文型)が同一または類似することをいう。文章の構成の類否判断については後に詳述する。
【0041】
翻訳エンジン5は、上記例文データベース2や辞書3や構文処理手段4を使用して機械的に翻訳を行う手段である。
【0042】
訳語前処理手段6は、翻訳エンジン5が機械翻訳を実行する前に、原文から単語あるいは単語連を抽出し、使用回数が多い所定の単語あるいは単語連について辞書3から検索した訳語を採用し、出力する手段である。訳語前処理手段6によって採用された単語や単語連の訳語は翻訳エンジン5あるいは翻訳家によって使用される。これにより、使用頻度が高い単語あるいは単語連の訳語が統一され、複数の翻訳家によって機械翻訳された文章を見直すときに、同一の訳語が使用されるようにすることができる。
【0043】
画面データ生成手段7は、翻訳エンジン4から翻訳文、および、原文(第1言語)の文章と例文データベース2中の第1言語による文章の合致の度合いの情報を入力し、合致の度合いに応じて翻訳文の各文章の表示方法を変更し、原文と翻訳文の各文章を対比することができる画面データを生成する手段である。機械翻訳ができなかった原文は、翻訳文中の対応位置に原文のまま表示するのが好ましい。
【0044】
登録手段8は、機械翻訳が行われた後に翻訳家によって修正された単語または単語連、あるいは修正または作成された翻訳文をそれぞれ辞書3および例文データベース2に登録する手段である。登録手段8は、翻訳家による翻訳の履歴情報を入力し、自動的に例文データベース2または辞書3に登録することができるのが好ましい。
【0045】
次に、以上の構成要素を用いた機械翻訳システム1による機械翻訳の流れについて説明する。
図2は、機械翻訳システム1による機械翻訳方法のフローチャートを示している。図1を参照しながら図2にそって以下に本発明による機械翻訳方法を説明する。
【0046】
図2に示すように、本発明による機械翻訳方法を実行するには、まず機械翻訳システム1に第1言語による原文を入力する(ステップS100)。次に、機械翻訳の前処理として用語の訳語の確定を行う。この用語の訳語の確定は、原文から単語あるいは単語連を抽出し、使用回数が多い単語あるいは単語連の訳語を確定する(ステップS110)。この処理は訳語前処理手段6によって行う。訳語の確定に際しては、使用頻度が高い単語あるいは単語連を辞書3で検索し、対応する訳語を採用する。必要に応じて、例文データベース2も参照し、過去に同一の文章が存在する場合のその訳語を採用するようにすることができる。ここで確定された単語または単語連の訳語はその原文の翻訳に統一して使用される。
【0047】
次に、確度がきわめて高い翻訳文を確定する(ステップS120)。ステップS120では、原文と例文データベース2の第1言語による文章とを比較し、原文の文章と完全に合致する例文データベース2の第1言語による文章が存在する場合に、対応する例文データベース2の第2言語による文章を翻訳文として確定する。この処理は翻訳エンジン5によって行われる。「文章が完全に合致する」とは、文章の単語が同一であり、かつ、単語の配列も同一であることをいう。すなわち、原文の文章がそのままの形で例文データベース2の第1言語による文章として存在する場合である。
【0048】
次に、確度が比較的高い翻訳文を確定する(ステップS130)。ステップS130においては、ステップS120で翻訳文が確定した残りの原文について、原文と例文データベースの第1言語による文章の構成を解析し、文章構成どうしを比較する。その結果、原文と文章の構成が類似する例文データベース2の第1言語による文章が存在する場合には、それに対応する例文データベース2の第2言語による文章を仮翻訳文として採用する。そして、仮翻訳文で原文と一致しない単語や単語連に訳語を当てはめて翻訳文を生成する。
【0049】
ここで上記類似構成の文章の翻訳方法について説明する。
以下、”I see you.”という単純な文章を例にとって、文章構成の解析および翻訳について説明する。
【0050】
”I see you.”という文は「主語 動詞 目的語」と並んでいる文章であるが、これが文として成立するのは、主辞である”see”という単語が「主語と目的語を持つ」という性質を有し、その主語としての条件に”I”が適合し、目的語としての条件に”you”が適合する場合に限られる。”see”の「主語と目的語を持つ」という性質が”see”の解析情報である。一方、”see”という単語は、単数または複数の一人称または二人称の動詞である。”see”の単数または複数の一人称または二人称の動詞という性質が”see”の文法上の性質である。解析情報と文法上の性質から、”see”の前方には一人称または二人称の単数または複数の名詞が存在し、かつ、その後方には名詞が存在しなければならない。
【0051】
一方、”I see you.”の”I”は一人称単数の名詞という文法上の性質と、主語になって動詞を伴うことができるという解析情報を有している。したがって、”I”の後方には一人称単数の動詞が存在することができる。また、”I see you.”の”you”は一人称単数の名詞という文法上の性質と、動詞の目的語になることができるという解析情報を有している。したがって、”you”の前方には動詞が存在することができる。
【0052】
構文処理手段4によって、以上のような単語の文法上の性質と解析情報が解析され、”I”と”see”と”you”の文法上の性質と解析情報が互いに矛盾なく整合する場合に、”I see you.”という文は図3(a)に示す構文ツリーに解析される。構文ツリーの主語、動詞、目的語にはそれぞれ”I”と”see”と”you”が当てはめられている(構文ツリーの形と単語を合わせたものが”I see you.”の文章構成となる)。
【0053】
文章の構成が互いに類似するか否かは以下のように判断する。
前述したように、本明細書において「文章の構成が類似する」というときは、2つの文章間で文章の中心を占める動詞(主辞)や名詞が同一または類似であり、かつ、主要な文章の構造(文型)が同一または類似することと同義である。
【0054】
ここで、たとえば”I see you there.”という構成が類似する文章を考えると、”I see you there.”は”I see you.”という文章に”there”という副詞が追加されただけのものである。その文章の構成は図3(b)のようになる。
【0055】
図3(a)と図3(b)をパターンマッチングすると、両文章は構文ツリーの主要部(S+V+O)が同一であり、かつ、文章の主要部を占める単語(”I”と”see”と”you”)が同一である。よって、図3(a)と図3(b)の文章は類似と判じることができる。
【0056】
また、たとえば”I see an object.”という構成が類似する文章を考えると、”Isee an object.”は”I see you.”という文章の目的語が”an object”に変わっただけのものである。その文章の構成は図3(c)のようになる。
【0057】
図3(a)と図3(c)をパターンマッチングすると、構文ツリーの主要部(S+V+O)が同一であり、かつ、文章の主要部を占める単語が類似である(”you”と”an object”の相違のみである)。したがって、図3(a)と図3(c)の文章は類似と判じることができる。
【0058】
上記構文ツリーのパターンマッチングの範囲と、単語の同一の範囲を予め定めておくことにより、構文処理手段4は類似の文章を判断することができる。あるいは、上記構文ツリーのパターンマッチングの範囲と、単語の同一の範囲を段階的に定めておくことにより、構文処理手段4は文章の類似の度合いを段階的に判断することもできる。
【0059】
さて、”I see you.”に”I see you there.”が類似すると判断された場合、翻訳エンジン5は”I see you.”の仮翻訳文(例文データベース2中の対応文章)を採用し、”there”という副詞が追加されているので、辞書3から”there”の訳語を検索して仮翻訳文に追加して翻訳文を完成する。
【0060】
また、”I see you.”に”I see an object.”が類似すると判断された場合は、翻訳エンジン5は”I see you.”の仮翻訳文(例文データベース2中の対応文章)を採用し、辞書3から”an object”の訳語を検索して”you”の訳語と置き換えて翻訳文を完成する。
【0061】
以上の処理によって例文データベース2の第1言語による文章に類似する文章の翻訳が完成する。例文データベース2の第1言語による文章に類似する文章が存在しない場合、原文の文章は未翻訳のまま残すか、機械的に翻訳(機械翻訳)する。
【0062】
次に再び図2に戻って、原文と翻訳文の各文章を対比することができる画面データを出力する(ステップS140)。ステップS140では、原文と例文データベース2中の第1言語の文章構成の合致度に応じて翻訳文の各文章の表示方法を変更して原文と翻訳文の各文章を対比することができる画面データを出力する。
【0063】
「原文と例文データベース2中の第1言語の文章構成の合致度に応じて」とは、たとえば、翻訳の確度がきわめて高い翻訳文と、確度が比較的高い翻訳文と、確度が中程度の翻訳文など、上述した原文と例文データベース2中の第1言語の文章の類似の度合いを基にして決定されるということである。なお、合致度は上述したように段階的に設定することができる。
【0064】
「各文章の表示方法を変更する」とは、翻訳の確度に応じて文章の表示色や字体を変えるなど任意の公知の手段を用いて翻訳の確度を区別することができるように表示するである。また、「原文と翻訳文の各文章を対比することができる画面データ」とは、一定の翻訳確度が得られない原文の文章でも機械翻訳を行って翻訳文中の対応位置に表示する画面データの場合と、一定の翻訳確度が得られない原文の文章は翻訳文中の対応位置に原文のまま表示する画面データの場合の双方を含む意である。
【0065】
ステップS140によって生成された画面データは、翻訳家による翻訳文の見直しや修正に供される(ステップS150)。ステップ140の処理により、翻訳確度が高い翻訳文とそうでない翻訳文は、異なる表示方法によって表示され、これによって翻訳家は翻訳の確度が低い翻訳文を集中的に見直すことができる。これにより、正しく翻訳されたであろう翻訳文を見直す必要がなく、短時間に効率よく翻訳文を見直すことができるようになる。
【0066】
次に、翻訳家によって見直されあるいは修正された翻訳文は、翻訳の実績データとして例文データベース2または辞書3に蓄積される(ステップS160)。ステップS160の処理は登録手段8によって行われる。好ましくは、登録手段8は翻訳家によって修正された文章あるいは単語等の履歴を入力でき、オペレーターの確認を得た後に、自動的に例文データベース2または辞書3に登録するようにする。
【0067】
ステップS160の処理により、翻訳家による自然な翻訳が例文データベース2や辞書3に蓄積され、次の機械翻訳の質をさらに向上させることができ、機械翻訳を繰り返すほどに正確な翻訳を行う機械翻訳システムを得ることができる。
【0068】
最後に、以上の説明では機械翻訳システムは一つのコンピューターにまとまって納められていることを念頭に説明したが、本発明による機械翻訳システムは物理的に一つのコンピューターに納める必要がない。
【0069】
たとえば、クライアントとサーバーに上記機械翻訳システムの構成要素が分散配置され、それらの協働によって本発明による機械翻訳方法を実行するものであってもよい。
【0070】
例文データベース2と、辞書3と、翻訳エンジン4と、必要に応じて訳語前処理手段6あるいは画面データ生成手段7をサーバーに備え、サーバーはクライアントから原文のデータを受信し、その翻訳文のデータをクライアントに返信することもできる。
【0071】
また、上記例文データベース2と、辞書3と、翻訳エンジン4と、訳語前処理手段6あるいは画面データ生成手段7を複数のサーバーに分散配置してもよい。
【0072】
さらに、原文の使用頻度が高い単語や単語連の訳語を統一的に確定した後に、原文を複数の部分に分割し、前記統一的な訳語を使用することを条件に複数の機械翻訳システムで機械翻訳を行ってもよい。
【0073】
【発明の効果】
以上の説明から明らかなように、本発明によれば、例文データベースを活用することにより、特定の著作者あるいは企業の著作物の過去の翻訳実績を活用し、過去に翻訳した文章と同一の文章については同一の翻訳文に翻訳することができる。また、例文データベースと構文処理手段と翻訳エンジンの作用により、過去に翻訳した文章に類似する文章については過去の翻訳文を活用しつつ用語を置き換え等のわずかな修正をして確度の高い翻訳文を得ることができる。
【0074】
また、本発明によれば、画面データ生成手段により翻訳の確度の度合いに応じて翻訳文の各文章の表示方法を変更し、原文と翻訳文の各文章を対比することができるので、機械翻訳を人間が見直す場合に翻訳文の全部を見直す必要がなく、翻訳の確度の低い翻訳文に集中することによって、効率よく機械翻訳を見直すことできる。これによって、従来の無駄に浪費されていた機械翻訳の人間による見直しのための労力と時間が省かれ、短時間に高品質な機械翻訳による翻訳文を得ることができる。
【図面の簡単な説明】
【図1】本発明に係る機械翻訳システムの一実施形態のブロック図。
【図2】本発明に係る機械翻訳方法のフローチャート。
【図3】文章の構成が類似することを説明する図。
【符号の説明】
1 機械翻訳システム
2 例文データベース
3 辞書
4 構文処理手段
5 翻訳エンジン
6 訳語前処理手段
7 画面データ生成手段
8 登録手段
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a machine translation system and a machine translation method, and in particular, accumulates past translation results in an example sentence database, and determines stepwise translation accuracy (accuracy) based on the similarity between an original sentence and the example sentence database. And a machine translation method.
[0002]
[Prior art]
Translation uses unique sentences and words depending on the target of the translation. For example, in the translation of a patent specification, the original text has a specific style and uses unique words. Also, even in a specific field, some authors use unique expressions. For example, taking a patent specification as an example, a particular company often uses a particular term and repeats a particular expression.
[0003]
In conventional machine translation, a dictionary of specific words or word sequences (referred to as word sequences such as word-to-word or word-to-particle combinations) is prepared for each specific field, and the accuracy of translation in that field is determined. I am trying to raise it. Furthermore, when translating the text of a specific user (author), a dictionary for the unique word and word sequence used by that user is prepared and used in combination with other dictionaries to further improve the accuracy of translation. Is raised.
[0004]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 2002-202966 (FIG. 12)
[0005]
[Problems to be solved by the invention]
However, in the conventional machine translation, it was not possible to make full use of the translation results of the work of a specific author.
[0006]
For example, when a writer uses a word that is often used with a unique expression or a meaning different from the general meaning, the conventional machine translation often repeats the expression or word and makes it unnatural.
[0007]
In the conventional machine translation, for the above unique expressions and words, words or word sequences used for the expressions are registered in a user dictionary, and the user dictionary is used in combination with another dictionary (general dictionary). By using translations from those dictionaries, more natural translations were made.
[0008]
However, there is a limit to improving the quality of translation by registering words and word sequences in a user dictionary. For example, user dictionaries and general dictionaries often produce unnatural translations because the priority order of use is not always properly selected. Also, special expressions and words do not always appear as the same sentence, and may be used with some changes. In such a case, since the word sequence registered in the user dictionary does not completely match, the word sequence with a special expression may not be replaced and may be translated unnaturally.
[0009]
Conventionally, since machine translation was incomplete as described above, after performing machine translation, a human reviewed the translated sentence and corrected such unnatural translation.
[0010]
Therefore, one problem to be solved by the present invention is to utilize a translation work of a creator's work to a higher degree, and to use the expression in a way that is different from the unique expression or general meaning used by that writer. An object of the present invention is to provide a machine translation system and a machine translation method that can correctly translate words.
[0011]
In addition, when a human reviews a translated sentence after performing a machine translation, a review is conventionally performed because it is not known how much translation accuracy (correctness) each sentence of the translated sentence has been translated. Had to review the entire translation. Such work requires reviewing even sentences that have a high probability of being translated correctly, which is a waste of labor and time.
[0012]
Therefore, another problem to be solved by the present invention is to distinguish between sentences that would have been correctly translated by machine translation and those that were not so that those who reviewed the translation concentrated on sentences with low translation accuracy. Another object of the present invention is to provide a machine translation system and a machine translation method that can perform a review or a human translation.
[0013]
[Means for Solving the Problems]
The machine translation system according to the present invention includes:
An example sentence database for storing and managing the same sentence in the first and second languages, a dictionary for storing and managing the same word or word series in the first and second languages, and a structure of the sentence A syntactic processing unit for judging similarity, comparing the original sentence in the first language with the sentence in the first language in the example sentence database, and finding in the example sentence database a sentence in the first language that completely matches the original sentence; If it exists, the corresponding sentence in the second language is determined as a translated sentence, and if there is a sentence in the first language in the example sentence database determined by the syntax processing means to be similar to the original sentence, Adopts a sentence in the corresponding second language as a provisional translation sentence, and searches for and replaces a word or word sequence that does not match the original sentence from the dictionary, and translates the sentence. A translation engine to be generated, is characterized in that it has a.
[0014]
According to the present invention, by accumulating the translation results of the work of a predetermined author in the example sentence database, when there is a sentence that perfectly matches in the example sentence database, an almost perfectly correct translated sentence can be determined. Further, the original sentence is compared with the example sentence database, and if there is a sentence having a sentence structure similar to the original sentence in the example sentence database in the example sentence database by the syntax processing means, a word which does not match the original sentence after adopting the translated sentence is used. By searching and replacing a word sequence from the dictionary, it is possible to translate almost correctly, flexibly responding to the deformation of the author's unique expression.
[0015]
The syntax processing means can analyze the syntax of the sentence and determine the similarity of the sentence structure by pattern matching of the syntax tree.
[0016]
Before performing the translation, a word or word sequence is extracted from the original sentence in the first language, and a translated word pre-processing is performed using a translated word of the word or word sequence searched from the dictionary for a predetermined word or word sequence frequently used. Means can be provided.
[0017]
ADVANTAGE OF THE INVENTION According to this invention, the frequently used word or the translation of a word series can be previously determined and unified.
[0018]
Inputting information on the degree of matching between the translated sentence and the original sentence of the translated sentence and the sentence in the first language in the example sentence database, and displaying each sentence of the translated sentence according to the degree of matching It is preferable to have a screen data generating means for generating screen data which can change the original sentence and compare each sentence of the original sentence and the translated sentence.
[0019]
According to the present invention, the translation accuracy of each sentence in the translated sentence can be confirmed, and the person who reviews the translation can concentrate on the sentences with low translation accuracy.
[0020]
It is preferable that the screen data generating means displays the original sentence or the machine-translated translated sentence at the corresponding position in the translated sentence for the original sentence that does not reach the predetermined degree of matching.
[0021]
The machine translation system according to the present invention may have a registration unit for registering a word or a series of words corrected by a translator or a translated sentence corrected or created in the dictionary and the example sentence database, respectively.
[0022]
According to the present invention, a word or word sequence corrected by a translator and a translation created by a translator are registered in a dictionary and an example sentence database, and the author's translation results can be further enhanced.
[0023]
A server having the example sentence database, the dictionary, and the translation engine, and optionally having the translated word preprocessing means or the screen data generating means, wherein the server receives original sentence data from a client Then, the translation data can be returned to the client.
[0024]
The machine translation method according to the present invention compares a sentence of an original sentence in a first language with a sentence in a first language in an example sentence database that stores and manages the same sentences in the first and second languages in correspondence with each other. If there is a sentence in the first language that completely matches the original sentence in the example sentence database, the corresponding sentence in the second language is determined as a translated sentence, and the remaining original sentence and the sentence in the first language of the example sentence database are determined. The structure is analyzed and a sentence in a second language corresponding to a sentence in the first language of the example sentence database similar to the sentence structure of the original sentence is adopted as a provisional translation sentence, and a word or word sequence that does not match the original sentence is converted into a predetermined translation. It is characterized in that a translation is generated by substitution.
[0025]
It is preferable that the similarity determination of the sentence structure is determined by pattern matching of a syntax tree.
[0026]
Before performing the translation, a word or word sequence is extracted from the original sentence in the first language, and a corresponding word or word sequence translated from the dictionary is adopted for a predetermined word or word sequence that is frequently used, and the translated word or word sequence is adopted. it can.
[0027]
ADVANTAGE OF THE INVENTION According to this invention, the frequently used word or the translation of a word series can be previously determined and unified.
[0028]
Information on the degree of matching between the original sentence and the sentence in the first sentence in the example sentence database is input, and the display method of each sentence of the translated sentence is changed according to the degree of matching. Can be generated.
[0029]
According to the present invention, the translation accuracy of each sentence in the translated sentence can be confirmed, and the person who reviews the translation can concentrate on the sentences with low translation accuracy.
[0030]
For a sentence of the original sentence that does not reach the predetermined degree of matching, the original sentence or the machine-translated translated sentence can be displayed at the corresponding position in the translated sentence.
[0031]
In the machine translation method according to the present invention, a word or a series of words corrected by a translator or a translated sentence corrected or created can be registered in the dictionary and the example sentence database, respectively.
[0032]
According to the present invention, a word or word sequence corrected by a translator and a translation created by a translator are registered in a dictionary and an example sentence database, and the author's translation results can be further enhanced.
[0033]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a machine translation system and a machine translation method according to the present invention will be described in detail with reference to the drawings.
[0034]
FIG. 1 is a block diagram of one embodiment of a machine translation system according to the present invention.
As shown in FIG. 1, the machine translation system 1 according to the present embodiment includes an example sentence database 2, a dictionary 3, a syntax processing unit 4, a translation engine 5, a translated word pre-processing unit 6, a screen data generation unit 7, , Registration means 8.
[0035]
The example sentence database 2 is a database that stores and manages the same sentences in the first language and the second language in association with each other. Here, in the present specification, “the first language and the second language” are not limited to a specific language. Further, as in the case where the same sentences in the first language, the second language, and the third language are stored in association with each other, the corresponding sentences in a plurality of languages may be stored and managed.
[0036]
It is preferable that the example sentence database 2 accumulates translation results regarding the work of a specific author. In other words, it is preferable that the database be a database in which, among translations performed in the past with respect to the work of a certain author, satisfactory original translations and their translations are stored in association with each other. In this specification, for convenience, the term “work of a predetermined author” is used. However, for example, a document of a specific company has a different series of actual authors but a certain expression method. This shall include the case of a copyrighted work.
[0037]
The dictionary 3 is a database that stores and manages the same word or word sequence in different languages in association with each other. In other words, while the example sentence database 2 is stored in correspondence with each sentence, the dictionary 3 is stored in correspondence with words or translations of word series.
[0038]
The dictionary 3 of the present embodiment has a user dictionary and a general dictionary. The general dictionary further includes a technical term dictionary and a basic term dictionary.
[0039]
The user dictionary registers a special word or word sequence frequently used in a work of a specific author, or a word or word sequence used in a meaning different from the general meaning. The technical dictionary registers terms in a specific field. The basic word dictionary registers general-purpose terms.
[0040]
Next, the syntax processing means 4 is means for determining whether or not the structure of a sentence is similar.
In this specification, “sentence composition” is a concept that includes both words occupying the center of a sentence and the structure of the sentence. For example, when "sentence structure is similar", verbs and nouns occupying the center of the sentence between two sentences are the same or similar, and the structure (sentence pattern) of the main sentence is the same or similar. Say. The determination of the similarity of the structure of the sentence will be described later in detail.
[0041]
The translation engine 5 is a unit that mechanically translates using the example sentence database 2, the dictionary 3, and the syntax processing unit 4.
[0042]
Before the translation engine 5 executes the machine translation, the translation word preprocessing means 6 extracts a word or word sequence from the original sentence, and employs a translated word searched from the dictionary 3 for a predetermined word or word sequence that is frequently used, Output means. The words and word translations adopted by the translation preprocessing means 6 are used by the translation engine 5 or the translator. This makes it possible to unify the frequently used words or translated words, and to use the same translated word when reviewing a machine-translated sentence by a plurality of translators.
[0043]
The screen data generating means 7 inputs the translation sentence from the translation engine 4 and information on the degree of matching between the original sentence (first language) and the sentence in the first sentence in the example sentence database 2, and according to the degree of matching. This is a means for changing the display method of each sentence of the translated sentence and generating screen data capable of comparing the original sentence and each sentence of the translated sentence. It is preferable to display the original sentence that could not be machine translated as it is at the corresponding position in the translated sentence.
[0044]
The registration unit 8 is a unit that registers a word or a series of words corrected by the translator after the machine translation has been performed, or a corrected or created translated sentence in the dictionary 3 and the example sentence database 2, respectively. Preferably, the registration means 8 can input the history information of the translation by the translator and automatically register it in the example sentence database 2 or the dictionary 3.
[0045]
Next, the flow of machine translation by the machine translation system 1 using the above components will be described.
FIG. 2 shows a flowchart of a machine translation method by the machine translation system 1. The machine translation method according to the present invention will be described below with reference to FIG.
[0046]
As shown in FIG. 2, to execute the machine translation method according to the present invention, first, an original sentence in a first language is input to the machine translation system 1 (step S100). Next, the translation of the term is determined as preprocessing for machine translation. To determine the translation of this term, a word or word sequence is extracted from the original sentence, and a translated word or word sequence that is frequently used is determined (step S110). This processing is performed by the translated word preprocessing means 6. When determining the translated word, the dictionary 3 searches for a frequently used word or word sequence and uses the corresponding translated word. If necessary, the example sentence database 2 can also be referred to and the translated word in the case where the same sentence exists in the past can be adopted. The translated word or word sequence determined here is used in unified translation of the original text.
[0047]
Next, a translated sentence with extremely high accuracy is determined (step S120). In step S120, the original sentence is compared with a sentence in the first language of the example sentence database 2, and if there is a sentence in the first language of the example sentence database 2 that completely matches the original sentence, the corresponding sentence in the first sentence database 2 is compared. A sentence in two languages is determined as a translated sentence. This processing is performed by the translation engine 5. "The sentences completely match" means that the words of the sentences are the same and the word arrangement is also the same. That is, this is a case where the original sentence exists as it is as a sentence in the first language of the example sentence database 2.
[0048]
Next, a translated sentence having relatively high accuracy is determined (step S130). In step S130, for the remaining original sentence whose translation is determined in step S120, the composition of the original sentence and the sentence in the first language of the example sentence database are analyzed, and the sentence structures are compared. As a result, if there is a sentence in the first language of the example sentence database 2 having a similar sentence structure to the original sentence, the corresponding sentence in the second language of the example sentence database 2 is adopted as the temporary translation sentence. Then, a translated sentence is generated by applying the translated word to a word or word sequence that does not match the original sentence in the provisionally translated sentence.
[0049]
Here, a method of translating a sentence having a similar configuration will be described.
Hereinafter, analysis and translation of a sentence structure will be described using a simple sentence “I see you.” As an example.
[0050]
The sentence "I see you." Is a sentence lined up with "subject, verb and object", but this is established as a sentence where the word "see" which is the subject has "subject and object" It has a property, and is limited to a case where "I" satisfies the condition as the subject and "you" satisfies the condition as the object. The property of “see” having “subject and object” is the analysis information of “see”. On the other hand, the word "see" is a singular or plural first or second person verbs. The grammatical property of "see" is the property of one or more first or second verbs of "see". Due to the analysis information and the grammatical properties, one or more first-person or second-person nouns must be present before "see", and nouns must be present after "se".
[0051]
On the other hand, "I" of "I see you." Has a grammatical property of a first person singular noun and analysis information that a subject can be accompanied by a verb. Therefore, there can be a first-person singular verb after "I". In addition, "you" of "I see you." Has a grammatical property of a first person singular noun and analysis information that it can be a verb object. Therefore, there can be a verb before "you".
[0052]
The syntax processing unit 4 analyzes the grammatical properties and analysis information of the words described above. If the grammatical properties of “I”, “see”, and “you” and the analysis information are consistent with each other, , "I see you." Is parsed into a syntax tree shown in FIG. "I", "see", and "you" are applied to the subject, verb, and object of the syntax tree, respectively (the combination of the syntax tree shape and the word is "I see you." Become).
[0053]
Whether or not the structures of the sentences are similar to each other is determined as follows.
As described above, in the present specification, when "the structure of a sentence is similar", the verb (head) or noun occupying the center of the sentence between two sentences is the same or similar, and the main sentence Synonymous with having the same or similar structure (sentence pattern).
[0054]
Here, for example, considering a sentence having a similar structure of “I see you the.”, “I see you there.” Is a sentence of “I see you.” With the adverb of “the see” simply added. It is. The structure of the sentence is as shown in FIG.
[0055]
When pattern matching is performed between FIG. 3A and FIG. 3B, both sentences have the same main part (S + V + O) of the syntax tree and words (“I” and “see”) that occupy the main part of the sentence. "You") are the same. Therefore, the sentences in FIGS. 3A and 3B can be determined to be similar.
[0056]
Also, for example, when considering a sentence having a similar structure of "I see an object.", "I see an object." Is one in which the object of the sentence "I see you." Is changed to "an object." is there. The structure of the sentence is as shown in FIG.
[0057]
When pattern matching is performed between FIG. 3A and FIG. 3C, the main part (S + V + O) of the syntax tree is the same, and the words occupying the main part of the sentence are similar (“you” and “an object”). Is the only difference). Therefore, the sentences in FIGS. 3A and 3C can be determined to be similar.
[0058]
By defining in advance the range of the pattern matching of the syntax tree and the same range of the word, the syntax processing means 4 can determine similar sentences. Alternatively, by defining the range of the pattern matching of the syntax tree and the same range of the word step by step, the syntax processing unit 4 can also determine the degree of similarity of the sentences step by step.
[0059]
If it is determined that "I see you." Is similar to "I see you.", The translation engine 5 adopts a provisional translation of "I see you." (Corresponding sentence in the example sentence database 2). Since the adverb “there” is added, the translation of “there” is searched from the dictionary 3 and added to the provisional translation to complete the translation.
[0060]
If it is determined that “I see an object.” Is similar to “I see you.”, The translation engine 5 adopts a provisional translation of “I see you.” (Corresponding sentence in the example sentence database 2). Then, the translation of "an object" is retrieved from the dictionary 3 and replaced with the translation of "you" to complete the translation.
[0061]
With the above processing, translation of a sentence similar to the sentence in the first language of the example sentence database 2 is completed. If there is no sentence similar to the sentence in the first language of the example sentence database 2, the original sentence is left untranslated or translated mechanically (machine translation).
[0062]
Next, returning to FIG. 2 again, screen data capable of comparing the original sentence and the translated sentence is output (step S140). In step S140, the display method of each sentence of the translated sentence is changed according to the degree of matching between the original sentence and the sentence configuration of the first language in the example sentence database 2, and the screen data that allows the original sentence and the translated sentence to be compared. Is output.
[0063]
“Depending on the degree of matching between the original sentence and the sentence configuration of the first language in the example sentence database 2” means, for example, a translated sentence with extremely high translation accuracy, a translated sentence with relatively high accuracy, and a moderately accurate sentence. That is, it is determined based on the degree of similarity between the above-described original sentence such as a translated sentence and the sentence of the first language in the example sentence database 2. Note that the matching degree can be set stepwise as described above.
[0064]
"Changing the display method of each sentence" means that the display accuracy can be distinguished by using any known means such as changing the display color and font of the sentence according to the accuracy of translation. is there. In addition, “screen data that can compare each sentence of the original sentence and the translated sentence” refers to the screen data of the original sentence for which a certain degree of translation accuracy cannot be obtained by performing machine translation and displaying it at the corresponding position in the translated sentence. The case and the original sentence for which a certain translation accuracy cannot be obtained are intended to include both the case of screen data displayed as the original at the corresponding position in the translated sentence.
[0065]
The screen data generated in step S140 is provided for review and correction of the translated sentence by the translator (step S150). By the process of step 140, the translation with high translation accuracy and the translation with low translation accuracy are displayed by different display methods, so that the translator can intensively review the translation with low translation accuracy. As a result, there is no need to review the translation that would have been correctly translated, and the translation can be efficiently reviewed in a short time.
[0066]
Next, the translated sentence reviewed or corrected by the translator is stored in the example sentence database 2 or the dictionary 3 as actual translation data (step S160). The processing in step S160 is performed by the registration unit 8. Preferably, the registration means 8 can input a history of a sentence or a word or the like corrected by the translator, and automatically registers it in the example sentence database 2 or the dictionary 3 after obtaining the confirmation of the operator.
[0067]
By the processing in step S160, natural translations by the translator are accumulated in the example sentence database 2 and the dictionary 3, and the quality of the next machine translation can be further improved, and machine translation that performs accurate translation as the machine translation is repeated is repeated. You can get the system.
[0068]
Finally, while the above description has been made with the mind that the machine translation system is housed in one computer, the machine translation system according to the present invention need not be physically housed in one computer.
[0069]
For example, the components of the machine translation system may be distributed and arranged in a client and a server, and the machine translation method according to the present invention may be executed in cooperation with the components.
[0070]
The server includes an example sentence database 2, a dictionary 3, a translation engine 4, and a translation word preprocessing unit 6 or a screen data generation unit 7 as necessary. The server receives original sentence data from a client, and transmits the translated sentence data. Can be sent back to the client.
[0071]
Further, the example sentence database 2, the dictionary 3, the translation engine 4, the translated word pre-processing means 6 or the screen data generating means 7 may be distributed to a plurality of servers.
[0072]
Furthermore, after the words frequently used in the original sentence or the translated words of the word series are unified, the original sentence is divided into a plurality of parts, and a plurality of machine translation systems are used under the condition that the unified translated words are used. Translation may be performed.
[0073]
【The invention's effect】
As is clear from the above description, according to the present invention, by utilizing the example sentence database, the past translation results of the work of a specific author or a company are utilized, and the same sentence as the sentence translated in the past is used. Can be translated into the same translation. In addition, due to the operation of the example sentence database, the syntax processing means, and the translation engine, for sentences similar to previously translated sentences, slight corrections such as replacing terms while utilizing past translated sentences are performed with high accuracy. Can be obtained.
[0074]
Further, according to the present invention, the display method of each sentence of the translated sentence can be changed by the screen data generating means according to the degree of accuracy of translation, and the original sentence and each sentence of the translated sentence can be compared. It is not necessary to review the entire translated sentence when a human reviews the translated text, and the machine translation can be efficiently reviewed by concentrating on the translated sentence with low translation accuracy. As a result, the labor and time required for human review of machine translation, which has been wasted in the past, can be saved, and a translated sentence of high quality machine translation can be obtained in a short time.
[Brief description of the drawings]
FIG. 1 is a block diagram of an embodiment of a machine translation system according to the present invention.
FIG. 2 is a flowchart of a machine translation method according to the present invention.
FIG. 3 is a view for explaining that sentences have similar structures.
[Explanation of symbols]
1 Machine translation system
2 Example sentence database
3 dictionaries
4 Syntax processing means
5 translation engine
6. Translation preprocessing means
7 Screen data generation means
8 Registration means

Claims (13)

第1言語と第2言語による同一の文章を対応させて記憶管理する例文データベースと、
第1言語と第2言語による同一の単語あるいは単語連を対応させて記憶管理する辞書と、
文章の構成の類否を判断する構文処理手段と、
第1言語による原文の文章と前記例文データベース中の第1言語による文章とを比較し、前記例文データベース中に原文と完全に合致する第1言語による文章が存在する場合にはそれに対応する第2言語による文章を翻訳文として確定し、前記例文データベース中に前記構文処理手段によって原文に文章構成が類似すると判断された第1言語による文章が存在する場合には、対応する第2言語による文章を仮翻訳文として採用するとともに原文と合致しない単語あるいは単語連を前記辞書から検索して置換して翻訳文を生成する翻訳エンジンと、を有することを特徴とする機械翻訳システム。
An example sentence database for storing and managing the same sentences in the first language and the second language in association with each other;
A dictionary for storing and managing the same word or word sequence in the first language and the second language in association with each other;
A syntax processing means for determining the similarity of a sentence structure;
The original sentence in the first language is compared with the sentence in the first language in the example sentence database. If there is a sentence in the first language in the example sentence database that completely matches the original sentence, the second sentence corresponding thereto is present. If a sentence in a language is determined as a translated sentence, and there is a sentence in the first sentence whose sentence structure is determined to be similar to the original sentence by the syntax processing means in the example sentence database, a sentence in the corresponding second language is added. A translation engine that employs a temporary translation sentence and searches the dictionary for a word or word sequence that does not match the original sentence and replaces it to generate a translation sentence.
前記構文処理手段は、文章の構文解析を行って構文ツリーのパターンマッチングによって文章の構成の類否を判断することを特徴とする請求項1に記載の機械翻訳システム。2. The machine translation system according to claim 1, wherein the syntax processing unit analyzes the syntax of the sentence and determines whether or not the sentence is similar by pattern matching of a syntax tree. 翻訳を実行する前に、第1言語による原文から単語あるいは単語連を抽出し、使用回数が多い所定の単語あるいは単語連について前記辞書から検索した前記単語あるいは単語連の訳語を採用する訳語前処理手段を有することを特徴とする請求項1または2に記載の機械翻訳システム。Before performing the translation, a word or word sequence is extracted from the original sentence in the first language, and a translated word pre-processing is performed using a translated word of the word or word sequence searched from the dictionary for a predetermined word or word sequence frequently used. 3. The machine translation system according to claim 1, further comprising means. 前記翻訳エンジンから翻訳文および翻訳文の前記原文の文章と前記例文データベース中の第1言語による文章の合致の度合いの情報を入力し、前記合致の度合いに応じて翻訳文の各文章の表示方法を変更し、原文と翻訳文の各文章を対比することができる画面データを生成する画面データ生成手段を有する請求項1〜3のいずれかに記載の機械翻訳システム。Inputting information on the degree of matching between the translated sentence and the original sentence of the translated sentence and the sentence in the first language in the example sentence database, and displaying each sentence of the translated sentence according to the degree of matching The machine translation system according to any one of claims 1 to 3, further comprising screen data generation means for generating screen data capable of comparing the original sentence and the translated sentence. 前記画面データ生成手段は、所定の合致の度合いに達しない原文の文章については翻訳文中にその対応する位置に前記原文のままの文章あるいは機械翻訳した翻訳文を表示することを特徴とする請求項4に記載の機械翻訳システム。The said screen data production | generation means displays the sentence of the said original sentence or the machine-translated sentence in the corresponding position in the translated sentence about the original sentence which does not reach a predetermined | prescribed degree of agreement. The said sentence is characterized by the above-mentioned. 5. The machine translation system according to 4. 翻訳家によって修正された単語あるいは単語連あるいは修正または作成された翻訳文をそれぞれ前記辞書および例文データベースに登録する登録手段を有する請求項1〜5のいずれかに記載の機械翻訳システム。The machine translation system according to any one of claims 1 to 5, further comprising registration means for registering a word or a series of words corrected by a translator or a translated sentence corrected or created in the dictionary and the example sentence database, respectively. 前記例文データベースと、前記辞書と、前記翻訳エンジンとを有し、必要に応じて前記訳語前処理手段あるいは前記画面データ生成手段を備えたサーバーを有し、前記サーバーはクライアントから原文のデータを受信し、その翻訳文のデータを前記クライアントに返信することを特徴とする請求項1〜6のいずれかに記載の機械翻訳システム。A server having the example sentence database, the dictionary, and the translation engine, and optionally having the translated word preprocessing means or the screen data generating means, wherein the server receives original sentence data from a client 7. The machine translation system according to claim 1, wherein said translated data is returned to said client. 第1言語による原文の文章と、第1言語と第2言語による同一の文章を対応させて記憶管理する例文データベース中の第1言語による文章とを比較し、前記例文データベース中に原文と完全に合致する第1言語による文章が存在する場合には対応する第2言語による文章を翻訳文として確定し、残る原文の文章と前記例文データベースの第1言語による文章の構成を解析して原文の文章構成に類似する例文データベースの第1言語による文章に対応する第2言語による文章を仮翻訳文として採用するとともに、原文と合致しない単語あるいは単語連を所定の訳語に置換して翻訳文を生成することを特徴とする機械翻訳方法。The original sentence in the first language is compared with a sentence in the first language in an example sentence database that stores and manages the same sentences in the first and second languages in correspondence with each other, and the original sentence is completely included in the example sentence database. If there is a matching sentence in the first language, the corresponding sentence in the second language is determined as a translated sentence, and the remaining original sentence and the structure of the sentence in the first sentence of the example sentence database are analyzed to analyze the original sentence. A sentence in the second language corresponding to a sentence in the first language of the example sentence database having a similar configuration is adopted as a temporary translation sentence, and a word or word sequence that does not match the original sentence is replaced with a predetermined translation to generate a translation sentence. A machine translation method, comprising: 前記文章構成の類否判断は構文ツリーのパターンマッチングによって判断することを特徴とする請求項8に記載の機械翻訳方法。The machine translation method according to claim 8, wherein the similarity determination of the sentence configuration is determined by pattern matching of a syntax tree. 翻訳を実行する前に、第1言語による原文から単語あるいは単語連を抽出し、使用回数が多い所定の単語あるいは単語連について前記辞書から検索した対応する単語あるいは単語連の訳語を採用することを特徴とする請求項8または9に記載の機械翻訳方法。Before executing the translation, a word or a word sequence is extracted from the original sentence in the first language, and a corresponding word or a word sequence translated from the dictionary is adopted for a predetermined word or word sequence that is frequently used. The machine translation method according to claim 8 or 9, wherein: 原文の文章と前記例文データベース中の第1言語による文章の合致の度合いの情報を入力し、前記合致の度合いに応じて翻訳文の各文章の表示方法を変更し、原文と翻訳文の各文章を対比することができる画面データを生成することを特徴とする請求項8〜10のいずれかに記載の機械翻訳方法。Information on the degree of matching between the original sentence and the sentence in the first sentence in the example sentence database is input, and the display method of each sentence of the translated sentence is changed according to the degree of matching, and each sentence of the original sentence and the translated sentence is changed. The machine translation method according to any one of claims 8 to 10, wherein screen data that can be compared with the image data is generated. 所定の合致の度合いに達しない原文の文章については翻訳文中にその対応する位置に前記原文のままの文章あるいは機械翻訳した翻訳文を表示することを特徴とする請求項11に記載の機械翻訳方法。12. The machine translation method according to claim 11, wherein, for a sentence of an original sentence that does not reach a predetermined degree of matching, the original sentence or a machine-translated translated sentence is displayed at a corresponding position in the translated sentence. . 翻訳家によって修正された単語あるいは単語連あるいは修正または作成された翻訳文をそれぞれ前記辞書および例文データベースに登録することを特徴とする請求項8〜12のいずれかに記載の機械翻訳方法。The machine translation method according to any one of claims 8 to 12, wherein a word or a series of words corrected by a translator or a translated sentence corrected or created is registered in the dictionary and the example sentence database, respectively.
JP2003006061A 2003-01-14 2003-01-14 Machine translation device and machine translation method Pending JP2004220266A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003006061A JP2004220266A (en) 2003-01-14 2003-01-14 Machine translation device and machine translation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003006061A JP2004220266A (en) 2003-01-14 2003-01-14 Machine translation device and machine translation method

Publications (1)

Publication Number Publication Date
JP2004220266A true JP2004220266A (en) 2004-08-05

Family

ID=32896560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003006061A Pending JP2004220266A (en) 2003-01-14 2003-01-14 Machine translation device and machine translation method

Country Status (1)

Country Link
JP (1) JP2004220266A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072594A (en) * 2005-09-05 2007-03-22 Sharp Corp Translation device, translation method, translation program and medium
JP2007094086A (en) * 2005-09-29 2007-04-12 Toshiba Corp Input device, input method, and input program
US7548845B2 (en) 2005-12-08 2009-06-16 International Business Machines Corporation Apparatus, method, and program product for translation and method of providing translation support service
WO2013150883A1 (en) * 2012-04-06 2013-10-10 八楽株式会社 Webpage translation system
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
CN109241539A (en) * 2018-08-02 2019-01-18 王大江 The update method of machine learning artificial intelligence translation database
JP2020042743A (en) * 2018-09-13 2020-03-19 富士ゼロックス株式会社 Information processing system and program
CN111814493A (en) * 2020-04-21 2020-10-23 北京嘀嘀无限科技发展有限公司 Machine translation method, device, electronic equipment and storage medium
CN112818108A (en) * 2021-02-24 2021-05-18 中国人民大学 Text semantic misinterpretation chat robot based on form-word and proximity-word and data processing method thereof
CN112949324A (en) * 2021-01-28 2021-06-11 中国南方航空股份有限公司 Method, system and terminal for translating and managing aircraft maintenance technical manual data

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072594A (en) * 2005-09-05 2007-03-22 Sharp Corp Translation device, translation method, translation program and medium
JP2007094086A (en) * 2005-09-29 2007-04-12 Toshiba Corp Input device, input method, and input program
JP4559946B2 (en) * 2005-09-29 2010-10-13 株式会社東芝 Input device, input method, and input program
US8346537B2 (en) 2005-09-29 2013-01-01 Kabushiki Kaisha Toshiba Input apparatus, input method and input program
US7548845B2 (en) 2005-12-08 2009-06-16 International Business Machines Corporation Apparatus, method, and program product for translation and method of providing translation support service
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
WO2013150883A1 (en) * 2012-04-06 2013-10-10 八楽株式会社 Webpage translation system
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9805031B2 (en) 2014-02-28 2017-10-31 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
CN109241539A (en) * 2018-08-02 2019-01-18 王大江 The update method of machine learning artificial intelligence translation database
CN109241539B (en) * 2018-08-02 2023-09-08 爱云保(上海)科技有限公司 Updating method of machine learning artificial intelligence translation database
JP2020042743A (en) * 2018-09-13 2020-03-19 富士ゼロックス株式会社 Information processing system and program
CN111814493A (en) * 2020-04-21 2020-10-23 北京嘀嘀无限科技发展有限公司 Machine translation method, device, electronic equipment and storage medium
CN112949324A (en) * 2021-01-28 2021-06-11 中国南方航空股份有限公司 Method, system and terminal for translating and managing aircraft maintenance technical manual data
CN112818108A (en) * 2021-02-24 2021-05-18 中国人民大学 Text semantic misinterpretation chat robot based on form-word and proximity-word and data processing method thereof
CN112818108B (en) * 2021-02-24 2023-10-13 中国人民大学 Text semantic misinterpretation chat robot based on shape and near words and data processing method thereof

Similar Documents

Publication Publication Date Title
JP3969628B2 (en) Translation support apparatus, method, and translation support program
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
US8423346B2 (en) Device and method for interactive machine translation
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20030004702A1 (en) Partial sentence translation memory program
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US20110093254A1 (en) Method and System for Using Alignment Means in Matching Translation
JPS62163173A (en) Mechanical translating device
CA2562366A1 (en) A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
JP2004220266A (en) Machine translation device and machine translation method
Passarotti Leaving behind the less-resourced status. the case of latin through the experience of the index thomisticus treebank
Lavie Stat-XFER: A general search-based syntax-driven framework for machine translation
JP2007149109A (en) Translation support device
Zhang et al. Handling unknown words in statistical machine translation from a new perspective
Yılmaz et al. TÜBİTAK Turkish-English submissions for IWSLT 2013
Rikters et al. Combining machine translated sentence chunks from multiple MT systems
Hsieh et al. Uses of monolingual in-domain corpora for cross-domain adaptation with hybrid MT approaches
JP5207016B2 (en) Machine translation evaluation apparatus and method
JP5148583B2 (en) Machine translation apparatus, method and program
JP2006127405A (en) Method for carrying out alignment of bilingual parallel text and executable program in computer
JP5039114B2 (en) Machine translation apparatus and program
JP4812811B2 (en) Machine translation apparatus and machine translation program
Rikters K-Translate-Interactive Multi-system Machine Translation
Arnoult Adjunction in hierarchical phrase-based translation
JP2928246B2 (en) Translation support device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070202