JP2012113459A - 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム - Google Patents

用例翻訳システム、用例翻訳方法及び用例翻訳プログラム Download PDF

Info

Publication number
JP2012113459A
JP2012113459A JP2010260845A JP2010260845A JP2012113459A JP 2012113459 A JP2012113459 A JP 2012113459A JP 2010260845 A JP2010260845 A JP 2010260845A JP 2010260845 A JP2010260845 A JP 2010260845A JP 2012113459 A JP2012113459 A JP 2012113459A
Authority
JP
Japan
Prior art keywords
translation
word
similarity
corpus
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010260845A
Other languages
English (en)
Other versions
JP5204203B2 (ja
Inventor
Kanji Nakamura
寛爾 中村
Takashi Shibuya
貴志 澁谷
Enko Sai
遠航 蔡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010260845A priority Critical patent/JP5204203B2/ja
Publication of JP2012113459A publication Critical patent/JP2012113459A/ja
Application granted granted Critical
Publication of JP5204203B2 publication Critical patent/JP5204203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】類似度の計算方法に翻訳対象の分野情報を指標の一つとして加えることで、利用者の求める翻訳結果により近い用例訳文を提供することである。
【解決手段】用例検索部は翻訳対象原文と翻訳用例データベースの翻訳用例原文との類似度を計算し類似度が予め定めた閾値以上の翻訳用例を翻訳用例データベースから検索する。形態素解析部は用例検索部により複数の翻訳用例が検索されたとき複数の翻訳用例のそれぞれの訳文を形態素解析辞書の形態素解析情報を参照して形態素解析し単語を抽出する。加点値計算部は形態素解析部で抽出された前記単語につきコーパスの単語頻度情報を参照し単語の出現頻度に応じて翻訳用例の類似度の加算値を計算する。翻訳用例選出部は用例検索部で計算された類似度に加点値計算部で計算された加算値を加算して最も大きい類似度の翻訳用例を選出する。
【選択図】 図1

Description

本発明の実施形態は、翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を用いて原文を訳文に翻訳する用例翻訳システム、用例翻訳方法及び用例翻訳プログラムに関する。
外国語を用いた情報交換のツールとして機械翻訳の重要性が高まっている。機械翻訳の技術の一つとして翻訳用例を用いた翻訳方法が知られている。これは予め原文と訳文とを対にした複数の翻訳用例を翻訳用例データベースに登録しておき、翻訳対象原文が入力された際に、翻訳対象原文と類似した翻訳用例原文を翻訳用例データベースから検索し、得られた翻訳用例原文を、対となる翻訳用例訳文とともに利用者に提示するものである。利用者は必要に応じて提示された翻訳用例訳文を部分的に修正することで、希望する訳文を比較的少ない作業量で得ることができる。
ここで翻訳対象原文の類似文を検索する際、翻訳対象原文と各々の翻訳用例原文との類似度が計算される。類似度計算においては、翻訳対象原文と翻訳用例原文との間の一致する単語の割合を計算する方法が一般的な計算方法として知られている。類似度が同じ翻訳用例が複数見つかった場合には、検索で先に見つかったものを優先したり、登録時期が新しいものを優先したりすることで順位付けがなされることが多い。例として” I pass by the house every day.”という原文が与えられた場合、いま、翻訳用例データベースから類似度の高いものが検索され、下記のような用例が得られたとする。
用例1
原文:I pass by the shop every day.(類似度:86%)
訳文:私は毎日そののそばを通る
用例2
原文:I pass behind the shop every day.(類似度:71%)
訳文:私は毎日その後ろを通る
この結果、翻訳者は最も類似度の高い用例1の訳文を部分的に修正することで、希望の訳文を得ることができる。
この方法により類似度が計算された場合、類似度が高いからといって必ずしも翻訳者の望む訳文に近い用例が優先的に検出されるとは限らない。例として、下記の用例1、2が翻訳用例データベースに登録されており、双方の原文と似た次の翻訳対象が入力されたとする。
用例1(登録日:2009/08/11)
原文:The stocks of this brand bring about profits.
訳文:この銘柄の株式は利益をもたらします
用例2(登録日:2009/11/30)
原文:The fans of this brand bring about profits.
訳文:このブランドのファンたちは利益をもたらします
翻訳対象
原文:The shares of this brand bring about damage.
ここで、この従来の計算方法により翻訳対象原文と各々の翻訳用例原文との類似度を計算した場合、用例1、用例2ともに8単語中6単語が原文と一致するため同じ類似度になり、登録日の新しい用例2の訳文が類似文の訳文として利用者に提示される。
しかし、もし、この翻訳対象原文が株式関連の文書中に現れた文であった場合、推測される訳文は「この銘柄の株式は損害をもたらします」となり、提示された用例2より用例1の訳文の方が近いということになる。このように、従来の計算方法により選ばれた類似文の訳文は必ずしも最適というわけではなく、類似度が同じ、またはやや低い別の用例の訳文の方が有用である場合も少なくない。
特開2006−24114号公報
従来の類似度の計算方法に翻訳対象の分野情報を指標の一つとして加えることで、利用者の求める翻訳結果により近い用例訳文を提供することである。
実施形態の翻訳用例システムは、翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、文を形態素解析する際に参照する形態素解析辞書と、所定の分野の文書で用いられた単語の出現頻度を格納したコーパスとを記憶した記憶装置を備える。用例検索部は翻訳対象原文と翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を翻訳用例データベースから検索する。形態素解析部は用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例のそれぞれの各翻訳用例訳文を形態素解析辞書を参照して形態素解析し単語を抽出する。加点値計算部は形態素解析部で抽出された前記単語につきコーパスに格納された当該単語の出現頻度に応じて類似度に加点する。翻訳用例選出部は加点後の類似度に基づいて翻訳用例を選出する。
実施形態に係る用例翻訳システムの機能ブロック構成図。 実施形態に係る用例翻訳システムのハードウェア構成を示すブロック構成図。 実施形態に係るコーパスの一例の説明図。 実施形態でコーパスを作成する場合の処理内容を示すフローチャート。 実施形態でコーパスを作成する場合の特定分野の文書及びコーパスの説明図。 実施形態に係る用例翻訳システムに翻訳対象原文が入力されてからコーパスを利用して翻訳用例を選出するまでの処理内容を示すフローチャート。 実施形態に係るコーパスの他の一例の説明図。
以下、実施形態を図面に基づいて説明する。図1は、実施形態に係る用例翻訳システムの機能ブロック構成図、図2は実施形態に係る用例翻訳システムのハードウェア構成を示すブロック構成図である。
図2において、用例翻訳システム11は、例えば一般的なコンピュータに用例翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14にはプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は表示装置17に表示出力される。
入力装置18は演算制御装置12に情報を入力するものであり、例えば、マウス19、キーボード20、読み取り装置21a、読み込み装置21bから構成される。読み取り装置21aは、例えばOCR(光学式文字読み取り装置)等であり、読み込み装置21bは、例えば磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置である。
例えば、マウス19やキーボード20は表示装置17を介して演算制御装置12に各種指令を入力し、キーボード20、読み取り装置21a、読み込み装置21bは、翻訳対象の文書を入力する。すなわち、読み取り装置21a、読み込み装置21bは、翻訳対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置12の演算結果や用例翻訳に必要な知識・規則を蓄積した辞書等を記憶するハードディスクドライブ(HDD)22が設けられている。
図1において、演算制御装置12内の各機能ブロックは、用例翻訳プログラムを構成する各プログラム15の機能に対応する。すなわち、プロセッサ13が用例翻訳プログラムを構成する各プログラム15を実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。
入力装置18は、翻訳対象原文の文書の電子データを入力するものであり、利用者の入力操作に基づく文書の入力が可能である。また、入力装置18は、入力処理部23を介して制御部24に対して各種コマンドを与える。入力装置18によって入力された翻訳対象原文の文書は、演算処理部12の入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の図示省略の文書記憶エリアに記憶される。制御部24は、入力処理部23、出力処理部26、翻訳部28を制御するとともに、記憶装置25とのデータの授受の制御も行う。そして、演算制御装置12の演算結果は表示装置27に表示出力される。
翻訳部28は、用例検索部29及び翻訳用例優先度判定部30を有し、翻訳用例優先度判定部30は、形態素解析部31、加点値計算部32、翻訳用例選出部33を有している。これらの詳細については、後述する。
また、記憶部25には、複数の翻訳用例が予め登録されている翻訳用例データベース34が格納されている。翻訳用例は第1言語の翻訳用例原文と第2言語の翻訳用例訳文とが対となって格納されている。また、記憶部25には、翻訳対象原文や翻訳用例の原文及び訳文を形態素解析をする際に参照される形態素解析辞書35が格納されている。形態素解析辞書35には、形態素解析の対象となる第1言語や第2言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)が形態素解析情報として格納されている。
さらに、記憶部25には、翻訳に関連する分野の単語頻度情報が登録されているコーパス36が格納されている。コーパス36は、大量のテキストデータを翻訳システムで利用可能な形式にして登録したものであり、本実施形態では、翻訳対象原文と同じ分野の文書で用いられた名詞単語及びその出現頻度が単語頻度情報として格納され、また出現頻度の更新日時情報が格納されている。コーパス36の詳細は後述する。
翻訳部28の用例検索部29は、翻訳対象原文と翻訳用例データベース34の翻訳用例原文との類似度を計算し、類似度が予め定めた閾値以上の翻訳用例を翻訳用例データベース34から検索するものである。
翻訳用例優先度判定部30は、用例検索部29により複数の翻訳用例が検索されたとき、検索された複数の翻訳用例のうち、どの翻訳用例を優先して選出するかを判定するものである。
翻訳用例優先度判定部30の形態素解析部31は、用例検索部29により複数の翻訳用例が検索されたときは、複数の翻訳用例のそれぞれの翻訳用例訳文を形態素解析辞書35の形態素解析情報を参照して形態素解析し、名詞単語を抽出する。
翻訳用例優先度判定部30の加点値計算部32は、形態素解析部31で抽出された名詞単語につきコーパス36の単語頻度情報を参照し、名詞単語の出現頻度に応じて翻訳用例の類似度の加算値を計算する。
翻訳用例優先度判定部30の翻訳用例選出部33は、用例検索部29で計算された翻訳用例の類似度に、加点値計算部32で計算された加算値を加算して、類似度の合計値が最も大きい翻訳用例を選出し、出力処理部26を介して表示装置27に表示出力する。
図3はコーパス36の説明図である。コーパス36は特定分野の文書で用いられた名詞単語の出現頻度を単語頻度情報として格納するとともに、出現頻度の更新日時を更新日時情報として格納している。図3では株式関連分野の場合のコーパスを示している。
例えば、株式という名詞単語は出現頻度が30で更新日時は2010年10月29日であり、証券という名詞単語は出現頻度が27で更新日時は2010年10月09日であり、以下、同様に株式関連分野の文書に用いられた名詞単語の出現頻度と更新日時とを情報として格納している。
図4は実施形態でコーパスを作成する場合の処理内容を示すフローチャートである。これは、図示は省略するが、コーパス作成プログラムをコンピューターにインストールし、そのソフトウェアプログラムを演算制御装置12のプロセッサ13において実行することにより実現される。
いま、図5(a)に示す株式分野の文書が入力装置18から入力処理部23を介して記憶部25の図示省略の文書記憶エリアに記憶されたとする。図4に示すように、まず、コーパスの作成機能は、読み込まれた文書を文単位に切り出す(S1)。図5(a)の株式分野の文書の場合は、「株式とは、株式会社における社員権、持分のことである。」という文と、「通常の持分が社員の出資額などに応じて不均一な形態を取るのに対して、均一的な細分化された割合的な構成単位を取る点に特徴がある。」という文との二つの文からなっているので、この二つの文を切り出す。
次に、一つ目の文「株式とは、株式会社における社員権、持分のことである。」につき、形態素解析により単語分割をする(S2)。そして、分割した単語から名詞を識別する(S3)。この場合の名詞は、図5(a)の下線を引いた単語であり、「株式」、「株式会社」、「社員権」、「持分」の4個の名詞である。
次に、変数iに「1」をセットし(S4)、i個目の名詞を取り出し(S5)、i個目の名詞の出現頻度に1を加算する(S6)。そして、更新日時を更新する(S7)。最初はi=1であるから、1個目の名詞である「株式」が取り出される。1個目の名詞「株式」は、図5(b)に示すように、「株式」の出現頻度29に1を加算し、更新日時を本日の2010年10月29日に更新する。
次に、すべての名詞を取り出したか否かを判定し(S8)、すべての名詞を取り出していないときは、変数iに1を加算し(S9)、ステップS5に戻る。一方、すべての名詞を取り出しているときは、次の文はあるかどうかを判定し(S10)、次の文があるときはステップS2に戻り、次の文がないときは処理を終了する。
このように、一つ目の文につき、ステップS5〜ステップS9の処理により、2個目〜4個目の名詞「株式会社」、「社員権」、「持分」についても、出現頻度に1を加算し、更新日時を本日の2010年10月29日に更新する。4個目の「持分」について処理が終了すると、ステップS10により、二つ目の文についてステップS2〜S10までの処理が開始される。
次に、二つ目の文「通常の持分が社員の出資額などに応じて不均一な形態を取るのに対して、均一的な細分化された割合的な構成単位を取る点に特徴がある。」につき、形態素解析により単語分割をし(S2)、分割した単語から名詞を識別する(S3)。この場合の名詞は、図5(a)の下線を引いた単語であり、「通常」、「持分」、「社員」、「出資額」、「不均一」、「形態」、「均一」、「割合」、「構成単位」、「点」、「特徴」の11個の名詞である。
一つ目の文の場合と同様に、変数iに「1」をセットし(S4)、i個目の名詞を取り出し(S5)、i個目の名詞の出現頻度に1を加算する(S6)。そして、更新日時を更新する(S7)。
最初はi=1であるから、1個目の名詞である「通常」が取り出され、「通常」の出現頻度5に1を加算し、更新日時を本日の2010年10月29日に更新する。以下同様に、2個目〜11個目の名詞「持分」、「社員」、「出資額」、「不均一」、「形態」、「均一」、「割合」、「構成単位」、「点」、「特徴」についても、出現頻度に1を加算し、更新日時を本日の2010年10月29日に更新する。2個目の「持分」については、一つ目の文にも出現しているので、1が2回加算されることになる。そして、11個目の名詞「特徴」の処理が終了すると、図5(a)の場合には、次の文はないので処理を終了する。
このようにして、コーパス36には特定分野の名詞単語の出現頻度や更新日時が更新されて格納される。
次に、図6は、実施形態に係る用例翻訳システムに翻訳対象原文が入力されてからコーパスを利用して翻訳用例を選出するまでの処理内容を示すフローチャートである。
用例翻訳システムの利用者により入力装置18から翻訳対象原文が入力されると、入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の図示省略の文書記憶エリアに記憶される。そして、制御部24は翻訳部28を起動する。
翻訳部28は起動がかけられると、まず翻訳対象原文に対し形態素解析を行う(S11)。用例検索部29は、その結果をもとに翻訳用例データベース34から翻訳用例を検索する(S12)。このとき翻訳対象原文と、翻訳用例データベース34に登録されている翻訳用例原文との類似度を計算することになるが、この類似度は双方の文中に同じ単語がどれだけ含まれるかという割合で決定される。そして、用例検索部29は、類似度が予め定めた閾値以上を満たす翻訳用例は検索できたか否かを判定し(S13)、翻訳用例が検索できない場合は処理を終了する。この場合は、翻訳用例を用いない通常の翻訳処理を行うことになる。
一方、用例検索部29は、翻訳用例が検索できたときは、複数の翻訳用例か否かを判定する(S14)。複数の翻訳用例でない場合、つまり一つの翻訳用例である場合には、その翻訳用例を選出する(S15)。
ステップS14の判定で、複数の翻訳用例が検索されたときは、翻訳用例優先度判定部30は変数jに「1」をセットする(S16)。これにより、形態素解析部31はj個目の翻訳用例訳文を形態素解析し名詞単語を抽出する(S17)。
次に、加点値計算部32は、j個目の翻訳用例訳文の名詞単語の出現頻度に応じて加算値を計算する(S18)。すなわち、加点値計算部32は、コーパス36の名詞単語の出現頻度を参照して名詞単語の出現頻度を取得し、その出現頻度が高いほど大きな加算値を算出する。加算値の算出の仕方については後述する。そして、加点値計算部32はj個目の翻訳用例の類似度に加算値を加算し(S19)、すべての翻訳用例を取り出したか否かを判定し(S20)、すべての翻訳用例を取り出していないときは、変数jに1を加算し(S21)、ステップS17に戻る。
一方、すべての翻訳用例を取り出しているときは、翻訳用例選出部33は、加点値計算部32により、翻訳用例の類似度に加算値を加算して得られた各々の翻訳用例の類似度合計値を比較し、最も大きい類似度合計値の翻訳用例を選出する(S22)。
図6に示した処理内容につき具体例を用いて説明する。いま、翻訳対象原文として、下記の文が与えられたとする。
The shares of this brand bring about damage.
この翻訳対象原文の類似文を検索する場合を考える。なお、この翻訳対象原文は株式関連の文章中に現れた文であり、用例翻訳システムには予め株式の単語情報を登録したコーパス36を持っているものとする。
まず、翻訳部28は上記の翻訳対象原文を形態素解析により単語分割し、用例検索部29は、分割された単語をもとに翻訳用例データベース34中の翻訳用例を検索する。その結果、類似度の高い翻訳用例として、下記の二つの翻訳用例が得られたとする。
用例1
原文:The stocks of this brand bring about profits.
訳文:この銘柄の株式は利益をもたらします
用例2
原文:The fans of this brand bring about profits.
訳文:このブランドのファンたちは利益をもたらします
翻訳対象原文とこれら二つの翻訳用例原文との類似度は、どちらも75{(一致する単語数/全単語数)×100で計算)}で同じである。この場合、二つの翻訳用例が得られたので、図6のステップS16以降の処理に移ることになる。
形態素解析部31は、用例1及び用例2のそれぞれの翻訳用例訳文に対し、形態素解析により単語分割を行い名詞単語を取り出す。
用例1から、「銘柄」、「株式」、「利益」を取り出し、用例2から「ブランド」、「ファン」、「利益」を取り出す。
これらすべての名詞単語について、加点値計算部32はコーパス36を参照し、出現頻度の高い名詞単語についてはポイントを加点する。ここでは、簡略化のため、出現頻度を10で割り小数点以下を切り捨てたものを加点するポイントとする。
用例1の「銘柄」の出現頻度は、図3に示すように「16」であり、「株式」の出現頻度は「30」であり、「利益」は未登録の名詞単語であるので出現頻度は「0」である。従って、用例1の名詞単語の出現頻度の合計は、(16+40+0=46)であり、これを10で割り小数点以下を切り捨てると加算値は「4」と計算される。用例1の類似度は75であるので、これに加算値4を加算すると、用例1の類似度合計値は79となる。
一方、用例2の「ブランド」、「ファン」、「利益」は、図3に示すように、すべて未登録の名詞単語であるので出現頻度は「0」である。従って、用例2の加算値は「0」と計算される。用例2の類似度は75であるので、これに加算値0を加算すると、用例2の類似度合計値は75となる。
翻訳用例選出部33は、最も大きい類似度合計値の翻訳用例を選出する。この場合は、用例1の類似度合計値が79で用例2の類似度合計値が75であるので、用例1が選出される。翻訳対象原文の内容を考慮すると、用例1の方が用例2より有用である。以上のように、コーパス36を利用することによって翻訳対象原文と同じ分野の翻訳用例の類似度を高くすることで、より有用な翻訳用例を類似文として利用者に提示することができる。
このように、類似度の近い翻訳用例が複数ある場合、翻訳者の指定する分野の単語の出現頻度を利用することにより、指定の分野に近い訳文を持つ翻訳用例ほど類似度が高くなるため、単語の出現頻度を利用しない場合に比べ、より翻訳者の希望に近い類似文が検出される。
以上の説明では、類似度に加点するポイントについて、出現頻度をもとに計算したが、出現頻度だけではなく更新日時の情報も合わせて利用してもよい。一般的に、長い期間をかけてコーパス36を作成する場合、古い単語情報よりも新しい単語情報の方がより有用である場合が多い。そこで、更新日時が新しいものほど加点ポイントが大きくなるよう重みを付けることによって、単語の新鮮さを類似文検索における指標へ反映させる。更新日時と係数との例を以下に示す。
現在から 係数
半年以内 :1.0
1年以内 :0.9
3年以内 :0.8
3年以上経過 :0.7
具体例として以下の翻訳対象原文及び類似度の高い翻訳用例として検出された用例1、用例2を考える。また、利用するコーパス36には、図7に示すような単語情報が登録されていたとする。
翻訳対象原文
The government must fix a safety net immediately.
用例1
原文:The city must fix a safety net immediately.
訳文:市は早急に安全網を整備しなければならない。
用例2
原文:The prefecture must fix a safety net immediately.
訳文:県は早急にセーフティーネットを整備しなければならない。
このとき、類似度に加点するポイントは、出現頻度に更新日時から計算した係数をかけたものを利用する。単純に出現頻度のみを参照した場合、「セーフティーネット」より「安全網」の方が重要な単語となり、用例2より用例1が優先される。
しかし、更新日時による係数をかけた場合、例えば、前述の係数を用いて「安全網」の出現頻度に0.7、「セーフティーネット」の出現頻度に1.0をかけると、加点ポイントは用例2の方が大きくなる。実際、現在では「安全網」という言葉より「セーフティーネット」の方が使われることが多く、用例2を優先的に利用者へ提示することは妥当な判断といえる。
以上のように、翻訳用例を用いて翻訳を行う場合に、類似した翻訳用例が複数検索された際、それら複数の翻訳用例に対して名詞単語の出現頻度や更新日時の情報をもとにポイントを加点することによって、翻訳する分野により近くより新しい訳し方を持つ翻訳用例が優先的に検出されるようになる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11…用例翻訳システム、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…表示装置、18…入力装置、19…マウス、20…キーボード、21a…読み取り装置、21b…読み込み装置、22…ハードディスクドライブ、23…入力処理部、24…制御部、25…記憶部、26…出力処理部、27…表示装置、28…翻訳部、29…用例検索部、30…翻訳用例優先度判定部、31…形態素解析部、32…加点値計算部、33…翻訳用例選出部、34…翻訳用例データベース、35…形態素解析辞書、36…コーパス

Claims (6)

  1. 翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、
    文を形態素解析する際に参照する形態素解析辞書と、
    所定の分野の文書で用いられた単語の出現頻度を格納したコーパスとを記憶した記憶装置と、
    前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索する用例検索部と、
    前記用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出する形態素解析部と、
    前記形態素解析部で抽出された単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点する加点値計算部と、
    前記加点後の類似度に基づいて翻訳用例を選出する翻訳用例選出部と、
    を備えた用例翻訳システム。
  2. 前記コーパスは単語の出現頻度の更新日時情報をさらに格納し、前記加点値計算部は前記加点について前記更新日時情報の新しいものほど大きな重み付けをする請求項1記載の用例翻訳システム。
  3. 翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、文を形態素解析する際に参照する形態素解析辞書と、所定の分野の文書で用いられた単語の出現頻度を単語頻度情報として格納したコーパスとを予め記憶装置に記憶しておき、
    前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索し、
    複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出し、
    抽出された前記単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点し、
    前記加点後の類似度に基づいて翻訳用例を選出して翻訳用例とする用例翻訳方法。
  4. 前記コーパスに前記単語頻度情報に加え単語の出現頻度の更新日時情報を予め格納しておき、前記単語の出現頻度に応じて計算した加算値に前記更新日時情報の新しいものほど大きな重み付け係数を乗算した加算値を計算する請求項3記載の用例翻訳方法。
  5. 前記用例翻訳プログラム、翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベース、翻訳用例訳文を形態素解析する際に参照する形態素解析辞書、所定の分野の文書で用いられた単語の出現頻度を単語頻度情報として格納したコーパスを予め記憶した記憶装置と、前記翻訳対象原文を入力するとともに操作に必要な情報を入力する入力装置と、前記翻訳対象原文や前記翻訳用例を表示する表示装置と、前記用例翻訳プログラムを演算実行する演算制御装置とを備えた用例翻訳システムとして機能させるためのコンピュータにおいて、
    前記コンピュータを、
    前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索する用例検索手段と、
    前記用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出する形態素解析手段と、
    前記形態素解析部で抽出された前記単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点する加点値計算手段と、
    前記加点後の類似度に基づいて翻訳用例を選出する翻訳用例選出手段として機能させるための用例翻訳プログラム。
  6. 前記コーパスに前記単語頻度情報に加え単語の出現頻度の更新日時情報を予め格納しておき、前記加点値計算手段は単語の出現頻度に応じて計算した加算値に、前記更新日時情報の新しいものほど大きな重み付け係数を乗算した加算値を計算する請求項5記載の用例翻訳システム。
JP2010260845A 2010-11-24 2010-11-24 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム Active JP5204203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010260845A JP5204203B2 (ja) 2010-11-24 2010-11-24 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010260845A JP5204203B2 (ja) 2010-11-24 2010-11-24 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2012113459A true JP2012113459A (ja) 2012-06-14
JP5204203B2 JP5204203B2 (ja) 2013-06-05

Family

ID=46497622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010260845A Active JP5204203B2 (ja) 2010-11-24 2010-11-24 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム

Country Status (1)

Country Link
JP (1) JP5204203B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5763830B1 (ja) * 2014-12-25 2015-08-12 パナソニック株式会社 翻訳装置、翻訳方法、および翻訳プログラム
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
KR20170073354A (ko) * 2015-12-18 2017-06-28 한국전자통신연구원 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법
CN112085090A (zh) * 2020-09-07 2020-12-15 百度在线网络技术(北京)有限公司 翻译方法、装置以及电子设备
CN112836529A (zh) * 2021-02-19 2021-05-25 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置
CN113743130A (zh) * 2020-05-28 2021-12-03 阿里巴巴集团控股有限公司 翻译方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308319A (ja) * 2002-04-16 2003-10-31 Communication Research Laboratory 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
JP2006309346A (ja) * 2005-04-26 2006-11-09 Toshiba Corp 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2009123067A (ja) * 2007-11-16 2009-06-04 Hitachi Systems & Services Ltd 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308319A (ja) * 2002-04-16 2003-10-31 Communication Research Laboratory 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
JP2006309346A (ja) * 2005-04-26 2006-11-09 Toshiba Corp 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2009123067A (ja) * 2007-11-16 2009-06-04 Hitachi Systems & Services Ltd 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN105608083B (zh) * 2014-11-13 2019-09-03 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
JP5763830B1 (ja) * 2014-12-25 2015-08-12 パナソニック株式会社 翻訳装置、翻訳方法、および翻訳プログラム
KR20170073354A (ko) * 2015-12-18 2017-06-28 한국전자통신연구원 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법
KR101991486B1 (ko) 2015-12-18 2019-06-20 한국전자통신연구원 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법
CN113743130A (zh) * 2020-05-28 2021-12-03 阿里巴巴集团控股有限公司 翻译方法、装置、设备和存储介质
CN112085090A (zh) * 2020-09-07 2020-12-15 百度在线网络技术(北京)有限公司 翻译方法、装置以及电子设备
CN112836529A (zh) * 2021-02-19 2021-05-25 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置
CN112836529B (zh) * 2021-02-19 2024-04-12 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置

Also Published As

Publication number Publication date
JP5204203B2 (ja) 2013-06-05

Similar Documents

Publication Publication Date Title
US11222167B2 (en) Generating structured text summaries of digital documents using interactive collaboration
US8666994B2 (en) Document analysis and association system and method
US20080021891A1 (en) Searching a document using relevance feedback
JP5204203B2 (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP2016099741A (ja) 情報抽出支援装置、方法およびプログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
Lin et al. A simple but effective method for Indonesian automatic text summarisation
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
Berdyugina et al. Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing
WO2018150453A1 (ja) データ分析装置およびデータ分析方法
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
JP2014119988A (ja) 同義判定装置、同義学習装置、及びプログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP5594225B2 (ja) 知識獲得装置、知識取得方法、及びプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130214

R150 Certificate of patent or registration of utility model

Ref document number: 5204203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350