JP4502615B2 - 類似文検索装置、類似文検索方法、およびプログラム - Google Patents

類似文検索装置、類似文検索方法、およびプログラム Download PDF

Info

Publication number
JP4502615B2
JP4502615B2 JP2003336405A JP2003336405A JP4502615B2 JP 4502615 B2 JP4502615 B2 JP 4502615B2 JP 2003336405 A JP2003336405 A JP 2003336405A JP 2003336405 A JP2003336405 A JP 2003336405A JP 4502615 B2 JP4502615 B2 JP 4502615B2
Authority
JP
Japan
Prior art keywords
sentence
similarity
translation
similar
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003336405A
Other languages
English (en)
Other versions
JP2005107597A (ja
Inventor
真一郎 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003336405A priority Critical patent/JP4502615B2/ja
Publication of JP2005107597A publication Critical patent/JP2005107597A/ja
Application granted granted Critical
Publication of JP4502615B2 publication Critical patent/JP4502615B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、類似文検索装置、類似文検索方法、およびプログラムに関し、特に、翻訳すべき文に類似した文を多数の用例文の中から検索する類似文検索装置、類似文検索方法、およびプログラムに関する。
ある第1の言語(例えば、英語)で書かれた文章から、第2の言語(例えば、日本語)で書かれる文書への翻訳を支援する方法の1つとして、「翻訳メモリ」と呼ばれる技術が(例えば、特許文献1)がある。
「翻訳メモリ」を利用した翻訳とは、新しい文を翻訳する際に、あらかじめ保持している対訳用例文集から類似する用例文を検索し、その用例文を利用して新しい文の翻訳を行うものである。
仮に、翻訳すべき新しい文と完全に一致する文が対訳用例文集に含まれていれば、一致する文の対訳を新しい文の翻訳として採用する。また、完全に一致する文が対訳用例文集に含まれていなくても、類似する文が対訳用例文集に含まれていれば、類似する文を利用して翻訳を行う。すなわち、類似する文と翻訳すべき新しい文との間で、同一の部分は類似する文の(対訳の)対応する部分を翻訳として採用し、一致しない部分は翻訳作業者が新しく翻訳する。
このように「翻訳メモリ」を利用することで、翻訳にかかる手間を低減することができる。
特開平10−312382号公報(第3−4頁、図1)
翻訳にかかる手間を低減させるには、翻訳すべき文に最も類似した用例文を対訳用例文集から検索する必要がある。この時、翻訳すべき文との類似度を尺度として評価する。
類似度を、以下の(5)式により算出する場合の例を説明する。
類似度=2×(翻訳すべき文と用例文とに共通して出現する単語数)/(翻訳すべき文に含まれる単語数+用例文に含まれる単語数) ・・・ (5)
そして、今、翻訳すべき文を、
I want a reserved-seat ticket.
とし、
対訳用例文集の英文に
I want a reserved-seat ticket for the train from Kyoto to Nagoya starting at 7 p.m.

I lost a ticket.
とが含まれているものとする。(以下、1番目の英文を翻訳対象文、2番目の英文を用例文1、3番目の英文を用例文2とする。)
翻訳対象文と、用例文1、2とのそれぞれの類似度を(5)式により求めると、それぞれ、10/21(約0.48)、6/9(約0.67)となる。
このように、翻訳対象文が用例文1に包含されているので、用例文1を利用すれば、翻訳対象文を実質的に翻訳しないで済むにもかかわらず、翻訳対象文が用例文1より用例文2の方に類似していると判断される場合がある。このように、再利用可能な用例文が正しく見つけられない場合が存在する。
また、この類似度を百分率で表示するものがあるが、その数値の意味が直感的に理解できるものではない、という問題があった。
本発明は、上記問題に鑑みてなされたもので、翻訳作業の効率を向上させる、類似文検索装置、類似文検索方法およびプログラムを提供することを目的とする。
本発明の第1の観点にかかる類似文検索装置は、
用例文を複数記憶する用例文記憶手段と、
翻訳対象文を受け付ける翻訳対象文受付手段と、
前記翻訳対象文受付手段で受け付けた翻訳対象文と、前記用例文記憶手段に記憶されている各用例文との類似度を、単語出現率を求める以下の(6)式により算出する類似度算出手段と、
前記類似度算出手段により算出された類似度の高い順に、用例文を所定数出力する類似文出力手段と、
を具備することを特徴とする類似文検索装置。
単語出現率=(前記翻訳対象文に含まれる単語のうち、前記用例文の中に出現する単語数)/(前記翻訳対象文に含まれる単語数) ・・・ (6)
上記類似文検索装置において、
前記用例文記憶手段は、各用例文と共に、用例文と同じ内容を表す該用例文とは異なる言語で記述された対訳用例文をそれぞれ記憶してもよい。
この場合、
前記類似文出力手段は、例えば、前記類似度算出手段により算出された前記類似度の高い順に、用例文と共に、該用例文と同じ内容を表す対訳用例文を所定数出力する手段とすることができる。
上記類似文検索装置において、
各用例文と、用例文と同じ内容を表す対訳用例文との、訳語の対応関係を示す情報である対応情報を記憶する対訳関係記憶手段と、
前記翻訳対象文において、用例文に一致する部分を、前記対応情報に基づいて、該用例文と同じ内容を表す対訳用例文の、対応する部分で置換した文を出力する半翻訳文出力手段と、
を具備するようにしてもよい。
この発明によれば、翻訳すべき文を翻訳する際に類似度の高い既存の対訳用例文を再利用することができるので、翻訳作業の労力を低減させることができる。
上記類似文検索装置において、
前記類似度算出手段は、前記翻訳対象文受付手段で受け付けた翻訳対象文に対する、前記各用例文の類似度を、文節または句の出現率を求める以下の(7)式により算出する手段であることを特徴とする請求項1、2または3に記載の類似文検索装置。
文節または句の出現率=(前記翻訳対象文に含まれる文節または句のうち、前記用例文の中に出現する文節または句の数)/(前記翻訳対象文に含まれる文節または句の数) ・・・ (7)
この発明によれば、単に単語が一致した場合に類似度が高く評価されることを避けることができる。
上記類似文検索装置は、
文字の挿入と削除との操作を行って、仮に、一方の文を他方の文に変化させた場合の、文字の挿入と削除との操作の回数の和である、前記一方の文と前記他方の文とのエディット距離を算出するエディット距離算出手段と、
前記文との前記類似度が同一である複数の用例文があるか否かを判別する同一値判別手段と、
を具備してもよい。
この場合、前記類似文出力手段は、前記同一値判別手段により、前記類似度が同一である複数の用例文が存在すると判別した場合に、さらに、該前記エディット距離算出手段で算出する、各前記複数の用例文と前記翻訳対象文とのエディット距離の昇順に前記類似度が同一である複数の用例文の間で順位付けをする。
上記類似文検索装置において、
前記類似文出力手段は、さらに、前記文に対する前記用例文の前記類似度を分数の形式で表示するようにしてもよい。
この発明によれば、入力した文に含まれる単語(あるいは、文節または句)が、あらかじめ入力されている文にどれだけ含まれているかが容易に確認できるので、2つの文の類似度が翻訳作業者にとって理解しやすいものとなる。
本発明は、翻訳対象文に含まれる単語(または、文節あるいは句)がいくつ、用例文に出現しているかによって、用例文の翻訳対象文との類似度を計算する。したがって、翻訳対象文に含まれる単語が用例文に含まれれば含まれるほど、類似する文として選択されやすくなる。このため、翻訳作業の効率が向上する。
また、本発明は、計算した類似度を分数形式で表示させるようにすることにしたため、類似度の意味を翻訳作業者に明確に示すことができる。そのため類似する文を検索した結果を利用しやすい。したがって、翻訳作業の効率が向上する。
本発明の実施の形態にかかる翻訳支援システムの構成を図1に示す。
図示するように、翻訳サーバ100と、複数台の端末200とが、通信ネットワークCを介して接続されている。
翻訳サーバ100は、例えば、メインフレームや、PC(Personal Computer)サーバなどの情報処理装置から構成される。翻訳サーバ100は、端末200から、第1の言語(例えば、英語)で記述された翻訳すべき文を受け付け、翻訳サーバ100に格納された、第1の言語で記述された用例文のうち、この翻訳すべき文に類似する用例文に対応する、第2の言語(例えば、日本語)で記述された用例文を端末200に送信する。このような翻訳サーバ100の構成を、図2を参照して説明する。
図示するように、翻訳サーバ100は、制御部110と、通信制御部120と、入力制御部130と、出力制御部140と、記憶部150と、対訳文データベース(DB)160とから構成される。
制御部110は、例えば、CPU(Central Processing Unit:中央演算処理装置)やワークエリアとなる所定の記憶装置(例えば、RAM(Random Access Memory))から構成され、翻訳サーバ100の各部を制御するとともに、記憶部150に格納されている所定の動作プログラムに基づいて後述する各処理を実行する。
通信制御部120は、例えば、NIC(Network Interface Card)やルータなどの所定の通信装置から構成され、翻訳サーバ100と通信ネットワークCとを接続し、端末200との通信を行う。
入力制御部130は、例えば、キーボードやポインティングデバイスなどの所定の入力装置13を接続し、入力装置13から入力された、制御部110への指示などを受け付けて制御部110に伝達する。
出力制御部140は、例えば、ディスプレイ装置やプリンタなどの所定の出力装置14を接続し、制御部110の処理結果などを必要に応じて出力装置14に出力する。
記憶部150は、例えば、ハードディスク装置やROM(Read Only Memory)などの所定の記憶装置から構成され、制御部110が実行する種々の動作プログラムが格納されている。記憶部150に格納される動作プログラムには、翻訳サーバ100の基本動作を司る任意のOS(Operating System:基本ソフトウェア)の他に、OSと協働して後述する各処理を実現するための、以下の(1)〜(5)に示すような動作プログラムが含まれているものとする。後述する翻訳サーバ100による処理は、制御部110がこれらの動作プログラムを実行することで実現される。
(1)「通信プログラム」:通信制御部120を制御し、通信ネットワークCを介して端末200と通信を行うプログラム。
(2)「DB制御プログラム」:対訳文DB160を制御するプログラム。
(3)「形態素解析プログラム」:入力された英文を単語単位に分割して、出力するプログラム。
(4)「類似文検索グラム」:端末200で入力された英文に類似する用例文を検索するプログラム。
(5)「ウェブサーバプログラム」:翻訳サーバ100をウェブサーバとして機能させるためのプログラムであり、主に、翻訳作業者が翻訳する際のインターフェースとなるウェブページを提供するために、ウェブサイトの構築・管理ならびに種々のウェブページの作成・更新などを行う。
本実施の形態では、「類似文検索プログラム」は類似度算出部とエディット距離算出部とソート部とを備える。
類似度算出部は、2つの文の類似度を、以下の(10)式により計算する。つまり、単語出現率を求める以下の(10)式を用いて、類似度を計算する。
単語出現率=(翻訳すべき文に含まれる単語のうち英語で記述された用例文の中に出現する単語数)/(翻訳すべき文に含まれる単語数) ・・・ (10)
エディット距離算出部は2つの文(翻訳すべき文と、英語で記述された各用例文)の間のエディット距離を計算する。
ここで、エディット距離とは、挿入と削除とを繰り返して、ある文字列から別の文字列へ変換する場合の、挿入の回数と削除の回数との和の最小の数である。ただし、挿入、削除共に1文字につき1回の操作として計算する。
したがって、訳文にエディット距離が最小の文を選択すれば、編集者が翻訳サーバ100が提示した訳文を修正する手間が減る。
ソート部は、英語で記述された複数の用例文を、上記(10)で算出した類似度の降順でソートする。同じ類似度を持つ用例文が複数ある場合には、さらに、それらの用例文をエディット距離算出部で求めたエディット距離の昇順でソートする。
対訳文DB160は、例えば、半導体記憶装置やハードディスク装置などの書き換え可能な記憶装置などから構成され、多数の用例文を英文と和文とで格納する。
図3は対訳文DB160に記録される対訳文情報の例を示す図である。図3(A)に図示するように、対訳文DB160には、各訳形式で格納される用例文の組に一意に割り当てられた「識別番号」を主キーとしたレコードが作成され、各レコードにはそれぞれ、英語の用例文と、それに対応する日本語の用例文と、この2つの用例文の対応関係を示す情報である対応情報とが記録される。
図3(B)に図示するように、対応情報は、訳語の対応関係(図では矢印で示している。対応する訳語が無い場合は矢印を省略している。)を示す情報と、訳語の並んでいる順序を示す情報とを含む。英語の用例文と日本語の用例文とは単語レベルで、ほぼ1対1に対応付けられている。
端末200は翻訳作業者により利用される端末装置であり、通常のパーソナルコンピュータなどから構成され、本翻訳支援システム1を利用する各部署に設置される。また、端末200は、通信ネットワークCに接続されている。すなわち、端末200は、例えば、NICやルータなどの所定の通信装置を備えることで通信ネットワークCに接続可能な構成を有し、これにより、通信ネットワークCを介して翻訳サーバ100と通信を行う。このような端末200の構成を、図4を参照して説明する。
図示するように、端末200は、制御部210と、通信制御部220と、入力制御部230と、出力制御部240と、記憶部250とから構成される。
制御部210は、例えば、CPUやワークエリアとなる所定の記憶装置(例えばRAMやROMなど)から構成され、端末200の各部を制御するとともに、記憶部250に格納されている所定の動作プログラムに基づいて後述する各処理を実行する。
通信制御部220は、例えば、NICやルータなどの所定の通信装置から構成され、端末200と通信ネットワークCとを接続し、翻訳サーバ100との通信を行う。
入力制御部230は、例えば、キーボードやポインティングデバイスなどの所定の入力装置23を接続し、入力装置23から入力された、制御部210への指示などを受け付けて制御部210に伝達する。
出力制御部240は、例えば、ディスプレイ装置やプリンタなどの所定の出力装置24を接続し、制御部210の処理結果などを必要に応じて出力装置24に出力する。
図5は、出力装置24が備える表示画面300の表示例である。図示するように、英文編集エリア310と、和文編集エリア320とを備える。
英文編集エリア310の下方に、「翻訳」ボタン311等が配置されている。翻訳作業者がこの「翻訳」ボタン311をクリックすると、英文編集エリア310に入力された英文が翻訳サーバ100に送信される。
和文編集エリア320の下方に、「保存」ボタン321等が配置されている。翻訳サーバ100が送信した(一部が和訳された)和文が、和文編集エリア320に対訳形式で表示される。翻訳作業者は、和文編集エリアで和文を修正することが可能である。編集担当者が、「保存」ボタンをクリックすると、端末200は(編集後の)和文を記憶部250などに保存する。
なお、理解を容易にするため、表示画面300において、本発明の説明に直接関係しない部分は、簡略化あるいは省略されている。しかし、これらの表示画面が端末200に通常用いられるコンピュータが備えるGUI(Graphical User Interface)を適宜有することは言うまでもない。
図4に戻り、記憶部250は、例えば、ハードディスク装置やROMなどの所定の記憶装置から構成され、制御部210が実行する種々の動作プログラムが格納されている。記憶部250に格納される動作プログラムには、端末200の基本動作を司る任意のOSの他に、OSと協働して後述する各処理を実現するための、以下の(1)、(2)に示すような動作プログラムが含まれているものとする。後述する端末200による処理は、制御部210がこれらの動作プログラムを実行することで実現される。
(1)「通信プログラム」:通信制御部220を制御し、通信ネットワークCを介して翻訳サーバ100と通信を行うプログラム。
(2)「ウェブブラウザプログラム」:端末200をウェブブラウザとして機能させるためのプログラム。
このような構成の翻訳支援システムの特徴は、図8に示すように表すことができる。
次に、本実施の形態にかかる翻訳支援システム1の動作を、図面を参照して説明する。本実施の形態にかかる翻訳支援システム1は、翻訳サーバ100が提供するウェブページをインターフェースとして、翻訳作業者が端末200からアクセスし、端末200から入力された英文を日本語に翻訳する手助けを翻訳サーバ100が行うものである。
図6に示すフローチャートを参照して、この「翻訳支援処理」を説明する。
翻訳作業者は、英文編集エリア310に英文を入力、あるいは、既に入力された英文ファイルの内容を英文編集エリア310にコピーする。そして、この「翻訳支援処理」は、翻訳作業者が、図5に示すような表示画面300に表示される、「翻訳」ボタン311をクリックしたことを契機として開始される。
翻訳サーバ100はまず、入力された英文を1文ずつ、形態素解析プログラムで処理して、単語単位に分解する。そして、類似度算出部で、対訳文DB160に格納された英語の用例文と入力された英文との類似度を、各用例文において算出する(ステップS101)。
次に、ソート部で、ステップS101で算出した類似度の降順で英語の用例文をソートする(ステップS102)。この時、同一の類似度を持つ用例文がある場合は、エディット距離算出部で、それらの用例文の、入力された英文とのエディット距離を算出する。そして、エディット距離の昇順でそれらの用例文をソートする。
最後に、翻訳サーバ100は、類似度の高い用例文のうち、所定個数の英語の用例文(例えば、3つ)とその用例文に対応する日本語の用例文を、対訳文DB160から読み出す。そして、用例文と、翻訳すべき文と類似度とを、端末200に送信する(ステップS103)。そして、「類似文検索処理」を終了する。なお、入力された英文が複数ある場合は、この「類似文検索処理」を入力された英文の数だけ繰り返す。
端末200は、送信された英語の用例文と、その英語の用例文と同じ内容を表す和文とを、図7に示すような、その(分数形式で表現された)類似度と共にポップアップウィンドウなどにリスト表示する。各英語の用例文の横には、例えば、ラジオボタンなどの択一的選択手段が付されている。
翻訳作業者が、翻訳に利用したい用例文を選択して、ページ下段の「選択ボタン」をクリックすると、端末200は選択された英語の用例文を指定する情報を、翻訳サーバ100に送信する。
翻訳サーバ100は、翻訳すべき文の英語の用例文と一致した部分を、その英語の用例文の対応情報に記された対応する、日本語の用例文の部分を訳語として採用し、一部分が日本語に翻訳された文を作成して、端末200に送信する。
端末200は、この少なくとも一部が日本語に翻訳された文を受信し、和文編集エリア320に、編集可能な状態で表示する。
翻訳作業者が、類似文1を選択して、選択ボタンをクリックした場合、翻訳サーバ100は、対応情報に基づいて、入力されている翻訳すべき文「I want a reserved-seat ticket.」から「指定席券を1枚ください。」という文を作成して、端末200に送信する。
なお、図7は、上述の翻訳対象文に対する、用例文1、用例文2それぞれの類似度を (10)式を用いて、計算した結果を表示している例でもある。用例文1、用例文2の類似度はそれぞれ、1(=5/5)、3/5となり、翻訳サーバ100は正しく、類似文を検索する。また、図示するように、類似文2の類似度と類似文3の類似度とは同一であるが、エディット距離の大小により、類似文2が類似文3より、翻訳対象文に類似していると翻訳サーバ100は判断している。
以上説明したように、上記実施の形態にかかる翻訳支援システム1によれば、翻訳作業者が入力した翻訳すべき文に類似する例文を対訳文DBから検索し、その類似する文の翻訳すべき文との類似度が分数形式で表示する。よって、翻訳すべき文に類似した例文が翻訳作業者に提示され、またその類似度が直感的な形式で表示されるので、翻訳作業の労力が低減される。
なお、本発明は上記実施の形態に限定されず、種々の変形および応用が可能である。
上記実施の形態では、英文和訳の例を示したが、これに限らず、他の言語であってもよい。
また、上記実施の形態では、類似する文を選択する際の類似度を計算する単位を単語としたが、文節あるいは句を単位とすることができる。この場合、例えば、形態素解析の手法を用いて、文を文節あるいは句に分割し、文節あるいは句の単位で類似度を計算する。また、上述の対応情報も文節あるいは句の単位で対応付けがされているものとする。このようにすれば、多義性を持つ単語の訳語を正しく選択できる可能性が高くなったり、単に翻訳すべき文を構成する単語がすべて偶然に含まれているような文が選択される可能性が低くなったりすることが期待できる。
また、比較する単語を名詞や動詞などの自立語に限定するようにしてもよい。さらに、活用形が異なっていても同一と見なすようにしてもよい。(例えば、単複の違い、三単現など。)
また、本発明の翻訳サーバ100は、専用の装置によらず通常のコンピュータシステムを用いて実現可能である。例えば、コンピュータに上述の動作、などを実行するためのプログラムを格納した媒体(CD−ROM等)から該プログラムをインストールすることにより、上述の処理を実行する翻訳サーバ100等を構成することができる。なお、上述の機能を、OSとアプリケーションとの分担、またはOSとアプリケーションとの共同により実現するなどの場合には、OS以外の部分のみを媒体に格納してもよい。
なお、搬送波にプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板(BBS、Bulletin Board System)に該プログラムを掲示し、ネットワークを介して該プログラムを配信してもよい。そして、このプログラムを起動し、オペレーティングシステムの制御下で、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行できるように構成しても構わない。
本発明の実施の形態にかかる翻訳支援システムの構成を示すブロック図である。 図1の翻訳サーバの構成を示すブロック図である。 図2の対訳文DBに格納される(A)対訳文情報の例と、(B)対訳文情報に含まれる対応情報の例を示す図である。 図1の端末の構成を示すブロック図である。 図4の出力装置に表示される表示画面の表示例を示す図である。 本発明の実施の形態にかかる「類似文検索処理」を説明するためのフローチャートである。 「類似文検索処理」により検索された用例文を端末側で、翻訳作業者に選択させるために表示される画面の表示例を示す図である。 翻訳支援システムの特徴を示すブロック図である。
符号の説明
1 翻訳支援システム
100 翻訳サーバ
110 制御部
120 通信制御部
130 入力制御部
140 出力制御部
150 記憶部
160 対訳文DB
200 端末
210 制御部
220 通信制御部
230 入力制御部
240 出力制御部
250 記憶部

Claims (5)

  1. 用例文を複数記憶する用例文記憶手段と、
    翻訳対象文を受け付ける翻訳対象文受付手段と、
    前記翻訳対象文受付手段で受け付けた翻訳対象文と、前記用例文記憶手段に記憶されている各用例文との類似度を、単語出現率を求める以下の(1)式により算出する類似度算出手段と、
    文字の挿入と削除との操作を行って、仮に、一方の文を他方の文に変化させた場合の、文字の挿入と削除との操作の回数の和である、前記一方の文と前記他方の文とのエディット距離を算出するエディット距離算出手段と、
    前記文との前記類似度が同一である複数の用例文があるか否かを判別する同一値判別手段と、
    前記類似度算出手段により算出された類似度の高い順に、用例文を所定数出力し、前記同一値判別手段により、前記類似度が同一である複数の用例文が存在すると判別した場合に、さらに、該前記エディット距離算出手段で算出する、各前記複数の用例文と前記翻訳対象文とのエディット距離の昇順に前記類似度が同一である複数の用例文の間で順位付けをする類似文出力手段を、
    を具備することを特徴とする類似文検索装置。
    単語出現率=(前記翻訳対象文に含まれる単語のうち、前記用例文の中に出現する単語数)/(前記翻訳対象文に含まれる単語数) ・・・ (1)
  2. 前記用例文記憶手段は、各用例文と共に、用例文と同じ内容を表す該用例文とは異なる言語で記述された対訳用例文をそれぞれ記憶する手段であって、
    前記類似文出力手段は、前記類似度算出手段により算出された前記類似度の高い順に、用例文と共に、該用例文と同じ内容を表す対訳用例文を所定数出力する手段であること、 を特徴とする請求項1に記載の類似文検索装置。
  3. 前記類似文検索装置は、
    各用例文と、用例文と同じ内容を表す対訳用例文との、訳語の対応関係を示す情報である対応情報を記憶する対訳関係記憶手段と、
    前記翻訳対象文において、用例文に一致する部分を、前記対応情報に基づいて、該用例文と同じ内容を表す対訳用例文の、対応する部分で置換した文を出力する半翻訳文出力手段と、
    を、さらに具備することを特徴とする請求項2に記載の類似文検索装置。
  4. 前記類似度算出手段は、前記翻訳対象文受付手段で受け付けた翻訳対象文に対する、前記各用例文の類似度を、文節または句の出現率を求める以下の(2)式により算出する手段であることを特徴とする請求項1、2または3に記載の類似文検索装置。
    文節または句の出現率=(前記翻訳対象文に含まれる文節または句のうち、前記用例文の中に出現する文節または句の数)/(前記翻訳対象文に含まれる文節または句の数) ・・・ (2)
  5. 前記類似文出力手段は、さらに、前記文に対する前記用例文の前記類似度を分数の形式で出力する手段であることを特徴とする請求項1乃至の何れか1項に記載の類似文検索装置。
JP2003336405A 2003-09-26 2003-09-26 類似文検索装置、類似文検索方法、およびプログラム Expired - Fee Related JP4502615B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003336405A JP4502615B2 (ja) 2003-09-26 2003-09-26 類似文検索装置、類似文検索方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003336405A JP4502615B2 (ja) 2003-09-26 2003-09-26 類似文検索装置、類似文検索方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2005107597A JP2005107597A (ja) 2005-04-21
JP4502615B2 true JP4502615B2 (ja) 2010-07-14

Family

ID=34532553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003336405A Expired - Fee Related JP4502615B2 (ja) 2003-09-26 2003-09-26 類似文検索装置、類似文検索方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP4502615B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2367320A1 (en) 1999-03-19 2000-09-28 Trados Gmbh Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
JP3984642B2 (ja) * 2005-07-06 2007-10-03 松下電器産業株式会社 対話支援装置
WO2007007502A1 (ja) 2005-07-13 2007-01-18 Matsushita Electric Industrial Co., Ltd. 対話支援装置
JP2008065395A (ja) 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
JP5239307B2 (ja) 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
JP5298833B2 (ja) * 2008-12-23 2013-09-25 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
JP5257189B2 (ja) * 2009-03-25 2013-08-07 富士通株式会社 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
JP5391867B2 (ja) * 2009-06-26 2014-01-15 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
JP5186453B2 (ja) * 2009-08-07 2013-04-17 ヤフー株式会社 検索装置及び方法
JP5521669B2 (ja) * 2010-03-17 2014-06-18 富士ゼロックス株式会社 パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP5521670B2 (ja) * 2010-03-17 2014-06-18 富士ゼロックス株式会社 パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
KR102228205B1 (ko) * 2019-01-02 2021-03-17 유한회사 탐윈 번역 관리 시스템 및 그 방법
CN111291162B (zh) * 2020-02-26 2024-04-09 深圳前海微众银行股份有限公司 质检例句挖掘方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP2005107597A (ja) 2005-04-21

Similar Documents

Publication Publication Date Title
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
KR100643801B1 (ko) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
JPH113338A (ja) 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体
JP2002334070A (ja) 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
JP2008165563A (ja) 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP2004252944A (ja) プログラム、文字入力編集方法、装置及び記録媒体
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JP2008299675A (ja) かな混在表記抽出装置、方法及びプログラム
JP2009015395A (ja) 辞書構築支援装置および辞書構築支援プログラム
US20150186363A1 (en) Search-Powered Language Usage Checks
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JPH10307835A (ja) 情報処理装置及びその方法
JP3071703B2 (ja) 表作成装置およびその方法
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP2010146061A (ja) 例文表示装置、例文表示方法および例文表示プログラム
JPH10283368A (ja) 情報処理装置及びその方法
JP5897711B2 (ja) 入力支援装置、入力支援方法、及び入力支援プログラム
JP2000322442A (ja) データベース検索装置およびデータベース検索プログラム記憶媒体
WO2023171790A1 (ja) 文章作成支援装置及び文章作成支援プログラム
JP2006185380A (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JP3210842B2 (ja) 情報処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070227

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070329

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080604

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100225

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140430

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees