JP4502615B2 - 類似文検索装置、類似文検索方法、およびプログラム - Google Patents
類似文検索装置、類似文検索方法、およびプログラム Download PDFInfo
- Publication number
- JP4502615B2 JP4502615B2 JP2003336405A JP2003336405A JP4502615B2 JP 4502615 B2 JP4502615 B2 JP 4502615B2 JP 2003336405 A JP2003336405 A JP 2003336405A JP 2003336405 A JP2003336405 A JP 2003336405A JP 4502615 B2 JP4502615 B2 JP 4502615B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- translation
- similar
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このように「翻訳メモリ」を利用することで、翻訳にかかる手間を低減することができる。
類似度=2×(翻訳すべき文と用例文とに共通して出現する単語数)/(翻訳すべき文に含まれる単語数+用例文に含まれる単語数) ・・・ (5)
I want a reserved-seat ticket.
とし、
対訳用例文集の英文に
I want a reserved-seat ticket for the train from Kyoto to Nagoya starting at 7 p.m.
と
I lost a ticket.
とが含まれているものとする。(以下、1番目の英文を翻訳対象文、2番目の英文を用例文1、3番目の英文を用例文2とする。)
用例文を複数記憶する用例文記憶手段と、
翻訳対象文を受け付ける翻訳対象文受付手段と、
前記翻訳対象文受付手段で受け付けた翻訳対象文と、前記用例文記憶手段に記憶されている各用例文との類似度を、単語出現率を求める以下の(6)式により算出する類似度算出手段と、
前記類似度算出手段により算出された類似度の高い順に、用例文を所定数出力する類似文出力手段と、
を具備することを特徴とする類似文検索装置。
単語出現率=(前記翻訳対象文に含まれる単語のうち、前記用例文の中に出現する単語数)/(前記翻訳対象文に含まれる単語数) ・・・ (6)
前記用例文記憶手段は、各用例文と共に、用例文と同じ内容を表す該用例文とは異なる言語で記述された対訳用例文をそれぞれ記憶してもよい。
この場合、
前記類似文出力手段は、例えば、前記類似度算出手段により算出された前記類似度の高い順に、用例文と共に、該用例文と同じ内容を表す対訳用例文を所定数出力する手段とすることができる。
各用例文と、用例文と同じ内容を表す対訳用例文との、訳語の対応関係を示す情報である対応情報を記憶する対訳関係記憶手段と、
前記翻訳対象文において、用例文に一致する部分を、前記対応情報に基づいて、該用例文と同じ内容を表す対訳用例文の、対応する部分で置換した文を出力する半翻訳文出力手段と、
を具備するようにしてもよい。
前記類似度算出手段は、前記翻訳対象文受付手段で受け付けた翻訳対象文に対する、前記各用例文の類似度を、文節または句の出現率を求める以下の(7)式により算出する手段であることを特徴とする請求項1、2または3に記載の類似文検索装置。
文節または句の出現率=(前記翻訳対象文に含まれる文節または句のうち、前記用例文の中に出現する文節または句の数)/(前記翻訳対象文に含まれる文節または句の数) ・・・ (7)
文字の挿入と削除との操作を行って、仮に、一方の文を他方の文に変化させた場合の、文字の挿入と削除との操作の回数の和である、前記一方の文と前記他方の文とのエディット距離を算出するエディット距離算出手段と、
前記文との前記類似度が同一である複数の用例文があるか否かを判別する同一値判別手段と、
を具備してもよい。
この場合、前記類似文出力手段は、前記同一値判別手段により、前記類似度が同一である複数の用例文が存在すると判別した場合に、さらに、該前記エディット距離算出手段で算出する、各前記複数の用例文と前記翻訳対象文とのエディット距離の昇順に前記類似度が同一である複数の用例文の間で順位付けをする。
前記類似文出力手段は、さらに、前記文に対する前記用例文の前記類似度を分数の形式で表示するようにしてもよい。
図示するように、翻訳サーバ100と、複数台の端末200とが、通信ネットワークCを介して接続されている。
(1)「通信プログラム」:通信制御部120を制御し、通信ネットワークCを介して端末200と通信を行うプログラム。
(2)「DB制御プログラム」:対訳文DB160を制御するプログラム。
(3)「形態素解析プログラム」:入力された英文を単語単位に分割して、出力するプログラム。
(4)「類似文検索グラム」:端末200で入力された英文に類似する用例文を検索するプログラム。
(5)「ウェブサーバプログラム」:翻訳サーバ100をウェブサーバとして機能させるためのプログラムであり、主に、翻訳作業者が翻訳する際のインターフェースとなるウェブページを提供するために、ウェブサイトの構築・管理ならびに種々のウェブページの作成・更新などを行う。
類似度算出部は、2つの文の類似度を、以下の(10)式により計算する。つまり、単語出現率を求める以下の(10)式を用いて、類似度を計算する。
単語出現率=(翻訳すべき文に含まれる単語のうち英語で記述された用例文の中に出現する単語数)/(翻訳すべき文に含まれる単語数) ・・・ (10)
ここで、エディット距離とは、挿入と削除とを繰り返して、ある文字列から別の文字列へ変換する場合の、挿入の回数と削除の回数との和の最小の数である。ただし、挿入、削除共に1文字につき1回の操作として計算する。
したがって、訳文にエディット距離が最小の文を選択すれば、編集者が翻訳サーバ100が提示した訳文を修正する手間が減る。
図3(B)に図示するように、対応情報は、訳語の対応関係(図では矢印で示している。対応する訳語が無い場合は矢印を省略している。)を示す情報と、訳語の並んでいる順序を示す情報とを含む。英語の用例文と日本語の用例文とは単語レベルで、ほぼ1対1に対応付けられている。
(1)「通信プログラム」:通信制御部220を制御し、通信ネットワークCを介して翻訳サーバ100と通信を行うプログラム。
(2)「ウェブブラウザプログラム」:端末200をウェブブラウザとして機能させるためのプログラム。
このような構成の翻訳支援システムの特徴は、図8に示すように表すことができる。
翻訳作業者は、英文編集エリア310に英文を入力、あるいは、既に入力された英文ファイルの内容を英文編集エリア310にコピーする。そして、この「翻訳支援処理」は、翻訳作業者が、図5に示すような表示画面300に表示される、「翻訳」ボタン311をクリックしたことを契機として開始される。
翻訳サーバ100は、翻訳すべき文の英語の用例文と一致した部分を、その英語の用例文の対応情報に記された対応する、日本語の用例文の部分を訳語として採用し、一部分が日本語に翻訳された文を作成して、端末200に送信する。
端末200は、この少なくとも一部が日本語に翻訳された文を受信し、和文編集エリア320に、編集可能な状態で表示する。
100 翻訳サーバ
110 制御部
120 通信制御部
130 入力制御部
140 出力制御部
150 記憶部
160 対訳文DB
200 端末
210 制御部
220 通信制御部
230 入力制御部
240 出力制御部
250 記憶部
Claims (5)
- 用例文を複数記憶する用例文記憶手段と、
翻訳対象文を受け付ける翻訳対象文受付手段と、
前記翻訳対象文受付手段で受け付けた翻訳対象文と、前記用例文記憶手段に記憶されている各用例文との類似度を、単語出現率を求める以下の(1)式により算出する類似度算出手段と、
文字の挿入と削除との操作を行って、仮に、一方の文を他方の文に変化させた場合の、文字の挿入と削除との操作の回数の和である、前記一方の文と前記他方の文とのエディット距離を算出するエディット距離算出手段と、
前記文との前記類似度が同一である複数の用例文があるか否かを判別する同一値判別手段と、
前記類似度算出手段により算出された類似度の高い順に、用例文を所定数出力し、前記同一値判別手段により、前記類似度が同一である複数の用例文が存在すると判別した場合に、さらに、該前記エディット距離算出手段で算出する、各前記複数の用例文と前記翻訳対象文とのエディット距離の昇順に前記類似度が同一である複数の用例文の間で順位付けをする類似文出力手段を、
を具備することを特徴とする類似文検索装置。
単語出現率=(前記翻訳対象文に含まれる単語のうち、前記用例文の中に出現する単語数)/(前記翻訳対象文に含まれる単語数) ・・・ (1) - 前記用例文記憶手段は、各用例文と共に、用例文と同じ内容を表す該用例文とは異なる言語で記述された対訳用例文をそれぞれ記憶する手段であって、
前記類似文出力手段は、前記類似度算出手段により算出された前記類似度の高い順に、用例文と共に、該用例文と同じ内容を表す対訳用例文を所定数出力する手段であること、 を特徴とする請求項1に記載の類似文検索装置。 - 前記類似文検索装置は、
各用例文と、用例文と同じ内容を表す対訳用例文との、訳語の対応関係を示す情報である対応情報を記憶する対訳関係記憶手段と、
前記翻訳対象文において、用例文に一致する部分を、前記対応情報に基づいて、該用例文と同じ内容を表す対訳用例文の、対応する部分で置換した文を出力する半翻訳文出力手段と、
を、さらに具備することを特徴とする請求項2に記載の類似文検索装置。 - 前記類似度算出手段は、前記翻訳対象文受付手段で受け付けた翻訳対象文に対する、前記各用例文の類似度を、文節または句の出現率を求める以下の(2)式により算出する手段であることを特徴とする請求項1、2または3に記載の類似文検索装置。
文節または句の出現率=(前記翻訳対象文に含まれる文節または句のうち、前記用例文の中に出現する文節または句の数)/(前記翻訳対象文に含まれる文節または句の数) ・・・ (2) - 前記類似文出力手段は、さらに、前記文に対する前記用例文の前記類似度を分数の形式で出力する手段であることを特徴とする請求項1乃至4の何れか1項に記載の類似文検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003336405A JP4502615B2 (ja) | 2003-09-26 | 2003-09-26 | 類似文検索装置、類似文検索方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003336405A JP4502615B2 (ja) | 2003-09-26 | 2003-09-26 | 類似文検索装置、類似文検索方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005107597A JP2005107597A (ja) | 2005-04-21 |
JP4502615B2 true JP4502615B2 (ja) | 2010-07-14 |
Family
ID=34532553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003336405A Expired - Fee Related JP4502615B2 (ja) | 2003-09-26 | 2003-09-26 | 類似文検索装置、類似文検索方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4502615B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2367320A1 (en) | 1999-03-19 | 2000-09-28 | Trados Gmbh | Workflow management system |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
JP3984642B2 (ja) * | 2005-07-06 | 2007-10-03 | 松下電器産業株式会社 | 対話支援装置 |
WO2007007502A1 (ja) | 2005-07-13 | 2007-01-18 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
JP2008065395A (ja) | 2006-09-04 | 2008-03-21 | Fuji Xerox Co Ltd | 翻訳装置、翻訳方法および翻訳プログラム |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
JP5239307B2 (ja) | 2007-11-20 | 2013-07-17 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
JP5298833B2 (ja) * | 2008-12-23 | 2013-09-25 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
JP5257189B2 (ja) * | 2009-03-25 | 2013-08-07 | 富士通株式会社 | 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法 |
JP5391867B2 (ja) * | 2009-06-26 | 2014-01-15 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
JP5186453B2 (ja) * | 2009-08-07 | 2013-04-17 | ヤフー株式会社 | 検索装置及び方法 |
JP5521669B2 (ja) * | 2010-03-17 | 2014-06-18 | 富士ゼロックス株式会社 | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
JP5521670B2 (ja) * | 2010-03-17 | 2014-06-18 | 富士ゼロックス株式会社 | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
KR102228205B1 (ko) * | 2019-01-02 | 2021-03-17 | 유한회사 탐윈 | 번역 관리 시스템 및 그 방법 |
CN111291162B (zh) * | 2020-02-26 | 2024-04-09 | 深圳前海微众银行股份有限公司 | 质检例句挖掘方法、装置、设备及计算机可读存储介质 |
-
2003
- 2003-09-26 JP JP2003336405A patent/JP4502615B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005107597A (ja) | 2005-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4502615B2 (ja) | 類似文検索装置、類似文検索方法、およびプログラム | |
KR100643801B1 (ko) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 | |
JPH113338A (ja) | 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体 | |
JP2002334070A (ja) | 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
JP2008165563A (ja) | 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 | |
JP2004252944A (ja) | プログラム、文字入力編集方法、装置及び記録媒体 | |
JP2006099428A (ja) | 文書要約作成システム、方法、及びプログラム | |
JP2008299675A (ja) | かな混在表記抽出装置、方法及びプログラム | |
JP2009015395A (ja) | 辞書構築支援装置および辞書構築支援プログラム | |
US20150186363A1 (en) | Search-Powered Language Usage Checks | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JPH10307835A (ja) | 情報処理装置及びその方法 | |
JP3071703B2 (ja) | 表作成装置およびその方法 | |
JP2943791B2 (ja) | 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体 | |
JP2010146061A (ja) | 例文表示装置、例文表示方法および例文表示プログラム | |
JPH10283368A (ja) | 情報処理装置及びその方法 | |
JP5897711B2 (ja) | 入力支援装置、入力支援方法、及び入力支援プログラム | |
JP2000322442A (ja) | データベース検索装置およびデータベース検索プログラム記憶媒体 | |
WO2023171790A1 (ja) | 文章作成支援装置及び文章作成支援プログラム | |
JP2006185380A (ja) | 予測機能付き文字処理装置、方法、記録媒体およびプログラム | |
JP2004334690A (ja) | 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体 | |
JP4294386B2 (ja) | 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体 | |
JP3210842B2 (ja) | 情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070227 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070329 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070329 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080604 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100225 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130430 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130430 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140430 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |