JP2003323425A - 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム - Google Patents

対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Info

Publication number
JP2003323425A
JP2003323425A JP2002130949A JP2002130949A JP2003323425A JP 2003323425 A JP2003323425 A JP 2003323425A JP 2002130949 A JP2002130949 A JP 2002130949A JP 2002130949 A JP2002130949 A JP 2002130949A JP 2003323425 A JP2003323425 A JP 2003323425A
Authority
JP
Japan
Prior art keywords
word
bilingual
translation
document
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002130949A
Other languages
English (en)
Inventor
Naoyuki Nomura
直之 野村
Shinji Fujisawa
伸二 藤澤
Yoji Kawasaki
洋治 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2002130949A priority Critical patent/JP2003323425A/ja
Publication of JP2003323425A publication Critical patent/JP2003323425A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 翻訳精度の高い機械翻訳を実行する翻訳装置
を提供すること。 【解決手段】 まずCPUは、翻訳を希望する対象文書
を取得し、RAM内に格納する(S61)。次に、形態
素解析プログラム起動し対象文書の形態素解析を行い
(S62)、非訳出語句を検索する(S63)。そし
て、検索された非訳出語句を抽出し(S64)、この抽
出した非訳出語句をダミー名詞に置換する(S65)。
この非訳出語句をダミー名詞に置換した対象文書をRA
M内に格納する。非訳出語句をダミー名詞に置き換えた
対象文書を各種辞書を使用して翻訳し(S66)、中間
翻訳文書としてRAM内に格納する。中間翻訳文書から
ダミー名詞を検出し、このダミー名詞を元の非訳出語句
に再置換する(S67)。そして、再置換した翻訳文書
を翻訳文書格納エリアに格納して処理を終了する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は対訳辞書作成装置、
翻訳装置、対訳辞書作成プログラム、および翻訳プログ
ラムに係り、詳細には、異なる言語の訳文を機械的に作
成する機械翻訳に関する。
【0002】
【従来の技術】近年、コンピュータを利用して、ある言
語で記述された文書を他の言語へ翻訳する機械翻訳技術
が発達し、様々な機械翻訳ソフトが商品化されている。
機械翻訳では、機械翻訳専用の辞書を使用して翻訳が行
われている。この辞書には、一般的によく使われる用語
を含む基本辞書、スポーツや医学といった専門分野の用
語を集めた専門辞書、専門辞書でカバーされていない固
有名詞や特殊な用語をユーザが追加して作成するユーザ
辞書等がある。機械翻訳で正しい翻訳結果を得るために
は、専門分野や登録語数を増やすなどして辞書を強化す
ることが重要である。
【0003】しかし、ユーザ辞書に追加する固有名詞や
専門用語を人手で登録することは、大変に非効率的な作
業であった。そのため、このような特殊な語句とその対
訳語を機械的に作成する技術が提案されている。例え
ば、情報処理学会論文誌Vol.35、No.11、1
994には、日本語の文書とそれを英語に翻訳した文書
である日英対訳コーパスから専門用語辞書を作成する方
法が開示されている。この方法について簡単に説明す
る。始めに日英の各文書から対訳の単位となるユニット
を抽出し、このユニット同士の対応関係を推定する。次
に、日本語文書から合成名詞と未知語を専門用語として
抽出し、この専門用語を含む日本語ユニットに対応する
英語ユニットから訳語候補を生成する。そして、複数の
訳語候補を評価して最も確信度の高いものを選定し、こ
れを対訳データとして登録し専門用語辞書を作成する。
【0004】
【発明が解決しようとする課題】しかしながら、単に専
門分野や登録語数を拡大させて辞書を強化するだけで
は、機械翻訳の精度を向上させるのに十分ではない。ユ
ーザ辞書に登録されている語句とその訳語との対(以
下、対訳語ペアとする)の質を向上させることも重要と
なる。従来の対訳関係にある2種類の言語の文書から対
訳語ペアを抽出するシステムには、次のような問題があ
った。一方の言語のフレーズに対する対訳語を抽出する
ときに、もう一方の言語の文書から、複数のフレーズ中
に同一の関連する語句が含まれているものを選択したと
する。しかし、これらのフレーズ間でこの関連語句に対
する調整をしていないため、正確には、選択された語句
の対訳語として、もう一方の言語においても同じ訳語を
選択すべきであるにもかかわらず、異なった対訳語が選
択されてしまう場合が生じた。これにより対訳語ペアの
精度が落ち、結果的には機械翻訳の精度も落ちてしまっ
ていた。
【0005】また、従来の対訳関係にある2種類の言語
の文書から対訳語ペアを抽出するシステムには別の問題
も生じた。専門分野別に設定されている特定の対訳語ペ
ア(以下、対訳語基本ペアとする)と共に頻繁に出現す
る語句を専門用語対訳語ペアとして抽出するシステムを
使用する場合に、抽出元の文書と文書の内容に該当する
専門分野の対訳語基本ペアとのマッチングを人手で行わ
なければならなかった。さらに、この対訳語基本ペア
は、システムを実行する前に準備するため、修正の必要
がある場合にも人手で行われていた。加えて、従来の各
対訳語基本ペアは、すべて同等の重要度で扱われていた
ため、対訳語ペア抽出能力の高いものがその能力を十分
に発揮できないでいた。
【0006】より正確な翻訳結果を得るためには、製品
名や人名などの固有名詞、新概念を指示する名詞などを
特殊な語句であることを判断させ、逐語訳させないよう
にする技術が求められている。例えば、「Action
Manager is now varing.」と
いった原文に対して、従来の機械翻訳では、対訳辞書に
存在しない「Action Manager」の部分を
逐語訳により「演技課長」のような意味不明な訳文を生
成してしまっていた。このような複合名詞句の誤訳が機
械翻訳の精度上の実用性を阻む原因となっていた。他に
も、翻訳対象文書中に辞書に登録されていない未知の語
句が存在する場合に、その語句の訳語を学習して補うこ
とで翻訳結果の精度を高めることができる。
【0007】そこで本発明は、前記従来の課題を解決す
るためになされたもので、翻訳精度の高い機械翻訳を実
行するために必要な、高品質かつ分野に依存した用語の
対訳語ペアを抽出して対訳語辞書を作成する対訳語辞書
作成装置および対訳語辞書作成プログラムを提供するこ
とを第1の目的とする。また本発明は、可読性および了
解性の高い訳文を生成することができる翻訳装置および
翻訳プログラムを提供することを第2の目的とする。
【0008】
【課題を解決するための手段】請求項1に記載した発明
では、第1の言語で記述された第1の文書と、前記第1
の言語と異なる第2の言語で記述され、前記第1の文書
と翻訳対応が取れている第2の文書とからなる対訳文書
を取得する対訳文書取得手段と、前記第1の言語と前記
第2の言語間で基本語となる対訳語基本ペアが分野毎に
登録されている対訳語基本ペアセットと、前記取得した
対訳文書の内容を解析し、前記対訳文書の分野を特定す
る特定手段と、前記特定手段により特定された分野に該
当する対訳語基本ペアセットを用いて前記対訳文書より
対訳語ペアを抽出する対訳語ペア抽出手段と、前記抽出
された対訳語ペアを対訳辞書に登録する対訳語ペア登録
手段と、前記抽出された対訳語ペアのうち第1の条件を
満たす対訳語ペアを対訳語基本ペアとして該当する分野
の対訳語基本ペアセットに追加する対訳語基本ペア追加
手段と、対訳語基本ペアセットから第2の条件を満たす
対訳基本ペアを削除する対訳語基本ペア削除手段と、を
備えることにより前記第1の目的を達成する。
【0009】請求項2に記載した発明では、請求項1記
載の発明において、対訳語基本ペアに重要度に応じた重
み情報を付加する重み付け手段を備えることにより前記
第1の目的を達成する。請求項3に記載した発明では、
請求項1または請求項2記載発明において、前記対訳語
ペア抽出手段は、対訳語基本ペアと共起関係にある対訳
語ペアを抽出することにより前記第1の目的を達成す
る。
【0010】請求項4に記載した発明では、第1の言語
で記述された第1の文書と、前記第1の言語と異なる第
2の言語で記述され、前記第1の文書と翻訳対応が取れ
ている第2の文書とを取得する文書取得手段と、前記第
1の文書より抽出した複数の候補語からなる第1の語群
と、この第1の語群に対応して前記第2の文書より抽出
した複数の候補語からなる第2の語群と、から対訳語ペ
ア候補を複数作成する対訳語ペア候補作成手段と、前記
抽出した複数の第1の語群間において、互いに関連性を
有する候補語を第1の関連語として特定する第1の関連
語特定手段と、前記特定された各第1の関連語に対して
対訳語ペア候補となる第2の語群間において、互いに関
連性を有する候補語を第2の関連語として特定する第2
の関連語特定手段と、前記特定した第1の関連語と第2
の関連語とから対訳語ペアを作成する対訳語ペア作成手
段と、前記作成した対訳語ペアを対訳辞書に登録する対
訳語ペア登録手段と、を備えることにより前記第1の目
的を達成する。
【0011】請求項5に記載した発明では、請求項4記
載の発明において、前記対訳語ペア候補特定手段は、前
記第1の言語と前記第2の言語間で基本語となる対訳語
基本ペアと共起関係にある語を特定することにより前記
第1の目的を達成する。請求項6に記載した発明では、
前記第1の関連語特定手段は、共通部を含む語を第1の
関連語として特定することを特徴とする請求項4または
請求項5記載の対訳辞書作成装置。を備えることにより
前記第1の目的を達成する。請求項7に記載した発明で
は、請求項6記載の発明において、前記第2の関連語特
定手段は、前記共通部の訳語を含む語、または前記共通
部の訳語に関連する語を第2の関連語として特定するこ
とにより前記第1の目的を達成する。
【0012】請求項8に記載した発明では、請求項4な
いし請求項6のいずれか一記載の発明において、前記第
2の関連語特定手段は、同一性または類似性を有する語
を第2の関連語として特定することにより前記第1の目
的を達成する。請求項9に記載した発明では、請求項4
ないし請求項6のいずれか一記載の発明において、前記
第2の関連語特定手段は、前記特定された複数の第1の
関連語に対応する前記対訳語ペア候補の複数の第2の語
群間における関連性の範囲内で統一された語を第2の関
連語として特定することにより前記第1の目的を達成す
る。
【0013】請求項10に記載した発明では、対訳辞書
と、翻訳対象となる対象文書を取得する対象文書取得手
段と、前記対象文書から所定の言語表現を抽出する言語
表現抽出手段と、前記抽出された言語表現を前記対訳辞
書から検出する検出手段と、前記検出手段において前記
言語表現が検出されない場合に、前記言語表現の対訳の
探索を外部リソースに依頼する外部依頼手段と、前記外
部依頼手段の探索結果に前記言語表現の対訳が存在した
場合に、この対訳を前記対訳辞書に追加する追加手段
と、対訳辞書を使用して対象文書を翻訳する翻訳手段
と、を備えることにより前記第2の目的を達成する。請
求項11に記載した発明では、請求項10記載の発明に
おいて、前記対訳辞書は、請求項1から請求項9のいず
れか一記載の対訳辞書作成装置により作成された対訳語
ペアと一般対訳辞書を合わせたものであることにより前
記第2の目的を達成する。
【0014】請求項12に記載した発明では、第1の言
語で記述された文書と、第1の言語と異なる第2の言語
で記述された、前記文書と翻訳対応が取れている文書と
からなる対訳文書を取得する対訳文書取得機能と、前記
第1の言語と前記第2の言語間で基本語となる対訳語基
本ペアが分野毎に登録されている対訳語基本ペアセット
と、前記取得した対訳文書の内容を解析し、前記対訳文
書の分野を特定する特定機能と、前記特定機能により特
定された分野に該当する対訳語基本ペアセットを用いて
前記対訳文書より対訳語ペアを抽出する対訳語ペア抽出
機能と、前記抽出された対訳語ペアを対訳辞書に登録す
る対訳語ペア登録機能と、前記抽出された対訳語ペアの
うち第1の条件を満たす対訳語ペアを対訳語基本ペアと
して該当する分野の対訳語基本ペアセットに追加する対
訳語基本ペア追加機能と、対訳語基本ペアセットから第
2の条件を満たす対訳基本ペアを削除する対訳語基本ペ
ア削除機能と、を備えることにより前記第1の目的を達
成する。
【0015】請求項13に記載した発明では、第1の言
語で記述された第1の文書と、前記第1の言語と異なる
第2の言語で記述され、前記第1の文書と翻訳対応が取
れている第2の文書とを取得する文書取得機能と、前記
第1の文書より抽出し複数の候補語からなる第1の語群
と、この第1の語群に対応して前記第2の文書より抽出
した複数の候補語からなる第2の語群と、から対訳語ペ
ア候補を複数作成する対訳語ペア候補作成機能と、前記
抽出した複数の第1の語群間において、互いに関連性を
有する候補語を第1の関連語として特定する第1の関連
語特定機能と、前記特定された各第1の関連語に対して
対訳語ペア候補となる第2の語群間において、互いに関
連性を有する候補語を第2の関連語として特定する第2
の関連語特定機能と、前記特定した第1の関連語と第2
の関連語とから対訳語ペアを作成する対訳語ペア作成機
能と、前記作成した対訳語ペアを対訳辞書に登録する対
訳語ペア登録機能と、を備えることにより前記第1の目
的を達成する。
【0016】請求項14に記載した発明では、対訳辞書
と、翻訳対象となる対象文書を取得する対象文書取得機
能と、前記対象文書から所定の言語表現を抽出する言語
表現抽出機能と、前記抽出された言語表現を前記対訳辞
書から検出する検出機能と、前記検出機能において前記
言語表現が検出されない場合に、前記言語表現の対訳の
探索を外部リソースに依頼する外部依頼機能と、前記外
部依頼機能の探索結果に前記言語表現の対訳が存在した
場合に、この対訳を前記対訳辞書に追加する追加機能
と、対訳辞書を使用して対象文書を翻訳する翻訳機能
と、を備えることにより前記第2の目的を達成する。
【0017】
【発明の実施の形態】以下、本発明の対訳辞書作成装
置、対訳辞書作成プログラム、翻訳装置、および翻訳プ
ログラムにおける好適な実施の形態について、図1から
図13を参照して説明する。図1は、本実施の形態に係
る、翻訳装置の機能および対訳辞書作成装置の機能を備
えた翻訳システムのハードウェアの構成を示した図であ
る。翻訳システムは、図1に示すように装置全体を制御
するための制御部11を備えている。この制御部11に
は、データバス等のバスライン21を介して、翻訳シス
テムにおける各装置に対して各種データを入力するため
の入力装置(例えば、キーボード12やマウス13)、
表示装置14、印刷装置15、記憶装置16、記憶媒体
駆動装置17、通信制御装置18、入出力I/F(イン
ターフェース)19、および文字認識装置20が接続さ
れている。制御部11は、CPU(中央演算処理装置)
111、ROM(リード・オンリー・メモリ)112、
RAM(ランダム・アクセス・メモリ)113を備えて
いる。
【0018】ROM112は、CPU111が各種制御
や演算を行うための各種プログラムやデータが予め格納
された読み出し専用メモリである。RAM113は、C
PU111にワーキングメモリとして使用される随時書
込読み出し可能なメモリである。このRAM113に
は、本実施形態による機械翻訳処理および対訳辞書作成
処理を行うためのエリアとして、翻訳対象となる対象文
書が格納される対象文書格納エリア1131、翻訳した
翻訳文書を格納する翻訳文書格納エリア1132、対訳
辞書を作成する際に使用される対訳語ペア候補格納エリ
ア1133、関連語格納エリア1134、翻訳処理の際
に使用される非訳出語句格納エリア1135、中間翻訳
文書格納エリア1136、対訳文書格納エリア113
7、対訳語ペア格納エリア1138の他、各種エリアが
確保されるようになっている。
【0019】キーボード12は、システム内で対象文書
や他言語を入力する場合の対象文書取得手段や他言語入
力手段の一部を構成し、仮名文字を入力するための仮名
キーやテンキー、各種機能を実行するための機能キー、
カーソルキー等の各種キーが配置されている。マウス1
3は、ポインティングデバイスであり、表示装置14に
表示されたキーやアイコン等をクリックすることで対応
する機能の指定を行う入力装置である。表示装置14に
は、例えばCRT(ブラウン管)やLCD(液晶ディス
プレイ)等が使用される。この表示装置14には、キー
ボード12やマウス13による入力結果が表示された
り、外国語文読解支援処理における、対象文書や翻訳文
書等が表示されたりするようになっている。
【0020】印刷装置15は、表示装置14に表示され
た文書や、CPU111での処理結果等の印刷を行うた
めのものである。この印刷装置としては、レーザプリン
タ、ドットプリンタ、インクジェットプリンタ、ページ
プリンタ、感熱式プリンタ、熱転写式プリンタ、等の各
種印刷装置が使用される。記憶装置16は、読み書き可
能な記憶媒体と、その記憶媒体に対してプログラムやデ
ータ等の各種情報を読み書きするための駆動装置で構成
されている。この記憶装置16に使用される記憶媒体と
しては、主としてハードディスクが使用されるが、後述
の記憶媒体駆動装置17で使用される各種記憶媒体のう
ちの読み書き可能な記憶媒体を使用するようにしてもよ
い。記憶装置16は、プログラム格納部161、データ
格納部162、文書データベース格納部163、翻訳に
使用される対訳辞書(翻訳辞書)格納部164、対訳語
基本ペアセット格納部165、図示しないその他の格納
部(例えば、この記憶装置16内に格納されているプロ
グラムやデータ等をバックアップするための格納部)等
を有している。
【0021】対訳語基本ペアセット格納部165には、
対訳語基本ペアセットが格納されている。この対訳語基
本ペアセットは、登録されている対訳語基本ペアの性質
(文語文、口語文、丁寧文等)や分野(電気、化学、機
械等)別に格納されている。この対訳語基本ペアセット
は、既存の対訳辞書等をもとに対訳語基本ペアを登録す
る方法や人間により対話的に登録する方法等を用いて作
成される。プログラム格納部161には、本実施形態に
おける機械翻訳処理プログラムおよび対訳辞書作成プロ
グラム等の各種プログラムが格納されている。プログラ
ム格納部161に格納されているプログラムの詳細な内
容については、後で説明する。データ格納部162に
は、ユーザに関するデータ等のシステムが必要とする各
種データが格納されている。
【0022】文書データベース格納部163には、複数
の言語の文書が多数格納されている。必要に応じてこの
文書の中から所定の文書等と類似している類似文書が検
索される。また、対訳辞書を作成するときに、この文書
データベース格納部163の中から対訳関係にある、言
語の異なる複数の文書を選択し使用する。この文書デー
タベース格納部163に格納される各文書の形式は特に
限定されるものではなく、テキスト形式の文書、HTM
L(Hyper Text Markup Langu
age)形式の文書等、各種形式の文書の格納が可能で
ある。記憶媒体駆動装置17は、CPU111が外部の
記憶媒体からコンピュータプログラムや文書を含むデー
タ等を読み込むための駆動装置である。記憶媒体に記憶
されているコンピュータプログラム等には、本実施形態
の翻訳システムにより実行される機械翻訳処理等の各種
処理プログラム、および、そこで使用される対訳辞書、
データ等も含まれる。
【0023】ここで、記憶媒体とは、コンピュータプロ
グラムやデータ等が記憶される記憶媒体をいい、具体的
には、フレキシブルディスク、ハードディスク、磁気テ
ープ等の磁気記憶媒体、メモリチップやICカード等の
半導体記憶媒体、CD−ROMやMO(光磁気ディス
ク)、PD(相変化書換型光ディスク)等の光学的に情
報が読み取られる記憶媒体、紙カードや紙テープ等の用
紙(および、用紙に相当する機能を持った媒体)を用い
た記憶媒体、その他各種方法でコンピュータプログラム
等が記憶される記憶媒体が含まれる。記憶媒体駆動装置
17は、これらの各種記憶媒体からコンピュータプログ
ラムを読み込む他に、フレキシブルディスクのような書
き込み可能な記憶媒体に対してRAM113や記憶装置
16に格納されているデータ等を書き込むことが可能で
ある。
【0024】本実施形態の翻訳システムでは、制御部1
1のCPU111が、記憶媒体駆動装置17にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置16の各部に格納(インストール)す
る。そして、本実施形態による機械翻訳処理や対訳語辞
書作成処理等の各種処理を実行する場合、記憶装置16
から該当プログラムをRAM113に読み込み、実行す
るようになっている。但し、記憶装置16からではな
く、記憶媒体駆動装置17により外部の記憶媒体から直
接RAM113にプログラムを読み込んで実行すること
も可能である。また、翻訳システムによっては、本実施
形態の機械翻訳処理プログラム等を予めROM112に
記憶させておき、これをCPU111が実行するように
してもよい。さらに、本実施形態の機械翻訳処理プログ
ラムや対訳辞書作成処理プログラム等の各種プログラム
やデータを、通信制御装置18を介して他の記憶媒体か
らダウンロードし、実行するようにしてもよい。
【0025】通信制御装置18は、翻訳システムと他の
パーソナルコンピュータやワードプロセッサ等の各種電
子機器との間をネットワーク接続するための制御装置で
ある。通信制御装置18は、これら各種電子機器が有し
ている対象文書と同一言語の文書、入力された他言語の
文書、および同一言語や他言語の文書のデータベースを
検索対象としてアクセスすることが可能になっている。
対象となる文書には、テキスト形式やHTML形式等の
各種形式の文書の他、ビットマップデータ等の各種デー
タも含まれる。入出力I/F19は、音声や音楽等の出
力を行うスピーカ等の各種機器を接続するためのインタ
ーフェースである。文字認識装置20は、用紙等に記載
された文字をテキスト形式やHTML等の各種形式で認
識する装置であり、イメージスキャナや文字認識プログ
ラム等で構成されている。
【0026】本実施形態の翻訳システムは、パーソナル
コンピュータやワードプロセッサ等を含むコンピュータ
システムで構成するだけでなく、LAN(ローカル・エ
リア・ネットワーク)のサーバ、コンピュータ(パーソ
ナルコンピュータ)通信のホスト、インターネット上に
接続されたコンピュータシステム等によって構成するこ
とも可能である。また、ネットワーク上の各機器に機能
分散させ、ネットワーク全体で翻訳システムを構成する
ことも可能である。
【0027】図2は、図1におけるプログラム格納部1
61に格納されているプログラムの内容の一部を示した
図である。プログラム格納部161には、対訳辞書作成
処理に使用される、対訳語ペア抽出プログラム161
1、対訳語基本ペア追加プログラム1612、対訳語基
本ペア削除プログラム1613、対訳語基本ペアセット
切り替えプログラム1614、対訳語基本ペア重み付け
プログラム1615、対訳語ペア候補抽出プログラム1
616、最適訳語選択プログラム1617、関連語検索
プログラム1618、形態素解析プログラム1619、
フレーズ検索プログラム1620、翻訳プログラム16
21、フレーズ分解プログラム1622、非訳出語句検
索プログラム1623、およびWeb検索エンジンやイ
ントラネット上の類似判定エンジン等1624が格納さ
れている。
【0028】次にこのように構成された本実施形態の翻
訳システムによる翻訳処理および対訳辞書作成処理の動
作について説明する。図3および図4は、第1の翻訳処
理の動作を表したフローチャートである。本実施形態に
よる第1の翻訳処理では、翻訳を希望する対象文書(原
文)が英語で記載されており、これを日本語に翻訳する
場合を例に説明する。CPU111は、まず翻訳を希望
する対象文書を取得し、RAM113内の対象文書格納
エリア1131に格納する(ステップ11)。本実施形
態では、キーボード12の入力操作により作成された文
書(RAM113の所定格納エリアに格納)の他、記憶
媒体駆動装置17により記憶媒体から読み出した外部で
作成された文書、予め文書データベースに格納されてい
る文書、通信制御装置18からダウンロードした文書、
および文字認識装置20で文字認識した文書等の各種文
書を、翻訳の対象となる対象文書として取得することが
できる。
【0029】そして、ユーザにより原文言語の指定がさ
れない限りCPU111は、取得した対象文書を解析し
て言語の特定を行い、この特定された言語に対応した形
態素解析プログラム1619を起動して翻訳対象文書の
解析を行う(ステップ12)。ここでは、対象文書の形
態素解析および構文解析を実行して翻訳対象文書の解析
を行う。この形態素とは、意味を持つ最小の言語単位の
ことを示し、1つ以上の音素で構成されている。そし
て、1つ以上の形態素で構成され、1つの意味のまとま
りをなす文法上の1つの機能を有する最小の言語単位を
語という。形態素解析とは、入力文を単語に分割してそ
れぞれの単語の原形を認識し、さらにそれぞれの単語に
品詞やその他の属性情報を付与する処理である。構文解
析とは、文法規則(制約)を使って、入力文の構文構造
(係受け構造)の曖昧性を解消し、形態素解析で認識さ
れた単語の並びから、言語の構造を表現している木構造
を生成する処理である。なお、木構造とは、名詞句や動
詞句といった句(フレーズ)の集まりから言語構造を表
現するものである。形態素とは、文法の最小単位のこと
であり、これらが複数組合わさって単語を構成する。
【0030】この解析結果をもとにCPU111は、デ
ータ格納部162に格納された判定条件を満たす単語お
よび複合語(以下、フレーズとする)を判定する(ステ
ップ13)。形態素解析結果から得られた品詞等の様々
な情報(以下、属性とする)の確信度が低いこと、複数
の名詞で構成され、造語の可能性の高いこと等が、この
判定条件になっている。そしてCPU111は、該当す
るフレーズ(以下、目的フレーズとする)であると判定
されたものを抽出し、RAM113の所定格納エリアに
格納する(ステップ14)。
【0031】次に、CPU111は、プログラム格納部
161からフレーズ検索プログラム1620を起動し
て、目的フレーズが対訳辞書格納部164に格納されて
いる各種辞書に存在するか否かを判別する(ステップ1
5)。目的フレーズが対訳辞書格納部164に格納され
ている各種辞書に存在した場合(ステップ15;Y)、
CPU111は、プログラム格納部161から翻訳プロ
グラム1621を起動し、対訳辞書格納部164に格納
されている各種辞書を使用して、対象文書を翻訳する
(ステップ16)。そして、その翻訳結果をRAM11
3の翻訳文書格納エリア1132に格納し、処理を終了
する。
【0032】一方、目的フレーズが対訳辞書格納部16
4に格納されている各種辞書に存在しない場合(ステッ
プ15;N)、CPU111は、プログラム格納部16
1からWeb検索エンジンやイントラネット上の類似判
定エンジン等1624を起動させ、通信制御装置18を
介して目的フレーズまたは目的フレーズと類似度の高い
フレーズをネットワーク上に探索する(ステップ2
1)。この探索の結果、探索要求を満たすヒットページ
が存在した場合(ステップ21;Y)、CPU111
は、さらにこのページから目的フレーズまたは目的フレ
ーズと類似度の高いフレーズの対訳語が存在するか否か
を判別する要求を出す。この判別要求の結果、該当する
対訳語が存在した場合(ステップ24;Y)、この対訳
語を対訳辞書格納部164内の該当する対訳辞書に登録
する(ステップ24)。そして、翻訳処理(ステップ1
6)を実行し、処理を終了する。
【0033】探索要求を満たすヒットページが存在しな
い場合(ステップ22;N)、および判別要求の結果、
該当する対訳語が存在しない場合(ステップ23;
N)、CPU111は、プログラム格納部161からフ
レーズ分解プログラム1622を起動させて、該当する
フレーズを形態素レベルの構成語句に分解する(ステッ
プ31)。分解した構成語句データをRAM113内の
所定格納エリアに格納する。そして、CPU111は、
プログラム格納部161からWeb検索エンジンやイン
トラネット上の類似判定エンジン等1624を起動さ
せ、この分解された構成語句をすべて含む文書を、通信
制御装置18を介してネットワーク上に探索する(ステ
ップ32)。
【0034】この探索の結果、探索要求を満たすヒット
ページが存在した場合(ステップ33;Y)、CPU1
11は、さらにこのページから分解された構成語句の対
訳語が存在するか否かを判別する要求を出す。この判別
要求の結果、該当する対訳語が存在した場合(ステップ
34;Y)、CPU111は、分解された構成語句の各
対訳語を合成して目的フレーズの対訳語を作成し(ステ
ップ35)、作成した対訳語を対訳辞書格納部164内
の該当する対訳辞書に登録する(ステップ36)。そし
て、翻訳処理(ステップ16)を実行し、処理を終了す
る。探索要求を満たすヒットページが存在しない場合
(ステップ33;N)、および判別要求の結果、該当す
る対訳語が存在しない場合(ステップ34;N)、CP
U111は、プログラム格納部161からWeb検索エ
ンジンやイントラネット上の類似判定エンジン等162
4を起動させ、この分解された構成語句を単独で含む文
書を、通信制御装置18を介してネットワーク上に探索
する(ステップ41)。
【0035】この探索の結果、探索要求を満たすヒット
ページが存在した場合(ステップ42;Y)、CPU1
11は、さらにこのページからこの語句の対訳語が存在
するか否かを判別する要求を出す。この判別要求の結
果、該当する対訳語が単数または複数存在した場合(ス
テップ43;Y)、CPU111は、これらの対訳語を
対訳語候補として、対訳語RAM113内の所定格納エ
リアに格納する。そして、これらの対訳語候補の出現頻
度結果をもとにランキングデータを作成し(ステップ4
4)、このランキング情報を対訳語候補に付加する。
【0036】次に、CPU111は、ランキング上位の
対訳語候補から順に組み合わせを行い目的フレーズの対
訳語候補を複数作成し(ステップ45)、RAM131
内の所定格納エリアに格納する。このとき、作成した目
的フレーズの対訳語候補に組み合わせに使用した対訳語
候補のランキング情報をもとにランキングポイントを算
出し、このランキングポイント情報を目的フレーズの対
訳語候補に付加しておく。そして、CPU111は、こ
の目的フレーズとその対訳語候補が、対訳関係にある複
数の言語の文書間で共に出現するものが存在するか否か
を、プログラム格納部161からWeb検索エンジンや
イントラネット上の類似判定エンジン等1624を起動
させ、通信制御装置18を介してネットワーク上に探索
する(ステップ47)。また、ネットワーク上に探索す
る代わりに、文書データベース格納部163内の文書を
探索するようにしてもよい。
【0037】該当する文書が存在した場合(ステップ4
7;Y)、CPU111は、該当する目的フレーズの対
訳語候補のうちランキングポイントが最も高い候補を目
的フレーズの対訳語として選択し、対訳辞書格納部16
4内の該当する対訳辞書に登録する(ステップ48)。
そして、翻訳処理(ステップ16)を実行し、処理を終
了する。該当する文書が存在しない場合(ステップ4
7;N)、CPU111は、目的フレーズの対訳語候補
のうちランキングポイントが最も高い候補を目的フレー
ズの対訳語として選択し(ステップ51)、対訳辞書格
納部164内の該当する対訳辞書に登録する(ステップ
52)。そして、翻訳処理(ステップ16)を実行し、
処理を終了する。
【0038】探索の結果、探索要求を満たすヒットペー
ジが存在しない場合(ステップ42;N)、および、判
別要求の結果、該当する対訳語が存在しない場合(ステ
ップ43;N)、CPU111は、翻訳処理(ステップ
16)を実行し、処理を終了する。また、目的フレーズ
の存在するページに該当する対訳が存在しない場合に
は、このページ自体を検索条件としてさらに探索するよ
うにしてもよい。上述した対訳語をネットワーク上から
探索する方法は、クロス言語検索が仮定する、「一貫し
た訳語同士は同じコンテキスト中に出現しやすい」とい
うヒューリスティクスに基づいて行われるものである。
正確な対訳が見つからない場合においても、それに準じ
た互いに適合性の高い訳語ペアを抽出することができ、
より自然な用例ベース翻訳が可能になる。
【0039】上述した目的フレーズの対訳をインターネ
ット等の外部リソースから抽出する方法は、翻訳実行時
のリアルタイムのみならず前日の晩等の順リアルタイム
に活用することもできる。例えば、装置が稼働していな
い空き時間等にネットワークにアクセスし、翻訳を高品
質化するのに必要な対訳知識あるいは単言語知識を探索
・入手・解析し、その知識を翻訳実行時に使用する。
【0040】図5は、第2の翻訳処理の動作を表したフ
ローチャートである。本実施形態による第2の翻訳処理
では、英語で記載された、「ActionManage
r is now varing.」を日本語に翻訳す
る過程を例に説明する。CPU111は、まず翻訳を希
望する対象文書を取得し、RAM113内の対象文書格
納エリア1131に格納する(ステップ61)。ここで
も、第1の翻訳処理で取得可能な文書を同様に取得する
ことができる。そして、ユーザにより原文言語の指定が
されない限りCPU111は、取得した対象文書を解析
して言語の特定を行い、この特定された言語に対応した
形態素解析プログラム1619起動し対象文書の形態素
解析を行う(ステップ62)。
【0041】次に、CPU111は、プログラム格納部
161から原文の言語に対応した非訳出語句検索プログ
ラム1623を起動し、対象文書から訳出してはいけな
い非訳出語句を検索する(ステップ63)。ここで、非
訳出語句として抽出する語句の例として複合名詞区間が
抽出される。その例として、名詞+代名詞、名詞+固有
名詞、固有名詞+冠詞+普通名詞、形容詞+普通名詞+
固有名詞等がある。また、この複合名詞区間の抽出は、
複合名詞区間を明示的に検出するルール・セットや既存
の統計的学習データ等の関連機構を用いて行うこともで
きる。そして、この非訳出語句検索プログラム1623
で検索された非訳出語句を抽出し(ステップ64)非訳
出語句格納エリア1135に格納する。
【0042】例では、「Action Manage
r」の部分が非訳出語句として検出されたと仮定する。
次に、CPU111は、抽出した非訳出語句をダミー名
詞という1語扱いの形態素に置換し(ステップ65)、
非訳出語句をダミー名詞に置換した対象文書をRAM1
13内の所定格納エリアに格納する。また、非訳出語句
とそれを置換したダミー名詞の対応データを、非訳出語
句格納エリア1135に格納する。ここで置換されるダ
ミー名詞は、後の翻訳処理において翻訳対象語句として
認識されないものであり、翻訳処理時には翻訳対象語句
より除外され、翻訳処理を施されることなくダミー名詞
表現のままの名詞として出力される。このダミー名詞
は、予め設定されている文字列で表現される。
【0043】例では、置換するダミー名詞として「DU
MMY−NOUN(ダミー名詞)」を用いることによ
り、翻訳対象文書が、「DUMMY−NOUN is
nowvaring.」と置換される。次に、CPU1
11は、非訳出語句をダミー名詞に置き換えた対象文書
を対訳辞書格納部164に格納されている各種辞書を使
用して、対象文書を翻訳し(ステップ66)、中間翻訳
文書を生成し、これを中間翻訳文書格納エリア1136
に格納する。例では、「DUMMY−NOUNは、今や
多様化している。」という中間翻訳文書が得られる。
【0044】その後、CPU111は、この中間翻訳文
書から、ダミー名詞を検出し、このダミー名詞の置換前
の言語表現を非訳出語句格納エリア1135から抽出す
る。そして、中間翻訳文書中のダミー名詞を再置換し
(ステップ67)、再置換した翻訳文書を翻訳文書格納
エリア1132に格納して処理を終了する。例では、
「DUMMY−NOUN」を元の非訳出語句である「A
ctionManager」に再置換することにより、
最終的には、「Action Managerは、今や
多様化している。」という翻訳文書が得られる。上記ス
テップ63で検出された非訳出語句部分が繰り返し出現
する場合は、その同一性を色合いや同一名詞区間のカー
ソルジャンプなどを用いて明示し、翻訳システム利用者
の読解を助けることにより、可読性・了解性の高い訳文
を生成できる。
【0045】また、第1の翻訳処理と組み合わせて処理
を行うことによって、さらに質の高い訳文を生成でき
る。例えば、第1の翻訳処理において対訳辞書に存在し
ない目的フレーズの対訳を外部リソースに探索したにも
かかわらず、所望の対訳語が取得できなかった場合に
(ステップ42;N、ステップ43;N)、この目的フ
レーズを第2の翻訳処理における非訳出語区間に対応さ
せてダミー名詞に置換し、引き続き第2の翻訳処理を行
うようにする。このように、翻訳装置に翻訳対象となる
対象文書を取得する対象文書取得手段と、前記対象文書
から所定の非訳出区間を抽出する非訳出区間抽出手段
と、前記抽出された非訳出区間を1語扱いの形態素であ
るダミー名詞に置換する置換手段と、対訳辞書を使用し
て前記置換手段を施した対象文書を翻訳する翻訳手段
と、前記翻訳手段により作成された翻訳文中の前記置換
手段により置換されたダミー名詞を前記対象文書中の原
文表記に再置換する再置換手段を備えることにより、理
解できない逐語訳区間の生成が抑止されて、訳文の了解
度を向上させることができる。
【0046】次に、本実施形態における第1の対訳辞書
作成処理の動作について、図6から図8を使用して説明
する。本実施形態における対訳辞書作成処理では、対訳
関係にある日本語で記載された日本語文書と、英語で記
載された英語文書とから対訳語基本ペアセットを使用し
て対訳語ペアを抽出し、これを対訳辞書格納部164内
の該当する分野の辞書の対訳語ペア格納部へ格納する処
理を実行する。図6は、第1の対訳辞書作成処理に使用
する対訳語基本ペアセットの切り替え処理の動作を表し
たフローチャートである。
【0047】CPU111は、まずプログラム格納部1
61から対訳語基本ペアセット切り替えプログラム16
14を起動する。そして、対訳語ペアの抽出を希望する
日本語文書および英語文書を文書データベース163よ
り取得し(ステップ71)、RAM113内の対訳文書
格納エリア1137に格納する。ここで取得する英語文
書は、日本語文書を翻訳した文書でありこれらは全体と
して対訳(翻訳)対応が付いている。一般に、このよう
な文書の対は、「対訳コーパス」や「パラレルコーパ
ス」と呼ばれている。このような対訳対応が付いている
文書を、キーボード12の入力操作により作成された文
書(RAM113の所定格納エリアに格納)の他、記憶
媒体駆動装置17により記憶媒体から読み出した外部で
作成された文書、予め文書データベースに格納されてい
る文書、通信制御装置18からダウンロードした文書、
および文字認識装置20で文字認識した文書等の各種文
書から取得することができる。
【0048】次に、CPU111は、文書の性質・分野
等の解析を行う(ステップ72)。また、この取得した
文書の性質・分野等の特定方法として、例えば、分野毎
の対訳語基本ペアセットに登録されている語句が、取得
した文書に出現する頻度をカウントして特定する方法が
ある。そして、CPU111は、解析の結果からこの文
書に該当する性質・分野等を特定し(ステップ73)、
これに該当する性質・分野等の対訳語基本ペアセットを
対訳語基本ペアセット格納部165より選択する(ステ
ップ74)。
【0049】最後に、CPU111は、選択した対訳語
基本ペアセットをRAM113内の所定格納部に格納
し、対訳辞書作成処理に使用する対訳語基本ペアセット
とし(ステップ75)、処理を終了する。このようにし
て、文書の性質・分野を機械的に判断して対訳語基本ペ
アセットを自動的に切り替えることにより、文書の内容
にふさわしい対訳語ペアの抽出が可能になる。また、翻
訳システムを利用するユーザの負担が軽減される。
【0050】次に、対訳語基本ペアセット切り替え処理
の終了した日本語文書および英語文書から対訳語ペアを
抽出して対訳辞書を作成する処理動作について説明す
る。図7は、第1の対訳語辞書作成処理の動作を表した
フローチャートである。図8に示す英語文書と日本語文
書とから対訳語ペアを抽出する例を用いて説明する。ま
ず、CPU111は、日本語文書および英語文書を取得
する(ステップ81)。この文書を取得した際に選択さ
れた対訳語基本ペアセットの中に次のような対訳語基本
ペア 英語:Sojourner、日本語:ソジャーナ、が、
登録されている場合を例として説明する。
【0051】次に、CPU111は、プログラム格納部
161から対訳語ペア抽出プログラム1611を起動さ
せ、取得した日本語文書および英語文書、それぞれの文
書からからこの対訳語基本ペアと共に出現(共起)する
語(以下、共起語とする)を抽出し、それらの共起語の
出現回数をカウントする(ステップ82)。そして、こ
の結果をRAM113内の所定格納エリアに格納する。
ここで、図9に示すような結果が得られたとする。図9
の表は、対訳語基本ペア/英語:Sojournerと
共起する語としてBarnacle Bill、roc
k、rover..が抽出されたことを表している。同
様に、対訳語基本ペア/日本語:ソジャーナに対してフ
ジツボ岩、火星、分析、採取...が共起語として抽出
されたことを表している。
【0052】CPU111は、対訳語基本ペアと共起す
る頻度情報をもとに対訳語ペアを抽出する(ステップ8
3)。この例では、対訳語基本ペアセットに登録されて
いる対訳語基本ペアである「Sojourner」と
「ソジャーナ」に対して、「Barnacle Bil
l」と「フジツボ岩」が同じ頻度(各4回)で共起して
いる。この場合「Barnacle Bill」と「フ
ジツボ岩」を対訳語ペアとして抽出する。対訳語ペアを
抽出するための条件として、共起する頻度、例えば、一
定量の文書中に対訳語基本ペアと共起する回数等を予め
設定しデータ格納部162へ格納しておく。
【0053】最後にCPU111は、抽出した対訳語ペ
アを対訳辞書格納部164内の該当する分野の辞書の対
訳語ペア格納部へ格納する(ステップ84)。なお、こ
のように対訳語基本ペアとの共起により対訳語ペアを抽
出する方法では、対訳語ペアの精度を上げるためにでき
るだけ大量の文書を参照することが望ましい。また、C
PU111は、随時以下の処理を行う。対訳語基本ペア
追加プログラム1612を起動し、対訳語辞書作成処理
で作成され、対訳語辞書格納部に格納されている対訳語
ペアのうち抽出される頻度の高いもの、例えば、一定量
の文書中に対訳語ペアとして存在する回数が設定値を上
回るもの等、予めデータ格納部162に格納されている
条件データを読み出し、この条件に合致した対訳語ペア
をその対訳語ペアの性質・分野に該当する対訳語基本ペ
アセットに対訳語基本ペアとして追加する。ここで説明
した対訳語ペアを対訳語基本ペアセットに追加する条件
が、請求項1に記載されている第1の条件に該当する。
【0054】これと並行して、対訳語基本ペア削除プロ
グラム1613を起動し、対訳語基本ペアセット格納部
165に格納されている対訳語基本ペアセットの対訳語
基本ペアのうち対訳語ペアの抽出に貢献しないもの、例
えば、一定量の文書中に存在する回数が設定値を下回る
もの等、予めデータ格納部162に格納されている条件
データを読み出し、この条件に合致した対訳語基本ペア
を対訳語基本ペアセットから削除する。ここで説明した
対訳語基本ペアセットから削除される対訳語基本ペア条
件が、請求項1に記載されている第2の条件に該当す
る。このようにして対訳語基本ペアの削除を行うことに
より対訳語ペアを注出する際のノイズを減らすことがで
きるため、対訳語ペアの抽出精度が向上する。
【0055】また、CPU111は、対訳語基本ペア重
み付けプログラム1615を起動し、対訳語基本ペアセ
ット格納部165に格納されている対訳語基本ペアセッ
トの対訳語基本ペアの重要度に応じた重み情報、例え
ば、過去の対訳語ペア抽出の際に使用された頻度ランキ
ング等の情報を付加する。このように対訳語基本ペアに
付加される重み情報を参照して対訳語ペアの抽出を行
う。例えば、同等頻度で出現する語句が存在する場合、
対訳語基本ペアの重みの高い方から抽出された語句を優
先して選択するようにする。これにより抽出される対訳
語ペアの妥当性が向上する。なお、本実施形態では日本
語文書と英語文書を対象としているが、これは一例であ
り本発明はこの二言語に特化したものではない。
【0056】次に、本実施形態における第2の対訳辞書
作成処理の動作について、図10から図13を使用して
説明する。本実施形態における第2の対訳辞書作成処理
では、対訳関係にある日本語で記載された日本語文書
と、英語で記載された英語文書とから対訳語ペア候補抽
出し、さらにこの中から適する対訳語ペアを特定し、こ
れを対訳辞書格納部164内の該当する分野の辞書の対
訳語ペア格納部へ格納する。図10は、第2の対訳語辞
書作成処理の動作を表したフローチャートである。図1
1に示す英語文書と図12に示す日本語文書とから対訳
語ペアを抽出する例を用いて説明する。
【0057】まず、CPU111は、対訳語ペアの抽出
を希望する日本語文書および英語文書を文書データベー
ス163より取得し(ステップ91)、RAM113内
の対訳文書格納エリア1137に格納する。例では、図
11に示す英語文書と図12に示す日本語文書とを取得
する。次に、CPU111は、プログラム格納部161
から対訳語ペア候補抽出プログラム1616を起動し、
日本語文書と英語文書からそれぞれ候補語を抽出し、そ
れぞれの候補語を言語毎に対応付けをして対訳語ペア候
補を作成し(ステップ92)、これをRAM113内の
対訳語ペア候補格納エリア1133に格納する。例え
ば、予め設定されている対訳基本語ペアと呼ばれる対訳
関係を持った特定の対語と共起する語を候補語として抽
出し、これを用いて対訳語ペア候補を作成する。
【0058】例では、図13(a)に示すような対訳語
ペア候補が作成されたと仮定する。この図13(a)
は、英語文書からstock price、lowおよ
びhighが、一方、日本語文書から最安値、最高値お
よび株価が、対訳語基本語ペア“yen/円”に対して
共起し、候補語として抽出されたことを示す。同様にし
て、対訳基本語ペア“Co.、company、cor
poration:会社、企業”に対して、英語文書か
らgroup、stock analystおよびfi
nancial、日本語文書から証券アナリスト、危機
管理対策および危険度が抽出され、“securit
y:安全、警備、警護”に対して、英語文書からser
vice、businessおよびstock mar
ket、日本語文書から好景気、株式市場、金融業界が
候補語として抽出されたことを示す。ここで使用した対
訳基本語ペアは、図11および図12に下線部で示す。
【0059】そして、抽出した候補語を対訳語基本ペア
セットと対応させて下記に示すような対訳語ペア候補を
作成する。 (1)stock price、low、high/最
安値、最高値、株価 (2)group、stock analyst、fi
nancial/証券アナリスト、危機管理対策、危険
度 (3)service、business、stock
market/好景気、株式市場、金融業界 なお、このように共起情報によって候補語を抽出する場
合には、参照する言語データベースの情報量がより多い
方が望ましい。
【0060】次に、CPU111は、プログラム格納部
161から最適訳語選択プログラム1617を起動す
る。そして、先で抽出した、英語の複数の対訳候補語に
おいて互いに関連性を持つ候補語を英語文書の関連語と
して特定する(ステップ93)。例では、英語文書から
抽出された共起語の部分(図13(b))より、部分的
に共通ものを含む語を関連語として特定することにす
る。即ち、図13(b)から、“stock”という語
句を含む以下の連語が特定される。(図13(c))。 (1)stock price (2)stock analyst (3)stock market
【0061】次に、CPU111は、この特定した各語
句に対応する対訳語ペア候補に含まれる日本語の複数の
候補語から、先と同様に、互いに関連性を持つ候補語を
日本語文書の関連語として特定する(図13(d))。
そして、特定した日本語文書の関連語をRAM113内
の所定格納部に格納する。プログラム格納部161より
関連語検索プログラム1618を起動し、日本語文書の
関連語を特定する(ステップ94)。例では、英語文書
の関連語の共通部である“stock”の関連語を検索
し、その結果、「株、証券、株式...」が得られたと
する。そして、この結果をもとに対訳語ペア候補に含ま
れる日本語の複数の候補語から日本語文書の関連語を特
定する。ここでは、「株、証券、株式...」を含む候
補語を特定する。 (1)stock price …株価 (2)stock analyst …証券アナリスト (3)stock market …株式市場 が特定される(図13(e))。
【0062】この例では、検索プログラム1618を起
動して英語文書の関連語の共通部である“stock”
の関連語を検索し、検索された関連語を含む語句を日本
語文書の関連語として特定したが、単に、英語文書の関
連語の共通部である“stock”の訳語を対訳辞書格
納部164内の対訳辞書より検索して、この訳語を含む
候補語、またはこの訳語に関連する語句を含む候補語を
特定するようにしてもよい。ここで説明した英語文書の
関連語の共通部である“stock”が、請求項6に記
載されている共通部に該当する。
【0063】また、英語文書の関連語の共通部に関係な
く、対訳語ペア候補に含まれる日本語の複数の候補語か
ら、互いに共通する語または類似する語を含む候補語、
または、互いに特定のジャンルや分野の範囲内統一され
た候補語を日本語文書の関連語として特定するようにし
てもよい。そして、CPU111は、英語文書の関連語
と日本語文書の関連語とを対応させて対訳語ペアを作成
し(ステップ95)、これを対訳辞書格納部164内の
該当する分野の辞書の対訳語ペア格納部へ格納する(ス
テップ96)。なお、本実施形態では日本語文書と英語
文書を対象としているが、これは一例であり本発明はこ
の二言語に特化したものではない。
【0064】また、英語から日本語の対訳を抽出する方
法について上述したが、これは、一例であって、日本語
から英語、あるいは双方から互いに対訳を抽出すること
によって対訳語ペアの精度を上げるようにしてもよい。
本実施の形態で説明した対訳語ペアを抽出する技術を用
いて抽出された対訳語ペアは、上述したような機械翻訳
装置における機械処理だけでなくその他の用途にも利用
することができる。例えば、対訳語ペアを使用して行う
場合のクロス言語検索等の情報検索やワープロソフト等
で使用される仮名漢字変換システムに利用することがで
きる。
【0065】
【発明の効果】本発明によれば、翻訳対象文書中に、対
訳辞書(翻訳辞書)に存在しないような言語表現が存在
した場合において、リアルタイムで外部のリソースにそ
の言語表現の訳語を探索することにより、翻訳できない
言語表現の出現が抑えられて、より自然な訳文を生成で
きる。また、対訳語ペアを高精度に機械抽出することに
より、分野別の専門用語に対応した対訳辞書が容易に作
成でき、分野に依存した文書の翻訳精度を上げることが
できる。さらに、この対訳語ペアを利用した情報検索
(例えば、クロス言語検索等)の検索精度も向上させる
ことができる。
【図面の簡単な説明】
【図1】本実施の形態に係る、翻訳装置の機能および対
訳辞書作成装置の機能を備えた翻訳システムのハードの
構成を示した図である。
【図2】プログラム格納部161に格納されているプロ
グラムの内容の一部を示した図である。
【図3】第1の翻訳処理の動作を表したフローチャート
である。
【図4】第1の翻訳処理の動作を表したフローチャート
である。
【図5】第2の翻訳処理の動作を表したフローチャート
である。
【図6】対訳語基本ペアセットの切り替え処理の動作を
表したフローチャートである。
【図7】第1の対訳語辞書作成処理の動作を表したフロ
ーチャートである。
【図8】英語文書および日本語文書の例文を示した図で
ある。
【図9】共起語の抽出結果を示した図である。
【図10】第2の対訳語辞書作成処理の動作を表したフ
ローチャートである。
【図11】英語文書の例文を示した図である。
【図12】日本語文書の例文を示した図である。
【図13】対訳語ペアを抽出する方法を説明するための
図である。
【符号の説明】
11 制御部 12 キーボード 13 マウス 14 表示装置 15 印刷装置 16 記憶装置 17 記憶媒体駆動装置 18 通信制御装置 19 入出力I/F 20 文字認識装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 川崎 洋治 徳島県徳島市川内町平石若松108番地の4 株式会社ジャストシステム内 Fターム(参考) 5B091 CC01 CC05 EA12

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 第1の言語で記述された第1の文書と、
    前記第1の言語と異なる第2の言語で記述され、前記第
    1の文書と翻訳対応が取れている第2の文書とからなる
    対訳文書を取得する対訳文書取得手段と、 前記第1の言語と前記第2の言語間で基本語となる対訳
    語基本ペアが分野毎に登録されている対訳語基本ペアセ
    ットと、 前記取得した対訳文書の内容を解析し、前記対訳文書の
    分野を特定する特定手段と、 前記特定手段により特定された分野に該当する対訳語基
    本ペアセットを用いて前記対訳文書より対訳語ペアを抽
    出する対訳語ペア抽出手段と、 前記抽出された対訳語ペアを対訳辞書に登録する対訳語
    ペア登録手段と、 前記抽出された対訳語ペアのうち第1の条件を満たす対
    訳語ペアを対訳語基本ペアとして該当する分野の対訳語
    基本ペアセットに追加する対訳語基本ペア追加手段と、 対訳語基本ペアセットから第2の条件を満たす対訳語基
    本ペアを削除する対訳語基本ペア削除手段と、 を備えたことを特徴とする対訳辞書作成装置。
  2. 【請求項2】 対訳語基本ペアに重要度に応じた重み情
    報を付加する重み付け手段を備え、 前記対訳語ペア抽出手段は、前記重み付け手段により付
    加された対訳語基本ペアの重み情報を用いて対訳語ペア
    を抽出することを特徴とする請求項1記載の対訳辞書作
    成装置。
  3. 【請求項3】 前記対訳語ペア抽出手段は、対訳語基本
    ペアと共起関係にある対訳語ペアを抽出することを特徴
    とする請求項1または請求項2記載の対訳辞書作成装
    置。
  4. 【請求項4】 第1の言語で記述された第1の文書と、
    前記第1の言語と異なる第2の言語で記述され、前記第
    1の文書と翻訳対応が取れている第2の文書とを取得す
    る文書取得手段と、 前記第1の文書より抽出した複数の候補語からなる第1
    の語群と、この第1の語群に対応して前記第2の文書よ
    り抽出した複数の候補語からなる第2の語群と、から対
    訳語ペア候補を複数作成する対訳語ペア候補作成手段
    と、 前記抽出した複数の第1の語群間において、互いに関連
    性を有する候補語を第1の関連語として特定する第1の
    関連語特定手段と、 前記特定された各第1の関連語に対して対訳語ペア候補
    となる第2の語群間において、互いに関連性を有する候
    補語を第2の関連語として特定する第2の関連語特定手
    段と、 前記特定した第1の関連語と第2の関連語とから対訳語
    ペアを作成する対訳語ペア作成手段と、 前記作成した対訳語ペアを対訳辞書に登録する対訳語ペ
    ア登録手段と、 を備えたことを特徴とする対訳辞書作成装置。
  5. 【請求項5】 前記対訳語ペア候補特定手段は、前記第
    1の言語と前記第2の言語間で基本語となる対訳語基本
    ペアと共起関係にある語を特定することを特徴とする請
    求項4記載の対訳辞書作成装置。
  6. 【請求項6】 前記第1の関連語特定手段は、共通部を
    含む語を第1の関連語として特定することを特徴とする
    請求項4または請求項5記載の対訳辞書作成装置。
  7. 【請求項7】 前記第2の関連語特定手段は、前記共通
    部の訳語を含む語、または前記共通部の訳語に関連する
    語を第2の関連語として特定することを特徴とする請求
    項6記載の対訳辞書作成装置。
  8. 【請求項8】 前記第2の関連語特定手段は、同一性ま
    たは類似性を有する語を第2の関連語として特定するこ
    とを特徴とする請求項4ないし請求項6のいずれか一記
    載の対訳辞書作成装置。
  9. 【請求項9】 前記第2の関連語特定手段は、前記特定
    された複数の第1の関連語に対応する前記対訳語ペア候
    補の複数の第2の語群間における関連性の範囲内で統一
    された語を第2の関連語として特定することを特徴とす
    る請求項4ないし請求項6のいずれか一記載の対訳辞書
    作成装置。
  10. 【請求項10】 対訳辞書と、 翻訳対象となる対象文書を取得する対象文書取得手段
    と、 前記対象文書から所定の言語表現を抽出する言語表現抽
    出手段と、 前記抽出された言語表現を前記対訳辞書から検出する検
    出手段と、 前記検出手段において前記言語表現が検出されない場合
    に、前記言語表現の対訳の探索を外部リソースに依頼す
    る外部依頼手段と、 前記外部依頼手段の探索結果に前記言語表現の対訳が存
    在した場合に、この対訳を前記対訳辞書に追加する追加
    手段と、 対訳辞書を使用して対象文書を翻訳する翻訳手段と、 を備えたことを特徴とする翻訳装置。
  11. 【請求項11】 前記対訳辞書は、請求項1ないし請求
    項9のいずれか一記載の対訳辞書作成装置により作成さ
    れた対訳語ペアと一般対訳辞書を合わせたものであるこ
    とを特徴とする請求項10記載の翻訳装置。
  12. 【請求項12】 第1の言語で記述された文書と、第1
    の言語と異なる第2の言語で記述された、前記文書と翻
    訳対応が取れている文書とからなる対訳文書を取得する
    対訳文書取得機能と、 前記第1の言語と前記第2の言語間で基本語となる対訳
    語基本ペアが分野毎に登録されている対訳語基本ペアセ
    ットと、 前記取得した対訳文書の内容を解析し、前記対訳文書の
    分野を特定する特定機能と、 前記特定機能により特定された分野に該当する対訳語基
    本ペアセットを用いて前記対訳文書より対訳語ペアを抽
    出する対訳語ペア抽出機能と、 前記抽出された対訳語ペアを対訳辞書に登録する対訳語
    ペア登録機能と、 前記抽出された対訳語ペアのうち第1の条件を満たす対
    訳語ペアを対訳語基本ペアとして該当する分野の対訳語
    基本ペアセットに追加する対訳語基本ペア追加機能と、 対訳語基本ペアセットから第2の条件を満たす対訳語基
    本ペアを削除する対訳語基本ペア削除機能と、 をコンピュータに実現させるための対訳辞書作成プログ
    ラム。
  13. 【請求項13】 第1の言語で記述された第1の文書
    と、前記第1の言語と異なる第2の言語で記述され、前
    記第1の文書と翻訳対応が取れている第2の文書とを取
    得する文書取得機能と、 前記第1の文書より抽出し複数の候補語からなる第1の
    語群と、この第1の語群に対応して前記第2の文書より
    抽出した複数の候補語からなる第2の語群と、から対訳
    語ペア候補を複数作成する対訳語ペア候補作成機能と、 前記抽出した複数の第1の語群間において、互いに関連
    性を有する候補語を第1の関連語として特定する第1の
    関連語特定機能と、 前記特定された各第1の関連語に対して対訳語ペア候補
    となる第2の語群間において、互いに関連性を有する候
    補語を第2の関連語として特定する第2の関連語特定機
    能と、 前記特定した第1の関連語と第2の関連語とから対訳語
    ペアを作成する対訳語ペア作成機能と、 前記作成した対訳語ペアを対訳辞書に登録する対訳語ペ
    ア登録機能と、 をコンピュータに実現させるための対訳辞書作成プログ
    ラム。
  14. 【請求項14】 対訳辞書と、 翻訳対象となる対象文書を取得する対象文書取得機能
    と、 前記対象文書から所定の言語表現を抽出する言語表現抽
    出機能と、 前記抽出された言語表現を前記対訳辞書から検出する検
    出機能と、 前記検出機能において前記言語表現が検出されない場合
    に、前記言語表現の対訳の探索を外部リソースに依頼す
    る外部依頼機能と、 前記外部依頼機能の探索結果に前記言語表現の対訳が存
    在した場合に、この対訳を前記対訳辞書に追加する追加
    機能と、 対訳辞書を使用して対象文書を翻訳する翻訳機能と、 をコンピュータに実現させるための翻訳プログラム。
JP2002130949A 2002-05-02 2002-05-02 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム Pending JP2003323425A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002130949A JP2003323425A (ja) 2002-05-02 2002-05-02 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002130949A JP2003323425A (ja) 2002-05-02 2002-05-02 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Publications (1)

Publication Number Publication Date
JP2003323425A true JP2003323425A (ja) 2003-11-14

Family

ID=29543800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002130949A Pending JP2003323425A (ja) 2002-05-02 2002-05-02 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Country Status (1)

Country Link
JP (1) JP2003323425A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006244252A (ja) * 2005-03-04 2006-09-14 Fuji Xerox Co Ltd 翻訳費用の見積りを行う装置および方法
JP2007018359A (ja) * 2005-07-08 2007-01-25 Sharp Corp 言語処理装置及び言語処理方法と、言語処理プログラム
CN100362513C (zh) * 2005-03-02 2008-01-16 富士施乐株式会社 翻译请求方法和翻译请求终端
CN100454294C (zh) * 2004-05-28 2009-01-21 株式会社东芝 用于将日文翻译成中文的设备
JP2009223547A (ja) * 2008-03-14 2009-10-01 Nippon Hoso Kyokai <Nhk> 対訳表現処理装置およびプログラム
WO2014196457A1 (ja) * 2013-06-07 2014-12-11 シャープ株式会社 字幕付きコンテンツ再生装置
JP2020077134A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP2020077356A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100454294C (zh) * 2004-05-28 2009-01-21 株式会社东芝 用于将日文翻译成中文的设备
CN100362513C (zh) * 2005-03-02 2008-01-16 富士施乐株式会社 翻译请求方法和翻译请求终端
US7801720B2 (en) 2005-03-02 2010-09-21 Fuji Xerox Co., Ltd. Translation requesting method, translation requesting terminal and computer readable recording medium
JP2006244252A (ja) * 2005-03-04 2006-09-14 Fuji Xerox Co Ltd 翻訳費用の見積りを行う装置および方法
JP4736476B2 (ja) * 2005-03-04 2011-07-27 富士ゼロックス株式会社 翻訳費用の見積りを行う装置および方法
JP2007018359A (ja) * 2005-07-08 2007-01-25 Sharp Corp 言語処理装置及び言語処理方法と、言語処理プログラム
JP2009223547A (ja) * 2008-03-14 2009-10-01 Nippon Hoso Kyokai <Nhk> 対訳表現処理装置およびプログラム
WO2014196457A1 (ja) * 2013-06-07 2014-12-11 シャープ株式会社 字幕付きコンテンツ再生装置
JP2020077134A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP2020077356A (ja) * 2018-11-06 2020-05-21 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法
JP7333933B2 (ja) 2018-11-06 2023-08-28 株式会社椿知財サービス 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法

Similar Documents

Publication Publication Date Title
Daud et al. Urdu language processing: a survey
Shoufan et al. Natural language processing for dialectical Arabic: A survey
EP1899835B1 (en) Processing collocation mistakes in documents
US20070011132A1 (en) Named entity translation
Sharjeel et al. COUNTER: corpus of Urdu news text reuse
Bian et al. Cross‐language information access to multilingual collections on the internet
AU2016269573A1 (en) Input entity identification from natural language text information
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
Antony et al. Machine transliteration for indian languages: A literature survey
Alotaibi et al. A cognitive inspired unsupervised language-independent text stemmer for Information retrieval
McCrae et al. Domain adaptation for ontology localization
Prokopidis et al. A Neural NLP toolkit for Greek
Vilares et al. Managing misspelled queries in IR applications
Koleva et al. An automatic part-of-speech tagger for Middle Low German
Lazarinis et al. Current research issues and trends in non-English Web searching
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
Yeshambel et al. Construction of morpheme-based Amharic stopword list for information retrieval system
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Benajiba et al. Arabic question answering
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Zarnoufi et al. Machine normalization: Bringing social media text from non-standard to standard form
Seretan et al. Syntactic concordancing and multi-word expression detection
Baishya et al. Present state and future scope of Assamese text processing
Chen The construction, use, and evaluation of a lexical knowledge base for English-Chinese cross-language information retrieval
JP5412137B2 (ja) 機械学習装置及び方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050816