JP3419748B2 - 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 - Google Patents

辞書作成装置および方法と辞書作成プログラムを記録した記録媒体

Info

Publication number
JP3419748B2
JP3419748B2 JP2000306865A JP2000306865A JP3419748B2 JP 3419748 B2 JP3419748 B2 JP 3419748B2 JP 2000306865 A JP2000306865 A JP 2000306865A JP 2000306865 A JP2000306865 A JP 2000306865A JP 3419748 B2 JP3419748 B2 JP 3419748B2
Authority
JP
Japan
Prior art keywords
natural language
entry
dictionary
unit
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000306865A
Other languages
English (en)
Other versions
JP2002117028A (ja
Inventor
早苗 藤田
泰弘 秋葉
浩巳 中岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000306865A priority Critical patent/JP3419748B2/ja
Publication of JP2002117028A publication Critical patent/JP2002117028A/ja
Application granted granted Critical
Publication of JP3419748B2 publication Critical patent/JP3419748B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば自然言語処
理システム、情報検索システム、機械翻訳システムなど
で利用され、異なる自然言語対の対訳辞書を作成する辞
書作成装置に関する。
【0002】
【従来の技術】近年、インターネットの発達などで、様
々な自然言語で書かれた文書に接する機会が増加してお
り、利用者が必ずしも堪能でない自然言語に触れる機会
も増加している。これに伴い、利用者が必ずしも堪能で
ない自然言語で書かれた文書や情報を利用するため、特
に電子化データに対する多言語検索や多言語情報処理、
多言語翻訳などの需要が増加し、それらに用いるための
様々な言語対の辞書が必要とされるようになってきた。
そこで、品質のよい様々な言語対の対訳辞書の作成が求
められている。
【0003】品質のよい辞書を得るには人手での作成が
一般的だが(白井ら、「日英機械翻訳に必要な結合化パ
ターン対の数とその収集方法」、情報処理学会研究報
告、自然言語処理研究会、95-NL-110-7,pp.43-50)、作
業量が膨大となるため、辞書を人手で作成するにはコス
トと人手と時間が非常にかかる。特に近年、様々な言語
対への拡張が必要とされてきているため、なるべく人手
を介さず自動的あるいは半自動的に品質のよい辞書を作
成することが望まれる。
【0004】自然言語対の辞書の自動的な作成方法とし
ては、作成する自然言語対の対訳コーパスを利用する方
法がある。対訳コーパスとは、異なる言語で書かれた同
一文書を電子化したものである。対訳コーパスを利用す
る方法には、文対応をつけた自然言語対の対訳コーパス
を形態素解析して、対訳文中に出現する言語対の全単語
ペアに対して全対訳コーパス中での出現頻度を求め、出
現頻度の高い単語ペアは類似度が高いとして単語類似度
を計算し、更に対訳コーパスを構文解析して構文構造の
比較を行い、単語類似度と構文構造の比較から翻訳パタ
ーンを抽出する等の研究がある(北村ら、「二言語対訳
コーパスからの翻訳知識の自動獲得」、人工知能学会第
8回全国大会論文集、pp.645-648,1994)。
【0005】しかし、近年大量のコーパスが計算機上で
利用可能になってきているとはいえ、対訳コーパスは種
類や量が少なく、様々な言語対の対訳コーパスを実用に
耐え得る大規模な辞書の作成に十分なだけ獲得するのは
困難である(K.W.Church andR.L.Mercer,"Introduction
to the special issue on computational linguistics
using large corpora",Computational Linguistics Vo
l.19,PP1-24,1993)。特に文対応をつけられた対訳コー
パスはさらに少なく、文対応をつけられていない対訳コ
ーパスは、必ずしも文レベルで一対一対応でなかった
り、意訳してあるなど、的確な訳語が出現しないことも
多い。
【0006】
【発明が解決しようとする課題】上述した従来技術のう
ち、人手作業による方法では、必要とされる辞書の言語
対の多様化とニーズの増大に比して、コストと人手と時
間がかかりすぎるという問題がある。
【0007】また、対訳コーパスを利用した方法では、
対訳コーパスは種類や量が少なく、多様な言語対に対し
て、実用に耐え得る大規模な辞書を作成するのに十分な
量の対訳コーパスを得ることが困難であるという問題が
ある。
【0008】本発明は、上記に鑑みてなされたもので、
その目的とするところは、十分な量の対訳コーパスがな
くても、品質のよい自然言語間の辞書を的確に作成し得
る辞書作成装置および方法と辞書作成プログラムを記録
した記録媒体を提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、自然言語対の対訳辞書を
作成する辞書作成装置であって、第1自然言語の見出し
およびその品詞と、該第1自然言語エントリの対訳であ
る第2自然言語の対訳表現およびその品詞とを有する第
1自然言語対第2自然言語の辞書を格納する第1自然言
語対第2自然言語辞書格納部と、第2自然言語の見出し
およびその品詞と、該第2自然言語エントリの対訳であ
る第3自然言語の対訳表現およびその品詞とを有する第
2自然言語対第3自然言語辞書を格納する第2自然言語
対第3自然言語辞書格納部と、前記第1自然言語対第2
自然言語辞書格納部から第1自然言語対第2自然言語辞
書エントリを取り出す辞書エントリ読み込み部と、この
取り出した第1自然言語対第2自然言語辞書エントリの
第2自然言語エントリに対応する第3自然言語エントリ
を前記第2自然言語対第3自然言語辞書格納部から獲得
し、前記第1自然言語対第2自然言語辞書エントリの第
2自然言語エントリを前記第3自然言語エントリで置き
換える辞書作成管理部と、この第1自然言語エントリ対
第2自然言語辞書エントリの第2自然言語エントリを第
3自然言語エントリで置き換えることにより生成される
第1自然言語対第3自然言語辞書エントリに基づき第1
自然言語の見出しおよびその品詞と、該第1自然言語エ
ントリの対訳である第3自然言語の対訳およびその品詞
とを有する第1自然言語対第3自然言語の対訳辞書を作
成して格納する第1自然言語対第3自然言語辞書格納部
と、第1自然言語コーパスの統計情報を格納している第
1自然言語コーパス情報格納部を有し、前記辞書作成管
理部は、前記辞書エントリ読み込み部から供給された第
1自然言語対第2自然言語辞書エントリの第1自然言語
エントリをキーとして前記第1自然言語コーパス情報格
納部を参照し、不必要な第1自然言語対第2自然言語エ
ントリを取り除くエントリ選択情報付与部を有するこ
とを要旨とする。
【0010】請求項1記載の本発明にあっては、第1自
然言語対第2自然言語辞書格納部から第1自然言語対第
2自然言語辞書エントリを取り出し、この取り出した第
1自然言語対第2自然言語辞書エントリの第2自然言語
エントリに対応する第3自然言語エントリを第2自然言
語対第3自然言語辞書格納部から獲得し、この第3自然
言語エントリで第1自然言語対第2自然言語辞書エント
リの第2自然言語エントリを置き換えて第1自然言語の
見出しおよびその品詞と、該第1自然言語エントリの対
訳である第3自然言語の対訳およびその品詞とを有する
第1自然言語対第3自然言語の対訳辞書を作成して第1
自然言語対第3自然言語辞書格納部に格納するため、第
1自然言語対第2自然言語辞書および第2自然言語対第
3自然言語辞書を利用して、第1自然言語対第3自然言
語の組み合わせの辞書や対訳コーパスが無くても、第1
自然言語対第3自然言語辞書を作成することができる。
また、辞書エントリ読み込み部から供給された第1自然
言語対第2自然言語辞書エントリの第1自然言語エント
リをキーとして第1自然言語コーパス情報格納部を参照
し、不必要な第1自然言語対第2自然言語エントリを取
り除くため、例えば分野限定の辞書を作成する場合など
には、不必要な辞書エントリを作成しないことになり、
結果的に第1自然言語対第3自然言語辞書の作成と利用
において高速化および効率化を図ることができる。ま
た、分野限定の辞書を作成する場合、利用する第1自然
言語対第2自然言語辞書や第2自然言語対第3自然言語
辞書もその分野の辞書を用いることができれば、更に信
頼性の高い分野限定の第1自然言語対第3自然言語辞書
を作成することができる。
【0011】更に、請求項2記載の本発明は、請求項1
記載の発明において、第2自然言語コーパスの統計情報
を格納している第2自然言語コーパス情報格納部を更に
有し、前記エントリ選択情報付与部は、前記辞書エント
リ読み込み部から供給された第1自然言語対第2自然言
語辞書エントリの第2自然言語エントリをキーとして前
記第2自然言語コーパス情報格納部を参照し、重みづけ
情報である訳語選択情報を付与する訳語選択情報/重み
づけ情報付与手段を有することを要旨とする。
【0012】請求項2記載の本発明にあっては、辞書エ
ントリ読み込み部から供給された第1自然言語対第2自
然言語辞書エントリの第2自然言語エントリをキーとし
て第2自然言語コーパス情報格納部を参照し、重みづけ
情報である訳語選択情報を付与するため、第1自然言語
から第2自然言語への訳語候補が複数ある場合でも、例
えば専門用語や分野特有の語としては、どの訳語がより
適切であるかがわかり、また複数の訳語候補の中でも、
よりよく出現する訳語候補はどれであるかの優先順位を
つけることができる。更に、訳語候補が1つである場合
でも、該訳語候補の尤もらしさを判断でき、結果的に、
より信頼性の高い第1自然言語対第3自然言語辞書を作
成できる。また、第2自然言語の段階で訳語選択のため
の情報を付与するため、第1自然言語および第2自然言
語を変えずに第3自然言語のみを変えるときにも同じ情
報を利用することができ、結果として第3自然言語を様
々な言語へと拡張するとき、第1自然言語対第3自然言
語辞書を効率的に作成することができる。
【0013】請求項3記載の本発明は、請求項1または
2記載の発明において、前記辞書作成管理部が、第1自
然言語対第2自然言語辞書エントリの第2自然言語エン
トリを第3自然言語エントリで置き換えることができな
かった場合、該第2自然言語エントリを解析する第2自
然言語解析部と、該第2自然言語解析部の解析結果に基
づき第3自然言語エントリを獲得し、この獲得した第3
自然言語エントリで前記第2自然言語エントリを置き換
える置換実行部とを有することを要旨とする。
【0014】請求項3記載の本発明にあっては、第1自
然言語対第2自然言語辞書エントリの第2自然言語エン
トリを第3自然言語エントリで置き換えることができな
かった場合、該第2自然言語エントリを解析し、この解
析結果に基づき第3自然言語エントリを獲得し、この獲
得した第3自然言語エントリで第2自然言語エントリを
置き換えるため、例えば第2自然言語エントリが複合語
で、そのままの表記では第2自然言語対第3自然言語辞
書に登録されていない場合でも、第2自然言語エントリ
に対して複合語を構成する部分表現単位に分割するなど
の解析を行い、各部分表現が第2自然言語対第3自然言
語辞書に登録されていれば、第1自然言語対第2自然言
語辞書エントリの第2自然言語エントリを第3自然言語
エントリで置き換えることができ、結果的にそのままの
表記では置き換えの困難な複合語などに対する第3自然
言語エントリも獲得して第1自然言語対第3自然言語辞
書を作成できる。
【0015】また、請求項4記載の本発明は、請求項3
記載の発明において、第2自然言語を第3自然言語に置
き換える置換ルールを格納している置換ルール格納部を
更に有し、前記辞書作成管理部は、前記第2自然言語解
析部の解析結果に基づき前記置換ルール格納部を検索し
て、置換ルールを取り出す置換ルール検索部を有し、前
記置換実行部は、前記置換ルール検索部で取り出した置
換ルールを利用し、該置換ルールが複数の場合は該複数
の置換ルールを組み合わせて利用して、前記第2自然言
語対第3自然言語辞書格納部から第3自然言語エントリ
を獲得する手段を有することを要旨とする。
【0016】請求項4記載の本発明にあっては、第2自
然言語解析部の解析結果に基づき置換ルール格納部を検
索して、置換ルールを取り出し、この取り出した置換ル
ールを利用し、該置換ルールが複数の場合は該複数の置
換ルールを組み合わせて利用して、第2自然言語対第3
自然言語辞書格納部から第3自然言語エントリを獲得す
るため、例えば第2自然言語エントリが複合語や変化形
またはそれらの組み合わせ等でそのままの表記では第2
自然言語対第3自然言語辞書に登録されていない場合で
も、第2自然言語エントリの解析結果と該解析結果に適
した置換ルールと第2自然言語対第3自然言語辞書を用
いて、より複雑な第2自然言語エントリに対してもより
確実に第1自然言語対第2自然言語辞書エントリの第2
自然言語エントリを第3自然言語エントリで置き換える
ことができる。また、置換ルールを複数組み合わせて用
いることにより、第2自然言語エントリの解析結果を一
括して置き換えることができる置換ルールが置換ルール
格納部に格納されていない場合でも、第1自然言語対第
2自然言語辞書エントリの第2自然言語エントリを第3
自然言語エントリで置き換えることができ、結果的にそ
のままの表記では置き換えの難しい複合語など、より複
雑な第2自然言語エントリに対する第3自然言語エント
リも的確に獲得して、第1自然言語対第3自然言語辞書
を作成できる。更に、置換ルールを組み合わせて利用で
きるため、置換ルール格納部に可能性のある全置換ルー
ルを保有している必要がなく、第1自然言語対第3自然
言語辞書を効率的に作成することができる。
【0017】更に、請求項5記載の本発明は、請求項4
記載の発明において、前記辞書作成管理部が、前記置換
実行部において前記置換ルール検索部で取り出した複数
の置換ルールを組み合わせて利用した場合、この組み合
わせた置換ルールの利用回数を計数する利用回数計数手
段と、この計数した置換ルールの利用回数が所定の回数
以上になった場合、この組み合わせた置換ルールを前記
置換ルール格納部に格納する置換ルール作成部とを有す
ることを要旨とする。
【0018】請求項5記載の本発明にあっては、複数の
置換ルールを組み合わせて利用した場合、この組み合わ
せた置換ルールの利用回数を計数、この利用回数が所定
の回数以上になった場合、この組み合わせた置換ルール
を置換ルール格納部に格納するため、利用頻度が高い組
み合わせ置換ルールを獲得して置換ルール格納部に格納
しておくことにより、第1自然言語対第2自然言語辞書
エントリの第2自然言語エントリを第3自然言語エント
リで置き換える時の高速化を図ることができ、第1自然
言語対第3自然言語辞書を効率的に作成することができ
る。
【0019】請求項6記載の本発明は、請求項3乃至5
のいずれかに記載の発明において、第2自然言語の原
形、品詞および活用情報を格納している第2自然言語辞
書を格納する第2自然言語辞書格納部を更に有し、前記
第2自然言語解析部は、第2自然言語辞書格納部を検索
して、第2自然言語エントリを解析する手段を有するこ
とを要旨とする。
【0020】請求項6記載の本発明にあっては、第2自
然言語の原形、品詞および活用情報を格納している第2
自然言語辞書を有し、第2自然言語解析部は第2自然言
語辞書格納部を検索して、第2自然言語エントリを解析
するため、例えば第2自然言語エントリに変化形が含ま
れ、そのままの表記では第2自然言語対第3自然言語辞
書に登録されていない場合でも、第2自然言語辞書から
該第2自然言語エントリに含まれる変化形の原形を獲得
でき、この原形が第2自然言語対第3自然言語辞書に登
録されている場合、第1自然言語対第2自然言語辞書エ
ントリの第2自然言語エントリを第3自然言語エントリ
に置き換えることができ、結果としてそのままの表記で
は置き換えが難しい変化形などの第2自然言語エントリ
に対する第3自然言語エントリも獲得でき、第1自然言
語対第3自然言語辞書を的確に作成することができる。
【0021】また、請求項7記載の本発明は、請求項3
乃至6のいずれかに記載の発明において、第3自然言語
の原形、品詞および活用情報を格納している第3自然言
語辞書を格納する第3自然言語辞書格納部を更に有し、
前記置換実行部は、前記第2自然言語解析部の解析結果
または前記置換ルール検索部で取り出した置換ルールに
基づき前記第3自然言語辞書格納部を検索して、第1自
然言語対第2自然言語辞書エントリの第2自然言語エン
トリを第3自然言語エントリで置き換える手段を有する
ことを要旨とする。
【0022】請求項7記載の本発明にあっては、第3自
然言語の原形、品詞および活用情報を格納している第3
自然言語辞書を有し、第2自然言語解析部の解析結果ま
たは前記置換ルール検索部で取り出した置換ルールに基
づき第3自然言語辞書格納部を検索して、第1自然言語
対第2自然言語辞書エントリの第2自然言語エントリを
第3自然言語エントリで置き換えるため、例えば第2自
然言語エントリに変化形が含まれ、そのままの表記では
第2自然言語対第3自然言語辞書に登録されていない場
合に、該第2自然言語エントリに含まれる変化形を原形
に直して、対応する第3自然言語エントリを第2自然言
語対第3自然言語辞書から原形で獲得した場合、第3自
然言語辞書を検索して第3自然言語エントリの原形を適
切な変化形の表記へと変換でき、結果としてそのままの
表記では置き換えが難しい変化形などの第2自然言語エ
ントリに対応する第3自然言語エントリも適確な表現へ
と変換して、第1自然言語対第3自然言語辞書を的確に
作成することができる。
【0023】更に、請求項8記載の本発明は、請求項1
乃至7のいずれかに記載の発明において、前記辞書作成
管理部が、第1自然言語対第2自然言語辞書エントリの
第2自然言語エントリが複数獲得され、かつ該第2自然
言語エントリに対する第3自然言語エントリが重複して
獲得された場合、この重複して獲得された第3自然言語
エントリの方がより適切であると判断する訳語選択情報
付与部を有することを要旨とする。
【0024】請求項8記載の本発明にあっては、第1自
然言語対第2自然言語辞書エントリの第2自然言語エン
トリが複数獲得され、かつ該第2自然言語エントリに対
する第3自然言語エントリが重複して獲得された場合、
この重複して獲得された第3自然言語エントリの方がよ
り適切であると判断するため、第2自然言語エントリの
段階で訳語候補が複数になった場合、複数の第2自然言
語エントリから獲得された第3自然言語エントリが重複
すれば、この重複した第3自然言語エントリの方が単独
で出現した第3自然言語エントリよりも適切であるとい
う訳語選択情報を付与でき、結果として信頼性の高い第
1自然言語対第3自然言語辞書を作成することができ
る。
【0025】請求項9記載の本発明は、請求項1乃至8
のいずれかに記載の発明において、第3自然言語コーパ
スの統計情報を格納している第3自然言語コーパス情報
格納部を更に有し、前記辞書作成管理部は、前記第3自
然言語コーパス情報格納部の情報を利用して、前記辞書
作成管理部で獲得した第3自然言語エントリが適切かど
うかを示す訳語選択情報を付与する手段を有することを
要旨とする。
【0026】請求項9記載の本発明にあっては、第3自
然言語コーパスの統計情報を格納している第3自然言語
コーパス情報格納部を有し、この第3自然言語コーパス
情報格納部の情報を利用して、辞書作成管理部で獲得し
た第3自然言語エントリが適切かどうかを示す訳語選択
情報を付与するため、第1自然言語エントリから第2自
然言語エントリを介して第3自然言語エントリへと辿る
間に訳語候補が増加しても、例えば専門用語や分野特有
の語など、どの訳語がより適切であるかわかる。また、
複数の訳語候補の中で、よりよく用いられる語の優先順
位を付与できるし、更に第3自然言語の訳語候補が1つ
である場合でも該訳語候補の尤もらしさを判断できる。
更に、第2自然言語エントリが複合語で、そのままの表
記では第3自然言語エントリを獲得できず、解析を行っ
て第3自然言語エントリを獲得する場合、該第3自然言
語エントリ中の単語候補が複数あっても、獲得した第3
自然言語エントリの中に含まれる単語間の共起情報など
から、より適切な語の組み合わせを選択でき、結果的に
信頼性の高い第1自然言語対第3自然言語辞書を作成す
ることができる。
【0027】請求項10記載の本発明は、自然言語対の
対訳辞書を作成する辞書作成方法であって、第1自然言
語の見出しおよびその品詞と、該第1自然言語エントリ
の対訳である第2自然言語の対訳表現およびその品詞と
を有する第1自然言語対第2自然言語の辞書を第1自然
言語対第2自然言語辞書格納部に格納する第1自然言語
対第2自然言語辞書格納部格納ステップと、第2自然言
語の見出しおよびその品詞と、該第2自然言語エントリ
の対訳である第3自然言語の対訳表現およびその品詞と
を有する第2自然言語対第3自然言語辞書を第2自然言
語対第3自然言語辞書格納部に格納する第2自然言語対
第3自然言語辞書格納部格納ステップと、前記第1自然
言語対第2自然言語辞書格納部から第1自然言語対第2
自然言語辞書エントリを取り出す辞書エントリ読み込み
ステップと、この取り出した第1自然言語対第2自然言
語辞書エントリの第2自然言語エントリに対応する第3
自然言語エントリを前記第2自然言語対第3自然言語辞
書格納部から獲得し、前記第1自然言語対第2自然言語
辞書エントリの第2自然言語エントリを前記第3自然言
語エントリで置き換える辞書作成管理ステップと、この
第1自然言語対第2自然言語辞書エントリの第2自然言
語エントリを第3自然言語エントリで置き換えることに
より生成される第1自然言語対第3自然言語辞書エント
リに基づき第1自然言語の見出しおよびその品詞と、該
第1自然言語エントリの対訳である第3自然言語の対訳
およびその品詞とを有する第1自然言語対第3自然言語
の対訳辞書を作成して格納する第1自然言語対第3自然
言語辞書格納ステップと、第1自然言語コーパスの統計
情報を第1自然言語コーパス情報格納部に格納するステ
ップとを有し、前記辞書作成管理ステップは、前記辞書
エントリ読み込みステップから供給された第1自然言語
対第2自然言語辞書エントリの第1自然言語エントリを
キーとして前記第1自然言語コーパス情報格納部を参照
し、不必要な第1自然言語対第2自然言語エントリを取
り除くエントリ選択情報付与ステップを有することを要
旨とする。
【0028】請求項10記載の本発明にあっては、第1
自然言語対第2自然言語辞書格納部から第1自然言語対
第2自然言語辞書エントリを取り出し、この取り出した
第1自然言語対第2自然言語辞書エントリの第2自然言
語エントリに対応する第3自然言語エントリを第2自然
言語対第3自然言語辞書格納部から獲得し、この第3自
然言語エントリで第1自然言語対第2自然言語辞書エン
トリの第2自然言語エントリを置き換えて第1自然言語
の見出しおよびその品詞と、該第1自然言語エントリの
対訳である第3自然言語の対訳およびその品詞とを有す
る第1自然言語対第3自然言語の対訳辞書を作成して第
1自然言語対第3自然言語辞書格納部に格納するため、
第1自然言語対第2自然言語辞書および第2自然言語対
第3自然言語辞書を利用して、第1自然言語対第3自然
言語の組み合わせの辞書や対訳コーパスが無くても、第
1自然言語対第3自然言語辞書を作成することができ
る。また、辞書エントリ読み込みステップから供給され
た第1自然言語対第2自然言語辞書エントリの第1自然
言語エントリをキーとして第1自然言語コーパス情報格
納部を参照して、不必要な第1自然言語対第2自然言語
エントリを取り除くため、例えば分野限定の辞書を作成
する場合などには、不必要な辞書エントリを作成しない
ことになり、結果的に第1自然言語対第3自然言語辞書
の作成と利用において高速化および効率化を図ることが
できる 。また、分野限定の辞書を作成する場合、利用
する第1自然言語対第2自然言語辞書や第2自然言語対
第3自然言語辞書もその分野の辞書を用いることができ
れば、更に信頼性の高い分野限定の第1自然言語対第3
自然言語辞書を作成することができる。
【0029】更に、請求項11記載の本発明は、請求項
10記載の発明において、第2自然言語コーパスの統計
情報を第2自然言語コーパス情報格納部に格納するステ
ップを更に有し、前記エントリ選択情報付与ステップ
は、前記辞書エントリ読み込みステップから供給された
第1自然言語対第2自然言語辞書エントリの第2自然言
語エントリをキーとして前記第2自然言語コーパス情報
格納部を参照し、重みづけ情報である訳語選択情報を付
与する訳語選択情報/重みづけ情報付与ステップを有す
ることを要旨とする。
【0030】請求項11記載の本発明にあっては、辞書
エントリ読み込みステップから供給された第1自然言語
対第2自然言語辞書エントリの第2自然言語エントリを
キーとして第2自然言語コーパス情報格納部を参照し、
重みづけ情報である訳語選択情報を付与するため、第1
自然言語から第2自然言語への訳語候補が複数ある場合
でも、例えば専門用語や分野特有の語としては、どの訳
語がより適切であるかがわかり、また複数の訳語候補の
中でも、よりよく出現する訳語候補はどれであるかの優
先順位をつけることができる。更に、訳語候補が1つで
ある場合でも、該訳語候補の尤もらしさを判断でき、結
果的に、より信頼性の高い第1自然言語対第3自然言語
辞書を作成できる。また、第2自然言語の段階で訳語選
択のための情報を付与するため、第1自然言語および第
2自然言語を変えずに第3自然言語のみを変えるときに
も同じ情報を利用することができ、結果として第3自然
言語を様々な言語へと拡張するとき、第1自然言語対第
3自然言語辞書を効率的に作成することができる。
【0031】請求項12記載の本発明は、請求項10ま
たは11記載の発明において、前記辞書作成管理ステッ
プが、第1自然言語対第2自然言語辞書エントリの第2
自然言語エントリを第3自然言語エントリで置き換える
ことができなかった場合、該第2自然言語エントリを解
析する第2自然言語解析ステップと、該第2自然言語解
析ステップの解析結果に基づき第3自然言語エントリを
獲得し、この獲得した第3自然言 語エントリで前記第
2自然言語エントリを置き換える置換実行ステップを有
することを要旨とする。
【0032】請求項12記載の本発明にあっては、第1
自然言語対第2自然言語辞書エントリの第2自然言語エ
ントリを第3自然言語エントリで置き換えることができ
なかった場合、該第2自然言語エントリを解析し、この
解析結果に基づき第3自然言語エントリを獲得し、この
獲得した第3自然言語エントリで第2自然言語エントリ
を置き換えるため、例えば第2自然言語エントリが複合
語で、そのままの表記では第2自然言語対第3自然言語
辞書に登録されていない場合でも、第2自然言語エント
リに対して複合語を構成する部分表現単位に分割するな
どの解析を行い、各部分表現が第2自然言語対第3自然
言語辞書に登録されていれば、第1自然言語対第2自然
言語辞書エントリの第2自然言語エントリを第3自然言
語エントリで置き換えることができ、結果的にそのまま
の表記では置き換えの困難な複合語などに対する第3自
然言語エントリも獲得して第1自然言語対第3自然言語
辞書を作成できる。
【0033】請求項13記載の本発明は、自然言語対の
対訳辞書を作成する辞書作成プログラムを記録した記録
媒体であって、第1自然言語の見出しおよびその品詞
と、該第1自然言語エントリの対訳である第2自然言語
の対訳表現およびその品詞とを有する第1自然言語対第
2自然言語の辞書を第1自然言語対第2自然言語辞書格
納部に格納する第1自然言語対第2自然言語辞書格納部
格納ステップと、第2自然言語の見出しおよびその品詞
と、該第2自然言語エントリの対訳である第3自然言語
の対訳表現およびその品詞とを有する第2自然言語対第
3自然言語辞書を第2自然言語対第3自然言語辞書格納
部に格納する第2自然言語対第3自然言語辞書格納部格
納ステップと、前記第1自然言語対第2自然言語辞書格
納部から第1自然言語対第2自然言語辞書エントリを取
り出す辞書エントリ読み込みステップと、この取り出し
た第1自然言語対第2自然言語辞書エントリの第2自然
言語エントリに対応する第3自然言語エントリを前記第
2自然言語対第3自然言語辞書格納部から獲得し、前記
第1自然言語対第2自然言語辞書エントリの第2自然言
語エントリを前記第3自然言語エントリで置き換える辞
書作成管理ステップと、この第1自然言語対第2自然言
語辞書エントリの第2自然言語エントリを第3自然言語
エントリで置き換えることにより生成される第1自然言
語対第3自然言語辞書エントリに基づき第1自然言語の
見出しおよびその品詞と、該第1自然言語エントリの対
訳である第3自然言語の対訳およびその品詞とを有する
第1自然言語対第3自然言語の対訳辞書を作成して格納
する第1自然言語対第3自然言語辞書格納ステップと、
第1自然言語コーパスの統計情報を第1自然言語コーパ
ス情報格納部に格納するステップとを有し、前記辞書作
成管理ステップは、前記辞書エントリ読み込みステップ
から供給された第1自然言語対第2自然言語辞書エント
リの第1自然言語エントリをキーとして前記第1自然言
語コーパス情報格納部を参照し、不必要な第1自然言語
対第2自然言語エントリを取り除くエントリ選択情報付
与ステップを有することを特徴とする辞書作成プログラ
ムを記録することを要旨とする。
【0034】請求項15記載の本発明にあっては、第1
自然言語対第2自然言語辞書格納部から第1自然言語対
第2自然言語辞書エントリを取り出し、この取り出した
第1自然言語対第2自然言語辞書エントリの第2自然言
語エントリに対応する第3自然言語エントリを第2自然
言語対第3自然言語辞書格納部から獲得し、この第3自
然言語エントリで第1自然言語対第2自然言語辞書エン
トリの第2自然言語エントリを置き換えて第1自然言語
の見出しおよびその品詞と、該第1自然言語エントリの
対訳である第3自然言語の対訳およびその品詞とを有す
る第1自然言語対第3自然言語の対訳辞書を作成して第
1自然言語対第3自然言語辞書格納部に格納し、供給さ
れた第1自然言語対第2自然言語辞書エントリの第1自
然言語エントリをキーとして前記第1自然言語コーパス
情報格納部を参照し、不必要な第1自然言語対第2自然
言語エントリを取り除く辞書作成プログラムを記録媒体
に記録しているため、該記録媒体を用いて、その流通性
を高めることができる。
【0035】
【0036】
【0037】
【0038】
【0039】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図1は、本発明の一実施形態に係る
辞書作成装置の構成を示すブロック図である。同図に示
す辞書作成装置は、第1自然言語対第2自然言語辞書格
納部10、辞書エントリ読み込み部11、辞書作成管理
部12、第1自然言語対第3自然言語辞書格納部13、
第1自然言語コーパス情報格納部14、第2自然言語コ
ーパス情報格納部15、置換ルール格納部16、第2自
然言語辞書格納部17、第3自然言語辞書格納部18、
第2自然言語対第3自然言語辞書格納部19、第3自然
言語コーパス情報格納部20より構成される。
【0040】第1自然言語対第2自然言語辞書格納部1
0には、1つ以上の第1自然言語対第2自然言語辞書が
格納されており、格納されている辞書レコードには、少
なくとも第1自然言語の見出しおよびその品詞と、該第
1自然言語の見出しおよびその品詞のペアである第1自
然言語エントリに対する第2自然言語の対訳表現とその
品詞が含まれている。
【0041】辞書エントリ読み込み部11は、第1自然
言語対第2自然言語辞書格納部10に格納されている辞
書から第1自然言語エントリとその対訳表現を含む第2
自然言語エントリを取り出して辞書作成管理部12へ供
給する。
【0042】辞書作成管理部12は、第1自然言語コー
パス情報格納部14、第2自然言語コーパス情報格納部
15、置換ルール格納部16、第2自然言語辞書格納部
17、第3自然言語辞書格納部18、第2自然言語対第
3自然言語辞書格納部19、第3自然言語コーパス情報
格納部20を参照し、辞書エントリ読み込み部11から
供給された第1自然言語対第2自然言語辞書エントリの
第2自然言語エントリを第3自然言語エントリへと置き
換え、第1自然言語対第3自然言語辞書格納部13へ格
納する。
【0043】辞書作成管理部12は、エントリ選択情報
付与部121、第2自然言語解析部122、置換管理部
123、訳語選択情報付与部124から構成される。ま
た、置換管理部123は、置換ルール検索部1231、
置換ルール作成部1232、置換実行部1233によっ
て構成される。
【0044】辞書作成管理部12のエントリ選択情報付
与部121は、辞書エントリ読み込み部11から供給さ
れた第1自然言語対第2自然言語辞書エントリの第1自
然言語エントリをキーとして、第1自然言語コーパス情
報格納部14を参照し、該第1自然言語対第2自然言語
辞書エントリが必要かどうかを判断し、不必要であれば
以降の操作を行わずに、次に辞書エントリ読み込み部1
1から供給された第1自然言語対第2自然言語辞書エン
トリへと操作を移す。
【0045】また、エントリ選択情報付与部121は、
辞書エントリ読み込み部11から供給された第1自然言
語対第2自然言語辞書エントリの第2自然言語エントリ
をキーとして、第2自然言語コーパス情報格納部15を
参照し、該第2自然言語エントリに関するコーパス中の
統計情報を取り出して該第2自然言語エントリに付与
し、辞書作成管理部12の置換管理部123における置
換実行部1233へと統計情報を付与した該第2自然言
語エントリを供給する。
【0046】置換実行部1233は第2自然言語対第3
自然言語辞書格納部19を参照し、辞書エントリ読み込
み部11から供給された第1自然言語対第2自然言語辞
書エントリの第2自然言語エントリを第3自然言語エン
トリに置き換え、第1自然言語エントリと第3自然言語
エントリの組を訳語選択情報付与部124へと供給す
る。
【0047】ただし、置換実行部1233で第1自然言
語対第2自然言語辞書エントリの第2自然言語エントリ
に対する第3自然言語エントリが獲得できなかった場
合、該第2自然言語エントリは辞書作成管理部12の第
2自然言語解析部122へと供給される。
【0048】辞書作成管理部12の第2自然言語解析部
122は、第2自然言語エントリに対する解析手段を1
つ以上有し、置換管理部123の置換実行部1233に
おいて第1自然言語対第2自然言語辞書エントリの第2
自然言語エントリを第3自然言語エントリへ置き換える
ことができなかった場合に、必要に応じて第2自然言語
辞書格納部17を参照して該第2自然言語エントリを解
析し、解析結果を置換管理部123の置換ルール検索部
1231へと供給する。
【0049】辞書作成管理部12の置換管理部123
は、第1自然言語対第2自然言語辞書エントリの第2自
然言語の辞書エントリに対する第3自然言語エントリを
獲得する。
【0050】置換管理部123の置換ルール検索部12
31は、第2自然言語解析部122から供給された第1
自然言語対第2自然言語辞書エントリの第2自然言語エ
ントリの解析結果をキーとして置換ルール格納部16の
置換ルールを検索し、第1自然言語対第2自然言語辞書
エントリの第2自然言語エントリの解析結果を用いて第
2自然言語エントリを第3自然言語エントリへ置き換え
る置換ルールを1つ以上取り出す。
【0051】置換管理部123の置換ルール作成部12
32は、置換ルール検索部1231で置換ルール格納部
16に格納されている既存の置換ルールを複数組み合わ
せて、第1自然言語対第2自然言語辞書エントリの第2
自然言語エントリに対する解析結果に対する置き換えを
行った場合に、該置換ルールの組み合わせ(組み合わせ
置換ルール)の出現回数が一定数以上になれば、該組み
合わせ置換ルールを置換ルール格納部16へと格納す
る。
【0052】置換管理部123の置換実行部1233
は、第1自然言語対第2自然言語辞書エントリの第2自
然言語エントリをキーとして、第2自然言語対第3自然
言語辞書格納部19を検索し、第1自然言語対第2自然
言語辞書エントリの第2自然言語エントリを第3自然言
語エントリへ置き換える。
【0053】また、置換実行部1233は、第1自然言
語対第2自然言語辞書エントリの第2自然言語エントリ
に対する第2自然言語解析部122による解析結果、あ
るいは、該第2自然言語エントリの解析結果と置換ルー
ル検索部1231で取り出した1つ以上の置換ルールに
応じて、第2自然言語対第3自然言語辞書格納部19
と、必要に応じて第3自然言語辞書格納部18を参照し
て、第1自然言語対第2自然言語辞書エントリの第2自
然言語エントリを第3自然言語エントリへと置き換え
る。
【0054】また、置換実行部1233は、第1自然言
語対第2自然言語辞書エントリの第2自然言語エントリ
に対応する第3自然言語エントリを獲得できなかった場
合に、該第2自然言語エントリを第2自然言語解析部1
22に戻し、上記と同様に第1自然言語対第2自然言語
辞書エントリの第2自然言語エントリを第3自然言語エ
ントリへと置き換える処理を繰り返す。
【0055】ただし、第1自然言語対第2自然言語辞書
エントリの第2自然言語エントリを第2自然言語解析部
122に戻すのは、まだ第2自然言語解析部122での
解析を一度も行っていない場合か、第2自然言語解析部
122に複数の解析方法が格納されており、該第2自然
言語エントリに対してまだ行ってない解析方法が残って
いる場合のみであり、解析方法が残っていない場合に
は、置換できなかったというフラグを付与し、第1自然
言語対第2自然言語辞書エントリの第2自然言語エント
リを第3自然言語エントリで置き換えないまま、あるい
は、該第2自然言語エントリから第3自然言語エントリ
への置換の途中結果を第1自然言語対第3自然言語辞書
格納部13へと格納する。
【0056】訳語選択情報付与部124は、置換管理部
123から供給された第3自然言語エントリをキーとし
て、第3自然言語コーパス情報格納部20を参照し、各
該第3自然言語エントリに対してどの訳語を優先、ある
いは選択するか等の訳語選択情報を付与する。
【0057】第1自然言語対第3自然言語辞書格納部1
3には、辞書作成管理部12から供給された、少なくと
も第1自然言語の見出しとその品詞と、該第1自然言語
の見出しとその品詞のぺアである第1自然言語エントリ
に対応する第3自然言語の対訳表現とその品詞と、必要
であれば第3自然言語の訳語選択情報をも格納すること
ができる。
【0058】第1自然言語コーパス情報格納部14は、
電子化文書である第1自然言語コーパスを用いて抽出さ
れた統計情報を格納している。
【0059】第2自然言語コーパス情報格納部15は、
電子化文書である第2自然言語コーパスを用いて抽出さ
れた統計情報を格納している。
【0060】置換ルール格納部16は、置換管理部12
3において第1自然言語対第2自然言語辞書エントリの
第2自然言語エントリを第3自然言語エントリへ置き換
える際に、利用される置換ルールが格納されている。
【0061】また、置換ルール格納部16には、置換ル
ール検索部1231において既存の置換ルールを組み合
わせて用いられた組み合わせ置換ルールのうち、一定回
数以上出現した該組み合わせ置換ルールも格納される。
【0062】第2自然言語辞書格納部17は、第2自然
言語の単言語辞書を格納してあり、辞書エントリとして
少なくとも原形と品詞と活用情報が格納されている。
【0063】第3自然言語辞書格納部18は、第3自然
言語の単言語辞書を格納してあり、辞書エントリとして
少なくとも原形と品詞と活用情報が格納されている。
【0064】第2自然言語対第3自然言語辞書格納部1
9は、第2自然言語対第3自然言語辞書が1つ以上格納
されており、格納されている第2自然言語対第3自然言
語辞書エントリには、少なくとも第2自然言語の見出し
とその品詞と、該第2自然言語エントリに対応する第3
自然言語の対訳表現とその品詞が含まれている。
【0065】第3自然言語コーパス情報格納部20は、
電子化文書である第3自然言語コーパスを用いて抽出さ
れた統計情報を格納している。
【0066】次に、以上のように構成される辞書作成装
置の具体的例および作用について図2以降の図面を用い
るとともに、図14に示すフローチャートを適宜参照し
て説明する。なお、この説明では、第1自然言語を日本
語、第2自然言語を英語、第3自然言語を仏語とする
が、第1自然言語、第2自然言語、第3自然言語の組み
合わせは、第1、第2、第3自然言語がそれぞれ異なる
言語であれば、タイ語と中国語とスペイン語や、ドイツ
語とフランス語とロシア語などなんでもよい。
【0067】図2は、図1に示した第1自然言語対第2
自然言語辞書格納部10に格納された第1自然言語対第
2自然言語辞書エントリの例を示している。第1自然言
語対第2自然言語辞書は、第1自然言語を日本語、第2
自然言語を英語とすると、例えばALT−J/Eの日英
対照辞書(NTT、「日英機械翻訳技術」、NTTR&
Dvol.46,pp107-141,1997)やEDR電子化辞書(日本
電子化辞書研究所、http://www.iijnet.or.jp/edr/J-in
dex.html)などが存在する。
【0068】図2にあるように、第1自然言語対第2自
然言語辞書エントリとして、少なくとも日本語見出しと
その品詞、および該日本語エントリに対する英語の対訳
表現とその品詞が登録されている。例えば、日本語見出
しが「銀行」である第1自然言語対第2自然言語辞書エ
ントリには、その品詞「名詞」と対訳表現”bank”およ
びその品詞「名詞」が登録されており、また日本語見出
しが「銀行員」である第1自然言語対第2自然言語辞書
エントリには、その品詞「名詞」と対訳表現”bank cle
rk”およびその品詞「名詞」が登録されており、更に日
本語見出しが「やけど」である第1自然言語対第2自然
言語辞書エントリには、その品詞「名詞」と対訳表現”
burn”およびその品詞「名詞」と、更に他の対訳表現で
ある”scald"およびその品詞「名詞」が登録されてお
り、更に、日本語見出しが「四季」である第1自然言語
対第2自然言語辞書エントリには、その品詞「名詞」と
対訳表現”four seasons”およびその品詞「名詞」が登
録されており、更に、日本語見出しが「千秋楽」である
第1自然言語対第2自然言語辞書エントリには、その品
詞「名詞」と対訳表現”last performance of the seas
on”およびその品詞「名詞」が登録されている。
【0069】これらの例では日本語見出しは名詞であっ
たが、必ずしも名詞である必要はなく、動詞や形容詞な
どなんでもよい。また、これらの例では英語の品詞も名
詞であったが、この品詞も名詞である必要はなく動詞や
形容詞などなんでもよく、更に、見出しの品詞と一致す
る必要もない。
【0070】また、第1自然言語対第2自然言語辞書格
納部10に格納される第1自然言語対第2自然言語辞書
は1つである必要はなく、複数の辞書を格納してもよ
く、例えば前記ALT−J/Eの日英対照辞書やEDR
電子化辞書を両方格納することや、分野限定の辞書を作
成することが目的の場合には、例えばコンピュータ関連
の辞書を作成したい時には、コンピュータ用語の辞書を
用いることなどが考えられる。
【0071】次に、辞書エントリ読み込み部11の機能
を説明する。辞書エントリ読み込み部11は、第1自然
言語対第2自然言語辞書格納部10に格納された1つま
たは複数の辞書から辞書エントリを取り出してくる機能
を持つ(図14のステップS2)。辞書エントリ読み込
み部11で読み込まれた第1自然言語対第2自然言語辞
書エントリは、辞書作成管理部12へと供給される。
【0072】第1自然言語対第2自然言語辞書格納部1
0に格納された辞書が1つの場合には、例えば日本語で
あれば50音順など、第1自然言語の辞書で一般的な語
順で見出しをソートして取り出したり、第1自然言語対
第2自然言語辞書エントリを第1自然言語の品詞ごとに
分けて同一品詞の中で見出しをソートして取り出せばよ
い。
【0073】第1自然言語対第2自然言語辞書格納部1
0に辞書が複数格納されている場合には、例えば50音
順など一定の検索順を決定し、各辞書からその検索順に
沿って辞書エントリを取り出し、複数の辞書で第1自然
言語エントリが同じである第1自然言語対第2自然言語
辞書エントリがあれば、全ての辞書から該第1自然言語
対第2自然言語辞書エントリを取り出す方法が考えられ
る。
【0074】その他にも、予め第1自然言語エントリを
キーとして複数の辞書を1つの辞書にまとめ直してお
き、辞書が1つの場合と同様に順に取り出す方法も考え
られる。
【0075】またその他にも、格納されている辞書を1
つずつ引く方法がある。その場合、まず1つめの辞書を
第1自然言語の見出しでソートして順に引いていき、出
てきた第1自然言語エントリが他の辞書にもあるかを調
べ、あれば該第1自然言語エントリを持つ第1自然言語
対第2自然言語辞書エントリを全て取り出し、取り出し
た第1自然言語対第2自然言語辞書エントリには取り出
し済みのフラグを付与しておく。次に1つめの辞書を最
後まで検索した後、次の辞書に移り、取り出し済みのフ
ラグが付与されていない第1自然言語対第2自然言語辞
書エントリだけ同様に取り出し、1つめの辞書を除く他
の辞書にもその第1自然言語エントリを持つ第1自然言
語対第2自然言語辞書エントリが登録されていればそれ
も取り出し、取り出し後は取り出し済みのフラグを付与
しながら、各辞書で取り出していない第1自然言語対第
2自然言語辞書エントリがなくなるまで繰り返すという
方法も考えられる。
【0076】また特に、作成する第1自然言語対第3自
然言語の辞書が分野限定の辞書の場合や、辞書ごとに信
頼性に差がある場合などには、取り出した第1自然言語
対第2自然言語辞書エントリに、どの辞書に載っていた
第1自然言語対第2自然言語辞書エントリかのフラグを
つけ、該第1自然言語対第2自然言語辞書の分野や信頼
性によって第1自然言語対第2自然言語辞書エントリに
重みづけをすることも考えられる。
【0077】次に、辞書作成管理部12について説明す
る。辞書エントリ読み込み部11から供給された第1自
然言語対第2自然言語辞書エントリは、辞書作成管理部
12によって第1自然言語対第2自然言語辞書エントリ
の第2自然言語エントリが第3自然言語エントリによっ
て置き換えられ、第1自然言語エントリと第3自然言語
エントリの組として第1自然言語対第3自然言語辞書格
納部13に格納される。
【0078】辞書作成管理部12では、まず、エントリ
選択情報付与部121において第1自然言語コーパス情
報格納部14を参照し、辞書エントリ読み込み部11か
ら供給された第1自然言語対第2自然言語辞書エントリ
が、作成する第1自然言語対第3自然言語辞書の分野で
頻出する語であるかなど、第1自然言語対第3自然言語
辞書エントリとして獲得するのに有益かどうかの判断を
行い、有益と判断すると置換実行部1233に供給す
る。
【0079】ここで参照される第1自然言語コーパス情
報格納部14に格納されている第1自然言語コーパスの
統計情報は、例えば図3のような形式をしており、少な
くとも第1自然言語である日本語のコーパス中に出現す
る語およびその品詞の組と、その組のコーパスでの出現
頻度などの統計情報が示されている。
【0080】第1自然言語コーパス情報格納部14に格
納されている第1自然言語コーパスの統計情報の元とな
るコーパスとしては、日本語であれば例えば電子化され
た日本経済新聞や毎日新聞などがあげられる。
【0081】図2と図3を用いて、エントリ選択情報付
与部121の機能を具体的に説明する。例えば経済関係
の辞書を作成したい場合を想定すると、第1自然言語コ
ーパス情報格納部14には経済関係の第1自然言語コー
パスから獲得した統計情報を格納しておく。図3は経済
関係の日本語コーパスから獲得された統計情報の例であ
る。エントリ選択情報付与部121に図2に示す日本語
エントリの「銀行(名詞)」や「銀行員(名詞」)の第
1自然言語対第2自然言語辞書エントリが供給されたと
すると、図3のように経済関係の日本語コーパス中に
「銀行(名詞)」および「銀行員(名詞)」は出現して
いるので、獲得すれば有益なエントリだと判断され、置
換実行部1233へと供給される(図14のステップS
3(Yes))。
【0082】しかし、供給された第1自然言語対第2自
然言語辞書エントリの日本語エントリが「やけど(名
詞)」や「四季(名詞)」や「千秋楽(名詞)」であれ
ば、図3のように経済関係の日本語コーパス中にはいず
れの日本語エントリも出現しないため、経済関係の辞書
を作成する時には、これらの日本語エントリに対応する
辞書エントリの作成は有益とは判断されず、次の辞書エ
ントリへと操作が移される(図14のステップS3(N
o))。ただし、作成する辞書が経済関係の辞書だと限
定しない場合には、「やけど(名詞)」も「四季(名
詞)」も「千秋楽(名詞)」も置換実行部へと供給され
る。
【0083】また、エントリ選択情報付与部121は、
第2自然言語コーパス情報格納部15を参照し、辞書エ
ントリ読み込み部11から供給された第2自然言語エン
トリに訳語選択のための重みづけを行い、すなわち訳語
選択情報を付与し、重みづけをした該第2自然言語エン
トリを置換実行部1233に供給する機能も有する。
【0084】ここで参照される第2自然言語コーパス情
報格納部15に格納されている第2自然言語コーパスの
統計情報は、例えば図4のような形式をしており、少な
くとも第2自然言語である英語のコーパス中に出現する
語および品詞の組と、その組のコーパスでの出現頻度な
どの統計情報が示されている。
【0085】第2自然言語コーパス情報格納部15に格
納されている第2自然言語コーパスの統計情報の元とな
るコーパスとしては、英語であれば例えばFinantial Ti
mes(http://www.jcp.grenet.fr/ELRA/cata/text-det.ht
ml#mlcc)やWall Street Journal(http://morph.ldc.up
enn.edu/Catalog/LDC2000T43.html)などがあげられ
る。
【0086】図2と図4を用いて、エントリ選択情報付
与部121の上記重みづけ機能を具体的に説明する。例
えば、図2に示す日本語エントリが「やけど(名詞)」
である第1自然言語対第2自然言語辞書エントリの英語
エントリは、”burn(名詞)”と”scale(名詞)”が
登録されている。しかし、図4から第2自然言語コーパ
ス中の出現頻度は”burn(名詞)”の方が高いことがわ
かる。そこで、「やけど(名詞)」の英訳語としては”
scale(名詞)”よりも”burn(名詞)”の方を重視、
ひいては”scale(名詞)”を用いて得られた仏語よ
り、”burn(名詞)”を用いて得られた仏語を重視する
ため、例えば図5のように訳語選択のための重みづけを
行う(図14のステップS4)。
【0087】十分に大規模な第2自然言語コーパスか
ら、あるいは、信頼性のおける第2自然言語コーパスか
ら獲得された第2自然言語コーパスの統計情報を利用で
きれば、この例のように第1自然言語対第2自然言語辞
書エントリの第2自然言語エントリに重みづけして置換
実行部1233に供給することや、第2自然言語エント
リの重みの重いものだけ置換実行部1233に供給する
ことも考えられる。
【0088】図2に示す他の第1自然言語対第2自然言
語辞書エントリが上記重みづけ機能を有するエントリ選
択情報付与部121に供給された場合には、それぞれの
日本語エントリに対応する英語エントリは1つずつなの
で、エントリ選択情報付与部121の重みづけ機能は働
かないか、あるいは分野限定の辞書を作成する場合など
には、第2自然言語エントリの該分野における尤もらし
さの情報を付与することも考えられる。
【0089】次に、置換管理部123の置換実行部12
33について説明する。置換実行部1233では、供給
された第1自然言語対第2自然言語辞書エントリの第2
自然言語エントリをキーとして第2自然言語対第3自然
言語辞書格納部19を参照し、該第2自然言語エントリ
の対訳である第3自然言語エントリを獲得し、第1自然
言語対第2自然言語辞書エントリの第2自然言語エント
リを該第3自然言語エントリへと置き換え、訳語選択情
報付与部124へと供給する。
【0090】ただし、置換実行部1233では供給され
た第1自然言語対第2自然言語辞書エントリの第2自然
言語エントリの対訳である第3自然言語エントリを獲得
できなかった場合は、該第2自然言語エントリを第2自
然言語解析部122に供給する。
【0091】ここでまず、図6(a)を用いて第2自然
言語対第3自然言語辞書格納部19について具体的に説
明する。図6(a)および(b)は第2自然言語対第3
自然言語辞書格納部19に格納された第2自然言語対第
3自然言語辞書エントリの例である。
【0092】第2自然言語を英語、第3自然言語を仏語
とすると、第2自然言語対第3自然言語辞書は、例えば
Lantmark Lexicon(LanTmark,http://www.icp.grenet.fr
/ELRA/cata/text-det.html#multilex)やBasic Multili
ngual Dictionary(http://www.icp.grenet.fr/ELRA/cat
a/text-det.html#multilex)などが存在する。
【0093】図6(a)および(b)にあるように、第
2自然言語対第3自然言語辞書エントリとしては、少な
くとも英語見出しとその品詞、および該英語エントリに
対する仏語の対訳表現とその品詞が登録されている。
【0094】例えば、図6(a)では、英語見出しが"b
ank"である第2自然言語対第3自然言語辞書エントリに
は、その品詞「名詞」と対訳表現”banque”およびその
品詞「女性名詞」と、更に、他の対訳表現である”riv
e”およびその品詞「女性名詞」が登録されている。ま
た、英語見出しが"burn"である第2自然言語対第3自然
言語辞書エントリには、その品詞「名詞」と対訳表現”
ruisseau”およびその品詞「男性名詞」と、更に他の対
訳表現である”bru^lure”およびその品詞「女性名
詞」が登録されており、英語見出しが”scald”である
第2自然言語対第3自然言語辞書エントリには、その品
詞「名詞」と対訳表現”bru^lure”およびその品詞
「女性名詞」が登録されている。
【0095】これらの例では英語見出しは名詞であった
が、必ずしも名詞である必要はなく、動詞や形容詞など
なんでもよい。また、これらの例では仏語の品詞も男性
名詞あるいは女性名詞であったが、この品詞も男性名詞
あるいは女性名詞である必要はなく動詞や形容詞などな
んでもよく、更に、見出しの品詞と一致する必要もな
い。
【0096】また、第2自然言語対第3自然言語辞書格
納部19に格納される第2自然言語対第3自然言語辞書
は1つである必要はなく、複数の辞書を格納してもよ
く、例えば前記Lantmark LexiconやBasic Multilingual
Dictionaryを両方格納することや、分野限定の辞書を
作成することが目的の場合であって、例えばコンピュー
タ関連の辞書を作成したい時には、コンピュータ用語の
辞書を用いることなどが考えられる。
【0097】図6(a)を用いて、置換実行部1233
の機能について具体的に説明する。ここで、図2に示す
日本語エントリ「銀行(名詞)」に対する英語エントリ
である"bank(名詞)”が置換実行部1233に供給さ
れた場合には、図6(a)に示す第2自然言語対第3自
然言語辞書格納部19を検索し、"bank(名詞)”の対
訳である仏語エントリ”banque(女性名詞)”と”rive
(女性名詞)”を獲得して(図14のステップS5(Y
es))、日本語エントリ「銀行(名詞)」と仏語エン
トリ”banque(女性名詞)”および”rive(女性名
詞)”の組を訳語選択情報付与部124へと供給する
(図14のステップS6)。
【0098】また、図2に示す日本語エントリ「やけど
(名詞)」に対する英語エントリである”burn(名
詞)”と”scald(名詞)”が置換実行部1233に供
給された場合は、第2自然言語対第3自然言語辞書格納
部19を検索し、図6(a)から、”burn(名詞)”に
対する仏語エントリ”ruisseau(男性名詞)”と
【外1】 と”scald(名詞)”に対する仏語エントリ”bru^lure
(女性名詞)”を獲得して(図14のステップS5(Y
es))、日本語エントリ「やけど(名詞)」と仏語エ
ントリ”ruisseau(男性名詞)”および”bru^lure
(女性名詞)”の組と、該組に”bru^lure(女性名
詞)”は重複して出現しているという情報をつけて、訳
語選択情報付与部124へと供給する(図14のステッ
プS6)。
【0099】また、図2に示す日本語エントリ「千秋楽
(名詞)」に対する英語エントリである”last perform
ance of the season(名詞)”が置換実行部1233に
供給された場合、第2自然言語対第3自然言語辞書格納
部19を検索しても、図6(a)に示すように該英語エ
ントリに対する第2自然言語対第3自然言語辞書エント
リはなく、対応する仏語エントリを獲得できない。その
ため、この英語エントリ”last performance of the se
ason(名詞)”は第2自然言語解析部122に供給され
る(図14のステップS5(No))。
【0100】同様に、「銀行員(名詞)」に対する英語
エントリ”bank clerk(名詞)”および「四季(名
詞)」に対する英語エントリ”four seasons(名詞)”
に対しても、対訳である仏語エントリを獲得できないた
め、該英語エントリは第2自然言語解析部122に供給
される(図14のステップS5(No))。
【0101】次に、訳語選択情報付与部124について
説明する。訳語選択情報付与部124では、供給された
第3自然言語エントリをキーとして、第3自然言語コー
パス情報格納部20を検証し、供給された第3自然言語
エントリが正しいかどうか、あるいは、複数供給された
場合、どの第3自然言語エントリが優先されるか等の訳
語選択のための重みづけを行い、第1自然言語対第3自
然言語辞書格納部13に格納する。
【0102】ここで参照される第3自然言語コーパス情
報格納部20に格納されている第3自然言語コーパスの
統計情報は、例えば図7(a)のような形式をしてお
り、少なくとも第3自然言語である仏語のコーパス中に
出現する語および品詞の組と、その組のコーパスでの出
現頻度や共起頻度などの統計情報が示されている。
【0103】第3自然言語コーパス情報格納部20に格
納されている第3自然言語コーパスの統計情報の元とな
るコーパスとしては、仏語であれば例えばLe Monde new
spaper(http://morph.ldc.upenn.edu/Catalog/LDC95T1
1.html)や、Canadian Hansard(http://www.ldc.upenn.
edu/ldc/news/release/hansard.html)などがあげられ
る。
【0104】図3と図7(a)を用いて訳語選択情報付
与部124の機能を具体的に説明する。例えば、経済関
係の辞書を作成したい場合を想定すると、第3自然言語
コーパス情報格納部20には経済関係のコーパスから獲
得した統計情報を格納しておく。図7(a)は経済関係
の仏語コーパスから獲得された出現頻度の例である。エ
ントリ選択情報付与部121の説明で述べたように、経
済関係の辞書を作成している場合で、第1自然言語コー
パス情報格納部14に経済関係の第1自然言語コーパス
の統計情報が格納されており、該統計情報を利用して、
第1自然言語対第2自然言語辞書エントリを取捨選択し
た場合、図2に示す日本語エントリ「銀行(名詞)」と
「銀行員(名詞)」の第1自然言語対第2自然言語辞書
エントリのみ残されているが、日本語エントリ「銀行員
(名詞)」に対する英語エントリは第2自然言語解析部
122へと供給されているので、この段階で訳語選択情
報付与部124へと供給されているのは、日本語エント
リ「銀行(名詞)」と、該日本語エントリに対するただ
1つの英語エントリである"bank(名詞)"から獲得され
た仏語エントリのみである。
【0105】従って、日本語エントリ「銀行(名詞)」
と仏語エントリ”banque(女性名詞)”および”rive
(女性名詞)”の組が、訳語選択情報付与部124に供
給されたとすると、図7(a)から経済関連の仏語コー
パスにおいては”banque(女性名詞)”は頻出するが”
rive(女性名詞)”は出現しないことがわかり、「銀行
(名詞)」に対する仏語エントリとしては、”banque
(女性名詞)”の方が有望であることがわかる。実際、
英語”bank(名詞)”には「銀行」という意味以外に
「岸」などの意味があり、”rive(女性名詞)”は後者
の意味で出現した仏語エントリである。このように、仏
語エントリ”banque(女性名詞)”および”rive(女性
名詞)”に対して訳語選択のための重みづけを行い、日
本語エントリ「銀行(名詞)」とともに第1自然言語対
第3自然言語辞書格納部13へ格納する(図14のステ
ップS7)。
【0106】十分に大規模な第3自然言語コーパスか
ら、あるいは信頼性のおける第3自然言語コーパスから
獲得された第3自然言語コーパスの統計情報を利用でき
れば、第3自然言語エントリとして重みの重いものだけ
残して第1自然言語対第3自然言語辞書格納部13へ格
納することも考えられる。
【0107】ただし、上記の例では、第1自然言語コー
パス情報格納部14に第1自然言語コーパスの統計情報
が格納されており、該統計情報を利用して第1自然言語
対第2自然言語辞書エントリが既に取捨選択されている
場合を想定したが、第1自然言語コーパス情報格納部1
4がない場合、あるいは第1自然言語コーパス情報格納
部14があっても第1自然言語対第2自然言語辞書エン
トリの取捨選択がされていない場合でも同様に、第3自
然言語コーパス情報格納部20に格納された第3自然言
語コーパスの出現頻度などの統計情報を利用して仏語エ
ントリの取捨選択、あるいは重みづけを行うことができ
る。
【0108】また、訳語選択情報付与部124は、第1
自然言語対第2自然言語辞書エントリの第2自然言語エ
ントリが複数あった場合でも、供給された第3自然言語
エントリが重複して出現すれば、重複して出現した第3
自然言語の方がより適切だと判断する重複判断機能を有
する。
【0109】訳語選択情報付与部124の前記重複判断
機能を具体的に説明する。前記のように図2に示す日本
語エントリ「やけど(名詞)」に対する英語エントリ”
scald(名詞)”からは、図6(a)に示す仏語エント
リ”bru^lure(女性名詞)”が、英語エントリ”burn
(名詞)”からは図6(a)に示す仏語エントリ”ruis
seau(男性名詞)”および”bru^lure(女性名詞)”
が獲得されて訳語選択情報付与部124へ供給されてい
る。供給された仏語エントリは、”bru^lure(女性名
詞)”のみ重複して出現している。そこで、「やけど
(名詞)」に対する仏語エントリとしては、”ruisseau
(男性名詞)”より”bru^lure(女性名詞)”の方が
有望であると重みづけを行う。実際、英語の”burn(名
詞)”には、「やけど」以外に「小川」という意味があ
り、”ruisseau(男性名詞)”は、小川の方の意味の仏
語である。このように、仏語エントリ”bru^lure(女
性名詞)”および”ruisseau(男性名詞)”に対して訳
語選択のための重みづけを行い、日本語エントリ「やけ
ど(名詞)」とともに第1自然言語対第3自然言語辞書
格納部13へ格納する(図14のステップS7)。ただ
し、第3自然言語エントリとして重みの重いものだけ残
して第1自然言語対第3自然言語辞書格納部13へ格納
することも考えられる。
【0110】次に、第2自然言語解析部122について
説明をする。第2自然言語解析部122では、置換管理
部123において第1自然言語対第2自然言語辞書エン
トリの第2自然言語エントリを第3自然言語エントリへ
置き換えることができなかった場合に、供給された第2
自然言語エントリを解析し、該第2自然言語エントリの
解析結果を再び置換管理部123へ供給する。
【0111】第2自然言語解析部122が有する解析方
法としては、例えば形態素解析や構文解析などがあげら
れる。英語に対する形態素解析器としては、Brill Tagg
er(Eric Brill,ftp:blaze.cs.jhu.edu:/pub/brill/)
や、Xelda(Xerox,ftp://ftp.parc.xerox.com/pub/tagge
r)などがあり、英語に対する構文解析としてはApplePi
e Parser(New York University,http://cs.nyu.edu/cs/
projects/proteus/app/)や、Link Grammar(Carnegie M
ellon University,http://www.link.cs.cmu.edu/link
/)などがあげられる。
【0112】まず第2自然言語解析部122が形態素解
析と構文解析を行う場合について、図8(a)〜(c)
を用いて第2自然言語解析部122の機能を具体的に説
明する。図8(a)〜(c)は第2自然言語解析部12
2による第2自然言語エントリの解析結果の例である。
【0113】図2に示す日本語エントリ「千秋楽(名
詞)」に対する英語エントリ”last performance of th
e season(名詞)”が、第2自然言語解析部122に供
給されたとする。図8(a)は”last performance of
the season”の第2自然言語解析部122による形態素
解析結果を示している。また、図8(b)は該英語エン
トリの第2自然言語解析部122による構文解析結果を
示している。図8(a)に示す形態素解析結果による
と、”last performance of the season”は、”last
(形容詞)”,”performance(名詞)”,”of(前置
詞)”,”the(定冠詞)”,”season(名詞)”へと
形態素解析され、更に図8(b)から、”the(定冠
詞)”+”season(名詞)”で名詞句になり、更に”of
(前置詞)”が加わり前置詞句になり、また、”last
(形容詞)”+”performance(名詞)”で名詞句にな
り、”last(形容詞)performance(名詞)of(前置
詞)the(定冠詞)season(名詞)”で名詞句になるこ
とがわかる。この解析結果は置換管理部123へ供給さ
れる(図14のステップS10)。
【0114】また、第2自然言語解析部122の解析方
法としては、他に例えば、形態素解析のみ行い、形態素
ごとに置換管理部123へ渡すことが考えられる。この
場合例えば、図2に示す日本語エントリ「銀行員(名
詞)」に対する英語エントリ”bank clerk(名詞)”
は、図8(c)に示すように”bank(名詞)”,”cler
k(名詞)”に形態素解析され、置換管理部123へ供
給される(図14のステップS10)。
【0115】また、第2自然言語解析部122の解析方
法としては、他に例えば、複合語の場合、複合語を構成
する一単語ずつに分けて、置換管理部123へ渡すこと
が考えられる。その場合、図2に示す日本語エントリ
「銀行員(名詞)」に対する英語エントリ”bank clerk
(名詞)”では”bank”,”clerk”と分割され、置換
管理部123へ供給される(図14のステップS1
0)。
【0116】また、第2自然言語解析部122の解析方
法としては、他に例えば、複合語の場合、部分集合へと
分割して置換管理部123へ渡すことが考えられる。そ
の場合、図2に示す日本語エントリ「千秋楽(名詞)」
に対する英語エントリ”lastperformance of the seaso
n(名詞)”では、”last performance of the”,”la
st performance of”,”last performance”,”las
t”,”performance of the season”,”parformance
of the”,”performance of”,”performance”,”o
f the season”,”of the”,”of”,”the seaso
n”,”the”,”season”へと分割され、置換管理部1
23へ供給される(図14のステップS10)。
【0117】また、第2自然言語解析部122は、本発
明の一実施形態である図1においては、第2自然言語の
辞書を格納する第2自然言語辞書格納部17を参照して
第2自然言語エントリを解析することができる第2自然
言語辞書利用解析機能を有する。
【0118】第2自然言語辞書格納部17に格納されて
いる第2自然言語辞書には、少なくとも第2自然言語エ
ントリの原形と品詞と活用情報が格納されている。図9
は第2自然言語辞書格納部17に格納されている英語辞
書エントリの例であり、英語の原形と品詞とその変化形
の情報が示されている。
【0119】図9を用いて、第2自然言語解析部122
の上述した第2自然言語辞書利用解析機能を具体的に説
明する。図2に示す日本語エントリ「四季(名詞)」に
対する英語エントリ”four seasons(名詞)”が供給さ
れた場合、第2自然言語解析部122は、供給された英
語エントリを単語単位に分割し、図9に示した第2自然
言語辞書格納部17から”four”は形容詞で不変化であ
り、”seasons”は”season(名詞)”の複数形である
という情報を得て、置換管理部123へ供給する(図1
4のステップS10)。
【0120】次に、置換管理部123の説明を行う。図
1では置換実行部1233の説明で既に述べたように、
第2自然言語エントリの第2自然言語エントリが第2自
然言語解析部122を通らずに置換管理部123にその
まま供給された場合、該第2自然言語エントリは置換実
行部1233に供給され、置換実行部1233は第2自
然言語対第3自然言語辞書格納部19に格納された第2
自然言語対第3自然言語辞書を検索し、前記第2自然言
語エントリに対応する第3自然言語エントリを獲得し、
第1自然言語対第2自然言語辞書エントリの第2自然言
語エントリを第3自然言語エントリへと置き換え、その
第1自然言語エントリと第3自然言語エントリの組を訳
語選択情報付与部124に供給する。
【0121】また、置換管理部123に第2自然言語エ
ントリの解析結果が供給された場合には、その解析結果
は置換ルール検索部1231に供給される。置換ルール
検索部1231は供給された第2自然言語エントリの解
析結果をキーとして置換ルール格納部16を検索し、該
第2自然言語エントリの解析結果から第3自然言語エン
トリを得るための置換ルールを1つ以上獲得しようとす
る。置換ルールが獲得できた場合、第2自然言語エント
リの解析結果と置換ルールは置換実行部1233へと供
給され、置換実行部1233において第1自然言語対第
2自然言語辞書エントリの第2自然言語エントリは第3
自然言語エントリへと置き換え、該第1自然言語エント
リと第3自然言語エントリの組を訳語選択情報付与部1
24に供給する。
【0122】また、置換ルール作成部1232では、置
換ルール検索部1231で複数の置換ルールを獲得し、
それらの置換ルールを組み合わせて利用した場合、該置
換ルールの組み合わせの出現回数を数えておき、該置換
ルールの組み合わせ(組み合わせ置換ルール)が一定回
数以上出現した場合、置換ルール格納部16に格納す
る。
【0123】置換ルール格納部16に格納されている置
換ルールは、予め人手で作成するか、あるいは決定木な
どを用いた機械学習(例えば、”Programs for Machine
Learning”,Morgan Kaufman,1992)によって作成する
か、あるいは機械学習によって作成したものを人手で修
正して格納しておく。また、前述のように、置換ルール
検索部1231で同一の組み合わせ置換ルールが一定回
数以上出現した場合は、該組み合わせ置換ルールも置換
ルール格納部16に格納する。該組み合わせ置換ルール
に対しては、人手でチェックを入れることも考えられ
る。
【0124】図8(b)と図10と図6(b)を用い
て、置換管理部123の機能について具体的な説明を行
う。置換管理部123に「千秋楽(名詞)」に対する英
語エントリ”last performance of the season(名
詞)”が供給されているとする。図8(b)は第2自然
言語解析部122から供給された解析結果であり、図1
0は置換ルール格納部16に格納されている置換ルール
の例であり、図6(b)は第2自然言語対第3自然言語
辞書格納部19に格納されている英仏辞書の辞書エント
リの例である。
【0125】置換ルール検索部1231では、例えば、
最も長い単位で検索できる置換ルールを優先して用いる
方法が考えられる。この場合、図8(b)に示す”last
performance of the season”の構文解析の結果から、
まず”last(形容詞)performance(名詞)of(前置
詞)the(定冠詞)season(名詞)”の置換ルールを検
索するが、図10に示すように置換ルール格納部16に
は格納されていないため、次に長い単位である、”of
(前置詞)the(定冠詞)season(名詞)”の置換ルー
ルを検索する。これに対しては、ルール番号5,6の置
換ルールの条件1が合致する。条件2を確認するため、
図6(b)に示す第2自然言語対第3自然言語辞書格納
部19から”season(名詞)”を検索し、英語エント
リ”season(名詞)”に対応する仏語エントリ”saison
(女性名詞)”を獲得する。該仏語エントリの品詞は
「女性名詞」なので、置換ルール6が合致する。そこ
で”of(前置詞)the(定冠詞)season(名詞)”は”d
e la saison(仏語前置詞句)”と置き換えられる。
【0126】次に、同様に残りの”last(形容詞)perf
ormance(名詞)”の置換ルールを検索する。これに対
しては、ルール番号1,2の置換ルールの条件1が合致
し、図6(b)に示す第2自然言語対第3自然言語辞書
格納部19から”performance(名詞)”に対応する仏
語エントリとしては、”repre′sentation(女性名
詞)”および”spectacle(男性名詞)”を獲得する。
そこで”last(形容詞)performance(名詞)”は、”d
ernie′re repre′sentation(仏語名詞句)”あるいは
”dernie′r spectacle(仏語名詞句)”と置き換えら
れる。
【0127】以上の置換で獲得した”de la saison(仏
語前置詞句)”と、”dernie′re repre′sentation
(仏語名詞句)”あるいは”dernie′r spectacle(仏
語名詞句) ”に対して置換ルールを検索し、ルール番
号7の置換ルールを用いて”dernie′re repre′sentat
ion de la saison(名詞句)”あるいは、”dernie′r
spectacle de la saison(名詞句)”を得ることができ
る(図14のステップS12(Y es))。
【0128】以上から、日本語エントリ「千秋楽(名
詞)」に対する仏語エントリとして”dernie′re repr
e′sentatione de la saison(名詞句)”あるいは、”d
ernie′r spectacle de la saison(名詞句)”を得る
ことができる。
【0129】ただし、第2自然言語対第3自然言語辞書
格納部19が複数の辞書を格納している場合には、”pe
rformance(名詞)”に対応する仏語エントリとして、
例えば”repre′sentation(女性名詞)”はどの辞書で
も記載されているが、”spectacle(男性名詞)”は一
部の辞書にしか記載されていないから、”repre′senta
tion(女性名詞)”の方を優先、ひいては”dernie′re
repre′sentation dela saison”の方を優先するとい
う重みづけを行うことも考えられる。
【0130】また、前記”last performance of the se
ason”に対する置き換えでは、図10に示す置換ルール
のうち、ルール番号6およびルール番号1あるいは2、
およびルール番号7を組み合わせて利用しているため、
図11に示す組み合わせ置換ルールを作成できる。この
組み合わせ置換ルールが、例えば予め決めておくなどし
た回数以上に出現すれば(図14のステップS14(Y
es))、置換ルール格納部16に格納される(図14
のステップS15)。
【0131】また、経済関係の辞書を作成していると想
定した場合、図8(c)に示す”bank clerk”の形態素
解析結果が置換管理部123に供給されたとすると、”
lastperformance of the season”の場合と同様に置き
換えることができる(図10に示すルール番号8および
9の置換ルールを利用)。その結果、日本語エントリ
「銀行員(名詞)」に対する仏語エントリとして、”em
ploye′ de banque”および”employe′e de banque”
および”greffier de banque”と、”employe′de riv
e”および”employe′e de rive”および”greffier de
rive”を得ることができる。
【0132】また、置換管理部123は、供給された第
2自然言語エントリの解析結果をキーとして、第2自然
言語対第3自然言語辞書格納部19を検索し、更に第3
自然言語辞書格納部18を検索し、第2自然言語エント
リを第3自然言語エントリで置き換える第3自然言語辞
書検索置換機能を有する。
【0133】第3自然言語辞書格納部18に格納されて
いる第3自然言語辞書には、少なくとも第3自然言語エ
ントリの原形と品詞と活用情報が格納されている。図1
2は第3自然言語辞書格納部18に格納されている仏語
辞書エントリの例であり、仏語の原形と品詞と変化形の
情報が格納されている。
【0134】図12を用いて、前記機能を有する置換管
理部123について具体的に説明する。図2に示す日本
語エントリ「四季(名詞)」に対する英語エントリ”fo
ur seasons(名詞)”に対する解析結果が置換管理部1
23に供給された場合を考える。解析結果としては、前
記第2自然言語辞書利用解析機能を有する第2自然言語
解析部122の説明で述べたように、”four seasons
(名詞)”を”four(形容詞)”と”seasons(名
詞)”に分割し、図9に示した第2自然言語辞書格納部
17から”four”は形容詞で不変化であり、”season
s”は”season(名詞)”の複数形であるという情報が
供給されているとする(図14のステップS10)。
【0135】まず、図6(b)に示す第2自然言語対第
3自然言語辞書格納部19を検索し、英語エントリ”fo
ur(形容詞)”と”season(名詞)”に対する仏語エン
トリ”quatre(形容詞)”と”saison(女性名詞)”を
獲得する。ここで、”season(名詞)”はもともと”se
asons”と複数形だったので、”saison(女性名詞)”
の複数形を図12から検索し、”saisons”を得”quatr
e saisons”と置き換えられる。
【0136】ただし、上記の例では、前記第3自然言語
辞書検索置換機能を有する置換管理部123は、第2自
然言語解析部122が第2自然言語辞書格納部17に格
納されている第2自然言語辞書を利用して行った第2自
然言語エントリの解析結果を用いて置き換えを行った
が、この置換管理部123に供給される第2自然言語エ
ントリの解析結果は、必ずしも第2自然言語辞書格納部
17を利用した解析結果である必要はなく、例えば形態
素解析を行った結果など、第2自然言語解析部122の
他の解析方法による解析結果でもよい。
【0137】その他に、第2自然言語エントリの見出し
のみをキーとして用い、第2自然言語対第3自然言語辞
書格納部19を検索し、字面だけでも一致する第3自然
言語エントリを取り出す方法など、第2自然言語解析部
122での解析方法に応じて、置換方法は様々に考えら
れる。
【0138】このように第1自然言語対第2自然言語辞
書エントリの第2自然言語エントリを第3自然言語エン
トリで置き換えることができた場合、該第1自然言語エ
ントリと第3自然言語エントリの組を訳語選択情報付与
部124に供給する。
【0139】ただし、置換実行部1233において第1
自然言語対第2自然言語辞書エントリの第2自然言語エ
ントリを第3自然言語エントリに置き換えできなかった
場合でも、該第2自然言語エントリに対してまだ行って
いない解析方法が第2自然言語解析部122に残ってい
る場合、第2自然言語解析部122に該第2自然言語エ
ントリを戻して、再び同様の処理を行う(図14のステ
ップS9(Yes))。
【0140】次に、訳語選択情報付与部124について
追加説明をする。前述したように、訳語選択情報付与部
124では、供給された第3自然言語エントリをキーと
し、第3自然言語コーパス情報格納部20を検索し、格
納されている第3自然言語コーパスの統計情報を用い
て、獲得された第3自然言語エントリの尤もらしさを判
断し、あるいは複数の第3自然言語エントリが供給され
た場合に訳語選択のための重みづけを行い、獲得した第
1自然言語エントリと第3自然言語エントリの組を第1
自然言語対第3自然言語辞書格納部13へと格納する。
【0141】前述したように、図2に示す日本語エント
リ「銀行(名詞)」の例では、該日本語エントリに対応
する英語エントリ”bank(名詞)”から獲得した仏語エ
ントリを、第3自然言語コーパス情報格納部20に格納
された図7(a)に示すような仏語コーパス中の出現頻
度を用いて重みづけする場合を説明した。
【0142】ここでは第3自然言語コーパスの統計情報
として図7(b)に示すような第3自然言語コーパス中
の共起頻度を用いる例を説明する。例えば、経済関係の
辞書を作成したい場合を想定すると、第3自然言語コー
パス情報格納部20には経済関係の第3自然言語コーパ
スから獲得した統計情報を格納しておく。図7(b)は
経済関係の仏語コーパスから獲得された共起頻度の例で
あり、少なくとも仏語1およびその品詞1と、仏語2お
よびその品詞2と、それらの共起頻度が格納されてい
る。
【0143】図7(b)を用いて、訳語選択情報付与部
124の機能を具体的に説明する。経済関係の辞書を作
成したい場合を想定する。ここで、訳語選択情報付与部
124に「銀行員(名詞)」に対する仏語エントリとし
て”employe′ de banque”および”employe′e de ban
que”および”greffier de banque”と、”employe′ d
e rive”および”employe′e de rive”および”greffi
er de rive”が供給されたとする。第3自然言語コーパ
ス情報格納部20を検索すると図7(b)に示すよう
に、経済関係の仏語コーパスでは、”employe′(男性
名詞)”と”banque(女性名詞)”、および”employ
e′e(女性名詞)”と”hanque(女性名詞)”は共 起
するが、それ以外は共起しない。よって、供給された仏
語エントリの中でも”employe′ de banque”および”e
mploye′e de banque”が有望であると判断でき る(図
14のステップS7)。
【0144】また、”rive(女性名詞)”に関しては、
前記「銀行(名詞)」の例で説明したように、図7
(a)からも”banque(女性名詞)”を用いた仏語エン
トリの方が有望であることもわかる(図14のステップ
S7)。
【0145】「千秋楽(名詞)」の例に対しても同様に
重みづけを行う。ただし、この場合利用する仏語コーパ
スは経済関係に限定しない。「四季(名詞)」の例に関
しては獲得された仏語エントリは1つであるが、獲得さ
れた仏語エントリの尤もらしさの検証のため、同様に仏
語コーパスを参照して重みづけを行うことも考えられる
(図14のステップS7)。
【0146】これらの結果は、第1自然言語対第3自然
言語辞書格納部13へ格納される。
【0147】最後に、第1自然言語対第3自然言語辞書
格納部13について説明する。第1自然言語対第3自然
言語辞書格納部13には、少なくとも第1自然言語の見
出しおよびその品詞と、該第1自然言語エントリに対応
する第3自然言語の対訳表現およびその品詞と、必要で
あれば第3自然言語の訳語選択情報も格納することがで
きる。
【0148】図13(a)および(b)は、第1自然言
語対第3自然言語辞書格納部13に格納される第1自然
言語対第3自然言語辞書エントリの例である。図13
(a)は、第1自然言語の日本語見出しとその品詞と、
第3自然言語である仏語の該日本語エントリに対する対
訳表現とその品詞が格納されている例である。図13
(a)では、有望な仏語エントリに絞って第1自然言語
対第3自然言語辞書格納部13へと格納されている(図
14のステップS8)。図13(b)は、訳語選択のた
めの重みづけの情報をつけて、有望でない仏語エントリ
も格納されている例である。ただし、有望な仏語エント
リだけを残す場合、あるいは有望でない仏語エントリも
残す場合でも、一定の閾値を予め決めておくなどし、訳
語選択のための重みが閾値以下の仏語エントリは切り捨
てるなどの方法も考えられる。図13(b)でも、日本
語エントリ「銀行員(名詞)」に対する仏語エントリと
して獲得された”greffier de banque”および”emplo
y′e de rive”および”employe′e de rive”および”
greffier de rive”は重みが閾値以下であったとして切
り 捨てられている。なお、作成した第1自然言語対第
3自然言語辞書に対しては人手でチェックを入れること
も考えられる。
【0149】上述した処理を第1自然言語対第2自然言
語辞書格納部10に格納されている辞書エントリがなく
なるまで実施し、該エントリがなくなると、処理を終了
する(ステップS1)。
【0150】なお、上記実施形態の辞書作成方法の処理
手順をプログラムとして記録媒体に記録して、この記録
媒体をコンピュータシステムに組み込むとともに、該記
録媒体に記録されたプログラムをコンピュータシステム
にダウンロードまたはインストールし、該プログラムで
コンピュータシステムを作動させることにより、辞書作
成方法を実施する辞書作成装置として機能させることが
できることは勿論であり、このような記録媒体を用いる
ことにより、その流通性を高めることができるものであ
る。
【0151】
【発明の効果】以上説明したように、本発明によれば、
第1自然言語対第2自然言語辞書格納部から第1自然言
語対第2自然言語辞書エントリを取り出し、この取り出
した第1自然言語対第2自然言語辞書エントリの第2自
然言語エントリに対応する第3自然言語エントリを第2
自然言語対第3自然言語辞書格納部から獲得し、この第
3自然言語エントリで第1自然言語対第2自然言語辞書
エントリの第2自然言語エントリを置き換えて第1自然
言語の見出しおよびその品詞と、該第1自然言語エント
リの対訳である第3自然言語の対訳およびその品詞とを
有する第1自然言語対第3自然言語の対訳辞書を作成し
て第1自然言語対第3自然言語辞書格納部に格納するの
で、第1自然言語対第2自然言語辞書および第2自然言
語対第3自然言語辞書を利用して、第1自然言語対第3
自然言語の組み合わせの辞書や対訳コーパスが無くて
も、第1自然言語対第3自然言語辞書を作成することが
できる。
【0152】また、本発明によれば、辞書エントリ読み
込み部から供給された第1自然言語対第2自然言語辞書
エントリの第1自然言語エントリをキーとして第1自然
言語コーパス情報格納部を参照し、不必要な第1自然言
語対第2自然言語エントリを取り除くので、例えば分野
限定の辞書を作成する場合などには、不必要な辞書エン
トリを作成しないことになり、結果的に第1自然言語対
第3自然言語辞書の作成と利用において高速化および効
率化を図ることができる。また、分野限定の辞書を作成
する場合、利用する第1自然言語対第2自然言語辞書や
第2自然言語対第3自然言語辞書もその分野の辞書を用
いることができれば、更に信頼性の高い分野限定の第1
自然言語対第3自然言語辞書を作成することができる。
【0153】更に、本発明によれば、辞書エントリ読み
込みステップから供給された第1自然言語対第2自然言
語辞書エントリの第2自然言語エントリをキーとして第
2自然言語コーパス情報格納部を参照し、重みづけ情報
である訳語選択情報を付与するので、第1自然言語から
第2自然言語への訳語候補が複数ある場合でも、例えば
専門用語や分野特有の語としては、どの訳語がより適切
であるかがわかり、また複数の訳語候補の中でも、より
よく出現する訳語候補はどれであるかの優先順位をつけ
ることができる。更に、訳語候補が1つである場合で
も、該訳語候補の尤もらしさを判断でき、結果的に、よ
り信頼性の高い第1自然言語対第3自然言語辞書を作成
できる。また、第2自然言語の段階で訳語選択のための
情報を付与するので、第1自然言語および第2自然言語
を変えずに第3自然言語のみを変えるときにも同じ情報
を利用することができ、結果として第3自然言語を様々
な言語へと拡張するとき、第1自然言語対第3自然言語
辞書を効率的に作成することができる。
【0154】本発明によれば、第1自然言語対第2自然
言語辞書エントリの第2自然言語エントリを第3自然言
語エントリで置き換えることができなかった場合、該第
2自然言語エントリを解析し、この解析結果に基づき第
3自然言語エントリを獲得し、この獲得した第3自然言
語エントリで第2自然言語エントリを置き換えるので、
例えば第2自然言語エントリが複合語で、そのままの表
記では第2自然言語対第3自然言語辞書に登録されてい
ない場合でも、第2自然言語エントリに対して複合語を
構成する部分表現単位に分割するなどの解析を行い、各
部分表現が第2自然言語対第3自然言語辞書に登録され
ていれば、第1自然言語対第2自然言語辞書エントリの
第2自然言語エントリを第3自然言語エントリで置き換
えることができ、結果的にそのままの表記では置き換え
の困難な複合語などに対する第3自然言語エントリも獲
得して第1自然言語対第3自然言語辞書を作成できる。
【0155】また、本発明によれば、第2自然言語解析
部の解析結果に基づき置換ルール格納部を検索して、置
換ルールを取り出し、この取り出した置換ルールを利用
し、該置換ルールが複数の場合は該複数の置換ルールを
組み合わせて利用して、第2自然言語対第3自然言語辞
書格納部から第3自然言語エントリを獲得するので、例
えば第2自然言語エントリが複合語や変化形またはそれ
らの組み合わせ等でそのままの表記では第2自然言語対
第3自然言語辞書に登録されていない場合でも、第2自
然言語エントリの解析結果と該解析結果に適した置換ル
ールと第2自然言語対第3自然言語辞書を用いて、より
複雑な第2自然言語エントリに対してもより確実に第1
自然言語対第2自然言語辞書エントリの第2自然言語エ
ントリを第3自然言語エントリで置き換えることができ
る。また、置換ルールを複数組み合わせて用いることに
より、第2自然言語エントリの解析結果を一括して置き
換えることができる置換ルールが置換ルール格納部に格
納されていない場合でも、第1自然言語対第2自然言語
辞書エントリの第2自然言語エントリを第3自然言語エ
ントリで置き換えることができ、結果的にそのままの表
記では置き換えの難しい複合語など、より複雑な第2自
然言語エントリに対する第3自然言語エントリも的確に
獲得して、第1自然言語対第3自然言語辞書を作成でき
る。更に、置換ルールを組み合わせて利用できるため、
置換ルール格納部に可能性のある全置換ルールを保有し
ている必要がなく、第1自然言語対第3自然言語辞書を
効率的に作成することができる。
【0156】更に、本発明によれば、複数の置換ルール
を組み合わせて利用した場合、この組み合わせた置換ル
ールの利用回数を計数、この利用回数が所定の回数以上
になった場合、この組み合わせた置換ルールを置換ルー
ル格納部に格納するので、利用頻度が高い組み合わせ置
換ルールを獲得して置換ルール格納部に格納しておくこ
とにより、第1自然言語対第2自然言語辞書エントリの
第2自然言語エントリを第3自然言語エントリで置き換
える時の高速化を図ることができ、第1自然言語対第3
自然言語辞書を効率的に作成することができる。
【0157】本発明によれば、第2自然言語の原形、品
詞および活用情報を格納している第2自然言語辞書を有
し、第2自然言語解析部は第2自然言語辞書格納部を検
索して、第2自然言語エントリを解析するので、例えば
第2自然言語エントリに変化形が含まれ、そのままの表
記では第2自然言語対第3自然言語辞書に登録されてい
ない場合でも、第2自然言語辞書から該第2自然言語エ
ントリに含まれる変化形の原形を獲得でき、この原形が
第2自然言語対第3自然言語辞書に登録されている場
合、第1自然言語対第2自然言語辞書エントリの第2自
然言語エントリを第3自然言語エントリに置き換えるこ
とができ、結果としてそのままの表記では置き換えが難
しい変化形などの第2自然言語エントリに対する第3自
然言語エントリも獲得でき、第1自然言語対第3自然言
語辞書を的確に作成することができる。
【0158】また、本発明によれば、第3自然言語の原
形、品詞および活用情報を格納している第3自然言語辞
書を有し、第2自然言語解析部の解析結果または前記置
換ルール検索部で取り出した置換ルールに基づき第3自
然言語辞書格納部を検索して、第1自然言語対第2自然
言語辞書エントリの第2自然言語エントリを第3自然言
語エントリで置き換えるので、例えば第2自然言語エン
トリに変化形が含まれ、そのままの表記では第2自然言
語対第3自然言語辞書に登録されていない場合に、該第
2自然言語エントリに含まれる変化形を原形に直して、
対応する第3自然言語エントリを第2自然言語対第3自
然言語辞書から原形で獲得した場合、第3自然言語辞書
を検索して第3自然言語エントリの原形を適切な変化形
の表記へと変換でき、結果としてそのままの表記では置
き換えが難しい変化形などの第2自然言語エントリに対
応する第3自然言語エントリも的確な表現へと変換し
て、第1自然言語対第3自然言語辞書を的確に作成する
ことができる。
【0159】更に、本発明によれば、第1自然言語対第
2自然言語辞書エントリの第2自然言語エントリが複数
獲得され、かつ該第2自然言語エントリに対する第3自
然言語エントリが重複して獲得された場合、この重複し
て獲得された第3自然言語エントリの方がより適切であ
ると判断するので、第2自然言語エントリの段階で訳語
候補が複数になった場合、複数の第2自然言語エントリ
から獲得された第3自然言語エントリが重複すれば、こ
の重複した第3自然言語エントリの方が単独で出現した
第3自然言語エントリよりも適切であるという訳語選択
情報を付与でき、結果として信頼性の高い第1自然言語
対第3自然言語辞書を作成することができる。
【0160】本発明によれば、第3自然言語コーパスの
統計情報を格納している第3自然言語コーパス情報格納
部を有し、この第3自然言語コーパス情報格納部の情報
を利用して、辞書作成管理部で獲得した第3自然言語エ
ントリが適切かどうかを示す訳語選択情報を付与するの
で、第1自然言語エントリから第2自然言語エントリを
介して第3自然言語エントリへと辿る間に訳語候補が増
加しても、例えば専門用語や分野特有の語など、どの訳
語がより適切であるかわかる。また、複数の訳語候補の
中で、よりよく用いられる語の優先順位を付与できる
し、更に第3自然言語の訳語候補が1つである場合でも
該訳語候補の尤もらしさを判断できる。更に、第2自然
言語エントリが複合語で、そのままの表記では第3自然
言語エントリを獲得できず、解析を行って第3自然言語
エントリを獲得する場合、該第3自然言語エントリ中の
単語候補が複数あっても、獲得した第3自然言語エント
リの中に含まれる単語間の共起情報などから、より適切
な語の組み合わせを選択でき、結果的に信頼性の高い第
1自然言語対第3自然言語辞書を作成することができ
る。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る辞書作成装置の構成
を示すブロック図である。
【図2】図1の辞書作成装置に使用されている第1自然
言語対第2自然言語辞書格納部に格納されている第1自
然言語対第2自然言語辞書エントリを示す図である。
【図3】図1の辞書作成装置に使用されている第1自然
言語コーパス情報格納部に格納されている第1自然言語
コーパス情報を示す図である。
【図4】図1の辞書作成装置に使用されている第2自然
言語コーパス情報格納部に格納されている第2自然言語
コーパス情報を示す図である。
【図5】図1の辞書作成装置に使用されているエントリ
選択情報付与部の実行結果を示す図である。
【図6】図1の辞書作成装置に使用されている第2自然
言語対第3自然言語辞書格納部に格納されている第2自
然言語対第3自然言語辞書エントリを示す図である。
【図7】図1の辞書作成装置に使用されている第3自然
言語コーパス情報格納部に格納されている第3自然言語
コーパス情報を示す図である。
【図8】図1の辞書作成装置に使用されている第2自然
言語解析部による第2自然言語エントリの解析結果を示
す図である。
【図9】図1の辞書作成装置に使用されている第2自然
言語辞書に格納されている第2自然言語辞書エントリを
示す図である。
【図10】図1の辞書作成装置に使用されている置換ル
ール格納部に格納されている置換ルールを示す図であ
る。
【図11】図1の辞書作成装置に使用されている置換ル
ール検索部に用いられる置換ルールを示す図である。
【図12】図1の辞書作成装置に使用されている第3自
然言語辞書格納部に格納されている第3自然言語辞書エ
ントリを示す図である。
【図13】図1の辞書作成装置に使用されている第1自
然言語対第3自然言語辞書格納部に格納される第1自然
言語対第3自然言語辞書エントリを示す図である。
【図14】図1の辞書作成装置の作用を示すフローチャ
ートである。
【符号の説明】
10 第1自然言語対第2自然言語辞書格納部 11 辞書エントリ読み込み部 12 辞書作成管理部 13 第1自然言語対第3自然言語辞書格納部 14 第1自然言語コーパス情報格納部 15 第2自然言語コーパス情報格納部 16 置換ルール格納部 17 第2自然言語辞書格納部 18 第3自然言語辞書格納部 19 第2自然言語対第3自然言語辞書格納部 20 第3自然言語コーパス情報格納部 121 エントリ選択情報付与部 122 第2自然言語解析部 123 置換管理部 124 訳語選択情報付与部 1231 置換ルール検索部 1232 置換ルール作成部 1233 置換実行部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−301868(JP,A) 田中久美子・梅村恭司・岩崎英哉,第 三言語を介した対訳辞書の作成,,情報 処理学会論文誌,日本,1998年 6月15 日,Vol.39,No.6,p.1915− p.1924 (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28 JICSTファイル(JOIS)

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】 自然言語対の対訳辞書を作成する辞書作
    成装置であって、 第1自然言語の見出しおよびその品詞と、該第1自然言
    語エントリの対訳である第2自然言語の対訳表現および
    その品詞とを有する第1自然言語対第2自然言語の辞書
    を格納する第1自然言語対第2自然言語辞書格納部と、 第2自然言語の見出しおよびその品詞と、該第2自然言
    語エントリの対訳である第3自然言語の対訳表現および
    その品詞とを有する第2自然言語対第3自然言語辞書を
    格納する第2自然言語対第3自然言語辞書格納部と、 前記第1自然言語対第2自然言語辞書格納部から第1自
    然言語対第2自然言語辞書エントリを取り出す辞書エン
    トリ読み込み部と、 この取り出した第1自然言語対第2自然言語辞書エント
    リの第2自然言語エントリに対応する第3自然言語エン
    トリを前記第2自然言語対第3自然言語辞書格納部から
    獲得し、前記第1自然言語対第2自然言語辞書エントリ
    の第2自然言語エントリを前記第3自然言語エントリで
    置き換える辞書作成管理部と、 この第1自然言語エントリ対第2自然言語辞書エントリ
    の第2自然言語エントリを第3自然言語エントリで置き
    換えることにより生成される第1自然言語対第3自然言
    語辞書エントリに基づき第1自然言語の見出しおよびそ
    の品詞と、該第1自然言語エントリの対訳である第3自
    然言語の対訳およびその品詞とを有する第1自然言語対
    第3自然言語の対訳辞書を作成して格納する第1自然言
    語対第3自然言語辞書格納部と、 第1自然言語コーパスの統計情報を格納している第1自
    然言語コーパス情報格納部を有し、 前記辞書作成管理部は、前記辞書エントリ読み込み部か
    ら供給された第1自然言語対第2自然言語辞書エントリ
    の第1自然言語エントリをキーとして前記第1自然言語
    コーパス情報格納部を参照し、不必要な第1自然言語対
    第2自然言語エントリを取り除くエントリ選択情報付与
    部を有することを特徴とする辞書作成装置。
  2. 【請求項2】 第2自然言語コーパスの統計情報を格納
    している第2自然言語コーパス情報格納部を更に有し、 前記エントリ選択情報付与部は、前記辞書エントリ読み
    込み部から供給された第1自然言語対第2自然言語辞書
    エントリの第2自然言語エントリをキーとして前記第2
    自然言語コーパス情報格納部を参照し、重みづけ情報で
    ある訳語選択情報を付与する訳語選択情報/重みづけ情
    報付与手段を有することを特徴とする請求項1記載の辞
    書作成装置。
  3. 【請求項3】 前記辞書作成管理部は、第1自然言語対
    第2自然言語辞書エントリの第2自然言語エントリを第
    3自然言語エントリで置き換えることができなかった場
    合、該第2自然言語エントリを解析する第2自然言語解
    析部と、該第2自然言語解析部の解析結果に基づき第3
    自然言語エントリを獲得し、この獲得した第3自然言語
    エントリで前記第2自然言語エントリを置き換える置換
    実行部とを有することを特徴とする請求項1または2記
    載の辞書作成装置。
  4. 【請求項4】 第2自然言語を第3自然言語に置き換え
    る置換ルールを格納している置換ルール格納部を更に有
    し、 前記辞書作成管理部は、前記第2自然言語解析部の解析
    結果に基づき前記置換ルール格納部を検索して、置換ル
    ールを取り出す置換ルール検索部を有し、 前記置換実行部は、前記置換ルール検索部で取り出した
    置換ルールを利用し、該置換ルールが複数の場合は該複
    数の置換ルールを組み合わせて利用して、前記第2自然
    言語対第3自然言語辞書格納部から第3自然言語エント
    リを獲得する手段を有することを特徴とする請求項3記
    載の辞書作成装置。
  5. 【請求項5】 前記辞書作成管理部は、前記置換実行部
    において前記置換ルール検索部で取り出した複数の置換
    ルールを組み合わせて利用した場合、この組み合わせた
    置換ルールの利用回数を計数する利用回数計数手段と、
    この計数した置換ルールの利用回数が所定の回数以上に
    なった場合、この組み合わせた置換ルールを前記置換ル
    ール格納部に格納する置換ルール作成部とを有すること
    を特徴とする請求項4記載の辞書作成装置。
  6. 【請求項6】 第2自然言語の原形、品詞および活用情
    報を格納している第2自然言語辞書を格納する第2自然
    言語辞書格納部を更に有し、 前記第2自然言語解析部は、第2自然言語辞書格納部を
    検索して、第2自然言語エントリを解析する手段を有す
    ることを特徴とする請求項3乃至5のいずれかに記載の
    辞書作成装置。
  7. 【請求項7】 第3自然言語の原形、品詞および活用情
    報を格納している第3自然言語辞書を格納する第3自然
    言語辞書格納部を更に有し、 前記置換実行部は、前記第2自然言語解析部の解析結果
    または前記置換ルール検索部で取り出した置換ルールに
    基づき前記第3自然言語辞書格納部を検索して、第1自
    然言語対第2自然言語辞書エントリの第2自然言語エン
    トリを第3自然言語エントリで置き換える手段を有する
    ことを特徴とする請求項3乃至6のいずれかに記載の辞
    書作成装置。
  8. 【請求項8】 前記辞書作成管理部は、第1自然言語対
    第2自然言語辞書エントリの第2自然言語エントリが複
    数獲得され、かつ該第2自然言語エントリに対する第3
    自然言語エントリが重複して獲得された場合、この重複
    して獲得された第3自然言語エントリの方がより適切で
    あると判断する訳語選択情報付与部を有することを特徴
    とする請求項1乃至7のいずれかに記載の辞書作成装
    置。
  9. 【請求項9】 第3自然言語コーパスの統計情報を格納
    している第3自然言語コーパス情報格納部を更に有し、 前記辞書作成管理部は、前記第3自然言語コーパス情報
    格納部の情報を利用して、前記辞書作成管理部で獲得し
    た第3自然言語エントリが適切かどうかを示す訳語選択
    情報を付与する手段を有することを特徴とする請求項1
    乃至8のいずれかに記載の辞書作成装置。
  10. 【請求項10】 自然言語対の対訳辞書を作成する辞書
    作成方法であって、 第1自然言語の見出しおよびその品詞と、該第1自然言
    語エントリの対訳である第2自然言語の対訳表現および
    その品詞とを有する第1自然言語対第2自然言語の辞書
    を第1自然言語対第2自然言語辞書格納部に格納する第
    1自然言語対第2自然言語辞書格納部格納ステップと、 第2自然言語の見出しおよびその品詞と、該第2自然言
    語エントリの対訳である第3自然言語の対訳表現および
    その品詞とを有する第2自然言語対第3自然言語辞書を
    第2自然言語対第3自然言語辞書格納部に格納する第2
    自然言語対第3自然言語辞書格納部格納ステップと、 前記第1自然言語対第2自然言語辞書格納部から第1自
    然言語対第2自然言語辞書エントリを取り出す辞書エン
    トリ読み込みステップと、 この取り出した第1自然言語対第2自然言語辞書エント
    リの第2自然言語エントリに対応する第3自然言語エン
    トリを前記第2自然言語対第3自然言語辞書格納部から
    獲得し、前記第1自然言語対第2自然言語辞書エントリ
    の第2自然言語エントリを前記第3自然言語エントリで
    置き換える辞書作成管理ステップと、 この第1自然言語対第2自然言語辞書エントリの第2自
    然言語エントリを第3自然言語エントリで置き換えるこ
    とにより生成される第1自然言語対第3自然言語辞書エ
    ントリに基づき第1自然言語の見出しおよびその品詞
    と、該第1自然言語エントリの対訳である第3自然言語
    の対訳およびその品詞とを有する第1自然言語対第3自
    然言語の対訳辞書を作成して格納する第1自然言語対第
    3自然言語辞書格納ステップと、 第1自然言語コーパスの統計情報を第1自然言語コーパ
    ス情報格納部に格納するステップとを有し、 前記辞書作成管理ステップは、前記辞書エントリ読み込
    みステップから供給された第1自然言語対第2自然言語
    辞書エントリの第1自然言語エントリをキーとして前記
    第1自然言語コーパス情報格納部を参照し、不必要な第
    1自然言語対第2自然言語エントリを取り除くエントリ
    選択情報付与ステップを有することを特徴とする辞書作
    成方法。
  11. 【請求項11】 第2自然言語コーパスの統計情報を第
    2自然言語コーパス情報格納部に格納するステップを更
    に有し、 前記エントリ選択情報付与ステップは、前記辞書エント
    リ読み込みステップから供給された第1自然言語対第2
    自然言語辞書エントリの第2自然言語エントリをキーと
    して前記第2自然言語コーパス情報格納部を参照し、重
    みづけ情報である訳語選択情報を付与する訳語選択情報
    /重みづけ情報付与ステップを有することを特徴とする
    請求項10記載の辞書作成方法。
  12. 【請求項12】 前記辞書作成管理ステップは、第1自
    然言語対第2自然言語辞書エントリの第2自然言語エン
    トリを第3自然言語エントリで置き換えることができな
    かった場合、該第2自然言語エントリを解析する第2自
    然言語解析ステップと、該第2自然言語解析ステップの
    解析結果に基づき第3自然言語エントリを獲得し、この
    獲得した第3自然言語エントリで前記第2自然言語エン
    トリを置き換える置換実行ステップとを有することを特
    徴とする請求項10または11記載の辞書作成方法。
  13. 【請求項13】 自然言語対の対訳辞書を作成する辞書
    作成プログラムを記録した記録媒体であって、 第1自然言語の見出しおよびその品詞と、該第1自然言
    語エントリの対訳である第2自然言語の対訳表現および
    その品詞とを有する第1自然言語対第2自然言語の辞書
    を第1自然言語対第2自然言語辞書格納部に格納する第
    1自然言語対第2自然言語辞書格納部格納ステップと、 第2自然言語の見出しおよびその品詞と、該第2自然言
    語エントリの対訳である第3自然言語の対訳表現および
    その品詞とを有する第2自然言語対第3自然言語辞書を
    第2自然言語対第3自然言語辞書格納部に格納する第2
    自然言語対第3自然言語辞書格納部格納ステップと、 前記第1自然言語対第2自然言語辞書格納部から第1自
    然言語対第2自然言語辞書エントリを取り出す辞書エン
    トリ読み込みステップと、 この取り出した第1自然言語対第2自然言語辞書エント
    リの第2自然言語エントリに対応する第3自然言語エン
    トリを前記第2自然言語対第3自然言語辞書格納部から
    獲得し、前記第1自然言語対第2自然言語辞書エントリ
    の第2自然言語エントリを前記第3自然言語エントリで
    置き換える辞書作成管理ステップと、 この第1自然言語対第2自然言語辞書エントリの第2自
    然言語エントリを第3自然言語エントリで置き換えるこ
    とにより生成される第1自然言語対第3自然言語辞書エ
    ントリに基づき第1自然言語の見出しおよびその品詞
    と、該第1自然言語エントリの対訳である第3自然言語
    の対訳およびその品詞とを有する第1自然言語対第3自
    然言語の対訳辞書を作成して格納する第1自然言語対第
    3自然言語辞書格納ステップと、 第1自然言語コーパスの統計情報を第1自然言語コーパ
    ス情報格納部に格納するステップとを有し、 前記辞書作成管理ステップは、前記辞書エントリ読み込
    みステップから供給された第1自然言語対第2自然言語
    辞書エントリの第1自然言語エントリをキーとして前記
    第1自然言語コーパス情報格納部を参照し、不必要な第
    1自然言語対第2自然言語エントリを取り除くエントリ
    選択情報付与ステップを有することを特徴とする辞書作
    成プログラムを記録した記録媒体。
JP2000306865A 2000-10-05 2000-10-05 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 Expired - Fee Related JP3419748B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000306865A JP3419748B2 (ja) 2000-10-05 2000-10-05 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000306865A JP3419748B2 (ja) 2000-10-05 2000-10-05 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2002117028A JP2002117028A (ja) 2002-04-19
JP3419748B2 true JP3419748B2 (ja) 2003-06-23

Family

ID=18787475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000306865A Expired - Fee Related JP3419748B2 (ja) 2000-10-05 2000-10-05 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3419748B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193920B (zh) * 2010-03-04 2016-01-20 深圳市世纪光速信息技术有限公司 一种人名词库生成方法、装置及文字输入***
CN103577399B (zh) 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田中久美子・梅村恭司・岩崎英哉,第三言語を介した対訳辞書の作成,,情報処理学会論文誌,日本,1998年 6月15日,Vol.39,No.6,p.1915−p.1924

Also Published As

Publication number Publication date
JP2002117028A (ja) 2002-04-19

Similar Documents

Publication Publication Date Title
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
Chen et al. A fully unsupervised word sense disambiguation method using dependency knowledge
US20150012262A1 (en) Method and system for generating new entries in natural language dictionary
WO2003083708A2 (en) Machine translation
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
Dahab et al. A comparative study on Arabic stemmers
Sahala et al. BabyFST-towards a finite-state based computational model of ancient babylonian
Sawalha et al. Fine-grain morphological analyzer and part-of-speech tagger for Arabic text
Baykara et al. Abstractive text summarization and new large-scale datasets for agglutinative languages Turkish and Hungarian
Pouliquen et al. Automatic construction of multilingual name dictionaries
Krstev et al. Using English baits to catch Serbian multi-word terminology
Ahmadi Hunspell for Sorani Kurdish spell checking and morphological analysis
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Bekbulatov et al. A study of certain morphological structures of Kazakh and their impact on the machine translation quality
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
Benajiba et al. Arabic question answering
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
Pinnis et al. Extracting data from comparable corpora
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Nejja et al. Context's impact on the automatic spelling correction
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
Naserzade et al. CKMorph: a comprehensive morphological analyzer for Central Kurdish
Lebbos Arabic information extraction methods a survey
Hosoda Hawaiian morphemes: Identification, usage, and application in information retrieval
Irvine Using comparable corpora to augment low resource smt models

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090418

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090418

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100418

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100418

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees