JP3838904B2 - 辞書装置及び自然言語処理システム - Google Patents

辞書装置及び自然言語処理システム Download PDF

Info

Publication number
JP3838904B2
JP3838904B2 JP2001357431A JP2001357431A JP3838904B2 JP 3838904 B2 JP3838904 B2 JP 3838904B2 JP 2001357431 A JP2001357431 A JP 2001357431A JP 2001357431 A JP2001357431 A JP 2001357431A JP 3838904 B2 JP3838904 B2 JP 3838904B2
Authority
JP
Japan
Prior art keywords
dictionary
user
natural language
language processing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001357431A
Other languages
English (en)
Other versions
JP2003157257A (ja
Inventor
美樹 佐々木
聡彦 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2001357431A priority Critical patent/JP3838904B2/ja
Publication of JP2003157257A publication Critical patent/JP2003157257A/ja
Application granted granted Critical
Publication of JP3838904B2 publication Critical patent/JP3838904B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、辞書装置及び自然言語処理システムに関し、例えば、原言語を目的言語に翻訳する複数のユーザが利用する機械翻訳システム及びその機械翻訳システムの要素となる辞書装置に適用し得るものである。
【0002】
【従来の技術】
機械翻訳システムは、一般的には、基本的なシステム辞書と、ユーザが独自に登録するユーザ辞書とを有する。同一の機械翻訳システムを複数のユーザが利用する場合において、ユーザ毎にユーザ辞書を登録するようにすると、同一の用語を複数のユーザがそれぞれ独自に登録しなければならない。例えば、ほとんど全てのユーザが用いるような、新たに出現した新語に対しては、ほとんど全てのユーザが登録を行う。
【0003】
このような不都合を回避する従来技術として、公開平11−134339号公報に開示されたものがある。この公報は、機械翻訳システムを複数のユーザで共用する場合において、優先順位が上位のユーザ辞書から調べたり、登録更新時刻が最新の対訳をユーザ辞書から抽出したりすることによって、複数のユーザが作成したユーザ辞書を効率的に共用利用することができるシステムを開示している。
【0004】
【発明が解決しようとする課題】
上述した従来技術では、ユーザ辞書の優先順位を決定するために優先関係を指定する必要がある。優先関係とは、ユーザ辞書を所有するユーザ間の優先度であり、優先度の高いユーザが所有するユーザ辞書ほど、その信頼性が高いことを示すものである。
【0005】
しかし、各ユーザが所有するユーザ辞書の内容を比較して、ユーザ間に優先関係を指定するのは、各ユーザ辞書における対訳を確認して優劣を決定する労力と判断能力が必要である。また、登録数が多ければ、語によって優劣があるので、ユーザ間の順位付けは困難である。さらに、将来も優先関係が同じである保証はなく、優先関係を頻繁に見直さなければならない。
【0006】
また、上述した従来技術では、複数のユーザ辞書に原言語の単語がある場合には、その登録更新時刻が最新の対訳を抽出するが、たまたま誤って登録更新された場合を考慮すると、最新の対訳でも信頼性が高いとは限らない。そのため、質の高い翻訳結果を得るには、常に翻訳結果と複数のユーザ辞書をチェックしなければならない。
【0007】
本発明は、上記の課題に鑑みてなされたものであり、複数のユーザが、高品質な内容を維持する、ユーザ登録に係る辞書データを共有することによって、高品質な自然言語処理結果を得ることができる辞書装置及び自然言語処理システムを提供しようとしたものである。
【0008】
【課題を解決するための手段】
かかる課題を解決するため、第1の本発明は、複数のユーザが利用する自然言語処理システムに設けられる辞書装置において、カテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、任意の上記専門用語辞書又は上記一般用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段と、複数のユーザ辞書に共通の辞書データを関連付けられた上記専門用語辞書及び又は上記一般用語辞書に設定したり、ツリー構造で複数の下位の辞書に共通の辞書データを上位の辞書に設定したり、関連付けられた複数のユーザ辞書に共通な辞書データに基づき、その上記専門用語辞書に下位の専門用語辞書を設定したりなど、上記辞書及び又は上記辞書データを変更する辞書変更手段と、上記辞書変更手段による辞書及び又は辞書データの変更の履歴を記録する辞書履歴記録手段とを有することを特徴とする。
【0009】
また、第2の本発明の自然言語処理システムは、第1の本発明の辞書装置と、この辞書装置の格納内容を利用して自然言語処理を行う自然言語処理本体とを有する。
【0010】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による辞書装置及び自然言語処理システムを、機械翻訳システムに適用した第1の実施形態を図面を参照しながら詳述する。
【0011】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【0012】
図1において、第1の実施形態の機械翻訳システム100は、閲覧入力手段101、制御手段102、機械翻訳手段103、辞書管理手段104、辞書データベース105及び辞書履歴記録手段106を有する。
【0013】
なお、第1の実施形態の機械翻訳システム100は、所定の処理プログラムやデータを有する単一の情報処理装置(例えばパソコン)で構成されていても良く、また、複数の情報処理装置で構成されていても良い。後者としては、閲覧入力手段101をある情報処理装置(クライアント端末)に搭載し、その他の制御手段102、機械翻訳手段103、辞書管理手段104、辞書データベース105及び辞書履歴記録手段106を他の情報処理装置(サーバ)に搭載する例や、さらに、機械翻訳手段103も、さらに他の情報処理装置に搭載する例などを挙げることができる。また、閲覧入力手段101が複数あっても良く、機械翻訳手段103も複数あっても良い。
【0014】
閲覧入力手段101は、ユーザが翻訳依頼文書(原言語文書)を入力したり、その翻訳結果を閲覧したり、単語(原言語及び目的言語の対訳)をユーザ登録するための入力を行ったり、ユーザ登録内容を閲覧したり、操作ガイダンスメッセージを閲覧したりするものである。閲覧入力手段101における入力部は、キーボード、マウスなどの一般的な入力構成だけでなく、フレキシブルディスクなどから翻訳依頼文書を読み込んで入力させる場合には、そのドライブ構成なども該当する。閲覧入力手段101における閲覧部は、主としてディスプレイが該当するが、翻訳結果などを表示出力ではなく、印字出力するものであれば、プリンタも該当する。
【0015】
制御手段102は、閲覧入力手段101、機械翻訳手段103及び辞書管理手段104に接続され、どの文書を翻訳するかや、翻訳にどの辞書を使用するかなどの制御を行うものである。
【0016】
機械翻訳手段103は、制御手段102を経由して与えられた原言語の文書を目的言語の文書に翻訳して制御手段102に返信するものであり、この第1の実施形態の場合、既存のいずれの機械翻訳方法を利用しても良い。なお、機械翻訳手段103には、機械翻訳に必要な辞書データも制御手段102を経由して与えられるようになされている。
【0017】
辞書管理手段104は、辞書データベース105を収容しており、制御手段102の制御下で、ユーザ辞書の作成、辞書データの編集、専門用語辞書の作成、統合、分割、生成などを行う手段である。
【0018】
辞書履歴記録手段106は、辞書管理手段104に関連して設けられており、辞書や辞書データの登録更新時刻などの履歴を辞書データ毎に記録する手段である。
【0019】
辞書データベース105は、ユーザ辞書を分野毎に分類して収容している専門用語辞書のデータベースである。なお、辞書データベース105も、複数の情報処理装置に分散して構築されているものであっても良い。
【0020】
辞書データベース105は、図1に一例を示すような階層構造をなしている。すなわち、辞書データベース105に格納されている複数の辞書は、ツリー構造を有し、一般用語辞書をルートノードとし、その次の階層には、専門分野やジャンルを大分類した場合の専門用語辞書が設けられ、それより下位の階層には、上位の階層の専門分野やジャンルをさらに分類した場合の専門用語辞書が設けられ、終端ノードに至る枝数(階層の深さ)は一律ではなく、また、図2に示すように、各専門用語辞書Dmに関連付けてユーザ辞書Dm1〜DmNを設けられているものである。
【0021】
各ユーザは、任意の専門用語辞書の分野のユーザ辞書を作成し得る。このユーザ辞書の内容は、作成したユーザが翻訳依頼する場合だけでなく、その内容が関連付けている専門用語辞書に移行して登録された際には、他のユーザが翻訳依頼する場合にも使用される。上述した辞書管理手段104の機能により、翻訳の際には、その文書の分野の辞書、及び、その分野の上位階層に属する専門用語辞書が使用される。図1の階層構造の例であれば、コンピュータの分野の文書を翻訳する場合には、コンピュータ辞書、工学辞書、一般用語辞書が使用される。
【0022】
(A−2)第1の実施形態の動作
(A−2−1)ユーザ辞書登録
次に、ユーザがユーザ辞書に単語を登録する際の動作を、図3のフローチャートを参照しながら説明する。
【0023】
例えば、ユーザは閲覧入力手段101を用いて、単語のユーザ登録モードを指示する。このとき、制御手段102及び辞書管理手段103は、図3に示すユーザ辞書登録処理を開始し、まず、そのユーザが単語のユーザ登録を実行し得る者であるか否かを判別する(ステップS1)。なお、ユーザ登録し得るユーザ情報も、図示は省略しているが、辞書データベース105に格納しておく。
【0024】
そのユーザが単語のユーザ登録を実行し得る者でないと、制御手段102はその旨を返信して、ユーザ辞書登録処理を終了する(ステップS2)。
【0025】
一方、ユーザが単語のユーザ登録を実行し得る者であると、制御手段102は、辞書管理手段104から一般用語辞書及び専門用語辞書のツリー構造を取り出し、そのツリー構造の情報を含むユーザ辞書登録入力画面を閲覧入力手段101に送信し(ステップS3)、閲覧入力手段101からの登録辞書データを待ち受ける(ステップS4)。
【0026】
ユーザ辞書登録入力画面が表示された際には、ユーザは、登録したい辞書データを入力し、また、表示された一般用語辞書及び専門用語辞書のツリー構造に基づいて、その登録辞書データに、関連付けたい辞書の情報を付与して制御手段102に送信する。なお、複数の登録辞書データをまとめて送信するできるようにしても良い。以下では、説明の簡単化のため、1個の登録辞書データを送信するものとする。
【0027】
制御手段102は、登録辞書データが与えられるとそれを辞書管理手段104に与え、辞書管理手段104は、辞書データベース105の格納内容に基づき、当該ユーザについて、今回の登録辞書データに係るユーザ辞書(専門用語辞書又は一般用語辞書に関連付けられたユーザ辞書)が既に設定されているか否かを判別する(ステップS5)。
【0028】
ユーザ辞書が設定されていない場合には、そのようなユーザ辞書を設定した後(ステップS6)、既に設定されている場合には直ちに、閲覧入力手段101から与えられた登録辞書データを登録すると共に、辞書履歴記録手段106にその辞書データを登録したことの履歴を記録し(ステップS7)、一連のユーザ辞書登録処理を終了する。
【0029】
なお、辞書データベース105は、機能的には、図1に示すように、階層化構造を有するが、例えば、実際上は、辞書の種別を問わず、登録された辞書データを辞書の種別を表すデータと共に順次格納するものであり、そのようなレコードに、辞書履歴記録手段106による辞書データの履歴が対応付けられて記録される。
【0030】
(A−2−2)専門用語辞書の充実化動作
次に、専門用語辞書を充実化させる動作を、図4のフローチャートを用いて説明する。
【0031】
なお、図4は、定期的に起動された場合、又は、システム運営者によって起動された場合に対応するものである。また、図4は、ある1個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図4に示す処理がそれぞれ実行される。
【0032】
辞書管理手段104は、図4に示す処理を開始すると、全てのユーザ辞書の情報を、辞書データベース105から、関連する専門用語辞書毎に同一の辞書データを集計しながら取り出してバッファリングする(ステップS11)。
【0033】
図5は、集計しながら取り出した例を示している。左から、異なる辞書データ毎に番号付けした情報(辞書データID)、見出し語、訳語、登録されている数を示している。なお、辞書データIDは、0から連番が付されている。
【0034】
集計しながらの取り出しが終了すると、辞書管理手段104は、辞書データIDを0(初期値)にセットする(ステップS12)。
【0035】
そして、全ての辞書データについて充実化処理が終了するまで、ステップS13〜S17での処理ループを繰り返す。
【0036】
辞書管理手段104は、登録された数が、その専門用語辞書に関連付けられたユーザ辞書の数の過半数以上の辞書データが存在するか否かを判別する(ステップS13、S14)。
【0037】
そのような辞書データが1個でも存在すれば、専門用語辞書に、それらの辞書データを全て追加登録する(ステップS15)。なお、この際には、その専門用語辞書にその辞書データが存在しないことを確認して登録する。
【0038】
このような辞書データの専門用語辞書への追加登録が終了すると、又は、登録数がユーザ辞書数の過半数以上の辞書データが1個も存在しないと、辞書データIDを1インクリメントした後(ステップS16)、未処理の辞書データが残っているか否かを判別する(ステップS17)。
【0039】
未処理の辞書データが残っていれば、上述したステップS13に戻り、全ての辞書データについて充実化処理が終了したならば、図4に示す一連の処理を終了する。
【0040】
図5の例において、専門用語辞書に関連付けられているユーザ辞書の数が5個だとすると、辞書データ「pencil;鉛筆」はユーザ辞書登録数が3個であって過半数以上であるので、図4の処理を通じて、対象となっている専門用語辞書に登録される。
【0041】
上記説明では、専門用語辞書への登録条件をユーザ辞書数の過半数以上としたが、他の割合を閾値とする登録要件であっても良い。また、ユーザ辞書数によって、登録要件を規定する閾値を異なるようにしても良い。
【0042】
また、上記説明では、専門用語辞書に追加登録した後も、ユーザ辞書にその辞書データを残すものを示したが、専門用語辞書に追加登録した辞書データをユーザ辞書から消去するようにしても良い。前者の場合には、ステップS15の追加登録の処理において、辞書履歴記録手段106は、該当する専門用語辞書に辞書データを追加登録した履歴を記録し、後者の場合には、その辞書データが属する辞書種類が変更されたことやユーザ辞書から消去されたことを表す履歴を記録する。
【0043】
さらに、上記説明においては、専門用語辞書への登録を、その専門用語辞書に関連付けられた全てのユーザ辞書での登録状況から判断するものを示したが、一部のユーザ辞書での登録状況から専門用語辞書への登録可否を決定するようにしても良い。さらにまた、上記では、専門用語辞書への登録を完全に自動化したものを示したが、サーバ運営者などに専門用語辞書に追加登録したい辞書データを表示して確認させた上で、専門用語辞書に追加登録するようにしても良い。
【0044】
なお、一般用語辞書に関連付けられてユーザ辞書が存在するのであれば、上記処理と同様にして一般用語辞書を充実化させても良い。
【0045】
(A−2−3)辞書情報の統合動作
次に、複数の専門用語辞書の情報を統合する動作を、図6のフローチャートを用いて説明する。複数の専門用語辞書の情報統合は、専門用語辞書のデータの情報を調べ、下位の専門用語辞書のデータを上位の専門用語辞書のデータとして登録することを言う。
【0046】
なお、図6は、定期的に起動された場合、又は、システム運営者によって起動された場合に対応するものである。また、図6は、ある1個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図6に示す処理がそれぞれ実行される。
【0047】
辞書管理手段104は、図6に示す処理を開始するとまず、対象となっている専門用語辞書の下位の全ての専門用語辞書に登録されている辞書データを取り出し(ステップS21)、辞書データIDを0(初期値)にセットする(ステップS22)。
【0048】
そして、下位の専門用語辞書の数の過半数以上に登録されている辞書データが存在するか否かを判別する(ステップS23、S24)。
【0049】
そのような辞書データが1個でも存在すれば、上位の専門用語辞書に、それらの辞書データを全て追加登録すると共に、下位の専門用語辞書からそれらの辞書データを削除する(ステップS25)。なお、この際には、上位の専門用語辞書にその辞書データが存在しないことを確認してから追加登録するようにしても良い。
【0050】
ここで、ステップS25の追加登録の処理においては、辞書履歴記録手段106によって、その辞書データが属する辞書種類が上位の専門用語辞書に変更されたことや下位の専門用語辞書から消去されたことを表す履歴が記録される。
【0051】
以上の処理が終了した後、辞書データIDを1インクリメントし(ステップS26)、未処理の辞書データが残っているか否かを判別する(ステップS27)。未処理の辞書データが残っていれば、上述したステップS22に戻り、全ての辞書データについて統合処理が終了したならば、図6に示す一連の処理を終了する。
【0052】
図1の辞書データベース105の例では、物理辞書と数学辞書の両方に同じ辞書データが登録されていた場合には、上位の自然科学辞書に辞書データが登録され、物理辞書と数学辞書からは辞書データが削除される。
【0053】
ここで、吸い上げ処理(統合処理)を、階層が低い方の専門用語辞書から階層が高い方の専門用語辞書への順で行うことにより、吸い上げられたばかりの辞書データ(単語情報)がさらに上位の専門用語辞書に吸い上げられることもある。
【0054】
上記説明では、上位の専門用語辞書への登録条件を下位の専門用語辞書数の過半数以上で登録されていることにしたが、他の割合を閾値とする登録要件であっても良い。また、下位の専門用語辞書数によって、上位への登録要件を規定する閾値を異なるようにしても良い。さらには、各専門用語辞書で辞書データの使用頻度や使用率などを管理し、複数の下位の専門用語辞書で、ある程度使用されている辞書データ(単語情報)であることをも上位の専門用語辞書への登録要件に含めるようにしても良い。
【0055】
また、上記説明では、上位の専門用語辞書に追加登録すると、下位の専門用語辞書からその辞書データを削除するものを示したが、上位の専門用語辞書に追加登録した辞書データを下位の専門用語辞書に残すようにしても良い。さらに、上記では、上位の専門用語辞書への登録を完全に自動化したものを示したが、システム運営者などに上位の専門用語辞書に追加登録したい辞書データを表示して確認させた上で、上位の専門用語辞書に追加登録するようにしても良い。
【0056】
なお、大分類の複数の専門用語辞書に登録されている辞書データを、一般用語辞書に登録させるようにしても良い。
【0057】
(A−2−4)辞書分割・生成動作
次に、専門用語辞書の分割・生成の動作を、図7のフローチャートを用いて説明する。なお、図7の処理は、ある1個の専門用語辞書を対象とした処理を示しており、全ての専門用語辞書に対して、それぞれ図7の処理が実行される。
【0058】
辞書管理手段104は、図7に示す処理を開始すると、関連するユーザ辞書の情報を、辞書データベース105から、同一の辞書データを集計しながら取り出してバッファリングする(ステップS31)。
【0059】
図8は、スポーツ辞書に関連するユーザ辞書から集計しながら取り出した例を示している。左から、辞書データID、見出し語(キー)、訳語、登録されているユーザ辞書数を示している。
【0060】
集計しながらの取り出しが終了すると、辞書管理手段104は、辞書データIDを0(初期値)にセットする(ステップS32)。そして、全ての辞書データについて、ステップS33〜S38での処理ループを繰り返す。
【0061】
辞書管理手段104は、専門用語辞書に関連付けられているユーザ辞書の登録辞書データ中において、同じ見出し語(キー)で訳語(値)が異なる辞書データがあるか否かを確認し、ある場合には、それぞれの辞書データを登録しているユーザ辞書数が、専門用語辞書に関連付けられている全ユーザ辞書数の2割(なお、割合はこれに限定されない)以上であるか否かを判別する(ステップS33、S34)。
【0062】
同じ見出し語(キー)で訳語(値)が異なるユーザ登録の辞書データが存在し、それぞれの辞書データの登録割合が2割以上であると、辞書管理手段104は、専門用語辞書に対し、下位の専門用語辞書が存在するかを判別する(ステップS35)。
【0063】
下位の専門用語辞書が存在しない場合には、辞書管理手段104は、同じ見出し語(キー)で訳語(値)が異なる、登録割合が2割以上の辞書データの種類数だけ下位の専門用語辞書を作成して、それぞれの辞書データを登録する(ステップS36)。ここで、そのような辞書データを含むユーザ辞書は、辞書データIDが規定する専門用語辞書にそのまま関連付けても良く、自己の登録辞書データが登録された、新たに作成された専門用語辞書に関連付けるようにしても良い。また、ここでの下位の専門用語辞書の作成は、完全なる作成ではなく、仮作成であっても良い。
【0064】
上述したステップS36の処理においては、辞書履歴記録手段106によって、以上のような新たな専門用語辞書の作成したことの履歴や、ある辞書データがその辞書に登録されたことの履歴が記録されることも行われる。
【0065】
これに対して、下位の専門用語辞書が存在する場合には、辞書管理手段104は、同じ見出し語(キー)で訳語(値)が異なる、登録割合が2割以上の辞書データを、下位の専門用語辞書に移動させる(ステップS37)。ここで、そのような辞書データを含むユーザ辞書は、元の専門用語辞書にそのまま関連付けても良く、移動させた下位の専門用語辞書に関連付けるようにしても良い。
【0066】
上述したステップS37の処理においては、辞書履歴記録手段106によって、辞書データが下位の専門用語辞書に移動されたことの履歴が記録されることも行われる。
【0067】
辞書データを移動させる下位の専門用語辞書の種類の決定は、例えば、訳語側を見出し語としている逆方向用の辞書データベースの内容を参照して分野やジャンルを認識して行う。また例えば、今回の辞書データの訳語での文字列の一部や全てを訳語の文字列に含む辞書データが存在する側の下位の専門用語辞書に移動させる。なお、ここでの下位の専門用語辞書への辞書データの移動は、完全なる移動ではなく、仮移動であっても良い。
【0068】
辞書管理手段104は、上述のような下位の専門用語辞書の新規作成や下位の専門用語辞書への所定辞書データの移動が終了すると、又は、同じ見出し語(キー)で訳語(値)が異なるユーザ登録の辞書データが存在しないと、若しくは、存在しても、いずれかの辞書データの登録割合が2割未満であると、辞書データIDを1インクリメントした後(ステップS38)、辞書データが残っているか否かを判別する(ステップS39)。
【0069】
辞書データが残っていれば、上述したステップS33に戻り、全ての辞書データについて辞書分割・生成処理が終了したならば、図7に示す一連の処理を終了する。
【0070】
なお、辞書分割・生成処理では、完全な自動化処理は難しく、図7の処理の終了時に、システム運営者側のオペレータ(以下、システムオペレータと呼ぶ)によって後処理を行うことを要する。例えば、新規に作成された専門用語辞書に対する分野やジャンルのネーミング付与や、ステップS36による作成が仮作成であれば本作成が必要か否かの判断や、ステップS37による移動が仮移動であれば本移動が必要か否かの判断や、新規に下位の専門用語辞書を作成した場合における他の辞書データの上位の専門用語辞書からの移動処理などを行うことを要する。
【0071】
例えば、図8の例において、スポーツ辞書に関連付けられているユーザ辞書数が10個だとすると、見出し語が「Pitcher」で訳語が「投手」及び「7番アイアン」という2種類の辞書データは、どちらもユーザ登録数が3であるので、下位の専門用語辞書の新規作成要件、又は、下位の専門用語要件の辞書データの移動要件を満足している。
【0072】
この場合において、スポーツ辞書に下位の専門用語辞書が存在しない場合であれば、2個の下位の専門用語辞書が作成され、一方に辞書データ「Pitcher;7番アイアン」が登録され、他方に辞書データ「Pitcher;投手」が登録される。なお、システムオペレータによる後処理で、前者にゴルフ辞書、後者に野球辞書というネーミングが付与されるであろう。
【0073】
これに対して、スポーツ辞書の下位にゴルフ辞書及び野球辞書が存在する場合には、辞書データ「Pitcher;7番アイアン」がゴルフ辞書に登録され、辞書データ「Pitcher;投手」が野球辞書に登録される。これは、例えば、ゴルフ辞書に、訳語が「アイアン」という他の辞書データが存在しているとすると、今回の訳語「7番アイアン」との共通文字列が存在するためである。また、例えば、野球辞書に、訳語が「右翼手」という他の辞書データが存在しているとすると、今回の訳語「投手」との共通文字列が存在するためである。
【0074】
図9は、このようなスポーツ辞書だけが用意されていた状態から、図7の処理を通じて、スポーツ辞書の下位にゴルフ辞書及び野球辞書が新規作成された場合の辞書データベース105の変化の状態を示したものであり、図10は、図9に示すようにな専門用語辞書の分割・生成時における関連付けられていたユーザ辞書の移動を示したものである。
【0075】
なお、上記説明においては、ユーザ辞書の登録情報からのみ、下位の専門用語辞書の作成有無などを判断するものを示したが、ユーザ辞書の登録情報及び専門用語辞書の登録情報から、下位の専門用語辞書の作成有無などを判断するようにしても良い。例えば、専門用語辞書の登録情報と同じ見出し語で訳語が異なるユーザ登録の辞書データが、所定数以上又は所定割合以上のユーザ辞書で登録されている場合には、下位の専門用語辞書の作成などを行うようにしても良い。
【0076】
また、上記説明では、下位の専門用語辞書が存在しない場合にのみ、下位の専門用語辞書を作成するものを示したが、下位の専門用語辞書が存在していても、それと同列(同階層)の下位の専門用語辞書を作成するようにしても良い。すなわち、下位の専門用語辞書の存在有無に拘わらず、条件を満たせば、他の下位の専門用語辞書を作成するようにしても良い(言い換えると、下位への移動処理を無くしても良い)。例えば、スポーツ辞書の下位に柔道辞書や陸上辞書があっても、上述したようにスポーツ辞書に関連して「Pitcher;7番アイアン」や「Pitcher;投手」がユーザ登録されることもあり、この場合には、ゴルフ辞書や野球辞書(ネーミングは後でなされる)を下位の専門用語辞書として作成する。
【0077】
(A−2−5)辞書閲覧動作
次に、辞書の格納内容を閲覧する際の動作を、図11のフローチャートを用いて説明する。
【0078】
ユーザは、辞書データを登録したい場合や、機械翻訳処理に先立ち原言語の単語がどのような訳語に翻訳されるかを確認したい場合など、予め、辞書内容を閲覧したくなることがある。
【0079】
このような場合には、ユーザは、閲覧入力手段101によって閲覧要求を入力して制御手段102に送信させる(ステップS41)。
【0080】
ここで、閲覧要求は、見出し語(原言語単語)だけを含む要求であっても良く、また、訳語だけを含む要求であっても良く、さらに、見出し語及び訳語の対を含むものであっても良い。さらには、検索対象の辞書種類を限定する閲覧要求であっても良い。ある専門用語辞書が検索対象の辞書として限定された場合においては、その専門用語辞書だけを検索対象としても良く、また、その専門用語辞書とそれに関連付けられている全てのユーザ辞書とを検索対象とするようにしても良い。
【0081】
制御手段102は受信した閲覧要求を辞書管理手段104に与え、辞書管理手段104は、その閲覧要求に応じ、辞書データを検索すると共に、検索で得られた辞書データに関する履歴情報も辞書履歴記録手段106から取り出す(ステップS42)。
【0082】
その後、辞書管理手段104は、検索で得られた辞書データ(履歴情報を含む)を制御手段102を経由して閲覧入力手段101に返信し、閲覧入力手段101は表示又は印字出力する(ステップS43)。
【0083】
(A−2−6)機械翻訳処理
次に、入力文又は入力文書に対する機械翻訳動作を、図12のフローチャートを用いて説明する。
【0084】
ユーザは、機械翻訳を希望する文章又は文書があれば、閲覧入力手段101に入力して制御手段102に送信させ、制御手段102は受信した入力文又は入力文書を機械翻訳手段103に与える(ステップS51)。なお、入力文書が、HTML文書のような場合には、制御手段102は、文章部分だけを切り出して機械翻訳手段103に与える。
【0085】
また、ユーザは、機械翻訳で使用する辞書を限定したい場合には、閲覧入力手段101に指定辞書情報を入力して制御手段102に送信させ、制御手段102から指定辞書情報が与えられた辞書管理手段104は、辞書データベース105における該当辞書だけを有効とする(ステップS52)。
【0086】
上述したように、指定辞書、及び、その分野の上位階層に属する専門用語辞書や一般用語辞書が有効とされ、また、有効とされた専門用語辞書や一般用語辞書に関連付けられている当該ユーザのユーザ辞書が有効となる。この図12に示す機械翻訳処理の例では、使用辞書をユーザが指定するものを示したが、既存の専門分野認識方法などを適用し、入力文や入力文書から、辞書管理手段104が、使用する辞書を自動認識するようにしても良い。
【0087】
その後、機械翻訳手段103が、有効となった辞書の格納内容を参照しながら機械翻訳を行う(ステップS53)。ここで、有効となった辞書の全ての格納内容を機械翻訳手段103に与えて機械翻訳を実行させても良く、また、機械翻訳手段103が、制御手段102及び辞書管理手段104を経由して、有効となった辞書の格納内容をその都度参照して機械翻訳を実行するようにしても良い。
【0088】
なお、辞書履歴記録手段106又は辞書データベース105が辞書データの使用頻度や使用率を管理するものであれば、機械翻訳で利用された辞書データの使用頻度や使用率が更新される。辞書データの使用頻度や使用率も、辞書データの閲覧要求の際に閲覧させるようにしても良い。
【0089】
得られた翻訳結果は、機械翻訳手段103が制御手段102に与え、制御手段102が閲覧入力手段101に返信する(ステップS54)。なお、入力文書(翻訳依頼文書)が、HTML文書のような文書であって、制御手段102が、文章部分だけを切り出して機械翻訳手段103に与えた場合には、制御手段102は、翻訳結果からHTML文書を再構築して閲覧入力手段101に返信する。
【0090】
(A−3)第1の実施形態の効果
以上のように、複数のユーザで、高品質な内容を維持する辞書データベースを共有するので高品質な翻訳結果を得ることができ、しかも、辞書データベースは品質向上のための変更を実行するので頻繁に実行するので、常に最新の状態で使用でき、メンデナンス工数も削減できる。
【0091】
また、ユーザは、このような辞書データベースの辞書データを閲覧できるだけでなく、その更新履歴は閲覧することができるので、ユーザ登録の必要などを把握できるだけでなく、他のユーザがどのような時点で更新したかや専門用語辞書への吸い上げの時期なども把握することができ、各用語に対する世の中の現状を認識できる。
【0092】
(B)第2の実施形態
次に、本発明による辞書装置及び自然言語処理システムを、機械翻訳システムに適用した第2の実施形態を図面を参照しながら詳述する。
【0093】
(B−1)第2の実施形態の構成
図13は、第2の実施形態の機械翻訳システムの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
【0094】
図13において、第2の実施形態の機械翻訳システム100Aは、第1の実施形態と同様な閲覧入力手段101、制御手段102、機械翻訳手段103、辞書管理手段104、辞書データベース105及び辞書履歴記録手段106を有すると共に、さらに、ネットワーク201、通信手段202及び更新情報要求データベース(更新情報要求DB)203を有する。
【0095】
すなわち、第2の実施形態の機械翻訳システム100Aは、閲覧入力手段101がネットワーク201を介して他のシステム構成要素102〜106、202及び203側に接続されているものである。
【0096】
例えば、ネットワーク201はインターネットであり、閲覧入力手段101以外のシステム構成要素102〜106、202及び203は、サーバ(例えばプロバイダサーバ)に搭載されているものであり、閲覧入力手段101は、ブラウザ機能を有する情報処理端末が該当する。
【0097】
なお、上述した第1の実施形態も、更新情報要求データベース203を除けば、第2の実施形態のようなネットワークが介在しているものであっても良い。
【0098】
通信手段201は、ネットワーク201を介した閲覧入力手段101と制御手段102との通信を行うものである。
【0099】
この通信手段201には、更新情報要求データベース202が接続されており、通信手段201は、いずれかの閲覧入力手段101から(言い換えるといずれかのユーザから)のアクセスがあった場合に、更新情報要求データベース202の内容を確認する機能を有する。更新情報要求データベース202の内容を確認する契機となるアクセスは、機械翻訳に関連する処理(機械翻訳処理だけでなく、辞書の閲覧要求処理などを含む)のアクセスに限定しても良く、機械翻訳に関連しない処理(例えば単なる文書の検索処理)のアクセスであっても良い。
【0100】
更新情報要求データベース202には、各ユーザが自動送信(自動通知)を要求する、辞書データベース105に関する更新情報の種類データが格納されている。
【0101】
図14は、更新情報要求データベース202の格納内容の一例を示すものである。図14の例の場合、ユーザ1は、辞書データベース105におけるコンピュータ辞書及び数学辞書(それらに関連付けられているユーザ辞書を含めても良く、また、含めなくても良い)に更新があった場合に、その更新に係る辞書データなどの自動送信を求めており、ユーザ2は、辞書データベース105における自然科学辞書に更新があった場合に、その更新に係る辞書データなどの自動送信を求めており、ユーザ3は、辞書データベース105における見出し語が「pencil」の辞書データに更新があった場合に、その更新に係る辞書データなどの自動送信を求めている。なお、更新情報要求データベース202には、どの時刻までの更新に係る辞書データなどを既に送信しているかを明らかにすべく、前回の自動送信時刻をも記録しておくようにしても良い。
【0102】
以上のような第2の実施形態で新たに追加された構成要素との関係で、閲覧入力手段101や辞書管理手段104などの機能も、第1の実施形態のものとは多少異なっているが、その点については、後述する動作説明で明らかにする。
【0103】
(B−2)第2の実施形態の動作
この第2の実施形態の機械翻訳システム100Aにおいても、第1の実施形態で説明した各種の処理を実行する。
【0104】
さらに、第2の実施形態の機械翻訳システム100Aは、辞書データベース105において更新された辞書データなどの更新情報を、ユーザに自動的に通知する処理も行う。
【0105】
以下、このような更新情報の通知処理を、図15のフローチャートを参照しながら詳述する。図15は、1ユーザに対する処理を示している。
【0106】
なお、フローチャートの図示は省略するが、ユーザは、閲覧入力手段101から、更新情報の自動送信を要求する更新情報の種類データを入力し、予め、通信手段202に関連して設けられている更新情報依頼データベース203に登録しておく。更新情報依頼データベース203への登録は、以上のようなユーザによる入力操作に基づいた方法に代え、システム運営者がユーザ契約などを締結した際などに行うようにしても良い。
【0107】
あるユーザが、例えば、何らかの処理(例えば機械翻訳処理)のために、閲覧入力手段101から通信手段202にアクセスしてくると、その処理を開始する前に、又は、その処理を終了した後に、図15の処理が開始され、まず、通信手段202は、そのユーザについて、更新情報依頼データベース203に更新情報の種類データ(更新情報依頼)があるか否かを判別する(ステップS61)。
【0108】
なお、図15に示す処理は、上述のようなユーザによるアクセスにより開始する方法に代え、通信手段202、制御手段102又は辞書管理手段104が、定期的に起動する方法を適用しても良く、また、辞書管理手段104が辞書データベース105の更新を認識して自動起動する方法を適用しても良い。変形例として挙げた2つの起動方法の場合には、閲覧入力手段101の電源が落ちいている可能性もあるので、後述するステップS65の通知動作は、例えば、eメール発送となる。
【0109】
アクセスしてきたユーザについて、更新情報依頼データベース203に更新情報の種類データ(更新情報依頼)が格納されていない場合には、図15に示す処理を直ちに終了する。
【0110】
これに対して、アクセスしてきたユーザについて、更新情報依頼データベース203に更新情報の種類データ(更新情報依頼)が格納されていると、通信手段202は、辞書管理手段104と協働して、辞書データベース105が更新されていることを確認し、辞書履歴記録手段106に対する検索を行い、ユーザが更新情報の自動送信を求めている更新情報があるか否かを判別する(ステップS62〜S64)。
【0111】
より具体的には、そのユーザに対し、前回自動送信した時刻以降に辞書データベース105が更新されていることを確認し、そのユーザに対し、前回自動送信した時刻以降を更新時刻とする辞書データなどであって、更新情報依頼データベース203に格納されている更新情報の種類データが特定する辞書データを、辞書履歴記録手段106から検索することを通じて行う。
【0112】
例えば、アクセスしてきたユーザが、図14に示すユーザ2である場合において、ユーザ2に対し、前回自動送信した時刻以降に辞書データベース105が更新されていることを確認したならば、自然科学辞書の辞書データの中に、ユーザ2に対し、前回自動送信した時刻以降に更新された辞書データがあるか否かを辞書履歴記録手段106の検索により判別することになる。
【0113】
辞書データベース105が更新されていない場合(ステップS63で否定結果)や、通知すべき辞書データなどが存在しない場合(ステップS65で否定結果)には、図15に示す処理を終了する。
【0114】
ユーザに通知すべき該当する辞書データがあれば、通信手段202は、その辞書データ及び又は更新履歴を、閲覧入力手段101に通知して、図15に示す処理を終了する。
【0115】
なお、図15は、自動送信すべきタイミングで更新情報を取り出す場合を示したが、辞書データベース105が更新された際に、更新情報要求データベース203の格納内容に基づいて、各ユーザに自動送信すべき、更新情報を更新情報要求データベース203に複写しておき、自動送信すべきタイミングでは、辞書データベース105及び辞書履歴記録手段106をアクセスすることなく、更新情報要求データベース203に格納されている更新情報を自動送信するようにしても良い。
【0116】
(B−3)第2の実施形態の効果
第2の実施形態によっても、上述した第1の実施形態と同様な効果を奏することができる。
【0117】
さらに、第2の実施形態によれば、辞書データベースの更新情報をユーザが希望に合わせて自動的に得ることができるので、他のユーザによるユーザ登録などで辞書データベースが更新されてもそのことを早期に把握することができる。その結果、ユーザは、不要なユーザ登録を防止でき、訳質などを的確に把握できたりする。
【0118】
(C)第3の実施形態
次に、本発明による辞書装置及び自然言語処理システムを、機械翻訳システムに適用した第3の実施形態を図面を参照しながら詳述する。
【0119】
(C−1)第3の実施形態の構成
図16は、第3の実施形態の機械翻訳システムの機能的構成を示すブロック図であり、第2の実施形態に係る図13との同一、対応部分には同一符号を付して示している。
【0120】
図16において、第3の実施形態の機械翻訳システム100Bは、上述した第2の実施形態の構成に加え、翻訳履歴記録手段301及び翻訳結果データベース302を有するものである。
【0121】
なお、第3の実施形態の機械翻訳システム100Bは、複数の閲覧入力手段101から、同一文書の翻訳依頼が生じることを前提としているものである。例えば、ネットワーク201がインターネットの場合、複数の閲覧入力手段101が、図示しない文書検索装置から同一文書を検索で取り出すことがあり、さらに、そのような同一の検索文書に対する機械翻訳を複数の閲覧入力手段101が求めることがある。第3の実施形態の機械翻訳システム100Bは、このようなネットワークシステムを前提としている。
【0122】
翻訳結果データベース302は、翻訳依頼文書(原文)と、それに対する最新の翻訳結果と、最新の翻訳結果を当該翻訳結果データベース302に記録した登録時刻(更新時刻のこともある)を格納しているものである。
【0123】
翻訳履歴記録手段301は、制御手段102の制御下で、当該翻訳結果データベース302の更新処理などを実行するものである。
【0124】
なお、制御手段102などの機能も、第2の実施形態のものと多少異なっている。翻訳結果の更新機能については、後述する動作説明で明らかにする。
【0125】
その他、第3の実施形態の制御手段102は、以下のような機能をも担っている。制御手段102は、閲覧入力手段101からある文書の機械翻訳依頼があった場合においては、その文書の翻訳結果が翻訳結果データベース302に登録されているか否かを翻訳履歴記録手段301を介して確認し、その文書の翻訳結果が翻訳結果データベース302に登録されていない場合には、機械翻訳手段103にその文書を機械翻訳させて翻訳結果を閲覧入力手段101に返信させると共に、翻訳履歴記録手段301によって翻訳結果などの情報を翻訳結果データベース302に登録させ、一方、翻訳依頼文書の翻訳結果が翻訳結果データベース302に登録されていればそれを取り出して閲覧入力手段101に返信させる。
【0126】
(C−2)第3の実施形態の動作
この第3の実施形態の機械翻訳システム100Bにおいても、第2の実施形態で説明した各種の処理を実行する。
【0127】
さらに、第3の実施形態の機械翻訳システム100Bは、既に機械翻訳した翻訳結果を更新する処理も行う。
【0128】
以下、第3の実施形態による翻訳結果の更新処理を、図17のフローチャートを参照しながら詳述する。
【0129】
例えば、受信した翻訳結果が自己がユーザ登録した辞書データが反映されていなかったり、受信した翻訳結果の質の向上を望んだりした場合には、文書(翻訳依頼文書でも翻訳結果文書でも良い)又は文書特定情報(例えばURL)を伴う翻訳結果の更新指示を閲覧入力手段101に対して行う(ステップS71)。
【0130】
これにより、ステップS72以降のような翻訳結果の具体的な更新処理が起動される。なお、ステップS72以降のような翻訳結果の具体的な更新処理の起動は、システム運営者が行っても良く、また、辞書管理手段104が辞書データベース105の辞書データの更新を認識したときに自動的に行っても良く、所定周期で自動的に行っても良い。また、翻訳結果を登録している原言語の文書に対する、新たな機械翻訳の依頼時に自動的に行って良い。
【0131】
翻訳結果が直接的又は間接的に指定された翻訳結果の更新指示が閲覧入力手段101側から与えられると、制御手段102は、翻訳履歴記録手段301を介して、指定された翻訳結果が翻訳結果データベース302に存在するかを確認する(ステップS72、S73)。なければ、図17に示す処理を終了する(なお、閲覧入力手段101へのない旨の返信は行う)。
【0132】
指定された翻訳結果が翻訳結果データベース302にあれば、制御手段102は、翻訳履歴記録手段301を介して、翻訳結果の直前の更新時刻(当初の登録時刻のこともあり得る)を得ると共に(ステップS74)、辞書管理手段104を介して、辞書履歴記録手段106をアクセスし、その更新時刻よりも更新時刻が後の辞書データを検索し(ステップS75)、そのような更新時刻の条件を満たす辞書データが存在するか否かを判別する(ステップS76)。そのような辞書データがなければ、図17に示す処理を終了する(なお、閲覧入力手段101への更新し得ない旨の返信は行う)。
【0133】
更新時刻の条件を満たす辞書データが存在すると、制御手段102は、翻訳履歴記録手段301を介して、翻訳結果データベース302をアクセスし、原言語文書におけるそのような辞書データを含む文を検索し(ステップS77)、そのような文が存在するか否かを判別する(S78)。更新時刻の条件を満たす辞書データを含む原言語文がなければ、図17に示す処理を終了する(なお、閲覧入力手段101への辞書データ更新の影響を受ける原言語文がない旨の返信は行う)。
【0134】
更新時刻の条件を満たす辞書データを含む原言語文があれば、制御手段102は、翻訳結果データベース302から、その原言語文(複数あれば全て)を取り込んで機械翻訳手段103に与えて機械翻訳させる(ステップS79、S80)。その後、制御手段102は、機械翻訳手段103による切り出した文に対する翻訳結果と、更新時刻とを、翻訳履歴記録手段301に与えて、翻訳結果データベース302を更新させ(ステップS81)、図17に示す処理を終了する(更新した旨を閲覧入力手段101に返信することは行う。
【0135】
なお、機械翻訳手段103が文脈などを考慮して翻訳するものであれば、更新された辞書データを含む文だけでなく、原言語文書の全体を与えて機械翻訳させるようにしても良い。また、閲覧入力手段101に対し、更新された旨に代え、更新された翻訳結果を返信するようにしても良い。
【0136】
なお、更新情報要求データベース203に、翻訳結果の更新をの自動送信対象に設定しておき、第2の実施形態で説明した更新情報の通知処理によって、翻訳結果の更新を該当するユーザ(閲覧入力手段101)に通知するようにしても良い。
【0137】
(C−3)第3の実施形態の効果
第3の実施形態によっても、上述した第2の実施形態と同様な効果を奏することができる。
【0138】
さらに、第3の実施形態によれば、翻訳結果がキャッシュされている場合に、キャッシュされた時刻以降に更新された語句を含む文のみ翻訳することができるので、無駄な翻訳を行わずに、最新の辞書による翻訳結果に更新することができる。
【0139】
(D)他の実施形態
上記各実施形態の説明においても、種々変形した実施形態について言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0140】
第1の実施形態の説明では、他のユーザのユーザ辞書の内容をも閲覧できるように記載したが、他のユーザのユーザ辞書の閲覧は認めないようにしても良い。但し、それが専門用語辞書に吸い上げられたときには当然に閲覧できる。
【0141】
また、専門用語辞書は、いわゆる専門分野で分類されたものだけでなく、趣味ミなどに係るカテゴリーで分類されたものも含むものである。
【0142】
第2の実施形態については、更新履歴を自動送信するものを示したが、更新履歴の送信要求(分野などの指定情報は含まない)に応じ、そのユーザが欲する種類の辞書データの更新履歴を送信するようにしても良い。
【0143】
上記各実施形態では、専門用語辞書に対し、ユーザが直接登録操作し得ないものを示したが、専門用語辞書に対し、ユーザが直接登録操作し得るようにしても良い。この場合においても、一部のユーザ辞書への登録を条件とするようにしても良い。
【0144】
第3の実施形態において、翻訳結果の記録の更新は、新たな辞書データを反映させた翻訳結果と、反映させていない翻訳結果とを、ユーザ又はシステム運営者に提示し、その確認後に行うようにしても良い。
【0145】
上記各実施形態においては、本発明の辞書装置及び自然言語処理システムを機械翻訳システムで利用する場合を示したが、本発明の適用対象は、これに限定されるものではない。例えば、音声認識等で利用されるかな漢字変換用の辞書にも本発明の辞書装置を適用できる。
【0146】
【発明の効果】
以上のように、本発明によれば、複数のユーザが、高品質な内容を維持する、ユーザ登録に係る辞書データを共有することによって、高品質な自然言語処理結果を得ることができる辞書装置及び自然言語処理システムを実現できる。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【図2】第1の実施形態のユーザ辞書と専門用語辞書との関連を示す説明図である。
【図3】第1の実施形態のユーザ辞書の登録処理を示すフローチャートである。
【図4】第1の実施形態の専門用語辞書の充実化処理を示すフローチャートである。
【図5】図4の処理により専門用語辞書へ登録されるユーザ登録の辞書データの説明図である。
【図6】第1の実施形態の専門用語辞書情報の統合処理を示すフローチャートである。
【図7】第1の実施形態の専門用語辞書の分割・生成処理を示すフローチャートである。
【図8】図7の処理により下位の専門用語辞書が生成されるユーザ登録の辞書データの説明図である。
【図9】図7の処理により下位の専門用語辞書が生成される前後の辞書データベースの構造を示す説明図である。
【図10】図7の処理により下位の専門用語辞書が生成された場合におけるユーザ辞書の移動を示す説明図である。
【図11】第1の実施形態の辞書閲覧処理を示すフローチャートである。
【図12】第1の実施形態の機械翻訳処理を示すフローチャートである。
【図13】第2の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【図14】第2の実施形態の更新情報要求データベースの格納内容例を示す説明図である。
【図15】第2の実施形態の辞書の更新情報の通知処理を示すフローチャートである。
【図16】第3の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【図17】第3の実施形態の翻訳結果の更新処理を示すフローチャートである。
【符号の説明】
100、100A、100B…機械翻訳システム、101…閲覧入力手段、102…制御手段、103…機械翻訳手段、104…辞書管理手段、105…辞書データベース、106…辞書履歴記録手段、201…ネットワーク、202…通信手段、203…更新情報要求データベース、301…翻訳履歴記録手段、302…翻訳結果データベース。

Claims (6)

  1. 複数のユーザが利用する自然言語処理システムに設けられる辞書装置において、
    カテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、
    任意の上記専門用語辞書及び又は上記一般用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段と、
    複数のユーザ辞書に共通の辞書データを関連付けられた上記専門用語辞書又は上記一般用語辞書に設定したり、ツリー構造で複数の下位の辞書に共通の辞書データを上位の辞書に設定したり、関連付けられた複数のユーザ辞書に共通な辞書データに基づき、その上記専門用語辞書に下位の専門用語辞書を設定したりなど、上記辞書及び又は上記辞書データを変更する辞書変更手段と、
    上記辞書変更手段による辞書及び又は辞書データの変更の履歴を記録する辞書履歴記録手段と
    を有することを特徴とする辞書装置。
  2. ユーザが操作する閲覧入力手段からの辞書データの閲覧要求を取り込む閲覧要求取込手段と、
    上記閲覧要求に応じ、上記辞書本体から辞書データを検索して取り出すと共に、その辞書データに対応した変更履歴を上記辞書履歴記録手段から取り出して、上記閲覧入力手段に返信する閲覧要求応答手段と
    をさらに有することを特徴とした請求項1に記載の辞書装置。
  3. ユーザ毎に通知する変更履歴の種類を設定している通知種類設定手段と、
    上記通知種類設定手段に設定されている種類情報に基づき、上記辞書履歴記録手段から各ユーザに通知する変更履歴を取り出し、各ユーザの上記閲覧入力手段に通知する変更履歴通知手段と
    をさらに有することを特徴とした請求項1又は2に記載の辞書装置。
  4. 請求項1〜4のいずれかに記載の辞書装置と、
    上記辞書装置の格納内容を利用して自然言語処理を行う自然言語処理本体と
    を有することを特徴とする自然言語処理システム。
  5. 上記自然言語処理本体が実行した自然言語の処理結果又はその更新された処理結果を、記録時刻情報と共に記録する自然言語処理結果記録手段と、
    上記自然言語処理結果記録手段に記録されている自然言語の処理結果の記録時刻より、上記辞書履歴記録手段が記録管理している更新時刻が後の上記辞書装置における辞書データを反映させるように、上記自然言語処理本体に自然言語処理の全て又は一部を実行させ直し、その結果に応じ、上記自然言語処理結果記録手段に記録されている自然言語の処理結果を更新させる自然言語処理見直し手段と
    を有することを特徴とする請求項4に記載の自然言語処理システム。
  6. 上記自然言語処理本体が実行する自然言語処理が機械翻訳処理であることを特徴とする請求項4又は5に記載の自然言語処理システム。
JP2001357431A 2001-11-22 2001-11-22 辞書装置及び自然言語処理システム Expired - Fee Related JP3838904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001357431A JP3838904B2 (ja) 2001-11-22 2001-11-22 辞書装置及び自然言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001357431A JP3838904B2 (ja) 2001-11-22 2001-11-22 辞書装置及び自然言語処理システム

Publications (2)

Publication Number Publication Date
JP2003157257A JP2003157257A (ja) 2003-05-30
JP3838904B2 true JP3838904B2 (ja) 2006-10-25

Family

ID=19168778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001357431A Expired - Fee Related JP3838904B2 (ja) 2001-11-22 2001-11-22 辞書装置及び自然言語処理システム

Country Status (1)

Country Link
JP (1) JP3838904B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5239863B2 (ja) 2006-09-07 2013-07-17 日本電気株式会社 自然言語処理システムおよび辞書登録システム
JP5465926B2 (ja) * 2009-05-22 2014-04-09 アルパイン株式会社 音声認識辞書作成装置及び音声認識辞書作成方法
JP5136536B2 (ja) * 2009-10-09 2013-02-06 カシオ計算機株式会社 情報表示制御装置及びプログラム
JP5563422B2 (ja) * 2010-10-15 2014-07-30 京セラ株式会社 電子機器及び制御方法
WO2021044461A1 (ja) * 2019-09-02 2021-03-11 株式会社オシエテ 通訳サービス提供サーバ

Also Published As

Publication number Publication date
JP2003157257A (ja) 2003-05-30

Similar Documents

Publication Publication Date Title
JP6376569B2 (ja) 検索方法及び検索システム
US7216121B2 (en) Search engine facility with automated knowledge retrieval, generation and maintenance
KR101153082B1 (ko) 텍스트 마이닝 및 검색을 위한 api
KR100834549B1 (ko) 번역 시스템 및 번역 서비스 제공방법
US7027975B1 (en) Guided natural language interface system and method
JP3717808B2 (ja) 情報検索システム
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
US9092756B2 (en) Information-retrieval systems, methods and software with content relevancy enhancements
US20010032205A1 (en) Method and system for extraction and organizing selected data from sources on a network
US7065536B2 (en) Automated maintenance of an electronic database via a point system implementation
JP4796538B2 (ja) コメントデータを関連付ける方法
WO2004111876A1 (ja) 検索条件を再利用する検索システムおよび方法
JP3838904B2 (ja) 辞書装置及び自然言語処理システム
JP4469432B2 (ja) インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Croft et al. Search engines
CN113434789B (zh) 基于多维度文本特征的搜索排序方法及相关设备
JP3838857B2 (ja) 辞書装置
JP2000231569A (ja) インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2021149600A (ja) 情報処理装置及びプログラム
KR100491254B1 (ko) 웹사이트 디렉토리나 웹페이지에 대해 설명하는 단어들에하이퍼링크를 적용하는 검색 시스템 및 방법
JP2003186788A (ja) 翻訳Webページ提供方法、翻訳Webページ提供システム及びプログラム
JP4104878B2 (ja) ウェブページ誘導方法及びウェブページ誘導プログラム
JP2002312389A (ja) 情報検索装置および情報検索方法
JP2004078485A (ja) 翻訳支援システムおよび方法
JP2002041519A (ja) 相互情報共有方法及び記録媒体及び相互情報共有システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060801

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090811

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100811

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees