JP2003303194A - 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 - Google Patents

慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体

Info

Publication number
JP2003303194A
JP2003303194A JP2002104978A JP2002104978A JP2003303194A JP 2003303194 A JP2003303194 A JP 2003303194A JP 2002104978 A JP2002104978 A JP 2002104978A JP 2002104978 A JP2002104978 A JP 2002104978A JP 2003303194 A JP2003303194 A JP 2003303194A
Authority
JP
Japan
Prior art keywords
idiom
dictionary
document
word
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002104978A
Other languages
English (en)
Inventor
Hiroyuki Nakajima
浩之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002104978A priority Critical patent/JP2003303194A/ja
Publication of JP2003303194A publication Critical patent/JP2003303194A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 英文等の文書の検索用インデックスとして、
文書中から抽出した慣用句を登録しておくことで、利用
者にとって不要な検索結果が得られることを防止する。 【解決手段】 国語辞書、英和辞書等をもとに、慣用句
の意味が該慣用句を構成する各単語の組合せとは異なる
特別な意味をもつ慣用句を抽出し、慣用句辞書100に
登録しておく。インデックス作成の際、辞書100を参
照して、該辞書に登録された慣用句が入力文中に存在し
た場合、該慣用句を一つの単語に結合し、該慣用句を検
索キーワード用の単語として、文書IDと対応づけてイ
ンデックス辞書200に登録する(110、120、1
30)。検索の際は、同様に辞書100を参照して、該
辞書に登録された慣用句が質問文に存在した場合、該慣
用句をキーワードとしてインデックス辞書200を検索
する(140、150、160)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、英文等の文書を検
索する際に利用するキーワードのインデックス作成及び
検索に関し、詳しくは、特別な意味をもつ慣用句を一つ
の語として、英文等を検索する際のキーワードのインデ
ックスに用いる技術に関する。
【0002】
【従来の技術】図3に、従来の検索インデックス作成装
置及び検索装置の全体構成図を示す。インデックス作成
時、キーワード抽出部120は入力された文書ないし文
を空白(スペース)で区切り、単語をキーワードとして
抽出する。インデックス登録部130は、抽出された単
語と文書番号(文書ID)の対を用いて、単語から文書
番号を検索できるインデックスを作成し、インデックス
辞書200に登録する。一方、検索時、キーワード抽出
部150は、入力された検索文(質問文)から同様に単
語をキーワードとして抽出する。検索部160は、抽出
されたキーワード(単語)によりインデックス辞書20
0を参照して、各単語を含む文書番号を出力する。利用
者は、この検索結果の文書番号をもとに文書データベー
ス(図示せず)にアクセスして所望の文書を入手するこ
とになる。なお、キーワード抽出部120と150は、
分かりやすいように分離して示したが、一般には同じも
のである。
【0003】
【発明が解決しようとする課題】従来技術は、空白によ
って文を分割して、空白によって区切られた個々の単語
を、検索時の際に利用するキーワードのインデックス作
成に用いていた。しかし、単語の組合せの中には、組合
わさることで個別の単語とは全く違った意味を持つ慣用
句が存在する。そのため、慣用句を分割して個別の単語
をインデックスとして用いると、検索者が慣用句を用い
た表現を検索する際に、個別の単語で検索することにな
るため、不要な検索結果が得られる問題があった。ま
た、慣用句が個々の単語に別れてインデックスに登録さ
れるため、個々の単語で検索した場合に慣用句を含む文
書も検索されることになるが、通常、慣用句と慣用句に
使われる個々の単語の関連は薄いため、検索者にとって
不要な文書であることが多いという問題があった。
【0004】本発明は、従来技術の上記のような問題に
鑑みなされたもので、その目的は、英文等の検索用の検
索インデックスとして、文中から抽出した慣用句を用い
ることで、従来より検索ミスの少ない検索を可能とする
ことを目的とすることにある。
【0005】
【課題を解決するための手段】本発明では、国語辞書や
英和辞書等の辞書に登録されている慣用句とその説明文
を参照して、あらかじめ検索キーワードのインデックス
として用いる慣用句を慣用句辞書に登録しておく。イン
デックス作成時、慣用句辞書に登録されている慣用句が
文中に登場すると、その慣用句を一語として扱うように
マーク等を付けて該慣用句を構成する各単語を結合す
る。マークが付与された慣用句は、通常の単語と同じよ
うに一つの単語としてインデックス作成に用いられる。
【0006】慣用句辞書に慣用句を登録する際には、慣
用句について記述された説明文を参照する。説明文中の
自立語が、慣用句を構成する語についての説明文には登
場しないものである場合、その説明文は慣用句を構成す
る語とは全く異なる、特別な意味を持っていると判定さ
れる。慣用句が複数の説明文を持つ場合、全ての説明文
について同様の判定を行い、いずれの説明文も特別な意
味を持っている場合、この慣用句はいつでも特別な意味
をもつ慣用句であると判定される。いつでも特別な意味
を持つと判定された慣用句についてのみ、慣用句辞書に
登録する。
【0007】慣用句の中には、使われる文脈によって
は、慣用句を構成する単語の組合せと同等の意味しか持
たない場合がある。上記の判定を行うことで、常に単語
の組合せとは異なる意味をもつ特別な慣用句を抽出し、
これを慣用句を構成する個別の単語ではなく、一つのか
たまりとしてインデックスすることで、不要な文書検索
が軽減できる。
【0008】
【発明の実施の形態】以下、本発明の一実施の形態につ
いて図面を参照して詳しく説明する。図1に本発明の慣
用句辞書作成装置の一実施例の構成図を示す。図1にお
いて、辞書10は国語辞書や英和辞書などであり、単
語、慣用句とその説明文が記述されている。辞書走査部
20は、辞書10を頭から走査して慣用句を抽出し、該
慣用句とその説明文を読み出す。説明文分割部30、構
成語分割部40、自立語比較部50及び形態素解析部6
0では、辞書走査部20で抽出された各慣用句ごとに、
以下の処理を行う。
【0009】説明文分割部30は、慣用句に記述されて
いる説明文の区切りを見つけて、区切りごとに説明文を
分割し、説明文に番号を与えるとともに、各説明文ずつ
形態解析部60に渡す。形態素解析部60は、辞書10
を参照して、説明文分割部30から渡された各説明文を
形態素解析し、説明文から自立語を抽出して説明文分割
部30に返す。説明文分割部30は、慣用句とともに、
各説明文番号と形態素解析部60で抽出された自立語の
集合の組を自立語比較部50に渡す。
【0010】一方、構成語分割部40は、抽出された慣
用句を空白(スペース)で分割し、慣用句を構成する各
単語について辞書10を検索し、各単語の説明文を読み
出して形態素解析部60に渡す。形態素解析部60は、
辞書10を参照して、構成語分割部40から渡された各
単語の説明文を形態素解析して自立語を抽出し、構成語
分割部40に返す。構成語分割部40は、形態素解析部
60において、慣用句を構成する全ての単語から抽出さ
れた自立語の集合を自立語比較部50に渡す。
【0011】自立語比較部50では、説明文分割部30
から与えられる各説明文番号ごとに、その自立語の集合
のすべての自立語が、構成語分割部40から与えられる
自立語の集合のいずれかの自立語と一致するかどうか比
較する。そして、全ての説明文番号について、一致しな
いものがあれば、説明文分割部30から与えられた当該
慣用句を慣用句辞書100に登録する。この結果、慣用
句辞書100には、辞書10から抽出された慣用句のう
ち、当該慣用句の説明文が該慣用句を構成する単語の組
合せとは異なる特別な意味を持つ慣用句のみが登録され
ることになる。
【0012】以下に具体例として、辞書走査部20によ
って慣用句「look at」,「look afte
r」が抽出された際の動作を示す。
【0013】〈look atの場合〉辞書走査部20
によって慣用句「look atが抽出されると、構成
語分割部40によって「look」,「at」に分割さ
れ、辞書10からそれぞれの説明文が検索され、説明文
「見る」、「*において」が得られる。これら説明文が
形態素解析部60によって処理され、自立語「見る」、
「おいて」が得られる。この自立語「見る」、「おい
て」が、構成語分割部40から自立語比較部50に渡さ
れる。
【0014】一方、慣用句「look at」の説明文
は、説明文分割部30によって各説明文に分割され、説
明文番号が与えられる。この場合は、「*を見」の一つ
のみなので説明文1とする。説明文「*を見る」が形態
素解析部60によって処理され、自立語「見る」が得ら
れる。説明文分割部30から自立語比較部50に、慣用
句「look at」とともに、説明文1、自立語「見
る」の組合せが渡される。
【0015】自立語比較部50において、この説明文分
割部30からの説明文1の自立語「見る」が構成語分割
部40からの自立語「見る」、「おいて」と比較され
る。この場合、説明文1の自立語はすべて(ここでは
「見る」のみ)、構成語分割部40の出力する自立語に
含まれているので、自立語比較部50では何もしない。
【0016】〈look afterの場合〉辞書走査
部20によって慣用句「look after」が抽出
されると、構成語分割部40によって「look」,
「after」に分割され、辞書10からそれぞれの説
明文が検索され、その説明文「見る」、「*のあとで」
が得られる。これら説明文が形態素解析部60によって
処理され、自立語「見る」、「あと」が得られる。この
自立語「見る」、「あと」が、構成語分割部40から自
立語比較部50に渡される。
【0017】一方、慣用句「look after」の
説明文は、説明文分割部30によって各説明文に分割さ
れ、それぞれ説明文番号が与えられる。この場合は、
「*の世話をする」、「*の面倒を見る」の2つがあ
り、説明文1「*の世話をする」、説明文2「*の面倒
を見る」とする。
【0018】まず、説明文1「*の世話をする」が形態
素解析部60によって処理され、自立語「世話」、「す
る」が得られる。説明文分割部30から自立語比較部5
0に、慣用句「look after」とともに、説明
文1、自立語「世話」、「する」の組合せが渡され、自
立語比較部50において、自立語「世話」、「する」が
構成語分割部40からの自立語「見る」、「あと」と比
較される。この場合、説明文1の自立語は、構成語分割
部40の出力する自立語に含まれていないので、登録候
補「Yes」とする。
【0019】次に、説明文2「*の面倒を見る」が形態
素解析部60によって処理され、自立語「面倒」、「見
る」が得られる。説明文分割部30から自立語比較部5
0に、説明文2、自立語「面倒」、「見る」の組合せが
渡され、自立語比較部50において、自立語「「面
倒」、「見る」が構成語分割部40からの自立語「見
る」、「あと」と比較される。この場合、説明文2の自
立語に、構成語分割部40の出力する自立語に含まれて
いない「面倒」があるので、先の説明文1と同様に登録
候補「Yes」とする。
【0020】説明文1、2のいずれにおいても、登録候
補「Yes」であるため、自立語比較部40は、慣用句
「look afber」を慣用句辞書100に登録す
る。
【0021】図2に本発明による検索インデックス作成
装置及び検索装置の一実施例の全体的構成図を示す。図
2において、検索インデックス作成装置は慣用句辞書1
00、慣用句マーク付与部110、キーワード抽出部1
20、インデックス登録部130及びインデックス辞書
200で構成される。検索装置は慣用句辞書100、慣
用句マーク付与部140、キーワード抽出部150、検
索部160及びインデックス辞書200で構成される。
検索インデックス作成装置と検索装置は、別構成あるい
は統合した構成のいずれでもよく、統合した構成の場合
には慣用句マーク付与部110と140、キーワード抽
出部120と150は、それぞれ一つのもので兼用する
ことができる。慣用句辞書100は、先の図1で説明し
た慣用句辞書作成装置において作成されたものであり、
慣用句を構成することにより、該慣用句を構成する各単
語とは異なる特別な意味をもつ慣用句のみが登録されて
いる。
【0022】まず、図2の検索インデックス作成装置と
しての動作について説明する。慣用句マーク付与部11
0は、慣用句辞書100を参照して、該辞書100に登
録されている慣用句が、入力された文書あるいは文中に
存在した場合、入力された文書中あるいは文中の該当す
る慣用句を構成する各単語間の空白(スペース)を特殊
文字に置き換え(図2では「_」に置き換えることを示
している)、出力する。キーワード抽出部120は、慣
用句マーク付与部110から出力される文書を入力し、
該入力された文書を空白(スペース)で区切り、単語を
キーワードとして抽出する。この際、慣用句マーク付与
部110において、各単語間の空白が特殊文字に置き換
えられている慣用句も、一つの単語として抽出される。
インデックス登録部130は、キーワード抽出部120
で抽出された単語や慣用句と文書番号の対をインデック
ス辞書200に登録する。
【0023】次に、図2の文書検索装置としての動作に
ついて説明する。慣用句マーク付与部140は、慣用句
辞書100を参照して、該辞書100に登録されている
慣用句が、入力された質問文(検索文)中に存在した場
合、該質問文中の該当する慣用句を構成する各単語間の
空白(スペース)を特殊文字(図2では「_」)に置き
換え、出力する。キーワード抽出部150は、慣用句マ
ーク付与部140から出力される質問文を入力し、単語
をキーワードとして抽出する。この際、各単語間の空白
が特殊文字に置き換えられている慣用句も、一つの単語
として抽出される。検索部160は、キーワード抽出部
150で抽出された単語及び慣用句をキーワードとし
て、インデックス辞書200を参照し、各単語及び慣用
句を含む文書番号を出力する。
【0024】なお、図1及び図2で示した装置における
各部の一部もしくは全部の処理機能をコンピュータのプ
ログラムで構成し、そのプログラムをコンピュータを用
いて実行して本発明を実現することができること、ある
いは、図1及び図2で示した装置の処理手順をコンピュ
ータのプログラムで構成し、そのプログラムをコンピュ
ータに実行させることができることは言うまでもない。
また、このコンピュータでその処理機能を実現するため
のプログラム、あるいは、コンピュータにその処理手順
を実行させるためのプログラムを、そのコンピュータが
読み取り可能な記録媒体、例えば、FDや、MO、RO
M、メモリカード、CD、DVD、リムーバブルディス
クなどに記録して、保存したり、提供したりすることが
できるとともに、インターネット等のネットワークを通
してそのプログラムを配布したりすることが可能であ
る。
【0025】
【発明の効果】本発明によれば、常に特別な意味をもつ
慣用句を一つの語としてインデックスを作成すること
で、従来より正確な検索を行うことができる。また常に
特別な意味をもつ慣用句について、慣用句を構成する各
語がインデックスには登録されないため、やはり従来よ
り正確な検索を行うことができる。
【図面の簡単な説明】
【図1】本発明の慣用句辞書作成装置の一実施例を示す
構成図である。
【図2】本発明の検索用インデックス作成装置及び文書
検索装置の一実施例を示す構成図である。
【図3】従来の検索用インデックス作成及び文書検索装
置の構成図である。
【符号の説明】
10 辞書 20 辞書走査部 30 説明文分割部 40 構成語分割部 50 自立語比較部 60 形態素解析部 100 慣用句辞書 110,140 慣用句マーク付与部 120,150 キーワード抽出部 130 インデックス登録部 160 検索部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文書を検索する際に利用するキーワード
    のインデックスとして用いる慣用句を登録する慣用句辞
    書を作成する慣用句辞書作成装置であって、 単語、慣用句とその説明文が記述された辞書から慣用句
    を抽出し、該慣用句と、その説明文を読み出す手段と、 前記抽出された慣用句を構成する各単語について、前記
    辞書からその説明文を読み出す手段と、 前記慣用句の説明文と当該慣用句を構成する各単語の説
    明文をもとに、慣用句を構成する単語の組合せとは異な
    る意味をもつ慣用句を抽出し、該慣用句を慣用句辞書に
    登録する手段と、 を有することを特徴とする慣用句辞書作成装置。
  2. 【請求項2】 文書を検索する際に利用するキーワード
    のインデックスを作成する検索用インデックス作成装置
    であって、 請求項1記載の慣用句辞書作成装置にて作成された慣用
    句辞書と、 入力された文書について前記慣用句辞書を参照し、前記
    慣用句辞書に登録されている慣用句が文書中に存在した
    場合、当該慣用句を一つの単語として結合する手段と、 前記文書から、前記一つの単語として結合された慣用
    句、それ以外の単語をキーワードとして抽出する手段
    と、 前記抽出されたキーワードと文書IDとを対応づけてイ
    ンデックス辞書に登録する手段と、 を有することを特徴とする検索用インデックス作成装
    置。
  3. 【請求項3】 請求項1記載の慣用句辞書作成装置にて
    作成された慣用句辞書と、 請求項2記載の検索用インデックス作成装置にて作成さ
    れたインデックス辞書と、 入力された検索文について前記慣用句辞書を参照し、前
    記慣用句辞書に登録されている慣用句が検索文中に存在
    した場合、当該慣用句を一つの単語として結合する手段
    と、 前記検索文から、前記一つの単語として結合された慣用
    句、それ以外の単語をキーワードとして抽出する手段
    と、 前記抽出されたキーワードにより前記インデックス辞書
    を参照して所望文書を検索する手段と、 を有することを特徴とする文書検索装置。
  4. 【請求項4】 文書を検索する際に利用するキーワード
    のインデックスとして用いる慣用句を登録する慣用句辞
    書を作成する慣用句辞書作成方法であって、 単語、慣用句とその説明文が記述された辞書から慣用句
    を抽出し、該慣用句と、その説明文を読み出す過程と、 前記抽出された慣用句を構成する各単語について、前記
    辞書からその説明文を読み出す過程と、 前記慣用句の説明文と当該慣用句を構成する各単語の説
    明文をもとに、慣用句を構成する単語の組合せとは異な
    る意味をもつ慣用句を抽出し、該慣用句を慣用句辞書に
    登録する過程と、 を有することを特徴とする慣用句辞書作成方法。
  5. 【請求項5】 請求項4記載の慣用句辞書作成方法にお
    いて、慣用句の説明文中の自立語が、当該慣用句を構成
    する各単語の説明文中に存在しない場合に、当該慣用句
    は該慣用句を構成する単語の組合せとは異なる意味をも
    つ慣用句と見做すことを特徴とする慣用句辞書作成方
    法。
  6. 【請求項6】 請求項4、5記載の慣用句辞書作成方法
    により作成された慣用句辞書を利用して、文書を検索す
    る際に利用するキーワードのインデックスを作成する検
    索用インデックス作成方法であって、 入力された文書について前記慣用句辞書を参照し、前記
    慣用句辞書に登録されている慣用句が文書中に存在した
    場合、当該慣用句を一つの単語として結合する過程と、 前記文書から、前記一つの単語として結合された慣用
    句、それ以外の単語をキーワードとして抽出する過程
    と、 前記抽出されたキーワードと文書IDとを対応づけてイ
    ンデックス辞書に登録する過程と、 を有することを特徴とする検索用インデックス作成方
    法。
  7. 【請求項7】 請求項4、5記載の慣用句辞書作成方法
    にて作成された慣用句辞書と、請求項6記載の検索用イ
    ンデックス作成方法にて作成されたインデックス辞書と
    を使用して文書を検索する文書検索方法であって、 入力された検索文について前記慣用句辞書を参照し、前
    記慣用句辞書に登録されている慣用句が検索文中に存在
    した場合、当該慣用句を一つの単語として結合する過程
    と、 前記検索文から、前記一つの単語として結合された慣用
    句、それ以外の単語をキーワードとして抽出する過程
    と、 前記抽出されたキーワードにより前記インデックス辞書
    を参照して所望文書を検索する過程と、 を有することを特徴とする文書検索方法。
  8. 【請求項8】 請求項4、5記載の慣用句辞書作成方
    法、請求項6記載の検索用インデックス作成方法及び請
    求項7記載の文書検索方法の少なくとも一つあるいは全
    部をコンピュータで実行させるためのプログラム。
  9. 【請求項9】 請求項4、5記載の慣用句辞書作成方
    法、請求項6記載の検索用インデックス作成方法及び請
    求項7記載の文書検索方法の少なくとも一つあるいは全
    部をコンピュータで実行させるためのプログラムを記録
    した記録媒体。
JP2002104978A 2002-04-08 2002-04-08 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 Pending JP2003303194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002104978A JP2003303194A (ja) 2002-04-08 2002-04-08 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002104978A JP2003303194A (ja) 2002-04-08 2002-04-08 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2003303194A true JP2003303194A (ja) 2003-10-24

Family

ID=29389899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002104978A Pending JP2003303194A (ja) 2002-04-08 2002-04-08 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2003303194A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008013593A1 (en) * 2006-07-28 2008-01-31 Microsoft Corporation Language search tool
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US9916307B1 (en) 2016-12-09 2018-03-13 International Business Machines Corporation Dynamic translation of idioms

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
WO2008013593A1 (en) * 2006-07-28 2008-01-31 Microsoft Corporation Language search tool
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
US9916307B1 (en) 2016-12-09 2018-03-13 International Business Machines Corporation Dynamic translation of idioms

Similar Documents

Publication Publication Date Title
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US8494839B2 (en) Apparatus, method, and recording medium for morphological analysis and registering a new compound word
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JPH1145274A (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2960936B2 (ja) 係り受け解析装置
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2536633B2 (ja) 複合語抽出装置
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JP2002278963A (ja) 事例翻訳装置
JP2688020B2 (ja) 派生語処理方式
JP2010140107A (ja) 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
Lee et al. Automatic acquisition of phrasal knowledge for English-Chinese bilingual information retrieval
JP3884001B2 (ja) 言語解析システムおよび方法
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Prakapenka et al. Creation of a Legal Domain Corpus for the Belarusian Module in NooJ: Texts, Dictionaries, Grammars
JPH0320866A (ja) テキストベース検索方式
JP2003271619A (ja) 文書分類及び文書検索システムおよび方法
JPH08241319A (ja) 機械翻訳装置