JPH0773197A - 異表記語辞書作成支援装置 - Google Patents

異表記語辞書作成支援装置

Info

Publication number
JPH0773197A
JPH0773197A JP5218957A JP21895793A JPH0773197A JP H0773197 A JPH0773197 A JP H0773197A JP 5218957 A JP5218957 A JP 5218957A JP 21895793 A JP21895793 A JP 21895793A JP H0773197 A JPH0773197 A JP H0773197A
Authority
JP
Japan
Prior art keywords
different notation
word
notation word
keyword
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5218957A
Other languages
English (en)
Other versions
JP3331692B2 (ja
Inventor
Hide Fuji
秀 富士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP21895793A priority Critical patent/JP3331692B2/ja
Publication of JPH0773197A publication Critical patent/JPH0773197A/ja
Application granted granted Critical
Publication of JP3331692B2 publication Critical patent/JP3331692B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】キーワード検索による情報検索システムにおい
て使用される異表記語辞書の作成を支援する装置に関
し、キーワードインデックスに存在する異表記語を網羅
的にもった異表記語辞書を作成することを目的とする。 【構成】情報検索システムのキーワードインデックスA
から、順にキーワードを取り出して見出し語B とする見
出し語取り出し手段1と、見出し語B と、キーワードイ
ンデックスA 内の各キーワードとを比較して類似度を算
出し、類似度があらかじめ定めた値以上のものを異表記
語C として抽出する異表記語抽出手段2と、見出し語B
と異表記語C とを対応させて登録する辞書登録手段3と
より構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワード検索による
情報検索システムにおいて使用される異表記語辞書の作
成を支援する装置に関する。
【0002】
【従来の技術】キーワード検索による情報検索システム
は、キーワードと情報(文献・文書)とを対応付けて格
納しておき、キーワードから格納情報を検索できるよう
に構成されている。キーワードとそれに対する情報との
対応関係、すなわちキーワードとそのキーワードを内部
にもつ文献・文書の番号のリストとの対応を網羅したも
のがキーワードインデックスである。このような検索シ
ステムでは、検索者の入力キーワードがシステムのもっ
ているキーワード(キーワードインデックスにあるキー
ワード)と完全に一致した場合にしか格納情報を取り出
すことができない。表記に揺れがあると検索者の意図し
た検索が行なわれない場合が起きる。例えば、ある文献
が情報検索システム内では「シュミレーション」という
キーワードに対応付けられている場合、入力キーワード
が「シミュレーション」であると、この文献は検索する
ことができない。このような異表記語による表記の揺れ
に対応できるシステムとして、同義語辞書を備えた情報
検索システムがある。同義語辞書を備えたシステムで
は、異表記語キーワードを事前に元のキーワードの同義
語として登録しておき、検索のさいには異表記語キーワ
ードも一緒に使って検索を行なう。前記の例でいえば、
「シュミレーション」を「シミュレーション」の同義語
キーワードとして登録しておき、「シミュレーション」
という入力に対して「シミュレーション」の他に「シュ
ミレーション」でも検索を行なう。
【0003】同義語辞書は一般的に手作業で見出し語と
同義語(ここでは異表記語)との対応を登録することに
より作成する。
【0004】
【発明が解決しようとする課題】同義語辞書(の一種と
しての異表記語辞書)の作成を手作業によって行なう従
来の方法の場合、どの様な語を見出し語とし、対応する
キーワードを何にするかは作成者に任されていた。従っ
て異表記語をすべて登録するのはかなり困難である。ま
た異表記語辞書の見出し語に対応する異表記語キーワー
ドは、その情報検索システムのキーワードインデックス
に存在するキーワードであるべきである。キーワードイ
ンデックスに存在しないキーワードに対応する文献はそ
のシステムには存在しないから、登録しても意味がない
からである。人手による登録方法ではこれを保証するの
は難しい。異表記語を生成する支援システムも存在す
る。このような支援システムは、手作業で入力された見
出し語に対して文字変換規則を用いて異表記語を生成す
るものである。しかし、このような文字変換規則による
異表記語作成支援システムはエディタ的用途に作られた
もので、キーワード検索用ではなく、異表記語は無関係
に合成されるため、キーワードインデックスに含まれて
いる保証はない。
【0005】本発明は、キーワードインデックス内のキ
ーワード同士の類似性を判断することにより異表記語を
生成するようにした、品質の高い異表記語辞書作成支援
装置を実現することを目的としている。
【0006】
【課題を解決するための手段】図1は本発明の構成図で
ある。キーワードインデックスA は情報検索システムに
おいて、検索のためのキーワードを集めたファイルであ
る。また、本装置の出力である異表記語辞書D は、情報
検索システムにおいて同義語辞書として使用されるべき
ものである。
【0007】第1の発明:情報検索システムのキーワー
ドインデックスA から、順にキーワードを取り出して見
出し語B とする見出し語取り出し手段1と、見出し語B
と、キーワードインデックスA 内の各キーワードとを比
較して類似度を算出し、類似度があらかじめ定めた値以
上のものを異表記語C として抽出する異表記語抽出手段
2と、見出し語B と異表記語C とを対応させて登録する
辞書登録手段3とを設ける。
【0008】第2の発明:第1の発明において、異表記
語抽出手段2は、類似度が高いとして抽出したキーワー
ドの属性が規定の条件を満たす場合に異表記語C とす
る。
【0009】第3の発明:第1の発明または第2の発明
において、異表記語抽出手段2が抽出した異表記語を候
補語として表示画面に表示する異表記語候補提示手段4
と、表示画面に表示された候補語のうち、操作者によっ
て選択されたものを異表記語C として残す異表記語選択
手段5とを設ける。
【0010】第4の発明:第1ないし第3の発明におい
て、異表記語抽出手段2が抽出した異表記語を候補語と
して表示画面に表示する異表記語候補提示手段4と、入
力された新たなキーワードを異表記語C として追加する
異表記語追加手段6とを設ける。
【0011】第5の発明:第4の発明において、異表記
語追加手段6は、新たに入力されたキーワードがキーワ
ードインデックスA に存在するか否かを調べ、ない場合
には、入力されたキーワードを見出し語とし、初めの見
出し語とその他の候補語を異表記語とする。
【0012】
【作用】見出し語取り出し手段1は、キーワードインデ
ックスA にあるキーワードを一つずつ取り出し、見出し
語とする。異表記語抽出手段2は、それに対してキーワ
ードインデックスから類似度の高いキーワードを抽出す
る。辞書登録手段3は、類似度の高いキーワードを異表
記語として見出し語と対応させて登録する。異表記語が
ない場合は見出し語も登録しない。このようにしてキー
ワードインデックスをすべて処理すると自動的に異表記
語辞書D が生成される。
【0013】第2の発明は、類似度の高いキーワードの
内、属性条件の悪いものは除外することにより、異表記
語辞書D の品質を高くする。第3の発明は、自動的に抽
出した類似語を表示装置の画面に表示し、操作者の判断
を入れることができるようにすることにより、異表記語
辞書D の品質を高くする。
【0014】第4の発明は、操作者が異表記語を追加す
ることができるようにすることにより、異表記語辞書D
の品質を高くする。第5の発明は、操作者が異表記語と
して追加したキーワードがキーワードインデックスA に
存在しない場合には、そのキーワードを見出し語とする
ことにより、異表記語辞書D の品質を高くする。
【0015】このように構成することにより、生成した
異表記語辞書D は情報検索システムにおいて有効な同義
語辞書として使用することができる。もともとキーワー
ドインデックスA に存在するキーワード同士の類似度を
判断して異表記語とするため、むだな語が入ることはな
い。
【0016】
【実施例】図1の構成図を参照しながら処理手順を説明
する。 見出し語取り出し手段1はキーワードインデックス
A から取り出したキーワードをバッファにセットする。
これが見出し語B である。 異表記語抽出手段2は、バッファのキーワード(見
出し語)と、キーワードインデックスA のキーワード群
を比較して類似するキーワードを抽出する。
【0017】キーワード同士の類似を判断するには公知
の手段を用いればよい。図2に類似度の算定の説明図を
示す。2つの文字列の類似を判定するには、文字の対応
付けを行い、類似度評価を行って類似度を数値で表現す
る(類似度の算出)。対応付けには、LCS(Longest
Common Subsequence: 最長共通部分文字列) 法や、ヘッ
ケル(Heckel)法などがある。類似度評価は対応付けの終
わった文字列の対に対して、類似度の要素により類似度
を数値化する。類似度の要素として一致文字列長、不一
致文字列長、一致区分数などがある。一致文字列長が長
いほど、不一致文字列長が短いほど類似度は高い。同じ
一致文字列長でも一致区分数が少ないほど類似度は高
い。例えば、各類似度要素に重み係数を乗じて加算した
値を類似度とする。 類似キーワードとして抽出されたものでも、使用頻
度が少ないものや、文字数の違いが大きいものは有効で
ないので削除する。図3に有効キーワードの判定例を示
す。(A)は見出し語「シュミレーション」に対して抽
出された類似キーワードであるが、「スィミレーショ
ン」は出現頻度が1しかない。また「コンフィギュレー
ション」は文字列の長さが違いすぎる。この様な属性条
件をあらかじめ設定しておき、条件を満たすものだけを
残す。この例で属性条件を出現頻度3以上、文字列長差
2以下とすると、(B)に示す「シミュレーション」と
「エミュレーション」が異表記語候補として残る。 異表記語候補提示手段4によって、異表記語候補を
表示装置に表示する。 異表記語選択手段5は、操作者の指示に従って候補
キーワードの内のいくつかを削除する。 異表記語追加手段6は、操作者の指示に従って候補
キーワードを追加する。 また、追加された候補キーワードが、キーワードイ
ンデックスD に存在するか否か調べる。もし存在しなけ
れば、警告を示し、指示があれば、この語と見出し語と
を入れ替える。 辞書登録手段3は、以上のようにして決定した見出
し語と異表記語とを対応させて異表記語辞書のエントリ
とし、異表記語辞書D に登録する。異表記語辞書のエン
トリの例を図4に示す。 以上の処理をキーワードインデックスD の全キーワ
ードに対して行なうことにより、異表記語辞書が完成す
る。
【0018】図5は以上の処理における、〜段階に
おける画面表示例を示したものである。(A)はの異
表記語候補提示手段4によって、異表記語候補を表示装
置に表示した状態である。キーワードバッファから「シ
ュミレーション」というキーワードが取り出され、見出
しとして表示され、見出し語「シュミレーション」に対
して、異表記語候補として「シミュレーション」「シミ
ュレイション」「エミュレーション」が表示されてい
る。画面に表示された異表記語は、全て選択状態になっ
ている(デフォルト設定)。このままでよければ、操作
者はリターンキーを打鍵する等により登録指示を行な
う。もし表示された中に不適当なキーワードがあれば、
非選択の指示を入力してから登録指示を行なう。ここ
で、操作者が「エミュレーション」は「シミュレーショ
ン」の異表記語としては登録したくないとき、非選択を
指示すると、(B)に示すように不適当なキーワードは
削除される。(C)は、操作者が「シミレーション」を
異表記語として思いつき、新たに登録する場合を示す。
入力された新たなキーワードは画面の入力行に示され
る。この入力キーワードはキーワードインデックスに存
在すれば登録対象となる。
【0019】もし、存在しなければ画面上で警告し、操
作者の指示があれば、そのとき表示されている見出し語
と入れ替える。(D)はその指示後の状態を示す。以
上、発明の全てを適用した実施例を説明したが、一部を
適用するのみでもよいことは言うまでもない。また、本
実施例では独立した異表記語辞書作成支援装置として説
明したが、通常は情報検索システムの一部として組み込
まれるべきものである。その場合、異表記語辞書は同義
語辞書の一部を成すものとなる。
【0020】
【発明の効果】以上説明したように、本発明によれば異
表記語を網羅的にもった異表記語辞書を作成することが
できる。しかもその異表記語は必ずキーワードインデッ
クスに存在するものであるので、むだなキーワードを含
まない。従ってキーワード検索に適した品質の高い異表
記語辞書を作ることができる。
【図面の簡単な説明】
【図1】本発明の構成図である。
【図2】類似度の算定の説明図である。
【図3】有効キーワード判定の説明図である。
【図4】異表記語辞書エントリの例を示す図である。
【図5】実施例の操作を説明する画面表示の例を示す図
である。
【符号の説明】
1 見出し語取り出し手段 2 異表記語抽出手段 3 辞書登録手段 4 異表記語候補提示手段 5 異表記語選択手段 6 異表記語追加手段 A キーワードインデックス B 見出し
語 C 異表記語 D 異表記
語辞書
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 17/21 7315−5L G06F 15/20 550 K 7315−5L 570 N

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 情報検索システムのキーワードインデッ
    クス(A) から、順にキーワードを取り出して見出し語
    (B) とする見出し語取り出し手段(1)と、 見出し語(B) と、キーワードインデックス(A) 内の各キ
    ーワードとを比較して類似度を算出し、類似度があらか
    じめ定めた値以上のものを異表記語(C) として抽出する
    異表記語抽出手段(2)と、 見出し語(B) と異表記語(C) とを対応させて登録する辞
    書登録手段(3)とより成る異表記語辞書作成支援装
    置。
  2. 【請求項2】 異表記語抽出手段(2)は、類似度が高
    いとして抽出したキーワードの属性が規定の条件を満た
    す場合に異表記語(C) とすることを特徴とする請求項1
    に記載の異表記語辞書作成支援装置。
  3. 【請求項3】 異表記語抽出手段(2)が抽出した異表
    記語を候補語として表示画面に表示する異表記語候補提
    示手段(4)と、 表示画面に表示された候補語のうち、操作者によって選
    択されたものを異表記語(C) として残す異表記語選択手
    段(5)とを設けたことを特徴とする請求項1または請
    求項2に記載の異表記語辞書作成支援装置。
  4. 【請求項4】 異表記語抽出手段(2)が抽出した異表
    記語を候補語として表示画面に表示する異表記語候補提
    示手段(4)と、 入力された新たなキーワードを異表記語(C) として追加
    する異表記語追加手段(6)とを設けたことを特徴とす
    る請求項1ないし請求項3に記載の異表記語辞書作成支
    援装置。
  5. 【請求項5】 異表記語追加手段(6)は、新たに入力
    されたキーワードがキーワードインデックス(A) に存在
    するか否かを調べ、ない場合には、入力されたキーワー
    ドを見出し語とし、初めの見出し語とその他の候補語を
    異表記語とすることを特徴とする請求項4に記載の異表
    記語辞書作成支援装置。
JP21895793A 1993-09-03 1993-09-03 異表記語辞書作成支援装置 Expired - Fee Related JP3331692B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21895793A JP3331692B2 (ja) 1993-09-03 1993-09-03 異表記語辞書作成支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21895793A JP3331692B2 (ja) 1993-09-03 1993-09-03 異表記語辞書作成支援装置

Publications (2)

Publication Number Publication Date
JPH0773197A true JPH0773197A (ja) 1995-03-17
JP3331692B2 JP3331692B2 (ja) 2002-10-07

Family

ID=16727998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21895793A Expired - Fee Related JP3331692B2 (ja) 1993-09-03 1993-09-03 異表記語辞書作成支援装置

Country Status (1)

Country Link
JP (1) JP3331692B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JP2002366567A (ja) * 2001-06-13 2002-12-20 Hitachi Ltd 代替キーワードのフリー設定による検索システム
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP2006221532A (ja) * 2005-02-14 2006-08-24 Nec Corp 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム
JP2009015417A (ja) * 2007-07-02 2009-01-22 Hitachi Ltd 類似語判断補助装置及び類似語判断補助方法
JP2010257417A (ja) * 2009-04-28 2010-11-11 Pioneer Electronic Corp 表示制御装置、表示制御方法、表示制御プログラムおよび記録媒体
JP2012022354A (ja) * 2010-07-12 2012-02-02 Fujitsu Ltd 略称検索装置,方法およびプログラム,ならびに略称検索機能を備えるデータパース装置
US8509602B2 (en) 2004-08-05 2013-08-13 Sony Corporation Recording control apparatus and method, and program
JP2016139164A (ja) * 2015-01-26 2016-08-04 日本電気株式会社 表記揺れ辞書作成支援装置、表記揺れ辞書作成支援方法、及び表記揺れ辞書作成支援プログラム
JP2020004005A (ja) * 2018-06-27 2020-01-09 Nttテクノクロス株式会社 管理装置、管理方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法
JPH0439769A (ja) * 1990-06-06 1992-02-10 Nippon Telegr & Teleph Corp <Ntt> シソーラス生成装置
JPH04123264A (ja) * 1990-09-14 1992-04-23 Hitachi Ltd 関連語テーブル作成装置及び文書検索装置
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法
JPH0439769A (ja) * 1990-06-06 1992-02-10 Nippon Telegr & Teleph Corp <Ntt> シソーラス生成装置
JPH04123264A (ja) * 1990-09-14 1992-04-23 Hitachi Ltd 関連語テーブル作成装置及び文書検索装置
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JP2002366567A (ja) * 2001-06-13 2002-12-20 Hitachi Ltd 代替キーワードのフリー設定による検索システム
JP4617608B2 (ja) * 2001-06-13 2011-01-26 株式会社日立製作所 代替キーワードのフリー設定による検索システム
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
US8509602B2 (en) 2004-08-05 2013-08-13 Sony Corporation Recording control apparatus and method, and program
JP2006221532A (ja) * 2005-02-14 2006-08-24 Nec Corp 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム
JP2009015417A (ja) * 2007-07-02 2009-01-22 Hitachi Ltd 類似語判断補助装置及び類似語判断補助方法
JP2010257417A (ja) * 2009-04-28 2010-11-11 Pioneer Electronic Corp 表示制御装置、表示制御方法、表示制御プログラムおよび記録媒体
JP2012022354A (ja) * 2010-07-12 2012-02-02 Fujitsu Ltd 略称検索装置,方法およびプログラム,ならびに略称検索機能を備えるデータパース装置
JP2016139164A (ja) * 2015-01-26 2016-08-04 日本電気株式会社 表記揺れ辞書作成支援装置、表記揺れ辞書作成支援方法、及び表記揺れ辞書作成支援プログラム
JP2020004005A (ja) * 2018-06-27 2020-01-09 Nttテクノクロス株式会社 管理装置、管理方法及びプログラム

Also Published As

Publication number Publication date
JP3331692B2 (ja) 2002-10-07

Similar Documents

Publication Publication Date Title
JP3132738B2 (ja) テキスト検索方法
US6496820B1 (en) Method and search method for structured documents
JP3691844B2 (ja) 文書処理方法
JPH06131398A (ja) 複数の文書検索方法
US10140297B2 (en) Supplementing search results with information of interest
JPH03172966A (ja) 類似文書検索装置
US6505198B2 (en) Sort system for text retrieval
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3331692B2 (ja) 異表記語辞書作成支援装置
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JPH06314296A (ja) 情報検索システム
JPH0844771A (ja) 情報検索装置
JP2005107931A (ja) 画像検索装置
JPH07325834A (ja) 検索装置
JP3558267B2 (ja) 文書検索装置
JP3249743B2 (ja) 文書検索システム
JP4024906B2 (ja) タグ付文書検索システム
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH08235204A (ja) 文書検索方法及び装置
JP3389285B2 (ja) 固有名詞特定方法
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020625

LAPS Cancellation because of no payment of annual fees