JPH03194653A - 情報検索システムにおける略語検索法 - Google Patents

情報検索システムにおける略語検索法

Info

Publication number
JPH03194653A
JPH03194653A JP1332591A JP33259189A JPH03194653A JP H03194653 A JPH03194653 A JP H03194653A JP 1332591 A JP1332591 A JP 1332591A JP 33259189 A JP33259189 A JP 33259189A JP H03194653 A JPH03194653 A JP H03194653A
Authority
JP
Japan
Prior art keywords
index
character
characters
data
gai
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1332591A
Other languages
English (en)
Other versions
JPH0576068B2 (ja
Inventor
Mikizo Kasugai
春日井 幹三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOKAI TV HOSO KK
Original Assignee
TOKAI TV HOSO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOKAI TV HOSO KK filed Critical TOKAI TV HOSO KK
Priority to JP1332591A priority Critical patent/JPH03194653A/ja
Publication of JPH03194653A publication Critical patent/JPH03194653A/ja
Publication of JPH0576068B2 publication Critical patent/JPH0576068B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は日本語等による多量の文字情報から成るデータ
ベースの中から検索条件に適合するデータを検索する情
報検索システムに関し、特に漢字等の略語による検索を
自動的に容易に行う方法に関する。
(従来の技術) 従来の情報検索システムでは、例えば「国際通貨基金」
の同意語としてのrIMFJ等を登録するときには、別
に同意語ファイルを設けて登録している。
また1例えば「東京外国語大学」の漢字略語としてのr
東外大」等も、本来の同意語と区別せずに、前述の同意
語ファイルに登録するが、あるいは、漢字略語r東外大
」を含むデータに、既にシソーラスに登録しである「東
京外国語大学」のようなフルネームを添加している。
3、発明の詳細な説明 (発明が解決しようとする課題) このような従来方式においては、漢字略語を含むデータ
の登録時に、同意語ファイルへの登録を怠れば検索され
ないため、多様な漢字略語を、すべて事前に登録してお
かなければならない0例えば「東京外国語大学」の略語
としては、[東京外語大J 「東京外大」 「東外大」
等が用いられているが、これらのすべてを事前に同意語
ファイルに登録しておくか、あるいはシソーラスに登録
しである「東京外国語大学」のようなフルネームを添加
しなければならず、いずれにしても登録作業に手間がか
かるという問題点がある。
(課題を解決するための手段および作用)本発明は、前
述した課題を解決するための手段として、 情報検索システムにおいて、データ登録時には、該デー
タ中に含まれる各文字についての文字索引と、連続する
2文字から成る直接連語、及び間に挟まれる1字あるい
は2字の文字を省略して組み合わされる2文字から成る
間接連語についての連語索引とを作成しておき、データ
検索時には、検索条件として指定された文字列中に含ま
れる各文字と前記直接連語を抽出し、これにより前記文
字索引と連語索引とを検索することにより、前記検索条
件の文字列を含むデータ及び、前記文字列を略語とする
可能性のある文字列を含むデータを同時に得ることを特
徴とする情報検索システムにおける略語検索法を提供す
るものである。
本発明の方式によれば、データ登録時に自動的に、デー
タに含まれている各文字に関する文字索引と、直接連語
に関する連語索引を登録するだけでなく、新たに、間接
連語に関する連語索引を設けることによって、日本語に
多い中間文字省略型の略語を同意語ファイルに登録する
必要がなくなる。
また、新たに付加される間接連語に関する索引を用いる
ことにより、通常の文字列の検索時にもより精度の高い
検索が可能になる。
(実施例) 次に本発明の実施例について図面を参照して説明する。
なお1文字索引の作り方に関しては、 特願昭61−055683  r日本語情報検索システ
ム」、また連語索引の作り方に関しては。
特願平1−263067 r情報検索システムにおける
連語索引を用いた検索法」 を参照されたい、ただし、それらはあくまで1つの例で
あって、本発明の論理は索引の作り方に左右されるもの
ではない。
また、連語索引を実事例に適用する場合には、主として
索引の数を押さえんがために、さまざまの工夫がなされ
るのであるが、ここでは、論理を明らかにするために、
連語索引としては、連続している2文字を扱う直接連語
索引と、間に挟まれる1字あるいは2字を省略して組み
合わされる2文字を扱う間接連語索引の2種類が存在し
ているとして説明する。
第1図は、例としてデータ「東京外国語大学」をとりあ
げて本実施例におけるデータ格納時の索引登録の様子を
説明するためのものである。
いま、データ「東京外国語大学」が入力され、データ番
号Xを付与されてデータ部(不図示)に格納されたとす
る。
このとき、データに含まれているすべての文字すなわち
r東/京/外/国/語/大/学」の7種が抽出され1文
字索引の該当するキーの該当するデータ番号指定ビット
がオンとされて、文字索引への登録が行われる (第1
図(a))。
なお、前述した様に、本発明においては、データ番号指
定ビット等の索引の作り方に関しては重要ではないため
、詳述は略す、第1図では点線で囲まれた文字が、上述
の様にして索引に登録されたことを示している。
つづいて、すべての連続する文字と文字の組み合わせ、
すなわち、[東京/車外/外国/国語/語大/大学」の
6種の直接連語が抽出され、直接連語索引の該当するキ
ーの該当するデータ番号指定ビットがオンとされて、直
接連語索引への登録が行われるC第1図(b))。
次に、間に挟まっている1字を省略してできる文字と文
字の組み合わせ、すなわち、「案外/京国/外語/国大
/語学」の5種、および、間に挟まっている2字を省略
してできる組み合わせ、すなわち、「東国/京語/外大
/国学」の4種、計9種の間接連語が抽出され、間接連
語索引の該当するキーの該当するデータ番号指定ビット
がオンとされて、間接連語索引への登録が行われる (
第1図(c))。
このように、本発明の方法によれば、「東京外国語大学
」の漢字略語として「案外」・「外語」  「外大」な
どが連語索引に自動的に登録され、従来のように同意語
ファイルにこれらの漢字略語を登録する手間がかからな
(なる。
次に第2図は、例として漢字略語r案外大」をとりあげ
て、本実施例における検索時の動作を説明するための図
である。
「東京外国語大学」は、このフルネームの他にも、「東
京外国語大/東京外語大学/東京外語大/東京外大/東
外大」なとの略称でも呼ばれるため、多量のデータが格
納されている日本語データベースの中にはこれらの表記
法が混在している可能性があり、しかも、検索利用者は
前もってそれを知ることができないのが通常である。
いま、これらのうちのどの表記法がしてあっても検索す
ることを目的として、検索条件として、文字列「案外大
」が入力されたとする。
文字列「案外大」が入力されると、まず、検索対象であ
る全体集合のビット列と、r東」 「外」「大」という
3種の文字索引のビット列の間で論理積演算が行われ、
これらの3文字を含んでいる集合が得られる。
次に1文字列「案外大」から、「案外」と「外大」とい
う2種の直接連語が抽出される (第2図(a))ので
あるが、いま、「案外/東ロ外/東ロロ外」 (口は任
意の漢字を示す)のいずれをも含んでいないデータの集
合は、先に述べた連語索引への登録法から明らかなよう
に、 NOT (直接連語[案外J OB  間接連語1束外
」)である。
また同様に、「外大/外ロ大/外ロロ大」のいずれをも
含んでいないデータの集合は。
NOT (直接連語「外大J OR間接連語「外大」)
であるから、先に文字索引を使って得た集合からこれら
の集合を差し引くことによって得られる集合は5 「東
京外国語大学/東京外語大学/東京外国語大/東京外語
大/東京外大/東外大」のいずれかの表記がされている
データをすべて含んでいることは明らかである。
以上の論理演算式を改めて示せば、 全体集合 AND  文字「東」 AND  文字「外」 AND  文字「大」 AND (直接連語「案外J OR間接連語「案外」)
AND (直接連語「外大J OB  間接連語「外大
」)となる (第2図(b))。
第3図は、「東京外国語大学」を意味する各種の表記法
がなされた時に、どういう索引が作成されるかを具体的
に示したものである。この表からも、文字列「案外大」
による略語検索が指示された時に、どのように表記され
ていても、「東/外/大」という3種の文字索引と「案
外/外大」という2種の連語索引が作成されること、し
たがって、どのように表記されていても検索されること
は明らかである。
ただし、これら以外のデータがすべて排除される保証は
なく、例えば、「関東地区外国人大会」という文字列を
含むデータも集合に含まれている。しかし、検索利用者
にとっては余計なデータは読みとばせば良く、必要なデ
ータが漏れないことのほうが大切なことは言うまでもな
い。
なお、このように直接連語について索引を作成するだけ
でなく、間接連語についても索引を作成することは、単
に略語検索のためばかりでなく。
本来の文字列検索のためにも極めて有効である。
例えば、文字列「案外大」を含むデータを検索しようと
するとき、その論理演算式は、全体集合 AND  文字「東」 AND  文字「外」 AND  文字r大」 AND  直接連語「案外」 AND  直接連語「外大」 AND  間接連語「東大」 となり、最後の1行の「東大」を追加することによって
、偶然「案外」と「外大」という2つの文字列を互いに
無関係のものとして含んでいるデータが存在する場合に
、これを排除することが可能となる。
次に、間接連語索引という場合に、なぜ、間に挟まる文
字を1字あるいは2字に限定するかであるが、これは通
常の日本語の文章の中で使用される漢字は、多くても3
字までで有意味の単位になることがほとんどであるとい
う性質を考慮してのことである。地名を例にとれば、都
道府県名では「北海道」 「神奈川」 「和歌山」 「
鹿児島」の4つが3文字、他は2文字である。また、都
市名でも3文字までがほとんどで、4文字は16市ある
が、その多くは、「会津若松」 「近江八幡」のように
国名中地名に分解可能な構造になっていて、4字で有意
味になるのは「五所川原」と「八日市場」ぐらいである
、これらの例からも、意味単位が4字以上になることは
稀であると言えるので、略語検索のためには、間に挟ま
る文字を1字あるいは2字に限定することが妥当である
。これ以上にすると、例えば「東大」から「東京工業大
学」が検索されてしまうし、これ以下では「北天」から
「北海道大学」が検索されなくなってしまう。
なお、以上の説明は、日本語情報検索システムにおける
漢字略語による検索法として行っているが、カタカナの
場合も有効であるし、中国語にはいっそう適している。
(発明の効果) 本発明によれば、従来方式におけるように、データ格納
時に、データに含まれているすべての漢字略語を調べて
、それを同意語ファイルに登録する手間や、あるいはシ
ソーラスに収録しであるフルネームをキーワードとして
添加するなどの処理は必要でなくなるため、処理速度の
向上や省力化を行うことができる。
また、略語検索のために作成される間接連語索引は、通
常の文字列検索の論理演算にも利用でき、精度を一層高
めることができるという効果がある。
ざまな表記がなされているデータについて、それぞれど
ういうキーの索引が作成されるか、また、r案外大」と
いう検索条件による略語検索に際して、それらの表記法
のすべてが検索されることを示す図。
【図面の簡単な説明】
第1図は1本発明の一実施例として、「東京外国語大学
」というデータが格納されるとき、どういうキーの索引
が作成されるかを示す図。 第2図は、本発明の一実施例として、「東京外国語大学
」を意味するさまざまな表記がなされているデータを検
索する目的で、文字列r案外大」が入力されたときに、
どういうキーの索引が参照されるか、及び、検索対象で
ある全体集合のビット列と、検索条件の文字列から抽出
されたキーの索引のビット列の間で行われる論理演算式
を示す図。

Claims (1)

    【特許請求の範囲】
  1.  情報検索システムにおいて、データ登録時には、該デ
    ータ中に含まれる各文字についての文字索引と、連続す
    る2文字から成る直接連語、及び間に挟まれる1字ある
    いは2字の文字を省略して組み合わされる2文字から成
    る間接連語についての連語索引とを作成しておき、デー
    タ検索時には、検索条件として指定された文字列中に含
    まれる各文字と前記直接連語を抽出し、これにより前記
    文字索引と連語索引とを検索することにより、前記検索
    条件の文字列を含むデータ及び、前記文字列を略語とす
    る可能性のある文字列を含むデータを同時に得ることを
    特徴とする情報検索システムにおける略語検索法。
JP1332591A 1989-12-25 1989-12-25 情報検索システムにおける略語検索法 Granted JPH03194653A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1332591A JPH03194653A (ja) 1989-12-25 1989-12-25 情報検索システムにおける略語検索法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1332591A JPH03194653A (ja) 1989-12-25 1989-12-25 情報検索システムにおける略語検索法

Publications (2)

Publication Number Publication Date
JPH03194653A true JPH03194653A (ja) 1991-08-26
JPH0576068B2 JPH0576068B2 (ja) 1993-10-21

Family

ID=18256651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1332591A Granted JPH03194653A (ja) 1989-12-25 1989-12-25 情報検索システムにおける略語検索法

Country Status (1)

Country Link
JP (1) JPH03194653A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063205A (ja) * 2000-05-27 2002-02-28 Lg Electronics Inc ユーザ嗜好度情報と内容描写情報とを効率的に比較演算するための対象データのマッピング装置及びその方法
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
WO2011104754A1 (ja) * 2010-02-24 2011-09-01 三菱電機株式会社 検索装置及び検索プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091850A1 (en) 1992-10-23 2002-07-11 Cybex Corporation System and method for remote monitoring and operation of personal computers

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063205A (ja) * 2000-05-27 2002-02-28 Lg Electronics Inc ユーザ嗜好度情報と内容描写情報とを効率的に比較演算するための対象データのマッピング装置及びその方法
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
WO2011104754A1 (ja) * 2010-02-24 2011-09-01 三菱電機株式会社 検索装置及び検索プログラム
JP5449521B2 (ja) * 2010-02-24 2014-03-19 三菱電機株式会社 検索装置及び検索プログラム
US8914385B2 (en) 2010-02-24 2014-12-16 Mitsubishi Electric Corporation Search device and search program

Also Published As

Publication number Publication date
JPH0576068B2 (ja) 1993-10-21

Similar Documents

Publication Publication Date Title
US6952691B2 (en) Method and system for searching a multi-lingual database
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
Uma et al. Formation of SQL from natural language query using NLP
US7856598B2 (en) Spelling correction with liaoalphagrams and inverted index
WO2003065248A2 (en) Retrieving matching documents by queries in any national language
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
CN100498773C (zh) 用于索引和检索文档的方法、计算机程序及数据载体
JPH03194653A (ja) 情報検索システムにおける略語検索法
JPH05250416A (ja) データベースの登録・検索装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP4024906B2 (ja) タグ付文書検索システム
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP2778025B2 (ja) 共起関係辞書の学習方法
JP3187671B2 (ja) 電子辞書表示装置
JP4588417B2 (ja) 翻訳装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH0612451A (ja) 例文検索システム
Papakitsos et al. Modelling a Morpheme‐based Lexicon for Modern Greek
JP3431618B2 (ja) データ検索装置および検索方法
JP3093759B2 (ja) 日本語解析装置
JPH04123264A (ja) 関連語テーブル作成装置及び文書検索装置
Olle et al. A solution to the ASIS file management exercise using RCA's UL/1
JP3058275B1 (ja) 検索装置
JPH0969113A (ja) 文書管理方式
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees