JPH0576068B2 - - Google Patents

Info

Publication number
JPH0576068B2
JPH0576068B2 JP1332591A JP33259189A JPH0576068B2 JP H0576068 B2 JPH0576068 B2 JP H0576068B2 JP 1332591 A JP1332591 A JP 1332591A JP 33259189 A JP33259189 A JP 33259189A JP H0576068 B2 JPH0576068 B2 JP H0576068B2
Authority
JP
Japan
Prior art keywords
index
character
data
collocation
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1332591A
Other languages
English (en)
Other versions
JPH03194653A (ja
Inventor
Mikizo Kasugai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokai Television Broadcasting Co Ltd
Original Assignee
Tokai Television Broadcasting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokai Television Broadcasting Co Ltd filed Critical Tokai Television Broadcasting Co Ltd
Priority to JP1332591A priority Critical patent/JPH03194653A/ja
Publication of JPH03194653A publication Critical patent/JPH03194653A/ja
Publication of JPH0576068B2 publication Critical patent/JPH0576068B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は日本語等による多量の文字情報から成
るデータベースの中から検索条件に適合するデー
タを検索する情報検索システムに関し、特に漢字
等の略語による検索を自動的に容易に行う方法に
関する。
(従来の技術) 従来の情報検索システムでは、例えば「国際通
貨基金」の同意語としての「IMF」等を登録す
るときには、別に同意語フアイルを設けて登録し
ている。
また、例えば「東京外国語大学」の漢字略語と
しての「東外大」等も、本来の同意語と区別せず
に、前述の同意語フアイルに登録するか、あるい
は、漢字略語「東外大」を含むデータに、既にシ
ソーラスに登録してある「東京外国語大学」のよ
うなフルネームを添加している。
(発明が解決しようとする課題) このような従来方式においては、漢字略語を含
むデータの登録時に、同意語フアイルへの登録を
怠れば検索されないため、多様な漢字略語を、す
べて事前に登録しておかなければならない。例え
ば「東京外国語大学」の略語としては、「東京外
語大」「東京外大」「東外大」等が用いられている
が、これらのすべてを事前に同意語フアイルに登
録しておくか、あるいはシソーラスに登録してあ
る「東京外国語大学」のようなフルネームを添加
しなければならず、いずれにしても登録作業に手
間がかかるという問題点がある。
(課題を解決するための手段および作用) 本発明は、前述した課題を解決するための手段
として、 情報検索システムにおいて、データ登録時に
は、該データ中に含まれる各文字についての文字
索引と、連続する2文字から成る直接連語、及び
間に挟まれる1字あるいは2字の文字を省略して
組み合わされる2文字から成る間接連語について
の連語索引とを作成しておき、データ検索時に
は、検索条件として指定された文字列中に含まれ
る各文字と前記直接連語を抽出し、これにより前
記文字索引と連語索引とを検索することにより、
前記検索条件の文字列を含むデータ及び、前記文
字列を略語とする可能性のある文字列を含むデー
タを同時に得ることを特徴とする情報検索システ
ムにおける略語検索法を提供するものである。
本発明の方式によれば、データ登録時に自動的
に、データに含まれている各文字に関する文字索
引と、直接連語に関する連語索引を登録するだけ
でなく、新たに、間接連語に関する連語索引を設
けることによつて、日本語に多い中間文字省略型
の略語を同意語フアイルに登録する必要がなくな
る。
また、新たに付加される間接連語に関する索引
を用いることにより、通常の文字列の検索時にも
より精度の高い検索が可能になる。
(実施例) 次に本発明の実施例について図面を参照して説
明する。
なお、文字索引の作り方に関しては、特願昭61
−055683(特開昭62−211728号)「日本語情報検索
システム」、 また連語索引の作り方に関しては、特願平1−
263067(特開平3−125263号)「情報検索システム
における連語索引を用いた検索法」 を参照されたい。ただし、それらはあくまで1つ
の例であつて、本発明の論理は索引の作り方に左
右されるものではない。
また、連語索引を実事例に適用する場合には、
主としての索引の数を押さえんがために、さまざ
まの工夫がなされるのであるが、ここでは、論理
を明らかにするために、連語索引としては、連続
している2文字を扱う直接連語索引と、間に挟ま
れる1字あるいは2字を省略して組み合わされる
2文字を扱う間接連語索引の2種類が存在してい
るとして説明する。
第1図は、例としてデータ「東京外国語大学」
をとりあげて本実施例におけるデータ格納時の索
引登録の様子を説明するためのものである。
いま、データ「東京外国語大学」が入力され、
データ番号xを付与されてデータ部(不図示)に
格納されたとする。
このとき、データに含まれているすべての文字
すなわち「東/京/外/国/語/大/学」の7種
が抽出され、文字索引の該当するキーの該当する
データ番号指定ビツトがオンとされて、文字索引
への登録が行われる(第1図a)。
なお、前述した様に、本発明においては、デー
タ番号指定ビツト等の索引の作り方に関しては重
要ではないため、詳述は略す。第1図では点線で
囲まれた文字が、上述の様にして索引に登録され
たことを示している。
つづいて、すべての連続する文字と文字の組み
合わせ、すなわち、「東京/京外/外国/国語/
語大/大学」の6種の直列連語が抽出され、直接
連語索引の該当するキーの該当するデータ番号指
定ビツトがオンとされて、直接連語索引への登録
が行われる(第1図b)。
次に、間に挟まつている1字を省略してできる
文字と文字の組み合わせ、すなわち、「東外/京
国/外語/国大/語学」の5種、および、間に挟
まつている2字を省略してできる組み合わせ、す
なち、「東国/京語/外大/国学」の4種、計9
種の間接連語が抽出され、間接連語索引の該当す
るキーの該当するデータ番号指定ビツトがオンと
されて、間接連語索引への登録が行われる(第1
図c)。
このように、本発明の方法によれば、「東京外
国語大学」の漢字略語として「東外」・「外語」・
「外大」などが連語索引に自動的に登録され、従
来のように同意語フアイルにこれらの漢字略語を
登録する手間がかからなくなる。
次に第2図は、例として漢字略語「東外大」を
とりあげて、本実施例における検索時の動作をを
説明するための図である。
「東京外国語大学」は、このフルネームの他に
も、「東京外国語大/東京外語大学・東京外語
大/東京外大/東外大」などの略称でも呼ばれる
ため、多量のデータが格納されている日本語デー
タベースの中にはこれらの表記法が混在している
可能性があり、しかも、検索利用者は前もつてそ
れを知ることができないのが通常である。
いま、これらのうちのどの表記法がしてあつて
も検索することを目的として、検索条件として、
文字列「東外大」が入力されたとする。
文字列「東外大」が入力されると、まず、検索
対象である全体集合のビツト列と、「東」「外」
「大」という3種の文字索引のビツト列の間で論
理積演算が行われ、これらの3文字を含んでいる
集合が得られる。
次に、文字列「東外大」から、「東外」と「外
大」という2種の直接連語が抽出される(第2図
a)のであるが、いま、「東外/東□外/東□□
外」(□は任意の漢字を示す)のいずれをも含ん
でいないデータの集合に、先に述べた連語索引へ
の登録法から明らかなように、 NOT(直接連語「東外」OR間接連語「東外」)
である。
また同様に、「外大/外□大/外□□大」のい
ずれをも含んでいないデータの集合は、 NOT(直接連語「外大」OR間接連語「外大」)
であるから、先に文字索引を使つて得た集合から
これらの集合を差し引くことによつて得られる集
合は、「東京外国語大学/東京外語大学/東京外
国語大/東京外語大/東京外大/東外大」のいず
れかの表記がされているデータをすべて含んでい
ることは明らかである。
以上の論理演算式を改めて示せば、 全体集合 AND 文字「東」 AND 文字「外」 AND 文字「大」 AND(直接連語「東大」OR間接連語「東大」) AND(直接連語「外大」OR間接連語「外大」) となる(第2図b)。
第3図は、「東京外国語大学」を意味する各種
の表記法がなされた時に、どういう索引が作成さ
れるかを具体的に示したものである。この表から
も、文字列「東外大」による略語検索が指定され
た時に、どのように表記されていても、「東/
外/大」という3種の文字索引と「東外/外大」
という2種の連語索引が作成されること、したが
つて、どのように表記されていても検索されるこ
とは明らかである。
ただし、これら以外のデータがすべて削除され
る保証はなく、例えば、「関東地区外国人大会」
という文字列を含むデータも集合に含まれてい
る。しかし、検索利用者にとつては余計なデータ
は読みとばせば良く、必要なデータが漏れないこ
とのほうが大切なことは言うまでもない。
なお、このように直接連語について索引を作成
するだけでなく、間接連語についても索引を作成
することは、単に略語検索のためばかりでなく、
本来の文字列検索のためにも極めて有効である。
例えば、文字列「東外大」を含むデータを検索
しようとするとき、その論理演算式は、 全体集合 AND 文字「東」 AND 文字「外」 AND 文字「大」 AND 直接連語「東大」 AND 直接連語「外大」 AND 間接連語「東大」 となり、最後の1行の「東大」を追加することに
よつて、偶然「東外」と「外大」という2つの文
字列を互いに無関係のものとして含んでいるデー
タが存在する場合に、これを削除することが可能
となる。
次に、間接連語索引という場合に、なぜ、間に
挟まる文字を1字あるいは2字に限定するかであ
るが、これは通常の日本語の文章の中で使用され
る漢字は、多くても3字までで有意味の単位にな
ることがほとんどであるという性質を考慮しての
ことである。地名を例にとれば、都道府県名では
「北海道」「神奈川」「和歌山」「鹿児島」の4つが
3文字、他は2文字である。また、都市名でも3
文字までがほとんどで、4文字は16市あるいが、
その多くは、「会津若松」「近江八幡」のように国
名+地名に分解可能な構造になつていて、4字で
有意味になるのは「五所川原」と「八日市場」ぐ
らいである。これらの例からも、意味単位が4字
以上になることは稀であると言えるので、略語検
索のためには、間に挟まる文字を1字あるいは2
字に限定することが妥当である。これ以上にする
と、例えば「東大」から「東京工業大学」が検索
されてしまうし、これ以下では、「北大」から
「北海道大学」が検索されなくなつてしまう。
なお、以上の説明は、日本語情報検索システム
における漢字略語による検索法として行つている
が、カタカナの場合も有効であるし、中国語には
いつそう適している。
(発明の効果) 本発明によれば、従来方式におけるように、デ
ータ格納時に、データに含まれているすべての漢
字略語を調べて、それを同意語フアイルに登録す
る手間や、あるいはシソーラスに収録してあるフ
ルネームをキーワードとして添加するなどの処理
は必要でなくなるため、処理速度の向上や省力化
を行うことができる。
また、略語検索のために作成される間接連語索
引は、通常の文字列検索の論理演算にも利用で
き、精度を一層高めることができるという効果が
ある。
【図面の簡単な説明】
第1図は、本発明の一実施例として、「東京外
国語大学」というデータが格納されるとき、どう
いうキーの索引が作成されるかを示す図。第2図
は、本発明の一実施例として、「東京外国語大学」
を意味するさまざまな表記がなされているデータ
を検索する目的で、文字列「東外大」が入力され
たときに、どういうキーの索引が参照されるか、
及び、検索対象である全体集合のビツト列と、検
索条件の文字列から抽出されたキーの索引のビツ
ト列の間で行われる論理演算式を示す図。第3図
は、「東京外国語大学」を意味するさまざまな表
記がなされているデータについて、それぞれどう
いうキーの索引が作成されるか、また、「東外大」
という検索条件による略語検索に際して、それら
の表記法のすべてが検索されることを示す図。

Claims (1)

  1. 【特許請求の範囲】 1 情報検索システムにおいて、 データ登録時には、該データ中に含まれる各文
    字についての文字索引と、連続する2文字から成
    る直接連語、及び間に挟まれる1字あるいは2字
    の文字を省略して組み合わされる2文字から成る
    間接連語についての連語索引とを作成しておき、 データ検索時には、検索条件として指定された
    文字列中に含まれる各文字と前記直接連語を抽出
    し、これにより前記文字索引と連語索引とを検索
    することにより、前記検索条件の文字列を含むデ
    ータ及び、前記文字列を略語とする可能性のある
    文字列を含むデータを同時に得ることを特徴とす
    る情報検索システムにおける略語検索法。
JP1332591A 1989-12-25 1989-12-25 情報検索システムにおける略語検索法 Granted JPH03194653A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1332591A JPH03194653A (ja) 1989-12-25 1989-12-25 情報検索システムにおける略語検索法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1332591A JPH03194653A (ja) 1989-12-25 1989-12-25 情報検索システムにおける略語検索法

Publications (2)

Publication Number Publication Date
JPH03194653A JPH03194653A (ja) 1991-08-26
JPH0576068B2 true JPH0576068B2 (ja) 1993-10-21

Family

ID=18256651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1332591A Granted JPH03194653A (ja) 1989-12-25 1989-12-25 情報検索システムにおける略語検索法

Country Status (1)

Country Link
JP (1) JPH03194653A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE44814E1 (en) 1992-10-23 2014-03-18 Avocent Huntsville Corporation System and method for remote monitoring and operation of personal computers

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100387965B1 (ko) * 2000-05-27 2003-06-18 엘지전자 주식회사 사용자 적응적 멀티미디어 서비스 시스템
AU2003277587A1 (en) * 2002-11-11 2004-06-03 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation device and speech recognition device
US8914385B2 (en) 2010-02-24 2014-12-16 Mitsubishi Electric Corporation Search device and search program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE44814E1 (en) 1992-10-23 2014-03-18 Avocent Huntsville Corporation System and method for remote monitoring and operation of personal computers

Also Published As

Publication number Publication date
JPH03194653A (ja) 1991-08-26

Similar Documents

Publication Publication Date Title
ES2214535T3 (es) Procedimiento y sistema portatil de indexacion de documentos utilizando la descomposicion de palabras en n-grams.
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
Uma et al. Formation of SQL from natural language query using NLP
US5835912A (en) Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
US20030149686A1 (en) Method and system for searching a multi-lingual database
US20070078880A1 (en) Method and framework to support indexing and searching taxonomies in large scale full text indexes
EP0775963B1 (en) Indexing a database by finite-state transducer
CN100498773C (zh) 用于索引和检索文档的方法、计算机程序及数据载体
Revesz et al. The design and implementation of AIDA: Ancient Inscription Database and Analytics system
JP2693914B2 (ja) 検索システム
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH0576068B2 (ja)
JPH0944523A (ja) 関連語提示装置
JP4149544B2 (ja) 全文検索システムおよび全文検索プログラムを記録した記録媒体
Monyela Call Us by Our Names: The Need to Establish Authority Control Standards for Non-Roman Names
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH05250416A (ja) データベースの登録・検索装置
JP3187671B2 (ja) 電子辞書表示装置
JPH1185765A (ja) タグ付文書検索システム
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH0612451A (ja) 例文検索システム
JPH03137772A (ja) データベース利用システム
Walsby A Guide to the Dictionary
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees