JPH08221443A - 漢字を含むテキストの検索方法及び装置 - Google Patents

漢字を含むテキストの検索方法及び装置

Info

Publication number
JPH08221443A
JPH08221443A JP7028993A JP2899395A JPH08221443A JP H08221443 A JPH08221443 A JP H08221443A JP 7028993 A JP7028993 A JP 7028993A JP 2899395 A JP2899395 A JP 2899395A JP H08221443 A JPH08221443 A JP H08221443A
Authority
JP
Japan
Prior art keywords
kanji
character
string
characters
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7028993A
Other languages
English (en)
Inventor
Sanae Uchida
早苗 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP7028993A priority Critical patent/JPH08221443A/ja
Publication of JPH08221443A publication Critical patent/JPH08221443A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】辞書を用いることなくインバーテドファイルを
作成するようにし、辞書を用いることによる従来の欠点
を解消することを目的とする。 【構成】漢字を含む複数のテキストの中から、指定され
たキーワードを含むテキストをインバーテドファイル1
3を参照して検索する方法であって、テキストに含まれ
る文字列が3文字以上の漢字列である場合に、最後尾の
漢字を除く各漢字とそれに続く漢字とからなる2文字の
各漢字列を索引語としてインバーテドファイル13に登
録しておき、検索のために指定されたキーワードが3文
字以上の漢字列である場合に、最後尾の漢字を除く各漢
字とそれに続く漢字とからなる2文字の各漢字列の論理
積によって検索を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文章のような漢
字を含む複数のテキストの中から、指定されたキーワー
ドを含むテキストを検索する方法及び装置に関する。
【0002】一般に、高速のテキスト検索システム(文
献検索システム、又は文章検索システムともいう)にお
いては、テキストデータベースに蓄えられた大量のテキ
ストの中から指定された検索条件を満足するテキストを
高速で探索するためのインバーテドファイルが設けられ
ている。インバーテドファイルの存在によって、ほとん
どの検索条件がそのインバーテドファイル上の操作だけ
で高速に処理されることとなる。
【0003】しかし、従来の一般的なシステムでは、テ
キストデータベースを修正し又は新しい分野のテキスト
をデータベースに追加する場合に、それとほぼ同時に関
連する全てのインバーテドファイル上のデータの更新も
行わなければならないという弱点がある。インバーテド
ファイルの更新作業には多大の労力を要しているため、
インバーテドファイルの更新をできるだけ簡便に行え又
は更新を行う必要のないシステムの出現が望まれてい
る。
【0004】
【従来の技術】従来のテキスト検索システムにおいて
は、インバーテドファイルに登録すべき索引語(又はキ
ーワード)が予め決められており、それらの索引語が辞
書に登録されている。
【0005】すなわち、インバーテドファイルの作成に
当たっては、対象となるテキストの先頭から1文字ずつ
文字種が判定され、文字種に応じてテキストは文字列に
分解される。分解して得られた各文字列は辞書と照合さ
れ、辞書に登録されている文字列のみがインバーテドフ
ァイルに登録される。その際、熟語などの複合語につい
ては、辞書を参照して意味解析又は分解処理が行われ、
2文字程度の漢字列としてインバーテドファイルに登録
される。
【0006】検索に当たって、利用者がキーワードを指
定すると、そのキーワードに基づいてインバーテドファ
イルが参照され、該当するテキストが検索される。
【0007】
【発明が解決しようとする課題】したがって、従来のテ
キスト検索システムでは、索引語を登録した辞書を予め
作成しておく必要があるとともに、作成した辞書が常に
最新の状態となるようにメンテナンスを行う必要があ
る。しかし、辞書を作成する作業及びメンテナンスの作
業は極めて面倒であり、これに多大の時間と労力を要し
ている。特に、例えばそれまでとは異なった分野のテキ
ストをデータベースに加えた場合において、そのテキス
トには索引語とすべき新たな語句が多数含まれているた
め、それらを索引語として追加登録する作業にも多くの
時間を要する。
【0008】しかも、新たな索引語を辞書に追加して更
新を行った場合に、追加した索引語が全てのテキストに
対して有効となるようにするには、既に作成したインバ
ーテドファイルを更新した辞書に基づいて再度作成し直
す必要がある。その作業にも多大の時間と労力を要する
ので、その間、長期にわたってシステムの利用が制限さ
れることとなる。
【0009】このように、従来のテキスト検索システム
は、辞書を中心とした処理が行われているために、辞書
に登録されているキーワードのみでしか検索を行うこと
ができず、辞書に登録されていないマイナーな語句、極
く新しい語句では検索を行うことができない。
【0010】また、通常、辞書に登録される漢字列は2
文字からなる熟語が大半を占める。しかし、テキスト中
には、漢字又は熟語が複雑に結合した複合語が多数現れ
る。そのため、複合語の意味解析又は分解処理が必要と
なるが、それを正確に行うためには高度な内容の辞書と
解析のしくみが必要であり、システムが複雑で高価なも
のとなる。
【0011】本発明は、上述の問題に鑑みてなされたも
ので、辞書を用いることなくインバーテドファイルを作
成するようにし、辞書を用いることによる従来の欠点を
解消した漢字を含むテキストの検索方法及び装置を提供
することを目的とする。
【0012】
【課題を解決するための手段】請求項1の発明に係る方
法は、漢字を含む複数のテキストの中から、指定された
キーワードを含むテキストをインバーテドファイルを参
照して検索する方法であって、前記テキストに含まれる
文字列が3文字以上の漢字列である場合に、最後尾の漢
字を除く各漢字とそれに続く漢字とからなる2文字の各
漢字列を索引語として前記インバーテドファイルに登録
しておき、検索のために指定されたキーワードが3文字
以上の漢字列である場合に、最後尾の漢字を除く各漢字
とそれに続く漢字とからなる2文字の各漢字列の論理積
によって検索を行う方法である。
【0013】請求項2の発明に係る方法は、前記テキス
トに含まれる各文字の文字種を判定し、前記テキストを
文字種に応じた文字列に分解し、少なくとも、1文字又
は2文字からなる漢字列について、それぞれの漢字列を
索引語として前記インバーテドファイルに登録するとと
もに、3文字以上の漢字列について、最後尾の漢字を除
く各漢字とそれに続く漢字とからなる2文字の各漢字列
を索引語として前記インバーテドファイルに登録し、検
索のために指定されたキーワードについて、その文字種
を判定し、前記キーワードが漢字列である場合に、1文
字又は2文字からなる漢字列についてはその漢字列によ
って検索を行い、3文字以上の漢字列については最後尾
の漢字を除く各漢字とそれに続く漢字とからなる2文字
の各漢字列の論理積によって検索を行う方法である。
【0014】請求項3の発明に係る方法は、前記テキス
トに含まれる各文字の文字種を判定し、前記テキスト
を、文字種に応じた文字列である、英字列、数字列、カ
タカナ文字列、ひらかな文字列、及び漢字列に分解し、
英字列、数字列、カタカナ文字列、及び1文字又は2文
字からなる漢字列について、各文字列を索引語として前
記インバーテドファイルに登録するとともに、3文字以
上の漢字列について、最後尾の漢字を除く各漢字とそれ
に続く漢字とからなる2文字の各漢字列を索引語として
前記インバーテドファイルに登録し、検索のために指定
されたキーワードについて、その文字種を判定し、前記
キーワードが、英字列、数字列、カタカナ文字列、及び
1文字又は2文字からなる漢字列である場合に、その文
字列によって検索を行い、前記キーワードが、3文字以
上の漢字列である場合に、最後尾の漢字を除く各漢字と
それに続く漢字とからなる2文字の各漢字列の論理積に
よって検索を行う方法である。
【0015】請求項4の発明に係る装置は、漢字を含む
複数のテキストの中から、指定されたキーワードを含む
テキストをインバーテドファイルを参照して検索する装
置であって、文字種を判定する文字種判定手段と、文字
種に応じた文字列に分解する文字列分解手段と、3文字
以上の漢字列を、最後尾の漢字を除く各漢字とそれに続
く漢字とからなる2文字の漢字列に分解する漢字分解手
段と、テキストに含まれた、漢字列以外の文字列、1文
字又は2文字からなる漢字列、及び前記漢字分解手段に
よって分解された2文字の漢字列を、索引語として前記
インバーテドファイルに登録する文字列登録手段と、検
索のためのキーワードを入力する入力手段と、入力され
たキーワードが1文字又は2文字からなる漢字列である
場合には入力された漢字列によって前記インバーテドフ
ァイルの検索を行い、入力されたキーワードが3文字以
上の漢字列である場合には前記漢字分解手段によって分
解された2文字の漢字列の論理積によって検索を行う検
索手段と、検索結果を出力する出力手段と、を有して構
成される。
【0016】
【作用】本発明による検索方法について、図を参照して
説明する。例えば、図3に示すテキストTX1のよう
に、「自動抽出」の4文字の漢字列が含まれている場合
に、それが「自動」「動抽」「抽出」の2文字からなる
3つの漢字列に分解され、それぞれの漢字列がインバー
テドファイル13に登録される。
【0017】図4に示されているように、テキストTX
1に含まれた漢字列である「自動抽出」に対しては、
「自動」「動抽」「抽出」の3つの漢字列が登録されて
いるが、テキストTX3に含まれた文字列である「自動
で抽出」に対しては、「自動」「抽出」の2つの漢字列
のみが登録され、「動抽」は登録されない。
【0018】利用者が「自動抽出」をキーワードKWと
して入力すると、それが「自動」「動抽」「抽出」の3
つの漢字列に分解され、それらの論理積によってインバ
ーテドファイル13が検索される。その結果、3つの漢
字列に対してそれぞれヒットするテキストTX1が検索
される。
【0019】
【実施例】図1は本発明に係るテキスト検索装置1の構
成を機能的に示すブロック図、図2はテキスト検索装置
1のハード構成の例を示すブロック図、図3はテキスト
データベース12の例を示す図、図4はインバーテドフ
ァイル13の例を示す図である。
【0020】図1において、テキスト検索装置1は、処
理部11、テキストデータベース12、インバーテドフ
ァイル13、入力手段としての入力部14、及び出力手
段としての出力部15などから構成されている。
【0021】図3に示すように、テキストデータベース
12は、漢字を含む多数のテキストTX(TX1,TX
2,TX3…)からなる。各テキストTXはデータ長が
不定である。テキストTXには、text1、text2…など
の識別名IDが付されている。テキストデータベース1
2は、テキストTXの追加、変更、削除などの更新が可
能である。
【0022】図4に示すように、インバーテドファイル
13は、多数の索引語DXと、各索引語DXを含むテキ
ストTXの識別名IDとを対応付けて格納したものであ
る。インバーテドファイル13は、処理部11によって
作成され又は更新される。
【0023】入力部14は、利用者が検索を行うに当た
ってキーワードKWを入力するためのものであり、ま
た、検索を行う際、又はインバーテドファイル13の作
成又は更新の際に、コマンド、データなどを入力するた
めにも用いられる。
【0024】出力部15は、検索結果を画面や用紙上に
出力する他、種々のデータ、文字、イメージなどを出力
する。処理部11は、テキストデータベース12に格納
された又は新たに格納されようとしているテキストT
X、つまり対象となるテキストTXに基づいて、インバ
ーテドファイル13を作成し又は更新するための処理を
行うとともに、テキストデータベース12に格納された
多数のテキストTXの中から、指定されたキーワードK
Wを含むテキストTXをインバーテドファイル13を参
照して検索し、検索結果を出力部15によって出力す
る。
【0025】処理部11は、文字列登録手段としての文
字列登録部21、検索手段としての検索部22、文字種
判定手段としての文字種判定部23、文字列分解手段と
しての文字列分解部24、及び漢字分解手段としての漢
字分解部25などを有している。
【0026】文字列登録部21は、テキストTXに含ま
れた英字列、数字列、カタカナ文字列、及び漢字列を、
索引語DXとしてインバーテドファイル13に登録する
ための処理を行う。その際に、テキストTXに含まれた
漢字列が1文字又は2文字からなる場合にはその漢字列
を、3文字以上の漢字列からなる場合には漢字分解部2
5によって分解された2文字の漢字列を、それぞれ登録
する。なお、本実施例においては、ひらかな文字列につ
いては、通常、意味のないことが多く索引語DXとして
適切ではないことが多いので、登録しない。
【0027】検索部22は、指定されたキーワードKW
に基づいて、インバーテドファイル13を参照して該当
するテキストTXを検索する。検索に当たって、キーワ
ードKWが、英字列、数字列、カタカナ文字列、1文字
又は2文字からなる漢字列である場合には、指定された
文字列によって検索を行い、指定されたキーワードKW
が3文字以上の漢字列である場合には、漢字分解部25
によって分解された2文字の漢字列の論理積によって検
索を行う。
【0028】文字種判定部23は、対象となるテキスト
TXの文字種を判定する。文字種には、英字、数字、カ
タカナ文字、ひらかな文字、漢字がある。英字以外の外
国文字も英字に含める。
【0029】文字列分解部24は、対象となるテキスト
TXを、文字種に応じた文字列に分解する。つまり、テ
キストTXの先頭文字から順に、同一の文字種毎の文字
列に区切ることによって文字列に分解する。
【0030】漢字分解部25は、文字列が3文字以上の
漢字列であった場合に、その漢字列を、最後尾の漢字を
除く各漢字とそれに続く漢字とからなる2文字の各漢字
列に分解する。この処理のことを「ラップ分解処理」と
いうことがある。
【0031】図2に示すように、テキスト検索装置1の
ハードウエアは、処理装置31、記憶装置32、大容量
記憶装置33、キーボード34、ディスプレイ装置3
5、及びプリンタ装置36などによって構成される。
【0032】記憶装置32には、上述のテキストデータ
ベース12及びインバーテドファイル13が格納され
る。大容量記憶装置33には、大容量のテキストデータ
ベース12が格納される。処理装置31にメモリを有し
ており、そこにテキストデータベース12又はインバー
テドファイル13の全部又は一部が転送され、またワー
クエリアとして使用される。キーボード34からキーワ
ードKWなどを入力し、検索結果をディスプレイ装置3
5によって表示し又はプリンタ装置36により用紙に印
刷する。また、通信回線によって他のコンピュータ又は
ホストコンピュータと接続し、テキストデータベース1
2を共用し、又は検索結果を送信してもよい。
【0033】次に、テキスト検索装置1の処理内容又は
動作について、図5及び図6に示すフローチャートに基
づいて説明する。図5は登録処理を示すフローチャー
ト、図6は検索処理を示すフローチャートである。
【0034】まず、インバーテドファイル13への索引
語DXの登録処理について説明する。図3に示すテキス
トTX1を例にとると、テキストTX1は「テキストか
らキーワードを自動抽出するには…」であるが、各文字
の文字種が文字種判定部23によって判定される(#1
1)。文字列分解部24によって、文字列に分解される
(#12)。これによって、テキストTX1は、「テキ
スト」「から」「キーワード」「を」「自動抽出」「す
るには」…というように、カタカナ文字列、ひらかな文
字列、カタカナ文字列、ひらかな文字列、漢字列、ひら
かな文字列…に分解される。
【0035】次に、分解された各文字列がインバーテド
ファイル13に登録される(#17)のであるが、ひら
かな文字列は登録されない(#13でイエス)。また、
3文字以上の漢字列である場合には(#14,15でイ
エス)、漢字分解部25によってラップ分解処理が行わ
れる(#16)。
【0036】テキストTX1の場合には、「から」
「を」「するには」はひらかな文字列でるのでインバー
テドファイル13に登録されない。「テキスト」「キー
ワード」はそのまま登録されるが、「自動抽出」は4文
字の漢字列であるので、漢字分解部25によるラップ分
解処理が行われ、「自動」「動抽」「抽出」の2文字か
らなる3つの漢字列に分解され、それぞれの漢字列がイ
ンバーテドファイル13に登録される。
【0037】テキストTX2の場合では、3文字の漢字
列である「自動車」が「自動」「動車」にラップ分解さ
れ、4文字の漢字列である「生産台数」が「生産」「産
台」「台数」にラップ分解され、分解された2文字の各
漢字列がインバーテドファイル13に登録される。
【0038】テキストTX3の場合では、2文字の漢字
列である「成分」「自動」「抽出」「装置」「台数」が
そのままインバーテドファイル13に登録される。テキ
ストTX1〜3のインバーテドファイル13が図4に示
されている。なお、図4は索引語DXのうちの漢字列の
部分のみを表している。
【0039】図4において、「自動」は、テキストTX
1〜3のいずれにも含まれているため、該当する識別名
IDの欄には「text1」「text2」「text3」のいずれ
もが登録されている。「動抽」はテキストTX1のみに
含まれているので、識別名ID欄には「text1」のみが
登録されている。「抽出」はテキストTX1及びTX3
に含まれているため、識別名IDの欄には「text1」
「text3」が登録されている。他の漢字列についても同
様に登録されている。
【0040】図4に示されているように、テキストTX
1に含まれた漢字列である「自動抽出」に対しては、
「自動」「動抽」「抽出」の3つの漢字列が登録されて
いるが、テキストTX3に含まれた文字列である「自動
で抽出」に対しては、「自動」「抽出」の2つの漢字列
のみが登録され、「動抽」は登録されていない。これ
は、後の検索の際に、テキストTX1はヒットするがテ
キストTX3はヒットしないという差となって現れる。
【0041】次に、検索処理について説明する。利用者
がキーワードKWを入力すると(#21)、その文字種
が判定される(#22)。キーワードKWが「自動抽
出」であったとすると、それは漢字列であり(#23で
イエス)、3文字以上であるから(#24でイエス)、
ラップ分解処理が行われる(#26)。ラップ分解処理
により、「自動抽出」は、「自動」「動抽」「抽出」の
3つの漢字列に分解される。
【0042】ラップ分解処理が行われると、分解された
各漢字列の論理積によってインバーテドファイル13が
検索される(#27)。上の例では、「自動」「動抽」
「抽出」の全部の漢字列に対してヒットするテキストで
あるテキストTX1が検索される。テキストTX3は検
索されない。
【0043】キーワードKWが「自動」であったとする
と、それは漢字列であり(#23でイエス)、3文字以
上でないから(#24でノー)、その漢字列によって検
索が行われ(#25)、テキストTX1,TX2,TX
3のいずれも検索される。
【0044】検索結果は画面に表示され又はプリンタで
印刷される(#28)。上述の実施例によると、辞書を
用いることなくインバーテドファイル13を作成し又は
更新するので、辞書を用いることによる従来の欠点が解
消される。
【0045】すなわち、辞書を作成する必要がないの
で、その作成やメンテナンスのための労力と時間が不要
である。したがって、それまでとは異なった分野のテキ
ストTXをテキストデータベース12に加えた場合のよ
うに、新たな索引語が加わる場合であっても、従来のよ
うにインバーテドファイル13を作成し直す必要がな
い。したがって、漢字による新用語又は造語などが頻繁
に発生する分野において極めて有用である。
【0046】また、従来のような辞書を中心とした処理
ではないので、指定したキーワードKWを含んだテキス
トTXがある場合には確実に検索され、キーワードKW
の指定に当たって登録されたキーワードKWであるか否
かを考える必要がなく、検索の信頼性が高い。
【0047】上述の実施例によると、3文字以上の漢字
からなる熟語や造語であっても、複雑な意味解析の処理
を行うことなく、2文字からなる複数の漢字列の索引語
DXとしてインバーテドファイル13に確実に登録さ
れ、確実に検索が行われる。例えば、テキストTXに
「自動抽出時」の漢字列が含まれている場合に、従来で
あれば複雑な意味解析によって「自動」「抽出」「時」
の3つの漢字列に分解できなければ検索が不可能である
が、上述の実施例によると、簡単且つ確実に検索され
る。
【0048】その場合に、キーワードKWとして、「自
動抽出時」「自動抽出」「自動」「抽出」「抽出時」の
いずれを指定した場合でもヒットすることとなり、検索
のもれがなくなる。
【0049】上述の実施例においては、ひらかな文字列
をインバーテドファイル13を登録しなかったが、ひら
かな文字列の全部又は一部を登録してもよい。その場合
に、ひらかな文字列の文字数、意味などに応じて登録の
可否を決定してもよい。また、例えば「インターフェー
ス」と「インタフェース」のような記述の違いによる検
索もれを防ぐために、「ー」を含む文字列については
「ー」を省略してインバーテドファイル13に登録し、
且つそれによる検索を行うようにしてもよい。
【0050】上述の実施例において、テキストデータベ
ース12として、コンピュータソフトウエアに関する過
去のトラブル事例を登録しておき、現在のトラブル内容
から過去の事例についての対策又は処置などを記載した
テキストを検索することによって、ソフトウエアのサポ
ートを容易迅速に行うことができる。
【0051】上述の実施例において、処理部11、イン
バーテドファイル13などの構成、処理内容、処理順
序、その他テキスト検索装置1の全体又は各部の構成な
どは、本発明の主旨に沿って適宜変更することができ
る。
【0052】
【発明の効果】請求項1乃至請求項4の発明によると、
辞書を用いることなくインバーテドファイルが作成され
又は索引語が登録されるので、辞書を用いることによる
従来の欠点が解消される。
【図面の簡単な説明】
【図1】本発明に係るテキスト検索装置の構成を機能的
に示すブロック図である。
【図2】テキスト検索装置のハード構成の例を示すブロ
ック図である。
【図3】テキストデータベースの例を示す図である。
【図4】インバーテドファイルの例を示す図である。
【図5】登録処理を示すフローチャートである。
【図6】検索処理を示すフローチャートである。
【符号の説明】
1 テキスト検索装置 12 テキストデータベース 13 インバーテドファイル 14 入力部(入力手段) 15 出力部(出力手段) 21 文字列登録部(文字列登録手段) 22 検索部(検索手段) 23 文字種判定部(文字種判定手段) 24 文字列分解部(文字列分解手段) 25 漢字分解部(漢字分解手段)

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】漢字を含む複数のテキストの中から、指定
    されたキーワードを含むテキストをインバーテドファイ
    ルを参照して検索する方法であって、 前記テキストに含まれる文字列が3文字以上の漢字列で
    ある場合に、最後尾の漢字を除く各漢字とそれに続く漢
    字とからなる2文字の各漢字列を索引語として前記イン
    バーテドファイルに登録しておき、 検索のために指定されたキーワードが3文字以上の漢字
    列である場合に、最後尾の漢字を除く各漢字とそれに続
    く漢字とからなる2文字の各漢字列の論理積によって検
    索を行う、 ことを特徴とする漢字を含むテキストの検索方法。
  2. 【請求項2】漢字を含む複数のテキストの中から、指定
    されたキーワードを含むテキストをインバーテドファイ
    ルを参照して検索する方法であって、 前記テキストに含まれる各文字の文字種を判定し、 前記テキストを文字種に応じた文字列に分解し、 少なくとも、1文字又は2文字からなる漢字列につい
    て、それぞれの漢字列を索引語として前記インバーテド
    ファイルに登録するとともに、 3文字以上の漢字列について、最後尾の漢字を除く各漢
    字とそれに続く漢字とからなる2文字の各漢字列を索引
    語として前記インバーテドファイルに登録し、 検索のために指定されたキーワードについて、その文字
    種を判定し、 前記キーワードが漢字列である場合に、1文字又は2文
    字からなる漢字列についてはその漢字列によって検索を
    行い、3文字以上の漢字列については最後尾の漢字を除
    く各漢字とそれに続く漢字とからなる2文字の各漢字列
    の論理積によって検索を行う、 ことを特徴とする漢字を含むテキストの検索方法。
  3. 【請求項3】漢字を含む複数のテキストの中から、指定
    されたキーワードを含むテキストをインバーテドファイ
    ルを参照して検索する方法であって、 前記テキストに含まれる各文字の文字種を判定し、 前記テキストを、文字種に応じた文字列である、英字
    列、数字列、カタカナ文字列、ひらかな文字列、及び漢
    字列に分解し、 英字列、数字列、カタカナ文字列、及び1文字又は2文
    字からなる漢字列について、各文字列を索引語として前
    記インバーテドファイルに登録するとともに、 3文字以上の漢字列について、最後尾の漢字を除く各漢
    字とそれに続く漢字とからなる2文字の各漢字列を索引
    語として前記インバーテドファイルに登録し、 検索のために指定されたキーワードについて、その文字
    種を判定し、 前記キーワードが、英字列、数字列、カタカナ文字列、
    及び1文字又は2文字からなる漢字列である場合に、そ
    の文字列によって検索を行い、 前記キーワードが、3文字以上の漢字列である場合に、
    最後尾の漢字を除く各漢字とそれに続く漢字とからなる
    2文字の各漢字列の論理積によって検索を行う、 ことを特徴とする漢字を含むテキストの検索方法。
  4. 【請求項4】漢字を含む複数のテキストの中から、指定
    されたキーワードを含むテキストをインバーテドファイ
    ルを参照して検索する装置であって、 文字種を判定する文字種判定手段と、 文字種に応じた文字列に分解する文字列分解手段と、 3文字以上の漢字列を、最後尾の漢字を除く各漢字とそ
    れに続く漢字とからなる2文字の漢字列に分解する漢字
    分解手段と、 テキストに含まれた、漢字列以外の文字列、1文字又は
    2文字からなる漢字列、及び前記漢字分解手段によって
    分解された2文字の漢字列を、索引語として前記インバ
    ーテドファイルに登録する文字列登録手段と、 検索のためのキーワードを入力する入力手段と、 入力されたキーワードが1文字又は2文字からなる漢字
    列である場合には入力された漢字列によって前記インバ
    ーテドファイルの検索を行い、入力されたキーワードが
    3文字以上の漢字列である場合には前記漢字分解手段に
    よって分解された2文字の漢字列の論理積によって検索
    を行う検索手段と、 検索結果を出力する出力手段と、 を有してなることを特徴とする漢字を含むテキストの検
    索装置。
JP7028993A 1995-02-17 1995-02-17 漢字を含むテキストの検索方法及び装置 Pending JPH08221443A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7028993A JPH08221443A (ja) 1995-02-17 1995-02-17 漢字を含むテキストの検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7028993A JPH08221443A (ja) 1995-02-17 1995-02-17 漢字を含むテキストの検索方法及び装置

Publications (1)

Publication Number Publication Date
JPH08221443A true JPH08221443A (ja) 1996-08-30

Family

ID=12263947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7028993A Pending JPH08221443A (ja) 1995-02-17 1995-02-17 漢字を含むテキストの検索方法及び装置

Country Status (1)

Country Link
JP (1) JPH08221443A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143902A (ja) * 1997-11-11 1999-05-28 Hitachi Ltd n−gramを用いた類似文書検索方法
JP2009271919A (ja) * 2008-04-30 2009-11-19 Ricoh Co Ltd 電子データを管理するシステム、装置及び方法
US9209975B2 (en) 2008-10-15 2015-12-08 Ricoh Company, Ltd. Secure access of electronic documents and data from client terminal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056398A (ja) * 1991-06-28 1993-01-14 Ricoh Co Ltd 文書登録装置及び文書検索装置
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH05266080A (ja) * 1992-03-24 1993-10-15 Matsushita Electric Ind Co Ltd 検索装置
JPH0652222A (ja) * 1992-07-30 1994-02-25 Matsushita Electric Ind Co Ltd 情報検索処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056398A (ja) * 1991-06-28 1993-01-14 Ricoh Co Ltd 文書登録装置及び文書検索装置
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH05266080A (ja) * 1992-03-24 1993-10-15 Matsushita Electric Ind Co Ltd 検索装置
JPH0652222A (ja) * 1992-07-30 1994-02-25 Matsushita Electric Ind Co Ltd 情報検索処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143902A (ja) * 1997-11-11 1999-05-28 Hitachi Ltd n−gramを用いた類似文書検索方法
JP2009271919A (ja) * 2008-04-30 2009-11-19 Ricoh Co Ltd 電子データを管理するシステム、装置及び方法
US9209975B2 (en) 2008-10-15 2015-12-08 Ricoh Company, Ltd. Secure access of electronic documents and data from client terminal

Similar Documents

Publication Publication Date Title
EP0423683B1 (en) Apparatus for automatically generating index
US5680628A (en) Method and apparatus for automated search and retrieval process
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5303150A (en) Wild-card word replacement system using a word dictionary
US7174290B2 (en) Multi-language document search and retrieval system
US4760528A (en) Method for entering text using abbreviated word forms
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
EP2031490A2 (en) Electronic dictionary, search method for and electronic dictionary, and search program for an alectronic dictionary
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
US5682543A (en) Dictionary editing apparatus
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPS61248160A (ja) 文書情報登録方式
JP2621999B2 (ja) 文書処理装置
JPH0765008A (ja) 用語登録制御方法及び同装置
JPH06149790A (ja) 文章作成装置
JPH0612453A (ja) 未知語抽出登録装置
JP2893239B2 (ja) 翻訳支援辞書検索表示システム
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JP2000148747A (ja) 変換候補表示方法,およびこの方法によるかな漢字変換用のプログラムの記録媒体ならびにかな漢字変換装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH08190565A (ja) データベース検索方式
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH04243477A (ja) 自然言語処理システムによる索引語抽出方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040224