JP3315755B2 - 階層化文書の文字列検索装置 - Google Patents

階層化文書の文字列検索装置

Info

Publication number
JP3315755B2
JP3315755B2 JP11090093A JP11090093A JP3315755B2 JP 3315755 B2 JP3315755 B2 JP 3315755B2 JP 11090093 A JP11090093 A JP 11090093A JP 11090093 A JP11090093 A JP 11090093A JP 3315755 B2 JP3315755 B2 JP 3315755B2
Authority
JP
Japan
Prior art keywords
character string
document
search
degree
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP11090093A
Other languages
English (en)
Other versions
JPH06301725A (ja
Inventor
元喜 澤谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP11090093A priority Critical patent/JP3315755B2/ja
Publication of JPH06301725A publication Critical patent/JPH06301725A/ja
Application granted granted Critical
Publication of JP3315755B2 publication Critical patent/JP3315755B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は階層化文書の文字列検索
装置に関し、特に各段の文字列集合が、その下段側の1
つ若しくは2つ以上の文字列集合から構成された1段若
しくは2段以上の階層化文書が1文書若しくは2文書以
上記憶された記憶装置に於て、各文書及び各文書中の各
段の各文字列集合に対して、対象文字列の不完全一致を
も含むあいまい検索を行うための階層化文書の文字列検
索装置に関するものである。
【0002】
【従来の技術】従来、例えば多数の文書が記憶された記
憶装置に於ける各文書内に特定の文字列が含まれている
か否かを調べる場合、通常はその文字列全てが含まれて
いるか否かのみを調べる完全一致の検索が行われていた
が、特にカタカナ表記された長い外来語等の検索を行う
場合、表記の微妙な違いにより検索できないことがあっ
た。また、検索対象の文書が多いなど、検索対象となる
文書の全体量が大きいと検索が著しく遅くなると云う問
題があった。
【0003】そこで、本願出願人と同一出願人による特
開平4−326164号公報には、文書の記憶時に、同
時に各文字(コード)の自己相関情報を文書毎に記憶し
ておき、検索時に検索文字列の各文字の自己相関情報を
求めて、その有無を検出する構造とすることで、各検索
対象文書内に於ける検索文字列の有無のみならずその一
致度をも容易に、かつ高速に調べることが可能な検索シ
ステムが開示されている。
【0004】上記システムにより各文書に対する特定文
字列の検索が高速化されるが、例えば1文書が非常に大
きく、「タイトル」、「前書き」、「本文1」、「本文
2」、「後書き」などの項目に分かれている階層化文書
の場合、そのいずれの項目に所望の文字列があるのかを
知ることができれば後の処理が容易になる場合がある。
また一致度の高いものがない場合、どの項目にどの程度
特定文字列と一致する文字列があるのかが検索終了を判
断する際に重要になる場合がある。
【0005】
【発明が解決しようとする課題】本発明は上記したよう
な従来技術の問題点に鑑みなされたものであり、その主
な目的は、単に文書中に特定の文字列があるか否かを判
断するのみでなく、検索対象となる各文書のどの項目
に、特定の文字列とどの程度一致する文字列があるのか
を容易に、かつ高速に検索することが可能な階層化文書
の文字列検索装置を提供することにある。
【0006】
【課題を解決するための手段】上述した目的は本発明に
よれば、1段若しくは2段以上に階層化された文字列集
合からなり、かつ前記各段の文字列集合が、その下段側
の1つ若しくは2つ以上の文字列集合から構成された階
層化文書が1文書若しくは2文書以上記憶された記憶装
置に於ける前記各文書及び前記各文書中の前記各文字列
集合に対して、特定文字列の不完全一致をも含むあいま
い検索を行うための階層化文書の文字列検索装置であっ
て、前記各文書の全ての文字を対象として前記特定文字
列を検索し、その一致度を判断する検索部と、前記各文
書毎に、最下段側から各段の文字列集合に対する前記一
致度を集計して最も高い一致度をその段の一致度とし、
更に前記各文書の最上段の一致度をその文書の一致度と
する集計処理部とを有し、前記各文書毎の一致度及びそ
の文書の各段の文字列集合毎の一致度を段階的に、また
は同時に表示することを特徴とする階層化文書の文字列
検索装置を提供することにより達成される。
【0007】
【作用】このように、例えば項目などにより分けられた
複数の階層化文書の検索対象となる全ての文字に対して
あいまい検索をし、その結果を最下段の文字列集合から
集計し、各段の検索結果、更に各文書の検索結果を求め
ることで、1度の検索で各文書検索結果と共にその各段
の検索結果をも得られる。
【0008】
【実施例】以下、本発明の好適実施例を添付の図面につ
いて詳しく説明する。
【0009】図1は、本発明が適用されたサーバ・クラ
イアント型のワークステーションのシステム構成を示す
ブロック図である。このシステムは、大容量記憶装置2
を有するサーバ1と、このサーバ1に公知のネットワー
ク3を介して接続された複数のクライアント機4とを有
している。
【0010】記憶装置2内には多数の文書が記憶されて
いる。ここで、図2に示すように、各文書は1段若しく
は2段以上に階層化された文字列集合からなり、かつそ
の各段の文字列集合が、その下段側の1つ若しくは2つ
以上の文字列集合から構成された階層化文書からなる。
本実施例では「出願書類」なる文書が多数記憶されてい
るものとする。この「出願書類」は「願書」、「明細
書」及び「要約書」から構成され、更に「願書」は、
「書類名」、「整理番号」、「発明者」、「特許出願
人」、「代理人」などから構成され、例えば「特許出願
人」は、「識別番号」、「郵便番号」、「住所又は居
所」、「氏名又は名称」、「代表者」などから構成され
ている。また、「明細書」は、「書類名」、「発明の名
称」、「特許請求の範囲」、「発明の詳細な説明」、
「図面の簡単な説明」などから構成され、例えば「発明
の詳細な説明」は、「産業上の利用分野」、「従来の技
術」、「発明が解決しようとする課題」、「課題を解決
するための手段」、「作用」、「実施例」、「発明の効
果」から構成されている。また、記憶装置2内に記憶さ
れた文書には、記憶時に同時に各文字(コード)の自己
相関情報がマップとして作成され、一種のインデックス
としてその文書と共に記憶され、サーバ1に管理されて
いる。
【0011】図3に示すように、サーバ1には上記した
自己相関情報から特定文字列を検索し、その一致度を判
断するための検索部11と、該検索部11からの検索結
果から、各文書毎に、その最下段側から各段の文字列集
合に対する一致度を集計して最も高い一致度をその段の
一致度とし、かつ各文書の最上段の一致度をその文書の
一致度とする集計処理部12とが設けられている。
【0012】以下に、本実施例の作動要領の概略につい
て説明する。或るクライアント機4から特定の文字列、
例えば文字列「フィードフォワード」の検索を記憶装置
2に記憶された全文書に対して行う場合、クライアント
機4から文字列を「検索キー」として入力すると共に後
記する一致度の閾値を例えば70%以上と設定する。そ
して、このクライアント機4がサーバ1にアクセスし、
サーバ1の検索部11にて全文書に対して検索が行われ
る。このとき、上記したように予め各文書の自己相関情
報がマップとして作成され記憶されていることから、文
字列「フィードフォワード」についても自己相関情報を
作成して上記マップに照合するのみで高速な検索を行う
ことができるようになっている。この検索の速度は全文
書の容量には殆ど依存せず、検索する文字列の長さに依
存するものである。
【0013】検索部11にて行われた検索結果はそのま
ま集計処理部12に送られる。この集計処理部12にて
検索部11からの検索結果から、各文書毎に、その最下
段側から各段の文字列集合に対する一致度を集計して最
も高い一致度をその段の一致度とし、かつ各文書の最上
段の一致度をその文書の一致度とする処理が行われる。
そして、その結果が図4に示すように、クライアント機
4に送られ、そのディスプレイに、まず上記設定閾値以
上の一致度の文書を一括表示する。そして、操作者が例
えば図4に於ける「ソート」キーをマウスなどのポイン
ティングデバイスによりクリックすることにより一致度
の高い順に並べ換えて表示する。そして、操作者は表示
された文書のうちの一つ、例えば「浮上支持装置」を選
択する。すると、図5(a)に示すように、「願書」、
「明細書」及び「要約書」の各々についての一致度がサ
ーバ1からクライアント機4に送られ、それが表示され
る。次に、例えば「明細書」を選択すると図5(b)に
示すように、「書類名」、「発明の名称」、「特許請求
の範囲」、「発明の詳細な説明」及び「図面の簡単な説
明」の各々についての一致度がサーバ1からクライアン
ト機4に送られ、それが表示される。更に、例えば「発
明の詳細な説明」を選択すると図5(c)に示すよう
に、「産業上の利用分野」、「従来の技術」、「発明が
解決しようとする課題」、「課題を解決するための手
段」、「作用」、「実施例」及び「発明の効果」の各々
についての一致度がサーバ1からクライアント機4に送
られ、それが表示される。このようにして、操作者は検
索したい文字列「フィードフォワード」の含まれる部分
を徐々に絞り込むことができ、例えば「課題を解決する
ための手段」及び「作用」の部分には文字列「フィード
フォワード」があるが、「実施例」の部分には文字列
「フィードフォワド」があり、「発明の効果」の部分に
は文字列「フィードホワード」があるなど、同じ文書内
で表現が一致しておらず、これを修正したい場合などに
有効である。
【0014】本実施例では各文書毎の一致度及びその文
書の各段の文字列集合毎の一致度を段階的に表示した
が、表示可能であれば、これを同時に表示しても良いこ
とは云うまでもない。
【0015】一方、図4に示すような画面上で検索する
特定文字列(検索キー)を複数個入力し、AND、O
R、ANDNOTの条件で複合検索することも容易にで
きる。例えば文字列「微分」と、文字列「フィードフォ
ワード」と、文字列「制御」とをAND条件で検索した
ときに「従来の技術」の部分には文字列「微分」のみが
あり、「作用」の部分には文字列「フィードフォワー
ド」のみがあり、「発明が解決しようとする課題」の部
分には文字列「制御」のみがある場合、文字列「微分」
と、文字列「フィードフォワード」と、文字列「制御」
とを各々別々に検索し、その一致度同士をたし合わせて
検索文字列の数(この場合は3)で割った結果(この場
合は33%)をAND条件での検索結果とする。また、
その上段の集合「発明の詳細な説明」では、最下段の文
字列集合の検索文字列の一致度同士をたし合わせて検索
文字列の数(この場合は3)で割った結果(この場合は
100%)をAND条件での検索結果とする。即ち、A
ND、OR、ANDNOTの条件で複合検索する場合も
最下段の文字列集合に於ける検索文字列の一致度のみ求
めれば良く、インデックスとしての自己相関情報のマッ
プも1つあれば良いこととなる。ここで、AND、O
R、ANDNOTの条件での複合検索結果の出し方は上
記に限定されず、用途に応じて様々な方法があることは
云うまでもなく、例えば一度検索した結果に更にAN
D、OR、ANDNOTの条件で検索を行う場合と、一
度に全ての条件を入力してAND、OR、ANDNOT
の条件で検索を行う場合とでその一致度を同じにしても
変えても良い。
【0016】
【発明の効果】以上の説明により明らかなように、本発
明による階層化文書の文字列検索装置によれば、階層化
文書の全ての文字を対象として特定文字列を検索し、そ
の一致度を判断各文書毎に、最下段側から各段の文字列
集合に対する一致度を集計して最も高い一致度をその段
の一致度とし、更に各文書の最上段の一致度をその文書
の一致度とし、各文書毎の一致度及びその文書の各段の
文字列集合毎の一致度を段階的に、または同時に表示す
ることにより、1度の検索で各文書検索結果と共にその
各段の検索結果をも得られ、検索対象となる各文書のど
の項目に、特定の文字列とどの程度一致する文字列があ
るのかを容易に、かつ高速に検索することが可能とな
る。
【図面の簡単な説明】
【図1】本発明が適用されたサーバ・クライアント型の
ワークステーションのシステム構成を示すブロック図で
ある。
【図2】記憶装置に記憶された階層化文書の構造を示す
説明図である。
【図3】本発明が適用されたサーバ・クライアント型の
ワークステーションに於けるサーバ及びクライアント機
の機能構成の一部を示すブロック図である。
【図4】クライアント機のディスプレイ画面の表示状態
を示す説明図である。
【図5】(a)〜(c)は図4の要部のみを示す説明図
である。
【符号の説明】 1 サーバ 2 記憶装置 3 ネットワーク 4 クライアント機 11 検索部 12 集計処理部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 1段若しくは2段以上に階層化された
    文字列集合からなり、かつ前記各段の文字列集合が、そ
    の下段側の1つ若しくは2つ以上の文字列集合から構成
    された階層化文書が1文書若しくは2文書以上記憶され
    た記憶装置に於ける前記各文書及び前記各文書中の前記
    各文字列集合に対して、特定文字列の不完全一致をも含
    むあいまい検索を行うための階層化文書の文字列検索装
    置であって、 前記各文書の全ての文字を対象として前記特定文字列を
    検索し、その一致度を判断する検索部と、 前記各文書毎に、最下段側から各段の文字列集合に対す
    る前記一致度を集計して最も高い一致度をその段の一致
    度とし、更に前記各文書の最上段の一致度をその文書の
    一致度とする集計処理部とを有し、 前記各文書毎の一致度及びその文書の各段の文字列集合
    毎の一致度を段階的に、または同時に表示することを特
    徴とする階層化文書の文字列検索装置。
JP11090093A 1993-04-13 1993-04-13 階層化文書の文字列検索装置 Expired - Lifetime JP3315755B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11090093A JP3315755B2 (ja) 1993-04-13 1993-04-13 階層化文書の文字列検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11090093A JP3315755B2 (ja) 1993-04-13 1993-04-13 階層化文書の文字列検索装置

Publications (2)

Publication Number Publication Date
JPH06301725A JPH06301725A (ja) 1994-10-28
JP3315755B2 true JP3315755B2 (ja) 2002-08-19

Family

ID=14547528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11090093A Expired - Lifetime JP3315755B2 (ja) 1993-04-13 1993-04-13 階層化文書の文字列検索装置

Country Status (1)

Country Link
JP (1) JP3315755B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050076013A1 (en) * 2003-10-01 2005-04-07 Fuji Xerox Co., Ltd. Context-based contact information retrieval systems and methods
JP2008146209A (ja) * 2006-12-07 2008-06-26 Just Syst Corp 文書検索装置、文書検索方法および文書検索プログラム
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2885487B2 (ja) * 1990-07-26 1999-04-26 日本電信電話株式会社 文書内情報検索装置
JP3151730B2 (ja) * 1991-04-25 2001-04-03 新日本製鐵株式会社 データベース検索システム
JPH0520371A (ja) * 1991-07-11 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索結果表示方法

Also Published As

Publication number Publication date
JPH06301725A (ja) 1994-10-28

Similar Documents

Publication Publication Date Title
US6205443B1 (en) Overlapping subdocuments in a vector space search process
US5745745A (en) Text search method and apparatus for structured documents
US6523030B1 (en) Sort system for merging database entries
US6496820B1 (en) Method and search method for structured documents
JP3614618B2 (ja) 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5359729A (en) Method for searching for a given point in regions defined by attribute ranges, then sorted by lower and upper range values and dimension
US4677585A (en) Method for obtaining common mode information and common field attribute information for a plurality of card images
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
EP1154355B1 (en) Document processing method, system and computer readable storage medium
KR960018993A (ko) 정보 검색 방법 및 시스템
JPH0484271A (ja) 文書内情報検索装置
JP3315755B2 (ja) 階層化文書の文字列検索装置
EP0478315A2 (en) Apparatus and method for determining and displaying the difference between two technical drawings
JPH06290217A (ja) 文書検索方式
JPH0869476A (ja) 検索システム
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JPH064584A (ja) 文章検索装置
JP2732661B2 (ja) テキスト型データベース装置
JPH08314950A (ja) テキストの検索方法及び装置
JPH07146872A (ja) 文書検索装置
JPH08235204A (ja) 文書検索方法及び装置
JPH0991297A (ja) 文字列検索方法及び装置
JP2006039811A (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2000067070A (ja) 情報検索方法、検索ファイル作成方法及び情報検索装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020521

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080607

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090607

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100607

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100607

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110607

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110607

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120607

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120607

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130607

Year of fee payment: 11

EXPY Cancellation because of completion of term