JPH05158995A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH05158995A
JPH05158995A JP3320677A JP32067791A JPH05158995A JP H05158995 A JPH05158995 A JP H05158995A JP 3320677 A JP3320677 A JP 3320677A JP 32067791 A JP32067791 A JP 32067791A JP H05158995 A JPH05158995 A JP H05158995A
Authority
JP
Japan
Prior art keywords
word
search
words
phrases
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3320677A
Other languages
English (en)
Inventor
Junichi Sagawa
順一 佐川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3320677A priority Critical patent/JPH05158995A/ja
Publication of JPH05158995A publication Critical patent/JPH05158995A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文字列の検索において、日本語に特徴的な
「ゆらぎ表記のある語句」や「活用している語句」、
「異体字で書かれた語句」などの検索を可能とする。 【構成】 各語句についてその語句と同音同義で表記が
異なる語句をあらかじめ記憶した辞書手段と、各種の文
書を記憶した記憶手段と、入力手段と、表示手段と、C
PUを備え、CPUにより、入力手段から検索すべき語
句が入力されたとき、その検索すべき語句と同じ語句、
及びその語句と同音同義で表記が異なる語句を辞書手段
から読出し、その読出した語句を記憶手段に記憶された
文書の中から検索し、その検索結果を表示手段に表示す
るよう構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、日本語ワードプロセ
ッサや日本語による文書作成が可能なコンピュータなど
の文書処理装置に関し、特に、入力された文書の中から
所望の文字列を検索することが可能な文字列検索機能を
有する文書処理装置に関する。
【0002】
【従来の技術】多くの文書処理装置に用いられているア
プリケーションソフトウェアにおいては、文字列検索の
機能が搭載されているが、通常のアプリケーションで
は、指定の文字列どおりの文字列が含まれるものしか検
索されない、というレベルのものが多い。しかしなが
ら、最近は、英字の大文字・小文字の区別をしない検索
はもとより、英数字・カタカナの全角・半角の区別をし
ない検索、あるいはUNIXの正規表現による検索を可
能としたものも出現している。
【0003】
【発明が解決しようとする課題】しかし、実際に日本語
を扱うアプリケーションソフトウェアを使用していると
きには、それらの文字列検索機能だけでは不十分であ
る。一例であるが、従来においては、「インタフェー
ス」という検索語では、「インターフェース」や「イン
ターフェイス」という語句を検索できない。このよう
に、「ゆらぎ表記のある語句」(ゆらぎ表記のある語句
とは、上記の「インタフェース」と「インターフェー
ス」のように、一つの語句に対して、同じ読みで同じ意
味の複数種類の表記が存在する語句のことをいう)や
「活用している語句」、「異体字で書かれた語句」な
ど、表記の仕方に幅がある日本語文書においては、それ
らの表記の語句を検索できた方が数段階便利であり実用
に富むが、従来の文書処理装置ではまだ実現されていな
い。
【0004】この発明は、このような事情を考慮してな
されたもので、文字列の検索において、日本語に特徴的
な「ゆらぎ表記のある語句」や「活用している語句」、
あるいは「異体字で書かれた語句」などの検索が可能な
文書処理装置を提供するものである。
【0005】
【課題を解決するための手段】図1はこの発明の構成を
示すブロック図であり、図に示すように、この発明は、
漢字を含む多数の語句をその読み情報と共に記憶し、さ
らに各語句についてその語句と同音同義で表記が異なる
語句をあらかじめ記憶した辞書手段101と、各種の文
書を記憶した記憶手段102と、検索すべき語句を入力
する入力手段103と、入力手段103から検索すべき
語句が入力されたとき、その検索すべき語句と同じ語
句、及びその語句と同音同義で表記が異なる語句を辞書
手段101から読出す読出し手段104と、記憶手段1
02に記憶された文書の中から、読出し手段104によ
って読出された語句を検索する検索手段105と、検索
手段105による検索結果を表示する表示手段106
と、を備えてなる文書処理装置である。
【0006】
【作用】この発明によれば、入力手段103から検索す
べき語句が入力されると、読出し手段104により、そ
の検索すべき語句と同じ語句、及びその語句と同音同義
で表記が異なる語句が辞書手段101から読出され、検
索手段105により、記憶手段102に記憶された文書
の中から、読出し手段104によって読出された語句が
検索されて、その結果が表示手段106に表示される。
【0007】したがって、語句の検索時には、検索すべ
き語句と同じ語句はもちろんのこと、その語句と同音同
義で表記の異なる語句まで全て検索できるので、日本語
文書の検索において、表記の不統一性による検索の不便
さを解消することができる。
【0008】
【実施例】以下、図面に示す実施例に基づいてこの発明
を詳述する。なお、これによってこの発明が限定される
ものではない。図2は本発明を日本語ワードプロセッサ
に適用した一実施例の構成ブロック図である。本発明の
文書処理装置は、CPU1、ROMからなる内部記憶装
置2、CRTディスプレイ装置やLC(液晶)ディスプ
レイ装置等からなる表示装置3、キーボードからなる入
力装置4、及びフロッピーディスク装置や磁気ディスク
装置等からなる外部記憶装置5から構成されている。
【0009】内部記憶装置2には、本発明の機能を含む
検索プログラムが格納されている。外部記憶装置5に
は、漢字を含む多数の語句をその読み情報と共にあらか
じめ記憶した基本辞書6と、各語句について、その語句
と同音同義で表記が異なる語句をあらかじめ記憶したゆ
らぎ表記辞書7とが格納されている。また、検索対象と
なる文書などのデータベース8が格納されている。
【0010】入力装置4からは、各種の文字列が入力さ
れるとともに、文字列の検索時には、検索するべき語句
が入力される。
【0011】CPU1は、入力装置4から検索すべき語
句が入力されると、その検索すべき語句と同じ語句を基
本辞書6から検索し、その語句が検索されると、次にそ
の語句と同音同義で表記が異なる語句をゆらぎ表記辞書
7から検索して読出す。そして、その読出した語句を、
データベース8として記憶された文書の中から検索し、
検索結果を表示装置3の画面に表示する。
【0012】このような構成の本装置において、外部記
憶装置5に検索対象のデータベース8(文書など)があ
るとし、それを内部記憶装置2に置かれた、本発明の機
能を含む検索プログラムにより検索するとした場合、検
索プログラムは表示装置3に検索すべき語句を指定する
ように利用者(検索者)を促し、利用者は入力装置4か
ら検索すべき語句を入力することにより指定する。検索
語句が指定されると、検索プログラムは外部記憶装置5
に置かれた基本辞書6とゆらぎ表記辞書7を参照して、
目的の語句が検索対象のデータベース8に存在するかど
うか、検索を実行する。検索結果については、成功ある
いは不成功の旨を表示装置3にメッセージで表示して利
用者に知らせる。
【0013】図3は本発明の検索プログラムの構成とそ
の機能の一例を、データベース8を検索する場合につい
て説明したものである。検索プログラムは、検索ルーチ
ン11を中心に、文書アクセスルーチン12、基本辞書
6、ゆらぎ表記辞書7、検索語指定ルーチン13、検索
結果表示ルーチン14から成る。検索語指定ルーチン1
3を通じて検索したい語句を入力装置4から指定する
と、その検索語は検索ルーチン11に渡される。検索ル
ーチン11は文書アクセスルーチン12を通じて、検索
対象のデータベース8中に検索語が含まれているか否
か、基本辞書6とゆらぎ表記辞書7を参照しながらパタ
ーンマッチングを実行する。検索結果は、検索結果表示
ルーチン14により表示装置3に表示される。
【0014】次に検索ルーチン11により参照される基
本辞書6とゆらぎ表記辞書7について説明する。基本辞
書6は、通常の日本語ワープロソフトなどの日本語処理
システムで採用されている日本語の辞書に、ゆらぎ表記
についての情報を付加したものである。送り仮名の違い
による場合などのように規則的なゆらぎ表記について
は、基本辞書6にその情報を書き込んでいる。
【0015】図4に基本辞書6のデータ部の構造の一例
を示す。図4において、21は“読み”であり、例えば
“書き込む”という語句の場合であれば、「かきこむ」
という読み情報である。22はそれに対応する漢字かな
混じりの日本語語句(標準表記)であり、上記の例の
“書き込む”であれば「書き込む」という表記である。
23は品詞などの情報、24は活用情報である。
【0016】25は規則的なゆらぎ表記がある場合のゆ
らぎ表記規則情報であり、上記の例の“書き込む”であ
れば「書き込む」と「書込む」という表記パターンの規
則があることを示す情報である。26は基本辞書6に収
録できない不規則なゆらぎ表記がゆらぎ表記辞書7に格
納されている旨のフラグであり、このフラグがオンのと
きには、ゆらぎ表記辞書7に表記パターンが書かれてい
ることを示すようになっている。27は学習のための情
報である。
【0017】ゆらぎ表記辞書7は、基本辞書6に収録で
きなかった不規則なゆらぎ表記を収録したものである。
基本辞書6の参照の結果マッチしなかった場合に続いて
参照される。
【0018】図5にゆらぎ表記辞書7のデータ部の構造
の一例を示す。図5において、31はひとまとまりのゆ
らぎ表記の先頭位置を表すとともに、表記パターンの
数、各表記パターンの長さなどの辞書管理情報を含む管
理コードである。32,33,34…は具体的な表記パ
ターンであり、例えば“インタフェース”という語句で
あれば、表記1として「インタフェース」、表記2とし
て「インターフェース」、表記3として「インターフェ
イス」のように収録しておく。なお、基本辞書6および
ゆらぎ表記辞書7は、ユーティリティプログラムにより
利用者側で変更・追加・削除ができるような構造であ
る。
【0019】図6は本発明の検索ルーチン11の動作の
一例を示すフローチャートである。検索ルーチン11
は、利用者の指示により検索対象の文書の検索範囲を固
定し(ステップ41)、それを基本辞書6を参照しなが
ら単語・文節レベルで切り出し(ステップ42)、切り
出した語句と指定された検索語とを比較する(ステップ
43)。ここで、マッチすれば(ステップ44)、検索
成功の結果を表示して(ステップ48)、終了する。
【0020】ステップ44において、基本辞書を6を使
用しての検索が成功しなければ、検索ルーチン11はゆ
らぎ表記辞書7を参照し(ステップ45)、検索語との
比較を実行する(ステップ46)。ここで、マッチすれ
ば(ステップ47)、検索成功の結果を表示して(ステ
ップ48)、終了する。また、マッチしなければ、検索
を続行する場合(ステップ49)、次の単語・文節の検
索を実施する(ステップ50)。ステップ47でマッチ
せず、ステップ49で検索を続行しない場合には、検索
不成功の結果を表示して(ステップ51)、終了する。
【0021】このようにして、検索すべき語句と同じ語
句、及びその語句と同音同義で表記が異なる語句を検索
することにより、表記の仕方に幅がある日本語文書にお
いて、「ゆらぎ表記のある語句」や「活用している語
句」、あるいは「異体字で書かれた語句」などの語句を
検索することができる。たとえば、「書き込み」と指定
すれば、「書き込み」はもちろん、「書込み」も「書
込」も検索できる。あるいは、「インタフェース」と指
定すれば、「インタフェース」だけでなく、「インター
フェース」も「インターフェイス」も検索できる。ま
た、「金沢」で指定すれば、「金沢」はもちろん「金
澤」も検索できる。したがって、本発明により、日本語
文書の検索において、日本語の表記の不統一性を気にす
ることなく検索語句を指定することが可能となる。
【0022】
【発明の効果】この発明によれば、語句の検索におい
て、検索すべき語句と同じ語句はもちろんのこと、その
語句と同音同義で表記の異なる語句まで全て検索するよ
うにしたので、日本語文書の検索において、日本語の表
記の不統一性を気にすることなく検索語句を指定でき、
そのことにより検索のヒット率の向上、および検索に要
する手間や時間の短縮が可能となる。また、関連して、
検索対象のデータベースとなる日本語文書を入力する際
や、検索のための索引を作成するときに日本語の表記に
ついて気にすることがなくなるため、データベースの作
成効率が向上するという効果が派生する。さらに、類語
検索が容易に実現できる。
【図面の簡単な説明】
【図1】本発明の構成を示すブロック図。
【図2】本発明を日本語ワードプロセッサに適用した一
実施例の構成ブロック図。
【図3】本発明の検索プログラムの構成とその機能の一
例を示すブロック図。
【図4】実施例における基本辞書のデータ部の構造の一
例を示す説明図。
【図5】実施例におけるゆらぎ表記辞書のデータ部の構
造の一例を示す説明図。
【図6】本発明の検索ルーチンの動作の一例を示すフロ
ーチャートである。
【符号の説明】
1 CPU 2 内部記憶装置 3 表示装置 4 入力装置 5 外部記憶装置 6 基本辞書 7 ゆらぎ表記辞書 8 データベース 11 検索ルーチン 12 文書アクセスルーチン 13 検索語指定ルーチン 14 検索結果表示ルーチン

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 漢字を含む多数の語句をその読み情報と
    共に記憶し、さらに各語句についてその語句と同音同義
    で表記が異なる語句をあらかじめ記憶した辞書手段と、 各種の文書を記憶した記憶手段と、 検索すべき語句を入力する入力手段と、 入力手段から検索すべき語句が入力されたとき、その検
    索すべき語句と同じ語句、及びその語句と同音同義で表
    記が異なる語句を辞書手段から読出す読出し手段と、 記憶手段に記憶された文書の中から、読出し手段によっ
    て読出された語句を検索する検索手段と、 検索手段による検索結果を表示する表示手段と、を備え
    てなる文書処理装置。
JP3320677A 1991-12-04 1991-12-04 文書処理装置 Pending JPH05158995A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3320677A JPH05158995A (ja) 1991-12-04 1991-12-04 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3320677A JPH05158995A (ja) 1991-12-04 1991-12-04 文書処理装置

Publications (1)

Publication Number Publication Date
JPH05158995A true JPH05158995A (ja) 1993-06-25

Family

ID=18124103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3320677A Pending JPH05158995A (ja) 1991-12-04 1991-12-04 文書処理装置

Country Status (1)

Country Link
JP (1) JPH05158995A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115327A (ja) * 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 情報検索装置
US6522330B2 (en) 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
JP2005346537A (ja) * 2004-06-04 2005-12-15 Dainippon Printing Co Ltd Xml異体字検索システムおよびxml異体字検索方法
JP2008083444A (ja) * 2006-09-28 2008-04-10 Casio Comput Co Ltd 情報表示制御装置及び情報表示制御プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115327A (ja) * 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 情報検索装置
US6522330B2 (en) 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
JP2005346537A (ja) * 2004-06-04 2005-12-15 Dainippon Printing Co Ltd Xml異体字検索システムおよびxml異体字検索方法
JP2008083444A (ja) * 2006-09-28 2008-04-10 Casio Comput Co Ltd 情報表示制御装置及び情報表示制御プログラム

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
JPH0525138B2 (ja)
JPH03172966A (ja) 類似文書検索装置
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JPH09198395A (ja) 文書検索装置
JPH05158995A (ja) 文書処理装置
JPH08212230A (ja) 文書検索方法及び文書検索装置
JP2835335B2 (ja) データ検索装置及びデータ検索方法
JPH05250416A (ja) データベースの登録・検索装置
JP3187671B2 (ja) 電子辞書表示装置
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH08115330A (ja) 類似文書検索方法および装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JPH01307865A (ja) 文字列検索方式
JP3720882B2 (ja) 情報検索方法、情報検索システム及び情報検索装置
JPH1185765A (ja) タグ付文書検索システム
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JP2975529B2 (ja) 電子化辞書検索装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH0785236B2 (ja) 文字データ入力装置
JPH0232455A (ja) 項目抽出方式
JPH0462665A (ja) データ検索装置
JPH0462664A (ja) データ検索装置
JPH10187735A (ja) データベース検索システムおよび方法