JPH01205267A - 単語辞書検索装置 - Google Patents

単語辞書検索装置

Info

Publication number
JPH01205267A
JPH01205267A JP63030576A JP3057688A JPH01205267A JP H01205267 A JPH01205267 A JP H01205267A JP 63030576 A JP63030576 A JP 63030576A JP 3057688 A JP3057688 A JP 3057688A JP H01205267 A JPH01205267 A JP H01205267A
Authority
JP
Japan
Prior art keywords
character string
word dictionary
search
character
string search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63030576A
Other languages
English (en)
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63030576A priority Critical patent/JPH01205267A/ja
Publication of JPH01205267A publication Critical patent/JPH01205267A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、ワードプロセッサ等の文章処理装置に用いら
れ、単語辞書から文章の部分文字列に一致する全ての単
語を検索する単語辞書検索装置に関する。
(従来の技術) 近年、ワードプロセッサをはじめとする文章処理装置の
普及は著しい。このような文章処理装置において、最も
高頻度に行われる処理のひとつは、文字列検索処理であ
る。例えば、文章の所望の位置を捜すためにある文字列
を検索したり、文章中のある文字列を全て別の文字列に
置き換えたリする場合などに、文字列検索処理が行われ
る(これを第1種の文字列検索処理とする)。さらには
、文章の検査(文章中の誤りや不適切な部分の検出)、
キーワードの自動抽出9文章の音声への変換、他国語へ
の自動翻訳といったより高度な文章処理を行うための第
1ステツプとして、単語辞書と文章とを照合し、単語辞
書から文章の部分文字列に一致する全ての単語を検索す
る場合にも、文字列検索処理が行われる(これを第2種
の文字列検索処理とする)。単語辞書と文章の照合は、
単語辞書に登録されている複数の単語の表記の文字列と
、文章の文字列との照合であり、やはり文字列検索処理
である。第1種の文字列検索処理と第2種の文字列検索
処理とは、文章から被検索文字列を捜し出す点では変わ
りがないが、第1種の文字列検索処理の被検索文字列は
、通常1個、多くとも数個程度であり、第2種の文字列
検索処理の被検索文字列は、通常、牧刃側から数十方何
(=単語辞書に収められている単語数)という膨大な数
である点が、大きな相違点である。
そこで、従来、文字列検索処理専用に、登録モードと検
索モードとを有し、登録モードにおいては、入力きれる
複数の文字列を内部に記憶し、検索モードにおいては、
入力きれる文字列(ワイルドカード文字を含むことを許
す)から、登録モードで記憶された複数の文字列と一致
する全ての部分文字列を検出する文字列検索手段が実現
きれている。このような文字列検索手段は、次の文献(
1)に示されているようにLSI化されている。なお、
ワイルドカード文字とは、任意の文字と一致するように
予め定められた特殊文字である。
r文字列検索LSIJ (山田・平田・水弁・高橋、 電子情報通信学会技術研究報告CA S 87−25.
1987年5月29日)       ・・・文献(1
)上記のような文字列検索手段は、第1種の文字列検索
処理には容易に適用できる。すなわち、まず、登録モー
ドで被検索文字列を文字列検索手段に登録し、次に、検
索モードで文章を文字列検索手段に入力すれば、文章か
ら所望の文字列を検索することができる。
(発明が解決しようとする課題) しかし、上記の文字列検索手段を、第2種の文字列検索
処理に適用するには問題がある。前記したように被検索
文字列の数が、通常、数刃側から数十方何という膨大な
数であるためである。したがって、第1種の文字列検索
処理と同様の形態で第2種の文字列検索処理を実現しよ
うとすると(登録モードで単語辞書の各単語を登録して
、検索モードで文章を入力する方法をとると)、文字列
検索手段が非常に多くの文字列を登録可能であるか、あ
るいは、文字列検索手段が多数用意きれることが必要に
なる。例えば、前記の文献(1)でLSIとして実現さ
れている文字列検索手段は、登録可能な文字列の数が6
4個であり、6万4千語の単語辞書を登録するのに、1
千個必要である。
そこで、文字列検索手段に、単語辞書ではなく、文章を
登録する方法が考えられる。すなわち、まず、登録モー
ドで文章を文字列検索手段に登録し、検索モードで単語
辞書を入力するという方法である。文章の基本的な単位
である文の長さは、一般に、数十文字であるから、この
方法の方か、単語辞書を登録する方式に比べて、文字列
検索手段の個数が少なくて済む。しかし、文章に対して
、先頭文字位置と文字列長を変えて形成した可能な全て
のパターンを、文字列検索手段に登録する必要がある。
例えば、「日本語を学習するヨという8文字の文に対し
ては、次のようなバリエーション(36通り)を登録す
る必要がある。8文字程度の文で36通りであるから、
数十文字の文に対しては数百通りから数千通りともなり
、やはり、文字列検索手段が多数必要になってくる。
日本語を学習する 日本語を学習す 日本語を学習 日本語を学 日本語を 日本語 日本 日 単語を学習する 単語を学習す 単語を学習 単語を学 語を学習する 語を学習す また、ここで述べたような文字列検索手段を用いずに第
2種の文字列検索処理を実現する方法もあるが、第2種
の文字列検索処理についても文字列検索手段を用いた方
が、第1種の文字列検索処理と第2種の文字列検索処理
とで、1つの文字列検索手段を共用できる点で、文章処
理装置としては望ましい(文章処理装置として、効率の
良い構成がとれる)。
本発明の目的は、以上に述べたような文字列検索手段を
用いた単語辞書検索装置であって、かつ、従来よりも少
ない個数の文字列検索手段で構成できる単語辞書検索装
置を提供することである。
(課題を解決するための手段) 前述の課題を解決し上記目的を達成するために本発明が
提供する手段は、単語辞書から文章の部分文字列に一致
する全ての単語を検索する単語辞書検索装置であって、
前記単語辞書は各単語の表記に対して固定長の領域を持
ち該固定長の領域に表記を収めて余った部分にワイルド
カード文字を詰めた形態をとり、前記文章の全文字位置
から前記固定長の領域と同一長の単位文字列を抽出する
単位文字列抽出手段と、登録モードと検索モードとを有
し該登録モードにおいては入力される複数の文字列を内
部に記憶し該検索モードにおいては入力されるワイルド
カード文字を含む文字列から前記登録モードで記憶され
た複数の文字列と一致する全ての部分文字列を検出する
文字列検索手段と、前記文字列検索手段に対して登録モ
ードを設定し前記単位文字列抽出手段によって抽出啓れ
た複数の単位文字列を前記文字列検索手段に入力する単
位文字列登録手段と、前記文字列検索手段に対して検索
モードを設定し前記単語辞書を前記文字列検索手段に入
力する単語辞書入力手段とを備えることを特徴とする。
(作用) 本発明の詳細な説明する。
本発明における単位文字列抽出手段は、長さがn文字の
文章から、n通りの単位文字列を抽出する。このときの
単位文字列の長さUは、単語辞書中の表記を収める領域
の長さと同一とする(i語辞書中の最大長の表記よりも
長い文章の部分文字列と照合を行っても無駄である)。
発明が解決しようとする課題の項で示したような文章を
文字列検索手段に登録する従来の方法では、長さがnの
文章から抽出した先頭位置の異なるn通りの単位文字列
を、さらに、長さの異なる部分文字列に展開するわけで
あるから、部分文字列の総数(文字列検索手段に登録す
る文字列の数)は、次のようになる。
n≦Uのとき □n(n+1) n>uのとき (n−u)u+−u(u+1)=−u(
2n−u+1) 例えば、u=8とすると上記の式の値は、n=8のとき
36、n=16のとき100、n=32のとき228で
ある。本発明で文字列検索手段に登録する単位文字列の
数は、n=8のとき8、n=16とき1G、n=32の
とき32であるから、従来の方法に比べて、はるかに少
なくて済む(したがって、文字列検索手段の数も少なく
て済む)。
そして、本発明では、単位文字列を長さの異なる部分文
字列に展開する代わりに、単語辞書中の単語の表記にワ
イルドカード文字を付加し、文字列検索手段のワイルド
カード文字を照合する機能を利用することによって、単
位文字列から長きの異なる複数の単語を検出するように
している。第2図は従来の単語辞書の内容の例であり、
第3図は本発明における単語辞書の内容の例である1例
えは、「日本語を学習する」という文章の先頭から「日
本語ヨ「日本ヨ「日」という単語群を抽出する場合、従
来の方法ならば、次のような8通りの部分文字列と、第
2図のような単語辞書10とを照合することになる。
日本語を学習する 日本語を学習す 日本語を学習 日本語を学 日本語を 日本語 日本 日 しかし、本発明では、単語辞書中にワイルドカード文字
が埋め込まれているので、「日本語を学習する。という
1通りの単位文字列と、第3図のような単語辞書1とを
照合すればよいことになる。
(実施例) 図面を参照して、本発明の詳細な説明する。
第1図は本発明の単語辞書検索装置の一実施例の構成を
示すブロック図である。
第1図において、単語辞書1は、単語を登録した辞書で
ある。磁気ディスク装置、磁気テープ装置、ICメモリ
、光デイスク装置などで実現することかできる。ただし
、本発明における単語辞書1は、各単語の表記に対して
、固定長(以下、この長さをUで表す)の領域を持ち、
この固定長の領域に表記を収めて余った部分に、ワイル
ドカード文字を詰めた形態をとる。第3図は、単語辞書
1の内容の例である。第3図の単語辞書1では、ワイル
ドカード文字を「$、で表している。
また、第3図の単語辞書1では、u=8としである(以
下、動作例を示す場合には、uw8の場合で説明する)
文章入力手段2は、文章を入力する手段である。その場
で作成されながら文章が入力される形態をとっても良い
し、予め他の装置で作成された文章をまとめて読み込む
形態をとっても良い。文章入力手段2は、キーボード、
文字認識装置、音声認識装置、かな漢字変換装置、磁気
ディスク読み取り装置、磁気テープ読み取り装置などで
実現することができる。文章入力手段2より入力された
文章は、単位文字列抽出手段3へ送られる。
単位文字列抽出手段3は、文章入力手段2より入力され
た文章の全文字位置から、固定長Uの単位文字列を抽出
する手段である。例えば、′第1図は本発明の単語辞書
検索装置の一実施例の構成を示すブロック図である。、
という文章からは、次のような単位文字列(u=8の場
合)を抽出する。単位文字列抽出手段3は、抽出した単
位文字列を単位文字列登録手段5へ送る。
第1図は本発明の 1図は本発明の単 図は本発明の単語 は本発明の単語界 本発明の単語辞書 すブロック図であ ブロック図である ロック図である。
ツク図である。
り図である。
図である。
である。
ある。
る。
文字列検索手段4は、登録モードと検索モードとを有し
、登録モードにおいては、入力される複数の文字列を内
部に記憶し、検索モードにおいては、入力される文字列
(ワイルドカード文字を含むことを許す)から、登録モ
ードで記憶された複数の文字列と一致する全ての部分文
字列を検出する手段である6文字列検索手段4は、公知
の手段であり、例えば、前記の文献(1)のようにして
実現できる。文献(1)のようにして文字列検索手段4
を実現した場合、登録モードと検索モードの切り替えは
、外部からの信号を受は取ることによって行われる。登
録モードにおいては、まず、登録アドレス(文字・列検
索手段4の内部に記憶する位置)が外部から設定され、
続いて、登録する文字列とが外部から入力されたならば
、文字列検索手段4は、文字列を1つ内部に記憶する。
これが繰り返されると、複数の文字列が文字列検索手段
4の内部に記憶されることになる。検索モードにおいて
は、登録モードで記憶された文字列と一致する文字列が
入力されるごとに、文字列検索手段4は、一致した文字
列の登録アドレスを出力する。また、その際、入力され
る文字列における一致位置(一致アドレスは、登録アド
レスが出力されたときに、文字列検索手段4に文字列が
どこまで入力されたかをカウントしておくことによって
得られ、登録アドレスが出力されるのと同時に、文字列
検索手段4から出力される。
単位文字列登録手段5は、文字列検索手段4に対して登
録モードを設定し、単位文字列抽出手段3から送られて
きた複数の単位文字列を、文字列検索手段4へ入力する
手段である。第4図は、文献(1)のようにして文字列
検索手段4を実現した場合の、単位文字列登録手段5の
処理手順を示すフローチャートである。単位文字列登録
手段5は、まず、文字列検索手段4へ登録モードを設定
する信号を送る(その信号により文字列検索手段4は登
録モードになる)。そして、単位文字列登録手段5は、
単位文字列抽出手段3かも単位文字列を1つずつ受は取
り、受は取った単位文字列を文字列検索手段4へ登録す
ることを繰り返す。単位文字列の文字列検索手段4への
登録は、登録アドレスを設定した後、登録する単位文字
列を文字列検索手段4へ入力するという処理である。単
位文字列抽出手段3から送られてくる単位文字列がなく
なったならば、単位文字列登録手段5は文字列検索手段
4へ登録モードを解除する信号を送り、処理を終了する
(ただし、登録モードを解除する信号は、単語辞書入力
手段6の発する検索モード設定信号で代用して省略する
形もとれる)。
単語辞書入力手段6は、文字列検索手段4に対して検索
モードを設定し、単語辞書1を文字列検索手段4へ入力
する手段である。処理手順は、単位文字列登録手段5と
ほぼ同様で、まず、文字列検索手段4に検索モードを設
定する信号を送り、次に、単語辞書1を文字列検索手段
4へ入力し、その入力が完了したら、文字列検索手段4
へ検索モードを解除する信号を送る。なお、単語辞書入
力手段6は、単位文字列登録手段5による単位文字列の
文字列検索手段4への登録処理が完了してから、起動さ
れる必要がある。
検索結果記憶手段7は、文字列検索手段4による検索結
果を記憶する手段である。磁気ディスク装置、磁気テー
プ装置、ICメモリなどで実現することができる。検索
結果とは、文章中のどの部分に、どのような単語が出現
したか(単語辞書中の単語と文章がどこで一致したか)
という情報である。文章中のどの部分かという情報は、
文字列検索手段4において一致が発生したときに、文字
列検索手段4から出力きれる(一致した単位文字列の)
登録アドレスと対応する。どのような単語かという情報
は、文字列検索手段4において一致が発生したときに、
文字列検索手段4かも出力きれる、単語辞書1の一致ア
ドレスと対応する。そこで、検索結果記憶手段7は、一
致が発生したときの、単位文字列の登録アドレスと単語
辞書1の一致アドレスの組を記憶する。この2つのアド
レスは、一致が発生したときに文字列検索手段4から出
力いれる情報であるから、それをそのまま記憶すればよ
い。
制御手段8は、文章入力手段2.単位文字列抽出手段3
9文字列検索手段4.単位文字列登録手段5.単語辞書
入力手段6の動作を制御し、第5図のような処理を行わ
せる手段である。コンピュータのCPUなどが用いられ
る。制御手段8は、まず、文章入力手段2を起動して文
章を入力する。次に、制御手段8は、単位文字列抽出手
段3を起動して、文章から単位文字列を抽出する。続い
て、制御手段8は、単位文字列登録手段5を起動し、単
位文字列を文字列検索手段4に登録する(この際、文字
列検索手段4は登録モードに設定きれ、単位文字列登録
手段5より入力される単位文字列を、内部に記憶する)
。続いて、制御手段8は、単語辞書入力手段6を起動し
、単語辞書1を文字列検索手段4へ入力する(この際、
文字列検索手段4は検索モードに設定され、内部に記憶
された単位文字列に対して単語辞書1を検索した結果を
、検索結果記憶手段7へ出力する)。
なお、1個の文字列検索手段4では文字列が登録しきれ
ない場合には、登録できる数ずつ登録・検索を繰り返す
方法か、または、複数個の文字列検索手段4を用いる方
法をとればよい。複数個の文字列検索手段4を用いる場
合には、登録モードでは、制御手段8が文字列検索手段
4に登録された文字列の数を監視し、1つの文字列検索
手段4の登録可簀数に達したならば、単位文字列登録手
段5へ登録する文字列検索手段4を切り替える指令を送
るようにする。検索モードでは、単語辞書入力手段6は
、複数の文字列検索手段4へ並列に単語辞書1を入力し
、文字列検索手段4から出力きれる検索結果は、全て検
索結果記憶手段7へ書き込むようにする。
従来技術の項で示した第1種の文字列検索処理の実施形
態では、検索モードにおいて、文章を文字列検索手段に
入力する。この際、文章の任意の文字位置から照合が行
われる形がとられる。しかし、本発明のように、検索モ
ードにおいて、単語辞書を文字列検索手段に入力する場
合には、単語辞書の文字列の任意の位置から照合を行う
必要はない。各単語の表記の先頭位置から照合を開始す
ればよい。そのような照合開始位置の制限を行うために
は、次のような2つの方法がある。通常、単語辞書内の
表記は単語ごとにデリミタで区切られている。そこで、
第一の方法は、文字列検索手段の照合がデリミタの直後
から行われるように制御することである(これは、一般
に、アンカーマツチと呼ばれる照合方法である)。文献
(1)に示されている文字列検索手段では、そのような
アンカーマツチを実現できるようになっている。第二の
方法は、アンカーマツチを用いずに、登録する単位文字
列の先頭にデリミタを登録しておくものである。これに
よって、文字列検索手段がアンカーマツチ機爺を持たな
くとも、単語辞書内のデリミタ位置から照合が行える。
また、第1種の文字列検索処理を、これまでに述べてい
る文字列検索手段で行っているような文章作成装置に、
本発明の単語辞書検索装置を組み込むならば、文字列検
索手段を、第1種の文字列検索処理と第2種の文字列検
索処理とで共用することができる。
(発明の効果) 以上に説明したように、本発明によれば、文字列検索手
段を用いた単語辞書検索装置であって、かつ、従来より
も少ない個数の文字列検索手段で構成できる単語辞書検
索装置が得られる。
そして、文字列検索手段を用いた単語辞書検索装置であ
るので、第1種の文字列検索処理を、文字列検索手段で
行う文章作成装置と組み合わせることによって、文字列
検索手段を、第1種の文字列検索処理と第2種の文字列
検索処理とで共用する、効率の良い構成の文章作成装置
が実現できる。そして、単語辞書検索装置を組み込むこ
とによって、文章作成装置は、文章について単なる文字
列の情報だけでなく、単語の情報を利用することができ
るようになり、文章の検査や文章の音声変換をはじめと
する、より高度な文章処理を行えるようになる。
なお、本発明の単語辞書検索装置では、単語辞書に登録
されている単語は、必ずしも表記の文字コード順に並べ
られている必要はない。従来、単語辞書については、そ
のなかに登録きれている単語の並びを管理することが、
単語の追加・削除作業に大きな負荷を加えていた。本発
明で用いている単語辞書は、そのような追加・削除作業
の負荷をなくすことができる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図、第
2図は従来の単語辞書の内容の例を示す図、第3図は本
発明の単語辞書1の内容の例を示す図、第4図は第1図
実施例における単位文字列登録手段5の処理手順を示す
フローチャート、第5図は第1図実施例の処理手順を示
すフローチャートである。 1・・・単語辞書、2・・・文章入力手段、3・・・単
位文字列抽出手段、4・・・文字列検索手段、5・・・
単位文字列登録手段、6・・・単語辞書入力手段、7・
・・検索結果記憶手段、8・・・制御手段。

Claims (1)

    【特許請求の範囲】
  1. 単語辞書から文章の部分文字列に一致する全ての単語を
    検索する単語辞書検索装置において、前記単語辞書は各
    単語の表記に対して固定長の領域を持ち該固定長の領域
    に表記を収めて余った部分にワイルドカード文字を詰め
    た形態をとり、前記文章の全文字位置から前記固定長の
    領域と同一長の単位文字列を抽出する単位文字列抽出手
    段と、登録モードと検索モードとを有し該登録モードに
    おいては入力される複数の文字列を内部に記憶し該検索
    モードにおいては入力されるワイルドカード文字を含む
    文字列から前記登録モードで記憶された複数の文字列と
    一致する全ての部分文字列を検出する文字列検索手段と
    、前記文字列検索手段に対して登録モードを設定し前記
    単位文字列抽出手段によって抽出された複数の単位文字
    列を前記文字列検索手段に入力する単位文字列登録手段
    と、前記文字列検索手段に対して検索モードを設定し前
    記単語辞書を前記文字列検索手段に入力する単語辞書入
    力手段とを備えることを特徴とする単語辞書検索装置。
JP63030576A 1988-02-10 1988-02-10 単語辞書検索装置 Pending JPH01205267A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63030576A JPH01205267A (ja) 1988-02-10 1988-02-10 単語辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63030576A JPH01205267A (ja) 1988-02-10 1988-02-10 単語辞書検索装置

Publications (1)

Publication Number Publication Date
JPH01205267A true JPH01205267A (ja) 1989-08-17

Family

ID=12307675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63030576A Pending JPH01205267A (ja) 1988-02-10 1988-02-10 単語辞書検索装置

Country Status (1)

Country Link
JP (1) JPH01205267A (ja)

Similar Documents

Publication Publication Date Title
US5560037A (en) Compact hyphenation point data
JPS6359660A (ja) 情報処理装置
JPH01205267A (ja) 単語辞書検索装置
US20050086048A1 (en) Apparatus and method for morphological analysis
JP3396734B2 (ja) コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
JP3253657B2 (ja) 文書検索方法
JP2792147B2 (ja) 文字処理方法およびその装置
JP3459049B2 (ja) 文字列検索方法およひ装置
JP3166629B2 (ja) 辞書作成装置と語切り出し装置
JPH0231274A (ja) 単語辞書検索装置
JPH01205226A (ja) 単語辞書検索装置
JPH01205266A (ja) 単語辞書検索装置
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JP4303027B2 (ja) 字句をデータに変換する装置及び方法
JPS6057421A (ja) 文書作成装置
JP2000311170A (ja) テキスト情報抽出方法
JP2526670B2 (ja) 単語辞書検索装置
JPH0268663A (ja) 文字列検索装置
JPH0670788B2 (ja) 巣語辞書検索装置
JPH0231273A (ja) 単語辞書検索装置
JP3375978B2 (ja) 文書処理装置
JPH01258069A (ja) 日本語文字列の形態素解析方式
JPS62256075A (ja) 辞書検索方式
JPS6059487A (ja) 手書文字認識装置
JPH03110676A (ja) 単語辞書検索装置