JPH01205266A - 単語辞書検索装置 - Google Patents

単語辞書検索装置

Info

Publication number
JPH01205266A
JPH01205266A JP63030575A JP3057588A JPH01205266A JP H01205266 A JPH01205266 A JP H01205266A JP 63030575 A JP63030575 A JP 63030575A JP 3057588 A JP3057588 A JP 3057588A JP H01205266 A JPH01205266 A JP H01205266A
Authority
JP
Japan
Prior art keywords
character string
word dictionary
search
string search
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63030575A
Other languages
English (en)
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63030575A priority Critical patent/JPH01205266A/ja
Publication of JPH01205266A publication Critical patent/JPH01205266A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、ワードプロセッサ等の文章処理装置に用いら
れ、単語辞書から文章の部分文字列に一致する全ての単
語を検索する単語辞書検索装置に関する。
(従来の技術) 近年、ワードプロセッサをはしめとする文章処理装置の
普及は著しい。このような文章処理装置において、最も
高頻度に行われる処理のひとつは、文字列検索処理であ
る。例えば、文章の所望の位貧を捜すためにある文字列
を検索したり、文章中のある文字列を全て別の文字列に
置き換えたりする場合などに、文字列検索処理が行われ
る(これを第1種の文字列検索処理とする)、キらには
、文章の検査(文章中の誤りゃ不適切な部分の検出)、
キーワードの自動抽出、文章の音声への変換、他国語へ
の自動翻訳といったより高度な文章処理を行うための第
1ステツプとして、単語辞書と文章とを照合し、単語辞
書から文章の部分文字列に一致する全ての単語を検索す
る場合にも、文字列検索処理が行われる(これを第2種
の文字列検索処理とする。)単語辞書と文章の照合は、
単語辞書に登録されている複数の単語の表記の文字列と
、文章の文字列との照合であり、やはり文字列検索処理
である。第1種の文字列検索処理と第2種の文字列検索
処理とは、文章から被検索文字列を捜し出す点では変わ
りがないが、第1種の文字列検索処理の被検索文字列は
、通常1個、多くとも数個程度であり、第2種の文字列
検索処理の被検索文字列は、通常、数刃側から数十方何
(=単語辞書に収められている単語数)という膨大な数
である点が、大きな相違点である。
そこで、従来、文字列検索処理専用に、登録モードと検
索モードとを有し、登録モードにおいては、入力される
複数の文字列を内部に記憶し、検索モードにおいては、
入力きれる文字列から、登録モードで記憶された複数の
文字列と一致する全ての部分文字列を検出する文字列検
索手段が実現きれている。このような文字列検索手段は
、次の文献(1)に示されているようにLSI化きれて
いる。
「文字列検索LSIJ (山田・平田・水弁・高橋、 電子情報通信学会技術研究報告CA S 87−25.
1987年5月29日)       ・・・文献(1
)上記のような文字列検索手段は、第1種の文字列検索
処理には容易に適用できる。すなわち、まず、登録モー
ドで被検索文字列を文字列検索手段に登録し、次に、検
索モードで文章を文字列検索手段に入力すれば、文章か
ら所望の文字列を検索することができる。
(発明が解決しようとする課題) しかし、上記の文字列検索手段を、第2種の文字列検索
処理に適用するには問題がある。前記したように被検索
文字列の数が、通常、数刃側から数十方何という膨大な
数であるためである。したがって、第1種の文字列検索
処理と同様の形態で第2種の文字列検索処理を実現しよ
うとすると(登録モードで単語辞書の各単語を登録して
、検索モードで文章を入力する方法をとると)、文字列
検索手段が非常に多くの文字列を登録可能であるか、あ
るいは、文字列検索手段が多数用意されることが必要に
なる。例えば、前記の文献(1)でLSIとして実現さ
れている文字列検索手段は、登録可能な文字列の数が6
4個であり、6万4千語の単語辞書を登録するのに、1
千個必要である。
また、文献(1)のような文字列検索手段を用いずに第
2種の文字列検索処理を実現する方法もあるが、第2種
の文字列検索処理についても文字列検索手段を用いた方
が、第1種の文字列検索処理と第2種の文字列検索処理
とで、1つの文字列検索手段を共用できる点で、文章処
理装置としては望ましい(文章処理装置として、効率の
良い構成がとれる)。
本発明の目的は、以上に述べたような文字列検索手段を
用いた単語辞書検索装置であって、かつ、従来よりも少
ない個数の文字列検索手段で構成できる単語辞書検索装
置を提供することである。
(課題を解決するための手段) 前述の課題を解決し上記目的を達成するために本発明が
提供する手段は、単語辞書から文章の部分文字列に一致
する全ての単語を検索する単語辞書検索装置であって、
前記文章から前記単語辞書における最大表記長を最長と
する可能な全ての部分文字列を抽出する部分文字列抽出
手段と、登録モードと検索モードとを有し該登録モード
においては入力される複数の文字列を内部に記憶し該検
索モードにおいては入力される文字列から前記登録モー
ドで記憶された複数の文字列と一致する全ての部分文字
列を検出する文字列検索手段と、前記文字列検索手段に
対して登録モードを設定し前記部分文字列抽出手段によ
って抽出された部分文字列を前記文字列検索手段に入力
する部分文字列登録手段と、前記文字列検索手段に対し
て検索モ−ドを設定し前記単語辞書を前記文字列検索手
段に入力する単語辞書入力手段とを備えることを特徴と
する (作用) 本発明の詳細な説明する。
本発明では、文字列検索手段に、単語辞書ではなく、文
章を登録する。すなわち、まず、登録モードで文章を文
字列検索手段に登録し、検索モードで単語辞書を入力す
るという方法である。この際、文章は、単語辞書におけ
る最大表記長を最長とする可能な全ての部分文字列に展
開して、文字列検索手段に登録する。例えば、単語辞書
における最大表記長が8とすると、1日本語を学習する
。」という9文字の文章に対しては、次のような44通
りの部分文字列を、文字列検索手段に登録することにな
る。
日本語を学習する 日本語を学習す 日本語を学習 日本語を学 日本語を 日本語 日本 日 単語を学習する。
単語を学習する 単語を学習す 単語を学習 単語を学 語を学習する。
語を学習する 語を学習す する。
する す る。
る 単語辞書における最大表記長をU、文章の長諮をnとす
ると、部分文字列の数は、一般に次式の例えば、n=8
のとき36、n=16のとき100、n=32のとき2
28である。発明が解決しようとする課題の項で述べた
ように、文献(1)で実現きれている文字列検索手段で
は、1つの文字列検索手段の内部に登録可能な文字列の
数は64個である。したがって、必要な文字列検索手段
の数は、n=8のとき1個、n=16のとき2個、n=
32のとき4個となる0文章の基本的な単位である文の
長さは、一般に、数十文字であるから、この方法の方が
、文字列検索手段に単語辞書を登録する方法に比べて、
文字列検索手段の個数が、はるかに少なくて済む(前述
したように、単語辞書を登録する従来の方法では、1千
個程度の文字列検索手段が必要であった)。
(実施例) 図面を参照して、本発明の詳細な説明する。
第1図は本発明の単語辞書検索装置の一実施例の構成を
示すブロック図である。
第1図において、単語辞書1は、単語を登録した辞書で
ある。磁気ディスク装置、磁気テープ装置、rcメモリ
、光デイスク装置などで実現することができる。第2図
は、単語辞書1の内容の例である。第2図の単語辞書1
では、表記に固定長の領域を割り当てているが、表記の
領域を可変長とするならば(単語と単語の間をデリミタ
で区切る)、単語辞書1の容量は、より小さくて済む。
また、第2図の単語辞書1では、単語が表記の文字コー
ドの順に並んでいるが、本IJJでは、文字コード順に
並んでいる必要はない。
文章入力手段2は、文章を入力する手段である。その場
で作成きれながら文章が入力される形態をとっても良い
し、予め他の装置で作成された文章をまとめて読み込む
形態をとっても良い0文章入力手段2は、キーボード、
文字認識装置、音声認識装置、かな漢字変換装置、磁気
ディスク読み取り装置、磁気テープ読み取り装置などで
実現することができる。文章入力手段2より入力された
文章は、部分文字列抽出手段3へ送られる。
部分文字列抽出手段3は、文章入力手段2より入力され
た文章から、単語辞書1における最大表記長Uを最長と
する可能な全ての部分文字列を抽出する手段である。第
3図は、部分文字列抽出手段3の処理手順の例を示すフ
ローチャートである。部分文字列抽出手段3は、文章の
先頭から末尾までの各文字位置で、その文字位置を先頭
とした最長Uの長きの異なる全ての部分文字列を抽出す
ることを繰り返す。抽出される部分文字列の例は、作用
の項で示した通りである。部分文字列抽出手段3は、抽
出した部分文字列を部分文字列登録手段5へ送る。
文字列検索手段4は、登録モードと検索モードとを有し
、登録モードにおいては、入力される複数の文字列を内
部に記憶し、検索モードにおいては、入力きれる文字列
から、登録モードで記憶された複数の文字列と一致する
全ての部分文字列を検出する手段である。文字列検索手
段4は、公知の手段であり、例えば、前記の文献(1)
のようにして実現できる。文献(1)のようにして文字
列検索手段4を実現した場合、登録モードと検索モード
の切り替えは、外部からの信号を受は取ることによって
行われる。登録モードにおいては、まず、登録アドレス
(文字列検索手段4の内部に記憶する位置)が外部から
設定され、続いて、登録する文字列とが外部から入力さ
れたならば、文字列検索手段4は、文字列を1つ内部に
記憶する。これが繰り返されると、複数の文字列が文字
列検索手段4の内部に記憶きれることになる。検索モー
ドにおいては、登録モードで記憶された文字列と一致す
る文字列が入力されるごとに、文字列検索手段4は、一
致した文字列の登録アドレスを出力する。また、その際
、入力きれる文字列における一致位e(一致アドレス)
は、登録アドレスが出力されたときに、文字列検索手段
4に文字列がどこまで入力されたかをカウントしておく
ことによって得られ、登録アドレスが出力才れるりと同
時に、文字列検索手段4から出力きれる。
部分文字列登録手段5は、文字列検索手段4に対して登
録モードを設定し、部分文字列抽出手段3から送られて
きた複数の部分文字列を、文字列検索手段4へ入力する
手段である。第4図は、文献(1)のようにして文字列
検索手段4を実現した場合の、部分文字列登録手段5の
処理手順を示すフローチャートである。部分文字列登録
手段5は、まず、文字列検索手段4へ登録モードを設定
する信号を送る(その信号により文字列検索手段4は登
録モードになる)。そして、部分文字列登録手段5は、
部分文字列抽出手段3から部分文字列を1つずつ受は取
り、受は取った部分文字列を文字列検索手段4へ登録す
ることを繰り返す。部分文字列の文字列検索手段4への
登録は、登録アドレスを設定した後、登録する部分文字
列を文字列検索手段4へ入力するという処理である。部
分文字列抽出手段3がら送られてくる部分文字列がなく
なったならば、部分文字列登録手段5は文字列検索手段
4へ登録モードを解除する信号を送り、処理を終了する
(ただし、登録モードを解除する信号は、単語辞書入力
手段6の発する検索モード設定信号で代用して省略する
形もとれる)。
単語辞書入力手段6は、文字列検索手段4に対して検索
モードを設定し、単語辞書1を文字列検索手段4へ人力
する手段である。処理手順は、部分文字列登録手段5と
ほば同様で、まず、文字列検索手段4に検索モードを設
定する信号を送り、次に、R語辞書1を文字列検索手段
4へ入力し、その入力が完了したら、文字列検索手段4
へ検索モードを解除する信号を送る。なお、単語辞書入
力手段6は、部分文字列登録手段5による部分文字列の
文字列検索手段4への登録処理が完了してから、起動さ
れる必要がある。
検索結果記憶手段7は、文字列検索手段4による検索結
果を記憶する手段である。磁気ディスク装置、磁気テー
プ装置、ICメモリなどで実現することができる。検索
結果とは、文章中のどの部分に、どのような単語が出現
したか(車語辞書中の単語と文章がどこで一致したか)
という情報である。文章中のどの部分かという情報は、
文字列検索手段4において一致が発生したときに、文字
列検索手段4から出力きれる(一致した部分文字列の)
登録アドレスと対応する。どのような単語かという情報
は、文字列検索手段4において一致が発生したときに、
文字列検索手段4から出力される、単語辞書1の一致ア
ドレスと対応する。そこで、検索結果記憶手段7は、一
致が発生したときの、部分文字列の登録アドレスと単語
辞書1の一致アドt・スの組を記憶する。この2つのア
ドレスは、一致が発生したときに文字列検索手段4から
出力される情報であるから、それをそのまま記憶すれば
よい。
制御手段8は、文章入力手段21g3分文字列抽出手段
39文字列検索手段49部分文字列登録手段5.単語辞
書入力手段6の動作を制御し、第5図のような処理を行
わせる手段である。コンピュータのCPUなどが用いら
れる。制御手段8は、まず、文章入力手段2を起動して
文章を入力する。次に、制御手段8は、部分文字列抽出
手段3を起動して、文章から部分文字列を抽出する。続
いて、制御手段8は、部分文字列抽出手段5を起動し、
部分文字列を文字列検索手段4に登録する(この際、文
字列検索手段4は登録モードに設定され、部分文字列登
録手段5より入力きれる部分文字列を、内部に記憶する
)。続いて、制御手段8は、単語辞書入力手段6を起動
し、単語辞書1を文字列検索手段4へ入力する(この際
、文字列検索手段4は検索モードに設定きれ、内部に記
憶された部分文字列に対して単語辞書1を検索した結果
を、検索結果記憶手段7へ出力する)。
なお、1個の文字列検索手段4では文字列が登録しきれ
ない場合には、登録できる数ずつ登録・検索を繰り返す
方法か、または、複数個の文字列検索手段4を用いる方
法をとればよい。複数個の文字列検索手段4を用いる場
合には、登録モードでは、制御手段8が文字列検索手段
4に登録された文字列の数を町視し、1つの文字列検索
手段4の登録可能数に達したならば、単位文字列登録手
段5へ登録する文字列検索手段4を切り替える指令を送
るようにする。検索モードでは、単語辞書入力手段6は
、複数の文字列検索手段4へ並列に単語辞書1を入力し
、文字列検索手段4から出力きれる検索結果は、全て検
索結果記憶手段7へ書き込むようにする。
従来技術の項で示した第1種の文字列検索処理の実施形
態では、検索モードにおいて、文章を文字列検索手段に
入力する。この際、文章の任意の文字位置から照合が行
われる形がとられる。しかし、本発明のように、検索モ
ードにおいて、単語辞書を文字列検索手段に入力する場
合には、単語辞書の文字列の任意の位置から照合を行う
必要はない。各単語の表記の先頭位置から照合を開始す
ればよい。そのような照合開始位置の制限を行うために
は、次のような2つの方法がある。通常、単語辞書内の
表記は単語ごとにデリミクで区切られている。そこで、
第一の方法は、文字列検索手段の照合がデリミタの直後
から行われるように制御することである(これは、一般
に、アンカーマツチと呼ばれろ照合方法である)。文献
(1)に示されている文字列検索手段では、そのような
アンカーマツチを実現できるようになっている。
第二の方法は、アンカー−マツチを用いずに、登録する
部分文字列の先頭にデリミタを登録しておくものである
。これによって、文字列検索手段がアンカーマツチ機能
を持たなくとも、単語辞書内のデリミタ位置から照合が
行える。
また、第1種の文字列検索処理を、これまでに述へてい
る文字列検索手段で行っているような文章作成装置に、
本発明の単語辞書検索装置を組み込むならば、文字列検
索手段を、第1種の文字列検索処理と第2種の文字列検
索処理とで共用することができる。
(発明の効果) 以上に説明したように、本発明によれば、文字列検索手
段を用いた単語辞書検索装置であって、かつ、従来より
も少ない個数の文字列検索手段で構成できる単語辞書検
索装置が得られる。
そして、文字列検索手段を用いた単語辞書検索装置であ
るので、第1種の文字列検索処理を、文字列検索手段で
行う文章作成装置と組み合わせることによって、文字列
検索手段を、第1種の文字列検索処理と第2種の文字列
検索処理とで共用する、効率の良い構成の文章作成装置
が実現できる。そして、単語辞書検索装置を組み込むこ
とによって、文章作成装置は、文章について単なる文字
列の情報だけでなく、単語の情報を利用することができ
るようになり、文章の検査や文章の音声変換をはじめと
する、より高度な文章処理を行えるようになる。
また、本発明の単語辞書検索装置では、単語辞書に登録
きれている単語は、必ずしも表記の文字フード類に並べ
られている必要はない。従来、単語辞書については、そ
のなかに登録されている単語の並びを管理することが、
単語の追加・削除作業に大きな負荷を加えていた1本発
明で用いているi語辞書は、そのような追加・削除作業
の負荷をなくすことができる。
【図面の簡単な説明】
第1ryJは本発明の一実施例の構成を示すブロック図
、第2図は単語辞書1の内容の例を示す図、第3図は部
分文字列抽出手段3の処理手順を示すフローチャート、
第4図は部分文字列登録手段5の処理手順を示すフロー
チャート、第5図は第1図実施例の処理手順を示すフロ
ーチャートである。 1・・・単語辞書、2・・・文章入力手段、3・・・部
分文字列抽出手段、4・・・文字列検索手段、5・・・
部分文字列登録手段、6・・・単語辞書入力手段、7・
・・検索結果記憶手段、8・・・制御手段。

Claims (1)

    【特許請求の範囲】
  1. 単語辞書から文章の部分文字列に一致する全ての単語を
    検索する単語辞書検索装置において、前記文章から前記
    単語辞書における最大表記長を最長とする可能な全ての
    部分文字列を抽出する部分文字列抽出手段と、登録モー
    ドと検索モードとを有し該登録モードにおいては入力さ
    れる複数の文字列を内部に記憶し該検索モードにおいて
    は入力される文字列から前記登録モードで記憶された複
    数の文字列と一致する全ての部分文字列を検出する文字
    列検索手段と、前記文字列検索手段に対して登録モード
    を設定し前記部分文字列抽出手段によって抽出された部
    分文字列を前記文字列検索手段に入力する部分文字列登
    録手段と、前記文字列検索手段に対して検索モードを設
    定し前記単語辞書を前記文字列検索手段に入力する単語
    辞書入力手段とを備えることを特徴とする単語辞書検索
    装置。
JP63030575A 1988-02-10 1988-02-10 単語辞書検索装置 Pending JPH01205266A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63030575A JPH01205266A (ja) 1988-02-10 1988-02-10 単語辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63030575A JPH01205266A (ja) 1988-02-10 1988-02-10 単語辞書検索装置

Publications (1)

Publication Number Publication Date
JPH01205266A true JPH01205266A (ja) 1989-08-17

Family

ID=12307647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63030575A Pending JPH01205266A (ja) 1988-02-10 1988-02-10 単語辞書検索装置

Country Status (1)

Country Link
JP (1) JPH01205266A (ja)

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US7599921B2 (en) System and method for improved name matching using regularized name forms
KR101694179B1 (ko) 모음 제거 기반 인덱스 생성 방법 및 장치
US8131537B2 (en) Apparatus and method for morphological analysis
JPH01205266A (ja) 単語辞書検索装置
JPH07287716A (ja) 辞書検索装置
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH1011431A (ja) 漢字検索装置および方法
JPH01205226A (ja) 単語辞書検索装置
JPH01205267A (ja) 単語辞書検索装置
JP2021136008A (ja) 要約テキストのタギング方法、装置、デバイス及びコンピュータ記憶媒体
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH0231274A (ja) 単語辞書検索装置
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JPH05165889A (ja) 文書検索装置
JPS62282364A (ja) 文字列検索方式
JP5323650B2 (ja) 対訳辞書拡張装置、及び、対訳辞書拡張プログラム
JPH01258069A (ja) 日本語文字列の形態素解析方式
JP2001125907A (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPS63138479A (ja) 文字認識装置
JPH06266765A (ja) 文章検索装置
JPS62256075A (ja) 辞書検索方式
JPS61128364A (ja) 辞書検索装置