JPS60225273A - 単語検索方式 - Google Patents

単語検索方式

Info

Publication number
JPS60225273A
JPS60225273A JP59081165A JP8116584A JPS60225273A JP S60225273 A JPS60225273 A JP S60225273A JP 59081165 A JP59081165 A JP 59081165A JP 8116584 A JP8116584 A JP 8116584A JP S60225273 A JPS60225273 A JP S60225273A
Authority
JP
Japan
Prior art keywords
character
word
key
notation
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59081165A
Other languages
English (en)
Other versions
JPH0233185B2 (ja
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP59081165A priority Critical patent/JPS60225273A/ja
Publication of JPS60225273A publication Critical patent/JPS60225273A/ja
Publication of JPH0233185B2 publication Critical patent/JPH0233185B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、与えられた文字列の部分文字列と表記の一致
する単語を単語辞書から検索する単語検索方式に関する
ものである。
日本語文の文字列は、英文等のような単語単位の分かち
書きの習慣を持たず、通常べた書きで表記される。その
ため、日本語文を電子計算機等を用いて機械的に解析す
る際にはまず、与えられた文字列の部分文字列と表記の
一致する単語を単語辞書から検索することによって、同
与えられた文存列から単語を検索することが必要となる
第1図は上記のような単語検索に用いられる単語辞書の
例を示した1士あり、単語に対応する各レコードは表記
部11と単語情報部12とを有し、同表記部11の文字
コード列の順に収容されている。
ただし、単語情報部12は、単語検索後に文法的解析を
行う際に参照される品詞情報や音声出力する場合に用い
られる読み・アクセント情報等が収められたものであシ
、轟単語検紫において必要1とされる情報ではない。さ
て、従来の単語検索刃ドは、このような単語辞書を用い
、与えられた文−列に対応する文字コード列と単語辞書
の表記部の文字コード列とを文字コード列の先頭から比
較照合することにより、同与えられた文字列の先頭から
表記の一致する単語を検出するものである。
例えば、文字列「雨季になると」に対して「雨季」「雨
」が検出される。この単語検索方式を検出された単語の
直後の文字列に対して繰シ返し適用することによって与
えられた文字列を単語単位に分割することが可能である
が、この単語検索方式は前述のように先頭から表記の一
致する単語を検出するものであるため、与えられた文字
列が例えば文字認識結果のような複数の文字候補を有す
る文字列であったシ、単語辞書に未収容の単語が出現し
たシ、解析結果が複数過多存在する等によって、検索す
べき文字列の先頭位置が曖昧になる場合には効率的な適
用ができないという欠点を有する。
本発明の目的は、このような従来の欠点を除去し、与え
られた文字列と単語辞書の表記部との照合を文字列の先
頭位置からに限定しない柔軟性のある単語検索方式を提
供することにある。
即ち、本発明は、与えられた文字列の部分文字列と表記
の一致する単語を単語辞書から検索する連語検索方式に
して、同単語辞書における表記部jJK対して単語検索
におけるキーとなるキー文字部lと同キー文字部よシ前
方の表記部分である前方表記部と同キー文字部よシ後方
の表記部分である後方表記部とを設け、前記与えられた
文字列中に前記キー文字部との照合の対象となるキー文
字を設定するキー文字設定手段と、前記4見られた文字
列中に設定された前記キー文字を前記キー文字部と照合
することによシ前記単語辞書から検索する“−文字検索
手段と・前記与えられ7文字列に1 1ける前記キー文
字よシ前方の部分文字列と前記前方表記部とを照合する
前方表記部層合手段と、前記与えられた文字列における
前記キー文字よシ後方の部分文字列と前記後方表記部と
を照合する後方表記部照合手段とを用いて、前記与えら
れた文字列と前記単語辞書における表記部との照合を前
記キー文字から前方および後方に行うことを特徴とする
単語検索方式である@ 以下に図面を用いて本発明を具体的に説明する。
第2図は本発明の単語検索方式において用いられる単語
f#V誉の例を示した図であシ、単語に対応する各レコ
ードは表記部21と読み・品詞・アクセント等の単語情
報部22とを有し、さらに同表記部21に対して単語検
索におけるキーとなるキー文1平部211と同キー文字
部よシ前方の表記部分であ1μ前方表記部212と同キ
ー文字部よシ後方の表記[部分である後方表記部213
とを設けたものである。
単語の表記におけるどの文字をキー文字部に登録するか
については本発明は制限を加えていないが、この例にお
いては例えば〈降雨量〉に対して(以 下 余 白: のように、表記のどの文字をキーとしても検索できるよ
うに登録しである。この例とは別に、単語の表記におけ
る末尾の漢字をキー文字部に登録するとか、単語の表記
の先験文字をキー文字部に登録するという方法も考えら
れる(後者は、従来の単語辞書に一致する)。また、こ
の例において、単語に対応する各レコードはまずキー文
字部2110文字コードの順に収容され、同キー文字部
の等しいレコードについては後方表記部2130文字コ
ード列の順に、さらに前方表記部2120文字コード列
の順に並べられている。なお、単語情報部22は前述し
た従来の単語辞書1と同様に、単語検索後の文法的解析
や音声出力の際に参照されるものであり、当単語検索の
範囲においては用いられない。
第3図は本発明の単語検索方式を実現した装置の一実施
例を示すブロック図である。第3図におパ・ηて、31
は与えられた文字列320を文字列記憶手+732に書
き込む文字列読み込み手段でア)、同与iられた文字列
はキーボード、OCR、磁気テープ装置等の入力装置を
通して文字コード列に変換された文字列のうち単語検索
の対象となる部分を取シ出したものである。また、文字
列読み込み手段32は、与えられた文字列中にキー文字
を設定するために必要な情報があれば、その情報(例え
ば、与えられた文字列がOCRから入力されたものであ
るとき、各文字の認識の信頼度等)をキー文字設定手段
33に送る。32は与えられた文字列320を記憶する
文字列記憶手段であり、例えばICメモリ、磁気ディス
ク装置、磁気テープ等が用いられる。20は表記部にキ
ー文字部211と前方表記部212と後方表記部213
とを有する第2図に示したような単語辞書2を記憶する
単語辞書記憶手段であり、32と同様ICメモリ、磁気
ディスク装置。
磁気テープ装置等が用いられる。33は与えられた文字
列320中に単語辞書2のキー文字部211との照合の
対象となるキー文字321を設定するキー文字設定手段
であシ、例えば与えられた文字列における字椎の変化点
、あるいは与えられた文字列がOCRから入力されたも
のであるならば文字認識の信頼度の高い文字等がキー文
字として設定・市れる。ただし、本発明では、キー文字
設定のた’−xの条件については制限を加えてはいない
。また、斤めキー文字の設定された文字列を読み込むな
らば、文字列読み込み手段31とキー文字設定手段33
は同一の構成要素として実現することができる。
34はキー文字321をキー文字部211と照合するこ
とによシ単語辞書2から検索するキー文字検索手段、3
5は与えられた文字列320におけるキー文字よシ前方
の部分文字列322と単語辞書の前方表記部212とを
照合する前方表記部照合手段、36は与えられた文字列
320におけるキー文字よ如後方の部分文字列323と
単語辞書の後方表記部213とを照合する後方表記部照
合手段である。キー文字検索手段34におけるキー文字
の検索方法、および前方表記部照合手段35と後方表記
部照合手段36とにおける文字列の照合方法は、従来の
キー文字の検索方法および文字列の照合方法と同様であ
夛公知のものである。37は与えられた文字−列320
の部分文字列と表記の一致する単語が検出されたとき同
単語に関する単語情報を出力するための情報出力手段で
ある。以上の各構成要素の動作は検索制御手段38によ
って制御され、g4図のフローチャートに示す一連の動
作を行う。ただし、第4図のフローチャートにおいて5
TEP4と5TEP5の順は、単語辞書2における単語
の並び方によるものであり、この実施例においては前述
のように同一のキー文字部を有する単語はまず後方表記
部の文字コード列の順に次いで前方表記部の文字コード
列の順に並べられているため、まず後方表記部を照合し
く 5TEP4)、次いで前方表記部を照合する( 5
TEP5 )のが適している。これに対して単語辞書に
おいて同一のキー文字部を有する単語t−まず前方表記
部の文字コード列の順に次いで後方表記部の文字コード
列の順に並べるならば、5TEP4と5TEP5の順は
入れ換えた方が適切である。
ここで、例えばOCRから入力された文字列「降雨量測
定」に対して単語検索を行う場合について第4図のフロ
ーチャートの5TEPに沿って説明する。
(STEPI:第4図中100) 文字列読み込み手段
31が起動され、OCRから入力された文字列のうち単
語検索の対象と々る文字列「降雨量測定」が文字列記憶
手段32に書き込まれる。また、キー文字を設定するた
めの情報として、「降雨量測定」の各文字に関する文字
認識の信頼度がキー文字設定手段33に送られる。例え
ば、各文字の信頼度が次のように与えられたとして、以
下の5TEPを説明する。
降0.95 測0.96 雨 0.98 定 0.94 量0.96 1、’、dsTEp2:第4図中101) キー文字設
定手段13が起動され、「降雨量測定」においてキー文
字、#21が設定される。ここでは、文字認識の信頼度
の最も高い「雨」がキー文字として設定されたものとす
る。
(STEP3:第4図中102) キー文字検案手段3
4が起動され、キー文字「雨」をキー文字部211に有
する単語が検案される。第2図の単語辞書2においては
、単語く雨〉、<にわか雨〉、・・・・・・。
〈雨量〉、<降雨量〉、・・・・・・が検索され、「絢
」をキー文字部211に有する単語群の単語辞書におけ
る先頭位置と末尾位置とが、検索制御手段38へ返され
る。この場合、もし「雨」金キー文字部211に有する
単語が単語辞書2中に存在しなかったならば、検索失敗
が検索制御手段38に返され、処理が終了する。
(STEP4:第4図中103) 後方表記部照合手段
36が起動され、「降雨量測定」におけるキー文字「雨
J (321)よシ後方の文字列「量測定」(323)
と単語辞書の後方表記部213との照合が行なわれる。
この照合は、5TEP3において得られた「雨」をキー
文字部に有する単語群の先頭位置と末尾位置との間の単
語に関して行なわれ、「量測定」を後方表記部213に
有する単語、「量74jJを後方表記部213に有する
単語、「量」を後事表記部213に有する単語、および
後方表記部を声さない単語(後方表記部213がスペー
スの単語)がそれぞれ捜され、単語辞書2におけるそれ
らの位置が検索制御手段38に返される。すなわち、「
雨」が末尾文字であろく雨〉、<にわか雨〉。
〈小雨〉等の単語およびく雨量〉く降雨量〉の単語辞書
2内での位置が検索制御手段38に返される。
(STEP5:第4図中104) 前方表記部照合手段
35が起動され、8TEP4において得られ丸缶単語に
ついて順次前方表記部212と「降雨量測定」における
キー文字1−雨J (321)よυ前方の文字列「降J
 (322)との夢合が行なわれ、一致した )単語の
位置が検索制御手段38に返される。すなわら、単語辞
書2におけろく降雨量〉の位置が検索制御手段38に返
される。また、この際。
5TEP4において得られた単語のうち前方表記部を有
さない単語(前方表記部212がスペースの単語)〈雨
〉、<雨量〉についても単語辞書2における位置が検索
制御手段38に返される。従って、8TEP5において
単語く雨〉、〈雨量〉、<降雨量〉が検出されたことに
なる。この場合、もし単語が検出されなかったならば、
検出失敗が検索制御手段38に返され、処理が終了する
’(STEP6:第4図中105) 情報出力手段37
が起動され、8TEP5において検出された単語く雨〉
、<雨量〉、<降雨量〉に関する読み・品詞・アクセン
ト等の単語情報22が出力される。
一般に、単語検案によって得られた単語は、さらに同単
語に関する品詞情報をもとにした機械的な接続検定ある
いはユーザによる選択等によシ正しいものに決定される
ことになる。
OCRから入力された文字列は、文字認識候補を複数有
することがあシ、単語検索において日本語として正しい
単語が得られなかった場合には、誤認識と思われる文字
を文字認識の別候補と置き換えて再度単語検索を繰)返
す必要がある。この際、本発明の単語検案方式によれば
、文字列の照合を文字列の先頭からに限定せず任意の位
置から照合することができるので、文字認識の信頼度の
高い文字を固定し前後の暖味な文字を置き換えながら単
語検索を行うことが可能であシ、曖昧な文字列からの単
語検索が効率的に実現できる。
上記実施例はOCRから入力された文字列を対象とした
単語検索に関するものであるが、本発明の単語検索方式
は、OCRから入力された文字列に限らずキーボードや
磁気テープ等から入力された文、°11#列に関しても
効率的な単語検索を実現すること、噂できる。例えば、
漢字仮名混じシ文「ざあっと:にわか雨が降シ出した。
」の解析を行う際、くざあっと〉という単語が単語辞書
に未登録ならば、従来は文頭からの単語検索に失敗した
後、単語検索の先頭位置を1文字ずつずらしながら単語
検索を繰り返し模索しなくてはならないが、本発明の単
語検索方式によれば、字種の変化点である「雨」−琴キ
ーとした単語検索によシく雨〉〈にわか雨〉未検索され
、検索された単語の直、前および直後の文字をキー文字
としてさらに単語検索を繰シ返すことによシ、未登録語
が出現しても効率を落とすこ′となく解析を行うことが
可能である。
ま九、本発明の単語検索方式で用いる単語辞書は第2図
に示したような構成のみならず、第5図あるいは第6図
等のような構成をとることも可能であ2 第5図は、キー文字部をテーブルとして分離した単語辞
書である。50がキー文字部テーブルであシ、キー文字
部501と同キー文字部を有する単語群の先頭位置への
ポインタ502とから成っている。
単語辞書5は、前方表記部51と後方表記部52と単語
情報部53とを有している。このような単語辞書構成を
用いれば、単語辞書における同一のキー文字部を有する
単語群の位置が502のポインタから容易に知ることが
できるので、検索速度がよシ向上する。
第6図は、キー文字部および後方を木構造にした単語辞
書である。60がキー文字部テーブルであシ、キー文字
部601と後方表記部第1文字目テーブルへのポインタ
602と同キー文字を有しかつ一方表記部を有さない単
語へのポインタ603と曝ら成る。61は後方表記部で
あり、後方表記部第1皇文字目テーブル611.後方表
記部第2文字目テーブル612等を有し、各テーブルは
表記部と次のテーブルへのボイ′ンタと単語へのポイン
タとから成っている。
以上に説明したように、本発明の単語検索方式によれば
与えられた文字列と単語辞書との照合を文字列の先頭位
置からに限定することなく、ある文字をキー文字として
同キー文字の前方および後方に行うことが可能であり、
従来の文字列の先頭から照合する単語検索方式に比べて
、より柔軟な単語検索およびよシ効軍の良い単語検索が
実現できる。
【図面の簡単な説明】
第1図は従来の単語検索方式で用いられる単語辞書の例
を示した図、第2図、第5図、第6図は本発明の単語検
索方式で用いられる単語辞書の例を示した図、第3図は
本発明の単語検索方式を実現した装置の一実施例を示す
ブロック図、第4図は第3図の実施例を説明するための
フローチャートである。 図において、 1.2,5.6・・・・・・・・・・・・・単語辞書1
1.21・・・・・・・・・・・・・・・・・・・・表
記部12.22,53.63 ・・・単語情報部211
.501.601・・・キー文字部212.51.62
・・・・・・・・・前方表記部213.52.61・・
・・・・・・・後方表記部31・・・・・・・・・・・
・・・・・・・・・・・・・・・文字列読み込み手段3
2・・・・・・・・・・・・・・・・・・・・・・・・
・・文字列記憶手段33・・・・・・・・・・・・・・
・・・・・・・・・・・キー文字設定手段34・・・・
・・・・・・・・・・・・・・・・・・・・・・キー文
字検索手段35 ・・・・・・・・・・・・・・・・・
・・・・・・・・前方表記部照合手段36・・・・・・
・・・・・・・・・・・・・・・・・・・後方表記部照
合手段37・・・・・・・・・・・・・・・・・・・・
・・・・・・・情報出力手段38・・・・・・・・・・
・・・・・・・・・・・・・・・検索制御手段である。 特許出願人 1却#ん表III田浴節 第1図 第3図 ill? Zll ZI5 22 第4図

Claims (1)

    【特許請求の範囲】
  1. 与えられた文字列の部分文字列と表記の一致する単語を
    単語辞書から検索する単語検索方式にして、同単語辞書
    における表記部に対して単語検索におけるキーとなるキ
    ー文字部と同キー文字部よシ前方の表記部分である前方
    表記部と同キー文字部よシ後方の表記部分である後方表
    記部とを設け、前記与えられた文字列中に前記キー文字
    部との照合の対象となるキー文字を設定するキー文字設
    定手段と、前記与えられた文字列中に設定された前記キ
    ー文字を前記キー文字部と照合することによシ前記単語
    辞書から検索するキー文字検索手段と、前記与えられた
    文字列における前記キー文字よシ前方の部分文字列と前
    記前方表記部とを照合する前方表記部照合手段と、前記
    与えられた文字列における前記キー文字より後方の部分
    文字列と前記後方表記部とを照合する後方表記部照合手
    段とを用いて、前記与えられた文字列と前記単語辞書に
    おける表記部との照合を前記キー文字から前方および後
    方に行うことを特徴とする単語検索方式。
JP59081165A 1984-04-24 1984-04-24 単語検索方式 Granted JPS60225273A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59081165A JPS60225273A (ja) 1984-04-24 1984-04-24 単語検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59081165A JPS60225273A (ja) 1984-04-24 1984-04-24 単語検索方式

Publications (2)

Publication Number Publication Date
JPS60225273A true JPS60225273A (ja) 1985-11-09
JPH0233185B2 JPH0233185B2 (ja) 1990-07-25

Family

ID=13738845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59081165A Granted JPS60225273A (ja) 1984-04-24 1984-04-24 単語検索方式

Country Status (1)

Country Link
JP (1) JPS60225273A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6431227A (en) * 1987-07-27 1989-02-01 Matsushita Electric Ind Co Ltd Document retrieving device
JPH02162462A (ja) * 1988-12-15 1990-06-22 Canon Inc 文字処理装置
JPH0554077A (ja) * 1991-08-29 1993-03-05 Nec Corp 単語辞書検索装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6431227A (en) * 1987-07-27 1989-02-01 Matsushita Electric Ind Co Ltd Document retrieving device
JPH07120357B2 (ja) * 1987-07-27 1995-12-20 松下電器産業株式会社 文書検索装置
JPH02162462A (ja) * 1988-12-15 1990-06-22 Canon Inc 文字処理装置
JPH0554077A (ja) * 1991-08-29 1993-03-05 Nec Corp 単語辞書検索装置

Also Published As

Publication number Publication date
JPH0233185B2 (ja) 1990-07-25

Similar Documents

Publication Publication Date Title
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JPS60225273A (ja) 単語検索方式
JP4511274B2 (ja) 音声データ検索装置
JP3758241B2 (ja) 音声情報検索装置
JPS6394365A (ja) 日本文文書誤り検定装置
JPH0441388B2 (ja)
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
JPH01114976A (ja) 文書処理装置の辞書構造
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH0795337B2 (ja) 単語認識方式
JPH0576675B2 (ja)
JP2839515B2 (ja) 文字読取システム
JPH0231274A (ja) 単語辞書検索装置
Marukawa et al. A post-processing method for handwritten Kanji name recognition using Furigana information
JPH067351B2 (ja) 候補列作成装置
JPH02148174A (ja) Ocrによる住所データベース検索装置
JPS63138479A (ja) 文字認識装置
JPH0215372A (ja) 電子辞書装置及び電子辞書検索方法
JPS63268082A (ja) パタ−ン認識装置
JPS62285189A (ja) 文字認識後処理方式
JPH01191230A (ja) 情報検索装置
JPH0916575A (ja) 発音辞書装置
JPH047670A (ja) 文章解析方式
JPS61233882A (ja) 単語列推定方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term