JPH0399366A - 英単語検索装置 - Google Patents

英単語検索装置

Info

Publication number
JPH0399366A
JPH0399366A JP1237631A JP23763189A JPH0399366A JP H0399366 A JPH0399366 A JP H0399366A JP 1237631 A JP1237631 A JP 1237631A JP 23763189 A JP23763189 A JP 23763189A JP H0399366 A JPH0399366 A JP H0399366A
Authority
JP
Japan
Prior art keywords
search
english word
character
dictionary
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1237631A
Other languages
English (en)
Inventor
Michihiro Nagaishi
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP1237631A priority Critical patent/JPH0399366A/ja
Publication of JPH0399366A publication Critical patent/JPH0399366A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は英単語検索装置に関する。
[従来の技術] 英単語を辞書内から検索する場合、通常は入力した英単
語の先頭の文字から一致、不一致を見ながら辞書内を順
次検索していく。辞書に納めである英単語の数が多い場
合は、辞書の先頭から1つ1つ見ていくと非常に時間が
かかるので、入力した英単語がある辞書内の位置をおよ
そ示すデータ(以下テーブルと略す)を用意しておく。
このテーブルを利用しである程度検索しようとする英単
語の辞書上の位置をつかんでから一文字一文字細かく検
索していく。このテーブルは使用する辞書や検索時間の
節約のため規模や構造が変わる。
もし入力した英単語に綴りの間違いがあったり、辞書内
にその英単語が存在しない場合は、辞書の英単語の見出
し語と一番一致する文字数が多い英単語を検索結果とす
る。
[発明が解決しようとする課題] 入力した英単語が綴りの間遅いがなく、かつその英単語
が辞書の中になかった場合は、辞書の英単語で一番近い
単語を検索結果とするしかない。
しかし、入力しようとした英単語が辞書中にあるにもか
かわらず、綴りが間違っている場合正しい英単語を検索
することが難しい。英単語の末尾近くの文字が間違って
入力されている場合は、辞書の英単語の見出し語と一番
一致する文字数が多い英単語を検索結果とする方法で偶
然圧しい結果が求められることがある。ところが、英単
語の先頭近くの文字に誤りがあった場合、テーブルでの
検索自体がうまく行かないので検索で英単語入力時の綴
り間違いを補正することは殆ど不可能である。特に英単
語を入力する時の綴りの間違いは、まったく偶然であり
何ら規則がないので入力の仕方をもとに補正をすること
はできない。
また辞書内の見出し語と入力した英単語を比べて位置し
ない文字をほかの文字と交換して順次検索をして行けば
原理的には正しい単語が見つかる。
しかしこの方法ではアルファベット全てについて行なう
ことになり検索時間が非常にかかる。場合によってはあ
る程度大まかに検索を行ない、後は辞書の内容を使用者
が見て前後を検索して見つけた方が便利な場合もある。
本発明の英単語検索装置は以上のような課題を解決する
ものでその目的は、綴りの間違った英単語を入力しても
辞書の内容と検索により正しい英単語を辞書から捜すこ
とめできる英単語検索装置を供することにある。
[課題を解決するための手段] (1)本発明の英単語検索装置は、検索したい英単語を
入力する検索項目入力手段と英単語とその意味・用例な
どが納められている辞書と前記検索項目入力手段で入力
された英単語の位置を前記辞書から捜す検索手段と前記
検索手段の検索結果を表示する表示手段とから構成され
る英単語検索装置において、入力した英単語に綴りの間
違いなどがあって正しく検索ができない場合、入力した
英単語と辞書内の英単語の見出し語と一致しない文字を
、その一致しない文字の一つ前の文字の次に来る確率の
高い文字に置き換えて再検索を行なうことを特徴とする
(2)前記英単語検索装置において、ある文字の次に来
る文字とその確率についてのデータを前記辞書内にもっ
ていることを特徴とする。
(3)前記英単語検索装置において、辞書内のある文字
の次に来る文字とその確率についてのデータを検索前に
辞書からRAMに転送して常駐させておくことを特徴と
する。
[作用] 英単語の検索をしていて、辞書の見出し語と−致しない
文字に出会ったら、その文字をほかの文字に置き換えて
検索を行なう。
置き換える文字としては、一致しなかった文字の1つ前
の文字に注目して、その文字の次に来るべき文字を考え
る。単語中である文字の次に来る文字は何か、確率的に
求めることができる。これは検索しようとしている辞書
の全単語について、各文字の並び方から統計をとること
によって求めることが可能である。
こうすることである文字の次にはどの文字が来るのか、
その来るべき文字の候補を確率の高い順に並べることが
できる。こうして作った候補文字を一致しなかった文字
と入れ換えて検索をしなおして正しい英単語を辞書から
得る。
[実施例] 以下本発明の英単語検索装置について、実施例にもとす
いて詳細に説明する。
第1図は、本発明の英単語検索装置の基本構成を明示し
た図である。
検索したい英単語は、キーボードなどを用いた検索項目
入力手段1より入力され符号化される。
入力され符号化した英単語は、検索手段2が、辞書3よ
り目的の英単語と意味などの入っている辞書上の位置を
捜し出す。捜し出された位置をもとに、表示手段4によ
って見出し語、意味、用例などや各手段の状況などを表
示する。
第2図は、本発明の英単語検索装置の回路構成例を示し
たブロック図である。
全ての制御は、CPU5が管理する。表示はデイスプレ
ー6 (CRTや液晶表示板)が行なう。
人力装置としては、キーボード7を用いる。キーボード
7の内容は、キーボード制御部8で読み取られてからC
PU5へ送られる。入力装置はほかにマウスやOCR等
を用いることもできる。
辞書9は、内容の容量・検索速度などによりいろいろな
種類の装置を使う。例えば容量が少なければROM、大
容量ならCD−ROMなどを使用する。各辞書のアクセ
ス等の管理は、辞書制御部10が行いCPU5の命令で
任意のデータを取り出すことができる。
検索をはじめ各種プログラムは、プログラムROM11
に納められている。また検索の効率化のためのテーブル
は検索用データテーブルROM 12にある。また検索
用データテーブルROM12にはほかに、ある文字の次
にどの様な文字が来るのかについての確率的なデータも
収納されている。
辞書9がROMなどで容量が限られているときは専用の
ROMを用意する。各種の処理用のデータなどはRAM
13に一時記憶しておく。
ある文字の次にどの様な文字が来るのかについてのWI
率的なデータは、使う辞書ごとに異なるので辞書9がR
OMの場合のように固定したものならば、データを検索
用データテーブルROM12に入れておいてもよい。し
かし辞書9がCD−ROMの用に交換する事を前提にし
たものの場合データはCD−ROMの中に入れておくと
、検索用データテーブルROM12を交換する必要がな
い。
更に、CD−ROMなどを交換したら検索を行なう前に
RAM13に、ある文字の次にどの様な文字が来るのか
についての確率的なデータを転送しておく。こうしてお
くことで検索時にデータを逐−CD−ROMから捜す必
要がなく、アクセス速度の小さいRAMを使用するので
検索が高速化できる。
第3図は、英単語の基本的な検索方法を説明した図であ
る。
第3図は、検索英単語20 (apple)を辞書25
からその位置を調べる手順を示している。
検索時に二つのテーブル21とテーブル22を使用する
まず、 rapple」の先頭文字が「a」なので「a
」で始まる英単語の所を捜せばよくそれはテーブル21
の領域23である。なお各領域の数字は辞書内の位置を
示している。
次に、 rapple4の二つ目の文字「p」に着目し
て先頭が’aplとなっている単語の位置を調べる。テ
ーブル22を使用して領域24に目的の数値を見つける
。この様にして検索する範囲を限定してから初めて辞書
25内の見出し語を順次調べていく。
領域24で示された数値r1029Jに当たる領域26
の英単語から順次領域27と1つ1つ調べて検索英単語
20 (apple)と一致する単語のある領域28に
達する。領域28の数値「1061」は、その数値の示
す位置に意味や用例などが納められている。
今の例では、使用したテーブルは二つだが辞書の容量が
大きく検索範囲が広い場合はテーブルを増やし検索範囲
をなるべく少なくする必要がある。
第4図は、入力した英単語の綴りが誤っていた場合に新
規に検索候補英単語の作り方を示した図である。
例えば入力した検索英単語30が’all)pie」の
時、このまま検索をして行くと4文字目の「i」で一致
しなくなる。
そこで「i」の1つ前の文字「p」に注目する。
「p」の次にはどの様な文字がくることが多いか統計の
結果が次のようになっていたとする。
「p」の次に「e」が来る確率 ・・ N1%’pJの
次に「a」が来る確率 ・・ N2%「p」の次にrl
Jが来る確率 ・・ N3%「p」の次に「m」が来る
確率 ・・ N4%「p」の次に「o」が来る確率 ・
・ N5%そして確率の大きい順に並べると次のように
なっているものとする。
NI> N3>  N2 >  Na > Nsこの不
等式の順序にしたがって検索候補英単語31〜35を作
る。検索候補英単語31が一番確率が高い候補で、検索
候補英単語35が一番確率が低い候補となる。検索は検
索候補英単語31から35の確率の高い方から低い順に
辞書36と比較して検索を行なっていく。
このように統計的に調べた出現確率をもとに確率の比較
的高いものだけを選び出すので、検索候補英単語を大幅
に絞ることができる。
第5図は、入力した英単語の綴りが誤っていた場合に新
規に作った検索候補英単語で再検索をするソフトウェア
−の−例を示したフローチャートである。
最初検索する前にテーブルを参照して、入力した英単語
がテーブルで捜せるかどうか調べ(ステップ40)もし
捜せない時は(ステップ41)新規に検索候補英単語を
作り再検索をする。
まず、テーブルでの検索をして一致しなかった文字の1
つ前の文字の後に来る文字についての統計データを調べ
る。データは検索用データテーブルROM12またはR
AM13から参照する。 (ステップ42)データにも
とすいて検索候補英単語を作成する。 (ステップ43
)この過程は第4図で説明した通りである。
新規に作成した検索候補英単語で確率の高い英単語から
再び検索を行ない(ステップ44)、新しい英単語がテ
ーブルで捜せるか調べる。捜せない時は(ステップ45
)次に確率の低い検索候補英単語が有るか確認して(ス
テップ46)検索候補英単語が有る場合は再検索を行な
い、なければ通常の辞書検索に戻る。新しい英単語がテ
ーブルで見つかったならば辞書検索に移る。
辞書検索(ステップ47)では、実際に辞書上で見出し
語との一致度を調べて、少なくとも人力した英単語に一
番近いものを見つける。そして結果を表示する。 (ス
テップ48) 以上のように、入力した英単語をある文字の次にどんな
文字がどのくらいの確率で出現するかというデータをも
とにして正しい検索英単語を予測して再検索を行なう。
[発明の効果] 以上述べたように本発明の英単語検索装置では、入力し
た英単語に綴りの誤りなどがある場合、ある文字の次に
どんな文字がどのくらいの確率で出現するかというデー
タをもとはして正しい検索英単語を予測して再検索を行
ない正しい英単語を辞書から捜し出すことができる。新
規に作成する検索英単語は文字の出現確率をもとに作成
されるので、検索英単語候補を絞ることが可能で検索時
間を短縮できる。
また、ある文字の次にどんな文字がどのくらいの確率で
出現するかというデータを辞書ごとに用意して格納して
おき、使うときはあらがじめRAMに移し常駐させてお
くことで検索精度と高速検索が可能となる。
そして、正しい検索英単語の予測は英単語検索装置が独
自にもっているデータだけをもとは行なわれるので、入
力方法による影響に関係なく正しい検索を行なうことが
できるという効果を得る。
【図面の簡単な説明】
第1図は、本発明の英単語検索装置の基本構成を明示し
た図、 第2図は、本発明の英単語検索装置の回路構成例を示し
たブロック図、 第3図は、英単語の基本的な検索方法を説明した図、 第4図は、入力した英単語の綴りが誤っていた場合に新
規に検索候補英単語の作り方を示した図、第5図は、入
力した英単語の綴りが誤っていた場合に新規に作った検
索候補英単語で再検索をするソフトウェア−の−例を示
したフローチャートである。 1 ・ 2 ・ 3 ・ 4 ・ 5 ・ 6 ・ 7 ・ 8 ・ 9 ・  0 1 2 3 ・検索項目入力手段 ・検索手段 ・辞書 ・表示手段 ・CPU ・デイスプレー ・キーボード ・キーボード制御部 ・辞書 ・辞書制御部 ・プログラムROM ・検索用データテーブルROM ・RAM 20・・検索英単語 21.22・・テーブル 23.24,26,27.28 25・・辞書 30・・検索英単語 31.32,33,34.35 36・・辞書 ・領域 ・検索候補英単語 以上

Claims (3)

    【特許請求の範囲】
  1. (1)検索したい英単語を入力する検索項目入力手段と
    英単語とその意味・用例などが納められている辞書と前
    記検索項目入力手段で入力された英単語の位置を前記辞
    書から捜す検索手段と前記検索手段の検索結果を表示す
    る表示手段とから構成される英単語検索装置において、
    入力した英単語に綴りの間違いなどがあって正しく検索
    ができない場合、入力した英単語と辞書内の英単語の見
    出し語と一致しない文字を、その一致しない文字の一つ
    前の文字の次に来る確率の高い文字に置き換えて再検索
    を行なうことを特徴とする英単語検索装置。
  2. (2)前記英単語検索装置において、ある文字の次に来
    る文字とその確率についてのデータを前記辞書内にもっ
    ていることを特徴とする請求項1記載の英単語検索装置
  3. (3)前記英単語検索装置において、辞書内のある文字
    の次に来る文字とその確率についてのデータを検索前に
    辞書からRAMに転送して常駐させておくことを特徴と
    する請求項2記載の英単語検索装置。
JP1237631A 1989-09-13 1989-09-13 英単語検索装置 Pending JPH0399366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1237631A JPH0399366A (ja) 1989-09-13 1989-09-13 英単語検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1237631A JPH0399366A (ja) 1989-09-13 1989-09-13 英単語検索装置

Publications (1)

Publication Number Publication Date
JPH0399366A true JPH0399366A (ja) 1991-04-24

Family

ID=17018190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1237631A Pending JPH0399366A (ja) 1989-09-13 1989-09-13 英単語検索装置

Country Status (1)

Country Link
JP (1) JPH0399366A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181654A (ja) * 2011-03-01 2012-09-20 Casio Comput Co Ltd ロシア語検索装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181654A (ja) * 2011-03-01 2012-09-20 Casio Comput Co Ltd ロシア語検索装置およびプログラム

Similar Documents

Publication Publication Date Title
US6321192B1 (en) Adaptive learning method and system that matches keywords using a parsed keyword data structure having a hash index based on an unicode value
US6263333B1 (en) Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7174290B2 (en) Multi-language document search and retrieval system
US8855998B2 (en) Parsing culturally diverse names
US5541838A (en) Translation machine having capability of registering idioms
US8171052B2 (en) Information search system, method and program
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US20100153396A1 (en) Name indexing for name matching systems
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US6430557B1 (en) Identifying a group of words using modified query words obtained from successive suffix relationships
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US9965546B2 (en) Fast substring fulltext search
JPH0399366A (ja) 英単語検索装置
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP3945075B2 (ja) 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JPH08180066A (ja) インデックス作成方法、文書検索方法及び文書検索装置
JPH04311263A (ja) 電子辞書検索装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH0375960A (ja) 文字処理装置の頻度変更方式
JP2685808B2 (ja) 利用者支援型入力文応答処理装置
JPH05189485A (ja) キーワード検索方式