JPS58154899A - 単語認識装置 - Google Patents

単語認識装置

Info

Publication number
JPS58154899A
JPS58154899A JP57037362A JP3736282A JPS58154899A JP S58154899 A JPS58154899 A JP S58154899A JP 57037362 A JP57037362 A JP 57037362A JP 3736282 A JP3736282 A JP 3736282A JP S58154899 A JPS58154899 A JP S58154899A
Authority
JP
Japan
Prior art keywords
character
difference
word
degree
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57037362A
Other languages
English (en)
Inventor
森 宣彦
辻 善丈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP57037362A priority Critical patent/JPS58154899A/ja
Publication of JPS58154899A publication Critical patent/JPS58154899A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、文字紹織俟@ (oci)  より出力され
た文字列が、あらかじめ与えられ九単語の中のど予知で
き、その範囲はあまり多くなく限られる事が多い。そし
て、このような場41ti、華紬O中の数文字が読めな
くても、文字列としての単簡−一を用いると、OCR出
力文字列全体からその単語を決定する事がてき、単語の
認識率を大幅に向上させる事ができる。
さて、従来O単゛w1緒識においては、OC′&出力文
字列の中に、OCRで1つのカテゴリーに特定できす、
2つ以上の可能性のあるカテゴリーを並列に出力した文
字があると、それらの各力テゴ替−について七ねぞれ又
字列を作威し、各文字列について単MaN織を行い、そ
れらの結果を総合して最終的な解を得るという方法を用
いていたが、1つの卑語の中にこのような文字かいくつ
もあると、その組合ゼが非常に多くなり、単@−織に*
輪間を費するとい5曲題があった。
本発明の目的は、このような開−を解決し、1つの卑語
の中に、1つのカテゴリーに特定できない文字かい(つ
ありても、すべての文字が1つのカテゴリーに特定で&
九場合と−jじ速度で、両速に率紬認鍬ができる装置を
提供する事にある。
本発明によれは、文学誌wk装置から順次出力される、
***を構成する各文字に対するlfたは複数V誌Ik
結果を、それぞれ複数の文字列として記憶する複数の文
字列記憶装置と、あらがじめ選択された複数の単語を記
憶し九単語辞書紀慎装置と。
該単語辞書記憶装置より1つずっ頗次取り出した単語を
一時記憶する単語記憶装置と、皺単語記憶i*内の各文
字と、前記複数の文字列記憶装麹内の約応する位置にあ
る文字との相違度を、あらがじめ記憶され九本を用いて
求め、各文字列毎に文字量相違度を出力する手段と、該
各文字列no文字間相j1度より最小の文字間相違直を
選択する手段と、咳最小の文字量相違度を単語毎に加算
し、単語関相違縦を計算する単飴関相違縦計算′+段と
、前記単結t11111記憶装置内の各単−に対する前
記単飴間相j1度の内、最小のものを検出し、最小の単
語間相違良を傷た単一をml1lIa泉として出力する
手段とを有する単語認識装置が慢られる。
以下本発明について、wWIiを参麺して詳しく説明す
る。
第1図は本発明の一実施例を示すデー、ターである6鉢
識結果としては1まえ、は2以上の複数であって良いが
、説明t−@&にする良めに11*は2として以下説明
する。第1wAにおいて、又字繍m装置4で単語を構成
する各文字が験次繍織され、そ〇−織結果がメモリ5と
7に出力され、そこで文字夕iとして配憶される。認識
結果が1つの場合は、メモリ5と7にそのm−のカテゴ
リーが記憶されるが、文字−織装置で五″′)のカテゴ
v−に特定できず、2つのカテゴリーが並列に出力され
た場合は、それらは、メモリ5と7に分けて記憶される
。2つの文字線一方式を並用したような場合tよ、各方
式におけるMmM果を、それぞれメモリ5と7に分けて
記憶する事も可能である。このようにして、メモリ5と
7には、1つの率11に対するOCRの認識結果が記憶
される。棒酷辞壷記憶装@ 1 tftは、出現する可
*性のあるJIL飴があらかじめd!:、慣されており
、ここから1つずつ順査に取り出された単結Lメモリ2
に−■記憶嘔れる。レンスタ3には、メモリ2に1慣さ
れた率鹸から順次取り出される1文字が記憶さ扛、レン
スタもと8V(は、レンスタ3に取り出され九又字に対
応する1 1k WLある、メモリ5と7に記憶された
文字列の中の1文字が取り出されて記憶さ江る6メモリ
9とlOには、文字量相違度かあらかじめ表の形で記憶
されており、2つの文字に対応したコードを番地として
与えると、文字間相逐嵐かメモリの出力として得られる
。文字間相違度社、AとEのように、全く違った形の文
字の間では大きく、Eとシ゛のよ5に、よく似た形の文
字の閣では小さく、EとEのように同じ文字の間では0
である。比較器12では、メモリ9とlOから出力され
た文字間相a度の大小関係を判定し、セレクタ11で株
、比較器12の出力に従い、小さい方の文字量相違度を
選んで加liL器13に出力する。レジスタ14には単
語間相違度の途中結果が記憶され、この内容と、新しい
文字間相!度とが加算器13で加算され、その出力でこ
の内容が爽新される。メモリ2に取り出された1つの単
一との相1IAII!計算が終了した時には、レジスタ
14に#i赦終O単単語相違度が記憶されているが、こ
の値と、レジスタ16に記憶されている、以前の最小の
単語間相違度とが比較器15で比較され、レジスタ14
0内容の方が小さければ、比較I!15の出力でレジス
タ14の内容がレジスタ16に移送され、同時にメそり
2に記憶されている準細か、メモリ17に移送され、紹
′fjk#!I果として出力10Gへ送られる。
レジスタ14の内容の方が犬会い場合は、こO移送は行
われない、このよ5Kして、単語辞書配憶装置1に記憶
され九全単飴と、メモリ5と7に記憶された1つの文字
列との比較が終了した時には、メモjj17には最小の
単語間相違度を得た単一、つまり認識結果が記憶され、
レジスタ16には、その単結と(JCBから出力された
文字列との閣の単語間相違度が記憶されている。なお、
OCRの#151m結果が3つ以上ある場合は、その数
に応じてメモリ7、レジスタ8およびメモリlOO数を
増やせば同様にできることは明らかである。
以上で詳しく説明したように、本発明による卑#hM4
嶽装賑を用いれは、1つの単一の中に、OCRで1つの
カテゴリーに特電できない文字がいくつあっても、すべ
ての文字が1つのカテゴリーに特定できた場合と同し速
にで、両速に4L紬認繊を行う事ができる。
仄に論1図に点線で曲って不した単語間相違1針算装阪
18の代りに、Drマ、ナング法を用いた計算装置を使
用した場合について述べる。第2−はDPマ、チング法
による単語間相違度の計算り法を説明するために示した
概念図であり、−例としてOCRc)g織出力として[
BitFN:lが出力されたものとする。このとき辞書
からの単#hを(BBRGiiiN)とした場合の例で
ある。なお、!は0CRKより認識不能となった文字を
ホす0表中、丸で囲った数字は文字間相遜度であり、そ
の左の数字は、単語間相違度の途中結果である。この途
中結果は、第3図に示したように、第2図の各位置VC
,おける左上、上、左の途中結果の中の最小のものと、
その位11111VCおける文字間相違阪@を加える事
により求められる。すなわち、凧3−のごとく第2@の
左上を人、上をB、左tCとし、求める位置の途中結果
をXとしたとき、X=MIN(人、B、C)+@として
求める。第2図における矢印の方向は途中結果を求める
111番である。
第4図はDPマ、ナング法を用い丸単@間相違嵐計算装
置の一実施例を示すブロック図である。なお、この実施
例においては照合機を2として不した。第4図において
、陳合幅nが2であるとき、文字の照合はその中心に対
し前後2つの文字の途中結果を必簀とするし、友がって
、レジスタ21〜25の5帥を用意(7それKは単語間
相違度の途中の最上!11F(t)でくくって示されて
いる。比較器27riレジスタ24と25の内容を比較
し、その結果に従ってセレクタ2ftで小さいガが選ば
れ、その−とレジスタ21の内容が比較器31で比較さ
れ、その結果に従ってセレクタ30で小さい方が迦りれ
る。しンスタ25,24.21Fi第3図におけるA 
、 B 、 CK相当し、セレクタ300出力43ij
その最小値である6第2図の各行における左端の途中結
果を求める場合は、Cの−がないので、ルー信号33が
発生すると、0ルグート32を通ってセレクタ30にそ
の信号が供給され、強制的にセレクタ26の出力が選択
される。亀2図の各行における右端の途中結果を求める
場合は、Bの−がないので、右端信号29が発生すると
、OA′&ゲート28を通ってセレクタ26にその信号
が供給され、強制的にレジスタ25の−が選択される。
加算@34の入力19は第1図におけるセレクタ11の
出力であり、この−と出力43とが加算器34で加えら
れセレクタ36に出力される。
この実施例でtlJ閣合−を2としているのでセレクタ
36では、$2図の敢下績におけるように、5(ロ)の
途中結果を求める途中で単結の文字かなくなってしまう
とレジスタ250出力を選択し、他O揚合Iri伯号3
7が発生していて、加算器340出力を選択する。レジ
スタ21〜25における人力の堆り込みは同時Ktff
われる。易11におけるメ七す2がらレジスタ3への文
字のwき込4は、レジスタ6.8に1文字音かれる%に
51m行われ、その順資は諏2−の矢印で不し九噛りで
ある。準紬閣の相違1計算が終了し九時には、レジスタ
21〜25には5つの最終結果が記憶されている。
第2図に不し九例の場合は、右下に本部で示し九5つの
値に対応する。セレクタ38では、このレジスタ21〜
2505つの出力から1つを信号39に!、て選択する
が、どの出力を用いるかは、OCR出力文字列の扱さN
と、単語辞脩より取り出した事始の長さMとで決り、(
N−M)の値が−2,−1,0,+1.+2の時、それ
ぞれレジスタ21.22.23.24.25の出力を選
択する。即ち9字列と単結のすべての文字が評価されf
c位−の最終結果を選択する。そして、この愉がDPマ
ッサング法t#+4いた場合の巣tIb間相違度に相当
し2.8141図における比較器15とレジスタリ、こ
の場合L、文字の切り出−し時の失敗による、率艶を構
成する文字数に増減があっても、正しくjIL飴を認識
する事が可能である。
【図面の簡単な説明】
第1図は本発明の一実施例をホす7F、り図、抱2図は
DPマ、ナング法による単語間相過度の1算方法を説明
するために示した概念図、第3図は、第2図の各位置に
おける途中結果の計算方法を説明するためにボした概念
図、第4図は、DPマッナング法を用いた単語関相違度
計算装置の一実施例を示すフp、り図である。 囚において、l#i単結単結辞書配置装置は文字線tR
装置、2,5.7はメモリ、3,6.8はレジスタ、9
.10Fi文字間相違11を配憶したメ毛す、12.1
5はit教器、11はセレクタ、13は扉算器、14.
16龜レジスタ、17はメモ替、1B#i率−間at 
j!!l it算装置、19と20は18の人力と出力
、21〜25#iレンスタ、26゜ao、a6.3gは
セレクタ、27.31Fi比較器、34ed加[t、2
 ji 、 32dOB、y −)。 21.33.37は信号、39はセレクタ38のセレク
ト信号、43はセレクタ3oの出力である。

Claims (1)

  1. 【特許請求の範囲】 1、文字線繊装置から順次出力される、単語を構成する
    各゛文字に対する1まえはm数の認識結果を、それぞれ
    複aO文字列として記憶する複数の文字列記憶装置と、
    あらかじめ選択されえ複数の単語を記憶し九単飴辞書記
    憶装置と、骸単紬辞書記憶装置より1つずつ順次取り出
    し九単語を一時記憶する単ME憶装置と、鋏単論紀憾装
    置内の各文字と、前記複数の文字列記憶装置内の対応す
    る位tKある文字との相違llをあらかじめ記憶され九
    本を用いて求め、各文字列毎に文字量相違度を出力する
    手段と、諌各文字列侮の文字間相違皺より最小の文字間
    相違龜を選択する手段と、咳蟻小の文字量相違Illを
    単#に毎に加算し、単語間相違度を計算する単−間相違
    度計算装置と、前記単一辞書記憶装置内の6単1に対す
    る前記単語間相違度の内、最小のものを検出し、最小の
    単語間相違度を得た単語を認識結果として出力する手段
    とを有する事を特徴とする単Mal織装置。 2、 前記単紬間相違度計算装曹として、Drマ。 チング法における照合幅の2倍に1を加えた値に勢しい
    数の単語間相違度の途中結果を配憶する途中#来記憶し
    ンスタと、前記文字列記憶装置内の1文字と、この文字
    に対応した位置にある、画Ink単ルム記慣装置内の文
    字を中心とした、照合−の2倍Klを加えた−に等しい
    #&の文字との間の文字量相違度をそれぞれ求め、これ
    らの愉と、前記途中結果記憶レンスタに記憶された値を
    用いて、新しい単語間相違度の途中結果kDPマ、チン
    グ法に従って計算し、前記途中結果配憶レジスタに記憶
    する手段と、1つの単語との相j!度計算が終了した時
    、前記文字列の文字数と前記縦書からの単語の文字数と
    の差により前記途中結果記憶レジメタの各出力の内の1
    つを選び、単語間相違度として出力する手段とを有する
    特許請求の範囲第1項記載O単1iillI織装置。
JP57037362A 1982-03-10 1982-03-10 単語認識装置 Pending JPS58154899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57037362A JPS58154899A (ja) 1982-03-10 1982-03-10 単語認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57037362A JPS58154899A (ja) 1982-03-10 1982-03-10 単語認識装置

Publications (1)

Publication Number Publication Date
JPS58154899A true JPS58154899A (ja) 1983-09-14

Family

ID=12495423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57037362A Pending JPS58154899A (ja) 1982-03-10 1982-03-10 単語認識装置

Country Status (1)

Country Link
JP (1) JPS58154899A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60251484A (ja) * 1984-05-29 1985-12-12 Toshiba Corp 単語認識装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60251484A (ja) * 1984-05-29 1985-12-12 Toshiba Corp 単語認識装置

Similar Documents

Publication Publication Date Title
US4400697A (en) Method of line buffer loading for a symbol generator
JPS62267876A (ja) 画像登録方式
JPS61118791A (ja) フオント圧縮装置
US4429414A (en) Pattern recognition system operating by the multiple similarity method
Newman Speed of reading when the span of letters is restricted
Wagacha et al. A grapheme-based approach for accent restoration in Gıkuyu
Bartram The effects of familiarity and practice on naming pictures of objects
JPS58154899A (ja) 単語認識装置
DE2042582A1 (de) Verfahren zum Auffinden von gesuchten Wörtern in Wörterbüchern, Nachschlagewerken und dgl
JPS58144980A (ja) 文字認識処理用後処理システム
Weber et al. Metered memory search
EP0777186B1 (en) Language data storage and reproduction apparatus
JPS59148089A (ja) ルビ文字のセンタリング装置
JPH0267684A (ja) 校正支援方法
US3414886A (en) Information transfer into a word-addressed memory
EP3355202A1 (en) Claim disassembling and recording device
JPS60183689A (ja) 文字読取制御装置
JPS61238089A (ja) マルチウインドウ制御装置
JPS5851371A (ja) 帳票処理方式
JPS6344698A (ja) 単語検出方式
JPS5859492A (ja) 表示方式
JPS5915972A (ja) 漢字連想語の学習装置
KR940020207A (ko) 조합형 폰트의 저장 영역 개선방법 및 장치
Jones An Introduction to the Burmese Writing System. By D. Haigh Roop. New Haven and London: Yale University Press, 1972. xiv, 122 pp. Appendices. $5.00.
JPS6377081A (ja) アクセント位置学習装置