JP3320659B2 - Character recognition device - Google Patents

Character recognition device

Info

Publication number
JP3320659B2
JP3320659B2 JP20221598A JP20221598A JP3320659B2 JP 3320659 B2 JP3320659 B2 JP 3320659B2 JP 20221598 A JP20221598 A JP 20221598A JP 20221598 A JP20221598 A JP 20221598A JP 3320659 B2 JP3320659 B2 JP 3320659B2
Authority
JP
Japan
Prior art keywords
handwriting
character
data
template
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20221598A
Other languages
Japanese (ja)
Other versions
JP2000036007A (en
Inventor
逸夫 熊澤
英子 吉野
Original Assignee
株式会社東邦ビジネス管理センター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東邦ビジネス管理センター filed Critical 株式会社東邦ビジネス管理センター
Priority to JP20221598A priority Critical patent/JP3320659B2/en
Publication of JP2000036007A publication Critical patent/JP2000036007A/en
Application granted granted Critical
Publication of JP3320659B2 publication Critical patent/JP3320659B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は文字認識技術に係わ
り、特に、伝票を重ねて筆記する際にペン先の座標を同
時に検出して文字認識させるようなシステムに適した文
字認識技術の改良に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition technology, and more particularly, to an improvement in a character recognition technology suitable for a system in which the coordinates of a pen point are simultaneously detected and characters are recognized when a slip is overwritten. .

【0002】[0002]

【従来の技術】携帯型情報機器の発達に並行して、手書
きされた筆跡をコンピュータにより認識してアスキーコ
ードなどの文字列に変換するための文字認識技術が多数
研究開発されている。
2. Description of the Related Art In parallel with the development of portable information devices, a number of character recognition techniques for recognizing handwritten handwriting by a computer and converting the handwritten handwriting into a character string such as an ASCII code have been researched and developed.

【0003】例えば、特開平2−311976号公報に
は、手書き文字パターン上に座標点を設定して各座標点
にベクトルを生成し、このベクトル方向列と文字パター
ンのストローク数とに基づいて文字認識する技術が記載
されている。また、特公平7−107697号公報に
は、文字パターン上の交点を筆順と併せて文字認識可能
に構成された技術が記載されている。これらの技術は、
文字入力タブレットなどペンで直接文字を筆記する入力
装置が用いられていた。
For example, Japanese Patent Application Laid-Open No. 2-311976 discloses that a coordinate point is set on a handwritten character pattern, a vector is generated at each coordinate point, and a character is set based on the vector direction sequence and the number of strokes of the character pattern. Recognition techniques are described. Further, Japanese Patent Publication No. 7-107697 describes a technique in which an intersection on a character pattern can be recognized as a character together with the stroke order. These technologies are
An input device such as a character input tablet for directly writing characters with a pen has been used.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記従
来の文字認識技術では、筆跡の検出方法によっては正確
に文字認識できない場合が生じていた。例えば、特開平
7−73259号公報には、伝票に文字を記入する際に
その筆跡を同時にデータ化するタブレットが記載されて
いる。このタブレットを使用すると、伝票に従来通りの
記載ができる他、伝票に記載した内容を筆跡データとし
て文字認識させるという特徴がある。ところが、かなり
の厚みで重ねられた伝票の上から文字を記入した場合、
直接タブレット上に文字を記載した場合に比べ、ペン先
位置の検出精度が悪くなっていた。
However, in the above-described conventional character recognition technology, there have been cases where character recognition cannot be performed accurately depending on the handwriting detection method. For example, Japanese Unexamined Patent Publication No. 7-73259 discloses a tablet that simultaneously converts handwriting into data when characters are written on a slip. When this tablet is used, the slip can be described in a conventional manner, and the contents described in the slip can be recognized as handwriting data by character recognition. However, if you fill in the letters from the slips that are piled up with considerable thickness,
The pen tip position detection accuracy was lower than when characters were written directly on the tablet.

【0005】また、従来の文字入力装置では、伝票が厚
いとペン先の着地と離反を検出することができないた
め、伝票記入が可能なタブレットでは圧力センサなどを
利用してペン先の着地や離反を検出している。ところが
圧力の検出にはペン先の引っ込み時間などの機械的遅れ
やペンとタブレットとの通信遅れが生じるため、筆跡デ
ータに入力誤差やノイズが生じていた。
In a conventional character input device, if the slip is thick, it is not possible to detect landing and separation of the pen tip. Therefore, a tablet capable of writing a slip uses a pressure sensor or the like to touch the landing or separation of the pen tip. Has been detected. However, the detection of pressure causes a mechanical delay such as a retraction time of the pen tip and a communication delay between the pen and the tablet, so that input errors and noise have occurred in handwriting data.

【0006】さらにタブレット上に置かれる伝票に位置
ずれが生じると、伝票に設定されている項目枠がずれ、
入力される文字の位置もずれてしまう。ゆえに伝票の項
目枠と文字との対応関係が不明確になっていた。特に未
記入の項目があると、さらにこの対応関係があいまいに
なっていた。
Further, if the slip placed on the tablet is misaligned, the item frame set on the slip is shifted,
The position of the input character is also shifted. Therefore, the correspondence between the item frame of the slip and the character was unclear. Especially, when there is an unfilled item, the correspondence is further blurred.

【0007】上記したように、検出精度が低かったり入
力誤差やノイズが存在する場合には、文字パターンの要
素である文字の交点や接触、ループ等の有無を正確に検
出できなため、これらの要素を中心に文字候補を選択す
ることができない。このため、これら要素以外の方法で
文字候補を選択することが必要とされる。また、文字記
入位置に大きなずれが生じている場合にも、項目枠ごと
に筆跡データを分離できる融通性の高い文字切り出し方
法が必要とされる。特に、検出精度が低いことやタブレ
ット上に置かれる伝票の位置ずれなどにより文字単位の
切り出しが困難となることから、従来方法とは異なる新
しい文字切り出し方法が必要とされる。
As described above, if the detection accuracy is low or if there is an input error or noise, it is not possible to accurately detect the intersection, contact, loop or the like of the characters which are the elements of the character pattern. Character candidates cannot be selected around elements. Therefore, it is necessary to select character candidates by a method other than these elements. In addition, even when a large deviation occurs in the character entry position, a highly flexible character extraction method capable of separating handwriting data for each item frame is required. In particular, since it is difficult to cut out characters on a character basis due to low detection accuracy and misalignment of a slip placed on a tablet, a new character cutting method different from the conventional method is required.

【0008】そこで上記不都合に鑑み、本願発明者は上
記特徴を有する筆跡データであっても文字認識および文
字切り出しが可能な新規の文字認識・文字切り出し方法
を提案することとする。
[0008] In view of the above disadvantages, the present inventor proposes a new character recognition / character extraction method capable of character recognition and character extraction even with handwriting data having the above characteristics.

【0009】[0009]

【課題を解決するための手段】すなわち、本願発明の第
1の課題は、類似性という概念を利用することにより、
伝票上から記入されたような精度が悪い筆跡データであ
っても正確に文字認識することのできる文字認識装置を
提供することである。本発明の第2の課題は、伝票上か
ら記入されたような精度の悪い筆跡データであっても利
用できる候補限定方法を提案することにより、精度が悪
い筆跡データであっても能率的に文字認識することので
きる文字認識装置を提供することである。本発明の第3
の課題は、伝票上から記入されたような位置ずれが大き
な筆跡データであっても、筆跡データを項目や文字ごと
に確実に対応付けられる文字認識装置を提供することで
ある。
That is, the first object of the present invention is to make use of the concept of similarity.
An object of the present invention is to provide a character recognizing device capable of accurately recognizing characters even if the handwriting data is inaccurate such as written on a slip. A second object of the present invention is to propose a candidate limiting method that can be used even with inaccurate handwriting data such as written on a voucher. An object of the present invention is to provide a character recognition device capable of recognizing. Third of the present invention
An object of the present invention is to provide a character recognition device that can surely associate handwriting data with each item or character even if the handwriting data has a large misalignment as written on a slip.

【0010】上記第1及び第3の課題を解決する発明
は、筆跡をサンプリングしてデータ化し文字認識するた
めの文字認識装置において、 1)互いの距離が一定値以下であるサンプル点の集合を
同一項目についての文字列を表わすサンプル点の集合で
あるとしてクラスター化し、各クラスター化されたサン
プル点の集合と項目との重なり具合を判定し、前記重な
り具合を上げる方向にサンプル点の集合全体を移動させ
て、各クラスター化されたサンプル点の集合と各項目と
を対応づけることにより、項目単位でサンプル点の集合
を切出す項目切出し手段、 2)項目枠ごとに、文字列の並び方向に水平な軸に対す
るサンプル点の出現頻度をヒストグラムとして求め、当
該ヒストグラムに記録された出現頻度の最も少ない軸上
の部分を、文字切出しの境界として特定する文字切出し
手段、 3)ペン先位置の経過時間に対する変化を示す筆跡位置
データ(P(1)、P(2)、…)に基づいて、各ペン
位置におけるペン先の移動方向ベクトルの経過時間に対
する変化を示す筆跡ベクトルデータ(U(1)、U
(2)、…)を生成する前処理手段、 4)予め格納されているいずれかのテンプレートにおけ
る基準ベクトルデータ(V(1)、V(2)、…)と前
記筆跡ベクトルデータとの各ベクトル同士の類似性を数
値化し、当該類似性を示す数値の総和が最大となるよう
な対応がとれた場合に、i(i=1,2、…)番目の前
記筆跡ベクトルデータに対応している基準ベクトルデー
タの順番をT(i)とおいて両者の対応関係を特定する
対応関係特定手段、 5)対応関係のとれた基準ベクトルデータV(T
(i))に対応している基準位置データQ(T(i))
と筆跡位置データP(i)との距離をエネルギー関数値
として求め、当該エネルギー関数値が最も小さくなるよ
うに相対位置および大きさを補正する位置サイズ補正手
段、および 6)位置補正された筆跡位置データと基準位置データと
の間のエネルギー関数値を演算し、当該エネルギー関数
値が最も小さくなるテンプレートに対応づけられている
文字を当該筆跡の文字として認識する認識処理手段、を
備えたことを特徴とする文字認識装置である。エネルギ
ー関数については限定がなく類似度を数量化できる計算
方法であれば種々に適用可能である。
[0010] The invention for solving the above first and third problems.
Is used to sample handwriting, convert it to data, and recognize characters.
1) A set of sample points whose distance from each other is equal to or less than a certain value
A set of sample points that represent character strings for the same item
Clustered as
Determine the degree of overlap between the set of pull points and the item, and
Move the entire set of sample points in the direction
Of each clustered sample point and each item
By associating
Item extraction means for extracting 2)For each item box, against the axis that is horizontal in the direction of the string
The frequency of appearance of sample points
On the axis with the lowest frequency of appearance recorded in the histogram
Character extraction that identifies the part as a character extraction boundary
means,  3) Handwriting position indicating change in pen tip position with respect to elapsed time
Based on the data (P (1), P (2),...), Each pen
Position of the pen tip at the position
Handwriting vector data (U (1), U
(2), pre-processing means for generating...) 4) In one of the templates stored in advance
Reference vector data (V (1), V (2), ...)
Number of similarities between each vector and handwriting vector data
So that the sum of the numerical values indicating the similarity is maximized
Before the i-th (i = 1, 2,...)
Reference vector data corresponding to handwriting vector data
The order of the data is set to T (i) and the correspondence between the two is specified.
Correspondence specifying means, 5) Reference vector data V (T
Reference position data Q (T (i)) corresponding to (i))
The distance between the point and the handwriting position data P (i) as an energy function value
And the energy function value becomes the smallest.
Position size correction method to correct relative position and size
And 6) position-corrected handwriting position data and reference position data
Calculate the energy function value between
Associated with the template with the lowest value
Recognition processing means for recognizing a character as a character of the handwriting;
A character recognition device comprising: Energy
-Calculations that can quantify similarity with no restrictions on functions
Various methods can be applied.

【0011】ここで例えば上記位置サイズ補正手段は、
前記筆跡位置データをP(i)=(xi、yi)=(aX
T(i)+bYT(i)+c、dYT(i)+eXT(i)+f)、基準
位置データをQ(T(i))=(XT(i)、YT(i))、n
を演算の回数としたとき、P(i)とQ(T(i))と
の相異の度合いを評価するエネルギー関数E(a,b,
c,d,e,f)を最小にするためのアフィン変換のパ
ラメータa,b,c,d,e,fを下式の勾配法にした
がって求める計算を行う
Here, for example, the position size correction means is as follows:
The handwriting position data P (i) = (x i , y i) = (aX
T (i) + bY T ( i) + c, dY T (i) + eX T (i) + f), the reference position data Q (T (i)) = (X T (i), Y T (i)), n
Is the number of operations, an energy function E (a, b, E) that evaluates the degree of difference between P (i) and Q (T (i))
c, d, e, f) are calculated to obtain the affine transformation parameters a, b, c, d, e, and f according to the following gradient method.

【0012】[0012]

【数2】 (Equation 2)

【0013】好ましくは本発明は、入力された筆跡を新
たなテンプレートとして登録可能とするために、当該筆
跡についての当該筆跡位置データおよび筆跡ベクトルデ
ータを新たなテンプレートの基準位置データおよび基準
ベクトルデータとし、これらデータと当該筆跡の示す文
字、文字種、ストローク数、ストローク長に対応する値
等の属性情報とを構造体としてメモリに格納可能に構成
されたテンプレート管理手段をさらに備える。
Preferably, the present invention sets the handwriting position data and handwriting vector data of the handwriting as reference position data and reference vector data of a new template so that the input handwriting can be registered as a new template. And a template management unit configured to be able to store the data and attribute information such as a character indicated by the handwriting, a character type, a stroke number, and a value corresponding to a stroke length as a structure in a memory.

【0014】例えば、上記テンプレート管理手段は、文
字認識に使用されたテンプレートについて、当該テンプ
レートの使用頻度を更新し前記構造体の一部として登録
可能に構成されている。
For example, the template management means is configured so that the frequency of use of the template used for character recognition can be updated and registered as a part of the structure.

【0015】ここで例えば上記前処理手段は、前記筆跡
位置データにおけるサンプル点の間隔が長すぎる場合に
新たなサンプル点を追加し、当該間隔が短すぎる場合に
いずれかのサンプル点を除去することによりサンプル点
の間隔を均一化して筆跡位置データおよび筆跡ベクトル
データとする。
Here, for example, the preprocessing means adds a new sample point when the interval between the sample points in the handwriting position data is too long, and removes any sample point when the interval is too short. , The intervals between sample points are made uniform to obtain handwriting position data and handwriting vector data.

【0016】上記第2の課題を解決するために、上記前
処理手段は、前記筆跡位置データに基づいて当該筆跡の
ストローク数を検出可能に構成されている。そして、前
記対応関係特定に先立ち、検出された当該筆跡のストロ
ーク数と同数のストローク数を備えるテンプレートを、
前記対応関係特定に使用する候補として限定する候補限
定処理手段をさらに備える。
In order to solve the second problem, the preprocessing means is configured to be able to detect the number of strokes of the handwriting based on the handwriting position data. Then, prior to the identification of the correspondence, a template having the same number of strokes as the detected number of strokes of the handwriting,
The information processing apparatus further includes candidate limitation processing means for limiting the candidate as a candidate to be used for specifying the correspondence.

【0017】上記第2の課題を解決する他の方法とし
て、上記前処理手段は、前記筆跡位置データに基づいて
当該筆跡のストローク長を検出可能に構成されている。
そして、対応関係特定に先立ち、検出された当該筆跡の
ストローク長から一定範囲の長さのストローク長を備え
るテンプレートを、前記対応関係特定に使用する候補と
して限定する候補限定手段をさらに備える。
As another method for solving the second problem, the preprocessing means is configured to be able to detect a stroke length of the handwriting based on the handwriting position data.
Further, prior to the correspondence specification, the apparatus further includes a candidate limiting unit for limiting a template having a stroke length within a certain range from the detected stroke length of the handwriting as a candidate to be used for the correspondence specification.

【0018】上記第2の課題を解決するさらに他の方法
として、上記前処理手段は、前記筆跡ベクトルデータに
基づいて当該筆跡におけるペン先移動方向の発生頻度を
検出可能に構成されている。そして、対応関係特定に先
立ち、検出された当該筆跡のペン先移動方向発生頻度か
ら一定範囲の移動方向発生頻度を備えるテンプレート
を、前記対応関係特定に使用する候補として限定する候
補限定手段をさらに備える。
As still another method for solving the second problem, the preprocessing means is configured to detect the frequency of occurrence of the pen tip moving direction in the handwriting based on the handwriting vector data. In addition, prior to the identification of the correspondence, the method further includes a candidate limitation unit that limits a template having a certain range of the occurrence frequency of the movement direction from the detected pen tip movement direction of the handwriting as a candidate to be used for the identification of the correspondence. .

【0019】好ましくは、前処理手段は、前記筆跡位置
データに基づいて当該筆跡における交差、接触、近接、
ループなどのパターン情報を検出可能に構成される。そ
して、認識処理手段は、エネルギー関数値が最も小さく
なるテンプレートを特定するに当たり、テンプレートに
付随して格納された交差、接触、近接、ループなどのパ
ターン情報を参照して特定する。
[0019] Preferably, the preprocessing means, based on the handwriting position data, intersects, contacts, approaches,
It is configured to detect pattern information such as a loop. Then, when specifying the template having the smallest energy function value, the recognition processing means specifies the template by referring to pattern information such as intersection, contact, proximity, and loop stored along with the template.

【0020】[0020]

【0021】[0021]

【0022】[0022]

【0023】ここで上記文字切出し手段は、項目枠に予
め定められた基準文字ピッチを中心に一定幅を有する切
出し領域を設定し、当該切出し領域内において前記文字
切出しの境界を特定する。
Here, the character cutout means sets a cutout area having a constant width centered on a predetermined reference character pitch in the item frame, and specifies a boundary of the character cutout in the cutout area.

【0024】さらに上記文字切出し手段は、各前記切出
し領域において一定間隔でノードを設定し、隣接する前
記切出し領域のノードを複数の径路で接続して当該経路
上のノードに記録されたヒストグラムの出現頻度を合計
していき、複数設定された経路のうち、前記ヒストグラ
ムの出現頻度の合計が最も少なくなる経路を特定して当
該経路上にあるノードの位置で文字を切出す。
Further, the character extracting means sets nodes at fixed intervals in each of the extracted areas, connects nodes of the adjacent extracted areas by a plurality of paths, and generates an appearance of a histogram recorded at a node on the path. The frequencies are totaled, and among the plurality of paths, the path having the smallest total appearance frequency of the histogram is specified, and characters are cut out at the positions of the nodes on the path.

【0025】また、本発明はコンピュータを上記機能ブ
ロックを備えた装置として動作させることが可能な記録
媒体である。ここで「記録媒体」とは、何等かの物理的
手段により情報(主にデジタルデータ、プログラム)が
記録されているものであって、コンピュータ、専用プロ
セッサ等の処理装置に所定の機能を行わせることができ
るものである。要するに、何等かの手段でもってコンピ
ュータにプログラムをダウンロードし、所定の機能を実
行させるものであればよい。例えば、フレキシブルディ
スク、固定ディスク、磁気テープ、光磁気ディスク、C
D、CD−ROM、CD−R、DVD−RAM,DVD
−ROM、DVD−R、PD、MD,DCC、ROMカ
ートリッジ、バッテリバックアップ付きのRAMメモリ
カートリッジ、フラッシュメモリカートリッジ、不揮発
性RAMカートリッジ等を含む。
Further, the present invention is a recording medium capable of operating a computer as an apparatus having the above-mentioned functional blocks. Here, the “recording medium” is a medium in which information (mainly digital data and programs) is recorded by some physical means, and causes a processing device such as a computer or a dedicated processor to perform a predetermined function. Is what you can do. In short, any method may be used as long as the program is downloaded to the computer by some means and a predetermined function is executed. For example, flexible disk, fixed disk, magnetic tape, magneto-optical disk, C
D, CD-ROM, CD-R, DVD-RAM, DVD
-Including ROM, DVD-R, PD, MD, DCC, ROM cartridge, RAM memory cartridge with battery backup, flash memory cartridge, nonvolatile RAM cartridge, etc.

【0026】[0026]

【0027】[0027]

【発明の実施の形態】次に、本発明の好適な実施の形態
を、図面を参照しながら説明する。図1に本実施形態の
文字認識装置100のブロック図を示す。この文字認識
装置100は、図1に示すように、CPU101、RA
M102、ROM103、ラッチ104、センサ105
x・105y、ボード106、ペン107、筆跡データ
メモリ109、シリアルインターフェース回路110、
入力インターフェース回路111、入力装置112、液
晶ドライバ回路113、ディスプレイ114および固定
ディスク115を備えている。なおCD−ROM,DV
D、FDなどの外部記憶媒体によりプログラムを提供す
る場合には、これら記憶媒体の読取装置をさらに備えて
いてもよい。
Next, preferred embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows a block diagram of a character recognition device 100 of the present embodiment. As shown in FIG. 1, the character recognition device 100 includes a CPU 101, an RA
M102, ROM 103, latch 104, sensor 105
x · 105y, board 106, pen 107, handwriting data memory 109, serial interface circuit 110,
An input interface circuit 111, an input device 112, a liquid crystal driver circuit 113, a display 114, and a fixed disk 115 are provided. CD-ROM, DV
When the program is provided by an external storage medium such as D or FD, a reading device for these storage media may be further provided.

【0028】当該文字認識装置100は、例えばクリッ
プを備えたボード状の形体を有し、クリップに挟むこと
によりボード106上に伝票を載置することが可能にな
っている。ユーザは、ペン107を使用してクリップに
よりボード106上に置かれた伝票に文字を記入するよ
うになっている。
The character recognition device 100 has, for example, a board-like shape provided with a clip, and a slip can be placed on the board 106 by being sandwiched between the clips. The user writes characters on a slip placed on the board 106 by a clip using the pen 107.

【0029】センサ105x・105yは、各々が複数
の検出要素を含んでいる。各検出要素は、ペン107の
先に取り付けられた金属球がボード106上を動くこと
により発生した磁気の強さ変化を検出可能になってい
る。ただし、磁気を使用する他ペンに電磁波を発信させ
ることにより、センサにこの電磁波の電界強度を検出さ
せるように構成してもよい。すなわち通常のデジタイザ
としての機能を備えていればよい。センサ105x・1
05yは、サンプリング期間中に各検出要素を順次スキ
ャンすることにより、最も大きな検出信号が得られた検
出要素を特定し、その検出要素に対応づけられた座標値
をサンプリングタイミングごとに、出力するようになっ
ている。センサ105xは伝票横方向のX座標を検出
し、センサ105yは伝票縦方向のY座標を検出する。
サンプリング間隔は、ペン107の速い動きを検出する
ために、例えば100回/sec以上の一定間隔に設定さ
れる。このようにしてサンプリングされたサンプリング
点の時系列データを筆跡データと称する。
Each of the sensors 105x and 105y includes a plurality of detection elements. Each detection element is capable of detecting a change in magnetic intensity generated by a metal ball attached to the tip of the pen 107 moving on the board 106. However, the electromagnetic wave may be transmitted to another pen using magnetism so that the sensor detects the electric field strength of the electromagnetic wave. That is, it is only necessary to have a function as a normal digitizer. Sensor 105x ・ 1
05y is to sequentially scan each detection element during the sampling period to specify the detection element from which the largest detection signal is obtained, and to output the coordinate value corresponding to the detection element at each sampling timing. It has become. The sensor 105x detects the X coordinate of the slip in the horizontal direction, and the sensor 105y detects the Y coordinate of the slip in the vertical direction.
The sampling interval is set to a constant interval of, for example, 100 times / sec or more in order to detect fast movement of the pen 107. The time series data of the sampling points sampled in this way is called handwriting data.

【0030】ラッチ104は、サンプリングタイミング
ごとにセンサ105x・105yから供給される座標値
を保持しCPU101の読取要求にしたがって任意のタ
イミングで座標値を出力可能になっている。筆跡データ
用メモリ109は、ラッチ104から取得された筆跡デ
ータを記憶可能に構成されている。筆跡データは一つの
伝票について1ファイルとして記憶される。複数の伝票
について複数のファイルを記憶可能になっている。
The latch 104 holds coordinate values supplied from the sensors 105x and 105y at each sampling timing, and can output coordinate values at an arbitrary timing in accordance with a reading request of the CPU 101. The handwriting data memory 109 is configured to be able to store handwriting data obtained from the latch 104. Handwriting data is stored as one file for one slip. A plurality of files can be stored for a plurality of slips.

【0031】ROM103には、本発明の文字認識方法
を実行可能にするプログラムおよび初期テンプレートが
設定されている場合にはそのテンプレート構造体がCP
U101から参照可能に格納されている。なお、このプ
ログラムやテンプレート構造体を外部記憶媒体や固定デ
ィスク115から供給するようにしてもよい。この場合
には、ROM103には初期プログラムのみが格納され
る。
When a program for enabling the character recognition method of the present invention and an initial template are set in the ROM 103, the template structure is a CP.
It is stored so that it can be referenced from U101. The program and the template structure may be supplied from an external storage medium or the fixed disk 115. In this case, the ROM 103 stores only the initial program.

【0032】RAM102は、CPU101のワークエ
リアおよびテンプレート構造体の格納領域として利用さ
れる。なお、プログラムを転送して実行可能に構成する
場合にはプログラム領域としても使用される。
The RAM 102 is used as a work area for the CPU 101 and a storage area for a template structure. When the program is configured to be executable by being transferred, it is also used as a program area.

【0033】CPU101は、ROM103に書き込ま
れたプログラムを実行することにより、本発明の文字認
識方法を実行可能に構成されている。ただしプログラム
を転送するように構成する場合には、CPU101は最
初にROM103を参照して初期プログラムを実行し、
次いで外部記憶媒体または固定ディスク115に格納さ
れているプログラムファイルを読み取ってRAM102
に実行可能に転送するように構成する。また、CPU1
01は、ROM103に格納されたテンプレート構造体
を読み取ってRAM102に転送するようになってい
る。さらにCPU101は、筆跡データに対する筆跡切
り出し、前処理、認識処理をRAM102上で行い、生
成されたテンプレート構造体をRAM内に格納するよう
になっている。さらに入力装置112から入力されるユ
ーザの指示に基づいて、CPU101はテンプレート構
造体をファイルとして固定ディスク115にセーブした
りロードしたりするファイル管理を行うようになってい
る。
The CPU 101 can execute the character recognition method of the present invention by executing a program written in the ROM 103. However, when the configuration is such that the program is transferred, the CPU 101 first executes the initial program with reference to the ROM 103,
Next, the program file stored in the external storage medium or the fixed disk 115 is read and the RAM 102 is read.
Is configured to be executable. CPU1
01 reads a template structure stored in the ROM 103 and transfers it to the RAM 102. Further, the CPU 101 performs handwriting clipping, preprocessing, and recognition processing on handwriting data on the RAM 102, and stores the generated template structure in the RAM. Further, based on a user instruction input from the input device 112, the CPU 101 performs file management for saving and loading the template structure as a file on the fixed disk 115.

【0034】シリアルインターフェース回路110は、
CPU101のコマンドに対応してデータの送受信を外
部のコンピュータ装置200と行うことが可能に構成さ
れている。送受信されるデータは、テンプレート構造
体、プログラム、認識文字情報などである。
The serial interface circuit 110 includes:
It is configured to be able to transmit and receive data to and from an external computer device 200 in response to a command from the CPU 101. The transmitted / received data is a template structure, a program, recognized character information, and the like.

【0035】入力装置112は、ユーザが操作すること
によって操作信号を出力可能になっている。入力インタ
ーフェース回路111は、入力装置112からの操作信
号をCPU101のコマンドに対応させて出力するよう
になっている。
The input device 112 can output an operation signal when operated by a user. The input interface circuit 111 outputs an operation signal from the input device 112 in accordance with a command from the CPU 101.

【0036】ドライバ回路113は、CPU101によ
り転送された表示コマンドに基づいてディスプレイ11
4に表示データを供給するように構成されている。ディ
スプレイ114は、ドライバ回路113から供給された
表示データに対応させて文字表示可能に構成されてい
る。ディスプレイは、ディスプレイであってもCRTで
あってもプラズマディスプレイであってもよい。
The driver circuit 113 controls the display 11 based on the display command transferred by the CPU 101.
4 is configured to supply display data. The display 114 is configured to be capable of displaying characters in accordance with the display data supplied from the driver circuit 113. The display may be a display, a CRT or a plasma display.

【0037】固定ディスク115は、新たに生成された
テンプレート構造体をファイルとして格納したりプログ
ラムデータを格納したりできるようになっている。
The fixed disk 115 can store a newly generated template structure as a file or store program data.

【0038】(文字認識処理)図2に本発明の文字認識
方法を説明するフローチャートを示す。本文字認識装方
法は、大きく分けて筆跡切り出し処理、前処理、テンプ
レート管理処理、候補限定処理、対応関係特定処理、位
置サイズ補正処理および認識処理によって構成されてい
る。すなわちCPU101がプログラムを実行すること
により、当該文字認識装置が、機能ごとに筆跡切り出し
手段、前処理手段、テンプレート管理手段、候補限定手
段、対応関係特定手段、位置サイズ補正手段および認識
処理手段を備えることになる。
(Character Recognition Processing) FIG. 2 is a flowchart for explaining the character recognition method of the present invention. This character recognition method is roughly divided into handwriting cutout processing, preprocessing, template management processing, candidate limitation processing, correspondence specification processing, position size correction processing, and recognition processing. That is, when the CPU 101 executes the program, the character recognition device includes a handwriting cutout unit, a preprocessing unit, a template management unit, a candidate limitation unit, a correspondence specifying unit, a position size correction unit, and a recognition processing unit for each function. Will be.

【0039】まず、ユーザが伝票上にペン107で文字
を筆記することによりラッチ104に座標値が格納され
た場合、CPU101はこれを順次読み出して筆跡デー
タメモリ109に時系列データとして蓄積していく。こ
のサンプリング点の集合が筆跡データとなる。
First, when a user writes a character on a voucher with a pen 107 and a coordinate value is stored in the latch 104, the CPU 101 sequentially reads out the coordinate value and accumulates it in the handwriting data memory 109 as time-series data. . This set of sampling points becomes handwriting data.

【0040】次いで、ユーザが入力装置112を操作す
ることにより当該伝票に関し文字認識を行う旨の操作信
号が入力されると、CPU101は筆跡データメモリ1
09から当該伝票に対応する筆跡データを入力する(S
101)。
Next, when the user operates the input device 112 to input an operation signal indicating that the slip is to be subjected to character recognition, the CPU 101 sets the handwriting data memory 1
09, the handwriting data corresponding to the slip is inputted (S
101).

【0041】本発明の筆跡切り出し処理は、伝票全体の
サンプリング点をまとめた筆跡データを項目ごとのサン
プル点の集合として切り分ける項目切り出し処理(S1
02)と、項目内の筆跡データを一つ一つの文字に対応
するサンプル点の集合として分割する文字切り出し処理
(S106)とにより構成される。伝票に記入する筆跡
には、数字やカタカナ、ひらがな、漢字、署名、線図な
どがある。これらの中には文字認識に不適なものやその
まま筆跡データからイメージデータに変換して使用すべ
きものが含まれている。項目ごとにどのような種類の筆
跡が記されるのかが定められている。このため、最初に
本発明の項目切り出し処理(S102)を行って、筆跡
データのどの部分がどの項目に相当しているのかの対応
関係を調べてから、本発明の文字認識に適当か否かの判
定を行う(S103)。本発明の文字切り出し処理(S
106)は、本発明の文字認識を行うことが確定してか
ら行うのが合理的である。
The handwriting cutout processing of the present invention is an item cutout processing (S1) for separating handwriting data in which sampling points of the entire slip are collected as a set of sample points for each item.
02) and a character cutout process (S106) for dividing the handwriting data in the item as a set of sample points corresponding to each character. Handwriting to be entered on the slip includes numbers, katakana, hiragana, kanji, signatures, diagrams, and the like. These include those that are unsuitable for character recognition and those that should be used by directly converting handwriting data into image data. It defines what kind of handwriting is written for each item. For this reason, first, the item extraction process (S102) of the present invention is performed to check the correspondence between which part of the handwriting data corresponds to which item, and then determine whether or not it is appropriate for the character recognition of the present invention. Is determined (S103). Character extraction processing (S
It is reasonable to perform 106) after it is determined that the character recognition of the present invention is performed.

【0042】項目切り出し処理を行うために、CPU1
01は筆跡データに含まれる各サンプリング点の示す座
標値を参照し、一定距離の範囲内に存在しているサンプ
ル点の集合を一つの高まりとして取り扱うクラスター化
処理を行う。すなわちペン先の位置座標の近接性に基づ
いて明きからに同一項目に属すると判定できるサンプリ
ングデータを取りまとめて統合するのである。近接性を
判定するために、CPU101は、伝票の項目配置が予
め間隔情報として定義されている定義体データにを参照
する。この定義体データは、ユーザが入力装置112に
より伝票の種類を指定するたびにROM103から読み
取られ、現在使用中の伝票様式情報としてRAM102
に格納されるものである。項目間の切り出しを近接性に
基づいて良好に行うためには、項目間の距離を広く設定
した定義体データを用意しておくことが好ましい。CP
U101は、間隔情報を参照して、クラスター化された
サンプル点の集合を項目枠に重ね、項目枠内にサンプル
点が存在している割合により重なり具合を判定する。そ
して重なり率が低い場合には重なり率を上げる方向に筆
跡データを移動させるように、サンプル点の集合全体に
オフセットを加減算する。例えば、CPU101は、複
数のサンプル点の集合に対して同一のオフセットを仮に
加算し、いずれのサンプル点の集合についても重なり率
が改善されていれば、そのオフセットを有効なものとす
る。重なり率が変化しないか悪化する場合には異なるオ
フセット(例えば逆方向に移動させるオフセット)を用
いて再度試算してみる。これを繰り返すことにより、ほ
ぼ総てのサンプル点の集合について項目枠との重なり率
が完全に近づいたら、すなわち筆跡データが全て項目枠
内に配置されたら、CPU101は項目切り出し処理を
終了する。図3に、項目切り出し処理により、クラスタ
ー化されたサンプル点の集合と項目枠とが完全に対応づ
けられた場合の処理結果を示す。クラスター化されたサ
ンプル点の集合である筆跡データのまとまりをW11で
示し、項目枠をW12で示す。
In order to perform an item cutout process, the CPU 1
Reference numeral 01 refers to the coordinate value of each sampling point included in the handwriting data, and performs a clustering process in which a set of sample points existing within a certain distance range is treated as one height. That is, sampling data that can be determined to belong to the same item from the beginning based on the proximity of the position coordinates of the pen tip is collected and integrated. In order to determine the proximity, the CPU 101 refers to definition data in which the item arrangement of the slip is defined in advance as interval information. This definition data is read from the ROM 103 every time the user specifies the type of the slip using the input device 112, and is stored in the RAM 102 as the currently used slip format information.
Is stored in In order to satisfactorily cut out the items based on the proximity, it is preferable to prepare definition data in which the distance between the items is set wide. CP
U101 refers to the interval information, overlaps the set of clustered sample points on the item box, and determines the degree of overlap based on the ratio of the sample points existing in the item box. When the overlap rate is low, the offset is added to or subtracted from the entire set of sample points so that the handwriting data is moved in a direction to increase the overlap rate. For example, the CPU 101 temporarily adds the same offset to a set of a plurality of sample points, and if the overlap ratio is improved for any of the set of sample points, the offset is made valid. If the overlap ratio does not change or deteriorates, a trial calculation is performed again using a different offset (for example, an offset moved in the reverse direction). By repeating this, when the overlap ratio with the item frame is almost completely reached for almost all the set of sample points, that is, when all the handwriting data is arranged in the item frame, the CPU 101 ends the item cutout processing. FIG. 3 shows a processing result when a set of clustered sample points is completely associated with an item frame by the item cutout processing. A group of handwriting data, which is a set of clustered sample points, is indicated by W11, and an item frame is indicated by W12.

【0043】次いで項目枠について定義体データで設定
されている項目枠ごとの文字属性を判定し、本発明の文
字認識処理に適さない筆跡データであると判定したら
(S103;NO)、CPU101は従来のパターン照
合による文字切り出し(S104),パターン認識処理
(S105)を行う。また文字認識させない署名や線図
のサンプリング点である場合には、CPU101は文字
認識処理を行わない。
Next, the character attribute of each item frame set in the definition body data for the item frame is determined, and if it is determined that the handwriting data is not suitable for the character recognition processing of the present invention (S103; NO), the CPU 101 sets the conventional (S104) and pattern recognition processing (S105). If the signature is a sampling point of a signature or diagram for which character recognition is not performed, the CPU 101 does not perform character recognition processing.

【0044】さて本発明の文字認識処理を行わせるべき
筆跡データであると判定したら(S103;YES)、
CPU101は文字切り出し処理を行う(S106)。
文字切り出しの原理を、図4を参照して説明する。図4
には、一つの項目枠について複数の文字「1256」が
記載されている場合を示してある。文字切出し処理は、
項目枠ごとに、文字列の並び方向に水平な軸に対するサ
ンプル点の出現頻度をヒストグラムとして求め、ヒスト
グラムに記録された出現頻度の最も少ない軸上の部分
を、文字切出しの境界として特定することにより行われ
る。図4に示すように、CPU101は、項目の水平軸
に文字の構成点、つまり各筆跡データを構成するサンプ
リング点の数を累積させたヒストグラムを作成する。
If it is determined that the data is handwriting data to be subjected to the character recognition processing of the present invention (S103; YES),
The CPU 101 performs a character cutout process (S106).
The principle of character segmentation will be described with reference to FIG. FIG.
Shows a case where a plurality of characters "1256" are described for one item frame. Character extraction processing is
For each item frame, the appearance frequency of the sample points on the axis that is horizontal to the direction in which the character strings are arranged is obtained as a histogram, and the portion on the axis with the lowest appearance frequency recorded in the histogram is specified as the boundary for character extraction. Done. As shown in FIG. 4, the CPU 101 creates a histogram on the horizontal axis of the item, in which the number of constituent points of a character, that is, the number of sampling points forming each piece of handwriting data is accumulated.

【0045】ここで伝票の項目枠には、必須事項ではな
いがある程度文字ピッチを守って文字を記載してもらう
ために、文字ピッチ(文字枠表示)が記してある場合が
ある。文字ピッチを利用すると、ヒストグラムの作成が
非常に短時間で済む。本実施形態では、文字切り出し処
理を効率的に行うために、この文字ピッチを利用するこ
ととする。図4では、基準文字ピッチを定める文字の境
界(破線で表示)を中心に、ヒストグラム化する一定幅
の切り出し領域を設定してある。図4では切り出し領域
として境界を中心に、±δの幅が設定され、プラス方向
とマイナス方向にそれぞれ3つのノードが設定されてい
る。設定するノードの数はCPUの処理能力に応じて適
宜増減可能である。CPU101は、各ノードの位置に
おいてサンプリング点の出現頻度を集計し、各ノードに
対応させてRAM102に記憶させる。
In this case, a character pitch (character frame display) may be described in the item box of the slip, in order to have the characters be written while keeping the character pitch to some extent, although not essential. When the character pitch is used, the creation of the histogram is completed in a very short time. In the present embodiment, this character pitch is used in order to efficiently perform the character cutout processing. In FIG. 4, a cut-out area of a fixed width to be formed into a histogram is set around a character boundary (indicated by a broken line) that defines a reference character pitch. In FIG. 4, a width of ± δ is set around the boundary as a cutout area, and three nodes are set in each of the plus direction and the minus direction. The number of nodes to be set can be appropriately increased or decreased according to the processing capacity of the CPU. The CPU 101 counts the appearance frequency of the sampling point at the position of each node, and stores it in the RAM 102 in correspondence with each node.

【0046】次いでCPU101は各ノードで集計され
た出現頻度を参照して、切り出し領域内で最も低い出現
頻度が記録されているノードを文字の切り出し線として
特定する。具体的には、CPU101は、項目枠の端部
(ノードa4)から初めて、隣接する切出し領域のノー
ドを複数の径路で接続し、各経路上のノードに記録され
たヒストグラムの出現頻度を合計していく。そして、C
PU101は複数設定された経路のうち、ヒストグラム
の出現頻度の合計が最も少なくなる経路を特定する。例
えば、図4では、ノードa4から始まる複数経路(1〜
4)が設定されている。各経路にあるノードの出現頻度
を合計すると、図4のようになり、経路2および経路3
が最小値ゼロとして出現頻度の最小経路として特定でき
る。経路2と経路3はいずれを採用してもよい。最低値
ゼロを記録する経路が最初に発見された段階で残りの径
路探索を放棄するようにすれば、経路探索を高速化可能
である。また経路は組み合わせにより設定されて検索さ
れることになるため、公知の最小コスト経路探索アルゴ
リズムを適用して経路探索を高速化することが好まし
い。CPU101は特定できた経路上にあるノードの位
置で文字を切出すように設定する。例えば経路2では、
ノードa4、b3、c2、d5,e3の位置で各文字が
切り出される。経路3では、ノードa4、b4、c4、
d5,e3の位置で文字が切り出される。文字「5」の
ように、文字ピッチをはずれて記載された筆跡であって
も、この経路探索により、文字を正しく切り分けること
が可能である。図5に上記経路探索を利用して切り出さ
れた文字枠の表示例を示す。
Next, the CPU 101 refers to the appearance frequency totalized at each node and specifies the node where the lowest appearance frequency is recorded in the cutout area as a character cutout line. Specifically, the CPU 101 connects the nodes of the adjacent cutout area through a plurality of paths, starting from the end (node a4) of the item frame, and sums the appearance frequencies of the histograms recorded in the nodes on each path. To go. And C
The PU 101 specifies a route having the smallest total appearance frequency of the histogram among a plurality of set routes. For example, in FIG. 4, a plurality of routes (1 to
4) is set. FIG. 4 shows the sum of the frequencies of occurrence of the nodes on each route.
Can be specified as a minimum appearance frequency path with a minimum value of zero. Either of the route 2 and the route 3 may be adopted. If the remaining route search is abandoned when the route that records the minimum value of zero is first found, the speed of the route search can be increased. In addition, since a route is set and searched by a combination, it is preferable to apply a known minimum cost route search algorithm to speed up the route search. The CPU 101 sets the character to be cut out at the position of the node on the identified route. For example, in route 2,
Characters are cut out at the positions of nodes a4, b3, c2, d5, and e3. In route 3, nodes a4, b4, c4,
Characters are cut out at positions d5 and e3. Even in the case of a handwriting written out of the character pitch, such as the character “5”, the character can be correctly separated by this route search. FIG. 5 shows a display example of a character frame cut out using the above route search.

【0047】文字ごとにサンプリング点の集合が切り出
されたら、CPU101は前処理としてデータ圧縮を行
う(S110)。データ圧縮は、筆跡データを構成して
いるサンプル点の間隔を均一化するものである。すなわ
ち手書きでは筆記速度が一定にならない。一定間隔でサ
ンプリングして得られた筆跡データは、筆記速度が速す
ぎるとサンプリング点の間隔が広すぎ、筆記速度が遅す
ぎるとサンプリング点の間隔が狭すぎる。このため、C
PU101は、切り出された文字を構成しているサンプ
リング点が長すぎる場合に新たなサンプル点を間に追加
し、サンプリング点の間隔が短すぎる場合にはその区間
を構成するいずれかのサンプル点を除去し、サンプリン
グ点の間隔が所定の間隔になるように調整する。このよ
うにして間隔が調整されたサンプリング点の集合を筆跡
位置データと称する。なお、サンプリング点の間隔調整
前の状態を筆跡データとおき、テンプレートに登録され
ている基準となる筆跡位置データを基準位置データと称
することにする。
When a set of sampling points is cut out for each character, the CPU 101 performs data compression as preprocessing (S110). Data compression is for equalizing the interval between sample points forming handwriting data. That is, the writing speed is not constant in handwriting. In the handwriting data obtained by sampling at regular intervals, if the writing speed is too fast, the interval between sampling points is too wide, and if the writing speed is too slow, the interval between sampling points is too narrow. Therefore, C
The PU 101 adds a new sample point between the sampling points constituting the cut-out character when the sampling point is too long, and adds any one of the sample points constituting the section when the interval between the sampling points is too short. It is removed and adjusted so that the interval between the sampling points becomes a predetermined interval. A set of sampling points whose intervals have been adjusted in this manner is referred to as handwriting position data. The state before the sampling point interval adjustment is set as handwriting data, and the reference handwriting position data registered in the template is referred to as reference position data.

【0048】筆跡位置データが生成されたら、CPU1
01はサンプリング点間の配置を参照して、サンプリン
グ点ごとにペン先の移動方向に対応するベクトルを記録
した筆跡ベクトルデータを生成する(S111)。すな
わち、筆跡位置データ(P(1)、P(2)、…)は、
ペン先位置の経過時間に対する変化をXY座標で示すも
のであり、筆跡ベクトルデータ(U(1)、U(2)、
…)は、各ペン位置におけるペン先の移動方向ベクトル
の経過時間に対する変化をXY方向のベクトルで示すも
のである。このベクトルは単位ベクトルであってもスカ
ラ量を含むものであってもよい。ここで、テンプレート
に登録されている基準となる筆跡ベクトルデータを基準
ベクトルデータと称する。
When the handwriting position data is generated, the CPU 1
01 generates handwriting vector data in which a vector corresponding to the moving direction of the pen tip is recorded for each sampling point with reference to the arrangement between the sampling points (S111). That is, the handwriting position data (P (1), P (2),...)
The change of the pen tip position with respect to the elapsed time is indicated by XY coordinates, and the handwriting vector data (U (1), U (2),
...) Indicate changes in the movement direction vector of the pen tip with respect to the elapsed time at each pen position by vectors in the XY directions. This vector may be a unit vector or may include a scalar quantity. Here, the reference handwriting vector data registered in the template is referred to as reference vector data.

【0049】続いてテンプレート管理処理を説明する。
文字認識するための筆跡データと比較するテンプレート
は、予め製造者側でROM103等に格納しておく他、
ユーザがペン107を用いて当該文字認識装置100で
登録することができる。ユーザは、テンプレートの登録
を行いたい場合、ペン107で登録したいテンプレート
の文字の筆跡を入力する。ついでユーザは入力装置11
2からテンプレートとしての登録を指示する。入力され
た筆跡データは、上記手順により筆跡位置データおよび
筆跡ベクトルデータに変換される。筆跡位置データおよ
び筆跡ベクトルデータは、基準位置データおよび基準ベ
クトルデータになるものである。CPU101は、ここ
でユーザに対し文字名および文字種などを指定させる表
示をディスプレイ114に行う(S131)。入力装置
112からこれらの文字の属性情報が入力されたら、C
PU101は、筆跡位置データを参照して、ストローク
数、ドット数、ストローク間の相互関係(交差、接触、
近接、ループ)を数量化したデータを検出する(S13
3)。また基準ベクトルデータに基づいて当該テンプレ
ートにおけるペン先移動方向の発生頻度(ヒストグラ
ム)を生成する。そしてCPU101は、基準位置デー
タおよび基準ベクトルデータと、入力され生成された属
性情報と併せてテンプレート構造体データを構成し、R
AM102に格納する。
Next, the template management process will be described.
A template to be compared with handwriting data for character recognition is stored in advance in the ROM 103 or the like on the manufacturer side,
The user can register with the character recognition device 100 using the pen 107. When the user wants to register a template, he or she inputs the handwriting of the character of the template to be registered with the pen 107. Then, the user enters the input device 11
2 to instruct registration as a template. The input handwriting data is converted into handwriting position data and handwriting vector data by the above procedure. The handwriting position data and the handwriting vector data become reference position data and reference vector data. The CPU 101 displays on the display 114 the user to specify the character name, character type, and the like (S131). When the attribute information of these characters is input from the input device 112, C
The PU 101 refers to the handwriting position data and refers to the number of strokes, the number of dots, and the interrelationship between strokes (intersection, contact,
Data that quantifies proximity and loop is detected (S13).
3). Further, an occurrence frequency (histogram) of the pen tip moving direction in the template is generated based on the reference vector data. Then, the CPU 101 forms template structure data together with the reference position data and the reference vector data and the input and generated attribute information.
It is stored in the AM 102.

【0050】また文字認識がされ筆跡の示す文字が特定
されるたびに、CPU101は認識された文字の属性を
使用して、新たなテンプレート構造体データを生成する
ように構成してもよい。テンプレートが文字認識に使用
されるたびに、CPU101は、そのテンプレートが使
用された頻度を構造体の一部として更新可能に記録する
ように構成してもよい。このようにすれば、使用すべき
テンプレートが特定できないようなあいまいな筆跡が入
力された場合に、使用頻度の高いテンプレートから認識
処理に利用していくことで、文字認識完了までの期待時
間を短縮することができる。
The CPU 101 may be configured to generate new template structure data using the attribute of the recognized character each time the character is recognized and the character indicated by the handwriting is specified. Each time the template is used for character recognition, the CPU 101 may be configured to record the frequency of use of the template as a part of a structure in an updatable manner. In this way, when an ambiguous handwriting that cannot identify the template to be used is input, the expected time to complete character recognition is reduced by using the frequently used template for recognition processing. can do.

【0051】さて長期間文字認識装置を使用してテンプ
レート構造体データの作成を続けていると、同一文字に
ついて複数のテンプレート構造体が存在する場合が生じ
る。このような場合には以下のテンプレート圧縮処理に
よってテンプレート構造体の数を適当な数に圧縮させる
(S132)。
If the template structure data is continuously created using the character recognition device for a long time, a plurality of template structures may exist for the same character. In such a case, the number of template structures is compressed to an appropriate number by the following template compression processing (S132).

【0052】同一文字について同じ者によって作成され
た複数のテンプレート間では、文字の書き方が似ている
ためテンプレート相互の類似度が高い。一方同じ文字認
識装置を複数の者が共有している場合などは、同一の文
字であっても書き方(くせ)の異なる筆跡に対応した複
数のテンプレートが作成されることになる。異なる者に
よって作成されたテンプレート間では当然ながらテンプ
レート相互の類似度が低くなる。テンプレート圧縮処理
では類似度の相異に注目し、文字認識処理で後述するエ
ネルギー関数に基づく位置サイズ補正処理および類似度
計算処理を適用し、複数のテンプレート間の類似度を順
次計算していく。そして類似度が近寄っているテンプレ
ートを一つのグループにまとめていく。一つのグループ
にまとめられたテンプレート群は同一人の筆跡に関する
テンプレートであると判断できるので、その中のどれか
一つのテンプレートを代表させ、残りのテンプレートを
削除する。すなわち互いに類似しているテンプレート群
ごとに一つのテンプレートのみを残すという圧縮処理を
行っていくことになる。このテンプレート圧縮処理の結
果、同一文字について特徴的な筆跡のテンプレートがそ
れぞれ一つ残されるため、後の認識処理において比較対
象となるテンプレートを最小限の数に抑えることができ
る。
A plurality of templates created by the same person for the same character have a high degree of similarity between the templates because the writing styles are similar. On the other hand, when a plurality of persons share the same character recognition device, a plurality of templates corresponding to handwritings having different writing styles (habits) are created even for the same character. Naturally, the similarity between the templates is low between templates created by different persons. In the template compression process, attention is paid to the difference in similarity, and in the character recognition process, a position size correction process and a similarity calculation process based on an energy function described later are applied, and the similarity between a plurality of templates is sequentially calculated. Then, templates with similar degrees of similarity are grouped into one group. The templates grouped into one group can be determined to be templates related to the handwriting of the same person, so any one of the templates is represented, and the remaining templates are deleted. That is, a compression process of leaving only one template for each template group similar to each other is performed. As a result of the template compression processing, one characteristic handwriting template remains for the same character, so that the number of templates to be compared in the subsequent recognition processing can be suppressed to the minimum number.

【0053】図6に、上記の手続きで生成されたテンプ
レートの表示例を示す。図中の黒丸の位置が基準位置デ
ータで特定される位置であり、黒丸から伸びるヒゲ状の
線が、基準ベクトルデータにより特定されるペン先移動
方向を示している。図中の「Strk」は検出されたス
トローク数を示し、「Dot」はドット数を示す。黒丸
の間の距離は、上記処理で均一化されているので、ドッ
ト数を参照すれば、ストローク長を知ることができる。
FIG. 6 shows a display example of a template generated by the above procedure. The position of the black circle in the figure is the position specified by the reference position data, and the mustache-like line extending from the black circle indicates the pen tip movement direction specified by the reference vector data. “Strk” in the figure indicates the number of detected strokes, and “Dot” indicates the number of dots. Since the distance between the black circles is made uniform by the above processing, the stroke length can be known by referring to the number of dots.

【0054】なお、テンプレートが不要になった場合に
は削除可能に構成してもよい。図7は、ユーザが入力装
置112より削除を指示した場合の表示例である。
It should be noted that a configuration may be adopted in which a template can be deleted when it becomes unnecessary. FIG. 7 is a display example when the user instructs deletion from the input device 112.

【0055】さて次に、本発明の文字認識処理を説明す
る。まず最初にふるいをかける意味で、CPU101
は、比較のために使用するテンプレートの候補を限定す
る候補限定処理を三段階に分けて行う。候補となったテ
ンプレートについて、筆跡位置データとの対応関係を特
定する処理を行って、最後に似ているか否かを決定する
類似度計算処理を行う。従来のパターン認識であると、
パターン上は類似して書き順のみが異なる文字、例えば
「v」と「u」や、「1」や「/」、「6」と「b」は
同一文字として認識される可能性があった。本発明の候
補限定処理では、筆跡の回転や傾斜補正をせずに、書き
順を含めた候補限定を行うので、真に類似性の高いテン
プレートのみを候補にすることが可能である。
Next, the character recognition processing of the present invention will be described. First, the CPU 101
Performs a candidate limiting process of limiting template candidates used for comparison in three stages. For the template that has become a candidate, a process for specifying the correspondence relationship with the handwriting position data is performed, and a similarity calculation process for determining whether or not the template is similar last is performed. With traditional pattern recognition,
Characters similar in pattern but differing only in writing order, for example, "v" and "u", "1" and "/", and "6" and "b" could be recognized as the same character. . In the candidate limitation process of the present invention, since the candidate limitation including the writing order is performed without performing handwriting rotation or tilt correction, it is possible to make only a template having a very high similarity a candidate.

【0056】第1段階の候補限定処理として、CPU1
01は、テンプレート構造体の属性情報(ストローク
数)を参照して、文字認識対象となる筆跡のストローク
数と同数のストローク数を備えるテンプレートを候補と
して限定する候補限定処理を行う(S120)。入力文
字が「2」である場合にはストローク数が1であるた
め、この処理により、ストローク数が2の「5」や
「7」のテンプレートは除外されることになる。
As the first stage candidate limitation processing, the CPU 1
In step S120, a template limiting process is performed with reference to the attribute information (the number of strokes) of the template structure to limit templates having the same number of strokes as the number of handwritings to be recognized as candidates. If the input character is “2”, the number of strokes is 1, and thus, the processing excludes templates “5” and “7” having the number of strokes of 2.

【0057】次いで、第2段階の候補限定処理として、
CPU101はテンプレート構造体の属性情報(ドット
数)を参照して、文字認識対象となる筆跡のストローク
長から一定範囲の長さのストローク長を備えるテンプレ
ートを候補として限定する候補限定処理を行う(S12
1)。サンプリング点の均一化処理によりサンプリング
間の間隔は一定になっているので、ドット数にこの間隔
を乗ずればストローク長に変換することができる。ドッ
ト数で比較してもストローク長で比較してもよい。
Next, as a candidate limitation process in the second stage,
The CPU 101 refers to the attribute information (the number of dots) of the template structure to perform a candidate limitation process of limiting a template having a stroke length within a certain range from the stroke length of the handwriting to be recognized as a candidate (S12).
1). Since the interval between samplings is constant by the sampling point equalization process, the stroke length can be converted by multiplying this interval by the number of dots. The comparison may be made based on the number of dots or the stroke length.

【0058】さらに、第3段階の候補限定処理として、
CPU101はテンプレート構造体のペン先移動方向の
出現頻度(ヒストグラム)を参照して、文字認識対象と
なる筆跡のペン先移動方向発生頻度から一定範囲の移動
方向発生頻度を備えるテンプレートを候補として限定す
る候補限定処理を行う(S122)。
Further, as a candidate limitation process in the third stage,
The CPU 101 refers to the frequency of appearance (histogram) of the pen tip moving direction of the template structure to limit templates having a certain range of moving direction occurrence frequencies from the pen tip moving direction occurrence frequencies of handwriting to be subjected to character recognition as candidates. A candidate limitation process is performed (S122).

【0059】候補となるテンプレートが限定されると、
候補となったテンプレートの各々について、CPU10
1は対応関係特定処理を行う(S123)。つまり、C
PU101は、候補となったテンプレートにおける基準
ベクトルデータ(V(1)、V(2)、…)と、文字認
識対象の筆跡に関する筆跡ベクトルデータとの各ベクト
ル同士の類似性を数値化する。そして類似性を示す数値
の総和が最大となるような対応がとれた場合に、i(i
=1,2、…)番目の前記筆跡ベクトルデータに対応し
ている基準ベクトルデータの順番をT(i)とおいて両
者の対応関係を特定する。
When the candidate templates are limited,
For each of the candidate templates, the CPU 10
1 performs a correspondence specifying process (S123). That is, C
The PU 101 quantifies the similarity of each vector between the reference vector data (V (1), V (2),...) In the candidate template and the handwriting vector data on the handwriting to be recognized. Then, when a measure is taken such that the sum of numerical values indicating similarity is maximized, i (i
= 1, 2,...), The order of the reference vector data corresponding to the handwriting vector data is defined as T (i), and the correspondence between the two is specified.

【0060】具体的には、文字認識対象となる筆跡の筆
跡ベクトルデータ(U(1)、U(2)、…)とテンプ
レートの基準ベクトルデータ(V(1)、V(2)、
…)との各点の間で、ベクトル方向の類似度を、例えば
最大類似度を100として比較していく。そして表1に
示すようなマトリクス対応関係図を作成し、文字認識対
象となる点ごとに最大類似度を示す基準ベクトルデータ
の点を決定する。表1では、最大類似度を示す組み合わ
せに下線を付してある。
More specifically, handwriting vector data (U (1), U (2),...) Of handwriting to be subjected to character recognition and reference vector data (V (1), V (2),
..), The similarity in the vector direction is compared, for example, with the maximum similarity being 100. Then, a matrix correspondence diagram as shown in Table 1 is created, and a point of the reference vector data indicating the maximum similarity is determined for each point to be subjected to character recognition. In Table 1, the combination indicating the maximum similarity is underlined.

【0061】[0061]

【表1】 [Table 1]

【0062】例えば、表1では、U(1)がV(1)
に、U(2)がV(2)に、U(3)がV(2)に、と
いうように対応づけられている。複数対一の対応や一対
複数の対応も成立しうる。対応関係は文字認識対象とな
る筆跡ベクトルデータの順番iに対するテンプレートの
基準ベクトルデータの順番T(i)で特定できる。例え
ば、表1ではT(1)=1、T(2)=2、T(3)=
2、…である。
For example, in Table 1, U (1) is V (1)
U (2) is associated with V (2), U (3) is associated with V (2), and so on. A plural-to-one correspondence or a one-to-many correspondence can also be established. The correspondence can be specified by the order T (i) of the reference vector data of the template with respect to the order i of the handwriting vector data to be recognized. For example, in Table 1, T (1) = 1, T (2) = 2, T (3) =
2, ...

【0063】対応関係が特定できたら、CPU101は
対応関係のとれた基準ベクトルデータV(T(i))に
対応している基準位置データQ(T(i))と、筆跡位
置データP(i)との距離をエネルギー関数値として求
めて、入力筆跡の移動方向とサイズ倍率を定めるパラメ
ータを求める(S124)。このパラメータは位置サイ
ズ補正に用いる。位置サイズ補正後、再度エネルギー関
数値(類似度)の比較をテンプレート間で行って最終的
な認識文字を特定する(S125)。
When the correspondence is specified, the CPU 101 determines the reference position data Q (T (i)) corresponding to the reference vector data V (T (i)) and the handwriting position data P (i). ) Is obtained as an energy function value, and parameters for determining the moving direction and the size magnification of the input handwriting are obtained (S124). This parameter is used for position size correction. After the position size correction, the energy function value (similarity) is compared again between the templates to specify the final recognized character (S125).

【0064】類似度計算の具体的な計算方法の例として
は、対応関係にある両位置データP(i)とQ(T
(i))の距離|P(i)−Q(T(i))|の2乗の
を最小にするようなエネルギー関数を用いる。より詳
しくは、CPU101は、筆跡位置データをP(i)=
(x、y)=(aXT(i)+bYT(i)+c、
dYT(i)+eXT(i)+f)、基準位置データを
Q(T(i))=(XT(i)、YT(i))、nを演
算の回数としたとき、P(i)とQ(T(i))との相
異の度合いを評価するエネルギー関数E(a,b,c,
d,e,f)を下式にしたがって求める。
As an example of a specific calculation method of similarity calculation, both position data P (i) and Q (T
Distance (i)) | P (i ) -Q (T (i)) | of the square of
Use an energy function that minimizes the sum . More specifically, the CPU 101 sets the handwriting position data to P (i) =
(X i, y i) = (aX T (i) + bY T (i) + c,
When dYT (i) + exT (i) + f), the reference position data is Q (T (i)) = ( XT (i) , YT (i) ), and n is the number of operations, P ( i) and an energy function E (a, b, c, E) for evaluating the degree of difference between Q (T (i))
d, e, f) are calculated according to the following equation.

【0065】[0065]

【数3】 (Equation 3)

【0066】そしてこのエネルギー関数を最小にするア
フィン変換のパラメータa,b,c,d,e,fを、n
を更新しながら勾配法によって求める。求められたパラ
メータにより筆跡位置データを変更すると、位置および
大きさが補正された筆跡を得ることができる。ただし、
最小値演算を行うことのできる関数であれば、上記エネ
ルギー関数によらず種々に変更して適用可能である。
The parameters a, b, c, d, e, and f of the affine transformation that minimize this energy function are represented by n
Is obtained by the gradient method while updating. By changing the handwriting position data using the determined parameters, a handwriting whose position and size have been corrected can be obtained. However,
As long as the function can perform the minimum value calculation, the function can be variously changed and applied regardless of the energy function.

【0067】図8および図9に、エネルギー関数のアフ
ィン変換により位置補正された筆跡の表示例を示す。
(a)には入力された文字認識対象となる元の筆跡を示
し、(b)にはテンプレートの筆跡を示す。(c)はア
フィン変換をしない状態で両筆跡を重ねた場合のイメー
ジを示し、(d)はアフィン変換で入力された筆跡の位
置およびサイズの補正を行った後に両筆跡を重ねたイメ
ージを示す。これらの図から判るように、アフィン変換
により、テンプレートと入力筆跡とが非常によく一致す
るようになる。
FIGS. 8 and 9 show display examples of handwriting whose position has been corrected by the affine transformation of the energy function.
(A) shows the original handwriting to be input for character recognition, and (b) shows the handwriting of the template. (C) shows an image when both handwritings are overlapped without affine transformation, and (d) shows an image in which both handwritings are overlapped after correcting the position and size of the handwriting input by affine transformation. . As can be seen from these figures, the affine transformation results in a very good match between the template and the input handwriting.

【0068】位置サイズ補正をした後、CPU101
は、類似度計算によって最終的なテンプレートの候補を
特定する。このためCPU101は、補正後のエネルギ
ー関数を候補になっているテンプレートごとに計算して
いく。補正後のエネルギー関数値は、小さければ小さい
ほど、類似度が高く両筆跡が一致していることを示す。
したがって、CPU101は最も小さいエネルギー関数
値になったテンプレートを最も入力筆跡に類似度が高い
ものとして特定できる。テンプレートが特定できたら、
CPU101はそのテンプレートの構造体を参照し、テ
ンプレートに登録されている文字を、入力筆跡の文字と
して認識する。このときCPU101は、テンプレート
に登録されている交差、接触、近接、ループなどのパタ
ーン情報を参照して、上記エネルギー関数値と併せて比
較するようにしてもよい。エネルギー関数値が接近して
いるテンプレートがあった場合に、異なる要素を判定基
準にすることで、最終的な認識文字を特定することがで
きるからである。
After correcting the position size, the CPU 101
Specifies the final template candidate by similarity calculation. Therefore, the CPU 101 calculates the corrected energy function for each of the candidate templates. The smaller the corrected energy function value is, the higher the similarity is, indicating that both handwritings match.
Therefore, the CPU 101 can identify the template having the smallest energy function value as having the highest similarity to the input handwriting. Once the template is identified,
The CPU 101 refers to the structure of the template and recognizes a character registered in the template as a character of the input handwriting. At this time, the CPU 101 may refer to pattern information, such as intersection, contact, proximity, and loop, registered in the template and compare it with the energy function value. This is because, when there is a template whose energy function values are close to each other, a final recognition character can be specified by using a different element as a criterion.

【0069】図11に、入力筆跡と候補となるテンプレ
ートの整合率とを並べて表わした表示例を示す。入力筆
跡に対応しているテンプレートの整合率が高くなってい
るのが確認できる。図12に、幾つかの筆跡について、
上記処理により最終的に認識された文字を示す。ほぼ完
全に一致していることが判る。なお、上記文字認識処理
に必要な各種設定は、例えば図10に示すような設定画
面によりユーザが設定可能に構成してもよい。
FIG. 11 shows a display example in which the input handwriting and the matching rate of the candidate template are displayed side by side. It can be confirmed that the matching rate of the template corresponding to the input handwriting is high. FIG. 12 shows some handwritings.
The character finally recognized by the above processing is shown. It turns out that they are almost completely coincident. It should be noted that various settings required for the character recognition processing may be configured to be settable by a user on a setting screen as shown in FIG. 10, for example.

【0070】上記実施形態によれば、以下の利点があ
る。 (1)本実施形態によれば、項目切り出しをサンプリン
グ点の集合のクラスター化により行うので、位置ずれが
大きくても筆跡データを正しい項目に対応させることが
できる。 (2)本実施形態によれば、文字切り出しをヒストグラ
ム化した経路探索により行うので、文字枠をはみ出して
筆跡が記録されていても、高速に、正しく文字を切り出
すことが可能である。 (3)本実施形態によれば、データ圧縮の前処理を行う
ので、筆記速度にムラがあっても、高い認識率で文字認
識させることが可能である。 (4)本実施形態によれば、テンプレートを更新・削除
・追加可能に構成したので、ユーザの書き癖に応じたテ
ンプレートを随時補充したり整理したりすることで、高
い認識率で文字認識させることができる。 (5)本実施形態によれば、文字の属性情報を構造体と
して保持するので、属性情報を順に利用することによ
り、高い認識率で文字認識させることができる。 (6)本実施形態によれば、テンプレート構造体データ
をファイルとして保存・読み出し可能に構成したので、
装置間でテンプレートの共有化が可能である。 (7)本実施形態によれば、候補限定処理をストローク
数、ストローク長、ペン先移動方向ヒストグラムの順に
行うので、パターン上似ている文字であっても正しく候
補を絞り込むことができる。 (8)本実施形態によれば、テンプレートと入力筆跡の
対応関係を特定するので、正しい類似度計算が行える。 (9)本実施形態によれば、エネルギー関数の最小化計
算により筆跡の移動やサイズ変更を可能にしたので、テ
ンプレートとサイズが異なったり位置がずれたりした筆
跡とテンプレートとを最も類似する状態で比較すること
が可能である。 (10)本実施形態によれば、複数のテンプレートが候
補になっていてもエネルギー関数値の大小で正しく認識
文字を特定できる。 (11)本実施形態によれば、最終候補のテンプレート
が複数あっても属性情報を最後に鑑みることで、正しく
テンプレートを絞り込み、認識文字を特定できる。
The above embodiment has the following advantages. (1) According to the present embodiment, item extraction is performed by clustering a set of sampling points, so that handwriting data can be made to correspond to a correct item even if the displacement is large. (2) According to the present embodiment, since character extraction is performed by a route search in a histogram, even if a handwriting is recorded outside the character frame, it is possible to accurately extract characters at high speed. (3) According to the present embodiment, since the preprocessing of data compression is performed, it is possible to perform character recognition at a high recognition rate even if the writing speed is uneven. (4) According to the present embodiment, the template can be updated / deleted / added, so that the character can be recognized at a high recognition rate by replenishing and organizing the template according to the user's writing habits as needed. be able to. (5) According to the present embodiment, since the attribute information of the character is stored as a structure, the character can be recognized at a high recognition rate by using the attribute information in order. (6) According to the present embodiment, the template structure data is configured to be saved and read as a file.
It is possible to share a template between devices. (7) According to the present embodiment, the candidate limitation process is performed in the order of the number of strokes, the stroke length, and the histogram of the pen tip moving direction, so that even characters having similar patterns can be correctly narrowed down. (8) According to the present embodiment, since the correspondence between the template and the input handwriting is specified, correct similarity calculation can be performed. (9) According to the present embodiment, the handwriting can be moved or resized by the energy function minimization calculation. Therefore, the handwriting whose size is different from or shifted from the template and the template are most similar to each other. It is possible to compare. (10) According to the present embodiment, even if a plurality of templates are candidates, it is possible to correctly identify a recognized character based on the magnitude of the energy function value. (11) According to the present embodiment, even if there are a plurality of final candidate templates, the template can be correctly narrowed down and the recognized characters can be specified by considering the attribute information last.

【0071】(他の実施形態)本発明は、上述した実施
形態に限定されることなく、本発明の趣旨を逸脱しない
範囲で変更実施可能である。例えば、上記項目切り出し
処理や文字切り出し処理としては他の切り出し方法を適
用してもよい。候補限定処理として、他の要素を用いる
ことも可能である。対応関係特定は、上記のように行わ
なければならないものではなく、強制的に最初のデータ
と一対一に対応させていってもよい。位置サイズ補正に
用いる計算方法は、上記エネルギー関数を用いた勾配法
に限らず、最小値を検出可能なあらゆる計算方法を適用
可能である。認識処理には、上記以外の要素を含めて最
終的な認識文字を特定するように構成してもよい。
(Other Embodiments) The present invention is not limited to the above-described embodiments, and can be modified and implemented without departing from the gist of the present invention. For example, another extraction method may be applied as the item extraction processing or the character extraction processing. Other elements can be used as the candidate limitation processing. The correspondence specification does not have to be performed as described above, and may be forcibly made to correspond one-to-one with the first data. The calculation method used for the position size correction is not limited to the gradient method using the energy function, and any calculation method capable of detecting the minimum value can be applied. The recognition process may be configured to specify a final recognition character including elements other than the above.

【0072】[0072]

【発明の効果】本発明によれば、類似性という概念を利
用して類似性の度合いに基づき、しかも入力筆跡の位置
やサイズ補正を行いながら認識文字を特定可能に構成し
たので、伝票上から記載されたような精度が悪い筆跡デ
ータであっても正確に文字認識する文字認識装置を提供
することができる。本発明によれば、入力誤差やノイズ
を含んだ精度の悪い筆跡データであっても正しく候補を
限定していける候補限定方法を採用したので、伝票上か
ら記載されたような精度が悪い筆跡データであっても能
率的に文字認識する文字認識装置を提供することができ
る。本発明によれば、伝票上の項目との位置ずれが大き
な筆跡データであっても近似性やヒストグラムに基づく
経路探索により、筆跡データを確実に切り分けられる文
字認識装置を提供することができる。
According to the present invention, the recognition character can be specified based on the degree of similarity using the concept of similarity and while correcting the position and size of the input handwriting. It is possible to provide a character recognizing device that accurately recognizes characters even if the handwriting data has low accuracy as described. According to the present invention, even if the handwriting data is inaccurate including inaccuracies and noises, a candidate limiting method that can properly limit candidates is adopted, so that inaccurate handwriting data described on a slip is used. However, it is possible to provide a character recognition device that efficiently recognizes characters. According to the present invention, it is possible to provide a character recognition device capable of reliably separating handwriting data by route search based on similarity and a histogram even if handwriting data has a large positional deviation from an item on a slip.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本実施形態の文字認識装置のハードウェアブロ
ック図である。
FIG. 1 is a hardware block diagram of a character recognition device of the present embodiment.

【図2】本実施形態の文字認識処理を説明するフローチ
ャートである。
FIG. 2 is a flowchart illustrating a character recognition process according to the embodiment.

【図3】本発明の項目切り出しの結果を示す表示例であ
る。
FIG. 3 is a display example showing a result of item clipping according to the present invention.

【図4】本発明の文字切り出し原理を説明する図であ
る。
FIG. 4 is a diagram illustrating the principle of character extraction according to the present invention.

【図5】本発明の文字切り出しの結果を示す表示例であ
る。
FIG. 5 is a display example showing the result of character segmentation according to the present invention.

【図6】本実施形態で使用するテンプレートデータの表
示例である。
FIG. 6 is a display example of template data used in the embodiment.

【図7】本実施形態の削除指示画面表示例である。FIG. 7 is a display example of a deletion instruction screen according to the embodiment.

【図8】文字「6」についての認識過程の説明図であ
り、(a)は入力筆跡、(b)はテンプレート、(c)
は位置サイズ補正なしで入力筆跡とテンプレートとを重
ね合わせた図、(d)は位置サイズ補正後に入力筆跡と
テンプレートとを重ね合わせた図である。
FIG. 8 is an explanatory diagram of a recognition process for character “6”, where (a) is an input handwriting, (b) is a template, and (c)
FIG. 4 is a diagram in which an input handwriting and a template are superimposed without position size correction, and FIG. 4D is a diagram in which an input handwriting and a template are superimposed after position size correction.

【図9】文字「5」についての認識過程の説明図であ
り、(a)は入力筆跡、(b)はテンプレート、(c)
は位置サイズ補正なしで入力筆跡とテンプレートとを重
ね合わせた図、(d)は位置サイズ補正後に入力筆跡と
テンプレートとを重ね合わせた図である。
9A and 9B are explanatory diagrams of a recognition process for a character “5”, wherein FIG. 9A shows an input handwriting, FIG. 9B shows a template, and FIG.
FIG. 4 is a diagram in which an input handwriting and a template are superimposed without position size correction, and FIG. 4D is a diagram in which an input handwriting and a template are superimposed after position size correction.

【図10】文字認識パラメータの設定画面表示例であ
る。
FIG. 10 is a display example of a setting screen for character recognition parameters.

【図11】入力筆跡と候補となるテンプレートの整合度
を示した図である。
FIG. 11 is a diagram showing a degree of matching between an input handwriting and a template as a candidate.

【図12】各種文字の筆跡と入力結果の表示例である。FIG. 12 is a display example of handwriting of various characters and an input result.

【符号の説明】[Explanation of symbols]

100 文字認識装置 101 CPU 107 ペン 100 Character Recognition Device 101 CPU 107 Pen

───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉野 英子 東京都豊島区東池袋3−1−1 サンシ ャイン60 株式会社東邦ビジネス管理セ ンター内 (56)参考文献 特開 平4−251395(JP,A) 特開 平6−119494(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/62 ──────────────────────────────────────────────────続 き Continuation of the front page (72) Inventor Eiko Yoshino 3-1-1 Higashiikebukuro, Toshima-ku, Tokyo Sunshine 60 In the Toho Business Management Center (56) References JP-A-4-251395 (JP, A JP-A-6-119494 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06K 9/00-9/62

Claims (12)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 筆跡をサンプリングしてデータ化し文字
認識するための文字認識装置において、 互いの距離が一定値以下であるサンプル点の集合を同一
項目についての文字列を表わすサンプル点の集合である
としてクラスター化し、各クラスター化されたサンプル
点の集合と項目との重なり具合を判定し、前記重なり具
合を上げる方向にサンプル点の集合全体を移動させて、
各クラスター化されたサンプル点の集合と各項目とを対
応づけることにより、項目単位でサンプル点の集合を切
出す項目切出し手段と、 項目枠ごとに、文字列の並び方向に水平な軸に対するサ
ンプル点の出現頻度をヒストグラムとして求め、当該ヒ
ストグラムに記録された出現頻度の最も少ない軸上の部
分を、文字切出しの境界として特定する文字切出し手段
と、 ペン先位置の経過時間に対する変化を示す筆跡位置デー
タ(P(1)、P(2)、…)に基づいて、各ペン位置
におけるペン先の移動方向ベクトルの経過時間に対する
変化を示す筆跡ベクトルデータ(U(1)、U(2)、
…)を生成する前処理手段と、 予め格納されているいずれかのテンプレートにおける基
準ベクトルデータ(V(1)、V(2)、…)と前記筆
跡ベクトルデータとの各ベクトル同士の類似性を数値化
し、当該類似性を示す数値の総和が最大となるような対
応がとれた場合に、i(i=1,2、…)番目の前記筆
跡ベクトルデータに対応している基準ベクトルデータの
順番をT(i)とおいて両者の対応関係を特定する対応
関係特定手段と、 対応関係のとれた前記基準ベクトルデータV(T
(i))に対応している基準位置データQ(T(i))
と前記筆跡位置データP(i)との距離をエネルギー関
数値として求め、当該エネルギー関数値が最も小さくな
るように両データの相対位置および大きさを補正する位
置サイズ補正手段と、 位置補正された筆跡位置データと基準位置データとの間
におけるエネルギー関数値が最も小さくなるテンプレー
トに対応づけられている文字を当該筆跡の文字として認
識する認識処理手段と、を備えたことを特徴とする文字
認識装置。
1. A character recognition apparatus for sampling handwriting, converting it into data, and recognizing characters, wherein a set of sample points whose distance from each other is equal to or less than a predetermined value is a set of sample points representing a character string for the same item. As a cluster, determine the degree of overlap between each set of clustered sample points and items, move the entire set of sample points in a direction to increase the degree of overlap,
By associating each clustered set of sample points with each item, an item extracting means for extracting a set of sample points in item units, and for each item frame, a sample for a horizontal axis in the direction in which the character strings are arranged. A character cutout means for determining the frequency of appearance of points as a histogram, and identifying a portion on the axis with the lowest frequency of occurrence recorded in the histogram as a boundary for character cutout, and a handwriting position indicating a change in pen tip position with respect to elapsed time. Based on the data (P (1), P (2),...), Handwriting vector data (U (1), U (2),
..), And the similarity of each vector between the reference vector data (V (1), V (2),...) And the handwriting vector data in any of the templates stored in advance. When the correspondence is obtained such that the sum of the numerical values indicating the similarity is maximized, the order of the reference vector data corresponding to the i-th (i = 1, 2,...) -Th handwriting vector data Is defined as T (i), the correspondence specifying means for specifying the correspondence between the two, and the reference vector data V (T
Reference position data Q (T (i)) corresponding to (i))
Position size correction means for determining the distance between the data and the handwriting position data P (i) as an energy function value, and correcting the relative position and size of the two data so that the energy function value is minimized; A character recognition device comprising: recognition processing means for recognizing, as a character of the handwriting, a character associated with a template having the smallest energy function value between the handwriting position data and the reference position data. .
【請求項2】 前記位置サイズ補正手段は、前記筆跡位
置データをP(i)=(x、y)=(aXT(i)
+bYT(i)+c、dYT(i)+eXT(i)
f)、基準位置データをQ(T(i))=
(XT(i)、YT(i))、nを演算の回数としたと
き、P(i)とQ(T(i))との相異の度合いを評価
するエネルギー関数E(a,b,c,d,e,f)を最
小にするためのアフィン変換のパラメータa,b,c,
d,e,fを下式の勾配法にしたがって求める計算を行
う請求項1に記載の文字認識装置。【数1】
2. The method according to claim 1, wherein the position size correction unit calculates the handwriting position data as P (i) = (x i , y i ) = (aX T (i)
+ BY T (i) + c, dY T (i) + eX T (i) +
f), the reference position data is Q (T (i)) =
(X T (i) , Y T (i) ), where n is the number of operations, an energy function E (a, E) that evaluates the degree of difference between P (i) and Q (T (i)) b, c, d, e, f) to minimize the affine transformation parameters a, b, c,
2. The character recognition device according to claim 1, wherein calculation is performed to obtain d, e, and f according to a gradient method of the following equation. (Equation 1)
【請求項3】 入力された筆跡を新たなテンプレートと
して登録可能とするために、当該筆跡についての当該筆
跡位置データおよび筆跡ベクトルデータを新たなテンプ
レートの基準位置データおよび基準ベクトルデータと
し、これらデータと当該筆跡の示す文字名、文字種、ス
トローク数、ドット数に対応する値等の属性情報とを構
造体としてメモリに格納可能に構成されたテンプレート
管理手段をさらに備える請求項1に記載の文字認識装
置。
3. In order to enable the input handwriting to be registered as a new template, the handwriting position data and handwriting vector data of the handwriting are set as reference position data and reference vector data of a new template. 2. The character recognition apparatus according to claim 1, further comprising: a template management unit configured to be able to store attribute information such as a character name, a character type, a stroke number, and a value corresponding to the number of dots indicated by the handwriting as a structure in a memory. .
【請求項4】 テンプレート管理手段は、文字認識に使
用されたテンプレートについて、当該テンプレートの使
用頻度を更新し前記構造体の一部として登録可能に構成
されている請求項3に記載の文字認識装置。
4. The character recognition apparatus according to claim 3, wherein the template management unit is configured to update the frequency of use of the template used for character recognition and register the updated frequency as a part of the structure. .
【請求項5】 前記前処理手段は、前記筆跡データにお
けるサンプル点の間隔が長すぎる場合に新たなサンプル
点を追加し、当該間隔が短すぎる場合にいずれかのサン
プル点を除去することによりサンプル点の間隔を均一化
して前記筆跡位置データおよび筆跡ベクトルデータとす
る請求項1に記載の文字認識装置。
5. The pre-processing means adds a new sample point when the interval between sample points in the handwriting data is too long, and removes any sample point when the interval is too short. 2. The character recognition apparatus according to claim 1, wherein intervals of points are made uniform to obtain the handwriting position data and the handwriting vector data.
【請求項6】 前記筆跡位置データに基づいて当該筆跡
のストローク数を検出可能に構成され、 前記対応関係特定に先立ち、検出された当該筆跡のスト
ローク数と同数のストローク数を備えるテンプレート
を、前記対応関係特定に使用する候補として限定する候
補限定処理手段をさらに備える請求項1に記載の文字認
識装置。
6.The handwriting based on the handwriting position data
It is configured to be able to detect the number of strokes,  Prior to identifying the correspondence, the detected handwriting
Template with the same number of strokes as the number of rokes
May be limited as candidates for use in identifying the correspondence.
2. The character recognition apparatus according to claim 1, further comprising a supplement / limitation processing unit.
Sense device.
【請求項7】 前記筆跡位置データに基づいて当該筆跡
のストローク長を検出可能に構成され、 前記対応関係特定に先立ち、検出された当該筆跡のスト
ローク長から一定範囲の長さのストローク長を備えるテ
ンプレートを、前記対応関係特定に使用する候補として
限定する候補限定手段をさらに備える請求項1に記載の
文字認識装置。
7.The handwriting based on the handwriting position data
Is configured to be able to detect the stroke length of  Prior to identifying the correspondence, the detected handwriting
A tape with a stroke length within a certain range from the stroke length
Template as a candidate for use in identifying the correspondence.
The method according to claim 1, further comprising a candidate limiting unit for limiting.
Character recognition device.
【請求項8】 前記筆跡ベクトルデータに基づいて当該
筆跡におけるペン先移動方向の発生頻度を検出可能に構
成され、 前記対応関係特定に先立ち、検出された当該筆跡のペン
先移動方向発生頻度から一定範囲の移動方向発生頻度を
備えるテンプレートを、前記対応関係特定に使用する候
補として限定する候補限定手段をさらに備える請求項1
に記載の文字認識装置。
Claim 8.Based on the handwriting vector data
Enables detection of the frequency of occurrence of pen tip movement direction in handwriting
Is formed,  Prior to the identification of the correspondence, the pen of the handwriting detected
The frequency of occurrence of the moving direction within a certain range
The template to use for identifying the correspondence
2. The method according to claim 1, further comprising: a candidate limiting unit for limiting as a complement.
A character recognition device according to claim 1.
【請求項9】 前記筆跡位置データに基づいて当該筆跡
における交差、接触、近接、ループなどのパターン情報
を検出可能に構成され、 前記認識処理手段は、エネルギー関数値が最も小さくな
るテンプレートを特定するに当たり、テンプレートに付
随して格納された交差、接触、近接、ループなどのパタ
ーン情報を参照して特定する請求項1に記載の文字認識
装置。
9.The handwriting based on the handwriting position data
Information such as intersection, contact, proximity, and loop in
Is configured to be detectable,  The recognition processing means has the smallest energy function value.
When identifying a template to add,
Patterns such as intersection, contact, proximity, and loop stored as needed
The character recognition according to claim 1, wherein the character recognition is performed by referring to the
apparatus.
【請求項10】 前記文字切出し手段は、項目枠に予め
定められた基準文字ピッチを中心に一定幅を有する切出
し領域を設定し、当該切出し領域内において前記文字切
出しの境界を特定する請求項1に記載の文字認識装置。
10. The character cutout means sets a cutout area having a fixed width around a predetermined reference character pitch in an item frame, and specifies a boundary of the character cutout in the cutout area. The character recognition device according to 1.
【請求項11】 前記文字切出し手段は、各前記切出し
領域において一定間隔でノードを設定し、隣接する前記
切出し領域のノードを複数の径路で接続して当該経路上
のノードに記録されたヒストグラムの出現頻度を合計し
ていき、複数設定された経路のうち、前記ヒストグラム
の出現頻度の合計が最も少なくなる経路を特定して当該
経路上にあるノードの位置で文字を切出す請求項10に
記載の文字認識装置。
11. The character cutout means sets nodes at regular intervals in each of the cutout areas, connects adjacent nodes of the cutout area by a plurality of paths, and generates a histogram of a histogram recorded at a node on the path. 11. The method according to claim 10, further comprising: summing up appearance frequencies, identifying a path having the smallest total appearance frequency of the histogram among a plurality of set paths, and extracting a character at a position of a node on the path. Character recognition device.
【請求項12】 コンピュータに、 互いの距離が一定値以下であるサンプル点の集合を同一
項目についての文字列を表わすサンプル点の集合である
としてクラスター化し、各クラスター化されたサンプル
点の集合と項目との重なり具合を判定し、前記重なり具
合を上げる方向にサンプル点の集合全体を移動させて、
各クラスター化されたサンプル点の集合と各項目とを対
応づけることにより、項目単位でサンプル点の集合を切
出す項目切出し処理と、 項目枠ごとに、文字列の並び方向に水平な軸に対するサ
ンプル点の出現頻度をヒストグラムとして求め、当該ヒ
ストグラムに記録された出現頻度の最も少ない軸上の部
分を、文字切出しの境界として特定する文字切り出し処
理と、 ペン先位置の経過時間に対する変化を示す筆跡位置デー
タ(P(1)、P(2)、…)に基づいて、各ペン位置
におけるペン先の移動方向ベクトルの経過時間に対する
変化を示す筆跡ベクトルデータ(U(1)、U(2)、
…)を生成する前処理と、 予め格納されているいずれかのテンプレートにおける基
準ベクトルデータ(V(1)、V(2)、…)と前記筆
跡ベクトルデータとの各ベクトル同士の類似性を数値化
し、当該類似性を示す数値の総和が最大となるような対
応がとれた場合に、i(i=1,2、…)番目の前記筆
跡ベクトルデータに対応している基準ベクトルデータの
順番をT(i)とおいて両者の対応関係を特定する対応
関係特定処理と、 対応関係のとれた前記基準ベクトルデータV(T
(i))に対応している基準位置データQ(T(i))
と前記筆跡位置データP(i)との距離をエネルギー関
数値として求め、当該エネルギー関数値が最も小さくな
るように両データの相対位置および大きさを補正する位
置サイズ補正処理と、 位置補正された筆跡位置データと基準位置データとの間
におけるエネルギー関数値が最も小さくなるテンプレー
トに対応づけられている文字を当該筆跡の文字として認
識する認識処理と、を備えた文字認識方法を実行させる
プログラムが記録された機械読取可能な記録媒体。
12. The computer clusters a set of sample points whose distances are equal to or less than a predetermined value as a set of sample points representing a character string for the same item, and sets each set of clustered sample points as Determine the degree of overlap with the item, move the entire set of sample points in the direction to increase the degree of overlap,
By associating each set of clustered sample points with each item, an item extraction process that extracts a set of sample points on an item-by-item basis, and for each item box, a sample on the horizontal axis in the direction of the character string Finding the appearance frequency of points as a histogram, character extraction processing to identify the part on the axis with the least appearance frequency recorded in the histogram as the boundary of character extraction, and the handwriting position indicating the change of the pen tip position with respect to the elapsed time Based on the data (P (1), P (2),...), Handwriting vector data (U (1), U (2),
..), And the similarity between each vector between the reference vector data (V (1), V (2),...) And the handwriting vector data in any of the templates stored in advance is numerically calculated. If the correspondence that maximizes the sum of the numerical values indicating the similarity is maximized, the order of the reference vector data corresponding to the i-th (i = 1, 2,...) -Th handwriting vector data is determined. T (i), a correspondence specifying process for specifying a correspondence between the two, and the reference vector data V (T
Reference position data Q (T (i)) corresponding to (i))
A position size correction process for determining the distance between the data and the handwriting position data P (i) as an energy function value, and correcting the relative position and size of the two data so that the energy function value is minimized; A recognition process for recognizing a character associated with the template having the smallest energy function value between the handwriting position data and the reference position data as a character of the handwriting; Machine readable recording medium.
JP20221598A 1998-07-16 1998-07-16 Character recognition device Expired - Fee Related JP3320659B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20221598A JP3320659B2 (en) 1998-07-16 1998-07-16 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20221598A JP3320659B2 (en) 1998-07-16 1998-07-16 Character recognition device

Publications (2)

Publication Number Publication Date
JP2000036007A JP2000036007A (en) 2000-02-02
JP3320659B2 true JP3320659B2 (en) 2002-09-03

Family

ID=16453877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20221598A Expired - Fee Related JP3320659B2 (en) 1998-07-16 1998-07-16 Character recognition device

Country Status (1)

Country Link
JP (1) JP3320659B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264156B (en) * 2019-05-31 2023-05-30 深圳市元征科技股份有限公司 Project management method and device, electronic equipment and storage medium
CN113052002B (en) * 2021-02-05 2024-05-14 广州八爪鱼教育科技有限公司 Method, device, equipment and storage medium for screening handwriting sampling points

Also Published As

Publication number Publication date
JP2000036007A (en) 2000-02-02

Similar Documents

Publication Publication Date Title
US5687254A (en) Searching and Matching unrecognized handwriting
US7630551B2 (en) Method and system for line extraction in digital ink
JP3974359B2 (en) Online character recognition apparatus and method, computer-readable storage medium, and online character recognition program
US6600834B1 (en) Handwriting information processing system with character segmentation user interface
EP0542566B1 (en) Character recognition method and apparatus thereof
EP0546343B1 (en) Diagram recognizing system
EP2241999B1 (en) Underline removal apparatus
JPS61267177A (en) Retrieving system for document picture information
CN105022984A (en) Fingerprint collection method, fingerprint comparison method, and fingerprint identification device and system
WO2000052645A1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
JPH08235341A (en) Method and device for document filing
Howe Inkball models for character localization and out-of-vocabulary word spotting
JP3216800B2 (en) Handwritten character recognition method
JP3320659B2 (en) Character recognition device
JP2007220145A (en) Online handwriting recognition apparatus
JP5134383B2 (en) OCR device, trail management device and trail management system
JP3977473B2 (en) Handwritten character recognition method and handwritten character recognition apparatus
JP5051174B2 (en) Form dictionary generation device, form identification device, form dictionary generation method, and program
EP0750270A2 (en) An apparatus for recognising characters and a method therefor
JP3897999B2 (en) Handwritten character recognition method
JPH0689330A (en) Image filing system
JP3130392B2 (en) Character recognition device
AU2004214901B2 (en) Line extraction in digital ink
Prabhakar An Overview of Text Information Extraction from Images
JP4142911B2 (en) Character recognition device and character recognition method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080621

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090621

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees