JP2012194932A - Document certification system and document certification method - Google Patents
Document certification system and document certification method Download PDFInfo
- Publication number
- JP2012194932A JP2012194932A JP2011059988A JP2011059988A JP2012194932A JP 2012194932 A JP2012194932 A JP 2012194932A JP 2011059988 A JP2011059988 A JP 2011059988A JP 2011059988 A JP2011059988 A JP 2011059988A JP 2012194932 A JP2012194932 A JP 2012194932A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character
- coordinates
- coordinate
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
本発明は、文字認識結果を検定する文書検定システムに関し、特に、2文書に記載された文字を照合する際に有効な検定方法に関する。 The present invention relates to a document verification system that verifies a character recognition result, and more particularly to a verification method that is effective when collating characters described in two documents.
手書き文字及び活字文字を光学的に読み取り、これを文字データに変換して利用する文字認識技術がある。また、文字認識結果を用いて、複数の文字列を照合する技術が提案されている。例えば、特許文献1には、認識仮説データを用いて入力文字とOCR認識結果との不整合を警告するシステムが開示されている。
There is a character recognition technique in which handwritten characters and printed characters are optically read and converted into character data for use. In addition, a technique for collating a plurality of character strings using a character recognition result has been proposed. For example,
先述した従来技術では、一定の精度で文字列を照合することができる。しかし、文書中には文字だけでなく、直線(例えば、表の罫線)も記載されている。特に、設計図面では、寸法線が多く、文字と寸法線を区別することが困難であった。 In the prior art described above, character strings can be collated with a certain accuracy. However, not only characters but also straight lines (for example, ruled lines of a table) are described in the document. In particular, in the design drawing, there are many dimension lines, and it is difficult to distinguish characters and dimension lines.
また、文書中では、罫線に沿って文字が記載されることから、図中の文字の傾きは一定ではない。特に、設計図面中では、寸法線に沿って文字が記載される。このため、文字の向きを特定しないと、文字を正確に認識することができなかった。 In the document, since the characters are written along the ruled lines, the inclination of the characters in the figure is not constant. In particular, in design drawings, characters are written along dimension lines. For this reason, unless the direction of the character is specified, the character cannot be accurately recognized.
本発明は、文字が傾いて記載されている場合でも、正確に文字を認識し、認識された文字を検定することを目的とする。 An object of the present invention is to accurately recognize a character and test the recognized character even when the character is described with an inclination.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文書中の座標を取得する座標取得装置と、二つの文書を照合するサーバと、を備えた文書検定システムであって、前記サーバは、プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、インターフェースとを備え、前記座標取得装置は、前記文書中の座標を、該座標を取得した時刻と共に取得し、前記サーバは、第1の文書から取得された第1の座標と、第2の文書から取得された第2の座標とを対応付ける座標対応付け部、前記第1の文書において前記第1の座標の近傍の第1の文字列、及び、前記第2の文書において前記第2の座標の近傍の第2の文字列を抽出する文字抽出部と、前記抽出された第1及び第2の文字列から文字を認識する文字認識部と、前記第1の文字列の認識結果に基づいて、前記第2の文字列の認識精度を検定する検定部とを備える。 A typical example of the invention disclosed in the present application is as follows. That is, a document verification system including a coordinate acquisition device that acquires coordinates in a document and a server that collates two documents, the server being executed by a processor that executes a program and the processor A memory for storing a program; and an interface, wherein the coordinate acquisition device acquires the coordinates in the document together with a time at which the coordinates are acquired, and the server acquires the first acquired from the first document. A coordinate association unit for associating the coordinates with the second coordinates acquired from the second document, a first character string in the vicinity of the first coordinates in the first document, and the second document A character extraction unit that extracts a second character string in the vicinity of the second coordinates, a character recognition unit that recognizes a character from the extracted first and second character strings, and the first character string of Based on the identification result, and a test unit for testing the recognition accuracy of the second string.
本発明の代表的な実施形態によれば、文字と罫線が混在する場合でも、文字を認識精度を検定することができ、2文書に記載された文字を確実に照合することができる。 According to the representative embodiment of the present invention, even when characters and ruled lines are mixed, the recognition accuracy of the characters can be verified, and the characters described in the two documents can be reliably verified.
以下、図面を参照して、本発明に関する実施形態について説明する。 Embodiments relating to the present invention will be described below with reference to the drawings.
図1は、本発明の第1の実施形態の文書照合システム10の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a
第1の実施形態の文書照合システム10は、入力装置11、表示装置12、プロセッサ(CPU:Central Processing Unit)13、印刷装置14、ワークエリア15、データ保持手段16及び通信ネットワーク17を備える計算機である。
A
入力装置11は、入力装置110及び画像入力装置111を含む。入力装置110は、ユーザによる指示等の入力を受け付ける装置であり、例えばキーボード、マウス又はタッチパネル等でよい。画像入力装置111は、手書き文字及び活字文字等が記載された書面を光学的に読み取ってそれらを画像データに変換する、いわゆるイメージスキャナである。
The input device 11 includes an
表示装置12は、ユーザに種々の文字及び画像等の情報を出力する装置であり、例えば液晶ディスプレイのような画像表示装置でよい。
The
プロセッサ13は、ワークエリア15に格納されたプログラムを実行することによって種々の機能を実現する処理装置である。以下に説明される各プログラムの処理は、プロセッサ13が実行する。
The
印刷装置14は、ユーザに提供する種々の情報を必要に応じて印刷する。
The
ワークエリア15は、プロセッサ13によって実行されるプログラム等が格納される記憶領域である。本実施形態のワークエリア15は、オペレーティングシステム(OS)151、通信プログラム152、文書処理プログラム153及び文字認識プログラム154を格納する。ワークエリア15は、さらに他のプログラムを格納しても、プロセッサ13がそれらのプログラムを実行するときに参照されるデータを格納しても、プロセッサ13が実行した処理の結果を格納してもよい。
The
オペレーティングシステム151は、文書照合システム10の基本機能を実現する。通信プログラム152は、通信インターフェース17を介したファイルサーバ21との通信を制御する。文書処理プログラム153は、文字認識プログラム154に文字を認識させるための前処理、及び、認識された文字の検定処理及び照合処理を行う。文字認識プログラム154は、文字行から文字を認識し、文字候補を抽出する。これらのプログラムによる処理の詳細は後述する。
The
データ保持手段16は、プロセッサ13が各プログラムに基づいて種々の処理を実行するために参照する情報、すなわち、データ保持手段16には、活字文字認識用辞書161、数値単位定義辞書162及び項目名辞書163を格納する。データ保持手段16は、さらに他の情報を格納してもよいが、本実施形態では説明を省略する。
The
活字文字認識用辞書161は、活字文字の特徴量を示す情報を含み、文書照合システム10が活字文字認識を実行する際に参照される。数値単位定義辞書162は、数値の単位を変換する場合に参照され、その詳細は図13を用いて説明する。項目定義辞書は、照合すべき文書内に記載された項目のリストであり、その詳細は図6を用いて説明する。
The printed
ワークエリア15及びデータ保持手段16は、窓口受付システム10に実装された記憶装置である。典型的には、ワークエリア15がDRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶装置であり、データ保持手段16が磁気ディスクドライブ(Hard Disk Drive)又はフラッシュメモリのような大容量かつ不揮発性の記憶装置であるが、他の記憶装置でもよい。各プログラムは、データ保持手段16に格納され、プロセッサ13によって実行されるときにワークエリア15にロードされてもよい。また、データ保持手段16に格納された辞書の少なくとも一部が、必要に応じて一時的にワークエリア15にコピーされてもよい。
The
通信インターフェース17は、所定のプロトコルを用いて、通信ネットワーク19を介して、ファイルサーバ21と通信をする。
The
ファイルサーバ21は、本文書照合システム10によって照合される文書を管理する計算機である。本文書照合システム10で取り扱われる文書には文字が記載されており、該記載された文字を照合する際にチェックマークが記入されている(図3参照)。このチェックマークは、書面上の位置が記録される方法、例えば、記入位置の座標を取得できるデジタルペンによって、記入される。
The
デジタルペンは、ペン先の軌跡を電子的に取得するペン型入力デバイスであり、取得したペン先の軌跡を計算機に入力する。例えば、デジタルペンは、スウェーデンのAnoto社が開発した「アノトペン」等がある。このデジタルペンについては、国際公開第01/71473号パンフレットに詳細に記載されている。 The digital pen is a pen-type input device that electronically acquires a pen tip trajectory, and inputs the acquired pen tip trajectory to a computer. For example, digital pens include “Anotopen” developed by Anoto, Sweden. This digital pen is described in detail in International Publication No. 01/71473 pamphlet.
また、デジタルペンに限らず、タブレット等の紙面上の座標を取得できる装置や、マウス等の画面(すなわち、電子的に表示された書面)上の座標を取得できる装置であればよい。 In addition to a digital pen, any device that can acquire coordinates on a paper surface such as a tablet or any device that can acquire coordinates on a screen such as a mouse (that is, an electronically displayed document) may be used.
なお、チェックマークが付される文書は、紙面上又は電子データ上にチェックマークが現実に記載されていなくても、チェックされた座標が記録されていれば足りる。 It should be noted that a document to which a check mark is attached is sufficient if the checked coordinates are recorded even if the check mark is not actually described on paper or electronic data.
デジタルペンによって記入されるチェックマークは、ストロークセットとして、その座標が取得されるが、一点を指定した一つの座標でもよい。 The check mark written by the digital pen has its coordinates acquired as a stroke set, but may be one coordinate designating one point.
図2は、本発明の第1の実施形態の文書照合処理のフローチャートである。この文書照合処理は、プロセッサ13が文書処理プログラム153及び文字認識プログラム154を実行することによって、行われる。
FIG. 2 is a flowchart of the document matching process according to the first embodiment of this invention. This document collation process is performed by the
なお、本発明の実施形態では、主に図面とテキストデータを含む文書とを照合する場合について説明するが、図面と図面や、図面と帳票や、帳票と帳票や、テキストデータとテキストデータなどの様々な文書の照合に本発明を適用することができる。すなわち、本発明は、文書中の文字の照合に本発明を適用することができる。 In the embodiment of the present invention, a case where a drawing and a document including text data are mainly collated will be described. However, the drawing and drawing, the drawing and form, the form and form, the text data and text data, etc. The present invention can be applied to collation of various documents. That is, the present invention can be applied to collation of characters in a document.
まず、プロセッサ13(文書処理プログラム153)は、ファイルサーバ21から、図面を取得し(201)、テキストが含まれる文書を取得する(211)。 First, the processor 13 (document processing program 153) acquires a drawing from the file server 21 (201), and acquires a document including text (211).
その後、プロセッサ13(文書処理プログラム153)は、入力された図面からチェックマークを一つ抽出し、抽出されたチェックマークの近傍の連結成分を抽出する(202)。なお、図示は省略するが、この202から208の処理は図面上に記載された全てのチェックマークについて行われる。 Thereafter, the processor 13 (document processing program 153) extracts one check mark from the input drawing, and extracts connected components in the vicinity of the extracted check mark (202). Although illustration is omitted, the processing from 202 to 208 is performed for all check marks described in the drawing.
この連結成分の抽出は、図3に示すように、抽出されたチェックマーク501の座標から所定の距離内を領域とするウインドウ502を設定し、ウインドウ502内にある画素を特定し、該特定された画素と連続する画素をひとかたまりの連結成分((字列503及び線504)を抽出する。このチェックマークの座標は、チェックマークが存在する矩形領域を定め、当該領域の中心の座標でもよく、また、各角の座標(すなわち、各角から所定の距離のウインドウを設ける)でもよい。また、連結成分とされたひとかたまりの画素が含まれる領域の高さに所定の係数(例えば、1)を乗じた幅を該領域に与え、該領域に含まれる画素及びそれに連続する画素を連結成分としてもよい。
As shown in FIG. 3, this connected component is extracted by setting a
その後、プロセッサ13(文書処理プログラム153)は、抽出された連結成分から文字行を抽出する(203)。例えば、抽出された連結成分の長さが所定の閾値を超えるものを直線であると特定し、この特定された直線を除外することによって、直線と文字とを区分して、文字行を抽出することができる。 Thereafter, the processor 13 (document processing program 153) extracts a character line from the extracted connected components (203). For example, if the length of the extracted connected component exceeds a predetermined threshold, the line is identified as a straight line, and the line is extracted by excluding the identified straight line, thereby extracting a character line. be able to.
その後、プロセッサ13(文書処理プログラム153)は、チェックマークが記入された時刻を抽出する(204)。これは、例えば、デジタルペンでは、ペンを紙面に付けたペンダウン時刻、ペンを紙面から離したペンアップ時刻が記録されるので、当該チェックマークに対応するストロークが記入された時刻を特定することができる。 Thereafter, the processor 13 (document processing program 153) extracts the time when the check mark was entered (204). This is because, for example, in a digital pen, the pen down time when the pen is attached to the paper surface and the pen up time when the pen is separated from the paper surface are recorded, so that the time when the stroke corresponding to the check mark is entered can be specified. it can.
その後、プロセッサ13(文字認識プログラム154)は、ステップ203で抽出された文字行を文字認識し、文字候補を抽出する(205)。
Thereafter, the processor 13 (character recognition program 154) recognizes the character line extracted in
一方、ステップ204において、チェックマークが記入された時刻の抽出後に、照合相手の文書(ステップ211で取得したテキストが含まれる文書)中のチェックマークの記入時刻から、ステップ204で特定されたチェックマークの記入時刻の直近の記入時刻を持つチェックマークを抽出する。例えば、図4に示すように、ステップ201で入力された図面900には、チェックマーク901、902、903が含まれており、ステップ211で入力されたテキストが含まれる文書(例えば、設計に用いられるシミュレータから出力されたパラメータのリスト)910には、チェックマーク911、912、903が含まれている。これらのチェックマーク901、902、903、911、912、913は、共に、設計図面の記載とテキストが含まれる文書の記載とを、デジタルペンによって照合した際に図面900及び文書910の上に付されたものである。
On the other hand, after extracting the time when the check mark was entered in
この場合、チェックマーク902とチェックマーク912の記入時刻が一定時間以内で、かつ、いずれかのチェックマークの直後に他方のチェックマークを記入している場合、直近のチェックマークであると決定する。
In this case, if the
また、チェックマークが、マーク911、マーク901、マーク912、マーク902、マーク913、マーク903の順で記入された場合、前述したチェックマーク902とチェックマーク912との組み合わせの他、チェックマーク902とチェックマーク913との組み合わせも、前述した条件を満たすことがある。この場合、チェックマークのペアが二つ生成され、ステップ213で二つの文字が認識される。
When check marks are entered in the order of
なお、チェックマークの記入時刻の差にかかわらず、直前及び直後のチェックマークを直近のチェックマークであると決定してもよい。また、チェックマークの記入順にかかわらず、チェックマークの記入時刻が所定時間内である場合に、直近のチェックマークであると決定してもよい。 Note that the check mark immediately before and after the check mark may be determined to be the latest check mark regardless of the difference in check mark entry time. Further, regardless of the check mark entry order, if the check mark entry time is within a predetermined time, it may be determined that the check mark is the latest check mark.
その後、抽出されたチェックマークの近傍の文字を抽出する(212)。この文字の抽出処理は前述したステップ202、203及び205と同等の処置によって行われる。
Thereafter, characters in the vicinity of the extracted check mark are extracted (212). This character extraction process is performed by the same procedure as in
その後、プロセッサ13(文字認識プログラム154)は、抽出された文字について文字認識を行う(213)。 Thereafter, the processor 13 (character recognition program 154) performs character recognition on the extracted characters (213).
その後、プロセッサ13(文書処理プログラム153)入力された図面910から抽出された文字候補を切り出し、仮説候補ネットワークの重みを補正する(206)。その後、文書910から認識された文字を用いて、仮説候補ネットワーク内のパス毎のスコアを計算し、計算された最も大きいスコアによって仮説候補ネットワークを重み付けする。この仮説候補ネットワーク及びパスのスコアの計算については、特開2009−181225号公報、特願2011−16490の明細書に詳しく記載されている。
Thereafter, the character candidates extracted from the drawing 910 inputted by the processor 13 (document processing program 153) are cut out, and the weight of the hypothesis candidate network is corrected (206). Then, using the characters recognized from the
その後、抽出された文字候補の確からしさを判定し、仮説候補ネットワークの重みを所定の閾値と比較した結果によって、図面の文字とテキストの文字とが整合するか否かを判定することによって、テキストの文字の認識精度を検定する(207)。 Thereafter, the probability of the extracted character candidate is determined, and the text of the drawing is determined by matching the weight of the hypothesis candidate network with a predetermined threshold value to determine whether the character of the drawing matches the character of the text. The character recognition accuracy is tested (207).
そして、いずれの仮説候補ネットワークの重みが所定の閾値を超えない場合、図面の文字とテキストの文字とが一致しないと判定し、利用者に警告を提示する(208)。この警告は、一致しない文字を表示画面に表示しても、画面に表示された図面及び/又はテキスト上に一致しない文字が区別可能なように表示してもよい。さらに、表示画面ではなく、音等によって、利用者にアラートを提示してもよい。 If the weight of any hypothesis candidate network does not exceed the predetermined threshold, it is determined that the characters in the drawing do not match the characters in the text, and a warning is presented to the user (208). This warning may be displayed so that non-matching characters can be distinguished on the drawing and / or text displayed on the screen even if non-matching characters are displayed on the display screen. Further, an alert may be presented to the user not by a display screen but by sound or the like.
図5は、本発明の第1の実施形態の文書照合処理を模式的に表した図である。 FIG. 5 is a diagram schematically illustrating the document matching process according to the first embodiment of this invention.
文字認識プログラム154は、図面900のチェック箇所付近の文字候補を抽出する。その後、文書処理プログラム153は、文字認識によって抽出された文字候補を含む文字列から文字を切り出して、仮説候補ネットワーク1311を作成する。また、プロセッサ13(文書処理プログラム153)は、文書910のチェック箇所付近の文字を認識し、文字の認識結果「OPQR7」1312を取得する。
The
次に、プロセッサ13(文書処理プログラム153)は、認識された文字列1312を用いて、仮説候補ネットワーク1311を検索する(913)。図5に示す例では、認識結果の文字列1312に対応するパスが仮説候補ネットワーク1311に存在する。このため、プロセッサ13(文書処理プログラム153)は、この仮説候補ネットワーク1311の重み付けを重く設定する。例えば、仮説候補ネットワーク1311のノード間を接続するエッジ毎にスコアを定め、この定められたスコアの合計を正規化して、仮説候補ネットワーク1311の重み付けを求めることができる。 Next, the processor 13 (document processing program 153) searches the hypothesis candidate network 1311 using the recognized character string 1312 (913). In the example shown in FIG. 5, a path corresponding to the character string 1312 of the recognition result exists in the hypothesis candidate network 1311. For this reason, the processor 13 (document processing program 153) sets the weight of the hypothesis candidate network 1311 to be heavy. For example, the weight of the hypothesis candidate network 1311 can be obtained by setting a score for each edge connecting the nodes of the hypothesis candidate network 1311 and normalizing the sum of the determined scores.
すなわち、仮説候補ネットワーク1311中に、文書910から認識された文字列に対応するパスが存在すれば、当該仮説候補ネットワーク1311の重み付け係数は大きくなるが、文書910から認識された文字列に対応するパスが存在しなければ、当該仮説候補ネットワーク1311の重み付け係数は小さくなる。
That is, if a path corresponding to the character string recognized from the
その後、仮説候補ネットワーク1311の重み付け係数と所定の閾値とを比較して、図面900内の文字と文書910内の文字との照合結果を出力する(914)。
Thereafter, the weighting coefficient of the hypothesis candidate network 1311 is compared with a predetermined threshold value, and the result of matching between the characters in the drawing 900 and the characters in the
以上に説明したように、第1の実施形態によると、文字が傾いて記載されている場合でも、文字を認識結果の精度を検定して、文書間(図面間又は文書と図面)の文字を正しく照合することができる。 As described above, according to the first embodiment, even when characters are tilted, the accuracy of the recognition result of the characters is verified, and characters between documents (between drawings or documents and drawings) are detected. Can be verified correctly.
<実施形態1の変形例>
次に、第1の実施形態の変形例について説明する。この変形例では、図2のチェックマーク付与時間抽出処理(ステップ204)、及び、直近筆記箇所の活字文字行を抽出する処理(ステップ212)において、項目定義辞書163を用いて比較対象の文書・図面間の文字を対応付ける。
<Modification of
Next, a modification of the first embodiment will be described. In this modified example, in the check mark adding time extraction process (step 204) and the process of extracting the type character line at the most recently written location (step 212) in FIG. Associate characters between drawings.
図6は、本発明の第1の実施形態の項目定義辞書163を説明する図であり、項目定義辞書163は、項目名リスト1631及び項目名の識別子1632を含む。
FIG. 6 is a diagram illustrating the
項目名リスト1631は、比較対象となる文書、図面中に含まれる項目の名称が記載される。項目名の識別子1632は、項目名リスト1631の項目名に対応する識別子であり、異なる文書でも同じ内容が記入される項目には同じ識別子が付与される。
The
例えば、図7Aに示す文書Aの「Document No」の欄と、図7Bに示す文書Bの「件名」の欄は同じ内容が記載されるので、同じ項目名識別子「010」が付与され、この二つの項目名に対応する記載内容は同じであるべきである。 For example, since the same contents are described in the “Document No” column of the document A shown in FIG. 7A and the “Subject” column of the document B shown in FIG. 7B, the same item name identifier “010” is assigned. The descriptions corresponding to the two item names should be the same.
次に、第1の実施形態の変形例のステップ204において実行される項目名の対応処理について説明する。
Next, item name correspondence processing executed in
まず、抽出されたチェックマークが記入された枠内で項目名を探索する。具体的には、まず、抽出されたチェックマークが記入された枠内に記入された文字列を抽出し、抽出された全ての文字列を項目定義辞書163と照合する。その結果、項目名リストに存在し、項目名識別子が得られる文字列を、当該枠の項目名とする。
First, an item name is searched within a frame in which the extracted check mark is written. Specifically, first, a character string entered in a frame in which the extracted check mark is entered is extracted, and all the extracted character strings are collated with the
なお、当該枠内で項目名が探索されなかった場合、チェックマークが記入された枠から左方又は上方をたどって、文字列を抽出し、項目定義辞書163と照合することによって、項目名になりうる文字列を探索する。この場合、チェックマークが記入された枠から最も近い位置に記入された項目名になりうる文字列を、当該枠の項目名にするとよい。
If the item name is not searched within the frame, the character string is extracted by tracing left or above from the frame in which the check mark is entered, and collated with the
同様に、ステップ212においても、項目定義辞書163との照合によって、項目名となりうる文字列を探索する。
Similarly, in
文書と図面を照合する際、チェックマークの記入時刻によって、チェックマークの組が二つ抽出される。この二つのチェックマークの組のうち、項目名識別子が一致するものを、対応する文字列として文字認識をする(205、213)。 When collating a document with a drawing, two pairs of check marks are extracted depending on the check mark entry time. Of these two sets of check marks, those having matching item name identifiers are recognized as corresponding character strings (205, 213).
図7A〜図7Cは、第1の実施形態の変形例における図面と文書との対比を説明する図である。 FIG. 7A to FIG. 7C are diagrams for explaining a comparison between a drawing and a document in a modification of the first embodiment.
図7Aに示す文書Aに記入されたチェックマーク1011の近傍から文字行「OPQRST03」が抽出される(212)。このチェックマーク1011が記入された枠1012の中には、他の文字(項目名になりうる文字)が記入されていないので、左隣の欄に記入された文字行「Document No.」を抽出する。この文字行を用いて項目定義辞書163を検索すると、項目名識別子「010」が得られる。このため、「Document No.」が、このチェックマーク1011が記入された枠に対応する項目名であることが分かる。
The character line “OPQRST03” is extracted from the vicinity of the
図7Bに示す文書Bに記入されたチェックマーク1021の近傍から文字行「OPQRST03」が抽出される(202、203)。このチェックマーク1021が記入された枠1012の中には、「OPQRST03」の他に、二つの文字行「○×図面」、「件名」が抽出される(204)。これらの文字行を用いて項目定義辞書163を検索すると、「○×図面」に対応する項目名識別子は得られないが、「件名」に対応して項目名識別子「010」が得られる。このため、「件名」が、このチェックマーク1011が記入された枠に対応する項目名であることが分かる。
The character line “OPQRST03” is extracted from the vicinity of the
図7Cに示す文書Cに記入されたチェックマーク1031の近傍から文字行「1」が抽出される(212)。文書Cではこのチェックマーク1031は枠内に記入されていないので、左方をたどって、文字行「REV」が抽出される。この文字行を用いて項目定義辞書163を検索すると、項目名識別子「013」が得られる。このため、「REV」1032が、このチェックマーク1011が記入された枠に対応する項目名であることが分かる。
The character line “1” is extracted from the vicinity of the
なお、以上に説明した第1の実施形態の変形例の項目名の対応処理は、前述したように図2のステップ204、211の処理に付加されてもよいし、図2のステップ204、211の本来の処理の代わりに実行されてもよい。この場合、チェックマークが記入された時刻を比較することなく、チェックマークの近傍の文字列に関連する項目名を抽出し、項目名識別子が同じの文字列の組を対比すべき文字とすればよい。
Note that the item name correspondence processing in the modification of the first embodiment described above may be added to the processing in
このように、第1の実施形態の変形例によると、仮説候補ネットワークの重み付けをするための文字列の数を少なくすることができ、仮説候補ネットワークを作成する処理の演算量を減らすことができる。 As described above, according to the modification of the first embodiment, the number of character strings for weighting the hypothesis candidate network can be reduced, and the amount of calculation of the process for creating the hypothesis candidate network can be reduced. .
<実施形態2>
次に、第2の実施形態について説明する。
<Embodiment 2>
Next, a second embodiment will be described.
図面に記載された数字は、斜めになっていたり、横に90度回転している等のため、通常の文字認識では、認識精度が低下する場合がある。しかし、文字列は、近傍の線に沿って記載されることが多い。このため、第2の実施形態では、文字の近傍の線の傾きによって、文字の傾きを推定し、文字を認識する。 Since the numbers described in the drawings are slanted or rotated 90 degrees horizontally, the recognition accuracy may be reduced in normal character recognition. However, character strings are often written along nearby lines. For this reason, in the second embodiment, the inclination of the character is estimated based on the inclination of the line near the character, and the character is recognized.
第2の実施形態は、前述した第1の実施形態と文書照合処理の一部の処理が異なる。なお、第1の実施形態と同じ処理及び構成には同じ符号を付し、それらの説明は省略する。 The second embodiment is different from the first embodiment described above in part of the document collation process. In addition, the same code | symbol is attached | subjected to the same process and structure as 1st Embodiment, and those description is abbreviate | omitted.
図8は、本発明の第2の実施形態の文書照合処理のフローチャートである。 FIG. 8 is a flowchart of document collation processing according to the second embodiment of this invention.
第2の実施形態の文書照合処理では、入力された図面からチェックマークを一つ抽出し(201)、該抽出されたチェックマークの近傍の連結成分を抽出する(202)。 In the document collation process of the second embodiment, one check mark is extracted from the input drawing (201), and connected components in the vicinity of the extracted check mark are extracted (202).
その後、抽出された連結成分の近傍にある線を抽出する(301)。具体的には、図9に示すように、連結成分701を入力された図面500から抽出し、抽出された連結成分701の座標から所定の距離内を領域とするウインドウ702を設定し、ウインドウ702内にその一部(又は全部)が含まれる線を特定する。図9に示す場合、ウインドウ702内に少なくとも一部が含まれる3本の線703、704、705が抽出される。この連結成分の座標は、連結成分が存在する矩形領域を定め、当該領域の中心の座標でもよく、また、各角の座標(すなわち、各角から所定の距離のウインドウを設ける)でもよい。
Thereafter, a line in the vicinity of the extracted connected component is extracted (301). Specifically, as shown in FIG. 9, the connected
その後、抽出された線703、704、705の傾きを特定し、特定された線703、704の傾きに従って、連結成分の傾きを補正する(302)。
Thereafter, the inclinations of the extracted
例えば、図10Aに示すように、右方向を0°とする右回りの座標系を設定した場合、基準線600からの線の傾きが−α(左回りにα)であれば、−α及び180°−α回転させた二つの連結成分を生成する。なお、第2の実施形態では、回転させない連結成分と、−α及び180°−α回転させた連結成分の三つについて、その後の処理が実行される。文字列は、近傍の線に沿って記載されることが多いが、線の方向とは関係なく、水平方向に記載されている場合もある。このため、近傍の線によって傾き補正した場合と、補正しない場合の両方について文字認識を行い、文字認識結果を高精度に検定することができる。
For example, as shown in FIG. 10A, when a clockwise coordinate system in which the right direction is 0 ° is set, if the inclination of the line from the
なお、抽出された連結成分(文字列)701が複数の線が近接しており、連結成分701の近傍の線が複数存在する場合、ステップ302では、各線703、704、705の傾きに従って、傾き補正が実行され、複数の文字認識結果が出力される。
If the extracted connected component (character string) 701 has a plurality of lines close to each other and there are a plurality of lines in the vicinity of the connected
その後、傾きが補正された及び傾き補正がされていない連結成分から文字行を抽出する(203)。さらに、ステップ204から208の処理が実行され、抽出された文字候補の確からしさの判定結果に基づいてアラームが表示される。
Thereafter, a character line is extracted from the connected components whose inclination has been corrected and whose inclination has not been corrected (203). Further, the processing of
図10Aから図10Cは、第2の実施形態の傾き補正を説明する図である。 FIG. 10A to FIG. 10C are diagrams for explaining the inclination correction of the second embodiment.
図10Aに示す場合、文字列602は寸法線601に沿って記載されており、線601の傾きは−αである。この場合、文字列602は線601に沿って記載されているので、文字列602を水平方向に補正するためには、文字列(連結成分)を+α°回転させる。
In the case shown in FIG. 10A, the
なお、図示は省略するが、文字列が線601に沿って下向きに記載されている場合、180°−(−α)、すなわち、180°+α回転させることによって、文字(連結成分)を水平方向に補正することができる。
Although illustration is omitted, when the character string is written downward along the
一方、図10Bに示す場合、文字列603は線601に沿って記載されていない(文字列603は水平方向に記載されている)。よって、文字列(連結成分)は回転させることなく、文字を正しく認識することができる。このため、回転させない連結成分についても、その後の処理を実行することが望ましい。
On the other hand, in the case shown in FIG. 10B, the
さらに、図10Cに示すように、文字列604は線に沿って記載されているが、正立している場合、連結成分の水平方向の幅にtanαを乗じることによって高さ方向のズレを計算し、該計算されたズレの高さ分、連結成分の位置をずらす。これによって、図10Cに示す場合でも、文字(連結成分)を水平方向に並べることができる。
Furthermore, as shown in FIG. 10C, the
以上に説明したように、本発明の第2の実施形態では、文字の近傍の線の傾きによって文字の傾きを補正した後に文字を認識するので、傾いて記載されている文字でも認識率を向上させ、文字を認識結果を高精度に検定して、文書間(図面間又は文書と図面)の文字を正しく照合することができる。 As described above, in the second embodiment of the present invention, since the character is recognized after correcting the inclination of the character by the inclination of the line near the character, the recognition rate is improved even with the character written with the inclination. Thus, the recognition result of characters can be verified with high accuracy, and characters between documents (between drawings or between documents and drawings) can be correctly collated.
<実施形態3>
次に、第3の実施形態について説明する。
<
Next, a third embodiment will be described.
第3の実施形態は、前述した第2の実施形態と文書照合処理の一部の処理が異なる。第1及び第2の実施形態と同じ処理及び構成には同じ符号を付し、それらの説明は省略する。 The third embodiment is different from the second embodiment described above in part of the document collation process. The same processes and configurations as those in the first and second embodiments are denoted by the same reference numerals, and description thereof is omitted.
図11は、本発明の第3の実施形態の文書照合処理のフローチャートである。 FIG. 11 is a flowchart of document collation processing according to the third embodiment of this invention.
第3の実施形態において、入力された図面の処理は前述した第2の実施形態と同じである。第3の実施形態では、入力されたテキストの処理が前述した第2の実施形態と異なる。 In the third embodiment, the processing of the input drawing is the same as that of the second embodiment described above. In the third embodiment, input text processing is different from the second embodiment described above.
第3の実施形態では、単位変換処理401を第2の実施形態に適用した例を説明するが、単位変換処理401を第1の実施形態に適用することもできる。
In the third embodiment, an example in which the
図12に示すように、ステップ211で取得したテキストが含まれる文書1110は、当該文書中1100のチェックマーク1101の記入時刻から、ステップ204で特定されたチェックマークの記入時刻の直近の記入時刻を持つチェックマーク111を抽出する。その後、抽出されたチェックマークの近傍の文字1112を抽出する(212)。この文字の抽出処理は前述したステップ202、203及び205と同等の処置によって行われる。
As shown in FIG. 12, the
その後、文字認識プログラム154は、抽出された文字について文字認識を行い(213)、認識された文字の単位を変換する(401)。
Thereafter, the
この単位の変換は、図12に示すように、チェックマーク1101付近の文字1102に対応する単位情報1103、及び、チェックマーク1111付近の文字1112に対応する単位情報1113を取得し、図13に示す数値単位定義辞書162を参照し、認識された文字(数値)を単位が異なる数値に変換する。
In this unit conversion, as shown in FIG. 12,
数値の単位は、通常、数値の直後又は直前に記載されるので、数値の位置から左右の所定範囲をスキャンし、当該数値の単位の候補を特定する。また、数値が表内に記載されている場合、数値に対する単位は、数値の位置から水平又は垂直の位置に記載されることが多いので、数値の位置から左右及び上下の所定範囲をスキャンし、文字認識によって当該数値の単位の候補を特定する。単位の候補が特定された後、特定された単位候補をキーとして単位変換情報の単位名称1を検索して、当該数値の単位を特定する。
Since the numerical unit is usually described immediately after or immediately before the numerical value, a predetermined range on the left and right is scanned from the position of the numerical value, and a candidate for the numerical unit is specified. In addition, when the numerical value is described in the table, the unit for the numerical value is often written in a horizontal or vertical position from the position of the numerical value. The candidate of the unit of the numerical value is specified by character recognition. After the unit candidate is specified, the
そして、特定された単位に対応する単位名称2を変換先の単位として、認識された数値に、値2を値1で除した値(値2/値1)を乗じた値を変換後の数値とする。 Then, with the unit name 2 corresponding to the specified unit as the conversion destination unit, a value obtained by multiplying the recognized numerical value by a value obtained by dividing the value 2 by the value 1 (value 2 / value 1) is converted. And
図13は、第3の実施形態の数値単位定義辞書162の構成を説明する図である。
FIG. 13 is a diagram illustrating the configuration of the numerical
数値単位定義辞書162は、単位名称1(1621)、値1(1622)、単位名称2(1623)及び値2(1624)を含む。
The numerical
単位名称1(1621)は、文書において用いられる単位を示す。単位名称2(1623)は、単位名称1(1621)は、文書において用いられる単位を示す。単位名称2(1623)は、単位名称1と同一の種類の単位を示す。値1(1622)及び値2(1624)は、単位名称1(1621)で値1(1622)の場合、単位名称2(1623)で値2(1624)となることを示す。すなわち、単位名称1(1621)を単位名称2(1623)に変換する場合、値2/値1を乗じればよい。
Unit name 1 (1621) indicates a unit used in the document. Unit name 2 (1623) indicates unit name 1 (1621) indicates a unit used in the document. Unit name 2 (1623) indicates the same type of unit as
以上に説明したように、本発明の第3の実施形態では、認識された数値の単位を変換して認識精度を検証するので、同じ値が単位が異なって記載されている場合でも、認識率を向上させ、文字を認識結果を高精度に検定して、文書間(図面間又は文書と図面)の文字を正しく照合することができる。 As described above, in the third embodiment of the present invention, since the recognition accuracy is verified by converting the unit of the recognized numerical value, even if the same value is described in different units, the recognition rate The character recognition result can be verified with high accuracy, and characters between documents (between drawings or between documents and drawings) can be collated correctly.
10 文書照合システム
12 表示装置
13 プロセッサ(CPU)
14 印刷装置
15 ワークエリア
16 データ保持手段
17 通信インターフェース
21 ファイルサーバ
110 入力装置
DESCRIPTION OF
14
Claims (16)
二つの文書を照合するサーバと、を備えた文書検定システムであって、
前記サーバは、プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、インターフェースとを備え、
前記サーバは、
第1の文書から取得された第1の座標と、第2の文書から取得された第2の座標とを対応付ける座標対応付け部と、
前記第1の文書において前記第1の座標の近傍の第1の文字列、及び、前記第2の文書において前記第2の座標の近傍の第2の文字列を抽出する文字抽出部と、
前記抽出された第1及び第2の文字列から文字を認識する文字認識部と、
前記第1の文字列の認識結果に基づいて、前記第2の文字列の認識精度を検定する検定部とを備えることを特徴とする文書検定システム。 A coordinate acquisition device for acquiring coordinates in the document;
A document verification system comprising a server for collating two documents,
The server includes a processor that executes a program, a memory that stores a program executed by the processor, and an interface.
The server
A coordinate association unit for associating the first coordinates acquired from the first document with the second coordinates acquired from the second document;
A character extraction unit that extracts a first character string in the vicinity of the first coordinate in the first document, and a second character string in the vicinity of the second coordinate in the second document;
A character recognition unit for recognizing characters from the extracted first and second character strings;
A document test system comprising: a test unit that tests the recognition accuracy of the second character string based on the recognition result of the first character string.
前記第1及び第2の座標から所定の距離の領域内の画素の連結成分を抽出し、
前記抽出された連結成分のうち、所定長を超える長さの連結成分を除去したものを、第1及び第2の文字列として抽出することを特徴とする請求項1に記載の文書検定システム。 The character extraction unit
Extracting a connected component of pixels within a predetermined distance from the first and second coordinates;
2. The document test system according to claim 1, wherein, among the extracted connected components, those obtained by removing a connected component having a length exceeding a predetermined length are extracted as first and second character strings.
前記文字認識部は、前記変換された数値を認識することを特徴とする請求項1に記載の文書検定システム。 The document verification system includes a unit conversion unit that identifies a unit corresponding to the extracted character and converts a numerical value represented by the unit,
The document verification system according to claim 1, wherein the character recognition unit recognizes the converted numerical value.
前記座標対応付け部は、前記座標取得時刻が当該第1の座標の取得時刻の直前又は直後に取得された、及び、前記座標取得時刻が当該第1の座標の取得時刻から所定の時間内に取得された、の少なくとも一つの条件を満たすものを前記第2の座標とすることを特徴とする請求項1に記載の文書検定システム。 The coordinate acquisition device acquires the coordinates in the document together with the time when the coordinates were acquired,
The coordinate association unit acquires the coordinate acquisition time immediately before or immediately after the acquisition time of the first coordinate, and the coordinate acquisition time is within a predetermined time from the acquisition time of the first coordinate. The document verification system according to claim 1, wherein an acquired condition satisfying at least one of the second coordinates is set as the second coordinate.
前記座標対応付け部は、前記定義情報を参照して、前記第1の座標と前記第2の座標とのペアを作成することを特徴とする請求項1に記載の文書検定システム。 The document verification system is capable of accessing definition information including information on description item layouts of the first and second documents,
2. The document verification system according to claim 1, wherein the coordinate association unit creates a pair of the first coordinate and the second coordinate with reference to the definition information.
前記第1の文字列から認識された文字から文字候補を切り出して、仮説候補ネットワークを生成し、
前記第2の文字列から認識された文字を用いて、前記生成された仮説候補ネットワークのスコアを計算し、
前記計算された仮説候補ネットワークのスコアを所定の閾値と比較することによって、前記第2列の文字の認識精度を検定することを特徴とする請求項1に記載の文書検定システム。 The test part is:
Cutting out character candidates from characters recognized from the first character string to generate a hypothesis candidate network;
Calculating a score of the generated hypothesis candidate network using characters recognized from the second character string;
The document verification system according to claim 1, wherein the recognition accuracy of the character in the second column is tested by comparing the calculated hypothesis candidate network score with a predetermined threshold.
前記プロセッサが、第1の文書から取得された第1の座標と、第2の文書から取得された第2の座標とを対応付けるステップと、
前記プロセッサが、前記第1の文書において前記第1の座標の近傍の第1の文字列、及び、前記第2の文書において前記第2の座標の近傍の第2の文字列を抽出するステップと、
前記プロセッサが、前記抽出された第1及び第2の文字列から文字を認識するステップと、
前記プロセッサが、前記第1の文字列の認識結果に基づいて、前記第2の文字列の認識精度を検定するステップと、を含むことを特徴とする文書検定方法。 A document verification method in a document verification system, comprising: a processor that executes a program; a memory that stores a program executed by the processor; and an interface that is connected to a coordinate acquisition device that acquires coordinates in the document.
The processor associating a first coordinate acquired from a first document with a second coordinate acquired from a second document;
The processor extracting a first character string in the vicinity of the first coordinate in the first document and a second character string in the vicinity of the second coordinate in the second document; ,
The processor recognizing characters from the extracted first and second character strings;
And a step of testing the recognition accuracy of the second character string based on the recognition result of the first character string.
前記第1及び第2の座標から所定の距離の領域内の画素の連結成分を抽出し、
前記抽出された連結成分のうち、所定長を超える長さの連結成分を除去したものを、第1及び第2の文字列として抽出することを特徴とする請求項9に記載の文書検定方法。 In the step of extracting the character string,
Extracting a connected component of pixels within a predetermined distance from the first and second coordinates;
The document test method according to claim 9, wherein, among the extracted connected components, those obtained by removing a connected component having a length exceeding a predetermined length are extracted as first and second character strings.
その後、前記文字を認識するステップでは、前記回転された文字列を認識することを特徴とする請求項9に記載の文書検定方法。 In the step of extracting the character string, an angle of the removed connected component is measured, and the extracted character string is rotated by the measured angle,
10. The document verification method according to claim 9, wherein in the step of recognizing the character, the rotated character string is recognized.
その後、前記文字を認識するステップでは、前記複数の角度回転された文字列を認識することを特徴とする請求項11に記載の文字検定方法。 In the step of extracting the character string, when a plurality of the connected components are removed, an angle of the connected component is measured for each of the removed connected components, and the extracted characters are measured by the measured plurality of angles. Rotate the column,
The character verification method according to claim 11, wherein in the step of recognizing the character, the character strings rotated at a plurality of angles are recognized.
前記文字を認識するステップでは、前記変換された数値を認識することを特徴とする請求項9に記載の文書検定方法。 The method further includes identifying a unit corresponding to the extracted character and converting a numerical value represented by the unit;
The document verification method according to claim 9, wherein in the step of recognizing the character, the converted numerical value is recognized.
前記座標を対応付るステップでは、前記座標取得時刻が当該第1の座標の取得時刻の直前又は直後に取得された、及び、前記座標取得時刻が当該第1の座標の取得時刻から所定の時間内に取得された、の少なくとも一つの条件を満たすものを前記第2の座標とすることを特徴とする請求項9に記載の文書検定方法。 The coordinate acquisition device acquires the coordinates in the document together with the time when the coordinates were acquired,
In the step of associating the coordinates, the coordinate acquisition time is acquired immediately before or after the acquisition time of the first coordinate, and the coordinate acquisition time is a predetermined time from the acquisition time of the first coordinate. The document verification method according to claim 9, wherein the second coordinates are those that satisfy at least one of the following conditions.
前記座標を対応付けるステップでは、前記定義情報を参照して、前記第1の座標と前記第2の座標とのペアを作成することを特徴とする請求項9に記載の文書検定方法。 The document verification system is capable of accessing definition information including information on description item layouts of the first and second documents,
10. The document verification method according to claim 9, wherein in the step of associating the coordinates, a pair of the first coordinates and the second coordinates is created with reference to the definition information.
前記第1の文字列から認識された文字から文字候補を切り出して、仮説候補ネットワークを生成し、
前記第2の文字列から認識された文字を用いて、前記生成された仮説候補ネットワークのスコアを計算し、
前記計算された仮説候補ネットワークのスコアを所定の閾値と比較することによって、前記第2列の文字の認識精度を検定することを特徴とする請求項9に記載の文書検定方法。 In the step of testing the recognition accuracy,
Cutting out character candidates from characters recognized from the first character string to generate a hypothesis candidate network;
Calculating a score of the generated hypothesis candidate network using characters recognized from the second character string;
The document test method according to claim 9, wherein the recognition accuracy of the character in the second column is tested by comparing the calculated score of the hypothesis candidate network with a predetermined threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011059988A JP5669044B2 (en) | 2011-03-18 | 2011-03-18 | Document verification system and document verification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011059988A JP5669044B2 (en) | 2011-03-18 | 2011-03-18 | Document verification system and document verification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012194932A true JP2012194932A (en) | 2012-10-11 |
JP5669044B2 JP5669044B2 (en) | 2015-02-12 |
Family
ID=47086726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011059988A Expired - Fee Related JP5669044B2 (en) | 2011-03-18 | 2011-03-18 | Document verification system and document verification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5669044B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020013281A (en) * | 2018-07-17 | 2020-01-23 | 株式会社豆蔵 | Document information processing device, document information structuring processing method, and document information structuring processing program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131466A (en) * | 1992-10-21 | 1994-05-13 | Meidensha Corp | Method and device for recognizing pattern |
JP2001094711A (en) * | 1999-09-20 | 2001-04-06 | Toshiba Corp | Document image processing unit and document image processing method |
JP2004259076A (en) * | 2003-02-27 | 2004-09-16 | Hitachi Ltd | Picture recognizing method and device |
JP2005352582A (en) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Ind Co Ltd | Slide identification device, method, and program for identifying slide |
JP2008134683A (en) * | 2006-11-27 | 2008-06-12 | Fuji Xerox Co Ltd | Image processor and image processing program |
-
2011
- 2011-03-18 JP JP2011059988A patent/JP5669044B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131466A (en) * | 1992-10-21 | 1994-05-13 | Meidensha Corp | Method and device for recognizing pattern |
JP2001094711A (en) * | 1999-09-20 | 2001-04-06 | Toshiba Corp | Document image processing unit and document image processing method |
JP2004259076A (en) * | 2003-02-27 | 2004-09-16 | Hitachi Ltd | Picture recognizing method and device |
JP2005352582A (en) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Ind Co Ltd | Slide identification device, method, and program for identifying slide |
JP2008134683A (en) * | 2006-11-27 | 2008-06-12 | Fuji Xerox Co Ltd | Image processor and image processing program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020013281A (en) * | 2018-07-17 | 2020-01-23 | 株式会社豆蔵 | Document information processing device, document information structuring processing method, and document information structuring processing program |
JP7122896B2 (en) | 2018-07-17 | 2022-08-22 | 株式会社豆蔵 | Form information processing apparatus, form information structuring processing method, and form information structuring processing program |
Also Published As
Publication number | Publication date |
---|---|
JP5669044B2 (en) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10049096B2 (en) | System and method of template creation for a data extraction tool | |
TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
JP6143111B2 (en) | Object identification device, object identification method, and program | |
JP7036256B2 (en) | Plane fingerprint image processing device, plane fingerprint image processing method, and program | |
JP2012083951A (en) | Information processing equipment, information processing method and program | |
CN109697414B (en) | Text positioning method and device | |
JP2004139484A (en) | Form processing device, program for implementing it, and program for creating form format | |
JP4661921B2 (en) | Document processing apparatus and program | |
JP4733577B2 (en) | Form recognition device and form recognition program | |
CN111310426A (en) | Form format recovery method and device based on OCR and storage medium | |
JP2021043775A (en) | Information processing device and program | |
US8750571B2 (en) | Methods of object search and recognition | |
JP2008234291A (en) | Character recognition device and character recognition method | |
JP2007058304A (en) | Character recognition device and character recognition method | |
JP4672692B2 (en) | Word recognition system and word recognition program | |
JP2015005100A (en) | Information processor, template generation method, and program | |
JP2022095391A (en) | Information processing apparatus and information processing program | |
JP5669044B2 (en) | Document verification system and document verification method | |
JP2012155662A (en) | Document processing device and document processing method | |
JP6582464B2 (en) | Information input device and program | |
JP5712415B2 (en) | Form processing system and form processing method | |
JP5169648B2 (en) | Original image search device and original image search program | |
JP6007720B2 (en) | Information processing apparatus and information processing program | |
JP2005165978A (en) | Business form ocr program, method and device thereof | |
JP6759955B2 (en) | Place name extraction program, place name extraction device and place name extraction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130612 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5669044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |