JP2022108130A - Information processor and computer program - Google Patents
Information processor and computer program Download PDFInfo
- Publication number
- JP2022108130A JP2022108130A JP2021002995A JP2021002995A JP2022108130A JP 2022108130 A JP2022108130 A JP 2022108130A JP 2021002995 A JP2021002995 A JP 2021002995A JP 2021002995 A JP2021002995 A JP 2021002995A JP 2022108130 A JP2022108130 A JP 2022108130A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- unit
- document
- character
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004590 computer program Methods 0.000 title claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000012805 post-processing Methods 0.000 claims abstract description 8
- 230000010365 information processing Effects 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 29
- 230000009467 reduction Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000011946 reduction process Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 28
- 239000013598 vector Substances 0.000 description 17
- 238000012015 optical character recognition Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000036541 health Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012553 document review Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置及びコンピュータプログラムに関する。 The present invention relates to an information processing device and a computer program.
自社には運用ノウハウがない業務を外部事業者に委託するBPO(ビジネス・プロセス・アウトソーシング)が様々な分野で行われている。例えば、各種申請に関する書類の受付・仕分け・審査業務を一括して委託するBPO業務の需要が増大しつつある。 Business process outsourcing (BPO), in which a company outsources operations that it does not have operational know-how to, is being carried out in various fields. For example, there is an increasing demand for BPO operations, in which the reception, sorting, and examination of documents related to various applications are collectively outsourced.
書類の仕分け業務では、書類をスキャナで読み取る作業が必要となる。特許文献1には、スキャナで読み取った原稿をオペレータが検品作業を行って電子的に管理する処理が開示されており、書類の仕分け業務もスキャナで読み取った書類の分類作業を人手で実施している場合が多い。
In document sorting work, it is necessary to read documents with a scanner.
しかし、作業者の疲労によりヒューマンエラーが発生すると、仕分け業務を再度実施しなければならず、業務効率が低下するだけでなく仕分け精度が低下する。また、急な案件増加による労働力不足が発生すると、タイムリーな業務委託ができずビジネスチャンスを逃すリスクもある。 However, if a human error occurs due to worker fatigue, sorting work must be performed again, which not only reduces work efficiency but also reduces sorting accuracy. Also, if there is a shortage of labor due to a sudden increase in projects, there is a risk of missing business opportunities due to the inability to outsource work in a timely manner.
本発明は、斯かる事情に鑑みてなされたものであり、書類の仕分け業務を効率よく、かつ仕分け精度を向上することができる情報処理装置及びコンピュータプログラムを提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide an information processing apparatus and a computer program capable of efficiently sorting documents and improving sorting accuracy.
情報処理装置は、書類画像を取得する取得部と、前記取得部で取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成する画像生成部と、前記画像生成部で生成した複数の処理後画像それぞれを光学的に読み取ってテキストデータを生成するテキストデータ生成部と、前記テキストデータ生成部で生成した複数のテキストデータに基づいて前記書類画像を分類する分類器とを備える。 The information processing apparatus includes an acquisition unit that acquires a document image, an image generation unit that performs color reduction processing on the document image acquired by the acquisition unit based on a plurality of threshold values to generate a plurality of processed images, and the image a text data generation unit that optically reads each of the plurality of processed images generated by the generation unit to generate text data; and a classification that classifies the document image based on the plurality of text data generated by the text data generation unit. Equipped with a vessel.
コンピュータプログラムは、コンピュータに、書類画像を取得し、取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成し、生成した複数の処理後画像それぞれを光学的に読み取ってテキストデータを生成し、生成した複数のテキストデータに基づいて前記書類画像を分類する、処理を実行させる。 The computer program causes the computer to obtain a document image, perform color reduction processing on the obtained document image based on a plurality of thresholds to generate a plurality of post-processing images, and optically convert each of the generated plurality of post-processing images. Then, the document image is read, text data is generated, and the document image is classified based on the generated plurality of text data.
本発明によれば、書類の仕分け業務を効率よく、かつ仕分け精度を向上することができる。 According to the present invention, it is possible to efficiently sort documents and improve sorting accuracy.
以下、本発明の実施の形態を図面に基づいて説明する。図1は情報処理システムの構成の一例を示す模式図である。情報処理システムは、情報処理装置50、及び端末装置10を備える。情報処理装置50と端末装置10とは、通信ネットワーク1を介して接続されている。端末装置10は、パーソナルコンピュータ、タブレット端末などで構成され、作業担当者によって使用される。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a schematic diagram showing an example of the configuration of an information processing system. The information processing system includes an
情報処理装置50は、装置全体を制御する制御部51、通信部52、記憶部53、画像処理部54、OCR処理部55、特徴量抽出部56、分類器57、重み付け付与部58、特定部59、及び出力部60を備える。制御部51は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)などで構成することができる。
The
通信部52は、通信ネットワーク1を介して、端末装置10との間で通信を行う機能を有し、所要の情報の送受信を行うことができる。より具体的には、通信部52は、取得部としての機能を有し、端末装置10から書類画像を取得する。
The
図2は書類画像の一例を示す模式図である。図2は書類の画像の一例として運転免許証の画像を図示している。書類は、本人確認用の書類を含み、例えば、運転免許証の他に、パスポート、マイナンバーカード、保険証(健康保険証、介護保険証など)、国民年金手帳、身体障害者手帳、住民票、戸籍謄本・妙本、印鑑証明書など種々の書類を含む。 FIG. 2 is a schematic diagram showing an example of a document image. FIG. 2 shows an image of a driver's license as an example of an image of a document. Documents include documents for identity verification, for example, in addition to driver's license, passport, my number card, insurance card (health insurance card, long-term care insurance card, etc.), national pension book, physical disability certificate, resident card, Includes various documents such as family register copies, myohon, and seal certificates.
記憶部53は、半導体メモリ又はハードディスク等で構成され、通信部52を介して取得した書類画像を記憶することができる。また、記憶部53は、情報処理装置50内の処理結果などの所要のデータを記憶することができる。
The
画像処理部54は、通信部52を介して取得した書類画像に対して画像前処理を行う機能を有する。画像前処理は、鮮鋭化処理、減色処理、サイズ変更処理などを含む。なお、本明細書では、画像処理部54が、鮮鋭化処理、減色処理、サイズ変更処理を含む構成であるが、鮮鋭化処理、減色処理及びサイズ変更処理をそれぞれ別個の処理部として構成してもよい。以下、各画像前処理について説明する。
The
画像処理部54は、通信部52を介して取得した書類画像(又は当該書類画像に対して所定の画像処理を行った後の画像)に対して鮮鋭化処理を行う。鮮鋭化処理は、エッジのコントラストを強調するフィルタを用いて、輪郭を強調する。なお、鮮鋭化処理は、減色処理の前又は後の画像に対して行うことができる。
The
図3は減色処理後の書類画像の一例を示す模式図である。画像処理部54は、画像生成部としての機能を有し、通信部52を介して取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成する。減色処理では、閾値以上の画素値が消去される。図3の例では、2つの異なる閾値Th1、Th2に基づいて2つの減色処理後の書類画像を生成している。R(赤)、G(緑)、B(青)の画素値をそれぞれ0(黒)~255(白)で表す。閾値Th1は、例えば、(R:100、G:100、B:100)とし、閾値Th2は、(R:200、G:200、B:200)とすることができるが、これに限定されない。また、閾値は、R、G、Bそれぞれについて同一値に限定されるものではなく、R、G、B毎に異なる閾値のセットを用いてもよい。
FIG. 3 is a schematic diagram showing an example of a document image after color reduction processing. The
背景と文字が重なる部分では、背景色と文字の色との組み合わせによっては文字の視認性が低下する。文字の部分の視認性を向上させる目的で、減色処理によって背景色を除去するが、閾値によっては文字の部分も除去されてしまう場合もある。そこで、2つの異なる閾値を用いて減色処理を行うことにより、一方の閾値に基づく減色処理で、仮に文字を除去してしまった場合でも、他方の閾値に基づく減色処理で取りこぼした文字を拾うことが可能となる。図3Aでは、閾値Th1=(R:100、G:100、B:100)としているので、R、G、Bの各画素値が100以上の画素を消去することができる。図3Aの例では、「運転免許証」の文字が除去された例を図示している。一方、図3Bでは、閾値Th1=(R:200、G:200、B:200)としているので、R、G、Bの各画素値が200以上の画素を消去することができる。図3Bの例では、図3Aの例で除去された「運転免許証」の文字が消去されずに残っている。 In the portion where the background and the characters overlap, the visibility of the characters is lowered depending on the combination of the background color and the character color. In order to improve the visibility of the character portion, the background color is removed by color reduction processing, but depending on the threshold value, the character portion may also be removed. Therefore, by performing color reduction processing using two different thresholds, even if a character is removed by color reduction processing based on one threshold, it is possible to pick up the characters left out by color reduction processing based on the other threshold. becomes possible. In FIG. 3A, since the threshold value Th1=(R:100, G:100, B:100), pixels with R, G, and B pixel values of 100 or more can be erased. The example of FIG. 3A illustrates an example in which the characters "driver's license" have been removed. On the other hand, in FIG. 3B, since the threshold value Th1=(R:200, G:200, B:200), pixels with R, G, and B pixel values of 200 or more can be deleted. In the example of FIG. 3B, the characters "driver's license" that were removed in the example of FIG. 3A remain unerased.
上述のように、書類画像に対して複数の閾値に基づく減色処理を行うことにより、後述のOCR(Optical Character Recognition)処理の文字認識精度を向上させることができる。 As described above, by performing color reduction processing on a document image based on a plurality of thresholds, it is possible to improve character recognition accuracy in OCR (Optical Character Recognition) processing, which will be described later.
画像処理部54は、通信部52を介して取得した書類画像(又は当該書類画像に対して所定の画像処理を行った後の画像)に対してサイズ変更処理を行う。書類の種類によっては書類画像のサイズが異なる場合がある。画像処理部54は、サイズ変更処理を行うことにより、OCR処理に最適なサイズの画像に変換することができる。サイズ変更処理は、鮮鋭化処理後の書類画像に対して行うことができるが、減色処理によって生成された2つの減色処理後画像それぞれに対して行ってもよい。サイズ変更処理は、減色処理の前又は後の画像に対して行うことができる。
The
OCR処理部55は、テキストデータ生成部としての機能を有し、画像処理部54による画像前処理後の画像を光学的に読み取ってテキストデータを生成する。より具体的には、OCR処理部55は、画像処理部54で生成した複数の処理後画像それぞれを光学的に読み取って得られた複数のテキスト化データを連結してテキストデータを生成する。
The
図4はテキスト化データの一例を示す模式図である。図4Aは、図3Aに示す減色処理後画像をテキスト化したものであり、「O月O日まで有効」「123456789000」の文字がテキスト化されている。図4Bは、図3Bに示す減色処理後画像をテキスト化したものであり、「O月O日まで有効」「運転免許証」「123456789000」の文字がテキスト化されている。 FIG. 4 is a schematic diagram showing an example of text data. FIG. 4A is a text representation of the color-reduction-processed image shown in FIG. 3A, in which characters "valid until month and day O" and "123456789000" are rendered as text. FIG. 4B is a text representation of the color-reduction-processed image shown in FIG. 3B, in which characters "Valid until O month O day", "Driver's license", and "123456789000" are rendered as text.
図5はテキスト化データを連結したテキストデータの一例を示す模式図である。図5の例では、図4A及び図4Bそれぞれのテキスト化データが連結されている。図5の例では、図4Aの下側に図4Bを配置させてテキストを連結した構成を示すが、これに限定されるものではなく、図4Aの右側、左側、あるいは上側に図4Bを配置させてテキストを連結してもよい。連結することにより、2つのテキストファイルが1つに纏められる。 FIG. 5 is a schematic diagram showing an example of text data in which text data are linked. In the example of FIG. 5, the text data of FIGS. 4A and 4B are concatenated. The example of FIG. 5 shows a configuration in which FIG. 4B is placed below FIG. 4A and the text is connected, but the configuration is not limited to this, and FIG. 4B is placed on the right side, left side, or top side of FIG. 4A. You can also concatenate the text by Concatenation combines two text files into one.
特徴量抽出部56は、OCR処理部55で生成したテキストデータから文字特徴量を抽出する。具体的には、特徴量抽出部56は、OCR処理部55で生成したテキストデータを分割した文字列それぞれの当該テキストデータ中に出現する頻度に基づいて文字特徴量を抽出する。テキストデータの分割には、文字n-gramを用いることができる。文字n-gramは、文書を連続するn個の文字で分割する手法である。以下、文字n-gramの例として、文字2-gramについて説明する。
A feature
図6は文字2-gramによる文字分割の一例を示す模式図である。分割前の文書としては、図5で例示したテキストデータを用いる。文字2-gramは、図5のテキストデータを連続した2文字で分割する。図6の例では、2文字ずつ、「O月」、「O日」、{まで}、…の如く分割されている。 FIG. 6 is a schematic diagram showing an example of character division by character 2-grams. As the document before division, the text data illustrated in FIG. 5 is used. The character 2-gram divides the text data of FIG. 5 by two consecutive characters. In the example of FIG. 6, each two characters are divided into "O month", "O day", {until}, and so on.
図7は分割された文字列の出現頻度の一例を示す模式図である。文字列「O月」は、テキストデータ内に2回出現するので、頻度は2となる。文字列「O日」は、テキストデータ内に2回出現するので、頻度は2となる。以下、同様である。また、文字列「運転」は、テキストデータ内に1回出現するので、頻度は1となる。文字列「免許」は、テキストデータ内に1回出現するので、頻度は1となる。文字列「証 」は、テキストデータ内に1回出現するので、頻度は1となる。 FIG. 7 is a schematic diagram showing an example of the frequency of occurrence of divided character strings. Since the character string "O month" appears twice in the text data, the frequency is 2. Since the character string "O day" appears twice in the text data, the frequency is 2. The same applies hereinafter. Also, the character string "driving" appears once in the text data, so the frequency is 1. Since the character string "license" appears once in the text data, the frequency is 1. Since the character string "proof" appears once in the text data, the frequency is 1.
特徴量抽出部56は、分割した文字列それぞれを要素とし、当該文字列の頻度を要素の値とする特徴ベクトル(文字特徴量ともいう)を抽出する。例えば、分割した文字列の数を100とすると、特徴ベクトルは100次元ベクトルとなる。
The feature
分割した文字列に対しては、重要度に応じて予め重み付けを行うことができる。以下、重み付けの方法について説明する。 The divided character strings can be weighted in advance according to their importance. The weighting method will be described below.
重み付け付与部58は、文字列の頻度に対して重み付けを付与する。重み付け付与の手法としては、例えば、TF-IDF手法を用いることができる。TF-IDFとは、Term Frequency(TF)とInverse Document Frequency(IDF)の意味である。TFはある文字列の文書中の出現頻度を表す。ここで、文書中は、重み付けを求めるために収集された文章データ全部を示す。文書データ中に出現する頻度が多いほど、その文字列は重要であると考えられる。IDFは、ある文字列が出てくる文書頻度の逆数を表す。多くの文章中に出願する文字列は、一つの文書の中で重要度が低いと考えられる。重み付け付与部58は、TFとIDFとの掛け算によって重み付けを算出することができる。
The
図8は重み付けの算出方法の一例を示す模式図である。重み付け付与部58は、文書データを学習用データとして用いて文字列毎の重み付けを算出する。文書データは、複数の運転免許証、パスポート、健康保険証、住民票などの書類から生成されたテキストデータである。図8の例では、重み付け付与部58は、TF-IDF手法を用いて、重み付け情報581を生成している。重み付け情報581は、文字列と当該文字列の重み付けとを対応付けた情報である。図8の例では、文字列「保険」、「運転」に対して、重み付けを5.0とし、文字列「住民」対して、重み付けを4.5としている。他の文字列も同様である。
FIG. 8 is a schematic diagram showing an example of a weighting calculation method. The
上述のように、文書データに出現する頻度が多ければ、特徴として重要である可能性が高く重み付けを大きくし、多くの文章に登場する未次烈は、特徴として重要である可能性が低く重み付けを小さくすることにより、分類器57による書類画像の分類を行い易くすることができる。
As described above, if the frequency of occurrence in the document data is high, it is likely to be important as a feature and is given a large weighting. is made smaller, the classification of document images by the
特徴量抽出部56は、分割した文字列それぞれの頻度に重み付けを付与して文字特徴量を抽出することができる。
The feature
図9は重み付けが付与された文字特徴量の一例を示す模式図である。図9において、文字列と対応する頻度との関係は、図7の例と同一である。前述のとおり、重み付け付与部58は、予め重み付け情報を生成している。図9に示すように、文字列「O月」~「有効」それぞれの重み付けを0.5とし、文字列「12」~「00」それぞれの重み付けを0.2とし、文字列「運転」「免許」それぞれの重み付けを5.0とし、文字列「証 」の重み付けを1.0とする。文字特徴量としての特徴ベクトルは、各文字列の頻度と重み付けを掛け算することにより求められ、特徴ベクトルの各要素x1~x13の値が計算される。例えば、要素x1は、文字列「O月」に対応し、要素x1の値は、2×0.5=1.0となる。また、要素x11は、文字列「運転」に対応し、要素x11の値は、1×5.0=5.0となる。他の要素も同様である。
FIG. 9 is a schematic diagram showing an example of weighted character feature amounts. In FIG. 9, the relationship between character strings and corresponding frequencies is the same as in the example of FIG. As described above, the
分類器57は、OCR処理部55で生成したテキストデータに基づいて書類画像を分類する。より具体的には、分類器57は、特徴量抽出部56で抽出された文字特徴量に基づいて書類画像を分類することができる。分類器57による書類の分類は、機械学習によって生成された学習済みモデルを用いてもよく、あるいは、文字特徴量と書類種別とを関連付けたルールを用いてもよい。まず、学習済みモデルを用いる場合について説明する。
図10は学習済みモデルを用いた書類の分類方法の第1例を示す模式図である。分類器57は、学習済みモデルとしてのニューラルネットワーク571を有する。分類器57は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)などのハードウェアを組み合わせることによって構成することができる。
FIG. 10 is a schematic diagram showing a first example of a document classification method using a trained model. The
ニューラルネットワーク571は、特徴量抽出部56で抽出された文字特徴量(特徴ベクトル)が入力されると、書類の種別毎に確率(0~1の数値)を出力する。書類の種別としては、たとえば、運転免許証、健康保険証、パスポート、住民票、その他等を含む。なお、書類の種別は、図10の例に限定されない。分類器57は、ニューラルネットワーク571が出力する書類の種別毎の確率のうち、最も数値の大きい種別に基づいて書類画像を分類する。例えば、運転免許証、健康保険証、パスポート、住民票、その他それぞれの確率が0.8、0.4、0.3、0.1、0.1とすると、書類画像は運転免許証であると分類する。なお、ニューラルネットワーク571に代えて、他の機械学習モデルでもよい。
When the
図11は学習済みモデルを用いた書類の分類方法の第2例を示す模式図である。分類器57は、第1の分類器572、第2の分類器573、及び加算平均部574を有する。分類器572、573それぞれは、特徴量抽出部56で抽出された文字特徴量(特徴ベクトル)が入力されると、書類の種別毎に確率(0~1の数値)を出力する。分類器572は、出力端子A1~A5から運転免許証、健康保険証、パスポート、住民票、その他の確率を出力する。分類器573は、出力端子B1~B5から運転免許証、健康保険証、パスポート、住民票、その他の確率を出力する。加算平均部574は、出力端子A1とB1から出力される確率を加算平均して、運転免許証の確率を出力する。健康保険証、パスポート、住民票、その他についても同様である。分類器57は、加算平均部574が出力する書類の種別毎の確率のうち、最も数値の大きい種別に基づいて書類画像を分類する。
FIG. 11 is a schematic diagram showing a second example of a document classification method using a trained model. The
第1の分類器572として、例えば、線形SVM(サポート・ベクター・マシン)を用い、第2の分類器573として、例えば、勾配ブースティング木を用いることができる。アンサンブル学習を行って、複数の機械学習モデルを組み合わせることにより、書類画像の分類精度を向上させることができる。なお、組み合わせる機械学習モデルは、線形SVMや勾配ブースティング木に限定されない。
As the
次に、ルールベースの場合について説明する。 Next, the rule-based case will be described.
図12はルールベースの書類の分類方法の一例を示す模式図である。分類器57は、ルールベースの分類器575、ルールDB577を有する。分類器575は、類似度算出部576を有する。ルールDB577には、予め特徴ベクトルと書類の種別とを関連付けたルールが記録されている。例えば、特徴ベクトルV1には免許証が関連付けられ、特徴ベクトルV2には保険証が関連付けられている。他の書類の種別も同様である。
FIG. 12 is a schematic diagram showing an example of a rule-based document classification method. The
分類器575は、特徴量抽出部56で抽出された特徴ベクトルVxが入力されると、類似度算出部576の機能を用いて、入力された特徴ベクトルVxと、ルールDB577に記録された各特徴ベクトルとの類似度を算出し、最も類似度の大きい特徴ベクトルに関連付けられた種別を書類の種別として出力する。類似度の算出は、例えば、コサイン類似度を用いることができる。
When the feature vector Vx extracted by the feature
一般的な画像処理による書類の分類では、パターンマッチング等のように、書類のデザインや書式に基づいて書類の種別を判定するため、非定型書類(例えば、保険証や住民票など)の分類が困難であった。上述のように、情報処理装置50は、OCR処理部55により光学的文字認識を行うので、書類のデザインや書式に依存することなく非定型の書類でも精度よく分類できる。
In the classification of documents by general image processing, the type of document is determined based on the design and format of the document, such as pattern matching. It was difficult. As described above, the
また、OCR処理による文字認識の精度は100%ではなく、誤認識が発生する。上述のように、情報処理装置50は、画像処理部54により、閾値の異なる複数の前処理(減色処理)を行うので、文字の取りこぼしを低減することができ、結果として、後続のOCR処理の文字認識精度を向上させることができる。
Further, the accuracy of character recognition by OCR processing is not 100%, and misrecognition occurs. As described above, the
また、従来、書類の仕分け業務は、スキャナで読み取った書類の分類作業を人手で実施している場合が多く、ヒューマンエラーが発生しやすい。上述のように、情報処理装置50は、機械学習によって生成された分類器や、ルールベースの分類器を用いるので、書類の仕分け業務の自動化が可能となり、書類仕分け業務の効率化、仕分けミスの低減を図ることができる。
In addition, conventional document sorting operations often involve manually sorting documents read by a scanner, which is prone to human error. As described above, the
情報処理装置50により書類画像を分類するので、書類仕分け業務を自動化することが可能となる。しかし、仕分け業務後の各種申請に関する書類の審査業務においては、申請に必要な書類がそろっているか、有効な書類かどうか等の審査項目を正確に判断する必要があり、人手による審査が必須である。以下では、書類の審査に有効な情報を提供する方法について説明する。
Since the document images are classified by the
特定部59は、分類器57による書類画像の分類に寄与したテキストデータの寄与部分を特定する。出力部60は、当該寄与部分に対応する領域を強調表示した書類画像を出力する。例えば、出力部60は、通信部52を介して、強調表示した書類画像を端末装置10へ出力することができる。なお、出力部60は、書類の種別だけを端末装置10へ出力してもよい。
The identifying
図13は寄与部分の特定方法の一例を示す模式図である。特徴ベクトルは、その要素がテキストデータ内の文字列であり、文字列の出現頻度(重み付け付与された頻度)が要素の値となる。すなわち、特徴ベクトルの各要素には、テキストデータ中の文字列が対応するので、文字列のテキストデータ中の位置又は座標を記録しておくことができる。書類画像の分類に寄与する要素は、重み付けされた頻度の値が大きい部分と考えられるので、文字列のテキストデータ中の位置又は座標が分かれば、当該位置又は座標に基づいて、書類画像の分類に寄与した寄与部部を特定することができる。そして、テキストデータ中の寄与部分が分かれば、書類画像の寄与部分に対応する領域も分かる。 FIG. 13 is a schematic diagram showing an example of a method of specifying a contributing portion. The element of the feature vector is a character string in the text data, and the appearance frequency (weighted frequency) of the character string is the value of the element. That is, since each element of the feature vector corresponds to a character string in the text data, the position or coordinates of the character string in the text data can be recorded. Elements that contribute to the classification of document images are considered to be parts with large weighted frequency values. Therefore, if the positions or coordinates of character strings in the text data are known, the document images can be classified based on the positions or coordinates. can be identified. Then, if the contributing portion in the text data is known, the area corresponding to the contributing portion in the document image can also be known.
図14は強調表示した書類画像の一例を示す模式図である。図14の例では、書類が健康保険証であり、分類に寄与した寄与部分に対応する領域を太線で囲んでいる。寄与部分に対応する領域には、「健康保険」「被保険者証」という文字が記載されている。強調表示は、図14のように太線で囲んだ表示態様でもよく、あるいは、色又は模様による強調表示等、審査を行う担当者が容易に書類の種別を判断できる表示態様であればよい。 FIG. 14 is a schematic diagram showing an example of a highlighted document image. In the example of FIG. 14, the document is a health insurance card, and the area corresponding to the portion that contributed to the classification is surrounded by a thick line. Characters such as "health insurance" and "insured card" are written in the area corresponding to the contribution portion. The highlighting may be a display mode surrounded by a thick line as shown in FIG. 14, or a display mode such as highlighting by color or pattern, as long as the person in charge of examination can easily determine the type of the document.
上述のように、書類の分類に寄与した説明的根拠を書類画像上の文字を強調表示することにより示すことができるので、書類の審査担当者は、審査項目を正確に、かつ迅速に判断することができる。 As described above, the descriptive grounds that contributed to the classification of the document can be shown by highlighting the characters on the document image. be able to.
図15は情報処理装置50による書類画像の分類処理の手順の一例を示すフローチャートである。以下では便宜上、処理の主体を制御部51として説明する。制御部51は、書類画像を取得し(S11)、取得した書類画像に対して鮮鋭化処理を行う(S12)。制御部51は、必要に応じて、サイズ変更処理を行う(S13)。
FIG. 15 is a flow chart showing an example of the document image classification process performed by the
制御部51は、複数の閾値に基づく減色処理を行い(S14)、減色処理によって生成された複数の処理後画像に対してOCR処理を行ってテキスト化し(S15)、テキスト化データを連結してテキストデータを生成する(S16)。
The
制御部51は、テキストデータかた文字特徴量(特徴ベクトル)を抽出し(S17)、抽出した文字特徴量を分類器57に入力して書類画像を分類する(S18)。制御部51は、分類に寄与した寄与部分に対応する領域を強調表示する書類画像を端末装置10へ出力する(S19)。
The
制御部51は、他の書類画像があるか否かを判定し(S20)、他の書類画像がある場合(S20でYES)、ステップS11以降の処理を繰り返し、他の書類画像がない場合(S20でNO)、処理を終了する。
The
情報処理装置50は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、RAMなどを備えたコンピュータを用いて実現することもできる。図15に示すような処理の手順を定めたコンピュータプログラム(記録媒体に記録可能)をコンピュータに備えられたRAMにロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で情報処理装置50を実現することができる。
The
情報処理装置は、書類画像を取得する取得部と、前記取得部で取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成する画像生成部と、前記画像生成部で生成した複数の処理後画像それぞれを光学的に読み取ってテキストデータを生成するテキストデータ生成部と、前記テキストデータ生成部で生成した複数のテキストデータに基づいて前記書類画像を分類する分類器とを備える。 The information processing apparatus includes an acquisition unit that acquires a document image, an image generation unit that performs color reduction processing on the document image acquired by the acquisition unit based on a plurality of threshold values to generate a plurality of processed images, and the image a text data generation unit that optically reads each of the plurality of processed images generated by the generation unit to generate text data; and a classification that classifies the document image based on the plurality of text data generated by the text data generation unit. Equipped with a vessel.
情報処理装置は、前記減色処理の前又は後の画像に対して鮮鋭化処理を行う鮮鋭化処理部を備える。 The information processing apparatus includes a sharpening processing unit that performs sharpening processing on the image before or after the color reduction processing.
情報処理装置は、前記減色処理の前又は後の画像に対してサイズ変更処理を行うサイズ変更処理部を備える。 The information processing apparatus includes a size change processing unit that performs size change processing on the image before or after the color reduction processing.
情報処理装置において、前記テキストデータ生成部は、前記画像生成部で生成した複数の処理後画像それぞれを光学的に読み取って得られた複数のテキスト化データを連結してテキストデータを生成する。 In the information processing apparatus, the text data generation unit generates text data by connecting a plurality of text data obtained by optically reading each of the processed images generated by the image generation unit.
情報処理装置において、前記分類器は、文字特徴量と書類種別とを関連付けたルールを用いて、又は文字特徴量を入力した場合に書類種別を出力する学習済みモデルを用いて、前記テキストデータ生成部で生成したテキストデータから抽出された文字特徴量に基づいて前記書類画像を分類する。 In the information processing device, the classifier generates the text data using a rule that associates character feature amounts with document types, or using a trained model that outputs document types when character feature amounts are input. The document image is classified based on the character feature amount extracted from the text data generated by the section.
情報処理装置は、前記テキストデータ生成部で生成したテキストデータを分割した文字列それぞれの前記テキストデータ中に出現する頻度に基づいて前記文字特徴量を抽出する特徴量抽出部を備える。 The information processing apparatus includes a feature amount extraction unit that extracts the character feature amount based on the frequency of appearance in the text data of each character string obtained by dividing the text data generated by the text data generation unit.
情報処理装置において、前記特徴量抽出部は、文字n-gram手法を含む。 In the information processing device, the feature extraction unit includes a character n-gram method.
情報処理装置は、文字列の頻度に対して予め重み付けを付与する重み付け付与部を備え、前記特徴量抽出部は、前記分割した文字列それぞれの頻度に重み付けを付与して前記文字特徴量を抽出する。 The information processing device includes a weighting unit that weights the frequency of the character string in advance, and the feature amount extraction unit weights the frequency of each of the divided character strings to extract the character feature amount. do.
情報処理装置において、前記重み付け付与部は、TF-IDF手法を含む。 In the information processing device, the weighting unit includes a TF-IDF technique.
情報処理装置は、前記書類画像の分類に寄与した前記テキストデータの寄与部分を特定する特定部と、前記寄与部分に対応する領域を強調表示した前記書類画像を出力する出力部とを備える。 The information processing apparatus includes a specifying unit that specifies a contributing portion of the text data that contributed to the classification of the document image, and an output unit that outputs the document image in which a region corresponding to the contributing portion is highlighted.
コンピュータプログラムは、コンピュータに、書類画像を取得し、取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成し、生成した複数の処理後画像それぞれを光学的に読み取ってテキストデータを生成し、生成した複数のテキストデータに基づいて前記書類画像を分類する、処理を実行させる。 The computer program causes the computer to obtain a document image, perform color reduction processing on the obtained document image based on a plurality of thresholds to generate a plurality of post-processing images, and optically convert each of the generated plurality of post-processing images. Then, the document image is read, text data is generated, and the document image is classified based on the generated plurality of text data.
1 通信ネットワーク
10 端末装置
50 情報処理装置
51 制御部
52 通信部
53 記憶部
54 画像処理部
55 OCR処理部
56 特徴量抽出部
57、572、573、575 分類器
574 加算平均部
576 類似度算出部
577 ルールDB
571 ニューラルネットワーク
58 重み付け付与部
581 重み付け情報
59 特定部
60 出力部
1
571
Claims (11)
前記取得部で取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成する画像生成部と、
前記画像生成部で生成した複数の処理後画像それぞれを光学的に読み取ってテキストデータを生成するテキストデータ生成部と、
前記テキストデータ生成部で生成した複数のテキストデータに基づいて前記書類画像を分類する分類器と
を備える、
情報処理装置。 an acquisition unit that acquires a document image;
an image generation unit that performs color reduction processing based on a plurality of thresholds on the document image acquired by the acquisition unit to generate a plurality of processed images;
a text data generation unit that optically reads each of the plurality of processed images generated by the image generation unit to generate text data;
a classifier that classifies the document image based on a plurality of text data generated by the text data generation unit;
Information processing equipment.
請求項1に記載の情報処理装置。 A sharpening processing unit that performs sharpening processing on the image before or after the color reduction processing,
The information processing device according to claim 1 .
請求項1又は請求項2に記載の情報処理装置。 A size change processing unit that performs size change processing on the image before or after the color reduction process,
The information processing apparatus according to claim 1 or 2.
前記画像生成部で生成した複数の処理後画像それぞれを光学的に読み取って得られた複数のテキスト化データを連結してテキストデータを生成する、
請求項1から請求項3のいずれか一項に記載の情報処理装置。 The text data generation unit
generating text data by concatenating a plurality of text data obtained by optically reading each of the plurality of processed images generated by the image generation unit;
The information processing apparatus according to any one of claims 1 to 3.
文字特徴量と書類種別とを関連付けたルールを用いて、又は文字特徴量を入力した場合に書類種別を出力する学習済みモデルを用いて、前記テキストデータ生成部で生成したテキストデータから抽出された文字特徴量に基づいて前記書類画像を分類する、
請求項1から請求項4のいずれか一項に記載の情報処理装置。 The classifier is
Extracted from the text data generated by the text data generation unit using a rule that associates character features with document types, or using a trained model that outputs document types when character features are input classifying the document image based on the character feature quantity;
The information processing apparatus according to any one of claims 1 to 4.
請求項5に記載の情報処理装置。 a feature amount extraction unit that extracts the character feature amount based on the frequency of appearance in the text data of each character string obtained by dividing the text data generated by the text data generation unit;
The information processing device according to claim 5 .
請求項6に記載の情報処理装置。 The feature quantity extraction unit includes a character n-gram method,
The information processing device according to claim 6 .
前記特徴量抽出部は、
前記分割した文字列それぞれの頻度に重み付けを付与して前記文字特徴量を抽出する、
請求項6又は請求項7に記載の情報処理装置。 A weighting unit that weights the frequency of the character string in advance,
The feature quantity extraction unit is
extracting the character feature amount by weighting the frequency of each of the divided character strings;
The information processing apparatus according to claim 6 or 7.
請求項8に記載の情報処理装置。 The weighting unit includes a TF-IDF technique,
The information processing apparatus according to claim 8 .
前記寄与部分に対応する領域を強調表示した前記書類画像を出力する出力部と
を備える、
請求項1から請求項9のいずれか一項に記載の情報処理装置。 an identifying unit that identifies a contributing portion of the text data that contributed to the classification of the document image;
an output unit that outputs the document image in which a region corresponding to the contributing portion is highlighted,
The information processing apparatus according to any one of claims 1 to 9.
書類画像を取得し、
取得した書類画像に対して複数の閾値に基づく減色処理を行って複数の処理後画像を生成し、
生成した複数の処理後画像それぞれを光学的に読み取ってテキストデータを生成し、
生成した複数のテキストデータに基づいて前記書類画像を分類する、
処理を実行させるコンピュータプログラム。 to the computer,
Get the document image,
performing color reduction processing based on a plurality of thresholds on the acquired document image to generate a plurality of post-processing images;
Optically reading each of the generated multiple processed images to generate text data,
classifying the document image based on the generated multiple text data;
A computer program that causes a process to be performed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021002995A JP2022108130A (en) | 2021-01-12 | 2021-01-12 | Information processor and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021002995A JP2022108130A (en) | 2021-01-12 | 2021-01-12 | Information processor and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022108130A true JP2022108130A (en) | 2022-07-25 |
Family
ID=82556210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021002995A Pending JP2022108130A (en) | 2021-01-12 | 2021-01-12 | Information processor and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022108130A (en) |
-
2021
- 2021-01-12 JP JP2021002995A patent/JP2022108130A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agrawal et al. | Automated bank cheque verification using image processing and deep learning methods | |
AU2020200251B2 (en) | Label and field identification without optical character recognition (OCR) | |
US9626555B2 (en) | Content-based document image classification | |
CA3117374C (en) | Sensitive data detection and replacement | |
JP5674615B2 (en) | Character recognition device and character recognition method | |
CN112862024B (en) | Text recognition method and system | |
JP6055297B2 (en) | Character recognition apparatus and method, and character recognition program | |
US11961094B2 (en) | Fraud detection via automated handwriting clustering | |
Reta et al. | Amharic handwritten character recognition using combined features and support vector machine | |
Mursari et al. | The effectiveness of image preprocessing on digital handwritten scripts recognition with the implementation of OCR Tesseract | |
CN113673528B (en) | Text processing method, text processing device, electronic equipment and readable storage medium | |
Batra et al. | OCR-MRD: performance analysis of different optical character recognition engines for medical report digitization | |
Mosaher et al. | Offline handwritten signature recognition using deep convolution neural network | |
US11995907B2 (en) | Distributed computer system for document authentication | |
CN106815561A (en) | Business license printed page analysis method and device | |
JP2022108130A (en) | Information processor and computer program | |
KR102392644B1 (en) | Apparatus and method for classifying documents based on similarity | |
CN113168527A (en) | System and method for extracting information from entity documents | |
O***llah et al. | A corpus of word-level offline handwritten numeral images from official indic scripts | |
Desai et al. | An approach for text recognition from document images | |
Manjula et al. | Identification and classification of multilingual document using maximized mutual information | |
Mynavathi et al. | PRINTED CHARACTERS TO DOCUMENT USING OCR–AN ANDROID APPLICATION | |
Islam et al. | Optimization of Deep CNN-based Bangla Sign Language Recognition using XGBoost classifier | |
Duan et al. | An effective recognition method for medical sheet based on deep learning approach | |
SOUAHI | Analytic study of the preprocessing methods impact on historical document analysis and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231128 |