JP2022092119A - 画像処理装置、画像処理方法およびプログラム - Google Patents
画像処理装置、画像処理方法およびプログラム Download PDFInfo
- Publication number
- JP2022092119A JP2022092119A JP2020204705A JP2020204705A JP2022092119A JP 2022092119 A JP2022092119 A JP 2022092119A JP 2020204705 A JP2020204705 A JP 2020204705A JP 2020204705 A JP2020204705 A JP 2020204705A JP 2022092119 A JP2022092119 A JP 2022092119A
- Authority
- JP
- Japan
- Prior art keywords
- image
- character information
- information area
- character
- handwritten
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/141—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/166—Normalisation of pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18076—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
【課題】OCRエンジンでの文字認識の精度が低下せず、かつOCRエンジンの切り替えに柔軟に対応できる文字認識用の画像を生成できるようにする。【解決手段】スキャナで読み取った画像データから文字認識装置で文字認識を行うための画像を生成する際に、手書き文字情報領域に関連する印刷文字情報領域を選択し、選択した手書き文字情報領域と印刷文字情報領域を画像データから切り出し、結合した、画像を生成する。【選択図】図5
Description
本発明は、画像処理装置、画像処理方法およびプログラムに関する。
近年、スマートフォンのようなモバイル機器が普及し、クラウド上の機械学習プラットフォームの性能が向上することで、モバイル機器が撮像した画像に対してクラウド上で画像認識を行う形態が普及してきている。その中でも、クラウド上のOCR(Optical Character Recognition)エンジンは、ディープラーニングにより性能を向上してきている。クラウド上のOCRエンジンは、従来の1文字単位で認識するOCRエンジンとは異なり、画像内から文字のつながった行を切り出した上で、行内の前後の文字のつながりや、自然言語処理技術による補正を行い、文字認識の精度を高めている。
特許文献1では、撮像した端末機器側で認識する文字範囲を決定し、その部分の画像をクラウド上のOCRエンジンへ送信して文字認識を行う技術が開示されている。これにより端末機器でOCRを行うよりも文字認識の精度が高くなる上、端末機器側で認識する文字範囲を決定することにより、異なるOCRエンジンを使用しても所望の文字範囲について文字認識することができるとしている。したがって、使用中のOCRエンジンよりも高性能なOCRエンジンがクラウド上に実装された際には、低い開発コストで高性能なOCRサーバを利用することができる。
特許文献1では、撮像した端末機器側で認識する文字範囲を決定し、その部分の画像をクラウド上のOCRエンジンへ送信して文字認識を行う技術が開示されている。これにより端末機器でOCRを行うよりも文字認識の精度が高くなる上、端末機器側で認識する文字範囲を決定することにより、異なるOCRエンジンを使用しても所望の文字範囲について文字認識することができるとしている。したがって、使用中のOCRエンジンよりも高性能なOCRエンジンがクラウド上に実装された際には、低い開発コストで高性能なOCRサーバを利用することができる。
一方、モバイル機器ではなく、画像形成装置に備え付けられたスキャナのような紙を対象とした装置では、紙に印刷された文書を電子データへ変換し、コンピュータ上で再利用可能とする技術が考えられてきた。特許文献2では、スキャナでスキャンした画像データに対して、OCRと表構造認識とを行い、電子フォーマットへ変換する技術が開示されている。
また、各種申込書のように、顧客に紙の帳票に手書きで情報を記入してもらい、その情報を業務システムに転記する、という転記業務が行われてきた。そこで、手書き情報の転記業務にも画像認識技術、特にOCRを適用し、記入された内容を自動で業務システムへの転記するニーズが高まってきている。
また、各種申込書のように、顧客に紙の帳票に手書きで情報を記入してもらい、その情報を業務システムに転記する、という転記業務が行われてきた。そこで、手書き情報の転記業務にも画像認識技術、特にOCRを適用し、記入された内容を自動で業務システムへの転記するニーズが高まってきている。
しかし、実際の帳票にはあらかじめ印刷した文字も存在するため、印刷文字と手書き文字とが混在し、両方から情報を抽出しようとするとOCR処理の文字認識の精度が低下してしまう。また、手書きによる各種申込書では、印刷文字は複数の申込書での共通の内容であり、申込書の具体的な内容は手書き文字で書かれている。そのため、手書き文字の認識精度を高めることが重要となる。
特許文献3では、印刷文字と手書き文字とを分離し、それぞれに最適なOCR処理を施すことにより、文字認識の精度を高める技術が開示されている。さらに特許文献3によれば、印刷文字の認識結果に基づいて、近辺の手書き文字の属性を推定し、手書き文字の認識精度を高めることができるとしている。
特許文献3では、印刷文字と手書き文字とを分離し、それぞれに最適なOCR処理を施すことにより、文字認識の精度を高める技術が開示されている。さらに特許文献3によれば、印刷文字の認識結果に基づいて、近辺の手書き文字の属性を推定し、手書き文字の認識精度を高めることができるとしている。
しかし、特許文献3の技術によれば、手書き文字の認識に利用する属性およびその属性の渡し方は、特許文献3のOCR技術独自のものであり、そのOCR技術を利用するモバイル端末や画像形成装置からは容易に制御することができない。そのため、特許文献3のOCR技術で他のOCRエンジンを用いて手書き文字の認識を行う場合、印刷文字の認識結果に基づく属性が利用できず、文字認識の精度が低下する。特に、前述した各種申込書の場合、特許文献3のように印刷文字と手書き文字とを分離すると、それぞれの文は単語程度に短くなってしまう。そのため、前述したように行切出しを行ってから前後の文字つながりや自然言語補正を行うOCRエンジンを利用する場合であっても、補正効果が得られず、文字認識の精度が低下してしまう、という課題が存在する。
本発明は前述の問題点に鑑み、OCRエンジンでの文字認識の精度が低下せず、かつOCRエンジンの切り替えに柔軟に対応できる文字認識用の画像を生成できるようにすることを目的としている。
本発明に係る画像処理装置は、画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理装置であって、前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出手段と、前記抽出手段により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け手段と、前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け手段による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成手段と、を有することを特徴とする。
本発明によれば、OCRエンジンでの文字認識の精度が低下せず、かつOCRエンジンの切り替えに柔軟に対応できる文字認識用の画像を生成することができる。
(第1の実施形態)
以下、本発明の第1の実施形態について図面を用いて説明する。
図1は、本実施形態に係る画像形成システム100の構成の一例を示す図である。画像形成システム100は、画像形成装置101、102と、情報処理端末103、104と、画像処理装置105と、文字認識装置107とを有している。画像形成装置101、102と、情報処理端末103、104と、画像処理装置105と、文字認識装置107とは、ネットワーク106により相互に接続されて、通信可能である。
以下、本発明の第1の実施形態について図面を用いて説明する。
図1は、本実施形態に係る画像形成システム100の構成の一例を示す図である。画像形成システム100は、画像形成装置101、102と、情報処理端末103、104と、画像処理装置105と、文字認識装置107とを有している。画像形成装置101、102と、情報処理端末103、104と、画像処理装置105と、文字認識装置107とは、ネットワーク106により相互に接続されて、通信可能である。
なお、図1では、画像形成装置101、102が2つである場合を例に挙げて示すが、画像形成装置の数は1つまたは3つ以上であってもよい。また、それぞれの画像形成装置101、102は、同じもので実現することができる。従って、以下では、画像形成装置101、102を代表して画像形成装置101について説明し、画像形成装置102についての詳細な説明を省略する。なお、ネットワーク106は、LAN(Local Area Network)、インターネットなど、画像形成システム100内の装置が相互に通信できるものであればよい。
画像形成装置101は、情報処理端末103、104から画像データを受信して印刷したり、受信した画像データをHDDに保存したりする。また、画像形成装置101は、画像形成装置101に備わるスキャナで画像データを読み取ったり、スキャナで読み取られた画像データを印刷したり、画像データを情報処理端末103、104に送信したりする。さらに、画像形成装置101は、画像処理装置105に画像データを送信して画像処理を依頼する。また、画像形成装置101または画像処理装置105は、文字を含む画像データを文字認識装置107へ送信して文字認識を依頼する。
情報処理端末103、104は、画像形成装置101に画像データを送信して印刷の依頼をしたり、スキャナで読み取られた画像データを画像形成装置101から受信したりする。
画像処理装置105は、画像形成装置101からスキャナで読み取った画像データを受信して、画像処理を行う。
文字認識装置107は、文字を含む画像データを受信して、文字認識を行う。
なお、図1では画像処理装置105および文字認識装置107がそれぞれ1つである場合を例に挙げて示すが、それぞれの装置の数は2つ以上であってもよい。また、それぞれの装置は用途に応じた異なる役割を持っていても良い。また、本実施形態において、画像処理装置105および文字認識装置107はクラウド、すなわちインターネット上に配置されていてもよい。画像形成装置101は、この他に、MFP(Multifunction Peripheral)などの公知の画像形成装置が有する機能を実現することが可能である。
画像形成装置101は、情報処理端末103、104から画像データを受信して印刷したり、受信した画像データをHDDに保存したりする。また、画像形成装置101は、画像形成装置101に備わるスキャナで画像データを読み取ったり、スキャナで読み取られた画像データを印刷したり、画像データを情報処理端末103、104に送信したりする。さらに、画像形成装置101は、画像処理装置105に画像データを送信して画像処理を依頼する。また、画像形成装置101または画像処理装置105は、文字を含む画像データを文字認識装置107へ送信して文字認識を依頼する。
情報処理端末103、104は、画像形成装置101に画像データを送信して印刷の依頼をしたり、スキャナで読み取られた画像データを画像形成装置101から受信したりする。
画像処理装置105は、画像形成装置101からスキャナで読み取った画像データを受信して、画像処理を行う。
文字認識装置107は、文字を含む画像データを受信して、文字認識を行う。
なお、図1では画像処理装置105および文字認識装置107がそれぞれ1つである場合を例に挙げて示すが、それぞれの装置の数は2つ以上であってもよい。また、それぞれの装置は用途に応じた異なる役割を持っていても良い。また、本実施形態において、画像処理装置105および文字認識装置107はクラウド、すなわちインターネット上に配置されていてもよい。画像形成装置101は、この他に、MFP(Multifunction Peripheral)などの公知の画像形成装置が有する機能を実現することが可能である。
次に、図2を用いて、画像形成装置101のハードウェア構成について説明する。
図2は、画像形成装置101のハードウェア構成の一例を示すブロック図である。画像形成装置101は、コントローラ201、プリンタ202、スキャナ203、および操作部204を有している。コントローラ201は、CPU211、RAM212、HDD213、ネットワークI/F214、プリンタI/F215、スキャナI/F216、操作部I/F217、および拡張I/F218を有している。
CPU211は、RAM212、HDD213、ネットワークI/F214、プリンタI/F215、スキャナI/F216、操作部I/F217、および拡張I/F218とデータの受け渡しをする。また、CPU211は、HDD213から読み出した命令をRAM212に展開し、RAM212に展開した命令を実行する。
RAM212は、CPU211がHDD213から読み出した命令を一時的に格納するための領域である。また、RAM212は、命令の実行に必要な各種のデータを記憶しておく。例えば画像処理では、受け取ったデータをRAM212に展開することで処理を行うことが可能である。
HDD213は、CPU211で実行可能な命令、画像形成装置101で使用する設定値、およびユーザから依頼された処理に関するデータなどを記憶する。
図2は、画像形成装置101のハードウェア構成の一例を示すブロック図である。画像形成装置101は、コントローラ201、プリンタ202、スキャナ203、および操作部204を有している。コントローラ201は、CPU211、RAM212、HDD213、ネットワークI/F214、プリンタI/F215、スキャナI/F216、操作部I/F217、および拡張I/F218を有している。
CPU211は、RAM212、HDD213、ネットワークI/F214、プリンタI/F215、スキャナI/F216、操作部I/F217、および拡張I/F218とデータの受け渡しをする。また、CPU211は、HDD213から読み出した命令をRAM212に展開し、RAM212に展開した命令を実行する。
RAM212は、CPU211がHDD213から読み出した命令を一時的に格納するための領域である。また、RAM212は、命令の実行に必要な各種のデータを記憶しておく。例えば画像処理では、受け取ったデータをRAM212に展開することで処理を行うことが可能である。
HDD213は、CPU211で実行可能な命令、画像形成装置101で使用する設定値、およびユーザから依頼された処理に関するデータなどを記憶する。
ネットワークI/F214は、画像形成システム100内の装置とネットワーク通信を行うためのインターフェイスである。ネットワークI/F214は、データ受信を行ったことをCPU211に伝達したり、RAM212上のデータをネットワーク106に送信したりする。
プリンタI/F215は、CPU211から送信された画像データをプリンタ202に送信したり、プリンタ202から受信したプリンタ202の状態をCPU211に伝達したりする。
スキャナI/F216は、CPU211から送信された画像読み取り指示をスキャナ203に送信する。また、スキャナI/F216は、スキャナ203から受信した画像データおよびスキャナ203の状態をCPU211に伝達する。
操作部I/F217は、操作部204を介して入力されたユーザからの指示をCPU211に伝達したり、ユーザが操作するための画面情報を操作部204に伝達したりする。
拡張I/F218は、画像形成装置101に外部機器を接続することを可能とするインターフェイスである。拡張I/F218は、例えば、USB(Universal Serial Bus)形式のインターフェイスを具備する。画像形成装置101は、USBメモリなどの外部記憶装置が拡張I/F218に接続されることにより、当該外部記憶装置に記憶されているデータの読み取りおよび当該外部記憶装置に対するデータの書き込みを行うことができる。
プリンタ202は、プリンタI/F215から受信した画像データを用紙に印刷したり、プリンタ202の状態をプリンタI/F215に伝達したりする。
スキャナ203は、スキャナI/F216から受信した画像読み取り指示に従って、スキャナ203に置かれた用紙に表示されている情報を読み取ってデジタル化して、スキャナI/F216に伝達する。また、スキャナ203は、自身の状態をスキャナI/F216に伝達する。
操作部204は、画像形成装置101に対して各種の指示を行うための操作をユーザに行わせる。例えば、操作部204は、タッチパネルを有する液晶画面を具備し、ユーザに操作画面を提供すると共に、ユーザからの操作を受け付ける。なお、操作部204の詳細は図4の説明において後述する。
プリンタI/F215は、CPU211から送信された画像データをプリンタ202に送信したり、プリンタ202から受信したプリンタ202の状態をCPU211に伝達したりする。
スキャナI/F216は、CPU211から送信された画像読み取り指示をスキャナ203に送信する。また、スキャナI/F216は、スキャナ203から受信した画像データおよびスキャナ203の状態をCPU211に伝達する。
操作部I/F217は、操作部204を介して入力されたユーザからの指示をCPU211に伝達したり、ユーザが操作するための画面情報を操作部204に伝達したりする。
拡張I/F218は、画像形成装置101に外部機器を接続することを可能とするインターフェイスである。拡張I/F218は、例えば、USB(Universal Serial Bus)形式のインターフェイスを具備する。画像形成装置101は、USBメモリなどの外部記憶装置が拡張I/F218に接続されることにより、当該外部記憶装置に記憶されているデータの読み取りおよび当該外部記憶装置に対するデータの書き込みを行うことができる。
プリンタ202は、プリンタI/F215から受信した画像データを用紙に印刷したり、プリンタ202の状態をプリンタI/F215に伝達したりする。
スキャナ203は、スキャナI/F216から受信した画像読み取り指示に従って、スキャナ203に置かれた用紙に表示されている情報を読み取ってデジタル化して、スキャナI/F216に伝達する。また、スキャナ203は、自身の状態をスキャナI/F216に伝達する。
操作部204は、画像形成装置101に対して各種の指示を行うための操作をユーザに行わせる。例えば、操作部204は、タッチパネルを有する液晶画面を具備し、ユーザに操作画面を提供すると共に、ユーザからの操作を受け付ける。なお、操作部204の詳細は図4の説明において後述する。
次に、図3を用いて、画像処理装置105および文字認識装置107のハードウェア構成について説明する。
図3は、画像処理装置105および文字認識装置107のハードウェア構成の一例を示すブロック図である。画像処理装置105および文字認識装置107は、CPU301と、RAM302と、HDD303と、ネットワークI/F304とから構成されている。
CPU301と、RAM302と、HDD303と、ネットワークI/F304とは、前述した画像形成装置101の各構成要素と同様の処理を行うため、説明を省略する。
画像処理装置105は、画像形成装置101からネットワークI/F304を介して受信した画像データに対して、画像処理および文字認識処理を実施する。なお、画像処理装置105が行う画像処理は、画像データ内の文字列や背景などを要素ごとの領域ブロックに分割する処理や、画像データから部分領域を切り出す処理、および切り出した領域を結合する処理を含むよう構成されている。
図3は、画像処理装置105および文字認識装置107のハードウェア構成の一例を示すブロック図である。画像処理装置105および文字認識装置107は、CPU301と、RAM302と、HDD303と、ネットワークI/F304とから構成されている。
CPU301と、RAM302と、HDD303と、ネットワークI/F304とは、前述した画像形成装置101の各構成要素と同様の処理を行うため、説明を省略する。
画像処理装置105は、画像形成装置101からネットワークI/F304を介して受信した画像データに対して、画像処理および文字認識処理を実施する。なお、画像処理装置105が行う画像処理は、画像データ内の文字列や背景などを要素ごとの領域ブロックに分割する処理や、画像データから部分領域を切り出す処理、および切り出した領域を結合する処理を含むよう構成されている。
次に、図4を用いて、画像形成装置101の操作部204の詳細について説明する。
図4は、画像形成装置101の操作部204の一例を示す図である。図4において、操作部204は、タッチパネル画面401と、設定キー402と、開始キー403と、キャンセルキー404とから構成されている。
ユーザはタッチパネル画面401および設定キー402を用いて、各ジョブの設定を行い、開始キー403を選択することによりジョブを開始する。なお、一度開始したジョブはキャンセルキー404を選択することでジョブ中にジョブを中止することが可能である。ここで示すジョブとは、例えばコピージョブや、スキャンした画像データをネットワークI/F214を介して画像処理装置105に送信することなどが挙げられる。
図4は、画像形成装置101の操作部204の一例を示す図である。図4において、操作部204は、タッチパネル画面401と、設定キー402と、開始キー403と、キャンセルキー404とから構成されている。
ユーザはタッチパネル画面401および設定キー402を用いて、各ジョブの設定を行い、開始キー403を選択することによりジョブを開始する。なお、一度開始したジョブはキャンセルキー404を選択することでジョブ中にジョブを中止することが可能である。ここで示すジョブとは、例えばコピージョブや、スキャンした画像データをネットワークI/F214を介して画像処理装置105に送信することなどが挙げられる。
次に、図5を用いて、画像形成装置101、画像処理装置105および文字認識装置107の機能構成について説明する。
図5(a)は、画像形成装置101の機能構成の一例を示すブロック図である。画像形成装置は、画像読取部501と、画像印刷部502と、受信部503と、実行部504と送信部505と、情報抽出アプリケーション510とを有している。画像形成装置101を構成する各部として機能させるプログラムはHDD213に格納されており、そのプログラムがRAM212へ転送され、CPU211によって実行される。
以下、各部について説明する。
画像読取部501は、スキャナ203上に載置された原稿をスキャナ203によって読み取って画像データに変換し、HDD213に記憶する。さらに、画像読取部501は、変換した画像データをネットワークI/F214を介して、ネットワーク106上の他の機器、例えば画像処理装置105へ送信する。
画像印刷部502は、画像読取部501がHDD213に記憶した画像データ、またはネットワーク106上の他の機器からネットワークI/F214を介して受信した画像データをRAM212上へ展開する。そして、画像印刷部502は、RAM212に展開した画像データをプリンタ202へ転送して、プリンタ202によって画像データの印刷を実行する。
図5(a)は、画像形成装置101の機能構成の一例を示すブロック図である。画像形成装置は、画像読取部501と、画像印刷部502と、受信部503と、実行部504と送信部505と、情報抽出アプリケーション510とを有している。画像形成装置101を構成する各部として機能させるプログラムはHDD213に格納されており、そのプログラムがRAM212へ転送され、CPU211によって実行される。
以下、各部について説明する。
画像読取部501は、スキャナ203上に載置された原稿をスキャナ203によって読み取って画像データに変換し、HDD213に記憶する。さらに、画像読取部501は、変換した画像データをネットワークI/F214を介して、ネットワーク106上の他の機器、例えば画像処理装置105へ送信する。
画像印刷部502は、画像読取部501がHDD213に記憶した画像データ、またはネットワーク106上の他の機器からネットワークI/F214を介して受信した画像データをRAM212上へ展開する。そして、画像印刷部502は、RAM212に展開した画像データをプリンタ202へ転送して、プリンタ202によって画像データの印刷を実行する。
情報抽出アプリケーション510は、画像読取部501が読み取った画像データから文字情報を抽出するアプリケーションである。本実施形態では、情報抽出アプリケーション510はWebアプリケーションの形式をとっている。情報抽出アプリケーション510は、HTMLなどのWebページ記述言語により記述されたページ記述データ、および、JavaScript(登録商標)などのスクリプト言語で記述されたスクリプトデータで構成されている。
情報抽出アプリケーション510のページ記述データには、画像読取部501が読み取った画像データと、その画像データを画像処理装置105で処理した結果とが含まれている。情報抽出アプリケーション510のページ記述データとスクリプトデータとを含むアプリケーションデータは、後述する画像処理装置105のアプリケーション生成部523によって生成される。
受信部503は、画像処理装置105のアプリケーション生成部523によって生成されたアプリケーションデータを受信し、HDD303に記憶する。
実行部504は、Webアプリケーションを実行するためのWebブラウザを含み、受信部503が受信したアプリケーションデータを用いて情報抽出アプリケーション510を実行する。また、実行部504は、実行したアプリケーションを操作部I/F217を介してタッチパネル画面401に表示し、タッチパネル画面401へのタッチ操作や設定キー402の選択などを情報抽出アプリケーション510に通知する。
送信部505は、情報抽出アプリケーション510の抽出した情報をネットワーク106上の他の機器、例えば画像処理装置105へ送信する。また、抽出した情報をHDD213に記憶する。
情報抽出アプリケーション510は、UI表示部511と、画像表示部512と、文字情報領域表示部514と、選択部515と、入力受付部517と、部分画像表示部518と、入力部519とから構成されている。各部は、ページ記述データおよびスクリプトデータで実装されている。
UI表示部511は、ユーザが操作するボタンなどの操作部品や、処理進捗状況などの情報表示を行うUI部品の表示を行う。画像表示部512は、画像データの表示を行う。
文字情報領域表示部514は、画像表示部512が表示している画像データ中の文字情報が含まれる文字情報領域を表示する。選択部515は、文字情報領域表示部514によって表示する文字情報領域を選択する。
入力受付部517は、UI表示部511、画像表示部512および文字情報領域表示部514が表示したUI部品への入力を受け付け、入力に対応した処理を実行する。部分画像表示部518は、文字情報領域内の画像データを切り出した部分画像を表示する。また、部分画像表示部518は、複数の部分画像を連結して表示する。
入力部519は、文字情報領域から抽出された文字情報を表示し、さらに文字情報を修正するための入力を受け付ける。
情報抽出アプリケーション510のページ記述データには、画像読取部501が読み取った画像データと、その画像データを画像処理装置105で処理した結果とが含まれている。情報抽出アプリケーション510のページ記述データとスクリプトデータとを含むアプリケーションデータは、後述する画像処理装置105のアプリケーション生成部523によって生成される。
受信部503は、画像処理装置105のアプリケーション生成部523によって生成されたアプリケーションデータを受信し、HDD303に記憶する。
実行部504は、Webアプリケーションを実行するためのWebブラウザを含み、受信部503が受信したアプリケーションデータを用いて情報抽出アプリケーション510を実行する。また、実行部504は、実行したアプリケーションを操作部I/F217を介してタッチパネル画面401に表示し、タッチパネル画面401へのタッチ操作や設定キー402の選択などを情報抽出アプリケーション510に通知する。
送信部505は、情報抽出アプリケーション510の抽出した情報をネットワーク106上の他の機器、例えば画像処理装置105へ送信する。また、抽出した情報をHDD213に記憶する。
情報抽出アプリケーション510は、UI表示部511と、画像表示部512と、文字情報領域表示部514と、選択部515と、入力受付部517と、部分画像表示部518と、入力部519とから構成されている。各部は、ページ記述データおよびスクリプトデータで実装されている。
UI表示部511は、ユーザが操作するボタンなどの操作部品や、処理進捗状況などの情報表示を行うUI部品の表示を行う。画像表示部512は、画像データの表示を行う。
文字情報領域表示部514は、画像表示部512が表示している画像データ中の文字情報が含まれる文字情報領域を表示する。選択部515は、文字情報領域表示部514によって表示する文字情報領域を選択する。
入力受付部517は、UI表示部511、画像表示部512および文字情報領域表示部514が表示したUI部品への入力を受け付け、入力に対応した処理を実行する。部分画像表示部518は、文字情報領域内の画像データを切り出した部分画像を表示する。また、部分画像表示部518は、複数の部分画像を連結して表示する。
入力部519は、文字情報領域から抽出された文字情報を表示し、さらに文字情報を修正するための入力を受け付ける。
図5(b)は、画像処理装置105の機能構成の一例を示すブロック図である。画像処理装置105は、受信部521と、文字画像生成部522と、アプリケーション生成部523と、送信部524と、登録部525とを有している。また、画像処理装置105は、文字認識実行部538と、文字列分離部539とを有している。画像処理装置105を構成する各部として機能させるプログラムはHDD303に格納されており、そのプログラムがRAM302へ転送され、CPU301によって実行される。
受信部521は、画像形成装置101の画像読取部501から画像データを受信する。
文字画像生成部522は、受信部521が受信した画像データから文字情報が含まれる領域を抽出し、その領域で認識処理を行うことにより、文字情報の抽出を行う。文字画像生成部522は、画像分離部536、抽出部531、分類部532、選択部533および編集部537で構成されている。
画像分離部536は、画像データ上の手書きされた画素を判定し、手書きされた画素のみの画像データと、印刷された文字および背景のみの画像データとに分離する。本実施形態では、画像分離部536は、手書きされる前の画像データと、手書きされた後の画像データとの差分を算出し、差分の存在する画素を手書きされた画素と判定する。なお、画像分離部536が手書きされた画素を判定する方法は、画像の差分を算出する方法に限らない。例えば、ディープラーニングを使用したセマンティックセグメンテーションの適用により、画素ごとに手書きされた画素か印刷された文字および背景の画素かのラベル付けを行うことで、手書きされた画素を判定してもよい。
抽出部531は、画像データから文字情報が含まれる文字情報領域を抽出する。分類部532は、抽出部531が抽出した文字情報領域の分類を行う。本実施形態の情報抽出アプリケーション510は、主に紙帳票に手書きされた文字を抽出するため、分類は手書き文字、印刷文字のいずれかである。
選択部533は、ある文字情報領域に関連する意味を持つ文字情報領域を選択する。本実施形態においては、特に、手書き文字情報領域の見出しや記載内容などを表す印刷文字情報領域を選択することを目的とする。
編集部537は、抽出部531で抽出された文字情報領域を画像データから切り出したり、また、切り出した複数の文字情報領域を結合して1つの画像データにしたりする、画像編集処理を行う。
文字認識実行部538は、文字認識装置107と通信を行って画像データ内に含まれる文字の認識(OCR)を実行する。文字列分離部539は、文字認識実行部538の結果として得られた文字列から、手書き文字部分と印刷文字部分とを分離する。
受信部521は、画像形成装置101の画像読取部501から画像データを受信する。
文字画像生成部522は、受信部521が受信した画像データから文字情報が含まれる領域を抽出し、その領域で認識処理を行うことにより、文字情報の抽出を行う。文字画像生成部522は、画像分離部536、抽出部531、分類部532、選択部533および編集部537で構成されている。
画像分離部536は、画像データ上の手書きされた画素を判定し、手書きされた画素のみの画像データと、印刷された文字および背景のみの画像データとに分離する。本実施形態では、画像分離部536は、手書きされる前の画像データと、手書きされた後の画像データとの差分を算出し、差分の存在する画素を手書きされた画素と判定する。なお、画像分離部536が手書きされた画素を判定する方法は、画像の差分を算出する方法に限らない。例えば、ディープラーニングを使用したセマンティックセグメンテーションの適用により、画素ごとに手書きされた画素か印刷された文字および背景の画素かのラベル付けを行うことで、手書きされた画素を判定してもよい。
抽出部531は、画像データから文字情報が含まれる文字情報領域を抽出する。分類部532は、抽出部531が抽出した文字情報領域の分類を行う。本実施形態の情報抽出アプリケーション510は、主に紙帳票に手書きされた文字を抽出するため、分類は手書き文字、印刷文字のいずれかである。
選択部533は、ある文字情報領域に関連する意味を持つ文字情報領域を選択する。本実施形態においては、特に、手書き文字情報領域の見出しや記載内容などを表す印刷文字情報領域を選択することを目的とする。
編集部537は、抽出部531で抽出された文字情報領域を画像データから切り出したり、また、切り出した複数の文字情報領域を結合して1つの画像データにしたりする、画像編集処理を行う。
文字認識実行部538は、文字認識装置107と通信を行って画像データ内に含まれる文字の認識(OCR)を実行する。文字列分離部539は、文字認識実行部538の結果として得られた文字列から、手書き文字部分と印刷文字部分とを分離する。
アプリケーション生成部523は、画像形成装置101が実行する情報抽出アプリケーション510のアプリケーションデータを生成する。アプリケーション生成部523は、情報抽出アプリケーション510のページ記述データおよびスクリプトデータのテンプレートを持っている。アプリケーション生成部523は、文字画像生成部522が生成した画像データや、文字認識実行部538の文字認識結果などに基づいて、テンプレート内の所定の位置を置換することにより、情報抽出アプリケーション510を生成する。
送信部524は、アプリケーション生成部523が生成したアプリケーションデータを、ネットワーク106を介して画像形成装置101へ送信する。
送信部524は、アプリケーション生成部523が生成したアプリケーションデータを、ネットワーク106を介して画像形成装置101へ送信する。
図5(c)は文字認識装置107の機能構成の一例を示したブロック図である。文字認識装置107は、受信部541と、切出し部542と、文字認識部543と、補正部544と、送信部545とを有している。文字認識装置107を構成する各部として機能させるプログラムはHDD213に格納されており、そのプログラムがRAM212へ転送され、CPU211によって実行される。
受信部541は、画像形成装置101または画像処理装置105から文字情報を含む画像データを受信する。切出し部542は、受信した画像データの文字情報部分を行単位の画像に切り出す。
文字認識部543は、切り出した行画像の文字認識を行う。文字認識部543の処理は下記のように行う。
(1)文字行を畳み込み処理して特徴マップを生成
(2)特徴マップを文字行方向にスライスしてベクトル化し特徴情報の系列を生成
(3)特徴情報の系列をDNN(Deep Neural Network)で処理
(4)DNNの系列出力に対応した予測文字列を出力
なお、文字認識部543の出力には、DNNの出力を用いて複数の候補文字列を生成することがある。
受信部541は、画像形成装置101または画像処理装置105から文字情報を含む画像データを受信する。切出し部542は、受信した画像データの文字情報部分を行単位の画像に切り出す。
文字認識部543は、切り出した行画像の文字認識を行う。文字認識部543の処理は下記のように行う。
(1)文字行を畳み込み処理して特徴マップを生成
(2)特徴マップを文字行方向にスライスしてベクトル化し特徴情報の系列を生成
(3)特徴情報の系列をDNN(Deep Neural Network)で処理
(4)DNNの系列出力に対応した予測文字列を出力
なお、文字認識部543の出力には、DNNの出力を用いて複数の候補文字列を生成することがある。
補正部544は、辞書に登録されている単語およびN-gram言語モデルを用いて、文字認識部543の複数の候補文字列から出現確率の最も高いものを選択して出力する。例えば、辞書に「電話番号」という文字列の後には数字と記号が続く、と登録しておき、「電話番号」という単語が出現したら、候補文字列から数字と記号とで構成されている文字列を選択する。辞書に登録されていない場合には、一般的な文章を学習して得られたN-gram言語モデルにより続く単語の出現確率を算出することができる。
送信部545は、補正部544が出力した結果を文字認識結果として、画像データの送信元である画像形成装置101または画像処理装置105へ送信する。
送信部545は、補正部544が出力した結果を文字認識結果として、画像データの送信元である画像形成装置101または画像処理装置105へ送信する。
次に、図6のフローチャートを用いて、スキャンした原稿の画像データから文字情報を抽出する、本実施形態における一連の処理フローについて説明する。図6は、本実施形態に係る画像形成システム100全体の処理フローの一例を示すフローチャートである。
まず、ステップS601において、画像形成装置101の画像読取部501は、開始キー403の選択などによる原稿読取指示を受信すると、スキャナ203に載置された原稿を読み取って画像データに変換する。
次に、ステップS602において、画像読取部501は、ステップS601で変換した画像データを、ネットワーク106を介して画像処理装置105へ送信する。ここで、載置された原稿が複数枚であれば複数ページの画像データを送信する。
次に、ステップS611において、画像処理装置105の受信部521は、画像形成装置101から送信された画像データを受信する。ステップS612において、文字画像生成部522は、ステップS611で受信した画像データに対して文字画像生成処理を行う。
まず、ステップS601において、画像形成装置101の画像読取部501は、開始キー403の選択などによる原稿読取指示を受信すると、スキャナ203に載置された原稿を読み取って画像データに変換する。
次に、ステップS602において、画像読取部501は、ステップS601で変換した画像データを、ネットワーク106を介して画像処理装置105へ送信する。ここで、載置された原稿が複数枚であれば複数ページの画像データを送信する。
次に、ステップS611において、画像処理装置105の受信部521は、画像形成装置101から送信された画像データを受信する。ステップS612において、文字画像生成部522は、ステップS611で受信した画像データに対して文字画像生成処理を行う。
ここで、図7および図8を用いて、ステップS612の文字画像生成処理の詳細を説明する。図7は、文字画像生成処理の一例を示すフローチャートであり、図8(a)はステップS611で画像処理装置105が受信する読取画像801の例を示す図である。以下、図8の例を用いて図7の処理について説明する。画像処理装置105は、図8(b)に示した、読取画像801の中の印刷文字に対応する印刷画像802をHDD303に予め記憶しているものとする。
ステップS701において、画像処理装置105の画像分離部536は、読取画像801から、手書きされた画素を判定して、図8(c)に示した手書きされた画素のみの手書き画像803を生成する。
ステップS702において、抽出部531は、印刷画像802および手書き画像803から、文字情報領域811~815、821~823を抽出する。このとき、抽出部531は文字情報領域の座標およびサイズも抽出する。
ステップS703において、分類部532は、印刷画像802から得られた文字情報領域811~815を印刷文字情報領域、手書き画像803から得られた文字情報領域821~823を手書き文字情報領域と分類する。
申請書のような手書きされた帳票において、手書き文字情報領域はページごとに記載内容が変化するため、抽出すべき領域である。そこで、ステップS704において、編集部537は、認識すべき画像の候補として、手書き画像803から手書き文字情報領域821~823を切り出し、図8(e)に示した手書き文字情報領域画像831~833を生成する。
複数ページの画像データを受信した場合は、全ページについて上述した文字画像生成処理を行い、次のステップS614に処理を進める。
ステップS701において、画像処理装置105の画像分離部536は、読取画像801から、手書きされた画素を判定して、図8(c)に示した手書きされた画素のみの手書き画像803を生成する。
ステップS702において、抽出部531は、印刷画像802および手書き画像803から、文字情報領域811~815、821~823を抽出する。このとき、抽出部531は文字情報領域の座標およびサイズも抽出する。
ステップS703において、分類部532は、印刷画像802から得られた文字情報領域811~815を印刷文字情報領域、手書き画像803から得られた文字情報領域821~823を手書き文字情報領域と分類する。
申請書のような手書きされた帳票において、手書き文字情報領域はページごとに記載内容が変化するため、抽出すべき領域である。そこで、ステップS704において、編集部537は、認識すべき画像の候補として、手書き画像803から手書き文字情報領域821~823を切り出し、図8(e)に示した手書き文字情報領域画像831~833を生成する。
複数ページの画像データを受信した場合は、全ページについて上述した文字画像生成処理を行い、次のステップS614に処理を進める。
ステップS614において、画像処理装置105のアプリケーション生成部523は、アプリケーションデータ生成処理を行う。アプリケーションデータ生成処理では、まず、アプリケーション生成部523は、あらかじめHDD303に記憶されたアプリケーションデータのテンプレートを取得する。そして、アプリケーション生成部523は、ステップS702で抽出した文字情報領域の座標およびサイズに基づいて、取得したテンプレートに、ステップS704で生成した文字情報領域画像を埋め込む。これにより、情報抽出アプリケーション510が文字情報領域画像を表示し、ユーザは、文字情報領域の確認と操作とができるようになる。
ステップS615において、送信部524は、ステップS614で生成したアプリケーションデータを、ネットワーク106を介して画像形成装置101へ送信する。
ステップS615において、送信部524は、ステップS614で生成したアプリケーションデータを、ネットワーク106を介して画像形成装置101へ送信する。
次に、ステップS603において、画像形成装置101の受信部503は、ステップS614で送信されたアプリケーションデータを受信する。ステップS604において、実行部504は、ステップS603で受信したアプリケーションデータを使用して、情報抽出アプリケーション510を実行する。また、ステップS604において、情報抽出アプリケーション510の入力受付部517は、ユーザが画像上で文字認識を行う文字情報領域を指定する場合に、ユーザからの入力を受け付ける。なお、ステップS604の実行処理の詳細については後述する。
ステップS606において、送信部505は、ステップS604で入力された文字情報領域を、関連付け情報としてネットワーク106を介して画像処理装置105へ送信する。
ステップS616において、画像処理装置105の選択部533は、ステップS606で送信された文字情報領域を受信する。そして、選択部533は、受信した文字情報領域に基づき、各手書き文字情報領域に関連する印刷文字情報領域を選択する。
ステップS617では、編集部537は、ステップS616で選択した各手書き文字情報領域および印刷文字情報領域の、切り出しおよび結合を行い、文字情報領域画像を生成する。また、編集部537は、各文字情報領域の座標をHDD303に記憶する。
ここで、ステップS617で生成する文字情報領域画像の例を図8(f)に示す。ステップS617で生成される図8(f)の文字情報領域画像804は、図8(e)の認識すべき手書き文字情報領域画像831~833に対して、関連する印刷文字情報を行方向に結合した画像である。手書き文字に対して関連する印刷文字は情報抽出アプリケーション510上でユーザにより指定されるものであるが、その詳細については後述する。
ステップS618において、文字認識実行部538は、ステップS617で生成した文字情報領域画像を、ネットワーク106を介して文字認識装置107へ送信する。
ステップS606において、送信部505は、ステップS604で入力された文字情報領域を、関連付け情報としてネットワーク106を介して画像処理装置105へ送信する。
ステップS616において、画像処理装置105の選択部533は、ステップS606で送信された文字情報領域を受信する。そして、選択部533は、受信した文字情報領域に基づき、各手書き文字情報領域に関連する印刷文字情報領域を選択する。
ステップS617では、編集部537は、ステップS616で選択した各手書き文字情報領域および印刷文字情報領域の、切り出しおよび結合を行い、文字情報領域画像を生成する。また、編集部537は、各文字情報領域の座標をHDD303に記憶する。
ここで、ステップS617で生成する文字情報領域画像の例を図8(f)に示す。ステップS617で生成される図8(f)の文字情報領域画像804は、図8(e)の認識すべき手書き文字情報領域画像831~833に対して、関連する印刷文字情報を行方向に結合した画像である。手書き文字に対して関連する印刷文字は情報抽出アプリケーション510上でユーザにより指定されるものであるが、その詳細については後述する。
ステップS618において、文字認識実行部538は、ステップS617で生成した文字情報領域画像を、ネットワーク106を介して文字認識装置107へ送信する。
ステップS631において、文字認識装置107の受信部541は、画像処理装置105が送信した文字情報領域画像を受信する。
次に、ステップS632において、切出し部542、文字認識部543および補正部544は、受信部541が受信した文字情報領域画像の文字認識を行う。図8(f)の文字情報領域画像804においては、行方向に、手書き文字に関連する印刷文字が結合されているため、補正部544は、印刷文字画像の認識結果に基づいて手書き文字画像の認識結果を選択することができる。例えば、印刷文字が「番号」と認識された場合には、続く文字は数字である、という推測をすることができる。ステップS632の文字認識によって得られた結果は、認識結果文字列およびその文字列に含まれる文字それぞれの座標である。
ステップS633において、送信部545は、ステップS632で得られた結果を文字認識結果として、ネットワーク106を介して文字情報領域画像の送信元である画像処理装置105へ送信する。
ステップS619において、画像処理装置105の文字認識実行部538は、ステップS632で文字認識装置107が送信した文字認識結果を受信する。さらに、文字列分離部539は、文字認識結果に含まれる文字の座標、および、編集部537が文字情報領域画像を生成した際の各文字情報領域の座標に基づいて、文字認識結果の文字列を手書き文字部分と印刷文字部分とに分離する。例えば、文字情報領域画像804の行841の認識結果では、「8524」を手書き文字部分として、「会員番号」を印刷文字部分として分離する。そして、ステップS620において、文字列分離部539は、その結果を、ネットワーク106を介して画像形成装置101へ送信する。
次に、ステップS607において、画像形成装置101は文字認識結果を受信し、情報抽出アプリケーション510が認識結果を表示する。このようにして、ユーザはスキャン画像に含まれる手書き文字列の認識結果を確認することができる。
次に、ステップS632において、切出し部542、文字認識部543および補正部544は、受信部541が受信した文字情報領域画像の文字認識を行う。図8(f)の文字情報領域画像804においては、行方向に、手書き文字に関連する印刷文字が結合されているため、補正部544は、印刷文字画像の認識結果に基づいて手書き文字画像の認識結果を選択することができる。例えば、印刷文字が「番号」と認識された場合には、続く文字は数字である、という推測をすることができる。ステップS632の文字認識によって得られた結果は、認識結果文字列およびその文字列に含まれる文字それぞれの座標である。
ステップS633において、送信部545は、ステップS632で得られた結果を文字認識結果として、ネットワーク106を介して文字情報領域画像の送信元である画像処理装置105へ送信する。
ステップS619において、画像処理装置105の文字認識実行部538は、ステップS632で文字認識装置107が送信した文字認識結果を受信する。さらに、文字列分離部539は、文字認識結果に含まれる文字の座標、および、編集部537が文字情報領域画像を生成した際の各文字情報領域の座標に基づいて、文字認識結果の文字列を手書き文字部分と印刷文字部分とに分離する。例えば、文字情報領域画像804の行841の認識結果では、「8524」を手書き文字部分として、「会員番号」を印刷文字部分として分離する。そして、ステップS620において、文字列分離部539は、その結果を、ネットワーク106を介して画像形成装置101へ送信する。
次に、ステップS607において、画像形成装置101は文字認識結果を受信し、情報抽出アプリケーション510が認識結果を表示する。このようにして、ユーザはスキャン画像に含まれる手書き文字列の認識結果を確認することができる。
次に、図9を用いて、図6のステップS604で情報抽出アプリケーション510が実行する処理について説明する。図9は情報抽出アプリケーション510が表示する画面の一例である。
情報抽出アプリケーション510のUI表示部511は、図6のステップS604でアプリケーション実行処理を開始すると、画面901を表示する。画面901において、処理ページ番号902は、画像読取部501が読み取った原稿のページ番号であり、ユーザに現在処理している画像データが読み取り原稿の何ページ目にあたるかを示す。
文字認識実行ボタン903は、処理中のページにおける文字認識を行う文字情報領域の指定が完了し、図6のステップS606へ進むことを選択するボタンである。画像表示部904には、画像表示部512が処理中のページの画像データを表示している。
部分画像表示部905には、部分画像表示部518が、手書き文字情報領域821~823の部分画像を表示している。この部分画像は、ステップS704において認識すべき領域を切り出した画像である。
文字情報表示部906には、入力部519が、部分画像表示部905に表示している画像領域を文字認識して得られた文字情報を表示する。文字情報表示部906上では、入力受付部517が受け付けたユーザ入力により、表示した値を修正することができる。
情報抽出アプリケーション510のUI表示部511は、図6のステップS604でアプリケーション実行処理を開始すると、画面901を表示する。画面901において、処理ページ番号902は、画像読取部501が読み取った原稿のページ番号であり、ユーザに現在処理している画像データが読み取り原稿の何ページ目にあたるかを示す。
文字認識実行ボタン903は、処理中のページにおける文字認識を行う文字情報領域の指定が完了し、図6のステップS606へ進むことを選択するボタンである。画像表示部904には、画像表示部512が処理中のページの画像データを表示している。
部分画像表示部905には、部分画像表示部518が、手書き文字情報領域821~823の部分画像を表示している。この部分画像は、ステップS704において認識すべき領域を切り出した画像である。
文字情報表示部906には、入力部519が、部分画像表示部905に表示している画像領域を文字認識して得られた文字情報を表示する。文字情報表示部906上では、入力受付部517が受け付けたユーザ入力により、表示した値を修正することができる。
図9(a)における画面上で、ユーザが手書き文字に付加する印刷文字を指定するときの画面を説明する。図9(a)において、ユーザが付加したい手書き文字情報領域の部分画像908が選択されると、UI表示部511は画面901に図9(b)に示す表示を行う。このとき、部分画像908では付加印刷文字画像の選択中であることを示すようにハイライト表示を行う。また、画像表示部904上の該当する文字情報領域911の表示を行う。また、付加印刷文字画像の選択を終了する選択終了ボタン913を表示する。
図9(b)において、ユーザが文字情報領域911に付加する印刷文字として、画像表示部904上の「会員番号」の位置を選択すると、UI表示部511は図9(c)の画面を表示し、選択した印刷文字情報領域912を表示する。ここで、ユーザが選択終了ボタン913を選択すると、UI表示部511は図9(d)の画面を表示し、部分画像908に印刷文字情報領域912の画像を付加した結合画像914を表示する。同様にユーザによる指示を部分画像909、910にも繰り返すことにより、図9(e)に示すような結合画像915、916が得られる。ここで、ユーザが文字認識実行ボタン903を選択すると、情報抽出アプリケーション510の処理を一旦終了する。
図9(b)において、ユーザが文字情報領域911に付加する印刷文字として、画像表示部904上の「会員番号」の位置を選択すると、UI表示部511は図9(c)の画面を表示し、選択した印刷文字情報領域912を表示する。ここで、ユーザが選択終了ボタン913を選択すると、UI表示部511は図9(d)の画面を表示し、部分画像908に印刷文字情報領域912の画像を付加した結合画像914を表示する。同様にユーザによる指示を部分画像909、910にも繰り返すことにより、図9(e)に示すような結合画像915、916が得られる。ここで、ユーザが文字認識実行ボタン903を選択すると、情報抽出アプリケーション510の処理を一旦終了する。
情報抽出アプリケーション510の処理を一旦終了すると、ステップS606において、手書き文字情報領域、及びそれに結合するようにユーザに指定された印刷文字情報領域の領域情報(座標、幅、高さ)を関連付け情報として画像処理装置105へ送信する。そして、前述したステップS617の処理を画像処理装置105の編集部537が実行することにより、図8(f)に示した文字情報領域画像804を得ることができる。文字情報領域画像804を文字認識装置107へ送信することにより、文字認識装置107は、印刷文字の認識結果を利用して手書き文字の文字認識を行うことができる。例えば、文字情報領域画像804においては、「会員番号」という印刷文字の認識結果から、手書き文字部分の「8524」は数字の文字列である確率が高いと判断できる。また、「生年月日」という印刷文字の認識結果から、続く手書きを含む文字列が日付を構成する文字列である確率が高いと判断できる。
以上のように、本実施形態を実施することで、画像形成装置101で読み取った画像データから、手書き文字とその手書き文字に関連した印刷文字を結合した画像を生成することができる。そのため、その画像を文字認識装置107に送信し、文字認識を実行することにより、文字認識装置107は印刷文字と手書き文字とを関連させて文字認識を行い、手書き文字の認識精度を高めることができる。さらに、手書き文字と印刷文字とを結合した結果を画像としているため、画像入力を行う他のOCRエンジンに対しても同一の画像を入力することにより、手書き文字と印刷文字をと関連させて認識させることができる。すなわち、OCRエンジンを切り替える際の開発労力を低減し、性能の高いOCRエンジンを選択して容易に使用することができるようになる。
なお、本実施形態では、編集部537が文字情報領域画像を生成した後に、文字認識実行部538が文字情報領域画像を文字認識装置107へ送信する構成としたが、送信前に文字情報領域画像をユーザが確認できるようにしてもよい。例えば、画像処理装置105において、不図示の表示部に図8(g)に示すような確認画面851を表示し、ユーザが送信開始ボタン852を選択することによって、文字情報領域画像を文字認識装置107へ送信するようにしてもよい。また、文字認識装置が複数接続されている場合には、さらに送信先の文字認識装置を選択できる画面853を表示し、送信先の文字認識装置を選択できるようにしてもよい。
(第2の実施形態)
次に、第2の実施形態について説明する。
第1の実施形態では、画像処理装置105の文字画像生成部522は、情報抽出アプリケーション510のアプリケーションデータを生成する際に、図7のステップS704において、手書き文字情報領域を切り出して手書き文字情報領域画像を生成する。そして、ユーザが情報抽出アプリケーション510を操作してそれぞれの手書き文字情報領域に付加する印刷文字情報領域を指定し、指定した印刷文字情報領域を結合することにより、図8(f)に示した文字情報領域画像804を生成している。第2の実施形態のでは、ユーザの利便性を高めるため、文字画像生成部522が手書き文字情報領域に付加する印刷文字情報領域を選択し、画像結合を行うことにより、図9(a)の画面に初期画像として結合済みの画像を表示させるようにする。
次に、第2の実施形態について説明する。
第1の実施形態では、画像処理装置105の文字画像生成部522は、情報抽出アプリケーション510のアプリケーションデータを生成する際に、図7のステップS704において、手書き文字情報領域を切り出して手書き文字情報領域画像を生成する。そして、ユーザが情報抽出アプリケーション510を操作してそれぞれの手書き文字情報領域に付加する印刷文字情報領域を指定し、指定した印刷文字情報領域を結合することにより、図8(f)に示した文字情報領域画像804を生成している。第2の実施形態のでは、ユーザの利便性を高めるため、文字画像生成部522が手書き文字情報領域に付加する印刷文字情報領域を選択し、画像結合を行うことにより、図9(a)の画面に初期画像として結合済みの画像を表示させるようにする。
図10(a)は、本実施形態における文字画像生成部522の機能構成の一例を示すブロック図である。図10(a)において、文字画像生成部522は、図5(b)において前述した構成に加えて、解析部1001を持つ。以下、図5(b)と重複する構成については、説明を省略する。
本実施形態においては、情報抽出対象とする帳票は主に図8(a)に示すような表構造を持つ申込書であり、印刷文字で記入内容が示され、そこに申込者が手書きで情報を書き込む形式である。そこで、解析部1001は、特許文献2に開示されている表構造解析技術を用いて、読取画像801に含まれる表構造を解析する。特許文献2に開示されている表構造解析技術は、表領域を検出し、さらに表領域内の行、列構造、罫線の線色、線種、角部曲率などの情報を抽出する。
本実施形態においては、情報抽出対象とする帳票は主に図8(a)に示すような表構造を持つ申込書であり、印刷文字で記入内容が示され、そこに申込者が手書きで情報を書き込む形式である。そこで、解析部1001は、特許文献2に開示されている表構造解析技術を用いて、読取画像801に含まれる表構造を解析する。特許文献2に開示されている表構造解析技術は、表領域を検出し、さらに表領域内の行、列構造、罫線の線色、線種、角部曲率などの情報を抽出する。
以下、図11を用いて、本実施形態における具体例を説明する。解析部1001は、読取画像801から図11(a)に示した表領域1101を検出し、さらにセル1102~1107を検出する。そして、解析部1001は、セル1102~1107の位置関係から行、列構造を検出する。図11(b)は、検出した行、列構造を示しており、行1111~1113および列1114~1117が検出されている。
解析部1001が読取画像801を解析した結果を、図11(c)の文書構造解析結果1120に示す。文書構造解析結果1120はテーブル形式のデータであり、1行につき1つのセルの情報が格納されている。1つのセルの情報は、セル番号、行番号、列番号、セル左上座標、セル矩形サイズ、および、セルに属する文字情報領域から構成されている。セル番号、行番号、列番号は図11(a)、図11(b)の図で示したセル、行、および列の番号であり、図11(c)においては説明のために図11(a)、図11(b)と同じ符号を記載している(実際にはCPU301が管理のために生成した番号である)。セル左上座標、セル矩形サイズは読取画像801上でのセルの左上座標、矩形サイズを画素単位で表した数値である。セルに属する文字情報領域は、そのセル内に含まれる文字情報領域であり、図11(c)においては図11(a)と同じ符号を記載している(他と同じく実際にはCPU301が管理のために生成した番号である)。
解析部1001が読取画像801を解析した結果を、図11(c)の文書構造解析結果1120に示す。文書構造解析結果1120はテーブル形式のデータであり、1行につき1つのセルの情報が格納されている。1つのセルの情報は、セル番号、行番号、列番号、セル左上座標、セル矩形サイズ、および、セルに属する文字情報領域から構成されている。セル番号、行番号、列番号は図11(a)、図11(b)の図で示したセル、行、および列の番号であり、図11(c)においては説明のために図11(a)、図11(b)と同じ符号を記載している(実際にはCPU301が管理のために生成した番号である)。セル左上座標、セル矩形サイズは読取画像801上でのセルの左上座標、矩形サイズを画素単位で表した数値である。セルに属する文字情報領域は、そのセル内に含まれる文字情報領域であり、図11(c)においては図11(a)と同じ符号を記載している(他と同じく実際にはCPU301が管理のために生成した番号である)。
本実施形態において、選択部533は、解析部1001が解析した結果である文書構造解析結果1120に基づき、手書き文字情報領域に関連する印刷文字情報領域を選択する。選択部533は、文書構造解析結果1120の行・列番号に基づき、手書き文字情報領域が属するセルと同一のセル、または行・列方向に隣接したセルに属する印刷文字情報領域を関連文字情報領域として選択する。
例えば、図11において、手書き文字情報領域821の属するセル1104には、列1114方向に隣接するセル1102があり、そこに印刷文字情報領域811が属している。そこで、選択部533は、手書き文字情報領域821に関連する印刷文字情報領域811を選択する。この選択に基づき、編集部537は、手書き文字情報領域821と印刷文字情報領域811とを結合し、図11(d)に示すような結合文字情報領域画像1121を生成する。
ここで、結合文字情報領域画像1121は、文字認識装置107で1行に行切りされるように、手書き文字情報領域、印刷文字情報領域を行方向に並べて結合する。この結合順序は、ユーザが文書を読む際に認識する方向と同じになるようにするため、日本語横書きの場合は上および左にある文字列が先になるような順序にする。すなわち、読取画像801上の座標でY座標、X座標が小さい順序に結合する。これにより、「会員番号8524」という手書き文字情報領域、印刷文字情報領域を結合した結合文字情報領域画像1121が生成される。なお、結合順序は不図示の設定部により、帳票の言語や書式(縦書き・横書き)などによって、列方向と行方向とを変更できるようにしてもよい。
例えば、図11において、手書き文字情報領域821の属するセル1104には、列1114方向に隣接するセル1102があり、そこに印刷文字情報領域811が属している。そこで、選択部533は、手書き文字情報領域821に関連する印刷文字情報領域811を選択する。この選択に基づき、編集部537は、手書き文字情報領域821と印刷文字情報領域811とを結合し、図11(d)に示すような結合文字情報領域画像1121を生成する。
ここで、結合文字情報領域画像1121は、文字認識装置107で1行に行切りされるように、手書き文字情報領域、印刷文字情報領域を行方向に並べて結合する。この結合順序は、ユーザが文書を読む際に認識する方向と同じになるようにするため、日本語横書きの場合は上および左にある文字列が先になるような順序にする。すなわち、読取画像801上の座標でY座標、X座標が小さい順序に結合する。これにより、「会員番号8524」という手書き文字情報領域、印刷文字情報領域を結合した結合文字情報領域画像1121が生成される。なお、結合順序は不図示の設定部により、帳票の言語や書式(縦書き・横書き)などによって、列方向と行方向とを変更できるようにしてもよい。
また、図11における別の例として、手書き文字情報領域823の属するセル1107には、印刷文字情報領域814が属している。そこで、選択部533は、手書き文字情報領域823の関連文字情報領域として印刷文字情報領域814を選択する。また、手書き文字情報領域823の属するセル1107に、行1113方向に隣接するセル1106には、印刷文字情報領域813が属する。そこで、選択部533は、印刷文字「生年月日」も手書き文字情報領域823の関連文字情報領域として選択する。ここで、編集部537は、選択された手書き文字情報領域823と印刷文字情報領域813、814とを結合する。
ここでの結合順序も、前述したとおり読取画像801上の座標でY座標、X座標が小さい順序であるが、同じセル1107に属する手書き文字情報領域823および印刷文字情報領域814は領域が重なる。そこで、編集部537は、領域が重なる手書き文字情報領域および印刷文字情報領域について、読取画像801上と位置関係が同じになるように結合する。これにより、「生年月日1980年4月10日」という手書き文字情報領域、および印刷文字情報領域を結合した文字情報領域画像1123が生成される。
ここでの結合順序も、前述したとおり読取画像801上の座標でY座標、X座標が小さい順序であるが、同じセル1107に属する手書き文字情報領域823および印刷文字情報領域814は領域が重なる。そこで、編集部537は、領域が重なる手書き文字情報領域および印刷文字情報領域について、読取画像801上と位置関係が同じになるように結合する。これにより、「生年月日1980年4月10日」という手書き文字情報領域、および印刷文字情報領域を結合した文字情報領域画像1123が生成される。
次に、図10(b)のフローチャートを用いて、本実施形態における文字画像生成部522の処理手順の一例について説明する。図10(b)において、ステップS701~S703は第1の実施形態における図7の処理と同じであるので、説明を省略する。
ステップS1011において、解析部1001は、前述した処理により帳票内の表構造を解析する。
次に、ステップS702、S703で抽出された手書き文字情報領域について、表領域内にある手書き文字情報領域すべてに、ステップS1012~S1017の処理を行う。
ステップS1013、S1014は、選択部533が手書き文字情報領域に関連する印刷文字情報領域を選択する処理である。ステップS1013において、選択部533は、手書き文字情報領域と同じセル内にある印刷文字情報領域を結合対象として選択する。ステップS1014において、選択部533は、手書き文字情報領域と行・列方向に隣接するセル内にある印刷文字情報領域を結合対象として選択する。
ステップS1015、S1016は、編集部537が、選択した手書き文字情報領域と印刷文字情報領域とを結合して、文字情報領域画像を生成する処理である。ステップS1015において、編集部537は、選択した手書き文字情報領域と印刷文字情報領域との結合順序を判断する。ステップS1016において、編集部537は、手書き文字情報領域に対して選択した印刷文字情報領域を、行方向に結合した画像を生成する。
ステップS1011において、解析部1001は、前述した処理により帳票内の表構造を解析する。
次に、ステップS702、S703で抽出された手書き文字情報領域について、表領域内にある手書き文字情報領域すべてに、ステップS1012~S1017の処理を行う。
ステップS1013、S1014は、選択部533が手書き文字情報領域に関連する印刷文字情報領域を選択する処理である。ステップS1013において、選択部533は、手書き文字情報領域と同じセル内にある印刷文字情報領域を結合対象として選択する。ステップS1014において、選択部533は、手書き文字情報領域と行・列方向に隣接するセル内にある印刷文字情報領域を結合対象として選択する。
ステップS1015、S1016は、編集部537が、選択した手書き文字情報領域と印刷文字情報領域とを結合して、文字情報領域画像を生成する処理である。ステップS1015において、編集部537は、選択した手書き文字情報領域と印刷文字情報領域との結合順序を判断する。ステップS1016において、編集部537は、手書き文字情報領域に対して選択した印刷文字情報領域を、行方向に結合した画像を生成する。
ステップS1012~S1017の処理を表構造内にある手書き文字情報領域すべてについて繰り返すことにより、図11(d)に示すように、結合文字情報領域画像1121~1123を得ることができる。得られた画像をステップS614で生成したアプリケーションデータに埋め込むことにより、情報抽出アプリケーション510は、初期画面で手書き文字情報領域および印刷文字情報領域が結合済みの画像を、ユーザに提示することができる。ユーザは情報抽出アプリケーション510上で結合済みの画像を確認し、そのままで良ければ文字認識処理を実行することができる。また、第1の実施形態で説明したように、情報抽出アプリケーション510上で結合する画像を選択し直してから文字認識処理を実行することも可能である。
以上説明したように、第2の実施形態では、解析部1001が文書構造解析を行って、手書き文字画像に付加する印刷文字画像を適切に選択することにより、ユーザ自身が選択することなく手書き文字画像に印刷文字画像を付加することが可能になる。これにより、ユーザの操作が減少し、手書き文書からの情報抽出の作業効率を向上させることができる。
以上説明したように、第2の実施形態では、解析部1001が文書構造解析を行って、手書き文字画像に付加する印刷文字画像を適切に選択することにより、ユーザ自身が選択することなく手書き文字画像に印刷文字画像を付加することが可能になる。これにより、ユーザの操作が減少し、手書き文書からの情報抽出の作業効率を向上させることができる。
(第3の実施形態)
次に、第3の実施形態について説明する。
第1の実施形態および第2の実施形態において、編集部537は、選択された手書き文字情報領域と印刷文字情報領域とをそのままの大きさで結合する。この場合、図12の結合画像1201に示すように、印刷文字情報領域の高さ1202と手書き文字情報領域の高さ1203に差がでることがある。しかし、一般的なOCRエンジンに内蔵されている行切出しアルゴリズムでは、文字の高さの差が大きい場合にはそこで行が切れていると判定する場合が存在する。その場合、OCRエンジンへの入力画像として印刷文字と手書き文字とを結合して入力したとしても、印刷文字の情報が手書き文字の認識に利用されないことになり、認識精度の低下が生じる。
次に、第3の実施形態について説明する。
第1の実施形態および第2の実施形態において、編集部537は、選択された手書き文字情報領域と印刷文字情報領域とをそのままの大きさで結合する。この場合、図12の結合画像1201に示すように、印刷文字情報領域の高さ1202と手書き文字情報領域の高さ1203に差がでることがある。しかし、一般的なOCRエンジンに内蔵されている行切出しアルゴリズムでは、文字の高さの差が大きい場合にはそこで行が切れていると判定する場合が存在する。その場合、OCRエンジンへの入力画像として印刷文字と手書き文字とを結合して入力したとしても、印刷文字の情報が手書き文字の認識に利用されないことになり、認識精度の低下が生じる。
この課題を解決するために、本実施形態の編集部537は、画像の拡縮を行うことにより、結合画像内の文字の高さが一定になるようにサイズを調整する。図12(b)に本実施形態に係る画像処理装置105の編集部537の処理のフローチャートを示す。
ステップS1211において、編集部537は、結合する手書き文字情報領域および印刷文字情報領域の最大の高さを算出する。
ステップS1212において、編集部537は、結合対象の各文字情報領域の高さおよび算出した最大高さの比から拡縮率を求め、各文字情報領域画像を拡縮する。
ステップS1213では、編集部537は、拡縮後の各文字情報領域画像を結合する。これにより、図12(a)に示した結合画像1204のように、印刷文字情報領域の高さ1202と手書き文字情報領域の高さ1203とがそろった結合画像を生成することができる。
ステップS1211において、編集部537は、結合する手書き文字情報領域および印刷文字情報領域の最大の高さを算出する。
ステップS1212において、編集部537は、結合対象の各文字情報領域の高さおよび算出した最大高さの比から拡縮率を求め、各文字情報領域画像を拡縮する。
ステップS1213では、編集部537は、拡縮後の各文字情報領域画像を結合する。これにより、図12(a)に示した結合画像1204のように、印刷文字情報領域の高さ1202と手書き文字情報領域の高さ1203とがそろった結合画像を生成することができる。
以上説明したように、第3の実施形態では印刷文字と手書き文字との高さがそろった結合画像を生成することにより、OCRエンジンの行切りアルゴリズムが正しく行切りできるような補助を行う。これにより、結合した印刷文字情報画像と手書き文字情報画像とを同時にOCRする可能性が高くなり、自然言語処理による認識精度向上の働く可能性を向上することができる。
なお、本実施形態では、結合画像内の文字の高さが一定になるように各文字情報領域画像を拡縮しているが、手書き文字の場合は文字の高さやサイズが不均一である場合が多い。そこで、そのような場合には、例えば手書き文字の平均的なサイズと印刷文字のサイズとが同じになるように文字のサイズを調整するようにしてもよい。
(その他の実施形態)
前述した実施形態では、印刷文字と手書き文字とを行方向に結合した画像を編集する例について説明したが、文書によっては縦方向に手書き文字および印刷文字が記載されている場合もある。例えば列方向に切出しが可能な文字認識装置に接続されているような場合には、印刷文字と手書き文字とを列方向に結合した画像を編集するようにしてもよい。
前述した実施形態では、印刷文字と手書き文字とを行方向に結合した画像を編集する例について説明したが、文書によっては縦方向に手書き文字および印刷文字が記載されている場合もある。例えば列方向に切出しが可能な文字認識装置に接続されているような場合には、印刷文字と手書き文字とを列方向に結合した画像を編集するようにしてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
536 画像分離部、531 抽出部、532 分類部、533 選択部、537 編集部
Claims (8)
- 画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理装置であって、
前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出手段と、
前記抽出手段により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け手段と、
前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け手段による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成手段と、
を有することを特徴とする画像処理装置。 - 前記生成手段は、前記手書き文字情報の領域と前記印刷文字情報の領域とを所定の方向に結合することにより文字認識を行うための画像を生成すること、
を特徴とする請求項1に記載の画像処理装置。 - ユーザの操作に応じて前記手書き文字情報と前記印刷文字情報とが関連付けられた関連付け情報を取得する取得手段をさらに有し、
前記関連付け手段は、前記取得手段によって取得された関連付け情報に基づいて関連付けを行うこと、
を特徴とする請求項1又は2に記載の画像処理装置。 - 前記読取画像から文書の構造を解析する解析手段をさらに有し、
前記関連付け手段は、前記解析手段により解析された結果に基づいて関連付けを行うこと、
を特徴とする請求項1又は2に記載の画像処理装置。 - 前記生成手段は、前記手書き文字情報と前記印刷文字情報との間でサイズを調整して前記文字認識を行うための画像を生成すること、
を特徴とする請求項1~4のいずれか1項に記載の画像処理装置。 - 前記生成手段によって生成された文字認識を行うための画像を表示する表示手段をさらに有すること、
を特徴とする請求項1~5のいずれか1項に記載の画像処理装置。 - 画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理方法であって、
前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出工程と、
前記抽出工程により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け工程と、
前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け工程による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成工程と、
を有することを特徴とする画像処理方法。 - 画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理装置を制御するためのプログラムであって、
前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出工程と、
前記抽出工程により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け工程と、
前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け工程による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成工程と、
をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020204705A JP2022092119A (ja) | 2020-12-10 | 2020-12-10 | 画像処理装置、画像処理方法およびプログラム |
US17/538,882 US11941903B2 (en) | 2020-12-10 | 2021-11-30 | Image processing apparatus, image processing method, and non-transitory storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020204705A JP2022092119A (ja) | 2020-12-10 | 2020-12-10 | 画像処理装置、画像処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022092119A true JP2022092119A (ja) | 2022-06-22 |
Family
ID=81942848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020204705A Pending JP2022092119A (ja) | 2020-12-10 | 2020-12-10 | 画像処理装置、画像処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11941903B2 (ja) |
JP (1) | JP2022092119A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022092119A (ja) * | 2020-12-10 | 2022-06-22 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
US20230045871A1 (en) * | 2021-08-11 | 2023-02-16 | FootPrintKu Inc. | Character recognition method, computer program product with stored program and computer readable medium with stored program |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5181255A (en) * | 1990-12-13 | 1993-01-19 | Xerox Corporation | Segmentation of handwriting and machine printed text |
US5402504A (en) * | 1989-12-08 | 1995-03-28 | Xerox Corporation | Segmentation of text styles |
US6301386B1 (en) * | 1998-12-09 | 2001-10-09 | Ncr Corporation | Methods and apparatus for gray image based text identification |
US6909805B2 (en) * | 2001-01-31 | 2005-06-21 | Matsushita Electric Industrial Co., Ltd. | Detecting and utilizing add-on information from a scanned document image |
JP2006092027A (ja) * | 2004-09-21 | 2006-04-06 | Fuji Xerox Co Ltd | 文字認識装置、文字認識方法および文字認識プログラム |
JP2006092346A (ja) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | 文字認識装置、文字認識方法および文字認識プログラム |
WO2006136958A2 (en) * | 2005-01-25 | 2006-12-28 | Dspv, Ltd. | System and method of improving the legibility and applicability of document pictures using form based image enhancement |
US8508756B2 (en) * | 2006-12-28 | 2013-08-13 | Konica Minolta Business Technologies, Inc. | Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions |
JP2009265751A (ja) * | 2008-04-22 | 2009-11-12 | Oki Electric Ind Co Ltd | 文字認識装置、光学式文字認識システム及び文字認識プログラム |
US8320674B2 (en) * | 2008-09-03 | 2012-11-27 | Sony Corporation | Text localization for image and video OCR |
JP5361574B2 (ja) | 2009-07-01 | 2013-12-04 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP5656111B2 (ja) * | 2010-11-10 | 2015-01-21 | コニカミノルタ株式会社 | 画像合成装置及び画像合成プログラム |
CA2849557A1 (en) * | 2013-04-22 | 2014-10-22 | Pierre Hamel | Method and system using two parallel optical character recognition processes |
CN105988568B (zh) * | 2015-02-12 | 2020-07-24 | 北京三星通信技术研究有限公司 | 获取笔记信息的方法和装置 |
JP7091606B2 (ja) | 2017-03-14 | 2022-06-28 | 日本電気株式会社 | 端末、文字認識システム、端末の制御方法及びプログラム |
US10713524B2 (en) * | 2018-10-10 | 2020-07-14 | Microsoft Technology Licensing, Llc | Key value extraction from documents |
US10671892B1 (en) * | 2019-03-31 | 2020-06-02 | Hyper Labs, Inc. | Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data |
CN110378310B (zh) * | 2019-07-25 | 2023-10-10 | 南京红松信息技术有限公司 | 一种基于答案库的手写样本集的自动生成方法 |
US11568623B2 (en) * | 2019-08-22 | 2023-01-31 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
JP7387339B2 (ja) * | 2019-08-30 | 2023-11-28 | キヤノン株式会社 | 画像処理システム、画像処理方法、及びプログラム |
JP7337612B2 (ja) * | 2019-09-10 | 2023-09-04 | キヤノン株式会社 | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
JP7467928B2 (ja) * | 2020-01-20 | 2024-04-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN111597908A (zh) * | 2020-04-22 | 2020-08-28 | 深圳中兴网信科技有限公司 | 试卷批改方法和试卷批改装置 |
JP7479925B2 (ja) * | 2020-05-14 | 2024-05-09 | キヤノン株式会社 | 画像処理システム、画像処理方法、及びプログラム |
US11600088B2 (en) * | 2020-05-29 | 2023-03-07 | Accenture Global Solutions Limited | Utilizing machine learning and image filtering techniques to detect and analyze handwritten text |
JP2022092119A (ja) * | 2020-12-10 | 2022-06-22 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP2022092917A (ja) * | 2020-12-11 | 2022-06-23 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2020
- 2020-12-10 JP JP2020204705A patent/JP2022092119A/ja active Pending
-
2021
- 2021-11-30 US US17/538,882 patent/US11941903B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220189186A1 (en) | 2022-06-16 |
US11941903B2 (en) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7664321B2 (en) | Image processing method, system, program, program storage medium and information processing apparatus | |
JP5042562B2 (ja) | 画像処理装置、手書き情報認識方法、手書き情報認識プログラム | |
US8675260B2 (en) | Image processing method and apparatus, and document management server, performing character recognition on a difference image | |
JP2006350867A (ja) | 文書処理装置、文書処理方法、プログラム及び情報記録媒体 | |
JP7337612B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
US11341733B2 (en) | Method and system for training and using a neural network for image-processing | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
US8570619B2 (en) | Control devices for scanning documents, systems including such control devices, and non-transitory, computer-readable media storing instructions for such control devices | |
JP2024012448A (ja) | 画像処理装置、画像処理装置の制御方法及びそのプログラム | |
JP2013020477A (ja) | 画像処理装置およびプログラム | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JP2006262152A (ja) | 画像形成方法、画像形成装置およびプログラム | |
JPH05108716A (ja) | 機械翻訳装置 | |
JPH05303619A (ja) | 電子スクラップブック | |
JP3435375B2 (ja) | 文字認識方法および装置 | |
JP4501731B2 (ja) | 画像処理装置 | |
US20020031270A1 (en) | Image processing apparatus, image processing method, and computer readable storage medium | |
JP4741363B2 (ja) | 画像処理装置、画像処理方法、及び、画像処理プログラム | |
JP4651407B2 (ja) | 画像処理装置およびコンピュータプログラムおよび記憶媒体 | |
JP3424942B2 (ja) | 対訳画像形成装置 | |
WO2022162867A1 (ja) | 印刷方法、電子機器、プログラム、サーバ及び画像形成装置 | |
JP2682873B2 (ja) | 表形式文書の認識装置 | |
JP2024033328A (ja) | 画像処理装置、画像処理装置の制御方法、及びプログラム | |
JP2023022573A (ja) | 画像情報処理システム | |
JP2024032186A (ja) | 画像処理装置、画像処理装置の制御方法、及びプログラム |