JP7406884B2

JP7406884B2 - 情報処理装置、プログラム及び制御方法

Info

Publication number: JP7406884B2
Application number: JP2019120036A
Authority: JP
Inventors: 嘉仁七海
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2023-12-28
Anticipated expiration: 2039-06-27
Also published as: US11501515B2; US20200410276A1; JP2021005315A

Description

本発明は、文字画像を行単位に分割した行分割画像からノイズ除去、およびノイズ結合することが可能な情報処理装置、情報処理方法、コンピュータプログラムに関するものである。

従来、カメラやスキャナにより読込んだ画像に対し、画像内の文字を認識する技術（ＯＣＲ）がある。画像内の文字を認識するためには、文書を行単位、文字単位に分割する（以下、行分割、文字分割）ことで、文字領域の位置、サイズを把握し、各文字領域に対して文字認識処理を行うことにより文字を特定する。

しかし、文字の大きさや並びにばらつきがある場合や、文書の読み取り時にゴミが混入する場合には、行分割処理により文字行を切り出す際、その周辺に記載された他の文字の画素の一部などを同時に切り出してしまい、対象となる文字行に異なる行の文字の画素が含まれてしまうことがある。その行分割処理結果の文字行画像に対して１文字ごとに分割して文字認識処理を行うと、他の文字画素の一部などのノイズ画素を含んだ文字矩形として認識処理されるため、ＯＣＲ精度が低下してしまう。

上記課題に対する従来の解決手段として、特許文献１は、切り出した文字領域内のノイズを検出し、ノイズ除去後の領域に対して文字認識することでＯＣＲ精度を高める手法を提案している。

特開昭６３－１３６１８１

しかし、例えばレシート印刷機に代表されるようにロール紙を節約するために、意図的に行間を狭める機能が搭載された印刷機で印字された画像では、文字を形成する画素がその上下の文字行に深く入り込む。その結果、行間の複数ヶ所で文字同士の接触（行接触）が発生してしまう。このように複数カ所でノイズが発生すると特許文献１のように文字領域のノイズを除去するだけではＯＣＲ精度を高めることができない可能性が有った。本発明はノイズを除去するだけでなく、除去したノイズを正しい位置に復元することで、より精度の高いＯＣＲ処理を行えるようすることを目的とする。

画像データを読み込む情報処理装置であって、前記画像データを基に文字行領域の分割位置を決定し、当該決定された分割位置で前記画像データを前記文字行領域ごとに分割する第一の分割手段と、前記分割位置に接する文字を構成する画素の塊を検知する第一の検知手段と、前記検知手段で検知した画素の塊が所定の条件を満たすか判断する第一の判断手段と、前記判断手段で、所定の条件を満たすと判断した画素の塊を、当該画素の塊が接する分割位置をまたいだ隣接する文字行領域に結合させる第一の結合手段と、を有することを特徴とする情報処理装置。

本発明によれば、文字画像を行単位に分割した画像からノイズを除去し、当該ノイズを隣接する文字行の画像に付加することで、複数行に分割された文字画像を復元し、ＯＣＲ精度を向上させることができる。

第一の実施形態に係る情報処理システムを示す図である。第一の実施形態に係る発明の全体フローを示すフローチャートである。スキャン画像の一例を示す図である。第一の実施形態に係るノイズ除去、およびノイズ結合処理を示すフローチャートである。第一の実施形態に係る処理を説明する図。第二の実施形態に係るノイズ除去、およびノイズ結合処理を示すフローチャートである。第二の実施形態に係る処理を説明する図。第三の実施形態に係る発明を示すフローチャートである。第三の実施形態に係る処理を説明する図。第四の実施形態に係る発明を示すフローチャートである。第四の実施形態に係る処理を説明する図。

以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

（第一の実施形態）
図１は、第１の実施形態に係る情報処理システムを示す図である。情報処理システムは、複写機１００と、情報処理装置１１０とを有している。なお複写機１００と、情報処理装置１１０は別装置である必要は無く、複写機１００に情報処理装置１１０の構成がすべて含まれており、複写機１００のみで以下の処理を行ってもよい。複写機１００は、スキャナ１０１と、プリンタ１０２と、複写機側通信部１０３とを有している。スキャナ１０１は、文書のスキャンを行い、スキャン画像を生成する。プリンタ１０２は、印刷を実行する。複写機側通信部１０３は、ネットワークを介して外部装置と通信を行う。

情報処理装置１１０は、ＣＰＵ１１１と、ＲＯＭ１１２と、ＲＡＭ１１３と、ＨＤＤ１１４と、表示部１１５と、入力部１１６と、情報処理装置側通信部１１７とを有している。ＣＰＵ１１１は、ＲＯＭ１１２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１１３は、ＣＰＵ１１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１１４は、各種データや各種プログラム等を記憶する。なお、後述する情報処理装置１１０の機能や処理は、ＣＰＵ１１１がＲＯＭ１１２又はＨＤＤ１１４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。

情報処理装置側通信部１１７は、ネットワークを介して外部装置との通信処理を行う。表示部１１５は、各種情報を表示する。入力部１１６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部１１５と入力部１１６は、タッチパネルのように一体に設けられていてもよい。また、表示部１１５は、プロジェクタによる投影を行うものであってもよく、入力部１１６は、投影された画像に対する指先の位置を、カメラで認識することでユーザの操作を受け付けてもよい。

本実施形態においては、複写機１００のスキャナ１０１がレシート等の文書をスキャンし、画像データ（スキャン画像３０１）を生成する。そして、スキャン画像３０１は、複写機側通信部１０３により情報処理装置１１０に送信される。情報処理装置１１０においては、情報処理装置側通信部１１７が入力画像を受信し、これをＨＤＤ１１４等の記憶部に記憶する。

図２は、本実施形態に係る情報処理装置１１０が行分割画像（文字画像を行単位に分割した画像）からノイズ除去、およびノイズ結合処理を行うフローチャートである。本フローチャートは、複写機１００においてユーザがスキャン開始の操作を行うと開始するとする。Ｓ２０１において、複写機１００のスキャナ１０１が文書をスキャンすると、ＣＰＵ１１１がスキャン画像をＨＤＤ１１４に格納する。図３に文書のスキャン画像の一例を示す。スキャン画像３０１はレシートをスキャンした画像である。本実施形態では、画像内の複数カ所で行接触（行を挟んだ文字同士の接触）が発生している例としてレシートのスキャン画像を用いたが、行間が狭く、複数ヶ所で行接触が発生している文書や、スキャン時にゴミなどが混入することによって行接触した文書でもよい。

次に、Ｓ２０２において、ＣＰＵ１１１は、スキャン画像３０１に対して二値化処理を行い、ＣＰＵ１１１が二値画像をＲＡＭ１１３に格納する。二値化処理とは、画像を白と黒の２階調に変換する処理のことであり、閾値より濃い色の画素は黒画素、その閾値より薄い色の画素は白画素となる。本実施形態では、スキャン画像３０１全体のヒストグラムから閾値を決定して二値画像を作成する手法を用いたが、その後の文字認識が可能な精度で白と黒の二値に変換されれば具体的な手法は問わない。

次に、Ｓ２０３において、ＣＰＵ１１１は、Ｓ２０２で処理した二値画像に対して行分割を行い、ＣＰＵ１１１が分割した行の情報をＲＡＭ１１３に格納する。本実施形態では、行分割の判定は文書全体を横方向に射影をとることによって画素行ごとに出現する黒画素の数をカウントして度数分布を作成し、黒画素数が閾値以上となった画素行の範囲を文字行が存在する位置と判定する方法をとる。ＣＰＵ１１１は、文字行と判定した領域の位置を行情報としてＲＡＭ１１３に格納する。行分割の詳細を図５を用いて説明する。図５（ａ）に、本実施形態に係るスキャン画像３０１の一部の二値画像５００および度数分布（ヒストグラム）５０１を示す。度数分布５０１において黒画素数が所定の閾値５０２より大きい画素行は、文字の黒画素が多い画素行であり、文字行領域の位置を示している。一方、文字行領域の上下の境界付近では中央部分に比べ文字の黒画素が少ないので、度数分布５０１において黒画素数が所定の閾値５０２以下の画素行の位置を、文字行領域ごとに分割するための分割位置と判断する。位置５０３、位置５０４、位置５０５、位置５０６は、それぞれ黒画素数が閾値を下回る位置であり、行分割位置である。

次にＳ２０４において、ＣＰＵ１１１は、ノイズ除去およびノイズ結合処理を行う。処理の詳細は後述する。

次に、Ｓ２０５において、ＣＰＵ１１１は、ノイズ除去およびノイズ結合処理を行った二値画像に対してＯＣＲ処理を行い、ＣＰＵ１１１がＯＣＲ結果をＲＡＭ１１３に格納する。

図４は、本実施形態に係るＳ２０４のノイズ除去およびノイズ結合処理を示すフローチャートである。Ｓ４０１において、ＣＰＵ１１１は、Ｓ２０３で得た行情報をＲＡＭ１１３より取得し、行情報から行分割画像を作成する。図５（ｂ）に、本実施形態に係る行分割画像を示す。行分割画像５０７は、位置５０３と位置５０４の行分割位置にはさまれた行領域の画像である。行分割画像５０８は、位置５０４と位置５０５を行分割位置とする行分割画像である。行分割画像５０９は、位置５０５と位置５０６を行分割位置とする行分割画像である。さらにＣＰＵ１１１は、その行分割画像に対して白または黒が連続する画素に同じ番号を割り振る処理（ラベリング処理）を行う。ラベリング処理で同じ番号を振った連続する画素を画素塊（画素のひと塊）とする。さらにＣＰＵ１１１は、ラベリング結果として抽出した画素塊の中から、行分割画像の上端、下端の行分割位置に接する画素塊を選択する。

次に、Ｓ４０２において、ＣＰＵ１１１は、Ｓ４０１で選択した画素塊に対して、一定面積以下の画素塊、または一定の高さ以上もしくは以下の画素塊を選別し、ノイズとして判断する。行接触による他の行の文字画素をノイズとして検知するために行分割位置に接する一定面積以下の画素塊、または一定の高さ以上もしくは以下の画素塊をノイズと判断した。ノイズの例を図５（ｂ）を用いて示す。画素塊５１０は、行分割画像５０８においてノイズと判断したノイズ画素塊である。画素塊５１１は、行分割画像５０９においてノイズと判断したノイズ画素塊である。

次に、Ｓ４０３において、ＣＰＵ１１１は、ノイズとして判断した画素塊を行分割画像から除去する。図５（ｃ）に、本実施形態に係るノイズ除去後画像を示す。ノイズ除去後画像５１２は、行分割画像５０８からノイズ画素塊５１０を除去した画像である。ノイズ除去後画像５１３は、行分割画像５０９からノイズ画素塊５１１を除去した画像である。

次に、Ｓ４０４において、ＣＰＵ１１１は、Ｓ４０３で除去したノイズ画素塊に対して、行分割位置を跨いだ隣接する行分割画像に結合可能な画素塊か否かを判断し、結合可能な画素塊の場合は画素塊を結合する復元処理を行う。ここで結合可能な画素塊か否かの判断は、行位置を跨いだ隣接する行分割画像に画素塊を結合させて孤立した画素塊となれば結合不可能で、当該行分割画像にもともとあった画素塊の一部となれば結合可能であるとする。図５（ｄ）に、本実施形態に係る復元後画像を示す。復元後画像５１４は、ノイズ画素塊５１０を行分割画像５０７に結合した画像である。復元後画像５１５は、ノイズ画素塊５１１をノイズ除去後画像５１２に結合した画像である。以上のように、複数ヶ所で行接触（行を挟んだ文字同士の接触）が発生し、文字を形成する画素が上や下の行に深く入り込んでしまうような場合に、画像から行分割位置周辺のノイズを除去、およびノイズを結合することで文字を正しい形に復元することができ、ＯＣＲ精度を向上させることができる。

（第二の実施形態）
第二の実施形態については、第一の実施形態との差分のみの説明とし、特に明記しない部分については第一の実施形態と同じ構成／手順となる。

第一の実施形態では除去したノイズを行を跨いだ行分割画像に結合させて孤立した画素塊となれば結合不可能としていたため、もともと孤立した画素塊の濁点や句点を適切に復元することができなかった。このように孤立した画素塊が上下の文字に接触している際に行分割を行うと正しく行分割が行われない可能性が有るが、第二の実施形態では、行分割によって孤立した画素塊が間違った行に含まれた場合でも当該孤立した画素塊を正しい位置に復元することができるようになる。

図６は、本実施形態に係るＳ２０４のノイズ除去およびノイズ結合処理を示すフローチャートである。本フローチャートを図７（ａ）（ｂ）（ｃ）を使って説明する。

図７（ａ）に、本実施形態に係るスキャン画像の一部の二値画像７００および射影画像７０１を示す。７０２は、射影画像に対する閾値を表し、黒画素がそれ以下の場合は行分割位置と判断する。位置７０３、位置７０４、位置７０５は、それぞれ黒画素数が閾値を下回る位置であり、行分割位置である。図７（ｂ）に、本実施形態に係る行分割画像を示す。行分割画像７０６は、位置７０３と位置７０４を行分割位置とする行分割画像である。行分割画像７０７は、位置７０４と位置７０５を行分割位置とする行分割画像である。

Ｓ４０１において、ＣＰＵ１１１は、この行分割画像に対してラベリング処理を行う。さらにＣＰＵ１１１は、ラベリング結果として抽出した画素塊（ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ）の中で、行分割画像の上端、下端である行分割位置に接する画素塊を取得する。

次に、Ｓ４０２において、ＣＰＵ１１１は、Ｓ４０１で取得した画素塊に対して、一定面積以下の画素塊、または一定高さ以下の画素塊を選別し、ノイズとして判断する。図７（ｂ）においてノイズ画素塊７０８は、行分割画像７０６においてノイズと判断した画素塊である。ノイズ画素塊７０９は、行分割画像７０７においてノイズと判断した画素塊である。

次に、Ｓ４０３において、ＣＰＵ１１１は、ノイズとして判断した画素塊を行分割画像から除去する。Ｓ４０４でノイズを結合する。図７（ｃ）に、本実施形態に係るノイズ結合した復元後画像を示す。ノイズを結合した復元後画像７１０は、行分割画像７０６からノイズ画素塊７０８を除去し、ノイズ画素塊７０９を結合した画像である。また復元後画像７１１は、行分割画像７０７からノイズ画素塊７０９を除去し、ノイズ画素塊７０８を結合した画像である。復元後画像７１０と復元画像７１１から分かるように、「ドーナッツ」の「ド」の濁点の一部が、「サラダ」の「サ」の下端に結合していることが分かる。このように濁点や句読点など行分割位置付近の孤立した画素塊が行を跨いだ文字に接触している場合には、ノイズ除去とノイズ結合を行っても、ＯＣＲ処理で誤判定が発生する可能性がある。

この場合のＯＣＲ精度を上げるために、Ｓ４０４後の復元後の画像を、Ｓ６０１からＳ６０５の処理で、画像データ全体の行の分割位置の詳細推定を行い、当該推定を基に再度、行の分割ノイズ除去、ノイズ結合を行う。

Ｓ６０１において、ＣＰＵ１１１は、復元後画像に対して、再度ラベリング処理を行い、ラベル付けされた各画素塊の上端下端の位置情報を取得する。これらの画素塊の上端位置・下端位置が行の上端・下端となるかの信頼度を設定し、各画素塊の信頼度に基づいてと行推定を行う。具体的には、まず以下３分類により各画素塊の上端位置、下端位置の信頼度を設定する。

（１）画素塊の上端・下端においてＳ４０４の復元処理が行われた画素塊であり、かつ復元後の画素塊の上端もしくは下端の位置が、他の複数の画素塊の上端もしくは下端の位置と一致する場合は、その位置の信頼度を高に設定する。

（２）画素塊の上端・下端においてＳ４０４の復元処理が行われていない画素塊で、画素塊の上端もしくは下端の位置が他の複数の画素塊の上端もしくは下端と位置が一致する場合は、その位置の信頼度を中に設定する。

（３）画素塊の上端・下端においてＳ４０４の復元処理が行われた画素塊であり、かつ復元後の画素塊の上端もしくは下端の位置が、他の複数の画素塊の上端もしくは下端の位置が一致しない場合は、その位置の信頼度を低に設定する。

（１）の信頼度を高く設定したのは、復元処理が行われた画素塊の上端もしくは下端が他の画素塊と同じ位置にあるということは、復元が正しく行われている可能性が高く、なおかつ行分割位置付近の画素塊を復元しているので、行の上端・下端になる可能性も高いからである。逆に復元処理が行われた画素塊の上端もしくは下端が他の画素塊と同じ位置に無い場合は、復元が正しく行われている可能性が低いと予想されるため（３）の信頼度を低くした。

次にすべての画素塊の上端・下端位置の情報と上記３分類の分類情報から行の推定を行う。まず信頼度が高に設定された位置が１つもない場合は、信頼度が中の位置を行分割詳細推定位置（行分割位置として推定される位置）として設定する。信頼度が高に設定された位置が１つの場合は、その位置を行分割詳細推定位置として設定する。信頼度が高に設定された位置が複数ある場合、最も信頼度が高に設定される頻度が高い位置を行分割詳細推定位置として設定する。図７（ｄ）は行分割位置の詳細推定を説明する図である。行分割詳細推定位置７１６は、復元後画像７１０の下端において復元処理が行われた「ラ」の画素と「ダ」の画素の下端位置が他の画素塊の下端と一致するために信頼度が高と決定したものである。画素塊「サ」７１３の下端位置は復元処理が行われた画素塊であるが、ほかの画素塊と位置が一致しないために信頼度が低に設定される。この場合、信頼度が高い行分割詳細推定位置７１６が行分割の位置であると決定される。

行分割詳細推定位置７１７は、復元後画像７１１の上端において復元処理が行われた「ナ」の画素と「個」の画素の上端位置が他の画素塊の上端と一致するために信頼度が高と決定した位置である。Ｓ６０１では最も信頼度が高い行分割詳細推定位置を行分割詳細推定位置として設定しＳ６０２に進む。

次に、Ｓ６０２において、ＣＰＵ１１１は、Ｓ６０１で設定した行分割詳細推定位置とＳ２０３で得られた行分割位置が異なる箇所があるかを判断し、ある場合はＳ６０３に遷移し、異なる箇所がない場合は処理を終了する。

次に、Ｓ６０３において、ＣＰＵ１１１は、行分割詳細推定位置と異なる行分割位置を持つ画素塊に対して、行分割詳細推定位置で再分割を行う。

次に、６０４において、ＣＰＵ１１１は、再分割によって発生したノイズの除去処理を行う。

次に、６０５において、ＣＰＵ１１１は、再分割によって発生したノイズの結合処理を行う。

図７（ｅ）に、実施形態に係る行分割詳細推定位置で再分割、ノイズ除去処理、ノイズ結合処理した画像を示す。図７（ｄ）で行分割位置７１５で分割されていた「サラダ」という文字の中の、画素塊「サ」７１８に対して行分割詳細推定位置７１７で再分割しノイズ除去処理、ノイズ結合処理を行った画像が、再分割処理後画像７１９、７２０である。行分割位置７１５で分割されていた際には「サ」という画素塊に下の行の「ド」という文字の濁点の一部の画素塊が結合していたが、行分割詳細推定位置で再分割することで「サ」に結合していた濁点を正しい位置に戻すことができた。

以上のように、例えば濁点や句読点のような行分割位置付近の孤立した画素塊が上下の文字に接触している場合などに、行分割位置の詳細推定、および画素塊の再分割を行うことで文字矩形をより正確に復元することができるためＯＣＲ精度を向上させることができる。

（第三の実施形態）
第三の実施形態については、第一、第二の実施形態との差分のみの説明とし、特に明記しない部分については第一、第二の実施形態と同じ構成／手順となる。行接触が起こっていると、文字を構成する画素塊の一部が行分割により、異なる行に含まれてしまい文字が欠損する可能性が有る。そのため行分割の際に行領域を大きめにとって行分割することで上記のような欠損を防ぐ。

図８は、本実施形態に係るノイズ除去処理を示すフローチャートである。本フローチャートを図９（ａ）（ｂ）（ｃ）を使って説明する。図８（ａ）のＳ８０１において、ＣＰＵ１１１は、二値画像に対して行分割処理を行う。この行分割処理はＳ２０３の処理とは異なる。処理の詳細は後述する。次にＳ８０２において、ＣＰＵ１１１は、ノイズ除去、結合処理を行う。処理の詳細は後述する。

Ｓ８０１の行分割について図８（ｂ）を用いて説明を行う。Ｓ８０３において、ＣＰＵ１１１は、文書全体を行方向に射影をとり、黒画素数が閾値以上の領域を行と判定する。さらに黒画素が閾値以下である部分に対して、行接触の可能性を判断する。具体的には、黒画素値が０である場合は、上下行が全く接触していないという判断をし、Ｓ８０４に遷移する。また黒画素値が閾値以下であるが０ではない所定以上の場合は上下行に接触部分があるという判断を行い、Ｓ８０５に遷移する。

次に、Ｓ８０４において、ＣＰＵ１１１は、行と判定した領域の位置を行情報としてＲＡＭ１１３に格納する。

次に、Ｓ８０５において、ＣＰＵ１１１は、行と判定した領域の位置と、高さ情報に対して、行接触している可能性を加味し、行領域を少し大きめに設定した値を行情報としてＲＡＭ１１３に格納する。

図９（ａ）に、本実施形態に係る行分割画像を示す。行分割画像９０１は、図５における位置５０３と位置５０４に対して、Ｓ８０３で行接触の可能性の有無を判断し、行分割を行った行分割画像である。位置５０３はＳ８０３において行接触の可能性なしと判断され、Ｓ８０４でそのまま行分割が行われる。位置５０４は、Ｓ８０３において行接触の可能性ありと判断され、Ｓ８０５で位置５０４より少し大きめの領域で行分割が行われる。同様に行分割画像９０２は、位置５０４と位置５０５に対して行接触の可能性の有無を判断したうえで行分割を行った行分割画像である。位置５０４はＳ８０３において行接触の可能性ありと判断され、Ｓ８０５で位置５０４より少し大きめの領域で行分割が行われる。位置５０５は、Ｓ８０３において行接触の可能性ありと判断され、Ｓ８０５で位置５０５より少し大きめの領域で行分割が行われる。同様に行分割画像９０３は、位置５０５と位置５０６に対して行接触の可能性の有無を判断したうえで行分割を行った行分割画像である。位置５０５はＳ８０３において行接触の可能性なしと判断されＳ８０５でそのまま行分割が行われる。位置５０６は、Ｓ８０３において行接触の可能性ありと判断されＳ８０５で位置５０６より少し大きめの位置で行分割が行われる。

Ｓ８０２のノイズ除去、結合について図８（ｃ）を用いて説明する。図６との差分のみを示す。Ｓ８０６において、ＣＰＵ１１１は、Ｓ４０１で選択した画素塊に対して、一定面積以下の画素塊、または一定高さ以下の画素塊を選別し、ノイズとして判断する。この時、画素塊の面積の閾値、および画素塊の高さの閾値は、行分割位置からどれくらい大きめに行領域を取ったかの度合いを考慮して決定する。ノイズ画素塊９０４は、行分割画像９０１においてノイズと判断した画素塊である。ノイズ画素塊９０５、９０６は、行分割画像９０２においてノイズと判断した画素塊である。ノイズ画素塊９０７は、行分割画像９０３においてノイズと判断した画素塊である。図９（ｂ）に、本実施形態に係るノイズ除去後画像を示す。ノイズ除去後画像９０８は、行分割画像９０１からノイズ画素塊９０４を除去した画像である。ノイズ除去後画像９０９は、行分割画像９０２からノイズ画素塊９０５、９０６を除去した画像である。ノイズ除去後画像９１０は、行分割画像９０３からノイズ画素塊９０７を除去した画像である。行分割の際に行領域を大きめにとっているため、この後のノイズの結合は行わない。

図９（ｃ）に、実施形態に係るノイズ除去後に行分割詳細推定位置で再分割、ノイズ除去処理、ノイズ結合処理した画像を示す。再分割処理後画像９１１、９１２、９１３は、それぞれノイズ除去後画像９０８、９０９、９１０，９１１に対して再分割処理を行った画像である。行接触した場合でも、行分割による文字の欠損を防ぐことができる。

以上のように、複数ヶ所で行接触が発生し、上下行の文字を形成する画素同士がそれぞれの行に深く入り込んでしまうような場合に行領域を大きくとるように行分割を行い、その行分割画像からノイズ除去することで文字を欠損させることなく文字矩形を復元することができ、ＯＣＲ精度を向上させることができる。

（第四の実施形態）
第四の実施形態については、第一、第二の実施形態との差分のみの説明とし、特に明記しない部分については第一、第二の実施形態と同じ構成／手順となる。以上の実施形態では、行分割した後に行分割位置に接する一定の条件の画素塊をノイズとして除去、結合するようにしていた。本実施形態では行分割する前に、行分割位置に接する画素塊が行分割位置のどちら側に含まれるか分類する形態を示す。

図１０は、本実施形態に係る行分割処理を示すフローチャートである。本フローチャートを図１１（ａ）（ｂ）（ｃ）を使って説明する。図１０（ａ）のＳ１００１において、ＣＰＵ１１１は、第２の行分割処理を行う。処理の詳細は後述する。

次に、Ｓ１００１の詳細を図１０（ｂ）を用いて説明する。Ｓ１００２において、ＣＰＵ１１１は、行分割位置上に接する画素塊を選別する。図１１（ａ）は位置５０４の行分割位置上に接する画素塊を選別した例である。

次に、Ｓ１００３において、ＣＰＵ１１１は、選別した画素塊を以下の３つに分類する。［１］上の行に含めるべき画素塊（上の行に含まれる画素の割合が多い）。［２］下の行に含めるべき画素塊（下の行に含まれる画素の割合が多い）。［３］それ以外（例えば上の行と下の行に含まれるがその割合が同程度）。

本実施形態では各行に含まれる画素の割合で分類を行ったが、画素塊の高さの割合や画素塊の外接矩形の割合を使って分類してもよい。図１１（ｂ）は画素塊の分類例を表す。分類［１］の１１０２は上の行に含めるべき画素塊である。分類［２］の１１０４は、下の行に含めるべき画素塊である。分類［３］の１１０３は、それ以外の画素塊である。Ｓ１００４において、ＣＰＵ１１１は、分類［１］の画素塊は上の行に含め、分類［２］の画素塊は下の行に含め、分類［３］の画素塊は、行分割位置で強制的に分割する。図１１（ｃ）は分割後の画像を表す。行分割画像１１０５は、位置５０４で分割した上の行を示す。行分割画像１１０６は位置５０４で分割した下の行を示す。

以上のように行分割位置上に接する画素塊を分類し、各分類に従い分割することで文字矩形をより正確に復元することができるためＯＣＲ精度を向上させることができる。

（その他の実施例）
本発明は、以下の処理を実行することによっても実現される。その処理は、上述した実施例の機能を実現させるソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１００複写機
１１０情報処理装置

Claims

画像データを読み込む情報処理装置であって、
前記画像データを基に文字行領域の分割位置を決定し、当該決定された分割位置で前記画像データを前記文字行領域ごとに分割する第一の分割手段と、
前記分割位置に接する文字を構成する画素の塊を検知する第一の検知手段と、
前記検知手段で検知した画素の塊が所定の条件を満たすか判断する第一の判断手段と、
前記判断手段で、所定の条件を満たすと判断した画素の塊を、当該画素の塊が接する分割位置をまたいだ隣接する文字行領域に結合させる第一の結合手段と、
を有することを特徴とする情報処理装置。
前記第一の分割手段は画像データ全体を横方向に射影をとり、出現する文字を構成する画素の数が閾値以上の領域を文字行領域と判定し分割を行う
ことを特徴とする請求項１に記載の情報処理装置。
前記所定の条件とは所定の面積以下の画素の塊、または所定の高さ以上もしくは以下の位置にある画素の塊である
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記所定の条件とは画素の塊を当該画素の塊が接する分割位置をまたいだ隣接する文字行領域に結合させた時に、当該文字行領域にある文字を構成する画素の塊と結合すること
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記情報処理装置は
前記第一の結合手段で結合を行ったあとの画像データを用いて、文字行領域の分割位置になる可能性のある位置で再度、分割する第二の分割手段と、
当該分割位置に接する文字を構成する画素の塊を検知する第二の検知手段と
前記第二の検知手段で検知した画素の塊が所定の条件を満たすか判断する第二の判断手段と、
前記判断手段で、所定の条件を満たすと判断した画素の塊を当該画素の塊が接する分割位置をまたいだ隣接する文字行領域に結合させる第二の結合手段とをさらに有する
ことを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
前記可能性のある位置とは、文字を構成する画素の塊の上端もしくは下端の位置が、当該画素の塊と同じ行に含まれる複数の文字の文字を構成する画素の塊の上端もしくは下端の位置と同じである場合の位置である
ことを特徴とする請求項５に記載の情報処理装置。
前記可能性は、前記第一の結合手段で結合を行った画素の塊を含む画素の塊の上端もしくは下端の位置が、当該画素の塊と同じ行に含まれる他の複数の文字の文字を構成する画素の塊の上端もしくは下端の位置と同じである場合に高いとされ、当該画素の塊と同じ行に含まれる他の文字を構成する画素の塊の上端もしくは下端の位置と異なる場合に前記可能性は低いとされる
ことを特徴とする請求項５に記載の情報処理装置。
前記第一の分割手段は、分割位置に文字を構成する所定以上の画素の塊が含まれる場合は、文字行領域を広げた位置に分割位置を決定し、前記第一の結合手段は結合を行わない
ことを特徴とする請求項５に記載の情報処理装置。
前記文字行領域を広げた位置に分割位置を決定した場合、前記第一の判断手段で判断する所定の条件は当該広げた度合いに応じて決まる
ことを特徴とする請求項８に記載の情報処理装置。
前記情報処理装置は
分割位置に接する文字を構成する画素の塊が当該分割位置よりも上もしくは下にある割合に応じて当該画素の塊を前記分割位置の上もしくは下の文字行領域に分類する分類手段をさらに有する
ことを特徴とする請求項５に記載の情報処理装置。
前記情報処理装置は前記結合手段で結合した後の画像データに含まれる文字に対して文字認識を行う文字認識手段を更に有する
ことを特徴とする請求項１から１０のいずれか一項に記載の情報処理装置。
画像データを読み込む情報処理装置が実行する情報処理方法であって、
前記画像データを基に文字行領域の分割位置を決定し、当該決定された分割位置で前記画像データを前記文字行領域ごとに分割する第一の分割工程と、
前記分割位置に接する文字を構成する画素の塊を検知する第一の検知工程と
前記検知工程で検知した画素の塊が所定の条件を満たすか判断する第一の判断工程と、
前記判断工程で、所定の条件を満たすと判断した画素の塊を、当該画素の塊が接する分割位置をまたいだ隣接する文字行領域に結合させる第一の結合工程と
を有することを特徴とする情報処理方法。
請求項１２に記載の情報処理方法をコンピュータに実行させるためのプログラム。