JP7252009B2

JP7252009B2 - 人工ニューラルネットワークを用いたｏｃｒシステムのための、線認識最大－最小プーリングを用いたテキスト画像の処理

Info

Publication number: JP7252009B2
Application number: JP2019030974A
Authority: JP
Inventors: チャンヨンミャン; アガワルシュバーン
Original assignee: コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド
Priority date: 2018-02-28
Filing date: 2019-02-22
Publication date: 2023-04-04
Anticipated expiration: 2039-02-22
Also published as: US20190266443A1; US10373022B1; JP2019153293A

Description

本発明は、テキスト画像の処理、特に、光学文字認識（ＯＣＲ）を行って印刷されたテキストをデジタル化するために、人工ニューラルネットワークと併用される、テキスト画像の処理方法に関する。

テキストのデジタル化のための言語の光学文字認識（ＯＣＲ）システムにおいて、長短期記憶（ＬＳＴＭ）ネットワーク等のリカレント（再帰型）ニューラルネットワーク（ＲＮＮ）を適用することに対して、そのようなタスクが、例えばテキスト文のような連続した情報のオンライン処理を含むことができるため、大きな関心が寄せられている。

しかし、ＬＳＴＭは実用上、計算的に複雑である。ＬＳＴＭの複雑さを低減するための、いくつかの試みもなされている。しかし、これらの複雑さを低減する技術によって、精度の性能がしばしば妥協される。より具体的には、ＯＣＲにおいてＲＮＮを適用する際に、２つの大きな問題がある。第１に、大きな計算コストによって、データセンターおよびモバイル機器等の大規模な環境、またはリソースに制約のある環境では、大規模なデジタル変換のリアルタイム処理のために、ＬＳＴＭを展開することが困難な点である。第２に、テキストが多くの異なるフォントを含み得るため、多くの異なるフォントのテキストを正確に認識できる、一般化されたモデルを作ることが困難な点である。

第１の問題に対処するために、ＲＮＮに含まれるパラメーターの数を減少させること、ひいては計算の負荷を減少させることに重点を置いたいくつかの技術が提案されている。これらの技術は、かなりの計算量の減少を達成できるが、動作の精度は大きく低下する。言語のＯＣＲシステムの分野では、認識精度が重要であるため、パラメーターの減少によって計算効率を達成するこれらの技術は、満足のいくものではない。フォントにおけるばらつきに対処する試みは、比較的少ない。

したがって、本発明は、関連する技術の制限および不利益に起因する問題の一つ以上を十分に解決する、テキスト画像の処理方法を対象とする。

本発明の目的は、リカレントニューラルネットワークを用いたＯＣＲシステムのために、計算コストを減少させるだけでなく、認識精度を向上させる方法を提供することである。

本発明の追加の特徴および利点は、以下の説明において記載され、その一部は当該説明から明らかであり、または、本発明の実施によって理解され得る。本発明の目的および他の利点は、明細書および特許請求の範囲、ならびに添付された図面において具体的に示された構造によって、実現および達成される。

上述した目的を達成するために、本発明は、人工ニューラルネットワークを用いたテキスト文字の認識方法であって、複数のテキスト行画像および対応するラベルデータを含む訓練データを取得するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記ラベルデータは、各テキスト行画像に含まれる文字を表すデジタル値を含み、各テキスト行画像について、前記テキスト行画像における前記テキストの線の太さを計算するステップと、前記訓練データにおける前記テキスト行画像の全ての前記線の太さを平均化することによって、平均の線の太さを計算するステップと、前記訓練データの各テキスト行画像に対してプーリング工程を実行して、前処理が行われたテキスト行画像を生成するステップと、ここで、当該ステップは、前記平均の線の太さよりも太い線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、前記平均の線の太さ以下の線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、を含み、前記最大プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記最小プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記プーリングされた画像は、前記前処理が行われたテキスト行画像を形成し、前記前処理が行われたテキスト行画像および前記ラベルデータを用いて、訓練されていない長短期記憶（ＬＳＴＭ）ニューラルネットワークを訓練して、訓練されたＬＳＴＭニューラルネットワークを取得するステップと、を含む方法を提供する。

好ましくは、各プーリング領域は、２×１画素のサイズを有する。

本方法は、入力されたテキスト行画像を取得するステップと、ここで、前記入力されたテキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記入力されたテキスト行画像における前記テキストの線の太さを計算するステップと、前記線の太さが、前記平均の線の太さよりも太いと判断するステップと、前記入力されたテキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、前記訓練されたＬＳＴＭニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、をさらに含んでもよい。

本方法は、入力された他のテキスト行画像を取得するステップと、ここで、前記入力された他のテキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記入力された他のテキスト行画像における前記テキストの線の太さを計算するステップと、前記線の太さが、前記平均の線の太さ以下であると判断するステップと、前記入力された他のテキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、前記訓練されたＬＳＴＭニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、をさらに含んでもよい。

他の態様では、本発明は、データ処理装置を制御するためのコンピュータープログラム、およびコンピュータープログラムを内部に格納したコンピューター読取可能な記録媒体（例えば、メモリーまたは記憶装置）を提供し、当該コンピュータープログラムは、上述した方法をデータ処理装置に実行させるように構成される。

前述した一般的な説明、および後述する詳細な説明は共に、例示的および説明的であり、特許請求の範囲に記載された本発明のさらなる説明を提供することを意図するものであると理解される。

本発明の一実施形態に係るテキスト画像の処理方法を概略的に示す図である。本発明の一実施形態に係るテキスト画像の処理方法を概略的に示す図である。本発明の一実施形態に係るテキスト画像の処理方法を概略的に示す図である。最大プーリング後のテキスト画像の一例を概略的に示す図である。最小プーリング後のテキスト画像の一例を概略的に示す図である。本発明の一実施形態に係る線の太さを計算する方法を概略的に示す図である。線の太さを計算する方法の一例を概略的に示す図である。テキスト行のコア領域の高さの計算の一例を概略的に示す図である。テキスト行における最大プーリングおよび最小プーリングの結果の例を概略的に示す図である。

本発明の実施形態は、文字認識のためのリカレントニューラルネットワーク（ＲＮＮ）に、テキスト画像を入力する前に、当該画像の前処理を行う画像処理方法を提供する。（より詳細に後述される）図１を参照すると、ステップＳ１１～Ｓ１７は、画像の前処理である。本方法は主に、二値画像（すなわち、画素値が０および１である画像）として示された、印刷されたテキストに適用されることが意図される。本方法は、ＲＮＮモデルにおいて用いられる時間ステップを、それ以外の場合において必要とされるよりも少なくできることを除いて、文字認識に用いられるニューラルネットワークモデルに対する、いかなる変更も要求しない。また、本方法は、ニューラルネットワークによって処理される画像のサイズを縮小させる。入力されたテキスト画像に対して、そのサイズを縮小させるために、線認識（ｓｔｒｏｋｅ－ａｗａｒｅ）最大－最小プーリングの技術を適用することによって、本発明の実施形態は、ニューラルネットワークモデルの計算の複雑さを低減でき、同時に、文字認識の精度を向上できる。

リカレントニューラルネットワークは、ネットワークノードが周期的に接続される、人工ニューラルネットワークの一種である。リカレントニューラルネットワークは、ＲＮＮのセルにおけるニューラルネットワークのチャンクを、セルに対する入力としてのｘ_ｔ（時系列）、および出力としてのｈ_ｔ（時系列）と結合することによって、構成されてもよい。長短期記憶（ＬＳＴＭ）ブロックは、多くのアプリケーションにおいて、ＲＮＮセルのための一般的な選択肢であり、結果として生じるネットワークは、ＬＳＴＭネットワークと称される。セルは、現在の時間ステップｔから次の時間ステップｔ＋１に、情報が送られることを可能にする。したがって、過去における多くのステップからの情報が、現在のステップの出力を生成するのに用いられる。しかし、時間の連続した予測に含まれる、より多くの時間ステップは、より高い計算コストをもたらす。ＬＳＴＭネットワークは、当該技術分野において周知であり、テキストのデジタル化のためのＯＣＲを行うために用いられている。例えば、Ｇｒａｖｅｓ，Ａｌｅｘの“Ｇｅｎｅｒａｔｉｎｇｓｅｑｕｅｎｃｅｓｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ,” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１３０８．０８５０（２０１３）を参照されたい。ＯＣＲに用いられ得るＬＳＴＭモデルの一例は、https://github.com/tmbdev/clstmから取得されてもよい。これは、Ｃ＋＋におけるＬＳＴＭの実装である。入手可能な文献に基づいて、当業者は、本発明を実装するのに有用なＲＮＮを取得して構築できるため、ＲＮＮまたはＬＳＴＭのさらなる詳細な説明は、本開示では提供されない。本発明の実施形態は、現在入手可能なもの、および将来開発され得るものを含む、任意の適切なＲＮＮモデルと併用され得る。

プーリングは、データ配列のサイズを縮小する方法である。プーリングは、元の配列の１つの領域を、プーリングされた配列における１つの要素にマッピングする（対応付ける）。視覚認識のための多くの人工ニューラルネットワークモデルは、次元を削減する方法として、プーリング層を用いて、特徴のプーリングを行う。視覚認識において用いられる２つの一般的なプーリングアルゴリズムは、平均プーリングおよび最大プーリングである。平均プーリングでは、特徴マップの各領域における値の平均値が算出され、プーリングされた特徴マップの対応値として用いられる。

ここで、ｍは、プーリングされる特徴マップの領域を示し、ｙ_ｍは、領域ｍ内の特徴マップの位置／インデックスの集合を示し、ａ_ｉは、領域ｍ内の位置ｉにおける値を示し、ｆ_ｍは、領域ｍに対応する、プーリングされた特徴マップの値を示す。最大プーリングでは、特徴マップの領域ｍにおける値のうちの最大値が、プーリングされた特徴マップの対応値として算出される。

最大プーリングは、画像認識のためのディープラーニングにおいて適用された場合における、そのより良好な性能によって、最近人気を得ている。

本発明の実施形態は、文字認識を行うＬＳＴＭネットワークにプーリングされた画像を入力する前に、印刷されたテキストの入力された二値画像に、プーリングステップを適用する。本発明の発明者は、最大プーリングまたは平均プーリングのいずれかが、印刷されたテキストの二値画像に適用されて、画像のサイズが縮小される場合、単語の隣接する文字間の内部空間をしばしば抑制し、ＬＳＴＭネットワークの認識性能の低下をもたらすことを発見した。図２は、最大プーリングが、２本の線の間の内部空間を抑制する一例を示す。図２では、左における元の画像が、２本の縦線を含む。プーリング領域は、２×２画素のサイズである。右におけるプーリングされた画像では、２本の線は、最大プーリング後に結合されている。

最大プーリングも平均プーリングも、両工程が共に単語における文字間の内部空間を抑制するため、全てのテキストのフォントに対して適切に行われるわけではないという発明者の見解を考慮して、本発明の実施形態では、新たなプーリングの方法が用いられる。新たなプーリングの方法は、単語における文字の内部空間が抑制されることを防ぐため、単語の構造が保たれる。

上述した問題を解決するために、画像領域における画素値のうちの最小値を計算する、最小プーリングの方法が用いられる。

ここで、ｍは、プーリングされる画像の領域を示し、ｙ_ｍは、領域ｍ内の画像の位置／インデックスの集合を示し、ａ_ｉは、領域ｍ内の位置ｉにおける画素値（０または１）を示し、ｆ_ｍは、領域ｍを表すプーリングされた画像の値を示す。

図３は、最小プーリングの方法が、当該プーリングの工程後に、２つの隣接する線が結合されることをどのように防止するかを示す。図２と同じ元の画像（左）の例に対して、右における最小プーリングの結果は、２本の線の構造を保つ。プーリング領域は、ここでも２×２画素である。最小プーリングは、線の太さ（厚さ）を損ない得るが、最大プーリングまたは平均プーリングよりも、隣接した線の間の内部空間、ひいては文字および単語の構造を良好に保つ。

最小プーリングは、印刷されたテキストの二値画像に適用された場合、最大プーリングの不利益を克服するが、場合によっては、単語の構造を破壊し得る。例えば、線の太さが１画素しかない場合、最小プーリングの工程後に、単語の線は消え得る。これらの問題を解決するために、本発明の実施形態は、テキスト画像の領域に、その領域におけるテキストの線の太さに応じて、最大プーリングまたは最小プーリングのいずれかを適用する、線認識最大－最小プーリングの方法を提供する（式（１））。

ここで、ｍは、プーリングされる画像の領域を示し、ｙ_ｍは、領域ｍ内の画像の位置／インデックスの集合を示し、ａ_ｉは、領域ｍ内の位置ｉにおける画素値を示し、ｆ_ｍは、領域ｍに対応するプーリングされた画像の値を示し、ｓは、領域ｍにおけるテキスト文字の線の太さを示し、τは、印刷された大量のテキスト画像を含むデータセットから算出される、様々なフォントにおける平均の線の太さを示す。言い換えれば、最大プーリングでは、プーリングされた画像における各画素に関する画素値は、元の画像の対応するプーリング領域ｍにおける全ての画素値のうちの最大値であり、最小プーリングでは、プーリングされた画像における各画素に関する画素値は、元の画像の対応するプーリング領域ｍにおける全ての画素値のうちの最小値である。

好ましい実施形態では、まず、行の区分化ステップがテキスト画像のページに適用され、当該ページがテキストの個別の行に区分化される。そして、プーリングステップが、テキストの１行を含む区分化された画像（テキスト行画像と称される）の各々に適用され、当該テキスト行について、線の太さｓが算出される。言い換えれば、式（１）における各領域ｍは、テキスト画像のページから区分化されたテキストの行である。これは、各行が１つのフォントのみのテキストを含む場合に、良好に機能する。より詳細に後述するように、複数のフォントを含むテキスト行画像は、単語単位を基礎として処理され得る。

一実装では、テキスト行に関する線の太さｓは、以下の式（式（２））を用いて計算される。

ここで、ｈは、後述するようなテキスト行のコア領域の高さを示し、ｉは、垂直（縦）方向における画素行のインデックスを示し、Ｙは、テキスト行画像の水平（横）に走査する行（画素行）の数を示し、ｊは、画素行内の水平方向における、連続した前景（テキスト）画素のランのインデックスを示し、Ｘ_ｉは、ｉ番目の画素行における連続した前景画素のランの数を示し、ｒ_ｉｊは、インデックスｉ、ｊを有する、連続した前景画素のランの長さ（ランレングスと称される）を示す。式（２）の意味は、以下の通りである。

各画素行ｉにおいて、水平方向における連続した前景画素の各ランは、当該行によって横切られる文字の線の一部に対応する。例えば、画素行が曲線の上部（例えば、「ｏ」、「ｓ」の上部）に近かったり、「ｔ」等のいくつかの文字の水平方向のダッシュ内に存在したりする、ある場所において、前景のランレングスは、実際の線の太さよりも長い。（ｒ_ｉによって示される）画素行ｉにおける、全てのランレングスｒ_ｉｊの最小値を取得することによって、これらのより長い前景のランレングスは、捨てられ得る。そして、全ての画素行ｉにおける、ｒ_ｉの最小値が算出される（ただし、最小値を算出するとき、前景のランレングスを有しない当該行は除外される）。その後、当該最小値が、テキストのコア領域の高さｈによって除算され、線の太さｓが取得される。線の太さは、テキストのコア領域の高さｈの比として、正規化された値であることに留意すべきである。図４は、線の太さを算出する処理をまとめている。図５は、本方法を用いて、線の太さを取得する一例を示す。

一実施形態では、テキスト行のコア領域の高さｈは、以下のように計算される。まず、各画素行における前景画素の数を数えることによって、水平方向の画素濃度のヒストグラムｄ_ｉが生成される。各行のインデックスｉに関するヒストグラム値ｄ_ｉは、当該行における前景画素の数の、テキスト行画像の各画素行における画素の総数に対する比として表現されてもよい。水平方向の画素濃度のヒストグラムの一例を図６に示す。そして、Ｋ平均クラスタリングの計算が、ヒストグラム値ｄ_ｉに適用されて、それらが２つのクラス、すなわち、高濃度のクラスおよび低濃度のクラスに分類される。全ての高濃度のヒストグラム値からなる行のインデックス値ｉは、ｉ軸に沿う（垂直方向における）一つ以上の連続した区間を形成し、最も長いそのような区間の長さが、テキスト行のコア領域の高さｈとして取得される。コア領域の高さｈは、テキスト行の文字高さの近似値として用いられる。

式（２）は、線の太さを算出するための例示的な方法に過ぎないことに留意すべきである。他の適切な方法が用いられてもよい。

平均の線の太さτは、多数のテキスト行画像を含むデータセットから計算される、線の太さｓの値の平均である。データセットが非常に大きい場合、データセットからランダムに選択されるサブセットが用いられて、τが計算されてもよい。

好ましい実施形態では、テキスト行画像に適用される線認識最大－最小プーリングは、非正方形状のプーリング領域ｍを用いる。例えば、２×１画素、３×１画素、または、より一般的にはＮ×１画素のプーリング領域、すなわち行型のプーリングである。行型のプーリングを用いると、画像のサイズは、水平方向においてのみ縮小し、垂直方向における文字のサイズは、変化しないままである。他の例では、プーリング領域は、３×２画素、４×２画素等であってもよい。

図７は、線認識最大－最小プーリングの結果の一例を示し、それを最大プーリングの結果と比較している。左の画像は、非公式のローマン体で印刷された、例示的な元のテキスト画像であり、中央の画像は、最大プーリング後のプーリングされた画像であり、右の画像は、本発明の一実施形態に係る線認識最大－最小プーリング後のプーリングされた画像である（この場合、最小プーリングは、線の太さの解析に基づいて用いられた）。両方のプーリングの方法において、２×１のプーリング領域が用いられた。最大プーリングを用いた結果では、文字間における空間が、最大プーリング後に抑制されていることによって、単語の構造が損なわれていることが確認され得る。一方、線認識最大－最小プーリングからの結果は、元の文字の構造を保つ。

いくつかの実施形態では、各テキスト行画像について用いられるプーリング領域ｍのサイズは、線の太さｓに基づいて、動的に決定される。これにより、異なるフォントにわたって、線の太さを効果的に均等化でき、ＬＳＴＭネットワークによる認識精度が向上し得る。例えば、線の太さによって、プーリング領域のサイズは、２×１、３×１等であってもよい。一例では、画素の数における線の太さＭは、（式（２）を用いるが、コア領域の高さによって除算しない）上述した方法を用いて算出され、ＮがＭ／２の整数部分、またはＭ／２＋１の整数部分である、プーリング領域のサイズＮ×１画素が用いられる。この方法を用いると、異なるフォントは、プーリング後にほぼ同じ線の太さを有するようになる。

先に示したように、各行が同じフォントのテキストを含む場合、一度における１つのテキスト行の処理は、良好に機能する。任意に、まず、フォント検出ステップがテキスト行画像に適用されて、テキスト行が１つのフォントのみを含むか、複数のフォントを含むかが判断されてもよく、複数のフォントが存在する場合、テキスト行画像が複数の単語画像に区分化され、各単語画像は、上述した方法と同じ方法で、テキスト行画像として処理される。

より具体的には、これは２つの方法で行われ得る。第１の方法では、各テキスト行に単語区分化ステップが適用されて、単語画像が取得され、各単語画像にフォント認識アルゴリズムが適用されて、単語に関するフォントが判断される。任意の時点において、行が複数のフォントを含むと判断された場合、プーリングステップが、各単語画像に個別に適用される。フォント認識アルゴリズムは、周知である。例えば、Ｚｒａｍｄｉｎｉ，ＡｂｄｅｌｗａｈａｂおよびＲｏｌｆＩｎｇｏｌｄの“Ｏｐｔｉｃａｌｆｏｎｔｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｔｙｐｏｇｒａｐｈｉｃａｌｆｅａｔｕｒｅｓ．”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ２０．８（１９９８）：８７７－８８２は、当該ステップにおいて用いられてもよい、フォント認識アルゴリズムを記載している。

第２の方法では、最初にテキスト行を単語に区分化せずに、テキスト行にフォント認識アルゴリズムが適用されて、行が複数のフォントを含むかどうかが検出されてもよい。行が複数のフォントを含む場合、行は単語画像に区分化され、各単語画像にプーリングが個別に適用され、行が複数のフォントを含まない場合、行全体にプーリングが適用される。

図１は、本発明の実施形態に係るテキスト画像の処理方法をまとめている。ステップの詳細については、上述している。当該処理に対する入力は、印刷されたテキストの二値画像である。まず、入力された画像に行の区分化が適用されて、テキスト行画像が生成される（ステップＳ１１）。当該ステップは、入力された画像が既にテキスト行に区分化されている場合、不要である。各テキスト行画像に対して、任意のステップ（ステップＳ１２）が実行されて、テキスト行が１つのフォントのみを含むか、複数のフォントを含むかが判断され、行が複数のフォントを含む場合、テキスト行画像が複数の単語画像にさらに区分化される。このような各単語画像は、以降のステップにおいて、テキスト行画像として扱われる。ステップＳ１２は任意であり、省略された場合、各行が１つのフォントのみを含むか、複数のフォントを含むかを判断せずに、各行はテキスト行画像として処理される。

各テキスト行画像について、文字の線の太さｓが算出される（ステップＳ１３）。画素の数で測定された線の太さに基づいて、プーリング領域ｍのサイズが決定される（ステップＳ１４）。ステップＳ１４は任意であり、いくつかの実施形態において省略されてもよく、省略された場合、所定のサイズがプーリング領域ｍに用いられる。

そして、線認識最大－最小プーリングが、テキスト行画像に適用されて（ステップＳ１５、Ｓ１６およびＳ１７）、前処理が行われたテキスト行画像が生成される。ステップＳ１５の判断において用いられる値τ（平均の線の太さ）は、印刷された二値のテキスト画像のデータセットを用いて、予め算出されている。ステップＳ１３～１７は、各テキスト行画像に対して繰り返される。

前処理が行われたテキスト行画像は、ＬＳＴＭネットワークモデルに入力され、ネットワークモデルが訓練されたり、文字認識（予測）が実行されたりする。ニューラルネットワークの技術分野において一般的に知られているように、ネットワークモデルの訓練は、大量のラベル付けされた訓練データ、この場合は、テキスト行画像に含まれる文字を表すデジタル値を用いてラベル付けされた、前処理が行われたテキスト行画像を、ネットワークモデルに入力し、ネットワークモデルの重みを計算することを含む。予測の実行は、処理されるデータ、この場合は、認識されるテキスト行画像を、ネットワークに入力し、予測出力、この場合は、テキスト行画像における文字のデジタル値を取得することを含む。上述したように、本発明の実施形態は、訓練および予測の両方のためのＬＳＴＭネットワークモデルに対する入力として、入力された元のテキスト画像ではなく、前処理が行われたテキスト行画像を用いるが、ＬＳＴＭネットワーク、またはその訓練アルゴリズムのいかなる変更も必要としない。ＬＳＴＭモデルにおける時間ステップの数は、入力された画像における列の数と等しい。したがって、プーリング領域が２×１画素の場合、最大－最小プーリングの適用後、ＬＳＴＭモデルにおける時間ステップの数は、半分に減少する。

より具体的には、訓練段階（図１Ａ）では、複数のテキスト画像および対応するラベルデータを含む訓練データセットが提供され（それは、データセットの全体またはサブセットであってもよく、ネットワークモデルが認識することを期待される全てのフォントを含むべきである）、画像が複数のテキスト行画像に区分化され（ステップＳ２１）、各テキスト行画像について（ステップＳ１３と同じ）線の解析が適用されて線の太さが計算され（ステップＳ２２）、全てのテキスト行画像から平均の線の太さτが計算される（ステップＳ２３）。そして、（ステップＳ１５～Ｓ１７と同じ）計算されたτ値に基づく線認識最大－最小プーリングが、各テキスト行画像に適用されて（ステップＳ２４）、前処理が行われた訓練データセットが生成される。前処理が行われた訓練データセットは、訓練されていないＬＳＴＭネットワークモデルを訓練するのに用いられる。予測段階（図１Ｂ）では、認識されるテキストを含む入力されたテキスト画像が、テキスト行画像に区分化され（ステップＳ３１）、各テキスト行画像について線の太さが計算され（ステップＳ３２）、線認識最大－最小プーリングを用いて、テキスト行画像の前処理が行われる（ステップＳ１５～１７と同じステップＳ３３）。そして、前処理が行われたテキスト行画像が、認識結果を出力する、訓練されたＬＳＴＭネットワークモデルに入力される（ステップＳ３４）。

予測段階では、テキスト画像の各ページは、当該ページにおいて用いられたフォント（すなわち、τに関連する線の太さ）に応じて、最大プーリングのみまたは最小プーリングのみを呼び出すことができるが、τ値は、多数のフォントを含む訓練データセットから計算されているため、全てのフォントについて、訓練されたＬＳＴＭネットワークの全体的な性能が向上され得る。

本発明の発明者らは、一般的に用いられる３０個のフォントを含んだデータセットを用いて、試験を行った。認識精度について、線認識最大－最小プーリングは、全体的な認識精度において、最大プーリングと比較して９％の向上をもたらし、いかなるプーリングの方法も用いない元の入力と比較して、８％の向上をもたらした。また、線認識最大－最小プーリングを用いると、いかなるプーリングも用いない場合と比較して、全体的なデジタル化処理のための計算時間が、平均して約５０％短縮された。計算時間におけるこの短縮は、ＬＳＴＭパラメーターを圧縮する多くの既存の手法よりも、非常に優れている。さらに、線認識最大－最小プーリングを用いると、複数のフォント間の認識精度のばらつきが減少した。いくつかのフォントについては、線認識最大－最小プーリングを用いると、わずかに低下した精度がもたらされたが、全体的な精度は大きく向上した。

まとめると、複雑さの低減によって、精度の性能が常に妥協される多くの従来の手法とは異なり、本発明の実施形態に係る線認識最大－最小プーリングの方法は、分類の精度を向上するだけでなく、ＬＳＴＭにおける時間ステップの数を減少させることによって、計算コストも大きく減少させ、例えば、プーリング領域が２×１画素の場合、５０％減少させる。

本発明の実施形態に係るプーリングの方法は、以下の利点を有する。従来の方法（例えば、平均プーリングおよび最大プーリング）とは異なり、本プーリング方法は、対象のテキスト行のフォントの線によって誘導されることによって、異なるフォント間の類似性をより良好に均等化し、分類の精度を向上させることができる。正方形のプーリング領域を用いる従来のプーリングとは異なり、本プーリング方法は、非正方形のプーリング領域を用いることによって、垂直方向における文字の識別機能をより良好に保つことができる。本プーリング方法は、ＬＳＴＭの時系列において必要とされる時間ステップを、より少なくできる。

線認識最大－最小プーリングの方法は、一つ以上のコンピューター等のデータ処理システムにおいて実行されてもよい。各コンピューターは、プロセッサー、メモリーまたは記憶装置（例えば、ハードディスクドライブ、フラッシュメモリー）および内部メモリー（例えばＲＡＭ）を備えてもよい。記憶装置は、当該方法を実行するために、ＲＡＭに読み出され、プロセッサーによって実行され得る、コンピュータープログラムを記憶する。線認識最大－最小プーリングの手順およびＲＮＮモデルは、同じコンピューターにおいて実行されてもよいし、異なるコンピューターにおいて実行されてもよい。実際には、人工ニューラルネットワークモデルは、ＧＰＵ（グラフィックスプロセッシングユニット）クラスター等の特殊なプロセッサーを用いて、しばしば実装される。

一態様では、本発明は、データ処理システムによって実行される方法である。他の態様では、本発明は、当該方法を実行するようにデータ処理装置を制御するための、コンピュータープログラム、およびコンピュータープログラムを内部に格納したコンピューター読取可能な記録メモリーである。他の態様では、本発明は、データ処理システムにおいて具現化される。

当業者には明らかなように、本発明の思想または範囲から逸脱することなく、本発明のテキスト画像の処理方法および関連する装置において、種々の改良および変更が行われ得る。したがって、本発明は、添付の特許請求の範囲およびその均等物の範囲内に入る改良および変更を包含することが意図される。

Claims

コンピューターにより実行される、人工ニューラルネットワークを用いたテキスト文字の認識方法であって、
複数のテキスト行画像および対応するラベルデータを含む訓練データを取得するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記ラベルデータは、各テキスト行画像に含まれる文字を表すデジタル値を含み、
各テキスト行画像について、前記テキスト行画像における前記テキストの線の太さを計算するステップと、
前記訓練データにおける前記テキスト行画像の全ての前記線の太さを平均化することによって、平均の線の太さを計算するステップと、
前記訓練データの各テキスト行画像に対してプーリング工程を実行して、前処理が行われたテキスト行画像を生成するステップと、ここで、当該ステップは、
前記平均の線の太さよりも太い線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記平均の線の太さ以下の線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
を含み、前記最大プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記最小プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記プーリングされた画像は、前記前処理が行われたテキスト行画像を形成し、
前記前処理が行われたテキスト行画像および前記ラベルデータを用いて、訓練されていない長短期記憶（ＬＳＴＭ）ニューラルネットワークを訓練して、訓練されたＬＳＴＭニューラルネットワークを取得するステップと、
を含む方法。
前記訓練データを取得するステップは、
複数のテキスト画像を取得するステップと、ここで、各テキスト画像は、印刷された複数の行のテキストを含む二値画像であり、
各テキスト画像を、複数のテキスト行画像に区分化するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含み、
を含む、請求項１に記載の方法。
各プーリング領域は、２×１画素のサイズを有する、請求項１または２に記載の方法。
各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、各プーリング領域のサイズを決定するステップをさらに含む、請求項１～３のいずれか一項に記載の方法。
入力されたテキスト行画像を取得するステップと、ここで、前記入力されたテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力されたテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さよりも太いと判断するステップと、
前記入力されたテキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記訓練されたＬＳＴＭニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項１～４のいずれか一項に記載の方法。
入力された他のテキスト行画像を取得するステップと、ここで、前記入力された他のテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力された他のテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さ以下であると判断するステップと、
前記入力された他のテキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
前記訓練されたＬＳＴＭニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項５に記載の方法。
前記訓練データの各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記テキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力されたテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力されたテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力された他のテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力された他のテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
をさらに含む、請求項６に記載の方法。
データ処理装置を制御するためのコンピュータープログラムであって、当該コンピュータープログラムは、前記データ処理装置にテキスト文字の認識処理を実行させるように構成され、当該処理は、
複数のテキスト行画像および対応するラベルデータを含む訓練データを取得するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記ラベルデータは、各テキスト行画像に含まれる文字を表すデジタル値を含み、
各テキスト行画像について、前記テキスト行画像における前記テキストの線の太さを計算するステップと、
前記訓練データにおける前記テキスト行画像の全ての前記線の太さを平均化することによって、平均の線の太さを計算するステップと、
前記訓練データの各テキスト行画像に対してプーリング工程を実行して、前処理が行われたテキスト行画像を生成するステップと、ここで、当該ステップは、
前記平均の線の太さよりも太い線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記平均の線の太さ以下の線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
を含み、前記最大プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記最小プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記プーリングされた画像は、前記前処理が行われたテキスト行画像を形成し、
前記前処理が行われたテキスト行画像および前記ラベルデータを用いて、訓練されていない長短期記憶（ＬＳＴＭ）ニューラルネットワークを訓練して、訓練されたＬＳＴＭニューラルネットワークを取得するステップと、
を含むコンピュータープログラム。
前記訓練データを取得するステップは、
複数のテキスト画像を取得するステップと、ここで、各テキスト画像は、印刷された複数の行のテキストを含む二値画像であり、
各テキスト画像を、複数のテキスト行画像に区分化するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含み、
を含む、請求項８に記載のコンピュータープログラム。
各プーリング領域は、２×１画素のサイズを有する、請求項８または９に記載のコンピュータープログラム。
前記処理は、各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、各プーリング領域のサイズを決定するステップをさらに含む、請求項８～１０のいずれか一項に記載のコンピュータープログラム。
前記処理は、
入力されたテキスト行画像を取得するステップと、ここで、前記入力されたテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力されたテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さよりも太いことを判断するステップと、
前記入力されたテキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記訓練されたＬＳＴＭニューラルネットワークに前記プーリングされた画像を入力して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項８～１１のいずれか一項に記載のコンピュータープログラム。
前記処理は、
入力された他のテキスト行画像を取得するステップと、ここで、前記入力された他のテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力された他のテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さ以下であることを判断するステップと、
前記入力された他のテキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
前記訓練されたＬＳＴＭニューラルネットワークに前記プーリングされた画像を入力して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項１２に記載のコンピュータープログラム。
前記処理は、
前記訓練データの各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記テキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力されたテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力されたテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力された他のテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力された他のテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
をさらに含む、請求項１３に記載のコンピュータープログラム。
請求項８～１４のいずれか一項に記載のコンピュータープログラムを格納した、コンピューター読取可能な記録媒体。