JP7026165B2

JP7026165B2 - テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体

Info

Publication number: JP7026165B2
Application number: JP2020085898A
Authority: JP
Inventors: チャン、ファーエン; ルー、チアン; ユアン、チーチャオ; スン、ティアンチー; シュー、フイ
Original assignee: ▲創▼新奇智（上海）科技有限公司
Priority date: 2020-02-24
Filing date: 2020-05-15
Publication date: 2022-02-25
Anticipated expiration: 2040-05-15
Also published as: CN111340023A; CN111340023B; US11132576B2; US20210264189A1; JP2021135993A

Description

本出願は、画像処理技術の分野に属し、殊に、テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体に関する。

テキスト認識は、通常、テキスト画像に対して認識、分析、処理を行い、テキスト画像における有用な文字情報を取得するプロセスを指している。よく見られるテキスト認識の応用分野として、身分証認識、発票認識、車両識別番号認識、ナンバープレート認識が挙げられる。また、テキスト認識は、産業の場においても需要が増えており、例えば、部品コードの認識、部品序列番号のマッチング等に用いられる。テキスト認識の利用場面がますます複雑になり、テキスト認識のアルゴリズムに対する要求もますます高まっている。

従来の画像に対する処理及び認識は、おもに従来の文字認識技術(ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ)を用いる。しかしＯＣＲによりデジタルカメラが取得したテキスト画像を認識するとき、画像の歪みに起因して認識率が低くなることがよくあり、認識の精度が劣る。

本出願の実施例は、テキスト認識の精度を向上させるためのテキスト認識方法を提供する。

本出願の実施例によるテキスト認識方法は、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップとを含む。

一実施例では、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してＮＭＳ処理を行い、文字領域集合を得るステップとを含む。

一実施例では、前記文字予測領域に対してＮＭＳ処理を行い、文字領域集合を得たあと、
前記文字領域集合から前記分類信頼度が第１閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップをさらに含む。

一実施例では、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出するステップは、
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離ＩｏＵを順に算出するステップとを含む。

一実施例では、前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離ＩｏＵが、いずれも前記第２閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。

一実施例では、前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも１つの文字予測領域との水平距離ＩｏＵが第２閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップとを含む。

一実施例では、前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい２つの文字予測領域を選出するステップと、
前記２つの文字予測領域間の分類信頼度の差が第３閾値より小さい場合、前記２つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップとを含む。

一実施例では、前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい２つの文字予測領域を選出するステップのあと、
前記２つの文字予測領域間の分類信頼度の差が第３閾値以上となる場合、前記２つの文字予測領域のうちの、分類信頼度の大きい文字予測領域を前記文字位置集合に入れるステップを含む。

本出願の実施例によるテキスト認識装置は、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出するためのＩｏＵ算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールとを有する。

本出願の実施例による電子設備は、
上記のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリとを有する。
本出願の実施例によるコンピュータの読取可能な記憶媒体は、プロセッサーの実行により上記のテキスト認識方法を実現するコンピュータプログラムが記憶されている。

本出願上記の実施例の技術案は、文字予測領域間の水平距離ＩｏＵを算出することによって、重なりがあった文字予測領域を除去して文字位置集合を得、さらに、文字位置集合における各文字予測領域の位置に基づいて、文字予測領域における文字クラスを、順位をつけて出力して、テキスト認識結果を得る。このような方式は、湾曲したテキスト画像に対する認識に適用でき、同一位置に複数のテキスト認識枠を有する問題を解決でき、テキスト認識の精度を向上させることができる。

本出願の実施例の技術案をより明瞭に説明するため、以下、本出願の実施例の説明に必要な図面を簡単に説明する。

本出願の実施例によるテキスト認識方法の応用場面の模式図である。本出願の実施例によるテキスト認識方法の模式的フローチャートである。水平距離ＩｏＵ（ＩｏＵ：ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）の計算原理の模式図である。図２に示した実施例におけるステップ２１０の詳細のフローチャートである。図２に示した実施例におけるステップ２２０の詳細のフローチャートである。本出願のその他の実施例によるテキスト認識方法の模式的フローチャートである。本出願の実施例によるテキスト認識装置のブロック図である。水平距離ＩｏＵに基づく、重なった予測枠に対する選別の前後の効果比較図である。水平距離ＩｏＵ及び面積ＩｏＵを用いた処理効果の比較図である。

以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術案を説明する。

同様な符号は、図面において同様なものを示すので、１つの図面で定義された場合、その他の図面でさらに定義、解釈することが不要になる。また、本出願の説明では、「第１」、「第２」等の用語が、区別して説明するためのものであり、相対重要性を明示又は暗示するものではない。

図１は、本出願の実施例によるテキスト認識方法の応用場面の模式図である。該応用場面は、図１に示すように、インテリジェント設備１１０を含む。該インテリジェント設備１１０は、サーバ、サーバ群又はクラウドコンピューティングセンターであることが可能である。インテリジェント設備１１０は、インテリジェントカメラ、移動端末又はデスクトップパソコンであってもよい。インテリジェント設備１１０は、本出願の実施例による方法を利用して、テキスト行画像に含まれる文字内容を認識することができる。

一実施例では、上記の応用場面は、画像取得設備１２０をさらに有してもよい。画像取得設備１２０は、文字内容を含む画像を取得し、該画像をインテリジェント設備１１０に伝送することができる。インテリジェント設備１１０は、本出願の実施例による方法を利用して、テキスト認識を行う。

本出願は、電子設備をさらに提供する。該電子設備は、図１に示したインテリジェント設備１１０であることが可能である。インテリジェント設備１１０は、図１に示すように、プロセッサー１１１と、プロセッサー１１１が実行可能な命令を記憶するためのメモリ１１２とを有し、プロセッサー１１１が、本出願の実施例によるテキスト認識方法を実行するように構成される。

メモリ１１２は、任意タイプの揮発性又は不揮発性のメモリ又はこれらの組み合わせにより実現されることが可能である。例えば、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭと略称する）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＥＰＲＯＭと略称する）、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭと略称する）、プログラマブル読み出し専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＰＲＯＭと略称する）、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称する）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクが挙げられる。

本出願は、コンピュータの読み取り可能な記憶媒体をさらに提供し、該記憶媒体に、プロセッサー１１１の実行によって本出願の実施例によるテキスト認識方法を実現するコンピュータプログラムが記憶されている。

図２は、本出願の実施例によるテキスト認識方法の模式的フローチャートである。図２に示すように、該方法は、下記のステップＳ２１０～Ｓ２４０を含む。

ステップＳ２１０は、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得する。

テキスト認識モデルは、例えば、ＳＳＤ、ＹＯＬＯＶ３のようなトレーニング済みの目標検出ニューラルネットワークモデルを用いる。テキスト認識モデルの入力は、テキスト行画像であり、そのサイズが、８８×３５２であってもよい。テキスト認識モデルの出力は、文字予測領域、文字予測領域の文字クラス及び分類信頼度を含む。文字予測領域は、文字が存在可能な領域を表すものであり、４つの頂点の座標で文字予測領域の位置を表す矩形枠の形式を用いることができる。同一の文字に対して複数の文字予測領域が検出される場合がある。つまり、文字予測領域の重なりが発生することがある。文字領域集合は、全ての文字予測領域からなる集合を指している。

テキスト認識モデルによる検出結果の文字分類の精度を向上させるように、テキスト認識モデルの損失関数における分類損失の重みを１０に設定することができる。サイズが同一であり且つ横に配列されるテキスト行における文字の特徴に基づいて、アンカーボックス（即ち、リファレンスボックス）の高さを、入力するテキスト行画像の０．８倍に設定する。

ステップＳ２２０は、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出する。

図３は、水平距離ＩｏＵの計算原理の模式図である。図３に示すように、２つの文字予測領域間に重なりがあり、この２つの文字予測領域間のＨｏｒｉｚｏｎ－ｄｉｓｔａｎｃｅＩｏＵ（水平距離ＩｏＵ）は、下記式１を用いて算出することができる。
（ｘ_２－ｘ_３）／（ｘ_４－ｘ_１）・・・式１

ただし、ｘ_２及びｘ_１が１つの文字予測領域の２つの頂点の横座標であり、ｘ_３及びｘ_４がもう１つの文字予測領域の２つの頂点の横座標である。水平距離ＩｏＵは、２つの文字予測領域の水平方向における重なり比例を表す。

文字予測領域の位置は、文字予測領域の各頂点の座標を含む。文字領域集合におけるすべての文字予測領域に対して、任意２つの文字予測領域間の水平距離ＩｏＵを算出することができる。

ステップＳ２３０は、前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得る。

一実施例では、２つの文字予測領域間の水平距離ＩｏＵが第２閾値より大きい場合、この２つの文字予測領域が重なっていると認定される。第２閾値として０．３にすることができる。例えば、ある文字予測領域がその他の２つの文字予測領域のそれぞれと重なる場合、この３つの文字予測領域に対して、そのうちの２つの文字予測領域を除去し、残られた文字予測領域を文字位置集合に入れる。文字位置集合は、重なりがあった文字予測領域を除去して重なりがない文字予測領域の集合であるとみなされる。

ステップＳ２４０は、前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力する。

通常、テキストにおける文字が横に配列されるので、文字予測領域の位置を文字予測領域の横座標の値で表すことができる。文字位置集合におけるすべての文字予測領域に対して、これらの文字予測領域の横座標の大小に基づいて、横座標の小さい順に、文字位置集合における文字予測領域に順位を付けて、各文字予測領域に対応する文字クラスを順に出力することが可能である。文字クラスは、文字予測領域に含まれる文字を指し、漢字、アルファベット又は特定の符号であることが可能である。縦方向に配列される文字に対して、列ごとに抽出し、各列をテキスト行とする。横座標の大小に基づいてテキスト行における各文字の前後の順序を決める。

ステップＳ２１０において上記のテキスト認識モデルにより各文字予測領域における文字クラスを認識するようにしてもよく、文字位置集合が確定されたあと、テキスト認識モデルにより各文字予測領域における文字クラスを認識するようにしてもよい。

本出願における上記の実施例の技術案は、文字予測領域間の水平距離ＩｏＵを算出することによって、重なりがあった文字予測領域を除去して文字位置集合を得、さらに、文字位置集合における各文字予測領域の位置に基づいて、文字予測領域における文字クラスを、順位をつけて出力して、テキスト認識結果を得る。このような方式は、湾曲したテキスト画像に対する認識に適用でき、同一位置に複数のテキスト認識枠を有する問題を解決でき、テキスト認識の精度を向上させることができる。

一実施例では、上記のステップ２１０は、図４に示すように、下記のステップ２１１とステップ２１２とを含む。

ステップ２１１は、テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得する。

分類信頼度は、文字予測領域における文字クラスの分類の精度を表すものである。文字クラス及び分類信頼度は、ステップ２１０でテキスト認識モデルにより得ることができる。

ステップ２１２は、前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してＮＭＳ（Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）処理を行い、文字領域集合を得る。

１つの文字に対して複数の文字予測領域を得ることがある。ＮＭＳ処理は、局部の複数の文字予測領域のうちの、分類信頼度の一番高い文字予測領域を選出して局部の領域における文字予測領域とする処理を指している。選出されたすべての文字予測領域が文字領域集合を構成する。

本出願の実施例による方法は、ステップ２１２のあとに、前記文字領域集合から前記分類信頼度が第１閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ２１３をさらに含んでもよい。

例えば、第１閾値を０．５にする場合、文字領域集合から分類信頼度が０．５より大きい文字予測領域を選出し、選出された文字予測領域を文字領域集合とすることができる。

一実施例では、上記のステップ２２０は、図５に示すように、具体的に下記のステップ２２１、２２２を含む。

ステップ２２１は、前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつける。

横座標の小さい順又は大きい順で文字領域集合におけるすべての文字予測領域に順位をつけることができる。

ステップ２２２は、各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離ＩｏＵを順に算出する。

文字領域集合を集合１とし、集合１にｎ個の文字予測領域があると仮定する。上記の順位づけを行ったので、１つ目の文字予測領域と、２つ目からｎ個目の文字予測領域のそれぞれとの水平距離ＩｏＵを算出して、１つ目の文字予測領域と重なるすべての文字予測領域を洗い出し、１つ目の文字予測領域及びそれと重なった文字予測領域を、集合１から削除するとともに集合２に入れる。これによって、新たな集合１を得る。集合２における重なり合う複数の文字予測領域から１つの文字予測領域を選択して集合３に入れるとともに、集合２を空集合にする。集合３における文字予測領域は、重なりがない文字予測領域とみなされる。

なお、集合１において、１つ目の文字予測領域と集合１におけるすべての文字予測領域とは重なり合うことがない場合、第１文字予測領域を集合１から削除するとともに集合３に入れ、新たな集合１を得る。

引き続き、新たな集合１に対して、新たな集合１における１つ目の文字予測領域と、２つ目から最後の文字予測領域のそれぞれとの水平距離ＩｏＵを算出して、１つ目の文字予測領域と重なるすべての文字予測領域を洗い出し、１つ目の文字予測領域及びそれと重なった文字予測領域を、新たな集合１から削除するとともに集合２に入れる。これによって、更新された集合１を得る。そして、集合２から１つの文字予測領域を選択して集合３に入れるとともに、集合２を空集合にする。

上記ステップを繰り返して、集合１が空集合になるまで行う。このようにして、集合１におけるすべての文字予測領域間の水平距離ＩｏＵの算出、及び重なりがない文字予測領域の選出を完成させる。水平距離ＩｏＵの計算式は、上記の記載を参照する。

一実施例では、上記のステップ２３０は、具体的に、前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離ＩｏＵが、いずれも前記第２閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。

ここで、文字領域集合が上記の実施例における集合１に相当し、文字位置集合が上記の実施例における集合３に相当する。第２閾値として０．３に設定することができる。集合１におけるある文字予測領域と集合１におけるすべての文字予測領域との水平距離ＩｏＵが、いずれも０．３以下となるとき、該文字予測領域とその他のすべての文字予測領域との重なりがないとみなされるため、該文字予測領域を集合３に入れることができる。文字位置集合における文字予測領域は、重なりがない文字予測領域とみなされる。

また、上記のステップ２３０は、前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも１つの文字予測領域との水平距離ＩｏＵが第２閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れ、前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップを含むことができる。

ここで、候補集合が上記の実施例における集合２に相当し、集合１におけるある文字予測領域と集合１における少なくとも１つの文字予測領域との水平距離ＩｏＵが０．３より大きい場合、水平距離ＩｏＵが０．３より大きい文字予測領域を、集合１から削除するとともに集合２に入れる。集合２における文字予測領域、即ち候補集合における文字予測領域に対して、分類信頼度の高低に基づいて、分類信頼度が最も大きい２つの文字予測領域を選出する。この２つの文字予測領域の分類信頼度の差が第３閾値（例えば、０．１）より小さい場合、２つの文字予測領域のうちの面積が大きい文字予測領域を文字位置集合（即ち集合３）に入れる。

また、２つの文字予測領域の分類信頼度の差が第３閾値以上となる場合、２つの文字予測領域のうちの分類信頼度が大きい文字予測領域を文字位置集合（即ち集合３）に入れる。

したがって、集合３における文字予測領域が、重なりがない文字予測領域とみなされる。集合３におけるすべての文字予測領域に順位をつけて、各文字予測領域に対応する文字クラスを該順位に従って出力して、認識結果を得る。

図６は、本出願の一実施例によるテキスト認識方法の模式的フローチャートである。該方法は、図６に示すように、下記のステップを含む。

ステップ６０１は、テキスト認識モデルにより入力画像を認識して文字予測領域を得る。

ステップ６０２は、文字予測領域に対してＮＭＳ処理（ＮＭＳ）を行って、文字領域集合Ｓ０を得る。

ステップ６０３は、文字領域集合Ｓ０から分類信頼度が０．５より大きい文字予測領域を選出して、文字領域集合Ｓ１を得る。

ステップ６０４は、文字領域集合Ｓ１における文字予測領域に対して、横座標の小さい順に順位をつける。

ステップ６０５は、文字領域集合Ｓ１が空集合であるか否かを判断し、空集合ではない場合、文字領域集合Ｓ１における１つ目の文字予測領域とＳ１におけるその他のすべての文字予測領域のそれぞれとの水平距離ＩｏＵを算出する。空集合である場合、ステップ６１３を実行する。

ステップ６０６は、水平距離ＩｏＵが０．３より大きいか否かを判断する。ＮＯである場合、ステップ６０７を実行し、ＹＥＳである場合、ステップ６０８を実行する。

ステップ６０７は、文字領域集合Ｓ１における１つ目の文字予測領域を文字位置集合Ｓ３に入れるとともに、文字領域集合Ｓ１から１つ目の文字予測領域を削除する。ステップ６０５に戻る。

ステップ６０８は、第１文字予測領域、及び第１文字予測領域との水平距離ＩｏＵが０．３より大きい文字予測領域を候補集合Ｓ２に入れるとともに、文字領域集合Ｓ１からこれらの文字予測領域を削除する。

ステップ６０９は、候補集合Ｓ２における文字予測領域に対して、分類信頼度の小さい順に順位をつけて、分類信頼度の最も大きい２つの文字予測領域を残し、その他の文字予測領域を除去する。

ステップ６１０は、候補集合Ｓ２における文字予測領域の分類信頼度の差が０．１より小さいか否かを判断し、ＮＯである場合、ステップ６１１を実行し、ＹＥＳである場合、ステップ６１２を実行する。

ステップ６１１は、候補集合Ｓ２における分類信頼度のより大きい文字予測領域を文字位置集合Ｓ３に入れるとともに、候補集合Ｓ２を空集合にする。ステップ６０５に戻る。

ステップ６１２は、候補集合Ｓ２における面積のより大きい文字予測領域を文字位置集合Ｓ３に入れるとともに、候補集合Ｓ２を空集合にする。ステップ６０５に戻る。

ステップ６１３は、文字位置集合Ｓ３における文字予測領域の文字クラスを、文字予測領域の横座標の小さい順に従って順位をつけて出力する。

図７は、本出願の実施例によるテキスト認識装置のブロック図である。該装置は、領域抽出モジュール７１０と、ＩｏＵ算出モジュール７２０と、重なり除去モジュール７３０と、文字出力モジュール７４０とを有する。

領域抽出モジュール７１０は、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得する。

ＩｏＵ算出モジュール７２０は、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出する。

重なり除去モジュール７３０は、前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得る。

文字出力モジュール７４０は、前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力する。

上記の装置における各モジュールの機能及び作用の実現プロセスは、具体的に上記のテキスト認識方法における対応するステップの実現プロセスを参照できるので、ここで説明を省略する。

図８は、水平距離ＩｏＵに基づく重なった予測枠に対する選別の前後の効果比較図である。ここで、第１行が、水平距離ＩｏＵに基づく選別が行われなかったテキスト認識結果であり、第２行が、水平距離ＩｏＵに基づいて選別が行われたテキスト認識結果である。図８における３個目の数字０に注目すると、第１行に重なった予測枠があるため、２つの０が認識され、検測が正確ではない。図９は、水平距離ＩｏＵと面積ＩｏＵを用いた処理の効果比較図である。図９においては、第１行の画像が、面積ＩｏＵに基づいて重なった予測枠を選出した処理結果であり、第２行が、水平距離ＩｏＵに基づいて重なった予測枠を選出した処理結果である。図９を参照すると、水平距離ＩｏＵを用いる場合、同一位置に複数の文字予測枠が存在しても面積ＩｏＵが閾値以下となる状況に対応でき、これに対して、面積ＩｏＵに基づく従来の方式は、このような状況に対応できないことが分かる。

本出願の実施例による目標検出テキスト認識アルゴリズムは、ピクセル単位による予測ではないので、本出願の実施例の技術案は、分割によるテキスト認識方法と比べて、よりはやく、ノイズに対するロバスト性が向上した方法である。また、Ｈｏｒｉｚｏｎ－ｄｉｓｔａｎｃｅＩｏＵ（水平距離ＩｏＵ）に基づいて重なり合う文字枠を選出する処理方式を用いるので、目標検出をテキスト認識に適用するときの文字枠の重なりの問題を解決できるとともに、従来のＮＭＳの計算量と比べて、該方法の計算量が大幅に低減できる。本出願の実施例の技術案は、湾曲したテキストの認識に適用でき、同一位置に複数の文字枠が存在しても面積ＩｏＵが閾値以下となる状況に対応できる。例えば、湾曲したテキストでは、面積ＩｏＵが通常大きいため、本出願の実施例によるＨｏｒｉｚｏｎ－ｄｉｓｔａｎｃｅＩｏＵを利用せず、面積ＩｏＵを用いる場合、正確な文字予測枠の漏れが発生してしまい、その後の処理においてエラーが起こりやすくなる。

本出願が提供したいくつの実施例において、記載された装置及び方法は、その他の方式により実現されることも可能である。上記に説明された装置の実施例は、模式的なものに過ぎず、例えば、図面におけるフローチャート及びブロック図が、本出願における複数の実施例による装置、方法及びコンピュータプログラム製品が実現可能なアーキテクチャ、機能及び操作を示した。ここで、フローチャート又はブロック図における各ブロックは、所定の論理機能を実現できる１つの又は複数の実行可能な命令が含まれている、１つのモジュール、プログラムセグメントまたはコードの一部を表すことが可能である。置き換え可能な実現方式において、ブロックに記載された機能が図面に示した順序と異なるものによって実施される。例えば、２つの連続するブロックは、実際にほぼ並行に実行されてもよく、場合によって逆の順序で実行されてもよい。これは、該当する機能によって決められる。そして、ブロック図及び/又はフローチャートにおける各ブロックと、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアシステムにより実現されてもよく、専用のハードウェアとコンピュータ命令との組み合わせにより実現されてもよい。

また、本出願の各実施例における各機能モジュールは、１つの独立部分に集積されてもよく、各モジュールが単独に存在していてもよく、２つ又は２つ以上のモジュールが１つの独立部分に集積されていてもよい。

機能は、ソフトウェアによる機能ユニットの形式で実現され、独立の製品として販売されたり使用されたりする場合、コンピュータの読み取り可能な記憶媒体に記憶することが可能である。このような理解をもとに、本発明の技術案のそのもの、従来技術に貢献する部分、或いは該技術案の一部は、ソフトウェア製品の形式で実現できる。該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備（パソコン、サーバ或いはネットワーク設備等）が本出願の各実施例における方法の全部又は一部のステップを実行するための複数のコマンドを含む。前記記憶媒体は、ＵＳＢディスク、携帯型ハードディスク、リードオンリーメモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の各種の、プログラムコードを記憶できる媒体を含む。

Claims

既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップと
を含み、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してＮＭＳ処理を行い、文字領域集合を得るステップと、を含む
ことを特徴とするテキスト認識方法。
前記文字予測領域に対してＮＭＳ処理を行い、文字領域集合を得たあと、
前記文字領域集合から前記分類信頼度が第１閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ
をさらに含むことを特徴とする請求項１に記載のテキスト認識方法。
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出するステップは、
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離ＩｏＵを順に算出するステップと
を含むことを特徴とする請求項１に記載のテキスト認識方法。
前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離ＩｏＵが、いずれも第２閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップ
を含むことを特徴とする請求項１に記載のテキスト認識方法。
前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも１つの文字予測領域との水平距離ＩｏＵが第２閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップと
を含むことを特徴とする請求項１に記載のテキスト認識方法。
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい２つの文字予測領域を選出するステップと、
前記２つの文字予測領域間の分類信頼度の差が第３閾値より小さい場合、前記２つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップと
を含むことを特徴とする請求項５に記載のテキスト認識方法。
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい２つの文字予測領域を選出するステップのあと、
前記２つの文字予測領域間の分類信頼度の差が第３閾値以上となる場合、前記２つの文字予測領域のうちの、分類信頼度が大きい文字予測領域を前記文字位置集合に入れるステップ
を含むことを特徴とする請求項６に記載のテキスト認識方法。
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離ＩｏＵを算出するためのＩｏＵ算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離ＩｏＵに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールと
を有し、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得することは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得することと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してＮＭＳ処理を行い、文字領域集合を得ることと、を含む
ことを特徴とするテキスト認識装置。
請求項１～７のいずれか１項に記載のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリと
を有することを特徴とする電子設備。
プロセッサーの実行により請求項１～７のいずれか１項に記載のテキスト認識方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータの読取可能な記憶媒体。