JP7026165B2 - テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 - Google Patents

テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 Download PDF

Info

Publication number
JP7026165B2
JP7026165B2 JP2020085898A JP2020085898A JP7026165B2 JP 7026165 B2 JP7026165 B2 JP 7026165B2 JP 2020085898 A JP2020085898 A JP 2020085898A JP 2020085898 A JP2020085898 A JP 2020085898A JP 7026165 B2 JP7026165 B2 JP 7026165B2
Authority
JP
Japan
Prior art keywords
character
area
prediction
character prediction
text recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020085898A
Other languages
English (en)
Other versions
JP2021135993A (ja
Inventor
チャン、ファーエン
ルー、チアン
ユアン、チーチャオ
スン、ティアンチー
シュー、フイ
Original Assignee
▲創▼新奇智(上海)科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ▲創▼新奇智(上海)科技有限公司 filed Critical ▲創▼新奇智(上海)科技有限公司
Publication of JP2021135993A publication Critical patent/JP2021135993A/ja
Application granted granted Critical
Publication of JP7026165B2 publication Critical patent/JP7026165B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本出願は、画像処理技術の分野に属し、殊に、テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体に関する。
テキスト認識は、通常、テキスト画像に対して認識、分析、処理を行い、テキスト画像における有用な文字情報を取得するプロセスを指している。よく見られるテキスト認識の応用分野として、身分証認識、発票認識、車両識別番号認識、ナンバープレート認識が挙げられる。また、テキスト認識は、産業の場においても需要が増えており、例えば、部品コードの認識、部品序列番号のマッチング等に用いられる。テキスト認識の利用場面がますます複雑になり、テキスト認識のアルゴリズムに対する要求もますます高まっている。
従来の画像に対する処理及び認識は、おもに従来の文字認識技術(Optical Character Recognition、OCR)を用いる。しかしOCRによりデジタルカメラが取得したテキスト画像を認識するとき、画像の歪みに起因して認識率が低くなることがよくあり、認識の精度が劣る。
本出願の実施例は、テキスト認識の精度を向上させるためのテキスト認識方法を提供する。
本出願の実施例によるテキスト認識方法は、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップとを含む。
一実施例では、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得るステップとを含む。
一実施例では、前記文字予測領域に対してNMS処理を行い、文字領域集合を得たあと、
前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップをさらに含む。
一実施例では、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップは、
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出するステップとを含む。
一実施例では、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも前記第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。
一実施例では、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップとを含む。
一実施例では、前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値より小さい場合、前記2つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップとを含む。
一実施例では、前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップのあと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値以上となる場合、前記2つの文字予測領域のうちの、分類信頼度の大きい文字予測領域を前記文字位置集合に入れるステップを含む。
本出願の実施例によるテキスト認識装置は、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するためのIoU算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールとを有する。
本出願の実施例による電子設備は、
上記のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリとを有する。
本出願の実施例によるコンピュータの読取可能な記憶媒体は、プロセッサーの実行により上記のテキスト認識方法を実現するコンピュータプログラムが記憶されている。
本出願上記の実施例の技術案は、文字予測領域間の水平距離IoUを算出することによって、重なりがあった文字予測領域を除去して文字位置集合を得、さらに、文字位置集合における各文字予測領域の位置に基づいて、文字予測領域における文字クラスを、順位をつけて出力して、テキスト認識結果を得る。このような方式は、湾曲したテキスト画像に対する認識に適用でき、同一位置に複数のテキスト認識枠を有する問題を解決でき、テキスト認識の精度を向上させることができる。
本出願の実施例の技術案をより明瞭に説明するため、以下、本出願の実施例の説明に必要な図面を簡単に説明する。
本出願の実施例によるテキスト認識方法の応用場面の模式図である。 本出願の実施例によるテキスト認識方法の模式的フローチャートである。 水平距離IoU(IoU:Intersection over Union)の計算原理の模式図である。 図2に示した実施例におけるステップ210の詳細のフローチャートである。 図2に示した実施例におけるステップ220の詳細のフローチャートである。 本出願のその他の実施例によるテキスト認識方法の模式的フローチャートである。 本出願の実施例によるテキスト認識装置のブロック図である。 水平距離IoUに基づく、重なった予測枠に対する選別の前後の効果比較図である。 水平距離IoU及び面積IoUを用いた処理効果の比較図である。
以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術案を説明する。
同様な符号は、図面において同様なものを示すので、1つの図面で定義された場合、その他の図面でさらに定義、解釈することが不要になる。また、本出願の説明では、「第1」、「第2」等の用語が、区別して説明するためのものであり、相対重要性を明示又は暗示するものではない。
図1は、本出願の実施例によるテキスト認識方法の応用場面の模式図である。該応用場面は、図1に示すように、インテリジェント設備110を含む。該インテリジェント設備110は、サーバ、サーバ群又はクラウドコンピューティングセンターであることが可能である。インテリジェント設備110は、インテリジェントカメラ、移動端末又はデスクトップパソコンであってもよい。インテリジェント設備110は、本出願の実施例による方法を利用して、テキスト行画像に含まれる文字内容を認識することができる。
一実施例では、上記の応用場面は、画像取得設備120をさらに有してもよい。画像取得設備120は、文字内容を含む画像を取得し、該画像をインテリジェント設備110に伝送することができる。インテリジェント設備110は、本出願の実施例による方法を利用して、テキスト認識を行う。
本出願は、電子設備をさらに提供する。該電子設備は、図1に示したインテリジェント設備110であることが可能である。インテリジェント設備110は、図1に示すように、プロセッサー111と、プロセッサー111が実行可能な命令を記憶するためのメモリ112とを有し、プロセッサー111が、本出願の実施例によるテキスト認識方法を実行するように構成される。
メモリ112は、任意タイプの揮発性又は不揮発性のメモリ又はこれらの組み合わせにより実現されることが可能である。例えば、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAMと略称する)、電気的に消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROMと略称する)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read-Only Memory、EPROMと略称する)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROMと略称する)、読み出し専用メモリ(Read-Only Memory、ROMと略称する)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクが挙げられる。
本出願は、コンピュータの読み取り可能な記憶媒体をさらに提供し、該記憶媒体に、プロセッサー111の実行によって本出願の実施例によるテキスト認識方法を実現するコンピュータプログラムが記憶されている。
図2は、本出願の実施例によるテキスト認識方法の模式的フローチャートである。図2に示すように、該方法は、下記のステップS210~S240を含む。
ステップS210は、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得する。
テキスト認識モデルは、例えば、SSD、YOLOV3のようなトレーニング済みの目標検出ニューラルネットワークモデルを用いる。テキスト認識モデルの入力は、テキスト行画像であり、そのサイズが、88×352であってもよい。テキスト認識モデルの出力は、文字予測領域、文字予測領域の文字クラス及び分類信頼度を含む。文字予測領域は、文字が存在可能な領域を表すものであり、4つの頂点の座標で文字予測領域の位置を表す矩形枠の形式を用いることができる。同一の文字に対して複数の文字予測領域が検出される場合がある。つまり、文字予測領域の重なりが発生することがある。文字領域集合は、全ての文字予測領域からなる集合を指している。
テキスト認識モデルによる検出結果の文字分類の精度を向上させるように、テキスト認識モデルの損失関数における分類損失の重みを10に設定することができる。サイズが同一であり且つ横に配列されるテキスト行における文字の特徴に基づいて、アンカーボックス(即ち、リファレンスボックス)の高さを、入力するテキスト行画像の0.8倍に設定する。
ステップS220は、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出する。
図3は、水平距離IoUの計算原理の模式図である。図3に示すように、2つの文字予測領域間に重なりがあり、この2つの文字予測領域間のHorizon-distance IoU(水平距離IoU)は、下記式1を用いて算出することができる。
(x-x)/(x-x) ・・・式1
ただし、x及びxが1つの文字予測領域の2つの頂点の横座標であり、x及びxがもう1つの文字予測領域の2つの頂点の横座標である。水平距離IoUは、2つの文字予測領域の水平方向における重なり比例を表す。
文字予測領域の位置は、文字予測領域の各頂点の座標を含む。文字領域集合におけるすべての文字予測領域に対して、任意2つの文字予測領域間の水平距離IoUを算出することができる。
ステップS230は、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得る。
一実施例では、2つの文字予測領域間の水平距離IoUが第2閾値より大きい場合、この2つの文字予測領域が重なっていると認定される。第2閾値として0.3にすることができる。例えば、ある文字予測領域がその他の2つの文字予測領域のそれぞれと重なる場合、この3つの文字予測領域に対して、そのうちの2つの文字予測領域を除去し、残られた文字予測領域を文字位置集合に入れる。文字位置集合は、重なりがあった文字予測領域を除去して重なりがない文字予測領域の集合であるとみなされる。
ステップS240は、前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力する。
通常、テキストにおける文字が横に配列されるので、文字予測領域の位置を文字予測領域の横座標の値で表すことができる。文字位置集合におけるすべての文字予測領域に対して、これらの文字予測領域の横座標の大小に基づいて、横座標の小さい順に、文字位置集合における文字予測領域に順位を付けて、各文字予測領域に対応する文字クラスを順に出力することが可能である。文字クラスは、文字予測領域に含まれる文字を指し、漢字、アルファベット又は特定の符号であることが可能である。縦方向に配列される文字に対して、列ごとに抽出し、各列をテキスト行とする。横座標の大小に基づいてテキスト行における各文字の前後の順序を決める。
ステップS210において上記のテキスト認識モデルにより各文字予測領域における文字クラスを認識するようにしてもよく、文字位置集合が確定されたあと、テキスト認識モデルにより各文字予測領域における文字クラスを認識するようにしてもよい。
本出願における上記の実施例の技術案は、文字予測領域間の水平距離IoUを算出することによって、重なりがあった文字予測領域を除去して文字位置集合を得、さらに、文字位置集合における各文字予測領域の位置に基づいて、文字予測領域における文字クラスを、順位をつけて出力して、テキスト認識結果を得る。このような方式は、湾曲したテキスト画像に対する認識に適用でき、同一位置に複数のテキスト認識枠を有する問題を解決でき、テキスト認識の精度を向上させることができる。
一実施例では、上記のステップ210は、図4に示すように、下記のステップ211とステップ212とを含む。
ステップ211は、テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得する。
分類信頼度は、文字予測領域における文字クラスの分類の精度を表すものである。文字クラス及び分類信頼度は、ステップ210でテキスト認識モデルにより得ることができる。
ステップ212は、前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS(Non-Maximum Suppression)処理を行い、文字領域集合を得る。
1つの文字に対して複数の文字予測領域を得ることがある。NMS処理は、局部の複数の文字予測領域のうちの、分類信頼度の一番高い文字予測領域を選出して局部の領域における文字予測領域とする処理を指している。選出されたすべての文字予測領域が文字領域集合を構成する。
本出願の実施例による方法は、ステップ212のあとに、前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ213をさらに含んでもよい。
例えば、第1閾値を0.5にする場合、文字領域集合から分類信頼度が0.5より大きい文字予測領域を選出し、選出された文字予測領域を文字領域集合とすることができる。
一実施例では、上記のステップ220は、図5に示すように、具体的に下記のステップ221、222を含む。
ステップ221は、前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつける。
横座標の小さい順又は大きい順で文字領域集合におけるすべての文字予測領域に順位をつけることができる。
ステップ222は、各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出する。
文字領域集合を集合1とし、集合1にn個の文字予測領域があると仮定する。上記の順位づけを行ったので、1つ目の文字予測領域と、2つ目からn個目の文字予測領域のそれぞれとの水平距離IoUを算出して、1つ目の文字予測領域と重なるすべての文字予測領域を洗い出し、1つ目の文字予測領域及びそれと重なった文字予測領域を、集合1から削除するとともに集合2に入れる。これによって、新たな集合1を得る。集合2における重なり合う複数の文字予測領域から1つの文字予測領域を選択して集合3に入れるとともに、集合2を空集合にする。集合3における文字予測領域は、重なりがない文字予測領域とみなされる。
なお、集合1において、1つ目の文字予測領域と集合1におけるすべての文字予測領域とは重なり合うことがない場合、第1文字予測領域を集合1から削除するとともに集合3に入れ、新たな集合1を得る。
引き続き、新たな集合1に対して、新たな集合1における1つ目の文字予測領域と、2つ目から最後の文字予測領域のそれぞれとの水平距離IoUを算出して、1つ目の文字予測領域と重なるすべての文字予測領域を洗い出し、1つ目の文字予測領域及びそれと重なった文字予測領域を、新たな集合1から削除するとともに集合2に入れる。これによって、更新された集合1を得る。そして、集合2から1つの文字予測領域を選択して集合3に入れるとともに、集合2を空集合にする。
上記ステップを繰り返して、集合1が空集合になるまで行う。このようにして、集合1におけるすべての文字予測領域間の水平距離IoUの算出、及び重なりがない文字予測領域の選出を完成させる。水平距離IoUの計算式は、上記の記載を参照する。
一実施例では、上記のステップ230は、具体的に、前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも前記第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。
ここで、文字領域集合が上記の実施例における集合1に相当し、文字位置集合が上記の実施例における集合3に相当する。第2閾値として0.3に設定することができる。集合1におけるある文字予測領域と集合1におけるすべての文字予測領域との水平距離IoUが、いずれも0.3以下となるとき、該文字予測領域とその他のすべての文字予測領域との重なりがないとみなされるため、該文字予測領域を集合3に入れることができる。文字位置集合における文字予測領域は、重なりがない文字予測領域とみなされる。
また、上記のステップ230は、前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れ、前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップを含むことができる。
ここで、候補集合が上記の実施例における集合2に相当し、集合1におけるある文字予測領域と集合1における少なくとも1つの文字予測領域との水平距離IoUが0.3より大きい場合、水平距離IoUが0.3より大きい文字予測領域を、集合1から削除するとともに集合2に入れる。集合2における文字予測領域、即ち候補集合における文字予測領域に対して、分類信頼度の高低に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出する。この2つの文字予測領域の分類信頼度の差が第3閾値(例えば、0.1)より小さい場合、2つの文字予測領域のうちの面積が大きい文字予測領域を文字位置集合(即ち集合3)に入れる。
また、2つの文字予測領域の分類信頼度の差が第3閾値以上となる場合、2つの文字予測領域のうちの分類信頼度が大きい文字予測領域を文字位置集合(即ち集合3)に入れる。
したがって、集合3における文字予測領域が、重なりがない文字予測領域とみなされる。集合3におけるすべての文字予測領域に順位をつけて、各文字予測領域に対応する文字クラスを該順位に従って出力して、認識結果を得る。
図6は、本出願の一実施例によるテキスト認識方法の模式的フローチャートである。該方法は、図6に示すように、下記のステップを含む。
ステップ601は、テキスト認識モデルにより入力画像を認識して文字予測領域を得る。
ステップ602は、文字予測領域に対してNMS処理(NMS)を行って、文字領域集合S0を得る。
ステップ603は、文字領域集合S0から分類信頼度が0.5より大きい文字予測領域を選出して、文字領域集合S1を得る。
ステップ604は、文字領域集合S1における文字予測領域に対して、横座標の小さい順に順位をつける。
ステップ605は、文字領域集合S1が空集合であるか否かを判断し、空集合ではない場合、文字領域集合S1における1つ目の文字予測領域とS1におけるその他のすべての文字予測領域のそれぞれとの水平距離IoUを算出する。空集合である場合、ステップ613を実行する。
ステップ606は、水平距離IoUが0.3より大きいか否かを判断する。NOである場合、ステップ607を実行し、YESである場合、ステップ608を実行する。
ステップ607は、文字領域集合S1における1つ目の文字予測領域を文字位置集合S3に入れるとともに、文字領域集合S1から1つ目の文字予測領域を削除する。ステップ605に戻る。
ステップ608は、第1文字予測領域、及び第1文字予測領域との水平距離IoUが0.3より大きい文字予測領域を候補集合S2に入れるとともに、文字領域集合S1からこれらの文字予測領域を削除する。
ステップ609は、候補集合S2における文字予測領域に対して、分類信頼度の小さい順に順位をつけて、分類信頼度の最も大きい2つの文字予測領域を残し、その他の文字予測領域を除去する。
ステップ610は、候補集合S2における文字予測領域の分類信頼度の差が0.1より小さいか否かを判断し、NOである場合、ステップ611を実行し、YESである場合、ステップ612を実行する。
ステップ611は、候補集合S2における分類信頼度のより大きい文字予測領域を文字位置集合S3に入れるとともに、候補集合S2を空集合にする。ステップ605に戻る。
ステップ612は、候補集合S2における面積のより大きい文字予測領域を文字位置集合S3に入れるとともに、候補集合S2を空集合にする。ステップ605に戻る。
ステップ613は、文字位置集合S3における文字予測領域の文字クラスを、文字予測領域の横座標の小さい順に従って順位をつけて出力する。
図7は、本出願の実施例によるテキスト認識装置のブロック図である。該装置は、領域抽出モジュール710と、IoU算出モジュール720と、重なり除去モジュール730と、文字出力モジュール740とを有する。
領域抽出モジュール710は、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得する。
IoU算出モジュール720は、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出する。
重なり除去モジュール730は、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得る。
文字出力モジュール740は、前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力する。
上記の装置における各モジュールの機能及び作用の実現プロセスは、具体的に上記のテキスト認識方法における対応するステップの実現プロセスを参照できるので、ここで説明を省略する。
図8は、水平距離IoUに基づく重なった予測枠に対する選別の前後の効果比較図である。ここで、第1行が、水平距離IoUに基づく選別が行われなかったテキスト認識結果であり、第2行が、水平距離IoUに基づいて選別が行われたテキスト認識結果である。図8における3個目の数字0に注目すると、第1行に重なった予測枠があるため、2つの0が認識され、検測が正確ではない。図9は、水平距離IoUと面積IoUを用いた処理の効果比較図である。図9においては、第1行の画像が、面積IoUに基づいて重なった予測枠を選出した処理結果であり、第2行が、水平距離IoUに基づいて重なった予測枠を選出した処理結果である。図9を参照すると、水平距離IoUを用いる場合、同一位置に複数の文字予測枠が存在しても面積IoUが閾値以下となる状況に対応でき、これに対して、面積IoUに基づく従来の方式は、このような状況に対応できないことが分かる。
本出願の実施例による目標検出テキスト認識アルゴリズムは、ピクセル単位による予測ではないので、本出願の実施例の技術案は、分割によるテキスト認識方法と比べて、よりはやく、ノイズに対するロバスト性が向上した方法である。また、Horizon-distance IoU(水平距離IoU)に基づいて重なり合う文字枠を選出する処理方式を用いるので、目標検出をテキスト認識に適用するときの文字枠の重なりの問題を解決できるとともに、従来のNMSの計算量と比べて、該方法の計算量が大幅に低減できる。本出願の実施例の技術案は、湾曲したテキストの認識に適用でき、同一位置に複数の文字枠が存在しても面積IoUが閾値以下となる状況に対応できる。例えば、湾曲したテキストでは、面積IoUが通常大きいため、本出願の実施例によるHorizon-distance IoUを利用せず、面積IoUを用いる場合、正確な文字予測枠の漏れが発生してしまい、その後の処理においてエラーが起こりやすくなる。
本出願が提供したいくつの実施例において、記載された装置及び方法は、その他の方式により実現されることも可能である。上記に説明された装置の実施例は、模式的なものに過ぎず、例えば、図面におけるフローチャート及びブロック図が、本出願における複数の実施例による装置、方法及びコンピュータプログラム製品が実現可能なアーキテクチャ、機能及び操作を示した。ここで、フローチャート又はブロック図における各ブロックは、所定の論理機能を実現できる1つの又は複数の実行可能な命令が含まれている、1つのモジュール、プログラムセグメントまたはコードの一部を表すことが可能である。置き換え可能な実現方式において、ブロックに記載された機能が図面に示した順序と異なるものによって実施される。例えば、2つの連続するブロックは、実際にほぼ並行に実行されてもよく、場合によって逆の順序で実行されてもよい。これは、該当する機能によって決められる。そして、ブロック図及び/又はフローチャートにおける各ブロックと、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアシステムにより実現されてもよく、専用のハードウェアとコンピュータ命令との組み合わせにより実現されてもよい。
また、本出願の各実施例における各機能モジュールは、1つの独立部分に集積されてもよく、各モジュールが単独に存在していてもよく、2つ又は2つ以上のモジュールが1つの独立部分に集積されていてもよい。
機能は、ソフトウェアによる機能ユニットの形式で実現され、独立の製品として販売されたり使用されたりする場合、コンピュータの読み取り可能な記憶媒体に記憶することが可能である。このような理解をもとに、本発明の技術案のそのもの、従来技術に貢献する部分、或いは該技術案の一部は、ソフトウェア製品の形式で実現できる。該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備(パソコン、サーバ或いはネットワーク設備等)が本出願の各実施例における方法の全部又は一部のステップを実行するための複数のコマンドを含む。前記記憶媒体は、USBディスク、携帯型ハードディスク、リードオンリーメモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random-Access Memory)、磁気ディスク又は光ディスク等の各種の、プログラムコードを記憶できる媒体を含む。

Claims (10)

  1. 既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
    前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップと、
    前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
    前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップと
    を含み、
    既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
    テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
    前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得るステップと、を含む
    ことを特徴とするテキスト認識方法。
  2. 前記文字予測領域に対してNMS処理を行い、文字領域集合を得たあと、
    前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ
    をさらに含むことを特徴とする請求項に記載のテキスト認識方法。
  3. 前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップは、
    前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
    各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出するステップと
    を含むことを特徴とする請求項1に記載のテキスト認識方法。
  4. 前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
    前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップ
    を含むことを特徴とする請求項1に記載のテキスト認識方法。
  5. 前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
    前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
    前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップと
    を含むことを特徴とする請求項1に記載のテキスト認識方法。
  6. 前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
    前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップと、
    前記2つの文字予測領域間の分類信頼度の差が第3閾値より小さい場合、前記2つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップと
    を含むことを特徴とする請求項に記載のテキスト認識方法。
  7. 前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップのあと、
    前記2つの文字予測領域間の分類信頼度の差が第3閾値以上となる場合、前記2つの文字予測領域のうちの、分類信頼度が大きい文字予測領域を前記文字位置集合に入れるステップ
    を含むことを特徴とする請求項に記載のテキスト認識方法。
  8. 既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
    前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するためのIoU算出モジュールと、
    前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
    前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールと
    を有し、
    既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得することは、
    テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得することと、
    前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得ることと、を含む
    ことを特徴とするテキスト認識装置。
  9. 請求項1~のいずれか1項に記載のテキスト認識方法を実行するプロセッサーと、
    プロセッサーが実行可能な命令を記憶するためのメモリと
    を有することを特徴とする電子設備。
  10. プロセッサーの実行により請求項1~のいずれか1項に記載のテキスト認識方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータの読取可能な記憶媒体。
JP2020085898A 2020-02-24 2020-05-15 テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 Active JP7026165B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010114235.9 2020-02-24
CN202010114235.9A CN111340023B (zh) 2020-02-24 2020-02-24 文本识别方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
JP2021135993A JP2021135993A (ja) 2021-09-13
JP7026165B2 true JP7026165B2 (ja) 2022-02-25

Family

ID=71181781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020085898A Active JP7026165B2 (ja) 2020-02-24 2020-05-15 テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体

Country Status (3)

Country Link
US (1) US11132576B2 (ja)
JP (1) JP7026165B2 (ja)
CN (1) CN111340023B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783695B (zh) * 2020-07-06 2022-06-07 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN113254653B (zh) * 2021-07-05 2021-12-21 明品云(北京)数据科技有限公司 一种文本分类方法、***、设备及介质
CN113723422B (zh) * 2021-09-08 2023-10-17 重庆紫光华山智安科技有限公司 车牌信息确定方法、***、设备及介质
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN115937843B (zh) * 2023-01-09 2023-05-26 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119559A (ja) 2019-01-28 2020-08-06 富士通株式会社 文字認識方法及び文字認識装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130066444A (ko) * 2011-12-12 2013-06-20 한국전자통신연구원 자동차 번호판 내에서 문자 영역을 추출하기 위한 장치 및 그 방법
US10467465B2 (en) * 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN110717366A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本信息的识别方法、装置、设备及存储介质
CN109447015A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种处理表格图片中框选文字的方法及装置
CN109948507B (zh) * 2019-03-14 2021-05-07 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110533079B (zh) * 2019-08-05 2022-05-24 贝壳技术有限公司 形成图像样本的方法、装置、介质以及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119559A (ja) 2019-01-28 2020-08-06 富士通株式会社 文字認識方法及び文字認識装置

Also Published As

Publication number Publication date
CN111340023A (zh) 2020-06-26
CN111340023B (zh) 2022-09-09
US11132576B2 (en) 2021-09-28
US20210264189A1 (en) 2021-08-26
JP2021135993A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN111401371B (zh) 一种文本检测识别方法、***及计算机设备
CN108427950B (zh) 一种文字行检测方法及装置
CN108108731B (zh) 基于合成数据的文本检测方法及装置
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
CN108108734B (zh) 一种车牌识别方法及装置
CN112070649B (zh) 一种去除特定字符串水印的方法及***
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN109508716B (zh) 一种图像文字的定位方法及装置
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN111598076B (zh) 一种标签图像中日期检测处理方法及装置
CN115240203A (zh) 业务数据处理方法、装置、设备及存储介质
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
JP5385372B2 (ja) 文字認識装置及び文字認識方法
CN114550062A (zh) 图像中运动对象的确定方法、装置、电子设备和存储介质
CN113095313A (zh) 文本字符串的识别方法、装置和服务器
CN114758145B (zh) 一种图像脱敏方法、装置、电子设备及存储介质
CN111898602B (zh) 一种图像中的凭证号码区域识别方法、装置及设备
CN116386064A (zh) 图像文本的检测方法、装置、设备和可读存储介质
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
KR20240044777A (ko) 실시간 물체 감지 네트워크 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211012

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7026165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150