JP7297910B2

JP7297910B2 - 文字認識装置及び文字認識装置による文字認識方法

Info

Publication number: JP7297910B2
Application number: JP2021549641A
Authority: JP
Inventors: ベク，ヨンミン; イ，ファルソク; シン，スン; リイ，ヨンムー
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-02-25
Filing date: 2020-01-29
Publication date: 2023-06-26
Anticipated expiration: 2040-01-29
Also published as: JP2022522425A; KR102206604B1; KR20200106110A; WO2020175806A1

Description

本発明は、データ処理分野に係り、さらに具体的には、イメージのようなデータから、文字を認識する文字認識装置及びその方法に関する。

フィンテック（fintech）技術の発展により、携帯電話などにカード情報を保存しておき、簡便に決済することができるようにするサービスが提供されている。クレジットカード、チェックカードのような実物カードイメージにおいて、カード番号及び有効期間のような情報を認識及び保存する技術であるならば、簡便決済サービスのための核心になる技術のうち一つである。

しかしながら、カードイメージからの文字認識において、カード内に陽刻で印刷された文字が多数存在し、カード背景が多様であるので、カード番号及び有効期間を正確に認識することに技術障壁が存在する。

一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、イメージなどのデータから、文字を正確且つ迅速に認識することを技術的課題にする。

また、一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、実物カードのイメージ内において文字を正確に認識し、フィンテック産業発展に寄与することを技術的課題にする。

一実施形態による文字認識方法は、入力データを、文字検出モデルに入力する段階と、文字検出モデルから出力される出力データに基づき、入力データ内における単語領域の位置情報を獲得する段階と、獲得した位置情報に対応する部分データを、入力データから抽出する段階と、部分データを、文字認識モデルに入力し、部分データ内において、文字を認識する段階と、を含んでもよい。

一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、イメージのようなデータから、文字を正確且つ迅速に認識することができる。

また、一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、実物カードのイメージ内から文字を正確に認識し、フィンテック産業発展に寄与することができる。

ただし、一実施形態による文字認識装置、及び文字認識装置による文字認識方法が達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていない他の効果は、以下の記載から、本開示が属する技術分野において当業者であるならば、明確に理解することができるであろう。

一実施形態による文字認識装置を図示する図面である。一実施形態による文字認識方法について説明するためのフローチャートである。一実施形態による文字認識装置を介して文字が認識される過程について説明するための図面である。文字検出モデルによって出力される出力データを図示する例示的な図面である。文字検出モデルから出力された出力データに基づき、入力データ内における単語領域の位置情報を獲得する方法について説明するための図面である。図５に図示された二進化過程及び併合過程について説明するための図面である。図５に図示された単語ボックス決定過程について説明するための図面である。一実施形態による特徴抽出モデルの構造について説明するための図面である。一実施形態による文字認識モデルの構造について説明するための図面である。一実施形態による文字検出モデルの訓練方法について説明するためのフローチャートである。第１ＧＴスコアマップを生成する方法について説明するための図面である。第２ＧＴスコアマップを生成する方法について説明するための図面である。互いに隣接した文字ボックス間において、連結ボックスを決定する方法について説明するための図面である。一実施形態による文字認識装置の構成を図示するブロック図である。一実施形態による文字認識装置が適用されうるサーバ装置及びクライアント装置を図示する図面である。

他の実施形態による文字認識装置は、プロセッサと、少なくとも１つのインストラクションを保存するメモリと、を含むが、プロセッサは、少なくとも１つのインストラクションにより、入力データを、文字検出モデルに入力し、文字検出モデルから出力される出力データに基づき、入力データ内における単語領域の位置情報を獲得し、獲得した位置情報に対応する部分データを、入力データから抽出し、部分データを、文字認識モデルに入力し、部分データ内において、文字を認識することができる。

本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それについて、詳細な説明を介して説明する。しかしながら、それは、本開示を特定の実施形態について限定するものではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むと理解されなければならない。

本実施形態についての説明において、関連公知技術に係わる具体的な説明が、要旨を必要以上に不明確にしうると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数（例えば、第１、第２など）は、１つの構成要素を、他の構成要素と区分するための識別記号に過ぎない。

また、本明細書において、一構成要素が他の構成要素と「連結される」とか「接続される」とか言及されたときには、前記一構成要素が、前記他の構成要素と直接連結されるか、あるいは直接接続されるかともされるが、特に反対となる記載が存在しない以上、中間に、他の構成要素を媒介させ、連結されたり接続されたりもすると理解されなければならないのである。

また、本明細書において、「～部（ユニット）」、「モジュール」などと表現される構成要素は、２個以上の構成要素が１つの構成要素に合されるか、あるいは１つの構成要素がさらに細分化された機能別に、２個以上に分化されもする。また、以下で説明する構成要素それぞれは、自体が担当する主機能以外にも、他の構成要素が担当する機能のうち一部または全部の機能を追加して遂行することもでき、該構成要素それぞれが担当する主機能のうち一部機能が、他の構成要素によって専用担当されても遂行されるということは、言うまでもない。

また、本明細書において「文字」は、は単語や文章を構成する基本文字単位を意味しうる、例えば、英語の場合には、それぞれのアルファベットが文字にも該当し、数字の場合には、「０」ないし「９」の数字それぞれが文字にも該当し、韓国語の場合であるならば、子音と母音とが結合された文字（例えば、「(外1)

」）、子音、母音及び子音が結合された文字（例えば、「(外2)

」）、単独で記載された子音（例えば、「(外3)

」）、単独で記載された母音（例えば、「(外4)

」）が文字に該当しうる。また、文字は、記号（例えば、「／」、「－」など）を含んでもよい。

また、本明細書において「単語」は、少なくとも１つの文字を含む文字単位を意味しうる。「単語」を構成する文字は、互いに所定間隔以上離隔されていない。「単語」は、１つの文字からもなる。例えば、英語の不定詞「ａ」は、１つの文字からなっているが、周辺文字と所定距離以上離隔されている場合、「単語」に該当しうる。

また、本明細書において「文字グループ」は、後述するいずれか１つの部分データから認識された少なくとも１つの文字を意味しうる。

以下、本開示の技術的思想による実施形態について、順に詳細に説明する。

図１は、一実施形態による文字認識装置１００を図示する図面である。

一実施形態による文字認識装置１００は、入力データ１０を獲得し、入力データ１０内から文字５０を認識する。入力データ１０は、チェックカード、クレジットカードのような実物カードを撮影したイメージを含んでもよく、または後述するように、実物カードなどを撮影したイメージに基づき、特徴抽出モデル８００から出力された特徴マップ（feature map）を含んでもよい。

文字認識装置１００は、入力データ１０から、カード番号、有効期間のようなカード情報を、認識及び保存することができる。文字認識装置１００によって認識及び保存されたカード情報は、物品などの購入のための代金支払いにも利用される。

以下においては、図２及び図３を参照し、文字認識装置１００の動作について説明する。

図２は、一実施形態による文字認識方法について説明するためのフローチャートであり、図３は、一実施形態による文字認識装置１００を介して文字が認識される過程について説明するための図面である。

Ｓ２１０段階において、文字認識装置１００は、入力データ１０を、文字検出モデル４１０に入力する。文字認識装置１００は、文字検出モデル４１０を事前に保存することができる。文字検出モデル４１０は、学習用データに基づいても訓練される。

Ｓ２２０段階において、文字認識装置１００は、文字検出モデル４１０から出力される出力データ３０に基づき、入力データ１０内における単語領域の位置情報を獲得する。

文字検出モデル４１０から出力される出力データ３０は、入力データ１０内において、文字が存在すると予想される地点の位置を示す。文字認識装置１００は、出力データ３０に基づき、入力データ１０内において、少なくとも１つの文字を含む単語領域の位置情報を獲得する。

Ｓ２３０段階において、文字認識装置１００は、単語領域の位置情報に対応する部分データ４０を、入力データ１０から抽出する。一実施形態において、単語領域の位置情報が複数個で獲得された場合、各位置情報に対応する複数の部分データ４０が、入力データ１０からも抽出される。

Ｓ２４０段階において、文字認識装置１００は、部分データ４０を、文字認識モデル４２０に入力し、部分データ４０に含まれた文字５０を認識する。部分データ４０が複数個である場合、文字認識装置１００は、複数の部分データ４０それぞれを、文字認識モデル４２０に入力し、複数の部分データ４０それぞれに含まれた文字５０を認識することができる。

一実施形態において、文字認識装置１００は、文字検出モデル４１０の出力データ３０を、部分データ４０と共に、文字認識モデル４２０に入力することもできる。文字検出モデル４１０の出力データ３０は、入力データ１０内における個別文字の位置情報を含んでもよいので、文字認識モデル４２０の文字認識の正確度がさらに向上されうる。

文字認識装置１００は、認識された文字を保存するか、あるいはネットワークを介し、外部装置に伝送することができる。

図４は、文字検出モデル４１０によって出力される出力データ３０の一例を図示する例示的な図面である。

出力データ３０は、入力データ１０内において文字が存在する確率を、入力データ１０に対応するデータ空間（例えば、イメージ空間）上に示す第１スコアマップ３１、及び入力データ１０内における文字間の連結性（connectivity）を、入力データ１０に対応するデータ空間上に示す第２スコアマップ３３を含んでもよい。

第１スコアマップ３１内の各位置に保存された値（例えば、ピクセル値）は、当該位置に対応する入力データ１０に文字が存在する確率を示すことができる。また、第２スコアマップ３３内の各位置に保存された値（例えば、ピクセル値）は、当該位置に対応する入力データ１０内において、複数の文字が互いに隣接する確率を示すことができる。

位置対応関係に係わる計算を容易にするために、第１スコアマップ３１及び第２スコアマップ３３の大きさは、入力データ１０と同一にもなる。

後述するように、文字検出モデル４１０は、学習用データに対応して生成された第１ＧＴ（ground truth）スコアマップ及び第２ＧＴ（ground truth）スコアマップと類似した第１スコアマップ３１及び第２スコアマップ３３が出力されるようにも訓練される。

文字認識装置１００は、第１スコアマップ３１及び第２スコアマップ３３に基づき、入力データ１０内における単語領域の位置情報を決定することができるが、それについては、図５ないし図７を参照して説明する。

図５は、文字検出モデル４１０から出力された出力データ３０に基づき、入力データ１０内における単語領域の位置情報を獲得する方法について説明するための図面であり、図６は、図５に図示された二進化過程及び併合過程について説明するための図面であり、図７は、図５に図示された単語ボックス決定過程について説明するための図面である。

Ｓ５１０段階及びＳ５２０段階において、文字認識装置１００は、第１スコアマップ３１内のデータ値を臨界値と比較し、第１スコアマップ３１を二進化（binarization）し、第２スコアマップ３３内のデータ値を臨界値と比較し、第２スコアマップ３３を二進化する。一例において、文字認識装置１００は、第１スコアマップ３１内及び第２スコアマップ３３内のデータ値のうち、臨界値以上のデータ値を、第１値に変更し、臨界値未満のデータ値を、第２値に変更することができる。

図６に図示されているように、第１スコアマップ３１及び第２スコアマップ３３において、臨界値以上の値を有するデータは、二進化された第１スコアマップ６０１、及び二進化された第２スコアマップ６０３において、第１値を有するようにも変更され、第１スコアマップ３１及び第２スコアマップ３３において、臨界値未満の値を有するデータは、二進化された第１スコアマップ６０１及び二進化された第２スコアマップ６０３において、第２値を有するようにも変更される。

第１スコアマップ３１の二進化のための臨界値と、第２スコアマップ３３の二進化のための臨界値は、互いに同一であってもよく、異なっていてもよい。

Ｓ５３０段階において、文字認識装置１００は、二進化された第１スコアマップ６０１と、二進化された第２スコアマップ６０３とを併合（merge）する。例えば、文字認識装置１００は、二進化された第１スコアマップ６０１内と、二進化された第２スコアマップ６０３内とのデータ値を加えるか、あるいはＯＲ演算を行い、併合マップ６０５を生成することができる。例えば、図６に図示されているように、二進化された第１スコアマップ６０１内、及び二進化された第２スコアマップ６０３内の第１値を有するデータが、併合マップ６０５に共に含まれてもよい。そのような方法で併合マップ６０５は、入力データ１０内において、文字が存在する可能性が高い領域６０６と、そうではない領域とに区分されうる。

Ｓ５４０段階において、文字認識装置１００は、併合マップ６０５を利用し、文字が含まれた領域を示す単語ボックス６１０を決定することになる。

例えば、併合マップ６０５内において、同一（または、同一範囲）値を有し、互いに隣接するように連結された領域６０６の少なくとも一部を単語領域と決定し、決定された単語領域を含む単語ボックス６１０を決定することができる。一実施形態において、文字認識装置１００は、併合マップ６０５内における単語領域区分のために、単語領域それぞれにつき、ラベリング（labeling）を行うこともできる。

一実施形態において、文字認識装置１００は、併合マップ６０５を利用して認識された領域６０６それぞれが、実際単語を含むか否かということを検証するために、追加確認を行うことができる。具体的には、例えば、併合マップ６０５内において、同一（または、同一範囲）値を有し、互いに隣接するように連結された領域６０６を、単語候補領域として置き、単語候補領域内の各データに対応する第１スコアマップ６０１の値内に、定められた臨界値より大きいものが１以上存在すれば、当該単語候補領域を単語領域に決定することができる。すなわち、各単語候補領域に対応する第１スコアマップ６０１の値のうち最大値と臨界値とを比較し、各単語候補領域が単語領域に該当するか否かということを検証することができる。

そのようにすれば、文字と類似した背景があり、単語候補領域と決定された場合をフィルタリングすることができるのである。

一実施形態において、文字認識装置１００は、単語領域に該当すると検証されたデータの領域を含む最小サイズの単語ボックス６１０を決定することができる。

文字認識装置１００は、決定された単語ボックス６１０の位置情報（例えば、入力データ１０上または併合マップ６０５上における単語ボックス６１０のコーナー位置値）を、単語領域の位置情報として決定することができる。

単語領域の位置情報が決定されれば、文字認識装置１００は、当該位置情報に対応する部分データ４０を、入力データ１０から抽出し、抽出された部分データ４０を、文字認識モデル４２０に入力し、部分データ４０内において、文字を認識することができる。

前述のように、文字検出モデル４１０に入力される入力データ１０は、原本イメージに基づき、特徴検出モデル８００から出力される特徴マップを含むことにもなる。図８は、特徴検出モデル８００の構造について説明するための図面である。

原本イメージ２０は、特徴検出モデル８００にも入力される。ここで、原本イメージ２０は、特徴検出モデル８００に入力されるイメージを意味するものであり、最初カードなどを撮影したイメージをコピーしたイメージまたは変形したイメージではないということを意味するものではない。

原本イメージ２０は、第１コンボリューション層８０５、第２コンボリューション層８１０、第３コンボリューション層８１５、第４コンボリューション層８２０、第５コンボリューション層８２５及び第６コンボリューション層８３０において、コンボリューション処理がなされる。第６コンボリューション層８３０の出力と、第５コンボリューション層８２５の出力とが連接（concatenation）演算され、第１アップコンボリューション層８３５に入力され、第１アップコンボリューション層８３５に入力された値は、コンボリューション処理８３６）、配置正規化（normalization）８３７、コンボリューション処理８３８及び配置正規化８３９を介し、第１アップサンプリング層８４０に入力される。第１アップサンプリング層８４０の出力は、第４コンボリューション層８２０の出力と連接演算され、第２アップコンボリューション層８４５及び第２アップサンプリング層８５０で処理される。第２アップサンプリング層８５０の出力は、第３コンボリューション層８１５の出力と連接演算され、第３アップコンボリューション層８５５と第３アップサンプリング層８６０とで処理され、該処理結果は、第２コンボリューション層８１０の出力と連接演算され、第４アップコンボリューション層８６５に入力される。そして、第４アップコンボリューション層８６５から出力された結果を、入力データ１０として使用することができる。

一実施形態において、入力データ１０の横サイズ及び縦サイズは、原本イメージ２０の横サイズ及び縦サイズの１／２日でもあるが、それに限定されるものではない。

図８に図示された特徴検出モデル８００の構造は、１つの例示であるのみ、コンボリューション層、アップコンボリューション層、アップサンプリング層の層数及び処理順序は、多様にも変形される。

図９は、一実施形態による文字認識モデル４２０の構造について説明するための図面である。

文字認識モデル４２０は、入力データ１０から抽出された部分データ４０を入力され、部分データ４０内における文字５０を認識する。文字認識モデル４２０は、コンボリューションネットワーク（convolution network）４２１、回帰型ニューラルネットワーク（ＲＮＮ：recurrent neural network）４２３及びデコーダ（decoder）４２５を含んでもよい。

コンボリューションネットワーク４２１は、少なくとも１層のコンボリューション層を含み、部分データ４０をコンボリューション処理し、特徴マップを抽出する。一例示において、コンボリューションネットワーク４２１は、よく知られているＶＧＧ、ＲｅｓＮｅｔなどを含んでもよいが、一実施形態において文字認識モデル４２０は、原本イメージ２０の特徴マップ（すなわち、入力データ）から抽出された部分データ４０を入力されうるので、必要とされるコンボリューション層の層数は、少ない。

ＲＮＮ４２３は、部分データ４０に対応する特徴マップから、特徴ベクトルのシーケンスを抽出する。ＲＮＮ４２３は、ｂｉ－ＬＳＴＭ（bidirectional long-short-term memory）を介し、連続する特徴ベクトルのコンテクスト（context）関係を把握することができる。

デコーダ４２５は、特徴ベクトルのシーケンス情報から文字を抽出する。デコーダ４２５は、アテンション（attention）段階及び生成（generation）段階を遂行することができるが、該アテンション段階においてデコーダ４２５は、どのシーケンスから情報を取り出すかということを示す加重値を計算し、生成段階において、該加重値をシーケンスに適用し、ＬＳＴＭ（long-short-term memory）を介し、個別文字を抽出することができる。

一方、一実施形態において、文字認識装置１００は、さまざまな部分データ４０それぞれで認識された文字グループを、所定基準によって分類することができる。一例において、文字認識装置１００は、ある部分データ４０で認識された文字グループに、所定記号（例えば、「／」）が含まれていれば、当該文字グループを、第１種類の情報と決定することができる。カード内有効期間には、年度と月とを区分するための所定記号が含まれていることが一般的であるので、文字認識装置１００は、ある部分データ４０で認識された文字グループに所定記号が含まれていれば、当該文字グループを、有効期間情報と決定することができるのである。

もし所定記号が含まれている文字グループの個数が複数個である場合、文字認識装置１００は、年度に該当する数字（例えば、記号を基準に、右側に位置する数字）が大きい文字グループを、有効期間情報と決定することができる。カードに有効期間と発給日とが含まれている場合、有効期間に含まれた年度が、発給日に含まれた年度より大きいので、文字認識装置１００は、年度に該当する数字が大きい文字グループを、有効期間情報と決定することができるのである。

また、一実施形態において、文字認識装置１００は、複数の部分データ４０それぞれで認識された文字グループにおいて、所定記号を含んでいない文字グループを、第２種類の情報と決定することができる。第２種類の情報は、例えば、カード番号情報を含んでもよい。

また、一実施形態において、文字認識装置１００は、複数の部分データ４０それぞれで認識された文字グループを、入力データ１０内における複数の部分データ４０の位置によって整列することができる。一例として、文字認識装置１００は、入力データ１０内の左上端を基準に、Ｚスキャン方式で文字グループを整列することができる。

文字認識装置１００は、整列された文字グループにおいて、連続して整列された所定個数の文字グループに含まれた文字の個数に基づき、文字再認識が必要であるか否かということを決定することができる。一例として、文字認識装置１００は、整列された文字グループにおいて、所定個数の数字をそれぞれ含みながら、連続して整列された所定個数の文字グループが存在する場合、文字認識が正確に行われ、文字再認識が必要ではないと決定することができる。一般的に、カード番号は、１６個の数字を含むが、４個の数字同士１つの文字グループをなすという面において、文字認識装置１００は、整列された文字グループにおいて、４個の数字を含む４個の文字グループが連続して整列されている場合、文字再認識が必要ではないと決定することができる。

また、一実施形態において、文字認識装置１００は、さまざまな部分データ４０において認識された文字グループに、所定記号が存在しなければ、文字再認識が必要であると決定することができる。

文字再認識が必要でる場合、文字認識装置１００は、イメージ再撮影が必要であるという情報を、スピーカ、モニタなどを介して出力するか、あるいはネットワークを介し、外部装置に知らせることができる。一実施形態において、文字認識装置１００が、カメラのプレビューイメージから文字を認識している最中、文字再認識が必要であると決定された場合、カメラを介して連続して撮影されているプレビューイメージから、文字を再認識することもできる。

以下においては、図１０ないし図１３を参照し、文字検出モデル４１０を訓練させる方法について説明する。

図１０は、一実施形態による文字検出モデル４１０の訓練方法について説明するためのフローチャートである。

Ｓ１０１０段階において、文字認識装置１００は、学習用データ６０内において、文字が存在する確率をデータ空間上に示す第１ＧＴスコアマップ７１、及び学習用データ６０内における文字間の連結性をデータ空間上に示す第２ＧＴスコアマップ７３を獲得する。学習用データ６０の横サイズ及び縦サイズは、入力データ１０の横サイズ及び縦大きさと同一でもある。また、学習用データ６０の横サイズ及び縦サイズは、第１ＧＴスコアマップ７１の横サイズ及び縦大きさと同一でもあり、第２ＧＴスコアマップ７３の横サイズ及び縦大きさとも同一でもある。

一実施形態において、学習用データ６０は、前述の原本イメージ２０と同様に、カードのような対象体を撮影したイメージ、または当該イメージに基づいて抽出された特徴マップを含んでもよい。

文字認識装置１００は、学習用データ６０から、第１ＧＴスコアマップ７１及び第２ＧＴスコアマップ７３のうち少なくとも一つを直接生成することもでき、あるいはネットワークや外部管理者を介し、第１ＧＴスコアマップ７１及び第２ＧＴスコアマップ７３のうち少なくとも一つを受信することもできる。

第１ＧＴスコアマップ７１内の値は、当該地点において、学習用データ６０に文字が位置する確率を示すことができる。また、第２ＧＴスコアマップ７３内の値は、当該地点において、複数の文字が互いに隣接する確率を示すことができる。

Ｓ１０２０段階において、文字認識装置１００は、学習用データ６０を、文字検出モデル４１０に入力する。

Ｓ１０３０段階において、学習用データ６０に対応し、文字検出モデル４１０から出力される第１スコアマップ及び第２スコアマップそれぞれと、第１ＧＴスコアマップ７１及び第２ＧＴスコアマップ７３との比較結果により、文字検出モデル４１０の内部加重値が更新されうる。

第１スコアマップ及び第２スコアマップそれぞれと、第１ＧＴスコアマップ７１及び第２ＧＴスコアマップ７３との比較結果により、ロス（loss）値が算出されうる。該ロス値は、例えば、Ｌ２ Loss値にも該当する。該ロス値は、その以外にも、Ｌ１ loss、ｓｍｏｏｔｈＬ１ lossのような多様な方法を利用することができる。算出されたロス値は、文字検出モデル４１０に入力され、文字検出モデル４１０は、ロス値により、内部加重値を更新することができる。

図１１は、第１ＧＴスコアマップ７１を生成する方法について説明するための図面であり、図１２は、第２ＧＴスコアマップ７３を生成する方法について説明するための図面である。また、図１３は、互いに隣接した文字ボックス６２ａ，６２ｂ間において、連結ボックス６３ａを決定する方法について説明するための図面である。

図１１を参照すれば、学習用データ６０内において、少なくとも１つの文字を含む単語領域につき、単語ボックス６１ａ，６１ｂ，６１ｃ，６１ｄ，６１ｅが決定される。そして、単語ボックス６１ａ，６１ｂ，６１ｃ，６１ｄ，６１ｅ内に含まれた文字の個数により、単語ボックス６１ａ，６１ｂ，６１ｃ，６１ｄ，６１ｅが、少なくとも１つの文字ボックス６２ａ，６２ｂ，６２ｃ，６２ｄに分割される。例えば、いずれか１つの単語ボックス内に、４個の文字が含まれている場合、当該単語ボックスは、総４個の文字ボックスにも分割される。文字ボックス６２ａ，６２ｂ，６２ｃ，６２ｄそれぞれに、所定のイメージ１１００、例えば、２Ｄガウシアンイメージが合成され、第１ＧＴスコアマップ７１が生成されうる。

図１２及び図１３を参照すれば、複数の文字ボックス６２ａ，６２ｂ，６２ｃ，６２ｄのうち、互いに隣接した文字ボックス間の境目Ｌ上に位置する連結ボックス６３ａ，６３ｂ，６３ｃが決定され、連結ボックス６３ａ，６３ｂ，６３ｃに、所定イメージ１１００、例えば、２Ｄガウシアンイメージが合成され、第２ＧＴスコアマップ７３が生成されうる。

連結ボックス６３ａ，６３ｂ，６３ｃは、互いに隣接した文字ボックスの内部空間に設定された複数の地点を連結することによっても決定される。具体的には、図１３に図示されているように、互いに隣接した文字ボックス６２ａ，６２ｂのうち、左側文字ボックス６２ａ内の２個地点、及び右側文字ボックス６２ｂ内の２個地点を連結した連結ボックス６３ａが決定されうる。

一例において、互いに隣接した左側文字ボックス６２ａ及び右側文字ボックス６２ｂのコーナーのうち、左側下端コーナーと右側上端コーナーとを連結し、左側上端コーナーと右側下端コーナーとを連結し、上部及び下部の三角形を決定し、当該三角形の中心点を連結することにより、連結ボックス６３ａが決定されうる。

図１４は、一実施形態による文字認識装置１００の構成を図示するブロック図である。

図１４を参照すれば、文字認識装置１００は、メモリ１４１０、通信モジュール１４３０及びプロセッサ１４５０を含んでもよい。メモリ１４１０には、少なくとも１つのインストラクションが保存され、プロセッサ１４５０は、少なくとも１つのインストラクションにより、文字検出及び文字検出モデル４１０の訓練を制御することができる。

図１４は、１つのメモリ１４１０、及び１つのプロセッサ１４５０のみを図示しているが、文字認識装置１００は、複数のメモリ及び／または複数のプロセッサを含んでもよい。

メモリ１４１０は、文字検出モデル４１０及び文字認識モデル４２０を保存することができる。また、メモリ１４１０は、特徴抽出モデル８００をさらに保存することができる。

プロセッサ１４５０は、文字検出モデル４１０に入力データ１０を入力し、文字検出モデル４１０から出力される出力データに基づき、入力データ１０内における単語領域の位置情報を獲得することができる。そして、プロセッサ１４５０は、獲得した位置情報に対応する部分データを、文字認識モデル４２０に入力し、文字認識モデル４２０から出力された文字情報を、メモリ１４１０、またはその他保存装置に保存することができる。

一実施形態において、プロセッサ１４５０は、学習用データ６０に基づき、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも一つを訓練させることができる。

通信モジュール１４３０は、ネットワークを介し、外部装置とデータを送受信する。例えば、通信モジュール１４３０は、外部装置とイメージを送受信したり、入力データ１０内で認識された文字情報を、外部装置と送受信したりすることができる。

図１５は、一実施形態による文字認識装置１００が適用されうるサーバ装置１５１０及びクライアント装置１５２０を図示する図面である。
文字認識装置１００は、サーバ装置１５１０に具現されるとかまたはクライアント装置１５２０に具現されることができる。

文字認識装置１００がサーバ装置１５１０でもって具現される場合、サーバ装置１５１０は、クライアント装置１５２０からイメージを受信し、受信されたイメージ内において、文字を認識して保存することができる。一例において、サーバ装置１５１０は、クライアント装置１５２０から受信されたイメージ内において認識された文字情報を、クライアント装置１５２０に伝送することもできる。また、サーバ装置１５１０は、クライアント装置１５２０を含む外部装置から、学習用データを受信したり、内部に保存された学習用データを利用したりし、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも１つの訓練を制御することもできる。

文字認識装置１００がクライアント装置１５２０でもって具現される場合、クライアント装置１５２０は、クライアント装置１５２０のカメラによって撮影されたイメージ内、またはクライアント装置１５２０に保存されたイメージ内において文字を認識し、保存することができる。

一実施形態において、クライアント装置１５２０は、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも１つの実行のためのデータをサーバ装置１５１０から受信することができる。クライアント装置１５２０は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも一つに入力させ、文字を認識することができる。

クライアント装置１５２０は、外部装置から、学習用データを受信したり、内部に保存された学習用データを利用したりし、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも１つの訓練を制御することもできる。一具現例により、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも１つの実行のためのデータを、クライアント装置１５２０に提供したサーバ装置１５１０が、学習用データに基づき、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも１つの訓練を制御することもできる。その場合、サーバ装置１５１０は、訓練結果、更新された加重値情報のみを、クライアント装置１５２０に伝送し、クライアント装置１５２０は、受信された情報により、文字検出モデル４１０、文字認識モデル４２０及び特徴抽出モデル８００のうち少なくとも一つを更新することができる。

図１５は、クライアント装置１５２０として、デスクトップＰＣ（personal computer）を図示しているが、それに限定されるものではなく、クライアント装置１５２０は、ノート型パソコン、スマートフォン、タブレットＰＣ、ＡＩ（artificial intelligence）ロボット、ＡＩスピーカ、ウェアラブル機器などを含んでもよい。

なお、前述の本開示の実施形態は、コンピュータで実行されうるプログラムに作成可能であり、該作成されたプログラムは、媒体にも保存される。

該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために、臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散存在するものでもある。該媒体の例示としては、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体；ＣＤ－ＲＯＭ（compact disc read only memory）及びＤＶＤ（digital versatile disc）のような光記録媒体；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical medium）；及びＲＯＭ（read only memory）、ＲＡＭ（random access memory）、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体また保存媒体も挙げることができる。

以上、本開示の技術的思想について、望ましい実施形態を挙げて詳細に説明したが、本開示の技術的思想は、前述の実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。

Claims

文字認識装置による入力データ内における文字認識方法であって、
入力データを、文字検出モデルに入力する段階と、
前記文字検出モデルから出力される出力データに基づき、前記入力データ内における単語領域の位置情報を獲得する段階と、
前記獲得した位置情報に対応する部分データを、前記入力データから抽出する段階と、
前記部分データを、文字認識モデルに入力し、前記部分データ内において、文字を認識する段階と、を含み、
前記出力データは、前記入力データ内において文字が存在する確率を示す第１スコアマップ及び前記入力データ内における文字間の連結性を示す第２スコアマップを含むことを特徴とする、
文字認識方法。
前記単語領域の位置情報を獲得する段階は、
前記第１スコアマップ内及び前記第２スコアマップ内の値と、臨界値との比較結果により、前記第１スコアマップ及び前記第２スコアマップを二進化する段階と、
二進化された前記第１スコアマップと二進化された前記第２スコアマップとを併合する段階と、
併合マップ内において、所定値を有する領域を決定する段階と、
前記決定された領域を含む単語領域の位置情報を決定する段階と、を含むことを特徴とする、
請求項１に記載の文字認識方法。
前記単語領域の位置情報を決定する段階は、
前記決定された領域を含む最小サイズの単語ボックスを決定する段階と、
前記決定された単語ボックスの位置情報を、前記単語領域の位置情報と決定する段階と、を含むことを特徴とする、
請求項２に記載の文字認識方法。
前記文字認識方法は、
学習用データ内において、文字が存在する確率をデータ空間上に示す第１ＧＴスコアマップ、及び前記学習用データ内における文字間の連結性をデータ空間上に示す第２ＧＴスコアマップを獲得する段階と、
前記学習用データを、前記文字検出モデルに入力する段階と、をさらに含むが、
前記学習用データに対応し、前記文字検出モデルから出力される第１スコアマップ及び第２スコアマップのそれぞれと、前記第１ＧＴスコアマップ及び前記第２ＧＴスコアマップとの比較結果により、前記文字検出モデルの内部加重値が更新されることを特徴とする、
請求項１に記載の文字認識方法。
前記第１ＧＴスコアマップを獲得する段階は、
前記学習用データ内の単語を含む単語ボックスを決定する段階と、
前記決定された単語ボックスに含まれた文字の個数により、前記単語ボックスを複数の文字ボックスに分割する段階と、
前記複数の文字ボックスのそれぞれに所定のイメージを合成し、前記第１ＧＴスコアマップを生成する段階と、を含むことを特徴とする、
請求項４に記載の文字認識方法。
前記第２ＧＴスコアマップを生成する段階は、
前記複数の文字ボックスにおいて、互いに隣接した文字ボックス間の境目上に位置する連結ボックスを決定する段階と、
前記連結ボックスに所定のイメージを合成し、前記第２ＧＴスコアマップを生成する段階と、を含むことを特徴とする、請求項５に記載の文字認識方法。
当該文字認識方法は、
前記部分データ内で認識された文字グループに所定の記号が含まれている場合、前記文字グループを、第１種類の情報と決定する段階をさらに含むことを特徴とする、
請求項１に記載の文字認識方法。
前記入力データから抽出された部分データの個数は複数個であるが、
当該文字認識方法は、
複数の部分データのそれぞれで認識された文字グループを、前記入力データ内における前記複数の部分データの位置によって整列する段階をさらに含むことを特徴とする、
請求項１に記載の文字認識方法。
当該文字認識方法は、
前記整列された文字グループにおいて、連続して整列された所定個数の文字グループに含まれた文字の個数に基づき、文字再認識が必要であるか否かということを決定する段階をさらに含むことを特徴とする、
請求項８に記載の文字認識方法。
前記文字を認識する段階は、
前記文字検出モデルから出力される出力データを、前記文字認識モデルとしてさらに入力させ、前記部分データ内において、文字を認識する段階を含むことを特徴とする、
請求項１に記載の文字認識方法。
前記入力データは、
原本イメージに対応し、特徴抽出モデルから出力された特徴マップを含むことを特徴とする、
請求項１に記載の文字認識方法。
ハードウェアと結合し、請求項１に記載の文字認識方法を実行するために、媒体に保存された、プログラム。
プロセッサと、
少なくとも１つのインストラクションを保存するメモリと、を含み、
前記プロセッサは、前記少なくとも１つのインストラクションにより、
入力データを、文字検出モデルに入力し、
前記文字検出モデルから出力される出力データに基づき、前記入力データ内における単語領域の位置情報を獲得し、
前記獲得した位置情報に対応する部分データを、前記入力データから抽出し、
前記部分データを、文字認識モデルに入力し、前記部分データ内において、文字を認識し、
前記出力データは、前記入力データ内において文字が存在する確率を示す第１スコアマップ及び前記入力データ内における文字間の連結性を示す第２スコアマップを含むことを特徴とする、
文字認識装置。