JP7246104B2

JP7246104B2 - テキスト行識別に基づくナンバープレート識別方法

Info

Publication number: JP7246104B2
Application number: JP2021105233A
Authority: JP
Inventors: 黄徳双; 秦魏
Original assignee: 同▲済▼大学
Priority date: 2020-07-28
Filing date: 2021-06-24
Publication date: 2023-03-27
Anticipated expiration: 2041-06-24
Also published as: CN111914838A; CN111914838B; JP2022025008A

Description

本発明は、画像処理とモード識別に基づくナンバープレート識別技術に関し、特にテキスト行識別に基づくナンバープレート識別方法に関する。

ナンバープレート検出と識別は、典型的なコンピュータ視覚分野のタスクであり、インテリジェント交通システムにおいて広い応用の将来性がある。現代交通システムの発展に伴い、交通量は、急速に増加し、ナンバープレート識別システムは、交通管理、公共安全などを補助することができる。

過去十数年来、ナンバープレート識別問題は、業界で広く注目されている。画質に影響を与えるさまざまな要因、例えば撮影環境（照明、位置、焦点ぼけなど）、ピクチャ品質（解像度など）及び複雑な撮影背景を考慮すると、任意のシーンでのナンバープレート識別タスクは、依然として困難に直面している。

既存のいくつかのナンバープレート識別システムの識別方法は、主にナンバープレート検出、キャラクタ分割及びシーン文字識別のステップを含む。ナンバープレート識別は、自然画像からナンバープレートの位置を検出し、且つ検出されたナンバープレート上からテキスト情報を識別するという二つの部分にまとめることができる。既存のいくつかのナンバープレート識別システムのワークフローにおいて、あるものは、入力された自然画像から出力されたテキスト内容までの完全なワークフローを実現することに重点を置き、あるワークフローは、識別の正確性を向上させるために、ナンバープレート検出の前に車両検出を加えている。

既存のナンバープレート識別方法は、ディープラーニングに基づく方法と非ディープラーニングに基づく方法の二つに分けることができる。ディープラーニングが発展する前に、一般的には色情報、テキスト情報、またはナンバープレートのエッジ情報に基づいてナンバープレートを大まかに識別する。使用される方法は、一般的には有限ボルツマンマシンまたはサポートベクトルマシンである。

近年、ディープラーニングの発展に伴い、キャラクタ分割に基づくナンバープレート識別方法が比較的に流行している。キャラクタ分割に基づく方法には、事前に分割されたトレーニングデータを必要とするため、トレーニングデータへのタグ付けが困難であり、且つそれは、フォントファイルを利用して画像を自動的に生成するため、ナンバープレート識別の効果とロバスト性が比較的に低い。

本発明の目的は、上記従来の技術の欠陥を克服するために、識別効果及びロバスト性を向上させるテキスト行識別に基づくナンバープレート識別方法を提供することである。

本発明の目的は、以下の技術案よって実現されてもよい。

テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するＳ１と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップＳ２と、
ＣＰＴＮネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップＳ３と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップＳ４とを含む。

さらに、前記ステップＳ２において、ＹＯＬＯｖ３ネットワークによってオリジナル画像におけるナンバープレート部分を検出する。

さらに、前記ＹＯＬＯｖ３ネットワークは、オリジナル画像の特徴図ディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する。

さらに、前記ステップＳ３は、具体的には、
回帰モデルを利用してＣＰＴＮネットワークの垂直検出フレームを予測して得るＳ３１と、
予測して得られる垂直検出フレームに対して、ＣＰＴＮネットワークにおいて発生する可能性のある水平方向での測位が正確でないことを防止できる境界最適化を行うＳ３２と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得て、垂直検出フレームの合併は、ＣＴＰＮネットワークが同一ラインのテキストを二つの部分に分割することを防止できるＳ３３と、
ＣＰＴＮネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るＳ３４と、を含む。

さらに、前記垂直フレーム検出フレームのセンター位置ｔ_ｃと高さｔ_ｈの計算方法は、以下の通りである。

そのうち、ｃ^ｂ _ｙが境界フレームのセンター位置であり、ｈ^ｂが境界フレームの高さであり、ｃ^ａ _ｙがアンカーフレームのセンターであり、ｈ^ａがアンカーフレームの高さであり、前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量ｔ_ｗを計算し、該オフセット量ｔ_ｗの計算式は、以下の通りである。

そのうち、ｘ^ａ _ｓｉｄｅが実際のナンバープレート水平境界に最も近い座標であり、ｃ^ａ _ｘが垂直検出フレームセンター位置のｘ座標であり、ｗ^ａが垂直検出フレームフレームの幅である。

さらに、前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ－デコーダパラダイムのアテンションメカニズムが内蔵されているｓｅｑ２ｓｅｑネットワークを採用する。

さらに、前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Ｃに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Ａ^ｒを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Ａと補正テキスト行制御点ベクトル群Ａ^ｒとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る。

さらに好ましくは、前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である。

さらに、前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向ＬＳＴＭネットワークに入力した後、テキスト特徴シーケンスを得るＳ４１と、

デコーダは、コンテキストベクトル、デコーダ内部状態及び前ステップの出力を利用し、アテンションメカニズムとＧＲＵサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するＳ４３と、を含む。

さらに、前記デコーダの計算式は、以下の通りである。

そのうち、数式４がデコーダによってステップｔ_２で出力される現在のテキストシンボル予測確率であり、数式５がデコーダのステップｔ_２の内部状態ベクトルであり、数式６がデコーダのステップｔ_２－１の内部状態ベクトルであり、数式７デコーダのステップｔ_２のコンテキストベクトルであり、数式８がデコーダのステップｔ_２－１の出力であり、ｒｎｎがＧＲＵサイクルネットワークユニットであり、数式９がキャラクタ分類確率図であり、Ｗ_０が完全接続ネットワークパラメータであり、ｂ_０が完全接続ネットワークオフセット量である。

前記デコーダのステップｔ_２のコンテキストベクトル数式７は、アテンションメカニズムによって得られ、その数式は、以下の通りである。

そのうち、Ｗ_ｃｏｎｖがコンボリューションネットワークパラメータであり、数式１１が完全接続ネットワークパラメータであり、数式１２がエンコーダのステップｔ_１のテキスト特徴シーケンスであり、数式１３が重み付けパラメータであり、Ｔが入力シーケンスの長さであり、数式１４がｋ時刻重み付けパラメータであり、ｖ、Ｗ、Ｖがいずれも完全接続ネットワークパラメータであり、ＢＬＳＴＭが双方向ＬＳＴＭネットワークであり、数式１５がエンコーダのステップｔ_１のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式１６がエンコーダのステップｔ_１－１のテキスト特徴シーケンスである。

従来技術に比べて、本発明は、以下の利点を有する。
１）本発明は、キャラクタ分割がない全新のナンバープレート識別方法を提案し、キャラクタ分割の代わりにナンバープレートテキスト行検出を導入し、キャラクタ分割に比べて、本発明は、同一ラインの連続テキストを全体として検出し、トレーニングに対する後続の識別モデルの効果を向上させ、既存のナンバープレート識別方法と比べて、本発明の方法は、モデルのロバスト性を向上させ、モデルの識別の正確度を向上させる。
２）本発明は、ナンバープレート識別問題を古典的なコンピュータ視覚問題－－画像に基づくシーケンス識別に転化し、このように、トレーニングデータにはナンバープレートの二次元座標と識別する必要なキャラクタシーケンスのみを必要として、モデルトレーニングの時間とコストを節約する。
３）本発明では、ナンバープレートテキスト行検出によって、複数行のテキストのナンバープレートに適用でき、複数の国と地域の異なるナンバープレートを識別することができるため、本発明は、日常の都市交通管理に運用できるだけでなく、都市間、ひいては国際交通管理にも運用でき、スマートシティ建設の重要な構成部分となり、人工知能技術と中国の都市建設、道路建設、交通管理との結合に対して積極的な推進意義がある。

本発明の方法の全体フローチャートである。ナンバープレート検出のためのＹＯＬＯｖ３ネットワーク構造概略図である。ナンバープレートテキスト行検出のためのネットワークモデル概略図である。ナンバープレートテキスト行補正のためのネットワークモデル概略図である。ナンバープレートテキスト行制御点を予測するための測位ネットワーク概略図である。ナンバープレートテキスト行識別のためのネットワークモデル概略図である。

以下、添付図面と具体的な実施例を参照しながら、本発明について詳細に説明する。明らかに、記述された実施例は、本発明の一部の実施例であり、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。

実施例；
図１に示すように、本発明は、テキスト行識別に基づくナンバープレート識別方法を提供し、自然シーンでナンバープレートを識別でき、該方法は、コンボリューションニューラルネットワークとサイクルニューラルネットワークに基づき、主にナンバープレート検出（ＬＰＤ）、ナンバープレートテキスト検出（ＬＰＴｅｘｔＤｅｔｅｃｔｉｏｎ）及びナンバープレートテキスト識別（ＬＰＴｅｘｔＲｅｃｔｉｆｉｃａｔｉｏｎａｎｄＲｅｃｏｇｎｉｔｉｏｎ）の三つのステップを含む。

そのうち、ナンバープレート検出ステップにおいて、ＹＯＬＯｖ３ネットワークによってオリジナル画像におけるナンバープレート部分を検出し、例えば、図１において、オリジナル画像がオートバイクに乗っている人であり、ナンバープレート検出を経た後、オリジナル画像におけるナンバープレート一部のサブ画像を抽出する。

ナンバープレートテキスト行検出ステップにおいて、ＣＰＴＮネットワークによってナンバープレート上のテキスト行を分割し、国際上によく見られるナンバープレート上のテキストは、単一行と複数行に分けられてもよい。複数行のテキストに対して、後続の識別作業を容易にするために、まず二行のテキストを複数の単一行のテキストに分割する必要がある。単一行のテキストに対して、画像から直感的に見ると、前のステップのナンバープレート検出は、必ずしもナンバープレート上のテキスト行の位置を正確に測位することができないため、このステップも不可欠である。図１のように、一つの二行のナンバープレートテキストが上下二行に分割され、単独で後続ネットワークに送られてテキスト識別が行われる。

ナンバープレートテキスト行識別ステップは、ＴＰＳに基づく補正ネットワークと、アテンションメカニズムを含むＳｅｑ２Ｓｅｑモデルに基づく識別ネットワークとによって、テキスト行の文字を識別し、ナンバープレート識別を完了し、撮影角度などの問題の影響で、ナンバープレートが画像中でねじれてしまう可能性があり、テキスト識別の効果を向上させるために、識別前にテキスト行に対して補正操作を行う必要がある。図１において、最終的に二つのテキスト行をそれぞれ補正と識別した後、完全なナンバープレートの識別結果を得る。

三つのステップの具体的な実行過程は、以下の通りである。

（１）ナンバープレート検出ステップ
ＹＯＬＯｖ３ネットワークを使用してオリジナル画像におけるナンバープレート部分を検出する時、オリジナル入力画像をまずグリッドに分割する必要があり、ナンバープレートのセンターがグリッドユニットにある場合、該グリッドは、ナンバープレート検出を担当する。

図２に示すように、ＹＯＬＯｖ３ネットワークのバックボーンネットワークは、古典的なＤａｒｋｎｅｔ－５３であり、主に５３レイヤのコンボリューションネットワークで構成され、ｂｏｔｔｏｍ－ｕｐ経路、ｔｏｐ－ｄｏｗｎ経路及びサイド接続を含む。

本発明は、入力画像の解像度を６０８＊６０８に設定し、Ｄａｒｋｎｅｔ－５３のネットワーク構造に従って、特徴図のディメンションを五回低減させる：３０４、１５２、７６、３８、１９。異なるサイズのターゲットを検出する時のネットワークの効果を向上させるために、ＹＯＬＯｖ３ネットワークは、三種類の異なる次元の特徴図を使用してナンバープレートを検出し、それぞれは７６、３８、１９であり、異なるサイズの特徴テンソルに対してアップサンプリングを経た後にスプライスを行い、最後に出力される特徴テンソルは、高い正確性を有するだけでなく、さらに高い意味性を有する。境界フレームの回帰複雑性を低減させるために、本発明は、Ｆａｓｔｅｒ－ＲＣＮＮにおけるＡｎｃｈｏｒＢｏｘの概念又はＳＳＤにおけるＰｒｉｏｒＢｏｘの概念を導入し、ｋ－ｍｅａｎｓクラスタリング方法を使用してＰｒｉｏｒＢｏｘを得る。

（２）ナンバープレートテキスト行検出ステップ
本発明のナンバープレート識別方法は、複数の国と地域のナンバープレートに適用され、周知のように、国内でよく見られるナンバープレートの文字は、いずれも単一行であるが、他の国のナンバープレートの文字が複数行であることを考慮すると、後続の文字識別を容易にするために、ナンバープレートの文字を行ごとに検出する必要があると考えられる。単一行のテキストのナンバープレートに対して、該ステップは、検出領域と実際領域のＩｏＵ値を向上させることができる。

一般的な検出ターゲットとは異なり、テキスト行は、一つのキャラクタシーケンスであり、一貫性の意味を有する。領域生成ネットワーク（ＲＰＮ）は、ナンバープレートテキスト行の開始位置と終了位置を測位することが比較的に困難であるため、ＣＴＰＮモデルを採用してナンバープレートテキスト行を検出する。

ＣＴＰＮネットワークは、垂直フレームを導入してテキスト行を検出し、垂直フレームは、一組の等幅の検出フレームであり、それらの高さは、それぞれ異なり、一つの垂直フレームは、センター位置と高さの二つの指標で決定されてもよい。ＣＰＴＮネットワークにおいて、一つの回帰モデルを用いて垂直フレームを予測する。垂直フレームのセンター位置ｔ_ｃと高さｔ_ｈの計算方法は、以下の通りである。

そのうち、ｃ^ｂ _ｙとｈ^ｂは、それぞれ境界フレームのセンター位置と高さを表し、ｃ^ａ _ｙとｈ^ａは、入力画像に基づいて事前に計算し、計算を助けることができる。しかし、画像が水平方向上に１６画素の等幅の領域に分割されているため、テキスト行検出フレームが水平方向上にも実際のナンバープレート領域を完全にカバーできることを保証できず、ＣＰＴＮモデルにおいて、水平方向での測位が正確でない状況が発生する可能性がある。この問題を解决するために、境界最適化の方法を導入し、各垂直フレームが一つの水平方向検出のオフセット量を計算し、このオフセット量の計算方法は、以下の通りである。

そのうち、ｘ^ａ _ｓｉｄｅが実際のナンバープレート水平境界に最も近い座標を表し、ｃ^ａ _ｘが垂直フレームセンター位置のｘ座標を表し、ｗ^ａが垂直フレームの幅を表す。

図３に示すように、ＣＴＰＮモデルのバックボーンネットワークは、ＶＧＧ１６ネットワークを使用し、入力画像は、任意の大きさであってもよく、ＶＧＧ１６によって出力される特徴図のサイズは、入力画像の大きさに依存する。複数回のコンボリューションを経て特徴を抽出し、最終的にＷ＊Ｈ＊Ｎの特徴図を得て、Ｎが特徴チャネル数であり、ＷとＨがそれぞれ特徴図の幅と高さである。次に２５６個の３＊３のコンボリューションコアが特徴図上でスライドし、画素点ごとに２５６次元の特徴ベクトルを抽出し、ピクチャにおける同一行内で抽出された複数の２５６次元ベクトルを一つのシーケンスと見なし、ＢＬＳＴＭモジュール中に導入し、ＢＬＳＴＭモジュールの後に５１２次元の完全接続層と出力層が接続される。

ＣＴＰＮネットワークは、同一行のテキストを二つの部分に分割することがあり、本発明では、検出フレーム合併を導入することにより、後続の処理を行い、二つの検出が垂直方向上での重畳がある程度に達した場合、それらを一つの検出フレームに合併し、具体的には、一つの閾値を設定し、垂直方向上での重畳部分が閾値よりも高い場合、両者を合併することである。

（３）ナンバープレートテキスト行識別ステップ
該ステップは、すでに検出されたナンバープレート上のテキスト行に対する識別を完了する必要があるが、識別する前に、テキスト行を補正する必要がある。撮影画角の問題により、ピクチャ上の文字が歪んで見える可能性があり、ある程度の補正により、歪んだ文字をできるだけ規則的にし、このように、識別の正確率を向上させることができる。

本発明は、Ｓｅｑ２Ｓｅｑネットワークを使用してテキスト識別を行い、そのうちに古典的なアテンションメカニズムが含まれる。テキストの補正に対して、本発明は、ＳＴＮネットワークをテキスト識別ネットワークに嵌め込むことによって実現され、２Ｄ変換によって歪みとねじれのテキストを補正する。

図４に示すように、ＳＴＮネットワークの主な考え方は、空間変換操作をニューラルネットワークモデルにモデリングする。補正対象の画像において、矩形フレームの四つの頂点と対角線の交点にそれぞれ位置する五つの制御点を決定する。入力ピクチャをＩに仮定し、出力される補正後の画像がＩ_ｒであり、原画像の五つの制御点の座標からなるベクトル群がＡと表され、出力される補正後の画像における五つの制御点からなるベクトル群がＡ^ｒと表され、オリジナルテキスト行の制御点ベクトル群Ａにおける各制御点の座標は、具体的には、数式１９と表される。二次元変換の本質は、一つの補間函数ｆに近似し、Ａ^ｒ＝ｆ（Ａ）を満たすことである。ＴＰＳ（Ｔｈｉｎ－Ｐｌａｔｅ－Ｓｐｌｉｎｅ）モデルは、歪みテキスト補正の処理において非常に有効であることが証明されており、ナンバープレートピクチャの補正タスクは、五つの制御点位置の予測タスクに帰着されてもよく、測位ネットワークを用いて画像Ｉ上の制御点を予測し、測位ネットワークは、逆伝播勾配によって、出力画像の制御点を回帰分析し、出力画像の五つの制御点を自動的にラベル付けし、

６つのコンボリューションフィルタレイヤ、５つの最大プールレイヤ及び二つの完全接続レイヤで構成される。一つの１０次元のベクトルを出力し、５つの２次元ベクトルに再構成し、５つの制御点座標に対応させる。制御点の座標は、正規化を経て、つまり、左上のの頂点座標が（０、０）であり、右下の頂点座標が（１、１）である。

ｐ点の座標が［ｘ_ｐ，ｙ_ｐ］と表され、それに対応する補正後の点ｐ’の座標は、以下のような方法に従って計算することができる。

そのうち、Φ（ｘ）＝ｘ^２ｌｏｇ（ｘ）は、点ｐとｋ番目の制御点との間のユークリッド距離に応用される核関数である。

線形システムを解くことによってＴＰＳのパラメータを解いた後、最終的に得られる出力される補正画像の数式は、以下の通りである。

そのうち、Ｖがダウンサンプラであり、Ｉが入力ピクチャであり、Ｉ_ｒが補正後のピクチャであり、原図と補正図の画素点は、ダウンサンプリングを経て最終的に補正された画像を得る。

図６に示すように、ナンバープレートテキスト識別ネットワークは、ナンバープレートテキスト行のキャラクタシーケンスを出力するために用いられ、該ネットワークは、一つのｓｅｑ２ｓｅｑフレームであり、且つエンコーダ－デコーダパラダイムに依存する内蔵されているアテンションメカニズムを有する。

まず、エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上から特徴を抽出し、画像サイズが３２＊１００である。特徴を抽出するコンボリューションネットワークは、ＲｅｓＮｅｔ－５０に基づく改良であり、最後の三つのダウンサンプリングレイヤのコンボリューションコアの移動ステップサイズは、（２、１）であり、このようにするのは、各特徴チャネル上の特徴図が一つのベクトルであることを保証するためであり、従って、最後に得られる特徴図の大きさは、１＊２５＊５１２（ｈ＊ｗ＊ｎ）である。その後特徴図を分割し、一つのベクトルシーケンスで構成されるベクトル群を得て、Ｘ＝［ｘ_１，ｘ_２，…，ｘ_Ｔ］と表され、そのうち、Ｔ＝２５であり、すなわち特徴図大きさにおける特徴幅ｗ、ベクトル群における各ベクトルは、いずれも５１２次元であり、すなわち特徴図大きさにおける特徴チャネル数ｎである。

双方向ＬＳＴＭ（ＢＬＳＴＭ）ネットワークは、二つの方向上での特徴シーケンスの長距離依存関係を取得することができるので、ＢＬＳＴＭを前のステップで取得された特徴シーケンスに応用することにより、より豊富なコンテキスト関係を有する特徴シーケンスを取得する。ＢＬＳＴＭによって出力される新たな特徴シーケンスは、Ｈ＝［ｈ_１，ｈ_２，…，ｈ_Ｔ］と表され、そのうち、任意の一つの数式２２は、数式２３と表されてもよい。

ＢＬＳＴＭの任意の一ステップにおいて、デコーダは、最終的にコンテキストベクトルＣ、デコーダの内部状態ｓ、前のステップの出力ｙに基づき、最後に一つの確率図を出力し、この確率図は、各キャラクタとシーケンスターミネータ号（ＥＯＳ）の確率を表す。コンテキストベクトルＣは、Ｈの集約情報であり、Ｃ＝［ｃ_１，ｃ_２，…，ｃ_Ｔ］，Ｃ＝ｑ（Ｈ）と表され、ここでのｑは、アテンションメカニズムであり、数式２４と表されてもよく、
そのうち、数式２５は、エンコーダのステップｔ_１の隠れた状態数式２６とデコーダのステップｔ_２－１の隠れた状態数式２７によって計算して得られるものであり、Ｗ、Ｖ、ｂは、いずれもトレーニング可能な重み付けである。

エンコーダの出力は、また入力としてデコーダに入り、デコーダは、一つの出力ベクトルｚと一つの新しい状態ベクトルｓを計算する。

そのうち、ｙは、ｏｎｅ－ｈｏｔ形式であり、ｒｎｎは、ＧＲＵサイクルネットワークユニットを表し、出力ｚは、現在のテキストシンボルを予測するために用いられる。

最尤推定の考え方を運用し、出力シーケンスの条件確率を最大化するために、最適化する必要なターゲット関数は、以下の通りである。

出力が最大長さを超えた場合、またはＥＯＳシンボルを得た場合、出力シーケンスが終了し、最終的に画像中のナンバープレートテキスト行の識別結果を得たことを示し、本実施例は、ＢｅａｍＲｅｓｅａｒｃｈアルゴリズムを使用し、そのうちＢｅａｍｓｉｚｅのパラメータが５に設定される。

本発明は、ＡＯＬＰデータセットとＵＦＰＲ－ＡＬＰＲデータセットによってトレーニングとテストを行うことにより、本発明によって提案される方法の高いロバスト性と高い性能を検証した。

ナンバープレート検出ステップにおいて、ＩｏＵ値が０．５より大きい場合、ナンバープレートの検出に成功したとみなされ、ＩｏＵの数式は、以下の通りである。

そのうち、Ｒ_ｄｅｔが検出フレームであり、Ｒ_ｇｔがマークフレームである。

ナンバープレートテキスト行検出タスクにおいて、ＩｏＵは、検出の正確性を評価するために用いられる。また、ナンバープレートテキスト識別タスクといくつかのナンバープレートテキスト検出タスクにおいて、Ｆ_１－ｓｃｏｒｅ使用して性能を評価し、数式は、以下の通りである。

この指標は、正確率ｐｒｅｃｅｓｉｏｎとリコール率ｒｅｃａｌｌを同時に考慮した。

本実施例では、二つのデータセットを使用してそれぞれ検証する。各ステップが終了した後、いずれもその効果を検査し、各ステップがいずれも高い性能と高いロバスト性であることを確保する。ＵＦＰＲ－ＡＬＰＲデータセットとは異なり、ＡＯＬＰデータセット自体は、トレーニングセットとテストセットを分割していないので、そのうちの三つのサブセットのうちの二つをトレーニングセットとして、一つをテストセットとして利用してもよく、例えば、ＬＥとＡＣサブセットを使用してナンバープレート識別モデルをトレーニングし、ＲＰサブセットを使用してテストする。二つのデータセットのそれぞれの三つの主なステップにおける詳細なテスト結果は、表１から表６を参照してください。

以上に記述されているのは、本発明の具体的な実施の形態に過ぎず、本発明の保護範囲は、それに限らない。いかなる当業者が、本発明に掲示される技術的範囲内に、各種の等価な修正又は置き換えを容易に想到でき、これらの修正又は置き換えは、いずれも、本発明の保護範囲内に含まれるべきである。このため、本発明の保護範囲は、請求項の保護範囲を基にすべきである。

Claims

テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するＳ１と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップＳ２と、
テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップＳ３と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップＳ４とを含み、
前記ナンバープレートテキスト行識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ－デコーダパラダイムのアテンションメカニズムが内蔵されているｓｅｑ２ｓｅｑネットワークを採用し、
前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向ＬＳＴＭネットワークに入力した後、テキスト特徴シーケンスｈ _ｔを得るＳ４１と、
テキスト特徴シーケンスｈ _ｔをデコーダに入力するＳ４２と、
デコーダは、コンテキストベクトル、デコーダ内部状態及び前のステップの出力を利用し、アテンションメカニズムとＧＲＵサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するＳ４３と、を含み、
前記デコーダの計算式は、数式１の通りであり、

そのうち、数式２がデコーダによってステップｔ _２で出力される現在のテキストシンボル予測確率であり、数式３がデコーダのステップｔ _２の内部状態ベクトルであり、数式４がデコーダのステップｔ _２－１の内部状態ベクトルであり、数式５デコーダのステップｔ _２のコンテキストベクトルであり、数式６がデコーダのステップｔ _２－１の出力であり、ｒｎｎがＧＲＵサイクルネットワークユニットであり、数式７がキャラクタ分類確率図であり、Ｗ _０が完全接続ネットワークパラメータであり、ｂ _０が完全接続ネットワークオフセット量であり、

前記デコーダのステップｔ _２のコンテキストベクトル数式５は、アテンションメカニズムによって得られ、その数式は、数式８の通りであり、

そのうち、ｗ _ｃｏｎｖがコンボリューションネットワークパラメータであり、数式９が完全接続ネットワークパラメータであり、数式１０がエンコーダのステップｔ _１のテキスト特徴シーケンスであり、数式１１が重み付けパラメータであり、Ｔが入力シーケンスの長さであり、数式１２がｋ時刻重み付けパラメータであり、ｖ、Ｗ、Ｖがいずれも完全接続ネットワークパラメータであり、ＢＬＳＴＭが双方向ＬＳＴＭネットワークであり、数式１３がエンコーダのステップｔ _１のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式１４がエンコーダのステップｔ _１－１のテキスト特徴シーケンスである、

ことを特徴とする、テキスト行識別に基づくナンバープレート識別方法。
前記ステップＳ２において、ＹＯＬＯｖ３ネットワークによってオリジナル画像におけるナンバープレート部分を検出する、ことを特徴とする、請求項１に記載のテキスト行識別に基づくナンバープレート識別方法。
前記ＹＯＬＯｖ３ネットワークは、オリジナル画像の特徴図のディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する、ことを特徴とする、請求項２に記載のテキスト行識別に基づくナンバープレート識別方法。
前記ステップＳ３は、具体的には、
回帰モデルを利用してＣＴＰＮネットワークの垂直検出フレームを予測して得るＳ３１と、
予測して得られる垂直検出フレームに対して境界最適化を行うＳ３２と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得るＳ３３と、
ＣＴＰＮネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るＳ３４と、を含む、ことを特徴とする、請求項１に記載のテキスト行識別に基づくナンバープレート識別方法。
前記垂直検出フレームのセンター位置ｔ_ｃと高さｔ_ｈの計算方法は、数式１５と数式１６の通りであり、そのうち、ｃ^ｂ _ｙが境界フレームのセンター位置であり、ｈ^ｂが境界フレームの高さであり、ｃ^ａ _ｙがアンカーフレームのセンターであり、ｈ^ａがアンカーフレームの高さであり、

前記境界最適化は、各垂直検出フレームが一つの水平方向検出のオフセット量ｔ_ｗを計算し、該オフセット量ｔ_ｗの計算式は数式１７の通りであり、

そのうち、ｘ^ａ _ｓｉｄｅが実際のナンバープレート水平境界に最も近い座標であり、ｃ^ａ _ｘが垂直検出フレームセンター位置のｘ座標であり、ｗ^ａが垂直検出フレームフレームの幅であることを特徴とする、請求項４に記載のテキスト行識別に基づくナンバープレート識別方法。
前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Aに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Ａ^ｒを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Cと補正テキスト行制御点ベクトル群Ａ^ｒとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る、ことを特徴とする、請求項１に記載のテキスト行識別に基づくナンバープレート識別方法。
前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である、ことを特徴とする、請求項６に記載のテキスト行識別に基づくナンバープレート識別方法。