JP7246104B2 - テキスト行識別に基づくナンバープレート識別方法 - Google Patents

テキスト行識別に基づくナンバープレート識別方法 Download PDF

Info

Publication number
JP7246104B2
JP7246104B2 JP2021105233A JP2021105233A JP7246104B2 JP 7246104 B2 JP7246104 B2 JP 7246104B2 JP 2021105233 A JP2021105233 A JP 2021105233A JP 2021105233 A JP2021105233 A JP 2021105233A JP 7246104 B2 JP7246104 B2 JP 7246104B2
Authority
JP
Japan
Prior art keywords
license plate
network
text
text line
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021105233A
Other languages
English (en)
Other versions
JP2022025008A (ja
Inventor
黄徳双
秦魏
Original Assignee
同▲済▼大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 同▲済▼大学 filed Critical 同▲済▼大学
Publication of JP2022025008A publication Critical patent/JP2022025008A/ja
Application granted granted Critical
Publication of JP7246104B2 publication Critical patent/JP7246104B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

本発明は、画像処理とモード識別に基づくナンバープレート識別技術に関し、特にテキスト行識別に基づくナンバープレート識別方法に関する。
ナンバープレート検出と識別は、典型的なコンピュータ視覚分野のタスクであり、インテリジェント交通システムにおいて広い応用の将来性がある。現代交通システムの発展に伴い、交通量は、急速に増加し、ナンバープレート識別システムは、交通管理、公共安全などを補助することができる。
過去十数年来、ナンバープレート識別問題は、業界で広く注目されている。画質に影響を与えるさまざまな要因、例えば撮影環境(照明、位置、焦点ぼけなど)、ピクチャ品質(解像度など)及び複雑な撮影背景を考慮すると、任意のシーンでのナンバープレート識別タスクは、依然として困難に直面している。
既存のいくつかのナンバープレート識別システムの識別方法は、主にナンバープレート検出、キャラクタ分割及びシーン文字識別のステップを含む。ナンバープレート識別は、自然画像からナンバープレートの位置を検出し、且つ検出されたナンバープレート上からテキスト情報を識別するという二つの部分にまとめることができる。既存のいくつかのナンバープレート識別システムのワークフローにおいて、あるものは、入力された自然画像から出力されたテキスト内容までの完全なワークフローを実現することに重点を置き、あるワークフローは、識別の正確性を向上させるために、ナンバープレート検出の前に車両検出を加えている。
既存のナンバープレート識別方法は、ディープラーニングに基づく方法と非ディープラーニングに基づく方法の二つに分けることができる。ディープラーニングが発展する前に、一般的には色情報、テキスト情報、またはナンバープレートのエッジ情報に基づいてナンバープレートを大まかに識別する。使用される方法は、一般的には有限ボルツマンマシンまたはサポートベクトルマシンである。
近年、ディープラーニングの発展に伴い、キャラクタ分割に基づくナンバープレート識別方法が比較的に流行している。キャラクタ分割に基づく方法には、事前に分割されたトレーニングデータを必要とするため、トレーニングデータへのタグ付けが困難であり、且つそれは、フォントファイルを利用して画像を自動的に生成するため、ナンバープレート識別の効果とロバスト性が比較的に低い。
本発明の目的は、上記従来の技術の欠陥を克服するために、識別効果及びロバスト性を向上させるテキスト行識別に基づくナンバープレート識別方法を提供することである。
本発明の目的は、以下の技術案よって実現されてもよい。
テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するS1と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップS2と、
CPTNネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップS3と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップS4とを含む。
さらに、前記ステップS2において、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出する。
さらに、前記YOLOv3ネットワークは、オリジナル画像の特徴図ディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する。
さらに、前記ステップS3は、具体的には、
回帰モデルを利用してCPTNネットワークの垂直検出フレームを予測して得るS31と、
予測して得られる垂直検出フレームに対して、CPTNネットワークにおいて発生する可能性のある水平方向での測位が正確でないことを防止できる境界最適化を行うS32と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得て、垂直検出フレームの合併は、CTPNネットワークが同一ラインのテキストを二つの部分に分割することを防止できるS33と、
CPTNネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るS34と、を含む。
さらに、前記垂直フレーム検出フレームのセンター位置tと高さtの計算方法は、以下の通りである。
Figure 0007246104000001
そのうち、c が境界フレームのセンター位置であり、hが境界フレームの高さであり、 c がアンカーフレームのセンターであり、hがアンカーフレームの高さであり、前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量tを計算し、該オフセット量tの計算式は、以下の通りである。
Figure 0007246104000002
そのうち、x sideが実際のナンバープレート水平境界に最も近い座標であり、c が垂直検出フレームセンター位置のx座標であり、wが垂直検出フレームフレームの幅である。
さらに、前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ-デコーダパラダイムのアテンションメカニズムが内蔵されているseq2seqネットワークを採用する。
さらに、前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Cに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Aを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Aと補正テキスト行制御点ベクトル群Aとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る。
さらに好ましくは、前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である。
さらに、前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向LSTMネットワークに入力した後、テキスト特徴シーケンスを得るS41と、
Figure 0007246104000003
デコーダは、コンテキストベクトル、デコーダ内部状態及び前ステップの出力を利用し、アテンションメカニズムとGRUサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するS43と、を含む。
さらに、前記デコーダの計算式は、以下の通りである。
Figure 0007246104000004
そのうち、数式4がデコーダによってステップtで出力される現在のテキストシンボル予測確率であり、数式5がデコーダのステップtの内部状態ベクトルであり、数式6がデコーダのステップt-1の内部状態ベクトルであり、数式7デコーダのステップtのコンテキストベクトルであり、数式8がデコーダのステップt-1の出力であり、rnnがGRUサイクルネットワークユニットであり、数式9がキャラクタ分類確率図であり、Wが完全接続ネットワークパラメータであり、bが完全接続ネットワークオフセット量である。
Figure 0007246104000005
Figure 0007246104000006
Figure 0007246104000007
Figure 0007246104000008
Figure 0007246104000009
Figure 0007246104000010
前記デコーダのステップtのコンテキストベクトル数式7は、アテンションメカニズムによって得られ、その数式は、以下の通りである。
Figure 0007246104000011
そのうち、Wconvがコンボリューションネットワークパラメータであり、数式11が完全接続ネットワークパラメータであり、数式12がエンコーダのステップtのテキスト特徴シーケンスであり、数式13が重み付けパラメータであり、Tが入力シーケンスの長さであり、数式14がk時刻重み付けパラメータであり、v、W、Vがいずれも完全接続ネットワークパラメータであり、BLSTMが双方向LSTMネットワークであり、数式15がエンコーダのステップtのテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式16がエンコーダのステップt-1のテキスト特徴シーケンスである。
Figure 0007246104000012
Figure 0007246104000013
Figure 0007246104000014
Figure 0007246104000015
Figure 0007246104000016
Figure 0007246104000017
従来技術に比べて、本発明は、以下の利点を有する。
1)本発明は、キャラクタ分割がない全新のナンバープレート識別方法を提案し、キャラクタ分割の代わりにナンバープレートテキスト行検出を導入し、キャラクタ分割に比べて、本発明は、同一ラインの連続テキストを全体として検出し、トレーニングに対する後続の識別モデルの効果を向上させ、既存のナンバープレート識別方法と比べて、本発明の方法は、モデルのロバスト性を向上させ、モデルの識別の正確度を向上させる。
2)本発明は、ナンバープレート識別問題を古典的なコンピュータ視覚問題--画像に基づくシーケンス識別に転化し、このように、トレーニングデータにはナンバープレートの二次元座標と識別する必要なキャラクタシーケンスのみを必要として、モデルトレーニングの時間とコストを節約する。
3)本発明では、ナンバープレートテキスト行検出によって、複数行のテキストのナンバープレートに適用でき、複数の国と地域の異なるナンバープレートを識別することができるため、本発明は、日常の都市交通管理に運用できるだけでなく、都市間、ひいては国際交通管理にも運用でき、スマートシティ建設の重要な構成部分となり、人工知能技術と中国の都市建設、道路建設、交通管理との結合に対して積極的な推進意義がある。
本発明の方法の全体フローチャートである。 ナンバープレート検出のためのYOLOv3ネットワーク構造概略図である。 ナンバープレートテキスト行検出のためのネットワークモデル概略図である。 ナンバープレートテキスト行補正のためのネットワークモデル概略図である。 ナンバープレートテキスト行制御点を予測するための測位ネットワーク概略図である。 ナンバープレートテキスト行識別のためのネットワークモデル概略図である。
以下、添付図面と具体的な実施例を参照しながら、本発明について詳細に説明する。明らかに、記述された実施例は、本発明の一部の実施例であり、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。
実施例;
図1に示すように、本発明は、テキスト行識別に基づくナンバープレート識別方法を提供し、自然シーンでナンバープレートを識別でき、該方法は、コンボリューションニューラルネットワークとサイクルニューラルネットワークに基づき、主にナンバープレート検出(LPD)、ナンバープレートテキスト検出(LP Text Detection)及びナンバープレートテキスト識別(LP Text Rectification and Recognition)の三つのステップを含む。
そのうち、ナンバープレート検出ステップにおいて、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出し、例えば、図1において、オリジナル画像がオートバイクに乗っている人であり、ナンバープレート検出を経た後、オリジナル画像におけるナンバープレート一部のサブ画像を抽出する。
ナンバープレートテキスト行検出ステップにおいて、CPTNネットワークによってナンバープレート上のテキスト行を分割し、国際上によく見られるナンバープレート上のテキストは、単一行と複数行に分けられてもよい。複数行のテキストに対して、後続の識別作業を容易にするために、まず二行のテキストを複数の単一行のテキストに分割する必要がある。単一行のテキストに対して、画像から直感的に見ると、前のステップのナンバープレート検出は、必ずしもナンバープレート上のテキスト行の位置を正確に測位することができないため、このステップも不可欠である。図1のように、一つの二行のナンバープレートテキストが上下二行に分割され、単独で後続ネットワークに送られてテキスト識別が行われる。
ナンバープレートテキスト行識別ステップは、TPSに基づく補正ネットワークと、アテンションメカニズムを含むSeq2Seqモデルに基づく識別ネットワークとによって、テキスト行の文字を識別し、ナンバープレート識別を完了し、撮影角度などの問題の影響で、ナンバープレートが画像中でねじれてしまう可能性があり、テキスト識別の効果を向上させるために、識別前にテキスト行に対して補正操作を行う必要がある。図1において、最終的に二つのテキスト行をそれぞれ補正と識別した後、完全なナンバープレートの識別結果を得る。
三つのステップの具体的な実行過程は、以下の通りである。
(1)ナンバープレート検出ステップ
YOLOv3ネットワークを使用してオリジナル画像におけるナンバープレート部分を検出する時、オリジナル入力画像をまずグリッドに分割する必要があり、ナンバープレートのセンターがグリッドユニットにある場合、該グリッドは、ナンバープレート検出を担当する。
図2に示すように、YOLOv3ネットワークのバックボーンネットワークは、古典的なDarknet-53であり、主に53レイヤのコンボリューションネットワークで構成され、bottom-up経路、top-down経路及びサイド接続を含む。
本発明は、入力画像の解像度を608*608に設定し、Darknet-53のネットワーク構造に従って、特徴図のディメンションを五回低減させる:304、152、76、38、19。異なるサイズのターゲットを検出する時のネットワークの効果を向上させるために、YOLOv3ネットワークは、三種類の異なる次元の特徴図を使用してナンバープレートを検出し、それぞれは76、38、19であり、異なるサイズの特徴テンソルに対してアップサンプリングを経た後にスプライスを行い、最後に出力される特徴テンソルは、高い正確性を有するだけでなく、さらに高い意味性を有する。境界フレームの回帰複雑性を低減させるために、本発明は、Faster-RCNNにおけるAnchor Boxの概念又はSSDにおけるPrior Boxの概念を導入し、k-meansクラスタリング方法を使用してPrior Boxを得る。
(2)ナンバープレートテキスト行検出ステップ
本発明のナンバープレート識別方法は、複数の国と地域のナンバープレートに適用され、周知のように、国内でよく見られるナンバープレートの文字は、いずれも単一行であるが、他の国のナンバープレートの文字が複数行であることを考慮すると、後続の文字識別を容易にするために、ナンバープレートの文字を行ごとに検出する必要があると考えられる。単一行のテキストのナンバープレートに対して、該ステップは、検出領域と実際領域のIoU値を向上させることができる。
一般的な検出ターゲットとは異なり、テキスト行は、一つのキャラクタシーケンスであり、一貫性の意味を有する。領域生成ネットワーク(RPN)は、ナンバープレートテキスト行の開始位置と終了位置を測位することが比較的に困難であるため、CTPNモデルを採用してナンバープレートテキスト行を検出する。
CTPNネットワークは、垂直フレームを導入してテキスト行を検出し、垂直フレームは、一組の等幅の検出フレームであり、それらの高さは、それぞれ異なり、一つの垂直フレームは、センター位置と高さの二つの指標で決定されてもよい。CPTNネットワークにおいて、一つの回帰モデルを用いて垂直フレームを予測する。垂直フレームのセンター位置tと高さtの計算方法は、以下の通りである。
Figure 0007246104000018
そのうち、c とhは、それぞれ境界フレームのセンター位置と高さを表し、c とhは、入力画像に基づいて事前に計算し、計算を助けることができる。しかし、画像が水平方向上に16画素の等幅の領域に分割されているため、テキスト行検出フレームが水平方向上にも実際のナンバープレート領域を完全にカバーできることを保証できず、CPTNモデルにおいて、水平方向での測位が正確でない状況が発生する可能性がある。この問題を解决するために、境界最適化の方法を導入し、各垂直フレームが一つの水平方向検出のオフセット量を計算し、このオフセット量の計算方法は、以下の通りである。
Figure 0007246104000019
そのうち、x sideが実際のナンバープレート水平境界に最も近い座標を表し、c が垂直フレームセンター位置のx座標を表し、wが垂直フレームの幅を表す。
図3に示すように、CTPNモデルのバックボーンネットワークは、VGG16ネットワークを使用し、入力画像は、任意の大きさであってもよく、VGG16によって出力される特徴図のサイズは、入力画像の大きさに依存する。複数回のコンボリューションを経て特徴を抽出し、最終的にW*H*Nの特徴図を得て、Nが特徴チャネル数であり、WとHがそれぞれ特徴図の幅と高さである。次に256個の3*3のコンボリューションコアが特徴図上でスライドし、画素点ごとに256次元の特徴ベクトルを抽出し、ピクチャにおける同一行内で抽出された複数の256次元ベクトルを一つのシーケンスと見なし、BLSTMモジュール中に導入し、BLSTMモジュールの後に512次元の完全接続層と出力層が接続される。
CTPNネットワークは、同一行のテキストを二つの部分に分割することがあり、本発明では、検出フレーム合併を導入することにより、後続の処理を行い、二つの検出が垂直方向上での重畳がある程度に達した場合、それらを一つの検出フレームに合併し、具体的には、一つの閾値を設定し、垂直方向上での重畳部分が閾値よりも高い場合、両者を合併することである。
(3)ナンバープレートテキスト行識別ステップ
該ステップは、すでに検出されたナンバープレート上のテキスト行に対する識別を完了する必要があるが、識別する前に、テキスト行を補正する必要がある。撮影画角の問題により、ピクチャ上の文字が歪んで見える可能性があり、ある程度の補正により、歪んだ文字をできるだけ規則的にし、このように、識別の正確率を向上させることができる。
本発明は、Seq2Seqネットワークを使用してテキスト識別を行い、そのうちに古典的なアテンションメカニズムが含まれる。テキストの補正に対して、本発明は、STNネットワークをテキスト識別ネットワークに嵌め込むことによって実現され、2D変換によって歪みとねじれのテキストを補正する。
図4に示すように、STNネットワークの主な考え方は、空間変換操作をニューラルネットワークモデルにモデリングする。補正対象の画像において、矩形フレームの四つの頂点と対角線の交点にそれぞれ位置する五つの制御点を決定する。入力ピクチャをIに仮定し、出力される補正後の画像がIであり、原画像の五つの制御点の座標からなるベクトル群がAと表され、出力される補正後の画像における五つの制御点からなるベクトル群がAと表され、オリジナルテキスト行の制御点ベクトル群Aにおける各制御点の座標は、具体的には、数式19と表される。二次元変換の本質は、一つの補間函数fに近似し、A=f(A)を満たすことである。TPS(Thin-Plate-Spline)モデルは、歪みテキスト補正の処理において非常に有効であることが証明されており、ナンバープレートピクチャの補正タスクは、五つの制御点位置の予測タスクに帰着されてもよく、測位ネットワークを用いて画像I上の制御点を予測し、測位ネットワークは、逆伝播勾配によって、出力画像の制御点を回帰分析し、出力画像の五つの制御点を自動的にラベル付けし、
Figure 0007246104000020
6つのコンボリューションフィルタレイヤ、5つの最大プールレイヤ及び二つの完全接続レイヤで構成される。一つの10次元のベクトルを出力し、5つの2次元ベクトルに再構成し、5つの制御点座標に対応させる。制御点の座標は、正規化を経て、つまり、左上のの頂点座標が(0、0)であり、右下の頂点座標が(1、1)である。
Figure 0007246104000021
p点の座標が[x,y]と表され、それに対応する補正後の点p’の座標は、以下のような方法に従って計算することができる。
Figure 0007246104000022
そのうち、Φ(x)=xlog(x)は、点pとk番目の制御点との間のユークリッド距離に応用される核関数である。
線形システムを解くことによってTPSのパラメータを解いた後、最終的に得られる出力される補正画像の数式は、以下の通りである。
Figure 0007246104000023
そのうち、Vがダウンサンプラであり、Iが入力ピクチャであり、Iが補正後のピクチャであり、原図と補正図の画素点は、ダウンサンプリングを経て最終的に補正された画像を得る。
図6に示すように、ナンバープレートテキスト識別ネットワークは、ナンバープレートテキスト行のキャラクタシーケンスを出力するために用いられ、該ネットワークは、一つのseq2seqフレームであり、且つエンコーダ-デコーダパラダイムに依存する内蔵されているアテンションメカニズムを有する。
まず、エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上から特徴を抽出し、画像サイズが32*100である。特徴を抽出するコンボリューションネットワークは、ResNet-50に基づく改良であり、最後の三つのダウンサンプリングレイヤのコンボリューションコアの移動ステップサイズは、(2、1)であり、このようにするのは、各特徴チャネル上の特徴図が一つのベクトルであることを保証するためであり、従って、最後に得られる特徴図の大きさは、1*25*512(h*w*n)である。その後特徴図を分割し、一つのベクトルシーケンスで構成されるベクトル群を得て、 X=[x,x,…,x]と表され、そのうち、T=25であり、すなわち特徴図大きさにおける特徴幅w、ベクトル群における各ベクトルは、いずれも512次元であり、すなわち特徴図大きさにおける特徴チャネル数nである。
双方向LSTM(BLSTM)ネットワークは、二つの方向上での特徴シーケンスの長距離依存関係を取得することができるので、BLSTMを前のステップで取得された特徴シーケンスに応用することにより、より豊富なコンテキスト関係を有する特徴シーケンスを取得する。BLSTMによって出力される新たな特徴シーケンスは、H=[h,h,…,h]と表され、そのうち、任意の一つの数式22は、数式23と表されてもよい。
Figure 0007246104000024
Figure 0007246104000025
BLSTMの任意の一ステップにおいて、デコーダは、最終的にコンテキストベクトルC、デコーダの内部状態s、前のステップの出力yに基づき、最後に一つの確率図を出力し、この確率図は、各キャラクタとシーケンスターミネータ号(EOS)の確率を表す。コンテキストベクトルCは、Hの集約情報であり、C=[c,c,…,c],C=q(H)と表され、ここでのqは、アテンションメカニズムであり、数式24と表されてもよく、
そのうち、数式25は、エンコーダのステップtの隠れた状態数式26とデコーダのステップt-1の隠れた状態数式27によって計算して得られるものであり、W、V、bは、いずれもトレーニング可能な重み付けである。
Figure 0007246104000026
Figure 0007246104000027
Figure 0007246104000028
Figure 0007246104000029
エンコーダの出力は、また入力としてデコーダに入り、デコーダは、一つの出力ベクトルzと一つの新しい状態ベクトルsを計算する。
Figure 0007246104000030
そのうち、yは、one-hot形式であり、rnnは、GRUサイクルネットワークユニットを表し、出力zは、現在のテキストシンボルを予測するために用いられる。
最尤推定の考え方を運用し、出力シーケンスの条件確率を最大化するために、最適化する必要なターゲット関数は、以下の通りである。
Figure 0007246104000031
出力が最大長さを超えた場合、またはEOSシンボルを得た場合、出力シーケンスが終了し、最終的に画像中のナンバープレートテキスト行の識別結果を得たことを示し、本実施例は、Beam Researchアルゴリズムを使用し、そのうちBeam sizeのパラメータが5に設定される。
本発明は、AOLPデータセットとUFPR-ALPRデータセットによってトレーニングとテストを行うことにより、本発明によって提案される方法の高いロバスト性と高い性能を検証した。
ナンバープレート検出ステップにおいて、IoU値が0.5より大きい場合、ナンバープレートの検出に成功したとみなされ、IoUの数式は、以下の通りである。
Figure 0007246104000032
そのうち、Rdetが検出フレームであり、Rgtがマークフレームである。
ナンバープレートテキスト行検出タスクにおいて、IoUは、検出の正確性を評価するために用いられる。また、ナンバープレートテキスト識別タスクといくつかのナンバープレートテキスト検出タスクにおいて、F-score使用して性能を評価し、数式は、以下の通りである。
Figure 0007246104000033
この指標は、正確率precesionとリコール率recallを同時に考慮した。
本実施例では、二つのデータセットを使用してそれぞれ検証する。各ステップが終了した後、いずれもその効果を検査し、各ステップがいずれも高い性能と高いロバスト性であることを確保する。UFPR-ALPRデータセットとは異なり、AOLPデータセット自体は、トレーニングセットとテストセットを分割していないので、そのうちの三つのサブセットのうちの二つをトレーニングセットとして、一つをテストセットとして利用してもよく、例えば、LEとACサブセットを使用してナンバープレート識別モデルをトレーニングし、RPサブセットを使用してテストする。二つのデータセットのそれぞれの三つの主なステップにおける詳細なテスト結果は、表1から表6を参照してください。
Figure 0007246104000034
Figure 0007246104000035
Figure 0007246104000036
Figure 0007246104000037
Figure 0007246104000038
Figure 0007246104000039
以上に記述されているのは、本発明の具体的な実施の形態に過ぎず、本発明の保護範囲は、それに限らない。いかなる当業者が、本発明に掲示される技術的範囲内に、各種の等価な修正又は置き換えを容易に想到でき、これらの修正又は置き換えは、いずれも、本発明の保護範囲内に含まれるべきである。このため、本発明の保護範囲は、請求項の保護範囲を基にすべきである。

Claims (7)

  1. テキスト行識別に基づくナンバープレート識別方法であって、
    オリジナル画像を取得するS1と、
    オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップS2と、
    テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップS3と、
    ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップS4とを含み、
    前記ナンバープレートテキスト行識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ-デコーダパラダイムのアテンションメカニズムが内蔵されているseq2seqネットワークを採用し、
    前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
    エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向LSTMネットワークに入力した後、テキスト特徴シーケンスh を得るS41と、
    テキスト特徴シーケンスh をデコーダに入力するS42と、
    デコーダは、コンテキストベクトル、デコーダ内部状態及び前のステップの出力を利用し、アテンションメカニズムとGRUサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するS43と、を含み、
    前記デコーダの計算式は、数式1の通りであり、
    Figure 0007246104000040
    そのうち、数式2がデコーダによってステップt で出力される現在のテキストシンボル予測確率であり、数式3がデコーダのステップt の内部状態ベクトルであり、数式4がデコーダのステップt -1の内部状態ベクトルであり、数式5デコーダのステップt のコンテキストベクトルであり、数式6がデコーダのステップt -1の出力であり、rnnがGRUサイクルネットワークユニットであり、数式7がキャラクタ分類確率図であり、W が完全接続ネットワークパラメータであり、b が完全接続ネットワークオフセット量であり、
    Figure 0007246104000041
    Figure 0007246104000042
    Figure 0007246104000043
    Figure 0007246104000044
    Figure 0007246104000045
    Figure 0007246104000046
    前記デコーダのステップt のコンテキストベクトル数式5は、アテンションメカニズムによって得られ、その数式は、数式8の通りであり、
    Figure 0007246104000047
    そのうち、w conv がコンボリューションネットワークパラメータであり、数式9が完全接続ネットワークパラメータであり、数式10がエンコーダのステップt のテキスト特徴シーケンスであり、数式11が重み付けパラメータであり、Tが入力シーケンスの長さであり、数式12がk時刻重み付けパラメータであり、v、W、Vがいずれも完全接続ネットワークパラメータであり、BLSTMが双方向LSTMネットワークであり、数式13がエンコーダのステップt のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式14がエンコーダのステップt -1のテキスト特徴シーケンスである、
    Figure 0007246104000048
    Figure 0007246104000049
    Figure 0007246104000050
    Figure 0007246104000051
    Figure 0007246104000052
    Figure 0007246104000053
    ことを特徴とする、テキスト行識別に基づくナンバープレート識別方法。
  2. 前記ステップS2において、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出する、ことを特徴とする、請求項1に記載のテキスト行識別に基づくナンバープレート識別方法。
  3. 前記YOLOv3ネットワークは、オリジナル画像の特徴図のディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する、ことを特徴とする、請求項2に記載のテキスト行識別に基づくナンバープレート識別方法。
  4. 前記ステップS3は、具体的には、
    回帰モデルを利用してCTPNネットワークの垂直検出フレームを予測して得るS31と、
    予測して得られる垂直検出フレームに対して境界最適化を行うS32と、
    垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得るS33と、
    CTPNネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るS34と、を含む、ことを特徴とする、請求項1に記載のテキスト行識別に基づくナンバープレート識別方法。
  5. 前記垂直検出フレームのセンター位置tと高さtの計算方法は、数式15と数式16の通りであり、そのうち、c が境界フレームのセンター位置であり、hが境界フレームの高さであり、c がアンカーフレームのセンターであり、hがアンカーフレームの高さであり、
    Figure 0007246104000054
    Figure 0007246104000055
    前記境界最適化は、各垂直検出フレームが一つの水平方向検出のオフセット量tを計算し、該オフセット量tの計算式は数式17の通りであり、
    Figure 0007246104000056
    そのうち、x sideが実際のナンバープレート水平境界に最も近い座標であり、c が垂直検出フレームセンター位置のx座標であり、wが垂直検出フレームフレームの幅であることを特徴とする、請求項4に記載のテキスト行識別に基づくナンバープレート識別方法。
  6. 前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Aに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Aを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Cと補正テキスト行制御点ベクトル群Aとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る、ことを特徴とする、請求項に記載のテキスト行識別に基づくナンバープレート識別方法。
  7. 前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である、ことを特徴とする、請求項に記載のテキスト行識別に基づくナンバープレート識別方法。
JP2021105233A 2020-07-28 2021-06-24 テキスト行識別に基づくナンバープレート識別方法 Active JP7246104B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010735739.2A CN111914838B (zh) 2020-07-28 2020-07-28 一种基于文本行识别的车牌识别方法
CN202010735739.2 2020-07-28

Publications (2)

Publication Number Publication Date
JP2022025008A JP2022025008A (ja) 2022-02-09
JP7246104B2 true JP7246104B2 (ja) 2023-03-27

Family

ID=73281498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021105233A Active JP7246104B2 (ja) 2020-07-28 2021-06-24 テキスト行識別に基づくナンバープレート識別方法

Country Status (2)

Country Link
JP (1) JP7246104B2 (ja)
CN (1) CN111914838B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633429A (zh) * 2020-12-21 2021-04-09 安徽七天教育科技有限公司 一种学生手写选择题识别方法
KR102560051B1 (ko) * 2021-01-28 2023-07-27 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템
CN113065561A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于精细字符分割的场景文本识别方法
CN115485746A (zh) * 2021-03-30 2022-12-16 广州视源电子科技股份有限公司 车牌字符识别方法、装置、设备及存储介质
CN113191220A (zh) * 2021-04-15 2021-07-30 广州紫为云科技有限公司 一种基于深度学习的双层车牌识别方法
CN113159158A (zh) * 2021-04-16 2021-07-23 西安建筑科技大学 一种基于生成对抗网络的车牌矫正与重构方法及***
CN113435436A (zh) * 2021-06-03 2021-09-24 北京理工大学 一种基于线性约束矫正网络的场景文字识别方法
CN116311214B (zh) * 2023-05-22 2023-08-22 珠海亿智电子科技有限公司 车牌识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114949A (ja) 2013-12-13 2015-06-22 大日本印刷株式会社 画像処理装置、画像処理方法、画像処理装置用プログラム、および、記録媒体
JP2016091458A (ja) 2014-11-10 2016-05-23 株式会社ブロードリーフ プログラム、画像処理装置及び画像処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19507059B9 (de) * 1995-03-01 2005-02-17 Wevelsiep, Klaus, Prof. Dipl.-Ing. Dr. Verfahren zur omnidirektionalen Erfassung von OCR-Klarschrift auf Etiketten oder ähnlichen Datenträgern durch zufallsgesteuerte Suche und Dekodierung mit einem neuronalen Netzwerk
US11030466B2 (en) * 2018-02-11 2021-06-08 Nortek Security & Control Llc License plate detection and recognition system
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN109902622B (zh) * 2019-02-26 2020-06-09 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN111325203B (zh) * 2020-01-21 2022-07-05 福州大学 一种基于图像校正的美式车牌识别方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114949A (ja) 2013-12-13 2015-06-22 大日本印刷株式会社 画像処理装置、画像処理方法、画像処理装置用プログラム、および、記録媒体
JP2016091458A (ja) 2014-11-10 2016-05-23 株式会社ブロードリーフ プログラム、画像処理装置及び画像処理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai,Robust Scene Text Recognition with Automatic Rectification,[online],2016年07月,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7780821
Qi-chao Mao, Hong-Mei Sun, Yan-Bo Liu, and Rui-Sheng Jia,Mini-YOLOv3: Real-Time Object Detector for Embedded Applications,[online],2019年09月16日,pp.133529-133538,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8839032
機械学習で車両のナンバープレートを認識してみる,[online],2020年07月25日,https://www.pullup.net/pane_center.php/pane_center.php?anchor=20200725

Also Published As

Publication number Publication date
CN111914838A (zh) 2020-11-10
CN111914838B (zh) 2024-05-31
JP2022025008A (ja) 2022-02-09

Similar Documents

Publication Publication Date Title
JP7246104B2 (ja) テキスト行識別に基づくナンバープレート識別方法
Bulat et al. Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans
CN110287960B (zh) 自然场景图像中曲线文字的检测识别方法
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
Kamal et al. Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
WO2021196873A1 (zh) 车牌字符识别方法、装置、电子设备和存储介质
CN113435240B (zh) 一种端到端的表格检测和结构识别方法及***
WO2020133442A1 (zh) 一种识别文本的方法及终端设备
CN111008632B (zh) 一种基于深度学习的车牌字符分割方法
CN104573688A (zh) 基于深度学***台烟草激光码智能识别方法及装置
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及***
CN111008633A (zh) 一种基于注意力机制的车牌字符分割方法
CN111191611A (zh) 基于深度学习的交通标志标号识别方法
CN111027539A (zh) 一种基于空间位置信息的车牌字符分割方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN112560584A (zh) 一种人脸检测方法及装置、存储介质、终端
Liu et al. SLPR: A deep learning based Chinese ship license plate recognition framework
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN112446292B (zh) 一种2d图像显著目标检测方法及***
CN113486715A (zh) 图像翻拍识别方法、智能终端以及计算机存储介质
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN111881914B (zh) 一种基于自学习阈值的车牌字符分割方法及***

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230307

R150 Certificate of patent or registration of utility model

Ref document number: 7246104

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150