JP7054278B1

JP7054278B1 - 深層学習に基づくエッジ識別方法

Info

Publication number: JP7054278B1
Application number: JP2021157869A
Authority: JP
Inventors: 静朱; ▲興▼涛凌; 家輝明; 坤輝王; 林李; 綺嵐鐘; 泳隆何; 宣博趙; 邦政尹; 斌盛謝
Original assignee: ▲広▼州大学
Priority date: 2021-04-21
Filing date: 2021-09-28
Publication date: 2022-04-13
Anticipated expiration: 2041-09-28
Also published as: CN113139979A; JP2022166799A

Abstract

【課題】目標のエッジ情報から、検出速度が遅いという課題を解決し、目標定位の正確度を実現し、識別精度を向上させるＴ－ＹＯＬＯ検出アルゴリズムを提供する。【解決手段】検出アルゴリズムは、ネットワーク構造構築を行い、ネットワーク構造上にアンカーａｎｃｈｏｒを設定し、目標予測を行い、７層畳み込み層を設計してネットワーク特徴を抽出するステップと、畳み込み層周囲充填を採用して、エッジ情報を抽出し、残差ネットワークと畳み込みダウンサンプリング操作を融合するステップと、各畳み込み層に一括正規化操作を加え、Ｓｏｆｔｍａｘ関数を採用して正規化し、画像を０及び１に分類し、目標確率可能値を生成するステップと、目標ネットワーク検出を行い、マルチスケールトレーニング方式を採用して、入力画像の解像度を調整するステップと、を含む。【選択図】図１

Description

本発明は、エッジ識別技術分野に関し、特に深層学習に基づくエッジ識別方法に関する。

現在、エッジ識別技術の応用シーンは、ますます広くなり、例えば、手書き識別、顔輪郭識別、交通標識識別などである。従来のエッジ識別技術において、境界を利用して領域を探すことによって、物体の識別とシーン解析を実現し、目標エッジ、画像テクスチャ特徴などが検出のエッジとなる可能性があるため、エッジ検出の多くの手法では、検出速度が遅く、識別精度が低く、小さな目標の精確定位を実現できないなど様々な制約と欠点が存在する。

従来のカラー空間に基づく識別方法は、又は形状特徴に基づいてエッジ情報を識別したり、色と形状特徴とを融合して識別したり、顔色空間を介して関心領域を抽出したり、その後、サポートベクタマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＳＶＭ）を使用して分類したりする。しかしながら、これらの方法にも一定の欠点が存在する。例えば、雨の日、霧の日、遮蔽などの場合には、特殊場合下でのエッジ情報特徴を顔色と形状で抽出することが困難であり、さらに精度が低くなる。

そのため、エッジ検出精度を向上させる方法を探す必要がある。

従来技術に存在する技術課題を解決するために、本発明は、深層学習に基づくエッジ識別方法を提供する。この方法は、目標のエッジ情報から、検出速度が遅いという課題を解決し、目標定位の正確度を実現し、識別精度を向上させるＴ－ＹＯＬＯ検出アルゴリズムを提案する。

本発明は、以下の技術案によって実現される。

深層学習に基づくエッジ識別方法であって、以下のステップを含む。

ステップＳ１、ネットワーク構造構築を行い、ネットワーク構造上にアンカーａｎｃｈｏｒを設定し、目標予測を行い、７層畳み込み層を設計してネットワーク特徴を抽出する。

ステップＳ２、畳み込み層周囲充填を採用して、エッジ情報を抽出し、残差ネットワークと畳み込みダウンサンプリング操作を融合する。

ステップＳ３、各畳み込み層に一括正規化操作を加え、Ｓｏｆｔｍａｘ関数を採用して正規化し、画像を０及び１に分類し、目標確率可能値を生成する。

ステップＳ４、目標ネットワーク検出を行い、マルチスケールトレーニング方式を採用して、入力画像の解像度を調整する。

本発明は、従来技術に比べて、以下の利点及び有益な効果を有する。
１、本発明は、習性を介してネットワーク構造を構築し、残差ネットワーク、ダウンサンプリング操作を融合し、７層特徴抽出ネットワークを設計し、検出速度が遅いという課題を解決し、検出速度を短縮した。
２、本発明は、畳み込み層周囲充填によりエッジ情報抽出とダウンサンプリング方法を提案し、識別精度を向上させ、小さな目標の定位という課題を解決し、定位の正確度を向上させた。
３、本発明は、Ｓｏｆｔｍａｘ関数を採用して正規化することにより、目標確率可能値を生成し、多分類識別を実現し、ＳＶＭ分類器の汎用性が低いという課題を解決した。
４、本発明は、一括正規化、マルチスケールトレーニングなどのトレーニング方法により、アルゴリズムのロバスト性を向上させた。

本発明の方法のフローチャートである。本発明の予測概略図である。本発明の７層畳み込み層である。本発明のダウンサンプリング概略図である。本発明の残差ネットワークフローチャートである。本発明のネットワーク概略図である。異なる解像度画像の正確度である。異なる解像度画像の検出速度である。

以下、実施例及び図面を結び付けながら、本発明についてさらに詳細に説明するが、本発明の実施形態はこれらに限定されない。

実施例
図１に示すように、本実施例は、深層学習に基づくエッジ識別方法を提供する。この方法は、主に以下のステップを含む。

本実施例では、ステップＳ１において、ネットワーク構造構築は、画像を同一スケールに正規化し、検出画像対象全体をＳ×Ｓ個のメッシュに分割し、各メッシュでは、目標画像の中心点位置を検出し、目標画像の中心点位置がこのメッシュにあれば、目標可能性をＰｒ（Ｏｂｊｅｃｔ）＝１とし、そうでなければ、目標可能性をＰｒ（Ｏｂｊｅｃｔ）＝０とする。

図２に示すように、本実施例では、人為的に設定されたアンカーａｎｃｈｏｒを介して定量個数の予測フレームが生成され、各予測フレームには、座標情報（ｘ，ｙ，ｗ，ｈ）と信頼度（Ｃｏｎｆｉｄｅｎｃｅ）が生成される。そのうち、ｘはメッシュ左上角横座標に対するオフセット値であり、ｙはメッシュ左上角縦座標に対するオフセット値であり、ｗ、ｈはそれぞれこの予測フレームの幅と高さであり、信頼度は境界フレームが目標を含む可能性Ｐｒ（Ｏｂｊｅｃｔ）と境界フレーム正確度ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）との相乗積であり、式（１）に示すとおりであり、同時に、各予測フレームには、一つの固定カテゴリＣが生成され、

比値が０に近い場合、予測フレームが真実フレームからずれていることを表す。

図３に示すように、本実施例では、モデル特徴抽出速度を短縮するために、７層畳み込み層を採用してネットワーク特徴を抽出する。

ステップＳ２、手書き、交通標識などの特定シーンに対して、畳み込み層周囲充填０を採用して、エッジ情報を抽出し、ダウンサンプリング方法を利用して識別精度を向上させ、残差ネットワークを加え、モデルの過剰フィッティングを防止する。

図４に示すように、本実施例では、畳み込み層を採用して、３×３の畳み込みカーネルを介してステップサイズを２に設定し、画像ダウンサンプリングを行うことによって、エッジ情報が失われないようにし、さらに検出精度を向上させる。そのうち、深さが深いほどネットワーク層は、パラメータ初期化は一般に０に近く、ネットワークトレーニングプロセスでは、繰り返し回数の増加につれて、ネットワークは逆伝播アルゴリズムにより浅層パラメータを更新し、さらに勾配消失を引き起こし、勾配爆発などの現象を産生することによって、収束できなくなり、損失率が増加する。しかし、残差ネットワークは、勾配消失及び勾配爆発などの現象を解決することができ、さらにモデルを収束させることができる。このために、エッジ情報を抽出した後に残差ネットワークを加え、モデルの過剰フィッティング防止のために用いる。

具体的には、ネットワークトレーニングの具体的なプロセスは、以下のとおりである。

Ｓ２１、すべてのフィルタを初期化し、ランダム値を使用してパラメータ又は重みを設定する。

Ｓ２２、ネットワークは、１枚のトレーニング画像を入力として受信し、畳み込み、Ｒｅｌｕとプーリング化操作、及び全接続層の順方向伝達プロセスを介して、様々なエッジ情報の出力確率を見つける。

Ｓ２３、出力層で総誤差を算出する。

Ｓ２４、逆伝播アルゴリズムを使用して、ネットワークの重みに基づいて、誤差の勾配を算出し、勾配降下アルゴリズムを使用して、全てのフィルタの値又は重み及びパラメータの値を更新し、出力誤差を最小化にする。

Ｓ２５、トレーニングデータ中のすべての画像に対してステップ１～４を繰り返し、トレーニングを完了する。

図５、図６に示すように、本実施例では、残差ネットワークの出力と入力を融合して、ダウンサンプリングすることにより、小型目標の識別課題を解決し、精度を向上させる。

本実施例では、ステップＳ３において、一括正規化操作のプロセスは、以下のとおりである。

Ｓ３１、最小ｂａｔｃｈを見つけ、最小ｂａｔｃｈにおける入力データをｘとする。

Ｓ３２、βを入力ｘからなるセットとし、β＝｛ｘ１，ｘ２、…、ｘｍ｝である。

Ｓ３３、最小ｂａｔｃｈにおける平均値と二乗差を取得し、正規化操作し、さらに原始データからトレーニングデータへのマッピング表現式を生成し、式（２）に示すとおりである。

Ｓ４、目標ネットワーク検出を行い、マルチスケールトレーニング方式を採用して、１０ラウンドごとに入力画像の解像度を１回調整し、さらにモデルが異なる解像度に対して有効な識別と定位を行うことができるようにする。

本実施例では、目標ネットワーク検出のプロセスは、以下のとおりである。

Ｓ４１、検出対象画像を５６×５６個のメッシュに分割し、各メッシュは、目標画像が含まれているか否かを検出し、メッシュ中心値を取得し、さらに目標中心点が位置するメッシュを決定する。

Ｓ４２、目標中心点メッシュを検出すれば、メッシュ切り取りを行い、大きさが事前設定済みである予選フレーム画像を生成し、切り取り画像をニューラルネットワーク領域に送り、局所的目標画像を含むメッシュに対して、ニューラルネットワークを介して判断・認識する。

Ｓ４３、メッシュから出力する予選フレーム画像の数を５個に設定し、ｋ平均クラスタリング（Ｋｍｅａｎｓ）を採用して、予め設定された予選フレームのサイズを解き、ｋ個の対象をランダムに選択して初期クラスタ中心とし、次いで、目標における点とクラスタ中心との距離を計算し、毎回生成された対象を最も近い中心点に割り当て、サンプルを１つ割り当てるごとに、クラスタ中心点を再計算し、その後、すべてのサンプルが計算完了されるまで、クラスタリングを継続し、最終的にすべてのクラスタ点が生成され、そのうちのクラスタリングがもっとも多い５つの矩形フレームの点を予選フレームとして選択する。

本実施例では、目標中心点のメッシュには、（５＋３）×５個の予選フレーム画像が生成され、このメッシュにおいて生成された４０個の予選フレーム画像はいずれもニューラルネットワークに送られて判断識別される。

本発明の正確性と信頼性を検証するために、ハードウェアプラットフォームＧＰＵＲＸＴ２０８０ＴｉとＣＰＵＩｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）Ｗ－２１３３及びソフトウェアプラットフォームＵｂｕｎｔｕ１６．０４、ｏｐｅｎｃｖ３．４．３を基礎として、テストセット３０００枚の画像を異なるネットワークに送り、画像サイズは１０２４ｐｉｘｅｌ×７６８ｐｉｘｅｌであり、平均正確率（ｍＡＰ）、平均再現率（ＡｖｅｒａｇｅＲｅｃａｌｌ、ＡＲ）、ＧＰＵ検出速度（ｍｓ／ｆｒａｍｅ）を検証指標として選択する。ＡＲ計算式は、式（３）に示すとおりである。

式中、ＴＰは真の正サンプルを表し、ＦＰは偽の正サンプルを表し、ＦＮは偽の負サンプルを表し、ｉは種別を表す。アルゴリズムの比較は表１に示すとおりである。表１から分かるように、Ｔ－ＹＯＬＯアルゴリズムは平均正確度でも検出速度でも最適な効果が得られ、ＹＯＬＯｖ２アルゴリズムに比べて、Ｔ－ＹＯＬＯアルゴリズムの平均正確度は７．１％向上し、検出速度は１フレームあたり４．９ｍｓ短縮し、ＦａｓｔｅｒＲ－ＣＮＮアルゴリズムに比べて、Ｔ－ＹＯＬＯアルゴリズムの速度は、１２４倍向上し、精度は３．８％向上し、従来のＨＯＧ＋ＳＶＭアルゴリズムに比べて、検出精度は１３％向上した。

同様に、Ｔ－ＹＯＬＯアルゴリズムのロバスト性を検証するために、異なる解像度入力画像を採用してテストを行った。２２４ｐｉｘｅｌ×２２４ｐｉｘｅｌ、３２０ｐｉｘｅｌ×３２０ｐｉｘｅｌ、４１６ｐｉｘｅｌ×４１６ｐｉｘｅｌ、５１２ｐｉｘｅｌ×５１２ｐｉｘｅｌ、６０８ｐｉｘｅｌ×６０８ｐｉｘｅｌの５種類の解像度画像を採用して、原始画像を上記解像度固定サイズに等比例方式に従って拡大縮小し、空き画素領域に対して黒画素０を充填し、各分類の正確率及び平均精度、検出速度という３つの指標をそれぞれ検証し、その結果は、図７と図８に示すとおりである。画像サイズ３２０ｐｉｘｅｌ×３２０ｐｉｘｅｌから大きい方に向かって、平均精度がだんだん高くなる。図７と図８から分かるように、低解像度の画像に対しては検出速度が速いが、対応する平均精度は低く、２２４ｐｉｘｅｌ×２２４ｐｉｘｅｌの画像に対してＧＰＵ上での検出速度が１３．６９ｍｓ／ｆｒａｍｅに達し、解像度が向上するにつれて、検出所要時間も増加している。

実験により、本実施例の方法は真実且つ有効であり、従来のエッジ識別アルゴリズムに比べて、精度と速度両方面でも大幅に向上し、ＧＰＵプラットフォーム上で原始画像データ（１０２４ｐｉｘｅｌ×７６８ｐｉｘｅｌ）を採用する場合、その検出速度は１９．３１ｍｓ／ｆｒａｍｅ、ｍＡＰは９７．３％であった。マルチスケールトレーニング方式を採用したため、モデルのロバスト性を向上させたことが明らかになった。

上記実施例は、本発明の好適な実施形態であるが、本発明の実施形態は上記実施例に限定されるものではなく、本発明の技術的思想内及び原理下で行われる他の任意の変形、修飾、置換、組み合わせ、簡略化は、いずれも等価の置換方式であり、いずれも本出願の保護範囲内に含まれる。

Claims

ネットワーク構造構築を行い、ネットワーク構造上にアンカーａｎｃｈｏｒを人為的に設定し、目標予測を行い、７層畳み込み層を設計してネットワーク特徴を抽出するステップＳ１と、
畳み込み層周囲充填を採用して、エッジ情報を抽出し、残差ネットワークと畳み込みダウンサンプリング操作を融合するステップＳ２と、
各畳み込み層に一括正規化操作を加え、Ｓｏｆｔｍａｘ関数を採用して正規化し、画像を０及び１に分類し、目標確率可能値を生成するステップＳ３と、
目標ネットワーク検出を行い、入力画像の解像度を調整するステップＳ４とを含み、
（１）ステップＳ１において、
（１－１）ネットワーク構造構築は、画像を同一スケールに正規化し、検出画像対象全体をＳ×Ｓ個のメッシュに分割し、各メッシュでは、目標画像の中心点位置を検出し、目標画像の中心点位置がこのメッシュにあれば、目標可能性をＰｒ（Ｏｂｊｅｃｔ）＝１とし、そうでなければ、目標可能性をＰｒ（Ｏｂｊｅｃｔ）＝０とし、
（１－２）目標予測のプロセスは、以下のとおりであり、
アンカーａｎｃｈｏｒを設定することにより、定量個数の予測フレームが生成され、各予測フレームには、座標情報（ｘ，ｙ，ｗ，ｈ）と信頼度（Ｃｏｎｆｉｄｅｎｃｅ）が生成され、そのうち、ｘはメッシュ左上角横座標に対するオフセット値であり、ｙはメッシュ左上角縦座標に対するオフセット値であり、ｗ、ｈはそれぞれこの予測フレームの幅と高さであり、信頼度ｃｏｎｆｉｄｅｎｃｅは境界フレームが目標を含む可能性Ｐｒ（ｏｂｊｅｃｔ）と境界フレーム正確度ＩＯＵとの相乗積であり、式（１）に示すとおりであり、同時に、各予測フレームには、一つの固定カテゴリＣが生成され、

（２）ステップＳ２において、畳み込み層周囲充填０を採用し、
（３）ステップＳ３において、一括正規化操作のプロセスは、以下のとおりであり、
Ｓ３１、最小ｂａｔｃｈを見つけ、最小ｂａｔｃｈにおける入力データをｘとし、
Ｓ３２、βを入力ｘからなるセットとし、β＝｛ｘ１，ｘ２、…、ｘｍ｝であり、
Ｓ３３、最小ｂａｔｃｈにおける平均値と二乗差を取得し、正規化操作し、原始データからトレーニングデータへのマッピング表現式を取得し、式（２）に示すとおりであり

（４）ステップＳ４において、目標ネットワーク検出のプロセスは、以下のとおりであり、
Ｓ４１、検出対象画像を５６×５６個のメッシュに分割し、各メッシュは、目標画像を検出し、メッシュ中心値を取得し、目標中心点が位置するメッシュを決定し、
Ｓ４２、目標中心点メッシュを検出すれば、メッシュ切り取りを行い、設定された予選フレーム画像を取得し、切り取り画像をニューラルネットワーク領域に送り、局所的目標画像を含むメッシュに対して、ニューラルネットワークを介して判断・認識し、
Ｓ４３、メッシュから出力する予選フレーム画像の数を設定し、ｋ平均クラスタリング（Ｋｍｅａｎｓ）を採用して、設定された予選フレームのサイズを解き、ｋ個の対象をランダムに選択して初期クラスタ中心とし、次いで、目標における点とクラスタ中心との距離を計算し、毎回生成された対象を最も近い中心点に割り当て、サンプルを１つ割り当てるごとに、クラスタ中心点を再計算し、その後、すべてのサンプルが計算完了されるまで、クラスタリングを継続し、最終的にすべてのクラスタ点が生成され、そのうちのクラスタリングがもっとも多い若干個の矩形フレームの点を予選フレームとして選択する、
ことを特徴とする深層学習に基づくエッジ識別方法。
ステップＳ２において、エッジ情報を抽出し、３×３の畳み込みカーネルを介してステップサイズを２に設定して、画像ダウンサンプリングを行い、パラメータを初期化して、ネットワークトレーニングを行い、逆伝播アルゴリズムにより浅層パラメータを更新する、ことを特徴とする請求項１に記載の深層学習に基づくエッジ識別方法。
ネットワークトレーニングの具体的なプロセスは、以下のとおりであり、
Ｓ２１、すべてのフィルタを初期化し、ランダム値を使用してパラメータ又は重みを設定し、
Ｓ２２、ネットワークは、１枚のトレーニング画像を入力として受信し、畳み込み、Ｒｅｌｕとプーリング化操作、及び全接続層の順方向伝達プロセスを介して、様々なエッジ情報の出力確率を見つけ、
Ｓ２３、出力層で総誤差を算出し、
Ｓ２４、逆伝播アルゴリズムを使用して、ネットワークの重みに基づいて、誤差の勾配を算出し、勾配降下アルゴリズムを使用して、全てのフィルタの値又は重み及びパラメータの値を更新し、出力誤差を最小化にし、
Ｓ２５、トレーニングデータ中のすべての画像に対してステップ１～４を繰り返し、トレーニングを完了する、ことを特徴とする請求項２に記載の深層学習に基づくエッジ識別方法。