JP7335018B2 - A Fast Face Detection Method Based on Multilayer Preprocessing - Google Patents
A Fast Face Detection Method Based on Multilayer Preprocessing Download PDFInfo
- Publication number
- JP7335018B2 JP7335018B2 JP2022512825A JP2022512825A JP7335018B2 JP 7335018 B2 JP7335018 B2 JP 7335018B2 JP 2022512825 A JP2022512825 A JP 2022512825A JP 2022512825 A JP2022512825 A JP 2022512825A JP 7335018 B2 JP7335018 B2 JP 7335018B2
- Authority
- JP
- Japan
- Prior art keywords
- coordinates
- pixel
- test
- skin
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Description
本願は、ターゲット検出の分野に関し、具体的には、多層前処理によって顔検出を高速で正確に行う方法に関する。 The present application relates to the field of target detection, and in particular to a fast and accurate method for face detection with multi-layered pre-processing.
本願は、2021年3月25日に中国特許局に提出された出願番号が2021103222047であり、発明の名称が「多層前処理に基づく高速顔検出方法」である中国特許出願の優先権を主張し、その全体が参照により本願に組み込まれる。 This application claims the priority of the Chinese Patent Application No. 2021103222047 filed with the Chinese Patent Office on March 25, 2021 and entitled "Fast Face Detection Method Based on Multilayer Preprocessing". , which is incorporated herein by reference in its entirety.
顔認識技術は、監視、セキュリティ、人事管理や画像制作のさまざまな分野で広く使用されている重要な技術である。顔認識技術には、顔の検出と識別の2つの部分があり、この中で、顔検出とは、画像内のすべての顔が現れる位置を検出することであるが、顔識別とは、2つの顔が同じ人物であるかどうかを判断することである。すべての顔の位置が検出された場合にのみ次のステップが実行できるため、顔検出は顔認識技術の基礎である。 Face recognition technology is an important technology widely used in various fields of surveillance, security, personnel management and image production. Face recognition technology has two parts: face detection and identification. Among them, face detection is to detect the positions where all faces appear in an image. to determine whether two faces are the same person. Face detection is the basis of face recognition technology because the next step can only be performed if all face positions have been detected.
ターゲット検出分野の1つのサブ分野としての顔検出には、デジタル画像機能と分類アルゴリズムを組み合わせたHaarカスケード分類器や、深層学習の分野での畳み込みニューラルネットワークなど、多くの成熟したアルゴリズムがある。この中で、畳み込みニューラルネットワークは、現在最も高度なアルゴリズムの1つとして、顔検出の問題で非常にうまく機能している。最適に設計され、完全にトレーニングされたさまざまな畳み込みニューラルネットワークは、さまざまな照明、角度、さらには部分的に遮断された場合でさえも高精度で顔を検出できる。 Face detection, as a subfield of the target detection field, has many mature algorithms such as the Haar cascade classifier, which combines digital image functions and classification algorithms, and convolutional neural networks in the field of deep learning. Among them, the convolutional neural network, as one of the most advanced algorithms at present, has performed very well in the problem of face detection. A variety of optimally designed and fully trained convolutional neural networks can detect faces with high accuracy in different lighting, angles, and even when partially occluded.
本願の例示的な実施例は、複数の画像処理方法と畳み込みニューラルネットワーク技術を組み合わせており、畳み込みニューラルネットワークの演算が遅いという問題を解決することを目的とする多層前処理に基づく高速顔検出方法を提供する。 An exemplary embodiment of the present application combines multiple image processing methods and convolutional neural network technology, a fast face detection method based on multi-layer preprocessing, which aims to solve the problem of slow computation of convolutional neural networks. I will provide a.
本願の一形態では、多層前処理に基づく高速顔検出方法を提供し、具体的な操作ステップは、
被検出画像をRGB色空間からYCbCr色空間に変換するS101と、
楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得するS102であって、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断するS102と、
S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得するS103と、
S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成するS104と、
顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示すS105と、
前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定するS106とを含む。
In one aspect of the present application, a fast face detection method based on multi-layer preprocessing is provided, and the specific operation steps are:
S101 for converting the detected image from the RGB color space to the YCbCr color space;
Using an elliptical skin color model, determine whether each pixel of the image acquired in S101 is a skin color pixel, and obtain a skin color region in S102. S102 determining the pixel as the skin color pixel if the chromaticity component meets the requirements of an elliptical skin color model;
S103 for morphologically processing the skin color region obtained in S102 to obtain a processed skin color region;
Perform effective search position filtering on the processed skin color area obtained by processing in S103 to obtain effective search positions, extract the contours of the effective search positions using contour extraction technology, and correspond to each contour. S104 to generate one test frame by
S105, using a convolutional neural network with a face detection function to detect the test frames obtained in S104 one by one, indicating face positioning coordinates in the test frames;
determining S106 the coordinates of the face registration frame based on the coordinates of the frame under test and the face registration coordinates within the frame under test.
一実施例では、前記楕円肌色モデルの要件は、
ここで、Cbはピクセルの青の色度の成分を表し、Crはピクセルの赤の色度の成分を表す。
In one embodiment, the requirements of the elliptical skin tone model are:
where Cb represents the blue chromaticity component of the pixel and Cr represents the red chromaticity component of the pixel.
一実施例では、前記処理済み肌色領域に対して有効検索位置フィルタリングを行うステップは、
フィルタ行列を使用して前記処理済み肌色領域に対して有効検索位置フィルタリングを行うことであって、前記処理済み肌色領域におけるピクセル値、前記フィルタ行列におけるピクセル値及び前記有効検索位置におけるピクセル値は下記の式を満たすことを含み、
performing effective search position filtering on the processed skin-color region using a filter matrix, wherein pixel values in the processed skin-color region, pixel values in the filter matrix and pixel values at the effective search positions are: including satisfying the expression of
一実施例では、被検フレームの左上角の座標(left, top)及び右下角の座標(right, bottom)はそれぞれ、
一実施例では、前記有効検索率は、前記被検フレームにおける前記肌色領域の面積と前記被検フレームの面積との比として定義される。 In one embodiment, the effective search rate is defined as the ratio of the area of the skin tone region in the test frame to the area of the test frame.
一実施例では、前記被検出画像を前記RGB色空間から前記YCbCr色空間に変換するステップは、
下記の式を利用して、前記被検出画像に対して前記色空間変換を行うことを含み、
performing the color space conversion on the detected image using the formula:
一実施例では、前記肌色領域を形態学的処理するステップは、開操作でゆるい肌色ポイントや細線構造を取り除くことを含む。 In one embodiment, the step of morphologically processing the skin tone region includes removing loose skin tone points and thin line structures in an opening operation.
一実施例では、前記肌色領域を形態学的処理するステップは、閉操作で、穴を埋め、ギャップを埋めることを更に含む。 In one embodiment, the step of morphologically processing the skin tone region further comprises filling holes and filling gaps in a closing operation.
一実施例では、前記被検フレームは、少なくとも被検フレームA及び被検フレームBを含み、前記S104は、
前記被検フレームA、Bを併合し、前記被検フレームAとBを併合して取得された被検フレームCの面積が前記被検フレームAとBの面積の和以下である場合、前記被検フレームAとBを併合し、そうでない場合、被検フレームAとBを併合しないことを更に含む。
In one embodiment, the test frames include at least a test frame A and a test frame B, and S104 includes:
If the area of the test frame C obtained by merging the test frames A and B is less than or equal to the sum of the areas of the test frames A and B, then the test frame C It further includes merging test frames A and B, and otherwise not merging test frames A and B.
一実施例では、被検フレームCの左上角の
一実施例では、S106における顔位置決めフレームの左上角及び右下角の座標はそれぞれ、
一実施例では、有効検索率は、被検フレームにおける肌色領域面積と被検フレームの面積との比として定義される。 In one embodiment, the effective search rate is defined as the ratio of the area of the skin tone region in the frame under test to the area of the frame under test.
本願の別の形態では、コンピュータプログラムを格納するメモリと、前記コンピュータプログラムを実行すると、上記の実施例のいずれかに記載の方法のステップを実施するプロセッサとを含むコンピュータデバイスを提供する。 According to another aspect of the present application, there is provided a computer device including a memory storing a computer program and a processor which, when executing the computer program, performs the steps of the method according to any of the above embodiments.
本願の更に別の形態では、プロセッサによって実行されると、上記の実施例のいずれかに記載の方法のステップを実施するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。 According to yet another aspect of the present application, there is provided a computer readable storage medium having stored thereon a computer program that, when executed by a processor, performs the steps of the method described in any of the above embodiments.
有益な効果は以下のとおりである。本願は、顔検出畳み込みニューラルネットワークの高精度を維持しながら、多層前処理技術により検索が必要な領域のサイズを縮小し、それによってその実行速度を大幅に向上させることができる。 Beneficial effects are: The present application can reduce the size of the region that needs to be searched through the multi-layer preprocessing technique while maintaining the high accuracy of the face detection convolutional neural network, thereby greatly improving its execution speed.
前述のように、最適に設計され、完全にトレーニングされたさまざまな畳み込みニューラルネットワークは、さまざまな照明、角度、さらには部分的に遮断された場合でさえも高精度で顔を検出できるが、畳み込みニューラルネットワークにも独自の欠点があり、つまり、高速な演算は、強力な浮動小数点演算機能を備えたGPUに大きく依存している。コスト、体積や電力の制約により、小さなエッジ端末では畳み込みニューラルネットワークの高速演算をサポートすることは困難である。 As mentioned earlier, various optimally designed and fully trained convolutional neural networks can detect faces with high accuracy under different illuminations, angles, and even when partially occluded, but convolutional Neural networks also have their own shortcomings: they rely heavily on GPUs with powerful floating-point math capabilities for fast computation. Due to cost, volume and power constraints, it is difficult for small edge terminals to support fast computation of convolutional neural networks.
本出願の目的、技術的解決手段および利点をより明確にするために、本出願は、図面および実施例を参照して、以下でさらに詳細に説明される。本明細書に記載の特定の実施例は、本出願を解釈するためにのみ使用され、本出願を限定するものではないことを理解されたい。 In order to make the purpose, technical solutions and advantages of the present application clearer, the present application is further described in detail below with reference to the drawings and examples. It should be understood that the specific examples described herein are used only for the purpose of interpreting the application and are not intended to limit the application.
本出願の技術的解決策を、図面および特定の実施例と併せて、以下でさらに詳しく説明する。 The technical solutions of the present application are described in more detail below in conjunction with drawings and specific examples.
図1に示す実施例では、多層前処理に基づく高速顔検出方法は、具体的には下記の操作ステップを含む。 In the embodiment shown in FIG. 1, the fast face detection method based on multi-layer pre-processing specifically includes the following operation steps.
S101:入力画像(被検出画像)を色空間変換し、デフォルトのRGB色空間からYCbCr色空間に変換する。これは、YCbCrが色の輝度と色度を分離したため、さまざまな照明条件で色を分類するシーンに適しているためである。 S101: Perform color space conversion on the input image (image to be detected) to convert from the default RGB color space to the YCbCr color space. This is because YCbCr separates the luminance and chromaticity of colors, making it suitable for scenes that classify colors under various lighting conditions.
コンピュータ分野では、画像またはビデオのエンコーディングのほとんどはRGB色空間に基づいているため、YCbCrを使用する場合は、まずRGB色空間をYCbCr色空間に変換する必要がある。赤、緑、青の3色に対する人間の目の感度は同じではないため、輝度Yを変換するときは、赤、緑、青に異なる重みを付ける必要がある。具体的な換算式は次のとおりである。
S102:楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得し、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断する。 S102: Using the elliptical skin color model, determine whether each pixel of the image obtained in S101 is a skin color pixel, obtain the skin color region, and calculate the blue chromaticity and red chromaticity of any pixel satisfies the requirements of an elliptical skin tone model, then the pixel is determined to be the skin tone pixel.
多数の肌色を統計したところ、YCbCr空間では、肌色はほぼ楕円柱状の分布を示しており、つまり、CbCr平面では、肌色の分布は楕円に近いことがわかった。統計研究によると、Crを横軸、Cbを縦軸として平面直交座標系を確立する場合、肌色楕円の中心位置は(155,113)、長軸の長さは30、短軸の長さは20、傾斜角は45°(反時計回り)である。したがって、肌色楕円の方程式は次のようになる。
肌色楕円モデルを作成した後、1つのピクセルについては、青の色度Cbと赤の色度Crの成分によって構成されるポイントが肌色楕円内にある場合、肌色ピクセルであると判断でき、そうでない場合は、非肌色ピクセルである。式2を簡略化して、ピクセルが肌色のピクセルである判断が得られる条件は次のようになる。
S101では、RGB画像がYCbCr空間に変換された後、そのうちのあるピクセルのCbおよびCr成分が式3を満たす場合、そのピクセルは肌色ピクセルと見なすことができる。入力画像における各ピクセルに対して、式3で判断することにより、肌色領域(または肌色マスク)を取得できる。 In S101, after the RGB image is transformed into YCbCr space, if the Cb and Cr components of a pixel thereof satisfy Equation 3, the pixel can be considered as a skin-color pixel. For each pixel in the input image, the skin color region (or skin color mask) can be obtained by determining Equation 3.
S103:S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得する。 S103: Morphologically process the skin color region obtained in S102 to obtain a processed skin color region.
形態学的操作は、2値化された画像の形状の特徴を処理するための画像処理の分野における一連の技術である。基本的な考え方は、特定の形状の構造要素とルールを使用して画像のピクセル値を変更することで、ノイズの除去、穴やギャップの埋め、グリッチのトリミング、エッジの平滑化の効果を実現し、これにより、さらなる画像分析とターゲット認識を実現することである。基本的な形態学的操作には、侵食(Erosion)と膨張(Dilation)が含まれる。侵食はノイズやグリッチなどの微細構造を除去するために使用され、膨張は穴やギャップを埋めるために使用される。侵食操作を行う場合、構造要素を入力画像上でピクセルごとにスライドさせ、構造要素内のすべての1値が向かい合っている入力画像ピクセルを対応ピクセルと呼び、スライドごとに対応ピクセルの最小値を構造要素のアンカーポイント位置に向かい合っている出力画像のピクセルに書き込む。これは次の式で表される。
ここで、dst、src、Eは出力画像、入力画像及び構造要素をそれぞれ表し、構造要素はアンカーポイントを座標中心とし、(i,j)は現在の構造要素のアンカーポイント位置座標であり、(x,y)はアンカーポイントに対する構造要素のオフセットである。式4は、侵食プロセス中に、構造要素の1値領域が入力画像の1値領域で完全に覆われている場合にのみ、出力画像のアンカーポイント位置のピクセル値が1であることを示している。これにより、画像の1値領域の輪郭が縮小し、つまり、視覚的に1値領域が侵食されているように見える。膨張操作は、最小値が最大値になることを除いて、侵食操作と同様であり、その式は次のとおりである。
式5は、膨張プロセス中に、構造要素の1値領域が入力画像の0値領域で完全に覆われている場合にのみ、出力画像のアンカーポイント位置でのピクセル値が0であることを示している。これにより、画像の1値領域の輪郭が拡張し、つまり、視覚的には1値領域が膨張されているように見える。侵食と膨張は、肌色領域の面積に大きな変化を引き起こす。 Equation 5 indicates that during the dilation process, the pixel value at the anchor point location in the output image will be 0 only if the 1-value region of the structuring element is completely covered by the 0-value region of the input image. ing. This expands the contours of the unilevel regions of the image, ie, visually the unilevel regions appear dilated. Erosion and swelling cause large changes in the area of the flesh-colored region.
肌色領域のサイズに影響を与えずにノイズを取り除き、穴やギャップを埋めるには、開操作(Opening)と閉操作(Closing)を使用する必要がある。開操作とは、同じ構造要素で画像を順次侵食および膨張することを指す。閉操作により、小さな接続を切断し、ノイズを除去することができる。閉操作とは、最初に膨張し、次に腐食することを指し、これにより、隣接する領域を接続したり、穴やギャップを埋めたりすることができる。取得された肌色領域に形態学的処理を行い、開操作によりゆるい肌色ポイントや細線構造を取り除き、閉操作により肌色領域の小さい穴を埋め、小さなギャップを埋める。開操作と閉操作は、ノイズを取り除き、穴やギャップを埋めながら、肌色領域の面積にほとんど影響を与えない。S102で取得された肌色マスクをそれぞれ開操作、閉操作して、最終的な肌色マスクを取得することができる。 Opening and closing operations should be used to remove noise and fill holes and gaps without affecting the size of the skin-tone region. An open operation refers to sequential erosion and dilation of an image with the same structuring element. A closing operation can break small connections and eliminate noise. Closure refers to first expansion and then erosion, which can connect adjacent areas or fill holes and gaps. Morphological processing is performed on the acquired skin-color regions, and the opening operation removes loose skin-color points and thin line structures, and the closing operation fills small holes and fills small gaps in the skin-color regions. The opening and closing operations remove noise and fill holes and gaps while having little effect on the area of the flesh-tone regions. The final skin color mask can be obtained by opening and closing the skin color mask obtained in S102.
S104:S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成する。 S104: Perform effective search position filtering on the processed skin color region obtained by processing in S103 to obtain effective search positions, extract the contours of the effective search positions using contour extraction technology, and extract each contour generates one test frame corresponding to .
最終的に取得された肌色領域に対して有効検索位置フィルタリング(Effective Search Position Filtering、ESPF)を行い、すべての有効検索位置ピクセル領域を取得する。ESPFフィルタリングは、特殊な画像フィルタリング操作であり、楕円形状のフィルタ行列及び有効検索率(Effective Search Rate、ESR)に基づくフィルタリング計算操作を使用した。ここで、有効検索率は、被検フレームにおける肌色領域面積Asと被検フレーム面積との比Arとして定義され、その式は次の通りである。
ESPFの計算過程は次の式で表すことができる。
式におけるdst、src及びfは、それぞれ出力画像、入力画像及びフィルタ行列である。フィルタ行列のサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定されたESR閾値であり、areaはフィルタ行列における1値ピクセルの数である。ESPFフィルタリング中に使用されるフィルタ行列は楕円行列であり、図2におけるフィルタ行列に示すように、そのうちの1値は矩形に内接する標準的な楕円形として配列される。 dst, src and f in the equations are the output image, input image and filter matrix respectively. The size of the filter matrix is (2a+1)×(2b+1), the center coordinates are (0, 0), t is the preset ESR threshold, and area is the number of 1-level pixels in the filter matrix. The filter matrix used during ESPF filtering is an elliptical matrix, one of which is arranged as a standard ellipse inscribed in a rectangle, as shown in the filter matrix in FIG.
図2に示すように、ESPFフィルタリングの出力画像は有効検索位置であり、さらに輪郭抽出技術を利用してそのうちの有効検索位置の輪郭を抽出し、各輪郭に対して1つの被検フレームを生成する。被検フレームは、輪郭外接矩形を周囲に一定の距離だけ拡張することによって得られ、当該輪郭外接矩形の4つの辺はいずれも輪郭に外接し、各辺は画像の各辺に平行である。拡張距離はフィルタ行列のサイズの半分に等しい。輪郭外接矩形フレームの左上角及び右下角の座標がそれぞれ
最終的に被検フレームを生成する効果は図3に示され、ESPFフィルタリング後に取得された各被検フレームはESRが高い。このとき、面積が小さい肌色領域、細長い肌色領域等の非顔肌色部分がESPFフィルタリングにより取り除かれ、肌色領域が連通するという問題も解決される。 The effect of producing the final test frame is shown in FIG. 3, where each test frame acquired after ESPF filtering has a high ESR. At this time, non-skin color areas such as skin color areas with small areas and elongated skin color areas are removed by ESPF filtering, thereby solving the problem of connecting skin color areas.
S105:顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示す。 S105: Detecting the test frames obtained in S104 one by one using a convolutional neural network with face detection function to indicate the face positioning coordinates in the test frames.
併合できる被検フレームがあるかどうかを確認し、それらをすべて併合して、最終被検フレームを取得する。被検フレームを併合することは、併合する必要がある2つの被検フレームAとBを1つのより大きな被検フレームCに置き換えことであり、被検フレームCはAとBを完全に覆うとともに、面積をできるだけ小さくする必要があり、従って、被検フレームCの左上角の座標及び右下角の座標は、次のとおりである。
また、被検フレームを併合するには、総面積が増加しないという条件を満たす、即ち、
S106:前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定して、顔検出結果を取得する。 S106: Determine the coordinates of the face positioning frame according to the coordinates of the frame under test and the face positioning coordinates in the frame under test, and obtain a face detection result.
顔検出機能を有する畳み込みニューラルネットワークを使用して、各最終被検フレームを1つずつ検出し、その中の顔位置決め座標を出力し、ここで出力される位置決め座標は被検フレームに対するものである。 Using a convolutional neural network with a face detection function to detect each final test frame one by one and output the face positioning coordinates therein, where the output positioning coordinates are for the test frame .
ステップ7:畳み込みニューラルネットワークは、被検フレームに対する被検フレーム内のすべての顔位置決めフレームの座標を出力し、被検フレームの左上角及び右下角の座標が
被検フレームの座標及びその中の顔位置決め座標に基づいて顔位置決めフレームの画像での実際座標を計算し出力し、最終的な顔検出結果を取得する。 calculating and outputting the actual coordinates in the image of the face positioning frame according to the coordinates of the test frame and the face positioning coordinates therein to obtain the final face detection result;
理解できるように、図1のフローチャートにおける各ステップは、矢印で示されるように順次表示されているが、これらのステップは必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書に明示的に記載されていない限り、これらのステップの実行は厳密には限定されず、これらのステップは他の順序で実行されてもよい。さらに、図1における少なくとも一部のステップは複数のサブステップ又は複数の段階を含んでもよく、これらのサブステップ又は段階は必ずしも同時に実行及び完了する必要はないが、異なる時間に実行されてもよく、これらのサブステップ又は段階の実行順序も必ずしも順次実行する必要はなく、他のステップや他のステップのサブステップ又は段階の少なくとも一部と交代又は交互に実行されてもよい。 As can be appreciated, the steps in the flow chart of FIG. 1 are displayed sequentially as indicated by the arrows, but the steps are not necessarily performed sequentially in the order indicated by the arrows. Unless explicitly stated herein, the performance of these steps is not strictly limited and these steps may be performed in other orders. Further, at least some of the steps in FIG. 1 may include multiple substeps or stages, which substeps or stages are not necessarily performed and completed at the same time, but may be performed at different times. Also, the order of execution of these substeps or stages is not necessarily sequential, and may be performed alternately or alternately with other steps or at least some of the substeps or stages of other steps.
当業者は、上記の実施例の方法におけるプロセスの全部または一部が、コンピュータプログラムを介して関連するハードウェアに指示することによって完了でき、前記コンピュータプログラムが不揮発性コンピュータ可読記憶媒体に格納できることを理解することができ、当該コンピュータプログラムが実行されるときに、上記の各方法の実施例のフローを含んでもよい。ここで、本出願で提供される様々な実施例で使用される、メモリ、ストレージ、データベースまたは他の媒体の任意の引用は、不揮発性および/または揮発性メモリを含んでもよい。不揮発性メモリには、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラム可能なROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)、またはフラッシュメモリが含まれてもよい。揮発性メモリには、ランダムアクセスメモリ(RAM)または外部キャッシュメモリが含まれてもよい。例として、限定ではないが、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、強化型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)やメモリバスダイナミックRAM(RDRAM)などのさまざまな形態で入手できる。 Those skilled in the art will appreciate that all or part of the processes in the methods of the above embodiments can be completed by instructing relevant hardware via a computer program, and the computer program can be stored in a non-volatile computer-readable storage medium. It can be understood that when the computer program is executed, it may include the flow of the above method embodiments. Any reference herein to memory, storage, database or other medium used in the various embodiments provided in this application may include non-volatile and/or volatile memory. Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory. good. Volatile memory can include random access memory (RAM) or external cache memory. By way of example, and not limitation, RAM may include static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous link (Synchlink) DRAM. (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM) and memory bus dynamic RAM (RDRAM).
上記の実施例の各技術的特徴は任意に組み合わせることができ、簡潔に説明するために、上記の実施例における各技術的特徴のすべての可能な組み合わせは記載されていないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲とみなされるべきである。 Each technical feature of the above embodiments can be combined arbitrarily, and for the sake of simplicity, not all possible combinations of each technical feature of the above embodiments are described, but these technical features Any combination of features should be considered to be in the ranges provided herein unless there is a contradiction.
上記の実施例は、本出願のいくつかの実施例だけを示し、その説明は、具体的かつ詳細であるが、本発明の特許の範囲に対する限定として解釈されるべきではない。ただし、当業者にとって、本出願の概念から逸脱することなく、いくつかの補正および改良を行うことができ、それらはすべて本出願の保護範囲に属する。したがって、本出願の特許の保護範囲は、添付の特許請求の範囲に従うものとする。 The above examples show only some embodiments of the present application, and the description, while specific and detailed, should not be construed as a limitation on the patentable scope of the invention. However, some amendments and improvements can be made by those skilled in the art without departing from the concept of the present application, and they all fall within the protection scope of the present application. Therefore, the scope of protection of the patent of this application shall be subject to the attached claims.
Claims (11)
楕円肌色モデルを使用して、S101ステップで取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得するS102ステップであって、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断するS102ステップと、
S102ステップで取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得するS103ステップと、
ここで、前記形態学的処理とは、2値化された画像の形状の特徴を処理するための画像処理の分野における一連の技術であり、浸食処理と膨張処理とを含むこと、
S103ステップで処理して取得された前記処理済み肌色領域に対して、有効検索位置フィルタリングを行い、前記有効検索位置を取得し、輪郭抽出技術を利用して前記有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成するS104ステップと、
ここで、前記有効検索位置とは、前記有効検索位置フィルタリングの出力画像であること、
顔検出機能を有する畳み込みニューラルネットワークを使用して、S104ステップで取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示すS105ステップと、
ここで、顔位置決め座標とは、前記顔検出機能を有する畳み込みニューラルネットワークが顔であると認識した領域の座標であること、
前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの画像での座標を確定するS106ステップとを含む、
前記処理済み肌色領域に対して有効検索位置フィルタリングを行う前記S104ステップは、
フィルタ行列を使用して前記処理済み肌色領域に対して有効検索位置フィルタリングを行うことであって、前記処理済み肌色領域におけるピクセル値、前記フィルタ行列におけるピクセル値及び前記有効検索位置におけるピクセル値は下記の式を満たすことを含み、
前記有効検索率ESRは、前記被検フレームにおける前記肌色領域の面積と前記被検フレームとの面積との比として定義されること、を含む顔検出方法。 S101 step of converting the image to be detected from the RGB color space to the YCbCr color space;
A step S102 of determining whether each pixel of the image obtained in step S101 is a skin-color pixel using an elliptical skin-color model to obtain a skin-color region, wherein the blue chromaticity of any pixel and S102 determining the pixel as the skin color pixel if the red chromaticity component meets the requirements of an elliptical skin color model;
a step S103 of morphologically processing the skin-color region obtained in step S102 to obtain a processed skin-color region;
Here, the morphological processing is a series of techniques in the field of image processing for processing features of the shape of a binarized image, including erosion processing and dilation processing;
performing effective search position filtering on the processed skin color area obtained by processing in step S103 to obtain the effective search position , extracting the contour of the effective search position using a contour extraction technique; generating one test frame corresponding to each contour S104;
Here, the effective search position is an output image of the effective search position filtering,
step S105, detecting the test frames obtained in step S104 one by one using a convolutional neural network with a face detection function, and denoting the face positioning coordinates in the test frames;
Here, the face positioning coordinates are coordinates of an area recognized as a face by the convolutional neural network having the face detection function.
determining S106 the coordinates in the image of the face registration frame based on the coordinates of the frame under test and the face registration coordinates in the frame under test;
The step S104 of performing effective search position filtering on the processed skin color area includes:
performing effective search position filtering on the processed skin-color region using a filter matrix, wherein pixel values in the processed skin-color region, pixel values in the filter matrix and pixel values at the effective search positions are: including satisfying the expression of
The face detection method, wherein the effective search rate ESR is defined as a ratio of the area of the skin color region in the test frame to the area of the test frame.
ここで、Cbは前記ピクセルの前記青の色度の成分を表し、Crは前記ピクセルの前記赤の色度の成分を表す請求項1に記載の方法。 The requirements for the elliptical skin color model are:
2. The method of claim 1, wherein Cb represents the blue chromaticity component of the pixel and Cr represents the red chromaticity component of the pixel.
下記の式を利用して、前記被検出画像に対して前記色空間変換を行うことを含み、
performing the color space conversion on the detected image using the formula:
開操作で肌色ポイントや細線構造を取り除くことを含み、前記開操作は、同じ構造要素で画像を順次浸食及び膨張すること、を含む請求項1に記載の方法。 The step of morphologically processing the skin color region comprises:
2. The method of claim 1, wherein an unfolding operation comprises removing skin color points and fine line structures , said unfolding operation comprising sequentially eroding and dilating an image with the same structuring elements .
閉操作で、穴を埋め、ギャップを埋めることを更に含み、前記閉操作は、最初に膨張し、次に浸食すること、を含む請求項5に記載の方法。 The step of morphologically processing the skin color region comprises:
6. The method of claim 5 , further comprising filling holes and filling gaps with a closing operation, said closing operation comprising first expanding and then eroding .
前記被検フレームA、Bを併合し、前記被検フレームAとBを併合して取得された被検フレームCの面積が前記被検フレームAとBの面積の和以下である場合、前記被検フレームAとBを併合し、そうでない場合、被検フレームAとBを併合しないことを更に含む請求項1に記載の方法。 The test frames include at least a test frame A and a test frame B, and the step S104 includes:
If the area of the test frame C obtained by merging the test frames A and B is less than or equal to the sum of the areas of the test frames A and B, then the test frame C 2. The method of claim 1, further comprising merging test frames A and B, and otherwise not merging test frames A and B.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322204.7 | 2021-03-25 | ||
CN202110322204.7A CN113204991B (en) | 2021-03-25 | 2021-03-25 | Rapid face detection method based on multilayer preprocessing |
PCT/CN2021/091026 WO2022198751A1 (en) | 2021-03-25 | 2021-04-29 | Rapid facial detection method based on multi-layer preprocessing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023522501A JP2023522501A (en) | 2023-05-31 |
JP7335018B2 true JP7335018B2 (en) | 2023-08-29 |
Family
ID=77025720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022512825A Active JP7335018B2 (en) | 2021-03-25 | 2021-04-29 | A Fast Face Detection Method Based on Multilayer Preprocessing |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7335018B2 (en) |
CN (1) | CN113204991B (en) |
WO (1) | WO2022198751A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694233B (en) * | 2022-06-01 | 2022-08-23 | 成都信息工程大学 | Multi-feature-based method for positioning human face in examination room monitoring video image |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008117391A (en) | 2006-11-02 | 2008-05-22 | Seiko Epson Corp | Method and apparatus for detecting faces in digital images |
CN104331690A (en) | 2014-11-17 | 2015-02-04 | 成都品果科技有限公司 | Skin color face detection method and system based on single picture |
CN109961016A (en) | 2019-02-26 | 2019-07-02 | 南京邮电大学 | The accurate dividing method of more gestures towards Intelligent household scene |
JP2020522081A (en) | 2017-09-30 | 2020-07-27 | シェンチェン センスタイム テクノロジー カンパニー リミテッドShenzhen Sensetime Technology Co.,Ltd | Image processing method and apparatus, electronic device, computer storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442835B1 (en) * | 2002-08-13 | 2004-08-02 | 삼성전자주식회사 | Face recognition method using artificial neural network, and the apparatus using thereof |
CN100354875C (en) * | 2005-09-29 | 2007-12-12 | 上海交通大学 | Red eye moving method based on human face detection |
CN102324025B (en) * | 2011-09-06 | 2013-03-20 | 北京航空航天大学 | Human face detection and tracking method based on Gaussian skin color model and feature analysis |
CN103632132B (en) * | 2012-12-11 | 2017-02-15 | 广西科技大学 | Face detection and recognition method based on skin color segmentation and template matching |
CN106485222A (en) * | 2016-10-10 | 2017-03-08 | 上海电机学院 | A kind of method for detecting human face being layered based on the colour of skin |
CN110706295A (en) * | 2019-09-10 | 2020-01-17 | 中国平安人寿保险股份有限公司 | Face detection method, face detection device and computer-readable storage medium |
CN111191532B (en) * | 2019-12-18 | 2023-08-25 | 深圳供电局有限公司 | Face recognition method and device based on construction area and computer equipment |
-
2021
- 2021-03-25 CN CN202110322204.7A patent/CN113204991B/en active Active
- 2021-04-29 WO PCT/CN2021/091026 patent/WO2022198751A1/en active Application Filing
- 2021-04-29 JP JP2022512825A patent/JP7335018B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008117391A (en) | 2006-11-02 | 2008-05-22 | Seiko Epson Corp | Method and apparatus for detecting faces in digital images |
CN104331690A (en) | 2014-11-17 | 2015-02-04 | 成都品果科技有限公司 | Skin color face detection method and system based on single picture |
JP2020522081A (en) | 2017-09-30 | 2020-07-27 | シェンチェン センスタイム テクノロジー カンパニー リミテッドShenzhen Sensetime Technology Co.,Ltd | Image processing method and apparatus, electronic device, computer storage medium |
CN109961016A (en) | 2019-02-26 | 2019-07-02 | 南京邮电大学 | The accurate dividing method of more gestures towards Intelligent household scene |
Non-Patent Citations (1)
Title |
---|
クリピングデル サイモン, 外1名,"肌色領域抽出と人物不特定可変テンプレートを用いた高速な顔追跡",研究報告コンピュータビジョンとイメージメディア(CVIM),日本,一般社団法人情報処理学会,2012年02月15日,第180号 |
Also Published As
Publication number | Publication date |
---|---|
WO2022198751A1 (en) | 2022-09-29 |
CN113204991B (en) | 2022-07-15 |
CN113204991A (en) | 2021-08-03 |
JP2023522501A (en) | 2023-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6636154B2 (en) | Face image processing method and apparatus, and storage medium | |
Li et al. | Multi-angle head pose classification when wearing the mask for face recognition under the COVID-19 coronavirus epidemic | |
Bulat et al. | Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans | |
CA2867365C (en) | Method, system and computer storage medium for face detection | |
CN105205480B (en) | Human-eye positioning method and system in a kind of complex scene | |
Luengo-Oroz et al. | Robust iris segmentation on uncalibrated noisy images using mathematical morphology | |
CN108463823A (en) | A kind of method for reconstructing, device and the terminal of user's Hair model | |
CN112101195B (en) | Crowd density estimation method, crowd density estimation device, computer equipment and storage medium | |
JP6932402B2 (en) | Multi-gesture fine division method for smart home scenes | |
Wang et al. | A new blind image quality framework based on natural color statistic | |
CN109063598A (en) | Face pore detection method, device, computer equipment and storage medium | |
JP7335018B2 (en) | A Fast Face Detection Method Based on Multilayer Preprocessing | |
CN110298829A (en) | A kind of lingual diagnosis method, apparatus, system, computer equipment and storage medium | |
CN111709305A (en) | Face age identification method based on local image block | |
CN113012030A (en) | Image splicing method, device and equipment | |
CN114511567B (en) | Tongue body and tongue coating image identification and separation method | |
Parente et al. | Assessing facial image accordance to ISO/ICAO requirements | |
CN114648800A (en) | Face image detection model training method, face image detection method and device | |
CN113781330A (en) | Image processing method, device and electronic system | |
Yuan et al. | Full convolutional color constancy with adding pooling | |
CN111415372A (en) | Moving target merging method based on HSI color space and context information | |
Alrjebi et al. | Two directional multiple colour fusion for face recognition | |
CN111209922B (en) | Image color system style marking method, device, equipment and medium based on svm and opencv | |
RU2774058C1 (en) | Method for definition (recognition) of the fact of presentation of digital copy of the document in screen reshoot | |
CN106709892A (en) | Rapid region expansion algorithm and device of any structure element based on stroke coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7335018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |