JP7335018B2 - A Fast Face Detection Method Based on Multilayer Preprocessing - Google Patents

A Fast Face Detection Method Based on Multilayer Preprocessing Download PDF

Info

Publication number
JP7335018B2
JP7335018B2 JP2022512825A JP2022512825A JP7335018B2 JP 7335018 B2 JP7335018 B2 JP 7335018B2 JP 2022512825 A JP2022512825 A JP 2022512825A JP 2022512825 A JP2022512825 A JP 2022512825A JP 7335018 B2 JP7335018 B2 JP 7335018B2
Authority
JP
Japan
Prior art keywords
coordinates
pixel
test
skin
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022512825A
Other languages
Japanese (ja)
Other versions
JP2023522501A (en
Inventor
暉 張
子皓 叶
海涛 趙
雁飛 孫
洪波 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Publication of JP2023522501A publication Critical patent/JP2023522501A/en
Application granted granted Critical
Publication of JP7335018B2 publication Critical patent/JP7335018B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Description

本願は、ターゲット検出の分野に関し、具体的には、多層前処理によって顔検出を高速で正確に行う方法に関する。 The present application relates to the field of target detection, and in particular to a fast and accurate method for face detection with multi-layered pre-processing.

本願は、2021年3月25日に中国特許局に提出された出願番号が2021103222047であり、発明の名称が「多層前処理に基づく高速顔検出方法」である中国特許出願の優先権を主張し、その全体が参照により本願に組み込まれる。 This application claims the priority of the Chinese Patent Application No. 2021103222047 filed with the Chinese Patent Office on March 25, 2021 and entitled "Fast Face Detection Method Based on Multilayer Preprocessing". , which is incorporated herein by reference in its entirety.

顔認識技術は、監視、セキュリティ、人事管理や画像制作のさまざまな分野で広く使用されている重要な技術である。顔認識技術には、顔の検出と識別の2つの部分があり、この中で、顔検出とは、画像内のすべての顔が現れる位置を検出することであるが、顔識別とは、2つの顔が同じ人物であるかどうかを判断することである。すべての顔の位置が検出された場合にのみ次のステップが実行できるため、顔検出は顔認識技術の基礎である。 Face recognition technology is an important technology widely used in various fields of surveillance, security, personnel management and image production. Face recognition technology has two parts: face detection and identification. Among them, face detection is to detect the positions where all faces appear in an image. to determine whether two faces are the same person. Face detection is the basis of face recognition technology because the next step can only be performed if all face positions have been detected.

ターゲット検出分野の1つのサブ分野としての顔検出には、デジタル画像機能と分類アルゴリズムを組み合わせたHaarカスケード分類器や、深層学習の分野での畳み込みニューラルネットワークなど、多くの成熟したアルゴリズムがある。この中で、畳み込みニューラルネットワークは、現在最も高度なアルゴリズムの1つとして、顔検出の問題で非常にうまく機能している。最適に設計され、完全にトレーニングされたさまざまな畳み込みニューラルネットワークは、さまざまな照明、角度、さらには部分的に遮断された場合でさえも高精度で顔を検出できる。 Face detection, as a subfield of the target detection field, has many mature algorithms such as the Haar cascade classifier, which combines digital image functions and classification algorithms, and convolutional neural networks in the field of deep learning. Among them, the convolutional neural network, as one of the most advanced algorithms at present, has performed very well in the problem of face detection. A variety of optimally designed and fully trained convolutional neural networks can detect faces with high accuracy in different lighting, angles, and even when partially occluded.

本願の例示的な実施例は、複数の画像処理方法と畳み込みニューラルネットワーク技術を組み合わせており、畳み込みニューラルネットワークの演算が遅いという問題を解決することを目的とする多層前処理に基づく高速顔検出方法を提供する。 An exemplary embodiment of the present application combines multiple image processing methods and convolutional neural network technology, a fast face detection method based on multi-layer preprocessing, which aims to solve the problem of slow computation of convolutional neural networks. I will provide a.

本願の一形態では、多層前処理に基づく高速顔検出方法を提供し、具体的な操作ステップは、
被検出画像をRGB色空間からYCbCr色空間に変換するS101と、
楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得するS102であって、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断するS102と、
S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得するS103と、
S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成するS104と、
顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示すS105と、
前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定するS106とを含む。
In one aspect of the present application, a fast face detection method based on multi-layer preprocessing is provided, and the specific operation steps are:
S101 for converting the detected image from the RGB color space to the YCbCr color space;
Using an elliptical skin color model, determine whether each pixel of the image acquired in S101 is a skin color pixel, and obtain a skin color region in S102. S102 determining the pixel as the skin color pixel if the chromaticity component meets the requirements of an elliptical skin color model;
S103 for morphologically processing the skin color region obtained in S102 to obtain a processed skin color region;
Perform effective search position filtering on the processed skin color area obtained by processing in S103 to obtain effective search positions, extract the contours of the effective search positions using contour extraction technology, and correspond to each contour. S104 to generate one test frame by
S105, using a convolutional neural network with a face detection function to detect the test frames obtained in S104 one by one, indicating face positioning coordinates in the test frames;
determining S106 the coordinates of the face registration frame based on the coordinates of the frame under test and the face registration coordinates within the frame under test.

一実施例では、前記楕円肌色モデルの要件は、

Figure 0007335018000001
であり、
ここで、Cbはピクセルの青の色度の成分を表し、Crはピクセルの赤の色度の成分を表す。 In one embodiment, the requirements of the elliptical skin tone model are:
Figure 0007335018000001
and
where Cb represents the blue chromaticity component of the pixel and Cr represents the red chromaticity component of the pixel.

一実施例では、前記処理済み肌色領域に対して有効検索位置フィルタリングを行うステップは、
フィルタ行列を使用して前記処理済み肌色領域に対して有効検索位置フィルタリングを行うことであって、前記処理済み肌色領域におけるピクセル値、前記フィルタ行列におけるピクセル値及び前記有効検索位置におけるピクセル値は下記の式を満たすことを含み、

Figure 0007335018000002
ここで、dst(i,j)は有効検索位置dstにおける座標(i,j)でのピクセル値であり、src(i+x,j+y)は肌色領域srcにおける座標(i+x,j+y)でのピクセル値であり、f(x,y)はフィルタ行列fにおける座標(x,y)でのピクセル値であり、フィルタ行列fのサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定された有効検索率ESR閾値であり、areaはフィルタ行列fにおける、値が1であるピクセルの数である。 In one embodiment, the step of valid search position filtering for the processed skin tone region comprises:
performing effective search position filtering on the processed skin-color region using a filter matrix, wherein pixel values in the processed skin-color region, pixel values in the filter matrix and pixel values at the effective search positions are: including satisfying the expression of
Figure 0007335018000002
Here, dst(i, j) is the pixel value at coordinates (i, j) in the effective search position dst, and src(i+x, j+y) is the pixel value at coordinates (i+x, j+y) in the skin color area src. , where f(x,y) is the pixel value at coordinates (x,y) in the filter matrix f, the size of the filter matrix f is (2a+1)×(2b+1), and the center coordinates are (0,0) , t is a preset effective search rate ESR threshold, and area is the number of pixels whose value is 1 in the filter matrix f.

一実施例では、被検フレームの左上角の座標(left, top)及び右下角の座標(right, bottom)はそれぞれ、

Figure 0007335018000003
それぞれ輪郭外接矩形の左上角及び右下角の座標である。 In one embodiment, the upper left corner coordinates (left, top) and the lower right corner coordinates (right, bottom) of the frame under test are respectively:
Figure 0007335018000003
These are the coordinates of the upper left and lower right corners of the contour circumscribing rectangle, respectively.

一実施例では、前記有効検索率は、前記被検フレームにおける前記肌色領域の面積と前記被検フレームの面積との比として定義される。 In one embodiment, the effective search rate is defined as the ratio of the area of the skin tone region in the test frame to the area of the test frame.

一実施例では、前記被検出画像を前記RGB色空間から前記YCbCr色空間に変換するステップは、
下記の式を利用して、前記被検出画像に対して前記色空間変換を行うことを含み、

Figure 0007335018000004
ここで、Y、Cb、Crは、ピクセルの輝度、青の色度の成分、赤の色度の成分をそれぞれ表し、R、G、Bはピクセルの赤、緑、青の成分をそれぞれ表す。 In one embodiment, converting the detected image from the RGB color space to the YCbCr color space comprises:
performing the color space conversion on the detected image using the formula:
Figure 0007335018000004
Here, Y, Cb, and Cr represent the luminance, blue chromaticity component, and red chromaticity component of the pixel, respectively, and R, G, and B represent the red, green, and blue components of the pixel, respectively.

一実施例では、前記肌色領域を形態学的処理するステップは、開操作でゆるい肌色ポイントや細線構造を取り除くことを含む。 In one embodiment, the step of morphologically processing the skin tone region includes removing loose skin tone points and thin line structures in an opening operation.

一実施例では、前記肌色領域を形態学的処理するステップは、閉操作で、穴を埋め、ギャップを埋めることを更に含む。 In one embodiment, the step of morphologically processing the skin tone region further comprises filling holes and filling gaps in a closing operation.

一実施例では、前記被検フレームは、少なくとも被検フレームA及び被検フレームBを含み、前記S104は、
前記被検フレームA、Bを併合し、前記被検フレームAとBを併合して取得された被検フレームCの面積が前記被検フレームAとBの面積の和以下である場合、前記被検フレームAとBを併合し、そうでない場合、被検フレームAとBを併合しないことを更に含む。
In one embodiment, the test frames include at least a test frame A and a test frame B, and S104 includes:
If the area of the test frame C obtained by merging the test frames A and B is less than or equal to the sum of the areas of the test frames A and B, then the test frame C It further includes merging test frames A and B, and otherwise not merging test frames A and B.

一実施例では、被検フレームCの左上角の

Figure 0007335018000005
それぞれ被検フレームBの左上角の座標及び右下角の座標である。 In one embodiment, in the upper left corner of the frame under test C,
Figure 0007335018000005
These are the coordinates of the upper left corner and the coordinates of the lower right corner of the subject frame B, respectively.

一実施例では、S106における顔位置決めフレームの左上角及び右下角の座標はそれぞれ、

Figure 0007335018000006
それぞれ畳み込みニューラルネットワークから出力された、被検フレームCのある顔を位置決める左上角及び右下角の座標である。 In one embodiment, the coordinates of the upper left corner and lower right corner of the face positioning frame in S106 are respectively:
Figure 0007335018000006
Coordinates of the upper left and lower right corners locating a face in the frame under test C, respectively, output from the convolutional neural network.

一実施例では、有効検索率は、被検フレームにおける肌色領域面積と被検フレームの面積との比として定義される。 In one embodiment, the effective search rate is defined as the ratio of the area of the skin tone region in the frame under test to the area of the frame under test.

本願の別の形態では、コンピュータプログラムを格納するメモリと、前記コンピュータプログラムを実行すると、上記の実施例のいずれかに記載の方法のステップを実施するプロセッサとを含むコンピュータデバイスを提供する。 According to another aspect of the present application, there is provided a computer device including a memory storing a computer program and a processor which, when executing the computer program, performs the steps of the method according to any of the above embodiments.

本願の更に別の形態では、プロセッサによって実行されると、上記の実施例のいずれかに記載の方法のステップを実施するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。 According to yet another aspect of the present application, there is provided a computer readable storage medium having stored thereon a computer program that, when executed by a processor, performs the steps of the method described in any of the above embodiments.

有益な効果は以下のとおりである。本願は、顔検出畳み込みニューラルネットワークの高精度を維持しながら、多層前処理技術により検索が必要な領域のサイズを縮小し、それによってその実行速度を大幅に向上させることができる。 Beneficial effects are: The present application can reduce the size of the region that needs to be searched through the multi-layer preprocessing technique while maintaining the high accuracy of the face detection convolutional neural network, thereby greatly improving its execution speed.

本願の一実施例に係る多層前処理に基づく高速顔検出方法のフローチャートである。1 is a flowchart of a fast face detection method based on multi-layer pre-processing according to one embodiment of the present application; 本願の一実施例に係る有効検索位置フィルタリング(ESPFフィルタリング)の模式図である。FIG. 3 is a schematic diagram of effective search location filtering (ESPF filtering) according to one embodiment of the present application; 本願の一実施例に係る被検フレームの生成の模式図である。FIG. 4 is a schematic diagram of generation of a test frame according to an embodiment of the present application; 本願の一実施例に係る被検フレームの併合の模式図である。FIG. 4 is a schematic diagram of merging test frames according to an embodiment of the present application;

前述のように、最適に設計され、完全にトレーニングされたさまざまな畳み込みニューラルネットワークは、さまざまな照明、角度、さらには部分的に遮断された場合でさえも高精度で顔を検出できるが、畳み込みニューラルネットワークにも独自の欠点があり、つまり、高速な演算は、強力な浮動小数点演算機能を備えたGPUに大きく依存している。コスト、体積や電力の制約により、小さなエッジ端末では畳み込みニューラルネットワークの高速演算をサポートすることは困難である。 As mentioned earlier, various optimally designed and fully trained convolutional neural networks can detect faces with high accuracy under different illuminations, angles, and even when partially occluded, but convolutional Neural networks also have their own shortcomings: they rely heavily on GPUs with powerful floating-point math capabilities for fast computation. Due to cost, volume and power constraints, it is difficult for small edge terminals to support fast computation of convolutional neural networks.

本出願の目的、技術的解決手段および利点をより明確にするために、本出願は、図面および実施例を参照して、以下でさらに詳細に説明される。本明細書に記載の特定の実施例は、本出願を解釈するためにのみ使用され、本出願を限定するものではないことを理解されたい。 In order to make the purpose, technical solutions and advantages of the present application clearer, the present application is further described in detail below with reference to the drawings and examples. It should be understood that the specific examples described herein are used only for the purpose of interpreting the application and are not intended to limit the application.

本出願の技術的解決策を、図面および特定の実施例と併せて、以下でさらに詳しく説明する。 The technical solutions of the present application are described in more detail below in conjunction with drawings and specific examples.

図1に示す実施例では、多層前処理に基づく高速顔検出方法は、具体的には下記の操作ステップを含む。 In the embodiment shown in FIG. 1, the fast face detection method based on multi-layer pre-processing specifically includes the following operation steps.

S101:入力画像(被検出画像)を色空間変換し、デフォルトのRGB色空間からYCbCr色空間に変換する。これは、YCbCrが色の輝度と色度を分離したため、さまざまな照明条件で色を分類するシーンに適しているためである。 S101: Perform color space conversion on the input image (image to be detected) to convert from the default RGB color space to the YCbCr color space. This is because YCbCr separates the luminance and chromaticity of colors, making it suitable for scenes that classify colors under various lighting conditions.

コンピュータ分野では、画像またはビデオのエンコーディングのほとんどはRGB色空間に基づいているため、YCbCrを使用する場合は、まずRGB色空間をYCbCr色空間に変換する必要がある。赤、緑、青の3色に対する人間の目の感度は同じではないため、輝度Yを変換するときは、赤、緑、青に異なる重みを付ける必要がある。具体的な換算式は次のとおりである。

Figure 0007335018000007
In the computer field, most image or video encoding is based on the RGB color space, so when using YCbCr, the RGB color space must first be converted to the YCbCr color space. Since the human eye has unequal sensitivities to the three colors red, green, and blue, when converting luminance Y, red, green, and blue must be weighted differently. A specific conversion formula is as follows.
Figure 0007335018000007

S102:楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得し、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断する。 S102: Using the elliptical skin color model, determine whether each pixel of the image obtained in S101 is a skin color pixel, obtain the skin color region, and calculate the blue chromaticity and red chromaticity of any pixel satisfies the requirements of an elliptical skin tone model, then the pixel is determined to be the skin tone pixel.

多数の肌色を統計したところ、YCbCr空間では、肌色はほぼ楕円柱状の分布を示しており、つまり、CbCr平面では、肌色の分布は楕円に近いことがわかった。統計研究によると、Crを横軸、Cbを縦軸として平面直交座標系を確立する場合、肌色楕円の中心位置は(155,113)、長軸の長さは30、短軸の長さは20、傾斜角は45°(反時計回り)である。したがって、肌色楕円の方程式は次のようになる。

Figure 0007335018000008
A statistical analysis of a large number of skin colors reveals that in the YCbCr space, the skin colors exhibit a substantially elliptical cylindrical distribution, that is, in the CbCr plane, the skin color distribution is close to an ellipse. According to statistical studies, when establishing a planar orthogonal coordinate system with Cr as the horizontal axis and Cb as the vertical axis, the center position of the flesh-colored ellipse is (155, 113), the length of the major axis is 30, and the length of the minor axis is 20, the tilt angle is 45° (counterclockwise). Therefore, the equation for the skin-color ellipse is:
Figure 0007335018000008

肌色楕円モデルを作成した後、1つのピクセルについては、青の色度Cbと赤の色度Crの成分によって構成されるポイントが肌色楕円内にある場合、肌色ピクセルであると判断でき、そうでない場合は、非肌色ピクセルである。式2を簡略化して、ピクセルが肌色のピクセルである判断が得られる条件は次のようになる。

Figure 0007335018000009
After creating the skin-color ellipse model, for a pixel, if the point formed by the components of blue chromaticity Cb and red chromaticity Cr is within the skin-color ellipse, it can be determined to be a skin-color pixel; If it is a non-flesh-colored pixel. Simplifying Equation 2, the condition for determining that a pixel is a flesh-colored pixel is as follows.
Figure 0007335018000009

S101では、RGB画像がYCbCr空間に変換された後、そのうちのあるピクセルのCbおよびCr成分が式3を満たす場合、そのピクセルは肌色ピクセルと見なすことができる。入力画像における各ピクセルに対して、式3で判断することにより、肌色領域(または肌色マスク)を取得できる。 In S101, after the RGB image is transformed into YCbCr space, if the Cb and Cr components of a pixel thereof satisfy Equation 3, the pixel can be considered as a skin-color pixel. For each pixel in the input image, the skin color region (or skin color mask) can be obtained by determining Equation 3.

S103:S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得する。 S103: Morphologically process the skin color region obtained in S102 to obtain a processed skin color region.

形態学的操作は、2値化された画像の形状の特徴を処理するための画像処理の分野における一連の技術である。基本的な考え方は、特定の形状の構造要素とルールを使用して画像のピクセル値を変更することで、ノイズの除去、穴やギャップの埋め、グリッチのトリミング、エッジの平滑化の効果を実現し、これにより、さらなる画像分析とターゲット認識を実現することである。基本的な形態学的操作には、侵食(Erosion)と膨張(Dilation)が含まれる。侵食はノイズやグリッチなどの微細構造を除去するために使用され、膨張は穴やギャップを埋めるために使用される。侵食操作を行う場合、構造要素を入力画像上でピクセルごとにスライドさせ、構造要素内のすべての1値が向かい合っている入力画像ピクセルを対応ピクセルと呼び、スライドごとに対応ピクセルの最小値を構造要素のアンカーポイント位置に向かい合っている出力画像のピクセルに書き込む。これは次の式で表される。

Figure 0007335018000010
Morphological operations are a set of techniques in the field of image processing for manipulating shape features in binarized images. The basic idea is to use certain shaped structuring elements and rules to modify the pixel values of an image to achieve the effects of removing noise, filling holes and gaps, trimming glitches and smoothing edges. This will enable further image analysis and target recognition. Basic morphological manipulations include Erosion and Dilation. Erosion is used to remove fine structures such as noise and glitches, while dilation is used to fill holes and gaps. When performing the erosion operation, the structuring element is slid on the input image pixel by pixel, the input image pixels where all the 1 values in the structuring element are facing each other are called the corresponding pixels, and the minimum value of the corresponding pixels for each slide is the structuring element. Writes to the pixel of the output image opposite the anchor point position of the element. This is represented by the following formula.
Figure 0007335018000010

ここで、dst、src、Eは出力画像、入力画像及び構造要素をそれぞれ表し、構造要素はアンカーポイントを座標中心とし、(i,j)は現在の構造要素のアンカーポイント位置座標であり、(x,y)はアンカーポイントに対する構造要素のオフセットである。式4は、侵食プロセス中に、構造要素の1値領域が入力画像の1値領域で完全に覆われている場合にのみ、出力画像のアンカーポイント位置のピクセル値が1であることを示している。これにより、画像の1値領域の輪郭が縮小し、つまり、視覚的に1値領域が侵食されているように見える。膨張操作は、最小値が最大値になることを除いて、侵食操作と同様であり、その式は次のとおりである。

Figure 0007335018000011
Here, dst, src, and E represent the output image, the input image, and the structuring element, respectively, where the structuring element has the anchor point as the coordinate center, (i, j) are the anchor point position coordinates of the current structuring element, and ( x,y) is the offset of the structuring element relative to the anchor point. Equation 4 indicates that during the erosion process, the pixel value at the anchor point location in the output image will be 1 only if the unilevel region of the structuring element is completely covered by the unilevel region of the input image. there is As a result, the contours of the monolevel regions of the image are reduced, that is, the monolevel regions appear to be visually eroded. The dilation operation is similar to the erosion operation, except that the minimum becomes the maximum, and the formula is:
Figure 0007335018000011

式5は、膨張プロセス中に、構造要素の1値領域が入力画像の0値領域で完全に覆われている場合にのみ、出力画像のアンカーポイント位置でのピクセル値が0であることを示している。これにより、画像の1値領域の輪郭が拡張し、つまり、視覚的には1値領域が膨張されているように見える。侵食と膨張は、肌色領域の面積に大きな変化を引き起こす。 Equation 5 indicates that during the dilation process, the pixel value at the anchor point location in the output image will be 0 only if the 1-value region of the structuring element is completely covered by the 0-value region of the input image. ing. This expands the contours of the unilevel regions of the image, ie, visually the unilevel regions appear dilated. Erosion and swelling cause large changes in the area of the flesh-colored region.

肌色領域のサイズに影響を与えずにノイズを取り除き、穴やギャップを埋めるには、開操作(Opening)と閉操作(Closing)を使用する必要がある。開操作とは、同じ構造要素で画像を順次侵食および膨張することを指す。閉操作により、小さな接続を切断し、ノイズを除去することができる。閉操作とは、最初に膨張し、次に腐食することを指し、これにより、隣接する領域を接続したり、穴やギャップを埋めたりすることができる。取得された肌色領域に形態学的処理を行い、開操作によりゆるい肌色ポイントや細線構造を取り除き、閉操作により肌色領域の小さい穴を埋め、小さなギャップを埋める。開操作と閉操作は、ノイズを取り除き、穴やギャップを埋めながら、肌色領域の面積にほとんど影響を与えない。S102で取得された肌色マスクをそれぞれ開操作、閉操作して、最終的な肌色マスクを取得することができる。 Opening and closing operations should be used to remove noise and fill holes and gaps without affecting the size of the skin-tone region. An open operation refers to sequential erosion and dilation of an image with the same structuring element. A closing operation can break small connections and eliminate noise. Closure refers to first expansion and then erosion, which can connect adjacent areas or fill holes and gaps. Morphological processing is performed on the acquired skin-color regions, and the opening operation removes loose skin-color points and thin line structures, and the closing operation fills small holes and fills small gaps in the skin-color regions. The opening and closing operations remove noise and fill holes and gaps while having little effect on the area of the flesh-tone regions. The final skin color mask can be obtained by opening and closing the skin color mask obtained in S102.

S104:S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成する。 S104: Perform effective search position filtering on the processed skin color region obtained by processing in S103 to obtain effective search positions, extract the contours of the effective search positions using contour extraction technology, and extract each contour generates one test frame corresponding to .

最終的に取得された肌色領域に対して有効検索位置フィルタリング(Effective Search Position Filtering、ESPF)を行い、すべての有効検索位置ピクセル領域を取得する。ESPFフィルタリングは、特殊な画像フィルタリング操作であり、楕円形状のフィルタ行列及び有効検索率(Effective Search Rate、ESR)に基づくフィルタリング計算操作を使用した。ここで、有効検索率は、被検フレームにおける肌色領域面積Aと被検フレーム面積との比Aとして定義され、その式は次の通りである。

Figure 0007335018000012
Effective search position filtering (ESPF) is performed on the finally obtained skin color area to obtain all effective search position pixel areas. ESPF filtering is a special image filtering operation that used an elliptical filter matrix and a filtering computation operation based on the Effective Search Rate (ESR). Here, the effective retrieval rate is defined as the ratio A r of the skin-color region area A s in the test frame to the test frame area, and the formula is as follows.
Figure 0007335018000012

ESPFの計算過程は次の式で表すことができる。

Figure 0007335018000013
The ESPF calculation process can be expressed by the following equation.
Figure 0007335018000013

式におけるdst、src及びfは、それぞれ出力画像、入力画像及びフィルタ行列である。フィルタ行列のサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定されたESR閾値であり、areaはフィルタ行列における1値ピクセルの数である。ESPFフィルタリング中に使用されるフィルタ行列は楕円行列であり、図2におけるフィルタ行列に示すように、そのうちの1値は矩形に内接する標準的な楕円形として配列される。 dst, src and f in the equations are the output image, input image and filter matrix respectively. The size of the filter matrix is (2a+1)×(2b+1), the center coordinates are (0, 0), t is the preset ESR threshold, and area is the number of 1-level pixels in the filter matrix. The filter matrix used during ESPF filtering is an elliptical matrix, one of which is arranged as a standard ellipse inscribed in a rectangle, as shown in the filter matrix in FIG.

図2に示すように、ESPFフィルタリングの出力画像は有効検索位置であり、さらに輪郭抽出技術を利用してそのうちの有効検索位置の輪郭を抽出し、各輪郭に対して1つの被検フレームを生成する。被検フレームは、輪郭外接矩形を周囲に一定の距離だけ拡張することによって得られ、当該輪郭外接矩形の4つの辺はいずれも輪郭に外接し、各辺は画像の各辺に平行である。拡張距離はフィルタ行列のサイズの半分に等しい。輪郭外接矩形フレームの左上角及び右下角の座標がそれぞれ

Figure 0007335018000014
フィルタ行列のサイズが(2a+1)×(2b+1)であると、拡張することで取得された被検フレームの左上角の座標及び右下角の座標は、
Figure 0007335018000015
である。 As shown in FIG. 2, the output image of ESPF filtering is the effective search positions, and the contour extraction technique is used to extract the contours of the effective search positions, and one test frame is generated for each contour, as shown in FIG. do. The frame to be examined is obtained by expanding a contour bounding rectangle around it by a constant distance, all four sides of the contour bounding rectangle circumscribing the contour and each side being parallel to each side of the image. The expansion distance is equal to half the size of the filter matrix. The coordinates of the upper left corner and the lower right corner of the contour circumscribing rectangular frame are
Figure 0007335018000014
When the size of the filter matrix is (2a+1)×(2b+1), the coordinates of the upper left corner and the lower right corner of the test frame obtained by dilation are
Figure 0007335018000015
is.

最終的に被検フレームを生成する効果は図3に示され、ESPFフィルタリング後に取得された各被検フレームはESRが高い。このとき、面積が小さい肌色領域、細長い肌色領域等の非顔肌色部分がESPFフィルタリングにより取り除かれ、肌色領域が連通するという問題も解決される。 The effect of producing the final test frame is shown in FIG. 3, where each test frame acquired after ESPF filtering has a high ESR. At this time, non-skin color areas such as skin color areas with small areas and elongated skin color areas are removed by ESPF filtering, thereby solving the problem of connecting skin color areas.

S105:顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示す。 S105: Detecting the test frames obtained in S104 one by one using a convolutional neural network with face detection function to indicate the face positioning coordinates in the test frames.

併合できる被検フレームがあるかどうかを確認し、それらをすべて併合して、最終被検フレームを取得する。被検フレームを併合することは、併合する必要がある2つの被検フレームAとBを1つのより大きな被検フレームCに置き換えことであり、被検フレームCはAとBを完全に覆うとともに、面積をできるだけ小さくする必要があり、従って、被検フレームCの左上角の座標及び右下角の座標は、次のとおりである。

Figure 0007335018000016
Check if there are test frames that can be merged and merge them all to get the final test frame. Merging test frames is to replace the two test frames A and B that need to be merged with one larger test frame C, which covers A and B completely and , the area should be as small as possible, so the coordinates of the upper left corner and the lower right corner of the frame under test C are:
Figure 0007335018000016

また、被検フレームを併合するには、総面積が増加しないという条件を満たす、即ち、

Figure 0007335018000017
を満たすべきである。図4は、被検フレームを併合した効果を示し、大面積で重ね合わせた2対の被検フレームは併合され、畳み込みニューラルネットワークによって検索する必要がある面積がさらに削減され、検索効率が向上する。 Also, in order to merge test frames, the condition that the total area does not increase, i.e.,
Figure 0007335018000017
should satisfy FIG. 4 shows the effect of merging test frames, two pairs of test frames superimposed in a large area are merged to further reduce the area that needs to be searched by the convolutional neural network and improve the search efficiency. .

S106:前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定して、顔検出結果を取得する。 S106: Determine the coordinates of the face positioning frame according to the coordinates of the frame under test and the face positioning coordinates in the frame under test, and obtain a face detection result.

顔検出機能を有する畳み込みニューラルネットワークを使用して、各最終被検フレームを1つずつ検出し、その中の顔位置決め座標を出力し、ここで出力される位置決め座標は被検フレームに対するものである。 Using a convolutional neural network with a face detection function to detect each final test frame one by one and output the face positioning coordinates therein, where the output positioning coordinates are for the test frame .

ステップ7:畳み込みニューラルネットワークは、被検フレームに対する被検フレーム内のすべての顔位置決めフレームの座標を出力し、被検フレームの左上角及び右下角の座標が

Figure 0007335018000018
であり、畳み込みニューラルネットワークによって出力されるある顔位置決めフレームの左上角及び右下角の座標が
Figure 0007335018000019
であると、当該顔位置決めフレームの左上角及び右下角の実際座標はそれぞれ下記の通りである。
Figure 0007335018000020
Step 7: The convolutional neural network outputs the coordinates of all face positioning frames in the test frame relative to the test frame, and the coordinates of the upper left corner and lower right corner of the test frame are
Figure 0007335018000018
and the coordinates of the upper left and lower right corners of a face positioning frame output by the convolutional neural network are
Figure 0007335018000019
Then, the actual coordinates of the upper left corner and the lower right corner of the face positioning frame are respectively:
Figure 0007335018000020

被検フレームの座標及びその中の顔位置決め座標に基づいて顔位置決めフレームの画像での実際座標を計算し出力し、最終的な顔検出結果を取得する。 calculating and outputting the actual coordinates in the image of the face positioning frame according to the coordinates of the test frame and the face positioning coordinates therein to obtain the final face detection result;

理解できるように、図1のフローチャートにおける各ステップは、矢印で示されるように順次表示されているが、これらのステップは必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書に明示的に記載されていない限り、これらのステップの実行は厳密には限定されず、これらのステップは他の順序で実行されてもよい。さらに、図1における少なくとも一部のステップは複数のサブステップ又は複数の段階を含んでもよく、これらのサブステップ又は段階は必ずしも同時に実行及び完了する必要はないが、異なる時間に実行されてもよく、これらのサブステップ又は段階の実行順序も必ずしも順次実行する必要はなく、他のステップや他のステップのサブステップ又は段階の少なくとも一部と交代又は交互に実行されてもよい。 As can be appreciated, the steps in the flow chart of FIG. 1 are displayed sequentially as indicated by the arrows, but the steps are not necessarily performed sequentially in the order indicated by the arrows. Unless explicitly stated herein, the performance of these steps is not strictly limited and these steps may be performed in other orders. Further, at least some of the steps in FIG. 1 may include multiple substeps or stages, which substeps or stages are not necessarily performed and completed at the same time, but may be performed at different times. Also, the order of execution of these substeps or stages is not necessarily sequential, and may be performed alternately or alternately with other steps or at least some of the substeps or stages of other steps.

当業者は、上記の実施例の方法におけるプロセスの全部または一部が、コンピュータプログラムを介して関連するハードウェアに指示することによって完了でき、前記コンピュータプログラムが不揮発性コンピュータ可読記憶媒体に格納できることを理解することができ、当該コンピュータプログラムが実行されるときに、上記の各方法の実施例のフローを含んでもよい。ここで、本出願で提供される様々な実施例で使用される、メモリ、ストレージ、データベースまたは他の媒体の任意の引用は、不揮発性および/または揮発性メモリを含んでもよい。不揮発性メモリには、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラム可能なROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)、またはフラッシュメモリが含まれてもよい。揮発性メモリには、ランダムアクセスメモリ(RAM)または外部キャッシュメモリが含まれてもよい。例として、限定ではないが、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、強化型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)やメモリバスダイナミックRAM(RDRAM)などのさまざまな形態で入手できる。 Those skilled in the art will appreciate that all or part of the processes in the methods of the above embodiments can be completed by instructing relevant hardware via a computer program, and the computer program can be stored in a non-volatile computer-readable storage medium. It can be understood that when the computer program is executed, it may include the flow of the above method embodiments. Any reference herein to memory, storage, database or other medium used in the various embodiments provided in this application may include non-volatile and/or volatile memory. Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory. good. Volatile memory can include random access memory (RAM) or external cache memory. By way of example, and not limitation, RAM may include static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous link (Synchlink) DRAM. (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM) and memory bus dynamic RAM (RDRAM).

上記の実施例の各技術的特徴は任意に組み合わせることができ、簡潔に説明するために、上記の実施例における各技術的特徴のすべての可能な組み合わせは記載されていないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲とみなされるべきである。 Each technical feature of the above embodiments can be combined arbitrarily, and for the sake of simplicity, not all possible combinations of each technical feature of the above embodiments are described, but these technical features Any combination of features should be considered to be in the ranges provided herein unless there is a contradiction.

上記の実施例は、本出願のいくつかの実施例だけを示し、その説明は、具体的かつ詳細であるが、本発明の特許の範囲に対する限定として解釈されるべきではない。ただし、当業者にとって、本出願の概念から逸脱することなく、いくつかの補正および改良を行うことができ、それらはすべて本出願の保護範囲に属する。したがって、本出願の特許の保護範囲は、添付の特許請求の範囲に従うものとする。 The above examples show only some embodiments of the present application, and the description, while specific and detailed, should not be construed as a limitation on the patentable scope of the invention. However, some amendments and improvements can be made by those skilled in the art without departing from the concept of the present application, and they all fall within the protection scope of the present application. Therefore, the scope of protection of the patent of this application shall be subject to the attached claims.

Claims (11)

被検出画像をRGB色空間からYCbCr色空間に変換するS101ステップと、
楕円肌色モデルを使用して、S101ステップで取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得するS102ステップであって、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断するS102ステップと、
S102ステップで取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得するS103ステップと、
ここで、前記形態学的処理とは、2値化された画像の形状の特徴を処理するための画像処理の分野における一連の技術であり、浸食処理と膨張処理とを含むこと、
S103ステップで処理して取得された前記処理済み肌色領域に対して、有効検索位置フィルタリングを行い、前記有効検索位置を取得し、輪郭抽出技術を利用して前記有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成するS104ステップと、
ここで、前記有効検索位置とは、前記有効検索位置フィルタリングの出力画像であること、
顔検出機能を有する畳み込みニューラルネットワークを使用して、S104ステップで取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示すS105ステップと、
ここで、顔位置決め座標とは、前記顔検出機能を有する畳み込みニューラルネットワークが顔であると認識した領域の座標であること、
前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの画像での座標を確定するS106ステップとを含む、
前記処理済み肌色領域に対して有効検索位置フィルタリングを行う前記S104ステップは、
フィルタ行列を使用して前記処理済み肌色領域に対して有効検索位置フィルタリングを行うことであって、前記処理済み肌色領域におけるピクセル値、前記フィルタ行列におけるピクセル値及び前記有効検索位置におけるピクセル値は下記の式を満たすことを含み、
Figure 0007335018000021
ここで、dst(i,j)は有効検索位置dstにおける座標(i,j)でのピクセル値を表し、src(i+x,j+y)は肌色領域srcにおける座標(i+x,j+y)でのピクセル値を表し、f(x,y)はフィルタ行列fにおける座標(x,y)でのピクセル値を表し、前記フィルタ行列fのサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定された有効検索率ESRの閾値を表し、areaは前記フィルタ行列fにおける、値が1であるピクセルの数を表すこと、
前記有効検索率ESRは、前記被検フレームにおける前記肌色領域の面積と前記被検フレームとの面積との比として定義されること、を含む顔検出方法。
S101 step of converting the image to be detected from the RGB color space to the YCbCr color space;
A step S102 of determining whether each pixel of the image obtained in step S101 is a skin-color pixel using an elliptical skin-color model to obtain a skin-color region, wherein the blue chromaticity of any pixel and S102 determining the pixel as the skin color pixel if the red chromaticity component meets the requirements of an elliptical skin color model;
a step S103 of morphologically processing the skin-color region obtained in step S102 to obtain a processed skin-color region;
Here, the morphological processing is a series of techniques in the field of image processing for processing features of the shape of a binarized image, including erosion processing and dilation processing;
performing effective search position filtering on the processed skin color area obtained by processing in step S103 to obtain the effective search position , extracting the contour of the effective search position using a contour extraction technique; generating one test frame corresponding to each contour S104;
Here, the effective search position is an output image of the effective search position filtering,
step S105, detecting the test frames obtained in step S104 one by one using a convolutional neural network with a face detection function, and denoting the face positioning coordinates in the test frames;
Here, the face positioning coordinates are coordinates of an area recognized as a face by the convolutional neural network having the face detection function.
determining S106 the coordinates in the image of the face registration frame based on the coordinates of the frame under test and the face registration coordinates in the frame under test;
The step S104 of performing effective search position filtering on the processed skin color area includes:
performing effective search position filtering on the processed skin-color region using a filter matrix, wherein pixel values in the processed skin-color region, pixel values in the filter matrix and pixel values at the effective search positions are: including satisfying the expression of
Figure 0007335018000021
where dst(i,j) represents the pixel value at coordinates (i,j) in the effective search position dst, and src(i+x,j+y) represents the pixel value at coordinates (i+x,j+y) in the skin color area src. where f(x,y) represents the pixel value at coordinates (x,y) in the filter matrix f, the size of said filter matrix f is (2a+1)×(2b+1) and the center coordinates are (0,0 ), t represents a preset effective search rate ESR threshold, and area represents the number of pixels whose value is 1 in the filter matrix f;
The face detection method, wherein the effective search rate ESR is defined as a ratio of the area of the skin color region in the test frame to the area of the test frame.
前記楕円肌色モデルの要件は、
Figure 0007335018000022
であり、
ここで、Cbは前記ピクセルの前記青の色度の成分を表し、Crは前記ピクセルの前記赤の色度の成分を表す請求項1に記載の方法。
The requirements for the elliptical skin color model are:
Figure 0007335018000022
and
2. The method of claim 1, wherein Cb represents the blue chromaticity component of the pixel and Cr represents the red chromaticity component of the pixel.
前記被検フレームの左上角の座標(left,top)及び右下角の座標(right,bottom)はそれぞれ、
Figure 0007335018000023
それぞれ輪郭外接矩形の左上角及び右下角の座標を表す請求項に記載の方法。
The coordinates (left, top) of the upper left corner and the coordinates (right, bottom) of the lower right corner of the frame under test are, respectively,
Figure 0007335018000023
2. The method of claim 1 , representing the coordinates of the upper left and lower right corners of the contour bounding rectangle, respectively.
前記被検出画像を前記RGB色空間から前記YCbCr色空間に変換するステップは、
下記の式を利用して、前記被検出画像に対して前記色空間変換を行うことを含み、
Figure 0007335018000024
ここで、Y、Cb、Crは、前記ピクセルの輝度、前記青の色度の成分、前記赤の色度の成分をそれぞれ表し、R、G、Bは、前記ピクセルの赤、緑、青の成分をそれぞれ表す請求項1に記載の方法。
converting the detected image from the RGB color space to the YCbCr color space,
performing the color space conversion on the detected image using the formula:
Figure 0007335018000024
Here, Y, Cb, and Cr represent the luminance of the pixel, the blue chromaticity component, and the red chromaticity component, respectively, and R, G, and B represent the red, green, and blue components of the pixel. 2. The method of claim 1, each representing a component.
前記肌色領域を形態学的処理するステップは、
開操作で肌色ポイントや細線構造を取り除くことを含み、前記開操作は、同じ構造要素で画像を順次浸食及び膨張すること、を含む請求項1に記載の方法。
The step of morphologically processing the skin color region comprises:
2. The method of claim 1, wherein an unfolding operation comprises removing skin color points and fine line structures , said unfolding operation comprising sequentially eroding and dilating an image with the same structuring elements .
前記肌色領域を形態学的処理するステップは、
閉操作で、穴を埋め、ギャップを埋めることを更に含み、前記閉操作は、最初に膨張し、次に浸食すること、を含む請求項に記載の方法。
The step of morphologically processing the skin color region comprises:
6. The method of claim 5 , further comprising filling holes and filling gaps with a closing operation, said closing operation comprising first expanding and then eroding .
前記被検フレームは、少なくとも被検フレームA及び被検フレームBを含み、前記S104ステップは、
前記被検フレームA、Bを併合し、前記被検フレームAとBを併合して取得された被検フレームCの面積が前記被検フレームAとBの面積の和以下である場合、前記被検フレームAとBを併合し、そうでない場合、被検フレームAとBを併合しないことを更に含む請求項1に記載の方法。
The test frames include at least a test frame A and a test frame B, and the step S104 includes:
If the area of the test frame C obtained by merging the test frames A and B is less than or equal to the sum of the areas of the test frames A and B, then the test frame C 2. The method of claim 1, further comprising merging test frames A and B, and otherwise not merging test frames A and B.
前記被検フレームCの左上角の座標
Figure 0007335018000025
それぞれ前記被検フレームBの左上角の座標及び右下角の座標である請求項に記載の方法。
Coordinates of the upper left corner of the subject frame C
Figure 0007335018000025
8. The method of claim 7 , wherein the upper left corner coordinates and the lower right corner coordinates of the frame under test B are respectively.
前記顔位置決めフレームの左上角の座標(l,t)及び右下角の座標(r,b)はそれぞれ、
Figure 0007335018000026
それぞれ、前記畳み込みニューラルネットワークから出力された、前記被検フレームCのいずれかの顔位置決めフレームの左上角の座標及び右下角の座標である請求項に記載の方法。
The upper left corner coordinates (l, t) and the lower right corner coordinates (r, b) of the face positioning frame are respectively
Figure 0007335018000026
8. The method of claim 7 , wherein the upper left corner coordinates and the lower right corner coordinates of any face registration frame of the test frame C output from the convolutional neural network, respectively.
コンピュータプログラムを格納するメモリと、前記コンピュータプログラムを実行すると、請求項1~のいずれか1項に記載の方法のステップを実施するプロセッサとを含むコンピュータデバイス。 A computer device comprising a memory storing a computer program and a processor which, when executing said computer program, implements the steps of the method according to any one of claims 1 to 9 . プロセッサによって実行されると、請求項1~のいずれか1項に記載の方法のステップを実施するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。 A computer readable storage medium having stored thereon a computer program which, when executed by a processor, implements the steps of the method according to any one of claims 1 to 9 .
JP2022512825A 2021-03-25 2021-04-29 A Fast Face Detection Method Based on Multilayer Preprocessing Active JP7335018B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110322204.7 2021-03-25
CN202110322204.7A CN113204991B (en) 2021-03-25 2021-03-25 Rapid face detection method based on multilayer preprocessing
PCT/CN2021/091026 WO2022198751A1 (en) 2021-03-25 2021-04-29 Rapid facial detection method based on multi-layer preprocessing

Publications (2)

Publication Number Publication Date
JP2023522501A JP2023522501A (en) 2023-05-31
JP7335018B2 true JP7335018B2 (en) 2023-08-29

Family

ID=77025720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022512825A Active JP7335018B2 (en) 2021-03-25 2021-04-29 A Fast Face Detection Method Based on Multilayer Preprocessing

Country Status (3)

Country Link
JP (1) JP7335018B2 (en)
CN (1) CN113204991B (en)
WO (1) WO2022198751A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694233B (en) * 2022-06-01 2022-08-23 成都信息工程大学 Multi-feature-based method for positioning human face in examination room monitoring video image

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117391A (en) 2006-11-02 2008-05-22 Seiko Epson Corp Method and apparatus for detecting faces in digital images
CN104331690A (en) 2014-11-17 2015-02-04 成都品果科技有限公司 Skin color face detection method and system based on single picture
CN109961016A (en) 2019-02-26 2019-07-02 南京邮电大学 The accurate dividing method of more gestures towards Intelligent household scene
JP2020522081A (en) 2017-09-30 2020-07-27 シェンチェン センスタイム テクノロジー カンパニー リミテッドShenzhen Sensetime Technology Co.,Ltd Image processing method and apparatus, electronic device, computer storage medium

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442835B1 (en) * 2002-08-13 2004-08-02 삼성전자주식회사 Face recognition method using artificial neural network, and the apparatus using thereof
CN100354875C (en) * 2005-09-29 2007-12-12 上海交通大学 Red eye moving method based on human face detection
CN102324025B (en) * 2011-09-06 2013-03-20 北京航空航天大学 Human face detection and tracking method based on Gaussian skin color model and feature analysis
CN103632132B (en) * 2012-12-11 2017-02-15 广西科技大学 Face detection and recognition method based on skin color segmentation and template matching
CN106485222A (en) * 2016-10-10 2017-03-08 上海电机学院 A kind of method for detecting human face being layered based on the colour of skin
CN110706295A (en) * 2019-09-10 2020-01-17 中国平安人寿保险股份有限公司 Face detection method, face detection device and computer-readable storage medium
CN111191532B (en) * 2019-12-18 2023-08-25 深圳供电局有限公司 Face recognition method and device based on construction area and computer equipment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117391A (en) 2006-11-02 2008-05-22 Seiko Epson Corp Method and apparatus for detecting faces in digital images
CN104331690A (en) 2014-11-17 2015-02-04 成都品果科技有限公司 Skin color face detection method and system based on single picture
JP2020522081A (en) 2017-09-30 2020-07-27 シェンチェン センスタイム テクノロジー カンパニー リミテッドShenzhen Sensetime Technology Co.,Ltd Image processing method and apparatus, electronic device, computer storage medium
CN109961016A (en) 2019-02-26 2019-07-02 南京邮电大学 The accurate dividing method of more gestures towards Intelligent household scene

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
クリピングデル サイモン, 外1名,"肌色領域抽出と人物不特定可変テンプレートを用いた高速な顔追跡",研究報告コンピュータビジョンとイメージメディア(CVIM),日本,一般社団法人情報処理学会,2012年02月15日,第180号

Also Published As

Publication number Publication date
WO2022198751A1 (en) 2022-09-29
CN113204991B (en) 2022-07-15
CN113204991A (en) 2021-08-03
JP2023522501A (en) 2023-05-31

Similar Documents

Publication Publication Date Title
JP6636154B2 (en) Face image processing method and apparatus, and storage medium
Li et al. Multi-angle head pose classification when wearing the mask for face recognition under the COVID-19 coronavirus epidemic
Bulat et al. Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans
CA2867365C (en) Method, system and computer storage medium for face detection
CN105205480B (en) Human-eye positioning method and system in a kind of complex scene
Luengo-Oroz et al. Robust iris segmentation on uncalibrated noisy images using mathematical morphology
CN108463823A (en) A kind of method for reconstructing, device and the terminal of user's Hair model
CN112101195B (en) Crowd density estimation method, crowd density estimation device, computer equipment and storage medium
JP6932402B2 (en) Multi-gesture fine division method for smart home scenes
Wang et al. A new blind image quality framework based on natural color statistic
CN109063598A (en) Face pore detection method, device, computer equipment and storage medium
JP7335018B2 (en) A Fast Face Detection Method Based on Multilayer Preprocessing
CN110298829A (en) A kind of lingual diagnosis method, apparatus, system, computer equipment and storage medium
CN111709305A (en) Face age identification method based on local image block
CN113012030A (en) Image splicing method, device and equipment
CN114511567B (en) Tongue body and tongue coating image identification and separation method
Parente et al. Assessing facial image accordance to ISO/ICAO requirements
CN114648800A (en) Face image detection model training method, face image detection method and device
CN113781330A (en) Image processing method, device and electronic system
Yuan et al. Full convolutional color constancy with adding pooling
CN111415372A (en) Moving target merging method based on HSI color space and context information
Alrjebi et al. Two directional multiple colour fusion for face recognition
CN111209922B (en) Image color system style marking method, device, equipment and medium based on svm and opencv
RU2774058C1 (en) Method for definition (recognition) of the fact of presentation of digital copy of the document in screen reshoot
CN106709892A (en) Rapid region expansion algorithm and device of any structure element based on stroke coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230809

R150 Certificate of patent or registration of utility model

Ref document number: 7335018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150