WO2024009744A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2024009744A1
WO2024009744A1 PCT/JP2023/022618 JP2023022618W WO2024009744A1 WO 2024009744 A1 WO2024009744 A1 WO 2024009744A1 JP 2023022618 W JP2023022618 W JP 2023022618W WO 2024009744 A1 WO2024009744 A1 WO 2024009744A1
Authority
WO
WIPO (PCT)
Prior art keywords
human body
color information
candidate
reference color
processing device
Prior art date
Application number
PCT/JP2023/022618
Other languages
English (en)
French (fr)
Inventor
大生 新川
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Publication of WO2024009744A1 publication Critical patent/WO2024009744A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries

Definitions

  • the present invention relates to an information processing device and an information processing method.
  • Patent Document 1 discloses a technique for identifying a face candidate region that is likely to be a human face as a face region by determining whether the hue of the face candidate region extracted from a captured image is a skin color.
  • the present invention aims to provide a technique for reducing false detection of a human body in a top-down image captured with a fisheye camera.
  • the present invention employs the following configuration.
  • a first aspect of the present disclosure includes a storage unit that stores color information of a human body as reference color information, a detection unit that detects a human body candidate from an image captured by a fisheye camera, and a detection area corresponding to the human body candidate detected. a human body determination unit that acquires reference color information from the storage unit and determines whether the human body candidate is a human body based on the degree of similarity between the acquired reference color information of the detection area and the color information of the human body candidate;
  • An information processing device comprising:
  • the information processing device accurately determines whether the detected human body candidate is a human body by comparing the color information of the human body candidate with reference color information according to the position (detection area) where the human body candidate is detected. However, it is possible to reduce false detection of a human body in a top-down image captured by a fisheye camera.
  • the storage unit may store color information of the human body detected in each region as reference color information for each of a plurality of regions obtained by dividing an image captured by a fisheye camera. By preparing reference color information for each region, the information processing device can accurately determine whether a human body candidate detected within the region is a human body.
  • the information processing device may further include a generation unit that generates reference color information for the area from color information of the human body detected in the area and stores it in the storage unit.
  • the information processing device can generate and update reference color information while performing human body detection processing.
  • the information processing device can continuously update the reference color information, and can suppress a decrease in the accuracy of human body detection due to changes in the background, characteristics of the person, etc. over time.
  • the generation unit may generate reference color information corresponding to the region based on color information of the human body detected in each of the regions of the plurality of captured images.
  • the information processing device can create a more average color information map by generating reference color information corresponding to each region from a plurality of captured images for learning.
  • the generation unit If the correlation coefficient between the color information of the human body newly detected in the region and the reference color information corresponding to the region is greater than or equal to a first threshold value, the generation unit generates the color of the human body newly detected in the region.
  • the reference color information of the area is updated based on the information, and if the correlation coefficient between the color information of the human body newly detected in the area and the reference color information of the area is less than a second threshold that is less than or equal to the first threshold.
  • the color information of a human body newly detected in the area may be stored in the storage unit as new reference color information for the area.
  • the information processing device causes the storage unit to store color information having different characteristics and new reference color information from the captured image for learning. Each region is associated with a plurality of pieces of reference color information, and the information processing device can accurately detect a human body even when detecting a person with different color characteristics.
  • the reference color information may be generated based on pixel values within a frame surrounding the human body detected in the area, and the color information of the human body candidate may be generated based on pixel values within the frame surrounding the human body candidate.
  • the information processing device can suppress false detections based on the difference in pixel values between a human body and a human body candidate.
  • the reference color information is generated based on the pixel values in the area excluding the background of the captured image from within the frame surrounding the human body detected in the area, and the color information of the human body candidate is generated based on the pixel values of the captured image from within the frame surrounding the human body candidate. It may be generated based on pixel values in areas other than the background area.
  • the information processing device can generate basic color information and color information only from the actual human body and human body candidate parts, and can detect the human body with high accuracy. can.
  • the reference color information may be a histogram of pixel values within a frame surrounding the human body detected in the region, and the color information of the human body candidate may be a histogram of pixel values within the frame surrounding the human body candidate.
  • the information processing device can suppress false detections based on the difference in pixel value distribution between a human body and a human body candidate.
  • the human body determination unit may determine that the human body candidate is a human body when the correlation coefficient between the histogram of the color information of the human body candidate and the histogram of the reference color information corresponding to the detection area is greater than or equal to a predetermined threshold. .
  • the information processing device can determine whether the human body candidate is a human body according to the correlation coefficient (similarity) between histograms.
  • the information processing device can adjust detection accuracy for differences in color characteristics by changing a predetermined threshold value.
  • the histogram of pixel values may be a histogram for each RGB.
  • the human body determination unit is configured to determine the human body based on the average value, maximum value, or minimum value of the correlation coefficients of the histograms for each RGB of the color information of the human body candidate and the histograms for each RGB of the reference color information corresponding to the detection area. Then, it may be determined whether the human body candidate is a human body.
  • the information processing device can suppress false detection when the human body and the human body candidate have different color characteristics.
  • the reference color information is the mode or average value of RGB of pixels within a frame surrounding the human body detected in the area
  • the color information of the human body candidate is the mode of RGB of pixels within the frame surrounding the human body candidate. Or it may be an average value.
  • the information processing device can detect a human body with high accuracy by comparing color information of a human body candidate and reference color information by simple calculation.
  • the reference color information may be information obtained by averaging color information of a human body detected in a region in a plurality of captured images.
  • the reference color information is learned by learning the color information of a human body detected in a region in a plurality of captured images as training data, and the color information of the input human body candidate is the color information of the human body detected in the detection region. It may also be a trained model that outputs whether or not.
  • the information processing device can create a more average color information map by generating reference color information corresponding to each region from a plurality of captured images for learning.
  • a region may be associated with multiple pieces of reference color information.
  • the information processing device can accurately detect a human body even when detecting people with different color characteristics.
  • the information processing device may further include an output unit that presents a human body candidate determined to be a human body by the human body determination unit to the user as a human body detection result.
  • the information processing device can present a human body detection result that takes color information into consideration to the user.
  • the storage unit may store reference color information according to the distance from the center position of the image captured by the fisheye camera. By preparing reference color information according to the distance from the center position of the captured image, the information processing device can accurately determine whether a human body candidate detected at the distance is a human body.
  • a second aspect of the present invention is a storage step in which, for each of a plurality of regions into which an image captured by a fisheye camera is divided, the computer stores color information of the human body detected in the region in the storage unit as reference color information of the region. and a detection step of detecting a human body candidate from the captured image, acquiring reference color information corresponding to a detection area in which the human body candidate is detected from the storage unit, and detecting the reference color information of the acquired detection area and the human body candidate.
  • the information processing method includes a human body determination step of determining whether or not the human body candidate is a human body based on the color information of the human body candidate.
  • the present invention can also be understood as a program for realizing such a method by a computer, and a recording medium on which the program is recorded non-temporarily. Note that each of the above processes can be combined with each other as much as possible to configure the present invention.
  • false detection of a human body can be reduced in a top-down image captured by a fisheye camera.
  • FIG. 1 is a diagram illustrating an application example of an information processing apparatus according to an embodiment.
  • FIG. 2 is a diagram illustrating the hardware configuration of the information processing device.
  • FIG. 3 is a diagram illustrating the functional configuration of the information processing device.
  • FIG. 4 is a flowchart illustrating human body detection processing.
  • FIG. 5 is a diagram illustrating color information according to Modification 1.
  • FIG. 6 is a diagram illustrating color information according to Modification 2.
  • FIG. 7 is a diagram illustrating a color information map according to modification 3.
  • FIG. 8 is a diagram illustrating a color information map according to modification example 4.
  • FIG. 1 is a diagram illustrating an application example of an information processing apparatus according to an embodiment.
  • the information processing device detects a subject recognized as a human body (hereinafter referred to as a human body candidate) from a camera image (captured image) taken by a camera, and uses color information to determine whether the human body candidate is a human body. Determine whether it exists or not.
  • the information processing device divides the captured image into a plurality of regions, and acquires (generates) color information of the human body detected in each region.
  • the captured image 1 for learning is divided into 4 ⁇ 4 rectangular regions.
  • the information processing device generates a histogram for each RGB as human body color information for pixels within a frame surrounding the human body detected in area A1.
  • the generated color information is stored in the storage unit as color information (hereinafter referred to as reference color information) that serves as a reference for determining whether the human body candidate is a human body.
  • the reference color information is color information of the human body detected in each region, and is generated for each of a plurality of regions obtained by dividing the captured image.
  • the information processing device detects a human body candidate in the captured image of the detection target and generates color information of the human body candidate.
  • the lower part of FIG. 1 shows an example in which the information processing device detects a personal computer (PC) as a human body candidate in area A1 of captured image 2.
  • the information processing device generates a histogram for each RGB as color information of the human body candidate for pixels within a frame surrounding the detected PC.
  • the information processing device compares the color information of the PC detected in area A1 of captured image 2 with the reference color information of area A1, and determines that the PC detected as a human body candidate is a human body based on the degree of similarity. Determine whether or not. For example, the information processing device calculates the correlation coefficient between the histogram of the color information of the human body candidate (PC) and the histogram of the reference color information as the degree of similarity, and when the correlation coefficient is greater than or equal to a predetermined threshold, the information processing device can be determined to be a human body.
  • PC histogram of the color information of the human body candidate
  • the correlation coefficient is calculated as a value of 0 or more and 1 or less, for example, by various known methods.
  • the information processing device calculates the correlation coefficient between the histograms for each RGB, and calculates the average value of the three correlation coefficients, for example, as the correlation coefficient for determining whether or not it is a human body.
  • the predetermined threshold value can be, for example, a value of 0.6 or more and 0.9 or less. By increasing the predetermined threshold value, the information processing device can more accurately determine whether or not it is a human body.
  • the camera used for imaging for human body detection is an ultra-wide-angle camera equipped with a fisheye lens that can capture a wide range of image information.
  • a camera equipped with a fisheye lens is also called a fisheye camera, omnidirectional camera, omnidirectional camera, etc., but in this specification, the term "fisheye camera" is used.
  • the appearance of the subject may be distorted depending on the position within the captured image. For example, when a fisheye camera is placed so as to look down on the floor from the ceiling, the photographed image of the person will have the feet facing the center and the top of the head facing outward.
  • the human body becomes a front image, a rear view, or a side view at the periphery of the captured image, and a top view at the center of the captured image.
  • the information processing device accurately determines whether or not the human body candidate is a human body by comparing color information of the human body candidate with reference color information corresponding to an area (detection area) where the human body candidate is detected. Can be done. Therefore, the information processing device can reduce erroneous detection of a human body in a top-down image captured by a fisheye camera.
  • the information processing device when detecting a human body candidate from an image captured by a camera installed at a specific location, the information processing device mainly detects the human body candidate from a background difference obtained by removing a background image from the captured image.
  • the object included in the background difference is more likely to be detected as a human body candidate even if it is not a human body.
  • an object that is not included in the background and has a different color may be detected as a human body.
  • the information processing device can reduce false detection of objects based on background differences.
  • FIG. 2 is a diagram illustrating the hardware configuration of the information processing device 10.
  • the information processing device 10 includes a processor 101 , a main storage section 102 , an auxiliary storage section 103 , a communication interface (I/F) 104 , and a display section 105 .
  • I/F communication interface
  • the processor 101 realizes the functions of each functional configuration described in FIG. 3 by reading the program stored in the auxiliary storage unit 103 into the main storage unit 102 and executing it.
  • the main storage unit 102 is, for example, a semiconductor memory such as a RAM (Random Access Memory) or a ROM (Read Only Memory).
  • the auxiliary storage unit 103 is, for example, a nonvolatile memory such as a hard disk drive or solid state drive.
  • the communication interface 104 is an interface for performing wired (USB cable, LAN cable, etc.) or wireless (WiFi etc.) communication.
  • the display unit 105 is a display or the like for displaying the human body detection results.
  • the information processing device 10 may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, or a smartphone, or may be a built-in computer such as an on-board computer.
  • the information processing device 10 may implement part of the processing of each functional unit using a cloud server. Further, a part of the processing of each functional unit of the information processing device 10 may be realized by a dedicated hardware device such as an FPGA or an ASIC.
  • the information processing device 10 is connected to the camera 20 by wire or wirelessly, and receives image data (captured image) taken by the camera 20.
  • the camera 20 is an imaging device that has an optical system including a lens and an imaging element (an image sensor such as a CCD or CMOS).
  • the information processing device 10 may be executed by the camera 20. Further, the results of human body detection by the information processing device 10 may be transmitted to an external device and presented to the user. Furthermore, the information processing device 10 may be configured integrally with the camera 20.
  • FIG. 3 is a diagram illustrating the functional configuration of the information processing device 10. As shown in FIG.
  • the information processing device 10 includes a color information generation section 11, a detection section 12, a human body determination section 13, an output section 14, and a color information database 15 (color information DB 15).
  • the color information generation unit 11 acquires the captured image captured by the camera 20, and generates reference color information for each of the plurality of regions into which the captured image is divided, from the color information of the human body detected in the region. do.
  • the reference color information data associated with each region into which the captured image is divided is also referred to as a color information map.
  • Color information is generated based on pixel values within a frame surrounding the detected human body.
  • the color information generation unit 11 generates information representing the pixel values (luminance values) of pixels within a frame surrounding the human body as a histogram as the reference color information of the area where the human body is detected.
  • the color information generation unit 11 may generate a histogram for each RGB as the reference color information.
  • the color information generation unit 11 stores the generated reference color information in the color information database 15 in association with the area where the human body is detected.
  • the color information generation unit 11 can also generate color information of the human body candidate detected from the captured image.
  • the color information of the human body candidate is used by the human body determination unit 13 to determine whether the human body candidate is a human body.
  • the color information generation unit 11 is an example of a “generation unit”.
  • the detection unit 12 acquires a captured image captured by the camera 20 and detects a human body candidate from the captured image.
  • the detection unit 12 can detect human body candidates using a general object recognition algorithm.
  • the detection unit 12 can detect human body candidates using a classifier that combines image features such as HoG or Haar-like and boosting.
  • the detection unit 12 may detect human body candidates using a human body recognition algorithm based on deep learning (eg, R-CNN, Faster R-CNN, YOLO, SSD, etc.).
  • the human body determination unit 13 determines whether the human body candidate detected by the detection unit 12 is a human body.
  • the human body determination unit 13 determines whether the human body candidate is a human body based on the degree of similarity between the reference color information corresponding to the detection area where the human body candidate is detected among the plurality of areas of the captured image and the color information of the human body candidate. Determine whether or not.
  • the detection area can be, for example, an area where the center position of a rectangular frame surrounding the human body candidate is detected.
  • the output unit 14 outputs the human body candidate determined to be a human body by the human body determination unit 13 as a human body detection result.
  • the output unit 14 can present the human body detection result to the user, for example, by superimposing and displaying a rectangle surrounding the detected human body on the captured image.
  • the color information database 15 stores a color information map created in advance by the color information generation unit 11.
  • the color information map includes regions into which the captured image is divided, and reference color information data associated with the regions.
  • the reference color information of the color information map may be updated while the human body detection process is being performed.
  • the color information database 15 is an example of a "storage unit".
  • FIG. 4 is a flowchart illustrating human body detection processing.
  • the human body detection process is started, for example, when the camera 20 is powered on and the information processing device 10 receives a captured image from the camera 20.
  • the human body detection process shown in FIG. 4 is a process that is executed for each frame (captured image) of image data received from the camera 20.
  • the color information map is created in advance by the color information generation unit 11 and stored in the color information database 15.
  • the detection unit 12 acquires a captured image.
  • the detection unit 12 can acquire a captured image from the camera 20 via the communication interface 104.
  • the color information generation section 11 acquires a captured image captured by the imaging section.
  • step S102 the detection unit 12 detects a human body candidate from the captured image acquired in step S101.
  • the detection unit 12 can detect human body candidates using known techniques such as deep learning. If a plurality of human body candidates are detected in step S102, the human body determination process L1 from step S103 to step S106 is repeated for each human body candidate.
  • the human body determination unit 13 determines whether the human body candidate detected in step S102 is a human body.
  • the human body determination unit 13 first obtains, from the color information database 15, reference color information corresponding to the detection area in which the human body candidate is detected, among the plurality of areas obtained by dividing the captured image.
  • the human body determining unit 13 determines whether or not the human body candidate is a human body based on the degree of similarity between the acquired reference color information of the detection area and the color information of the detected human body candidate.
  • the color information of the human body candidate is acquired by the color information generation unit 11.
  • the color information is a histogram for each RGB.
  • the human body determining unit 13 calculates the correlation coefficient between the histogram for each RGB of the color information of the human body candidate and the histogram for each RGB of the reference color information.
  • step S104 the human body determination unit 13 determines whether the correlation coefficient calculated in step S103 is greater than or equal to a predetermined threshold.
  • the human body determination unit 13 determines that the human body candidate is a human body, for example, when the average value, maximum value, or minimum value of each correlation coefficient of the RGB histogram is greater than or equal to a predetermined threshold value. Note that the human body determination unit 13 may determine that the human body candidate is a human body when the correlation coefficients of the RGB histograms are all equal to or greater than a predetermined threshold value.
  • step S104 If the correlation coefficient is greater than or equal to the predetermined threshold and the human body candidate is determined to be a human body (step S104: YES), the process proceeds to step S105. If the correlation coefficient is less than the predetermined threshold and it is determined that the human body candidate is not a human body (step S104: NO), the process proceeds to step S106.
  • step S105 the human body determination unit 13 adopts the human body candidate to be determined as a human body detection result, and stores it in the auxiliary storage unit 103 or the like.
  • step S106 the human body determination unit 13 removes the human body candidate to be determined as an erroneous detection.
  • step S107 the output unit 14 outputs the information on the human body adopted as the detection result in step S105.
  • the output unit 14 may display the detection result on the display unit 105.
  • the output unit 14 can present the human body detection result to the user, for example, by superimposing and displaying a rectangle surrounding the detected human body on the captured image.
  • the output unit 14 may output the detection result to an external device and display it on a display or the like of the external device.
  • the human body detection process for the current frame is completed, the human body detection process for the next frame is started.
  • the information processing device 10 repeatedly executes the human body detection process in FIG. 4 until the imaging process by the camera 20 is stopped.
  • the information processing device 10 detects a human body candidate from a captured image, and based on the similarity between the reference color information corresponding to the detection area where the human body candidate is detected and the color information of the human body candidate, It is determined whether the human body candidate is a human body. In an image captured by a fisheye camera, the appearance differs depending on the location where the image was captured, but the information processing device 10 compares the detected human body candidate with reference color information according to the detected location (detection area). It is possible to accurately determine whether or not a human body candidate is a human body. Therefore, the information processing device 10 can reduce erroneous detection of a human body in a top-down image captured by a fisheye camera.
  • Modification 1 The above embodiment shows an example in which the color information is a histogram of pixel values.
  • Modification 1 is an example in which color information is the most frequent value of RGB of pixels within a frame surrounding a human body or a human body candidate. Note that the color information is not limited to the mode value, and may be the average value of RGB of pixels within a frame surrounding the human body or a human body candidate.
  • FIG. 5 is a diagram illustrating color information according to Modification 1.
  • the captured image 1 is a captured image for learning to generate reference color information
  • the captured image 2 is a captured image of a human body as a detection target.
  • the color information generation unit 11 acquires the RGB mode values (r 1 , g 1 , b 1 ) for the pixels within the frame surrounding the human body detected in the area A1 of the captured image 1, and determines the reference color of the area A1. It is stored in the color information database 15 as information. Further, the color information generation unit 11 calculates the mode value (r 2 , g 2 , b 2 ) of RGB for pixels within a frame surrounding the PC (human body candidate) detected in the area A1 of the captured image 2 as a human body candidate. Obtained as color information.
  • the mode value is a pixel value that appears most frequently among pixels within a frame surrounding the human body or human body candidate.
  • r 1 , g 1 , b 1 , r 2 , g 2 , and b 2 are represented by values from 0 to 255.
  • the human body determination unit 13 determines the distance d between the RGB mode value (r 1 , g 1 , b 1 ) of the reference color information and the RGB mode value (r 2 , g 2 , b 2 ) of the color information of the human body candidate. is calculated using the following (Equation 1).
  • the human body determination unit 13 can determine that the human body candidate is a human body when the distance d is less than or equal to a predetermined threshold, and can determine that the human body candidate is not a human body when the distance d is greater than the predetermined threshold.
  • the correlation coefficient may be calculated by defining a conversion formula such that it becomes larger as the distance d becomes smaller, for example. In this case, the human body determining unit 13 can determine whether the human body candidate is a human body by comparing the correlation coefficient with a predetermined threshold, as in the case of the histogram.
  • the information processing device 10 can detect a human body with high accuracy by comparing the color information of the human body candidate and the reference color information by simple calculation.
  • Modification 2 is an example in which color information is generated based on pixel values within a frame surrounding a human body or a human body candidate, excluding the background. By excluding pixels in the background portion, the color information generation unit 11 can more accurately generate color information of the human body or human body candidate.
  • FIG. 6 is a diagram illustrating color information according to Modification 2.
  • the color information generation unit 11 can similarly generate reference color information of the human body from the captured image for learning.
  • the detection unit 12 detects human body candidates from the captured image 60. Since the rectangular frame 61 surrounding the human body candidate includes a background image, if color information is generated from the pixel values within the frame 61, the generated color information will include color information of the background part other than the human body candidate. . Therefore, the color information generation unit 11 acquires a background difference 63 that is the difference between the captured image 60 and the background image 62, and generates color information from the human body candidate 64 based on the background difference 63.
  • the information processing device 10 can generate basic color information and color information only from the actual human body and the human body candidate portion by generating color information excluding the background portion, A human body can be detected with high accuracy.
  • Modification 3 The above embodiment shows an example in which reference color information corresponding to each region is generated from one captured image for learning. Modification 3 is an example in which reference color information corresponding to each region is generated from a plurality of captured images for learning, and a color information map is created.
  • FIG. 7 is a diagram illustrating a color information map according to modification 3.
  • the color information generation unit 11 generates reference color information 74 corresponding to the area A1 by averaging the color information 71 and color information 73 of the human body detected in the area A1 of the captured image 70 and the captured image 72, for example. do.
  • the color information generation unit 11 is not limited to two, the captured image 70 and the captured image 72, and may generate reference color information from three or more captured images. Further, the color information generation unit 11 may generate, as the reference color information, a learned model that is trained using the color information of the human body detected in the area A1 as the teacher data in the plurality of captured images for learning. This trained model outputs whether the input color information of the human body candidate is the color information of the human body detected in the detection area.
  • the information processing device 10 can create a more average color information map by generating reference color information corresponding to each region from a plurality of captured images for learning.
  • Modification 4 like Modification 3, is an example in which reference color information corresponding to each area is generated from a plurality of captured images for learning, and a color information map is created.
  • Modified example 3 is an example in which one reference color information is generated from a plurality of captured images for learning
  • modified example 4 is an example in which multiple pieces of reference color information are generated from multiple captured images for learning. It is.
  • modification example 4 when color information whose correlation coefficient with the current reference color information is less than a predetermined threshold is generated from any of the captured images for learning, the color information is used as a new reference color. Retained as information.
  • FIG. 8 is a diagram illustrating a color information map according to Modification 4.
  • the color information generation unit 11 first employs the color information 81 of the human body detected in the captured image 80 as the reference color information 81 in the area A1.
  • the color information generation unit 11 generates color information 83 of the human body newly detected in the captured image 82 and calculates a correlation coefficient with the reference color information 81. If the correlation coefficient is greater than or equal to a predetermined threshold (first threshold), the color information generation unit 11 updates the reference color information 81 based on the color information 83. The color information generation unit 11 updates the reference color information 84 to the reference color information 84 by averaging the reference color information 81 with the color information 83, for example.
  • the first threshold value can be, for example, a value of 0.6 or more and 0.9 or less.
  • the color information generation unit 11 generates color information 86 of the human body newly detected in the captured image 85, and calculates a correlation coefficient with the reference color information 84. If the correlation coefficient is less than a predetermined threshold (second threshold), the color information generation unit 11 adopts the color information 86 as the new reference color information 86 in the area A1, and stores it in the color information database 15.
  • the second threshold is a value less than or equal to the first threshold, and may be, for example, a value of 0.3 or more and 0.6 or less.
  • the color information generation unit 11 similarly calculates the correlation coefficients between the newly detected color information of the human body and the reference color information 84 and the reference color information 86. do.
  • the color information generation unit 11 updates the reference color information based on the newly detected color information of the human body.
  • the color information generation unit 11 converts the newly detected human body color information into a new reference color in the area A1. It is adopted as information and stored in the color information database 15.
  • the information processing device 10 when color information with different characteristics is generated from the captured image for learning, stores it in the color information database 15 as new reference color information.
  • the information processing device 10 can detect a human body with high accuracy even when detecting a person whose uniform is a different color.
  • ⁇ Modification 5> In the above embodiment, an example has been described in which a color information map including reference color information for each area is prepared in advance, but the color information map may be generated and updated while performing human body detection processing.
  • the human body candidate is determined to be a human body in step S105 of the human body detection process shown in FIG.
  • the reference color information is updated by averaging.
  • the information processing device 10 can continuously update the reference color information, thereby suppressing a decrease in the accuracy of human body detection due to changes over time in the background, characteristics of the person, etc. Can be done.
  • the captured image is divided into 4 ⁇ 4 rectangular areas and the human body detection process is executed.
  • the method of dividing the captured image is Not limited to area.
  • the number of divided regions may be greater or less than 4 ⁇ 4.
  • the shape of the divided regions is not limited to a rectangle, but may be a concentric region.
  • the information processing device 10 is not limited to preparing reference color information for each divided region, and may prepare reference color information according to the distance from the center position of the captured image.
  • a storage unit (15) that stores color information of the human body as reference color information
  • a detection unit (12) that detects a human body candidate from an image captured by a fisheye camera
  • the reference color information corresponding to the detection area where the human body candidate is detected is acquired from the storage unit, and based on the degree of similarity between the acquired reference color information of the detection area and the color information of the human body candidate, a human body determination unit (13) that determines whether the human body candidate is a human body
  • An information processing device (10 comprising:
  • the computer a storage step of storing color information of the human body in a storage unit as reference color information; a detection step (step S102) of detecting a human body candidate from an image captured by a fisheye camera; The reference color information corresponding to the detection area where the human body candidate is detected is acquired from the storage unit, and based on the degree of similarity between the acquired reference color information of the detection area and the color information of the human body candidate, a human body determination step (steps S103 to S106) of determining whether the human body candidate is a human body; Information processing methods including.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置は、人体の色情報を基準色情報として記憶する記憶部と、魚眼カメラによる撮像画像から人体候補を検出する検出部と、前記人体候補が検出された検出領域に対応する前記基準色情報を前記記憶部から取得し、取得した前記検出領域の前記基準色情報と、前記人体候補の色情報との類似度に基づいて、前記人体候補が人体であるか否かを判定する人体判定部と、を備える。

Description

情報処理装置、情報処理方法、およびプログラム
 本発明は、情報処理装置および情報処理方法に関する。
 近年、ファクトリーオートメーション(FA)市場では、魚眼見下ろしカメラにより人の動きを分析し、ライン生産方式およびセル生産方式などで工程の改善を図るためのアプリケーションが利用されている。人の動きを分析するためには、人体検出精度の向上が求められる。特許文献1は、撮像画像から抽出された顔候補領域の色相が肌色であるか否かを判定することにより、人物の顔として確からしい顔候補領域を顔領域として特定する技術を開示する。
特開2009-123081号公報
 天井等に設置された魚眼カメラで撮像された見下ろし画像では、画像内の位置によって人の見え方が変化し、検出対象の人物の色情報は、検出される位置によって異なる。したがって、魚眼カメラによる撮像画像では色情報を用いても、誤検出を低減することは困難な場合がある。
 本発明は、一側面では、魚眼カメラで撮像された見下ろし画像で、人体の誤検出を低減する技術を提供することを目的とする。
 本発明は、上記目的を達成するために、以下の構成を採用する。
 本開示の第一側面は、人体の色情報を基準色情報として記憶する記憶部と、魚眼カメラによる撮像画像から人体候補を検出する検出部と、人体候補が検出された検出領域に対応する基準色情報を記憶部から取得し、取得した検出領域の基準色情報と、人体候補の色情報との類似度に基づいて、人体候補が人体であるか否かを判定する人体判定部と、を備える情報処理装置である。
 情報処理装置は、人体候補の色情報を人体候補が検出された位置(検出領域)に応じた基準色情報と比較することで、検出された人体候補が人体であるか否かを精度良く判定し、魚眼カメラで撮像された見下ろし画像での人体の誤検出を低減することができる。
 記憶部は、魚眼カメラによる撮像画像を分割した複数の領域ごとに、領域で検出された人体の色情報を基準色情報として記憶してもよい。情報処理装置は、領域ごとの基準色情報を用意することで、領域内で検出された人体候補が人体であるか否かを精度良く判定することができる。
 情報処理装置は、領域で検出された人体の色情報から、領域の基準色情報を生成して記憶部に記憶させる生成部をさらに備えてもよい。生成部を備えることで、情報処理装置は、人体検出処理をしながら基準色情報を生成したり、更新したりすることができる。情報処理装置は、基準色情報を継続的に更新することができ、背景および人物の特徴等の経時的な変化に伴う人体検出の精度の低下を抑制することができる。
 生成部は、複数の撮像画像の領域でそれぞれ検出された人体の色情報に基づいて、領域に対応する基準色情報を生成してもよい。情報処理装置は、複数の学習用の撮像画像から各領域に対応する基準色情報を生成することで、より平均的な色情報マップを作成することができる。
 生成部は、領域で新たに検出された人体の色情報と、領域に対応する基準色情報との相関係数が第1閾値以上である場合には、領域で新たに検出された人体の色情報に基づいて領域の基準色情報を更新し、領域で新たに検出された人体の色情報と、領域の基準色情報との相関係数が第1閾値以下の第2閾値未満である場合には、領域で新たに検出された人体の色情報を領域の新たな基準色情報として記憶部に記憶させてもよい。情報処理装置は、学習用の撮像画像から、特徴の異なる色情報を、新たな基準色情報を記憶部に記憶させる。各領域が複数の基準色情報に対応づけられ、情報処理装置は、色の特徴が異なる人物を検出するような場合でも、精度良く人体を検出することができる。
 基準色情報は、領域で検出された人体を囲む枠内での画素値に基づいて生成され、人体候補の色情報は、人体候補を囲む枠内での画素値に基づいて生成されてもよい。情報処理装置は、人体と人体候補との画素値の違いに基づいて、誤検出を抑制することができる。
 基準色情報は、領域で検出された人体を囲む枠内から撮像画像の背景を除く部分での画素値に基づいて生成され、人体候補の色情報は、人体候補を囲む枠内から撮像画像の背景部分を除く部分での画素値に基づいて生成されてもよい。情報処理装置は、背景部分を除いて色情報を生成することで、実際の人体および人体候補の部分のみから、基本色情報および色情報を生成することができ、精度良く人体を検出することができる。
 基準色情報は、領域で検出された人体を囲む枠内での画素値のヒストグラムであり、人体候補の色情報は、人体候補を囲む枠内での画素値のヒストグラムであってもよい。情報処理装置は、人体と人体候補との画素値の分布の違いに基づいて、誤検出を抑制することができる。
 人体判定部は、人体候補の色情報のヒストグラムと、検出領域に対応する基準色情報のヒストグラムとの相関係数が所定の閾値以上の場合に、人体候補が人体であると判定してもよい。情報処理装置は、ヒストグラム間の相関係数(類似度)に応じて、人体候補が人体であるか否かを判定することができる。情報処理装置は、所定の閾値を変更することで、色の特徴の違いに対する検出精度を調整することができる。
 画素値のヒストグラムは、RGBごとのヒストグラムであってもよい。また、人体判定部は、人体候補の色情報のRGBごとのヒストグラムと、検出領域に対応する基準色情報のRGBごとのヒストグラムとのそれぞれの相関係数の平均値、最大値または最小値に基づいて、人体候補が人体であるか否かを判定してもよい。情報処理装置は、人体と人体候補とで色の特徴が異なる場合の誤検出を抑制することができる。
 基準色情報は、領域で検出された人体を囲む枠内の画素のRGBの最頻値または平均値であり、人体候補の色情報は、人体候補を囲む枠内の画素のRGBの最頻値または平均値であってもよい。情報処理装置は、人体候補の色情報と基準色情報とを簡易な計算で比較し、精度良く人体を検出することができる。
 基準色情報は、複数の撮像画像において領域で検出された人体の色情報を平均化した情報であってもよい。また、基準色情報は、複数の撮像画像において領域で検出された人体の色情報を教師データとして学習させ、入力された人体候補の色情報が、検出領域で検出される人体の色情報であるか否かを出力する学習済みモデルであってもよい。情報処理装置は、複数の学習用の撮像画像から各領域に対応する基準色情報を生成することで、より平均的な色情報マップを作成することができる。
 領域は、複数の基準色情報に対応づけられてもよい。情報処理装置は、色の特徴が異なる人物を検出するような場合でも、精度良く人体を検出することができる。
 情報処理装置は、人体判定部により、人体であると判定された人体候補を、人体の検出結果としてユーザに提示する出力部をさらに備えてもよい。情報処理装置は、色情報を考慮した人体の検出結果をユーザに提示することができる。
 記憶部は、魚眼カメラによる撮像画像の中心位置からの距離に応じた基準色情報を記憶してもよい。情報処理装置は、撮像画像の中心位置からの距離に応じた基準色情報を用意することで、当該距離で検出された人体候補が人体であるか否かを精度良く判定することができる。
 本発明の第二側面は、コンピュータが、魚眼カメラによる撮像画像を分割した複数の領域ごとに、領域で検出された人体の色情報を、領域の基準色情報として記憶部に記憶する記憶ステップと、撮像画像から人体候補を検出する検出ステップと、領域のうち人体候補が検出された検出領域に対応する基準色情報を記憶部から取得し、取得した検出領域の基準色情報と、人体候補の色情報とに基づいて、人体候補が人体であるか否かを判定する人体判定ステップと、を含む情報処理方法である。
 本発明は、かかる方法をコンピュータによって実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
 本発明によれば、魚眼カメラで撮像された見下ろし画像で、人体の誤検出を低減することができる。
図1は、実施形態に係る情報処理装置の適用例を説明する図である。 図2は、情報処理装置のハードウェア構成を例示する図である。 図3は、情報処理装置の機能構成を例示する図である。 図4は、人体検出処理を例示するフローチャートである。 図5は、変形例1に係る色情報について説明する図である。 図6は、変形例2に係る色情報について説明する図である。 図7は、変形例3に係る色情報マップについて説明する図である。 図8は、変形例4に係る色情報マップについて説明する図である。
 以下、本発明の一側面に係る実施の形態を、図面に基づいて説明する。
 <適用例>
 図1は、実施形態に係る情報処理装置の適用例を説明する図である。情報処理装置は、カメラで撮像されたカメラ画像(撮像画像)から、人体であると認識された被写体(以下、人体候補と称される)を検出し、色情報を用いて人体候補が人体であるか否かを判定する。
 情報処理装置は、撮像画像を複数の領域に分割し、それぞれの領域で検出された人体の色情報を取得(生成)する。図1の例では、学習用の撮像画像1は、4×4の矩形の領域に分割されている。情報処理装置は、領域A1で検出された人体を囲む枠内の画素について、RGBごとのヒストグラムを人体の色情報として生成する。生成された色情報は、人体候補が人体であるか否かを判定するための基準となる色情報(以下、基準色情報と称される)として記憶部に記憶される。基準色情報は、各領域で検出された人体の色情報であり、撮像画像を分割した複数の領域ごとに生成される。
 情報処理装置は、検出対象の撮像画像では人体候補を検出し、人体候補の色情報を生成する。図1の下段は、情報処理装置が、撮像画像2の領域A1でパーソナルコンピュータ(PC)を人体候補として検出した例を示す。情報処理装置は、検出したPCを囲む枠内の画素について、RGBごとのヒストグラムを人体候補の色情報として生成する。
 情報処理装置は、撮像画像2の領域A1で検出されたPCの色情報を、領域A1の基準色情報と比較し、これらの類似度に基づいて、人体候補として検出されたPCが人体であるか否かを判定する。情報処理装置は、例えば、人体候補(PC)の色情報のヒストグラムと基準色情報のヒストグラムとの相関係数を類似度として計算し、相関係数が所定の閾値以上である場合に、人体候補が人体であると判定することができる。
 相関係数は、公知の各種方法により、例えば0以上1以下の値として計算される。図1の例では、情報処理装置は、RGBごとのヒストグラム間で相関係数を計算し、例えば、3つの相関係数の平均値を、人体であるか否かの判定するための相関係数として用いることができる。所定の閾値は、例えば、0.6以上0.9以下の値とすることができる。所定の閾値を上げることで、情報処理装置は、人体であるか否かをより精度よく判定することができる。
 人体検出のための撮像に使用されるカメラは、広範囲の画像情報を取得することが可能な魚眼レンズを搭載した超広角のカメラである。魚眼レンズを搭載したカメラは、魚眼カメラ、全方位カメラ、全天球カメラなどとも呼ばれるが、本明細書では「魚眼カメラ」の語を用いる。
 魚眼カメラで撮影した画像は、撮像画像内の位置によって撮影対象の見た目に歪みが生じる。例えば、魚眼カメラが天井から床面を見下ろすように配置された場合、撮影された人物の画像は、足元が中心を向き、頭頂部は外側を向いている。人体は、撮像画像の周辺では正面像、背面像または側面像となり、撮像画像の中央では上面像となる。
 このため、同一人物または同じ制服を着用した人物であっても、検出される領域によって、生成される色情報は異なる。情報処理装置は、人体候補の色情報を、人体候補が検出された領域(検出領域)に対応する基準色情報と比較することで、人体候補が人体であるか否かを精度良く判定することができる。したがって、情報処理装置は、魚眼カメラで撮像された見下ろし画像での人体の誤検出を低減することができる。
 なお、特定の場所に設置されたカメラの撮像画像から人体候補を検出する場合、情報処理装置は、主に撮像画像から背景画像を除いた背景差分から人体候補を検出する。この場合、背景差分に含まれる物体は、人体でない場合でも、人体候補として検出される可能性が高くなる。特に、特定の環境で人体を検出するように学習させたモデルを用いて人体を検出した場合、背景に含まれず色の異なる物体は、人体として検出されてしまう場合がある。情報処理装置は、色情報を用いて人体であるか否かを判定することで、背景差分からの物体の誤検出を低減することが可能となる。
 <実施形態>
 (ハードウェア構成)
 図2を参照して、情報処理装置10のハードウェア構成の一例について説明する。図2は、情報処理装置10のハードウェア構成を例示する図である。情報処理装置10は、プロセッサ101、主記憶部102、補助記憶部103、通信インタフェース(I/F)104、表示部105を備える。
 プロセッサ101は、補助記憶部103に記憶されたプログラムを主記憶部102に読み出して実行することにより、図3で説明する各機能構成としての機能を実現する。主記憶部102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等の半導体メモリである。補助記憶部103は、例えば、ハードディスクドライブ、ソリッドステートドライブ等の不揮発性のメモリである。
 通信インタフェース104は、有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で通信を行うためのインタフェースである。表示部105は、人体の検出結果を表示するためのディスプレイ等である。
 情報処理装置10は、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよく、オンボードコンピュータのように組み込み型のコンピュータでもよい。情報処理装置10は、各機能部の処理の一部をクラウドサーバにより実現してもよい。また、情報処理装置10の各機能部の処理の一部は、FPGAまたはASICなどの専用のハードウェア装置によって実現されてもよい。
 情報処理装置10は、有線または無線でカメラ20に接続され、カメラ20で撮影された画像データ(撮像画像)を受信する。カメラ20は、レンズを含む光学系および撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。
 なお、情報処理装置10の処理の一部は、カメラ20で実行されてもよい。また、情報処理装置10による人体検出の結果は、外部の装置に送信されユーザに提示されるようにしてもよい。さらに、情報処理装置10は、カメラ20と一体に構成されてもよい。
 (機能構成)
 図3を参照して、情報処理装置10の機能構成の一例について説明する。図3は、情報処理装置10の機能構成を例示する図である。情報処理装置10は、色情報生成部11、検出部12、人体判定部13、出力部14および色情報データベース15(色情報DB15)を含む。
 色情報生成部11は、カメラ20によって撮像された撮像画像を取得し、撮像画像を分割した複数の領域ごとに、当該領域で検出された人体の色情報から、当該領域の基準色情報を生成する。撮像画像を分割した各領域と対応づけられた基準色情報のデータは、色情報マップとも称される。
 色情報は、検出された人体を囲む枠内での画素値に基づいて生成される。例えば、色情報生成部11は、人体を囲む枠内の画素の画素値(輝度値)をヒストグラムとして表した情報を、人体が検出された領域の基準色情報として生成する。色情報生成部11は、RGBごとのヒストグラムを基準色情報として生成してもよい。色情報生成部11は、生成した基準色情報を、人体が検出された領域と対応づけて色情報データベース15に記憶させる。
 色情報生成部11は、基準色情報と同様に、撮像画像から検出した人体候補の色情報も生成することができる。人体候補の色情報は、人体判定部13により、人体候補が人体であるか否かを判定するために用いられる。色情報生成部11は、「生成部」の一例である。
 検出部12は、カメラ20によって撮像された撮像画像を取得し、撮像画像から人体候補を検出する。検出部12は、一般的な物体認識のアルゴリズムを用いて、人体候補を検出することができる。例えば、検出部12は、HoGまたはHaar-likeなどの画像特徴とブースティングとを組み合わせた識別器を用いて人体候補を検出することができる。また、検出部12は、ディープラーニング(例えば、R-CNN、Faster R-CNN、YOLO、SSDなど)による人体認識のアルゴリズムを用いて人体候補を検出してもよい。
 人体判定部13は、検出部12が検出した人体候補が、人体であるか否かを判定する。人体判定部13は、撮像画像の複数の領域のうち人体候補が検出された検出領域に対応する基準色情報と、人体候補の色情報との類似度に基づいて、人体候補が人体であるか否かを判定する。検出領域は、例えば、人体候補を囲む矩形枠の中心位置が検出された領域とすることができる。
 出力部14は、人体判定部13により人体であると判定された人体候補を、人体の検出結果として出力する。出力部14は、例えば、検出された人体を囲む矩形を撮像画像上に重畳表示することにより、人体の検出結果をユーザに提示することができる。
 色情報データベース15は、あらかじめ色情報生成部11が作成した色情報マップを記憶する。色情報マップは、撮像画像を分割した領域と、当該領域と対応づけられた基準色情報のデータを含む。色情報マップの基準色情報は、人体の検出処理を実行しながら更新されるようにしてもよい。色情報データベース15は、「記憶部」の一例である。
 (人体検出処理)
 図4を参照して、人体検出処理の全体的な流れを説明する。図4は、人体検出処理を例示するフローチャートである。人体検出処理は、例えば、カメラ20の電源が入り、情報処理装置10がカメラ20から撮像画像を受信することにより開始される。なお、図4に示す人体検出処理は、カメラ20から受信する画像データの1フレーム(撮像画像)ごとに実行される処理である。また、色情報マップは、色情報生成部11によってあらかじめ作成され、色情報データベース15に記憶されているものとする。
 ステップS101では、検出部12は撮像画像を取得する。検出部12は、通信インタフェース104を介して、カメラ20から撮像画像を取得することができる。なお、情報処理装置10がカメラ(撮像部)と一体に構成されている場合には、色情報生成部11は、撮像部により撮像された撮像画像を取得する。
 ステップS102では、検出部12は、ステップS101で取得した撮像画像から人体候補を検出する。検出部12は、ディープラーニング等の公知の技術を使用して人体候補を検出することができる。ステップS102で複数の人体候補が検出された場合、各人体候補に対してステップS103からステップS106の人体判定処理L1が繰り返される。
 ステップS103では、人体判定部13は、ステップS102で検出された人体候補が人体であるか否かを判定する。人体判定部13は、まず、撮像画像を分割した複数の領域のうち、人体候補が検出された検出領域に対応する基準色情報を色情報データベース15から取得する。次に、人体判定部13は、取得した当該検出領域の基準色情報と、検出された人体候補の色情報との類似度に基づいて、人体候補が人体であるか否かを判定する。人体候補の色情報は、色情報生成部11により取得される。
 色情報は、図1で例示したように、RGBごとのヒストグラムとする。この場合、人体判定部13は、人体候補の色情報のRGBごとのヒストグラムと、基準色情報のRGBごとのヒストグラムとの相関係数をそれぞれ計算する。
 ステップS104では、人体判定部13は、ステップS103で計算した相関係数が所定の閾値以上であるか否かを判定する。人体判定部13は、例えば、RGBのヒストグラムのそれぞれの相関係数の平均値、最大値または最小値が所定の閾値以上の場合に、人体候補が人体であると判定する。なお、人体判定部13は、RGBのヒストグラムのそれぞれの相関係数が、いずれも所定の閾値以上の場合に、人体候補が人体であると判定してもよい。
 相関係数が所定の閾値以上であり、人体候補が人体であるとされた場合(ステップS104:YES)、処理はステップS105に進む。相関係数が所定の閾値未満であり、人体候補が人体でないと判定された場合(ステップS104:NO)、処理はステップS106に進む。
 ステップS105では、人体判定部13は、判定対象の人体候補を人体の検出結果として採用し、補助記憶部103等に保持する。ステップS106では、人体判定部13は、判定対象の人体候補を誤検出として除去する。
 ステップS102で検出された各人体候補に対して、人体判定処理L1が実行されると、処理はステップS107に進む。ステップS107では、出力部14は、ステップS105で検出結果として採用された人体の情報を出力する。出力部14は、検出結果を表示部105に表示してもよい。出力部14は、例えば、検出された人体を囲む矩形を撮像画像上に重畳表示することにより、人体の検出結果をユーザに提示することができる。出力部14は、検出結果を外部装置に出力し、外部装置のディスプレイ等に表示させてもよい。
 現在のフレーム(撮像画像)に対する人体検出処理が終了すると、次のフレームに対する人体検出処理が開始される。情報処理装置10は、カメラ20による撮像処理が停止されるまで図4の人体検出処理を繰り返し実行する。
 上記の実施形態において、情報処理装置10は、撮像画像から人体候補を検出し、人体候補が検出された検出領域に対応する基準色情報と、人体候補の色情報との類似度に基づいて、人体候補が人体であるか否かを判定する。魚眼カメラによる撮像画像では、撮像された位置によって見え方が異なるが、情報処理装置10は、人体候補が検出された位置(検出領域)に応じた基準色情報と比較することで、検出された人体候補が人体であるか否かを精度良く判定することができる。したがって、情報処理装置10は、魚眼カメラで撮像された見下ろし画像での人体の誤検出を低減することができる。
 <変形例1>
 上記の実施形態は、色情報が画素値のヒストグラムである例を示す。変形例1は、色情報を、人体または人体候補を囲む枠内の画素のRGBの最頻値とする例である。なお、最頻値に限られず、色情報は、人体または人体候補を囲む枠内の画素のRGBの平均値であってもよい。
 図5は、変形例1に係る色情報について説明する図である。撮像画像1は、基準色情報を生成するための学習用の撮像画像であり、撮像画像2は、人体の検出対象である撮像画像である。
 色情報生成部11は、撮像画像1の領域A1で検出された人体を囲む枠内の画素について、RGBの最頻値(r,g,b)を取得し、領域A1の基準色情報として色情報データベース15に記憶させる。また、色情報生成部11は、撮像画像2の領域A1で検出されたPC(人体候補)を囲む枠内の画素について、RGBの最頻値(r,g,b)を人体候補の色情報として取得する。最頻値は、人体または人体候補を囲む枠内の画素のうち最も多く登場する画素値である。r,g,b1,,g,bは、0から255までの値で表される。
 人体判定部13は、基準色情報のRGB最頻値(r,g,b)と人体候補の色情報のRGBの最頻値(r,g,b)との距離dを、以下の(式1)により計算する。
Figure JPOXMLDOC01-appb-M000001

人体判定部13は、距離dが所定の閾値以下の場合は、人体候補が人体であると判定し、距離dが所定の閾値より大きい場合は、人体候補が人体でないと判定することができる。なお、相関係数は、例えば、距離dが小さくなるにつれて大きくなるように換算式を定義して、算出されるようにしてもよい。この場合、人体判定部13は、ヒストグラムの場合と同様に、相関係数を所定の閾値と比較することにより、人体候補が人体であるか否かを判定することができる。
 変形例1によれば、情報処理装置10は、人体候補の色情報と基準色情報とを簡易な計算で比較し、精度良く人体を検出することができる。
 <変形例2>
 変形例2は、人体または人体候補を囲む枠内から背景を除く部分での画素値に基づいて色情報を生成する例である。背景部分の画素を除外することで、色情報生成部11は、人体または人体候補の色情報をより正確に生成することができる。
 図6は、変形例2に係る色情報について説明する図である。図6では、検出対象の撮像画像60から、検出された人体候補の色情報を生成する例について説明する。色情報生成部11は、学習用の撮像画像から人体の基準色情報も同様に生成することができる。
 検出部12は、撮像画像60から人体候補を検出する。人体候補を囲む矩形の枠61は背景画像を含むため、枠61内の画素値から色情報を生成した場合、生成される色情報は、人体候補以外の背景部分の色の情報を含んでしまう。そこで、色情報生成部11は、撮像画像60と背景画像62との差分である背景差分63を取得し、背景差分63での人体候補64から色情報を生成する。
 変形例2によれば、情報処理装置10は、背景部分を除いて色情報を生成することで、実際の人体および人体候補の部分のみから、基本色情報および色情報を生成することができ、精度良く人体を検出することができる。
 <変形例3>
 上記の実施形態は、各領域に対応する基準色情報を1つの学習用の撮像画像から生成する例を示す。変形例3は、複数の学習用の撮像画像から各領域に対応する基準色情報を生成し、色情報マップを作成する例である。
 図7は、変形例3に係る色情報マップについて説明する図である。色情報生成部11は、例えば、撮像画像70および撮像画像72の領域A1で検出された人体の色情報71および色情報73を平均化することにより、領域A1に対応する基準色情報74を生成する。
 色情報生成部11は、撮像画像70および撮像画像72の2つに限られず、3つ以上の撮像画像から基準色情報を生成してもよい。また、色情報生成部11は、複数の学習用の撮像画像において、領域A1で検出された人体の色情報を教師データとして学習させた学習済みモデルを基準色情報として生成してもよい。この学習済みモデルは、入力された人体候補の色情報が、検出領域で検出される人体の色情報であるか否かを出力する。
 変形例3によれば、情報処理装置10は、複数の学習用の撮像画像から各領域に対応する基準色情報を生成することで、より平均的な色情報マップを作成することができる。
 <変形例4>
 変形例4は、変形例3と同様に、複数の学習用の撮像画像から各領域に対応する基準色情報を生成し、色情報マップを作成する例である。変形例3は、複数の学習用の撮像画像から1つの基準色情報を生成する例であるのに対し、変形例4は、複数の学習用の撮像画像から複数の基準色情報を生成する例である。変形例4では、学習用の撮像画像のいずれかの撮像画像から、現在の基準色情報と相関係数が所定の閾値未満の色情報が生成された場合、当該色情報は、新たな基準色情報として保持される。
 図8は、変形例4に係る色情報マップについて説明する図である。色情報生成部11は、まず、撮像画像80で検出された人体の色情報81を、領域A1での基準色情報81として採用する。
 次に、色情報生成部11は、撮像画像82で新たに検出された人体の色情報83を生成し、基準色情報81との相関係数を計算する。相関係数が所定の閾値(第1閾値)以上である場合、色情報生成部11は、色情報83に基づいて基準色情報81を更新する。色情報生成部11は、例えば、基準色情報81を色情報83と平均化することにより、基準色情報84に更新する。第1閾値は、例えば、0.6以上0.9以下の値とすることができる。
 また、色情報生成部11は、撮像画像85で新たに検出された人体の色情報86を生成し、基準色情報84との相関係数を計算する。相関係数が所定の閾値(第2閾値)未満である場合、色情報生成部11は、色情報86を領域A1での新たな基準色情報86として採用し、色情報データベース15に記憶させる。第2閾値は、第1閾値以下の値であり、例えば、0.3以上0.6以下の値とすることができる。
 さらに他の学習用の撮像画像がある場合も同様に、色情報生成部11は、新たに検出された人体の色情報と、基準色情報84および基準色情報86との相関係数をそれぞれ計算する。色情報生成部11は、相関係数が第1閾値以上となれば、新たに検出された人体の色情報に基づいて、当該基準色情報を更新する。また、いずれの基準色情報に対しても相関係数が第2閾値未満となった場合、色情報生成部11は、新たに検出された人体の色情報を、領域A1での新たな基準色情報として採用し、色情報データベース15に記憶させる。
 変形例4によれば、情報処理装置10は、学習用の撮像画像から、特徴の異なる色情報が生成された場合、新たな基準色情報として色情報データベース15に記憶させる。各領域が複数の基準色情報に対応づけられることにより、情報処理装置10は、制服の色が異なる人物を検出するような場合でも、精度良く人体を検出することができる。
 また、各領域で複数の基準色情報を採用することにより、異なる特徴を有する人物が検出された頻度等の情報を取得することができ、これらの情報は、ファクトリーオートメーションにおける工程改善に有用な情報として用いることができる。
 <変形例5>
 上記の実施形態では、各領域に対する基準色情報を含む色情報マップは、あらかじめ用意されている例について説明したが、色情報マップは、人体検出処理をしながら生成、更新されてもよい。人体判定部13は、図4に示す人体検出処理のステップS105で、人体候補が人体であると判定された場合、人体であると判定された人体候補の色情報を、現在の基準色情報と平均化することで、基準色情報を更新する。
 変形例5によれば、情報処理装置10は、基準色情報を継続的に更新することができるため、背景および人物の特徴等の経時的な変化に伴う人体検出の精度の低下を抑制することができる。
 <その他>
 上記の実施形態および各変形例は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の組み合わせおよび変形が可能である。
 なお、上記の実施形態および各変形例では、撮像画像を4×4の矩形の領域に分割して人体検出処理を実行する例により説明したが、撮像画像の分割方法は、4×4の矩形領域に限られない。分割された領域の数は、4×4より多くても少なくてもよい。また分割された領域の形状は矩形に限られず、同心円状の領域としてもよい。また、情報処理装置10は、分割された領域ごとに基準色情報を用意する場合に限られず、撮像画像の中心位置からの距離に応じた基準色情報を用意するようにしてもよい。
 <付記>
 (1)人体の色情報を基準色情報として記憶する記憶部(15)と、
 魚眼カメラによる撮像画像から人体候補を検出する検出部(12)と、
 前記人体候補が検出された検出領域に対応する前記基準色情報を前記記憶部から取得し、取得した前記検出領域の前記基準色情報と、前記人体候補の色情報との類似度に基づいて、前記人体候補が人体であるか否かを判定する人体判定部(13)と、
を備える情報処理装置(10)。
 (2)コンピュータが、
 人体の色情報を基準色情報として記憶部に記憶する記憶ステップと、
 魚眼カメラによる撮像画像から人体候補を検出する検出ステップ(ステップS102)と、
 前記人体候補が検出された検出領域に対応する前記基準色情報を前記記憶部から取得し、取得した前記検出領域の前記基準色情報と、前記人体候補の色情報との類似度に基づいて、前記人体候補が人体であるか否かを判定する人体判定ステップ(ステップS103~S106)と、
を含む情報処理方法。
10:情報処理装置、11:色情報生成部、12:検出部、13:人体判定部、14:出力部、15:色情報データベース、20:カメラ
101:プロセッサ、102:主記憶部、103:補助記憶部、104:通信インタフェース、105:表示部

Claims (19)

  1.  人体の色情報を基準色情報として記憶する記憶部と、
     魚眼カメラによる撮像画像から人体候補を検出する検出部と、
     前記人体候補が検出された検出領域に対応する前記基準色情報を前記記憶部から取得し、取得した前記検出領域の前記基準色情報と、前記人体候補の色情報との類似度に基づいて、前記人体候補が人体であるか否かを判定する人体判定部と、
    を備える情報処理装置。
  2.  前記記憶部は、前記魚眼カメラによる撮像画像を分割した複数の領域ごとに、前記領域で検出された人体の色情報を前記基準色情報として記憶する、
    請求項1に記載の情報処理装置。
  3.  前記領域で検出された人体の色情報から、前記領域の前記基準色情報を生成して前記記憶部に記憶させる生成部をさらに備える、
    請求項2に記載の情報処理装置。
  4.  前記生成部は、複数の前記撮像画像の前記領域でそれぞれ検出された人体の色情報に基づいて、前記領域に対応する前記基準色情報を生成する、
    請求項3に記載の情報処理装置。
  5.  前記生成部は、
      前記領域で新たに検出された人体の色情報と、前記領域に対応する前記基準色情報との相関係数が第1閾値以上である場合には、前記領域で新たに検出された人体の色情報に基づいて前記領域の前記基準色情報を更新し、
      前記領域で新たに検出された人体の色情報と、前記領域の前記基準色情報との相関係数が前記第1閾値以下の第2閾値未満である場合には、前記領域で新たに検出された人体の色情報を前記領域の新たな前記基準色情報として前記記憶部に記憶させる、
    請求項3又は4に記載の情報処理装置。
  6.  前記基準色情報は、前記領域で検出された人体を囲む枠内での画素値に基づいて生成され、
     前記人体候補の色情報は、前記人体候補を囲む枠内での画素値に基づいて生成される、請求項2から5のいずれか1項に記載の情報処理装置。
  7.  前記基準色情報は、前記領域で検出された人体を囲む枠内から前記撮像画像の背景を除く部分での画素値に基づいて生成され、
     前記人体候補の色情報は、前記人体候補を囲む枠内から前記撮像画像の背景部分を除く部分での画素値に基づいて生成される、
    請求項6に記載の情報処理装置。
  8.  前記基準色情報は、前記領域で検出された人体を囲む枠内での画素値のヒストグラムであり、
     前記人体候補の色情報は、前記人体候補を囲む枠内での画素値のヒストグラムである、請求項6又は7に記載の情報処理装置。
  9.  前記人体判定部は、前記人体候補の色情報のヒストグラムと、前記検出領域に対応する前記基準色情報のヒストグラムとの相関係数が所定の閾値以上の場合に、前記人体候補が人体であると判定する、
    請求項8に記載の情報処理装置。
  10.  前記画素値のヒストグラムは、RGBごとのヒストグラムである、
    請求項8又は9に記載の情報処理装置。
  11.  前記人体判定部は、前記人体候補の色情報のRGBごとのヒストグラムと、前記検出領域に対応する前記基準色情報のRGBごとのヒストグラムとのそれぞれの相関係数の平均値、最大値または最小値に基づいて、前記人体候補が人体であるか否かを判定する、
    請求項10に記載の情報処理装置。
  12.  前記基準色情報は、前記領域で検出された人体を囲む枠内の画素のRGBの最頻値または平均値であり、
     前記人体候補の色情報は、前記人体候補を囲む枠内の画素のRGBの最頻値または平均値である、
    請求項6又は7に記載の情報処理装置。
  13.  前記基準色情報は、複数の前記撮像画像において前記領域で検出された人体の色情報を平均化した情報である、
    請求項2から7のいずれか1項に記載の情報処理装置。
  14.  前記基準色情報は、複数の前記撮像画像において前記領域で検出された人体の色情報を教師データとして学習させ、入力された前記人体候補の色情報が、前記検出領域で検出される人体の色情報であるか否かを出力する学習済みモデルである、
    請求項2から7のいずれか1項に記載の情報処理装置。
  15.  前記領域は、複数の前記基準色情報に対応づけられる、
    請求項2から7のいずれか1項に記載の情報処理装置。
  16.  前記人体判定部により、人体であると判定された前記人体候補を、人体の検出結果としてユーザに提示する出力部をさらに備える、
    請求項1から15のいずれか1項に記載の情報処理装置。
  17.  前記記憶部は、魚眼カメラによる撮像画像の中心位置からの距離に応じた前記基準色情報を記憶する、
    請求項1に記載の情報処理装置。
  18.  コンピュータが、
     人体の色情報を基準色情報として記憶部に記憶する記憶ステップと、
     魚眼カメラによる撮像画像から人体候補を検出する検出ステップと、
     前記人体候補が検出された検出領域に対応する前記基準色情報を前記記憶部から取得し、取得した前記検出領域の前記基準色情報と、前記人体候補の色情報との類似度に基づいて、前記人体候補が人体であるか否かを判定する人体判定ステップと、
    を含む情報処理方法。
  19.  コンピュータに、
     人体の色情報を基準色情報として記憶部に記憶する記憶ステップと、
     魚眼カメラによる撮像画像から人体候補を検出する検出ステップと、
     前記人体候補が検出された検出領域に対応する前記基準色情報を前記記憶部から取得し、取得した前記検出領域の前記基準色情報と、前記人体候補の色情報との類似度に基づいて、前記人体候補が人体であるか否かを判定する人体判定ステップと、
     を実行させるためのプログラム。
PCT/JP2023/022618 2022-07-07 2023-06-19 情報処理装置、情報処理方法、およびプログラム WO2024009744A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-109854 2022-07-07
JP2022109854A JP2024008196A (ja) 2022-07-07 2022-07-07 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
WO2024009744A1 true WO2024009744A1 (ja) 2024-01-11

Family

ID=89453295

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/022618 WO2024009744A1 (ja) 2022-07-07 2023-06-19 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2024008196A (ja)
WO (1) WO2024009744A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181159A (ja) * 2015-03-24 2016-10-13 富士通株式会社 システム、検索方法およびプログラム
JP2019149006A (ja) * 2018-02-27 2019-09-05 富士通株式会社 画像選択プログラム、情報処理装置、システム、および画像選択方法
JP2020107070A (ja) * 2018-12-27 2020-07-09 オムロン株式会社 人検出装置および人検出方法
JP2020106970A (ja) * 2018-12-26 2020-07-09 オムロン株式会社 人検出装置および人検出方法
JP2022018173A (ja) * 2020-07-15 2022-01-27 オムロン株式会社 情報処理装置および情報処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181159A (ja) * 2015-03-24 2016-10-13 富士通株式会社 システム、検索方法およびプログラム
JP2019149006A (ja) * 2018-02-27 2019-09-05 富士通株式会社 画像選択プログラム、情報処理装置、システム、および画像選択方法
JP2020106970A (ja) * 2018-12-26 2020-07-09 オムロン株式会社 人検出装置および人検出方法
JP2020107070A (ja) * 2018-12-27 2020-07-09 オムロン株式会社 人検出装置および人検出方法
JP2022018173A (ja) * 2020-07-15 2022-01-27 オムロン株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
JP2024008196A (ja) 2024-01-19

Similar Documents

Publication Publication Date Title
US10198823B1 (en) Segmentation of object image data from background image data
US9171230B2 (en) Object detection method, object detection apparatus and image pickup apparatus
JP5567853B2 (ja) 画像認識装置および方法
JP6204199B2 (ja) 画像品質の評価
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
JP5836095B2 (ja) 画像処理装置、画像処理方法
TWI701609B (zh) 影像物件追蹤方法及其系統與電腦可讀取儲存媒體
JP6351243B2 (ja) 画像処理装置、画像処理方法
KR102383129B1 (ko) 이미지에 포함된 오브젝트의 카테고리 및 인식률에 기반하여 이미지를 보정하는 방법 및 이를 구현한 전자 장치
JP2007042072A (ja) 追跡装置
TW201835805A (zh) 遠距離的身份辨識方法及其系統與電腦可讀取記錄媒體
JP2012530994A (ja) 半顔面検出のための方法および装置
JP6157165B2 (ja) 視線検出装置及び撮像装置
WO2021084972A1 (ja) 物体追跡装置および物体追跡方法
JP2004094491A (ja) 顔向き推定装置および顔向き推定方法ならびに顔向き推定プログラム
JP7334432B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
JP2009230751A (ja) 年令推定装置
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JPWO2018078857A1 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
JP2014021602A (ja) 画像処理装置及び画像処理方法
US11605220B2 (en) Systems and methods for video surveillance
JP2012068948A (ja) 顔属性推定装置およびその方法
EP3699865B1 (en) Three-dimensional face shape derivation device, three-dimensional face shape deriving method, and non-transitory computer readable medium
US20140050404A1 (en) Combining Multiple Image Detectors
WO2024009744A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23835278

Country of ref document: EP

Kind code of ref document: A1