WO2017170875A1 - 画像認識装置、及び画像認識プログラム - Google Patents

画像認識装置、及び画像認識プログラム Download PDF

Info

Publication number
WO2017170875A1
WO2017170875A1 PCT/JP2017/013278 JP2017013278W WO2017170875A1 WO 2017170875 A1 WO2017170875 A1 WO 2017170875A1 JP 2017013278 W JP2017013278 W JP 2017013278W WO 2017170875 A1 WO2017170875 A1 WO 2017170875A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
window
acquired
person
reference line
Prior art date
Application number
PCT/JP2017/013278
Other languages
English (en)
French (fr)
Inventor
英夫 山田
和宏 久野
Original Assignee
株式会社エクォス・リサーチ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エクォス・リサーチ filed Critical 株式会社エクォス・リサーチ
Priority to CN201780020977.1A priority Critical patent/CN109074646B/zh
Priority to US16/088,766 priority patent/US10832044B2/en
Priority to EP17775409.0A priority patent/EP3441938B1/en
Publication of WO2017170875A1 publication Critical patent/WO2017170875A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Definitions

  • the present invention relates to an image recognition apparatus and an image recognition program, for example, a device for recognizing an object in an image.
  • Patent Document 1 As such an image recognition technique, there is an “object detection device” of Patent Document 1. This technique detects an object shown in an image using a HOG (Histogram of Oriented Gradients) feature.
  • HOG Hemogram of Oriented Gradients
  • FIG. 7 is a diagram for explaining a conventional image recognition method. As shown in FIG. 7A, it is assumed that a human image 5 to be recognized is captured in an image 1 taken by a camera.
  • the image recognition device detects the person image 5 as follows. First, the image recognition apparatus sets a plurality of reference lines (baselines) according to the standing position of the person in the image 1.
  • reference lines 2a, 2b, 2c, and 2d are set at positions of 1 m, 5 m, 10 m, and 15 m from the camera. Since a person appears on the upper side of the image 1 as the person is farther from the camera, the reference line 2 (in the case where the reference lines 2a to 2d are not particularly distinguished is simply referred to as a reference line 2 and the same applies to other elements) 1 are set in this order from the bottom.
  • the image recognition apparatus sets detection windows 3a to 3d having the reference line 2 as a lower end for each reference line 2.
  • the size of the detection window 3 is set to a size that can fit the whole body when a person stands at a distance defined by the reference line 2. This is for the purpose of consistency with the reference image because the reference image showing the whole body of the person is used.
  • the image recognition device extracts the features of the window image 4 surrounded by the detection window 3 while moving (shifting) the detection window 3 along the reference line 2, and extracts the features of the reference image stored in advance. Compare with features. And a person is recognized by the similarity (correlation) of both.
  • the human image 5 is recognized by comparing the characteristics of the reference image 7 in which the human image 8 is captured with the characteristics of the window image 4c in the area surrounded by the detection window 3c. Is done.
  • the image recognizing apparatus has the characteristics of the reference image 7 in which the entire person image 8 is captured and the window image 4a in which a part of the person image 5 is captured on the entire screen. The characteristics will be compared. In this case, since the shape, size, composition, etc. of the person in the image are completely different, it is difficult to recognize the person image 5 from the window image 4a from the characteristics of the reference image 7.
  • the edge portion 100 with the head cut off is the end of the image, and therefore it is difficult to calculate the brightness gradient, that is, extract the feature. It is necessary to give some kind of ingenuity for calculation.
  • a method of creating a reference image in a state where a part of a person is outside the image and storing it in the image recognition apparatus is conceivable. It is necessary to store a reference image in which a part of a person is outside the image, and the amount of data to be stored is enormous, which is difficult to realize. Specifically, there are multiple (several thousands) reference images (a whole image) for one object, and images in various states with the top and bottom missing, and various states with the right side missing. It is necessary to prepare and store images in various states in which the left side is missing, images in various states in which one of the top, bottom, left and right is missing, which is a huge amount.
  • the conventional technique has a problem that it cannot be recognized when a part of the recognition target is outside the image.
  • the image recognition device is mounted on a moving body such as a robot or a vehicle, for example, in order to perform the avoidance operation of the object more quickly than when recognizing a distant object, an approaching object (human or In many cases, it is important to accurately recognize the object.
  • the recognition request for the short distance is high, the recognition target cannot be recognized because the entire recognition target does not fit in the angle of view of the camera.
  • the present invention aims to detect a recognition target even when a part of the recognition target is outside the image.
  • an image acquisition unit for acquiring an image and a distance from the image acquisition unit to a subject, and at least a part thereof
  • a reference line setting means for setting a reference line located in a region outside the acquired image in a horizontal direction with respect to the acquired image; and a detection window having a size corresponding to the position of the reference line.
  • Detection window setting means for setting along the window, window image acquisition means for acquiring a window image of an area included in the set detection window, and a reference for acquiring reference feature data representing a feature of a recognition target in the image Feature data acquisition means; determination means for determining whether or not the recognition target is included in the acquired window image using the acquired reference characteristic data; and output means for outputting a determination result by the determination.
  • the image processing apparatus further comprises window image feature data extraction means for extracting window image feature data representing features of the window image from the acquired window image, and the determination means acquires the acquired
  • the determination is performed by comparing reference feature data with the extracted window image feature data.
  • the reference line setting means sets the reference line in a region outside the image below the acquired image, or An image recognition apparatus according to claim 2 is provided.
  • the reference line setting means sets the reference line outside the horizontal direction of the acquired image.
  • An image recognition apparatus according to item 3 is provided.
  • a complementing unit that complements the outside area with predetermined image data is provided.
  • An image recognition apparatus according to any one of claims 1 to 4 is provided.
  • the complementing means sets a marginal area made up of the predetermined image data around the acquired image, so that the outer area is replaced with the predetermined image data.
  • the image recognition apparatus wherein the image recognition apparatus is supplemented.
  • the complementing unit supplements the predetermined region by adding the predetermined image data to the outer region.
  • An image recognition apparatus according to claim 5 is provided.
  • the determination means sets the weight of the portion of the region outside the image included in the window image to be smaller than the weight of the other portion.
  • An image recognition apparatus according to claim 2 is provided.
  • an image acquisition function for acquiring an image and a reference line corresponding to the distance to the subject and at least a part of which is located in a region outside the acquired image are acquired.
  • a reference line setting function for setting a horizontal direction with respect to a captured image a detection window setting function for setting a detection window having a size corresponding to the position of the reference line along the reference line, and the set detection window.
  • a window image acquisition function for acquiring a window image of an included area a reference feature data acquisition function for acquiring reference feature data representing a feature of a recognition target in the image, and the acquisition using the acquired reference feature data
  • an image recognition program for realizing a determination function for determining whether or not the recognition target is included in the window image and an output function for outputting a determination result by the determination by a computer.
  • the recognition target can be detected even when a part of the recognition target is outside the image.
  • the image recognition apparatus adds a blank area 10 filled with predetermined image data around the captured image 1 captured by the camera, and captures the captured image 1.
  • a larger extended image 11 is created. If the person is too close to the camera, a part of the person image 5 protrudes from the captured image 1, but the image recognition apparatus sets a large detection window 3 e including the blank area 10, so that the window including the protruding area is included.
  • the image 4e is extracted from the extended image 11.
  • the window image 4e is an image in which the whole part of the person image 5 is copied, although the protruding part of the person image 5 (head and part of the lower limb) is missing. .
  • the image recognition apparatus stores a large number of reference images 7 that assume various states of the person 8 (states such as different positions and orientations of hands and feet for each posture such as walking, running, jumping, and sitting). is doing.
  • the image data of the reference image 7 itself but the feature amount extracted in advance from each reference image 7 is stored, thereby reducing the data amount to be stored and extracting the feature amount of the reference image 7.
  • the recognition load is improved by reducing the processing load, the reference image 7 may be stored.
  • the image recognition apparatus extracts a feature from the window image 4e, and recognizes the person image 5 by comparing it with a feature amount of the reference image 7 (hereinafter simply referred to as the reference image 7).
  • the reference image 7 and the window image 4e do not resemble the portion corresponding to the blank area 10, the portion corresponding to the captured image 1 is similar, and therefore the person image 5 can be recognized by the characteristics of the reference image 7. Become.
  • FIG. 1 is a diagram for explaining a detection window setting method performed by the image recognition apparatus according to the present embodiment.
  • the image recognition apparatus adds a blank area 10 filled with white image data over the entire circumference of the outer periphery of the captured image 1. Accordingly, the image recognition apparatus creates an extended image 11 in which the upper and lower end portions of the captured image 1 are extended in the y direction (vertical direction) and the left and right end portions are extended in the x direction (horizontal direction).
  • the vertical expansion amount y and the horizontal expansion amount x based on the extended image 11 will be described.
  • the expansion amount is arbitrarily determined depending on the shooting state of the camera, the angle of view and the size of the captured image 1, and the like. For example, when the size of the captured image 1 is 1280 pixels wide and 720 pixels long, a blank area 10 of 200 pixels is added to each of the top, bottom, left, and right. Further, as an example, the size of the detection window 3 when the reference line 2 is set at the lowermost part of the photographed image 1 is set as the reference size, n% of the reference size is extended in each of the vertical directions, and the reference is set in each of the left and right directions. M% of the size.
  • n and m are determined according to the reference image 7 corresponding to the recognition target. For example, 25%, 30%, 50%, etc. are used, and n and m are different values even if they are the same value. May be. Further, the ratio of n and m may be determined based on the aspect ratio of the reference image.
  • the image recognition apparatus sets the marginal area 10 including predetermined image data around the acquired image and image acquisition means for acquiring the image, thereby setting the outer area as the predetermined image data.
  • the blank area 10 is filled with white image data because the brightness gradient that becomes noise in the blank area 10 is compared with the feature data of the reference image based on the distribution of the brightness gradient of the image later. This is to suppress the occurrence. Therefore, the blank area 10 may be supplemented with image data of another color or pattern if the recognition accuracy is not affected.
  • the image recognition apparatus After forming the extended image 11 in this way, the image recognition apparatus extends the reference lines 2a to 2d corresponding to 1m, 5m, 10m, and 15m in the x direction to the margin area 10 outside the captured image 1. Set. Furthermore, the image recognition apparatus adds a reference line 2e corresponding to a distance of 50 cm from the camera to the blank area 10 on the lower outside of the captured image 1. Note that the distance and the number of the reference lines 2 to be set are merely examples, and various settings can be made depending on the use of the image recognition apparatus and the recognition target. For example, in the case of this embodiment, eight are set in the captured image 1 and two are set in the expanded blank area 10. However, in order to avoid complication, the drawings are reduced and displayed.
  • the image recognition apparatus corresponds to the perspective of the subject, and at least a part of the reference lines 2a to 2e located in the outer region of the captured image 1 are set in the horizontal direction with respect to the captured image 1.
  • Setting means is provided. Then, the reference line setting means sets a reference line 2e in a region outside the photographed image 1 below the photographed image 1, and sets reference lines 2a to 2d outside the photographed image 1 in the horizontal direction. Yes.
  • the image recognition apparatus sets rectangular detection windows 3a to 3e corresponding to the reference lines 2a to 2e.
  • the detection windows 3a to 3d are the same as those in the conventional example, and the window frame is small according to the position of the reference line 2 (as the distance from the camera increases) so that the whole body of a person fits in the detection window 3 moderately. It is formed to become.
  • the detection windows 3a to 3d can be moved along the extended reference line 2 to a blank area 10 located outside the captured image 1 in the horizontal direction.
  • the detection window 3e is newly added along with the establishment of the reference line 2e.
  • the window frame of the detection window 3e is formed to a size that allows the whole body of the person to fit well, including a portion protruding from the captured image 1, when the person stands at a distance of about 50 cm from the camera.
  • the detection window 3 e is set over the margin area 10 outside the upper and lower ends of the captured image 1.
  • the detection window 3e moves in the horizontal direction along the reference line 2e, and can scan the extended image 11 including the blank area 10.
  • the detection window 3 since the detection window 3 is set so as to cover the blank area 10 of the extended image 11, even when a person moves left and right and protrudes from the left and right ends of the captured image 1, the detection window 3 a to 3 d can capture. In addition, even when a person gets too close to the camera and protrudes from the upper and lower ends of the captured image 1, it can be captured by the detection window 3e.
  • the image recognition apparatus includes detection window setting means for setting the detection windows 3a to 3e having sizes corresponding to the reference lines 2a to 2e along the reference line 2.
  • FIG. 2 is a diagram for explaining processing when a person approaches the camera and protrudes from the captured image 1.
  • the head of the person image 5 protrudes from the upper end of the captured image 1 and the lower limb of the captured image 1. It does not shoot out of the bottom edge.
  • the image recognition apparatus lacks the head and lower limbs as shown in FIG. It is possible to obtain a window image 4e in which the whole body of the person image 5 is present.
  • the window image 4 e is an image acquired from the extended image 11 by the detection window 3 e, and the boundary lines 21 and 22 represent the boundary between the captured image 1 and the blank area 10.
  • the image recognition apparatus includes the window image acquisition unit that acquires the window image 4e of the region included in the detection window 3e. Then, since the blank area 10 is complemented with the predetermined image data by the complementing means, when the window image 4e includes the outer area of the captured image 1, the outer area is replaced with the predetermined image data by the complementing means. It is complemented.
  • the margin area 10 is complemented with predetermined image data in advance and the extended image 11 is extracted by the detection window 3e.
  • the complementing means complements by adding predetermined image data to the outside area.
  • an extended image 11 based on a margin setting value for example, white
  • the image 1 is written in the center of the extended image 11 so that a margin is set around the image 1. 11 may be created.
  • the image recognition apparatus stores features extracted from each reference image 7 in advance, compares them with features extracted from the window image 4e, and outputs a comparison result.
  • the image recognition apparatus includes a reference feature data acquisition unit that acquires reference feature data (feature data extracted from the reference image 7) representing a feature to be recognized, and a window image using the acquired reference feature data.
  • 4e includes determination means for determining whether or not a recognition target (person image 5) is included, and output means for outputting a determination result based on the determination.
  • the image recognition apparatus includes window image feature data extraction means for extracting window image feature data (features of the window image 4e) representing the characteristics of the window image 4e from the window image 4e, and the determination means includes the acquisition The determination is performed by comparing the extracted reference feature data with the extracted window image feature data.
  • an MRCoHOG Multi Resolution CoHOG
  • the MRCoHOG technology is a system technology that recognizes an image using a luminance gradient.
  • the CoHOG (Co-ocurrence HOG) technology which is an improvement of the HOG technology, is further improved to reduce the amount of processing operations and to be robust (robust) ).
  • an image is divided into small areas called cells. Then, the luminance gradient of each pixel in the cell is quantized in, for example, eight directions, and a histogram of which direction the luminance gradient appears at what frequency is created. Then, after normalizing the histogram in units of blocks including a plurality of cells, the histogram is obtained by arranging the histograms of all the cells in a line. By comparing this with the feature of the reference image 7, the recognition target in the image can be recognized. The recognition of the recognition target depends on, for example, whether or not the likelihood is equal to or greater than a predetermined threshold.
  • the screen is divided into cells (also called blocks) as in the HOG technique, and the luminance gradient of each pixel in the cell is quantized. Then, paying attention to a certain pixel in the cell, voting to the histogram is performed by the combination (co-occurrence) of the luminance gradient direction of this pixel and the luminance gradient direction of the peripheral pixels designated in advance. This is performed for all the pixels in the cell.
  • the luminance gradient direction of the target pixel is the right direction and the luminance gradient of the adjacent pixel is the upward direction
  • a vote is cast on the matrix element in the upper right column.
  • a characteristic of the image is that the co-occurrence matrix elements of all the cells are arranged in a line and output.
  • MRCoHOG In MRCoHOG technology, co-occurrence is taken between images of different resolutions that are the same object. For example, by creating a medium resolution image and a low resolution image from a high resolution image, three types of high, medium and low resolution images are prepared. Then, paying attention to a certain pixel of the high-resolution image, the co-occurrence matrix is voted based on the combination of the direction of the luminance gradient of the pixel and the direction of the luminance gradient of the medium-resolution and low-resolution pixels adjacent thereto. This is performed for all pixels of the high resolution image. In some cases, similar voting is performed with pixels of the medium resolution image or low resolution image as the target pixel. Then, the output of all the co-occurrence matrix elements arranged in a line is the feature of the image. By comparing this with the feature of the reference image 7, the object in the image can be recognized.
  • one unified reference feature data is created (learned) from each feature data extracted from a plurality of reference images 7, and this unified reference feature data is stored for each recognition target. It may be. Thereby, the amount of comparison with the window image 4 can be significantly reduced.
  • the luminance gradient is used for image recognition in this way, when attention is paid to the edge portion 100 of the head, the luminance gradient cannot be calculated because there is no adjacent pixel when there is no blank area 10.
  • the adjacent pixels of the edge portion 100 are formed by adding the margin region 10, it is possible to calculate the luminance gradient in this portion, and the feature extraction technique using these luminance gradients Can be used.
  • FIG. 2C is a diagram for explaining an attempt to further increase the correlation between the reference image 7 and the window image 4e.
  • the blank area 10 is clearly not similar. Therefore, in this example, when determining the similarity between the reference image 7 and the window image 4e, the weight of the region 25 corresponding to the blank region 10 is reduced.
  • the weighting of the portion corresponding to the blank area 10 is made smaller than the portion corresponding to the captured image 1 of the reference image 7 and the window image 4e, and the similarity of both features is judged, thereby further improving the recognition accuracy. be able to.
  • the determination means sets the weight of the area outside the captured image 1 included in the window image 4e to be smaller than the weight of the other parts in the comparison.
  • the region 25 does not need to be exactly the same as the blank region 10, and it is only necessary to determine the extent to which the region 25 should be set depending on the experiment and the situation. For example, in the case of extracting a feature value based on a luminance gradient, a luminance gradient different from that of the original human image 5 is generated at the boundary between the photographed image 1 and the blank area 10 (cutting portion of the head and lower limbs). There is a possibility. In that case, the area
  • region 25 should be expanded to the position which covers these cutting parts, and the weight of the said part should just be made small.
  • FIG. 3 is a diagram for explaining processing when a person approaches the camera and protrudes from the upper and lower ends of the captured image 1 and also protrudes from the left end.
  • the person image 5 of the person protrudes from the upper end of the captured image 1.
  • the lower limbs protrude from the lower end of the photographed image 1 and the left part is not photographed.
  • the image recognition apparatus can be configured as shown in FIG. And the window image 4e which copied the whole body of the person image 5 although the left part is missing can be obtained.
  • the head, lower limbs, and left part of the human image 5 are missing outside the boundary lines 21 to 23, but the composition of both is close, and other than the missing part
  • the features are very similar. Therefore, the feature amount extracted from the reference image 7 and the feature amount extracted from the window image 4e are similar, and the person image 5 of the window image 4e can be recognized.
  • FIG. 3C is a diagram for explaining an attempt to further increase the correlation between the reference image 7 and the window image 4e.
  • the region 25 is set in the portion corresponding to the blank region 10 (upper and lower end portions and left end portion), and the weight of feature amount comparison in this portion is set smaller than the other portions. Thereby, improvement in recognition accuracy can be expected.
  • the left portion of the person is located outside the captured image 1, and thus an image of this portion cannot be obtained.
  • the detection window 3b is located on the extended reference line 2b on the left side. Since it is movable, as shown in FIG. 4B, a window image 4b in which the whole body of the person is shown although the left part is missing is obtained.
  • the image recognition apparatus can perform image recognition not only for a person protruding from the captured image 1 due to the approach, but also for a person protruding from the angle of view of the camera although the distance from the camera is appropriate.
  • the composition of both is close and the features are very similar except for the missing part. Yes. Therefore, the person image 5 of the window image 4 can be recognized by comparing the feature amount extracted from the reference image 7 and the feature amount extracted from the window image 4b. Further, the recognition accuracy can be improved by setting the area 25 in the margin area 10 and reducing the weight of this area.
  • FIG. 5 is a diagram illustrating an example of a hardware configuration of the image recognition device 30 according to the present embodiment.
  • the image recognition device 30 includes a CPU (Central Processing Unit) 31, a ROM (Read Only Memory) 32, a RAM (Random Access Memory) 33, a camera 34, a storage device 35, an input device 36, an output device 37, and the like connected by a bus line.
  • the personal computer is configured.
  • the CPU 31 performs image recognition processing in accordance with an image recognition program stored in the storage device 35 and controls each part of the image recognition device 30. More specifically, the CPU 31 forms the extended image 11 by setting the margin area 10 for the image frame input from the camera 34, sets the reference lines 2a to 2e and the detection windows 3a to 3e for the extended image 11, Extraction of the feature amount from the window image 4 and recognition of the human image 5 by the correlation between the extracted feature amount and the learning data (feature amount extracted from the reference image) are performed.
  • the ROM 32 is a read-only memory that stores basic programs and parameters for the CPU 31 to operate the image recognition apparatus 30.
  • the RAM 33 is a readable / writable memory that provides a working memory for the CPU 31 to perform the above processing.
  • the image frame by the camera 34 and the feature amount of the reference image 7 are developed in the RAM 33 and used by the CPU 31.
  • the camera 34 is connected to the image recognition device 30 via a predetermined interface, and uses an imaging device having an imaging surface that converts a projection image into an electrical signal, and an optical system that projects a subject on the imaging surface. It is configured.
  • the camera 34 outputs a moving image of a subject (a scene in front of the lens, consisting of a person and a background) at a predetermined frame rate, and images constituting each frame are subjected to image recognition processing.
  • the storage device 35 is a storage device using a storage medium such as a hard disk or a semiconductor memory, for example, and stores an image recognition program for causing the CPU 31 to perform the image recognition process.
  • the storage device 35 also stores a large amount of feature amounts for the reference image 7 in order to recognize the person image 5, and provides these to the CPU 31 for image recognition processing.
  • the input device 36 is a device that inputs various types of information to the image recognition device 30, and is configured by input devices such as a keyboard and a mouse, for example.
  • the user can operate the image recognition apparatus 30 by inputting a command by a keyboard operation or a mouse operation.
  • the output device 37 is a device from which the image recognition device 30 outputs various types of information, and includes, for example, an output device such as a display or a printer. The user can operate the image recognition device 30 while following the operation screen displayed on the display.
  • the above configuration is an example, and a configuration according to the mounting form, such as incorporating the image recognition device 30 into an image capture board and mounting it on a robot, can be employed.
  • FIG. 6 is a flowchart for explaining the operation of the image recognition apparatus 30.
  • the following operations are performed by the CPU 31 of the image recognition device 30 according to the image recognition program.
  • the CPU 31 acquires image data of the captured image 1 from the camera 34 and stores it in the RAM 33 (step 5).
  • the CPU 31 creates the image data of the extended image 11 by adding the blank area 10 to the captured image 1 or writing the captured image 1 in the center of the previously prepared extended image 11 and stores it in the RAM 33. (Step 10). Next, the CPU 31 generates the detection windows 3a to 3e and sets them to the initial position (left end) of the extended image 11 (step 15).
  • the CPU 31 After setting the detection window 3, the CPU 31 acquires image data of an image (window image) surrounded by each detection window 3 and stores it in the RAM 33 (step 20). Then, the CPU 31 extracts feature amounts from these image data in accordance with a predetermined algorithm such as HOG, and stores them in the RAM 33 (step 25).
  • a predetermined algorithm such as HOG
  • the CPU 31 reads the features of a large number of reference images 7 from the RAM 33 and compares them with the features extracted from the image data of the window image, and determines whether or not a person is reflected in the window image based on the similarity. Step 30). Then, after outputting the determination result to a predetermined output destination (step 35), the CPU 31 determines whether or not the right end of the detection window 3 has reached the right end of the extended image 11 (step 40). When there is the detection window 3 that has reached the right end (step 40; Y), since the entire extended image 11 has been scanned for the detection window 3, the image recognition process is terminated.
  • step 40; N when there is a detection window 3 that has not yet reached the right end (step 40; N), since the image recognition processing has not yet been completed for the detection window 3, the detection window 3 is moved in the right horizontal direction. Then (step 45), the process returns to step 20.
  • the search of the human image 5 using the detection windows 3a to 3e is performed in parallel. For example, the search is first performed using the detection window 3a and then the search using the detection window 3b. May be.
  • the original image can be enlarged by adding margins in the vertical and horizontal directions of the original image.
  • a part of the original image is outside the camera. It is possible to recognize an object that has appeared in
  • Image recognition can be performed even on an image that has been discarded in the past because a part of the captured image 1 protrudes from the periphery of the captured image 1 in spite of having a feature amount that allows image recognition.
  • the margin area 10 By adding the margin area 10, the image recognizable range can be extended outside the captured image 1.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

認識対象の一部が画像の外側に出ている場合でも認識対象を検出する。 画像認識装置は、撮影画像1の周囲に所定の画像データで埋めた余白領域10を追加して撮影画像1よりも大きい拡張画像11を作成する。人物がカメラに接近しすぎると、人物像5の一部が撮影画像1からはみ出すが、画像認識装置は、余白領域10も含む大きな検出窓3eを設定することにより、はみ出た領域をも含む窓画像4eを拡張画像11から取り出す。窓画像4eは、人物像5のはみ出た部分を欠いてはいるが、人物像5の全身を写した画像となる。画像認識装置は、人物8が種々の状態(歩行、走行、ジャンプ、座り等の各姿勢に対して、手や足の位置や向き等が異なる状態)を想定した多数の基準画像7を記憶している。画像認識装置は、窓画像4eから特徴を抽出し、これを基準画像7の特徴と比較することにより人物像5を認識する。

Description

画像認識装置、及び画像認識プログラム
 本発明は、画像認識装置、及び画像認識プログラムに関し、例えば、画像に写っている対象物を認識するものに関する。
 近年、ロボットや車両にカメラを搭載し、撮影された画像から対象物を認識して制御に用いたり、あるいは、カメラを街路に設置して人を画像認識し、これによって人の往来を観察したりなど、画像認識技術が産業や社会の各方面で利用されるようになってきた。
 これら画像認識技術には、対象物や非対象物(対象物ではないと認識するのに必要)の特徴を表す基準画像を画像認識装置に記憶させておき、基準画像とカメラ画像の特徴を比較することにより行うものがある。
 このような画像認識技術として、特許文献1の「物体検出装置」がある。
 この技術は、HOG(Histogram of Oriented Gradients)特徴量を用いて画像に写った物体を検出するものである。
 図7は、従来例の画像認識方法を説明するための図である。
 図7(a)に示したように、カメラで撮影した画像1に認識対象である人物像5が写っているとする。
 画像認識装置は、この人物像5を次のようにして検出する。
 まず、画像認識装置は、人物の画像1での立ち位置に応じた複数の基準線(ベースライン)を設定する。
 図の例では、カメラから1m、5m、10m、15mの位置に基準線2a、2b、2c、2dが設定されている。
 人物は、カメラから遠いほど画像1の上側に写るため、基準線2(基準線2a~2dを特に区別しない場合は、単に基準線2と記し、他の要素についても同様とする)は、画像1の下からこの順に設定される。
 次に、画像認識装置は、基準線2を下端とする検出窓3a~3dを基準線2ごとに設定する。
 検出窓3の大きさは、基準線2で規定される距離に人物が立っていた場合に、全身が収まる程度の大きさに設定されている。
 これは、人物の全身が写った基準画像を使用しているため、基準画像との整合性を図るためである。
 次に、画像認識装置は、検出窓3を基準線2に沿って移動(シフト)させながら検出窓3で囲まれた窓画像4の特徴を抽出し、これを予め記憶している基準画像の特徴と比較する。そして両者の類似性(相関)により人物を認識する。
 この例では、図7(b)に示したように人物像8が写った基準画像7の特徴と、検出窓3cで囲まれた領域の窓画像4cの特徴を比較して人物像5が認識される。
 ところで、人物がカメラに接近しすぎると、図7(c)に示したように、人物像5が画像1からはみ出てしまい、最も大きい検出窓3aを用いたとしても、人物像5の頭部や下肢などを欠いた窓画像4aが得られる。
 これにより、画像認識装置は、図7(d)に示したように、人物像8の全体が写った基準画像7の特徴と、人物像5の一部が画面全体に写った窓画像4aの特徴を比較することになる。
 この場合、画像における人物の形、大きさ、構図などが全く異なるため、基準画像7の特徴から窓画像4aで人物像5を認識することは困難である。
 更に、画像の特徴としてHOGなどの輝度勾配を用いる手法を用いる場合、頭部が寸断されたエッジ部分100では、画像の端部であるため、輝度勾配の計算、即ち特徴の抽出が困難であり、計算のための何らかの工夫を施す必要がある。
 このような問題に対して、人物の一部が画像の外側に出ている状態の基準画像を作り画像認識装置に記憶しておく方法も考えられるが、これを実行するには様々な態様で人物の一部が画像の外側に出ている基準画像を記憶する必要があり、記憶すべきデータ量が膨大となって実現は困難である。
 具体的には、1の対象物に対する基準画像(全体が写った画像)が複数(数千枚程度)存在し、その各々に対して上下が欠けた各種状態の画像、右側が欠けた各種状態の画像、左側が欠けた各種状態の画像、上下と左右の一方が欠けた各種状態の画像を準備、記憶する必要があり膨大な量になってしまう。
 このように、従来技術は、認識対象の一部が画像の外に出ている場合にこれを認識できないという問題があった。
 特に、画像認識装置をロボットや車両などの移動体に搭載する場合、遠くの対象物を認識する場合よりも、例えば、対象物の回避動作を素早く行うためにも、接近した対象物(人や物)を適確に認識することが重要になる場面が多い。
 このように、近距離に対する認識要請が高い場合にも係わらず、認識対象の全体がカメラの画角に入りきらないことが原因で認識できなかった。
特開2016-12311号公報
 本発明は、認識対象の一部が画像の外側に出ている場合でも認識対象を検出することを目的とする。
(1)本発明は、前記目的を達成するために、請求項1に記載の発明では、画像を取得する画像取得手段と、前記画像取得手段から被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定手段と、前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定手段と、前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得手段と、前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得手段と、前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定手段と、前記判定による判定結果を出力する出力手段と、を具備したことを特徴とする画像認識装置を提供する。
(2)請求項2に記載の発明では、前記取得した窓画像から当該窓画像の特徴を表す窓画像特徴データを抽出する窓画像特徴データ抽出手段を具備し、前記判定手段は、前記取得した基準特徴データと前記抽出した窓画像特徴データを比較することにより前記判定を行うことを特徴とする請求項1に記載の画像認識装置を提供する。
(3)請求項3に記載の発明では、前記基準線設定手段が、前記取得した画像の下側の当該画像の外側の領域に前記基準線を設定することを特徴とする請求項1、又は請求項2に記載の画像認識装置を提供する。
(4)請求項4に記載の発明では、前記基準線設定手段が、前記取得した画像の水平方向の外側に前記基準線を設定することを特徴とする請求項1、請求項2、又は請求項3に記載の画像認識装置を提供する。
(5)請求項5に記載の発明では、前記取得した窓画像が前記取得した画像の外側の領域を含む場合に、当該外側の領域を所定の画像データで補完する補完手段を具備したことを特徴とする請求項1から請求項4までのうちの何れか1の請求項に記載の画像認識装置を提供する。
(6)請求項6に記載の発明では、前記補完手段が、前記取得した画像の周囲に前記所定の画像データからなる余白領域を設定することにより、前記外側の領域を前記所定の画像データで補完することを特徴とする請求項5に記載の画像認識装置を提供する。
(7)請求項7に記載の発明では、前記補完手段が、前記取得した窓画像が前記外側の領域を含む場合に、当該外側の領域に前記所定の画像データを追加することにより補完することを特徴とする請求項5に記載の画像認識装置を提供する。
(8)請求項8に記載の発明では、前記判定手段が、比較に際して、前記窓画像に含まれる前記画像の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定することを特徴とする請求項2に記載の画像認識装置を提供する。
(9)請求項9に記載の発明では、画像を取得する画像取得機能と、被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定機能と、前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定機能と、前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得機能と、前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得機能と、前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定機能と、前記判定による判定結果を出力する出力機能と、をコンピュータで実現する画像認識プログラムを提供する。
 本発明によれば、検出窓領域を画像の外側に拡張することにより、認識対象の一部が画像の外側に出ている場合でも認識対象を検出することができる。
画像認識装置が行う検出窓の設定方法を説明するための図である。 人物が画像からはみ出た場合の処理を説明するための図である。 人物が画像からはみ出た場合の処理を説明するための図である。 人物が画像からはみ出た場合の処理を説明するための図である。 画像認識装置のハードウェア構成の一例を示した図である。 画像認識装置の動作を説明するためのフローチャートである。 従来例の画像認識方法を説明するための図である。
(1)実施形態の概要
 図2(a)に示したように、画像認識装置は、カメラで撮影した撮影画像1の周囲に所定の画像データで埋めた余白領域10を追加して撮影画像1よりも大きい拡張画像11を作成する。
 人物がカメラに接近しすぎると、人物像5の一部が撮影画像1からはみ出すが、画像認識装置は、余白領域10も含む大きな検出窓3eを設定することにより、はみ出た領域をも含む窓画像4eを拡張画像11から取り出す。
 図2(b)に示したように、窓画像4eは、人物像5のはみ出た部分(頭部と下肢の一部)を欠いてはいるが、人物像5の全身を写した画像となる。
 画像認識装置は、人物8が種々の状態(歩行、走行、ジャンプ、座り等の各姿勢に対して、手や足の位置や向き等が異なる状態等)を想定した多数の基準画像7を記憶している。
 なお、本実施形態では、基準画像7そのものの画像データではなく、各基準画像7から予め抽出した特徴量を記憶することで記憶すべきデータ量を減らすと共に、基準画像7の特徴量を抽出する処理負荷を減らして認識速度を向上させているが、基準画像7を記憶するようにしてもよい。
 そして、画像認識装置は、窓画像4eから特徴を抽出し、これを基準画像7の特徴量(以下たんに基準画像7という。)と比較することにより人物像5を認識する。
 基準画像7と窓画像4eは、余白領域10に相当する部分は似ていないものの、撮影画像1に相当する部分は類似するため、基準画像7の特徴によって人物像5を認識することが可能となる。
(2)実施形態の詳細
 図1は、本実施の形態に係る画像認識装置が行う検出窓の設定方法を説明するための図である。
 画像認識装置は、カメラから撮影画像1を得ると、撮影画像1の外周部の全周に渡って白色の画像データで埋められた余白領域10を追加する。
 これにより、画像認識装置は、撮影画像1の上下端部をy方向(縦方向)に拡張し、左右端部をx方向(横方向)に拡張した拡張画像11を作成する。
 ここで拡張画像11による上下方向拡張量yと横方向拡張量xについて説明する。
 拡張量については、カメラの撮影状態や撮像画像1の画角やサイズ等により任意に決定される。
 例えば、撮像画像1のサイズが横1280ピクセル、縦720ピクセルである場合、上下左右の各々に対して200ピクセル分の余白領域10を追加する。
 また、一例として、撮影画像1の最下部に基準線2を設定した場合の検出窓3のサイズを基準サイズとし、上下方向の各々に基準サイズのn%を拡張し、左右方向の各々に基準サイズのm%とする。
 nとmの値は、認識対象に対応した基準画像7に応じて決定され、例えば、25%、30%、50%等が使用され、nとmは同じ値であっても異なる値であってもよい。また、基準画像の縦横比に基づいてnとmの比率を決定するようにしてもよい。
 このように、画像認識装置は、画像を取得する画像取得手段と、当該取得した画像の周囲に所定の画像データからなる余白領域10を設定することにより、当該外側の領域を当該所定の画像データで補完する補完手段を備えている。
 ここで、一例として余白領域10を白色の画像データで埋めたのは、後ほど画像の輝度勾配の分布による、基準画像の特徴データとの比較を行うため、余白領域10においてノイズとなる輝度勾配が発生するのを抑制するためである。
 そのため、認識精度に影響しないなら他の色や模様の画像データによって余白領域10を補完してもよい。
 画像認識装置は、このようにして拡張画像11を形成した後、1m、5m、10m、15mに対応する基準線2a~2dをx方向に延長して、撮影画像1の外側の余白領域10まで設定する。
 更に、画像認識装置は、カメラから50cmの距離に対応する基準線2eを撮影画像1の下方外側の余白領域10に追加する。
 なお、これら基準線2を設定する距離や本数については、一例であって、画像認識装置の用途や認識対象によって各種の設定が可能である。
 例えば、本実施形態の場合、撮影画像1内に8本を設定し、更に拡張した余白領域10に2本を設定するようにしている。但し、図面では複雑化を避けるために減らして表示している。
 このように、画像認識装置は、被写体の遠近に対応し、少なくとも一部が撮影画像1の外側の領域に位置する基準線2a~2eを、撮影画像1に対して水平方向に設定する基準線設定手段を備えている。
 そして、当該基準線設定手段は、撮影画像1の下側の当該撮影画像1の外側の領域に基準線2eを設定し、撮影画像1の水平方向の外側に基準線2a~2dを設定している。
 画像認識装置は、基準線2a~2eを設定すると、これらに対応する矩形形状の検出窓3a~3eを設定する。
 検出窓3a~3dは、従来例のものと同様であり、人物の全身が検出窓3に程よく収まるように基準線2の位置に応じて(カメラからの距離が遠くなるにつれて)窓枠が小さくなるように形成されている。
 そして、検出窓3a~3dは、延長された基準線2に沿って、撮影画像1の水平方向外側に位置する余白領域10まで移動できるようになっている。
 検出窓3eは、基準線2eの新設に伴って新たに追加されたものである。
 検出窓3eの窓枠は、人物がカメラから50cm程度の距離に立っている場合に、撮影画像1からはみ出る部分も含めて当該人物の全身が程よく収まる程度の大きさに形成されている。
 この例では、検出窓3eは、撮影画像1の上下端の外側の余白領域10に渡って設定されている。
 検出窓3eは、基準線2eに沿って水平方向に移動し、余白領域10を含めた拡張画像11を走査することができる。
 このように、拡張画像11の余白領域10もカバーするように検出窓3を設定したため、人物が左右に移動して撮影画像1の左右端からはみ出した場合でも検出窓3a~3dで捕捉することができ、また、人物がカメラに近づきすぎて撮影画像1の上下端からはみ出た場合でも検出窓3eで捕捉することができる。
 以上のように、画像認識装置は、基準線2a~2eに応じた大きさの検出窓3a~3eを基準線2に沿って設定する検出窓設定手段を備えている。
 図2の各図は、人物がカメラに接近して撮影画像1からはみ出た場合の処理を説明するための図である。
 図2(a)の波線で示したように、人物がカメラから50cm~1m程度に近づくと、当該人物の人物像5は、頭部が撮影画像1の上端からはみ出し、下肢が撮影画像1の下端からはみ出して撮影されない。
 しかし、検出窓3eは、撮影画像1の上端側と下端側で余白領域10まで拡張されているため、画像認識装置は、図2(b)に示したように、頭部と下肢は欠けているものの人物像5の全身を写した窓画像4eを得ることができる。
 ここで、窓画像4eは、検出窓3eによって拡張画像11から取得された画像であって、境界線21、22は、撮影画像1と余白領域10の境界を表している。
 このように、画像認識装置は、検出窓3eに含まれる領域の窓画像4eを取得する窓画像取得手段を備えている。
 そして、補完手段によって、余白領域10が所定の画像データで補完されているため、窓画像4eが撮影画像1の外側の領域を含む場合に、当該外側の領域が補完手段によって所定の画像データで補完されている。
 また、この例では、予め所定の画像データで余白領域10を補完しておいて検出窓3eで拡張画像11を取り出したが、検出窓3eで余白領域10の部分の欠損した撮影画像1のサイズの窓画像4eを取り出して、その後、余白領域10を所定の画像データで補完することも可能である。
 この場合、補完手段は、窓画像4eが撮影画像1の外側の領域を含む場合に、当該外側の領域に所定の画像データを追加することにより補完している。
 あるいは、予め余白の設定値に基づく(例えば、白色の)拡張画像11を用意しておき、その拡張画像11の中央部に画像1を書き込むことで画像1の周囲に余白が設定された拡張画像11を作成するようにしてもよい。
 窓画像4eを基準画像7と比べてみると、人物像5の頭部と下肢が欠損しているものの、両者の構図は近く、頭部と下肢以外の部分は、特徴がよく似ている。
 そのため、基準画像7から抽出した特徴(特徴量)と窓画像4eから抽出した特徴(特徴量)の類似度(相関)が大きくなり、窓画像4eの人物像5を認識することが可能となる。実験によってもそのような結果が得られている。
 なお、画像認識装置は、予め各基準画像7から抽出した特徴を記憶しており、これを窓画像4eから抽出した特徴と比較して比較結果を出力するようになっている。
 このように、画像認識装置は、認識対象の特徴を表した基準特徴データ(基準画像7から抽出した特徴データ)を取得する基準特徴データ取得手段と、当該取得した基準特徴データを用いて窓画像4eに認識対象(人物像5)が含まれるか否かを判定する判定手段と、当該判定による判定結果を出力する出力手段を備えている。
 更に、画像認識装置は、窓画像4eから当該窓画像4eの特徴を表す窓画像特徴データ(窓画像4eの特徴)を抽出する窓画像特徴データ抽出手段を備えており、判定手段は、当該取得した基準特徴データと当該抽出した窓画像特徴データを比較することにより判定を行っている。
 窓画像4eから人物像5を認識する技術は、既存の各種のものが使用可能であるが、本実施の形態では、一例として、MRCoHOG(Multi Resolution CoHOG)技術を用いた。
 MRCoHOG技術は、輝度勾配を用いて画像認識する系統の技術であり、HOG技術を改良したCoHOG(Co-occurrence HOG)技術を更に改良して、処理演算量を低減させつつ、頑健性(ロバスト性)を維持したものである。
 HOG技術では、画像をセルと呼ばれる小領域に区分する。そして、セル内の各画素の輝度勾配を、例えば、8方向に量子化し、どの方向の輝度勾配がどの頻度で出現しているか、のヒストグラムを作成する。
 そして、複数のセルを含むブロック単位でヒストグラムを正規化した後、全セルのヒストグラムを一列に並べて出力したものが当該画像の特徴となる。
 これを基準画像7の特徴と比較することにより、画像中の認識対象を認識することができる。認識対象の認識については、例えば、所定閾値以上の尤度であるか否かによる。
 CoHOG技術では、HOG技術と同様に画面をセル(ブロックとも呼ばれる)に分割し、セル内の各画素の輝度勾配を量子化する。
 そして、セル内のある画素に注目し、この画素の輝度勾配方向と予め指定された周辺の画素の輝度勾配方向との組合せ(共起)により、ヒストグラムへの投票を行う。これをセル内の全画素について行う。
 例えば、注目画素の輝度勾配方向が右方向で、隣の画素の輝度勾配が上方向であったら、右行上列の行列要素に一票を投じる。このようにしてセルごとに共起行列が作成される。
 そして、全セルの共起行列要素を一列に並べて出力したものが当該画像の特徴となる。
 基準画像7の特徴量と比較することにより、画像中の対象を認識することができる。
 MRCoHOG技術では、同じ対象を写した異なる解像度の画像間で共起をとる。
 例えば、高解像度画像から中解像度画像と低解像度画像を作成することにより、高中低の3種類の解像度の画像を用意する。
 そして、高解像度画像のある画素に注目し、当該画素の輝度勾配の方向と、これに隣接する中解像度、及び低解像度の画素の輝度勾配の方向の組合せにより共起行列に投票する。これを高解像度画像の全ての画素について行う。
 場合によっては、中解像度画像や低解像度画像の画素を注目画素として同様の投票を行う。
 そして、全共起行列要素を一列に並べて出力したものが当該画像の特徴となる。
 これを基準画像7の特徴と比較することにより、画像中の対象を認識することができる。
 なお、CoHOG技術やHOG技術を使用する場合、複数の基準画像7から抽出した各特徴データから1の統一基準特徴データを作成(学習)し、この統一基準特徴データを認識対象毎に記憶するようにしてもよい。これにより、窓画像4との比較量を大幅に削減することができる。
 本実施の形態では、このように画像認識に輝度勾配を用いるため、頭部のエッジ部分100に着目すると、余白領域10がなかった場合、隣接する画素がないため輝度勾配が計算できない。
 しかし、窓画像4eでは、余白領域10の追加によりエッジ部分100の隣接画素が形成されているため、この部分での輝度勾配を計算することが可能であり、これら輝度勾配を用いた特徴抽出技術を利用することができる。
 図2(c)は、基準画像7と窓画像4eの相関を更に高めるための試みを説明するための図である。
 基準画像7と窓画像4eを比較すると、余白領域10の部分が明らかに似ていない。そのため、この例では、基準画像7と窓画像4eの類似を判定する際に、余白領域10に相当する領域25の重み付けを小さくする。
 このように基準画像7と窓画像4eの撮影画像1に相当する部分に比べて余白領域10に相当する部分の重み付けを小さくして両者の特徴の類似を判断することにより、より認識精度を高めることができる。
 この例では、判定手段は、比較に際して、窓画像4eに含まれる撮影画像1の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定している。
 なお、領域25は、余白領域10と厳密に一致している必要はなく、実験や状況に応じてどの程度の範囲に領域25を設定したらよいか決めればよい。
 例えば、輝度勾配による特徴量を抽出する場合、撮影画像1と余白領域10の境界(頭部や下肢の切断箇所)で、本来の人物像5とは異なった輝度勾配が生じるため、これがノイズになる可能性がある。
 その場合は、これら切断箇所を覆う位置まで領域25を拡張し、当該箇所の重み付けを小さくすればよい。
 図3の各図は、人物がカメラに接近して撮影画像1の上下端からはみ出ると共に左端からもはみ出た場合の処理を説明するための図である。
 図3(a)の波線で示したように、人物がカメラから50cm~1m程度に近づき、画角の左端に寄ると、当該人物の人物像5は、頭部が撮影画像1の上端からはみ出し、下肢が撮影画像1の下端からはみ出し、左側の部分が撮影されない。
 しかし、検出窓3eは、撮影画像1の上下端側、及び左端側で余白領域10まで拡張されているため、画像認識装置は、図3(b)に示したように、頭部、下肢、及び左部分は欠けているものの人物像5の全身を写した窓画像4eを得ることができる。
 窓画像4eを基準画像7と比べてみると、人物像5の頭部、下肢、及び左部分が境界線21~23の外側で欠損しているものの、両者の構図は近く、欠損部分以外は、特徴がよく似ている。
 そのため、基準画像7から抽出した特徴量と窓画像4eから抽出した特徴量が類似し、窓画像4eの人物像5を認識することが可能となる。
 図3(c)は、基準画像7と窓画像4eの相関を更に高めるための試みを説明するための図である。
 上の例と同様に、余白領域10に対応する部分(上下端部と左端部)に領域25を設定し、この部分における特徴量比較の重み付けを他の部分よりも小さく設定する。
 これにより、認識精度の向上が期待できる。
 図4の各図は、カメラから人物までの距離は、人物の全身が撮影画像1に写る距離であるものの、人物が撮影画像1の左端に寄ってしまったため、人物像5の左部分が撮影画像1の外側にはみ出た場合の処理を説明するための図である。
 図4(a)で示したように、人物の左部分は、撮影画像1の外側に位置するためこの部分の画像は得られないが、検出窓3bは、延長した基準線2b上を左側に移動可能なため、図4(b)に示したように、左部分が欠損するものの人物の全身が写った窓画像4bが得られる。
 このように画像認識装置は、接近により撮影画像1からはみ出る人物のほか、カメラからの距離は適切であるが、カメラの画角からはみ出る人物に対しても画像認識を行うことができる。
 窓画像4bを基準画像7と比べてみると、人物像5の左部分が欠損しており余白領域10で置き換えられているものの、両者の構図は近く、欠損部分以外は、特徴がよく似ている。
 そのため、基準画像7から抽出した特徴量と窓画像4bから抽出した特徴量を比較することにより窓画像4の人物像5を認識することができる。
 また、余白領域10に領域25を設定してこの部分の重み付けを小さくすることにより認識精度を高めることもできる。
 図5は、本実施の形態に係る画像認識装置30のハードウェア構成の一例を示した図である。
 画像認識装置30は、CPU(Central Processing Unit)31、ROM(Read Only Memory)32、RAM(Random Access Memory)33、カメラ34、記憶装置35、入力装置36、出力装置37などがバスラインで接続されたパーソナルコンピュータを用いて構成されている。
 CPU31は、記憶装置35に記憶された画像認識プログラムに従って画像認識処理を行うほか、画像認識装置30の各部の制御などを行う。
 より詳細には、CPU31は、カメラ34から入力される画像フレームに対して余白領域10の設定による拡張画像11の形成、拡張画像11に対する基準線2a~2e、及び検出窓3a~3eの設定、窓画像4からの特徴量の抽出と、当該抽出した特徴量と学習データ(基準画像から抽出した特徴量)の相関による人物像5の認識などを行う。
 ROM32は、CPU31が画像認識装置30を動作させるための基本的なプログラムやパラメータなどを記憶した読み取り専用のメモリである。
 RAM33は、CPU31が上記処理を行うためのワーキングメモリを提供する読み書きが可能なメモリである。
 カメラ34による画像フレームや基準画像7の特徴量はRAM33に展開されてCPU31により利用される。
 カメラ34は、所定のインターフェースを介して画像認識装置30に接続されており、投影像を電気信号に変換する撮像面を有する撮像素子と、当該撮像面上に被写体を投影する光学系を用いて構成されている。
 カメラ34は、所定のフレームレートで被写体(レンズの前方の風景であり、人物と背景から成る)の動画を出力し、各フレームを構成する画像が画像認識処理の対象となる。
 記憶装置35は、例えば、ハードディスクや半導体メモリなどの記憶媒体を用いた記憶装置であり、CPU31に上記の画像認識処理を行わせるための画像認識プログラムを記憶している。
 また、記憶装置35は、人物像5を認識するために大量の基準画像7に対する特徴量も記憶しており、これらを画像認識処理のためにCPU31に提供する。
 入力装置36は、画像認識装置30に各種の情報を入力する装置であり、例えば、キーボード、マウスなどの入力デバイスで構成されている。
 ユーザは、キーボード操作やマウス操作によってコマンドを入力するなどして画像認識装置30を操作することができる。
 出力装置37は、画像認識装置30が各種の情報を出力する装置であり、例えば、ディスプレイ、プリンタなどの出力デバイスで構成されている。
 ユーザは、ディスプレイに表示された操作画面に従いながら画像認識装置30を操作することができる。
 以上の構成は、一例であって、画像認識装置30を画像キャプチャボードに組み込んでロボットに搭載するなど、実装形態に応じた構成を採用することができる。
 図6は、画像認識装置30の動作を説明するためのフローチャートである。
 以下の動作は、画像認識装置30のCPU31が画像認識プログラムに従って行うものである。
 まず、CPU31は、カメラ34から撮影画像1の画像データを取得してRAM33に記憶する(ステップ5)。
 次に、CPU31は、撮影画像1に余白領域10を追加し、又は予め用意した拡張画像11の中央部に撮影画像1を書き込むことで、拡張画像11の画像データを作成し、RAM33に記憶する(ステップ10)。
 次に、CPU31は、検出窓3a~3eを生成し、これらを拡張画像11の初期位置(左端)に設定する(ステップ15)。
 検出窓3を設定した後、CPU31は、各検出窓3に囲まれている画像(窓画像)の画像データを取得してRAM33に記憶する(ステップ20)。
 そして、CPU31は、これらの画像データから、例えば、HOGなどの所定のアルゴリズムに従って特徴量を抽出してRAM33に記憶する(ステップ25)。
 次に、CPU31は、多数の基準画像7の特徴をRAM33から読み出し、窓画像の画像データから抽出した特徴と比較して、その類似性から窓画像に人物が写っているか否かを判定する(ステップ30)。
 そして、CPU31は、判定結果を所定の出力先に出力した後(ステップ35)、検出窓3の右端が拡張画像11の右端に達したか否かを判断する(ステップ40)。
 右端に達した検出窓3があった場合(ステップ40;Y)、その検出窓3に関しては、拡張画像11を全て走査したので画像認識処理を終了する。
 一方、まだ右端に達していない検出窓3があった場合(ステップ40;N)、その検出窓3に関しては、まだ画像認識処理が終了していないため、当該検出窓3を右水平方向に移動して(ステップ45)、ステップ20に戻る。
 以上の処理では、検出窓3a~3eによる人物像5の検索を平行して同時に行ったが、例えば、まず、検出窓3aによる検索を行った後、検出窓3bによる検索を行うなど、順に行ってもよい。
 以上に説明した実施の形態により、次のような効果を得ることができる。
(1)元画像の縦横に余白を追加することにより元画像を大きくすることができ、追加余白部分に対応した検出窓を追加した検出器に、その画像をかけることで、一部がカメラ外に出てしまった対象が認識可能となる。
(2)画像認識できる特徴量を有するにもかかわらず、撮影画像1の周辺部から一部がはみ出るため従来は捨てられていた画像に対しても画像認識を行うことができる。
(3)余白領域10を追加することにより、画像認識できる範囲を撮影画像1の外側に拡張することができる。
(4)撮影画像1からはみ出た人物像5を認識するために撮影画像1からはみ出た人物像5を大量に記憶する必要がなく、全身を撮影した標準の基準画像7を用いることができる。
 1 画像
 2 基準線
 3 検出窓
 4 窓画像
 5 人物像
 7 基準画像
 8 人物像
 10 余白領域
 11 拡張画像
 21、22、23 境界線
 25 領域
 30 画像認識装置
 31 CPU
 32 ROM
 33 RAM
 34 カメラ
 35 記憶装置
 36 入力装置
 37 出力装置
100 エッジ部分

Claims (9)

  1.  画像を取得する画像取得手段と、
     前記画像取得手段から被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定手段と、
     前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定手段と、
     前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得手段と、
     前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得手段と、
     前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定手段と、
     前記判定による判定結果を出力する出力手段と、
     を具備したことを特徴とする画像認識装置。
  2.  前記取得した窓画像から当該窓画像の特徴を表す窓画像特徴データを抽出する窓画像特徴データ抽出手段を具備し、
     前記判定手段は、前記取得した基準特徴データと前記抽出した窓画像特徴データを比較することにより前記判定を行うことを特徴とする請求項1に記載の画像認識装置。
  3.  前記基準線設定手段は、前記取得した画像の下側の当該画像の外側の領域に前記基準線を設定することを特徴とする請求項1、又は請求項2に記載の画像認識装置。
  4.  前記基準線設定手段は、前記取得した画像の水平方向の外側に前記基準線を設定することを特徴とする請求項1、請求項2、又は請求項3に記載の画像認識装置。
  5.  前記取得した窓画像が前記取得した画像の外側の領域を含む場合に、当該外側の領域を所定の画像データで補完する補完手段を具備したことを特徴とする請求項1から請求項4までのうちの何れか1の請求項に記載の画像認識装置。
  6.  前記補完手段は、前記取得した画像の周囲に前記所定の画像データからなる余白領域を設定することにより、前記外側の領域を前記所定の画像データで補完することを特徴とする請求項5に記載の画像認識装置。
  7.  前記補完手段は、前記取得した窓画像が前記外側の領域を含む場合に、当該外側の領域に前記所定の画像データを追加することにより補完することを特徴とする請求項5に記載の画像認識装置。
  8.  前記判定手段は、比較に際して、前記窓画像に含まれる前記画像の外側の領域の部分の重み付けを他の部分の重み付けよりも小さく設定することを特徴とする請求項2に記載の画像認識装置。
  9.  画像を取得する画像取得機能と、
     被写体までの遠近に対応し、少なくとも一部が前記取得した画像の外側の領域に位置する基準線を、前記取得した画像に対して水平方向に設定する基準線設定機能と、
     前記基準線の位置に応じた大きさの検出窓を前記基準線に沿って設定する検出窓設定機能と、
     前記設定した検出窓に含まれる領域の窓画像を取得する窓画像取得機能と、
     前記画像内の認識対象の特徴を表した基準特徴データを取得する基準特徴データ取得機能と、
     前記取得した基準特徴データを用いて前記取得した窓画像に前記認識対象が含まれるか否かを判定する判定機能と、
     前記判定による判定結果を出力する出力機能と、
     をコンピュータで実現する画像認識プログラム。
PCT/JP2017/013278 2016-03-30 2017-03-30 画像認識装置、及び画像認識プログラム WO2017170875A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201780020977.1A CN109074646B (zh) 2016-03-30 2017-03-30 图像识别装置以及图像识别程序
US16/088,766 US10832044B2 (en) 2016-03-30 2017-03-30 Image recognition device and image recognition program
EP17775409.0A EP3441938B1 (en) 2016-03-30 2017-03-30 Image recognition device and image recognition program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-068435 2016-03-30
JP2016068435A JP6661082B2 (ja) 2016-03-30 2016-03-30 画像認識装置、及び画像認識プログラム

Publications (1)

Publication Number Publication Date
WO2017170875A1 true WO2017170875A1 (ja) 2017-10-05

Family

ID=59965957

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/013278 WO2017170875A1 (ja) 2016-03-30 2017-03-30 画像認識装置、及び画像認識プログラム

Country Status (5)

Country Link
US (1) US10832044B2 (ja)
EP (1) EP3441938B1 (ja)
JP (1) JP6661082B2 (ja)
CN (1) CN109074646B (ja)
WO (1) WO2017170875A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697400A (zh) * 2017-10-23 2019-04-30 纬创资通股份有限公司 判断使用者的姿势的影像检测方法以及影像检测装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI637354B (zh) 2017-10-23 2018-10-01 緯創資通股份有限公司 判斷使用者之姿勢之影像偵測方法以及影像偵測裝置
CN113112470B (zh) * 2021-04-08 2023-12-15 揭阳市柏亿不锈钢有限公司 一种基于人工智能的冷轧过程钢材弯曲检测分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004235711A (ja) * 2003-01-28 2004-08-19 Nissan Motor Co Ltd 対象物追跡システムおよび対象物追跡方法
JP2013250604A (ja) * 2012-05-30 2013-12-12 Hitachi Ltd 物体検出装置および物体検出方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006950B1 (en) * 2000-06-12 2006-02-28 Siemens Corporate Research, Inc. Statistical modeling and performance characterization of a real-time dual camera surveillance system
JP5893054B2 (ja) * 2012-01-17 2016-03-23 パイオニア株式会社 画像処理装置、画像処理サーバ、画像処理方法、画像処理プログラム、及び記録媒体
CN102855496B (zh) * 2012-08-24 2016-05-25 苏州大学 遮挡人脸认证方法及***
CN103065163B (zh) * 2013-02-04 2015-10-14 成都神州数码索贝科技有限公司 一种基于静态图片的快速目标检测识别***及方法
JP6163453B2 (ja) * 2014-05-19 2017-07-12 本田技研工業株式会社 物体検出装置、運転支援装置、物体検出方法、および物体検出プログラム
JP6570219B2 (ja) 2014-06-30 2019-09-04 日本信号株式会社 物体検出装置
CN104092991A (zh) * 2014-07-11 2014-10-08 金陵科技学院 针对目标跟踪控制的图像信号综合处理装置及实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004235711A (ja) * 2003-01-28 2004-08-19 Nissan Motor Co Ltd 対象物追跡システムおよび対象物追跡方法
JP2013250604A (ja) * 2012-05-30 2013-12-12 Hitachi Ltd 物体検出装置および物体検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697400A (zh) * 2017-10-23 2019-04-30 纬创资通股份有限公司 判断使用者的姿势的影像检测方法以及影像检测装置
CN109697400B (zh) * 2017-10-23 2021-10-08 纬创资通股份有限公司 判断使用者的姿势的影像检测方法以及影像检测装置

Also Published As

Publication number Publication date
EP3441938A4 (en) 2019-09-04
JP2017182436A (ja) 2017-10-05
EP3441938B1 (en) 2023-08-16
JP6661082B2 (ja) 2020-03-11
US10832044B2 (en) 2020-11-10
US20190130178A1 (en) 2019-05-02
CN109074646A (zh) 2018-12-21
EP3441938A1 (en) 2019-02-13
CN109074646B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
JP5726125B2 (ja) 奥行き画像内の物体を検出する方法およびシステム
JP6636154B2 (ja) 顔画像処理方法および装置、ならびに記憶媒体
CN108292362B (zh) 用于光标控制的手势识别
US11087169B2 (en) Image processing apparatus that identifies object and method therefor
US9031282B2 (en) Method of image processing and device therefore
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
US8958641B2 (en) Moving object detection device
JP2013533998A (ja) 自己類似性を用いる画像内オブジェクトの検出
JP6217635B2 (ja) 転倒検知装置および転倒検知方法、転倒検知カメラ、並びにコンピュータ・プログラム
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
KR101279561B1 (ko) 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법
US20170111576A1 (en) Image processing apparatus, method, and medium for extracting feature amount of image
WO2017170875A1 (ja) 画像認識装置、及び画像認識プログラム
JP2008217803A (ja) 画像認識システム及びその認識方法並びにプログラム
JP6110174B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
JP2008288684A (ja) 人物検出装置及びプログラム
WO2014006786A1 (ja) 特徴量抽出装置および特徴量抽出方法
KR102550864B1 (ko) 개체 이미지의 패턴에 의한 개체 인식 식별 방법 및 시스템
Kira et al. Long-range pedestrian detection using stereo and a cascade of convolutional network classifiers
JP5217917B2 (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム
KR101758693B1 (ko) 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치
KR101741761B1 (ko) 멀티 프레임 기반 건물 인식을 위한 특징점 분류 방법
JP6962662B2 (ja) 検出装置及びプログラム
Palmer et al. Scale proportionate histograms of oriented gradients for object detection in co-registered visual and range data
JP6276504B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017775409

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2017775409

Country of ref document: EP

Effective date: 20181030

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17775409

Country of ref document: EP

Kind code of ref document: A1