WO2020213570A1 - 対象物画像抽出装置、方法、およびソフトウェアプログラム - Google Patents

対象物画像抽出装置、方法、およびソフトウェアプログラム Download PDF

Info

Publication number
WO2020213570A1
WO2020213570A1 PCT/JP2020/016321 JP2020016321W WO2020213570A1 WO 2020213570 A1 WO2020213570 A1 WO 2020213570A1 JP 2020016321 W JP2020016321 W JP 2020016321W WO 2020213570 A1 WO2020213570 A1 WO 2020213570A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
image
frame
video
area
Prior art date
Application number
PCT/JP2020/016321
Other languages
English (en)
French (fr)
Inventor
秋山 靖浩
英春 服部
Original Assignee
株式会社日立産業制御ソリューションズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立産業制御ソリューションズ filed Critical 株式会社日立産業制御ソリューションズ
Publication of WO2020213570A1 publication Critical patent/WO2020213570A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching

Definitions

  • the present invention relates to a technique for extracting a person image from a video, which is intended to be used for deep learning.
  • Deep learning is a method of trying to realize a function similar to the learning ability that human beings naturally perform on a computer.
  • deep learning in addition to higher flexibility in feature analysis and feature expression compared to conventional methods such as pattern matching, it is not necessary for humans to define the features of the object to be detected. Has the advantage of.
  • the discrimination accuracy of the discriminative model obtained by deep learning is greatly affected by the quantity and quality of teacher images used during learning. If the number of teacher images is small, the discriminative model tends to be a discriminative model with a low detection rate that reacts only to objects that closely resemble the detection target included in the teacher images referenced in learning. Even when a large amount of noise other than the detection target is reflected in the background of the teacher image, the identification accuracy of the identification model tends to be low.
  • Patent Document 1 discloses a technique for extracting and storing an image group including an object corresponding to the specified object classification from the possessed image database based on an object classification (person, etc.) arbitrarily specified by the user. There is.
  • Patent Document 1 is an image extraction technology that extracts an object arbitrarily specified by the user from a general video group and returns the extraction result in frame units.
  • the returned frame is likely to have noise other than the specified type of object reflected in the background, and may not be suitable for use as teacher data for deep learning.
  • One object of the present disclosure is to provide a technique that makes it possible to extract an image of an object suitable for deep learning.
  • the object image extraction device is an object image extraction device that extracts an image of an object from a frame of an image included in the image, and uses a part of the frame of the image as a key frame and the key.
  • a keyframe object designation unit that acquires an image of an object area designated by a rectangle including a portion in which an object is displayed in a frame and an object designated by the keyframe in the video are tracked, and the video is recorded.
  • It has an intermediate frame image extraction unit that extracts an image of a rectangular object region including a portion of an intermediate frame in which the object is displayed, which is a frame that is not the key frame in the above.
  • an image of an object suitable for deep learning can be extracted.
  • FIG. 1 is a diagram showing a configuration example of the teacher image extraction device 10 according to the present embodiment.
  • the teacher image extraction device 10 is an example of an object image extraction device that extracts an image of an object.
  • the teacher image extraction device 10 includes a key frame person designation unit 101, an intermediate frame image extraction unit 102, a person area identification unit 103, an adopted image determination unit 104, and a teacher image storage unit 105.
  • the keyframe person designation unit 101 accepts the designation of the person to be extracted in the keyframe of the plurality of frames constituting the input video (moving image) 100.
  • a key frame is a frame that is located at predetermined intervals among a plurality of frames. For example, the user manually specifies a rectangular area for the keyframe so that the person to be extracted is included.
  • the keyframe interval may be set arbitrarily.
  • the keyframe interval may be set to a fixed interval, such as 5 seconds or 10 seconds.
  • the key frame interval is set to 5 seconds for a 30 fps video
  • the first one is called a key frame
  • the 149 frames following the key frame are called an intermediate frame.
  • a set of keyframes and subsequent intermediate frames may be referred to as a keyframe set.
  • the keyframe intervals do not have to be fixed, and for example, different keyframe intervals may be combined. Further, only the first frame in the entire video may be used as a key frame, and the remaining frames following may be used as intermediate frames.
  • the intermediate frame image extraction unit 102 tracks the same person as the person specified for the key frame in each intermediate frame following the key frame. Then, the intermediate frame image extraction unit 102 identifies an area including the same person from each intermediate frame, and extracts an image of the specified area.
  • the area including a person is referred to as a "person area”
  • the image obtained by extracting (cutting out) the person area is referred to as a "person image”.
  • the person area specifying unit 103 cooperates with the intermediate frame human part image extraction unit 102 to specify the person area in the intermediate frame.
  • the person area specifying unit 103 specifies the person area so as to include the entire body of the person to be extracted.
  • the person area specifying unit 103 specifies the person area so that a part of the body of the person to be extracted does not protrude.
  • the adopted image determination unit 104 determines whether or not the person image extracted by the intermediate frame image extraction unit 102 is adopted as a teacher image for deep learning of the person identification model. For example, the adopted image determination unit 104 determines whether or not the accuracy of the person identification model can be improved when the extracted person image is used as a teacher image for deep learning of the person identification model (test). Judgment based on error rate). Then, the adopted image determination unit 104 adopts the person image determined to be expected to improve the accuracy as the teacher image for learning the person identification model.
  • the teacher image storage unit 105 stores the person image adopted by the adoption image determination unit 104 as the teacher image 106 for learning the person identification model.
  • the teacher image storage unit 105 may store not only the person image extracted from the intermediate frame but also the person image extracted from the area designated for the key frame as the teacher image.
  • FIG. 2 is a diagram showing an operation example of the teacher image extraction device 10.
  • the user inputs a video (moving image) 100 used for extracting a person image into the teacher image extraction device 10.
  • the input video 100 may be a file stored in a recording medium such as an HDD (Hard Disk Drive).
  • the input video 100 may be a video being shot by a camera or a video received by streaming via a network.
  • the input video 100 may be a set of a plurality of continuous image files in which all the frames constituting one moving image are expanded.
  • the user specifies the person to be extracted for the keyframe in the input video 100 through the keyframe person designation unit 101.
  • the intermediate frame image extraction unit 102 extracts an image (person image) of the same person as the person designated by the keyframe person designation unit 101 in cooperation with the person area identification unit 103, and outputs it as an extraction image set 202.
  • the adopted image determination unit 104 determines whether or not to adopt the extracted image set 202 as a teacher image for learning the person identification model based on the learning error rate.
  • the adopted image determination unit 104 outputs the extracted image set determined to be adopted as the teacher image as the teacher image set 203.
  • the teacher image set 203 is used as a teacher image for learning a person identification model.
  • the learning of the person identification model may be either learning for newly generating a person identification model or re-learning for improving the accuracy of the generated person identification model.
  • FIG. 3 is a diagram for explaining the relationship between the key frame and the intermediate frame. Note that FIG. 3 shows an example in which the keyframe interval 312 is 6 frames.
  • the user operates a mouse or the like to specify a person area 310 that surrounds the person 308 in the key frame 300.
  • the teacher image extraction device 10 cooperates with the key frame person designation unit 101 that accepts the designation of the person area for the key frame from the user and the intermediate frame image extraction unit 102 that automatically extracts the person image from each intermediate frame. As a result, a large amount of high-quality teacher images of a person can be acquired from the input video 100.
  • the keyframe interval is wide, a person who does not exist in the keyframe may newly appear from the middle frame in the middle. As described above, the person newly appearing from the intermediate frame in the middle may be detected by the motion estimation person detecting unit 601 (see FIG. 8) included in the intermediate frame image extracting unit 102.
  • the designation of the person area for keyframes is not limited to the manual case described above.
  • the person in the key frame may be automatically detected by the same processing as the motion estimation person detection unit 601. The details of the motion estimation person extraction unit 601 will be described later.
  • FIG. 4 is a diagram showing an example of extracting a person image from a key frame and an intermediate frame.
  • the user specifies a person area 316 surrounding the person 315 for the keyframe 313.
  • the intermediate frame image extraction unit 102 automatically tracks the same person 317 as the person 315 from the subsequent intermediate frame 314 based on the person area 316 designated for the key frame, and obtains the same person 317. Identify the surrounding person area 318. Then, the intermediate frame image extraction unit 102 extracts a person image from the specified person area 318.
  • FIG. 5 is a diagram showing a first example of extracting a plurality of person images from keyframes and intermediate frames.
  • the user specifies each person 321 to 323 for the key frame 319.
  • the intermediate frame image extraction unit 102 automatically tracks each same person in the subsequent intermediate frame 320 based on each person 321 to 323 designated for the key frame, and the person area 324 to surrounds each same person. Identify 326. Then, the intermediate frame image extraction unit 102 extracts a person image from each of the specified person areas 324 to 326.
  • FIG. 6 is a diagram for explaining the relationship between the person image extracted from the input video and the extracted image set.
  • the intermediate frame image extraction unit 102 automatically extracts a plurality of person images 409 to 413 and 415 from the intermediate frames 401 to 405 and 407, and stores them in a recording medium as a teacher image set 202. ..
  • the intermediate frame image extraction unit 102 also saves the person images 408 and 414 designated for the key frames 400 and 406 together with the person images 409 to 413 and 415 extracted from the intermediate frames 401 to 405 and 407.
  • FIG. 7 is a diagram showing a second example of extracting a plurality of person images from keyframes and intermediate frames.
  • the first example described with reference to FIG. 5 was an example of extracting a plurality of persons for each frame from key frames and intermediate frames.
  • the second example described with reference to FIG. 7 is an example of tracking and extracting the same person from the subsequent intermediate frame for each person specified for the key frame. As a result, the same person can be extracted with higher accuracy.
  • a person image of the same person is tracked and extracted from the subsequent intermediate frames 501 and 502 with each of the three people 503, 506, and 509 in the key frame 500 as a base point.
  • the same person is tracked based on the person 503 of the key frame 500, the person image of the same person 504 is extracted from the first intermediate frame 501, and the person image of the same person 505 is extracted from the second intermediate frame 502. To do.
  • the same person is tracked based on the person image 506 of the key frame 500, the person image of the same person 507 is extracted from the first intermediate frame 501, and the person image of the same person 508 is extracted from the second intermediate frame 502. Is extracted.
  • the same person is tracked based on the person image 509 of the key frame 500, the person image of the same person 510 is extracted from the first intermediate frame 501, and the person image of the same person 511 is extracted from the second intermediate frame 502. Is extracted.
  • FIG. 8 is a block diagram showing details of the intermediate frame image extraction unit 102 and the person area identification unit 103.
  • the intermediate frame image extraction unit 102 includes a motion estimation person detection unit 601, a vector stabilization filter 602, an area correction unit 609, an inter-frame area difference determination unit 610, and a person image cutout unit 611.
  • the person area identification unit 103 includes an area vector grouping unit 603, a whole body map generation unit 604, a front / rear frame verification unit 605, a fine movement vector grouping unit 606, a fine movement edge extraction unit 607, and a time series edge strength verification unit 608.
  • the motion estimation person detection unit 601 performs a motion vector calculation based on an optical flow on the input video 100, and detects the motion vector of the person.
  • the motion vector is a vector indicating the movement direction and the amount of movement of the shift between the frames of each block in which the frames are divided by a predetermined unit.
  • the block size (distance between blocks) is set appropriately according to the operation of the system.
  • Optical flow is one of the image processing technologies that calculates how a plurality of feature points such as edges move between two images to estimate the movement of the target object and recognize the target object. Is.
  • the vector stabilization filter 602 uses a Kalman filter to stabilize the motion vector of the person detected by the motion estimation person detection unit 601 in order to suppress the variation between frames.
  • the Kalman filter is one of the state estimation methods for predicting the future state by using a plurality of observation data including errors. Since the Kalman filter has a property of converging the prediction error within a certain range, the vector stabilization filter 602 can use this property to stabilize the output of the motion vector.
  • the vector stabilization filter 602 outputs the stabilized vector to the pedestrian processing unit 613 when the prediction error is relatively large (for example, greater than or equal to a predetermined threshold value), and the prediction error is relatively small (for example, less than a predetermined threshold value). ), The output is output to the stationary person processing unit 614.
  • the pedestrian processing unit 613 has a region vector grouping unit 603 and a whole body map generation unit 604.
  • the region vector grouping unit 603 bundles (groups) motion vectors having the same tendency close to each other among a plurality of motion vectors stabilized by the vector stabilization filter 602 to generate a vector group.
  • the whole body map generation unit 604 generates a map showing the whole body of a person (hereinafter referred to as "whole body map") from the vector group generated by the area vector grouping unit 603.
  • the resting person processing unit 614 has a fine movement vector grouping unit 606, a fine movement edge extraction unit 607, and a time series edge strength verification unit 608.
  • the fine movement vector grouping unit 606 uses as a marker a region in which close fine movement vectors having the same tendency and a small amount of movement are bundled among a plurality of motion vectors stabilized by the vector stabilization filter 602. Then, the fine movement vector grouping unit 606 bundles marker groups whose regions overlap between a plurality of adjacent frames to generate a vector group.
  • the fine movement edge extraction unit 607 extracts an edge image from each of the consecutive frames in the time direction, averages the extracted plurality of edge images, and obtains one average edge image.
  • the time-series edge strength verification unit 608 determines whether or not the average edge image obtained by the fine movement edge extraction unit 607 has an edge component (strength) equal to or higher than a predetermined reference in the vector group frame. As a result, the presence or absence of a stationary person is determined.
  • the front-rear frame verification unit 605 performs leveling of the whole body map output from the pedestrian processing unit 613 or the edge image output from the stationary person processing unit 614 with the front-rear frame within a predetermined range, and pays attention to it. Determines the person area in the frame.
  • the area correction unit 609 detects the position of the tip of the foot of the person and corrects the area of the whole body map. Since the amount of motion vector of the tip of the foot in the whole body is observed to be relatively large, this correction can suppress the extraction of a person image in which a part is missing.
  • the inter-frame area difference determination unit 610 determines the average amount of movement of the center of gravity between frames from the center of gravity of the person detected for each frame. Then, the inter-frame area difference determination unit 610 calculates the difference between the average center of gravity movement amount and the person center of gravity movement amount of the attention frame, and if the difference is less than a predetermined threshold value, selects the person area of the attention frame. .. On the other hand, the inter-frame area difference determination unit 610 does not have to select the person area of the frame of interest when the difference is equal to or greater than a predetermined threshold value.
  • the person image cutting unit 611 cuts out a person image from the person area selected by the inter-frame area difference determination unit 610, and outputs 612 as a teacher image.
  • FIG. 9 is a diagram for explaining an operation example of the area vector grouping unit 603 included in the pedestrian processing unit 613.
  • the area vector grouping unit 603 predicts the person area of the moving person by bundling the motion vectors of the same moving direction and the amount of movement in close proximity in order to identify the moving person (for example, a pedestrian).
  • the positions of the blocks of the two motion vectors may be adjacent to each other in the adjacent motion vectors.
  • the motion vectors having the same movement directions may have an angle formed by the two motion vectors of a predetermined angle or less.
  • the predetermined angle is appropriately set according to the operation of the system.
  • the predetermined angle may be set to an angle that can be regarded as substantially the same as the movement of each part of the person as long as the angle formed by the motion vector is equal to or less than the predetermined angle.
  • the difference in magnitude between the two motion vectors may be a predetermined value or less.
  • the predetermined value is appropriately set according to the operation of the system.
  • the predetermined value may be set to a value that can be regarded as substantially the same as the movement of each part of the person if the difference in magnitude of the motion vectors is equal to or less than the predetermined value.
  • the area vector grouping unit 603 performs the following processing. That is, the region vector grouping unit 603 observes the motion vector group 702 in the same direction and movement amount as the direction 700 of each feature point by the optical flow.
  • the area vector grouping unit 603 bundles similar motion vectors that are close to each other within a predetermined range for each feature point (704). Then, the region vector grouping unit 603 sets a virtual circle 705 that includes the bundled motion vectors, as shown in FIG. 9B.
  • the area vector grouping unit 603 executes the process (b) in FIG. 9 for all the feature points included in the person 701. Then, the area vector grouping unit 603 superimposes the virtual circles set as shown in FIG. 9 (c) to obtain a whole body map 706 representing the whole body.
  • the area vector grouping unit 603 sets a rectangular person area 707 surrounding the whole body map 706 as shown in FIG. 9 (d). Then, the area vector grouping unit 603 extracts the person image 701 from the person area 707 and outputs it as a teacher image.
  • 10 to 13 are diagrams for explaining an operation example of the area correction unit 609 included in the intermediate frame image extraction unit 102.
  • the area correction unit 609 detects the position of the tip of the foot and corrects the person area of the whole body map.
  • the region vector grouping unit 603 may not be able to observe effective feature points.
  • a place 802 in which the virtual circle for generating the whole body map cannot be set occurs, and the whole body map generation unit 804 generates the whole body map in which a part is missing. That is, a rectangular person area 801 is set in which a part 802 of the person 800 is cut off.
  • the area correction unit 609 detects the tip position 804 of the foot, assumes that the detected tip position 804 of the foot is the end of the person 800, and corrects the rectangular person area 801. As a result, there is a high probability that the entire body of the person 800 is included inside the rectangular person area 801.
  • FIG. 11 shows an example in which the area correction unit 609 makes a correction to expand the left side portion of the person area 805 of the person 803 with reference to the detected tip position 804 of the left foot.
  • FIG. 12 shows an example in which the area correction unit 609 makes a correction to expand the right side portion of the person area 808 of the person 806 with reference to the detected tip position 807 of the right foot.
  • FIG. 13 shows an example in which the area correction unit 609 makes corrections to expand both the left side portion and the right side portion of the person area 812 of the person 809 with reference to the detected tip position 810 of the left foot and the tip position 811 of the right foot. Is shown.
  • the area correction unit 609 makes a correction to extend the left side portion of the central axis of the person area if the tip position of the foot is to the left of the central axis with reference to the vertical central axis of the human body map before correction. Do.
  • the area correction unit 609 performs correction to expand the right side portion of the central axis of the person area if the tip position of the foot is to the right of the central axis with reference to the central axis in the vertical direction of the human body map before correction.
  • the area correction unit 609 determines that the pedestrian is not walking upright, and does not have to perform the correction of the person area based on the above-mentioned position of the tip of the foot.
  • FIG. 14 is a diagram showing an operation example of the fine movement vector grouping unit 606 included in the stationary person processing unit 614.
  • the person is generally in a state of complete rest, except during sleep, and is moving slightly. This tendency is especially strong for those who have passed.
  • the fine movement vector grouping unit 606 detects a person in a stationary state by observing and integrating these slight movements in time series.
  • FIG. 14 shows a stationary person 900.
  • the fine movement vector grouping unit 606 also executes the same processing as the processing for pedestrians shown in FIG. 9 on a stationary person.
  • a predetermined condition is satisfied, a person area including the entire person may be obtained even if the person is stationary.
  • the fine movement vector grouping unit 606 continuously observes the vector group in a predetermined frame section (Tn to Tn + 4) as shown in FIG. 14 (b). For example, the fine movement vector grouping unit 606 observes five vector groups 906 to 910 for the same person.
  • the fine movement vector grouping unit 606 sets a rectangular temporary region including the five observed vector groups, as shown in FIG. 14 (c). Then, as shown in FIG. 14D, the fine movement vector grouping unit 606 sets this set temporary area as the candidate area 912 of the person 900.
  • the fine movement edge extraction unit 607 continuously performs edge extraction processing in a predetermined frame section Tm to Tm + 2, and obtains edge images 916 to 918 for each predetermined frame.
  • the fine movement edge extraction unit 607 obtains one average edge image 919 from the edge images 916 to 918 in the predetermined frame section Tm to Tm + 2, as shown in FIG. 14 (f).
  • the time-series edge strength verification unit 608 determines whether or not the edge component strength equal to or higher than the predetermined reference value exists in the candidate region 912 of the average edge image 919. .. For example, the time-series edge strength verification unit 608 determines whether or not a pixel having a predetermined brightness value exists in a predetermined area or more. Then, when the edge component of the predetermined reference or more is present, the time-series edge strength verification unit 608 determines the candidate region 912 shown in FIG. 14 (g) as the person region 920 as shown in FIG. 14 (h). To do. When the edge component is less than a predetermined reference, the time-series edge strength verification unit 608 discards the candidate region 912 shown in FIG. 14 (g).
  • FIG. 15 is a diagram for explaining an operation example of the adopted image determination unit 104.
  • the adopted image determination unit 104 determines whether or not the accuracy of the person identification model can be improved based on the learning error rate. Then, the adopted image determination unit 104 selects a person image in the person area determined to be expected to improve the accuracy of the person identification model as a teacher image.
  • the adopted image determination unit 104 includes an image reading unit 1001, a person identification test model learning unit 1002, an adoption determination unit 1003, and an image storage unit 1007.
  • the image reading unit 1001 reads a predetermined number of person images from the extracted image set 202.
  • the image reading unit 1001 may read an arbitrary number of person images from the extracted image set 202.
  • the image reading unit 1001 may read 2000 human images out of 10000 human images included in the extracted image set 202.
  • the person identification test model learning unit 1002 executes deep learning of the person identification test model.
  • the person identification test model learning unit 1002 uses a certain 1000 of the 2000 person images read by the image reading unit 1001 for the filter coefficient update learning for each episode of the person identification model, and uses the remaining 1000 images. It may be used for the test error rate evaluation for each epoch.
  • the echo is a set of the minimum calculation units of the filter coefficients of the discriminative model, and is a unit that finishes referring to all the input images for learning.
  • the epoch is also called the number of learning trainings.
  • the adoption determination unit 1003 compares the learning filter coefficient with the reference model error rate 1004 at the time of the epoch where the test error rate is the lowest when the learning of a predetermined number of epoches progresses.
  • the reference model error rate 1004 is a learning error rate that the existing person identification model has.
  • the image storage unit 1007 uses the person image read by the image reading unit 1001 as a teacher image. Is stored in the teacher image set 203.
  • the teacher image set 203 is used for training a formal person identification model.
  • the image reading unit 1001 discards the person image read.
  • FIG. 16 is a diagram showing an example of a learning error rate curve referred to by the adopted image determination unit 104.
  • the vertical axis shows the test error rate (unit is%), and the horizontal axis shows the number of learning trainings (unit is epoch).
  • the test error rate is the rate at which identification of the unknown image fails (error rate) when an unknown image for evaluating the test error rate is input to the learning model output for each output. That is.
  • the unknown image is an image different from the image used for learning.
  • the test error rate is expressed in the range of 0% to 100%, and it is generally interpreted that the closer to 0%, the higher the recognition performance of the discriminative model.
  • ER1 shows the best value of the reference model test error rate 1004.
  • ER2 indicates the best value of the test error rate in the person identification test model learned by the person identification test model learning unit 1002.
  • ER2 is smaller than ER1. This indicates that the identification performance of the person identification test model is improved. Therefore, the person image used for learning the person identification test model is stored in the teacher image set.
  • FIG. 17 shows a first example of a teacher image extraction system including a teacher image extraction device 10.
  • the first example shows an example in which the teacher image extraction system is locally configured.
  • the teacher image extraction system includes a camera 1200, a video storage device 1201, a teacher image extraction device 10, a monitor 1203, and a teacher image storage device 1204.
  • the camera 1200 captures an image including a person.
  • the video storage device 1201 stores a video (moving image) taken by the camera 1200.
  • the video captured by the camera 1200 may be directly input to the teacher image extraction device 10 without being stored in the video storage device 1201.
  • the teacher image extraction device 10 extracts the teacher image from the video input from the video storage device 1201 as described above.
  • the video input to the teacher image extraction device 10 may be arbitrarily selected.
  • the teacher image extraction device 10 described above has a memory and a CPU (Central Processing Unit), and the CPU may execute a software program stored in the memory to realize processing of each part.
  • the teacher image extraction device 10 may be a personal computer (PC) that executes the software program.
  • PC personal computer
  • the teacher image extraction device 10 may display the extracted teacher image on the monitor 1203. Further, the teacher image extraction device 10 may store the extracted teacher image in the teacher image storage device 1204.
  • FIG. 18 shows a second example of a teacher image extraction system including the teacher image extraction device 10.
  • the second example shows an example in which the teacher image extraction system is provided as a cloud of the network.
  • the teacher image extraction system includes a control PC 1208, a teacher image extraction device 10, a video storage device 1209, and a teacher image storage device 1212.
  • the cloud provides various IT resources such as computing, databases, storage, and / or applications on demand via the Internet 1207.
  • a camera 1206, a host PC 1213 and a monitor 1214 are locally provided, and a teacher image extraction system is provided as a cloud via a network 1207.
  • Camera 1206 captures images including people.
  • the host PC 1213 stores the video captured by the camera 1206 in the video storage device 1209 via the network 1207 and the control PC 1208.
  • the teacher image extraction device 10 extracts the teacher image from the video input from the video storage device 1201 as described above.
  • a plurality of teacher image extraction devices 10 may be provided.
  • the plurality of teacher image extraction devices 10 may extract teacher images by parallel processing.
  • the functions and processing of the teacher image extraction device 10 described above may be realized by executing the computer program 1211 stored in the memory of each device 10 by the CPU.
  • the teacher image device 10 may be a sub PC that executes the computer program.
  • the teacher image extracted by the teacher image extraction device 10 may be displayed on the local monitor 1214 via the network 1207 and the host PC 1213. Further, the teacher image extraction device 10 may store the extracted teacher image in the teacher image storage device 1204.
  • the extraction target is not limited to the person.
  • the extraction target may be other than people such as buildings, vehicles, home appliances, the sea, mountains, the sky, flowers, and trees.
  • the above-mentioned constraint conditions for determining the existence of a person in the key frame person designation unit and the intermediate frame image extraction unit including the area correction unit are appropriate according to the extraction target. May be changed to.
  • the teacher image extraction device 10 that extracts an image of a person who is an example of an object from an image frame included in a video has a keyframe person designation unit 101 and an intermediate frame image extraction unit 102.
  • the keyframe person designation unit 101 uses a part of the frame of the video as a keyframe, and acquires an image of a person area designated by a rectangle including a portion of the keyframe in which an object is displayed.
  • the intermediate frame image extraction unit 102 tracks a person designated by a key frame in the video, and extracts an image of a rectangular person region including a portion in which the person in the intermediate frame, which is a frame that is not a key frame in the video, is displayed.
  • a rectangular partial image in which a person is displayed is extracted from the frame included in the video, so that a teacher image with reduced background noise can be extracted.
  • the teacher image extraction device 10 specifies a person area that identifies a person area that is a part in which a person is displayed in an intermediate frame by processing different motion vectors depending on whether the person is moving or stationary. It may further have a unit 103.
  • the motion vector of the person's area shows different properties depending on whether the person is moving or stationary. Therefore, according to this configuration, the person area can be specified by using the processing for the motion vector suitable for each case, so that the person area can be satisfactorily specified regardless of whether the person is moving or stationary. it can.
  • the person area specifying unit 103 may specify the person area by synthesizing areas obtained by grouping motion vectors whose positions are close to each other and whose movement directions and movement amounts are the same. ..
  • a person area can be satisfactorily specified by grouping adjacent equivalent motion vectors and synthesizing them.
  • the person area specifying unit 103 is obtained by grouping motion vectors indicating the same adjacent movement direction and movement amount in each of a plurality of consecutive frames including the target intermediate frame.
  • a person area may be specified based on an area obtained by synthesizing a partial area over a plurality of frames.
  • the person region can be satisfactorily specified by synthesizing the partial regions in which the motion vectors are grouped over a plurality of frames.
  • the person area specifying unit 103 is based on a region obtained by synthesizing partial areas over a plurality of frames and an edge image extracted from an image of one or more frames including an intermediate frame.
  • the area may be specified.
  • the intermediate frame image extraction unit 102 may correct the person area of the intermediate frame based on the motion vector of one or more frames before or after the intermediate frame.
  • the intermediate frame image extraction unit 102 estimates that the region where the movement amount of the motion vector in one or more frames before or after the intermediate frame is relatively large is the position of the foot tip where the person is walking, and the foot tip position is set.
  • the person area may be corrected to be included.
  • the person area is corrected so as to include the area estimated to be the tip of the foot by the process using the motion vector of the frame before and after the target intermediate frame, so that the cutoff of the tip of the foot of the person can be reduced. ..
  • the teacher image extraction device 10 constructs a test model by using a person image group including a person image of a key frame and a person image of an intermediate frame for deep learning, evaluates the accuracy of person identification by the test model, and uses the evaluation result as a result. It may further have an adopted image determination unit 104 that determines whether or not to adopt the person image group based on the above.
  • a test model is constructed from the extracted human image group, the accuracy of person identification is evaluated, and the acceptance / rejection of the human image group is determined. Therefore, a human image that can obtain good accuracy by deep learning is adopted. it can.
  • the intermediate frame image extraction unit 102 may track each of the plurality of people and extract a person image in the person area for each person.
  • a plurality of people are tracked and a person image in a person area is extracted for each person, so that a large number of person images can be extracted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

映像から深層学習に好適な対象物の画像を抽出する。 映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置は、映像の一部のフレームをキーフレームとし、キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、映像においてキーフレームで指定された対象物を追跡し、映像におけるキーフレームでないフレームである中間フレームの対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、を有する。

Description

対象物画像抽出装置、方法、およびソフトウェアプログラム
 本発明は、深層学習に用いることを目的とする人物画像を映像から抽出する技術に関する。
 コンピュータビジョンの分野で深層学習を用いて画像から物体を認識する手法が注目されている。
 深層学習とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする手法のことである。深層学習には、従来のパタンマッチングなどの手法に比べて、特徴解析および特徴表現の柔軟性が高いことに加えて、検出の目標とする物体の特徴を人が定義しなくても良いこと等の優位性がある。
 一方、深層学習によって得られる識別モデルの識別精度は、学習時に使用する教師画像の量および品質から大きく影響を受ける。教師画像の数が少なければ、識別モデルは、学習で参照した教師画像に含まれる検出対象に酷似した物体のみにしか反応しないような検知率の低い識別モデルとなる傾向がある。教師画像の背景などに検出対象以外のノイズが多数映りこんでいた場合も、識別モデルの識別精度が低くなる傾向がある。
 このため、検出対象以外のノイズが少ない教師画像を効率良く自動抽出して効果的に識別モデルの深層学習に活用することを可能にする技術の開発が求められている。
 特許文献1には、ユーザが任意に指定したオブジェクト分類(人物など)に基づき、保有画像データベースから、指定したオブジェクト分類に該当するオブジェクトが含まれる画像群を抽出し、保存する技術が開示されている。
特開2008-299681号公報
 特許文献1に開示された技術は、一般の映像群の中からユーザが任意に指定したオブジェクトを抽出し、その抽出結果をフレーム単位で返す画像抽出技術である。返されたフレームは、指定された種類のオブジェクト以外のノイズが背景として映りこんでいる可能性が高く、深層学習の教師データとして活用するには適さない可能性がある。
 本開示のひとつの目的は、深層学習に好適な対象物の画像を抽出することを可能にする技術を提供することである。
 ひとつの態様に係る対象物画像抽出装置は、映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置であって、前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、を有する。
 本開示によれば、深層学習に好適な対象物の画像を抽出できる。
本実施形態に係る教師画像抽出装置の構成例を示す図である。 教師画像抽出装置の動作例を示す図である。 キーフレームと中間フレームとの関係を説明するための図である。 キーフレーム及び中間フレームから人物画像を抽出する例を示す図である。 キーフレーム及び中間フレームから複数の人物画像を抽出する第1の例を示す図である。 入力映像から抽出した人物画像と抽出画像セットとの関係を説明するための図である。 キーフレーム及び中間フレームから複数の人物画像を抽出する第2の例を示す図である。 中間フレーム画像抽出部及び人物領域特定部の詳細を示すブロック図である。 歩行者処理部に含まれる領域ベクトルグルーピング部の動作例を説明するための図である。 歩行者に対する人物領域の設定において見切れが生じる例を説明するための図であ。 左足の先端位置を基準に人物領域を補正する例を示す図である。 右足の先端位置を基準に人物領域を補正する例を示す図である。 両足の先端位置を基準に人物領域を補正する例を示す図である。 静止者処理部に含まれる微動ベクトルグルーピング部の動作例を示す図である。 採用画像判定部の動作例を説明するための示す図である。 採用画像判定部が参照する学習エラー率曲線の例を示す図である。 教師画像抽出装置を含む教師画像抽出システムの第1例を示す図である。 教師画像抽出装置を含む教師画像抽出システムの第2例を示す図である。
 以下、図面を参照して実施形態を説明する。
 図1は、本実施形態に係る教師画像抽出装置10の構成例を示す図である。なお、教師画像抽出装置10は、対象物の画像を抽出する対象物画像抽出装置の一例である。
 教師画像抽出装置10は、キーフレーム人物指定部101、中間フレーム画像抽出部102、人物領域特定部103、採用画像判定部104、及び、教師画像保存部105を備える。
 キーフレーム人物指定部101は、入力された映像(動画)100を構成する複数のフレームのうちのキーフレームにおける、抽出対象の人物の指定を受け付ける。キーフレームは、複数のフレームのうち、所定間隔毎に位置するフレームである。例えば、ユーザは、キーフレームに対して、抽出対象の人物が含まれるように、手動で矩形の領域を指定する。
 キーフレームの間隔は、任意に設定されてよい。キーフレームの間隔は、5秒または10秒など、一定の間隔に設定されてよい。例えば、30fpsの映像に対してキーフレームの間隔を5秒に設定した場合、5秒間のフレーム数は150枚(=30フレーム×5秒)である。そのうち、先頭の1枚をキーフレームと呼び、当該キーフレームに後続する149枚を中間フレームと呼ぶ。以下、キーフレームとそれに後続する中間フレームのセットを、キーフレームセットと呼んでもよい。
 キーフレームの間隔は、一定の間隔でなくてもよく、例えば、異なるキーフレームの間隔を組み合わせてもよい。また、映像全体における先頭のフレームのみをキーフレームとし、後続する残りのフレームを中間フレームとしてもよい。
 中間フレーム画像抽出部102は、キーフレームに後続する各中間フレームにおいて、当該キーフレームに対して指定された人物と同一人物を追跡する。そして、中間フレーム画像抽出部102は、各中間フレームから、当該同一人物を含む領域を特定し、その特定した領域の画像を抽出する。以下、人物を含む領域を「人物領域」と呼び、人物領域を抽出した(切り出した)画像を「人物画像」という。
 人物領域特定部103は、中間フレーム人部画像抽出部102と連携し、中間フレームにおける人物領域を特定する。例えば、人物領域特定部103は、抽出対象の人物の身体全体が含まれるように、人物領域を特定する。別言すると、人物領域特定部103は、抽出対象の人物の身体の一部がはみ出ないように、人物領域を特定する。
 採用画像判定部104は、中間フレーム画像抽出部102によって抽出された人物画像を、人物識別モデルの深層学習用の教師画像として採用するか否かを判定する。例えば、採用画像判定部104は、抽出された人物画像を、仮に人物識別モデルの深層学習の教師画像として用いた場合に当該人物識別モデルの精度向上が見込めるか否かについて、学習エラー率(テストエラー率)に基づいて判定する。そして、採用画像判定部104は、精度向上が見込めると判定した人物画像を、人物識別モデルの学習用の教師画像として採用する。
 教師画像保存部105は、採用画像判定部104において採用された人物画像を、人物識別モデルの学習ための教師画像106として保存する。教師画像保存部105は、中間フレームから抽出された人物画像に限らず、キーフレームに対して指定された領域から抽出された人物画像も教師画像として保存してよい。
 図2は、教師画像抽出装置10の動作例を示す図である。
 ユーザは、教師画像抽出装置10に対して、人物画像の抽出に用いる映像(動画)100を入力する。入力される映像100は、HDD(Hard Disk Drive)などの記録媒体に格納されたファイルであってよい。又は、入力される映像100は、カメラで撮影中の映像、或いは、ネットワークを経由してストリーミング受信した映像であってもよい。又は、入力される映像100は、1つの動画を構成する全てのフレームを展開した、複数の連続した画像ファイルの集合であってもよい。
 ユーザは、キーフレーム人物指定部101を通じて、入力された映像100におけるキーフレームに対して抽出対象の人物を指定する。
 中間フレーム画像抽出部102は、人物領域特定部103と連携して、キーフレーム人物指定部101によって指定された人物と同一人物の画像(人物画像)を抽出し、抽出画像セット202として出力する。
 採用画像判定部104は、学習エラー率に基づいて、抽出画像セット202を、人物識別モデルの学習用の教師画像として採用するか否かを判定する。採用画像判定部104は、教師画像として採用すると判定した抽出画像セットを、教師画像セット203として出力する。
 教師画像セット203は、人物識別モデルの学習用の教師画像として用いられる。なお、人物識別モデルの学習は、人物識別モデルを新たに生成するための学習と、生成済みの人物識別モデルの精度を向上させるための再学習と、の何れであってもよい。
 図3は、キーフレームと中間フレームとの関係を説明するための図である。なお、図3は、キーフレーム間隔312が6フレームの場合の例である。
 ユーザは、マウス等を操作して、キーフレーム300内の人物308を囲む人物領域310を指定する。
 このように、ユーザが、キーフレーム300に対して人物308を囲む人物領域310を指定することにより、キーフレームに後続する中間フレームにおける、同一人物の追跡精度及び画像抽出精度が向上する。すなわち、教師画像抽出装置10は、ユーザからのキーフレームに対する人物領域の指定を受け付けるキーフレーム人物指定部101と、各中間フレームから自動的に人物画像を抽出する中間フレーム画像抽出部102との連携により、入力された映像100から、高品質な人物の教師画像を大量に取得できる。
 なお、キーフレーム間隔が広い場合には、キーフレームに存在しない人物が途中の中間フレームから新たに出現する場合がある。このように、途中の中間フレームから新たに出現する人物は、中間フレーム画像抽出部102に含まれる動き推定人物検出部601(図8参照)によって検出されてよい。
 また、キーフレームに対する人物領域の指定は、上述した手動の場合に限られない。例えば、キーフレーム内の人物を、動き推定人物検出部601と同様の処理によって自動的に検出してもよい。なお、動き推定人物抽出部601の詳細については後述する。
 図4は、キーフレーム及び中間フレームから人物画像を抽出する例を示す図である。
 ユーザは、キーフレーム313に対して、人物315を囲む人物領域316を指定する。この場合、中間フレーム画像抽出部102は、キーフレームに対して指定された人物領域316を基点に、後続する中間フレーム314から、人物315と同一人物317を自動的に追跡し、同一人物317を囲む人物領域318を特定する。そして、中間フレーム画像抽出部102は、特定した人物領域318から人物画像を抽出する。
 図5は、キーフレーム及び中間フレームから複数の人物画像を抽出する第1の例を示す図である。
 ユーザは、キーフレーム319に対して、各人物321~323を指定する。中間フレーム画像抽出部102は、キーフレームに対して指定された各人物321~323を基点に、後続の中間フレーム320の各同一人物を自動的に追跡し、各同一人物を囲む人物領域324~326を特定する。そして、中間フレーム画像抽出部102は、特定した各人物領域324~326から人物画像を抽出する。
 図6は、入力映像から抽出した人物画像と抽出画像セットとの関係を説明するための図である。
 図6に示すように、中間フレーム画像抽出部102は、中間フレーム401~405、407から複数の人物画像409~413、415を自動的に抽出し、記録媒体に、教師画像セット202として保存する。
 また、中間フレーム画像抽出部102は、キーフレーム400、406に対して指定された人物画像408、414も、中間フレーム401~405、407から抽出した人物画像409~413、415と共に保存する。
 図7は、キーフレーム及び中間フレームから複数の人物画像を抽出する第2の例を示す図である。
 図5を参照して説明した第1の例は、キーフレーム及び中間フレームから、フレーム毎に、複数の人物を抽出する例であった。これに対して、図7を参照して説明する第2の例は、キーフレームに対して指定された人物毎に、後続する中間フレームから同一人物を追跡及び抽出する例である。これにより、同一人物をより高い精度で抽出でき得る。
 図7に示すように、キーフレーム500内の3人の人物503、506、509の各々を基点に、後続の中間フレーム501、502から、同一人物の人物画像を追跡及び抽出する。
 例えば、キーフレーム500の人物503を基準に同一人物の追跡を行い、1番目の中間フレーム501から同一人物504の人物画像を抽出し、2番目の中間フレーム502から同一人物505の人物画像を抽出する。
 次に、キーフレーム500の人物画像506を基準に同一人物の追跡を行い、1番目の中間フレーム501から同一人物507の人物画像を抽出し、2番目の中間フレーム502から同一人物508の人物画像を抽出する。
 次に、キーフレーム500の人物画像509を基準に同一人物の追跡を行い、1番目の中間フレーム501から同一人物510の人物画像を抽出し、2番目の中間フレーム502から同一人物511の人物画像を抽出する。
 図8は、中間フレーム画像抽出部102及び人物領域特定部103の詳細を示すブロック図である。
 中間フレーム画像抽出部102は、動き推定人物検出部601、ベクトル安定化フィルタ602、領域補正部609、フレーム間領域差判定部610、及び、人物画像切り出し部611を含む。
 人物領域特定部103は、領域ベクトルグルーピング部603、全身マップ生成部604、前後フレーム検証部605、微動ベクトルグルーピング部606、微動エッジ抽出部607、及び、時系列エッジ強度検証部608を含む。
 動き推定人物検出部601は、入力映像100に対して、オプティカルフロー(Optical Flow)に基づく動きベクトル演算を行い、人物の動きベクトルを検出する。動きベクトルは、フレームを所定単位で区切った各ブロックのフレーム間でのシフトの移動方向と移動量を示すベクトルである。ブロックの大きさ(ブロック間の距離)は、システムの運用に合わせて適切に設定される。また、オプティカルフローは、2つの画像間でエッジなどの複数の特徴点がどう動いたのかを計算して、対象物体の動きを推定したり、対象物体を認識したりする画像処理技術の1つである。
 ベクトル安定化フィルタ602は、動き推定人物検出部601によって検出された人物の動きベクトルについてフレーム間のバラツキを抑制するためにカルマンフィルタ(Kalman filter)を用い、動きベクトルを安定化させる。カルマンフィルタは、誤差を含む複数個の観測データを用いて、未来の状態を予測する状態推定手法の1つである。カルマンフィルタは、予測誤差を一定範囲に収束させる性質を有するため、ベクトル安定化フィルタ602は、この性質を利用して、動きベクトルの出力を安定化させることができる。
 ベクトル安定化フィルタ602は、安定化後のベクトルを、予測誤差が比較的大きい(例えば所定の閾値以上)場合、歩行者処理部613へ出力し、予測誤差が比較的小さい(例えば所定の閾値未満)場合、静止者処理部614へ出力する。
 歩行者処理部613は、領域ベクトルグルーピング部603、及び、全身マップ生成部604を有する。
 領域ベクトルグルーピング部603は、ベクトル安定化フィルタ602によって安定化された複数の動きベクトルのうち、近接する同等の傾向の動きベクトルを束ね(グルーピングし)、ベクトルグループを生成する。
 全身マップ生成部604は、領域ベクトルグルーピング部603によって生成されたベクトルグループから、人物の全身を示すマップ(以下「全身マップ」という)を生成する。
 静止者処理部614は、微動ベクトルグルーピング部606、微動エッジ抽出部607、及び、時系列エッジ強度検証部608を有する。
 微動ベクトルグルーピング部606は、ベクトル安定化フィルタ602によって安定化された複数の動きベクトルのうち、近接する同じ傾向の動き量の小さい微動ベクトルを束ねた領域をマーカとする。そして、微動ベクトルグルーピング部606は、隣接する複数フレーム間で領域が重なるマーカ郡を束ね、ベクトルグループを生成する。
 微動エッジ抽出部607は、時間方向の連続するフレームの各々からエッジ画像を抽出し、その抽出した複数のエッジ画像を平均化し、1つの平均エッジ画像を得る。
 時系列エッジ強度検証部608は、微動エッジ抽出部607によって得られた平均エッジ画像について、ベクトルグループ枠内に、所定基準以上のエッジ成分(強度)が存在するか否かを判定する。これにより、静止人物の有無が判定される。
 前後フレーム検証部605は、上記の歩行者処理部613から出力される全身マップ、又は、上記の静止者処理部614から出力されるエッジ画像について、所定範囲の前後フレームによる平準化を行い、注目フレームにおける人物領域を決定する。
 領域補正部609は、歩行者処理613が行われた場合、人物の足先端位置を検出し、全身マップの領域を補正する。全身のうちの足先端の動きベクトル量は、相対的に大きく観測されるため、この補正により、一部が欠けた人物画像が抽出されることを抑制できる。
 フレーム間領域差判定部610は、フレーム毎に検出した人物の重心から、フレーム間の平均重心移動量を決定する。そして、フレーム間領域差判定部610は、この平均重心移動量と、注目フレームの人物重心移動量との差分を算出し、その差分が所定の閾値未満の場合、注目フレームの人物領域を選択する。一方、フレーム間領域差判定部610は、その差分が所定の閾値以上の場合、注目フレームの人物領域を選択しなくてよい。
 人物画像切り出し部611は、フレーム間領域差判定部610において選択された人物領域から人物画像を切り出し、教師画像として出力612する。
 図9は、歩行者処理部613に含まれる領域ベクトルグルーピング部603の動作例を説明するための図である。
 領域ベクトルグルーピング部603は、移動人物(例えば歩行者)を特定するために、近接する同等の移動方向及び移動量の動きベクトルを束ねて、移動人物の人物領域を予測する。なお、近接する動きベクトルは、2つの動きベクトルのブロックの位置が隣り合っていてよい。また、移動方向が同等の動きベクトルは、2つの動きベクトルのなす角が所定角度以下であってよい。ここで、所定角度は、システムの運用に合わせて適切に設定される。例えば、所定角度は、動きベクトルのなす角が当該所定角度以下であれば、人物の各部位の動きとして実質的に同一と見なせる角度に設定されてよい。また、移動量が同等の動きベクトルは、2つの動きベクトルの大きさの差が所定値以下であってよい。ここで、所定値は、システムの運用に合わせて適切に設定される。例えば、所定値は、動きベクトルの大きさの差がその所定値以下であれば人物の各部位の動きとして実質的に同一と見なせる値に設定されてよい。
 例えば図9において(a)に示すように、人物701が方向700に移動している場合、領域ベクトルグルーピング部603は、次の処理を行う。すなわち、領域ベクトルグルーピング部603は、オプティカルフローによって、各特徴点の方向700とほぼ同じ向き及び移動量の動きベクトル群702を観測する。
 このとき、領域ベクトルグルーピング部603は、特徴点毎に、所定範囲内で近接する類似の動きベクトルを束ねる(704)。そして、領域ベクトルグルーピング部603は、図9において(b)に示すように、束ねた動きベクトルを包含する仮想円705を設定する。
 領域ベクトルグルーピング部603は、人物701に含まれる全ての特徴点について、図9において(b)の処理を実行する。そして、領域ベクトルグルーピング部603は、図9において(c)に示すように設定した仮想円を重ねて、全身を表現した全身マップ706を得る。
 領域ベクトルグルーピング部603は、図9において(d)に示すように、全身マップ706を囲む矩形の人物領域707を設定する。そして、領域ベクトルグルーピング部603は、人物領域707から人物画像701を抽出し、教師画像として出力する。
 図10~図13は、中間フレーム画像抽出部102に含まれる領域補正部609の動作例を説明するための図である。
 歩行者の場合、全身のうち、足の先端の動きベクトル量が相対的に大きく観測される。そこで、領域補正部609は、足の先端位置を検出し、全身マップの人物領域を補正する。
 図10に例示するように、領域ベクトルグルーピング部603は、有効な特徴点を観測できない場合がある。この場合、全身マップ生成用の仮想円を設定できない箇所802が生じ、全身マップ生成部804は、一部が欠落した全身マップを生成する。すなわち、人物800の一部の箇所802が見切れた、矩形の人物領域801が設定される。
 ここで、歩行中の上半身は、足の先端よりも内側に存在する確率が高い。そこで、領域補正部609は、足の先端位置804を検出し、その検出した足の先端位置804を人物800の端と想定して、矩形の人物領域801を補正する。これにより、矩形の人物領域801の内側に、人物800の全身が含まれる確率が高くなる。
 図11は、領域補正部609が、検出した左足の先端位置804を基準にして、人物803の人物領域805の左側部分を拡張する補正を行った例を示す。
 図12は、領域補正部609が、検出した右足の先端位置807を基準にして、人物806の人物領域808の右側部分を拡張する補正を行った例を示す。
 図13は、領域補正部609が、検出した左足の先端位置810および右足の先端位置811を基準にして、人物809の人物領域812の左側部分および右側部分の両方を拡張する補正を行った例を示す。
 例えば、領域補正部609は、補正前の人身マップの垂直方向の中心軸を基準として、足の先端位置が中心軸よりも左寄りであれば、人物領域の中心軸の左側部分を拡張する補正を行う。領域補正部609は、補正前の人身マップの垂直方向の中心軸を基準として、足の先端位置が中心軸よりも右寄りであれば、人物領域の中心軸の右側部分を拡張する補正を行う。
 前かがみになりながら歩く歩行者などでは、上半身の一定領域が足の先端位置よりも外側にはみ出す場合がある。この場合、領域補正部609は、歩行者が直立して歩行していないと判断し、上述した足の先端位置に基づく人物領域の補正を実行しなくてもよい。
 図14は、静止者処理部614に含まれる微動ベクトルグルーピング部606の動作例を示す図である。
 人物は、一般的に、睡眠中を除き、完全な静止状態になることはほとんどなく、僅かに動いている。経っている人物では、特にこの傾向が強い。微動ベクトルグルーピング部606は、この僅かな動きを時系列に観測して統合することにより、静止状態の人物を検出する。
 図14において(a)は、静止中の人物900を示す。微動ベクトルグルーピング部606は、図9に示した、歩行者向けの処理と同様の処理を、静止中の人物に対しても実行する。所定の条件が満たされる場合、静止中の人物であっても、人物の全体を包含する人物領域を得られる場合がある。しかし、注目フレーム単独の場合、たいてい、全身の一部が動いた状態のみが観測される。そこで、微動ベクトルグルーピング部606は、図14において(b)に示すように、所定のフレーム区間(Tn~Tn+4)において、連続してベクトルグループを観測する。例えば、微動ベクトルグルーピング部606は、同一人物に対して、5個のベクトルグループ906~910を観測する。
 この場合、微動ベクトルグルーピング部606は、図14において(c)に示すように、観測された5個のベクトルグループを包含する矩形の仮領域を設定する。そして、微動ベクトルグルーピング部606は、図14において(d)に示すように、この設定した仮領域を、人物900の候補領域912とする。
 次に、微動エッジ抽出部607は、図14において(e)に示すように、所定フレーム区間Tm~Tm+2において連続してエッジ抽出処理を行い、所定フレーム毎にエッジ画像916~918を得る。
 次に、微動エッジ抽出部607は、所定フレーム区間Tm~Tm+2のエッジ画像916~918から、図14において(f)に示すように、1個の平均エッジ画像919を得る。
 次に、時系列エッジ強度検証部608は、図14において(g)に示すように、平均エッジ画像919の候補領域912内に、所定基準以上のエッジ成分強度が存在するか否かを判定する。例えば、時系列エッジ強度検証部608は、所定の輝度値の画素が所定の面積以上存在するか否かを判断する。そして、時系列エッジ強度検証部608は、所定基準以上のエッジ成分が存在する場合、図14(g)に示す候補領域912を、図14において(h)に示すように、人物領域920と確定する。時系列エッジ強度検証部608は、エッジ成分が所定の基準未満の場合、図14において(g)に示す候補領域912を破棄する。
 図15は、採用画像判定部104の動作例を説明するための図である。
 採用画像判定部104は、学習エラー率に基づいて、人物識別モデルの精度向上が見込めるか否かを判定する。そして、採用画像判定部104は、人物識別モデルの精度向上が見込めると判定した人物領域の人物画像を、教師画像として選択する。
 採用画像判定部104は、画像読出部1001、人物識別試験モデル学習部1002、採用判定部1003、及び、画像保存部1007を含む。
 画像読出部1001は、抽出画像セット202から、所定枚数の人物画像を読み出す。画像読出部1001は、抽出画像セット202から、任意の数の人物画像を読み出してよい。例えば、画像読出部1001は、抽出画像セット202に含まれる10000枚の人物画像のうち、2000枚の人物画像を読み出してもよい。
 人物識別試験モデル学習部1002は、人物識別試験モデルの深層学習を実行する。人物識別試験モデル学習部1002は、画像読出部1001によって読み出された2000枚の人物画像のうち、或る1000枚を人物識別モデルのepoch毎のフィルタ係数更新学習に用い、残りの1000枚をepoch毎のテストエラー率評価のために用いてもよい。なお、epochは、識別モデルのフィルタ係数の最小演算単位の集合であり、学習用の入力画像を全て参照し終える単位である。epochは、学習訓練回数とも呼ばれる。
 採用判定部1003は、所定のepoch数の学習が進行した時点で、テストエラー率が最も低いepoch時点における、学習フィルタ係数と基準モデルエラー率1004とを比較する。基準モデルエラー率1004は、既存の人物識別モデルが有する学習エラー率である。
 採用判定部1003が、試験モデルエラー率が基準モデルエラー率1004よりも低いと判定した場合(採用判定1005:YES)、画像保存部1007は、画像読出部1001が読み出した人物画像を、教師画像として教師画像セット203へ格納する。教師画像セット203は、正式な人物識別モデルの学習に用いられる。
 一方、採用判定部1003は、試験モデルエラー率が基準モデルエラー率1004よりも高いと判定した場合(採用判定1005:NO)、画像読出部1001が読み出した人物画像を破棄する。
 図16は、採用画像判定部104が参照する学習エラー率曲線の例を示す図である。
 図16において、縦軸はテストエラー率(単位は%)、横軸は学習訓練回数(単位はepoch)を示す。
 テストエラー率は、1epoch毎に出力された学習モデルに対して、テストエラー率を評価するための未知の画像を入力した場合に、その未知の画像の識別に失敗した割合(エラーの割合)のことである。未知の画像は、学習に用いた画像とは異なる画像である。テストエラー率は、0%から100%の範囲で表現され、一般的に、0%に近いほど、識別モデルの認識性能が高いと解釈される。
 図16において、ER1は、基準モデルテストエラー率1004のベスト値を示す。ER2は、人物識別試験モデル学習部1002によって学習された人物識別試験モデルにおけるテストエラー率のベスト値を示す。
 図16の例では、ER2はER1よりも小さい。これは、人物識別試験モデルの識別性能が向上していることを示す。よって、人物識別試験モデルの学習に用いた人物画像は、教師画像セットに格納される。
 一方、ER2がER1よりも大きい場合は、人物識別試験モデルの識別性能が低下していることを示す。よって、人物識別試験モデルの学習に用いた人物画像は、教師画像セットに格納されずに破棄される。
 図17は、教師画像抽出装置10を含む教師画像抽出システムの第1例を示す。第1例は、教師画像抽出システムが、ローカルにおいて構成される例を示す。
 例えば、図17に示すように、教師画像抽出システムは、カメラ1200、映像格納装置1201、教師画像抽出装置10、モニタ1203、及び、教師画像格納装置1204を有する。
 カメラ1200は、人物を含む映像を撮影する。
 映像格納装置1201は、カメラ1200が撮影した映像(動画)を格納する。なお、カメラ1200が撮影した映像は、映像格納装置1201に格納されずに、直接、教師画像抽出装置10へ入力されてもよい。
 教師画像抽出装置10は、映像格納装置1201から入力された映像から、上述したように、教師画像を抽出する。なお、教師画像抽出装置10に入力される映像は、任意に選択されてよい。上述した教師画像抽出装置10は、メモリとCPU(Central Processing Unit)を有し、メモリに格納されたソフトウェアプログラムをCPUが実行することにより、各部の処理を実現するものであってよい。この場合、教師画像抽出装置10は、当該ソフトウェアプログラムを実行するパーソナルコンピュータ(PC)であってもよい。
 教師画像抽出装置10は、抽出した教師画像を、モニタ1203に表示してよい。また、教師画像抽出装置10は、抽出した教師画像を、教師画像格納装置1204に格納してよい。
 図18は、教師画像抽出装置10を含む教師画像抽出システムの第2例を示す。
 第2例は、教師画像抽出システムが、ネットワークのクラウドとして提供される例を示す。教師画像抽出システムは、制御PC1208、教師画像抽出装置10、映像格納装置1209、及び、教師画像格納装置1212を含む。
 クラウドは、インターネット1207を介して、コンピューティング、データベース、ストレージ、及び/又は、アプリケーションなどの様々なITリソースを、オンデマンドで提供する。
 例えば、図18に示すように、カメラ1206、ホストPC1213及びモニタ1214をローカルに設け、教師画像抽出システムを、ネットワーク1207を介して、クラウドとして提供する。
 カメラ1206は、人物を含む映像を撮影する。
 ホストPC1213は、カメラ1206が撮影した映像を、ネットワーク1207及び制御PC1208を介して、映像格納装置1209に格納する。
 教師画像抽出装置10は、映像格納装置1201から入力された映像から、上述したように、教師画像を抽出する
 図18に示すように、教師画像抽出装置10は、複数設けられてよい。この場合、複数の教師画像抽出装置10は、並列処理によって教師画像を抽出してよい。また、上述した教師画像抽出装置10の機能及び処理は、各装置10のメモリに格納されたコンピュータプログラム1211がCPUによって実行されることにより、実現されてもよい。この場合、教師画像装置10は、当該コンピュータプログラムを実行するサブPCであってよい。
 教師画像抽出装置10によって抽出された教師画像は、ネットワーク1207及びホストPC1213を介して、ローカルのモニタ1214に表示されてよい。また、教師画像抽出装置10は、抽出した教師画像を、教師画像格納装置1204に格納してよい。
 なお、上述では、抽出対象が人物の場合の例を説明したが、抽出対象は人物に限られない。例えば、抽出対象は、建物、車両、家電製品、海、山、空、草花、樹木といった人物以外であってもよい。
 抽出対象が人物以外の場合、上述した、キーフレーム人物指定部、並びに、領域補正部を含む中間フレーム画像抽出部における、人物の存在を判断するための制約条件は、抽出対象に合わせて、適切に変更されてよい。
 上述した内容は、次のように表現できる。
 映像に含まれる画像のフレームから、対象物の一例である人物の画像を抽出する教師画像抽出装置10は、キーフレーム人物指定部101及び中間フレーム画像抽出部102を有する。キーフレーム人物指定部101は、映像の一部のフレームをキーフレームとし、キーフレームにおける対象物が表示された部分を含む矩形で指定された人物領域の画像を取得する。中間フレーム画像抽出部102は、映像においてキーフレームで指定された人物を追跡し、映像におけるキーフレームでないフレームである中間フレームの人物が表示された部分を含む矩形の人物領域の画像を抽出する。
 この構成によれば、映像に含まれるフレームから人物が表示された矩形の部分画像を抽出するので、背景のノイズを低減した教師画像を抽出できる。
 教師画像抽出装置10は、人物が移動している場合と人物が静止している場合とで異なる動きベクトルに対する処理により、中間フレームにおける人物が表示された部分である人物領域を特定する人物領域特定部103を更に有してよい。
 人物が移動している場合と静止している場合とでは、人物の領域の動きベクトルは異なる性質を示す。そのため、この構成によれば、それぞれの場合に好適な動きベクトルに対する処理を用いて人物領域を特定できるので、人物が移動している場合にも静止している場合にも人物領域を良好に特定できる。
 人物領域特定部103は、人物が移動している場合、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、人物領域を特定してよい。
 人物が移動している場合には人物の部位は同等の動きとなる。そのため、この構成によれば、近接する同等の動きベクトルをグルーピングし、それを合成することで、人物領域を良好に特定できる。
 人物領域特定部103は、人物が静止している場合、対象としている中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を複数のフレームにわたり合成した領域に基づいて、人物領域を特定してよい。
 人物が静止していても部位毎に動きは見られるのが一般的である。そのため、この構成によれば、動きベクトルをグルーピングした部分領域を複数のフレームにわたり合成することで人物領域を良好に特定できる。
 人物領域特定部103は、人物が静止している場合、複数のフレームにわたり部分領域を合成した領域と、中間フレームを含む1つ以上のフレームの画像から抽出されるエッジ画像とに基づいて、人物領域を特定してよい。
 この構成によれば、動きの見られた部分領域を合成した領域に加え、エッジ抽出の結果も用いることにより、更に良好に静止している人物の領域を特定できる。
 中間フレーム画像抽出部102は、中間フレームの前または後の1つ以上のフレームの動きベクトルに基づいて、中間フレームの人物領域を補正してよい。
 この構成によれば、対象とする中間フレームの前後のフレームを利用した処理で人物領域を補正するので、人物の見切れを低減できる。
 中間フレーム画像抽出部102は、中間フレームの前または後の1つ以上のフレームにおける動きベクトルの移動量が相対的に大きい領域を人物が歩行している足先端位置と推定し、足先端位置が含まれるように人物領域を補正してよい。
 この構成によれば、対象とする中間フレームの前後のフレームの動きベクトルを利用した処理で足先端と推定される領域を含むように人物領域を補正するので、人物の足先端の見切れを低減できる。
 教師画像抽出装置10は、キーフレームの人物画像と中間フレームの人物画像とを含む人物画像群を深層学習に用いて試験モデルを構築し、試験モデルによる人物識別の精度を評価し、評価結果に基づいて前記人物画像群を採用するか否か判定する採用画像判定部104を更に有してよい。
 この構成によれば、抽出した人物画像群により試験モデルを構築して人物の識別の精度を評価し、人物画像群の採否を判定するので、深層学習で良好な精度を得られる人物画像を採用できる。
 中間フレーム画像抽出部102は、キーフレームに複数の人物が指定された場合、複数の人物をそれぞれ追跡し、それぞれの人物についての人物領域の人物画像を抽出してよい。
 この構成によれば、複数の人物をそれぞれ追跡し、それぞれに人物領域の人物画像を抽出するので、多数の人物画像の抽出が可能となる。
10…教師画像抽出装置、100…入力映像入力、101…キーフレーム人物指定部、102…中間フレーム画像抽出部、103…人物領域特定部、104…採用画像判定部、105…教師画像保存部

 

Claims (11)

  1.  映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置であって、
     前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、
     前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、
    を有する対象物画像抽出装置。
  2.  前記対象物が人物であり、
     前記人物が移動している場合と前記人物が静止している場合とで異なる動きベクトルに対する処理により前記中間フレームにおける前記人物が表示された部分である人物領域を特定する人物領域特定部を更に有する、
    請求項1に記載の対象物画像抽出装置。
  3.  前記人物領域特定部は、前記人物が移動している場合、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、前記人物領域を特定する、
    請求項2に記載の対象物画像抽出装置。
  4.  前記人物領域特定部は、前記人物が静止している場合、対象としている前記中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を前記複数のフレームにわたり合成した領域に基づいて、前記人物領域を特定する、
    請求項2に記載の対象物画像抽出装置。
  5.  前記人物領域特定部は、前記人物が静止している場合、前記複数のフレームにわたり前記部分領域を合成した領域と、前記中間フレームを含む1つ以上のフレームの画像から抽出されるエッジ画像とに基づいて、前記人物領域を特定する、
    請求項4に記載の対象物画像抽出装置。
  6.  前記中間フレーム画像抽出部は、前記中間フレームの前または後の1つ以上のフレームの動きベクトルに基づいて、前記中間フレームの前記対象物領域を補正する、
    請求項1に記載の対象物画像抽出装置。
  7.  前記対象物が人物であり、
     前記人物が移動している場合と前記人物が静止している場合とで異なる動きベクトルに対する処理により前記中間フレームにおける前記人物が表示された部分である人物領域を特定する人物領域特定部を更に有し、
     前記中間フレーム画像抽出部は、前記中間フレームの前または後の1つ以上のフレームにおける動きベクトルの移動量が相対的に大きい領域を前記人物が歩行している足先端位置と推定し、前記足先端位置が含まれるように前記人物領域を補正する、
    請求項6に記載の対象物画像抽出装置。
  8.  前記キーフレームの対象物領域の画像と前記中間フレームの対象物領域の画像とを含む対象物画像群を深層学習に用いて試験モデルを構築し、前記試験モデルによる対象物識別の精度を評価し、評価結果に基づいて前記対象物画像群を採用するか否か判定する採用画像判定部を更に有する、
    請求項1に記載の対象物画像抽出装置。
  9.  前記中間フレーム画像抽出部は、前記キーフレームに複数の対象物が指定された場合、前記複数の対象物をそれぞれ追跡し、それぞれの対象物について前記対象物領域の画像を抽出する、
    請求項1に記載の対象物画像抽出装置。
  10.  映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出方法であって、
     コンピュータが、
     前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得し、
     前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する、
    対象物画像抽出方法。
  11.  映像に含まれる画像のフレームから対象物の画像を抽出することをコンピュータに実行させるためのソフトウェアプログラムであって、
     前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得し、
     前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する、
    ことをコンピュータに実行させるためのソフトウェアプログラム。
PCT/JP2020/016321 2019-04-16 2020-04-13 対象物画像抽出装置、方法、およびソフトウェアプログラム WO2020213570A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019078132A JP7240940B2 (ja) 2019-04-16 2019-04-16 対象物画像抽出装置、方法、およびソフトウェアプログラム
JP2019-078132 2019-04-16

Publications (1)

Publication Number Publication Date
WO2020213570A1 true WO2020213570A1 (ja) 2020-10-22

Family

ID=72837897

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/016321 WO2020213570A1 (ja) 2019-04-16 2020-04-13 対象物画像抽出装置、方法、およびソフトウェアプログラム

Country Status (2)

Country Link
JP (1) JP7240940B2 (ja)
WO (1) WO2020213570A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277916A (ja) * 2004-03-25 2005-10-06 Seiko Epson Corp 動画像処理装置、画像処理システム、動画像処理方法およびそのプログラム、記録媒体
JP2012190159A (ja) * 2011-03-09 2012-10-04 Canon Inc 情報処理装置、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277916A (ja) * 2004-03-25 2005-10-06 Seiko Epson Corp 動画像処理装置、画像処理システム、動画像処理方法およびそのプログラム、記録媒体
JP2012190159A (ja) * 2011-03-09 2012-10-04 Canon Inc 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP7240940B2 (ja) 2023-03-16
JP2020177364A (ja) 2020-10-29

Similar Documents

Publication Publication Date Title
US11360571B2 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
US10782688B2 (en) Method, control apparatus, and system for tracking and shooting target
JP6972757B2 (ja) 制御プログラム、制御方法、及び情報処理装置
US10803364B2 (en) Control method, non-transitory computer-readable storage medium for storing control program, and control apparatus
US8824802B2 (en) Method and system for gesture recognition
JP5106271B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
EP2265023B1 (en) Subject tracking device and subject tracking method
JP4766495B2 (ja) 対象物追跡装置および対象物追跡方法
US9672634B2 (en) System and a method for tracking objects
US20160110610A1 (en) Image processor, image processing method, and computer program
CN114677554A (zh) 一种基于YOLOv5与Deepsort的统计滤波红外小目标检测跟踪方法
JPWO2006025272A1 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP4496992B2 (ja) 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体
US9256945B2 (en) System for tracking a moving object, and a method and a non-transitory computer readable medium thereof
CN110458861A (zh) 对象检测与跟踪方法和设备
US11948312B2 (en) Object detection/tracking device, method, and program recording medium
JP4836065B2 (ja) エッジトラッキング方法及びそのコンピュータプログラム
Makris et al. Robust 3d human pose estimation guided by filtered subsets of body keypoints
JP4559375B2 (ja) 対象物位置追跡方法、装置、およびプログラム
WO2020213570A1 (ja) 対象物画像抽出装置、方法、およびソフトウェアプログラム
JP5152144B2 (ja) 画像処理装置
Choi et al. Fast key-frame extraction for 3D reconstruction from a handheld video
JP7324923B1 (ja) 物体認識装置および物体認識方法
US20240095934A1 (en) Image processing apparatus, training apparatus, image processing method, training method, and non-transitory computer-readable medium
JP6020188B2 (ja) 対象物検出装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20790747

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20790747

Country of ref document: EP

Kind code of ref document: A1