WO2022201987A1 - 画像解析装置、画像解析システム、画像解析方法及びプログラム - Google Patents

画像解析装置、画像解析システム、画像解析方法及びプログラム Download PDF

Info

Publication number
WO2022201987A1
WO2022201987A1 PCT/JP2022/006213 JP2022006213W WO2022201987A1 WO 2022201987 A1 WO2022201987 A1 WO 2022201987A1 JP 2022006213 W JP2022006213 W JP 2022006213W WO 2022201987 A1 WO2022201987 A1 WO 2022201987A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
images
detected
image
posture
Prior art date
Application number
PCT/JP2022/006213
Other languages
English (en)
French (fr)
Inventor
諭史 吉田
健全 劉
祥治 西村
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2023508783A priority Critical patent/JP7525055B2/ja
Publication of WO2022201987A1 publication Critical patent/WO2022201987A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the present invention relates to an image analysis device, an image analysis system, an image analysis method and a program.
  • the match determination device described in Patent Document 1 identifies a selected feature amount selected from one or more feature amounts for an analysis target included in an analysis group, and selects a combination of selected feature amounts between different analysis groups. Based on this, it is evaluated whether the analysis targets of the multiple analysis groups match. In addition, when the evaluation indicates that the analysis targets match between the analysis groups, the analysis targets of the different analysis groups are identified as the same target. Note that Non-Patent Document 1 describes a technique related to human skeleton estimation.
  • Patent Document 1 when people overlap in part of a plurality of images or people are hidden behind an object such as a pillar, the actual People who are the same object may not be judged to be the same.
  • the present invention has been made in view of the above circumstances, and an image analysis apparatus, an image analysis system, an image analysis method, and a program capable of accurately identifying the same person in a plurality of time-series consecutive images. intended to provide
  • the image analysis apparatus includes: an image acquiring means for acquiring a plurality of images consecutive in time series; detection means for detecting a person and the posture of the person in each of the plurality of images; and determining means for determining the identity of the person detected in different images using the detected posture of the person.
  • the image analysis system comprises one or more imaging means; and the image analysis device described above.
  • An image analysis method comprises the computer Acquiring a plurality of consecutive images in time series; detecting a person and a posture of the person in each of the plurality of images; and determining the identity of the person between different images using the detected pose of the person.
  • a program comprises to the computer, Acquiring a plurality of consecutive images in time series; detecting a person and a posture of the person in each of the plurality of images; and determining the identity of a person between different images using the detected posture of the person.
  • FIG. 1 is a diagram showing a functional configuration example of an image analysis system according to an embodiment of the present invention
  • FIG. FIG. 10 is a diagram schematically showing an example of images of each of imaging areas A1 to A2 captured at times T1 to T4
  • 1 is a diagram showing a physical configuration example of an image analysis system according to an embodiment
  • FIG. 4 is a flowchart showing an example of image analysis processing according to one embodiment of the present invention
  • 4 is a flowchart showing an example of image analysis processing according to one embodiment of the present invention
  • FIG. 10 is a diagram schematically showing an example of images captured at times T5 to T8 for each of the imaging areas A1 to A2
  • FIG. 5 is a flowchart showing the details of the detection process shown in FIG. 4;
  • FIG. 5 is a flowchart showing the details of the grouping process shown in FIG. 4;
  • FIG. FIG. 10 is a diagram showing superimposed images at times T1 to T6 in which the photographing area A1 is photographed.
  • FIG. 10 is a diagram showing an example in which a flow line is generated by grouping regions of people detected in images taken at times T1 to T6 in which an imaging region A1 is photographed;
  • FIG. 6 is a flowchart showing the details of the combining process shown in FIG. 5;
  • FIG. FIG. 6 is a flowchart showing the details of the combining process shown in FIG. 5;
  • FIG. FIG. 11 is a diagram showing an example in which the interrupted flow lines shown in FIG. 10 are combined by a combining process;
  • FIG. 10 is a diagram showing an example in which a flow line is generated by grouping areas of people detected in images of times T1 to T8 in which an imaging area A2 is imaged.
  • FIG. 10 is a diagram showing an example in which flow lines of different imaging areas A1 and A2 are combined;
  • An image analysis system determines the identity of a person between different images based on a plurality of images that are consecutive in time series, and based on the result of the determination, determines the flow line of the person. Perform processing such as asking for
  • the image analysis system includes two cameras 101a-101b and an image analysis device 100, as shown in FIG.
  • the image analysis device 100 includes an image acquisition unit 102 , a detection unit 103 , a determination unit 104 and an identification image output unit 105 .
  • Each of the cameras 101a to 101b is an example of a photographing means that is provided at a station, building, facility, road, etc., and photographs a predetermined photographing area. As shown in FIG. 2, the cameras 101a and 101b generate image information representing a plurality of two-dimensional images that are continuous in time series by photographing fixed photographing areas A1 and A2.
  • FIG. 2 shows images of each of the imaging regions A1 to A2 captured at times T1 to T4.
  • P_T1 to P_T4 shown in the photographing area A1 schematically show areas of the person P photographed at times T1 to T4, respectively.
  • Q_T1 to Q_T4 shown in the photographing area A1 schematically show areas of the person Q photographed at times T1 to T4, respectively.
  • R_T1 to R_T4 shown in the photographing area A2 schematically show areas of the person R photographed at times T1 to T4, respectively.
  • one or more cameras may be provided in the image analysis system.
  • the image acquisition unit 102 acquires a plurality of time-series continuous images obtained by photographing the photographing areas A1 and A2.
  • the image acquisition unit 102 acquires image information generated by each of the cameras 101a to 101b from each of the cameras 101a to 101b via a wired network, a wireless network, or a network configured by appropriately combining these. do.
  • the detection unit 103 detects a person and the posture of the person in each of the plurality of images acquired by the image acquisition unit 102 .
  • the detection unit 103 detects the region and posture of the person in each image based on the image information of each of the plurality of images.
  • a known method may be used as a method for detecting the region and posture of a person from an image.
  • a person's posture should be detected based on features such as the recognized person's joints, using skeleton estimation technology that uses machine learning.
  • OpenPose described in Non-Patent Document 1 can be cited as an example of the skeleton estimation technology.
  • the determination unit 104 uses the posture of the person detected by the detection unit 103 to determine the identity of the person detected between different images.
  • the determination unit 104 includes a feature amount acquisition unit 106 and a specification unit 107, as shown in FIG.
  • the feature quantity acquisition unit 106 uses the posture of the person detected by the detection unit 103 to obtain the posture feature quantity of the person.
  • a posture feature amount is a value indicating a feature of a person's posture, and is, for example, a feature amount of a two-dimensional skeletal structure detected by the detection unit 103 .
  • the posture feature amount may be the feature amount of the entire skeletal structure, the feature amount of a part of the skeletal structure, or may include a plurality of feature amounts like each part of the skeletal structure.
  • the posture feature amount is a feature amount obtained by machine learning the skeletal structure, the size of the skeletal structure from the head to the foot on the image, and the like.
  • the size of the skeletal structure is the vertical height and area of the skeletal region including the skeletal structure on the image.
  • the vertical direction (height direction or vertical direction) is the vertical direction (Y-axis direction) in the image, for example, the direction perpendicular to the ground (reference plane).
  • the left-right direction horizontal direction
  • X-axis direction is the left-right direction in the image, for example, the direction parallel to the ground.
  • the identification unit 107 identifies the same person detected in the different images based on whether the similarity of the posture feature amount obtained by the feature amount acquisition unit 106 is equal to or greater than a first reference value. do.
  • the first reference value is a value predetermined for the degree of similarity of posture feature amounts as a criterion for determining whether or not postures are similar.
  • the identifying unit 107 determines that persons detected in different images are the same person when all of the following conditions A to C are satisfied. Further, when at least one of the conditions A to C is not satisfied, the identification unit 107 determines that persons detected in different images are not the same person.
  • Condition A The degree of similarity of the posture feature quantity is equal to or greater than the first reference value
  • Condition B The same person does not overlap in terms of time
  • Condition C Different persons overlap in place things that don't happen
  • condition B and condition C may not be included in the conditions for identifying the same person.
  • the identification unit 107 includes a grouping unit 108 and a combining unit 109.
  • the grouping unit 108 determines whether or not the persons detected in the different images are the same person based on conditions A to C as described above. group images of people in each of the plurality of images so that they belong to . In this grouping process, for example, images having adjacent shooting times may be sequentially selected in chronological order as the “different images”.
  • the grouping unit 108 generates a flow line of each person included in the plurality of images by connecting the image areas of the persons belonging to the same group in chronological order.
  • This flow line is a line connecting predetermined points such as the center of gravity of the image of the person and the center of the shoulder.
  • the grouping unit 108 may determine whether or not the persons included in the different images are the same person based on the conditions A to G, similar to the combining unit 109 described later.
  • the connecting unit 109 connects the discontinued flow line.
  • the interrupted line of flow is a line of flow that includes an end in the imaging area A1 or A2.
  • both ends of many flow lines generally coincide with the boundary of the imaging area A1 or A2.
  • a broken line of flow may occur.
  • the combining unit 109 determines whether or not the persons included in the image at the end of the flow line, that is, the images before and after the break in the flow line are the same person. connect between the ends of the flow line.
  • the combining unit 109 determines whether or not the persons included in the different images are the same person based on the above conditions A to C and the following conditions D to G. In this combining process, it is preferable to select images before and after the line of flow is interrupted as the “images different from each other”.
  • Condition D The shooting time interval of the images before and after the line of flow is interrupted is within a predetermined time.
  • Condition E The distance of the person detected in the images before and after the line of flow is interrupted is within a predetermined distance. The difference in the orientation of the person detected in the images before and after the break of the line is within a predetermined range. be equal to or higher than the reference value
  • the image capturing time interval is the time interval at which the image was captured. Images that are continuous in time series are often captured at approximately constant time intervals, such as N every second (N is an integer equal to or greater than 1). , the number of images. Note that the predetermined time may be defined by, for example, the length of time.
  • Whether the distance of the person is the predetermined distance may be determined, for example, based on the distance between the image areas of the person in the image (for example, the number of pixels). It may be determined based on the distance in the real space to be measured.
  • An image feature amount is a value that indicates the feature of a person's image area as an image, and is a feature amount generated based on image information.
  • the image feature amount may be the feature amount of the entire image of a person, the feature amount of a part of the image, or may include the feature amounts of a plurality of parts such as the face, trunk, and legs. Any method such as machine learning or normalization may be used as the method for calculating the image feature amount, and the minimum value or the maximum value may be obtained as the normalization.
  • the image feature amount is the average brightness of each color component, the degree of matching with a color pattern such as a checkered pattern, stripes, or the like.
  • the second criterion is a predetermined value for the degree of similarity of image feature amounts as a criterion for determining whether or not images are similar.
  • the combining unit 109 determines that persons detected in mutually different images are the same person when all conditions A to G are satisfied. Also, if at least one of the conditions A to G is not satisfied, the combining unit 107 determines that persons detected in different images are not the same person.
  • conditions B to G may not be included in the conditions for connecting interrupted flow lines.
  • the identification image output unit 105 outputs identification image information based on the determination result of the determination unit 104 .
  • the identification image information is information including an image in which a person detected in each of a plurality of images is associated with information for identifying the person (that is, identification information for identifying the same person).
  • a method for outputting image information by the identification image output unit 105 is, for example, display and transmission of image information. That is, the identification image output unit 105 may display the image on a display, or may transmit the image to another device connected via a network configured by wire, wireless, or an appropriate combination thereof.
  • the image analysis apparatus 100 has a bus 1010, a processor 1020, a memory 1030, a storage device 1040, a network interface 1050, and a user interface 1060, as shown in FIG.
  • the bus 1010 is a data transmission path through which the processor 1020, memory 1030, storage device 1040, network interface 1050, and user interface 1060 mutually transmit and receive data.
  • the method of connecting processors 1020 and the like to each other is not limited to bus connection.
  • the processor 1020 is a processor realized by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the memory 1030 is a main memory implemented by RAM (Random Access Memory) or the like.
  • the storage device 1040 is an auxiliary storage device realized by a HDD (Hard Disk Drive), SSD (Solid State Drive), memory card, ROM (Read Only Memory), or the like.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • ROM Read Only Memory
  • the storage device 1040 realizes a function of holding various information.
  • the storage device 1040 includes functional units of the image analysis apparatus 100 (image acquisition unit 102, detection unit 103, determination unit 104 (feature acquisition unit 106, identification unit 107 (grouping unit 108, combining unit 109)), A program module for realizing the identification image output unit 105) is stored.
  • the processor 1020 loads each program module into the memory 1030 and executes it, thereby realizing each functional unit corresponding to the program module.
  • the network interface 1050 is an interface for connecting the image analysis device 100 to a network configured by wire, wireless, or a combination thereof.
  • Image analysis apparatus 100 according to the present embodiment is connected to a network through network interface 1050, thereby communicating with cameras 101a to 101b and the like.
  • the user interface 1070 is an interface for inputting information from the user and an interface for presenting information to the user. including.
  • the functions of the image analysis apparatus 100 can be realized by executing a software program in cooperation with each physical component. Therefore, the present invention may be implemented as a software program (simply referred to as "program") or as a non-temporary storage medium in which the program is recorded.
  • the image analysis process determines the identity of a person between different images based on a plurality of time-series consecutive images captured by the cameras 101a and 101b, and determines the flow line of the person based on the result of the determination. It is processing such as asking.
  • the image analysis process is started, for example, when the user indicates an image to be processed.
  • the image to be processed is indicated by, for example, a camera that takes the image and a shooting time including the start time and the end time of shooting.
  • a camera that takes the image
  • a shooting time including the start time and the end time of shooting.
  • the image acquiring unit 102 acquires a plurality of time-series continuous images of each of the photographing areas A1 and A2 photographed by the cameras 101a and 101b (step S101).
  • the image acquisition unit 102 acquires image information representing each image shown in FIGS. 2 and 6 from each of the cameras 101a to 101b.
  • the image information preferably includes camera identification information for identifying the cameras 101a and 101b that have taken the image, and the time the image was taken.
  • FIGS 2 and 6 are diagrams showing examples of images captured by each of the cameras 101a to 101b at the start time T1 to the end time T8, and FIG. 2 is captured at the time T1 to T4 as described above. An image of each of the photographing areas A1 and A2 is shown. FIG. 6 shows images of the imaging areas A1 to A2 captured at times T5 to T8.
  • P_T5 to P_T6 shown in the photographing area A1 schematically show areas of the person P photographed at times T5 to T6, respectively.
  • Q_T5 to Q_T6 shown in the photographed area A1 schematically show areas of the person Q photographed at times T5 to T6, respectively.
  • P_T7 to P_T8 shown in the photographing area A2 schematically show areas of the person P photographed at times T7 to T8, respectively.
  • the detection unit 103 and the determination unit 104 repeatedly execute the processing of steps S103 to S110 for each of the imaging areas A1 and A2 acquired in step S101 (step S102; loop A).
  • each image at times T1 to T8 when the imaging region A1 is first captured is processed.
  • the detection unit 103 and the feature amount acquisition unit 106 repeat the processing of steps S104 to S105 for each of the images that are continuous in time series (step S103; loop B). More specifically, for example, the processing in steps S104 to S105 is repeated for each image at times T1 to T8, with the imaging region to be processed being the imaging region A1.
  • the detection unit 103 performs detection processing (step S104).
  • FIG. 7 is a flowchart showing details of the detection process (step S104).
  • the detection unit 103 detects a human area in each image (step S201). Specifically, for example, in the case of the image at time T1 shown in the upper left image of FIG. 2, the region of the person P indicated by the solid-line ellipse P_T1 and the region of the person Q indicated by the dotted-line ellipse Q_T1 are detected.
  • the detection unit 103 obtains an image feature amount for each human region specified in step S201 (step S202). More specifically, for example, based on the image information of the person's area specified in step S201, an image feature amount indicating the image feature of each area is obtained.
  • the detection unit 103 detects the posture of the person for each of the areas of the person specified in step S201 (step S203).
  • the image of the region of the person specified in step S201 is input, and the state of the skeleton of the person is estimated using a skeleton estimation model that has been trained using machine learning, thereby obtaining the posture of the person.
  • the detection unit 103 ends the detection process (step S104) and returns to the image analysis process shown in FIG.
  • the feature quantity acquisition unit 106 obtains the posture feature quantity using the human posture detected in step S203 (step S105).
  • the feature amount acquisition unit 106 receives the posture of the person detected in step S104 as an input, uses a posture feature amount calculation model that has been trained using machine learning, and obtains the posture feature amount of the person. Output. For example, in the case of the image at time T1 shown in the upper left image in FIG. 2, the posture feature amount of the person P indicated by the solid-line ellipse P_T1 and the posture feature amount of the person Q indicated by the dotted-line ellipse Q_T1 are obtained.
  • step S201 may be used together with the person's posture as the input information for obtaining the posture feature amount.
  • steps S104 and S105 are repeated for each of the images at times T1 to T8 that are consecutive in time series taken in the imaging area A1 that is the object of processing in loop A (step S102) ( Step S103; Loop B).
  • the grouping unit 108 selects time-sequentially consecutive times T1 to T8 when the photographing area A1 targeted for processing in loop A (step S102) is photographed.
  • the images of the person detected in each of the images are grouped (step S106).
  • FIG. 8 is a flowchart showing details of the grouping process (step S106).
  • the grouping unit 108 repeats the processing of steps S302 to S306 (loop C; step S301).
  • the combination of time-sequential images to be processed in loop C includes images at times T6 and T5, images at times T5 and T4, images at times T4 and T3, and images at times T3 and T2. Images, images at times T2 and T1.
  • a combination of images to be processed may be selected in chronological order. In the following, an example will be described in which a combination of images to be processed is selected from images later in time, that is, from a combination of images at times T6 and T5.
  • the grouping unit 108 determines whether or not the degree of similarity between human posture feature amounts detected in different images is equal to or greater than a first reference value (step S302).
  • the judgment processing regarding the posture feature amount in this step S302 corresponds to the judgment as to whether or not the condition A described above is satisfied.
  • the grouping unit 108 obtains the similarity of the posture feature amounts obtained in step S105 for each combination of persons detected in the images at times T6 and T5.
  • FIG. 9 is a diagram showing superimposed images at times T1 to T6 in which the imaging area A1 is photographed.
  • the people detected in the images at times T6 and T5 are the people in areas P_T6, P_T5, Q_T6, and Q_T5.
  • the degree of similarity is obtained for each of six combinations when two regions are extracted from these four regions.
  • the combinations in this example are specifically combinations of regions P_T6 and P_T5, P_T6 and Q_T6, P_T6 and Q_T5, P_T5 and Q_T6, P_T5 and Q_T5, Q_T6 and Q_T5.
  • the degree of similarity of posture feature values is, for example, the difference or ratio of posture feature values.
  • Grouping section 108 then compares the similarity of the posture feature amount with the first reference value to determine whether the similarity is greater than or equal to the first reference value.
  • step S302 If it is determined that the similarity of the posture feature amount is not equal to or greater than the first reference value (step S302; No), the grouping unit 108 determines that the persons related to the posture feature amount for which the similarity is obtained are not the same person. (step S303).
  • the posture of a person who is moving does not change significantly in a short period of time, and the change in posture is often within a certain range. Therefore, when the similarity of the posture feature amount of a person detected in different images is less than the first reference value, the person is not the same person, and the similarity of the posture feature amount of the person is less than the first reference value. If so, it can be presumed that the person is the same person.
  • the combinations of areas indicating persons who are determined not to be the same person are specifically areas P_T6 and Q_T6, areas P_T6 and Q_T5, areas P_T5 and Q_T6, and areas P_T5 and Q_T5.
  • step S302 If it is determined that the similarity of the posture feature amount is equal to or greater than the first reference value (step S302; Yes), the grouping unit 108 divides the same person temporally or different persons geographically. It is determined whether or not it will exist (step S304). The determination processing regarding duplication of the same person in step S304 corresponds to determination of whether or not conditions B and C described above are satisfied.
  • the similarity of the posture feature amount is equal to or greater than the first reference value for the combination of the areas P_T6 and P_T5 and the areas Q_T6 and Q_T5. is judged.
  • regions P_T6 and P_T5 are included in the images at different times T6 and T5, the same person does not exist temporally.
  • regions Q_T6 and Q_T5 are included in images at different times T6 and T5, so the same person does not exist temporally.
  • regions P_T6 and P_T5 do not overlap geographically, and the regions Q_T6 and Q_T5 also do not overlap geographically.
  • step S304 When it is determined that the same person does not overlap in time and that different people do not overlap in location (step S304; No), the grouping unit 108 It is determined that the person indicated by the area is the same person (step S305).
  • step S304 If it is determined that the same person overlaps in time or different people overlap in location (step S304; Yes), the grouping unit 108 divides the region into is not the same person (step S303).
  • step S201 it may not be possible to detect that the region Q_T4 is a human region.
  • the persons detected in the images at times T5 and T4 are persons in areas P_T5, P_T4, and Q_T5.
  • the degree of similarity may be greater than or equal to the first reference value.
  • region P_T4 when the degree of similarity between both the human posture feature amounts of regions P_T5 and Q_T5 and the human posture feature value of region P_T4 is greater than or equal to the first reference value. At this time, it is determined that the person in the area P_T4 is the same person as the person P in the area P_T5 and the person Q in the area Q_T5. will exist in duplicate at the location indicated by . In other words, different people will exist in overlapping locations.
  • the posture of the person in the region Q_T4 may not be detected as the actual correct posture in step S203.
  • the degree of similarity may be greater than or equal to the first reference value.
  • the degree of similarity between the human posture feature amount of region P_T5 and both of the human posture feature amounts of regions P_T4 and Q_T4 is equal to or greater than the first reference value.
  • the persons in the areas P_T4 and Q_T4 are determined to be the same person as the person P in the area P_T5, so the same person P exists at time T4. That is, the same person will exist temporally.
  • the degree of similarity between the human posture feature amount of region Q_T5 and both of the human posture feature amounts of regions P_T4 and Q_T4 may be greater than or equal to the first reference value.
  • the persons in the areas P_T4 and Q_T4 are determined to be the same person as the person Q in the area Q_T5, so the same person Q exists at time T4.
  • an error occurs in determining the identity of a person, it is not limited to the case where a person's area or posture cannot be detected correctly because the person is hidden behind another person. may not be detected correctly (not shown).
  • the grouping unit 108 groups regions of persons who are determined to be the same person (step S306).
  • FIG. 10 shows an example of grouping people detected in images taken at times T1 to T6 in which the shooting area A1 was shot.
  • the grouping unit 108 divides the regions P_T6 and P_T5 into images of the same person. belongs to a group G1 showing images of Further, the grouping unit 108 assigns the regions Q_T6 and Q_T5 to the group G2 representing images of the same person.
  • the grouping unit 108 executes the processing of steps S302 to S306 for each combination of images that are consecutive in time series among the images at times T1 to T6 (loop C; step S301). As a result, as shown in FIG. 10, the persons detected in the images at times T1 to T6 are grouped into groups G1 to G4.
  • FIG. 10 shows an example of grouping of persons detected in images taken at times T1 to T6 of the shooting area A1.
  • regions P_T6 and P_T5 are grouped into group G1, and regions Q_T6 and Q_T5 into group G2.
  • the regions P_T1 to P_T3 are grouped into a group G3, and the regions Q_T1 to Q_T3 are grouped into a group G4.
  • the grouping unit 108 ends the grouping process (step S106) and returns to the image analysis process shown in FIG.
  • the grouping unit 108 generates flow lines for each group G1 to G4 (step S107).
  • flow lines ML_1 to ML_4 are generated by smoothly connecting predetermined points (for example, points corresponding to the centers of shoulders) of regions of people belonging to groups G1 to G4, respectively.
  • the directions indicated by the arrows of the flow lines ML_1 to ML_4 are directions of movement along the time series.
  • flow line ML_1 connecting regions P_T5 to P_T6 is generated.
  • the person indicated by the area belonging to the group G1 is moving substantially rightward while tilting slightly upward in the image.
  • the connecting unit 109 determines whether or not the flow lines ML_1 to ML_4 generated in step S107 include a discontinued flow line (step S108).
  • the end ML_1S of the flow line ML_1 corresponds to the position of the person indicated by the area P_T5 and is inside the imaging area A1. Therefore, the line of flow ML_1 is a broken line of flow.
  • the end ML_2S of the flow line ML_2, the end ML_3E of the flow line ML_3, and the end ML_4E of the flow line ML_4 are all inside the imaging area A1. Therefore, all of the flow lines ML_2 to ML_4 are interrupted flow lines.
  • all of the flow lines ML_1 to ML_4 are interrupted flow lines, and the connecting unit 109 determines that the interrupted flow lines are included.
  • step S108 When it is determined that the interrupted flow line is not included (step S108; No), the detection unit 103 and the determination unit 104 execute the processing of steps S103 to S110 for the next imaging region (step S102; loop A). .
  • step S108 When it is determined that a discontinued flow line is included (step S108; Yes), the combining unit 109 repeatedly executes the merging process (step S110) for the discontinued flow lines ML_1 to ML_4 (step S109; loop D).
  • the combining unit 109 determines whether or not the above-described conditions A to G are satisfied for each combination of the interrupted flow lines ML_1 to ML_4. Then, when the conditions A to G are satisfied, the connecting unit 109 merges the groups and connects the ends of the flow lines between the merged groups.
  • the ends ML_1S and ML_2S are based on the image at the common time T5
  • the ends ML_3E and ML_4E are based on the image at the common time T3. Since it is impossible for the same person to be photographed twice in images taken at a common time, there is no need to perform merging or joining processing for combinations of flow lines having ends based on images taken at a common time.
  • the combination of flow lines ML_1 to ML_4 to be processed in loop D is a combination of flow lines having ends ML_1S, ML_2S, ML_3E, and ML_4E included in images at different times. becomes. That is, the combinations of flow lines to be processed in loop D (step S109) are a set of flow lines ML_1 and ML_3, a set of flow lines ML_1 and ML_4, a set of flow lines ML_2 and ML_3, and a set of flow lines ML_2 and ML_3. It is a set of line ML_2 and flow line ML_4.
  • 11 and 12 are flowcharts showing the details of the combining process (step S110).
  • the combining unit 109 determines whether or not the image capturing time interval before and after the flow lines ML_1 to ML_4 are interrupted is within a predetermined time (step S401).
  • the determination processing regarding the interrupted shooting time interval in step S401 corresponds to determination of whether or not the condition D described above is satisfied.
  • the flow line of the same person when interrupted, it may be hidden by a fixed object such as a pillar as described above, or by a moving object such as a person.
  • the image capturing time interval before and after the discontinuity corresponds to the time it takes for the camera 101a to pass through a fixed object or behind a person. For this reason, it is generally preferable to predetermine a time corresponding to the time it takes for a person to pass through a fixed object or another person's back.
  • the number of interrupted images is one in any combination of flow lines ML_1 to ML_4. Therefore, when the predetermined time is determined to be three images, for example, the combining unit 109 determines that the image capturing time interval before and after the interruption is within the predetermined time for each combination of the flow lines ML_1 to ML_4.
  • a different predetermined time may be determined according to the estimated cause of the interrupted flow line. For example, as described above, when hiding behind a fixed object and hiding behind a moving object, when the line of flow is interrupted due to the latter cause of both moving, the time interval between interruptions of the line of flow is shorter than when the former is the cause. It is considered to be.
  • the cause of the discontinuity of the line of flow may be estimated by obtaining the position of the fixed object in advance from the image and determining from the image whether or not the line of flow is discontinued in the vicinity of the fixed object.
  • step S401 If it is determined that the imaging time interval is within the predetermined time (step S401; Yes), the combining unit 109 determines whether the distance of the person detected in the images before and after the flow lines ML_1 to ML_4 are interrupted is within the predetermined distance. It is determined whether or not (step S402). The determination processing regarding the discontinued distance in step S402 corresponds to the determination of whether or not the condition E described above is satisfied.
  • the predetermined distance it is preferable to adopt the distance that a person generally moves in the above-described predetermined time.
  • the predetermined time is defined as 3 images
  • the predetermined distance is determined according to the distance a person moves in 3/N [sec].
  • the distance that a person moves in a certain period of time is preferably determined based on a general walking speed (for example, 5 km/h) or faster.
  • the distance of the person detected in the images before and after the flow lines ML_1 to ML_4 are interrupted is not within the predetermined distance, it can be determined that the person is not the same person. Also, when the distance is within a predetermined distance, it can be determined that the person may be the same person.
  • the combining unit 109 determines that the distance of the person detected in the images before and after the interruption is within a predetermined distance for each combination of the flow lines ML_1 to ML_4.
  • step S402 If it is determined that the distance of the detected person is within the predetermined distance (step S402; Yes), the combining unit 109 determines that the difference in orientation of the person detected in the images before and after the break in the flow lines ML_1 to ML_4 is a predetermined distance. (step S403).
  • the judgment processing regarding the orientation of the person in step S403 corresponds to the judgment as to whether or not the condition F described above is satisfied.
  • the orientation of a person can be estimated by, for example, whether or not a face area is included in an image, the direction of a line segment connecting both shoulders, etc. It is particularly effective when determining the identity of a person in a case.
  • the face area of a person walking away from the camera 101a along the imaging direction of the camera 101a is not captured by the camera 101a.
  • the face area of a person walking in the same direction toward the camera 101a is captured by the camera 101a. In this way, the orientation of a person can be estimated depending on whether or not the face area is included in the image.
  • a line segment connecting both shoulders of a person who moves along the imaging direction of the camera 101a generally faces the horizontal direction of the imaging area A1.
  • a line segment connecting both shoulders of a person moving in a direction perpendicular to the photographing direction of the camera 101a is approximately above and below the photographing area A1. turn direction. In this way, the orientation of a person can be estimated from the direction of the line segment connecting both shoulders.
  • the lines of flow ML_1 and ML_3 are the lines of flow of people moving generally upward and to the right in the imaging area A1.
  • Flow lines ML_2 and ML_4 are lines of flow of people who generally move upward and to the left in the imaging region A1. Therefore, it is often difficult to estimate the orientation of the person from the face area, because none of the persons on the flow lines ML_1 to ML_4 has a face area photographed or, even if an image is photographed, it is relatively small.
  • the direction of the line segment connecting both shoulders does not differ as much in the angle between the person on the flow lines ML_1 and ML_3 and the person on the flow lines ML_2 and ML_4 as they are when they are orthogonal. Therefore, for each combination of the flow lines ML_1 to ML_4, the combining unit 109 determines that the difference in orientation of the person detected in the images before and after the interruption is within a predetermined range.
  • step S403 If it is determined that the difference in orientation of the detected person is within the predetermined range (step S403; Yes), the combining unit 109 extracts the image features of the person detected in the images before and after the flow lines ML_1 to ML_4 break off. It is determined whether or not the degree of similarity in quantity is greater than or equal to the second reference value (step S404). The judgment processing regarding the image feature amount in this step S404 corresponds to the judgment as to whether or not the condition G described above is satisfied.
  • step S404 If it is determined that the similarity of the image feature amount is equal to or greater than the second reference value (step S404; Yes), the combining unit 109, as shown in FIG. It is determined whether or not the degree of similarity of the posture feature amount of the person obtained is equal to or greater than a first reference value (step S405).
  • the judgment processing regarding the posture feature amount in this step S405 corresponds to the judgment as to whether or not the condition A described above is satisfied.
  • the combining unit 109 determines whether the similarity of the human posture feature amount is equal to or greater than the first reference value for the pair of the flow line ML_1 and the flow line ML_3 and the pair of the flow line ML_2 and the flow line ML_4. We judge that it is. For groups of flow lines other than these, the combining unit 109 determines that the degree of similarity of the person's posture feature amount is not equal to or greater than the first reference value.
  • step S405 If it is determined that the similarity of the posture feature amount is equal to or higher than the first reference value (step S405; Yes), the combining unit 109 determines whether the same person overlaps temporally or different persons overlap geographically. It is determined whether or not to do so (step S406).
  • the determination processing regarding duplication of the same person in step S406 corresponds to determination of whether or not conditions B and C described above are satisfied.
  • the combining unit 109 prevents the same person from overlapping in time for the set of the flow line ML_1 and the flow line ML_3 and the set of the flow line ML_2 and the flow line ML_4. In addition, it is determined that different people do not overlap in terms of location.
  • step S406 whether or not the same person overlaps in time and whether different persons overlap in location is determined by all groups included in each group. area, in other words, the entirety of each flow line.
  • flow lines A, B, and C have ends at times TA, TB, and TC, respectively, and time TC is later than time TB, and time TB is later than time TA.
  • time TC is later than time TB
  • time TB is later than time TA.
  • step S406 based on the entire flow line, it is determined that the same person overlaps in time.
  • step S406 If it is determined that the same person does not overlap in terms of time and that different persons do not overlap in terms of location (step S406; No), the combining unit 109 selects It is determined that the combination of the flow lines ML_1 to ML_4 that are the same person.
  • the combining unit 109 merges the groups of regions that constitute the flow lines ML_1 to ML_4 of the same person, that is, the groups of the same person (step S407). Further, the connecting unit 109 connects the ends of the flow lines ML_1 to ML_4 that are interrupted for the same person (step S408). After performing the process of step S408, the combining unit 109 ends the combining process (step S110).
  • the set of flow lines ML_1 and ML_3 and the set of flow lines ML_2 and ML_4 satisfy conditions A to G as described above. Therefore, in step S407, the group G1 and the group G3 are merged as a group related to the person P. Group G2 and group G4 are merged as a group for person Q.
  • step S408 as shown in FIG. 13, the flow line ML_1 and the flow line ML_3 are combined to generate a flow line ML_P related to the person P.
  • the flow line ML_2 and the flow line ML_4 are combined to generate a flow line ML_Q for the person Q.
  • step S110 the combining unit 109 terminates the combining process
  • step S401 when it is determined that the shooting time interval is not within the predetermined time (step S401; No), when it is determined that the distance to the person is not within the predetermined distance (step S402; No), the orientation of the person is determined. is not within a predetermined range (step S403; No), or if it is determined that the similarity of the image feature quantity is not equal to or greater than the second reference value (step S404; No), the combining unit 109 The combining process (step S110) is terminated.
  • step S110 when it is determined that the similarity of the posture feature amount is not equal to or greater than the first reference value (step S405; No), or the same person overlaps in time, or If it is determined that different people overlap in location (step S406; Yes), the combining unit 109 ends the combining process (step S110).
  • step S110 When the combining process (step S110) ends, the process returns to the image analysis process shown in FIG. 5, and the detection unit 103 repeats the process of loop A (step S102). In this embodiment, the processing of steps S103 to S110 is further performed for the imaging area A2.
  • regions R_T1 to R_T4 are grouped into a group G5 related to person R based on the images of time T1 to T8 (see FIGS. 2 and 6) of imaging region A2, and a flow line ML_R related to person R is determined. Generate. Also, the regions P_T7 to P_T8 are grouped into a group G6 to generate a flow line ML_5.
  • loop A ends as shown in FIG.
  • the combining unit 109 then combines the flow lines ML_P, ML_Q, ML_5, and ML_R between the different imaging areas A1 and A2 (step S111).
  • the combination of flow lines to be processed in step S111 is a set of flow lines ML_P and ML_5, and a set of flow lines ML_Q and ML_5.
  • the combining unit 109 determines that the flow lines belong to the same person, and determines that the flow lines belong to the same person. Merge between groups of regions that make up a line and join between the ends of the flow line. Also, if the similarity of the image feature amount is not equal to or greater than the second reference value, the combining unit 109 determines that the flow lines do not belong to the same person, does not merge the groups, and does not combine the flow lines.
  • step S111 the flow lines of different imaging areas A1 and A2 are combined as shown in FIG. 13 shows an example in which a flow line ML_P is generated by combining the flow line ML_5 shown in FIG. 14 with the flow line ML_P shown in FIG. Further, between the imaging area A1 and the imaging area A2, the flow line ML_P is connected by a flow line that smoothly connects the flow line ML_P and the flow line ML_5 shown in FIG. 13 .
  • groups may be merged or flow lines may be combined based on whether or not an appropriate combination of conditions A to G is satisfied.
  • the identification image output unit 105 outputs identification image information based on the determination result of the determination unit 104 (step S112), and ends the image analysis process.
  • the identification image information for example, the movement lines of people detected in a plurality of images are used as identification information, and the identification information is associated with the person shown in each image by connecting the areas of the people with the movement lines. (See FIG. 15). Also, for example, the image indicated by the identification image information has identification information such as numbers, symbols, codes (for example, P, Q, R) for identifying a person, and the identification information corresponds to the area of the person indicated in the image. This is the attached image.
  • the determination result of the identity of a person detected in a plurality of consecutive images in time series is output as identification image information
  • the determination result of identity is not limited to images.
  • a person and the posture of the person are detected in each of a plurality of images that are consecutive in time series, and different images are created using the detected posture of the person.
  • the identity of the detected person is determined.
  • the posture of a person detected in each of the images shot in time series within a predetermined period of time among a plurality of images is used to identify the posture of the person detected in different images. determine gender. This makes it possible to determine the identity of a person more accurately. Therefore, it is possible to identify the same person more accurately in a plurality of images that are consecutive in time series.
  • the identity of persons detected in different images is determined using postures of persons within a predetermined distance. This makes it possible to determine the identity of a person more accurately. Therefore, it is possible to identify the same person more accurately in a plurality of images that are consecutive in time series.
  • the orientation of a person detected in each of a plurality of images is obtained. Then, among the persons detected in each of the plurality of images, the identity of the persons detected in the different images is determined using the postures of the persons whose orientation difference is within a predetermined range. to decide. This makes it possible to determine the identity of a person more accurately. Therefore, it is possible to identify the same person more accurately in a plurality of images that are consecutive in time series.
  • the detected posture of the person is used to determine the posture feature amount of the person. Then, based on whether or not the degree of similarity of the obtained posture feature amount is equal to or greater than a predetermined reference value, the identity of the persons detected in the mutually different images is determined.
  • the identity of a person from the image feature amount it is possible to determine the identity of the person even when it is difficult to track the person, such as when the line of flow of the person is interrupted. Therefore, it is possible to accurately identify the same person in a plurality of images that are consecutive in time series.
  • the similarity of the calculated posture feature amount is equal to or greater than a predetermined reference value
  • the same person overlaps temporally or different persons overlap spatially.
  • it is determined that persons detected in different images are not the same person. This can prevent a person's identity from being determined in a way that cannot actually happen. Therefore, it is possible to identify the same person more accurately in a plurality of images that are consecutive in time series.
  • the degree of similarity of the obtained posture feature values is equal to or greater than a predetermined reference value
  • the same person does not overlap in terms of time, and different persons do not overlap with each other
  • the persons detected in different images are determined to be the same person. This can prevent a person's identity from being determined in a way that cannot actually happen. Therefore, it is possible to identify the same person more accurately in a plurality of images that are consecutive in time series.
  • an image in which information identifying a person in a plurality of images is associated with the person shown in each image is output based on the result of determination regarding the identity of the detected person.
  • the present invention is not limited to these.
  • the present invention also includes a form obtained by appropriately combining part or all of the embodiments and modifications described above, and a form obtained by appropriately modifying the form.
  • an image acquiring means for acquiring a plurality of images consecutive in time series; detection means for detecting a person and the posture of the person in each of the plurality of images;
  • An image analysis apparatus comprising: determining means for determining identity of persons detected in mutually different images using the detected person's posture. 2.
  • the determining means determines identity of the person detected in the different images by using the posture of the person detected in each of the images taken within a predetermined time in chronological order among the plurality of images. 2.
  • the image analysis device according to 1. 3. 1 or 2, wherein the determining means determines the identity of the person detected in each of the images different from each other by using the posture of the person within a predetermined distance among the persons detected in each of the plurality of images.
  • the image analysis device according to . 4.
  • the determination means obtains the orientation of the person detected in each of the plurality of images, and among the persons detected in each of the plurality of images, the difference in the obtained orientation is within a predetermined range. 4.
  • the image analysis device according to any one of 1 to 3, wherein the identity of the person detected in the mutually different images is determined using a certain person's posture. 5.
  • the determining means obtains an image feature amount of a person detected in each of the plurality of images, and determines in advance a similarity of the obtained image feature amount among the persons detected in each of the plurality of images. 5.
  • the image analysis device according to any one of 1 to 4, wherein the identity of the person detected in the mutually different images is determined based on whether or not it is equal to or greater than the determined reference value. 6.
  • the determination means is feature acquisition means for obtaining a posture feature of the person using the detected posture of the person; identifying means for determining the identity of the person detected in the mutually different images based on whether or not the similarity of the calculated posture feature amount is equal to or greater than a predetermined reference value; 6.
  • the image analysis device according to any one of 5.
  • the specifying means determines that the same person overlaps in time or different persons overlap in place when the similarity of the calculated posture feature amount is equal to or greater than a predetermined reference value. 7.
  • the image analysis apparatus according to 6, wherein the persons detected in the mutually different images are not the same person when . 8.
  • the identifying means prevents the same person from overlapping when the similarity of the calculated posture feature quantity is equal to or greater than a predetermined reference value, and prevents the same person from overlapping and the different persons from overlapping locations.
  • identification image output means for outputting an image in which the person detected in each of the plurality of images is associated with information for identifying the person, based on the result of determination by the determination means. or the image analysis device according to one. 10. one or more imaging means; An image analysis system comprising the image analysis device according to any one of 1 to 9. 11.
  • the computer Acquiring a plurality of consecutive images in time series; detecting a person and a posture of the person in each of the plurality of images; and determining the identity of a person between different images using the detected pose of the person. 12. to the computer, Acquiring a plurality of consecutive images in time series; detecting a person and a posture of the person in each of the plurality of images; and judging the identity of a person between different images using the detected posture of the person.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

画像解析装置(100)は、時系列的に連続する複数の画像を取得する画像取得部(102)と、複数の画像それぞれにおいて、人及び当該人の姿勢を検出する検出部(103)と、検出部(103)によって検出された人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する判断部(104)とを備える。

Description

画像解析装置、画像解析システム、画像解析方法及びプログラム
 本発明は、画像解析装置、画像解析システム、画像解析方法及びプログラムに関する。
 カメラなどで撮影された時系列的に連続する複数の画像から、当該複数の画像における人の移動を追跡する技術がある。
 例えば、特許文献1に記載の一致判定装置は、解析グループに含まれる解析対象についての1つまたは複数の特徴量から選択した選択特徴量を特定し、異なる解析グループ間の選択特徴量の組み合わせに基づいて、複数の解析グループの間の解析対象が一致するかを評価する。また、評価が前記解析グループ間の前記解析対象の一致を示す場合、異なる解析グループそれぞれの解析対象を同一対象と特定する。なお、非特許文献1には、人物の骨格推定に関連する技術が記載されている。
国際公開第2019/138983号
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields";, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 しかしながら、特許文献1に記載の技術では、複数の画像の一部で人同士が重なり合うことや人が柱などの物の後ろに隠れてしまうことなどが生じた場合に、その前後で実際には同一対象である人を同一と判断できなくなることがある。
 本発明は、上述の事情に鑑みてなされたもので、時系列的に連続する複数の画像において精度良く同一の人を特定することが可能な画像解析装置、画像解析システム、画像解析方法及びプログラムを提供することを目的とする。
 上記目的を達成するため、本発明の第1の観点に係る画像解析装置は、
 時系列的に連続する複数の画像を取得する画像取得手段と、
 前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出する検出手段と、
 前記検出された人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する判断手段とを備える。
 本発明の第2の観点に係る画像解析システムは、
 1つ又は複数の撮影手段と、
 上記の画像解析装置とを備える。
 本発明の第3の観点に係る画像解析方法は、
 コンピュータが、
 時系列的に連続する複数の画像を取得することと、
 前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出することと、
 前記検出された人の姿勢を用いて、互いに異なる画像間における人の同一性を判断することとを含む。
 本発明の第4の観点に係るプログラムは、
 コンピュータに、
 時系列的に連続する複数の画像を取得することと、
 前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出することと、
 前記検出された人の姿勢を用いて、互いに異なる画像間における人の同一性を判断することとを実行させるためのプログラムである。
 本発明によれば、時系列的に連続する複数の画像において精度良く同一の人を特定することが可能になる。
本発明の一実施の形態に係る画像解析システムの機能的な構成例を示す図である。 撮影領域A1~A2の各々を時刻T1~T4の各時刻に撮影した画像の例を模式的に示す図である。 一実施の形態に係る画像解析システムの物理的な構成例を示す図である。 本発明の一実施の形態に係る画像解析処理の一例を示すフローチャートである。 本発明の一実施の形態に係る画像解析処理の一例を示すフローチャートである。 撮影領域A1~A2の各々を時刻T5~T8の各時刻に撮影した画像の例を模式的に示す図である。 図4に示す検出処理の詳細を示すフローチャートである。 図4に示すグループ化処理の詳細を示すフローチャートである。 撮影領域A1を撮影した時刻T1~T6の画像を重ね合わせて示す図である。 撮影領域A1を撮影した時刻T1~T6の画像にて検出された人の領域をグループ化して動線が生成された例を示す図である。 図5に示す結合処理の詳細を示すフローチャートである。 図5に示す結合処理の詳細を示すフローチャートである。 図10に示す途切れた動線が結合処理によって結合された例を示す図である。 撮影領域A2を撮影した時刻T1~T8の画像にて検出された人の領域をグループ化して動線が生成された例を示す図である。 異なる撮影領域A1,A2の動線が結合された例を示す図である。
 以下、本発明の一実施の形態について、図面を参照しつつ説明する。全図を通じて同一の要素には同一の符号を付す。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<画像解析システムの構成>
 本発明の一実施の形態に係る画像解析システムは、時系列的に連続する複数の画像に基づいて互いに異なる画像間における人の同一性を判断し、その判断の結果に基づいて人の動線を求めるなどの処理を行う。
 画像解析システムは、図1に示すように、2つのカメラ101a~101bと、画像解析装置100とを備える。画像解析装置100は、画像取得部102と、検出部103と、判断部104と、識別画像出力部105とを備える。
 カメラ101a~101bの各々は、駅、建造物、施設、道路上などに設けられ、予め定められた撮影領域を撮影する撮影手段の一例である。カメラ101a~101bは、例えば図2に示すように、固定の撮影領域A1~A2を撮影することによって時系列的に連続する複数の2次元画像を示す画像情報を生成する。
 図2は、時刻T1~T4に撮影された撮影領域A1~A2の各々の画像を示す。撮影領域A1に示すP_T1~P_T4は、時刻T1~T4のそれぞれに撮影された人Pの領域を模式的に示す。撮影領域A1に示すQ_T1~Q_T4は、時刻T1~T4のそれぞれに撮影された人Qの領域を模式的に示す。撮影領域A2に示すR_T1~R_T4は、時刻T1~T4のそれぞれに撮影された人Rの領域を模式的に示す。
 なお、カメラは、画像解析システムに1つ以上備えられればよい。
 再び、図1を参照する。
 画像取得部102は、撮影領域A1~A2を撮影した時系列的に連続する複数の画像を取得する。本実施の形態では、画像取得部102は、カメラ101a~101bの各々によって生成された画像情報を、有線、無線又はこれらを適宜組み合わせて構成されたネットワークを介してカメラ101a~101bの各々から取得する。
 検出部103は、画像取得部102によって取得された複数の画像それぞれにおいて、人及び当該人の姿勢を検出する。
 詳細には例えば、検出部103は、複数の画像それぞれの画像情報に基づいて、各画像における人の領域と当該人の姿勢とを検出する。画像から人の領域及び姿勢のそれぞれを検出する手法には、公知の手法が用いられてよい。
 人の姿勢は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づいて検出されるとよい。骨格推定技術の例として、非特許文献1に記載のOpenPoseを挙げることができる。
 判断部104は、検出部103によって検出された人の姿勢を用いて、互いに異なる画像間にて検出された人の同一性を判断する。
 詳細には、判断部104は、図1に示すように、特徴量取得部106と、特定部107とを含む。
 特徴量取得部106は、検出部103によって検出された人の姿勢を用いて、当該人の姿勢特徴量を求める。
 姿勢特徴量は、人の姿勢の特徴を示す値であって、例えば検出部103によって検出された2次元の骨格構造の特徴量である。姿勢特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。
 姿勢特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、姿勢特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさなどである。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積などである。上下方向(高さ方向または縦方向)は、画像における上下の方向(Y軸方向)であり、例えば、地面(基準面)に対し垂直な方向である。また、左右方向(横方向)は、画像における左右の方向(X軸方向)であり、例えば、地面に対し平行な方向である。
 特定部107は、特徴量取得部106によって求められた姿勢特徴量の類似度が第1基準値以上であるか否かに基づいて、当該互いに異なる画像にて検出された人の同一人を特定する。
 ここで、第1基準値は、姿勢が類似するか否かを判断するための基準として、姿勢特徴量の類似度について予め定められる値である。
 本実施の形態に係る特定部107は、以下の条件A~Cのすべてを満たす場合に、互いに異なる画像にて検出された人を同一人であると判断する。また、特定部107は、条件A~Cの少なくとも1つを満たさない場合に、互いに異なる画像にて検出された人を同一人ではないと判断する。
 条件A:姿勢特徴量の類似度が第1基準値以上であること
 条件B:同一人が時間的に重複して存在することにならないこと
 条件C:異なる人が場所的に重複して存在することにならないこと
 なお、条件B及び条件Cの一方又は両方が、同一人を特定するための条件に含まれなくてもよい。
 より詳細には、特定部107は、グループ化部108と、結合部109とを含む。
 グループ化部108は、上述したように条件A~条件Cに基づいて互いに異なる画像にて検出された人が同一人であるか否かを判断し、同一人と判断した人の画像が同じグループに属するように、複数の画像の各々に含まれる人の画像をグループ分けする。このグループ化処理において、「互いに異なる画像」には例えば、撮影された時刻が隣接する画像が時系列に沿って順次選択されるとよい。
 そして、グループ化部108は、同じグループに属する人の画像領域を時系列に従って接続することによって、複数の画像に含まれる各人の動線を生成する。この動線は、人の画像の重心、肩の中心など所定箇所を接続した線である。
 なお、グループ化部108が、後述する結合部109と同様に、条件A~Gに基づいて、互いに異なる画像に含まれる人が同一人であるか否かを判断してもよい。
 結合部109は、グループ化部108によって生成される動線に途切れた動線が含まれる場合に、当該途切れた動線間を結合する。
 ここで、途切れた動線とは、撮影領域A1又はA2の中に端部を含む動線である。
 人が移動する場合、通常、撮影領域A1又はA2の外から撮影領域A1又はA2の中に進入して、撮影領域A1又はA2の外へ出て行く。そのため、多くの動線の両端は、撮影領域A1又はA2の境界と概ね一致する。しかし、画像において人が重なり合った場合や柱などの物の後方に隠れた場合などに、途切れた動線が生じることがある。
 結合部109は、動線の端部となる画像、すなわち動線が途切れる前後の画像に含まれる人が同一人であるか否かを判断し、同一人であると判断した場合に、当該途切れた動線の端部間を接続する。
 本実施の形態に係る結合部109は、上記の条件A~条件C及び以下の条件D~Gに基づいて、互いに異なる画像に含まれる人が同一人であるか否かを判断する。この結合処理において、「互いに異なる画像」には、動線が途切れる前後の画像が選択されるとよい。
 条件D:動線が途切れる前後の画像の撮影時間間隔が所定時間内であること
 条件E:動線が途切れる前後の画像にて検出された人の距離が所定距離内であること
 条件F:動線が途切れる前後の画像にて検出された人の向きの違いが所定の範囲内であること
 条件G:動線が途切れる前後の画像にて検出された人の画像特徴量の類似度が第2基準値以上であること
 ここで、画像の撮影時間間隔とは、当該画像が撮影された時刻の時間間隔である。時系列的に連続する画像は、例えば毎秒N(Nは1以上の整数)など概ね一定の時間間隔で撮影されることが多いので、撮影時間間隔について予め定められる時間(上記の所定時間)は、画像数で規定されとよい。なお、所定時間は例えば時間長さなどで規定されてもよい。
 人の距離が所定距離であるか否かは、例えば、画像における人の画像領域間の距離(例えば、画素数)に基づいて判断されてもよく、画像における人の画像領域間の距離から推定される実空間の距離に基づいて判断されてもよい。
 画像特徴量とは、人の画像領域の画像としての特徴を示す値であって、画像情報に基づいて生成される特徴量である。画像特徴量は、人の画像全体の特徴量でもよいし、当該画像の一部の特徴量でもよく、顔、胴及び脚のように複数の部分の特徴量を含んでもよい。画像特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、画像特徴量は、各色成分の平均輝度、チェック柄、ストライプなどの色彩パターンとの一致度などである。
 第2基準は、画像が類似するか否かを判断するための基準として、画像特徴量の類似度について予め定められる値である。
 本実施の形態に係る結合部109は、条件A~Gのすべてを満たす場合に、互いに異なる画像にて検出された人を同一人であると判断する。また、結合部107は、条件A~Gの少なくとも1つを満たさない場合に、互いに異なる画像にて検出された人を同一人ではないと判断する。
 なお、条件B~条件Gの一部又は全部が、途切れた動線を結合するための条件に含まれなくてもよい。
 識別画像出力部105は、判断部104による判断の結果に基づく識別画像情報を出力する。識別画像情報は、複数の画像それぞれにおいて検出された人に当該人を識別するための情報(すなわち、同一の人を識別するための識別情報)を対応付けた画像を含む情報である。
 識別画像出力部105による画像情報の出力方法は、例えば、画像情報の表示、送信などである。すなわち、識別画像出力部105は、ディスプレイに画像を表示させてもよく、有線、無線又はこれらを適宜組み合わせて構成されたネットワークを介して接続された他の装置へ画像を送信してもよい。
<画像解析システムの物理的構成>
 ここから、本実施の形態に係る画像解析システムの物理的構成の例について、図を参照して説明する。
 画像解析装置100は物理的には、図3に示すように、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、ネットワークインタフェース1050、ユーザインタフェース1060を有する。
 バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、ネットワークインタフェース1050、及びユーザインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1020は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。
 ストレージデバイス1040は、各種の情報を保持する機能を実現する。
 また、ストレージデバイス1040は、画像解析装置100の各機能部(画像取得部102、検出部103、判断部104(特徴量取得部106、特定部107(グループ化部108、結合部109))、識別画像出力部105)を実現するためのプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能部が実現される。
 ネットワークインタフェース1050は、有線、無線又はこれらを組み合わせて構成されるネットワークに画像解析装置100を接続するためのインタフェースである。本実施の形態に係る画像解析装置100は、ネットワークインタフェース1050を通じてネットワークに接続されることによって、カメラ101a~101bなどと互いに通信する。
 ユーザインタフェース1070は、ユーザから情報が入力されるインタフェース及びユーザに情報を提示するインタフェースであり、例えば、入力手段としてのマウス、キーボード、タッチセンサなど、ディスプレイ(例えば、液晶ディスプレイ、有機ELディスプレイ)などを含む。
 このように画像解析装置100の機能は、ソフトウェアプログラムを物理的な各構成要素が協働して実行することによって実現することができる。そのため、本発明は、ソフトウェアプログラム(単に「プログラム」ともいう。)として実現されてもよく、そのプログラムが記録された非一時的な記憶媒体として実現されてもよい。
<画像解析処理>
 ここから、本発明の一実施の形態に係る画像解析処理について図を参照して説明する。
 画像解析処理は、カメラ101a~101bによって撮影された時系列的に連続する複数の画像に基づいて互いに異なる画像間における人の同一性を判断し、その判断の結果に基づいて人の動線を求めるなどの処理である。
 画像解析処理は、例えば、ユーザから処理対象となる画像を指示することによって開始される。処理対象の画像は、例えば、撮影するカメラと、撮影の開始時刻と終了時刻とを含む撮影時刻とによって指示される。本実施の形態では、処理対象の画像として、カメラ101a~101bの各々によって、開始時刻T1~終了時刻T8に撮影された画像が指示される例により説明する。
 画像取得部102は、カメラ101a~101bによって撮影された撮影領域A1,A2の各々についての時系列的に連続する複数の画像を取得する(ステップS101)。
 詳細には例えば、ステップS101にて、画像取得部102は、図2及び6に示す各画像を示す画像情報をカメラ101a~101bの各々から取得する。画像情報は、撮影したカメラ101a~101bを識別するためのカメラ識別情報と、撮影時刻とを含むとよい。
 図2及び6は、カメラ101a~101bの各々によって、開始時刻T1~終了時刻T8に撮影された画像の例を示す図であり、図2は、上述の通り、時刻T1~T4に撮影された撮影領域A1~A2の各々の画像を示す。図6は、時刻T5~T8に撮影された撮影領域A1~A2の各々の画像を示す。
 図6において、撮影領域A1に示すP_T5~P_T6は、時刻T5~T6のそれぞれに撮影された人Pの領域を模式的に示す。撮影領域A1に示すQ_T5~Q_T6は、時刻T5~T6のそれぞれに撮影された人Qの領域を模式的に示す。撮影領域A2に示すP_T7~P_T8は、時刻T7~T8のそれぞれに撮影された人Pの領域を模式的に示す。
 図4及び5に示すように、検出部103及び判断部104は、ステップS101にて取得した撮影領域A1,A2ごとに、ステップS103~S110の処理を繰り返し実行する(ステップS102;ループA)。
 ここで、各画像が撮影領域A1,A2のいずれの撮影領域の画像であるかは、ステップS101にて取得された画像情報のカメラ識別情報を参照することによって判別されるとよい。以下では、最初に撮影領域A1を撮影した時刻T1~T8の各画像を対象に処理をする例により説明する。
 検出部103及び特徴量取得部106は、時系列的に連続する画像の各々について、ステップS104~S105の処理を繰り返す(ステップS103;ループB)。詳細には例えば、処理対象の撮影領域を撮影領域A1として、時刻T1~T8の各画像に対して順にステップS104~S105の処理を繰り返す。
 検出部103は、検出処理を行う(ステップS104)。
 図7は、検出処理(ステップS104)の詳細を示すフローチャートである。
 同図に示すように、検出部103は、各画像において人の領域を検出する(ステップS201)。詳細には例えば、図2の左上の画像に示す時刻T1の画像の場合、実線の楕円P_T1で示す人Pの領域と、点線の楕円Q_T1で示す人Qの領域とを検出する。
 検出部103は、ステップS201にて特定された人の領域の各々について、画像特徴量を求める(ステップS202)。詳細には例えば、ステップS201にて特定した人の領域の画像情報に基づいて、各領域の画像の特徴を示す画像特徴量を求める。
 検出部103は、ステップS201にて特定された人の領域の各々について、人の姿勢を検出する(ステップS203)。
 詳細には例えば、ステップS201にて特定した人の領域の画像を入力として、機械学習を用いて学習済みの骨格推定モデルを用いて、当該人の骨格の状態を推定することによって、人の姿勢を検出する。例えば、図2の左上の画像に示す時刻T1の画像の場合、実線の楕円P_T1で示す人Pの姿勢と、点線の楕円Q_T1で示す人Qの姿勢とを検出する。これにより、検出部103は、検出処理(ステップS104)を終了して、図4に示す画像解析処理に戻る。
 同図に示すように、特徴量取得部106は、ステップS203にて検出された人の姿勢を用いて、姿勢特徴量を求める(ステップS105)。
 詳細には例えば、特徴量取得部106は、ステップS104にて検出された人の姿勢を入力として、機械学習を用いて学習済みの姿勢特徴量算出モデルを用いて、当該人の姿勢特徴量を出力する。例えば、図2の左上の画像に示す時刻T1の画像の場合、実線の楕円P_T1で示す人Pの姿勢特徴量と、点線の楕円Q_T1で示す人Qの姿勢特徴量とを求める。
 なお、姿勢特徴量を求めるための入力情報に、ステップS201にて特定された人の領域の画像が、人の姿勢とともに用いられてもよい。
 このようなステップS104~S105の処理は、ループA(ステップS102)にて処理の対象とされている撮影領域A1を撮影した時系列的に連続する時刻T1~T8の画像の各々について繰り返される(ステップS103;ループB)。
 ループB(ステップS103)の処理が終了すると、グループ化部108は、ループA(ステップS102)にて処理の対象とされている撮影領域A1を撮影した時系列的に連続する時刻T1~T8の画像の各々にて検出された人の画像をグループ化する(ステップS106)。
 図8は、グループ化処理(ステップS106)の詳細を示すフローチャートである。
 グループ化部108は、ループA(ステップS102)にて処理の対象とされている撮影領域A1を撮影した時系列的に連続する画像の組み合わせについて、ステップS302~S306の処理を繰り返す(ループC;ステップS301)。
 詳細には例えば、ループCでの処理対象となる時系列的に連続する画像の組み合わせは、時刻T6及びT5の画像、時刻T5及びT4の画像、時刻T4及びT3の画像、時刻T3及びT2の画像、時刻T2及びT1の画像である。ループCでは、例えば、時系列順に処理対象となる画像の組み合わせが選定されるとよい。以下では、時間的に後の画像から、すなわち時刻T6及びT5の画像の組み合わせから処理対象となる画像の組み合わせが選定される例により説明する。
 なお、撮影領域A1を撮影した画像について、時刻T7及びT8に人は含まれていないため、ループCの処理対象としては、時刻T7及びT8の画像は除外されてよい。
 グループ化部108は、互いに異なる画像にて検出された人の姿勢特徴量の類似度が第1基準値以上であるか否かを判断する(ステップS302)。このステップS302での姿勢特徴量に関する判断処理は、上述の条件Aを満たすか否かの判断に相当する。
 詳細には例えば、撮影領域A1を撮影した時刻T6及びT5の画像の組み合わせが処理対象であるとする。この場合、グループ化部108は、時刻T6及びT5の画像にて検出された人の各組み合わせについて、ステップS105にて求められた姿勢特徴量の類似度を求める。
 ここで、図9は、撮影領域A1を撮影した時刻T1~T6の画像を重ね合わせて示す図である。同図において、時刻T6及びT5の画像にて検出された人は、領域P_T6,P_T5,Q_T6,Q_T5の人である。類似度は、これら4つの領域から2つの領域を抽出する場合の6個の組み合わせの各々について求められる。この例での組み合わせは、具体的には、領域P_T6及びP_T5,P_T6及びQ_T6,P_T6及びQ_T5,P_T5及びQ_T6,P_T5及びQ_T5,Q_T6及びQ_T5の組み合わせである。
 姿勢特徴量の類似度は、例えば、姿勢特徴量の差、比などである。そして、グループ化部108は、姿勢特徴量の類似度と第1基準値とを比較することによって、類似度が第1基準値以上であるか否かを判断する。
 姿勢特徴量の類似度が第1基準値以上ではないと判断した場合(ステップS302;No)、グループ化部108は、当該類似度を求めた姿勢特徴量に係る人が同一人ではないと判断する(ステップS303)。
 一般的に、移動している人の姿勢が短時間で大きく変わることは少なく、当該姿勢の変化は、一定の範囲内であることが多い。そのため、互いに異なる画像にて検出された人の姿勢特徴量の類似度が第1基準値未満である場合、当該人は同一人ではなく、当該人の姿勢特徴量の類似度が第1基準値以上である場合、当該人は同一人である、と推定することができる。
 例えば撮影領域A1を撮影した時刻T6及びT5の画像にて検出された人の場合、上述の6つの組み合わせのうちの4つの組み合わせについて、領域が示す人が同一人ではないと判断される。この例で、同一人ではないと判断される人を示す領域の組み合わせは、具体的には、領域P_T6及びQ_T6,領域P_T6及びQ_T5,領域P_T5及びQ_T6,領域P_T5及びQ_T5である。
 姿勢特徴量の類似度が第1基準値以上であると判断した場合(ステップS302;Yes)、グループ化部108は、同一人が時間的に重複して又は異なる人が場所的に重複して存在することになるか否かを判断する(ステップS304)。このステップS304での同一人の重複に関する判断処理は、上述の条件B及びCを満たすか否かの判断に相当する。
 例えば撮影領域A1を撮影した時刻T6及びT5の画像にて検出された人の場合、領域P_T6及びP_T5,領域Q_T6及びQ_T5の組み合わせについては、姿勢特徴量の類似度が第1基準値以上であると判断される。
 領域P_T6及びP_T5は、異なる時刻T6及びT5の画像に含まれるので、同一人が時間的に重複して存在していない。領域Q_T6及びQ_T5についても同様に、異なる時刻T6及びT5の画像に含まれるので、同一人が時間的に重複して存在していない。
 また、領域P_T6及びP_T5は場所的に重複しておらず、領域Q_T6及びQ_T5も場所的に重複していない。
 そのため、この例での領域P_T6及びP_T5,領域Q_T6及びQ_T5の組み合わせについては、同一人が時間的に重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならない、と判断される。
 同一人が時間的に重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならないと判断した場合に(ステップS304;No)、グループ化部108は、当該領域によって示される人が同一人であると判断する(ステップS305)。
 例えば撮影領域A1を撮影した時刻T6及びT5の画像にて検出された領域P_T6及びP_T5,領域Q_T6及びQ_T5の組み合わせについては、各領域によって示される人が同一人であると判断される。
 同一人が時間的に重複して存在することになる、或いは、異なる人が場所的に重複して存在することになると判断した場合に(ステップS304;Yes)、グループ化部108は、当該領域によって示される人が同一人でないと判断する(ステップS303)。
 例えば、図2及び9に示すように、時刻T4の撮影領域A1では、撮影方向から見て、領域Q_T4の大部分が、領域P_T4の奥にあって、領域P_T4の背後に隠れている。このような場合、ステップS201にて、領域Q_T4が人の領域であると検出できないことがある。この場合、時刻T5及びT4の画像にて検出される人は、領域P_T5,P_T4,Q_T5の人となる。
 この場合において例えば、時刻T5における領域P_T5の人と領域Q_T5の人の姿勢が類似しているときなどには、実際の人の領域とは異なる誤った組み合わせの領域の人の姿勢特徴量との類似度が第1基準値以上となることがある。
 例えば、領域P_T5及びQ_T5の人の姿勢特徴量の両方と、領域P_T4の人の姿勢特徴量の類似度が第1基準値以上となるときである。このとき、領域P_T4の人は、領域P_T5の人Pと同一人であり、かつ、領域Q_T5の人Qと同一人である、と判断されることになるので、異なる人P及びQが領域P_T4によって示される場所に重複して存在することになる。すなわち、異なる人が場所的に重複して存在することになる。
 或いは、領域Q_T4の大部分が領域P_T4の背後に隠れているために、ステップS203にて、領域Q_T4の人の姿勢が実際の正しい姿勢で検出されないことがある。
 この場合においても、時刻T5における領域P_T5の人と領域Q_T5の人の姿勢が類似しているときなどには、実際の人の領域とは異なる誤った組み合わせの領域の人の姿勢特徴量との類似度が第1基準値以上となることがある。
 例えば、領域P_T5の人の姿勢特徴量と領域P_T4及びQ_T4の人の姿勢特徴量の両方との類似度が第1基準値以上となることである。このとき、領域P_T4及びQ_T4の人は、領域P_T5の人Pと同一人であると判断されることになるので、同一人Pが時間T4に重複して存在することになる。すなわち、同一人が時間的に重複して存在することになる。
 また例えば、領域Q_T5の人の姿勢特徴量と領域P_T4及びQ_T4の人の姿勢特徴量の両方との類似度が第1基準値以上となることもある。このとき、領域P_T4及びQ_T4の人は、領域Q_T5の人Qと同一人であると判断されることになるので、同一人Qが時間T4に重複して存在することになる。
 このように、条件Aだけでなく条件B及びCを併せて人の同一性を判断することによって、画像にて検出された人が、実際とは異なる人と誤って同一人であると判断されることを防ぐことができる。
 なお、人の同一性の判断に誤りが生じる場合は、他の人の背後に隠れることによって人の領域や姿勢を正しく検出できない場合に限られず、柱の背後に隠れることによって人の領域や姿勢を正しく検出できない場合(図示せず)などもある。
 グループ化部108は、同一人と判断された人の領域をグループ化する(ステップS306)。
 詳細には例えば、図10に、撮影領域A1を撮影した時刻T1~T6の画像にて検出された人をグループ化した例を示す。
 同図に示すように、撮影領域A1を撮影した時刻T6及びT5の画像にて検出された人の領域P_T6,P_T5,Q_T6,Q_T5について、グループ化部108は、領域P_T6及びP_T5を、同一人の画像を示すグループG1に帰属させる。また、グループ化部108は、領域Q_T6及びQ_T5を、同一人の画像を示すグループG2に帰属させる。
 グループ化部108は、時刻T1~T6の画像のうち時系列的に連続する画像の組み合わせの各々について、ステップS302~S306の処理を実行する(ループC;ステップS301)。これにより、図10に示すように、時刻T1~T6の画像にて検出された人がグループG1~G4にグループ分けされる。
 図10は、撮影領域A1を撮影した時刻T1~T6の画像にて検出された人をグループ化した例を示す。上述の通り、領域P_T6及びP_T5はグループG1に、領域Q_T6及びQ_T5はグループG2にグループ化される。また、領域P_T1~P_T3はグループG3に、領域Q_T1~Q_T3はグループG4にグループ化される。
 これにより、グループ化部108は、グループ化処理(ステップS106)を終了して、図4に示す画像解析処理に戻る。
 同図に示すように、グループ化部108は、各グループG1~G4の動線を生成する(ステップS107)。
 例えば図10に示すように、グループG1~G4のそれぞれに属する人の領域の所定箇所(例えば、肩の中心に相当する箇所)を滑らかに接続した動線ML_1~ML_4が生成される。動線ML_1~ML_4の矢印が示す方向は、時系列に沿った移動方向である。例えばグループG1では、領域P_T5~P_T6を接続した動線ML_1が生成される。また、動線ML_1の矢印から、グループG1に属する領域によって示される人は、画像においてやや上方へ傾斜しつつ概ね右方向へ移動していることが分かる。
 再び、図5を参照する。
 結合部109は、ステップS107にて生成された動線ML_1~ML_4に途切れた動線が含まれるか否かを判断する(ステップS108)。
 例えば図10を参照すると、動線ML_1の端部ML_1Sは、領域P_T5によって示される人の位置に対応しており、撮影領域A1の内部にある。従って、動線ML_1は、途切れた動線である。
 同様に、動線ML_2の端部ML_2S、動線ML_3の端部ML_3E、動線ML_4の端部ML_4Eのいずれの端部も、撮影領域A1の内部にある。従って、動線ML_2~4のいずれも、途切れた動線である。
 このように、図10の例では、動線ML_1~ML_4のすべてが途切れた動線であり、結合部109は、途切れた動線が含まれると判断する。
 途切れた動線が含まれないと判断された場合(ステップS108;No)、検出部103及び判断部104は、次の撮影領域についてステップS103~S110の処理を実行する(ステップS102;ループA)。
 途切れた動線が含まれると判断した場合(ステップS108;Yes)、結合部109は、途切れた動線ML_1~ML_4について、結合処理(ステップS110)を繰り返し実行する(ステップS109;ループD)。
 詳細には、結合処理(ステップS110)では、結合部109は、途切れた動線ML_1~ML_4の各組み合わせについて、上述の条件A~Gを満たすか否かを判断する。そして、結合部109は、条件A~Gが満たされる場合に、グループを併合するとともに併合したグループ間の動線の端部を結合する。
 ここで、図10の例では、端部ML_1S及びML_2Sは共通の時刻T5の画像に基づくものであり、端部ML_3E及びML_4Eは共通の時刻T3の画像に基づくものである。共通の時刻の画像に同一人が重複して撮影されることはあり得ないので、共通の時刻の画像に基づく端部を有する動線の組み合わせについて、併合や結合の処理をする必要はない。
 そのため、図10の例において、ループD(ステップS109)の処理対象となる動線ML_1~ML_4の組み合わせは、異なる時刻の画像に含まれる端部ML_1S,ML_2S,ML_3E,ML_4Eを有する動線の組み合わせとなる。すなわち、ループD(ステップS109)の処理対象となる動線の組み合わせは、動線ML_1と動線ML_3の組、動線ML_1と動線ML_4の組、動線ML_2と動線ML_3の組、動線ML_2と動線ML_4の組である。
 図11及び12は、結合処理(ステップS110)の詳細を示すフローチャートである。
 図11に示すように、結合部109は、動線ML_1~ML_4が途切れる前後の画像の撮影時間間隔が所定時間内であるか否かを判断する(ステップS401)。このステップS401での途切れた撮影時間間隔に関する判断処理は、上述の条件Dを満たすか否かの判断に相当する。
 ここで、同一人の動線が途切れる場合には、上述のように柱のような固定物に隠れる場合、人のような移動体に隠れる場合などがある。途切れる前後の画像の撮影時間間隔は、カメラ101aから見て固定物や人の奥方を通過する時間に応じたものとなる。そのため、所定時間には、一般的に、人が固定物や他の人の奥方を通過する時間に応じた時間が予め定めるとよい。
 これにより、動線ML_1~ML_4が途切れる前後の画像の撮影時間間隔が所定時間内でない場合に、両画像から検出された人が同一人ではないと判断することができる。また、当該撮影時間間隔が所定時間内である場合に、両画像から検出された人が同一人の可能性があると判断することができる。
 図10に示す例では、動線ML_1~ML_4のいずれの組み合わせにおいても、途切れている画像数は、1画像である。そのため、所定時間が例えば3画像と定められている場合、結合部109は、動線ML_1~ML_4の各組み合わせについて、途切れる前後の画像の撮影時間間隔が所定時間内であると判断する。
 なお、動線が途切れた原因を推定して、推定された原因に応じて異なる所定時間が定められてもよい。例えば上述のように、固定物に隠れる場合と移動体に隠れる場合とでは、双方が移動する後者の原因で動線が途切れる場合の方が、前者による場合よりも動線が途切れる時間間隔は短くなると考えられる。この場合、動線が途切れた原因は、固定物の位置を予め画像から求めておき、当該固定物の近傍にて動線が途切れたか否かを画像から判断することによって推定されるとよい。
 再び、図11を参照する。
 撮影時間間隔が所定時間内であると判断した場合(ステップS401;Yes)、結合部109は、動線ML_1~ML_4が途切れる前後の画像にて検出された人の距離が所定距離内であるか否かを判断する(ステップS402)。このステップS402での途切れた距離に関する判断処理は、上述の条件Eを満たすか否かの判断に相当する。
 ここで、所定距離には、上述の所定時間で人が一般的に移動する距離が採用されるとよい。例えば、カメラ101a~101bによってN画像/秒で撮影され、所定時間が3画像と定められている場合、所定距離は、人が3/N[秒]の間に移動する距離に応じて定められるとよい。ここで、人が一定の時間に移動する距離は、一般的な歩行速度(例えば、時速5km)或いはそれよりも速い速度を基に定められるとよい。
 これにより、動線ML_1~ML_4が途切れる前後の画像にて検出された人の距離が所定距離内でない場合に、当該人が同一人ではないと判断することができる。また、当該距離が所定距離内である場合に、当該人が同一人の可能性があると判断することができる。
 図10の例では、端部ML_3Eと端部ML_1S及びML_2Sの各々との間、端部ML_4Eと端部ML_1S及びML_2Sの各々との間のいずれもが、所定距離内であるとする。この場合、結合部109は、動線ML_1~ML_4の各組み合わせについて、途切れる前後の画像にて検出された人の距離が所定距離内であると判断する。
 再び、図11を参照する。
 検出された人の距離が所定距離内であると判断した場合(ステップS402;Yes)、結合部109は、動線ML_1~ML_4が途切れる前後の画像にて検出された人の向きの違いが所定の範囲内であるか否かを判断する(ステップS403)。このステップS403での人の向きに関する判断処理は、上述の条件Fを満たすか否かの判断に相当する。
 ここで、人の向きは、例えば顔領域が画像に含まれるか否か、両肩を結ぶ線分の方向などによって推定することができ、条件Fは、人がすれ違うことによって動線が交差する場合の人の同一性を判断する場合に特に有効である。
 例えば、カメラ101aの撮影方向に沿ってカメラ101aから遠ざかる方向へ歩く人は、カメラ101aに顔領域が撮影されない。これに対して、同方向に沿ってカメラ101aへ近づく方向へ歩く人は、カメラ101aに顔領域が撮影される。このように、顔領域が画像に含まれるか否かによって、人の向きを推定することができる。
 また例えば、カメラ101aの撮影方向に沿って移動する人(すなわち、撮影領域A1の上方又は下方へ移動する人)の両肩を結ぶ線分は、撮影領域A1の概ね左右方向を向く。これに対して、カメラ101aの撮影方向と直行する方向へ移動する人(すなわち、撮影領域A1の左方又は右方へ移動する人)の両肩を結ぶ線分は、撮影領域A1の概ね上下方向を向く。このように、両肩を結ぶ線分の方向によって、人の向きを推定することができる。
 移動する人が急に向きを変えることは少ないので、動線ML_1~ML_4が途切れる前後の画像にて検出された人の向きが大きく異なる場合、当該人は同一人ではない可能性が高い。そのため、動線ML_1~ML_4が途切れる前後の画像にて検出された人の向きの違いが所定の範囲内でない場合に、当該人が同一人ではないと判断することができる。また、当該人の向きの違いが所定の範囲内である場合に、当該人が同一人の可能性があると判断することができる。
 図10の例では、動線ML_1及びML_3は、撮影領域A1において概ね右上方へ移動する人の動線である。動線ML_2及びML_4は、撮影領域A1において概ね左上方へ移動する人の動線である。そのため、動線ML_1~ML_4の人について、顔領域はいずれも撮影されないか、撮影されたとしても比較的小さいため、顔領域から人の向きを推定することは困難なことが多い。
 また、両肩を結ぶ線分の方向も、動線ML_1及びML_3の人と動線ML_2及びML_4の人とでは直交する場合ほどの角度の違いがない。そのため、結合部109は、動線ML_1~ML_4の各組み合わせについて、途切れる前後の画像にて検出された人の向きの違いが所定の範囲内であると判断する。
 再び、図11を参照する。
 検出された人の向きの違いが所定の範囲内であると判断した場合(ステップS403;Yes)、結合部109は、動線ML_1~ML_4が途切れる前後の画像にて検出された人の画像特徴量の類似度が第2基準値以上であるか否かを判断する(ステップS404)。このステップS404での画像特徴量に関する判断処理は、上述の条件Gを満たすか否かの判断に相当する。
 ここで、画像特徴量が大きく異なる人の画像は、異なる人の画像である可能性が高い。そのため、人の画像特徴量の類似度が第2基準値以上でない場合、当該人は同一人ではないと判断することができる。また、人の画像特徴量の類似度が第2基準値以上である場合に、当該人が同一人の可能性があると判断することができる。
 図10の例では、動線ML_1~ML_4の組み合わせのそれぞれに対応する領域P_T3,P_T5,Q_T3,Q_T5の各組み合わせにおいて、途切れる前後の画像にて検出された人の画像特徴量の類似度が第2基準値以上であるとする。
 再び、図11を参照する。
 画像特徴量の類似度が第2基準値以上であると判断した場合(ステップS404;Yes)、結合部109は、図12に示すように、動線ML_1~ML_4が途切れる前後の画像にて検出された人の姿勢特徴量の類似度が第1基準値以上であるか否かを判断する(ステップS405)。このステップS405での姿勢特徴量に関する判断処理は、上述の条件Aを満たすか否かの判断に相当する。
 上述した通り、移動している人の姿勢が短時間で大きく変わることは少ない。そのため、図10の例では、動線ML_1及び動線ML_3の組と、動線ML_2及び動線ML_4の組とについて、結合部109は、人の姿勢特徴量の類似度が第1基準値以上であると判断する。また、これら以外の動線の組について、結合部109は、人の姿勢特徴量の類似度が第1基準値以上でないと判断する。
 再び、図12を参照する。
 姿勢特徴量の類似度が第1基準値以上であると判断した場合(ステップS405;Yes)、結合部109は、同一人が時間的に重複して又は異なる人が場所的に重複して存在することになるか否かを判断する(ステップS406)。このステップS406での同一人の重複に関する判断処理は、上述の条件B及びCを満たすか否かの判断に相当する。
 図10の例では、動線ML_1及び動線ML_3の組と、動線ML_2及び動線ML_4の組とについて、結合部109は、同一人が時間的に重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならないと判断する。
 ただし、ステップS406では、同一人が時間的に重複して存在することになるか否か、また異なる人が場所的に重複して存在することになるか否かは、各グループに含まれるすべての領域、言い換えると各動線の全体について判断される。
 図10の例とは異なり、動線A,B,Cがそれぞれ時刻TA,TB,TCに端部を有し、時刻TCは時刻TBよりも後であり、時刻TBは時刻TAよりも後であるとする。また、動線A及びBの組と、動線B及びCの組の両方の組み合わせにおいて、条件D~Gが満たされるとする。
 この例において、動線A及びBの組と、動線B及びCの組の両方の組み合わせにおいて、条件Aが満たされると、動線Aは、動線B及びCの両方と結合されることになり、時刻TC以降において、同一人が時間的に重複して存在することになる。このような場合に、ステップS406では、各動線の全体に基づいて、同一人が時間的に重複して存在することになると判断される。
 同一人が時間的に重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならないと判断した場合(ステップS406;No)、結合部109は、処理対象となる動線ML_1~ML_4の組み合わせが同一人のものと判断する。
 そのため、結合部109は、同一人の動線ML_1~ML_4を構成する領域のグループ、すなわち同一人のグループを併合する(ステップS407)。さらに、結合部109は、同一人の途切れた動線ML_1~ML_4の端部間を結合する(ステップS408)。ステップS408の処理を行うと、結合部109は、結合処理(ステップS110)を終了する。
 図10に示す例では、動線ML_1及び動線ML_3の組と、動線ML_2及び動線ML_4の組とが、これまで説明したように条件A~Gを満たす。そのため、ステップS407において、グループG1とグループG3とは、人Pに関するグループとして併合される。グループG2とグループG4とは、人Qに関するグループとして併合される。
 また、ステップS408では、図13に示すように、動線ML_1と動線ML_3とが結合され、これによって、人Pに関する動線ML_Pが生成される。動線ML_2と動線ML_4とが結合され、これによって、人Qに関する動線ML_Qが生成される。
 再び、図11及び12を参照する。
 ステップS401~S406にて上述とは異なる判断をした場合、結合部109は、結合処理(ステップS110)を終了する。
 すなわち、図11を参照して、撮影時間間隔が所定時間内でないと判断した場合(ステップS401;No)、人の距離が所定距離内でないと判断した場合(ステップS402;No)、人の向きの違いが所定の範囲内でないと判断した場合(ステップS403;No)、又は、画像特徴量の類似度が第2基準値以上でないと判断した場合(ステップS404;No)、結合部109は、結合処理(ステップS110)を終了する。
 図12を参照して、姿勢特徴量の類似度が第1基準値以上でないと判断した場合(ステップS405;No)、又は、同一人が時間的に重複して存在することになる、若しくは、異なる人が場所的に重複して存在することになると判断した場合(ステップS406;Yes)、結合部109は、結合処理(ステップS110)を終了する。
 結合処理(ステップS110)を終了すると、図5に示す画像解析処理に戻り、検出部103は、ループA(ステップS102)の処理を繰り返す。本実施の形態では、撮影領域A2について、ステップS103~S110の処理がさらに行われる。
 撮影領域A2の時刻T1~T8の画像(図2及び6参照)に基づいて、例えば図14に示すように、領域R_T1~R_T4を人Rに関するグループG5にグループ化し、人Rに関する動線ML_Rを生成する。また、領域P_T7~P_T8をグループG6にグループ化し、動線ML_5を生成する。
 すべての撮影領域A1,A2についてステップS103~S110の処理が行われると、図5に示すように、ループA(ステップS102)を終了する。そして、結合部109は、異なる撮影領域A1,A2間の動線ML_P,ML_Q,ML_5,ML_Rを結合する(ステップS111)。
 ここでも、共通の時刻の画像に同一人が重複して撮影されることはあり得ないので、異なる時刻の画像に含まれる端部を有する動線の組み合わせについて、画像特徴量に基づいて、同一人の動線であるか否かを判断する。ステップS111にて処理対象となる動線の組み合わせは、動線ML_P,ML_Q,ML_5,ML_Rの場合、動線ML_Pと動線ML_5の組、動線ML_Qと動線ML_5の組である。
 例えば、動線の組の端部となる領域の画像特徴量の類似度が第2基準値以上である場合に、結合部109は、動線が同一人のものであると判断して、動線を構成する領域のグループ間を併合するとともに動線の端部間を結合する。また、画像特徴量の類似度が第2基準値以上でない場合に、結合部109は、動線が同一人のものでないと判断し、グループを併合せず、また動線も結合しない。
 ステップS111が行われることによって、図15に示すように、異なる撮影領域A1,A2の動線が結合される。同図では人Pに関する動線として、図13に示す動線ML_Pに、図14に示す動線ML_5を結合した動線ML_Pが生成される例を示す。また、撮影領域A1と撮影領域A2との間において、動線ML_Pは、図13に示す動線ML_Pと動線ML_5とを滑らかに接続した動線によって接続されている。
 なお、ステップS111においても、条件A~Gの適宜の組み合わせを満たすか否かに基づいて、グループの併合や動線の結合が行われてもよい。
 再び、図5を参照する。
 識別画像出力部105は、判断部104による判断の結果に基づく識別画像情報を出力し(ステップS112)、画像解析処理を終了する。
 識別画像情報が示す画像は、例えば、複数の画像にて検出された人の動線を識別情報とし、動線が人の領域を接続することによって各画像に示される人に識別情報を対応付けた画像である(図15参照)。また例えば、識別画像情報が示す画像は、人を識別するための数字、記号、符号(例えば、P,Q,R)などを識別情報とし、当該識別情報を画像に示される人の領域に対応付けた画像である。
 なお、ここでは、時系列的に連続する複数の画像にて検出された人の同一性の判断結果が識別画像情報として出力される例を示すが、同一性の判断結果は、画像に限らず、適宜の方法で出力されて、人の移動に関する分析処理など種々の処理に利用されてもよい。
 これまで説明したように、本実施の形態によれば、時系列的に連続する複数の画像それぞれにおいて人及び当該人の姿勢が検出され、当該検出された人の姿勢を用いて互いに異なる画像にて検出された人の同一性が判断される。これにより、画像特徴量から人の同一性を判断する場合に、人の動線が途切れるなど人の追跡が困難な場合であっても、人の同一性を判断することができる。従って、時系列的に連続する複数の画像において精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、複数の画像のうち、時系列的に所定の時間内に撮影された画像それぞれにおいて検出された人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する。これにより、より正確に人の同一性を判断することができる。従って、時系列的に連続する複数の画像において、より精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、複数の画像のそれぞれにおいて検出された人のうち、所定の距離内の人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する。これにより、より正確に人の同一性を判断することができる。従って、時系列的に連続する複数の画像において、より精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、複数の画像のそれぞれにおいて検出された人の向きを求める。そして、複数の画像のそれぞれにおいて検出された人のうち、求められた向きの違いが予め定められた範囲内である人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する。これにより、より正確に人の同一性を判断することができる。従って、時系列的に連続する複数の画像において、より精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、検出された人の姿勢を用いて、当該人の姿勢特徴量を求める。そして、求められた姿勢特徴量の類似度が予め定められた基準値以上であるか否かに基づいて、互いに異なる画像にて検出された人の同一性を判断する。これにより、画像特徴量から人の同一性を判断する場合に、人の動線が途切れるなど人の追跡が困難な場合であっても、人の同一性を判断することができる。従って、時系列的に連続する複数の画像において精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、求められた姿勢特徴量の類似度が予め定められた基準値以上である場合において、同一人が時間的に重複して又は異なる人が場所的に重複して存在することになるとき、互いに異なる画像にて検出された人を同一人ではないと判断する。これにより、人の同一性が実際には起こりえない状態で判断されることを防ぐことができる。従って、時系列的に連続する複数の画像において、より精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、求められた姿勢特徴量の類似度が予め定められた基準値以上である場合において、同一人が時間的に重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならないとき、互いに異なる画像にて検出された人を同一人であると判断する。これにより、人の同一性が実際には起こりえない状態で判断されることを防ぐことができる。従って、時系列的に連続する複数の画像において、より精度良く同一の人を特定することが可能になる。
 本実施の形態によれば、検出された人の同一性に関する判断の結果に基づいて、複数の画像における人を識別する情報を各画像に示される人に対応付けた画像を出力する。このような画像を参照することによって、ユーザは画像を見て容易に人の移動を理解することができる。従って、ユーザが人の移動を容易に理解することが可能になる。
 以上、本発明の実施の形態及び変形例について説明したが、本発明は、これらに限られるものではない。例えば、本発明は、これまで説明した実施の形態及び変形例の一部又は全部を適宜組み合わせた形態、その形態に適宜変更を加えた形態をも含む。
 上記の実施の形態の一手段または全手段は、以下の付記のようにも記載されうるが、以下に限られない。
1.時系列的に連続する複数の画像を取得する画像取得手段と、
 前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出する検出手段と、
 前記検出された人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する判断手段とを備える
 画像解析装置。
2.前記判断手段は、前記複数の画像のうち、時系列的に所定の時間内に撮影された画像それぞれにおいて検出された人の姿勢を用いて、前記互いに異なる画像にて検出された人の同一性を判断する
 1に記載の画像解析装置。
3.前記判断手段は、前記複数の画像のそれぞれにおいて検出された人のうち、所定の距離内の人の姿勢を用いて、前記互いに異なる画像にて検出された人の同一性を判断する
 1又は2に記載の画像解析装置。
4.前記判断手段は、前記複数の画像のそれぞれにおいて検出された人の向きを求め、前記複数の画像のそれぞれにおいて検出された人のうち、前記求められた向きの違いが予め定められた範囲内である人の姿勢を用いて、前記互いに異なる画像にて検出された人の同一性を判断する
 1から3のいずれか1つに記載の画像解析装置。
5.前記判断手段は、前記複数の画像のそれぞれにおいて検出された人の画像特徴量を求め、前記複数の画像のそれぞれにおいて検出された人のうち、前記求められた画像特徴量の類似度が予め定められた基準値以上であるか否かに基づいて、前記互いに異なる画像にて検出された人の同一性を判断する
 1から4のいずれか1つに記載の画像解析装置。
6.前記判断手段は、
 前記検出された人の姿勢を用いて、当該人の姿勢特徴量を求める特徴量取得手段と、
 前記求められた姿勢特徴量の類似度が予め定められた基準値以上であるか否かに基づいて、前記互いに異なる画像にて検出された人の同一性を判断する特定手段とを含む
 1から5のいずれか1つに記載の画像解析装置。
7.前記特定手段は、前記求められた姿勢特徴量の類似度が予め定められた基準値以上である場合において、同一人が時間的に重複して又は異なる人が場所的に重複して存在することになるとき、前記互いに異なる画像にて検出された人を同一人ではないと判断する
 6に記載の画像解析装置。
8.前記特定手段は、前記求められた姿勢特徴量の類似度が予め定められた基準値以上である場合において、同一人が重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならないとき、前記互いに異なる画像にて検出された人を同一人であると判断する
 6又は7に記載の画像解析装置。
9.前記判断手段による判断の結果に基づいて、前記複数の画像それぞれにおいて検出された人に当該人を識別するための情報を対応付けた画像を出力する識別画像出力手段をさらに備える
 1から8のいずれか1つに記載の画像解析装置。
10.1つ又は複数の撮影手段と、
 1から9のいずれか1つに記載の画像解析装置とを備える
 画像解析システム。
11.コンピュータが、
 時系列的に連続する複数の画像を取得することと、
 前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出することと、
 前記検出された人の姿勢を用いて、互いに異なる画像間における人の同一性を判断することとを含む
 画像解析方法。
12.コンピュータに、
 時系列的に連続する複数の画像を取得することと、
 前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出することと、
 前記検出された人の姿勢を用いて、互いに異なる画像間における人の同一性を判断することとを実行させるためのプログラム。
 この出願は、2021年3月23日に出願された日本出願特願2021-048550号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
  100 画像解析装置
  101a,101b カメラ
  102 画像取得部
  103 検出部
  104 判断部
  105 識別画像出力部
  106 特徴量取得部
  107 特定部
  108 グループ化部
  109 結合部

Claims (12)

  1.  時系列的に連続する複数の画像を取得する画像取得手段と、
     前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出する検出手段と、
     前記検出された人の姿勢を用いて、互いに異なる画像にて検出された人の同一性を判断する判断手段とを備える
     画像解析装置。
  2.  前記判断手段は、前記複数の画像のうち、時系列的に所定の時間内に撮影された画像それぞれにおいて検出された人の姿勢を用いて、前記互いに異なる画像にて検出された人の同一性を判断する
     請求項1に記載の画像解析装置。
  3.  前記判断手段は、前記複数の画像のそれぞれにおいて検出された人のうち、所定の距離内の人の姿勢を用いて、前記互いに異なる画像にて検出された人の同一性を判断する
     請求項1又は2に記載の画像解析装置。
  4.  前記判断手段は、前記複数の画像のそれぞれにおいて検出された人の向きを求め、前記複数の画像のそれぞれにおいて検出された人のうち、前記求められた向きの違いが予め定められた範囲内である人の姿勢を用いて、前記互いに異なる画像にて検出された人の同一性を判断する
     請求項1から3のいずれか1項に記載の画像解析装置。
  5.  前記判断手段は、前記複数の画像のそれぞれにおいて検出された人の画像特徴量を求め、前記複数の画像のそれぞれにおいて検出された人のうち、前記求められた画像特徴量の類似度が予め定められた基準値以上であるか否かに基づいて、前記互いに異なる画像にて検出された人の同一性を判断する
     請求項1から4のいずれか1項に記載の画像解析装置。
  6.  前記判断手段は、
     前記検出された人の姿勢を用いて、当該人の姿勢特徴量を求める特徴量取得手段と、
     前記求められた姿勢特徴量の類似度が予め定められた基準値以上であるか否かに基づいて、前記互いに異なる画像にて検出された人の同一性を判断する特定手段とを含む
     請求項1から5のいずれか1項に記載の画像解析装置。
  7.  前記特定手段は、前記求められた姿勢特徴量の類似度が予め定められた基準値以上である場合において、同一人が時間的に重複して又は異なる人が場所的に重複して存在することになるとき、前記互いに異なる画像にて検出された人を同一人ではないと判断する
     請求項6に記載の画像解析装置。
  8.  前記特定手段は、前記求められた姿勢特徴量の類似度が予め定められた基準値以上である場合において、同一人が重複して存在することにならず、かつ、異なる人が場所的に重複して存在することにならないとき、前記互いに異なる画像にて検出された人を同一人であると判断する
     請求項6又は7に記載の画像解析装置。
  9.  前記判断手段による判断の結果に基づいて、前記複数の画像それぞれにおいて検出された人に当該人を識別するための情報を対応付けた画像を出力する識別画像出力手段をさらに備える
     請求項1から8のいずれか1項に記載の画像解析装置。
  10.  1つ又は複数の撮影手段と、
     請求項1から9のいずれか1項に記載の画像解析装置とを備える
     画像解析システム。
  11.  コンピュータが、
     時系列的に連続する複数の画像を取得することと、
     前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出することと、
     前記検出された人の姿勢を用いて、互いに異なる画像間における人の同一性を判断することとを含む
     画像解析方法。
  12.  コンピュータに、
     時系列的に連続する複数の画像を取得することと、
     前記複数の画像それぞれにおいて、人及び当該人の姿勢を検出することと、
     前記検出された人の姿勢を用いて、互いに異なる画像間における人の同一性を判断することとを実行させるためのプログラム。
PCT/JP2022/006213 2021-03-23 2022-02-16 画像解析装置、画像解析システム、画像解析方法及びプログラム WO2022201987A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023508783A JP7525055B2 (ja) 2021-03-23 2022-02-16 画像解析装置、画像解析方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021048550 2021-03-23
JP2021-048550 2021-03-23

Publications (1)

Publication Number Publication Date
WO2022201987A1 true WO2022201987A1 (ja) 2022-09-29

Family

ID=83396895

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/006213 WO2022201987A1 (ja) 2021-03-23 2022-02-16 画像解析装置、画像解析システム、画像解析方法及びプログラム

Country Status (4)

Country Link
JP (1) JP7525055B2 (ja)
AR (1) AR125574A1 (ja)
TW (1) TW202240470A (ja)
WO (1) WO2022201987A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005086626A (ja) * 2003-09-10 2005-03-31 Matsushita Electric Ind Co Ltd 広域監視装置
WO2006013765A1 (ja) * 2004-08-03 2006-02-09 Matsushita Electric Industrial Co., Ltd. 人物判定装置及び人物検索追跡装置
JP2010239992A (ja) * 2009-03-31 2010-10-28 Sogo Keibi Hosho Co Ltd 人物同定装置、人物同定方法、及び人物同定プログラム
JP2015002547A (ja) * 2013-06-18 2015-01-05 富士通株式会社 画像処理装置、プログラム、および画像処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3785456B2 (ja) 2002-07-25 2006-06-14 独立行政法人産業技術総合研究所 駅ホームにおける安全監視装置
JP6377563B2 (ja) 2015-03-27 2018-08-22 Kddi株式会社 動線の部分削除処理を利用して物体を識別する物体追跡装置、プログラム及び方法
JP6794575B1 (ja) 2020-07-28 2020-12-02 株式会社 日立産業制御ソリューションズ 動画解析装置及び動画解析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005086626A (ja) * 2003-09-10 2005-03-31 Matsushita Electric Ind Co Ltd 広域監視装置
WO2006013765A1 (ja) * 2004-08-03 2006-02-09 Matsushita Electric Industrial Co., Ltd. 人物判定装置及び人物検索追跡装置
JP2010239992A (ja) * 2009-03-31 2010-10-28 Sogo Keibi Hosho Co Ltd 人物同定装置、人物同定方法、及び人物同定プログラム
JP2015002547A (ja) * 2013-06-18 2015-01-05 富士通株式会社 画像処理装置、プログラム、および画像処理方法

Also Published As

Publication number Publication date
JPWO2022201987A1 (ja) 2022-09-29
AR125574A1 (es) 2023-07-26
JP7525055B2 (ja) 2024-07-30
TW202240470A (zh) 2022-10-16

Similar Documents

Publication Publication Date Title
JP6295645B2 (ja) 物体検出方法及び物体検出装置
CN107431786B (zh) 图像处理设备、图像处理***和图像处理方法
CN102262725B (zh) 三维场景的分析
Gabriel et al. The state of the art in multiple object tracking under occlusion in video sequences
CN104717481B (zh) 摄像装置、图像处理装置、摄像方法
JP5001260B2 (ja) オブジェクト追跡方法及びオブジェクト追跡装置
CN107438173A (zh) 视频处理装置、视频处理方法和存储介质
Khan et al. Tracking in uncalibrated cameras with overlapping field of view
JP2007142527A (ja) 移動体監視システム、移動体特徴量算出装置およびカメラ間移動体照合追跡装置
JP2006343859A (ja) 画像処理装置及び画像処理方法
JP5101429B2 (ja) 画像監視装置
KR20200113743A (ko) 인체 자세 추정 및 보정을 하는 방법 및 장치
JPH11257931A (ja) 物体認識装置
JP2001084383A (ja) 移動検出方法
WO2022201987A1 (ja) 画像解析装置、画像解析システム、画像解析方法及びプログラム
JP5416489B2 (ja) 三次元指先位置検出方法、三次元指先位置検出装置、およびプログラム
JP2019096062A (ja) 物体追跡装置、物体追跡方法、および、物体追跡プログラム
KR20220029946A (ko) 영상에 포함된 객체를 추적하는 장치, 방법 및 컴퓨터 프로그램
JP5448952B2 (ja) 同一人判定装置、同一人判定方法および同一人判定プログラム
JP2005250692A (ja) 物体の同定方法、移動体同定方法、物体同定プログラム、移動体同定プログラム、物体同定プログラム記録媒体、移動体同定プログラム記録媒体
JP2009301242A (ja) 頭部候補抽出方法、頭部候補抽出装置、頭部候補抽出プログラムおよびそのプログラムを記録した記録媒体
US20020085747A1 (en) Image processing apparatus and method, image capturing apparatus, and information provision medium
JP2004046464A (ja) 移動物体3次元位置推定装置及びその方法、プログラム並びにその記録媒体
JP6504711B2 (ja) 画像処理装置
JP6548306B2 (ja) カメラの撮影画像に映る人物を追跡する画像解析装置、プログラム及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22774787

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023508783

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18273136

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22774787

Country of ref document: EP

Kind code of ref document: A1