WO2023112321A1 - 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 - Google Patents

画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2023112321A1
WO2023112321A1 PCT/JP2021/046804 JP2021046804W WO2023112321A1 WO 2023112321 A1 WO2023112321 A1 WO 2023112321A1 JP 2021046804 W JP2021046804 W JP 2021046804W WO 2023112321 A1 WO2023112321 A1 WO 2023112321A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
image
posture
feature amount
image processing
Prior art date
Application number
PCT/JP2021/046804
Other languages
English (en)
French (fr)
Inventor
登 吉田
郁真 内田
健全 劉
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/046804 priority Critical patent/WO2023112321A1/ja
Publication of WO2023112321A1 publication Critical patent/WO2023112321A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the present invention relates to an image processing system, an image processing method, and a non-transitory computer-readable medium.
  • Patent Document 1 discloses a technique of estimating the posture of a person from a captured image of the person and retrieving an image including a posture similar to the estimated posture.
  • Non-Patent Document 1 is known as a technique related to human action recognition.
  • Non-Patent Document 2 is known as a technique related to human skeleton estimation.
  • a related technique such as the above Patent Document 1 uses feature amounts based on the features of a person's posture in order to search for similar images.
  • the related technology focuses only on the posture of a person, it may not be possible to perform image similarity determination with high accuracy.
  • an object of the present disclosure is to provide an image processing system, an image processing method, and a non-transitory computer-readable medium capable of improving the accuracy of image similarity determination.
  • An image processing system includes posture estimation obtaining means for obtaining an estimation result of estimating a posture of a person included in first and second images, and object recognition acquisition means for acquiring a recognition result of recognizing an object; and similarity determination between the first image and the second image based on the estimation result of the posture of the person and the recognition result of the object. and similarity determination means.
  • An image processing method acquires an estimation result of estimating the posture of a person included in first and second images, and recognizes an object other than the person included in the first and second images.
  • a recognition result is acquired, and similarity determination between the first image and the second image is performed based on the estimation result of the posture of the person and the recognition result of the object.
  • a non-transitory computer-readable medium storing an image processing program obtains an estimation result of estimating the posture of a person included in first and second images, obtaining a recognition result of recognizing an object other than the person included in the object, and determining similarity between the first image and the second image based on the estimation result of the posture of the person and the recognition result of the object It is a non-transitory computer-readable medium storing an image processing program for causing a computer to execute processing.
  • an image processing system an image processing method, and a non-temporary computer-readable medium capable of improving the accuracy of image similarity determination.
  • FIG. 1 is a configuration diagram showing an overview of an image processing system according to an embodiment
  • FIG. 1 is a configuration diagram showing a configuration example of an image processing apparatus according to Embodiment 1
  • FIG. 2 is a configuration diagram showing another configuration example of the image processing apparatus according to Embodiment 1
  • FIG. 4 is a flow chart showing an operation example of the image processing apparatus according to Embodiment 1
  • 4 is a diagram showing a skeletal structure used in an operation example of the image processing apparatus according to Embodiment 1
  • FIG. 4 is a flow chart showing an operation example of the image processing apparatus according to Embodiment 1
  • 4 is a diagram showing an example of retrieval by the image processing apparatus according to Embodiment 1
  • FIG. 1 is a configuration diagram showing a configuration example of an image processing apparatus according to Embodiment 1
  • FIG. 2 is a configuration diagram showing another configuration example of the image processing apparatus according to Embodiment 1
  • FIG. 4 is a flow chart showing an operation example of the image processing apparatus according to
  • FIG. 4 is a diagram showing an example of retrieval by the image processing apparatus according to Embodiment 1;
  • FIG. FIG. 10 is a diagram for explaining a distance relationship feature amount according to Embodiment 2;
  • FIG. FIG. 10 is a diagram for explaining a distance relationship feature amount according to Embodiment 2;
  • FIG. 10 is a diagram for explaining an orientation relationship feature amount according to Embodiment 2;
  • FIG. 10 is a diagram for explaining an orientation relationship feature amount according to Embodiment 2;
  • FIG. 10 is a diagram for explaining a positional relationship feature amount according to Embodiment 2;
  • FIG. 10 is a diagram for explaining a positional relationship feature amount according to Embodiment 2;
  • FIG. 10 is a diagram for explaining a positional relationship feature amount according to Embodiment 2;
  • FIG. 9 is a flow chart showing an operation example of the image processing apparatus according to Embodiment 2; 9 is a flow chart showing an operation example of the image processing apparatus according to Embodiment 2;
  • 10 is a flow chart showing an operation example of an image processing apparatus according to Embodiment 3;
  • 10 is a flow chart showing an operation example of an image processing apparatus according to Embodiment 3;
  • 1 is a configuration diagram showing an overview of hardware of a computer according to an embodiment;
  • an image of a person sitting in a wheelchair is used as a search query Q1 to search for similar images similar to the search query Q1.
  • images such as the search target P1 and the search target P2 are extracted as similar images from the search target images.
  • a search since a search is performed based only on the posture of a person, it is not limited to an image of a person sitting in a wheelchair, such as the search target P1. It also extracts the images that exist. That is, if similarity determination is performed based only on the feature amount of posture, an image of a person sitting on a chair is also determined to be a similar image. Therefore, the related technology may not be able to accurately search for an image (scene) close to the image (scene) that the user wants to search.
  • HOI detection can detect related person-object pairs from an image and detect person verbs (actions). By performing image similarity determination based on the verb of a person detected from a search query and the verb of a person detected from a search target, it is possible to search for similar images in consideration of people and objects.
  • HOI detection is premised on advance preparation by machine learning. Therefore, it is necessary to learn in advance a large amount of images in which a person and an object are interacting with each other. As a result, it is difficult to retrieve images of verbs that have not been learned in advance. Therefore, even in this case, it is not possible to accurately search for the image desired by the user.
  • FIG. 2 shows an overview of the image processing system 10 according to the embodiment.
  • the image processing system 10 includes a posture estimation acquisition section 11 , an object recognition acquisition section 12 and a similarity determination section 13 .
  • the image processing system 10 may be configured by one device, or may be configured by a plurality of devices.
  • the posture estimation acquisition unit 11 acquires an estimation result of estimating the posture of the person included in the first and second images.
  • the posture estimation acquisition unit 11 may acquire an estimation result from a database or the like, or may perform posture estimation processing based on the first or second image to determine the posture of the person included in the first or second image. can be estimated.
  • the posture estimation acquisition unit 11 estimates the skeletal structure of the person as the posture of the person included in the first or second image based on the first or second image.
  • the object recognition acquisition unit 12 acquires an estimation result of recognizing an object other than a person included in the first and second images.
  • the object recognition acquisition unit 12 may acquire a recognition result from a database or the like, or perform object recognition processing based on the first or second image to recognize an object included in the first or second image. may For example, the object recognition acquisition unit 12 recognizes the object class of the object included in the first or second image based on the first or second image.
  • the similarity determination unit 13 determines the similarity between the first image and the second image based on the estimation result of the posture of the person with respect to the first and second images and the recognition result of the object with respect to the first and second images. make a judgment.
  • the similarity determination unit 13 may use an estimation result and a recognition result obtained from a database or the like, or may use an estimation result estimated by posture estimation processing based on the first or second image and the first or second image.
  • a recognition result recognized by image-based object recognition processing may be used.
  • the similarity determination unit 13 determines the result of estimating the posture of the person estimated based on the first image, the recognition result of the object recognized based on the first image, and the result of recognizing the posture of the person in the acquired second image.
  • Similarity determination is performed. Similarity determination between the first image and the second image is performed based on the degree of similarity of the object feature amount based on the recognition result of (1). Similarity determination is determination of whether or not two images are similar. For example, if the similarity is higher than a predetermined value, it is determined that the two images are similar, and if the similarity is lower than the predetermined value, it is determined that the two images are not similar.
  • the similarity determination unit 13 selects an image similar to the query image from the plurality of search target images based on the results of the similarity determination. You may search.
  • image similarity determination is performed using object recognition results in addition to human pose estimation results.
  • it is possible to perform similarity determination with higher accuracy than when using only the posture as in the related art.
  • the search query Q1 and the search target P1 have high similarities in pose and object, it can be determined that the two images are similar.
  • the target P2 has a high degree of similarity in posture but a low degree of object similarity, it can be determined that the two images are dissimilar.
  • FIG. 3 shows the configuration of the image processing apparatus 100 according to this embodiment.
  • the image processing device 100 constitutes the image processing system 1 together with a database (DB) 110 .
  • An image processing system 1 including an image processing apparatus 100 is a system that searches for images (scenes) similar to a search query based on a person's posture estimated from an image and an object recognized from the image.
  • the image processing system 1 may also include an image providing device 200 that provides images (search targets) to the image processing device 100 .
  • the image providing device 200 may be a camera that captures images, or an image storage device in which images are stored in advance.
  • the image providing device 200 generates (stores) a two-dimensional image including a person or an object, and outputs the generated image to the image processing device 100 .
  • the image providing device 200 is directly connected or connected via a network or the like so that an image (video) can be output to the image processing device 100 .
  • the image providing device 200 may be provided inside the image processing device 100 .
  • the database 110 is a database that stores information necessary for processing of the image processing apparatus 100, data of processing results, and the like.
  • the database 110 stores images (search targets) acquired by the image acquisition unit 101, estimation results of the orientation estimation unit 102, recognition results of the object recognition unit 103, data for machine learning, and feature amounts calculated by the feature amount calculation unit 104. , the search results of the search unit 105 and the like are stored.
  • the database 110 is directly connected to the image processing apparatus 100 so that data can be input/output, or is connected via a network or the like.
  • the database 110 may be provided inside the image processing apparatus 100 as a nonvolatile memory such as a flash memory, a hard disk device, or the like.
  • the image processing apparatus 100 includes an image acquisition unit 101, a posture estimation unit 102, an object recognition unit 103, a feature quantity calculation unit 104, a search unit 105, an input unit 106, and a display unit 107.
  • the configuration of each unit (block) is an example, and may be configured by other units as long as the operations (methods) described later are possible.
  • the image processing apparatus 100 is realized by a computer device such as a personal computer or a server that executes programs, for example, but may be realized by one device or by a plurality of devices on a network. good.
  • the posture estimation unit 102, the object recognition unit 103, and the like may be external devices.
  • the image acquisition unit 101 acquires images from the image providing device 200 .
  • the image acquisition unit 101 acquires a two-dimensional image (video including a plurality of images) including a person or an object generated (stored) by the image providing apparatus 200 .
  • the image to be acquired is an image to be searched, and the image acquiring unit 101 stores the acquired image in the database 110 .
  • the posture estimation unit 102 estimates the posture of the person in the image based on the image.
  • the posture estimation unit 102 may obtain an estimation result of estimating the posture of the person in the image in advance from an external device (the image providing device 200, the database 110, the input unit 106, etc.).
  • the posture estimation unit 102 estimates the posture of a person in an acquired search target image, and also estimates the posture of a person in a search query image during a search. It can also be said that the pose estimation unit 102 includes a first pose estimation unit that estimates the pose of a person to be searched, and a second pose estimation unit that estimates the pose of a search query person.
  • the posture estimation unit 102 detects the skeletal structure of the person from the image as the posture of the person. It should be noted that the posture (posture label) of a person in an image may be estimated by other posture estimation engines using machine learning, without being limited to the detection of the skeletal structure.
  • Posture estimation section 102 detects a two-dimensional skeletal structure of a person in the image based on the two-dimensional image.
  • Posture estimation section 102 detects the skeletal structure of all persons recognized in the acquired image.
  • the posture estimation unit 102 detects the skeletal structure of the person based on the recognized features such as the joints of the person, using a skeleton estimation technique using machine learning.
  • the pose estimation unit 102 uses a skeleton estimation technique such as OpenPose described in Non-Patent Document 2, for example.
  • Posture estimation section 102 outputs the estimated posture (skeletal structure) of the person and a certainty factor indicating the certainty of the estimation. The higher the degree of certainty, the higher the possibility that the estimated pose of the person is correct (is a person).
  • the posture estimation unit 102 stores the posture estimation result (skeletal structure and certainty) of the person to be detected in the database 110 .
  • Skeleton estimation technology such as OpenPose estimates a person's skeleton by learning image data that has been assigned correct answers in various patterns.
  • a skeletal structure estimated by a skeletal estimation technique such as OpenPose is composed of "keypoints", which are characteristic points such as joints, and "bones (bone links)", which indicate links between keypoints. For this reason, hereinafter, the skeletal structure may be described using the terms “keypoint” and “bone”. ” corresponds to the “bones” of a person.
  • the object recognition unit 103 recognizes objects in the image based on the image. It should be noted that the object recognition unit 103 may acquire recognition results obtained by recognizing an object in the image in advance from an external device (the image providing device 200, the database 110, the input unit 106, etc.).
  • the object to be recognized is an object other than a person, that is, an object other than a person (for example, an object whose class is other than a person) including a person whose pose is estimated.
  • the object recognition unit 103 recognizes an object in an acquired search target image, and also recognizes an object in a search query image during a search. It can also be said that the object recognition unit 103 includes a first object recognition unit that recognizes a search target object and a second object recognition unit that recognizes a search query object.
  • the object recognition unit 103 recognizes classes of objects in the image.
  • the object class indicates the kind or category of the object.
  • Object classes may be hierarchized (subdivided) according to search conditions and the like.
  • the object recognition unit 103 recognizes classes of all objects in the acquired image.
  • the object recognition unit 103 may recognize classes of objects in an image using an object recognition engine using machine learning. Objects can be recognized by machine learning the features (patterns) of the object image and the class of the object.
  • the object recognition unit 103 detects an object area in the image and recognizes the class of the object in the detected object area.
  • the object recognition unit 103 outputs the class of the recognized object and the degree of certainty indicating the certainty of recognition. The higher the confidence, the more likely the recognized object class is correct.
  • the object recognition unit 103 stores the search target object recognition results (object class and certainty) in the database 110 .
  • the object recognition unit 103 may recognize other information related to the characteristics of the object, not limited to the class of the object.
  • the state of the object may be recognized from the features of each part of the image of the object.
  • the state of an object can be a notebook PC (Personal Computer) opened/closed, a PC screen displayed/disappeared, or a car's headlights or turn signals turned on. State/lights off state, car door open state/closed state, and the like.
  • the state of the object in the target image may be stored, and an image similar to the state of the object in the search query may be retrieved.
  • a feature amount calculation unit 104 calculates a posture feature amount based on the estimation result of the posture of the person estimated (acquired) from the image, and calculates a posture feature amount based on the recognition result of the object recognized (acquired) from the image. Then, the object feature amount is calculated. Further, the feature amount calculation unit 104 calculates the posture feature amount of the person and the object feature amount of the object in the search target image, and calculates the posture feature amount of the person and the object feature amount of the object in the search query image. .
  • the feature amount calculation unit 104 includes a first feature amount calculation unit that calculates a posture feature amount and an object feature amount of a search target, and a second feature amount calculation unit that calculates a posture feature amount and an object feature amount of a search query. It can be said to include
  • the feature amount calculation unit 104 stores the calculated posture feature amount and object feature amount (normalized values in the case of normalization) to be searched in the database 110 .
  • the feature quantity calculation unit 104 may calculate both the posture feature quantity and the object feature quantity, or may calculate only the posture feature quantity. For example, when determining the similarity of an object using only the information of the object recognition result (object class), the calculation of the object feature amount may be omitted. In this case, it can be said that the information of the object recognition result indicates the object feature amount.
  • the feature amount calculation unit 104 calculates the feature amount of the two-dimensional skeletal structure detected as the posture of the person.
  • the feature quantity (posture feature quantity) of the skeletal structure indicates the feature of the skeleton (posture) of the person, and serves as an element for retrieving an image based on the skeleton of the person.
  • the feature amount of the skeletal structure may be the feature amount of the entire skeletal structure, the feature amount of a part of the skeletal structure, or may include a plurality of feature amounts like each part of the skeletal structure.
  • the feature amount is a feature amount obtained by machine-learning the skeletal structure, the size of the skeletal structure from the head to the foot on the image, and the like.
  • the size of the skeletal structure is the vertical height, area, etc.
  • the vertical direction is the vertical direction (Y-axis direction) in the image, for example, the direction perpendicular to the ground (reference plane).
  • the left-right direction is the left-right direction (X-axis direction) in the image, for example, the direction parallel to the ground.
  • the feature amount calculation unit 104 may normalize the calculated posture feature amount.
  • the normalization parameter may be the minimum or maximum value of the skeletal region, the height of the person, or the like.
  • the feature amount calculation unit 104 calculates the height (the number of pixels of height) when the person stands upright in the two-dimensional image, and calculates the skeletal structure (skeletal information) of the person based on the calculated number of pixels of the height of the person. ) is normalized.
  • the number of height pixels is the height of the person in the two-dimensional image (the length of the whole body of the person on the two-dimensional image space).
  • the feature amount calculation unit 104 obtains the number of height pixels (the number of pixels) from the length of each bone of the detected skeletal structure (the length in the two-dimensional image space).
  • the feature amount calculation unit 104 normalizes the height on the image of each key point (feature point) included in the skeletal structure by the number of height pixels.
  • the height of a keypoint can be obtained from the Y coordinate value (the number of pixels) of the keypoint.
  • the height direction may be the direction of the vertical projection axis (vertical projection direction) obtained by projecting the direction of the vertical axis perpendicular to the ground (reference plane) in the three-dimensional coordinate space of the real world onto the two-dimensional coordinate space.
  • the height of the keypoint is obtained by calculating the vertical projection axis by projecting the axis perpendicular to the ground in the real world onto the two-dimensional coordinate space based on the camera parameters, and calculating the value along this vertical projection axis (the number of pixels ) can be obtained from
  • the camera parameters are imaging parameters of an image.
  • the camera parameters are the attitude, position, imaging angle, focal length, and the like of the camera.
  • a camera captures an image of an object whose length and position are known in advance, and camera parameters can be obtained from the image.
  • the feature amount calculation unit 104 calculates the feature amount of the object recognized from the image.
  • the object feature amount indicates the feature of the object in the image, and serves as an element for retrieving images based on the object.
  • the object feature quantity is the feature quantity of the image of the recognized object.
  • the object feature amount may be the feature amount of the entire object, the feature amount of a part of the object, or may include a plurality of feature amounts like each part of the object.
  • the feature amount is a feature amount obtained by machine-learning an object, a size or shape of a recognized object on an image, and the like.
  • the size of an object is the height in the vertical direction, the width in the horizontal direction, the area, etc. of the object region containing the object on the image.
  • the feature amount calculation unit 104 may normalize the calculated object feature amount. For example, the minimum and maximum values of the object region corresponding to the object class, the height and width of the object, and the like may be used as the regular parameters. For example, the feature amount calculation unit 104 calculates the area of the object region of the object in the image, and normalizes the area of the object region of the object based on the minimum value or maximum value of the area corresponding to the object class.
  • the search unit (similarity determination unit) 105 searches for an image with a high degree of similarity to the search query image from among a plurality of search target images stored in the database 110 .
  • the search query (search condition) is the pose of the person and the object.
  • the search unit 105 searches for an image corresponding to the search query based on the feature amount of the posture of the person and the feature amount of the object (including the object class) in the image.
  • the search unit 105 performs image similarity determination based on the degree of similarity between the posture feature amount of the search query and the posture feature amount of the search target, and the similarity between the object feature amount of the search query and the object feature amount of the search target. to extract images similar to the search query.
  • the search unit 105 searches for an image having a posture feature quantity highly similar to the posture feature quantity of the search query and having an object feature quantity highly similar to the object feature quantity of the search query.
  • the similarity between feature quantities is the distance between feature quantities.
  • the similarity determination may be performed based on the weight of the similarity of the posture feature amount and the similarity of the object feature amount. Further, the similarity determination may be performed based on the degree of certainty of the person whose pose is estimated and the degree of certainty of the estimated object.
  • the search unit 105 may obtain the degree of similarity of the feature amount of the entire skeletal structure, or may obtain the degree of similarity of the feature amount of a part of the skeletal structure. For example, the degree of similarity between the feature amounts of the first part (for example, both hands) and the second part (for example, both feet) of the skeletal structure may be obtained.
  • the search unit 105 may obtain the similarity of the feature amount of the entire object, or may obtain the similarity of the feature amount of a part of the object.
  • the search unit 105 may use the result of determining whether or not the object classes match as the degree of similarity. The result of determining whether or not they match may be used as the degree of similarity.
  • the search unit 105 may search based on the posture feature amount and the object feature amount in each image, or the posture feature amount and the object feature amount (object class) in a plurality of images (videos) consecutive in time series. including). That is, it is possible to store not only images but also acquired videos, and search for videos in which the posture of a person and an object are similar from the videos of the search query.
  • the search unit 105 detects the degree of similarity of feature amounts in units of frames (images). For example, key frames may be extracted from a plurality of frames, and similarity may be determined using the extracted key frames.
  • By searching for images similar to the image of the search query it is possible to search for changes in the posture of a person or the relationship between a person and an object as search keys. For example, it is possible to search using the change of an object as a search key, such as when a person puts down a cup and holds a smartphone.
  • the input unit 106 is an input interface that acquires information input by the user who operates the image processing apparatus 100 .
  • the input unit 106 is, for example, a GUI (Graphical User Interface), and receives information according to user operations from an input device such as a keyboard, mouse, or touch panel.
  • GUI Graphic User Interface
  • the input unit 106 receives, as a search query, the posture of a specified person and an object from among a plurality of images.
  • the user may manually input the pose (skeleton) of the person and the class of the object to be used as a search query.
  • the display unit 107 is a display unit that displays the result of the operation (processing) of the image processing apparatus 100, and is, for example, a display device such as a liquid crystal display or an organic EL (Electro Luminescence) display.
  • a display unit 107 displays the processing results of each unit, such as the search results of the search unit 105, on a GUI.
  • the image processing apparatus 100 may include a classification section 108 that classifies images in addition to the search section 105 or instead of the search section 105 .
  • the classification unit 108 classifies (clusters) the plurality of images stored in the database 110 based on feature amounts. Similar to the search unit 105, the classification unit 108 performs image similarity determination based on the degree of similarity between the posture feature amount and the object feature amount of each image, and classifies similar images.
  • the classification unit 108 classifies images having a high degree of similarity in posture feature amount and a high degree of similarity in object feature amount so as to be in the same cluster (group).
  • the classification unit 108 may classify images based on specified queries (classification conditions), like the search unit 105 .
  • FIG. 5 shows an operation example of the image processing apparatus 100 according to the present embodiment, showing the flow of processing for acquiring an image to be searched and storing it in the database.
  • the image processing device 100 acquires an image from the image providing device 200 (S101).
  • the image acquisition unit 101 acquires an image, which is a search target for searching based on a person's posture and an object, from the image providing apparatus 200 and stores the acquired image in the database 110 .
  • the image acquisition unit 101 may acquire a plurality of images captured during a predetermined period from a camera, or may acquire a plurality of images stored in a storage device. The subsequent processing is performed on the multiple acquired images.
  • the image processing device 100 estimates the posture of the person based on the acquired image (S102a).
  • an acquired search target image includes a plurality of persons
  • the posture estimation unit 102 detects the skeletal structure as the posture of each person included in the image.
  • FIG. 6 shows the skeletal structure of the human body model 300 detected at this time.
  • the posture estimation unit 102 detects the skeleton structure of a human body model (two-dimensional skeleton model) 300 as shown in FIG. 6 from a two-dimensional image using a skeleton estimation technique such as OpenPose.
  • the human body model 300 is a two-dimensional model composed of key points such as human joints and bones connecting the key points.
  • the posture estimation unit 102 extracts feature points that can be keypoints from the image, refers to information obtained by machine learning the image of the keypoints, and detects each keypoint of the person.
  • the key points of the person are head A1, neck A2, right shoulder A31, left shoulder A32, right elbow A41, left elbow A42, right hand A51, left hand A52, right hip A61, left hip A62, right knee A71. , left knee A72, right foot A81, and left foot A82.
  • Posture estimating section 102 stores in database 110 the skeletal structure of a person detected by the skeletal estimation technique and the degree of certainty thereof.
  • the image processing apparatus 100 calculates the posture feature amount of the estimated human posture (S103a). For example, when the height and area of a skeletal region are used as feature quantities, the feature quantity calculator 104 extracts a region containing a skeletal structure and obtains the height (number of pixels) and area (pixel area) of that region. The height and area of the skeletal region are obtained from the coordinates of the edge of the extracted skeletal region and the coordinates of the keypoints of the edge. The feature amount calculation unit 104 stores the obtained feature amount of the skeletal structure in the database 110 .
  • a skeletal region including all bones is extracted from the skeletal structure of an upright person.
  • the upper end of the skeleton region is the head key point A1
  • the lower end of the skeleton region is the right foot key point A81 or the left foot key point A82
  • the left end of the skeleton region is the right hand key point A51
  • the right end of the skeleton region is the left hand key point.
  • Key point A52 the height of the skeletal region is obtained from the difference between the Y coordinates of the keypoint A1 and the keypoint A81 or A82.
  • the width of the skeleton region is obtained from the difference between the X coordinates of the key points A51 and A52, and the area is obtained from the height and width of the skeleton region.
  • the feature amount calculation unit 104 calculates a normalization parameter such as the number of height pixels based on the detected skeletal structure.
  • the feature amount calculation unit 104 normalizes the feature amount such as the height and area of the skeleton region based on the number of pixels of the height.
  • the number of height pixels which is the height of the skeletal structure of the person in the image when standing upright
  • the keypoint height which is the height of each keypoint of the skeletal structure of the person in the image
  • the height pixel number may be obtained by totaling the lengths of the bones from the head to the feet among the bones of the skeletal structure. If the posture estimation unit 102 (skeletal estimation technology) does not output the top of the head and the feet, they may be corrected by multiplying by a constant as necessary.
  • the feature amount calculation unit 104 obtains the length of the bones on the two-dimensional image from the head to the feet of the person, and obtains the number of height pixels. 6, bone B1 (length L1), bone B51 (length L21), bone B61 (length L31) and bone B71 (length L41), or bone B1 (length L1), bone Each length (number of pixels) of B52 (length L22), bone B62 (length L32), and bone B72 (length L42) is acquired. The length of each bone can be obtained from the coordinates of each keypoint in the two-dimensional image.
  • the number of height pixels is calculated by multiplying L1+L21+L31+L41 or L1+L22+L32+L42 by a correction constant.
  • the longer value is used as the number of height pixels. That is, each bone has the longest length in the image when the image is taken from the front, and is displayed to be short when the bone is tilted in the depth direction with respect to the camera. Therefore, the longer bones are more likely to be imaged from the front, and are considered to be closer to the true values. Therefore, it is preferable to choose the longer value.
  • the height pixel count may be calculated by other calculation methods. For example, an average human body model showing the relationship (ratio) between the length of each bone and the height in the two-dimensional image space is prepared in advance, and the length of each bone detected using the prepared human body model is used to determine the number of pixels in height. may be calculated.
  • the feature amount calculation unit 104 calculates the height of each keypoint along with the height pixel count, specifies a reference point for normalization, and normalizes the height of each keypoint by the height pixel count.
  • the feature amount calculation unit 104 stores the normalized posture feature amount in the database 110 .
  • the keypoint height is the length (number of pixels) in the height direction from the lowest end of the skeletal structure (for example, the keypoint of one of the legs) to that keypoint.
  • the keypoint height is obtained from the Y coordinate of the keypoint in the image.
  • the keypoint height may be obtained from the length in the direction along the vertical projection axis based on the camera parameters.
  • the specified reference point is a reference point for representing the relative height of the keypoint.
  • the reference point may be set in advance or may be selected by the user.
  • the reference point is preferably the center of the skeletal structure or higher than the center (above in the vertical direction of the image), for example, the coordinates of the neck key point.
  • the coordinates of the head or other key points may be used as the reference point instead of the neck.
  • Arbitrary coordinates for example, the center coordinates of the skeleton structure, etc.
  • Each keypoint is normalized using the keypoint height, the reference point, and the number of height pixels for each keypoint.
  • the feature amount calculation unit 104 normalizes the relative height of the keypoint with respect to the reference point by the number of height pixels.
  • the normalized value is a value obtained by subtracting the height of the reference point from the height of the keypoint and dividing the subtracted value by the number of pixels of height.
  • the image processing apparatus 100 recognizes an object based on the acquired image (S104a).
  • an acquired search target image includes a plurality of objects in addition to a person, and the object recognition unit 103 recognizes the class of each object included in the image.
  • the object recognition unit 103 uses an object recognition engine to detect an object region within an image and recognize the class of the object within the detected object region.
  • the object recognition unit 103 stores the class of the object recognized by the object recognition engine and its certainty in the database 110 .
  • the image processing apparatus 100 calculates the object feature amount of the recognized object (S105a). For example, when the feature amount is the size of an object area in which an object is recognized, the feature amount calculation unit 104 calculates the height (number of pixels), width (number of pixels), and area (pixel area) of the detected rectangular object area. ), etc. The feature amount calculation unit 104 stores the obtained feature amount of the object in the database 110 . When normalizing the object feature amount, the feature amount calculation unit 104 normalizes the size of the calculated object region by the minimum value and the maximum value of the object region corresponding to the object class.
  • the area of the object region of the object in the image is calculated, and the normalized value is obtained by dividing the area of the object region by the minimum or maximum value of the area corresponding to the class of the recognized object.
  • the feature amount calculator 104 stores the normalized object feature amount in the database 110 .
  • FIG. 7 shows an example of the operation of the image processing apparatus 100 according to the present embodiment, and shows the flow of processing for retrieving an image similar to the search query from the search target images stored in the database by the processing of FIG. there is
  • the user when performing a search, the user inputs a search query to the image processing apparatus 100 (S111).
  • the search unit 105 receives an input of a search query, which is a search condition, according to user's operation via the input unit 106 .
  • a plurality of images may be displayed on the display unit 107, and the user may select an image including a person's posture and an object of a search query (search key).
  • the images used for the search query may be images stored in the database 110, images provided by the image providing device 200, or other images.
  • the skeleton of a person as a result of posture estimation or the region and object class of an object as a result of object recognition may be displayed in each image so that they can be selected.
  • the pose and object of the search query may be selected from one image, or the pose and object of the search query may be selected from another image.
  • the search unit 105 synthesizes (merges) the image of the selected pose and the image of the object to generate one search query image.
  • the user selects one pose and one object as a search query.
  • the search query is not limited to one pose and one object, and may include any number of poses and any number of objects.
  • each image can display the confidence level of the pose estimation result and the confidence level of the object recognition result, and can be displayed to recommend poses (skeleton) with high confidence and objects with high confidence as search queries. good too. Postures and objects with certainty greater than or equal to a predetermined value may be highlighted.
  • the degree of certainty of a person's posture or the degree of certainty of an object may be input.
  • the user may input the posture (skeleton) of a person and the object to be a search query by other methods, not limited to images.
  • a posture may be input by moving each part of a skeleton structure according to a user's operation, or a user may input a class of an object. If the skeletal structure is input, the posture estimation process (S102b) may be omitted. Also, when the object class is input, the object recognition processing (S104b) may be omitted.
  • the image processing apparatus 100 estimates the posture of the person in the search query (S102b) and calculates the posture feature amount (S103b) in the same manner as when storing the search target.
  • Posture estimation section 102 detects the skeletal structure of the person (the person specified as the search query) in the image of the search query, and outputs the detected skeletal structure and its confidence.
  • the feature amount calculation unit 104 calculates the height, area, and the like of the skeletal region as the feature amount of the detected skeletal structure, and normalizes the feature amount, such as the height and area, of the skeletal region using a normalization parameter such as the height pixel count.
  • the image processing apparatus 100 recognizes the object of the search query (S104b) and calculates the object feature amount (S105b) in the same manner as when storing the search target.
  • the object recognition unit 103 recognizes the class of the object (the object specified as the search query) in the image of the search query, and outputs the class of the recognized object and its certainty.
  • the feature amount calculation unit 104 calculates the area of the object region or the like as the feature amount of the recognized object, and calculates the area of the object region or the like using a normalization parameter such as the minimum value or the maximum value of the area. Normalize the features.
  • the image processing apparatus 100 searches for images based on the search query (S112).
  • the search unit 105 searches all images stored in the database 110, which are search targets, using the pose and object of a person specified by the user as a search query, and extracts the feature amount of the pose of the person and the feature amount of the object. Search for images with high similarity.
  • the search unit 105 calculates the degree of similarity between each search target image stored in the database 110 and the search query.
  • the search unit 105 obtains the degree of similarity between the posture feature amount of the person to be searched stored in the database 110 and the calculated posture feature amount of the person in the search query. Also, the degree of similarity between the search target object feature quantity stored in the database 110 and the calculated object feature quantity of the search query is obtained.
  • the search unit 105 performs image similarity determination based on the obtained similarity of the posture feature amount and the obtained similarity of the object feature amount. For example, the search unit 105 extracts an image for which each of the obtained similarity of the posture feature amount and the obtained similarity of the object feature amount is larger than a threshold as a similar image.
  • the similarity determination may be performed by weighting either or both of the similarity of the posture feature amount and the similarity of the object feature amount. For example, the obtained similarity of the posture feature amount and the similarity of the object feature amount are respectively weighted (for example, 1.0, 0.8, etc.), and the total value of the weighted similarities is compared with a threshold to determine the similarity. A judgment may be made. Also, the threshold for determining each degree of similarity may be changed according to the weight.
  • the degree of certainty of pose estimation may be reflected in the degree of similarity of posture feature amounts
  • the degree of certainty of object recognition may be reflected in the degree of similarity of object feature amounts.
  • the similarity between the confidence of the pose of the person to be searched and the confidence of the pose of the person in the search query is obtained, and the similarity between the confidence of the object to be searched and the confidence of the object in the search query is obtained. good too.
  • the similarity may be obtained by weighting the feature amounts according to the respective degrees of certainty.
  • the posture feature of a person to be searched is multiplied by the confidence of the posture
  • the posture feature of the person in the search query is multiplied by the confidence of the posture
  • the similarity of the posture feature is obtained from the result of multiplication.
  • the object feature quantity to be retrieved is multiplied by the certainty of the object
  • the object feature quantity of the search query is multiplied by the certainty of the object
  • the similarity of the object feature quantity is obtained from the multiplication result.
  • the confidence may be compared with a threshold value, and only feature quantities whose confidence exceeds the threshold may be used for similarity calculation.
  • the search may be performed based on the similarity of only the feature amount relating to the posture of the person.
  • the image processing apparatus 100 displays the image search results (S113).
  • the search unit 105 acquires images (similar images) obtained as search results from the database 110 and displays them on the display unit 107 .
  • a similar image and a search query image may be displayed, and the pose (skeletal structure) and human region (skeletal region) of a person, the class of an object, the object region, and the like in each image may be displayed.
  • the display of each image may be changed according to the degree of similarity.
  • the images may be arranged and displayed in descending order of degree of similarity, or the image with the highest degree of similarity may be highlighted.
  • FIG. 8 shows a specific example of image retrieval by the image processing apparatus 100 according to the present embodiment.
  • a car with a person in a squatting posture in the image of the traffic accident is selected, and the image processing device uses the search query Q2. Enter 100. Then, the image processing apparatus 100 estimates the skeleton of the person's crouching posture from the image of the search query Q2, and recognizes the object class car from the image of the search query Q2.
  • an image that includes a posture with a high degree of similarity to the skeleton of the crouching posture and an object of a class that has a high degree of similarity with the car is extracted.
  • an image of a squatting person and a car such as search target P3 and search target P4, and to search for a desired scene of a traffic accident.
  • similar images are searched using the posture feature amount of a person and the object feature amount of an object in an image as a search query. That is, the posture of a person is estimated for an image to be retrieved to calculate a posture feature amount, and an object is recognized to calculate an object feature amount. Furthermore, for a search query, the posture of a person is estimated to calculate a posture feature amount, and an object is recognized to calculate an object feature amount. An image similar to the search query is extracted from the images to be searched based on the degree of similarity between the posture feature amount and the object feature amount. As a result, images having similar postures and similar objects can be retrieved, so images closer to the image (scene) to be retrieved can be retrieved.
  • Embodiment 2 will be described below with reference to the drawings.
  • an example in which similar images are searched for by further using the feature of the relationship between a person and an object in the first embodiment will be described.
  • Embodiment 1 similar images are retrieved by combining the features of a person's posture and the features of an object. As a result, as described above, it is possible to search for images in which the posture of the person and the object are similar. On the other hand, even in the first embodiment, there is a possibility that an image close to the image that the user wants to search cannot be searched depending on the case.
  • the person in the sitting posture and the PC in the image are selected as a search query Q3.
  • an image including a person in a sitting posture and a PC is extracted in order to search for images in which the posture of the person and the object are similar.
  • the search target P5 not only an image of a person operating the PC but also an image including a person sitting away from the PC is extracted.
  • image retrieval can be performed in consideration of the relationship between a person and an object.
  • the configuration of the image processing apparatus 100 is the same as that of the first embodiment.
  • the image processing apparatus 100 performs similarity determination based on the relationship between a person and an object in each image, and searches for similar images.
  • the feature amount calculation unit 104 calculates a relationship feature amount related to the relationship between a person and an object, in addition to the posture feature amount of the person and the object feature amount of the object.
  • the feature amount calculation unit 104 calculates the posture feature amount of a person in a search target image, the object feature amount of an object, and the relationship feature amount between a person and an object. , the object feature amount of the object, and the relationship feature amount of the person and the object are calculated.
  • the search unit 105 performs similarity determination based on the similarity of the posture feature amount, the similarity of the object feature amount, and the similarity of the relationship feature amount.
  • the similarity determination may be performed based on the weight of the similarity of the posture feature amount, the similarity of the object feature amount, and the similarity of the relationship feature amount.
  • the relationship feature amount in the present embodiment includes, for example, a distance relationship feature amount based on the distance between a person and an object, an orientation relationship feature amount based on the orientation of the person and the object, and a positional relationship between the person and the object. Includes positional relationship features.
  • the feature amount calculation unit 104 may calculate any one of the distance relationship feature amount, the orientation relationship feature amount, and the position relationship feature amount, or may calculate any combination of relationship feature amounts. An example of calculation of each relationship feature amount is shown below.
  • the feature amount calculation unit 104 extracts the distance between the person and the object from the search query image or the search target image, and uses it as a feature amount (distance relationship feature amount).
  • 10A and 10B show an example of extraction of distances used for the distance relationship feature quantity.
  • 10A is an example of distance extraction for the search query Q3 of FIG. 9, and
  • FIG. 10B is an example of distance extraction for the search target P5 of FIG.
  • the distance between the person and the object used for the distance relationship feature value is, for example, the distance between the human region of the person whose posture is estimated and the object region of the recognized object.
  • the human region is a rectangular region including a person whose posture is estimated, for example, a skeletal region including a human skeleton estimated by posture estimation as described in the first embodiment.
  • the person region may be a posture region including a person whose posture is detected when the posture is detected by another method, or may be a person region including a recognized person when the person is image-recognized.
  • the object area is a rectangular area including the recognized object, and is an object area including the object detected by object recognition.
  • the feature amount calculation unit 104 obtains the distance (the number of pixels) of a line connecting the coordinates of an arbitrary point included in the person area and the coordinates of an arbitrary point included in the object area in the image.
  • the distance between the center point of the person area and the center point of the object area is obtained. That is, the coordinates of the central point of the human area are obtained from the coordinates of the vertices of the rectangular human area, the coordinates of the central point of the object area are obtained from the coordinates of the vertices of the rectangular object area, and the central point of the human area and the object area are obtained. Find the distance between the center points of .
  • the feature amount calculation unit 104 may obtain the distance between the closest points of the human region and the object region. For example, it is possible to obtain the nearest point among all the points in the human area and all the points in the object area, and obtain the distance between the nearest points, or You can also find the distance between vertices.
  • the distance between the farthest points of the person area and the object area may be obtained.
  • the farthest points of all the points in the human area and all the points in the object area may be obtained, and the distance between the farthest points may be obtained.
  • the distance between the furthest vertices may be determined.
  • the distance between an arbitrary vertex of the person area and an arbitrary vertex of the object area may be obtained.
  • the feature amount calculation unit 104 may normalize the obtained distance between the person and the object using a normalization parameter, and use the normalized distance as the feature amount.
  • the normalization parameters include, for example, the image size of the search query and the target image, the height of the person whose posture was estimated (height pixel count shown in Embodiment 1), the size of the person region and the object region (height, width, area, etc.), IoU (Intersection over Union) that indicates the degree of overlap between the person area and the object area, or the like may be used.
  • the feature amount calculation unit 104 normalizes the distance by dividing the distance between the person and the object by the normalization parameter.
  • a distance relationship feature amount for example, the relationship between an object and a person when a person is sitting near the PC as in the search query Q3 in FIG. It is possible to obtain a feature quantity that indicates the characteristics of the relationship between an object and a person when the person is sitting far away. Therefore, it is possible to determine that the search query Q3 and the search target P5 are dissimilar by determining similarity based on the distance relationship feature amount.
  • the feature amount calculation unit 104 obtains the orientation of the person from the search query image or the search target image, and uses it as a feature amount (orientation relationship feature amount).
  • 11A and 11B show extraction examples of the orientation of a person used for the orientation relationship feature amount.
  • 11A is an extraction example of the direction of a person in the search query Q3 of FIG. 9, and
  • FIG. 11B is an example of extraction of the direction of a person in the search target P5 of FIG.
  • the orientation of the person used for the orientation relationship feature may be extracted, for example, from the pose of the person estimated by estimating the pose of the person, as shown in FIGS. 11A and 11B. That is, since the front, back, left, and right of the person can be detected from the estimated skeletal structure, the forward direction of the person in the image is extracted as the orientation of the person.
  • the orientation of a person can be similarly extracted not only by the skeletal structure, but also by estimating the posture by other methods.
  • the direction of a person may be extracted from the direction of the person's face instead of the posture of the person. For example, a person's face is recognized from an image, and the orientation of the recognized face is used as the orientation of the person.
  • the orientation of the person may be extracted from the line of sight of the person. For example, the line of sight of a person is recognized from an image, and the direction of the recognized line of sight is used as the direction of the person.
  • the feature amount calculation unit 104 obtains, for example, the degree of similarity (relationship) between the extracted orientation of the person and the orientation of the line connecting the person and the object as a feature amount.
  • the feature amount calculation unit 104 obtains the cosine similarity between the line connecting the person and the object and the direction of the person.
  • the line connecting the person and the object may be a line connecting the centers of rectangles or a line connecting arbitrary points of rectangles, as in the case of the above-described distance relationship feature amount.
  • the orientation of an object may be used as a feature quantity.
  • the orientation of the screen of the PC may be used as the orientation of the object.
  • the forward direction of the car may be the direction of the object.
  • the degree of similarity (relationship) between the orientation of the extracted object and the orientation of the person may be obtained as a feature amount.
  • the relationship between the object and the person when the person is sitting facing the PC as in the search query Q3 in FIG. 11A, or the search target P5 in FIG. It is possible to obtain a feature quantity that indicates the characteristics of the relationship between an object and a person when the person is sitting facing away from the PC. Therefore, it is possible to determine that the search query Q3 and the search target P5 are dissimilar by determining similarity based on the orientation relationship feature amount.
  • the feature amount calculation unit 104 obtains the positional relationship between the person and the object from the search query image or the search target image, and uses it as a feature amount (positional relationship feature amount).
  • 12A and 12B show an example of extracting the positional relationship used for the positional relationship feature quantity.
  • 12A is an extraction example of the positional relationship in the search query Q3 of FIG. 9, and
  • FIG. 12B is an extraction example of the positional relationship in the search target P5 of FIG.
  • the positional relationship used for the positional relationship feature can be extracted, for example, from multiple distances between the person whose posture is estimated and the recognized object. That is, the positional relationship between a point on one of the person whose pose is estimated and the object whose pose is estimated and a plurality of points on the other is used. For example, a one-to-many positional relationship between points on a person whose pose is estimated and a point on an estimated object, or a point on a person whose pose is estimated and points on a predetermined object. A one-to-many positional relationship may also be used. Note that positional relationships between multiple points in two regions may be used.
  • the feature amount calculation unit 104 obtains the distances of multiple lines connecting the person area and the object area in the image. In the example of FIGS. 12A and 12B, distances between one point in the object area and multiple points in the person area are obtained.
  • One point of the object area may be the central point of the object area or any point of the object area, as in the case of the distance relationship feature amount described above. If it can be recognized from the image of the object, the attention point such as the screen of the PC may be set as one point of the object.
  • the plurality of points in the human region may be joint points (keypoints, parts) of the human included in the skeleton (posture) of the recognized human. In FIGS.
  • the feature quantity calculation unit 104 calculates a plurality of distances between the human region and the object region obtained, a value obtained by normalizing the plurality of distances (normalization similar to the distance relationship feature quantity), or a plurality of distances and orientations. A feature amount is calculated based on the vector. After calculating the feature amount, in the similarity determination in the search unit 105, the feature amount of the query image and the feature amount of the search target image are evaluated, for example, by a plurality of distance similarities, a plurality of similarities of normalized distance values, Alternatively, the degree of similarity of a plurality of vectors (Lk distance (Euclidean distance or Manhattan distance), cosine similarity) may be used as the degree of similarity.
  • Lk distance Euclidean distance or Manhattan distance
  • cosine similarity may be used as the degree of similarity.
  • the search unit 105 may determine the distance or similarity between the feature amount of the query image and the feature amount of the search target image. For example, similarity determination may be performed based on multiple distances, normalized values of multiple distances, or distances (Euclidean distance, Manhattan distance, etc.) and similarities (cosine similarity, etc.) between multiple vectors.
  • the order of points of a person or an object according to the calculated lengths of multiple distances may be used as a feature quantity.
  • the order of closeness of each joint point may be used as a feature amount.
  • the feature amount is (1 wrist, 2 ankles, 3 head).
  • the search target P5 in FIG. 12B since the distance of each joint point of the person from the PC has a relationship of head ⁇ wrist ⁇ ankle, the feature amount is (1 head, 2 wrists, 3 ankles).
  • a positional relationship feature amount for example, as in the search query Q3 in FIG. It is possible to obtain a feature quantity that indicates the characteristics of the relationship between an object and a person when the person is sitting with their hands on the opposite side of the PC away from the PC, such as the object P5. Therefore, it is possible to determine that the search query Q3 and the search target P5 are dissimilar by determining similarity based on the positional relationship and the feature amount.
  • the distance relationship feature amount, the orientation relationship feature amount, and the position relationship feature amount may be feature amounts of distance, orientation, and position relationship in a three-dimensional space.
  • the image processing apparatus 100 may include a camera parameter acquisition unit that acquires camera parameters from a camera or the like that captured the image.
  • a camera may be used to image an object whose length and position are known in advance, and camera parameters may be obtained from the image.
  • FIG. 13 shows an operation example of the image processing apparatus 100 according to the present embodiment, showing the flow of processing for acquiring an image to be searched and storing it in the database.
  • the image processing apparatus 100 acquires an image to be searched (S101), as in the first embodiment, estimates the posture of a person in the acquired image (S102a), and calculates the posture feature amount (S103a). ), and also performs object recognition (S104a) and object feature amount calculation (S105a) in the acquired image.
  • the image processing apparatus 100 calculates the relationship feature amount regarding the relationship between the person and the object in the acquired image (S106a).
  • the feature amount calculation unit 104 calculates a relationship feature amount based on the relationship between the person whose posture was estimated in S102a from the search target image and the object recognized in S104a.
  • the feature amount calculation unit 104 calculates, for example, the distance relationship feature amount, the orientation relationship feature amount, and the position relationship feature amount, as the relationship feature amount, as described above.
  • the feature amount calculation unit 104 stores the calculated relationship feature amount in the database 110 .
  • FIG. 14 shows an example of the operation of the image processing apparatus 100 according to the present embodiment, and shows the flow of processing for retrieving an image similar to the search query from the search target images stored in the database by the processing of FIG. there is
  • the image processing apparatus 100 estimates the posture of a person in the search query (S102b) and calculates the posture feature amount (S103b). Also, object recognition (S104b) and object feature amount calculation (S105b) in the search query are performed.
  • the image processing apparatus 100 calculates the relationship feature amount regarding the relationship between the person and the object in the search query (S106b).
  • the feature amount calculation unit 104 calculates a relationship feature amount based on the relationship between the person whose posture was estimated in S102b from the search query image and the object recognized in S104b. As in the storage of the search target, the feature amount calculation unit 104 calculates, for example, the distance relationship feature amount, the orientation relationship feature amount, and the position relationship feature amount as the relationship feature amount.
  • the search unit 105 calculates the degree of similarity between the posture feature amount of the person in the search query and the posture feature amount of the person to be searched, and calculates the similarity between the posture feature amount of the object in the search query and the object feature amount of the object to be searched. Further, the degree of similarity between the relationship feature amount between the person and the object in the search query and the relationship feature amount between the person and the object to be searched is calculated.
  • the search unit 105 performs image similarity determination based on the similarity of the posture feature amount, the similarity of the object feature amount, and the similarity of the relationship feature amount.
  • the search unit 105 extracts, as a similar image, an image for which each of the similarity of the posture feature amount, the similarity of the object feature amount, and the similarity of the relationship feature amount is greater than a threshold.
  • the similarity determination may be performed by weighting any one of the similarity of the posture feature amount, the similarity of the object feature amount, and the similarity of the relationship feature amount, or a selected similarity. For example, each of the obtained similarity of the posture feature, the similarity of the object feature, and the similarity of the relationship feature is weighted (for example, 1.0, 0.8, 0.5, etc.).
  • the similarity determination may be performed by comparing the total value of the attached similarities with a threshold value. Also, the threshold for determining each degree of similarity may be changed according to the weight.
  • the search unit 105 calculates the similarity of the distance relationship feature amount, the similarity of the orientation relationship feature amount, the similarity of the positional relationship feature amount (any feature amount is calculated as the similarity of the relationship feature amount). If so, the degree of similarity of either) may be calculated.
  • the search unit 105 performs image similarity determination including the obtained similarity of the distance relationship feature amount, the similarity of the orientation relationship feature amount, and the similarity of the position relationship feature amount. For example, it is determined whether each of the similarity of the distance relationship feature amount, the similarity of the orientation relationship feature amount, and the similarity of the position relationship feature amount is greater than a threshold value.
  • Similarity determination may be performed by weighting any of the similarity of the distance relationship feature amount, the similarity of the orientation relationship feature amount, the similarity of the position relationship feature amount, or a selected similarity. For example, weight the similarity of the distance relationship feature, the similarity of the orientation relationship feature, and the similarity of the position relationship feature, and compare the sum of the weighted similarities with the threshold. Similarity determination may be performed by Also, the threshold for determining each degree of similarity may be changed according to the weight.
  • Embodiment 3 will be described below with reference to the drawings. In this embodiment, an example of searching for similar images in combination with HOI detection in the first or second embodiment will be described.
  • FIG. 15 shows the configuration of the image processing apparatus 100 according to this embodiment.
  • the image processing apparatus 100 according to the present embodiment includes an HOI detection unit 109 in addition to the configuration of the first or second embodiment.
  • the HOI detection unit 109 performs HOI detection described in Non-Patent Document 1.
  • the HOI detection unit 109 detects pairs of related persons and objects and verbs of persons (for example, an action such as a person kicking a soccer ball from a person and a soccer ball) from an image by HOI detection.
  • FIG. 16 shows an example of HOI detection.
  • a related pair of a person and a mobile phone (object) is detected from an image, and a verb indicating that the person is talking on the phone is detected.
  • the HOI detection unit 109 also generates a relevance score (certainty factor) of the verbs of the person detected by the HOI detection. The higher the relevance score, the more likely the detected person's verbs (including person-object pairs) are correct.
  • the HOI detection unit 109 may acquire the HOI detection result of performing HOI detection on the image in advance from an external device (the image providing device 200, the database 110, the input unit 106, etc.).
  • the search unit 105 may perform similarity determination using the HOI detection result obtained from the outside, or may perform similarity determination using the HOI detection result detected by the HOI detection processing of the HOI detection unit 109. .
  • the search unit 105 retrieves the first image and the second image based on the HOI detection result of performing the HOI detection process based on the first image and the HOI detection result of the second image acquired from the outside. Image similarity determination may be performed.
  • FIG. 17 shows an operation example of the image processing apparatus 100 according to the present embodiment, showing the flow of processing for acquiring an image to be searched and storing it in the database.
  • the present embodiment may be applied to the operation of the first embodiment.
  • the image processing apparatus 100 acquires an image to be searched (S101), as in the second embodiment, estimates the posture of a person in the acquired image (S102a), and calculates the posture feature amount (S103a). ), recognize the object in the acquired image (S104a), calculate the object feature amount (S105a), and further calculate the relationship feature amount between the person and the object in the acquired image (S106a).
  • the image processing apparatus 100 performs HOI detection based on the acquired image (S201a).
  • the HOI detection unit 109 performs HOI detection on the acquired image, detects pairs of persons and objects that are related in the image, and verbs (behaviors) of the persons, and also calculates a relevance score ( confidence).
  • the HOI detection unit 109 stores the detected pair of person and object, the verb of the person, and the relevance score in the database 110 .
  • FIG. 18 shows an example of the operation of the image processing apparatus 100 according to the present embodiment, and shows the flow of processing for retrieving an image similar to the search query from the search target images stored in the database by the processing of FIG. there is Although an example in which the present embodiment is applied to the operation of the second embodiment is shown here, the present embodiment may be applied to the operation of the first embodiment.
  • the image processing apparatus 100 estimates the posture of a person in the search query (S102b) and calculates the posture feature amount (S103b). , the recognition of the object in the search query (S104b) and the calculation of the object feature amount (S105b) are performed, and the relationship feature amount between the person and the object in the search query is calculated (S106b).
  • the image processing apparatus 100 performs HOI detection (S201b) following the input of the search query (S111).
  • the HOI detection unit 109 performs HOI detection on the image of the search query, detects pairs of people and objects that are related in the image, and verbs of the people. Generate a relevance score for
  • the image processing apparatus 100 searches for images based on the search query (S112).
  • the search unit 105 performs posture-object search (first similarity determination) using the posture estimation results and object recognition results from S102a to S106b and S102b to S106b, and HOI search (first similarity determination) using the HOI detection results from S201a and S201b. 2 similarity determination) are combined to search for similar images.
  • the pose-object search is the search method shown in the first or second embodiment. That is, the similarity of the posture feature of the person and the similarity of the object feature (and the similarity of the relationship feature) of the image to be searched and the image of the search query are obtained, and the similarity is determined based on the obtained similarity. , to search for similar images.
  • the degree of similarity between the HOI detection result for the search target image and the HOI detection result for the search query image is obtained, similarity determination is performed based on the obtained similarity, and similar images are searched. That is, similarity determination is performed based on the degree of similarity between a pair of related persons and objects obtained by HOI detection and the verbs of the persons, and similar images are retrieved.
  • the search unit 105 may select either posture-object search or HOI search to perform a search. For example, either posture-object search or HOI search is selected based on the relevance score (certainty factor) of the HOI detection result.
  • the search unit 105 searches for similar images by HOI search.
  • the search unit 105 performs the posture-object search to obtain a similar image. search for
  • the search unit 105 may search using both posture-object search and HOI search.
  • the pose-object search and the HOI search are weighted based on the relevance score of the HOI search result.
  • the search unit 105 (Call: 0.8, etc.), weighting the HOI search to search for similar images.
  • the relevance score of the search query and the HOI detection result of the search target is lower than the threshold, that is, when no verb with high confidence is estimated from both the search query image and the search target image (pick up: 0.03), weighting the pose-object search to search for similar images.
  • Either pose-object search or HOI search based on confidence of pose estimation and object recognition e.g. average of pose estimation confidence and object recognition confidence
  • confidence of pose estimation and object recognition e.g. average of pose estimation confidence and object recognition confidence
  • the pose-object search or the HOI search is selected, or the pose-object search and the HOI search are weighted. good too.
  • the user may manually adjust the weights of pose-object search and HOI search.
  • the similarity used in the pose-object search and the similarity used in the HOI search may be weighted.
  • an image having any weighted similarity greater than a threshold may be extracted, or an image having a total weighted similarity greater than a threshold may be extracted.
  • similar images are searched using the detection result of HOI detection.
  • a similar image can be effectively retrieved by retrieving an image using posture-object retrieval according to the first or second embodiment and HOI retrieval by HOI detection.
  • HOI detection only events in the learning data can be searched. For example, if the verb "traffic accident" has not been learned, similar images cannot be retrieved. Also, in HOI detection, the similarity may be erroneously determined because the posture is not recognized. For example, if a person and a soccer ball are close to each other, it may be determined that they are kicking even if they are not kicking. On the other hand, in HOI detection, it is possible to exclude irrelevant person-object pairs and narrow down the search to related person-object pairs. Therefore, depending on the degree of certainty of HOI detection, either posture-object search or HOI search, or posture-object search and HOI search are weighted to make the best use of the merits of HOI detection. While compensating for the disadvantages of HOI detection, similar images can be retrieved with high accuracy.
  • Each configuration in the above-described embodiments is configured by hardware or software, or both, and may be configured from one piece of hardware or software, or may be configured from multiple pieces of hardware or software.
  • Each device and each function (processing) may be implemented by a computer 20 having a processor 21 such as a CPU (Central Processing Unit) and a memory 22 as a storage device, as shown in FIG.
  • a program for performing the method (image processing method) in the embodiment may be stored in the memory 22 and each function may be realized by executing the program stored in the memory 22 by the processor 21 .
  • These programs contain instructions (or software code) that, when read into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored in a non-transitory computer-readable medium or tangible storage medium.
  • computer readable media or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drives (SSD) or other memory technology, CDs - ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or communication medium.
  • transitory computer readable media or communication media include electrical, optical, acoustic, or other forms of propagated signals.
  • Posture estimation acquisition means for acquiring an estimation result of estimating the posture of a person included in the first and second images
  • object recognition acquisition means for acquiring a recognition result of recognizing an object other than the person included in the first and second images
  • Similarity determination means for performing similarity determination between the first image and the second image based on the estimation result of the pose of the person and the recognition result of the object
  • An image processing system comprising: (Appendix 2)
  • the similarity determination means performs the similarity determination based on the similarity of the posture feature amount based on the estimation result of the posture of the person and the similarity of the object feature amount based on the recognition result of the object.
  • the image processing system according to Appendix 1. (Appendix 3) The similarity determination means performs the similarity determination based on the weight of the similarity of the posture feature amount and the similarity of the object feature amount.
  • the image processing system according to appendix 2. (Appendix 4) The similarity determination means performs the similarity determination based on the confidence of the person whose posture was estimated and the confidence of the estimated object. 4.
  • the image processing system according to any one of Appendices 1 to 3. (Appendix 5)
  • the first and second images each include a plurality of consecutive images in time series, The similarity determination means performs the similarity determination based on the estimated change in the posture of the person and the recognized change in the object. 5.
  • the similarity determination means performs the similarity determination based on a relationship between the person and the object based on an estimation result of the posture of the person and a recognition result of the object. 6.
  • the image processing system according to any one of Appendices 1 to 5.
  • the similarity determination means based on the similarity of the posture feature amount of the posture of the person, the similarity of the object feature amount of the object, and the similarity of the relationship feature amount based on the relationship between the person and the object, performing the similarity determination; The image processing system according to appendix 6.
  • the similarity determination means performs the similarity determination based on weights of the similarity of the posture feature amount, the similarity of the object feature amount, and the similarity of the relationship feature amount.
  • the image processing system according to appendix 7. (Appendix 9)
  • the relationship feature amount indicating the relationship between the person and the object includes a distance relationship feature amount based on the distance between the person and the object, an orientation relationship feature amount based on the orientation of the person and the object, and a relationship feature amount based on the orientation of the person and the object. Including any of the positional relationship features based on the positional relationship of the object, The image processing system according to appendix 7 or 8.
  • the distance between the person and the object used in the distance relationship feature is the distance between the person region containing the person whose posture is estimated and the object region containing the recognized object.
  • the image processing system according to appendix 9. (Appendix 11)
  • the distance between the person and the object includes the distance between the center point of the person area and the center point of the object area, the distance between the closest points of the person area and the object area, and the distance between the person area and the object area. including either the distance between the farthest points, or the distance between any vertex of the person region and any vertex of the object region, 11.
  • the distance relationship feature amount is a feature amount obtained by normalizing the distance between the person and the object using a normalization parameter, 12.
  • the normalization parameters are the image sizes of the first and second images, the height of the person based on the estimated pose of the person, the average size of the person region and the object region, the person region and the object region. Including any IoU (Intersection over Union) between regions, The image processing system according to appendix 12.
  • the distance between the person and the object is a distance in a three-dimensional space obtained from camera parameters that captured the first and second images, 14.
  • the orientation of the person used in the orientation relationship feature includes the orientation of the body of the person based on the estimated posture of the person, the orientation of the face of the person recognized from the image of the person, and the orientation of the face of the person recognized from the image of the person. including any of the gaze directions of said person to be recognized; 15.
  • the orientation relationship feature amount is a feature amount based on the degree of similarity between the orientation of the person and the orientation of a line connecting the person and the object, 16.
  • the orientation of the person is an orientation in a three-dimensional space obtained from camera parameters that captured the first and second images, 17.
  • the positional relationship used in the positional relationship feature is a positional relationship between one point on one of the person whose posture is estimated and the estimated object and a plurality of points on the other. 18.
  • the points on the person are joint points of the person based on the estimated posture of the person, 18.
  • the positional relationship between the one point and the plurality of points includes the distances of the plurality of lines connecting the points of the person and the points of the object, the normalized values of the distances of the plurality of lines, and the vectors of the plurality of lines. including any 19.
  • the image processing system according to appendix 18 or 19. The similarity determination means performs similarity determination based on any of distance similarity between the plurality of lines, distance normalized value similarity between the plurality of lines, and vector similarity between the plurality of lines. 21.
  • the image processing system according to appendix 20. (Appendix 22)
  • the positional relationship feature indicates the order of a plurality of points of the person or the object according to the distance of the plurality of lines, 21.
  • the image processing system according to appendix 20. The positional relationship between the one point and the plurality of points is a positional relationship in a three-dimensional space obtained from camera parameters that captured the first and second images. 23.
  • the image processing system according to any one of appendices 18-22.
  • Appendix 24 HOI detection and acquisition means for acquiring HOI detection results of HOI (Human Object Interaction) detection for the first and second images, The similarity determination means performs a first similarity determination based on the estimation result of the posture of the person and the recognition result of the object, and a second similarity determination based on the HOI detection result. 24.
  • the HOI detection acquisition means performs HOI detection on the first or second image based on the first or second image. 25.
  • the image processing system according to appendix 24 The image processing system according to appendix 24.
  • the similarity determination means performs the second similarity determination based on the HOI detection result of HOI detection performed based on the first image and the HOI detection result of the acquired second image. 26.
  • the image processing system according to appendix 24 or 25.
  • the similarity determination means performs either the first similarity determination or the second similarity determination, or the first similarity determination and the second similarity determination, according to the certainty of the detection result of the HOI detection. weighting judgments and making similar judgments, 27.
  • the image processing system according to any one of appendices 24-26.
  • the first image is a query image; the second image includes a plurality of search target images;
  • the similarity determination means searches for an image similar to the query image from the plurality of search target images based on the result of the similarity determination.
  • the image processing system according to any one of appendices 1 to 27.
  • (Appendix 29) a database that stores estimation results of the posture of the person and recognition results of the object in the plurality of search target images;
  • the similarity determination means refers to the database and searches for an image similar to the query image from the plurality of search target images. 29.
  • the posture estimation obtaining means estimates a posture of a person included in the first or second image based on the first or second image; the object recognition acquisition means recognizes an object included in the first or second image based on the first or second image; 29.
  • the posture estimation obtaining means estimates the skeletal structure of the person as the posture of the person included in the first or second image, based on the first or second image. 31.
  • the object recognition acquisition means recognizes an object class of an object included in the first or second image based on the first and second images. 32.
  • the similarity determination means determines a result of estimating a pose of a person based on the first image, a recognition result of an object recognized based on the first image, and a person of the obtained second image. performing the similarity determination based on the estimation result of the pose and the recognition result of the object in the acquired second image; 33.
  • the image processing system according to any one of appendices 30-32.
  • Appendix 34 obtaining an estimation result of estimating the posture of a person included in the first and second images; Acquiring a recognition result of recognizing an object other than the person included in the first and second images; performing similarity determination between the first image and the second image based on the estimation result of the pose of the person and the recognition result of the object; Image processing method.
  • Appendix 35 obtaining an estimation result of estimating the posture of a person included in the first and second images; Acquiring a recognition result of recognizing an object other than the person included in the first and second images; performing similarity determination between the first image and the second image based on the estimation result of the pose of the person and the recognition result of the object;
  • a non-transitory computer-readable medium storing an image processing program for causing a computer to execute processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

画像処理システム(10)は、第1の画像と第2の画像に含まれる人物の姿勢を推定した推定結果を取得する姿勢推定取得部(11)と、第1の画像と第2の画像に含まれる人物以外の物体を認識した認識結果を取得する物体認識取得部(12)と、姿勢推定取得部(11)により取得された第1の画像と第2の画像の人物の姿勢の推定結果と物体認識取得部(12)により取得された第1の画像と第2の画像の物体の認識結果に基づいて、第1の画像と第2の画像との類似判定を行う類似判定部(13)と、を備える。

Description

画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体
 本発明は、画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体に関する。
 近年、複数の画像の中から類似する画像を自動的に分類及び検索等する画像処理技術が利用されている。関連する技術として、例えば、特許文献1が知られている。特許文献1には、人物を撮像した画像から人物の姿勢を推定し、推定された姿勢に類似する姿勢を含む画像を検索する技術が開示されている。
 なお、その他、人物の行動認識に関連する技術として、非特許文献1が知られている。また、人物の骨格推定に関連する技術として、非特許文献2が知られている。
特開2019-091138号公報
Chen Gao, Yuliang Zou, Jia-Bin Huang, "iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection", arXiv:1808.10437v1 [cs.CV], <URL:https://arxiv.org/abs/1808.10437v1>, 30 Aug 2018 Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 上記特許文献1のような関連する技術では、類似する画像を検索するため、人物の姿勢の特徴に基づいた特徴量を用いている。しかしながら、関連する技術では、人物の姿勢のみに着目しているため、画像の類似判定を精度よく行うことができない場合がある。
 本開示は、このような課題に鑑み、画像の類似判定の精度を向上することが可能な画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体を提供することを目的とする。
 本開示に係る画像処理システムは、第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得する姿勢推定取得手段と、前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得する物体認識取得手段と、前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う類似判定手段と、を備えるものである。
 本開示に係る画像処理方法は、第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得し、前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得し、前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行うものである。
 本開示に係る画像処理プログラムが格納された非一時的なコンピュータ可読媒体は、第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得し、前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得し、前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う、処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒である。
 本開示によれば、画像の類似判定の精度を向上することが可能な画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体を提供することができる。
関連する技術の課題を説明するための図である。 実施の形態に係る画像処理システムの概要を示す構成図である。 実施の形態1に係る画像処理装置の構成例を示す構成図である。 実施の形態1に係る画像処理装置の他の構成例を示す構成図である。 実施の形態1に係る画像処理装置の動作例を示すフローチャートである。 実施の形態1に係る画像処理装置の動作例で使用する骨格構造を示す図である。 実施の形態1に係る画像処理装置の動作例を示すフローチャートである。 実施の形態1に係る画像処理装置による検索例を示す図である。 実施の形態1に係る画像処理装置による検索例を示す図である。 実施の形態2に係る距離関係性特徴量を説明するための図である。 実施の形態2に係る距離関係性特徴量を説明するための図である。 実施の形態2に係る向き関係性特徴量を説明するための図である。 実施の形態2に係る向き関係性特徴量を説明するための図である。 実施の形態2に係る位置関係性特徴量を説明するための図である。 実施の形態2に係る位置関係性特徴量を説明するための図である。 実施の形態2に係る画像処理装置の動作例を示すフローチャートである。 実施の形態2に係る画像処理装置の動作例を示すフローチャートである。 実施の形態3に係る画像処理装置の構成例を示す構成図である。 実施の形態3に係る画像処理装置による検出例を示す図である。 実施の形態3に係る画像処理装置の動作例を示すフローチャートである。 実施の形態3に係る画像処理装置の動作例を示すフローチャートである。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
(実施の形態に至る検討)
 上記のように関連する技術では、画像から人物の姿勢を推定し、推定された姿勢に類似する姿勢を含む画像を検索する。しかしながら、人物の姿勢のみに基づいて検索を行うと、必ずしもユーザが望む画像(シーン)を検索できない場合がある。
 例えば、図1に示すように、車いすが自走するシーンを検索したい場合、人物が車いすに座った状態の画像を検索クエリQ1として、検索クエリQ1に類似する類似画像を検索する。そうすると、関連する技術では、検索対象の画像の中から検索対象P1や検索対象P2のような画像を類似画像として抽出する。関連する技術では、人物の姿勢のみに基づいて検索を行うため、検索対象P1のように、人物が車いすに座っている画像に限らず、検索対象P2のように、単に人物がいすに座っている画像も抽出してしまう。すなわち、姿勢のみの特徴量から類似判断を行うと、人物がいすに座っている画像も類似画像であると判定してしまう。このため、関連する技術は、ユーザが検索したい画像(シーン)に近い画像を精度よく検索することはできない場合がある。
 また、非特許文献1に記載のHOI(Human-Object-Interaction)検出を用いて類似画像を検索する方法が考えられる。HOI検出により、画像から関連する人物と物体のペアを検出し、人物の動詞(行動)を検出できる。検索クエリから検出される人物の動詞と、検索対象から検出される人物の動詞に基づいて、画像の類似判定を行うことにより、人物と物体を考慮した類似画像の検索が可能である。
 しかしながら、HOI検出では、機械学習による事前準備が前提となる。このため、人物と物体が相互作用している画像を予め大量に学習する必要がある。そうすると、事前に学習されていない動詞の画像を検索することは困難である。このため、この場合でも、ユーザが望む画像を精度よく検索することはできない。
(実施の形態の概要)
 図2は、実施の形態に係る画像処理システム10の概要を示している。図2に示すように、画像処理システム10は、姿勢推定取得部11、物体認識取得部12、類似判定部13を備えている。なお、画像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。
 姿勢推定取得部11は、第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得する。姿勢推定取得部11は、データベース等から推定結果を取得してもよいし、第1または第2の画像に基づいて姿勢推定処理を行い、第1または第2の画像に含まれる人物の姿勢を推定してもよい。例えば、姿勢推定取得部11は、第1または第2の画像に基づいて、第1または第2の画像に含まれる人物の姿勢として人物の骨格構造を推定する。物体認識取得部12は、第1及び第2の画像に含まれる人物以外の物体を認識した推定結果を取得する。物体認識取得部12は、データベース等から認識結果を取得してもよいし、第1または第2の画像に基づいて物体認識処理を行い、第1または第2の画像に含まれる物体を認識してもよい。例えば、物体認識取得部12は、第1または第2の画像に基づいて、第1または第2の画像に含まれる物体の物体クラスを認識する。
 類似判定部13は、第1及び第2の画像に対する人物の姿勢の推定結果と、第1及び第2の画像に対する物体の認識結果に基づいて、第1の画像と第2の画像との類似判定を行う。類似判定部13は、データベース等から取得した推定結果及び認識結果を使用してもよいし、第1または第2の画像に基づいた姿勢推定処理により推定された推定結果及び第1または第2の画像に基づいた物体認識処理により認識された認識結果を使用してもよい。例えば、類似判定部13は、第1の画像に基づいて推定した人物の姿勢の推定結果及び第1の画像に基づいて認識した物体の認識結果と、取得した第2の画像の人物の姿勢の推定結果及び取得した第2の画像の物体の認識結果とに基づいて、類似判定を行う、例えば、類似判定部13は、人物の姿勢の推定結果に基づいた姿勢特徴量の類似度と、物体の認識結果に基づいた物体特徴量の類似度に基づいて、第1の画像と第2の画像の類似判定を行う。類似判定とは、2つの画像が類似しているか否かの判定である。例えば、所定値よりも類似度が高い場合、2つの画像は類似していると判定し、所定値よりも類似度が低い場合、2つの画像は類似していないと判定する。
 また、第1の画像をクエリ画像とし、第2の画像を複数の検索対象画像として、類似判定部13は、類似判定した結果に基づいて、複数の検索対象画像からクエリ画像に類似する画像を検索してもよい。
 このように、実施の形態では、人物の姿勢の推定結果に加えて、物体の認識結果も用いて、画像の類似判断を行う。これにより、関連する技術のように姿勢のみを用いる場合と比べて、精度よく類似判断を行うことができる。例えば、図1の例について、実施の形態によれば、検索クエリQ1と検索対象P1は姿勢及び物体の類似度が高いため、2つの画像は類似していると判断でき、検索クエリQ1と検索対象P2は姿勢の類似度が高いものの物体の類似度が低いため、2つの画像は非類似であると判断できる。
(実施の形態1)
 以下、図面を参照して実施の形態1について説明する。図3は、本実施の形態に係る画像処理装置100の構成を示している。
 画像処理装置100は、データベース(DB)110とともに画像処理システム1を構成する。画像処理装置100を含む画像処理システム1は、画像から推定される人物の姿勢と画像から認識される物体に基づき、検索クエリに類似する画像(シーン)を検索するシステムである。
 また、画像処理システム1は、画像処理装置100に画像(検索対象)を提供する画像提供装置200を備えていてもよい。例えば、画像提供装置200は、画像を撮像するカメラでもよいし、予め画像が格納された画像記憶装置でもよい。画像提供装置200は、人物や物体を含む2次元の画像を生成(記憶)し、生成した画像を画像処理装置100へ出力する。画像提供装置200は、画像(映像)を画像処理装置100へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、画像提供装置200を画像処理装置100の内部に設けてもよい。
 データベース110は、画像処理装置100の処理に必要な情報や処理結果のデータ等を格納するデータベースである。データベース110は、画像取得部101が取得した画像(検索対象)や、姿勢推定部102の推定結果、物体認識部103の認識結果、機械学習用のデータ、特徴量算出部104が算出した特徴量、検索部105の検索結果等を記憶する。データベース110は、画像処理装置100とデータを入出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、データベース110をフラッシュメモリなどの不揮発性メモリやハードディスク装置等として、画像処理装置100の内部に設けてもよい。
 図3に示すように、画像処理装置100は、画像取得部101、姿勢推定部102、物体認識部103、特徴量算出部104、検索部105、入力部106、表示部107を備えている。なお、各部(ブロック)の構成は一例であり、後述の動作(方法)が可能であれば、その他の各部で構成されてもよい。また、画像処理装置100は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、1つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、姿勢推定部102や物体認識部103等を外部の装置としてもよい。
 画像取得部101は、画像提供装置200から画像を取得する。画像取得部101は、画像提供装置200が生成(記憶)した人物や物体を含む2次元の画像(複数の画像を含む映像)を取得する。例えば、取得する画像は検索対象となる画像であり、画像取得部101は、取得した画像をデータベース110に格納する。
 姿勢推定部102は、画像に基づいて画像内の人物の姿勢を推定する。なお、姿勢推定部102は、外部の装置(画像提供装置200やデータベース110、入力部106等)から、予め画像内の人物の姿勢を推定した推定結果を取得してもよい。姿勢推定部102は、取得された検索対象の画像内の人物の姿勢を推定し、また、検索時に検索クエリの画像内の人物の姿勢を推定する。姿勢推定部102は、検索対象の人物の姿勢を推定する第1の姿勢推定部と、検索クエリの人物の姿勢を推定する第2の姿勢推定部を含むとも言える。
 この例では、姿勢推定部102は、人物の姿勢として、画像から人物の骨格構造を検出する。なお、骨格構造の検出に限らず、機械学習を用いたその他の姿勢推定エンジンより、画像内の人物の姿勢(姿勢ラベル)を推定してもよい。姿勢推定部102は、2次元の画像に基づき、画像内の人物の2次元の骨格構造を検出する。姿勢推定部102は、取得された画像の中で認識される全ての人物について、骨格構造を検出する。姿勢推定部102は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。姿勢推定部102は、例えば、非特許文献2のOpenPose等の骨格推定技術を用いる。姿勢推定部102は、推定した人物の姿勢(骨格構造)とともに、推定の確かさを示す確信度を出力する。確信度が高いほど、推定した人物の姿勢が正しい(人物である)可能性が高い。姿勢推定部102は、検出対象の人物の姿勢推定結果(骨格構造及び確信度)をデータベース110に格納する。
 OpenPose等の骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。OpenPose等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン(ボーンリンク)」とから構成される。このため、以下では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明する場合があるが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。
 物体認識部103は、画像に基づいて画像内の物体を認識する。なお、物体認識部103は、外部の装置(画像提供装置200やデータベース110、入力部106等)から、予め画像内の物体を認識した認識結果を取得してもよい。認識する物体は、人物以外の物体、すなわち、姿勢を推定した人物を含む人以外の物(例えば、クラスが人以外の物)である。物体認識部103は、取得された検索対象の画像内の物体を認識し、また、検索時に検索クエリの画像内の物体を認識する。物体認識部103は、検索対象の物体を認識する第1の物体認識部と、検索クエリの物体を認識する第2の物体認識部を含むとも言える。
 物体認識部103は、画像内の物体のクラスを認識する。物体のクラスは、物体の種類やカテゴリを示す。物体のクラスは、検索条件等に応じて、階層化(細分化)されてもよい。物体認識部103は、取得された画像内の全ての物体について、クラスを認識する。例えば、物体認識部103は、機械学習を用いた物体認識エンジンにより画像内の物体のクラスを認識してもよい。物体の画像の特徴(パターン)と物体のクラスを機械学習することで物体を認識できる。物体認識部103は、画像内の物体領域を検出し、検出した物体領域内の物体のクラスを認識する。また、物体認識部103は、認識した物体のクラスとともに、認識の確かさを示す確信度を出力する。確信度が高いほど、認識した物体のクラスが正しい可能性が高い。物体認識部103は、検索対象の物体認識結果(物体クラス及び確信度)をデータベース110に格納する。
 なお、物体認識部103は、物体のクラスに限らず、物体の特徴に関するその他の情報を認識してもよい。一例として、物体の画像の各部の特徴から物体の状態を認識してもよい。例えば、物体の状態は、ノートPC(Personal Computer)が開いている状態/閉じている状態、PCの画面が表示されている状態/消えている状態、車のヘッドライトやウインカーが点灯している状態/消灯しっている状態、車のドアが開いている状態/閉じている状態等である。対象画像の物体の状態を格納し、検索クエリの物体の状態に類似する画像を検索可能としてもよい。
 特徴量算出部104は、画像から推定された(取得された)人物の姿勢の推定結果に基づいた姿勢特徴量を算出するとともに、画像から認識された(取得された)物体の認識結果に基づいた物体特徴量を算出する。また、特徴量算出部104は、検索対象の画像内の人物の姿勢特徴量及び物体の物体特徴量を算出し、検索クエリの画像内の人物の姿勢特徴量及び物体の物体特徴量を算出する。特徴量算出部104は、検索対象の姿勢特徴量及び物体特徴量を算出する第1の特徴量算出部と、検索クエリの姿勢特徴量及び物体特徴量を算出する第2の特徴量算出部を含むとも言える。特徴量算出部104は、算出した検索対象の姿勢特徴量及び物体特徴量(正規化した場合は正規化値)をデータベース110に格納する。なお、特徴量算出部104は、姿勢特徴量と物体特徴量の両方を算出してもよいし、姿勢特徴量のみを算出してもよい。例えば、物体の認識結果の情報(物体のクラス)のみを用いて物体の類似度の判断を行う場合は、物体特徴量の算出を省略してもよい。この場合、物体の認識結果の情報が物体特徴量を示しているとも言える。
 特徴量算出部104は、人物の姿勢として検出された2次元の骨格構造の特徴量を算出する。骨格構造の特徴量(姿勢特徴量)は、人物の骨格(姿勢)の特徴を示しており、人物の骨格に基づいて画像を検索するための要素となる。骨格構造の特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向(高さ方向または縦方向)は、画像における上下の方向(Y軸方向)であり、例えば、地面(基準面)に対し垂直な方向である。また、左右方向(横方向)は、画像における左右の方向(X軸方向)であり、例えば、地面に対し平行な方向である。
 また、特徴量算出部104は、算出した姿勢特徴量を正規化してもよい。例えば、正規化パラメータとして、骨格領域の最小値や最大値、人物の身長等を用いてもよい。例えば、特徴量算出部104は、2次元の画像内の人物の直立時の高さ(身長画素数)を算出し、算出された人物の身長画素数に基づいて、人物の骨格構造(骨格情報)を正規化する。身長画素数は、2次元の画像における人物の身長(2次元画像空間上の人物の全身の長さ)である。特徴量算出部104は、検出された骨格構造の各ボーンの長さ(2次元画像空間上の長さ)から身長画素数(ピクセル数)を求める。特徴量算出部104は、骨格構造に含まれる各キーポイント(特徴点)の画像上での高さを、身長画素数で正規化する。キーポイントの高さは、キーポイントのY座標の値(画素数)から求めることができる。
 あるいは、高さ方向は、実世界の3次元座標空間における地面(基準面)に対し垂直な鉛直軸の方向を、2次元座標空間に投影した鉛直投影軸の方向(鉛直投影方向)でもよい。この場合、キーポイントの高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて2次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値(画素数)から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラの姿勢、位置、撮像角度、焦点距離等である。カメラにより、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。
 特徴量算出部104は、物体特徴量を算出する場合、画像から認識された物体の特徴量を算出する。物体特徴量は、画像における物体の特徴を示しており、物体に基づいて画像を検索するための要素となる。例えば、物体特徴量は、認識した物体の画像の特徴量である。物体特徴量は、物体の全体の特徴量でもよいし、物体の一部の特徴量でもよく、物体の各部のように複数の特徴量を含んでもよい。一例として、特徴量は、物体を機械学習することで得られた特徴量や、認識した物体の画像上の大きさや形状等である。物体の大きさは、画像上の物体を含む物体領域の上下方向の高さや左右方向の幅、面積等である。
 また、特徴量算出部104は、算出した物体特徴量を正規化してもよい。例えば、正規パラメータとして、物体クラスに対応した物体領域の最小値や最大値、物体の高さや幅等を用いてもよい。例えば、特徴量算出部104は、画像内の物体の物体領域の面積を算出し、物体クラスに対応した面積の最小値または最大値に基づいて、当該物体の物体領域の面積を正規化する。
 検索部(類似判定部)105は、データベース110に格納された検索対象の複数の画像の中から、検索クエリの画像と類似度の高い画像を検索する。この例では、検索クエリ(検索条件)は、人物の姿勢及び物体である。検索部105は、画像における人物の姿勢の特徴量及び物体の特徴量(物体クラスを含む)に基づいて、検索クエリに該当する画像を検索する。
 検索部105は、検索クエリの姿勢特徴量と検索対象の姿勢特徴量との類似度、及び、検索クエリの物体特徴量と検索対象の物体特徴量との類似度に基づいて、画像の類似判定を行い、検索クエリに類似する画像を抽出する。検索部105は、検索クエリの姿勢特徴量と類似度が高い姿勢特徴量を有し、かつ、検索クエリの物体特徴量と類似度が高い物体の特徴量を有する画像を検索する。特徴量間の類似度は、特徴量間の距離である。例えば、姿勢特徴量の類似度及び物体特徴量の類似度の重みに基づいて、類似判断を行ってもよい。また、姿勢を推定した人物の確信度と推定した物体の確信度に基づいて、類似判断を行ってもよい。
 検索部105は、姿勢の類似度を求める場合、骨格構造の全体の特徴量の類似度を求めてもよいし、骨格構造の一部の特徴量の類似度を求めてもよい。例えば、骨格構造の第1の部分(例えば両手)及び第2の部分(例えば両足)の特徴量の類似度を求めてもよい。また、検索部105は、物体の類似度を求める場合、物体の全体の特徴量の類似度を求めてもよいし、物体の一部の特徴量の類似度を求めてもよい。検索部105は、物体のクラスが一致しているか否かを判定した結果を類似度としてもよいし、物体のクラスが階層化されている場合には、物体のクラスの全部または一部が一致しているか判定した結果を類似度としてもよい。
 なお、検索部105は、各画像における姿勢特徴量及び物体特徴量に基づいて検索してもよいし、時系列に連続する複数の画像(映像)における姿勢特徴量及び物体特徴量(物体クラスを含む)の変化に基づいて検索してもよい。すなわち、画像に限らず取得した映像を格納し、検索クエリの映像から、人物の姿勢及び物体が類似する映像を検索してもよい。検索部105は、特徴量の類似度の検出をフレーム(画像)単位で行う。例えば、複数のフレームからキーフレームを抽出し、抽出したキーフレームを用いて類似度を判定してもよい。検索クエリの映像と類似する映像を検索することで、人物の姿勢や人物と物体の関係の変化を検索キーとして検索できる。例えば、人物がコップを置いてスマホを持つ場合のように、物体の変化を検索キーとして検索できる。
 入力部106は、画像処理装置100を操作するユーザから入力された情報を取得する入力インタフェースである。入力部106は、例えば、GUI(Graphical User Interface)であり、キーボードやマウス、タッチパネル等の入力装置から、ユーザの操作に応じた情報が入力される。例えば、入力部106は、複数の画像の中から、指定された人物の姿勢及び物体を検索クエリとして受け付ける。また、検索クエリとなる人物の姿勢(骨格)及び物体のクラスをユーザが手動で入力してもよい。
 表示部107は、画像処理装置100の動作(処理)の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機EL(Electro Luminescence)ディスプレイ等のディスプレイ装置である。表示部107は、検索部105の検索結果等、各部の処理結果をGUIに表示する。
 なお、図4に示すように、画像処理装置100は、検索部105に加えて、または、検索部105の代わりに、画像を分類する分類部108を備えていてもよい。分類部108は、データベース110に格納された複数の画像を特徴量に基づいて分類する(クラスタリングする)。分類部108は、検索部105と同様に、各画像間の姿勢特徴量及び物体特徴量の類似度に基づいて、画像の類似判定を行い、類似する画像を分類する。分類部108は、姿勢特徴量の類似度が高く、かつ、物体特徴量の類似度が高い画像を同じクラスタ(グループ)となるように分類する。分類部108は、検索部105のように、指定されたクエリ(分類条件)に基づいて画像を分類してもよい。
 図5は、本実施の形態に係る画像処理装置100の動作例を示し、検索対象の画像を取得しデータベースに格納する処理の流れを示している。
 図5に示すように、画像処理装置100は、画像提供装置200から画像を取得する(S101)。画像取得部101は、人物の姿勢及び物体に基づいて検索を行うための検索対象である画像を画像提供装置200から取得し、取得した画像をデータベース110に格納する。画像取得部101は、カメラから所定の期間に撮像された複数の画像を取得してもよいし、記憶装置に格納された複数の画像を取得してもよい。取得された複数の画像について以降の処理を行う。
 続いて、画像処理装置100は、取得した画像に基づいて人物の姿勢を推定する(S102a)。例えば、取得した検索対象の画像には複数の人物が含まれており、姿勢推定部102は、画像に含まれる各人物について、人物の姿勢として骨格構造を検出する。
 図6は、このとき検出する人体モデル300の骨格構造を示している。姿勢推定部102は、OpenPose等の骨格推定技術を用いて、2次元の画像から図6のような人体モデル(2次元骨格モデル)300の骨格構造を検出する。人体モデル300は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された2次元モデルである。
 姿勢推定部102は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図6の例では、人物のキーポイントとして、頭A1、首A2、右肩A31、左肩A32、右肘A41、左肘A42、右手A51、左手A52、右腰A61、左腰A62、右膝A71、左膝A72、右足A81、左足A82を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭A1と首A2を結ぶボーンB1、首A2と右肩A31及び左肩A32をそれぞれ結ぶボーンB21及びボーンB22、右肩A31及び左肩A32と右肘A41及び左肘A42をそれぞれ結ぶボーンB31及びボーンB32、右肘A41及び左肘A42と右手A51及び左手A52をそれぞれ結ぶボーンB41及びボーンB42、首A2と右腰A61及び左腰A62をそれぞれ結ぶボーンB51及びボーンB52、右腰A61及び左腰A62と右膝A71及び左膝A72をそれぞれ結ぶボーンB61及びボーンB62、右膝A71及び左膝A72と右足A81及び左足A82をそれぞれ結ぶボーンB71及びボーンB72を検出する。姿勢推定部102は、骨格推定技術により検出した人物の骨格構造とその確信度をデータベース110に格納する。
 続いて、画像処理装置100は、推定された人物の姿勢の姿勢特徴量を算出する(S103a)。例えば、骨格領域の高さや面積を特徴量とする場合、特徴量算出部104は、骨格構造を含む領域を抽出し、その領域の高さ(画素数)や面積(画素面積)を求める。骨格領域の高さや面積は、抽出される骨格領域の端部の座標や端部のキーポイントの座標から求められる。特徴量算出部104は、求めた骨格構造の特徴量をデータベース110に格納する。
 図6の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントA1、骨格領域の下端は右足のキーポイントA81または左足のキーポイントA82、骨格領域の左端は右手のキーポイントA51、骨格領域の右端は左手のキーポイントA52となる。このため、キーポイントA1とキーポイントA81またはA82のY座標の差分から骨格領域の高さを求める。また、キーポイントA51とキーポイントA52のX座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。
 また、姿勢特徴量を正規化する場合、例えば、特徴量算出部104は、検出された骨格構造に基づいて身長画素数などの正規化パラメータを算出する。特徴量算出部104は、身長画素数等により骨格領域の高さや面積などの特徴量を正規化する。
 図6の例では、画像における直立時の人物の骨格構造の高さである身長画素数と、画像の人物の骨格構造の各キーポイントの高さであるキーポイント高さを求める。骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求めてもよい。姿勢推定部102(骨格推定技術)が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正してもよい。
 具体的には、特徴量算出部104は、人物の頭部から足部の2次元の画像上のボーンの長さを取得し、身長画素数を求める。図6のボーンのうち、ボーンB1(長さL1)、ボーンB51(長さL21)、ボーンB61(長さL31)及びボーンB71(長さL41)、もしくは、ボーンB1(長さL1)、ボーンB52(長さL22)、ボーンB62(長さL32)及びボーンB72(長さL42)の各長さ(画素数)を取得する。各ボーンの長さは、2次元の画像における各キーポイントの座標から求めることができる。これらを合計した、L1+L21+L31+L41、もしくは、L1+L22+L32+L42に補正定数を乗じた値を身長画素数として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。
 なお、その他の算出方法により、身長画素数を算出してもよい。例えば、各ボーンの長さと2次元画像空間上の身長との関係(比率)を示す平均的な人体モデルを予め用意し、用意した人体モデルを用いて検出した各ボーンの長さから身長画素数を算出してもよい。
 特徴量算出部104は、身長画素数とともに、各キーポイントの高さを算出し、正規化のための基準点を特定し、各キーポイントの高さを身長画素数で正規化する。特徴量算出部104は、正規化した姿勢特徴量をデータベース110に格納する。
 キーポイント高さは、骨格構造の最下端(例えばいずれかの足のキーポイント)からそのキーポイントまでの高さ方向の長さ(画素数)である。ここでは、一例として、キーポイント高さを、画像におけるキーポイントのY座標から求める。なお、キーポイント高さは、カメラパラメータに基づいた鉛直投影軸に沿った方向の長さから求めてもよい。また、特定する基準点は、キーポイントの相対的な高さを表すための基準となる点である。基準点は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い(画像の上下方向における上である)ことが好ましく、例えば、首のキーポイントの座標を基準点とする。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標(例えば骨格構造の中心座標等)を基準点としてもよい。各キーポイントのキーポイント高さ、基準点、身長画素数を用いて、各キーポイントを正規化する。具体的には、特徴量算出部104は、基準点に対するキーポイントの相対的な高さを身長画素数により正規化する。ここでは、高さ方向のみに着目する例として、Y座標のみを抽出し、また、基準点を首のキーポイントとして正規化を行う。正規化値は、キーポイント高さから基準点の高さを差し引き、差し引いた値を身長画素数により除算した値となる。
 また、S101に続いて、画像処理装置100は、取得した画像に基づいて物体を認識する(S104a)。例えば、取得した検索対象の画像には人物の他に複数の物体が含まれており、物体認識部103は、画像に含まれる各物体のクラスを認識する。物体認識部103は、物体認識エンジンを用いて、画像内の物体領域を検出し、検出した物体領域内の物体のクラスを認識する。物体認識部103は、物体認識エンジンにより認識した物体のクラスとその確信度をデータベース110に格納する。
 続いて、画像処理装置100は、物体特徴量を算出する場合、認識された物体の物体特徴量を算出する(S105a)。例えば、物体を認識した物体領域の大きさを特徴量とする場合、特徴量算出部104は、検出された矩形の物体領域の高さ(画素数)や幅(画素数)、面積(画素面積)等を求める。特徴量算出部104は、求めた物体の特徴量をデータベース110に格納する。また、物体特徴量を正規化する場合、特徴量算出部104は、算出した物体領域の大きさを、物体クラスに対応した物体領域の最小値や最大値により正規化する。例えば、画像内の物体の物体領域の面積を算出し、認識した物体のクラスに対応した面積の最小値や最大値により物体領域の面積を除算した値を正規化値とする。特徴量算出部104は、正規化した物体特徴量をデータベース110に格納する。
 図7は、本実施の形態に係る画像処理装置100の動作例を示し、図5の処理によりデータベースに格納された検索対象の画像から検索クエリに類似する画像を検索する処理の流れを示している。
 図7に示すように、検索を行う際、ユーザは画像処理装置100に検索クエリを入力する(S111)。検索部105は、入力部106を介して、ユーザの操作に応じて検索条件である検索クエリの入力を受け付ける。例えば、表示部107に複数の画像を表示し、ユーザは、検索クエリ(検索キー)の人物の姿勢及び物体を含む画像を選択してもよい。検索クエリに使用する画像は、データベース110に格納された画像でもよいし、画像提供装置200から提供される画像やその他の画像でもよい。例えば、各画像に姿勢推定結果の人物の骨格や物体の認識結果の物体の領域及び物体クラスを表示し、選択可能としてもよい。
 1つの画像の中から検索クエリの姿勢及び物体を選択してもよいし、検索クエリの姿勢と物体を別の画像で選択してもよい。検索クエリの姿勢と物体を別の画像で選択する場合、検索部105は、それぞれ選択した姿勢の画像と物体の画像を合成(マージ)して1つの検索クエリ画像を生成する。また、1つの画像に複数の姿勢及び物体が含まれる場合、ユーザは検索クエリとする1つの姿勢と1つの物体を選択する。なお、検索クエリは、1つの姿勢と1つの物体に限らず、任意の数の姿勢と任意の数の物体を含んでもよい。例えば、各画像に姿勢推定結果の確信度や物体の認識結果の確信度を表示し、確信度の高い姿勢(骨格)や確信度の高い物体を検索クエリとして推薦(リコメンド)するよう表示してもよい。所定値以上の確信度の姿勢及び物体を強調表示してもよい。また、検索クエリ(検索条件)として、人物の姿勢の確信度や物体の確信度を入力してもよい。
 また、画像に限らず、その他の方法で検索クエリとなる人物の姿勢(骨格)及び物体をユーザが入力してもよい。例えば、検索クエリとして、ユーザの操作に応じて骨格構造の各部を動かすことで姿勢を入力してもよいし、物体のクラスをユーザが入力してもよい。骨格構造を入力した場合、姿勢推定処理(S102b)は省略してもよい。また、物体のクラスを入力した場合、物体認識処理(S104b)は省略してもよい。
 検索クエリが入力されると、画像処理装置100は、検索対象格納時と同様に、検索クエリの人物の姿勢の推定(S102b)及び姿勢特徴量の算出(S103b)を行う。姿勢推定部102は、検索クエリの画像における人物(検索クエリとして指定された人物)の骨格構造を検出し、検出した骨格構造とその確信度を出力する。特徴量算出部104は、検出した骨格構造の特徴量として骨格領域の高さや面積等を算出し、身長画素数等の正規化パラメータにより骨格領域の高さや面積等の特徴量を正規化する。
 また、画像処理装置100は、検索対象格納時と同様に、検索クエリの物体の認識(S104b)及び物体特徴量の算出(S105b)を行う。物体認識部103は、検索クエリの画像における物体(検索クエリとして指定された物体)のクラスを認識し、認識した物体のクラスとその確信度を出力する。特徴量算出部104は、物体特徴量を算出する場合、認識した物体の特徴量として物体領域の面積等を算出し、面積の最小値や最大値等の正規化パラメータにより物体領域の面積等の特徴量を正規化する。
 続いて、画像処理装置100は、検索クエリに基づいて画像を検索する(S112)。検索部105は、ユーザにより指定された人物の姿勢及び物体を検索クエリとして、検索対象であるデータベース110に格納されている全ての画像の中から、人物の姿勢の特徴量及び物体の特徴量の類似度が高い画像を検索する。
 検索部105は、データベース110に格納された検索対象の各画像について検索クエリとの類似度を算出する。検索部105は、データベース110に格納された検索対象の人物の姿勢特徴量と、算出した検索クエリの人物の姿勢特徴量との類似度を求める。また、データベース110に格納された検索対象の物体特徴量と、算出した検索クエリの物体特徴量との類似度を求める。検索部105は、求めた姿勢特徴量の類似度及び物体特徴量の類似度に基づいて、画像の類似判定を行う。例えば、検索部105は、求めた姿勢特徴量の類似度及び物体特徴量の類似度のそれぞれが、閾値よりも大きい画像を類似画像として抽出する。姿勢特徴量の類似度及び物体特徴量の類似度のいずれか、または両方に重みを付けて類似判定を行ってもよい。例えば、求めた姿勢特徴量の類似度及び物体特徴量の類似度にそれぞれ重みを付け(例えば、1.0、0.8など)し、重み付けた類似度の合計値と閾値を比較して類似判定を行ってもよい。また、重みに応じて各類似度を判定する閾値を変えてもよい。
 また、姿勢推定の確信度を姿勢特徴量の類似度に反映させ、物体認識の確信度を物体特徴量の類似度に反映させてもよい。例えば、検索対象の人物の姿勢の確信度と検索クエリの人物の姿勢の確信度との類似度を求め、検索対象の物体の確信度と検索クエリの物体の確信度との類似度を求めてもよい。また、それぞれの確信度により特徴量に重みをつけて類似度を求めてもよい。例えば、検索対象の人物の姿勢特徴量にその姿勢の確信度を乗算し、検索クエリの人物の姿勢特徴量にその姿勢の確信度を乗算し、乗算した結果により姿勢特徴量の類似度を求める。検索対象の物体特徴量にその物体の確信度を乗算し、検索クエリの物体特徴量にその物体の確信度を乗算し、乗算した結果により物体特徴量の類似度を求める。
 また、確信度と閾値を比較して、確信度が閾値を超えている特徴量のみを類似度計算に用いても良い。例えば、検索クエリの人物及び物体、検索対象の人物は認識の確信度が閾値を超えているが、検索対象の物体の認識の確信度が閾値を下回っていた場合、物体の類似度は考慮せず、人物の姿勢に関する特徴量のみの類似度に基づいて検索を行っても良い。
 続いて、画像処理装置100は、画像の検索結果を表示する(S113)。検索部105は、検索結果として得られた画像(類似画像)をデータベース110から取得し、表示部107に表示する。類似画像及び検索クエリ画像を表示し、各画像における人物の姿勢(骨格構造)及び人物領域(骨格領域)、物体のクラス及び物体領域等を表示してもよい。類似画像が複数ある場合、類似度に応じて各画像の表示を変えてもよい。類似度の高い順に画像を並べて表示してもよいし、類似度の高い画像を強調表示してもよい。
 図8は、本実施の形態に係る画像処理装置100による画像検索の具体例を示している。図8に示すように、例えば、交通事故のシーン(画像)を検索したい場合、交通事故を撮像した画像内のしゃがみ込んでいる姿勢の人物との車を選択し、検索クエリQ2として画像処理装置100に入力する。そうすると、画像処理装置100は、検索クエリQ2の画像から人物のしゃがみ姿勢の骨格を推定し、検索クエリQ2の画像から物体のクラスの車を認識する。データベース110の検索対象の画像から、しゃがみ姿勢の骨格と類似度が高い姿勢を含み、車と類似度が高いクラスの物体を含む画像を抽出する。その結果、検索対象P3や検索対象P4のように、しゃがみ込んでいる姿勢の人物と車が写った画像を抽出することができ、所望の交通事故のシーンを検索することができる。
 以上のように、本実施の形態では、画像における人物の姿勢特徴量と物体の物体特徴量を検索クエリとして、類似する画像を検索する。すなわち、検索対象の画像について人物の姿勢を推定し姿勢特徴量を算出するとともに、物体を認識し物体特徴量を算出する。さらに、検索クエリについても人物の姿勢を推定し姿勢特徴量を算出するとともに、物体を認識し物体特徴量を算出する。それぞれの姿勢特徴量及び物体特徴量の類似度に基づいて、検索対象の画像の中から検索クエリに類似する画像を抽出する。これにより、姿勢が類似し、かつ、物体が類似する画像を検索できるため、より検索したい画像(シーン)に近い画像を検索することができる。
(実施の形態2)
 以下、図面を参照して実施の形態2について説明する。本実施の形態では、実施の形態1において、さらに人物と物体の関係の特徴を用いて類似画像を検索する例について説明する。
 実施の形態1では、人物の姿勢の特徴と物体の特徴を組み合わせることで、類似する画像を検索した。これにより、上記のように、人物の姿勢及び物体が類似する画像を検索できる。一方で、実施の形態1においても、場合によっては、ユーザが検索したい画像に近い画像を検索できない可能性がある。
 例えば、図9に示すように、PCを操作する人物のシーンを検索したい場合、画像内の座り姿勢の人物とPCを選択し検索クエリQ3とする。そうすると、実施の形態1では、人物の姿勢及び物体が類似する画像を検索するため、座り姿勢の人物とPCを含む画像が抽出される。その結果、検索対象P5のように、PCを操作する人物に限らず、PCから離れて座っている人物を含む画像も抽出されてしまう。すなわち、実施の形態1では、たまたま類似する姿勢及び類似する物体を含む画像が検出されてしまう場合がある。そこで、本実施の形態では、人物と物体との関係性を考慮した画像検索を可能とする。
 画像処理装置100の構成は、実施の形態1と同様である。本実施の形態では、画像処理装置100は、各画像における人物と物体との関係に基づいて類似判定を行い、類似画像を検索する。
 特徴量算出部104は、人物の姿勢特徴量及び物体の物体特徴量に加えて、人物と物体との関係に関する関係性特徴量を算出する。特徴量算出部104は、検索対象の画像内の人物の姿勢特徴量、物体の物体特徴量、人物及び物体の関係性特徴量を算出し、また、検索クエリの画像内の人物の姿勢特徴量、物体の物体特徴量、人物及び物体の関係性特徴量を算出する。
 検索部105は、姿勢特徴量の類似度、物体特徴量の類似度、及び関係性特徴量の類似度に基づいて、類似判定を行う。姿勢特徴量の類似度、物体特徴量の類似度、及び関係性特徴量の類似度の重みに基づいて、類似判定を行ってもよい。
 本実施の形態における関係性特徴量は、例えば、人物と物体の距離に基づいた距離関係性特徴量、人物と物体の向きに基づいた向き関係性特徴量、人物と物体の位置関係に基づいた位置関係性特徴量を含む。特徴量算出部104は、距離関係性特徴量、向き関係性特徴量、位置関係性特徴量のいずれかを算出してもよいし、任意の組み合わせの関係性特徴量を算出してもよい。以下に各関係性特徴量の算出例を示す。
<距離関係性特徴量>
 特徴量算出部104は、検索クエリの画像または検索対象の画像から、人物と物体間の距離を抽出して特徴量(距離関係性特徴量)に用いる。図10A及び図10Bは、距離関係性特徴量に用いる距離の抽出例を示している。図10Aは、図9の検索クエリQ3における距離の抽出例、図10Bは、図9の検索対象P5における距離の抽出例である。
 距離関係性特徴量に用いる人物と物体間の距離は、例えば、姿勢を推定した人物の人物領域と、認識した物体の物体領域との間の距離である。人物領域は、姿勢を推定した人物を含む矩形領域であり、例えば、実施の形態1で示したように姿勢推定で推定した人物の骨格を含む骨格領域である。人物領域は、その他の方法で姿勢を検出する場合に検出した姿勢の人物を含む姿勢領域でもよいし、人物を画像認識する場合に認識した人物を含む人物領域でもよい。また、物体領域は、認識した物体を含む矩形領域であり、物体認識で検出した物体を含む物体領域である。
 特徴量算出部104は、画像における人物領域に含まれる任意の点の座標と物体領域に含まれる任意の点の座標間を結ぶ線の距離(画素数)を求める。図10A及び図10Bの例では、人物領域の中心点と物体領域の中心点の間の距離を求める。すなわち、矩形の人物領域の各頂点の座標から人物領域の中心点の座標を求め、矩形の物体領域の各頂点の座標から物体領域の中心点の座標を求め、人物領域の中心点と物体領域の中心点の距離を求める。
 また、特徴量算出部104は、人物領域と物体領域の最近傍点間の距離を求めてもよい。例えば、人物領域の全ての点と物体領域の全ての点のうち最近傍点を求めて、最近傍点間の距離を求めてもよいし、人物領域の各頂点と物体領域の各頂点のうち最も近い頂点間の距離を求めてもよい。また、人物領域と物体領域の最遠方点間の距離を求めてもよい。例えば、人物領域の全ての点と物体領域の全ての点のうち最遠方点を求めて、最遠方点間の距離を求めてもよいし、人物領域の各頂点と物体領域の各頂点のうち最も遠い頂点間の距離を求めてもよい。さらに、人物領域の任意の頂点と物体領域の任意の頂点の間の距離を求めてもよい。
 また、特徴量算出部104は、求めた人物と物体間の距離を正規化パラメータにより正規化し、正規化した距離を特徴量としてもよい。正規化パラメータには、例えば、検索クエリや対象画像の画像サイズ、姿勢を推定した人物の身長(実施の形態1で示した身長画素数)、人物領域と物体領域のサイズ(高さ、幅、面積等)の平均、人物領域と物体領域の重なり具合を示すIoU(Intersection over Union)等を用いてもよい。特徴量算出部104は、人物と物体間の距離を正規化パラメータにより除算することで距離を正規化する。
 このような距離関係性特徴量により、例えば、図10Aの検索クエリQ3のようにPCの近くに人物が座っている場合の物体と人物の関係や、図10Bの検索対象P5のようにPCから離れて人物が座っている場合の物体と人物の関係の特徴を示す特徴量を求めることができる。このため、距離関係性特徴量に基づいて類似判断することで、検索クエリQ3と検索対象P5は非類似であると判定できる。
<向き関係性特徴量>
 特徴量算出部104は、検索クエリの画像または検索対象の画像から、人物の向きを求めて特徴量(向き関係性特徴量)に用いる。図11A及び図11Bは、向き関係性特徴量に用いる人物の向きの抽出例を示している。図11Aは、図9の検索クエリQ3における人物の向きの抽出例、図11Bは、図9の検索対象P5における人物の向きの抽出例である。
 向き関係性特徴量に用いる人物の向きは、図11A及び図11Bのように、例えば、人物の姿勢推定で推定した人物の姿勢から抽出してもよい。すなわち、推定した骨格構造から人物の前後左右が検出できるため、画像における人物の前方向を人物の向きを抽出する。骨格構造に限らず、その他の方法で姿勢を推定した場合でも、同様に人物の向きを抽出できる。また、人物の姿勢に限らず、人物の顔の向きから人物の向きを抽出してもよい。例えば、画像から人物の顔を認識し、認識した顔の向きを人物の向きとする。また、人物の視線から人物の向きを抽出してもよい。例えば、画像から人物の視線を認識し、認識した視線の方向を人物の方向とする。
 また、特徴量算出部104は、例えば、抽出した人物の向きと、人物と物体間を結ぶ線の向きとの類似度(関係)を特徴量として求める。一例として、特徴量算出部104は、人物と物体間を結ぶ線と人物の向き間のコサイン類似度を求める。人物と物体間を結ぶ線は、上記の距離関係性特徴量の場合と同様、矩形の中心間を結ぶ線や矩形の任意の点間を結ぶ線でもよい。
 なお、物体認識において、画像から物体の向きを検出できる場合、検出した物体の向きを特徴量に用いてもよい。例えば、物体としてPCを認識した場合、PCの画面の向きを物体の向きとしてもよい。物体として車を認識した場合、車の前方向を物体の向きとしてもよい。この場合、抽出した物体の向きと人物の向きの類似度(関係)を特徴量として求めてもよい。
 このような向き関係性特徴量により、例えば、図11Aの検索クエリQ3のようにPCの方に向いて人物が座っている場合の物体と人物の関係や、図11Bの検索対象P5のようにPCと反対の方に向いて人物が座っている場合の物体と人物の関係の特徴を示す特徴量を求めることができる。このため、向き関係性特徴量に基づいて類似判断することで、検索クエリQ3と検索対象P5は非類似であると判定できる。
<位置関係性特徴量>
 特徴量算出部104は、検索クエリの画像または検索対象の画像から、人物と物体の位置関係を求めて特徴量(位置関係性特徴量)に用いる。図12A及び図12Bは、位置関係性特徴量に用いる位置関係の抽出例を示している。図12Aは、図9の検索クエリQ3における位置関係の抽出例、図12Bは、図9の検索対象P5における位置関係の抽出例である。
 位置関係性特徴量に用いる位置関係は、例えば、姿勢を推定した人物と認識した物体との間の複数の距離から抽出できる。すなわち、姿勢を推定した人物及び推定した物体のうちの一方における一点と他方における複数の点との間の位置関係を用いる。例えば、姿勢を推定した人物における複数の点と推定した物体における一点との間の1対多の位置関係、または、姿勢を推定した人物における一点と前定した物体における複数の点との間の1対多の位置関係でもよい。なお、2つの領域における複数の点と複数の点の位置関係を使用してもよい。
 特徴量算出部104は、画像における人物領域と物体領域の間を結ぶ複数の線の距離を求める。図12A及び図12Bの例では、物体領域の一点と人物領域の複数の点の間の距離を求める。物体領域の一点は、上記の距離関係性特徴量の場合と同様、物体領域の中心点や物体領域の任意の点でもよい。物体の画像から認識できる場合には、PCの画面等の注目点を物体の一点としてもよい。人物領域の複数の点は、認識した人物の骨格(姿勢)に含まれる人物の関節点(キーポイント、部位)でもよい。図12A及び図12Bでは、一例として、人物の頭部(例えばキーポイントA1)、手首(キーポイントA51またはA52)、足首(キーポイントA81またはA82)の3点を抽出している。認識した骨格(姿勢)に限らず、画像認識により認識される頭部、手首、足首等の各部位の点を抽出してもよい。
 特徴量算出部104は、求めた人物領域と物体領域間の複数の距離、複数の距離を正規化した値(距離関係性特徴量と同様の正規化)、または、距離及び向きを含む複数のベクトルに基づいて特徴量を算出する。特徴量の算出後、検索部105における類似判定では、クエリ画像の特徴量と検索対象画像の特徴量に対して、例えば、複数の距離の類似度、複数の距離の正規化値の類似度、または、複数のベクトルの類似度(Lk距離(ユークリッド距離やマンハッタン距離)、コサイン類似度)を類似度としてもよい。検索部105では、クエリ画像の特徴量と検索対象画像の特徴量に対して、距離または類似度を判定してもよい。例えば、複数の距離、複数の距離の正規化値、または、複数のベクトル間における距離(ユークリッド距離やマンハッタン距離など)や類似度(コサイン類似度など)に基づいて類似判定を行ってもよい。
 また、算出した複数の距離の長さに応じた人物または物体の各点の序列を特徴量としてもよい。例えば、物体の一点と複数の関節点との距離を用いる場合、各関節点の近さの序列を特徴量としてもよい。例えば、図12Aの検索クエリQ3では、PCに対し人物の各関節点の距離は、手首<足首<頭部の関係であるため、特徴量を(1手首、2足首、3頭部)とする。図12Bの検索対象P5では、PCに対し人物の各関節点の距離は、頭部<手首<足首の関係であるため、特徴量を(1頭部、2手首、3足首)とする。
 このような位置関係性特徴量により、例えば、図12Aの検索クエリQ3のようにPCの近くで人物がPC側に手を置いて座っている場合の物体と人物の関係や、図12Bの検索対象P5のようにPCから離れて人物がPCと反対側に手を置いて座っている場合の物体と人物の関係の特徴を示す特徴量を求めることができる。このため、位置関係し特徴量に基づいて類似判断することで、検索クエリQ3と検索対象P5は非類似であると判定できる。
 さらに、距離関係性特徴量、向き関係性特徴量、位置関係性特徴量は、三次元空間内での距離、向き、位置関係の特徴量であっても良い。検索クエリや検索対象画像を取得したカメラパラメータを用いることで、人物の姿勢や、人物と物体の三次元空間内での位置関係(距離、向き、位置関係)を推定し、前述した方法によりそれぞれの特徴量を算出しても良い。この場合、画像処理装置100は、画像を撮像したカメラ等からカメラパラメータを取得するカメラパラメータ取得部を備えても良い。例えば、実施の形態1と同様、カメラにより、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めてもよい。
 図13は、本実施の形態に係る画像処理装置100の動作例を示し、検索対象の画像を取得しデータベースに格納する処理の流れを示している。
 図13に示すように、実施の形態1と同様、画像処理装置100は、検索対象の画像を取得すると(S101)、取得した画像における人物の姿勢推定(S102a)及び姿勢特徴量の算出(S103a)を行い、また、取得した画像における物体の認識(S104a)及び物体特徴量の算出(S105a)を行う。
 本実施の形態では、S103a及びS105aに続いて、画像処理装置100は、取得した画像における人物と物体との関係に関する関係性特徴量を算出する(S106a)。特徴量算出部104は、検索対象の画像からS102aで姿勢を推定した人物とS104aで認識した物体との関係に基づいて関係性特徴量を算出する。特徴量算出部104は、関係性特徴量として、例えば、上記のように、距離関係性特徴量、向き関係性特徴量、位置関係性特徴量を算出する。特徴量算出部104は、算出した関係性特徴量をデータベース110に格納する。
 図14は、本実施の形態に係る画像処理装置100の動作例を示し、図13の処理によりデータベースに格納された検索対象の画像から検索クエリに類似する画像を検索する処理の流れを示している。
 図14に示すように、実施の形態1と同様、画像処理装置100は、検索クエリが入力されると(S111)、検索クエリにおける人物の姿勢推定(S102b)及び姿勢特徴量の算出(S103b)を行い、また、検索クエリにおける物体の認識(S104b)及び物体特徴量の算出(S105b)を行う。
 本実施の形態では、S103b及びS105bに続いて、画像処理装置100は、検索クエリにおける人物と物体との関係に関する関係性特徴量を算出する(S106b)。特徴量算出部104は、検索クエリの画像からS102bで姿勢を推定した人物とS104bで認識した物体との関係に基づいて関係性特徴量を算出する。検索対象格納時と同様に、特徴量算出部104は、関係性特徴量として、例えば、距離関係性特徴量、向き関係性特徴量、位置関係性特徴量を算出する。
 続いて、画像処理装置100は、検索クエリに基づいて画像を検索する(S112)。検索部105は、検索クエリの人物の姿勢特徴量と検索対象の人物の姿勢特徴量との類似度を算出し、検索クエリの物体の姿勢特徴量と検索対象の物体の物体特徴量との類似度を算出し、さらに、検索クエリの人物と物体の関係性特徴量と検索対象の人物と物体の関係性特徴量の類似度を算出する。検索部105は、求めた姿勢特徴量の類似度、物体特徴量の類似度及び関係性特徴量の類似度に基づいて、画像の類似判定を行う。例えば、検索部105は、求めた姿勢特徴量の類似度、物体特徴量の類似度及び関係性特徴量の類似度それぞれが、閾値よりも大きい画像を類似画像として抽出する。姿勢特徴量の類似度、物体特徴量の類似度及び関係性特徴量の類似度いずれか、または選択された類似度に重みを付けて類似判定を行ってもよい。例えば、求めた姿勢特徴量の類似度、物体特徴量の類似度及び関係性特徴量の類似度のそれぞれに重みを付け(例えば、1.0、0.8、0.5など)、重みを付けた類似度の合計値と閾値を比較して類似判定を行ってもよい。また、重みに応じて各類似度を判定する閾値を変えてもよい。
 さらに、検索部105は、関係性特徴量の類似度として、距離関係性特徴量の類似度、向き関係性特徴量の類似度、位置関係性特徴量の類似度(いずれかの特徴量を算出している場合はいずれかの類似度)を算出してもよい。検索部105は、求めた距離関係性特徴量の類似度、向き関係性特徴量の類似度、位置関係性特徴量の類似度を含めて、画像の類似判定を行う。例えば、距離関係性特徴量の類似度、向き関係性特徴量の類似度、位置関係性特徴量の類似度のそれぞれが、閾値よりも大きいか否か判定する。距離関係性特徴量の類似度、向き関係性特徴量の類似度、位置関係性特徴量の類似度のいずれか、または選択された類似度に重みを付けて類似判定を行ってもよい。例えば、求めた距離関係性特徴量の類似度、向き関係性特徴量の類似度、位置関係性特徴量の類似度のそれぞれに重みを付け、重みを付けた類似度の合計値と閾値を比較して類似判定を行ってもよい。また、重みに応じて各類似度を判定する閾値を変えてもよい。
 以上のように、本実施の形態では、実施の形態1の構成に加えて、人物と物体との関係に関する関係性特徴量を用いて、類似する画像を検索する。さらに、関係性特徴量として、人物と物体間の距離、人物と物体の向き、人物と物体の位置関係に関する特徴量を用いる。これにより、人物の姿勢及び物体の類似に加えて、人物と物体の関係についても類似している画像を検索できるため、さらに検索したい画像(シーン)に近い画像を検索することができる。
(実施の形態3)
 以下、図面を参照して実施の形態3について説明する。本実施の形態では、実施の形態1または2において、さらにHOI検出と組み合わせて類似画像を検索する例について説明する。
 図15は、本実施の形態に係る画像処理装置100の構成を示している。図15に示すように、本実施の形態に係る画像処理装置100は、実施の形態1または2の構成に加えて、HOI検出部109を備えている。
 HOI検出部109は、非特許文献1に記載のHOI検出を行う。HOI検出部109は、HOI検出により、画像から関連のある人物及び物体のペアと、人物の動詞(例えば、人物とサッカーボールから人物がキックしている等の行動)を検出する。図16は、HOI検出の検出例を示している。図16の例では、画像から関連のある人物と携帯電話(物体)のペアを検出し、人物が電話で通話しているという動詞を検出している。また、HOI検出部109は、HOI検出により検出した人物の動詞の関連性スコア(確信度)を生成する。関連性スコアが高いほど、検出した人物の動詞(人物と物体のペアを含む)が正しい可能性が高い。
 なお、HOI検出に限らずその他の機械学習を用いた検出技術により、関連のある人物及び物体のペアと、人物の動詞を検出してもよい。例えば、人物の動詞のラベルを用いて関連のある人物及び物体のペアの画像を機械学習することで、HOI検出と同様の検出を行ってもよい。
 また、HOI検出部109は、外部の装置(画像提供装置200やデータベース110、入力部106等)から、予め画像にHOI検出を行ったHOI検出結果を取得してもよい。検索部105は、外部から取得したHOI検出結果を使用して類似判定を行ってもよいし、HOI検出部109のHOI検出処理で検出したHOI検出結果を使用して類似判定を行ってもよい。例えば、検索部105は、第1の画像に基づいてHOI検出処理を行ったHOI検出結果と、外部から取得した第2の画像のHOI検出結果とに基づいて、第1の画像と第2の画像の類似判定を行ってもよい。
 図17は、本実施の形態に係る画像処理装置100の動作例を示し、検索対象の画像を取得しデータベースに格納する処理の流れを示している。なお、ここでは、実施の形態2の動作に本実施の形態を適用した例を示すが、実施の形態1の動作に本実施の形態を適用してもよい。
 図17に示すように、実施の形態2と同様、画像処理装置100は、検索対象の画像を取得すると(S101)、取得した画像における人物の姿勢推定(S102a)及び姿勢特徴量の算出(S103a)を行うとともに、取得した画像における物体の認識(S104a)及び物体特徴量の算出(S105a)を行い、さらに、取得した画像における人物と物体の関係性特徴量を算出する(S106a)。
 また、本実施の形態では、画像処理装置100は、画像取得(S101)に続いて、取得した画像に基づいてHOI検出を行う(S201a)。HOI検出部109は、取得した画像に対しHOI検出を行い、画像における関連のある人物及び物体のペアと、人物の動詞(行動)を検出し、また、検出した人物の動詞の関連性スコア(確信度)を生成する。HOI検出部109は、検出した人物及び物体のペア、人物の動詞、関連性スコアをデータベース110に格納する。
 図18は、本実施の形態に係る画像処理装置100の動作例を示し、図17の処理によりデータベースに格納された検索対象の画像から検索クエリに類似する画像を検索する処理の流れを示している。なお、ここでは、実施の形態2の動作に本実施の形態を適用した例を示すが、実施の形態1の動作に本実施の形態を適用してもよい。
 図18に示すように、実施の形態2と同様、画像処理装置100は、検索クエリが入力されると(S111)、検索クエリにおける人物の姿勢推定(S102b)及び姿勢特徴量の算出(S103b)を行うとともに、検索クエリにおける物体の認識(S104b)及び物体特徴量の算出(S105b)を行い、さらに、検索クエリにおける人物と物体の関係性特徴量を算出する(S106b)。
 また、本実施の形態では、画像処理装置100は、検索クエリの入力(S111)に続いて、HOI検出を行う(S201b)。検索対象格納時と同様、HOI検出部109は、検索クエリの画像に対しHOI検出を行い、画像における関連のある人物及び物体のペアと、人物の動詞を検出し、また、検出した人物の動詞の関連性スコアを生成する。
 続いて、画像処理装置100は、検索クエリに基づいて画像を検索する(S112)。検索部105は、S102a~S106b及びS102b~S106bによる姿勢推定結果及び物体認識結果を用いた姿勢-物体検索(第1の類似判断)と、S201a及びS201bによるHOI検出結果を用いたHOI検索(第2の類似判断)を組み合わせて行うことで、類似画像を検索する。
 姿勢-物体検索は、実施の形態1または2で示した検索方法である。すなわち、検索対象の画像と検索クエリの画像について、人物の姿勢特徴量の類似度及び物体特徴量の類似度(さらに関係性特徴量の類似度)を求め、求めた類似度により類似判定を行い、類似画像を検索する。
 HOI検索は、検索対象の画像に対するHOI検出結果と、検索クエリの画像に対するHOI検出結果の類似度を求め、求めた類似度により類似判定を行い、類似画像を検索する。すなわち、HOI検出により得られる、関連のある人物及び物体のペアと人物の動詞の類似度により類似判定を行い、類似画像を検索する。
 検索部105は、姿勢-物体検索とHOI検索のいずれかを選択して検索を行ってもよい。例えば、HOI検出結果の関連性スコア(確信度)に基づいて姿勢-物体検索とHOI検索のいずれかを選択して検索を行う。検索部105は、検索クエリのHOI検出結果の関連性スコアが閾値よりも高い場合、すなわち、検索クエリの画像から確信度の高い動詞が推定されている場合、HOI検索により類似画像を検索する。また、検索部105は、検索クエリのHOI検出結果の関連性スコアが閾値よりも低い場合、すなわち、検索クエリの画像から確信度の高い動詞が推定されていない場合、姿勢-物体検索により類似画像を検索する。
 また、検索部105は、姿勢-物体検索とHOI検索の両方を用いて検索を行ってもよい。例えば、HOI検索結果の関連性スコアに基づいて姿勢-物体検索とHOI検索に重みを付けて検索を行う。検索部105は、検索クエリ及び検索対象のHOI検出結果の関連性スコアが閾値よりも高い場合、すなわち、検索クエリの画像及び検索対象の画像の双方から確信度の高い動詞が推定されている場合(通話:0.8など)、HOI検索に重みをつけて類似画像を検索する。また、検索クエリ及び検索対象のHOI検出結果の関連性スコアが閾値よりも低い場合、すなわち、検索クエリの画像及び検索対象の画像の双方から確信度の高い動詞が推定されていない場合(拾う:0.03など)、姿勢-物体検索に重みをつけて類似画像を検索する。
 HOI検索結果の関連性スコアに限らず、姿勢推定及び物体認識の確信度(例えば姿勢推定の確信度と物体認識の確信度の平均値)に基づいて、姿勢-物体検索とHOI検索のいずれかを選択したり、姿勢-物体検索とHOI検索に重みを付けてもよい。HOI検索結果の関連性スコアと姿勢推定及び物体認識の確信度の比較結果に応じて、姿勢-物体検索とHOI検索のいずれかを選択したり、姿勢-物体検索とHOI検索に重みを付けてもよい。
 また、ユーザが手動で姿勢-物体検索とHOI検索の重みを調整してもよい。例えば、姿勢-物体検索とHOI検索に重みを付ける場合、姿勢-物体検索で使用する類似度とHOI検索で使用する類似度に重みを付けてもよい。人物の姿勢特徴量の類似度及び物体特徴量の類似度(さらに関係性特徴量の類似度)に重みを付け、HOI検出の関連のある人物及び物体のペアと人物の動詞の類似度に重みを付け、重みを付けたいずれかの類似度が閾値よりも大きい画像を抽出してもよいし、重みを付けた類似度の合計が閾値よりも大きい画像を抽出してもよい。
 以上のように、本実施の形態では、実施の形態1または2の構成に加えて、HOI検出の検出結果を用いて類似画像を検索する。実施の形態1または2による姿勢-物体検索と、HOI検出によるHOI検索を用いて画像を検索することで、効果的に類似画像を検索できる。
 HOI検出では、学習データにある事象しか検索することはできない。例えば交通事故という動詞を学習していない場合、類似画像を検索できない。また、HOI検出では、姿勢を認識していないため、類似度を誤判定する場合がある。例えば、人物とサッカーボールが近くにあると、キックしていない場合でも、キックしていると判定する可能性がある。一方で、HOI検出では、無関係な人物と物体のペアを除外し、関連のある人物と物体のペアに絞り込んで検索が可能である。このため、HOI検出の確信度等に応じて、姿勢-物体検索とHOI検索のいずれか、または、姿勢-物体検索とHOI検索に重みを付けて検索を行うことで、HOI検出のメリットを生かしつつ、HOI検出のデメリットを補い、精度よく類似画像を検索できる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図19に示すような、CPU(Central Processing Unit)等のプロセッサ21及び記憶装置であるメモリ22を有するコンピュータ20により実現してもよい。例えば、メモリ22に実施形態における方法(画像処理方法)を行うためのプログラムを格納し、各機能を、メモリ22に格納されたプログラムをプロセッサ21で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得する姿勢推定取得手段と、
 前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得する物体認識取得手段と、
 前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う類似判定手段と、
 を備える、画像処理システム。
(付記2)
 前記類似判定手段は、前記人物の姿勢の推定結果に基づいた姿勢特徴量の類似度及び前記物体の認識結果に基づいた物体特徴量の類似度に基づいて、前記類似判定を行う、
 付記1に記載の画像処理システム。
(付記3)
 前記類似判定手段は、前記姿勢特徴量の類似度及び前記物体特徴量の類似度の重みに基づいて、前記類似判定を行う、
 付記2に記載の画像処理システム。
(付記4)
 前記類似判定手段は、前記姿勢を推定した人物の確信度と前記推定した物体の確信度に基づいて、前記類似判定を行う、
 付記1乃至3のいずれか一項に記載の画像処理システム。
(付記5)
 前記第1及び第2の画像は、それぞれ時系列に連続する複数の画像を含み、
 前記類似判定手段は、前記推定された人物の姿勢の変化及び前記認識された物体の変化に基づいて、前記類似判定を行う、
 付記1乃至4のいずれか一項に記載の画像処理システム。
(付記6)
 前記類似判定手段は、前記人物の姿勢の推定結果と前記物体の認識結果に基づいた前記人物と前記物体との関係に基づいて、前記類似判定を行う、
 付記1乃至5のいずれか一項に記載の画像処理システム。
(付記7)
 前記類似判定手段は、前記人物の姿勢の姿勢特徴量の類似度、前記物体の物体特徴量の類似度、及び前記人物と前記物体の関係に基づいた関係性特徴量の類似度に基づいて、前記類似判定を行う、
 付記6に記載の画像処理システム。
(付記8)
 前記類似判定手段は、前記姿勢特徴量の類似度、前記物体特徴量の類似度、及び前記関係性特徴量の類似度の重みに基づいて、前記類似判定を行う、
 付記7に記載の画像処理システム。
(付記9)
 前記人物と前記物体の関係を示す関係性特徴量は、前人物と前記物体の距離に基づいた距離関係性特徴量、前記人物と前記物体の向きに基づいた向き関係性特徴量、前記人物と前記物体の位置関係に基づいた位置関係性特徴量のいずれかを含む、
 付記7または8に記載の画像処理システム。
(付記10)
 前記距離関係性特徴量で使用する前記人物と前記物体の距離は、前記姿勢を推定した人物を含む人物領域と、前記認識した物体を含む物体領域との距離である、
 付記9に記載の画像処理システム。
(付記11)
 前記人物と前記物体の距離は、前記人物領域の中心点と前記物体領域の中心点との間の距離、前記人物領域と前記物体領域の最近傍点間の距離、前記人物領域と前記物体領域の最遠方点間の距離、前記人物領域の任意の頂点と前記物体領域の任意の頂点との間の距離のいずれかを含む、
 付記10に記載の画像処理システム。
(付記12)
 前記距離関係性特徴量は、前記人物と前記物体の距離を正規化パラメータにより正規化した特徴量である、
 付記10または11に記載の画像処理システム。
(付記13)
 前記正規化パラメータは、前記第1及び第2の画像の画像サイズ、前記推定した人物の姿勢に基づいた前記人物の身長、前記人物領域と前記物体領域のサイズの平均、前記人物領域と前記物体領域の間のIoU(Intersection over Union)のいずれかを含む、
 付記12に記載の画像処理システム。
(付記14)
 前記人物と前記物体の距離は、前記第1及び第2の画像を撮像したカメラパラメータから求められた三次元空間における距離である、
 付記10乃至13のいずれか一項に記載の画像処理システム。
(付記15)
 前記向き関係性特徴量で使用する人物の向きは、前記推定した人物の姿勢に基づいた前記人物の体の向き、前記人物の画像から認識される前記人物の顔の向き、前記人物の画像から認識される前記人物の視線の向きのいずれかを含む、
 付記9乃至14のいずれか一項に記載の画像処理システム。
(付記16)
 前記向き関係性特徴量は、前記人物の向きと、前記人物と前記物体とを結ぶ線の向きとの類似度に基づいた特徴量である、
 付記15に記載の画像処理システム。
(付記17)
 前記人物の向きは、前記第1及び第2の画像を撮像したカメラパラメータから求められた三次元空間における向きである、
 付記15または16に記載の画像処理システム。
(付記18)
 前記位置関係性特徴量で使用する位置関係は、前記姿勢を推定した人物及び前記推定した物体のうちの一方における一点と他方における複数の点との間の位置関係である、
 付記9乃至17のいずれか一項に記載の画像処理システム。
(付記19)
 前記人物における点は、前記推定した人物の姿勢に基づいた前記人物の関節点である、
 付記18に記載の画像処理システム。
(付記20)
 前記一点と複数の点との間の位置関係は、前記人物の点と前記物体の点とを結ぶ複数の線の距離、前記複数の線の距離の正規化値、前記複数の線のベクトルのいずれかを含む、
 付記18または19に記載の画像処理システム。
(付記21)
 前記類似判定手段は、前記複数の線における距離の類似度、前記複数の線における距離の正規化値の類似度、前記複数の線におけるベクトルの類似度のいずれかに基づいて類似判定を行う、
 付記20に記載の画像処理システム。
(付記22)
 前記位置関係性特徴量は、前記複数の線の距離に応じた、前記人物または前記物体の複数の点の序列を示す、
 付記20に記載の画像処理システム。
(付記23)
 前記一点と複数の点との間の位置関係は、前記第1及び第2の画像を撮像したカメラパラメータから求められた三次元空間における位置関係である、
 付記18乃至22のいずれか一項に記載の画像処理システム。
(付記24)
 前記第1及び第2の画像に対するHOI(Human Object Interaction)検出のHOI検出結果を取得するHOI検出取得手段を備え、
 前記類似判定手段は、前記人物の姿勢の推定結果と前記物体の認識結果に基づいた第1の類似判断と、前記HOI検出結果に基づいた第2の類似判断を行う、
 付記1乃至23のいずれか一項に記載の画像処理システム。
(付記25)
 前記HOI検出取得手段は、前記第1または第2の画像に基づいて、記第1または第2の画像に対しHOI検出を行う、
 付記24に記載の画像処理システム。
(付記26)
 前記類似判定手段は、前記第1の画像に基づいてHOI検出を行ったHOI検出結果と、前記取得した前記第2の画像のHOI検出結果とに基づいて、前記第2の類似判断を行う、
 付記24または25に記載の画像処理システム。
(付記27)
 前記類似判定手段は、前記HOI検出の検出結果の確信度に応じて、前記第1の類似判断と前記第2の類似判断のいずれか、または、前記第1の類似判断と前記第2の類似判断に重みを付けて類似判断を行う、
 付記24乃至26のいずれか一項に記載の画像処理システム。
(付記28)
 前記第1の画像は、クエリ画像であり、
 前記第2の画像は、複数の検索対象画像を含み、
 前記類似判定手段は、前記類似判定の結果に基づいて、前記複数の検索対象画像から前記クエリ画像に類似する画像を検索する、
 付記1乃至27のいずれか一項に記載の画像処理システム。
(付記29)
 前記複数の検索対象画像における前記人物の姿勢の推定結果と前記物体の認識結果を格納するデータベースを備え、
 前記類似判定手段は、前記データベースを参照し、前記複数の検索対象画像から前記クエリ画像に類似する画像を検索する、
 付記28に記載の画像処理システム。
(付記30)
 前記姿勢推定取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる人物の姿勢を推定し、
 前記物体認識取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる物体を認識する、
 付記1乃至29のいずれか一項に記載の画像処理システム。
(付記31)
 前記姿勢推定取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる人物の姿勢として前記人物の骨格構造を推定する、
 付記30に記載の画像処理システム。
(付記32)
 前記物体認識取得手段は、前記第1及び第2の画像に基づいて、前記第1または第2の画像に含まれる物体の物体クラスを認識する、
 付記30または31に記載の画像処理システム。
(付記33)
 前記類似判定手段は、前記第1の画像に基づいて推定した人物の姿勢の推定結果及び前記第1の画像に基づいて認識した物体の認識結果と、前記取得した前記第2の画像の人物の姿勢の推定結果及び前記取得した前記第2の画像の物体の認識結果とに基づいて、前記類似判定を行う、
 付記30乃至32のいずれか一項に記載の画像処理システム。
(付記34)
 第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得し、
 前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得し、
 前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う、
 画像処理方法。
(付記35)
 第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得し、
 前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得し、
 前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う、
 処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒。
1、10 画像処理システム
11  姿勢推定取得部
12  物体認識取得部
13  類似判定部
20  コンピュータ
21  プロセッサ
22  メモリ
100 画像処理装置
101 画像取得部
102 姿勢推定部
103 物体認識部
104 特徴量算出部
105 検索部
106 入力部
107 表示部
108 分類部
109 HOI検出部
110 データベース
200 画像提供装置
300 人体モデル

Claims (35)

  1.  第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得する姿勢推定取得手段と、
     前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得する物体認識取得手段と、
     前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う類似判定手段と、
     を備える、画像処理システム。
  2.  前記類似判定手段は、前記人物の姿勢の推定結果に基づいた姿勢特徴量の類似度及び前記物体の認識結果に基づいた物体特徴量の類似度に基づいて、前記類似判定を行う、
     請求項1に記載の画像処理システム。
  3.  前記類似判定手段は、前記姿勢特徴量の類似度及び前記物体特徴量の類似度の重みに基づいて、前記類似判定を行う、
     請求項2に記載の画像処理システム。
  4.  前記類似判定手段は、前記姿勢を推定した人物の確信度と前記推定した物体の確信度に基づいて、前記類似判定を行う、
     請求項1乃至3のいずれか一項に記載の画像処理システム。
  5.  前記第1及び第2の画像は、それぞれ時系列に連続する複数の画像を含み、
     前記類似判定手段は、前記推定された人物の姿勢の変化及び前記認識された物体の変化に基づいて、前記類似判定を行う、
     請求項1乃至4のいずれか一項に記載の画像処理システム。
  6.  前記類似判定手段は、前記人物の姿勢の推定結果と前記物体の認識結果に基づいた前記人物と前記物体との関係に基づいて、前記類似判定を行う、
     請求項1乃至5のいずれか一項に記載の画像処理システム。
  7.  前記類似判定手段は、前記人物の姿勢の姿勢特徴量の類似度、前記物体の物体特徴量の類似度、及び前記人物と前記物体の関係に基づいた関係性特徴量の類似度に基づいて、前記類似判定を行う、
     請求項6に記載の画像処理システム。
  8.  前記類似判定手段は、前記姿勢特徴量の類似度、前記物体特徴量の類似度、及び前記関係性特徴量の類似度の重みに基づいて、前記類似判定を行う、
     請求項7に記載の画像処理システム。
  9.  前記人物と前記物体の関係を示す関係性特徴量は、前人物と前記物体の距離に基づいた距離関係性特徴量、前記人物と前記物体の向きに基づいた向き関係性特徴量、前記人物と前記物体の位置関係に基づいた位置関係性特徴量のいずれかを含む、
     請求項7または8に記載の画像処理システム。
  10.  前記距離関係性特徴量で使用する前記人物と前記物体の距離は、前記姿勢を推定した人物を含む人物領域と、前記認識した物体を含む物体領域との距離である、
     請求項9に記載の画像処理システム。
  11.  前記人物と前記物体の距離は、前記人物領域の中心点と前記物体領域の中心点との間の距離、前記人物領域と前記物体領域の最近傍点間の距離、前記人物領域と前記物体領域の最遠方点間の距離、前記人物領域の任意の頂点と前記物体領域の任意の頂点との間の距離のいずれかを含む、
     請求項10に記載の画像処理システム。
  12.  前記距離関係性特徴量は、前記人物と前記物体の距離を正規化パラメータにより正規化した特徴量である、
     請求項10または11に記載の画像処理システム。
  13.  前記正規化パラメータは、前記第1及び第2の画像の画像サイズ、前記推定した人物の姿勢に基づいた前記人物の身長、前記人物領域と前記物体領域のサイズの平均、前記人物領域と前記物体領域の間のIoU(Intersection over Union)のいずれかを含む、
     請求項12に記載の画像処理システム。
  14.  前記人物と前記物体の距離は、前記第1及び第2の画像を撮像したカメラパラメータから求められた三次元空間における距離である、
     請求項10乃至13のいずれか一項に記載の画像処理システム。
  15.  前記向き関係性特徴量で使用する人物の向きは、前記推定した人物の姿勢に基づいた前記人物の体の向き、前記人物の画像から認識される前記人物の顔の向き、前記人物の画像から認識される前記人物の視線の向きのいずれかを含む、
     請求項9乃至14のいずれか一項に記載の画像処理システム。
  16.  前記向き関係性特徴量は、前記人物の向きと、前記人物と前記物体とを結ぶ線の向きとの類似度に基づいた特徴量である、
     請求項15に記載の画像処理システム。
  17.  前記人物の向きは、前記第1及び第2の画像を撮像したカメラパラメータから求められた三次元空間における向きである、
     請求項15または16に記載の画像処理システム。
  18.  前記位置関係性特徴量で使用する位置関係は、前記姿勢を推定した人物及び前記推定した物体のうちの一方における一点と他方における複数の点との間の位置関係である、
     請求項9乃至17のいずれか一項に記載の画像処理システム。
  19.  前記人物における点は、前記推定した人物の姿勢に基づいた前記人物の関節点である、
     請求項18に記載の画像処理システム。
  20.  前記一点と複数の点との間の位置関係は、前記人物の点と前記物体の点とを結ぶ複数の線の距離、前記複数の線の距離の正規化値、前記複数の線のベクトルのいずれかを含む、
     請求項18または19に記載の画像処理システム。
  21.  前記類似判定手段は、前記複数の線における距離の類似度、前記複数の線における距離の正規化値の類似度、前記複数の線におけるベクトルの類似度のいずれかに基づいて類似判定を行う、
     請求項20に記載の画像処理システム。
  22.  前記位置関係性特徴量は、前記複数の線の距離に応じた、前記人物または前記物体の複数の点の序列を示す、
     請求項20に記載の画像処理システム。
  23.  前記一点と複数の点との間の位置関係は、前記第1及び第2の画像を撮像したカメラパラメータから求められた三次元空間における位置関係である、
     請求項18乃至22のいずれか一項に記載の画像処理システム。
  24.  前記第1及び第2の画像に対するHOI(Human Object Interaction)検出のHOI検出結果を取得するHOI検出取得手段を備え、
     前記類似判定手段は、前記人物の姿勢の推定結果と前記物体の認識結果に基づいた第1の類似判断と、前記HOI検出結果に基づいた第2の類似判断を行う、
     請求項1乃至23のいずれか一項に記載の画像処理システム。
  25.  前記HOI検出取得手段は、前記第1または第2の画像に基づいて、記第1または第2の画像に対しHOI検出を行う、
     請求項24に記載の画像処理システム。
  26.  前記類似判定手段は、前記第1の画像に基づいてHOI検出を行ったHOI検出結果と、前記取得した前記第2の画像のHOI検出結果とに基づいて、前記第2の類似判断を行う、
     請求項24または25に記載の画像処理システム。
  27.  前記類似判定手段は、前記HOI検出の検出結果の確信度に応じて、前記第1の類似判断と前記第2の類似判断のいずれか、または、前記第1の類似判断と前記第2の類似判断に重みを付けて類似判断を行う、
     請求項24乃至26のいずれか一項に記載の画像処理システム。
  28.  前記第1の画像は、クエリ画像であり、
     前記第2の画像は、複数の検索対象画像を含み、
     前記類似判定手段は、前記類似判定の結果に基づいて、前記複数の検索対象画像から前記クエリ画像に類似する画像を検索する、
     請求項1乃至27のいずれか一項に記載の画像処理システム。
  29.  前記複数の検索対象画像における前記人物の姿勢の推定結果と前記物体の認識結果を格納するデータベースを備え、
     前記類似判定手段は、前記データベースを参照し、前記複数の検索対象画像から前記クエリ画像に類似する画像を検索する、
     請求項28に記載の画像処理システム。
  30.  前記姿勢推定取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる人物の姿勢を推定し、
     前記物体認識取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる物体を認識する、
     請求項1乃至29のいずれか一項に記載の画像処理システム。
  31.  前記姿勢推定取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる人物の姿勢として前記人物の骨格構造を推定する、
     請求項30に記載の画像処理システム。
  32.  前記物体認識取得手段は、前記第1または第2の画像に基づいて、前記第1または第2の画像に含まれる物体の物体クラスを認識する、
     請求項30または31に記載の画像処理システム。
  33.  前記類似判定手段は、前記第1の画像に基づいて推定した人物の姿勢の推定結果及び前記第1の画像に基づいて認識した物体の認識結果と、前記取得した前記第2の画像の人物の姿勢の推定結果及び前記取得した前記第2の画像の物体の認識結果とに基づいて、前記類似判定を行う、
     請求項30乃至32のいずれか一項に記載の画像処理システム。
  34.  第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得し、
     前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得し、
     前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う、
     画像処理方法。
  35.  第1及び第2の画像に含まれる人物の姿勢を推定した推定結果を取得し、
     前記第1及び第2の画像に含まれる前記人物以外の物体を認識した認識結果を取得し、
     前記人物の姿勢の推定結果と前記物体の認識結果に基づいて、前記第1の画像と前記第2の画像との類似判定を行う、
     処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒。
PCT/JP2021/046804 2021-12-17 2021-12-17 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 WO2023112321A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/046804 WO2023112321A1 (ja) 2021-12-17 2021-12-17 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/046804 WO2023112321A1 (ja) 2021-12-17 2021-12-17 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2023112321A1 true WO2023112321A1 (ja) 2023-06-22

Family

ID=86774132

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/046804 WO2023112321A1 (ja) 2021-12-17 2021-12-17 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Country Status (1)

Country Link
WO (1) WO2023112321A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091138A (ja) * 2017-11-13 2019-06-13 株式会社日立製作所 画像検索装置、画像検索方法、及び、それに用いる設定画面
WO2019171803A1 (ja) * 2018-03-09 2019-09-12 オムロン株式会社 画像検索装置、画像検索方法、電子機器及びその制御方法
US20190286892A1 (en) * 2018-03-13 2019-09-19 Adobe Inc. Interaction Detection Model for Identifying Human-Object Interactions in Image Content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091138A (ja) * 2017-11-13 2019-06-13 株式会社日立製作所 画像検索装置、画像検索方法、及び、それに用いる設定画面
WO2019171803A1 (ja) * 2018-03-09 2019-09-12 オムロン株式会社 画像検索装置、画像検索方法、電子機器及びその制御方法
US20190286892A1 (en) * 2018-03-13 2019-09-19 Adobe Inc. Interaction Detection Model for Identifying Human-Object Interactions in Image Content

Similar Documents

Publication Publication Date Title
US20220383653A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program
WO2019064375A1 (ja) 情報処理装置、制御方法、及びプログラム
JP7501622B2 (ja) 画像選択装置、画像選択方法、およびプログラム
JP7409499B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US11527090B2 (en) Information processing apparatus, control method, and non-transitory storage medium
WO2023112321A1 (ja) 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体
JP7491380B2 (ja) 画像選択装置、画像選択方法、及びプログラム
US20230368419A1 (en) Image selection apparatus, image selection method, and non-transitory computer-readable medium
JP7435781B2 (ja) 画像選択装置、画像選択方法、及びプログラム
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7396364B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP7302741B2 (ja) 画像選択装置、画像選択方法、およびプログラム
JP7435754B2 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2022249278A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7468642B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7501621B2 (ja) 画像選択装置、画像選択方法、およびプログラム
WO2022249331A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7485040B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7375921B2 (ja) 画像分類装置、画像分類方法、およびプログラム
WO2022079795A1 (ja) 画像選択装置、画像選択方法、及びプログラム
US20220138458A1 (en) Estimation device, estimation system, estimation method and program
Ko et al. Human Activity Recognition System Using Angle Inclination Method and Keypoints Descriptor Network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21968234

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023567489

Country of ref document: JP

Kind code of ref document: A