WO2023209955A1 - 情報処理装置、情報処理方法及び記録媒体 - Google Patents

情報処理装置、情報処理方法及び記録媒体 Download PDF

Info

Publication number
WO2023209955A1
WO2023209955A1 PCT/JP2022/019290 JP2022019290W WO2023209955A1 WO 2023209955 A1 WO2023209955 A1 WO 2023209955A1 JP 2022019290 W JP2022019290 W JP 2022019290W WO 2023209955 A1 WO2023209955 A1 WO 2023209955A1
Authority
WO
WIPO (PCT)
Prior art keywords
posture
model
similarity
information
image
Prior art date
Application number
PCT/JP2022/019290
Other languages
English (en)
French (fr)
Inventor
諒 川合
登 吉田
健全 劉
智史 山崎
テイテイ トウ
カレン ステファン
洋平 佐々木
直樹 進藤
悠太 並木
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/019290 priority Critical patent/WO2023209955A1/ja
Publication of WO2023209955A1 publication Critical patent/WO2023209955A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the present invention relates to an information processing device, an information processing method, and a recording medium.
  • the image search device described in Patent Document 1 includes a posture estimation section, a feature amount extraction section, a query generation section, and an image search section.
  • the pose estimation unit described in the same document recognizes the pose information of a search target, which is composed of a plurality of feature points, from an input image.
  • the feature amount extraction unit described in this document extracts feature amounts from posture information and an input image.
  • the query generation unit described in this document generates a search query from an image database that stores feature amounts in association with input images and posture information specified by the user.
  • the image search unit described in this document searches an image database for images containing similar postures according to a search query.
  • the image processing device described in Patent Document 2 includes an image acquisition section, a skeletal structure detection section, a query evaluation section, a selection section, a feature amount calculation section, and a search section.
  • the image acquisition unit described in the same document acquires query image candidates.
  • the skeletal structure detection unit described in this document detects a two-dimensional skeletal structure of a person included in a query image candidate.
  • the query evaluation unit described in this document calculates evaluation values of query image candidates based on the detection results of the two-dimensional skeleton structure.
  • the selection unit described in this document selects a query image from among query image candidates based on the evaluation value.
  • the feature amount calculation unit described in this document calculates the feature amount of a two-dimensional skeletal structure detected from a query image.
  • the search unit described in this document searches for an analysis target image that includes a person in a posture similar to the posture of the person included in the query image, from among the analysis target images, based on the similarity of the calculated feature amounts.
  • Patent Document 3 discloses a method for calculating feature amounts of each of a plurality of key points of a human body included in an image, and searching for images containing human bodies with similar postures or similar movements based on the calculated feature amounts. , describes a technique for classifying objects with similar postures and movements together.
  • Non-Patent Document 1 describes a technique related to human skeleton estimation.
  • Patent Documents 1 and 2 describe techniques for estimating posture or behavior based on images. However, in Patent Documents 1 and 2, it is difficult to improve the accuracy of estimating the posture of the photographed person shown in the image because it is not known whether the posture has been correctly estimated.
  • Patent Document 3 and Non-Patent Document 1 also do not disclose a technique for improving the accuracy of detecting a person in a predetermined posture from an image of a person.
  • An example of an object of the present invention is to provide an information processing device, an information processing method, and a recording medium that solve the problem of improving the accuracy of estimating the posture of a photographed person shown in an image in view of the above-mentioned problems. .
  • acquisition means Based on the degree of similarity between the first posture information and the second posture information, a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image is selected from among the plurality of reference images.
  • a search means to search provided by an information processing apparatus, comprising: display control means for displaying at least one of the first attitude information and the second attitude information on a display means in a display mode according to an index used to search the reference image; be done.
  • the computer is obtaining first posture information indicating the posture of the person shown in each of the plurality of reference images associated with a predetermined posture, and second posture information indicating the posture of the photographed person shown in the query image; Based on the degree of similarity between the first posture information and the second posture information, a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image is selected from among the plurality of reference images.
  • An information processing method is provided, in which at least one of the first attitude information and the second attitude information is displayed on a display means in a display mode according to an index used to search the reference image.
  • search A program was recorded for causing a display unit to display at least one of the first attitude information and the second attitude information in a display mode according to an index used to search the reference image.
  • a recording medium is provided.
  • an information processing device it is possible to provide an information processing device, an information processing method, and a recording medium that solve the problem of improving the accuracy of estimating the posture of a photographed person shown in an image.
  • FIG. 1 is a diagram showing an overview of an information processing device according to an embodiment.
  • 1 is a diagram showing an overview of an information processing system according to an embodiment.
  • 3 is a flowchart showing an overview of information processing according to an embodiment.
  • FIG. 1 is a diagram illustrating a detailed functional configuration example of an information processing system according to an embodiment.
  • FIG. 7 is a diagram illustrating a configuration example of reference information including reference images associated with telephone conversation postures.
  • FIG. 7 is a diagram illustrating a configuration example of weight information indicating weights associated with telephone conversation postures.
  • FIG. 3 is a diagram illustrating an example of a functional configuration of a similarity acquisition unit according to an embodiment.
  • FIG. 1 is a diagram illustrating an example of a physical configuration of an information processing device according to an embodiment.
  • FIG. 7 is a flowchart illustrating an example of posture estimation processing according to an embodiment.
  • FIG. 3 is a diagram illustrating an example of a method of thinning out a portion of a plurality of frame images.
  • 7 is a flowchart illustrating a detailed example of similarity acquisition processing according to an embodiment. It is a flow chart which shows an example of estimation support processing concerning one embodiment.
  • FIG. 3 is a diagram showing an example of a result display screen that displays search results. It is a figure which shows the example of a display of a query image on a result display screen.
  • FIG. 7 is a diagram showing another display example of a query image on a result display screen.
  • FIG. 1 is a diagram showing an overview of an information processing apparatus 100 according to an embodiment.
  • the information processing device 100 includes an attitude acquisition section 113, a search section 117, and a display control section 119.
  • the posture acquisition unit 113 acquires first posture information indicating the posture of the person shown in each of the plurality of reference images associated with a predetermined posture, and second posture information indicating the posture of the photographed person shown in the query image. and get .
  • the search unit 117 selects a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image from among the plurality of reference images based on the degree of similarity between the first posture information and the second posture information. Search for.
  • the display control unit 119 causes the display unit to display at least one of the first attitude information and the second attitude information in a display mode according to the index used to search for the reference image.
  • this information processing device 100 it is possible to provide an information processing device that solves the problem of improving the accuracy of estimating the posture of a photographed person shown in an image.
  • FIG. 2 is a diagram showing an overview of the information processing system S1 according to one embodiment.
  • the information processing system S1 includes a photographing unit 101 for photographing a query image and an information processing device 100.
  • this information processing system S1 it is possible to provide an information processing system that solves the problem of improving the accuracy of estimating the posture of a photographed person shown in an image.
  • FIG. 3 is a flowchart showing an overview of information processing according to one embodiment.
  • the posture acquisition unit 113 acquires first posture information indicating the posture of the person shown in each of the plurality of reference images associated with a predetermined posture, and second posture information indicating the posture of the photographed person shown in the query image. and are obtained (step S103).
  • the search unit 117 selects a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image from among the plurality of reference images based on the degree of similarity between the first posture information and the second posture information. is searched for (step S201).
  • the display control unit 119 causes the display unit to display at least one of the first orientation information and the second orientation information in a display mode according to the index used to search for the reference image (step S203).
  • this information processing it is possible to provide an information processing method that solves the problem of improving the accuracy of estimating the posture of the photographed person shown in the image.
  • FIG. 4 is a diagram illustrating a detailed functional configuration example of the information processing system S1 according to an embodiment.
  • the information processing system S1 includes an imaging unit 101, an information processing device 100, and an analysis device 102.
  • the imaging unit 101, the information processing device 100, and the analysis device 102 are connected via a network N configured by wire, wireless, or a combination thereof, and can send and receive information to and from each other.
  • the photographing unit 101 photographs a person (person to be photographed) performing a predetermined action.
  • the photographing unit 101 is, for example, a camera that is installed in a store of a financial institution such as a bank and photographs an operator who operates an automatic teller machine (ATM).
  • ATM automatic teller machine
  • the photographing unit 101 is not limited to a camera for photographing an ATM operator, but may also be a camera for photographing the inside of a store such as a bank, or a camera installed in various stores other than financial institutions. There may be. Further, the number of photographing units 101 may be plural.
  • the photographing unit 101 photographs a predetermined photographing area and transmits image information indicating a moving image to the information processing device 100.
  • the photographing unit 101 sequentially photographs multiple times at a predetermined frame rate.
  • the photographing unit 101 generates frame information including a frame image in each photograph.
  • the photographing unit 101 transmits frame information including each of the time-series frame images to the information processing apparatus 100 via the network N.
  • the analysis device 102 is a device that analyzes images.
  • the analysis device 102 acquires image information generated by the imaging unit 101 via the network N.
  • the analysis device 102 acquires image information from the imaging unit 101 via the information processing device 100, but it may also directly acquire image information from the imaging unit 101.
  • the analysis device 102 is a device that analyzes images included in the acquired image information.
  • the analysis device 102 includes one or more analysis functions that perform processing for analyzing images (analysis processing).
  • the analysis functions provided by the analysis device 102 include (1) object detection function, (2) face analysis function, (3) human figure analysis function, (4) posture analysis function, (5) behavior analysis function, and (6) appearance attributes. (7) slope feature analysis function, (8) color feature analysis function, (9) flow line analysis function, etc.
  • the object detection function detects people and objects from images. Object detection functionality can also determine the location of people and objects within an image. An example of a model applied to object detection processing is YOLO (You Only Look Once).
  • the object detection function detects, for example, an operator, a mobile phone (including a smartphone), a wheelchair, and the like. For example, the object detection function determines the positions of detected persons and objects.
  • the face analysis function detects a human face from an image, extracts the feature amount of the detected face (facial feature amount), and categorizes the detected face (classification).
  • the face analysis function can also determine the position of a face within an image.
  • the face analysis function can also determine the identity of persons detected from different images based on the degree of similarity between facial feature amounts of persons detected from different images.
  • Human figure analysis function extracts the human body features of the person included in the image (e.g., values indicating overall characteristics such as body shape, height, clothing, etc.), Perform classification (classification), etc.
  • the human shape analysis function can also identify the position of a person in an image.
  • the human figure analysis function can also determine the identity of a person included in different images based on the human body features of the person included in the different images.
  • the posture analysis function generates posture information indicating the posture of the person.
  • the posture information includes, for example, a person's posture estimation model.
  • the posture estimation model is a model in which joints of a person estimated from an image are connected.
  • the posture estimation model is composed of a plurality of model elements corresponding to joint elements corresponding to joints, trunk elements corresponding to the torso, bone elements corresponding to bones connecting joints, and the like.
  • the posture analysis function for example, detects joint points of a person from an image and connects the joint points to create a posture estimation model.
  • the posture analysis function uses information from the posture estimation model to estimate a person's posture, extract features of the estimated posture (posture features), and classify people included in the image. conduct.
  • the posture analysis function can also determine the identity of a person included in different images based on the posture feature amount of the person included in the different images.
  • the posture analysis function creates posture estimation models such as a talking posture and a wheelchair posture, and extracts posture features in these postures.
  • the talking posture is a posture for talking using a mobile phone.
  • the wheelchair posture is the posture of a person using a wheelchair.
  • Behavior analysis processing uses the information of the posture estimation model, changes in posture, etc. to estimate the movement of the person, extract the feature amount of the person's movement (motion feature amount), and classify the person included in the image. (Classification) etc.
  • information on the stick figure model can also be used to estimate a person's height or specify the position of a person in an image.
  • a behavior such as a change or transition in posture or movement (change or transition in position) can be estimated from an image, and a motion feature amount of the behavior can be extracted.
  • the appearance attribute analysis function can recognize appearance attributes associated with a person.
  • the appearance attribute analysis function extracts feature amounts related to recognized appearance attributes (appearance attribute feature amounts), and classifies people included in the image.
  • the appearance attribute is an appearance attribute, and includes one or more of, for example, the color of clothes, the color of shoes, hairstyle, and whether or not a hat, tie, and glasses are worn.
  • the gradient feature analysis function extracts the gradient feature amount (gradient feature amount) in the image.
  • techniques such as SIFT, SURF, RIFF, ORB, BRISK, CARD, and HOG can be applied to the gradient feature detection process.
  • the color feature analysis function can detect an object from an image, extract the color feature amount (color feature amount) of the detected object, classify the detected object, etc.
  • the color feature amount is, for example, a color histogram.
  • the color feature analysis function can detect, for example, a person or an object included in an image.
  • the flow line analysis function uses, for example, the results of the identity determination in any of the analysis functions (2) to (6) above to analyze the flow lines (trajectories of movement) of people included in the video. You can ask for it. In detail, for example, by connecting people determined to be the same in images that are different in time series, the flow line of that person can be determined. Note that the flow line analysis function can also calculate flow lines spanning multiple images shot in different shooting areas, such as when images shot by multiple shooting units 101 shooting different shooting areas are acquired. .
  • Image features include, for example, object detection results using object detection functions, facial features, human body features, posture features, movement features, appearance attribute features, gradient features, color features, and flow lines. include.
  • the information processing device 100 may include an analysis unit having the functions of the analysis device 102.
  • the information processing device 100 is a device that estimates the posture of a person included in a frame image. As shown in FIG. 4, the information processing device 100 functionally includes an image acquisition section 111, a storage section 112, a posture acquisition section 113, a similarity acquisition section 114, an estimation section 115, and an input section 116. , a search section 117, a display section 118, and a display control section 119.
  • the image acquisition unit 111 acquires image information indicating a moving image from the imaging unit 101. That is, the image acquisition unit 111 acquires a plurality of time-series frame images obtained by a plurality of temporally consecutive shootings.
  • the image acquisition unit 111 acquires frame information including each of a plurality of time-series frame images from the imaging unit 101.
  • the image acquisition unit 111 stores the acquired frame information.
  • the storage unit 112 is a storage unit for storing various information.
  • the storage unit 112 stores in advance, for example, reference information 112a indicating a reference image, weight information 112b indicating weight, and the like.
  • the reference image is an image of a person associated with a predetermined posture.
  • the reference image is an image that is referred to in order to estimate the posture of the person included in the query image, and is appropriately selected and set in the storage unit 112.
  • the predetermined posture is, for example, a telephone conversation posture, a wheelchair posture, or the like.
  • the calling posture may be subdivided into a right-hand talking posture, which is a posture for holding a mobile phone with the right hand and talking, and a right-hand talking posture, which is a posture for holding a mobile phone with the left hand.
  • FIG. 5 is a diagram illustrating an example of the configuration of reference information 112a including reference images associated with conversation postures.
  • the reference information 112a illustrated in FIG. 5 includes, for example, a positive example and a negative example.
  • a positive example is a reference image of a person in a conversation posture.
  • a positive example shows a person standing and talking while holding a mobile phone in their right or left hand.
  • a negative example is a reference image of a person who is not in a conversation posture.
  • a negative example shows a person in an upright posture without holding a mobile phone.
  • FIG. 5 shows an example of reference information 112a that includes M positive examples and N negative examples in association with conversation postures.
  • M and N are integers of 1 or more.
  • reference information 112a may include any number of reference images, as long as it includes at least one reference image. Further, the reference information 112a may include only positive examples.
  • the weight is a value indicating the degree to which each model element is emphasized in order to determine the degree of similarity between posture estimation models in a predetermined posture.
  • the weight information 112b includes the weight of each model element for each predetermined posture.
  • FIG. 6 is a diagram illustrating a configuration example of weight information 112b indicating weights associated with conversation postures.
  • the weight information 112b illustrated in FIG. 6 associates the element ID and weight in the conversation posture.
  • Element ID is information for identifying a model element.
  • the element ID is, for example, a number appropriately assigned to each of the bone elements and joint elements corresponding to the trunk element, the upper and lower parts of the left and right arms, the thighs and lower legs of the left and right legs, etc. be.
  • Weights are determined for each model element in a predetermined posture.
  • FIG. 6 shows an example in which the weight is an integer greater than or equal to 0, the method for setting the weight may be changed as appropriate.
  • the weight set for the arm is larger than the weight set for the leg.
  • the weight set for the right hand is larger than the weight set for the left hand.
  • the posture acquisition unit 113 acquires a plurality of reference images associated with a predetermined posture such as a telephone conversation posture from the storage unit 112, and acquires first posture information based on the acquired plurality of reference images.
  • the first posture information is information indicating the posture of a person shown in each of a plurality of reference images associated with a predetermined posture.
  • the first posture information includes, for example, a first model that is a posture estimation model regarding the person shown in the reference image.
  • the posture acquisition unit 113 acquires time-series frame images from the image acquisition unit 111, and acquires a query image by thinning out a part of the time-series frame images. Then, the posture acquisition unit 113 acquires second posture information based on the acquired query image.
  • the second posture information is information indicating the posture of the photographed person shown in the query image.
  • the second posture information includes, for example, a second model that is a posture estimation model regarding the photographed person shown in the query image.
  • the posture acquisition unit 113 transmits each of the acquired reference image and query image to the analysis device 102 via the network N.
  • the posture acquisition unit 113 acquires first posture information including a first model related to the person shown in the reference image from the analysis device 102.
  • the posture acquisition unit 113 acquires second posture information including a second model related to the person shown in the query image from the analysis device 102.
  • the similarity acquisition unit 114 calculates information regarding the postures of the photographed person shown in the query image and the person shown in the reference images. Find similarity.
  • the similarity is a value indicating the degree of similarity between posture estimation models in a predetermined posture.
  • the similarity acquisition unit 114 acquires from the posture acquisition unit 113 a first model of a person shown in each of the plurality of reference images corresponding to a predetermined posture. Further, the similarity acquisition unit 114 acquires a second model of the photographed person shown in each of the time-series query images from the posture acquisition unit 113. The similarity obtaining unit 114 obtains the similarity using the first model and the second model for each combination of the first model and the second model.
  • the similarity includes the overall similarity and the element similarity.
  • the overall similarity is a value indicating the overall degree of similarity between the first model and the second model in a predetermined posture, that is, the overall similarity between the first model and the second model.
  • the element similarity is the similarity of each corresponding model element between the first model and the second model in a predetermined posture, that is, the similarity of each corresponding model element between the first model and the second model. It is.
  • the similarity may include at least one of the overall similarity and the element similarity.
  • FIG. 7 is a diagram showing an example of the functional configuration of the similarity degree acquisition unit 114 according to the present embodiment.
  • the similarity acquisition unit 114 includes an overall calculation unit 114a and an element calculation unit 114b.
  • the overall calculation unit 114a calculates the overall similarity between the first model and the second model. Specifically, the overall calculation unit 114a calculates the overall similarity using the weight corresponding to the predetermined posture included in the weight information 112b and the element similarity calculated by the element calculation unit 114b.
  • the overall calculation unit 114a calculates the product of each of the similarity of the model elements and the weight of the corresponding model element, and constructs a posture estimation model. Add the products obtained for each model element. The value obtained as a result of this summation is the overall similarity.
  • the element calculation unit 114b calculates element similarity, which is the similarity of each corresponding model element between the first model and the second model.
  • the element calculation unit 114b calculates element similarity for each corresponding model element between the first model and the second model, based on the size, length, slope, etc., for example.
  • the estimation unit 115 calculates a plurality of query images based on a plurality of query images obtained based on a plurality of images taken while performing a predetermined action, and a reference image indicating a person associated with a predetermined posture. The posture of the photographed person shown in each of the query images is estimated.
  • the estimating unit 115 estimates the posture of the photographed person shown in each of the time-series query images based on the similarity (for example, overall similarity) determined by the similarity obtaining unit 114.
  • the estimating unit 115 determines, based on the at least one thinned out frame image among the time-series frame images and the reference image, the person to be photographed who is shown in the at least one thinned out frame image.
  • the posture of the object may be estimated.
  • the posture acquisition unit 113 acquires at least one thinned-out frame image from the image acquisition unit 111, and acquires the second model of the photographed person shown in the frame image.
  • the similarity obtaining unit 114 obtains the overall similarity based on the second model of the person shown in the frame image and the first model of the person shown in each of the plurality of reference images.
  • the estimation unit 115 estimates the posture of the photographed person shown in the at least one thinned-out frame image based on the overall similarity obtained by the similarity obtaining unit 114.
  • the estimating unit 115 may estimate the posture of the photographed person shown in the query image or the frame image based on the reference image having the largest similarity value among the positive example and the negative example. In this case, for example, if the reference image with the highest degree of similarity is a positive example, the estimation unit 115 estimates that the posture of the photographed person is a predetermined posture corresponding to the reference image. If the reference image with the highest degree of similarity is a negative example, the estimation unit 115 estimates that the posture of the photographed person is not the predetermined posture corresponding to the reference image.
  • the estimation unit 115 may estimate the posture of the photographed person shown in the query image or the frame image based on the positive example average value and the negative example average value.
  • the positive example average value is the average value of the degrees of similarity between a plurality of positive examples associated with a predetermined posture and the query image or frame image.
  • the negative example average value is an average value of similarities between a plurality of negative examples associated with a predetermined posture and the query image or frame image.
  • the estimation unit 115 estimates that the posture of the photographed person is a predetermined posture corresponding to the reference image.
  • the estimation unit 115 estimates that the posture of the photographed person is not the predetermined posture corresponding to the reference image.
  • the estimation unit 115 performs image matching between the query image or frame image and the reference image, and based on the similarity between the reference image matched in the image matching and the query image or frame image, the estimation unit 115 The posture of the photographed person shown may be estimated. In this case, the estimation unit 115 estimates the posture of the photographed person shown in the query image or frame image based on the positive example average value and the negative example average value of the reference images matched by image matching. Good too.
  • the estimation unit 115 determines that the posture of the photographed person is in a predetermined posture corresponding to the reference image. We estimate that there is. If the positive example average value of the reference images matched by image matching is less than or equal to the negative example average value, the estimating unit 115 estimates that the posture of the photographed person is not the predetermined posture corresponding to the reference image.
  • the estimation unit 115 calculates the degree of similarity between images based on the feature amount between the person shown in the query image or the frame image and the person shown in the reference image. The estimation unit 115 determines whether the query image or frame image and the reference image match by comparing the degree of similarity between images with a threshold value. For example, the estimating unit 115 determines that the images are compatible (similar) when the degree of similarity between the images is equal to or greater than the threshold, and determines that the images are not compatible (dissimilar) when the degree of similarity between the images is less than the threshold.
  • the estimation unit 115 may estimate the posture of the photographed person using only image matching without using the degree of similarity.
  • the estimating unit 115 may estimate that the photographed person shown in the query image or frame image is in a predetermined posture corresponding to the reference image when the image matches at least one positive example.
  • the estimation unit 115 may estimate that the photographed person shown in the query image or frame image is not in a predetermined posture corresponding to the reference image when the image matches at least one negative example. .
  • the estimating unit 115 may estimate the posture of the photographed person based on the number of matching positive examples and negative examples that match through image matching. In this case, for example, if the number of matches with the positive example is greater than the number of matches with the negative example, the estimation unit 115 determines that the subject shown in the query image or frame image is in a predetermined posture corresponding to the reference image. We estimate that there is. For example, if the number of matches with the positive example is less than or equal to the number of matches with the negative example, the estimation unit 115 estimates that the photographed person shown in the query image or frame image is not in the predetermined posture corresponding to the reference image. do.
  • the estimation unit 115 determines that the query image or the frame image is different from either the positive example or the negative example. It may be determined that this is a negative example.
  • the estimation unit 115 performs machine learning using the reference image and uses a trained learning model to determine whether the query image or the frame image matches (is similar to) a positive example or a negative example. Good too.
  • This learning model is a trained learning model that has undergone machine learning to determine whether the photographed person fits into a positive example or a negative example.
  • the estimation unit 115 inputs image information including the query image indicating the photographed person or the frame image into the learning model, thereby determining whether the query image or the frame image is suitable for a positive example or a negative example. (similar) Obtain the determination result.
  • the input data to the learning model during learning includes image information indicating a person. Further, in the learning, supervised learning including a label (correct answer) indicating whether input data fits a positive example or a negative example is preferably performed.
  • the input unit 116 is a keyboard, mouse, touch panel, etc. that accepts input from the user.
  • the search unit 117 obtains, for example, a query image appropriately specified by the user.
  • the search unit 117 selects a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image from among the plurality of reference images based on the degree of similarity between the first posture information and the second posture information. Search for.
  • the search unit 117 outputs reference images whose degree of similarity is equal to or higher than a preset reference value as a search result.
  • the query image specified by the user may be any frame image, or may be an image other than the image photographed by the photographing unit 101.
  • the reference value used for the search may be a value related to overall similarity or a value related to element similarity.
  • the search unit 117 When the reference value is determined in terms of element similarity, the search unit 117 outputs, for example, a reference image corresponding to the first model that includes element similarity greater than or equal to the reference value as a search result.
  • the display unit 118 is a display that displays various information.
  • the display control unit 119 controls the display unit 118 and causes the display unit 118 to display various information. For example, when the estimation unit 115 detects a photographed person in a predetermined posture, the display control unit 119 causes the display unit 118 to display a query image or a frame image in which the photographed person is marked.
  • the mark is, for example, a rectangular frame surrounding the subject.
  • the display control unit 119 causes the display unit 118 to display at least one of the first attitude information and the second attitude information in a display mode according to the index used to search for the reference image.
  • the index used to search for the reference image is, for example, one or more of similarity, weight, and the like. Note that the index used to search for a reference image is not limited to these.
  • the display mode includes, for example, the thickness, color, and line type of the line representing the trunk element, the thickness, color, and line type of the line representing the bone element, and the size of the figure (e.g., circle, square, etc.) representing the joint element. color, line type, etc.
  • the line type is, for example, a solid line, a dotted line, a broken line, a chain line, a chain double-dot line, or the like.
  • the display control unit 119 controls the display control unit 119 to display first orientation information corresponding to the reference image included in the search results of the search unit 117 and second orientation information corresponding to the user-specified query image acquired by the search unit 117. At least one of the indicators is displayed on the display unit 118 in a display mode according to the index.
  • the display control unit 119 displays the maximum number of reference images to be displayed in order from the reference image corresponding to the first model with the highest degree of similarity. It may be selected as
  • the display control unit 119 may display at least one of the first attitude information and the second attitude information on the display unit 118 in a display mode according to the degree of similarity.
  • the display control unit 119 When displaying the second posture information, the display control unit 119 associates the second posture information with a specific reference image among the plurality of reference images, and displays the second posture information according to the degree of similarity between the second posture information and the first posture information corresponding to the specific reference image.
  • the second attitude information may be displayed on the display unit 118 in a display mode.
  • the first attitude information and the second attitude information may include the first model and the second model, respectively.
  • the display control unit 119 associates it with a specific reference image among the plurality of reference images, and displays a display mode according to the degree of similarity between the specific reference image and the first model corresponding to the specific reference image.
  • the second model may be displayed on the display unit 118.
  • the first model corresponding to a specific reference image may be a first model with the largest overall similarity, a first model with the largest element similarity, a first model specified by the user, etc., with respect to the second model. Either one.
  • the display control unit 119 calculates the average value of element similarity for each model element between the second model and each of the first models output as a search result for the second model, and calculates the average value of element similarity for each model element.
  • the second model may be displayed on the display unit 118 in a display mode according to the value.
  • the display control unit 119 selects model elements constituting at least one of the first model and the second model whose element similarity is greater than or equal to the first reference value and less than or equal to the second reference value. Alternatively, only model elements whose weights are greater than or equal to a predetermined threshold may be displayed on the display unit 118.
  • Each of the first reference value and the second reference value is a value set as appropriate.
  • the display control unit 119 may cause the display unit 118 to display a plurality of model elements constituting at least one of the first model and the second model in a display mode according to the weight.
  • the display control unit 119 may cause the display unit 118 to display at least one of the trunk element and the bone element, which are model elements, as a line with an arrow.
  • the information processing system S1 is physically composed of an imaging unit 101, an information processing device 100, and an analysis device 102 that are connected via a network N.
  • the imaging unit 101, the information processing device 100, and the analysis device 102 are each configured from a single physically different device.
  • the photographing unit 101 is, for example, a camera.
  • the information processing device 100 and the analysis device 102 may be physically configured as a single device.
  • the information processing device 100 and the analysis device 102 use an internal bus 1010, which will be described later, instead of the network N.
  • one or both of the information processing device 100 and the analysis device 102 may be configured from a plurality of devices physically connected via an appropriate communication line such as the network N.
  • FIG. 8 is a diagram showing an example of the physical configuration of the information processing device 100 according to the present embodiment.
  • the information processing device 100 is, for example, a general-purpose computer.
  • the information processing device 100 includes, for example, a bus 1010, a processor 1020, a memory 1030, a storage device 1040, a network interface 1050, an input interface 1060, and an output interface 1070.
  • the bus 1010 is a data transmission path through which the processor 1020, memory 1030, storage device 1040, network interface 1050, input interface 1060, and output interface 1070 exchange data with each other.
  • the method of connecting the processors 1020 and the like to each other is not limited to bus connection.
  • the processor 1020 is a processor implemented by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the memory 1030 is a main storage device implemented by RAM (Random Access Memory) or the like.
  • the storage device 1040 is an auxiliary storage device realized by a HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the storage device 1040 stores program modules for realizing each function of the information processing apparatus 100.
  • the processor 1020 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.
  • the network interface 1050 is an interface for connecting the information processing device 100 to the network N.
  • the input interface 1060 is an interface for the user to input information.
  • Input interface 1060 is composed of one or more of, for example, a keyboard, a mouse, and a touch panel.
  • the output interface 1070 is an interface for presenting information to the user.
  • the output interface 1070 is composed of, for example, a liquid crystal panel, an organic EL (Electro-Luminescence) panel, or the like.
  • the analysis device 102 is physically, for example, a general-purpose computer.
  • the analysis device 102 is physically configured in substantially the same manner as the information processing device 100 (see FIG. 8).
  • the storage device 1040 of the analysis device 102 stores program modules for realizing each function of the analysis device 102.
  • processor 1020 of the analysis device 102 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.
  • Network interface 1050 of analysis device 102 is an interface for connecting analysis device 102 to network N. Except for these points, the analysis device 102 may be physically configured similarly to the information processing device 100.
  • the information processing system S1 executes processing for estimating the posture of the photographed person included in the query image.
  • the processing executed by the information processing system S1 includes posture estimation processing and estimation support processing.
  • the posture estimation process is a process of estimating the posture of the photographed person included in the query image using a reference image associated with a predetermined posture.
  • the estimation support process is a process for supporting estimation of the posture of the photographed person.
  • FIG. 9 is a flowchart illustrating an example of posture estimation processing according to the present embodiment.
  • the posture estimation process is executed, for example, while the information processing system S1 is in operation.
  • the image acquisition unit 111 acquires a plurality of time-series frame images (step S101).
  • the image acquisition unit 111 stores the acquired frame images.
  • the image acquisition unit 111 thins out a part of the plurality of frame images acquired in step S101 to acquire a query image (step S102).
  • the image acquisition unit 111 thins out a part of the plurality of frame images according to a predetermined rule.
  • FIG. 10 is a diagram illustrating an example of a method for thinning out a portion of a plurality of frame images.
  • the image acquisition unit 111 thins out frame images acquired during a predetermined time interval ⁇ T (excluding times at both ends). Thereby, the image acquisition unit 111 acquires time-series query images at a predetermined constant time interval ⁇ T.
  • the method of obtaining a query image by thinning out a part of a plurality of frame images is not limited to this.
  • the time interval ⁇ T may not be constant, and the method may be different from the operation mode (a mode for tracking the photographed person, It may be changed depending on the mode for detecting the posture of the person to be photographed.
  • the query image may be a plurality of frame images that are not thinned out.
  • the posture acquisition unit 113 acquires first posture information based on a plurality of reference images associated with a predetermined posture and second posture information based on the query image acquired in step S102 (step S103).
  • the posture acquisition unit 113 acquires a plurality of reference images corresponding to a predetermined posture from the storage unit 112.
  • the predetermined posture is a telephone conversation posture and the reference information 112a shown in FIG. 5 is stored in the storage section 112
  • the posture acquisition section 113 acquires reference images 1 to 7.
  • the posture acquisition unit 113 transmits the acquired reference images 1 to 7 to the analysis device 102.
  • the analysis device 102 generates first posture information including the first model of the person shown in each of the reference images 1 to 7, and transmits it to the information processing device 100.
  • the posture acquisition unit 113 acquires first posture information from the analysis device 102.
  • the posture acquisition unit 113 acquires the query image acquired in step S102 from the image acquisition unit 111.
  • the posture acquisition unit 113 transmits the acquired query image to the analysis device 102.
  • the analysis device 102 generates second posture information including the second model of the person indicated by the query image and transmits it to the information processing device 100.
  • the posture acquisition unit 113 acquires second posture information from the analysis device 102.
  • the similarity obtaining unit 114 obtains the similarity between each of the first models and the second model included in each of the first posture information and second posture information obtained in step S102 (step S104).
  • FIG. 11 is a flowchart showing a detailed example of the similarity acquisition process (step S104) according to the present embodiment.
  • the element calculation unit 114b repeats steps S104b to S104c for each of the first models included in the first posture information acquired in step S103 (step S104a).
  • the element calculation unit 114b calculates element similarity, which is the similarity for each corresponding model element, between the first model and the second model (step S104b).
  • the overall calculation unit 114a acquires the weight information 112b stored in the storage unit 112, and calculates the overall similarity between the first model and the second model based on the element similarity and weight for each model element obtained in step S104b. The degree is calculated (step S104c).
  • the overall calculation unit 114a calculates the sum of products of element similarities and weights of corresponding model elements, and sets this sum as the overall similarity.
  • the overall calculation unit 114a calculates the overall similarity between each of the first models and the second model as a result of repeating steps S104b to S104c for each of the first models included in the first posture information acquired in step S103. After executing steps S104b to S104c for each of the first models included in the first posture information acquired in step S103, the overall calculation unit 114a ends loop A (step S104a) and returns to the posture estimation process.
  • the estimation unit 115 estimates the posture of the photographed person shown in the query image based on the query image acquired in step S102 and the plurality of reference images (step S105).
  • the estimation unit 115 estimates the posture of the photographed person shown in the query image based on the overall similarity between the query image acquired in step S102 and each of reference images 1 to 7. Note that in step S105, the estimating unit 115 may use any of the posture estimation methods 1 to 5 described above to estimate the posture of the photographed person, and may use any of the posture estimation methods 1 to 5 described above. Good too.
  • the estimation unit 115 determines whether a predetermined posture has been detected (step S106).
  • the estimation unit 115 determines that a predetermined posture has been detected. If it is estimated in step S105 that the person to be photographed shown in the query image is not in the predetermined posture, the estimation unit 115 determines that the predetermined posture has not been detected.
  • step S106 If it is determined that the predetermined posture has not been detected (step S106; No), the image acquisition unit 111 executes step S101 again.
  • step S106 If it is determined that the predetermined posture has been detected (step S106; No), the display control unit 119 causes the display unit 118 to display that the predetermined posture has been detected (step S107). After that, the image acquisition unit 111 executes step S101 again.
  • step S107 the display control unit 119 causes the display unit 118 to display a query image showing the photographed person in a predetermined posture.
  • the query image displayed here may be an image in which the person to be photographed is marked, as described above.
  • the user can see the display unit 118 and know that the person to be photographed in a predetermined posture has been detected. For example, if the user is talking while operating an ATM, the user may be the victim of a bank transfer fraud or a suspicious person, so the user should take measures such as notifying a security guard near the ATM to confirm. can be taken.
  • the posture of the photographed person can be estimated for each of the time-series query images.
  • the estimation support process is a process of searching for a reference image showing a person whose posture or behavior is similar to the person being photographed shown in the query image, in order to support estimation of the posture of the person being photographed. Estimation support processing is useful for estimating the reference image that is the cause of incorrect pose estimation.
  • the estimation support process will be described below with reference to the drawings.
  • FIG. 12 is a flowchart illustrating an example of estimation support processing according to the present embodiment.
  • the user specifies a query image, orientation, maximum display number, a first reference value indicating the lower limit of overall similarity, a second reference value indicating the lower limit of element similarity, etc., and performs a search.
  • a start instruction When a start instruction is given, the process starts according to the start instruction.
  • the specified query image is, for example, a query image whose pose was incorrectly estimated in the pose estimation process.
  • the specified posture is the posture to be searched.
  • the first reference value and the second reference value are set to search for a reference image that is likely to affect the pose estimation result.
  • the second reference value indicates the lower limit of the maximum element similarity among the element similarities regarding the second model corresponding to the reference image.
  • the same procedure may be performed for negative examples.
  • one or both of the maximum display number and the reference value may not be set. In this case, if the maximum number of display images is not set, the search results may be displayed in descending order of similarity, for example.
  • the posture acquisition section 113, the similarity degree acquisition section 114, and the estimation section 115 execute processes similar to steps S103 to S105 of the posture estimation process, for example, according to instructions from the search section 117.
  • the posture acquisition unit 113 acquires first posture information based on a plurality of reference images associated with a designated posture, which is a calling posture, and second posture information based on a specified query image. (Step S103).
  • the similarity obtaining unit 114 obtains the similarity between each of the first models and the second model included in each of the first posture information and second posture information obtained in step S103 (step S104).
  • the estimation unit 115 estimates the posture of the photographed person shown in the query image (step S105).
  • the search unit 117 searches a plurality of reference images for a reference image showing a person whose posture or behavior is similar to the photographed person shown in the query image (step S201).
  • the search unit 117 searches for reference images whose overall similarity is greater than or equal to the first reference value and whose maximum element similarity is greater than or equal to the second reference value.
  • the search unit 117 outputs the search results.
  • the display control unit 119 determines whether there is a reference image that satisfies the reference value based on the search results output from the search unit 117 (step S202). If there is no reference image that satisfies the reference value (step S202; No), the display control unit 119 ends the estimation support process.
  • step S202 If there is a reference image that satisfies the reference value (step S202; Yes), the display control unit 119 causes the display unit 118 to display the search results and the like (step S203).
  • the display control unit 119 uses at least one of the first attitude information (for example, the first model) and the second attitude information (for example, the second model) as an index used to search for a reference image. is displayed on the display section 119 in a display mode according to the following. Furthermore, if the number of reference images that meet the standard value exceeds the maximum number to be displayed, the display control unit 119 selects the maximum number of reference images to be displayed in descending order of similarity (for example, overall similarity) and displays them as search results. indicate.
  • the first attitude information for example, the first model
  • the second attitude information for example, the second model
  • FIG. 13 is a diagram showing an example of a result display screen SC that displays search results.
  • the set value of the first reference value is 0.98
  • the set value of the second reference value is 0.5
  • the "talking posture" is selected as the posture.
  • the result of estimation regarding the posture of the photographed person shown in the query image is a positive estimation (“the subject is in a talking posture”).
  • FIG. 13 is an example where the maximum display number is "3".
  • the result display screen SC includes a query image Q, which is an input image, and reference images A to C, which are search results.
  • Reference images A to C are any of the positive examples (reference images 1 to M) shown in FIG.
  • query image Q is associated with reference image A, which has the highest overall similarity among reference images A to reference images C. That is, reference image A corresponds to the above-mentioned "specific reference image.” Since query image Q is associated with reference image A, each degree of similarity associated with query image Q has the same value as each degree of similarity associated with reference image A.
  • FIG. 13 shows an example in which the overall similarity between the query image Q and each of the reference images A to C is expressed by the thickness of a rectangular frame line surrounding the image.
  • the query image Q and each of the reference images A to C are surrounded by rectangular frame lines of three different thicknesses depending on the overall similarity.
  • the display mode of the first posture information for example, the first model
  • the second posture information for example, the second model
  • FIG. 14 is a diagram showing a display example of the query image Q.
  • FIG. 14 shows an example in which the second model is displayed superimposed on the query image Q.
  • circles represent joint elements.
  • Lines with arrows connecting joint elements represent trunk elements and bone elements.
  • the arrow points from the upper center of the chest (near the base of the neck) and points away from the origin.
  • Two lines extending downward from the base point represent trunk elements, and the other lines represent bone elements. Note that the base point may be set as appropriate.
  • the trunk elements and bone elements are represented by lines of three different thicknesses and two different line types (solid lines and dotted lines). Thickness corresponds to weight.
  • the line type corresponds to element similarity.
  • the second model shown in FIG. 14 expresses weights in three levels, and the model element with a larger associated weight has a thicker line.
  • the second model shown in FIG. 14 has two levels of element similarity between each of the model elements constituting the first model corresponding to the associated reference image A and the second model corresponding to each model element. Expressed as Large element similarities are solid lines, and small element similarities are dotted lines.
  • the first model is displayed in an overlapping manner, similar to the query image Q.
  • the model elements of the first model may also be displayed in different display modes depending on the weight and element similarity, similarly to the second model.
  • FIG. 15 is a diagram showing another display example of the query image Q.
  • the query images Q shown in FIGS. 14 and 15 are the same, except that model elements with low element similarity and joint elements related to these are hidden.
  • model elements with low element similarity and joint elements related to these are not included in the display of the query image Q.
  • the method of displaying model elements with low element similarity and joint elements related to these is not limited to this.
  • model elements with low element similarity and joint elements related to these may be displayed thin or small, or may be displayed semitransparently, and may be different from other model elements and joint elements related to these. It may also be displayed as a figure (for example, an x).
  • the information processing apparatus 100 includes the attitude acquisition section 113, the search section 117, and the display control section 119.
  • the posture acquisition unit 113 acquires first posture information indicating the posture of the person shown in each of the plurality of reference images associated with a predetermined posture, and second posture information indicating the posture of the photographed person shown in the query image. and get .
  • the search unit 117 selects a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image from among the plurality of reference images based on the degree of similarity between the first posture information and the second posture information. Search for.
  • the display control unit 119 causes the display unit 118 to display at least one of the first orientation information and the second orientation information in a display mode according to the index used to search for the reference image.
  • At least one of the first orientation information and the second orientation information is displayed in a display mode according to the above-mentioned index, so that the user can intuitively understand the index used to search for the reference image.
  • the index includes similarity.
  • the display control unit 119 causes the display unit 118 to display at least one of the first attitude information and the second attitude information in a display mode according to the degree of similarity.
  • At least one of the first posture information and the second posture information is displayed in a display mode according to the degree of similarity, so that the user can intuitively grasp the degree of similarity and estimate the posture of the photographed person. Therefore, an inappropriate reference image can be estimated. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the display control unit 119 when displaying the second attitude information, associates the second attitude information with a specific reference image among the plurality of reference images, and associates the second attitude information with the first attitude information corresponding to the specific reference image.
  • the second posture information is displayed on the display unit 118 in a display mode according to the degree of similarity between the positions.
  • the second posture information is displayed in a display mode according to the degree of similarity, so that the user can intuitively grasp the degree of similarity regarding the second posture information and use the display mode that is inappropriate for estimating the posture of the photographed subject.
  • a reference image can be estimated. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the first posture information includes a first model that is a posture estimation model related to the person shown in the reference image.
  • the second posture information includes a second model that is a posture estimation model shown to the photographed person included in the query image.
  • the posture estimation model is composed of multiple model elements.
  • At least one of the first model and the second model is displayed in a display mode according to the index, so that the user can intuitively grasp the pose estimation model and index used to search for the reference image.
  • the user can intuitively grasp the pose estimation model and index used to search for the reference image.
  • the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the index includes a weight indicating the degree to which each model element is emphasized in order to determine the degree of similarity between posture estimation models in a predetermined posture.
  • the display control unit 119 causes the display unit 118 to display a plurality of model elements constituting at least one of the first model and the second model in a display mode according to the weight.
  • At least one of the first model and the second model is displayed in a display mode according to the weight, so the user can intuitively grasp the pose estimation model and weight used to search for the reference image.
  • the user can intuitively grasp the pose estimation model and weight used to search for the reference image.
  • the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the similarity includes the overall similarity, which is the overall similarity between the first model and the second model, and the similarity for each corresponding model element between the first model and the second model.
  • element similarity which is the degree of element similarity.
  • At least one of the first model and the second model is displayed in a display mode according to at least one of the overall similarity and the element similarity. Therefore, the user can intuitively understand at least one of the first model and the second model used to search for a reference image, and at least one of the overall similarity and the element similarity, and An inappropriate reference image can be estimated for estimating . Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the index includes similarity.
  • the display control unit 119 associates it with a specific reference image among the plurality of reference images, and displays the second model according to the degree of similarity between the specific reference image and the first model corresponding to the specific reference image.
  • the second model is displayed on the display unit 118 in the following manner.
  • the first model corresponding to the specific reference image is the first model with the highest overall similarity, the first model including the highest element similarity, or the first model specified by the user.
  • the second model is displayed in a display mode according to the degree of similarity, so the user can intuitively grasp the degree of similarity between the first model and the second model corresponding to a specific reference image, and An inappropriate reference image can be estimated for estimating a person's pose. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the display control unit 119 calculates the average value of element similarity for each model element, and displays the second model on the display unit in a display mode according to the average value. Display on 118
  • the second model is displayed in a display mode according to the degree of similarity, so the user can intuitively grasp the degree of similarity between the first model and the second model corresponding to a specific reference image, and An inappropriate reference image can be estimated for estimating a person's pose. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the display control unit 119 controls the display control unit 119 so that, when the similarity includes an element similarity, the element similarity of the model elements constituting at least one of the first model and the second model is set to the first standard. Only model elements whose weight is greater than or equal to the value, less than or equal to the second reference value, or whose weight is greater than or equal to a predetermined threshold value are displayed on the display unit 118.
  • the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the information processing device 100 further includes a similarity obtaining unit 114 that obtains a similarity using the first model and the second model.
  • the user can intuitively understand the index regarding at least one of the first model and the second model used to determine the degree of similarity in association with at least one of them. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the similarity degree acquisition unit 114 includes an overall calculation unit 114a that calculates the overall similarity between the first model and the second model.
  • the user can intuitively grasp the overall similarity regarding at least one of the first model and the second model used for determining the overall similarity in association with at least one of these models. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the similarity acquisition unit 114 further includes an element calculation unit that calculates element similarity, which is the similarity of each corresponding model element between the first model and the second model.
  • the overall calculation unit 114a calculates the overall similarity using element similarities and weights indicating the degree to which each model element is emphasized in order to calculate the similarity between posture estimation models in a predetermined posture.
  • the user can intuitively associate the overall similarity and element similarity of at least one of the first model and the second model used for determining the overall similarity and element similarity with at least one of these. can be grasped. Therefore, the user can take measures such as deleting inappropriate reference images. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
  • the model elements include joint elements corresponding to a plurality of joints, and trunk elements and bone elements corresponding to each of a trunk and a skeleton connecting between the plurality of joints.
  • the display control unit 119 causes the display unit 118 to display at least one of the trunk element and the bone element as a line with an arrow.
  • acquisition means Based on the degree of similarity between the first posture information and the second posture information, a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image is selected from among the plurality of reference images.
  • An information processing device comprising: a display control unit that causes a display unit to display at least one of the first attitude information and the second attitude information in a display mode according to an index used to search the reference image. 2.
  • the index includes the similarity
  • the display control means causes the display means to display at least one of the first posture information and the second posture information in a display mode according to the degree of similarity.1.
  • the display control means associates the second posture information with a specific reference image among the plurality of reference images, and determines the similarity between the second posture information and the first posture information corresponding to the specific reference image. 2. displaying the second posture information on the display means in a display mode according to the degree; The information processing device described in . 4.
  • the first posture information includes a first model that is a posture estimation model regarding the person shown in the reference image
  • the second posture information includes a second model that is a posture estimation model shown to the photographed person included in the query image
  • the posture estimation model is composed of a plurality of model elements.1. From 3.
  • the information processing device according to any one of the above. 5.
  • the index includes a weight indicating the degree to which each of the model elements is emphasized in order to determine the similarity between the pose estimation models in the predetermined pose, 4.
  • the display control means causes the display means to display a plurality of model elements constituting at least one of the first model and the second model in a display mode according to the weight.4.
  • the similarity includes an overall similarity that is the overall similarity between the first model and the second model, and a similarity for each corresponding model element between the first model and the second model. Contains at least one of a certain element similarity and 4. or 5.
  • the index includes the similarity,
  • the display control means associates the second model with a specific reference image among the plurality of reference images, and determines the similarity between the specific reference image and the first model. displaying the second model on the display means in a corresponding display mode; 6.
  • the first model corresponding to the specific reference image is the first model with the highest overall similarity, the first model including the highest element similarity, or the first model specified by the user.
  • the display control means calculates an average value of the element similarity for each of the model elements, and displays the second model on the display means in a display mode according to the average value.
  • the display control means may be arranged such that, when the degree of similarity includes the degree of element similarity, among the model elements constituting at least one of the first model and the second model, the degree of element similarity is greater than or equal to a first reference value. , displaying only model elements whose weights are below a second reference value or whose weights are above a predetermined threshold value on the display means; 4. From 8. The information processing device according to any one of the above. 10. 4.
  • the similarity obtaining means includes an overall calculation means for calculating the overall similarity between the first model and the second model.
  • the information processing device described in . 12 The similarity degree acquisition means further includes an element calculation means for calculating the element similarity degree, which is a degree of similarity for each corresponding model element between the first model and the second model, The overall calculation means calculates the overall calculation using the element similarity and a weight indicating the degree to which each of the model elements is emphasized in order to obtain the similarity between the posture estimation models in the predetermined posture. Find similarity 11.
  • the model element includes a joint element corresponding to a plurality of joints, and a trunk element and a bone element corresponding to each of a trunk and a skeleton connecting between the plurality of joints, 4.
  • the display control means causes the display means to display at least one of the trunk element and the bone element as a line with an arrow. From 12.
  • the information processing device according to any one of the above. 14.
  • the computer is obtaining first posture information indicating the posture of the person shown in each of the plurality of reference images associated with a predetermined posture, and second posture information indicating the posture of the photographed person shown in the query image; Based on the degree of similarity between the first posture information and the second posture information, a reference image indicating a person whose posture or behavior is similar to the photographed person shown in the query image is selected from among the plurality of reference images.
  • search An information processing method, comprising displaying at least one of the first attitude information and the second attitude information on a display means in a display mode according to an index used to search the reference image. 15.
  • a program was recorded for causing a display unit to display at least one of the first attitude information and the second attitude information in a display mode according to an index used to search the reference image. recoding media. 16.
  • Information processing device 101 Photographing unit 102 Analysis device 111 Image acquisition unit 112 Storage unit 112a Reference information 112b Weight information 113 Posture acquisition unit 114 Similarity acquisition unit 114a Overall calculation unit 114b Element calculation unit 115 Estimation unit 116 Input unit 117 Search unit 118 Display section 119 Display control section

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

情報処理装置(100)は、姿勢取得部(113)、検索部(117)及び表示制御部(119)を備える。姿勢取得部(113)は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する。検索部(117)は、第1姿勢情報と第2姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。表示制御部(119)は、第1姿勢情報と第2姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部に表示させる。

Description

情報処理装置、情報処理方法及び記録媒体
 本発明は、情報処理装置、情報処理方法及び記録媒体に関する。
 例えば特許文献1に記載の画像検索装置は、姿勢推定部と、特徴量抽出部と、クエリ生成部と、画像検索部とを備える。
 同文献に記載の姿勢推定部は、入力画像から複数の特徴点で構成される検索対象の姿勢情報を認識する。同文献に記載の特徴量抽出部は、姿勢情報と入力画像から特徴量を抽出する。同文献に記載のクエリ生成部は、特徴量を入力画像と関連付けて蓄積する画像データベースと、ユーザが指定した姿勢情報から検索クエリを生成する。同文献に記載の画像検索部は、検索クエリに従って類似した姿勢を含む画像を画像データベースから検索する。
 例えば特許文献2に記載の画像処理装置は、画像取得部と、骨格構造検出部と、クエリ評価部と、選択部と、特徴量算出部と、検索部とを備える。
 同文献に記載の画像取得部は、クエリ画像の候補を取得する。同文献に記載の骨格構造検出部は、クエリ画像の候補に含まれる人物の2次元骨格構造を検出する。同文献に記載のクエリ評価部は、2次元骨格構造の検出結果に基づきクエリ画像の候補の評価値を算出する。同文献に記載の選択部は、評価値に基づき、クエリ画像の候補の中からクエリ画像を選択する。同文献に記載の特徴量算出部は、クエリ画像から検出された2次元骨格構造の特徴量を算出する。同文献に記載の検索部は、算出された特徴量の類似度に基づき、解析対象画像の中から、クエリ画像に含まれる人物の姿勢と類似する姿勢の人物を含む解析対象画像を検索する。
 なお、特許文献3には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が記載されている。非特許文献1には、人物の骨格推定に関連する技術が記載されている。
特開2019-0901138号公報 国際公開第2021/250808号 国際公開第2021/084677号
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, [Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields];, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 特許文献1~2には、画像に基づいて姿勢又は行動を推定するための技術が記載されている。しかしながら、特許文献1~2では、姿勢が正しく推定されたか否かが分からないため、画像に示される被撮影者の姿勢を推定する精度を向上させることが困難である。
 なお、特許文献3及び非特許文献1も、人物を撮影した画像から予め定められた姿勢である人物を検出する精度を向上させるための技術を開示していない。
 本発明の目的の一例は、上述した課題を鑑み、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置、情報処理方法及び記録媒体を提供することにある。
 本発明の一態様によれば、
 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する姿勢取得手段と、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する検索手段と、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる表示制御手段とを備える
 情報処理装置が提供される。
 本発明の一態様によれば、
 コンピュータが、
 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる
 情報処理方法が提供される。
 本発明の一態様によれば、
 コンピュータに、
 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラムが記録された記録媒体が提供される。
 本発明の一態様によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置、情報処理方法及び記録媒体を提供することが可能になる。
一実施形態に係る情報処理装置の概要を示す図である。 一実施形態に係る情報処理システムの概要を示す図である。 一実施形態に係る情報処理の概要を示すフローチャートである。 一実施形態に係る情報処理システムの詳細な機能的な構成例を示す図である。 通話姿勢に対応付けられた参照画像を含む参照情報の構成例を示す図である。 通話姿勢に対応付けられた重みを示す重み情報の構成例を示す図である。 一実施形態に係る類似度取得部の機能的な構成例を示す図である。 一実施形態に係る情報処理装置の物理的な構成例を示す図である。 一実施形態に係る姿勢推定処理の一例を示すフローチャートである。 複数のフレーム画像から一部を間引く方法の一例を示す図である。 一実施形態に係る類似度取得処理の詳細例を示すフローチャートである。 一実施形態に係る推定支援処理の一例を示すフローチャートである。 検索結果を表示する結果表示画面の一例を示す図である。 結果表示画面におけるクエリ画像の表示例を示す図である。 結果表示画面におけるクエリ画像の別の表示例を示す図である。
 以下、本発明の一実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<実施形態>
(概要)
 図1は、一実施形態に係る情報処理装置100の概要を示す図である。情報処理装置100は、姿勢取得部113、検索部117及び表示制御部119を備える。
 姿勢取得部113は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する。
 検索部117は、第1姿勢情報と第2姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。
 表示制御部119は、第1姿勢情報と第2姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部に表示させる。
 この情報処理装置100によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置を提供することが可能になる。
 図2は、一実施形態に係る情報処理システムS1の概要を示す図である。情報処理システムS1は、クエリ画像を撮影するための撮影部101と、情報処理装置100とを備える。
 この情報処理システムS1によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理システムを提供することが可能になる。
 図3は、一実施形態に係る情報処理の概要を示すフローチャートである。
 姿勢取得部113は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する(ステップS103)。
 検索部117は、第1姿勢情報と第2姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する(ステップS201)。
 表示制御部119は、第1姿勢情報と第2姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部に表示させる(ステップS203)。
 この情報処理によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理方法を提供することが可能になる。
(詳細)
 以下、一実施形態に係る情報処理システムS1の詳細例について説明する。
 図4は、一実施形態に係る情報処理システムS1の詳細な機能的な構成例を示す図である。情報処理システムS1は、撮影部101と、情報処理装置100と、解析装置102とを備える。撮影部101、情報処理装置100及び解析装置102は、有線、無線又はこれらを組み合わせて構成されるネットワークNを介して接続されており、互いに情報を送受信することができる。
 撮影部101は、所定の行動を行っている人物(被撮影者)を撮影する。撮影部101は、例えば、銀行などの金融機関の店舗に設置され、現金自動預払機(ATM)を操作する操作者を撮影するカメラである。
 なお、撮影部101は、ATMの操作者を撮影するためのカメラに限られず、銀行などの店舗内を撮影するカメラであってもよく、金融機関以外の各種の店舗などに設置されるカメラであってもよい。また、撮影部101は、複数であってもよい。
 撮影部101は、所定の撮影領域を撮影して動画像を示す画像情報を情報処理装置100へ送信する。
 詳細には、撮影部101は、所定のフレームレートで時間的に連続して複数回撮影する。撮影部101は、各撮影でフレーム画像を含むフレーム情報を生成する。撮影部101は、時系列のフレーム画像の各々を含むフレーム情報をネットワークNを介して情報処理装置100へ送信する。
 解析装置102は、画像を解析する装置である。解析装置102は、撮影部101にて生成された画像情報をネットワークNを介して取得する。本実施形態では、解析装置102は、撮影部101から情報処理装置100を介して画像情報を取得する例を説明するが、撮影部101から直接画像情報を取得してもよい。
 解析装置102は、取得した画像情報に含まれる画像を解析する装置である。
 詳細には、解析装置102は、画像を解析するための処理(解析処理)を行う1つ又は複数の解析機能を備える。解析装置102が備える解析機能は、(1)物体検出機能、(2)顔解析機能、(3)人型解析機能、(4)姿勢解析機能、(5)行動解析機能、(6)外観属性解析機能、(7)勾配特徴解析機能、(8)色特徴解析機能、(9)動線解析機能などの1つ又は複数である。
 (1)物体検出機能は、画像から人物及び物を検出する。物体検出機能は、画像内の人物及び物の位置を求めることもできる。物体検出処理に適用されるモデルとして、例えば、YOLO(You Only Look Once)がある。物体検出機能は、例えば、操作者、携帯電話(スマートフォンを含む。)、車椅子などを検出する。また例えば、物体検出機能は、検出した人物及び物の位置を求める。
 (2)顔解析機能は、画像から人の顔を検出し、検出した顔の特徴量(顔特徴量)の抽出、検出した顔の分類(クラス分け)などを行う。顔解析機能は、顔の画像内の位置を求めることもできる。顔解析機能は、異なる画像から検出した人物の顔特徴量同士の類似度などに基づいて、異なる画像から検出した人物の同一性を判定することもできる。
 (3)人型解析機能は、画像に含まれる人の人体的特徴量(例えば、体形の肥痩や、身長、服装などの全体的な特徴を示す値)の抽出、画像に含まれる人の分類(クラス分け)などを行う。人型解析機能は、人の画像内の位置を特定することもできる。人型解析機能は、異なる画像に含まれる人の人体的特徴量などに基づいて、異なる画像に含まれる人の同一性を判定することもできる。
 (4)姿勢解析機能は、人の姿勢を示す姿勢情報を生成する。姿勢情報は、例えば、人物の姿勢推定モデルを含む。姿勢推定モデルは、画像から推定される人物の関節を繋いだモデルである。姿勢推定モデルは、関節に対応する関節要素、胴体に対応する体幹要素、関節間を接続する骨に対応する骨要素などに対応する複数のモデル要素から構成される。姿勢解析機能は、例えば、画像から人物の関節点を検出し、関節点を繋げて姿勢推定モデルを作成する。
 そして、姿勢解析機能は、姿勢推定モデルの情報を用いて、人の姿勢を推定し、推定した姿勢の特徴量(姿勢特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行う。姿勢解析機能は、異なる画像に含まれる人の姿勢特徴量などに基づいて、異なる画像に含まれる人の同一性を判定することもできる。
 例えば、姿勢解析機能は、通話姿勢、車椅子姿勢などの姿勢推定モデルを作成し、それらの姿勢における姿勢特徴量を抽出する。通話姿勢は、携帯電話を用いて通話する姿勢である。車椅子姿勢は、車椅子を利用する者の姿勢である。
 姿勢解析機能には、例えば、特許文献3、非特許文献1に開示された技術を適用することができる。
 (5)行動解析処理は、姿勢推定モデルの情報、姿勢の変化などを用いて、人の動きを推定し、人の動きの特徴量(動き特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行うことができる。行動解析処理では、棒人間モデルの情報を用いて、人の身長を推定したり、人物の画像内の位置を特定したりすることもできる。行動解析処理は、例えば、姿勢の変化又は推移、移動(位置の変化又は推移)などの行動を画像から推定し、その行動の動き特徴量を抽出することができる。
 (6)外観属性解析機能は、人に付随する外観属性を認識することができる。外観属性解析機能は、認識した外観属性に関する特徴量(外観属性特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行う。外観属性とは、外観上の属性であり、例えば、服装の色、靴の色、髪型、帽子やネクタイ、眼鏡などの着用又は非着用などの1つ以上を含む。
 (7)勾配特徴解析機能は、画像における勾配の特徴量(勾配特徴量)を抽出する。勾配特徴検出処理には、例えば、SIFT、SURF、RIFF、ORB、BRISK、CARD、HOGなどの技術を適用することができる。
 (8)色特徴解析機能は、画像から物体を検出し、検出した物体の色の特徴量(色特徴量)の抽出、検出した物体の分類(クラス分け)などを行うことができる。色特徴量は、例えばカラーヒストグラムなどである。色特徴解析機能は、例えば、画像に含まれる人物、物を検出することができる。
 (9)動線解析機能は、例えば上述の(2)~(6)の解析機能のいずれかにおける同一性の判定の結果を用いて、映像に含まれる人の動線(移動の軌跡)を求めることができる。詳細には例えば、時系列的に異なる画像間で同一であると判定された人を接続することで、その人の動線を求めることができる。なお、動線解析機能は、異なる撮影領域を撮影する複数の撮影部101で撮影した映像を取得した場合などには、異なる撮影領域を撮影した複数の映像間に跨る動線を求めることもできる。
 画像特徴量は、例えば、物体検出機能での物品の検知結果、顔特徴量、人体的特徴量、姿勢特徴量、動き特徴量、外観属性特徴量、勾配特徴量、色特徴量、動線を含む。
 なお、(1)~(9)の各解析機能は、他の解析機能が行った解析の結果を適宜利用してもよい。情報処理装置100は、解析装置102の機能を備える解析部を備えてもよい。
 一実施形態に係る情報処理装置100は、フレーム画像に含まれる人物の姿勢を推定する装置である。情報処理装置100は、図4に示すように、機能的に、画像取得部111と、記憶部112と、姿勢取得部113と、類似度取得部114と、推定部115と、入力部116と、検索部117と、表示部118と、表示制御部119とを備える。
 画像取得部111は、動画像を示す画像情報を撮影部101から取得する。すなわち、画像取得部111は、時間的に連続する複数回の撮影で得られる時系列の複数のフレーム画像を取得する。
 詳細には、画像取得部111は、時系列の複数のフレーム画像の各々を含むフレーム情報を撮影部101から取得する。画像取得部111は、取得したフレーム情報を記憶する。
 記憶部112は、各種情報を記憶するための記憶部である。記憶部112は、例えば、参照画像を示す参照情報112a、重みを示す重み情報112bなどを予め記憶する。
 参照画像は、所定の姿勢に対応付けられた人物の画像である。参照画像は、クエリ画像に含まれる人物の姿勢を推定するために参照される画像であり、適宜選定して記憶部112に設定される。所定の姿勢は、例えば、通話姿勢、車椅子姿勢などである。なお、通話姿勢は、右手で携帯電話を持って通話する姿勢である右手通話姿勢、左手で携帯電話を持って通話する姿勢である右手通話姿勢などと細分化して設定されてもよい。
 図5は、通話姿勢に対応付けられた参照画像を含む参照情報112aの構成例を示す図である。図5に例示する参照情報112aは、例えば、正例と、負例とを含む。
 正例は、通話姿勢である人物の参照画像である。例えば、正例は、立って右手又は左手で携帯電話を持って通話する人物を示す。
 負例は、通話姿勢ではない人物の参照画像である。負例には、通話姿勢ではないが通話姿勢に類似する姿勢である人物の画像が選定されるとよい。例えば、負例は、携帯電話を持たずに直立する姿勢の人物を示す。
 図5は、通話姿勢に対応付けてM個の正例とN個の負例とを含む参照情報112aの例を示す。ここで、M,Nは、いずれも、1以上の整数である。
 なお、参照情報112aは、少なくとも1つの参照画像を含めば、幾つの参照画像を含んでもよい。また、参照情報112aは、正例のみを含んでもよい。
 重みは、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す値である。重み情報112bは、所定の姿勢ごとに、モデル要素の各々の重みを含む。
 図6は、通話姿勢に対応付けられた重みを示す重み情報112bの構成例を示す図である。図6に例示する重み情報112bは、通話姿勢における要素IDと重みとを関連付ける。要素IDは、モデル要素を識別するための情報である。要素IDは、例えば、体幹要素、左右の腕の上部及び下部、左右の脚の大腿部及び下腿部などに対応する骨要素と、関節要素との各々に適宜付与される番号などである。重みは、所定の姿勢のモデル要素ごとに定められる。図6では、重みが0以上の整数である例を示すが、重みの設定方法は適宜変更されてもよい。
 例えば、通話姿勢では携帯電話を持って通話するため、腕に関して設定される重みは、脚に関して設定される重みよりも大きい。また例えば、右手で通話する場合の通話姿勢では、右手に関して設定される重みは、左手に関して設定される重みよりも大きい。
 姿勢取得部113は、通話姿勢などの所定の姿勢に対応付けられた複数の参照画像を記憶部112から取得して、取得した複数の参照画像に基づいて、第1姿勢情報を取得する。
 第1姿勢情報は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す情報である。第1姿勢情報は、例えば、参照画像に示される人物に関する姿勢推定モデルである第1モデルを含む。
 また、姿勢取得部113は、画像取得部111から時系列のフレーム画像を取得し、時系列のフレーム画像から一部を間引くことでクエリ画像を取得する。そして、姿勢取得部113は、取得したクエリ画像に基づいて、第2姿勢情報を取得する。
 第2姿勢情報は、クエリ画像に示される被撮影者の姿勢を示す情報である。第2姿勢情報は、例えば、クエリ画像に示される被撮影者に関する姿勢推定モデルである第2モデルを含む。
 詳細には例えば、姿勢取得部113は、取得した参照画像及びクエリ画像の各々を解析装置102へネットワークNを介して送信する。参照画像を解析装置102へ送信した場合、姿勢取得部113は、当該参照画像に示される人物に関する第1モデルを含む第1姿勢情報を解析装置102から取得する。クエリ画像を解析装置102へ送信した場合、姿勢取得部113は、当該クエリ画像に示される人物に関する第2モデルを含む第2姿勢情報を解析装置102から取得する。
 類似度取得部114は、時系列のクエリ画像と、所定の姿勢に対応する複数の参照画像との組み合わせの各々について、クエリ画像に示される被撮影者と参照画像に示される人物との姿勢に関する類似度を求める。
 類似度は、所定の姿勢における姿勢推定モデル間の類似する程度を示す値である。
 例えば、類似度取得部114は、所定の姿勢に対応する複数の参照画像の各々に示される人物の第1モデルを姿勢取得部113から取得する。また、類似度取得部114は、時系列のクエリ画像の各々に示される被撮影者の第2モデルを姿勢取得部113から取得する。類似度取得部114は、第1モデルと第2モデルとの組み合わせの各々について、第1モデルと第2モデルとを用いて類似度を求める。
 類似度は、全体類似度と、要素類似度とを含む。
 全体類似度は、所定の姿勢における第1モデルと第2モデルとの全体的な類似する程度を示す値、すなわち、第1モデルと第2モデルとの全体的な類似度である。
 要素類似度は、所定の姿勢における第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度、すなわち、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である。
 なお、類似度は、全体類似度と、要素類似度との少なくとも一方を含めばよい。
 図7は、本実施形態に係る類似度取得部114の機能的な構成例を示す図である。類似度取得部114は、全体算出部114aと、要素算出部114bとを含む。
 全体算出部114aは、第1モデルと第2モデルとの全体類似度を求める。詳細には、全体算出部114aは、重み情報112bに含まれる所定の姿勢に対応する重みと、要素算出部114bが求める要素類似度と、を用いて、全体類似度を求める。
 例えば、全体算出部114aは、各モデル要素の類似度を要素算出部114bから取得すると、モデル要素の類似度の各々と、対応するモデル要素の重みとの積を求め、姿勢推定モデルを構成する各モデル要素について得られた積を合算する。この合算の結果として得られる値が全体類似度である。
 要素算出部114bは、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める。要素算出部114bは、例えば、第1モデルと第2モデルとで対応するモデル要素ごとに、大きさ、長さ、傾きなどに基づいて、要素類似度を求める。
 推定部115は、所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する。
 例えば、推定部115は、類似度取得部114が求めた類似度(例えば、全体類似度)に基づいて、時系列のクエリ画像の各々に示される被撮影者の姿勢を推定する。
 また、推定部115は、時系列のフレーム画像のうち、間引かれた少なくとも1つのフレーム画像と、参照画像と、に基づいて、当該間引かれた少なくとも1つのフレーム画像に示される被撮影者の姿勢を推定してもよい。
 この場合、姿勢取得部113は、間引かれた少なくとも1つのフレーム画像を画像取得部111から取得し、当該フレーム画像に示される被撮影者の第2モデルを取得する。類似度取得部114は、当該フレーム画像に示される被撮影者の第2モデルと、複数の参照画像の各々に示される人物の第1モデルとに基づいて、全体類似度を求める。そして、推定部115は、類似度取得部114が求めた全体類似度に基づいて、当該間引かれた少なくとも1つのフレーム画像に示される被撮影者の姿勢を推定する。
 推定部115が類似度に基づいて被撮影者の姿勢を推定する方法は、種々である。以下にその例として、姿勢推定方法1~5を説明する。
(姿勢推定方法1)
 例えば、推定部115は、正例と負例のうち、類似度が最も大きい値の参照画像に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、例えば、類似度が最大の参照画像が正例の場合、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。類似度が最大の参照画像が負例の場合、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
(姿勢推定方法2)
 また例えば、推定部115は、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。正例平均値は、所定の姿勢に対応付けられた複数の正例とクエリ画像又はフレーム画像との類似度の平均値である。負例平均値は、所定の姿勢に対応付けられた複数の負例とクエリ画像又はフレーム画像との類似度の平均値である。
 この場合、例えば、推定部115は、正例平均値が負例平均値より大きい場合に、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。正例平均値が負例平均値以下である場合に、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
(姿勢推定方法3)
 さらに例えば、推定部115は、クエリ画像又はフレーム画像と参照画像との画像マッチングを行い、画像マッチングにおいて適合した参照画像とクエリ画像又はフレーム画像との類似度に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、推定部115は、画像マッチングで適合した参照画像のうちの、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。
 詳細には例えば、推定部115は、画像マッチングで適合した参照画像のうちの正例平均値が負例平均値より大きい場合に、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。画像マッチングで適合した参照画像のうちの正例平均値が負例平均値以下である場合に、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
 なお、画像マッチングには、種々の公知の技術が適用されてよい。例えば、推定部115は、クエリ画像又はフレーム画像に示される被撮影者と参照画像に示される人物との特徴量などに基づいて画像間の類似度を求める。推定部115は、画像間の類似度と閾値とを比較することで、クエリ画像又はフレーム画像と参照画像とが適合するか否かを判定する。推定部115は、例えば、画像間の類似度が閾値以上である場合に適合(類似)すると判定し、画像間の類似度が閾値未満である場合に適合しない(非類似)と判定する。
(姿勢推定方法4)
 推定部115は、類似度を用いずに、画像マッチングのみを用いて、被撮影者の姿勢を推定してもよい。
 例えば、推定部115は、画像マッチングで少なくとも1つの正例と適合した場合に、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢であると推定してもよい。また例えば、推定部115は、画像マッチングで少なくとも1つの負例と適合した場合に、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢でないと推定してもよい。
 さらに例えば、推定部115は、画像マッチングで適合する正例と負例との適合する数に基づいて、被撮影者の姿勢を推定してもよい。この場合、例えば、推定部115は、正例との適合数が負例との適合数よりも多い場合、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢であると推定する。また例えば、推定部115は、正例との適合数が負例との適合数以下である場合、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢でないと推定する。
 画像マッチングにおいて、クエリ画像又はフレーム画像が正例と負例のいずれとも適合しない場合、推定部115は、当該クエリ画像又は当該フレーム画像を、正例と負例のいずれとも異なると判定してもよく、負例と判定してもよい。
(姿勢推定方法5)
 推定部115は、参照画像を用いた機械学習を行って学習済みの学習モデルを用いて、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合(類似)するかを判定してもよい。この学習モデルは、被撮影者が正例と負例とのいずれに適合するかを判定するための機械学習を行った学習済みの学習モデルである。この場合、推定部115は、被撮影者を示すクエリ画像又は当該フレーム画像を含む画像情報を、学習モデルに入力することで、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合(類似)するかの判定結果を取得する。
 学習時の学習モデルへのインプットデータは、人物を示す画像情報を含む。また、学習では、インプットデータが正例と負例とのいずれに適合するかを示すラベル(正解)を含む教師あり学習が行われるとよい。
 入力部116は、ユーザからの入力を受け付けるキーボード、マウス、タッチパネルなどである。
 検索部117は、例えば、ユーザが適宜指定するクエリ画像を取得する。検索部117は、第1姿勢情報と第2姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。検索部117は、例えば、類似度が予め設定される基準値以上の参照画像を検索結果として出力する。
 ユーザが指定するクエリ画像は、フレーム画像のいずれかであってもよく、撮影部101が撮影する画像以外の画像であってもよい。検索のために用いられる基準値は、全体類似度に関する値であってもよく、要素類似度に関する値であってもよい。
 基準値が要素類似度に関して定められる場合、検索部117は、例えば、基準値以上の要素類似度を含む第1モデルに対応する参照画像を検索結果として出力する。
 表示部118は、各種情報を表示するディスプレイなどである。表示制御部119は、表示部118を制御し、各種情報を表示部118に表示させる。表示制御部119は、例えば、推定部115が所定の姿勢の被撮影者を検出した場合、当該被撮影者に印を付したクエリ画像又はフレーム画像を表示部118に表示させる。印は、例えば、被撮影者を囲む矩形の枠などである。
 また、表示制御部119は、第1姿勢情報と第2姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部118に表示させる。
 参照画像を検索するために用いられる指標は、例えば、類似度、重みなどの1つ又は複数である。なお、参照画像を検索するために用いられる指標は、これらに限られない。表示態様は、例えば、体幹要素を表す線の太さ、色及び線種、骨要素を表す線の太さ、色及び線種、関節要素を表す図形(例えば、円、正方形など)の大きさ、色及び線種などである。線種は、例えば、実線、点線、破線、一点鎖線、二点鎖線などである。
 詳細には、表示制御部119は、検索部117の検索結果に含まれる参照画像に対応する第1姿勢情報と、検索部117が取得するユーザ指定のクエリ画像に対応する第2姿勢情報との少なくとも一方を、指標に応じた表示態様で表示部118に表示させる。
 表示制御部119は、検索部117から出力される検索結果予め定められた最大表示数よりも多い場合、類似度が大きい第1モデルに対応する参照画像から順に最大表示数の参照画像を表示対象として選定してもよい。
 指標が類似度を含む場合、表示制御部119は、第1姿勢情報と第2姿勢情報との少なくとも一方を、類似度に応じた表示態様で表示部118に表示させてもよい。
 第2姿勢情報を表示させる場合、表示制御部119は、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1姿勢情報との間の類似度に応じた表示態様で第2姿勢情報を表示部118に表示させてもよい。
 この場合に、第1姿勢情報及び第2姿勢情報がそれぞれ第1モデル及び第2モデルを含んでもよい。第2モデルを表示させる場合、表示制御部119は、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1モデルとの間の類似度に応じた表示態様で第2モデルを表示部118に表示させてもよい。
 特定の参照画像に対応する第1モデルは、第2モデルとの間で、全体類似度が最も大きい第1モデル、最も大きい要素類似度を含む第1モデル、ユーザが指定する第1モデルなどのいずれか1つである。
 第2モデルを表示させる場合、表示制御部119は、当該第2モデルとそれに対する検索結果として出力された第1モデルの各々との間でモデル要素ごとに要素類似度の平均値を求め、平均値に応じた表示態様で第2モデルを表示部118に表示させてもよい。
 類似度が要素類似度を含む場合、表示制御部119は、第1モデルと第2モデルとの少なくとも一方を構成するモデル要素のうち、要素類似度が第1基準値以上、第2基準値以下又は重みが所定の閾値以上のモデル要素のみを表示部118に表示させてもよい。第1基準値、第2基準値の各々は、適宜設定される値である。
 指標が重みを含む場合、表示制御部119は、第1モデルと第2モデルとの少なくとも一方を構成する複数のモデル要素を、重みに応じた表示態様で表示部118に表示させてもよい。
 表示制御部119は、モデル要素である体幹要素及び骨要素の少なくとも1つを矢印付きの線で表示部118に表示させてもよい。
(情報処理システムS1の物理的構成)
 情報処理システムS1は、物理的に、ネットワークNを介して接続された撮影部101、情報処理装置100及び解析装置102から構成される。撮影部101、情報処理装置100及び解析装置102の各々は、物理的に異なる単一の装置から構成される。撮影部101は、例えば、カメラである。
 なお、情報処理装置100及び解析装置102は物理的に単一の装置から構成されてもよく、この場合、情報処理装置100及び解析装置102はネットワークNの代わりに、後述する内部のバス1010を用いて接続される。また、情報処理装置100及び解析装置102の一方又は両方は、物理的に、ネットワークNなどの適宜の通信回線を介して接続された複数の装置から構成されてもよい。
 図8は、本実施形態に係る情報処理装置100の物理的な構成例を示す図である。情報処理装置100は、例えば汎用のコンピュータである。情報処理装置100は、例えば、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、ネットワークインタフェース1050、入力インタフェース1060及び出力インタフェース1070を有する。
 バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、ネットワークインタフェース1050、入力インタフェース1060及び出力インタフェース1070が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1020は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040は、情報処理装置100の各機能を実現するためのプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
 ネットワークインタフェース1050は、情報処理装置100をネットワークNに接続するためのインタフェースである。
 入力インタフェース1060は、ユーザが情報を入力するためのインタフェースである。入力インタフェース1060は、例えば、キーボード、マウス、タッチパネルなどの1つ又は複数から構成される。
 出力インタフェース1070は、ユーザに情報を提示するためのインタフェースである。出力インタフェース1070は、例えば、液晶パネル、有機EL(Electro-Luminescence)パネルなどから構成される。
 解析装置102は、物理的には例えば汎用のコンピュータである。解析装置102は、物理的には、情報処理装置100と概ね同様に構成される(図8参照)。
 解析装置102のストレージデバイス1040は、解析装置102の各機能を実現するためのプログラムモジュールを記憶している。解析装置102のプロセッサ1020がこれら各プログラムモジュールをメモリ1030に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。解析装置102のネットワークインタフェース1050は、解析装置102をネットワークNに接続するためのインタフェースである。これらの点を除いて、解析装置102は物理的に、情報処理装置100と同様に構成されるとよい。
(情報処理システムS1の動作)
 本実施形態に係る情報処理システムS1は、クエリ画像に含まれる被撮影者の姿勢を推定するための処理を実行する。情報処理システムS1が実行する処理は、姿勢推定処理と、推定支援処理とを含む。
 姿勢推定処理は、所定の姿勢に対応付けられた参照画像を用いて、クエリ画像に含まれる被撮影者の姿勢を推定する処理である。推定支援処理は、被撮影者の姿勢の推定を支援するための処理である。
 図9は、本実施形態に係る姿勢推定処理の一例を示すフローチャートである。姿勢推定処理は、例えば情報処理システムS1の稼働中に実行される。
 画像取得部111は、時系列の複数のフレーム画像を取得する(ステップS101)。画像取得部111は、取得したフレーム画像を記憶する。
 詳細には例えば、画像取得部111は、時刻T1から時刻T2よりも前まで、時系列の複数のフレーム画像を順次取得する。時刻T2-時刻T1=時間間隔ΔTとする。
 画像取得部111は、ステップS101にて取得した複数のフレーム画像の一部を間引いて、クエリ画像を取得する(ステップS102)。
 詳細には例えば、画像取得部111は、予め定められた規則に従って、複数のフレーム画像の一部を間引く。例えば、図10は、複数のフレーム画像から一部を間引く方法の一例を示す図である。画像取得部111は、同図に示すように、予め定められた時間間隔ΔTの間(両端の時間を除く)に取得されたフレーム画像を間引く。これにより、画像取得部111は、予め定められた一定の時間間隔ΔTの時系列のクエリ画像を取得する。なお、複数のフレーム画像から一部を間引いてクエリ画像を取得する方法は、これに限られず、例えば、時間間隔ΔTは、一定でなくてもよく、動作モード(被撮影者を追跡するモード、被撮影者の姿勢を検出するモード)に応じて変更されてもよい。また、クエリ画像は、間引いていない複数のフレーム画像であってもよい。
 姿勢取得部113は、所定の姿勢に対応付けられた複数の参照画像に基づく第1姿勢情報と、ステップS102にて取得されたクエリ画像に基づく第2姿勢情報とを取得する(ステップS103)。
 詳細には例えば、姿勢取得部113は、記憶部112から所定の姿勢に対応する複数の参照画像を取得する。所定の姿勢が通話姿勢であり、図5に示す参照情報112aが記憶部112に記憶されている場合、姿勢取得部113は、参照画像1~参照画像7を取得する。姿勢取得部113は、取得した参照画像1~参照画像7を解析装置102へ送信する。これに応じて、解析装置102は、参照画像1~参照画像7の各々が示す人物の第1モデルを含む第1姿勢情報を生成して情報処理装置100へ送信する。姿勢取得部113は、第1姿勢情報を解析装置102から取得する。
 姿勢取得部113は、ステップS102にて取得されたクエリ画像を画像取得部111から取得する。姿勢取得部113は、取得したクエリ画像を解析装置102へ送信する。これに応じて、解析装置102は、クエリ画像が示す被撮影者の第2モデルを含む第2姿勢情報を生成して情報処理装置100へ送信する。姿勢取得部113は、第2姿勢情報を解析装置102から取得する。
 類似度取得部114は、ステップS102で取得した第1姿勢情報と第2姿勢情報とのそれぞれに含まれる第1モデルの各々と第2モデルとの類似度を求める(ステップS104)。
 図11は、本実施形態に係る類似度取得処理(ステップS104)の詳細例を示すフローチャートである。
 要素算出部114bは、ステップS103で取得した第1姿勢情報に含まれる第1モデルの各々について、ステップS104b~S104cを繰り返す(ステップS104a)。
 要素算出部114bは、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める(ステップS104b)。
 全体算出部114aは、記憶部112に記憶された重み情報112bを取得し、ステップS104bで求めたモデル要素ごとの要素類似度と重みとに基づいて、第1モデルと第2モデルとの全体類似度を求める(ステップS104c)。
 例えば、全体算出部114aは、対応するモデル要素の要素類似度と重みとの積の総和を求め、この総和を全体類似度とする。
 全体算出部114aは、ステップS103で取得した第1姿勢情報に含まれる第1モデルの各々についてステップS104b~S104cを繰り返す結果、第1モデルの各々と第2モデルと全体類似度を求める。全体算出部114aは、テップS103で取得した第1姿勢情報に含まれる第1モデルの各々についてステップS104b~S104cを実行すると、ループA(ステップS104a)を終了し、姿勢推定処理に戻る。
 図9を再び参照する。
 推定部115は、ステップS102で取得されたクエリ画像と、複数の参照画像と、に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する(ステップS105)。
 例えば、推定部115は、ステップS102で取得されたクエリ画像と参照画像1~参照画像7の各々との全体類似度に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する。なお、ステップS105では、推定部115は、被撮影者の姿勢を推定するために、上述の姿勢推定方法1~5のいずれを用いてもよく、姿勢推定方法1~5以外の方法を用いてもよい。
 推定部115は、所定の姿勢を検出したか否かを判定する(ステップS106)。
 詳細には例えば、推定部115は、クエリ画像に示される被撮影者がステップS105で所定の姿勢であると推定された場合に、所定の姿勢を検出したと判定する。推定部115は、クエリ画像に示される被撮影者がステップS105で所定の姿勢でないと推定された場合に、所定の姿勢を検出していないと判定する。
 所定の姿勢を検出していないと判定された場合(ステップS106;No)、画像取得部111は、ステップS101を再び実行する。
 所定の姿勢を検出したと判定された場合(ステップS106;No)、表示制御部119は、所定の姿勢が検出された旨を表示部118に表示させる(ステップS107)。その後、画像取得部111は、ステップS101を再び実行する。
 ステップS107では、表示制御部119は、所定の姿勢である被撮影者を示すクエリ画像を表示部118に表示させる。ここで表示されるクエリ画像は、上述のように、被撮影者に印を付した画像であってもよい。
 ユーザは、表示部118を見て、所定の姿勢の被撮影者が検出されたことを知ることができる。例えば、ATMの操作中に通話姿勢である場合、振り込め詐欺の被欺罔者や不審人物の可能性があるため、ユーザは、例えば、ATMの近くの警備員に確認するように通知するなどの措置を講じることができる。
 このような姿勢推定処理を繰り返し実行することで、時系列のクエリ画像の各々について、被撮影者の姿勢を推定することができる。
 ここで、被撮影者の姿勢を精度よく推定するには、適切な参照画像が設定されていることが重要である。しかしながら、参照画像は複数設定されていることが多く、姿勢を推定するために、いずれの参照画像が重視されているかは、分からないことが多い。そのため、仮に姿勢が誤って推定されていたとしても、その原因となった参照画像を推定することは困難である。
 推定支援処理は、被撮影者の姿勢の推定を支援するために、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する処理である。推定支援処理は、誤った姿勢の推定がなされる場合に、その原因となった参照画像を推定するために役立つ。推定支援処理について、以下、図面を参照して説明する。
 図12は、本実施形態に係る推定支援処理の一例を示すフローチャートである。
 推定支援処理は、例えば、ユーザがクエリ画像、姿勢、最大表示数、全体類似度の下限値を示す第1基準値、要素類似度の下限値を示す第2基準値などを指定して検索の開始指示を与えると、当該開始指示に応じて開始する。
 指定されるクエリ画像は、例えば、姿勢推定処理で誤って姿勢が推定されたクエリ画像である。指定される姿勢は、検索の対象とする姿勢である。以下では、通話姿勢の正例(図5参照)を対象とする例を用いて説明する。第1基準値及び第2基準値は、姿勢の推定の結果に影響する可能性が高い参照画像を検索するために設定される。第2基準値は、参照画像に対応する第2モデルに関する要素類似度のうち、最大の要素類似度の下限値を示す。
 なお、負例について同様に行われてもよい。また、最大表示数及び基準値の一方又は両方は、設定されなくてもよい。この場合、最大表示数が設定されない場合、例えば、類似度が大きい参照画像から順に、検索結果が表示されてもよい。
 図12を参照する。
 姿勢取得部113、類似度取得部114及び推定部115は、例えば検索部117の指示に従って、姿勢推定処理のステップS103~S105と同様の処理を実行する。
 詳細には例えば、姿勢取得部113は、指定された姿勢である通話姿勢に対応付けられた複数の参照画像に基づく第1姿勢情報と、指定されたクエリ画像に基づく第2姿勢情報とを取得する(ステップS103)。
 類似度取得部114は、ステップS103で取得した第1姿勢情報と第2姿勢情報とのそれぞれに含まれる第1モデルの各々と第2モデルとの類似度を求める(ステップS104)。
 推定部115は、指定されたクエリ画像と、複数の参照画像と、に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する(ステップS105)。
 検索部117は、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する(ステップS201)。
 詳細には例えば、検索部117は、全体類似度が第1基準値以上、かつ、要素類似度の最大値が第2基準値以上である参照画像を検索する。検索部117は、検索した結果を出力する。
 表示制御部119は、検索部117から出力される検索結果に基づいて、基準値を満たす参照画像があるか否かを判定する(ステップS202)。基準値を満たす参照画像がない場合(ステップS202;No)、表示制御部119は、推定支援処理を終了する。
 基準値を満たす参照画像がある場合(ステップS202;Yes)、表示制御部119は、検索結果などを表示部118に表示させる(ステップS203)。
 詳細には例えば、表示制御部119は、第1姿勢情報(例えば、第1モデル)と第2姿勢情報(例えば、第2モデル)との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部119に表示させる。また、基準値を満たす参照画像が表示最大数を超える場合、表示制御部119は、類似度(例えば、全体類似度)が大きいものから順に、表示最大数の参照画像を選定し、検索結果として表示する。
 図13は、検索結果を表示する結果表示画面SCの一例を示す図である。
 図13に示す結果表示画面SCでは、第1基準値の設定値は0.98であり、第2基準値の設定値は0.5である。また、姿勢には、「通話姿勢」が選定されている。クエリ画像に示される被撮影者の姿勢に関する推定の結果は、肯定推定(「通話姿勢である」)である。
 図13は、表示最大数が「3」である場合の例である。結果表示画面SCは、入力画像であるクエリ画像Qと、検索結果である参照画像A~参照画像Cを含む。参照画像A~参照画像Cは、図5に示す正例(参照画像1~参照画像M)のいずれかである。
 クエリ画像Q及び参照画像A~参照画像Cのそれぞれに下には、全体類似度、要素類似度(最大値)、要素類似度(平均値)が表示されている。
 詳細には、クエリ画像Qの下には、関連付けられた参照画像との全体類似度、要素類似度(最大値)、要素類似度(平均値)が表示されている。図13に示す例では、クエリ画像Qは、参照画像A~参照画像Cの中で全体類似度が最大である参照画像Aと関連付けられている。すなわち、参照画像Aが上述の「特定の参照画像」に相当する。クエリ画像Qが参照画像Aと関連付けられているため、クエリ画像Qに対応付けられた各類似度は、参照画像Aに対応付けられた各類似度と同じ値である。
 また、図13は、クエリ画像Qと参照画像A~参照画像Cの各々との全体類似度を、画像を囲む矩形枠線の太さで表す例を示す。図13に示す例では、クエリ画像Q及び参照画像A~参照画像Cの各々は、全体類似度の大きさに応じた3種類の異なる太さの矩形枠線で囲まれている。このように、全体類似度の大きさに応じて第1姿勢情報(例えば、第1モデル)及び第2姿勢情報(例えば、第2モデル)の表示態様を変えることで、全体類似度の大きさを直感的に把握し易くなる。
 図14は、クエリ画像Qの表示例を示す図である。図14は、クエリ画像Qに第2モデルが重ねて表示される例を示す。
 図14に示す第2モデルにおいて、丸は関節要素を表す。関節要素間を繋ぐ矢印付きの線は、体幹要素及び骨要素を表す。矢印は、胸の上部中央(首の付け根近く)を基点として、基点から離れる方向を示す。基点から下方に延びる2本の線は、体幹要素を表し、その他の線は、骨要素を表す。なお、基点は、適宜設定されてよい。
 図14に示す第2モデルでは、体幹要素及び骨要素は、3種の異なる太さ及び2種の異なる線種(実線及び点線)の線で表されている。太さは、重みに対応する。線種は、要素類似度に対応する。詳細には、図14に示す第2モデルは、重みを3段階で表しており、対応付けられた重みが大きいモデル要素ほど太い線となっている。また、図14に示す第2モデルは、関連付けられた参照画像Aに対応する第1モデルを構成するモデル要素の各々と、当該各モデル要素に対応する第2モデルとの要素類似度を2段階で表す。大きい要素類似度は実線であり、小さい要素類似度は点線である。
 参照画像A~参照画像Cの各々について、図示しないが、クエリ画像Qと同様に、第1モデルが重ねて表示されるとよい。また、第1モデルのモデル要素についても、第2モデルと同様に、重み及び要素類似度に応じた異なる表示態様で表示されるとよい。
 このように、重み及び要素類似度に応じてモデル要素の表示態様を変えることで、重み及び要素類似度の大きさを直感的に把握し易くなる。
 図15は、クエリ画像Qの別の表示例を示す図である。図15では、図14では実線で表されるモデル要素(骨要素、体幹要素)及びこれらに関連する関節要素、すなわち要素類似度が大きいモデル要素及びこれらに関連する関節要素のみを表示部118に表示させる例である。要素類似度が小さいモデル要素及びこれらに関連する関節要素を非表示にしている点を除いて、図14及び15に示すクエリ画像Qは同じである。
 なお、図15では、要素類似度が大きいモデル要素及びこれらに関連する関節要素のみを含むクエリ画像Qを表示部118に表示させる例を説明した。すなわち、クエリ画像Qの表示において、要素類似度が小さいモデル要素及びこれらに関連する関節要素を含めない例を説明した。しかし、クエリ画像Qの表示において、要素類似度が小さいモデル要素及びこれらに関連する関節要素の表示方法はこれに限られない。例えば、要素類似度が小さいモデル要素及びこれらに関連する関節要素は、細く或いは小さく表示されてもよく、半透明で表示されてもよく、他のモデル要素及びこれらに関連する関節要素とは異なる図形(例えば、×)などで表示されてもよい。
(作用・効果)
 以上、本実施形態によれば、情報処理装置100は、姿勢取得部113、検索部117及び表示制御部119を備える。
 姿勢取得部113は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する。検索部117は、第1姿勢情報と第2姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。表示制御部119は、第1姿勢情報と第2姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部118に表示させる。
 これにより、第1姿勢情報と第2姿勢情報との少なくとも一方が上記の指標に応じた表示態様で表示されるので、ユーザは、参照画像を検索するために用いられる指標を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、指標は類似度を含む。表示制御部119は、第1姿勢情報と第2姿勢情報との少なくとも一方を、類似度に応じた表示態様で表示部118に表示させる。
 これにより、第1姿勢情報と第2姿勢情報との少なくとも一方が類似度に応じた表示態様で表示されるので、ユーザは、類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、表示制御部119は、第2姿勢情報を表示させる場合に、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1姿勢情報との間の類似度に応じた表示態様で第2姿勢情報を表示部118に表示させる。
 これにより、第2姿勢情報が類似度に応じた表示態様で表示されるので、ユーザは、第2姿勢情報に関する類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、第1姿勢情報は、参照画像に示される人物に関する姿勢推定モデルである第1モデルを含む。第2姿勢情報は、クエリ画像に含まれる被撮影者に示される姿勢推定モデルである第2モデルを含む。姿勢推定モデルは、複数のモデル要素から構成される。
 これにより、第1モデルと第2モデルとの少なくとも一方が指標に応じた表示態様で表示されるので、ユーザは、参照画像を検索するために用いられる姿勢推定モデルと指標とを直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、指標は、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す重みを含む。表示制御部119は、第1モデルと第2モデルとの少なくとも一方を構成する複数のモデル要素を、重みに応じた表示態様で表示部118に表示させる。
 これにより、第1モデルと第2モデルとの少なくとも一方が重みに応じた表示態様で表示されるので、ユーザは、参照画像を検索するために用いられる姿勢推定モデルと重みとを直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、類似度は、第1モデルと第2モデルとの全体的な類似度である全体類似度と、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度と、の少なくとも一つを含む。
 これにより、第1モデルと第2モデルとの少なくとも一方が、全体類似度と要素類似度との少なくとも一方に応じた表示態様で表示される。そのため、ユーザは、参照画像を検索するために用いられる第1モデルと第2モデルとの少なくとも一方と全体類似度と要素類似度との少なくとも一方とを直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、指標は、類似度を含む。表示制御部119は、第2モデルを表示させる場合に、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1モデルとの間の類似度に応じた表示態様で第2モデルを表示部118に表示させる。特定の参照画像に対応する第1モデルは、前記全体類似度が最も大きい第1モデル、最も大きい前記要素類似度を含む第1モデル、又は、ユーザが指定する第1モデルである
 これにより、第2モデルが類似度に応じた表示態様で表示されるので、ユーザは、特定の参照画像に対応する第1モデルと第2モデルとの類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、表示制御部119は、第2モデルを表示させる場合に、モデル要素ごとに要素類似度の平均値を求め、平均値に応じた表示態様で前記第2モデルを表示部118に表示させる
 これにより、第2モデルが類似度に応じた表示態様で表示されるので、ユーザは、特定の参照画像に対応する第1モデルと第2モデルとの類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、表示制御部119は、類似度が要素類似度を含む場合に、第1モデルと第2モデルとの少なくとも一方を構成するモデル要素のうち、要素類似度が第1基準値以上、第2基準値以下又は重みが所定の閾値以上のモデル要素のみを表示部118に表示させる。
 これにより、要素類似度が第1基準値以上又は第2基準値以下のモデル要素のみを表示部118に表示させることができる。そのため、ユーザは、全体的に類似していると推定されたが類似していない部位、或いは、全体的に類似していないと推定されたが類似している部位を直感的に把握することができる。
 また、重みが所定の閾値以上のモデル要素のみを表示部118に表示させるそのため、ユーザは、大きい重みが設定された部位を直感的に把握することができる。
 そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、情報処理装置100は、第1モデルと第2モデルとを用いて、類似度を求める類似度取得部114をさらに含む。
 これにより、ユーザは、類似度を求めるために用いられる第1モデルと第2モデルとの少なくとも一方に関する指標を、これらの少なくとも一方に関連付けて直感的に把握することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、類似度取得部114は、第1モデルと第2モデルとの全体類似度を求める全体算出部114aを含む。
 これにより、ユーザは、全体類似度を求めるために用いられる第1モデルと第2モデルとの少なくとも一方に関する全体類似度を、これらの少なくとも一方に関連付けて直感的に把握することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、類似度取得部114は、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める要素算出手段をさらに含む。全体算出部114aは、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す重みと、要素類似度と、を用いて、全体類似度を求める。
 これにより、ユーザは、全体類似度及び要素類似度を求めるために用いられる第1モデルと第2モデルとの少なくとも一方に関する全体類似度及び要素類似度を、これらの少なくとも一方に関連付けて直感的に把握することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 本実施形態によれば、モデル要素は、複数の関節に対応する関節要素と、複数の関節の間を接続する体幹及び骨格のそれぞれに対応する体幹要素及び骨要素とを含む。表示制御部119は、体幹要素及び骨要素の少なくとも1つを矢印付きの線で表示部118に表示させる。
 一般的に、表示部118での表示上で骨要素を表す線が画像上で近くにある場合、線に矢印がないと、骨要素を表す線と被撮影者の骨格との対応が分かり難いことがある。線に矢印を付けることで、骨要素を表す線と被撮影者の骨格との対応付けを容易にすることができる。そのため、直感的な把握を容易にすることができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。
 以上、図面を参照して本発明の実施の形態及び変形例について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、実施の形態の各々で実行される工程の実行順序は、その記載の順番に制限されない。実施の形態の各々では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の実施の形態及び変形例は、内容が相反しない範囲で組み合わせることができる。
 上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する姿勢取得手段と、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する検索手段と、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる表示制御手段とを備える
 情報処理装置。
2. 前記指標は、前記類似度を含み、
 前記表示制御手段は、前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記類似度に応じた表示態様で前記表示手段に表示させる
 1.に記載の情報処理装置。
3. 前記表示制御手段は、前記第2姿勢情報を表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1姿勢情報との間の前記類似度に応じた表示態様で前記第2姿勢情報を前記表示手段に表示させる
 2.に記載の情報処理装置。
4. 前記第1姿勢情報は、前記参照画像に示される人物に関する姿勢推定モデルである第1モデルを含み、
 前記第2姿勢情報は、前記クエリ画像に含まれる被撮影者に示される姿勢推定モデルである第2モデルを含み、
 前記姿勢推定モデルは、複数のモデル要素から構成される
 1.から3.のいずれか1つに記載の情報処理装置。
5. 前記指標は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みを含み、
 前記表示制御手段は、前記第1モデルと前記第2モデルとの少なくとも一方を構成する複数のモデル要素を、前記重みに応じた表示態様で前記表示手段に表示させる
 4.に記載の情報処理装置。
6. 前記類似度は、前記第1モデルと前記第2モデルとの全体的な類似度である全体類似度と、前記第1モデルと前記第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度と、の少なくとも一つを含む
 4.又は5.に記載の情報処理装置。
7. 前記指標は、前記類似度を含み、
 前記表示制御手段は、前記第2モデルを表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1モデルとの間の前記類似度に応じた表示態様で前記第2モデルを前記表示手段に表示させ、
 前記特定の参照画像に対応する第1モデルは、前記全体類似度が最も大きい第1モデル、最も大きい前記要素類似度を含む第1モデル、又は、ユーザが指定する第1モデルである
 6.に記載の情報処理装置。
8. 前記表示制御手段は、前記第2モデルを表示させる場合に、前記モデル要素ごとに前記要素類似度の平均値を求め、前記平均値に応じた表示態様で前記第2モデルを前記表示手段に表示させる
 6.に記載の情報処理装置。
9. 前記表示制御手段は、前記類似度が前記要素類似度を含む場合に、前記第1モデルと前記第2モデルとの少なくとも一方を構成するモデル要素のうち、前記要素類似度が第1基準値以上、第2基準値以下又は重みが所定の閾値以上のモデル要素のみを前記表示手段に表示させる
 4.から8.のいずれか1つに記載の情報処理装置。
10. 前記第1モデルと前記第2モデルとを用いて、前記類似度を求める類似度取得手段をさらに含む
 4.から9.のいずれか1つに記載の情報処理装置。
11. 前記類似度取得手段は、前記第1モデルと前記第2モデルとの前記全体類似度を求める全体算出手段を含む
 10.に記載の情報処理装置。
12. 前記類似度取得手段は、前記第1モデルと前記第2モデルとの間で対応するモデル要素ごとの類似度である前記要素類似度を求める要素算出手段をさらに含み、
 前記全体算出手段は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みと、前記要素類似度と、を用いて、前記全体類似度を求める
 11.に記載の情報処理装置。
13. 前記モデル要素は、複数の関節に対応する関節要素と、前記複数の関節の間を接続する体幹及び骨格のそれぞれに対応する体幹要素及び骨要素とを含み、
 前記表示制御手段は、前記体幹要素及び前記骨要素の少なくとも1つを矢印付きの線で表示手段に表示させる
 4.から12.のいずれか1つに記載の情報処理装置。
14. コンピュータが、
 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる
 情報処理方法。
15. コンピュータに、
 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。
16. コンピュータに、
 所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
 前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
 前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラム。
100 情報処理装置
101 撮影部
102 解析装置
111 画像取得部
112 記憶部
112a 参照情報
112b 重み情報
113 姿勢取得部
114 類似度取得部
114a 全体算出部
114b 要素算出部
115 推定部
116 入力部
117 検索部
118 表示部
119 表示制御部

Claims (15)

  1.  所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得する姿勢取得手段と、
     前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する検索手段と、
     前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる表示制御手段とを備える
     情報処理装置。
  2.  前記指標は、前記類似度を含み、
     前記表示制御手段は、前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記類似度に応じた表示態様で前記表示手段に表示させる
     請求項1に記載の情報処理装置。
  3.  前記表示制御手段は、前記第2姿勢情報を表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1姿勢情報との間の前記類似度に応じた表示態様で前記第2姿勢情報を前記表示手段に表示させる
     請求項2に記載の情報処理装置。
  4.  前記第1姿勢情報は、前記参照画像に示される人物に関する姿勢推定モデルである第1モデルを含み、
     前記第2姿勢情報は、前記クエリ画像に含まれる被撮影者に示される姿勢推定モデルである第2モデルを含み、
     前記姿勢推定モデルは、複数のモデル要素から構成される
     請求項1から3のいずれか1項に記載の情報処理装置。
  5.  前記指標は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みを含み、
     前記表示制御手段は、前記第1モデルと前記第2モデルとの少なくとも一方を構成する複数のモデル要素を、前記重みに応じた表示態様で前記表示手段に表示させる
     請求項4に記載の情報処理装置。
  6.  前記類似度は、前記第1モデルと前記第2モデルとの全体的な類似度である全体類似度と、前記第1モデルと前記第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度と、の少なくとも一つを含む
     請求項4に記載の情報処理装置。
  7.  前記指標は、前記類似度を含み、
     前記表示制御手段は、前記第2モデルを表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第1モデルとの間の前記類似度に応じた表示態様で前記第2モデルを前記表示手段に表示させ、
     前記特定の参照画像に対応する第1モデルは、前記全体類似度が最も大きい第1モデル、最も大きい前記要素類似度を含む第1モデル、又は、ユーザが指定する第1モデルである
     請求項6に記載の情報処理装置。
  8.  前記表示制御手段は、前記第2モデルを表示させる場合に、前記モデル要素ごとに前記要素類似度の平均値を求め、前記平均値に応じた表示態様で前記第2モデルを前記表示手段に表示させる
     請求項6に記載の情報処理装置。
  9.  前記表示制御手段は、前記類似度が前記要素類似度を含む場合に、前記第1モデルと前記第2モデルとの少なくとも一方を構成するモデル要素のうち、前記要素類似度が第1基準値以上、第2基準値以下又は重みが所定の閾値以上のモデル要素のみを前記表示手段に表示させる
     請求項4に記載の情報処理装置。
  10.  前記第1モデルと前記第2モデルとを用いて、前記類似度を求める類似度取得手段をさらに含む
     請求項4に記載の情報処理装置。
  11.  前記類似度取得手段は、前記第1モデルと前記第2モデルとの前記全体類似度を求める全体算出手段を含む
     請求項10に記載の情報処理装置。
  12.  前記類似度取得手段は、前記第1モデルと前記第2モデルとの間で対応するモデル要素ごとの類似度である前記要素類似度を求める要素算出手段をさらに含み、
     前記全体算出手段は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みと、前記要素類似度と、を用いて、前記全体類似度を求める
     請求項11に記載の情報処理装置。
  13.  前記モデル要素は、複数の関節に対応する関節要素と、前記複数の関節の間を接続する体幹及び骨格のそれぞれに対応する体幹要素及び骨要素とを含み、
     前記表示制御手段は、前記体幹要素及び前記骨要素の少なくとも1つを矢印付きの線で表示手段に表示させる
     請求項4に記載の情報処理装置。
  14.  コンピュータが、
     所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
     前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
     前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる
     情報処理方法。
  15.  コンピュータに、
     所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第1姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第2姿勢情報と、を取得し、
     前記第1姿勢情報と前記第2姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
     前記第1姿勢情報と前記第2姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。
PCT/JP2022/019290 2022-04-28 2022-04-28 情報処理装置、情報処理方法及び記録媒体 WO2023209955A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/019290 WO2023209955A1 (ja) 2022-04-28 2022-04-28 情報処理装置、情報処理方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/019290 WO2023209955A1 (ja) 2022-04-28 2022-04-28 情報処理装置、情報処理方法及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023209955A1 true WO2023209955A1 (ja) 2023-11-02

Family

ID=88518153

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/019290 WO2023209955A1 (ja) 2022-04-28 2022-04-28 情報処理装置、情報処理方法及び記録媒体

Country Status (1)

Country Link
WO (1) WO2023209955A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013229011A (ja) * 2012-03-30 2013-11-07 Toshiba Corp 帳票識別装置および帳票識別方法
WO2021229751A1 (ja) * 2020-05-14 2021-11-18 日本電気株式会社 画像選択装置、画像選択方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013229011A (ja) * 2012-03-30 2013-11-07 Toshiba Corp 帳票識別装置および帳票識別方法
WO2021229751A1 (ja) * 2020-05-14 2021-11-18 日本電気株式会社 画像選択装置、画像選択方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP6013241B2 (ja) 人物認識装置、及び方法
JP4318465B2 (ja) 人物検出装置および人物検出方法
Le et al. Human posture recognition using human skeleton provided by Kinect
Bobick et al. The recognition of human movement using temporal templates
Yang et al. Eigenjoints-based action recognition using naive-bayes-nearest-neighbor
CN104881637B (zh) 基于传感信息及目标追踪的多模信息***及其融合方法
JP6025845B2 (ja) オブジェクト姿勢検索装置及び方法
JP2022521844A (ja) 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法
US20220383653A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program
Venkat et al. Robust gait recognition by learning and exploiting sub-gait characteristics
WO2020195732A1 (ja) 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
JP2014016968A (ja) 人物検索装置及びデータ収集装置
JP2007048172A (ja) 情報分類装置
Yao et al. A fall detection method based on a joint motion map using double convolutional neural networks
JP2005351814A (ja) 検出装置および検出方法
JP7409499B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2023209955A1 (ja) 情報処理装置、情報処理方法及び記録媒体
JP7331910B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Achmed et al. Upper body pose estimation towards the translation of South African Sign Language
JP7259921B2 (ja) 情報処理装置、及び制御方法
JP2017175466A (ja) 映像処理装置、映像処理システムおよび制御方法
WO2023209809A1 (ja) 情報処理装置、情報処理方法、情報処理システム及び記録媒体
CN107742112A (zh) 一种基于图像的人脸防伪方法及装置
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7491380B2 (ja) 画像選択装置、画像選択方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22940229

Country of ref document: EP

Kind code of ref document: A1