WO2022180766A1 - 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体 - Google Patents

映像データ処理装置、方法及び非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2022180766A1
WO2022180766A1 PCT/JP2021/007260 JP2021007260W WO2022180766A1 WO 2022180766 A1 WO2022180766 A1 WO 2022180766A1 JP 2021007260 W JP2021007260 W JP 2021007260W WO 2022180766 A1 WO2022180766 A1 WO 2022180766A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
image
face image
face
analysis
Prior art date
Application number
PCT/JP2021/007260
Other languages
English (en)
French (fr)
Inventor
大輔 杉泊
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/007260 priority Critical patent/WO2022180766A1/ja
Publication of WO2022180766A1 publication Critical patent/WO2022180766A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to a video data processing device, method, and non-transitory computer-readable medium.
  • video technology has progressed in the digitization of video data, and it is possible to accumulate a large amount of video data by compressing data and increasing the capacity of storage devices. For this reason, industries that utilize video technology are increasing demand for technology that retrieves necessary video from a large amount of stored video data and browses it.
  • One method that utilizes video technology is to perform image processing, etc. on video captured by imaging means such as a camera, and automatically detect people included in the images that make up the video. .
  • Japanese Patent Laid-Open No. 2004-100002 discloses a means for detecting a face area of a person included in an image, and detecting a body area using the obtained face area, wherein the face area and the body area belong to the same person.
  • a technique is disclosed that associates as .
  • Patent Document 1 it is possible to detect a face area of a person included in a video and associate it with a body image.
  • a face area of a person included in a video there is a risk of erroneously associating the face image and the body image. Therefore, it is desired to improve the accuracy of associating face images and body images by performing cluster analysis or the like.
  • the present disclosure provides a video data processing device, method, and non-transitory computer-readable medium capable of more accurately associating the face image and body image of a person in a video.
  • a video data processing device includes video data acquisition means for acquiring video data, face image extraction means for extracting a face image in each frame image in the video data, and a body image in each frame image.
  • body image extraction means for extracting an image; analysis means for performing cluster analysis based on the body image and the face image; generation means for generating analyzed video data based on the result of the cluster analysis; and output means for outputting the analyzed image data.
  • a video data processing method includes a video data acquisition step of acquiring video data, a face image extraction step of extracting a face image in each frame image in the video data, and a body image in each frame image. a body image extraction step of extracting an image; an analysis step of performing cluster analysis based on the body image and the face image; a generation step of generating analyzed video data based on the result of the cluster analysis; and an output step of outputting the analyzed image data.
  • a non-transitory computer-readable medium includes a video data acquisition process for acquiring video data, a face image extraction process for extracting a face image in each frame image in the video data, and A body image extraction process for extracting a body image in an image, an analysis process for performing cluster analysis based on the body image and the face image, and a generation for generating analyzed video data based on the result of the cluster analysis. It stores a video data processing program for causing the information processing apparatus to perform processing and output processing for outputting the analyzed video data.
  • FIG. 1 is a configuration diagram of a video data processing device according to an embodiment
  • FIG. 1 is a configuration diagram of a video data processing system according to an embodiment
  • FIG. 4 is a block diagram showing the flow of processing in the video data processing system according to the embodiment
  • FIG. FIG. 3 is a flow chart showing the flow of processing in the video data processing system according to the embodiment
  • It is a figure which shows the outline
  • FIG. 10 is a schematic diagram of processing for associating a face rectangle position and a head position according to the embodiment
  • FIG. 10 is a schematic diagram of processing for associating a face rectangle position and a head position according to the embodiment
  • FIG. 10 is a schematic diagram of processing for associating a face rectangle position and a head position according to the embodiment
  • FIG. 10 is a schematic diagram of processing for associating a face rectangle position and a head position according to the embodiment
  • FIG. 10 is a schematic diagram
  • FIG. 10 is a schematic diagram of processing for associating a face rectangle position and a head position according to the embodiment;
  • FIG. 10 is a diagram showing an example of comparing different frame images and associating face images and body images with each other according to the embodiment;
  • FIG. 10 is a diagram showing an example of comparing different frame images and associating face images and body images with each other according to the embodiment;
  • 4 is a conceptual diagram of processing for generating analyzed video data according to the embodiment;
  • FIG. FIG. 10 is a diagram showing an example of output processing of video data on which cluster analysis has been performed according to the embodiment;
  • FIG. 1 is a configuration diagram of a video data processing device 2 in this embodiment.
  • a video data processing device 2 in this embodiment includes a video data acquisition unit 3 , a face image extraction unit 4 , a body image extraction unit 5 , an analysis unit 6 , a generation unit 7 and an output unit 8 .
  • the video data acquisition unit 3 acquires video data.
  • the video data may be prerecorded.
  • the facial image extraction unit 4 extracts facial images in each frame image in the video data.
  • a body image extractor 5 extracts a body image in each frame image.
  • the analysis unit 6 performs cluster analysis based on the body image and the face image.
  • a cluster refers to a face image and a body image extracted from accumulated video data that are identified and associated with each other.
  • Clustering means performing cluster analysis.
  • the generation unit 7 generates analyzed video data based on the cluster analysis results.
  • the output unit 8 outputs the analyzed video data.
  • the video data processing device 2 of the present embodiment it is possible to more accurately associate the face image and the body image of the person in the video.
  • FIG. 2 is a configuration diagram of the video data processing system 1 in this embodiment.
  • the video data processing system 1 in this embodiment associates the body and the face of the body included in the video, and performs clustering more reliably.
  • a video data processing system 1 in this embodiment includes a video data processing device 10 and a video data storage server 20 .
  • the video data processing device 10 includes a video data acquisition unit 11 , a face image extraction unit 12 , a body image extraction unit 13 , an analysis unit 14 , a generation unit 15 and an output unit 16 .
  • the video data acquisition unit 11 acquires recorded video data.
  • the video data may be recorded in the video data storage server 20 in advance. That is, the video data acquisition unit 11 can acquire a series of recorded videos from the video data storage server 20 .
  • the video data acquisition unit 11 may acquire data from a camera unit (not shown) connected to the video data processing device 10 without being limited to this.
  • the video format is, for example, H.264. H.264 and MPEG-4 (Moving Picture Experts Group) are used.
  • the facial image extraction unit 12 extracts facial images that meet predetermined conditions in each frame of video data. As a predetermined condition, the facial image extraction unit 12 collates whether or not, for example, an image feature amount in a predetermined rectangular image matches a predetermined facial image feature amount.
  • the facial image extraction unit 12 may extract the feature amount of the facial image from luminance information in the video.
  • the facial image extraction unit 12 may extract the face data included in the extracted human-shaped data after extracting the human-shaped data that is the type of the person appearing in the video. That is, the facial image extraction unit 12 may extract the facial image based on the respective face rectangle positions and head positions for the human figure data and the face data in the video frame.
  • the body image extraction unit 13 extracts body images that meet predetermined conditions in each frame of video data. As a predetermined condition, the body image extracting unit 13 checks, for example, whether or not the image feature amount of a predetermined rectangular image matches a preset body image feature amount. The body image extraction unit 13 may extract the feature amount of the body image from luminance information in the video. Also, the body image extracting unit 13 may determine whether or not a plurality of body images overlap, and extract body images that do not overlap.
  • the analysis unit 14 performs cluster analysis on the facial images and body images extracted by the facial image extraction unit 12 and the body image extraction unit 13. When a face image accompanies a body image, the analysis unit 14 clusters the similar group of the body image and the similar group of the face image accompanying the body image as the same group. After the face image and the body image are extracted for each frame from the start time to the end time in the acquired video data, the analysis unit 14 performs cluster analysis based on the extracted images. The analysis unit 14 associates the extracted face image and body image with each other. The cluster analysis performed by the analysis unit 14 will be detailed later.
  • the analysis unit 14 may transmit the analysis video data to the video data storage server 20 on a frame-by-frame basis.
  • the acquired video data may be sharpened by, for example, HDR (High Dynamic Range) processing, but is not limited to this.
  • the generation unit 15 adds additional data to the video data to generate analyzed video data.
  • the additional data may be identifiers indicating groups associated with face images or body images included in each frame image.
  • the additional data may be displayed in the analyzed video data as characters that identify a person displayed in the analyzed video data.
  • the additional data may be called tag information.
  • the output unit 16 outputs the analyzed video data generated by the generation unit 15.
  • the content displayed by the output unit 16 using the display means may be configured to be displayed on a device such as a mobile phone owned by the user (including a so-called smart phone) or an LCD (liquid crystal display).
  • the video data storage server 20 stores video shot using a camera unit or the like. That is, the video data acquisition unit 11 can acquire a series of recorded videos from the video data storage server 20 . Note that the video data storage server 20 may transmit video data recorded in advance to the video data acquisition unit 11 in units of frames.
  • the video data processing device 10 and the video data storage server 20 include a non-volatile memory (for example, ROM (Read Only Memory)) in which various programs and data required for processing are fixedly stored. be able to.
  • the storage means may use an HDD or SSD, or may include a volatile memory (for example, RAM (Random Access Memory)) used as a work area.
  • the program may be read from a portable recording medium such as an optical disk or semiconductor memory, or may be downloaded from a server device on a network.
  • FIG. 3 is a block diagram showing the flow of processing in the video data processing system 1.
  • the image data storage server 20 stores the image captured by the camera unit or the like (step 101).
  • the image data acquisition unit 11 acquires the image from the image data storage server 20, and the analysis unit 14 cluster-analyzes the time period in which the person appears in the image from the acquired image (step 102).
  • the video data processing device 10 stores the result of the cluster analysis performed by the analysis unit 14 (step 103).
  • the clustering results may be saved with additional data.
  • the video data processing device 10 or the video data storage server 20 may register the image of the person's face and body (step 104).
  • the video data processing device 10 may be able to retrieve the time zone and the total time in which the person appears based on the result of the cluster analysis and the pre-registered images of the person's face and body (step 105).
  • the video data processing device 10 or the video data storage server 20 records the searched result (step 106).
  • the output unit 16 may output the retrieved result using display means (step 107).
  • FIG. 4 is a flowchart showing the flow of processing in the video data processing system 1. As shown in FIG.
  • the video data acquisition unit 11 acquires video from the video data storage server 20 (step 201).
  • the face image extraction unit 12 extracts a face image in each frame image in the acquired video data (step 202).
  • the body image extraction unit 13 extracts the body image in each frame image (step 203).
  • the analysis unit 14 performs cluster analysis based on the face image extracted by the face image extraction unit 12 and the body image extracted by the body image extraction unit 13 (step 204).
  • the generation unit 15 generates analyzed video data based on the result of the cluster analysis performed by the analysis unit 14 (step 205).
  • the output unit 16 outputs the analyzed video data generated by the generation unit 15 (step 206).
  • FIG. 5 is a diagram showing an outline of processing for extracting a face image of a person. As shown in FIG. 5, it is assumed that a person A appears in the frame image.
  • the video data storage server 20 may record video data for each frame image, which is a still image.
  • the face image and the body image of person A are acquired.
  • the body image extraction unit 13 extracts the human figure data, which is the shape of the person A's body.
  • the analysis unit 14 associates the extracted face image and body image with each other. Extraction of the face image may be performed by obtaining the coordinates of the face image and the head from the human-shaped data.
  • the analysis unit 14 may perform clustering by determining as the same person when the head position and the face position are associated when the head position and the face position are close to each other.
  • FIGS. 6 to 8 are schematic diagrams of processing for associating face rectangle positions and head positions.
  • the analysis unit 14 may discard both body images and not associate them. That is, when person B and person C overlap more than a predetermined amount as shown in FIG. 6, the analysis unit 14 does not associate the face images and body images of person B and person C from this frame image.
  • the threshold value for the overlap of a predetermined amount or more may be determined using an overlap rate that indicates how much the body images overlap each other.
  • the analysis unit 14 does not associate the face image and the body image. That is, when the face image is within a predetermined range of the body image, the face image and the body image may be associated.
  • the predetermined range is, for example, a case where the face image is located above the neck portion of the body image and overlaps with the head identified from the body image, but is not limited to this.
  • the analysis unit 14 since the face image of person D is located below the neck portion of the body image of person B, the analysis unit 14 does not associate the face image of person D with the body image of person B.
  • the analysis unit 14 does not associate the face image and the body image.
  • the central axis may be an axis centered on the width of the body image.
  • the deviation of the face image to the right or left of the central axis of the body image may be set to the right or left of the body image by a predetermined amount or more, and the threshold may be, for example, 30% of the width of the body, but the present invention is not limited to this.
  • the face image of person C is greatly deviated to the right with respect to the center axis of the body image of person B. In FIG. Therefore, the analysis unit 14 does not associate the face image of the person B and the body image of the person D with each other.
  • the analysis unit 14 does not associate the face image with the body image. This is because when the body image overlaps the frame area, the facial image and the body image may be erroneously associated because, for example, the movement of the character causes the face part to be out of the video.
  • the individual face image and body image may be recorded as face data and human figure data, respectively.
  • FIGS. 9 and 10 are diagrams showing examples of comparing different frame images and associating face images with each other and body images with each other.
  • FIGS. 9 and 10 it is assumed that persons A, B, and C are shown in frame image 1.
  • FIG. It is assumed that persons A and B appear in frame image 2 .
  • persons A and C appear in frame image 3 .
  • person B is shown in frame image 4 .
  • FIG. 9 it is assumed that the video is flowing in the order of frame images 1, 2, 3, and 4.
  • the analysis unit 14 associates the face image and the body image of person A.
  • frame image 1 contains a face image and a body image of person A.
  • the face image of person A is shown in frame image 2 .
  • the frame image 3 contains the face image and the body image of the person A.
  • the analysis unit 14 performs cluster analysis and classifies the persons included in the video data into a plurality of groups.
  • the generation unit 15 also adds identification data relating to a plurality of groups classified in this manner to each frame. By such processing, grouping for each character is performed.
  • the person A in frame 1 and the person A' in frame 2 can be clustered as the same person. be. Also, even if the clothes of the person A in the frame 1 and the clothes of the person A'' in the frame 3 are different, the person A in the frame 1 and the person A' in the frame 2 are the same. Therefore, based on the face images of frames 2 and 3, the person A'' in frame 3 can be clustered as the same person as person A in frames 1 and 2.
  • FIG. 10 it is assumed that the face image and body image of person B are associated. It is assumed that frame image 1 shows only the face image of person B, and frame image 2 shows only the body image of person B. Also, in the frame image 4, the face image and the body image of the person B are shown, and the analysis unit 14 associates the face image and the body image of the person B with each other. At this time, the analysis unit 14 can match the face image of the frame image 1 and the body image of the frame image 2 as those of the person B based on the face image and the body image of the person B associated in the frame image 4 .
  • the analysis unit 14 may compare the facial images and the body images between different frame images, and associate the facial images and the body images based on the degree of similarity.
  • the degree of similarity between faces may be calculated using feature points such as the center of the pupil, the wings of the nose, and the corners of the mouth from the rectangular regions of the face. Further, the degree of similarity between faces may be calculated using feature points such as unevenness and inclination of eyes and nose, or various features other than these may be used.
  • FIG. 11 is a conceptual diagram of processing for generating analyzed video data.
  • the image data acquisition unit 11 acquires a frame image, which is a still image, from the image data, which is a moving image shot by the above processing, and the analysis unit 14 extracts the face image and body image from the frame image.
  • People can be clustered from In the example of FIG. 11 , as a result of extracting the face image and body image of the person 30 appearing in the video data, they are associated as a similar group 31 .
  • the analysis unit 14 associates the face image and the body image based on the degree of similarity, and then associates the face image and the body image. Therefore, for example, the rear view can also be discriminated, and clustering can be performed.
  • the analysis unit 14 performs clustering based on other frame images even when the face of another person appears near the head identified from the body image, such as a scene where the distance between people is close and crowded. conduct. Therefore, the analysis unit 14 can perform processing for associating different persons as different persons without confusing them.
  • FIG. 12 is a diagram showing an example of output processing of video data subjected to cluster analysis.
  • the analysis unit 14 performs cluster analysis on persons appearing in the video. Further, as shown on the left side of FIG. 12, the analysis unit 14 performs cluster analysis to classify the persons included in the video data into a plurality of groups.
  • the generation unit 15 also adds identification data relating to a plurality of groups classified in this manner to each frame. Furthermore, the generation unit 15 arranges the frames to which the identification data are added along the timeline to generate analyzed video data.
  • a file is generated from the analyzed video data generated by the generation unit 15 in the same format as the video data acquired by the video data acquisition unit 11 .
  • the right side of FIG. 12 shows an example of displaying analyzed video data.
  • the analyzed video data output by the output unit 16 can display in which time zone each person appears in the video by scenes and timelines.
  • the analyzed video data is displayed in such a way that it is possible to recognize in which time zone each person grouped on the time axis appears in the video.
  • Information indicating that each grouped person appears in the video may be displayed using a bar display 32 as shown in the drawing, but is not limited to this, and various display methods can be used.
  • the video data processing system 1 of the present embodiment it is possible to more accurately associate the face image and the body image of a person in the video.
  • the video data processing system 1 described in the second embodiment may be used for movies and the like used in broadcasting and the like.
  • a user using the video data processing system 1 can grasp the time scene, which is the time zone in which the performers appear in a movie or the like, and the total time. That is, the video data processing system 1 can allow the user to grasp not only the time period during which the performer's face is shown, but also the time period during which a part of the body is shown.
  • the video data processing system 1 in addition to the video in which the performer is facing the front, for example, the video in which the performer is facing sideways or the video in which the performer is facing backward, is also regarded as the video related to this performer. can be extracted.
  • the image data processing system 1 described in the second embodiment may be used for surveillance images used in security systems and the like.
  • the video data processing system 1 it is possible to grasp the time zone in which not only the facial image of the suspicious person but also a part of the body is shown. That is, it is possible to grasp not only the time period when the suspicious person's face is shown, but also the time period when a part of the body is shown.
  • the video data processing device 2 in the present disclosure has an embodiment as a video data processing method, for example. That is, the video data processing method includes a video data obtaining step of obtaining video data, a facial image extracting step of extracting a facial image in each frame image in the video data, and a body image extracting a body image in each of the frame images. an image extraction step; an analysis step of performing cluster analysis based on the body image and the face image; a generating step of generating analyzed video data based on the result of the cluster analysis; and the analyzed video data. and an output step of outputting
  • Non-transitory computer readable media include various types of tangible storage media.
  • Non-transitory computer-readable media include, for example, magnetic recording media, magneto-optical recording media, CD-ROMs (Read Only Memory), CD-Rs, CD-R/Ws, and semiconductor memories. Examples of semiconductor memory include mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, and RAM (Random Access Memory).
  • the program may also be delivered to the computer on various types of transitory computer readable medium. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. Transitory computer-readable media can deliver the program to the computer via wired channels, such as wires and optical fibers, or wireless channels.
  • the program includes a video data acquisition process for acquiring video data, a face image extraction process for extracting a face image in each frame image in the video data, and a body image extraction process for extracting a body image in each frame image.
  • a video data acquisition process for acquiring video data
  • a face image extraction process for extracting a face image in each frame image in the video data
  • a body image extraction process for extracting a body image in each frame image.
  • an analysis process of performing cluster analysis based on the body image and the face image a generation process of generating analyzed video data based on the result of the cluster analysis; and outputting the analyzed video data.
  • the video data processing device 2 is caused to execute the output processing.
  • a video data processing device with (Appendix 2) When the face image accompanies the body image, the analysis means A similar body image group, which is a group of similar body images; a similar face image group, which is a group of similar face images; as the same group for cluster analysis, The video data processing device according to appendix 1.
  • the analysis means performs cluster analysis on the body images when the overlap between the plurality of body images is within a predetermined amount. 3.
  • the video data processing device according to appendix 1 or 2. (Appendix 4) the analysis means associates the face image and the body image when the face image is within a predetermined range of the body image;
  • the video data processing device according to any one of Appendices 1 to 3. (Appendix 5)
  • the analysis means associates the face image and the body image when the deviation of the face image from the central axis of the body image is within a predetermined amount.
  • the video data processing device according to any one of Appendices 1 to 4.
  • the analysis means performs cluster analysis on the body image that does not overlap with the frame area of the frame image.
  • the video data processing device according to any one of Appendices 1 to 5.
  • the analysis means performs cluster analysis after the face image and the body image are extracted for each frame image from the start time to the end time of the video data.
  • the video data processing device according to any one of Appendices 1 to 6.
  • the generating means adds additional data to the analyzed video data.
  • the video data processing device according to any one of Appendices 1 to 7.
  • the additional data is an identifier indicating a group associated with the face image or the body image included in each frame image.
  • the video data processing device according to appendix 8.
  • a video data processing method comprising: (Appendix 11) a video data acquisition process for acquiring video data; face image extraction processing for extracting a face image in each frame image in the video data; a body image extraction process for extracting a body image in each of the frame images; Analysis processing for performing cluster analysis based on the body image and the face image; a generation process for generating analyzed video data based on the result of the cluster analysis; an output process for outputting the analyzed video data;
  • a non-transitory computer-readable medium storing a video data processing program for causing an information processing device to realize

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

映像データ処理装置(2)は、映像データを取得する映像データ取得手段(3)と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段(4)と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段(5)と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段(6)と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段(7)と、前記解析済映像データを出力する出力手段(8)とを備える。

Description

映像データ処理装置、方法及び非一時的なコンピュータ可読媒体
 本開示は、映像データ処理装置、方法及び非一時的なコンピュータ可読媒体に関する。
 近年の映像技術は、映像データのデジタル化が進み、データの圧縮技術や記憶装置の大容量化が図られていることにより、大量の映像データを蓄積することができる。そのため、映像技術を活用する業界は、蓄積した大量の映像データから必要な映像を取り出し、閲覧する技術への需要を高めている。映像技術を活用する手法の一つは、カメラ等の撮像手段により撮影された映像に対して画像処理等を行い、その映像を構成する画像中に含まれる人物を自動的に検出するものである。
 特許文献1には、映像に含まれる人物に対して、顔領域を検出し、得られる顔領域を用いて身体領域を検出する手段において、その顔領域及び身体領域は、同一人物によるものであるとして対応付けを行う技術が開示されている。
特開2010-257450号公報
 特許文献1において開示された技術によれば、映像に含まれる人物に対して、顔領域を検出し、身体画像と関連付けることは可能である。しかしながら、顔画像と身体画像の関連付けを誤る等の虞がある。そのため、クラスタ解析を行う等により顔画像と身体画像の関連付けの精度の向上が望まれる。
 上述した点に鑑み、本開示において、映像内の人物の顔画像と身体画像の関連付けをより高精度に行うことができる映像データ処理装置、方法及び非一時的なコンピュータ可読媒体を提供する。
 本開示の一態様における映像データ処理装置は、映像データを取得する映像データ取得手段と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段と、前記解析済映像データを出力する出力手段とを備えたものである。
 本開示の一態様における映像データ処理方法は、映像データを取得する映像データ取得ステップと、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、前記解析済映像データを出力する出力ステップとを備えたものである。
 本開示の一態様における非一時的なコンピュータ可読媒体は、映像データを取得する映像データ取得処理と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、前記解析済映像データを出力する出力処理とを情報処理装置に実現させるための映像データ処理プログラムが格納されたものである。
 上述の態様によれば、映像内の人物の関連付けをより高精度に行うことができる映像データ処理装置、方法及び非一時的なコンピュータ可読媒体を提供することができる。
実施形態に係る映像データ処理装置の構成図である。 実施形態に係る映像データ処理システムの構成図である。 実施形態に係る映像データ処理システムにおける処理の流れを示すブロック図である。 実施形態に係る映像データ処理システムにおける処理の流れを示すフロー図である。 実施形態に係る人物の顔画像を抽出する処理の概要を示す図である。 実施形態に係る顔矩形位置と頭部位置の関連付け処理の概要図である。 実施形態に係る顔矩形位置と頭部位置の関連付け処理の概要図である。 実施形態に係る顔矩形位置と頭部位置の関連付け処理の概要図である。 実施形態に係る異なるフレーム画像を比較し、顔画像同士及び身体画像同士の関連付けを行う例を示す図である。 実施形態に係る異なるフレーム画像を比較し、顔画像同士及び身体画像同士の関連付けを行う例を示す図である。 実施形態に係る解析済映像データを生成する処理の概念図である。 実施形態に係るクラスタ解析を行った映像データの出力処理の例を示す図である。
 以下、図面を参照しつつ、実施の形態について説明する。なお、図面は簡略的なものであるから、この図面の記載を根拠として実施の形態の技術的範囲を狭く解釈してはならない。また、同一の要素には、同一の符号を付し、重複する説明は省略する。
<第1の実施形態>
 図1を用いて、本実施形態における映像データ処理装置2の構成について説明する。図1は、本実施形態における映像データ処理装置2の構成図である。本実施形態における映像データ処理装置2は、映像データ取得部3、顔画像抽出部4、身体画像抽出部5、解析部6、生成部7及び出力部8を備える。
 映像データ取得部3は、映像データを取得する。映像データは、予め記録されたものであってもよい。顔画像抽出部4は、映像データにおけるそれぞれのフレーム画像における顔画像を抽出する。身体画像抽出部5は、それぞれのフレーム画像における身体画像を抽出する。
 解析部6は、身体画像と顔画像とに基づいてクラスタ解析を行う。なお、以下の説明においてクラスタとは、蓄積した映像データから抽出した顔画像と身体画像とを同定し、関連付けられたものをいう。クラスタリングとは、クラスタ解析を行うことをいう。
 生成部7は、クラスタ解析の結果に基づいて、解析済映像データを生成する。出力部8は、解析済映像データを出力する。
 本実施形態における映像データ処理装置2によれば、映像内の人物の顔画像と身体画像の関連付けをより高精度に行うことができる。
<第2の実施形態>
 図2を用いて、本実施形態における映像データ処理システム1の構成について説明する。図2は、本実施形態における映像データ処理システム1の構成図である。本実施形態における映像データ処理システム1は、映像に含まれる身体について、身体と顔との関連付けを行い、より確実にクラスタリングを行うものである。
 本実施形態における映像データ処理システム1は、映像データ処理装置10と、映像データ蓄積サーバ20とを備える。映像データ処理装置10は、映像データ取得部11、顔画像抽出部12、身体画像抽出部13、解析部14、生成部15及び出力部16を備える。
 映像データ取得部11は、記録された映像データを取得する。映像データは予め映像データ蓄積サーバ20に記録されていたものでもよい。すなわち、映像データ取得部11は、記録された一連の映像を、映像データ蓄積サーバ20から取得できる。なお、これに限らず、映像データ取得部11は、映像データ処理装置10と接続されたカメラユニット(不図示)から取得してもよい。また、映像フォーマットは、例えば、H.264やMPEG-4(Moving Picture Experts Group)など、様々な方式が用いられる。
 顔画像抽出部12は、映像データのそれぞれのフレームにおいて所定の条件に合致する顔画像を抽出する。顔画像抽出部12は、所定の条件として、例えば所定の矩形画像における画像の特徴量が、予め設定された顔画像の特徴量と一致するか否かを照合する。顔画像抽出部12は、映像内の輝度情報から顔画像の特徴量を抽出してもよい。顔画像抽出部12は、映像に映る人物の型である人型データを抽出した後に、抽出した人型データに含まれる顔データを抽出してもよい。すなわち顔画像抽出部12は、映像フレーム内の人型データと顔データについて、それぞれの顔矩形位置と頭部位置に基づいて顔画像を抽出してもよい。
 身体画像抽出部13は、映像データのそれぞれのフレームにおいて所定の条件に合致する身体画像を抽出する。身体画像抽出部13は、所定の条件として、例えば所定の矩形画像における画像の特徴量が、予め設定された身体画像の特徴量と一致するか否かを照合する。身体画像抽出部13は、映像内の輝度情報から身体画像の特徴量を抽出してもよい。また、身体画像抽出部13は複数の身体画像が重なっているかを判定し、重なっていない身体画像を抽出してもよい。
 解析部14は、顔画像抽出部12及び身体画像抽出部13が抽出した顔画像及び身体画像のクラスタ解析を行う。解析部14は、身体画像に顔画像が付随する場合には、身体画像の類似グループと、この身体画像に付随する顔画像の類似グループとを同一のグループとしてクラスタリングする。解析部14は、取得した映像データにおける開始時刻から終了時刻までの各フレームについて、顔画像及び身体画像が抽出された後に、抽出された画像に基づいてクラスタ解析を行う。解析部14は、抽出された顔画像及び身体画像それぞれを関連付ける。解析部14が行うクラスタ解析については、後に詳述する。
 解析部14は、解析映像データをフレーム単位で映像データ蓄積サーバ20に送信してもよい。取得した映像データは、例えばHDR(High Dynamic Range)処理によって鮮明化されてもよいがこれに限らない。
 生成部15は、解析部14が行ったクラスタ解析の結果に基づいて、映像データに付加データを付与して解析済映像データを生成する。付加データは、各フレーム画像に含まれる顔画像または身体画像に関連付けられたグループを示す識別子であってもよい。また、付加データは解析済映像データに表示される人物を識別する文字として、解析済映像データに表示されてもよい。なお、付加データはタグ情報と称してもよい。
 出力部16は、生成部15が生成した解析済み映像データを出力する。出力部16が表示手段を用いて表示する内容は、ユーザが所有する携帯電話機(いわゆるスマートフォンを含む。)や、LCD(liquid crystal display)などの機器に表示される構成としてもよい。
 映像データ蓄積サーバ20は、カメラユニット等を用いて撮影された映像を蓄積する。すなわち、映像データ取得部11は、記録された一連の映像を、映像データ蓄積サーバ20から取得できる。なお、これに限らず、映像データ蓄積サーバ20は、予め記録した映像データをフレーム単位で映像データ取得部11に送信してもよい。
 なお、映像データ処理装置10及び映像データ蓄積サーバ20は、処理に必要な各種のプログラムや各種のデータが固定的に記憶されている不揮発性のメモリ(例えば、ROM(Read Only Memory))を含むことができる。また、記憶手段は、HDDやSSDを用いるものであってもよいし、作業領域として用いられる揮発性のメモリ(例えば、RAM(Random Access Memory))を含んでもよい。上記プログラムは、光ディスク、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。
 ここで、本実施形態における映像データ処理システム1が行うクラスタ解析について、図を用いて詳細に説明する。
 図3は、映像データ処理システム1における処理の流れを示すブロック図である。映像データ蓄積サーバ20は、カメラユニット等が撮影した映像を記憶する(ステップ101)。映像データ取得部11は、映像データ蓄積サーバ20から映像を取得し、解析部14は、取得した映像から、映像内の人物が映る時間帯をクラスタ解析する(ステップ102)。映像データ処理装置10は、解析部14が行ったクラスタ解析の結果を保存する(ステップ103)。クラスタリングの結果は付加データを付して保存してもよい。
 映像に映る人物が予め把握できる場合、映像データ処理装置10又は映像データ蓄積サーバ20は、当該人物の顔や身体の画像を登録してもよい(ステップ104)。映像データ処理装置10は、クラスタ解析した結果及び予め登録した人物の顔や身体の画像に基づいて、当該人物が映る時間帯や合計時間を検索できてもよい(ステップ105)。映像データ処理装置10又は映像データ蓄積サーバ20は、検索した結果を記録する(ステップ106)。出力部16は、検索した結果を、表示手段を用いて出力をしてもよい(ステップ107)。
 次に、図4を用いて映像データ処理システム1が行う処理のフローを説明する。図4は、映像データ処理システム1における処理の流れを示すフロー図である。
 映像データ取得部11は、映像データ蓄積サーバ20から映像を取得する(ステップ201)。顔画像抽出部12は、取得した映像データにおけるそれぞれのフレーム画像における顔画像を抽出する(ステップ202)。また、身体画像抽出部13は、それぞれのフレーム画像における身体画像を抽出する(ステップ203)。解析部14は、顔画像抽出部12が抽出した顔画像及び身体画像抽出部13が抽出した身体画像に基づいてクラスタ解析を行う(ステップ204)。生成部15は、解析部14が行ったクラスタ解析の結果に基づいて、解析済映像データを生成する(ステップ205)。出力部16は、生成部15が生成した解析済映像データを出力する出力する(ステップ206)。
 図5を用いて、人物の顔画像を抽出する処理を説明する。図5は、人物の顔画像を抽出する処理の概要を示す図である。図5に示すように、フレーム画像には人物Aが映っているものとする。
 図5に示すように、映像データ蓄積サーバ20は、映像データを静止画であるフレーム画像ごとに記録してもよい。ここでは、人物Aの顔画像及び身体画像を取得するものとして説明する。映像データ取得部11が取得したフレーム画像に基づいて、身体画像抽出部13は、人物Aの身体の形である人型データを抽出する。解析部14は、抽出された顔画像及び身体画像それぞれを関連付ける。顔画像の抽出は、人型データから顔画像及び頭部の座標を取得することによって行われてもよい。解析部14は、頭部の位置と顔の位置とを関連付ける際に、頭部の位置と顔の位置が近ければ同一人物として判別することにより、クラスタリングを行ってもよい。
 図6~8を用いて、顔矩形位置と、人型データが持つ頭部位置によって関連付ける処理について、説明を行う。図6~8は、顔矩形位置と頭部位置の関連付け処理の概要図である。
 図6に示すように、例えば人が多く混雑した映像を取得する場合がある。このとき、人物の顔画像と身体画像との関連付けが困難であるか、関連付けを誤る虞がある。そのため、解析部14は、身体画像同士に一定の重なりがある場合、両方の身体画像を破棄し、関連付けを行わないものとしてもよい。すなわち、図6に示すように人物B及び人物Cが所定量を超える重なりがある場合、解析部14は、このフレーム画像からは人物B及び人物Cの顔画像及び身体画像の関連付けは行わない。所定量以上の重なりの閾値は、身体画像同士がどのくらい重なっているかを示す重なり率を用いて判定を行ってもよい。
 また、図7に示すように、人物B、人物C及び人物Dが重なっている映像を取得する場合もある。このとき、解析部14は、顔画像と身体画像との位置関係として不自然である場合、顔画像と身体画像との関連付けを行わない。すなわち顔画像が身体画像の所定範囲内にある場合に、前記顔画像と前記身体画像の関連付けを行うこととしてもよい。所定範囲とは、例えば顔画像の位置が身体画像の首部分より上部であって、身体画像から特定された頭部と重なる部分にある場合等が挙げられるが、これに限らない。図7の例では、人物Dの顔画像が人物Bの身体画像において首部分より下にあることから、解析部14は、人物Dの顔画像と人物Bの身体画像との関連付けを行わない。
 また、顔座標が身体画像の中心軸と比べて左右に一定程度以上ずれている場合、解析部14は顔画像と身体画像を関連付けない。中心軸とは、身体画像の幅に対して中心となる軸としてもよい。すなわち、左右の所定量以上のずれは顔画像が身体画像の中心軸に対して、右又は左に、例えば身体の幅の30%を閾値としてもよいがこれに限らない。図7において、人物Cの顔画像が人物Bの身体画像の中心軸に対して右に大きくずれている。そのため、解析部14は人物Bの顔画像と人物Dの身体画像との関連付けを行わない。
 さらに、図8に示すように、フレーム画像内における身体画像が上下左右のフレーム画像の枠領域と重複する場合、解析部14はそれぞれの顔画像と身体画像との関連付けを行わない。身体画像が枠領域と重複する場合、登場人物の動きによって顔部分が映像から外れること等に起因して、顔画像と身体画像の関連付けを誤る虞があるためである。
 なお、顔画像と身体画像とを関連付けることができない場合は、それぞれ個別の顔画像及び身体画像をそれぞれ顔データ、人型データとして記録しておいてもよい。
 図9及び図10は、異なるフレーム画像を比較し、顔画像同士及び身体画像同士の関連付けを行う例を示す図である。図9及び図10において、フレーム画像1には人物A、B及びCが映っているものとする。フレーム画像2には人物A及びBが映っているものとする。フレーム画像3には人物A及びCが映っているものとする。フレーム画像4には人物Bが映っているものとする。
 図9において、フレーム画像1、2、3、4の順に映像が流れているものとする。図9において、解析部14は人物Aの顔画像及び身体画像の関連付けを行うものとする。図9において、フレーム画像1には人物Aの顔画像及び身体画像が映っているものとする。フレーム画像2には人物Aの顔画像が映っているものとする。フレーム画像3には人物Aの顔画像及び身体画像が映っているものとする。
 解析部14はクラスタ解析を行い、映像データに含まれる人物を複数のグループに分類する。また生成部15は、このように分類された複数のグループに関する識別データを、それぞれのフレームに付加する。このような処理によって、登場人物ごとのグループ化が行われる。
 映像データにおいては、同一人物であってもフレーム画像ごとに表情が異なる場合や、服装が異なる場合がある。クラスタリングは、映像内の同一人物の表情や服装などが異なっても、同定できる。既にフレーム画像において関連付けた顔画像と身体画像とに基づいて、他のフレーム画像の顔画像や身体画像を関連付ける。
 図9の例においてフレーム1の人物Aの表情とフレーム2の人物A’の表情が異なっている場合であってもフレーム1の人物Aとフレーム2の人物A’は同一人物としてクラスタリングが可能である。また、フレーム1の人物Aの服装とフレーム3の人物A’’の服装が異なっている場合であってもフレーム1の人物Aとフレーム2の人物A’は同一とされている。そのため、フレーム2の顔画像とフレーム3の顔画像とに基づいて、フレーム3の人物A’’もフレーム1及びフレーム2の人物Aと同一人物としてクラスタリングが可能である。
 図10において、人物Bの顔画像及び身体画像の関連付けを行うものとする。フレーム画像1において、人物Bの顔画像のみが映り、フレーム画像2において、人物Bの身体画像のみが映っているものとする。また、フレーム画像4において、人物Bの顔画像及び身体画像が映っており、解析部14は人物Bの顔画像及び身体画像の関連付けを行う。このとき、解析部14は、フレーム画像4において関連付けられた人物Bの顔画像及び身体画像に基づいて、フレーム画像1の顔画像及びフレーム画像2の身体画像をそれぞれ人物Bのものとして照合できる。
 ここで、解析部14は、顔画像及び身体画像を、それぞれ異なるフレーム画像同士で比較を行い、顔画像同士及び身体画像同士の類似度によって関連付けてもよい。顔同士の類似度は、顔矩形領域から瞳中心、鼻翼及び口端などの特徴点を用いて算出してもよい。また、顔同士の類似度は、目鼻の凹凸や傾きなどの特徴点を用いて算出してもよいし、これらに限らず様々な特徴を用いてもよい。
 クラスタ解析の結果に基づいて、生成部15が解析済映像データを生成する処理について、図11を用いて説明する。図11は、解析済映像データを生成する処理の概念図である。図11に示すように、映像データ取得部11は上述の処理によって撮影した動画である映像データより静止画であるフレーム画像を取得し、解析部14は、フレーム画像において抽出した顔画像及び身体画像から人物をクラスタリングすることができる。図11の例において、映像データに映る人物30の顔画像及び身体画像を抽出した結果、類似グループ31として関連付ける。
 上述のとおり、解析部14は顔画像と身体画像をそれぞれ類似度によって関連付けをおこなった後、顔画像と身体画像を関連付ける。そのため、例えば後姿も判別ができ、クラスタリングを行うことができる。
 また、解析部14は人同士の距離が近く混雑した場面等、身体画像から特定した頭部の近くに、他人の顔が映っている場合であっても、他のフレーム画像に基づいてクラスタリングを行う。そのため、解析部14は異なる人物を混同することなく別人物として関連付ける処理を行うことができる。
 図12を用いて、出力部16が行う、クラスタ解析を行った映像データの出力処理の例を説明する。図12は、クラスタ解析を行った映像データの出力処理の例を示す図である。図12の左に示すように、解析部14は映像に登場する人物についてクラスタ解析を行う。また図12の左に示すように、解析部14はクラスタ解析を行い、映像データに含まれる人物を複数のグループに分類する。また生成部15は、このように分類された複数のグループに関する識別データを、それぞれのフレームに付加する。さらに生成部15は、識別データを付加したフレームをタイムラインに沿って並べ、解析済映像データを生成する。生成部15が生成した解析済映像データは、映像データ取得部11が取得した映像データと同等のフォーマットによりファイルが生成される。
 図12の右側は、解析済み映像データを表示する一例を示したものである。
出力部16が出力する解析済映像データは、各人物がどの時間帯の映像に映っているかをシーンとタイムラインによって表示され得る。図12の例においては、解析済映像データは、時間軸上にグループ化された各人物がどの時間帯の映像に映っているかを認識可能に表示されている。グループ化された各人物が映像に映っていることを示す情報は、図に示すようなバー表示32を用いて表示してもよいがこれに限らず、様々な表示方法を用いることができる。
 本実施形態における映像データ処理システム1によれば、映像内の人物の顔画像と身体画像の関連付けをより高精度に行うことができる。
<第3の実施形態>
 第2の実施形態において説明した映像データ処理システム1は、放送等において用いられる映画等について用いられてもよい。例えば、映像データ処理システム1を利用するユーザは、映像データ処理システム1を用いることによって映画等において出演者が映る時間帯であるタイムシーン及び合計時間を把握することができる。すなわち、映像データ処理システム1は、出演者の顔が映る時間帯のみならず、身体の一部が映る時間帯もユーザに把握させることができる。言い換えると、映像データ処理システム1は、出演者が正面を向いている映像に加えて、例えば出演者が横を向いている映像や後ろを向いている映像も、この出演者に関連する映像として抽出できる。
<第4の実施形態>
 第2の実施形態において説明した映像データ処理システム1は、防犯システム等に用いられる監視映像について用いられてもよい。例えば、映像データ処理システム1を用いることによって不審者の顔画像のみならず身体の一部が映る時間帯を把握することができる。すなわち、不審者の顔が映る時間帯のみならず、身体の一部が映る時間帯も把握することができる。言い換えると、関連する技術においては、例えば不審者が横を向いている時間や後ろを向いている時間まで把握できなかったが、本実施形態における映像データ処理システム1を用いることによってこれらの時間帯も自動で把握できる。
<その他の実施形態>
 上述の実施形態は、各々独立に実施されてもよいし、実施形態全体又はその一部が適宜組み合わせて実施されてもよい。
 上述の実施形態では、本開示を、ハードウェアを用いるものとして説明したが、本開示はこれに限定されるものではない。本開示における映像データ処理装置2は、例えば、映像データ処理方法としての実施形態を備える。すなわち映像データ処理方法は、映像データを取得する映像データ取得ステップと、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、前記解析済映像データを出力する出力ステップとを備える。
 上記の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体は、例えば、磁気記録媒体、光磁気記録媒体、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)などである。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 上記プログラムは、映像データを取得する映像データ取得処理と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、前記解析済映像データを出力する出力処理とを、映像データ処理装置2に実行させる。
 さらに、上述した実施形態は本件発明者により得られた技術思想の適用に関する例に過ぎない。すなわち、当該技術思想は、上述した実施形態のみに限定されるものではなく、種々の変更が可能であることは勿論である。
 例えば、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
 映像データを取得する映像データ取得手段と、
 前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段と、
 それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段と、
 前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段と、
 前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段と、
 前記解析済映像データを出力する出力手段と、
 を備えた映像データ処理装置。
(付記2)
 前記解析手段は、前記身体画像に前記顔画像が付随する場合には、
 類似する身体画像のグループである類似身体画像グループと、
 類似する顔画像のグループである類似顔画像グループと、
 を同一のグループとしてクラスタ解析を行う、
 付記1に記載の映像データ処理装置。
(付記3)
 前記解析手段は、複数の前記身体画像同士の重なりが所定量以内である場合に、当該身体画像についてクラスタ解析を行う、
 付記1又は2に記載の映像データ処理装置。
(付記4)
 前記解析手段は、前記顔画像が前記身体画像の所定範囲内にある場合に、前記顔画像と前記身体画像の関連付けを行う、
 付記1~3のいずれか1項に記載の映像データ処理装置。
(付記5)
 前記解析手段は、前記顔画像の前記身体画像の中心軸に対するずれが所定量以内である場合に、前記顔画像と前記身体画像の関連付けを行う、
 付記1~4のいずれか1項に記載の映像データ処理装置。
(付記6)
 前記解析手段は、前記フレーム画像の枠領域と重複するものではない前記身体画像についてクラスタ解析を行う、
 付記1~5のいずれか1項に記載の映像データ処理装置。
(付記7)
 前記解析手段は、前記映像データの開始時刻から終了時刻までにおけるそれぞれのフレーム画像について前記顔画像と前記身体画像が抽出された後に、クラスタ解析を行う、
 付記1~6のいずれか1項に記載の映像データ処理装置。
(付記8)
 前記生成手段は、前記解析済映像データに付加データを付与する、
 付記1~7のいずれか1項に記載の映像データ処理装置。
(付記9)
 前記付加データは、前記各フレーム画像に含まれる前記顔画像または前記身体画像に関連付けられたグループを示す識別子である、
 付記8に記載の映像データ処理装置。
(付記10)
 映像データを取得する映像データ取得ステップと、
 前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、
 それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、
 前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、
 前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、
 前記解析済映像データを出力する出力ステップと、
 を備えた映像データ処理方法。
(付記11)
 映像データを取得する映像データ取得処理と、
 前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、
 それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、
 前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、
 前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、
 前記解析済映像データを出力する出力処理と、
 を情報処理装置に実現させるための映像データ処理プログラムが格納された非一時的なコンピュータ可読媒体。
1 映像データ処理システム
2、10 映像データ処理装置
3、11 映像データ取得部
4、12 顔画像抽出部
5、13 身体画像抽出部
6、14 解析部
7、15 生成部
8、16 出力部
20 映像データ蓄積サーバ

Claims (11)

  1.  映像データを取得する映像データ取得手段と、
     前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段と、
     それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段と、
     前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段と、
     前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段と、
     前記解析済映像データを出力する出力手段と、
     を備えた映像データ処理装置。
  2.  前記解析手段は、前記身体画像に前記顔画像が付随する場合には、
     類似する身体画像のグループである類似身体画像グループと、
     類似する顔画像のグループである類似顔画像グループと、
     を同一のグループとしてクラスタ解析を行う、
     請求項1に記載の映像データ処理装置。
  3.  前記解析手段は、複数の前記身体画像同士の重なりが所定量以内である場合に、当該身体画像についてクラスタ解析を行う、
     請求項1又は2に記載の映像データ処理装置。
  4.  前記解析手段は、前記顔画像が前記身体画像の所定範囲内にある場合に、前記顔画像と前記身体画像の関連付けを行う、
     請求項1~3のいずれか1項に記載の映像データ処理装置。
  5.  前記解析手段は、前記顔画像の前記身体画像の中心軸に対するずれが所定量以内である場合に、前記顔画像と前記身体画像の関連付けを行う、
     請求項1~4のいずれか1項に記載の映像データ処理装置。
  6.  前記解析手段は、前記フレーム画像の枠領域と重複するものではない前記身体画像についてクラスタ解析を行う、
     請求項1~5のいずれか1項に記載の映像データ処理装置。
  7.  前記解析手段は、前記映像データの開始時刻から終了時刻までにおけるそれぞれのフレーム画像について前記顔画像と前記身体画像が抽出された後に、クラスタ解析を行う、
     請求項1~6のいずれか1項に記載の映像データ処理装置。
  8.  前記生成手段は、前記解析済映像データに付加データを付与する、
     請求項1~7のいずれか1項に記載の映像データ処理装置。
  9.  前記付加データは、前記各フレーム画像に含まれる前記顔画像または前記身体画像に関連付けられたグループを示す識別子である、
     請求項8に記載の映像データ処理装置。
  10.  映像データを取得する映像データ取得ステップと、
     前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、
     それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、
     前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、
     前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、
     前記解析済映像データを出力する出力ステップと、
     を備えた映像データ処理方法。
  11.  映像データを取得する映像データ取得処理と、
     前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、
     それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、
     前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、
     前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、
     前記解析済映像データを出力する出力処理と、
     を情報処理装置に実現させるための映像データ処理プログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2021/007260 2021-02-26 2021-02-26 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体 WO2022180766A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/007260 WO2022180766A1 (ja) 2021-02-26 2021-02-26 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/007260 WO2022180766A1 (ja) 2021-02-26 2021-02-26 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2022180766A1 true WO2022180766A1 (ja) 2022-09-01

Family

ID=83048924

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/007260 WO2022180766A1 (ja) 2021-02-26 2021-02-26 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

Country Status (1)

Country Link
WO (1) WO2022180766A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003046911A (ja) * 2001-05-22 2003-02-14 Matsushita Electric Ind Co Ltd 監視記録装置及びその方法
JP2010257451A (ja) * 2009-03-31 2010-11-11 Sogo Keibi Hosho Co Ltd 人物検索装置、人物検索方法、及び人物検索プログラム
JP2011053952A (ja) * 2009-09-02 2011-03-17 Canon Inc 画像検索装置及び画像検索方法
JP2011210238A (ja) * 2010-03-10 2011-10-20 Dainippon Printing Co Ltd 広告効果測定装置及びコンピュータプログラム
JP2014016173A (ja) * 2012-07-06 2014-01-30 Hitachi Appliances Inc 空気調和機
JP2020187531A (ja) * 2019-05-14 2020-11-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003046911A (ja) * 2001-05-22 2003-02-14 Matsushita Electric Ind Co Ltd 監視記録装置及びその方法
JP2010257451A (ja) * 2009-03-31 2010-11-11 Sogo Keibi Hosho Co Ltd 人物検索装置、人物検索方法、及び人物検索プログラム
JP2011053952A (ja) * 2009-09-02 2011-03-17 Canon Inc 画像検索装置及び画像検索方法
JP2011210238A (ja) * 2010-03-10 2011-10-20 Dainippon Printing Co Ltd 広告効果測定装置及びコンピュータプログラム
JP2014016173A (ja) * 2012-07-06 2014-01-30 Hitachi Appliances Inc 空気調和機
JP2020187531A (ja) * 2019-05-14 2020-11-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US11704936B2 (en) Object tracking and best shot detection system
CA3000127C (en) System and method for appearance search
CN109325933B (zh) 一种翻拍图像识别方法及装置
US9560323B2 (en) Method and system for metadata extraction from master-slave cameras tracking system
KR101615254B1 (ko) 디지털 이미지들에서 얼굴 표정들을 검출
US8805123B2 (en) System and method for video recognition based on visual image matching
US8270806B2 (en) Information processing apparatus and method of controlling same
CN110675433A (zh) 视频处理方法、装置、电子设备及存储介质
US9514225B2 (en) Video recording apparatus supporting smart search and smart search method performed using video recording apparatus
US10037467B2 (en) Information processing system
KR101781358B1 (ko) 디지털 영상 내의 얼굴 인식을 통한 개인 식별 시스템 및 방법
US20150278585A1 (en) Video processing system for video surveillance and methods for use therewith
WO2019083509A1 (en) PEOPLE SEGMENTATIONS FOR BACKGROUND REPLACEMENTS
WO2020018349A4 (en) Systems and methods for generating targeted media content
Heng et al. How to assess the quality of compressed surveillance videos using face recognition
CN114627526A (zh) 基于多摄像头抓拍图像的融合去重方法、装置及可读介质
Özay et al. Automatic TV logo detection and classification in broadcast videos
US9286707B1 (en) Removing transient objects to synthesize an unobstructed image
US10007842B2 (en) Same person determination device and method, and control program therefor
KR100827848B1 (ko) 영상 통화 기록을 이용하여 디지털 데이터에 포함된 인물을인식하고 화면에 영상을 디스플레이하는 방법 및 시스템
WO2022180766A1 (ja) 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体
Lai et al. Spoofing face detection based on spatial and temporal features analysis
Sang et al. Rolling and non-rolling subtitle detection with temporal and spatial analysis for news video
US20230090122A1 (en) Photographing control device, system, method, and non-transitory computer-readable medium storing program
JP2021177300A (ja) 画像処理装置、画像処理装置の制御方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21927868

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21927868

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP