WO2015107775A1 - 映像情報処理システム - Google Patents

映像情報処理システム Download PDF

Info

Publication number
WO2015107775A1
WO2015107775A1 PCT/JP2014/081105 JP2014081105W WO2015107775A1 WO 2015107775 A1 WO2015107775 A1 WO 2015107775A1 JP 2014081105 W JP2014081105 W JP 2014081105W WO 2015107775 A1 WO2015107775 A1 WO 2015107775A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
recognition
threshold
video
still images
Prior art date
Application number
PCT/JP2014/081105
Other languages
English (en)
French (fr)
Inventor
池田 博和
ジャビン ファン
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to CN201480067782.9A priority Critical patent/CN105814561B/zh
Priority to SG11201604925QA priority patent/SG11201604925QA/en
Priority to US15/102,956 priority patent/US20170040040A1/en
Publication of WO2015107775A1 publication Critical patent/WO2015107775A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Definitions

  • the present invention relates to a video information processing system that analyzes video and searches at high speed.
  • a general face detection algorithm targets still images (frames), and frames (for example, 30 fps per second (frames / second)) are thinned out in advance to make high-load processing more efficient. Face detection is performed on the resulting frame, and when face detection is performed, pattern matching is performed between a face image of a specific person and reference data in which a name (text) is paired, and the degree of similarity is a predetermined threshold value. If it is higher, the person is determined.
  • US Patent Application Publication No. 2007/0274596 discloses an image processing apparatus in which a scene change is detected and the entire video is divided into three scenes 1 to 3.
  • face detection is performed on still images constituting a video. Whether each scene is a face scene in which a person's face is reflected is determined by determining the face scene, such as the position of the face detected from the still images that make up the face scene, the area of the detected face, etc. Using data that models the time series of features obtained from each still image that composes, and information on the position and area of the part detected as a face from the still image that constitutes the scene to be discriminated This is done by pattern recognition.
  • the threshold is set to a high value for face detection technology on a frame-by-frame basis, only a small number of frames with high accuracy are detected, but on the other hand, it is necessary to identify the peripheral video in which a specific person is reflected, and detection is omitted. There is a disadvantage that increases the possibility of. On the other hand, if the threshold is set to a low value, detection omissions are reduced, but on the other hand, the number of erroneous detection frames increases, and an operation for discriminating each one is accompanied. Further, in the technique described in US Patent Application Publication No.
  • 2007/0274596 only the timing of scene change is given to the entire video, and when a plurality of persons are reflected at the same time, the timing of start and end is determined. Cannot handle different cases for each person. For this reason, a technique (video information indexing) for appropriately setting a threshold for pattern matching and individually setting a start time and an end time in which a plurality of persons (or objects) are shown is required.
  • a typical example of the invention disclosed in the present application is as follows. That is, in a video information processing system that processes a moving image composed of a plurality of time-series still images, a still image in which a search target exists from the plurality of still images is transferred to the search target registration data. It is determined that the search target exists when an interval between the target recognition unit detected by similarity determination using the first threshold and the still image determined to have the search target is equal to or smaller than a second threshold.
  • a time zone determination unit that determines that the search target exists also in the still images between the still images that have been determined, and sets a start time and an end time of the continuous still images determined that the search target exists. Registration is performed in association with the registration data to be searched.
  • 12 is a flowchart of video information indexing processing according to the second embodiment.
  • FIG. 10 is a flowchart of recognition frame data generation processing according to the second embodiment. It is a figure which shows an example of the structure of the recognition frame data data which concern on Example 2.
  • FIG. It is a figure which shows the example of a screen output of the number of the object person simultaneous recognition time slots which concern on Example 2.
  • FIG. It is a figure which shows the example of a screen output of a video information search result. It is a figure which shows the example of a screen output which reproduces
  • the process may be described with “program” as the subject, but the program is executed by a processor (for example, a CPU (Central Processing Unit)) included in the controller, and thus a predetermined process is performed. This is performed using storage resources (for example, memory) and / or communication interface devices (for example, communication ports) as appropriate. Therefore, the subject of these processes may be a processor.
  • the processing described with the subject of “ ⁇ ” and “program” may be processing performed by a processor or a management system having the processor (for example, a management computer (for example, a server)).
  • the controller may be the processor itself or may include a hardware circuit that performs part or all of the processing performed by the controller.
  • the program may be installed on each controller from a program source.
  • the program source may be, for example, a program distribution server or a storage medium.
  • FIG. 2 shows an embodiment of a video information processing system according to the present embodiment.
  • the system includes an external storage device 050 for storing video data 251 and computers 010, 020, and 030.
  • the computer does not need to be divided into three, and may have a configuration having the functions described below.
  • the external storage device 050 may be a high-performance and high-reliability storage system or a DAS (direct attach storage) that does not have a redundant function, or a configuration in which all data is stored in the auxiliary storage device 013 in the computer 010. It is good.
  • DAS direct attach storage
  • the video editing program 121 and the video search / playback program 131 may all be executed on the computers 020 and 030, or may be operated by a thin client such as a laptop computer, a tablet terminal, or a smartphone. it can.
  • the video data 251 is generally composed of a large number of video files.
  • the video data 251 is video material shot by a video camera or the like, or archive data of a program broadcast in the past, but may be other video data. It is assumed that the video data 251 has been converted in advance into a format (such as MPEG2) that can be processed by a recognition means (such as the target recognition program 111).
  • the video data 251 input from the video source 070 is recognized by a target recognition program 111 (to be described later) as a target person or object in units of frames, and recognition frame data 252 is added.
  • recognition time zone data 253 in which recognition data in units of frames (recognition frame data 252) is grouped for each time zone is added by a recognition time zone determination program 112 described later.
  • the computer 010 stores the object recognition program 111, the recognition time zone determination program 112, the reference dictionary data 211, and the threshold data 212 in the auxiliary storage device 013.
  • the object recognition program 111 and the recognition time zone determination program 112 are read into the memory 012 and executed by the processor (CPU) 011.
  • the reference dictionary data 211 and the threshold data 212 may be stored in the external storage device 050.
  • the reference dictionary data is one or more electronic data (images) 603 registered in advance for each subject or object 601.
  • a feature quantity 602 is calculated for a registered image in advance for high-speed similarity calculation, and converted into vector data or the like. Since the object recognition program 111 handles only the feature quantity 602, the image may be deleted after the feature quantity calculation.
  • a subject with two or more feature quantities is registered with a registration number 604. The feature amount can be registered as a single data by integrating a plurality of registrations.
  • the threshold data 212 holds a threshold used in the object recognition program 111.
  • the computer 020 has a video editing program 121, and the video editing unit is configured by the processor executing the video editing program.
  • the computer 030 has a video search / playback program 131, and the processor executes the video search / playback program 131 to configure a video search / playback unit.
  • the object recognition program 111 sequentially reads a plurality of video files included in the video data 251 onto the memory 012.
  • FIG. 3 shows a procedure (S310) for generating the recognition frame data 252 from the read video file.
  • pattern matching or feature amount comparison
  • reference dictionary data 211 is performed for all frames (or frames extracted at equal intervals) in the video file (S312), and similarity is calculated (S312).
  • the threshold value 1 is read from the threshold value data 212 and compared with the calculated similarity (S313).
  • the threshold 1 is a quantitative reference value that is set in advance and determines whether or not the person is a specific person in the similarity.
  • the reference dictionary data structure 600 may be used to compare the characteristic amount of the single target person (for example, the target person A).
  • the similarity is stored in the external storage device 050 as recognition frame data. The steps from S311 to S313 and S311 to S314 are performed for all frames.
  • FIG. 5 shows an example of the data structure of the recognition frame data 252.
  • Each frame is managed along with the time (634). For example, the time of frame 1 is 7: 31: 14.40.
  • the similarity 633 with the registered data of the searcher (or search object) 631 as the search target is held. Further, the determination result is written in the recognition flag 632 depending on whether the similarity is equal to or greater than the threshold value 1.
  • a frame for which the recognition flag 632 is 1 means that it is determined that registered data exists. The above procedure is performed for all target frames, and the frame data is recorded (S311).
  • the recognition time zone determination program 112 corrects the generated recognition frame data 252 in consideration of a change in time series similarity, and generates recognition time zone data 253 (S330).
  • the difference in time 634 between the frame and the next frame determined in S331 is calculated.
  • This time difference is compared with the threshold 2 read from the threshold data 212 (S333). If the time difference is smaller than the threshold 2, the frame data is corrected as a continuous frame (S334).
  • the threshold 2 is preset and means the longest time difference that can be determined as a continuous frame in which the subject is reflected. That is, even if there are frames in which the subject is not reflected, these frames are allowed and can be defined as a group of video clips. For example, in FIG. 5, for the subject A, the time difference between the first frame and the fourth frame is 1 second.
  • the threshold 2 is 5 seconds
  • the recognition flag is set.
  • the recognition frame data is corrected (see 651 in FIG. 7).
  • the above procedure is performed on all the extracted target frames (S332). For example, a scene in which a camera is pointed at the audience may be inserted from time to time in a movie in which a person is speaking on the stage. According to this process, even when a scene in which the subject is not shown is inserted, it can be recognized as one scene.
  • recognition time zone data 253 is generated using the corrected recognition frame data 252 (S335).
  • the recognition time zone is the time between the start time and the end time when the subject is reflected in the video.
  • FIG. 8 shows an example of the data structure of the recognition time zone data 253.
  • the time zone 673 of the data source 672 in which the target person is shown is recorded.
  • the recognition flag 632 of the recognition frame data (after correction) 650 is referred to, and the start time and end time 674 of successive frames whose flag is 1 are written in the recognition time zone (S334).
  • a few frames continue (for example, within 3 seconds in time), it may be determined that the utility value as the video material is low, and processing that is not written in the recognition time zone may be executed.
  • the recognition time zone data 253 at this time starts and ends with a frame in which the target person (for example, A) is clearly reflected facing the front.
  • the actual video includes frames in which the subject is facing sideways or down, or is out of view, and the degree of similarity continuously increases and decreases.
  • the correction processing of the recognition time zone data 253 is performed (S350).
  • threshold 3 is read from threshold data 212.
  • the threshold 3 is a value lower than the threshold 1.
  • the recognition time zone determination program 112 corrects the recognition time zone data 253 by referring again to the recognition flag 632 and the recognition time zone data 253 of the recognition frame data (after correction) 650.
  • the recognition time zone 673 is referred to in time series from the recognition time zone data 253 (S351).
  • S353 For example, in the case of the start time 674 of the second recognition time zone, a few seconds or several frames (extraction range is defined in advance) just before 07: 39: 41: 20 are extracted from the recognition frame data 252 (S352). ), The degree of similarity with the subject is compared with the threshold 3 (S353). If the similarity is larger than the threshold 3, the recognition frame data is corrected as a continuous frame (S354).
  • the sixth frame 635 in FIG. 5 is a frame close to the end frame (07: 31: 16: 20) of the recognition time zone, but is not included in the recognition time zone.
  • the threshold 3 is set lower than the threshold 1 (for example, 50)
  • the sixth frame can be included in the recognition time zone (652 in FIG. 7).
  • the threshold 2 is used again to determine whether the frame is continuous (S355), and the recognition frame data is corrected (S356).
  • the recognition flags (635, 636) of the sixth frame and the twentieth frame are corrected to 1 (652, 653 in FIG. 7) as a result of the determination of the preceding and following frames.
  • the threshold 2 is 5 seconds
  • the seventh frame and the nineteenth frame can be determined as continuous authentication time zone data, so that 637 in FIG. 5 changes the recognition flag as 654 in FIG.
  • adjacent ones of the recognition time zones in FIG. 8 are integrated as one recognition time zone. The above procedure is performed for all recognition time zones.
  • FIG. 1 is an example conceptually showing the present invention.
  • the primary detection of the recognition frame is performed using the threshold value 1 (S501)
  • the continuous frame is determined using the threshold value 2 (S502)
  • the proximity of the recognition time zone is determined using the threshold value 3 It is determined whether to include a frame (S503). When there are a plurality of subjects, these processes are performed for each subject.
  • FIG. 10 shows an overall processing flow S400.
  • recognition frame data is generated, and a plurality of subjects appearing in the video are specified using the reference dictionary data 211 (S401).
  • recognition time zone data generation S330
  • recognition time zone data correction S350
  • results for a plurality of subjects A and subjects B are registered as shown in FIG. That is, for each identified subject 671, which time zone 673 of which data source 672 was shown is recorded in the recognition time zone data 253 (S403).
  • FIG. 11 shows details of recognition frame data generation processing (S401) in detection of a plurality of persons.
  • a comparison with all target persons existing in the reference dictionary data is basically performed for a plurality of face areas detected in each frame, so the processing amount is enormous.
  • a step of narrowing down the target person according to the number of face areas and the number of target persons (601 in FIG. 4) used as search targets may be provided.
  • it is linked with a database such as electronic program guide data (EPG) associated with the data source 672, and the name of the performer with the target number is acquired in advance (S411).
  • EPG electronic program guide data
  • the processing amount can be greatly reduced by using the dictionary data of the target person associated with the acquired name as a search target.
  • Fig. 12 shows an example of the recognition frame data structure.
  • the number of detected face areas is written in the simultaneous number 641.
  • the similarity is calculated (S415). If the similarity is greater than the threshold 4 (Yes in S416), the person whose face area is detected is recognized as the subject person p (S417).
  • the threshold for detection can be lowered according to the number of simultaneous people 641 to reduce the risk of face recognition instability (S416). For example, if the number of simultaneous persons is equal to or greater than a predetermined value, the threshold value may be set to a value that is smaller by a predetermined ratio.
  • threshold 4 (642) if the number of simultaneous persons is 1 or less, 80 (default value of threshold 1), 75 if the number of simultaneous persons is 2, 70 if the number of simultaneous persons is 3, and so on.
  • An example of setting a recognition flag is shown. With this configuration, it is possible to manage the start time and end time of an appearing scene for each of a plurality of search targets.
  • a threshold value lower than the normal threshold value 1 for example, the recognition flag 643 of the subject A in the second and third frames can be changed.
  • One of the features of multi-person detection is that it is possible to extract video clips when a co-star is appearing in a program. For example, when a combination of the target person A and the target person B is targeted, a frame in which the recognition flags of both the target person A and the target person B are 1 is extracted based on the recognition frame data 252 of FIG. The recognition time zone data generation 330 and the recognition time zone data correction 350 are performed on the frames, and the number of frames in which both the subject A and the subject B are reflected may be registered.
  • FIG. 13 shows, for example, a screen output example of the number of recognition time zones in which it is determined that the search target exists for a combination of two-party search targets. It can be seen that the greater the number 691 indicating the number of still images, the greater the number of co-starring. These numbers themselves may be links to pages for playing the corresponding video clip.
  • FIG. 14 is a diagram illustrating an example of a search screen.
  • the example of the search screen shown in FIG. 14 is realized via input / output devices connected to the computers 020 and 030.
  • the name of the target person to be searched is entered in the keyword input field 701
  • a list 702 of recognition time zones registered in relation to the target person 671 in the recognition time zone data 253 shown in FIG. 8 is displayed.
  • a video display area 703 for displaying one frame (for example, the first frame) included in the recognition time zone in association with the list may be provided.
  • the average value 704 of the similarity of the target person can be calculated from the recognition frame data 252 and displayed for all frames in the recognition time zone.
  • the list may be rearranged and displayed in descending order of average similarity.
  • the reference count 708 indicates the number of times that the user of this system has played the video in the recognition time zone. Since a video with a large number of playbacks can be determined as a popular video clip, the list may be rearranged and displayed in descending order of the number of playbacks.
  • the list 702 may include a video playback time 705, a data source 706 representing the original file name, and a start time and an end time 707 of a recognition time zone (video clip).
  • FIG. 15 shows an example of a screen 800 for playing back a recognition time zone video using the video search / playback program 131.
  • a start time 803 and an end time 805 are a start time and an end time of the recognition time zone, respectively.
  • the recognition frame data 252 may be used to display the time series change 806 of the similarity of each frame.
  • the video search / playback program 131 may have a function of changing the playback speed and / or the necessity of playback according to the similarity. By using this function, frames with low similarity can be effectively viewed in consideration of the similarity by skipping video display or fast-forwarding.
  • the coordinates where the person is shown may be specified, and the name may be displayed near the face 802 of the person. This is effective for human recognition and viewing when a plurality of people are reflected simultaneously.
  • the present invention is not limited to the above-described embodiments, and includes various modifications and equivalent configurations within the scope of the appended claims.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment may be replaced with the configuration of another embodiment.
  • another configuration may be added, deleted, or replaced.
  • each of the above-described configurations, functions, processing units, processing means, etc. may be realized in hardware by designing a part or all of them, for example, with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program to be executed.
  • Information such as programs, tables, and files that realize each function can be stored in a storage device such as a memory, a hard disk, and an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, and a DVD.
  • a storage device such as a memory, a hard disk, and an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, and a DVD.
  • control lines and information lines indicate what is considered necessary for the explanation, and do not necessarily indicate all control lines and information lines necessary for mounting. In practice, it can be considered that almost all the components are connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

複数の時系列的な静止画から構成される動画像を処理する映像情報処理システムであって、前記複数の静止画から検索対象が存在する静止画を、前記検索対象の登録データとの第1の閾値を用いた類似度判定により検出する対象認識部と、前記検索対象が存在すると判定された前記静止画の間隔が第2の閾値以下である場合に、前記検索対象が存在すると判定された静止画の間の静止画にも前記検索対象が存在すると判定する時間帯判定部と、を有し、前記検索対象が存在すると判定された連続する前記静止画の開始時間及び終了時間を当該検索対象の前記登録データに対応づけて登録する。

Description

映像情報処理システム 参照による取り込み
 本出願は、平成26年(2014年)1月17日に出願された日本出願である特願2014-6384の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、映像を解析し、高速に検索する映像情報処理システムに関する。
 従来、放送済みの映像コンテンツと、それらの素材映像は安価なテープデバイスにアナログ形式で録画し長期保管(アーカイブ)していた。このようなアーカイブを容易に再利用するために、アーカイブ映像をデジタルデータに変換し、オンラインあるいはそれに近い形で保管するケースが増えている。目的とする映像をアーカイブから取り出すためには、映像に対し出演者やコンテンツの内容を付加情報として電子的に付加する(インデクシング)ことが有効である。特に、TV番組の編集者は、特定の人物または物が映っている時間帯の映像クリップを瞬時にアーカイブから取り出したいニーズがあり、詳細な付加情報(例えば、どの時間帯に何が映っているか)の付与が課題となっている。
 一般的な顔検出のアルゴリズムは静止画(フレーム)を対象としており、高負荷な処理を効率化するためにフレーム(例えば、1秒当たり30fps(フレーム/秒)を予め間引いておいて、間引いた結果のフレームについて顔検出を行う。顔検出の際には、特定の人物の顔画像と名前(テキスト)が対になっている参照用のデータとのパターンマッチングを行い、類似度が所定の閾値より高い場合には、当該人物であると判定する。
 例えば、米国特許出願公開第2007/0274596号には、シーンチェンジの検出が行われ、ビデオ全体がシーン1乃至3の3つのシーンに分ける画像処理装置が開示されている。また、ビデオを構成する静止画を対象として顔検出が行われる。それぞれのシーンが、人の顔が映っている顔シーンであるか否かの判別が、顔シーンを構成する静止画から検出された顔の位置、検出された顔の面積などの、顔シーンを構成するそれぞれの静止画から得られる特徴の時系列をモデル化したデータと、判別の対象になっているシーンを構成する静止画から顔として検出された部分の位置、面積の情報とを用いたパターン認識によって行われる。
 フレーム単位での顔検出技術について、閾値を高めに設定すると、精度の良い少数のフレームのみ検出されるが、一方で、特定人物が映り込んでいる周辺映像を特定する作業が必要となり、検出漏れの可能性が高まるデメリットがある。これに対し、閾値を低めに設定すると、検出漏れは減るが、一方で、誤検出のフレームが増加し一つ一つ判別する作業が伴う。また、米国特許出願公開第2007/0274596号に記載の技術では、映像全体に対しシーンチェンジのタイミングが与えられるのみであり、複数の人物が同時に映り込んでいる場合に、開始及び終了のタイミングが人物毎に異なるケースに対応できない。このため、パターマッチングのための閾値を適切に設定し、複数の人物(又は物)が映っている開始時間及び終了時間を個別に設定するための技術(映像情報インデクシング)が求められる。
 本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の時系列的な静止画から構成される動画像を処理する映像情報処理システムであって、前記複数の静止画から検索対象が存在する静止画を、前記検索対象の登録データとの第1の閾値を用いた類似度判定により検出する対象認識部と、前記検索対象が存在すると判定された前記静止画の間隔が第2の閾値以下である場合に、前記検索対象が存在すると判定された静止画の間の静止画にも前記検索対象が存在すると判定する時間帯判定部と、を有し、前記検索対象が存在すると判定された連続する前記静止画の開始時間及び終了時間を当該検索対象の前記登録データに対応づけて登録する。
 本発明の代表的な形態によれば、大量の映像素材やアーカイブから、特定の人物や特定の物が映っている時間帯の映像クリップを容易に検索できる。
映像情報インデクシング処理の概念を示す例である。 本発明の一実施形態に係る映像情報処理システムの構成の一例を示すブロック図である。 認識フレームデータ生成処理のフローチャートである。 参照用辞書データの構造の一例を示す図である。 認識フレームデータデータの構造の一例を示す図である。 認識時間帯データ生成処理のフローチャートである。 補正後の認識フレームデータデータ構造の一例を示す図である。 認識時間帯データの構造の一例を示す図である。 特に認識時間帯データ補正処理のフローチャートである。 実施例2に係る映像情報インデクシング処理のフローチャートである。 実施例2に係る認識フレームデータ生成処理のフローチャートである。 実施例2に係る認識フレームデータデータの構造の一例を示す図である。 実施例2に係る対象者同時認識時間帯の数の画面出力例を示す図である。 映像情報検索結果の画面出力例を示す図である。 映像クリップを再生する画面出力例を示す図である。
 以下に本発明の実施の形態を説明する。以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムはコントローラに含まれるプロセッサ(例えば、CPU(Central Processing Unit))によって実行されることで、定められた処理を、適宜に記憶資源(例えば、メモリ)及び/又は通信インタフェースデバイス(例えば、通信ポート)を用いながら行う。よって、これらの処理の主語がプロセッサとされてもよい。~部や、プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する管理システム(例えば、管理用計算機(例えば、サーバ))が行う処理としてもよい。また、コントローラは、プロセッサそれ自体であってもよいし、コントローラが行う処理の一部又は全部を行うハードウェア回路を含んでもよい。プログラムは、プログラムソースから各コントローラにインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は記憶メディアであってもよい。
 図2に、本実施例の映像情報処理システムの一実施形態を示す。本システムは、映像データ251を格納する外部記憶装置050と、計算機010、020、030を有する。計算機は三つに分かれている必要はなく、以下に説明する機能を有する構成であればよい。ここで外部記憶装置050は、高性能かつ高信頼なストレージシステムでも、冗長機能を有しないDAS(ダイレクトアッタッチストレージ)でもよいし、計算機010内の補助記憶装置013に全てのデータを格納する構成としてもよい。
 これらの装置は、ネットワーク090によって互いに接続される。一般的にはIPルータによるLAN接続を用いるが、遠隔で作業する場合など、WANを経由した広域分散構成としてもよい。編集作業や映像配信など高速なI/Oが求められる場合、外部記憶装置050はバックエンド側にFCルータによるSAN接続を用いてもよい。また、映像編集プログラム121や映像検索/再生プログラム131は、それぞれ、計算機020、030上で全て実行される構成でもよいし、ラップトップコンピュータ、タブレット端末、スマートフォンのようなシンクライアントで動作させることもできる。
 映像データ251は、一般に多数の映像ファイルからなり、例えば、ビデオカメラ等で撮影した映像素材か、過去に放送した番組のアーカイブデータであるが、その他の映像データでもよい。映像データ251は、予め、認識手段(対象認識プログラム111など)で処理可能なフォーマット(MPEG2等)に変換されていることを前提とする。映像ソース070から入力された映像データ251は、後述される対象認識プログラム111により、フレーム単位で対象人物や物を認識され、認識フレームデータ252が付加される。更に、後述する認識時間帯判定プログラム112により、フレーム単位の認識データ(認識フレームデータ252)を時間帯毎にまとめた認識時間帯データ253も付加される。
 計算機010は、対象認識プログラム111、認識時間帯判定プログラム112、参照用辞書データ211及び閾値データ212を補助記憶装置013に格納する。対象認識プログラム111及び認識時間帯判定プログラム112は、メモリ012上に読み込まれてプロセッサ(CPU)011によって実行される。参照用辞書データ211及び閾値データ212は、外部記憶装置050に格納してもよい。
 図4を用いて、参照用辞書データ211のデータ構造を説明する。参照用辞書データは、予め対象者あるいは対象物601毎に登録される一つ以上の電子データ(画像)603である。登録された画像は、一般に高速な類似度計算のために予め特徴量602を計算し、ベクトルデータ等に変換する。対象認識プログラム111は、特徴量602のみ扱うため、特徴量計算後は画像を削除してもよい。二つ以上の特徴量がある対象者に対しては、登録番号604を付けて登録する。特徴量は、複数の登録を統合し、単一のデータにまとめて登録することもできる。
 閾値データ212は、対象認識プログラム111で用いられる閾値を保持する。
 更に、計算機020は映像編集プログラム121を有し、プロセッサが映像編集プログラムを実行することによって、映像編集部を構成する。計算機030は映像検索/再生プログラム131を有し、プロセッサが映像検索/再生プログラム131を実行することによって映像検索/再生部を構成する。
 次に、単一の人物のみを映像から検出する場合について、映像情報インデクシング処理の一例を説明する。対象認識プログラム111は、映像データ251に含まれる複数の映像ファイルをメモリ012上に順次読み込む。
 図3に、読み込まれた映像ファイルから認識フレームデータ252を生成する手順(S310)を示す。
 まず、映像ファイル内の全フレーム(あるいは、均等間隔で抽出したフレーム)について(S311)、参照用辞書データ211とのパターンマッチング(あるいは、特徴量比較)を行い、類似度を計算する(S312)。ここで類似度=100は完全に特定人物(又は物)を同定した場合であり、類似度=0は全く似ていない、すなわち異なるものであることを意味する。次に、閾値データ212から閾値1を読み込み、計算された類似度と比較する(S313)。閾値1は、予め設定され、類似度において特定人物か否かを判定する定量的基準値である。
 計算された類似度が閾値1以上であれば特定人物が当該フレームに存在すると判定する(S314)。この場合、単一人物が対象なので、参照用辞書データ構造600を用いて当該単一の対象者(例えば対象者A)の特徴量と比較すればよい。類似度は、認識フレームデータとして外部記憶装置050に格納される。上記S311からS313,S311からS314までのステップを全フレームについて行う。
 図5に、認識フレームデータ252のデータ構造の一例を示す。
 各フレームを時間(634)とともに時間経過に沿って管理する。例えば、フレーム1の時間は7時31分14秒40である。これらのフレーム635のそれぞれについて、検索対象とした検索者(又は検索物)631の登録データとの類似度633を保持する。更に、当該類似度が閾値1以上であるかに応じて認識フラグ632に判定結果を書き込む。認識フラグ632が1とされているフレームは登録データが存在すると判定されたことを意味する。以上の手順を全対象フレームに対して行い、フレームのデータを記録する(S311)。
 次に、認識時間帯判定プログラム112が、生成された認識フレームデータ252を、時系列の類似度の変化を考慮して補正し、認識時間帯データ253を生成する(S330)。
 図6を用いて、認識時間帯データ生成処理の詳細を説明する。まず認識フレームデータ構造630で認識フラグ632が1となっているフレームを抽出し、時系列順に並べる(S331)。次に、抽出された全対象フレームを判定処理の対象として、時系列順に以下の手順を実行する(S332)。
 まず、当該フレームと、S331で判定対象とされた次のフレームとの間の時間634の差分を計算する。この時間差分と閾値データ212から読み込んだ閾値2とを比較する(S333)。そして、時間差分が閾値2より小さい場合、フレームデータを連続するフレームとして補正する(S334)。閾値2は予め設定され、対象者が映り込んでいる連続したフレームと判定することができる最長の時間差を意味する。すなわち、対象者が映り込んでいないフレームがあったとしても、それらのフレームを許容し、ひとまとまりの映像クリップと定義することができる。例えば、図5で、対象者Aについて、1番目のフレームと4番目のフレームの時間差は1秒である。閾値2が5秒である場合、1番目のフレームと4番目のフレームとの間のフレームに対象者Aが連続的に映り込んでいる連続したフレームであると判定して、認識フラグを設定し、認識フレームデータを補正する(図7の651参照)。抽出された全対象フレームに対して、以上の手順を行う(S332)。例えば、ある人が壇上で演説している動画において、観衆にカメラが向けられたシーンが時々挿入されることがある。本処理によれば、対象者が映らないシーンが挿入されている場合でも、1シーンとして認識することが可能となる。
 最後に、補正後の認識フレームデータ252を使って、認識時間帯データ253を生成する(S335)。ここで認識時間帯とは、対象者が映像に映り込んでいる開始時間と終了時間との間の時間である。
 図8に、認識時間帯データ253のデータ構造の一例を示す。対象者671毎に、当該対象者が映っているデータソース672の時間帯673を記録する。これには、認識フレームデータ(補正後)650の認識フラグ632を参照し、フラグが1である連続するフレームの開始時間及び終了時間674を認識時間帯に書き込む(S334)。この際、少ないフレームが連続する場合(例えば、時間にして3秒以内)、映像素材としての利用価値が低いと判断し、認識時間帯に書き込まない処理を実行してもよい。
 この時点の認識時間帯データ253は、対象者(例えば、A)が正面を向いてはっきりと映り込んでいるフレームで開始し、終了する。実際の映像は、対象者が横や下を向いていたり、見切れているフレームを含み、類似度が連続的に上昇及び下降する。このような前後の場面を適切に捉えるために、認識時間帯データ253の補正処理を行う(S350)。具体的には、閾値データ212から閾値3を読み込む。閾値3は閾値1より低い値である。これにより、認識時間帯の前後で閾値1より低いが、一定以上の類似度を持つフレームがあれば、対象者が映り込んでいると判定する。このための、認識時間帯判定プログラム112が、認識フレームデータ(補正後)650の認識フラグ632及び認識時間帯データ253を再度参照し、認識時間帯データ253を補正する。
 図9を用いて、認識時間帯データを補正する手順の詳細を説明する。
 まず、対象者について、認識時間帯データ253から、認識時間帯673を時系列に参照する(S351)。例えば、2番目の認識時間帯の開始時間674であれば、07時39分41秒20の直前の数秒あるいは数フレーム(抽出範囲は予め定義しておく)を認識フレームデータ252から抽出し(S352)、対象者との類似度と閾値3を比較する(S353)。そして、類似度が閾値3より大きい場合、認識フレームデータを連続するフレームとして補正する(S354)。例えば、図5の第6フレーム635は認識時間帯の終端フレーム(07時31分16秒20)に近接するフレームであるが、認識時間帯には含まれない。これに対し、閾値3を閾値1より低く設定した(例えば、50)場合、第6フレームを認識時間帯に含めることができる(図7の652)。
 この結果として、認識時間帯の間のギャップが短くなる場合が発生するため、再度、閾値2を使って、フレームが連続的かを判定し(S355)、認識フレームデータを補正する(S356)。例えば、図5で、前後フレームの判定の結果、第6フレームと第20フレームの認識フラグ(635、636)が1に補正される(図7の652、653)。さらに、閾値2を5秒とした場合、第7フレームと第19フレームは連続する認証時間帯データと判定できるため、図5の637は図7の654のように認識フラグを変更する。この結果、図8の認識時間帯の内、近接するものは、一つの認識時間帯として統合される。上記の手順を全ての認識時間帯に対して行う。
 以上のように、本実施例によれば、特定の対象者又は対象物が認識されたフレームを周辺フレームも含めて一つのシーンとして切り出して、属性情報を付することが可能となる。
 次に、複数の人物を映像から検出する場合について、映像情報インデクシング処理の一例を説明する。基本的には単一人物の検出と同様であるので、特に説明をしない部分は実施例1に記載した処理と同じである。
 図1は、本発明を概念的に示した例である。実施例1で述べたように、閾値1を使って認識フレームの一次検出を行い(S501)、閾値2を使って連続フレームを判定し(S502)、閾値3を使って認識時間帯の前後近接フレームを含めるか判定する(S503)。対象者が複数いる場合には、これらの処理を各対象者について行う。
 図10に全体の処理の流れS400を示す。
 まず、認識フレームデータを生成し、参照用辞書データ211を使って、映像に映り込んでいる複数の対象者を特定する(S401)。これを元に特定された対象者それぞれについて(S402)、実施例1と同様に、認識時間帯データ生成(S330)と認識時間帯データ補正(S350)を行う。結果として生成される認識時間帯データ253には、図8に示すように複数の対象者A、対象者Bについての結果が登録される。すなわち、特定された対象者671のそれぞれについて、どのデータソース672のどの時間帯673に映っていたかを認識時間帯データ253に記録する(S403)。
 図11に複数人検出における認識フレームデータ生成処理(S401)の詳細を示す。
 本処理においては、例えば、基本的に参照用辞書データに存在する全ての対象人物との比較を各フレームで検出された複数の顔領域に対して行うため、処理量が膨大になる。これを回避するために、顔領域の数と検索対象として用いる対象者(図4の601)の数に応じて対象者を絞り込むステップを設けてもよい。例えば、データソース672と関連付けられた電子番組表データ(EPG)等のデータベースとリンクさせ、対象とする番号の出演者の名前を事前に取得する(S411)。そして、取得された名前に対応づけられている対象人物の辞書データを検索対象として用いることによって処理量を大幅に削減できる。
 次に、対象となるデータソース内の全フレームに対し以下の処理を行う(S412)。まず、顔領域を検出する、フレーム内に一つ以上の顔領域が存在しない場合、以下の処理をスキップし、次のフレームの処理に進む(S413でNo)。
 図12に認識フレームデータ構造の例を示す。ここで各静止画について、検出された顔領域の数を同時人数641に書き込む。そして、出演者情報に基づいて絞り込んだ対象人物の其々に関して(S414)、類似度を計算する(S415)。そして、類似度が閾値4より大きい場合(S416でYes)、顔領域が検出された者を対象者pとして認識する(S417)。一つのフレームに複数人が映り込んでいる場合、時間進行の中で人物同士が重なり合う可能性が高く、通常の精度での顔認識に不都合が生じることがある。これを避けるために、同時人数641に応じて、検出のための閾値を下げて顔認識の不安定化リスクを下げることができる(S416)。例えば、同時人数が所定値以上であれば閾値を所定割合少ない値とすればよい。
 図12では、閾値4(642)を用いて、同時人数が1以下の場合は80(閾値1のデフォルト値)、同時人数が2の場合は75、同時人数が3の場合は70、…として認識フラグを設定する例を示す。本構成によって、複数の検索対象それぞれについて、登場するシーンの開始時間及び終了時間を管理することが可能となる。通常の閾値1より低い閾値を用いることによって、例えば、第2及び第3のフレームにおける対象者Aの認識フラグ643を変更することができる。
 複数人物検出の特徴の一つとしては、共演者がセットで番組に出演している場合の映像クリップの抽出が可能なことがある。例えば、対象者A、対象者Bの組合せを対象とした場合、図12の認識フレームデータ252に基づいて対象者A、対象者Bの両方の認識フラグが1であるフレームを抽出し、抽出されたフレームに認識時間帯データ生成330及び認識時間帯データ補正350の処理を行い、対象者A、対象者Bの両方が映り込んでいるフレーム数を登録すればよい。
 図13に、例えば、2者検索対象の組合せについて、当該検索対象が存在されると判定された認識時間帯の数の画面出力例を示す。この静止画数を示す数字691が多いほど共演している回数が多いことが分かる。これらの数字自体が、該当する映像クリップを再生するページへのリンクとなっていてもよい。
 最後に、実施例1、2に共通する構成として、映像検索/再生プログラム131が、生成済みの認識時間帯データ253を参照して、映像を検索する例を説明する。
 図14は、検索画面の例を説明する図である。図14に示す検索画面の例は、計算機020、030に接続される入出力装置を介して実現される。検索したい対象人物の名前をキーワード入力欄701に入力すると、図8に示す認識時間帯データ253の当該対象者671に関連して登録されている認識時間帯のリスト702を表示する。
 図8に示すように、認識時間帯に含まれる一つのフレーム(例えば、一番目のフレーム)をリストに関連付けて表示する映像表示領域703を設けてもよい。参考情報として、認識時間帯内の全フレームについて対象人物の類似度の平均値704を認識フレームデータ252から計算して表示することもできる。この際、平均類似度の高い順にリストを並び替えて表示してもよい。
 参照回数708は、本システムの利用者が当該認識時間帯の映像を再生した回数を示す。再生回数が多い映像は、人気のある映像クリップと判断できるので、再生回数が多い順でリストを並び替えて表示してもよい。
 さらに、リスト702は、映像の再生時間705、元のファイル名を表すデータソース706、認識時間帯(映像クリップ)の開始時間及び終了時間707を含んでもよい。
 図15に映像検索/再生プログラム131を使って認識時間帯映像を再生する画面800の例を示す。
 映像表示領域801には、基本的に検索キーワードで入力した人物802が映り続ける。開始時間803及び終了時間805は、それぞれ、当該認識時間帯の開始時間及び終了時間である。また、認識フレームデータ252を使って、各フレームの類似度の時系列変化806を表示してもよい。映像検索/再生プログラム131が、類似度に応じて再生速度及び/又は再生要否を変更する機能を有してもよい。この機能を使って類似度が低いフレームは映像の表示をスキップしたり、早送りするなどによって、類似度を考慮した効果的な視聴を実現できる。また、各フレームの顔領域検出の情報を使って、当該人物が映っている座標を特定し、当該人物の顔802の近くに名前を表示してもよい。これは複数人が同時に映り込んでいる際の人物認識及び視聴に有効である。
 なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例および同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
 また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
 各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims (5)

  1.  複数の時系列的な静止画から構成される動画像を処理する映像情報処理システムであって、
     前記複数の静止画から検索対象が存在する静止画を、前記検索対象の登録データとの第1の閾値を用いた類似度判定により検出する対象認識部と、
     前記検索対象が存在すると判定された前記静止画の間隔が第2の閾値以下である場合に、前記検索対象が存在すると判定された静止画の間の静止画にも前記検索対象が存在すると判定する時間帯判定部と、を有し、
     前記検索対象が存在すると判定された連続する前記静止画の開始時間及び終了時間を当該検索対象の前記登録データに対応づけて登録することを特徴とする映像情報処理システム。
  2.  前記検索対象が存在すると判定された静止画から時系列上の所定範囲内に含まれる前記静止画については、前記第1の閾値より緩和された第3の閾値を用いて類似度を判定することを特徴とする請求項1に記載の映像情報処理システム。
  3.  前記検索対象が複数である場合、当該複数の検索対象が同時に含まれる前記静止画については、前記第1の閾値より緩和された第4の閾値を用いて類似度を判定することを特徴とする請求項1に記載の映像情報処理システム。
  4.  入力された検索対象に対応づけて登録される前記連続した静止画を出力する再生部を更に有し、
     前記再生部は、前記静止画の各々の前記登録データとの類似度に応じて当該静止画の再生速度及び再生可否の少なくとも一方を変更することを特徴とする請求項1に記載の映像情報処理システム。
  5.  前記動画像に登場する対象のデータを取得し、
     記録された複数の前記登録データの中から、処理すべき動画像に登場する対象の登録データを検索対象の登録データとして用いることを特徴とする請求項1に記載の映像情報処理システム。
PCT/JP2014/081105 2014-01-17 2014-11-25 映像情報処理システム WO2015107775A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201480067782.9A CN105814561B (zh) 2014-01-17 2014-11-25 影像信息处理***
SG11201604925QA SG11201604925QA (en) 2014-01-17 2014-11-25 Video information processing system
US15/102,956 US20170040040A1 (en) 2014-01-17 2014-11-25 Video information processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-006384 2014-01-17
JP2014006384 2014-01-17

Publications (1)

Publication Number Publication Date
WO2015107775A1 true WO2015107775A1 (ja) 2015-07-23

Family

ID=53542679

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/081105 WO2015107775A1 (ja) 2014-01-17 2014-11-25 映像情報処理システム

Country Status (4)

Country Link
US (1) US20170040040A1 (ja)
CN (1) CN105814561B (ja)
SG (1) SG11201604925QA (ja)
WO (1) WO2015107775A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911953A (zh) * 2016-06-02 2017-06-30 阿里巴巴集团控股有限公司 一种视频播放控制方法、装置及视频播放***
CN110197107B (zh) * 2018-08-17 2024-05-28 平安科技(深圳)有限公司 微表情识别方法、装置、计算机设备及存储介质
CN112000293B (zh) * 2020-08-21 2022-10-18 嘉兴混绫迪聚科技有限公司 基于大数据的监控数据保存方法、装置、设备及存储介质
US20230196724A1 (en) * 2021-12-20 2023-06-22 Citrix Systems, Inc. Video frame analysis for targeted video browsing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008252296A (ja) * 2007-03-29 2008-10-16 Kddi Corp 動画像の顔インデックス作成装置およびその顔画像追跡方法
JP2008257425A (ja) * 2007-04-04 2008-10-23 Sony Corp 顔認識装置及び顔認識方法、並びにコンピュータ・プログラム
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法
JP2010021813A (ja) * 2008-07-11 2010-01-28 Hitachi Ltd 情報記録再生装置及び情報記録再生方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4618166B2 (ja) * 2006-03-07 2011-01-26 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
KR100827846B1 (ko) * 2007-10-18 2008-05-07 (주)올라웍스 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템
JP4656454B2 (ja) * 2008-07-28 2011-03-23 ソニー株式会社 記録装置および方法、再生装置および方法、並びにプログラム
JP2011223325A (ja) * 2010-04-09 2011-11-04 Sony Corp コンテンツ検索装置および方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008252296A (ja) * 2007-03-29 2008-10-16 Kddi Corp 動画像の顔インデックス作成装置およびその顔画像追跡方法
JP2008257425A (ja) * 2007-04-04 2008-10-23 Sony Corp 顔認識装置及び顔認識方法、並びにコンピュータ・プログラム
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法
JP2010021813A (ja) * 2008-07-11 2010-01-28 Hitachi Ltd 情報記録再生装置及び情報記録再生方法

Also Published As

Publication number Publication date
US20170040040A1 (en) 2017-02-09
SG11201604925QA (en) 2016-08-30
CN105814561B (zh) 2019-08-09
CN105814561A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
US10297286B2 (en) System and methods to associate multimedia tags with user comments and generate user modifiable snippets around a tag time for efficient storage and sharing of tagged items
WO2021082668A1 (zh) 一种弹幕编辑方法、智能终端及存储介质
Schoeffmann et al. Video interaction tools: A survey of recent work
Truong et al. Video abstraction: A systematic review and classification
US9538116B2 (en) Relational display of images
US20100077289A1 (en) Method and Interface for Indexing Related Media From Multiple Sources
US20100042642A1 (en) System and method for generating media bookmarks
TW201340690A (zh) 視訊推薦系統及其方法
KR20080114786A (ko) 다수의 이미지들 요약의 자동 생성 방법 및 장치
JP5868978B2 (ja) コミュニティベースのメタデータを提供するための方法および装置
US9558784B1 (en) Intelligent video navigation techniques
JP2006155384A (ja) 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US9564177B1 (en) Intelligent video navigation techniques
JP2011234226A (ja) 映像編集装置、映像編集方法及びプログラム
WO2015107775A1 (ja) 映像情報処理システム
KR102592904B1 (ko) 영상 요약 장치 및 방법
US9195312B2 (en) Information processing apparatus, conference system, and information processing method
KR20160021016A (ko) 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
JP6460347B2 (ja) 動画生成装置、動画生成プログラムおよび動画生成方法
US20110231763A1 (en) Electronic apparatus and image processing method
US20240170024A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
TW201414292A (zh) 媒體場景播放系統、方法及其記錄媒體
TW201417571A (zh) 場景的摘要擷取與播放系統、方法及其記錄媒體
KR102079483B1 (ko) 지문들을 변환하여 비인가된 미디어 콘텐츠 아이템들을 검출하기 위한 방법들, 시스템들 및 매체들
JP2003323439A (ja) マルチメディア情報提供方法、装置、プログラム及び該プログラムを格納した記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14878879

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15102956

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14878879

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP