WO2014103673A1 - 情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2014103673A1
WO2014103673A1 PCT/JP2013/082914 JP2013082914W WO2014103673A1 WO 2014103673 A1 WO2014103673 A1 WO 2014103673A1 JP 2013082914 W JP2013082914 W JP 2013082914W WO 2014103673 A1 WO2014103673 A1 WO 2014103673A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving body
area
information processing
video
imaging device
Prior art date
Application number
PCT/JP2013/082914
Other languages
English (en)
French (fr)
Inventor
亮磨 大網
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014554282A priority Critical patent/JP6292540B2/ja
Publication of WO2014103673A1 publication Critical patent/WO2014103673A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19608Tracking movement of a target, e.g. by detecting an object predefined as a target, using target direction and or velocity to predict its new position
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19639Details of the system layout
    • G08B13/19645Multiple cameras, each having view on one of a plurality of scenes, e.g. multiple cameras for multi-room surveillance or for tracking an object by view hand-over

Definitions

  • Some aspects according to the present invention relate to an information processing system, an information processing method, and a program.
  • Patent Document 1 discloses an apparatus that can appropriately perform tracking (monitoring) of a person across cameras using connection relationship information between cameras. This apparatus obtains the correspondence between persons according to the similarity of the person feature amount between a point appearing in the camera field of view (In point) and a point disappearing from the camera field of view (Out point).
  • Some aspects of the present invention have been made in view of the above-described problems, and provide an information processing system, an information processing method, and a program capable of suitably estimating a correspondence relationship between persons related to a plurality of photographing apparatuses. This is one of the purposes.
  • An information processing system includes an input unit that receives input of images captured by a plurality of imaging devices, and a moving body that is displayed on an image captured by a first imaging device of the plurality of imaging devices. And whether the moving body in the appropriate area where the feature amount extraction is superior to the other area in the video imaged by the second imaging apparatus among the plurality of imaging apparatuses is the same moving body And determining means for determining whether or not according to the similarity of the feature amount.
  • One information processing method includes a step of receiving input of images shot by a plurality of shooting devices, and a moving body reflected in a video shot by a first shooting device of the plurality of shooting devices. Depending on the degree of similarity, it is determined whether or not the moving body in the predetermined appropriate area in the video imaged by the second imaging apparatus among the plurality of imaging apparatuses is the same moving body.
  • the information processing system performs the step of determining.
  • One program according to the present invention includes: a process of receiving input of images shot by a plurality of shooting devices; a moving body reflected in a video shot by a first shooting device of the plurality of shooting devices; It is determined according to the degree of similarity whether or not the moving body in the predetermined appropriate area in the video imaged by the second imaging apparatus among the plurality of imaging apparatuses is the same moving body. Causes the computer to execute the process.
  • An information processing system includes an input unit that receives input of images captured by a plurality of imaging devices, and a first image that is displayed on an image captured by a first imaging device of the plurality of imaging devices. Whether or not the moving body is similar to the second moving body shown in the video photographed by the second photographing device among the plurality of photographing devices. And a discriminating means for discriminating when the second moving body enters an appropriate area that can be discriminated more appropriately than other areas.
  • the first information processing method includes a step of receiving input of images shot by a plurality of shooting devices, and a first image reflected on a video shot by a first shooting device of the plurality of shooting devices. Whether or not the moving body is similar to the second moving body shown in the video shot by the second shooting device among the plurality of shooting devices, in the video shot by the second shooting device.
  • the information processing system performs a step of discriminating when the second moving body enters an appropriate region that can be discriminated more appropriately than other regions.
  • One program according to the present invention includes a process of receiving input of images shot by a plurality of shooting devices, and a first moving body that is displayed in a video shot by a first shooting device of the plurality of shooting devices. Whether or not the second moving body reflected in the video shot by the second shooting device among the plurality of shooting devices is similar in the video shot by the second shooting device. And a process for determining when the second moving body enters an appropriate area that can be determined more appropriately than the area.
  • “part”, “means”, “apparatus”, and “system” do not simply mean physical means, but “part”, “means”, “apparatus”, “system”. This includes the case where the functions possessed by "are realized by software. Further, even if the functions of one “unit”, “means”, “apparatus”, and “system” are realized by two or more physical means or devices, two or more “parts” or “means”, The functions of “device” and “system” may be realized by a single physical means or device.
  • an information processing system an information processing method, and a program capable of suitably estimating the correspondence between persons related to a plurality of photographing devices.
  • FIG. 1st Embodiment It is a figure which shows schematic structure of the monitoring system which concerns on 1st Embodiment. It is a figure which shows the specific example of a picked-up image. It is a functional block diagram which shows the function structure of the monitoring system shown in FIG. It is a flowchart which shows the flow of a process of the information processing server shown in FIG. It is a block diagram which shows the structure of the hardware which can mount the information processing server shown in FIG. It is a functional block diagram which shows the function structure of the monitoring system which concerns on 2nd Embodiment. It is a flowchart which shows the flow of a process of the information processing server shown in FIG. It is a functional block diagram which shows schematic structure of the monitoring apparatus which concerns on 3rd Embodiment.
  • FIG. 1 is a block diagram showing a system configuration of the monitoring system 1.
  • the monitoring system 1 is broadly divided into an information processing server 100 and a plurality of video cameras 200 (video cameras 200A to 200N are collectively referred to as video cameras 200) that capture (capture) video (moving images). Composed.
  • the monitoring system 1 is described as a system for monitoring a person photographed by the video camera 200, the monitoring target is not limited to this.
  • the monitoring target is not limited to this.
  • it may be a moving object (object / moving body) such as a car or a motorcycle.
  • the video camera 200 shoots a video and determines whether or not there is a person in the shot video, and then transmits information such as a position and a feature amount related to the person to the information processing server 100 together with the shot video. Send.
  • the video camera 200 can also track a person in the captured video.
  • processes such as person detection, feature extraction, and person tracking in the camera may be performed on the information processing server 100 or other information processing apparatus (not shown). In the following description, it is assumed that the video camera 200 performs these processes.
  • the information processing server 100 performs various processes such as detection of a person, registration of a person to be tracked, and tracking of a registered person by analyzing video captured by the video camera 200.
  • the storage device For example, it is possible to monitor (analyze) video stored in an HDD (Hard Disk Drive), a VCR (Video Cassette Recorder), etc. Further, the video stored in the storage device is played back in reverse order ( It is also possible to monitor the reversely-played video after the reverse playback. In general, if a person takes a suspicious action, what action the person takes before the action is taken. It is extremely effective to have such monitoring means by reverse regeneration.
  • HDD Hard Disk Drive
  • VCR Video Cassette Recorder
  • the information processing server 100 In the person monitoring by the information processing server 100, the information processing server 100 outputs, for example, a monitoring screen to a display device (not shown), and information such as whether or not a person registered as a tracking target person appears on the video. Can be output to the monitoring screen. For this reason, the information processing server 100 determines whether a person photographed by a certain video camera 200 (for example, a person registered as a tracking target) is the same as a person photographed by another video camera 200. It has a function (function to determine the correspondence between persons). It should be noted that the information processing server 100 may output whether or not a person registered as a person to be tracked appears on the video by a sound output means (not shown). It is not limited.
  • One of the methods is, for example, a person image associated with each person.
  • a method is conceivable in which a feature amount is extracted, and when the feature amount similarity exceeds a threshold, it is determined that they are the same person.
  • the information processing server 100 extracts a feature amount when the area suitability in an image captured by the video camera 200 is in a region (also referred to as an appropriate region) higher than other regions. Based on the feature amount, it is determined whether or not they are the same person.
  • FIG. 2 is a diagram showing a specific example of the video image 20 taken by the video camera 200. It is assumed that the photographed video 20 in FIG. 2 shows a person P and the person P is moving in the traveling direction a. Here, the peripheral region 22 of the video 20 is likely to cause variations in the feature amount of the person P due to, for example, the position where the person P can easily change the traveling direction or the lighting is dim. It is assumed that the area is not suitable. In such a situation, the information processing server 100 according to the present embodiment recognizes the area 21 as an appropriate area suitable for feature amount extraction, and the association process is performed while the person P is in the peripheral area 22. Hold on.
  • the feature amount is extracted from the person image related to the person P, and the degree of similarity with the moving body reflected in the video captured in the past is determined, and then the person association is performed. I do.
  • the determination result is obtained by performing similarity determination using the feature amount (feature amount considered to be low in accuracy) of the person image related to the person P. It is also conceivable that the person is associated according to, and then the person is associated again when the person P moves to the area 21. In the following description, it is assumed that the person is associated again after moving to the area 21 after performing the temporary association in the area 22.
  • the information processing server 100 divides the video captured by each video camera 200 into a plurality of areas, and each of these areas is an area suitable for feature amount extraction. It has a function to evaluate whether or not. There may be a plurality of methods for determining the appropriate area 21, but for example, after associating persons who can be reliably associated with each other between the video cameras 200, changes in the feature amount extracted from the person image related to the person By learning the above, it is conceivable that a region where a feature amount having a high degree of similarity with the feature amount of a person image related to another video camera 200 can be extracted as the appropriate region 21 having a high area appropriateness level.
  • the region 21 is present.
  • whether or not the region is the appropriate region 21 is determined by comparing the feature amounts acquired in each region, and whether or not the similarity between the feature amounts is sufficient for determining the same person. It can be determined by examining. Specifically, if the degree of similarity of the feature values extracted in each region is equal to or greater than a certain threshold value, it can be determined as the appropriate region 21.
  • a reference feature amount for example, a reference color in the case of a color feature
  • a feature amount acquired in a certain region is compared with a feature amount acquired in a certain region, and this similarity is sufficiently high (for example, a certain threshold or more)
  • this similarity is sufficiently high (for example, a certain threshold or more)
  • the area can be determined as the appropriate area 21.
  • the learning for identifying the appropriate area 21 may be performed by walking a person having various feature amounts when installing the system, or the person is surely in operation after the system is installed. You may be made to learn in the situation where this matching is possible. Whether or not the association can be surely performed may be automatically determined (for example, the number of moving persons is counted and it is determined that the association is possible in the case of one person), or the operator may specify manually. Good.
  • the appropriateness for each area has two levels (whether or not it is the appropriate area 21) will be described, but the appropriateness may be set in a plurality of stages. In this case, the determination may be made again when the object moves to a region with a higher degree of appropriateness, and the other operations are basically the same as in the case of two stages.
  • the determination of the appropriateness for each area may be switched according to time or the like. For example, when the lighting conditions change between day and night, the appropriateness may be obtained for each lighting condition, and the appropriateness may be switched when the lighting conditions are switched. This may be switched automatically according to time, or may be switched automatically upon detection of a change in illumination conditions. This can be determined by detecting whether the brightness or color value of a specific area has changed. At this time, if it is determined that the illumination condition is other than the illumination condition for which the appropriateness has already been obtained, the appropriateness for the illumination condition may be learned and registered on the spot. This appropriateness can be used when the same illumination condition is obtained thereafter.
  • the appropriateness may be switched according to changes in conditions such as white balance of the video camera. This switching is the same as in the case of the change in the illumination conditions described above.
  • the monitoring system 1 includes an image acquisition unit 101 (the image acquisition units 101A to 101N are collectively referred to as an image acquisition unit 101), an object detection / tracking unit 110 (an object detection / tracking unit 110A to 110A). 110N is collectively referred to as object detection / tracking unit 110.), object tracking information DB (database) 120, next camera prediction unit 130, camera arrangement information 140, area appropriateness calculation unit 150, area appropriateness information 160, A relationship prediction unit 170 is included.
  • object tracking information DB database
  • the image acquisition unit 101 acquires a captured video when the video camera 200 captures an actual scene. Alternatively, after an image captured by the video camera 200 is recorded (recorded) in a storage device such as an HDD, an image is acquired by reproducing the image (in the case of a VCR, capturing the reproduced analog signal).
  • reproduction means decoding the encoded moving image data (video data) to generate the original picture (frame) data, and displaying the generated result on the display screen is the reproduction.
  • the playback speed need not be an actual speed (recorded actual speed), and if possible, playback (decoding) may be performed faster than the real time.
  • all video frames are not decoded and reproduced while skipping frames.
  • an encoding method such as MPEG-2
  • there are I, P, and B pictures in the video data Of these, only I pictures or I pictures and P pictures are included. Only may be decrypted.
  • the object detection / tracking unit 110 includes an object detection unit 111 (the object detection units 111A to 111N are collectively referred to as an object detection unit 111), and an object tracking unit 113A (the object tracking units 113A to 113N are collectively referred to as an object tracking unit). And an object feature amount extraction unit 115 (the object feature amount extraction units 115A to 115N are collectively referred to as an object feature amount extraction unit 115).
  • the object detection / tracking unit 110 detects a person as an object from the video (moving image) acquired by each of the image acquisition units 101 in the object detection unit 111, and also detects an object detection unit in the object feature amount extraction unit 115.
  • the feature amount related to the person is calculated from the person region (person image) detected by the person 111. More specifically, for example, after extracting a person by a background difference method that takes a difference between a previously generated background image and a frame image, a detector that has learned features such as the person and the shape of a part thereof is extracted. It is possible to extract a person by applying to the person area.
  • the feature amount of the person for example, the color of the clothes or the feature of the pattern worn by the person can be extracted in the form of a color histogram or an edge histogram.
  • the object tracking unit 113 tracks each person extracted as an object within the same angle of view (within the same video taken by one video camera 200) by comparing time-series images (frames). Then, object tracking information (time series data of the position of the person as the object and the feature amount information) is generated for each detected / tracked person. For tracking a person between frames, for example, tracking using a mean shift method or tracking using a particle filter may be used.
  • the object tracking unit 115 stores the generated object tracking information in the object tracking information DB 120 and outputs it to the next camera prediction unit 130.
  • the next camera prediction unit 130 obtains the next image from the object tracking information generated by the object tracking unit 113 and the camera arrangement information 140 when the person goes out of the angle of view of the video (out of frame). In addition to predicting whether there is a high possibility of appearing in the video acquired by the unit 101, next camera prediction information indicating the result is generated.
  • the camera arrangement information 140 is information describing a spatial positional relationship between a plurality of arranged video cameras 200. Specifically, for example, the adjacency relation between the video cameras 200, the inter-video camera 200, or the like. Information (or the average time required for movement between the video cameras 200). The adjacency information is described in association with the angle of view of the video camera 200.
  • the next camera prediction unit 130 can select the adjacent video camera 200 (that is, the video camera 200 in which the person may appear) according to the direction in which the person frames out.
  • the next camera prediction information generated by the next camera prediction unit 130 includes the result of calculating the appearance probability of the person, the predicted appearance position within the angle of view, and the predicted appearance time for each image acquisition unit 101 (for each video camera 200), Are generated for each person to be tracked. For example, when the person A is reflected in the camera 01 and is out of the frame in the direction of the camera 02, when the prediction is performed using the average movement time between the cameras, the time obtained by adding the average movement time to the frame out time is The appearance probability can be calculated using the largest probability distribution. At this time, instead of using the average moving time, the time to reach the camera 02 is predicted by calculating the moving speed before the frame out from the tracking result of the camera 01, and the probability distribution is calculated based on the time. You may do it.
  • various shapes such as a Gaussian distribution can be used as the probability distribution.
  • the information related to the variation can be obtained as a data by measuring in advance, or can be obtained by a method of newly learning and generating from information on correspondence between persons by the user. If there is a video camera 200 adjacent to the camera 01 other than the camera 02, the possibility of a person moving in the direction of each adjacent camera is estimated, and this value is multiplied by the appearance probability. The probability may be calculated. For this estimation, a result measured in advance can be used.
  • the correspondence relationship prediction unit 170 For each person (object / moving body), the correspondence relationship prediction unit 170 includes the feature amount included in the next camera prediction information, and the feature amount of the person detected in the video of the video camera 200 that may appear next.
  • the distance between the feature quantities is smaller than the threshold (or the similarity between the feature quantities is higher than the threshold)
  • the persons are associated with each other as being the same person, and the association information is Output.
  • the correspondence relationship prediction unit 170 refers to the area appropriateness information DB 160 in the video of the video camera 200, and the person is positioned on the appropriate region 21 whose area appropriateness is higher than other regions.
  • the person is associated using the feature amount in the case of
  • the correspondence information created by the correspondence relationship prediction unit 170 can be processed as necessary and displayed as a person tracking information on a display device (not shown) to the user.
  • the area appropriateness calculation unit 150 divides each video acquired by each image acquisition unit 101 into a plurality of regions, and determines whether or not each region is a region suitable for extracting a feature amount of a person.
  • the area suitability which is a measure to be shown, is calculated.
  • this calculation method for example, as described above, after associating persons who can be reliably associated with each other between the video cameras 200 (for example, when there is only one person who may appear) Or when the supervisor inputs the correspondence relationship of the person manually), by learning the change in the feature value extracted from the person image related to the person, the feature value of the person image related to the other video camera 200 It is conceivable to set / calculate the area appropriateness so that the value of the region where the feature amount having a high similarity can be extracted becomes high.
  • the area appropriateness calculated by the area appropriateness calculating unit 150 is stored in the area appropriateness information DB 160 and then referred to by the correspondence prediction unit 170.
  • FIG. 4 is a flowchart showing a processing flow of the information processing server 100 according to the present embodiment.
  • Each processing step to be described later can be executed in any order or in parallel as long as there is no contradiction in processing contents, and other steps can be added between the processing steps. good. Further, a step described as a single step for convenience can be executed by being divided into a plurality of steps, and a step described as being divided into a plurality of steps for convenience can be executed as one step.
  • the object detection unit 111 detects whether or not a person as a detection target object is reflected in the image acquired by the image acquisition unit 101 (S401).
  • the object feature amount extraction unit 115 calculates the feature amount of the person, and the feature amount is included in the object tracking information DB 120 along with the person tracking result by the object tracking unit 113. (S403).
  • the feature amount registered in the object tracking information DB 120 is preferably a feature amount extracted when a person is present in the appropriate area 21 related to the image acquisition unit 101.
  • the object tracking unit 113 detects a frame-out from the video of the person (S405)
  • the next camera prediction unit 130 based on the object tracking information received from the object tracking unit 113 and the camera arrangement information 140, It is predicted which image acquisition unit 101 is likely to appear next in the video of the tracking target person who is out of frame from the video acquired by the image acquisition unit 101 (S407).
  • the correspondence prediction unit 170 determines that the position of the person is Then, it is determined whether or not it is within the appropriate area 21 related to the image acquisition unit 101 (S411). If the detected position of the person is within the appropriate area 21 (Yes in S411), the correspondence prediction unit 170 extracts the feature amount extracted within the appropriate area 21 and the characteristics of the person photographed by the camera A. It is determined whether or not the two persons are the same person (whether or not the persons correspond) by comparing the quantities and calculating the degree of similarity (S413).
  • the feature amount detected in the area is compared with the feature quantity of the person photographed by the camera A. Temporary association is determined (S415). Thereafter, when the person moves to the appropriate area 21 having a high area appropriateness (Yes in S417, No in S419, Yes in S411), the determination of the association is performed using the movement amount extracted at the position of the appropriate area 21. (S413).
  • the information processing server 100 includes a processor 501, a memory 503, a storage device 505, an input interface (I / F) 507, a data I / F 509, a communication I / F 511, and a display device 513.
  • a processor 501 the information processing server 100 includes a processor 501, a memory 503, a storage device 505, an input interface (I / F) 507, a data I / F 509, a communication I / F 511, and a display device 513.
  • the processor 501 controls various processes in the information processing server 100 by executing a program stored in the memory 503. For example, the processes related to the next camera prediction unit 130, the correspondence relationship prediction unit 170, and the area appropriateness calculation unit 150 described in FIG. 3 are temporarily stored in the memory 503 and then run mainly on the processor 501. It is feasible as
  • the memory 503 is a storage medium such as a RAM (Random Access Memory).
  • the memory 503 temporarily stores a program code of a program executed by the processor 501 and data necessary for executing the program. For example, a stack area necessary for program execution is secured in the storage area of the memory 503.
  • the storage device 505 is a nonvolatile storage medium such as an HDD, a flash memory, or a VCR.
  • the storage device 505 includes various programs for realizing the operating system, the next camera prediction unit 130, the correspondence relationship prediction unit 170, and the area appropriateness calculation unit 150, the object tracking information DB 120, the camera arrangement information 140, and the area appropriateness.
  • Various data including the information DB 160 is stored.
  • Programs and data stored in the storage device 505 are referred to by the processor 501 by being loaded into the memory 103 as necessary.
  • the input I / F 507 is a device for receiving input from the user.
  • Specific examples of the input I / F 107 include a keyboard, a mouse, a touch panel, and various sensors.
  • the input I / F 107 may be connected to the information processing server 100 via an interface such as a USB (Universal Serial Bus), for example.
  • USB Universal Serial Bus
  • the data I / F 509 is a device for inputting data from outside the information processing server 100.
  • Specific examples of the data I / F 509 include a drive device for reading data stored in various storage media.
  • the data I / F 509 is connected to the information processing server 100 via an interface such as a USB.
  • the communication I / F 511 is a device for performing data communication with a device external to the information processing server 100, such as a video camera 200, by wire or wireless. It is conceivable that the communication I / F 511 is provided outside the information processing server 100. In this case, the communication I / F 511 is connected to the information processing server 100 via an interface such as a USB.
  • the display device 513 is a device for displaying various information such as a monitoring screen.
  • the display device 513 may display the monitoring video illustrated in FIG.
  • Specific examples of the display device 513 include a liquid crystal display and an organic EL (Electro-Luminescence) display.
  • the display device 513 may be provided outside the information processing server 100. In that case, the display device 513 is connected to the information processing server 100 via, for example, a display cable.
  • the monitoring system 1 when tracking a person (object / moving body) to be tracked (monitored object), the correspondence of the person using the feature amount of the person to be tracked is used. Seeking a relationship. At this time, since a suitable feature amount may not be extracted depending on the position in the video due to the influence of lighting or the like, the monitoring system 1 according to this embodiment defines an appropriate region 21 suitable for feature amount extraction. Thus, the correspondence between the persons is estimated by using the feature amount when there is a person in the appropriate area 21. Thereby, it is possible to estimate a suitable correspondence between persons.
  • the provisional correspondence is estimated using the feature amount outside the appropriate area 21. Therefore, even if a person does not enter the appropriate area 21, the correspondence can be estimated.
  • FIGS. 6 and 7 are diagrams for explaining the second embodiment.
  • the second embodiment will be described focusing on differences from the first embodiment.
  • the same components as those in the first embodiment are denoted by the same reference numerals as those in the first embodiment and description thereof is omitted.
  • description of the same function and effect as in the first embodiment is also omitted.
  • the outline of the system configuration is the same as that of the first embodiment shown in FIG. Further, a specific example of a hardware configuration capable of mounting the information processing server 100 according to the present embodiment is the same as that of the first embodiment. Therefore, the description about these is abbreviate
  • the information processing server 100 calculates correction information for extracting feature amounts for each area, and uses the correction information. Thus, it has a function of correcting the feature amount extracted from the person image.
  • the monitoring system 1 according to the second embodiment includes a correction information generation unit 180 and a correction information DB 190 in addition to the functions of the monitoring system 1 according to the first embodiment. Since the operation of the function of the monitoring system 1 according to the first embodiment is the same as that of the first embodiment in the second embodiment, the description thereof is omitted here.
  • the correction information generation unit 180 is used when the object feature amount extraction unit 115 extracts a feature amount in each region in the video acquired by the image acquisition unit 101 according to the area appropriateness calculated by the area appropriateness calculation unit 150. Generate correction information. More specifically, if the brightness information is corrected, the brightness correction value, the white balance is corrected, the gain value of each RGB channel, or the entire color tone is corrected.
  • the correction information generation unit 180 generates a correction conversion formula (for example, RGB affine conversion parameters). These correction information are calculated in association with coordinates for each camera.
  • correction information DB 190 is a database for storing the correction information generated by the correction information generation unit 180 for each area of each video.
  • the object feature quantity extraction unit 115 can correct the raw feature quantity extracted for the detected person using the correction information by referring to the correction information DB 190. . Thereby, even if the person P is not in the appropriate region 21, a suitable feature amount can be calculated, so that it is possible to improve the accuracy of the provisional correspondence estimation described in the first embodiment. It becomes.
  • the area appropriateness calculation unit 150 calculates the area appropriateness for each region in the video related to each video camera 200 as necessary (S701). There are a plurality of timings for calculating the appropriateness of the area. For example, when a person with a clear relationship between persons is detected, it is possible to calculate the appropriateness of the area using the change in the feature amount of the person as learning data. .
  • the correction information generation unit 180 generates correction information according to the area appropriateness in each area calculated by the area appropriateness calculating unit 150 (S703).
  • a parameter (correction amount) that can statistically fill in the difference between the most suitably extracted feature amount and the feature amount actually extracted in each region is used as the correction information. It is possible to do.
  • the information processing server 100 requests the object detection / tracking unit 110 to correct the feature amount using the correction information. More specifically, the object feature amount extraction unit 115 corrects the feature amount extracted from the video after that according to the correction information acquired from the correction information DB 190, and uses the corrected feature amount as the object tracking unit 113. Output to. Thereby, even if it is not the appropriate area
  • FIG. 8 is a block diagram illustrating a functional configuration of the monitoring apparatus 800 that is an information processing system.
  • the monitoring device 800 includes an input unit 810 and a determination unit 820.
  • the input unit 810 can receive an image captured by a video camera (imaging device) (not shown).
  • the discriminating unit 820 includes a moving body reflected in an image captured by a certain video camera (first imaging device) and an image captured by another video camera (second imaging device) including the video camera. It is determined according to the similarity of the feature quantity whether or not the moving object in the appropriate area that is superior in feature quantity extraction than the other areas is the same moving object.
  • specific examples of the moving body include a human, a car, a bicycle, a motorcycle, and the like.
  • the monitoring device 800 it is possible to suitably estimate the correspondence between persons related to a plurality of imaging devices.
  • Input means for receiving input of images captured by a plurality of imaging devices, a moving body reflected in an image captured by a first imaging device of the plurality of imaging devices, and a first of the plurality of imaging devices In accordance with the similarity of feature quantities, whether or not a moving body in an appropriate area that is superior to other areas in the video captured by the image capturing apparatus 2 is the same moving body.
  • An information processing system provided with a discriminating means for discriminating.
  • each area in the video further includes a calculation unit that calculates an area appropriateness for extracting the feature amount of the moving object, and the appropriate area is an area having a higher area appropriateness than other areas in the video.
  • An information processing system according to 1.
  • Appendix 3 The information processing system according to appendix 2, wherein the calculating means statistically calculates the area appropriateness in each region in the video according to a change in the feature amount according to the movement of the moving body in the video.
  • the determining means determines whether or not the moving body in the region other than the appropriate region in the video imaged by the second imaging device is the same as the moving body imaged by the first imaging device. When the moving body imaged by the second imaging device moves to the appropriate area, the moving body is again the same as the moving object imaged by the first imaging device.
  • the information processing system according to any one of appendix 1 to appendix 4, which determines whether or not.
  • the calculation means calculates an area appropriateness in each region in the video under a plurality of different conditions, and the determination means includes an area corresponding to the condition among the plurality of area appropriateness calculated by the calculation means.
  • the information processing system according to any one of appendix 2 to appendix 5, wherein it is determined whether or not they are the same mobile body using the appropriate area determined by the appropriateness.
  • the information processing system performs a step of determining, based on similarity, whether or not a moving body in a predetermined appropriate area in a video imaged by the imaging device is the same moving body Processing method.
  • the method further includes a step of calculating an area appropriateness for extracting the feature amount of the moving object in each area in the video, wherein the appropriate area is an area having a higher area appropriateness than other areas in the video.
  • Appendix 10 The information processing method according to appendix 9, wherein the area appropriateness in each region in the video is statistically calculated according to a change in the feature amount according to the movement of the moving body in the video.
  • Appendix 11 The information processing method according to any one of appendices 8 to 10, further comprising a step of generating correction information for correcting the feature amount for calculating the similarity of the moving object for each region.
  • Appendix 14 14. The information processing method according to any one of appendix 8 to appendix 13, wherein a result of determination as to whether or not the mobile unit is the same is notified.
  • Appendix 15 A process of receiving input of videos shot by a plurality of shooting devices, a moving body reflected in a video shot by a first shooting device of the plurality of shooting devices, and a second of the plurality of shooting devices.
  • the program which makes a computer perform the process which discriminate
  • Appendix 17 The program according to appendix 16, wherein, in the calculation process, the area appropriateness in each area in the video is statistically calculated according to a change in a feature amount according to movement of a moving object in the video.
  • Appendix 18 The program according to any one of appendix 15 to appendix 17, further causing a process of generating correction information for correcting a feature amount for calculating a similarity of a moving object for each region.
  • Appendix 21 21.
  • An input unit that receives input of videos shot by a plurality of shooting devices, a first moving body that is reflected in a video shot by a first shooting device of the plurality of shooting devices, and a plurality of shooting devices. Whether or not the second moving body reflected in the video imaged by the second imaging device is similar can be determined more appropriately than the other areas in the video imaged by the second imaging device.
  • An information processing system comprising: discrimination means for discriminating when the second moving body enters a proper appropriate area.
  • Appendix 23 The information processing system according to appendix 22, further comprising display means for displaying the appropriate area so as to be visible.
  • a step of receiving input of images taken by a plurality of imaging devices; a first moving body reflected in an image taken by a first imaging device of the plurality of imaging devices; and among the plurality of imaging devices Whether or not the second moving body reflected in the video shot by the second imaging device is similar can be determined more appropriately than in other areas in the video shot by the second imaging device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】複数の撮影装置に係る人物の対応関係を好適に推定することのできる情報処理システム、情報処理方法及びプログラムを提供する。 【解決手段】複数の撮影装置で撮影された映像の入力を受けるオブジェクト検出・追跡部110と、複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、他の領域よりも特徴量抽出に優れた適正領域にある移動体とが、同一の移動体であるか否かを特徴量の類似度に応じて判別する対応関係予測部170とを備える。

Description

情報処理システム、情報処理方法及びプログラム
 本発明に係るいくつかの態様は、情報処理システム、情報処理方法及びプログラムに関する。
 近年、複数のビデオカメラ(撮影装置)で撮影した映像を利用して広範囲にわたる監視を行うシステムが考えられている。例えば特許文献1は、カメラ間の連結関係情報を用いてカメラ間にまたがる人物の追尾(モニタリング)を適切に行うことのできる装置を開示している。この装置は、カメラ視野に出現した点(In点)と、カメラ視野から消失した点(Out点)における人物特徴量の類似度に応じて、人物の対応関係を求める。
特開2008-219570号公報
 しかしながら、特許文献1記載の手法のようなカメラ視野に出現した点やカメラ視野から消失した点での人物特徴量を抽出する手法では、好適な特徴量抽出を行えないために、人物の対応関係を好適に求められない可能性がある。例えば、カメラ視野に出現した点やカメラ視野から消失する点の照明条件が逆光の場合には、色などの各種特徴を好適に抽出することができないため、対応関係の評価を誤る可能性がある。
 本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、複数の撮影装置に係る人物の対応関係を好適に推定することのできる情報処理システム、情報処理方法及びプログラムを提供することを目的の1つとする。
 本発明に係る1の情報処理システムは、複数の撮影装置で撮影された映像の入力を受ける入力手段と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、他の領域よりも特徴量抽出に優れた適正領域にある移動体とが、同一の移動体であるか否かを特徴量の類似度に応じて判別する判別手段とを備える。
 本発明に係る1の情報処理方法は、複数の撮影装置で撮影された映像の入力を受けるステップと、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、予め定められた適正領域にある移動体とが、同一の移動体であるか否かを類似度に応じて判別するステップとを情報処理システムが行う。
 本発明に係る1のプログラムは、複数の撮影装置で撮影された映像の入力を受ける処理と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、予め定められた適正領域にある移動体とが、同一の移動体であるか否かを類似度に応じて判別する処理とをコンピュータに実行させる。
 本発明に係る1の情報処理システムは、複数の撮影装置で撮影された映像の入力を受ける入力手段と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別する判別手段とを備える。
 本発明に係る1の情報処理方法は、複数の撮影装置で撮影された映像の入力を受けるステップと、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別するステップとを情報処理システムが行なう。
 本発明に係る1のプログラムは、複数の撮影装置で撮影された映像の入力を受ける処理と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別する処理とをコンピュータに実行させる。
 なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されても良い。
 本発明によれば、複数の撮影装置に係る人物の対応関係を好適に推定することのできる情報処理システム、情報処理方法及びプログラムを提供することができる。
第1実施形態に係る監視システムの概略構成を示す図である。 撮影映像の具体例を示す図である。 図1に示す監視システムの機能構成を示す機能ブロック図である。 図1に示す情報処理サーバの処理の流れを示すフローチャートである。 図1に示す情報処理サーバを実装可能なハードウェアの構成を示すブロック図である。 第2実施形態に係る監視システムの機能構成を示す機能ブロック図である。 図6に示す情報処理サーバの処理の流れを示すフローチャートである。 第3実施形態に係る監視装置の概略構成を示す機能ブロック図である。
 以下に本発明の実施形態を説明する。以下の説明及び参照する図面の記載において、同一又は類似の構成には、それぞれ同一又は類似の符号が付されている。
 (1 第1実施形態)
 図1乃至図5は、第1実施形態を説明するための図である。以下、これらの図を参照しながら、以下の流れに沿って本実施形態を説明する。まず、「1.1」でシステム構成の概略を示すと共に、第1実施形態全体の概要を示す。その上で、「1.2」でシステムの機能構成を説明し、「1.3」で処理の流れを説明する。「1.4」では、本システムを実現可能なハードウェア構成の具体例を示す。最後に「1.5」以降で、本実施形態に係る効果などを説明する。
 (1.1 システム構成及び概要)
 図1を参照しながら、本実施形態に係る情報処理システムである監視システム1のシステム構成を説明する。図1は、監視システム1のシステム構成を示すブロック図である。
 監視システム1は、大きく分けて、情報処理サーバ100と、映像(動画像)を撮影(撮像)する複数のビデオカメラ200(ビデオカメラ200A乃至200Nを総称してビデオカメラ200と呼ぶ。)とから構成される。
 以下、監視システム1は、ビデオカメラ200で撮影された人物を監視するためのシステムであるものとして説明するが、監視対象はこれに限られるものではない。例えば、クルマやバイク等の移動する物体(オブジェクト/移動体)であっても良い。
 ビデオカメラ200は、映像を撮影すると共に、当該撮影した映像内に人物がいるか否かを判別した上で、当該人物に係る位置や特徴量などの情報を、撮影映像と共に情報処理サーバ100へと送信する。また、ビデオカメラ200は、撮影した映像内の人物追跡も行うことができる。
 なお、人物の検出や特徴量の抽出、カメラ内の人物追跡などの処理は、例えば情報処理サーバ100や、図示しない他の情報処理装置上で行なっても良い。以下では、ビデオカメラ200がこれらの処理を行うものとして説明する。
 情報処理サーバ100は、ビデオカメラ200で撮影された映像を解析することにより、人物の検出や、追跡する人物の登録、登録された人物の追跡などの各種処理を行う。
 なお、以下ではビデオカメラ200により撮影されるリアルタイムの映像を元に人物監視を行う場合を中心に説明するが、これに限られるものではなく、例えば、ビデオカメラ200により撮影された後、記憶装置(例えば、HDD(Hard Disk Drive)やVCR(Video Cassette Recorder)などに記憶された映像を対象に監視(分析)することも考えられる。更に、当該記憶装置に記憶された映像を逆順に再生(逆再生)した上で、当該逆再生した映像を対象に監視することも考えられる。通常、ある人物が不審な行動を取った場合には、その人物がその行為までにどのような行動を取ったかを調べる必要があるため、このような逆再生による監視手段を持つことは極めて有効である。
 情報処理サーバ100による人物監視において、情報処理サーバ100は、例えば図示しない表示装置に監視用の画面を出力すると共に、追跡対象の人物として登録された人物が映像上に現れたか否か等の情報を、当該監視用画面に出力することが可能である。このため、情報処理サーバ100は、あるビデオカメラ200で撮影された人物(例えば、追跡対象として登録された人物)が他のビデオカメラ200で撮影された人物と同一であるか否かを判別する機能(人物の対応関係を判別する機能)を有する。
 なお、情報処理サーバ100は、追跡対象の人物として登録された人物が映像上に現れたか否か等を、図示しない音出力手段によって音で出力しても良く、監視者への報知の方法は限定されない。
 映像上の人物が他のビデオカメラ200で撮影された人物と同一人物であるか否かの判別方法としては複数考えられるが、その中の1つの手法として、例えばそれぞれの人物に係る人物画像から特徴量を抽出し、特徴量の類似度が閾値を超えている場合に、同一人物であると判断する手法が考えられる。
 このとき、人物画像から抽出する特徴量としては、例えば色情報や姿勢、高さ等に係る特徴量が考えられる。しかしながら、画像内の人物の位置によっては、好適な特徴量を抽出できないことが考えられる。例えば、照明が逆光になる場合や、薄暗いために人物画像を認識しづらい場合、橙色等の特定色の照明が近傍にある場合、何らかの物体の物陰に入りやすい(人物全体が映りづらい)領域である場合、等である。そこで本実施形態に係る情報処理サーバ100は、ビデオカメラ200で撮影される映像内のエリア適合度が他の領域よりも高い領域(適正領域ともいう。)にある場合に特徴量を抽出して、当該特徴量を元に同一人物であるか否かの判別を行う。
 この点、図2を参照しながら説明する。図2はビデオカメラ200による撮影映像20の具体例を示す図である。図2の撮影映像20には、人物Pが映っており、当該人物Pは進行方向aに移動しているものとする。ここで、映像20の周辺領域22は、例えば人物Pが進行方向を変えやすい位置であったり、照明が薄暗かったりといった理由により人物Pの特徴量にばらつきが発生しやすい、すなわち特徴量の抽出に好適でない領域であるものとする。このような状況において、本実施形態に係る情報処理サーバ100は領域21を特徴量の抽出に適した適正領域であるものと認識し、人物Pが周辺領域22にいる間には対応付けの処理を保留する。その後、人物Pが適正領域21に入ると、人物Pに係る人物画像から特徴量の抽出を行い、過去に撮影した映像に映る移動体との類似度の判定を行った上で人物の対応付けを行う。あるいは、人物Pが周辺領域22にいる間には、当該人物Pに係る人物画像の特徴量(精度が低いと考えられる特徴量)を用いて仮に類似度の判定を行った上で当該判定結果に応じて人物の対応付けを行い、その後、人物Pが領域21に移動した時点で、再度人物の対応付けを行うことも考えられる。以下の説明では、領域22で仮の対応付けを行った上で、領域21に移動した時点で、再度人物の対応付けを行うものとして説明する。
 このような適正領域21の判別のため、情報処理サーバ100は、それぞれのビデオカメラ200が撮影する映像内を複数の領域に分けて、それらの領域毎に、特徴量抽出に適した領域であるか否かを評価する機能を有する。この適正領域21を定める手法は複数考えられるが、例えば、ビデオカメラ200間で確実に対応付けが可能な人物同士を対応付けた上で、当該人物に係る人物画像から抽出される特徴量の変化を学習することによって、他のビデオカメラ200に係る人物画像の特徴量と類似度の高い特徴量を抽出できる領域をエリア適正度の高い適正領域21として識別することが考えられる。例えば、移動している人物が監視対象領域に一人しかいない場合には、その人物は確実に同一人物と対応付けが可能なため、その人物の領域の特徴量の変化を学習することで、適正領域21か否かを判定できる。この際、適正領域21か否かの判定は、各領域で取得された特徴量同士を比較した上で、それらの特徴量間の類似度が、同一人物と判定するのに十分であるかどうかを調べることで判定可能である。具体的には、それぞれの領域で抽出された特徴量の類似度が一定の閾値以上であれば、適正領域21と判定することができる。あるいは、基準となる特徴量(例えば、色の特徴の場合には参照色)と、ある領域で取得された特徴量との比較を行い、この類似度が十分高い(例えば、一定の閾値以上)場合に、その領域を適正領域21と判定することもできる。
 適正領域21を識別するための学習は、システムを設置する際に様々な特徴量を有する人物を歩かせて学習するようにしてもよいし、システムを設置した後、運用中に、確実に人物の対応付けが可能な状況において、学習させるようにしてもよい。確実に対応付けが可能かどうかについては、自動で判定(例えば移動中の人物をカウントし、一人の場合に対応付け可能と判定)してもよいし、オペレータが人手で指定するようにしてもよい。
 また、以下では、領域毎の適正度が2段階(適正領域21か否か)の場合について述べるが、適正度は複数の段階に分けて設定されていてもよい。この場合は、より適正度が高い領域にオブジェクトが移動した際に、判定をし直すようにすればよく、それ以外の動作は、基本的に2段階の場合と同様である。
 また、領域毎の適正度の判定は、時間等によって切り替わるようになっていてもよい。例えば、昼と夜で照明条件が変わる場合には、それぞれの照明条件に対して適正度を求めておき、照明条件が切り替わったときに、適正度を切り替えるようにしてもよい。これは、時間によって自動的に切り替わるようになっていてもよいし、照明条件の変化を検知して自動的に切り替わるようになっていてもよい。これは、特定の領域の明るさや色の値が変わったかどうかを検知することによって、判定可能である。この際、既に適正度が求まっている照明条件以外の照明条件であると判定された場合には、その照明条件に対する適正度をその場で学習し、登録するようにしてもよい。この適正度は、それ以降に同じ照明条件になった際に利用可能となる。
 あるいは、ビデオカメラのホワイトバランス等の条件の変化に応じて、適正度を切り替えるようにしてもよい。この切り替えは、上述の照明条件の変化の場合と同様である。
 (1.2 システムの機能構成)
 以下、図3を参照しながら、監視システム1の機能構成を説明する。
 図6に示すように、監視システム1は、画像取得部101(画像取得部101A乃至101Nを総称して画像取得部101と呼ぶ。)、オブジェクト検出・追跡部110(オブジェクト検出・追跡部110A乃至110Nを総称してオブジェクト検出・追跡部110と呼ぶ。)、オブジェクト追跡情報DB(データベース)120、次カメラ予測部130、カメラ配置情報140、エリア適正度算出部150、エリア適正度情報160、対応関係予測部170を含む。
 画像取得部101は、ビデオカメラ200が実際のシーンを撮影することにより、撮影映像を取得する。或いは、ビデオカメラ200が撮影した映像が、HDD等の記憶装置に記録(録画)された後、それを再生(VCRの場合には、再生したアナログ信号をキャプチャ)することによって画像を取得する。
 ここで再生とは、符号化された動画像データ(映像データ)を復号して元の絵(フレーム)のデータを生成することをいい、生成した結果を表示画面上に表示することは再生には含まないものとする。また、再生速度は実際の速度(記録された実速度)である必要はなく、可能な場合には、実時間よりも高速に再生(復号)しても良い。更に、全ての映像フレームを復号せず、フレームを飛ばしながら再生することも考えられる。例えば、MPEG-2などの符号化方式で符号化されている場合には、映像データ内にはI、P、Bピクチャが存在するが、このうち、Iピクチャのみ、或いは、IピクチャとPピクチャのみを復号するようにしても良い。
 なお、記憶装置に記録された映像を再生する場合には、順方向の再生により映像を取得する場合と、逆方向の再生により映像を取得する場合とが考えられる。以下では、ビデオカメラ200で撮影した動画をリアルタイムで、順方向に処理する場合の例を中心に説明する。
 オブジェクト検出・追跡部110は、オブジェクト検出部111(オブジェクト検出部111A乃至111Nを総称してオブジェクト検出部111と呼ぶ。)、オブジェクト追跡部113A(オブジェクト追跡部113A乃至113Nを総称してオブジェクト追跡部113と呼ぶ。)、及びオブジェクト特徴量抽出部115(オブジェクト特徴量抽出部115A乃至115Nを総称してオブジェクト特徴量抽出部115と呼ぶ。)を含む。オブジェクト検出・追跡部110は、オブジェクト検出部111において、画像取得部101のそれぞれが取得する映像(動画像)から、人物をオブジェクトとして検出し、また、オブジェクト特徴量抽出部115において、オブジェクト検出部111により検出された人物領域(人物画像)から当該人物に係る特徴量を算出する。より具体的には、例えば、予め生成した背景画像とフレーム画像との差分をとる背景差分法により人物を抽出した上で、人物やその一部の形状などの特徴を学習した検出器を当該抽出した人物領域に対して適用することによって、人物を抽出することが可能となる。人物の特徴量としては、例えば、人物が着ている服の色や模様の特徴を、色ヒストグラムやエッジヒストグラムの形で抽出することができる。
 また、オブジェクト追跡部113は、時系列の画像(フレーム)間の比較により、オブジェクトとして抽出された人物毎に同一画角内(1台のビデオカメラ200で撮影された同一の映像内)で追跡し、検出・追跡された人物毎に、オブジェクト追跡情報(オブジェクトとしての人物の位置と特徴量情報の時系列データ)を生成する。フレーム間での人物の追跡には、例えばミーンシフト法による追跡や、パーティクルフィルタを用いた追跡などを用いることが考えられる。オブジェクト追跡部115は、生成したオブジェクト追跡情報を、オブジェクト追跡情報DB120に格納すると共に、次カメラ予測部130へと出力する。
 次カメラ予測部130は、オブジェクト追跡部113により生成されたオブジェクト追跡情報と、カメラ配置情報140とから、人物が映像の画角から外に出た(フレームアウトした)時に、次にどの画像取得部101で取得した映像に現れる可能性が高いかを予測すると共に、その結果を示す次カメラ予測情報を生成する。ここで、カメラ配置情報140は、配置された複数のビデオカメラ200間の空間的な位置関係を記述する情報であり、具体的には、例えばビデオカメラ200間の隣接関係や、ビデオカメラ200間の距離(或いは、ビデオカメラ200間の移動に必要となる平均時間)等の情報を含む。なお、隣接関係の情報はビデオカメラ200の画角と対応付けて記述される。これにより、次カメラ予測部130は、人物がフレームアウトする方向に応じて、隣接するビデオカメラ200(すなわち、人物が現れる可能性のあるビデオカメラ200)を選択できるようになる。
 次カメラ予測部130が生成する次カメラ予測情報は、画像取得部101毎(ビデオカメラ200毎)に人物の出現確率、画角内での出現予測位置、出現予測時刻を算出した結果と、人物の特徴量とを含み、追跡人物毎に生成される。例えば、人物Aがカメラ01に映っていて、カメラ02の方向にフレームアウトした場合、カメラ間の平均移動時間を用いて予測する場合には、フレームアウトした時刻に平均移動時間を足した時刻が最も大きくなる確率分布を用いて出現確率を計算できる。この際、平均移動時間を用いる代わりに、フレームアウトする前の移動速度をカメラ01の追跡結果から算出することによりカメラ02に到達する時刻を予測した上で、当該時刻に基づいて確率分布を算出しても良い。ここで、確率分布としてはガウス分布等様々な形状のものを用いることができるが、確率分布のパラメータを決定する際には、カメラ01からカメラ02への到達時刻のばらつきにかかる情報が重要である。このばらつきに係る情報は、事前に計測することによりデータとして算出しておく、或いは、ユーザによる人物間の対応付けの情報から新たに学習して生成する等の手法により得ることが可能である。また、カメラ01に隣接するビデオカメラ200がカメラ02以外にも存在する場合には、人物が各隣接カメラの方向に移動する可能性を推定した上で、この値を上述の出現確率に乗じて確率を算出しても良い。この推定には、事前に計測した結果などを用いることができる。
 対応関係予測部170は、人物(オブジェクト/移動体)毎に、次カメラ予測情報に含まれる特徴量と、次に出現する可能性のあるビデオカメラ200の映像で検出された人物の特徴量とを比較し、特徴量間の距離が閾値よりも小さい(或いは、特徴量間の類似度が閾値よりも高い)ときに、それらの人物同士を同一人物であるものとして対応付け、対応付け情報を出力する。ここで、対応関係予測部170は前述の通り、ビデオカメラ200の映像のうち、エリア適正度情報DB160を参照した上で、エリア適正度が他の領域よりも高い適正領域21上に人物が位置する場合の特徴量を用いて人物の対応付けを行う。対応関係予測部170が作成した対応付け情報は、適宜必要に応じて加工の上、ユーザに人物追跡情報として図示しない表示装置上に表示することが可能である。
 エリア適正度算出部150は、各画像取得部101が取得する各映像を複数の領域にわけ、それぞれの領域に対して、人物の特徴量を抽出するのに適した領域であるか否かを示す尺度であるエリア適正度を算出する。この算出方法の具体例としては、例えば前述の通り、ビデオカメラ200間で確実に対応付けが可能な人物同士を対応付けた上で(例えば、登場する可能性のある人物が1人しかいない場合や、監視者が人手で人物の対応関係を入力した場合等)、当該人物に係る人物画像から抽出される特徴量の変化を学習することによって、他のビデオカメラ200に係る人物画像の特徴量と類似度の高い特徴量を抽出できる領域の値が高くなるように、エリア適正度を設定/算出することが考えられる。エリア適正度算出部150が算出したエリア適正度は、エリア適正度情報DB160に格納された上で、対応関係予測部170から参照される。
 (1.3 処理の流れ)
 次に、監視システム1の処理の流れを、図4を参照しながら説明する。図4は、本実施形態に係る情報処理サーバ100の処理の流れを示すフローチャートである。
 なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上1つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを1ステップとして実行することもできる。
 まず、オブジェクト検出部111は、画像取得部101で取得した画像内に、検出対象オブジェクトとしての人物が映っているか否かを検出する(S401)。その結果、人物を検出した場合には(S401のYes)、オブジェクト特徴量抽出部115は当該人物の特徴量を算出し、当該特徴量は、オブジェクト追跡部113による人物追跡結果とともにオブジェクト追跡情報DB120に登録される(S403)。なおこのとき、オブジェクト追跡情報DB120に登録される特徴量は、当該画像取得部101に係る適正領域21内に人物がいる際に抽出した特徴量であることが好ましい。
 その後、オブジェクト追跡部113が当該人物の映像からのフレームアウトを検出すれば(S405)、次カメラ予測部130は、オブジェクト追跡部113から受け取ったオブジェクト追跡情報と、カメラ配置情報140とに基づき、画像取得部101で取得した映像からフレームアウトした追跡対象の人物が、次にどの画像取得部101の映像に現れる可能性が高いかを予測する(S407)。
 その後、次カメラとして予測された画像取得部101のいずれかの映像で新たな人物をオブジェクト検出部111で検出した場合には(S409のYes)、対応関係予測部170は、当該人物の位置が、当該画像取得部101に係る適正領域21内であるか否かを判別する(S411)。もし、検出された人物の位置が適正領域21内であれば(S411のYes)、対応関係予測部170は当該適正領域21内で抽出された特徴量と、カメラAで撮影された人物の特徴量とを比較し、それらの類似度を算出することにより、2人の人物が同一人物であるか否か(人物が対応するか否か)を判別する(S413)。
 S411において、検出された人物の位置が適正領域21にない場合には(S411のNo)、当該領域で検出された特徴量と、カメラAで撮影された人物の特徴量とを比較することにより、仮の対応付けの判定を行う(S415)。その後、当該人物がエリア適正度の高い適正領域21に移動した場合には(S417のYes、S419のNo、S411のYes)、適正領域21の位置で抽出した移動量を用いて対応付けの判定を行う(S413)。
 (1.4 ハードウェア構成の具体例)
 以下、図5を参照しながら、上述してきた情報処理サーバ100をコンピュータにより実現する場合のハードウェア構成の一例を説明する。なお、情報処理サーバ100の機能は複数の情報処理装置(例えば、サーバとクライアント)により実現することも可能である。
 図5に示すように、情報処理サーバ100は、プロセッサ501、メモリ503、記憶装置505、入力インタフェース(I/F)507、データI/F509、通信I/F511、及び表示装置513を含む。
 プロセッサ501は、メモリ503に記憶されているプログラムを実行することにより情報処理サーバ100における様々な処理を制御する。例えば、図3で説明した次カメラ予測部130、対応関係予測部170、及びエリア適正度算出部150に係る処理は、メモリ503に一時記憶された上で、主にプロセッサ501上で動作するプログラムとして実現可能である。
 メモリ503は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ503は、プロセッサ501によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。例えば、メモリ503の記憶領域には、プログラム実行時に必要となるスタック領域が確保される。
 記憶装置505は、例えばHDDやフラッシュメモリ、VCR等の不揮発性の記憶媒体である。記憶装置505は、オペレーティングシステムや、次カメラ予測部130、対応関係予測部170、及びエリア適正度算出部150を実現するための各種プログラムや、オブジェクト追跡情報DB120、カメラ配置情報140、エリア適正度情報DB160を含む各種データ等を記憶する。記憶装置505に記憶されているプログラムやデータは、必要に応じてメモリ103にロードされることにより、プロセッサ501から参照される。
 入力I/F507は、ユーザからの入力を受け付けるためのデバイスである。入力I/F107の具体例としては、キーボードやマウス、タッチパネル、各種センサ等がある。入力I/F107は、例えばUSB(Universal Serial Bus)等のインタフェースを介して情報処理サーバ100に接続されても良い。
 データI/F509は、情報処理サーバ100の外部からデータを入力するためのデバイスである。データI/F509の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等が挙げられる。その場合、データI/F509は例えばUSB等のインタフェースを介して情報処理サーバ100へと接続される。
 通信I/F511は、情報処理サーバ100の外部の装置、例えばビデオカメラ200等との間で有線又は無線によりデータ通信するためのデバイスである。通信I/F511は情報処理サーバ100の外部に設けられることも考えられる。その場合、通信I/F511は、例えばUSB等のインタフェースを介して情報処理サーバ100に接続される。
 表示装置513は、例えば監視用画面等の各種情報を表示するためのデバイスである。例えば図2に図示した監視用の映像は、表示装置513が表示することが考えられる。表示装置513の具体例としては、例えば、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等が考えられる。表示装置513は、情報処理サーバ100の外部に設けられても良い。その場合、表示装置513は、例えばディスプレイケーブル等を介して情報処理サーバ100に接続される。
 (1.5 本実施形態に係る効果)
 以上説明したように、本実施形態に係る監視システム1では、追跡対象(監視対象)の人物(オブジェクト/移動体)を追跡する際に、当該追跡対象の人物の特徴量を用いて人物の対応関係を求める。この時、照明などの影響により、映像内の位置によっては好適な特徴量を抽出できないこともあるため、本実施形態に係る監視システム1は、特徴量抽出に好適な適正領域21を定めた上で、当該適正領域21内に人物がいる場合の特徴量を重点的に用いて人物の対応関係の推定を行う。これにより、好適な人物間の対応関係の推定が可能となる。
 更に本実施形態では、人物が適正領域21内に存在しない場合であっても、適正領域21外での特徴量を用いて仮の対応関係の推定を行う。これにより、たとえ人物が適正領域21内に入ることがない場合であっても、対応関係の推定を行うことができる。
 (2 第2実施形態)
 以下、図6及び図7を参照しながら、第2実施形態について説明する。図6及び図7は、第2実施形態を説明するための図である。以下、第1実施形態との相違点を中心に第2実施形態について説明する。以下の説明において、第1実施形態と同様の構成については第1実施形態と同一の符号を付すとともに説明を省略している。その他、第1実施形態と同様の作用効果についても、説明を省略している。
 システム構成の概要は、図1に示した第1実施形態と同様である。また、本実施形態に係る情報処理サーバ100を実装可能なハードウェア構成の具体例についても、第1実施形態と同様である。よって、これらについての説明は省略する。
 第2実施形態に係る情報処理サーバ100は、第1実施形態に係る情報処理サーバ100の機能に加えて、エリア毎に、特徴量を抽出する際の補正情報を算出し、当該補正情報を用いて、人物画像から抽出する特徴量を補正する機能を有する。
 (2.1 システムの機能構成)
 以下、図6を参照しながら、本実施形態に係る監視システム1の機能構成を説明する。第2の実施形態に係る監視システム1は、第1実施形態に係る監視システム1が有する各機能に加えて、補正情報生成部180及び補正情報DB190を有する。第1実施形態に係る監視システム1が有する機能の動作は、第2実施形態においても第1実施形態と同様であるため、ここでは説明を省略する。
 補正情報生成部180は、エリア適正度算出部150が算出したエリア適正度に応じて、画像取得部101が取得する映像内の各領域においてオブジェクト特徴量抽出部115が特徴量を抽出する際の補正情報を生成する。より具体的には、明るさの情報であれば、明るさの補正量の値、ホワイトバランスを補正するのであれば、RGBの各チャネルのゲインの値、あるいは全体の色調を補正するのであれば、その補正変換式(例えば、RGBのアフィン変換パラメータ)等を補正情報生成部180は生成する。これらの補正情報は、各カメラに対して、座標に対応付けて算出される。
 この補正情報の生成方法は複数考えられるが、例えば、エリア適正度算出部150が算出したエリア適正度が最も高い適正領域21で抽出された特徴量と、他の各領域で抽出された特徴量との差分に基づき、当該差分を統計的に小さくすることのできる補正量を補正情報とすることが考えられる。このような補正情報は、各画像取得部101(ビデオカメラ200)が取得する各映像内の、各領域に対して算出することが可能である。
 補正情報DB190は、各映像の各領域に対して補正情報生成部180が生成した補正情報を格納するためのデータベースである。
 また、本実施形態に係るオブジェクト特徴量抽出部115は、補正情報DB190を参照することで、当該補正情報を用いて、検出人物に対して抽出した生の特徴量を補正することが可能である。これにより、たとえ人物Pが適正領域21にいない場合であっても、好適な特徴量を算出することができるため、第1実施形態で説明した仮の対応関係の推定の精度を高めることが可能となる。
 (2.2 処理の流れ)
 以下、図7を参照しながら監視システム1が特徴量を補正する際の処理の流れを説明する。なお、第1実施形態で図4を参照しながら説明した人物の対応関係の推定に係る処理の流れは、第2実施形態と同様であるため、説明を省略する。但し、第2実施形態においては、特徴量抽出の際、補正情報DB190を参照して特徴量の補正を行う点が異なる。
 エリア適正度算出部150は、必要に応じて、各ビデオカメラ200に係る映像内の各領域に対して、エリア適正度を算出する(S701)。当該エリア適正度の算出タイミングは、複数考えられるが、例えば人物の対応関係が明らかな人物を検出した際に、当該人物の特徴量の変化を学習データとしてエリア適正度を算出することが考えられる。
 補正情報生成部180は、エリア適正度算出部150が算出した各領域内のエリア適正度に応じて、補正情報を生成する(S703)。この手法としては、例えば前述の通り、最も好適に抽出された特徴量と、各領域で実際に抽出された特徴量との差分を統計的に埋めることのできるパラメータ(補正量)を補正情報とすることが考えられる。
 情報処理サーバ100は、当該補正情報を用いた特徴量の補正を、オブジェクト検出・追跡部110に要求する。より具体的には、オブジェクト特徴量抽出部115は、補正情報DB190から取得した補正情報に応じて、それ以降に映像から抽出した特徴量を補正し、当該補正後の特徴量をオブジェクト追跡部113に出力するようにする。これにより、適正領域21でなくとも、好適な特徴量を算出することができ、結果として、対応関係予測部170における対応関係の推定も好適に行うことが可能となる。
 (2.3 本実施形態に係る効果)
 以上説明したように、本実施形態に係る監視システム1では、第1実施形態に係る監視システム1が有する機能に加えて、領域ごとの特徴量抽出に係る補正情報を算出し、当該補正情報を用いて特徴量を補正する機能を有する。これにより、たとえ人物Pが適正領域21にいない場合であっても、好適な特徴量を算出することができるため、第1実施形態で説明した仮の対応関係の推定の精度を高めることが可能となる。
 (3 第3実施形態)
 以下、第3実施形態を、図8を参照しながら説明する。図8は、情報処理システムである監視装置800の機能構成を示すブロック図である。図8に示すように、監視装置800は、入力部810と、判別部820とを含む。
 入力部810は、図示しないビデオカメラ(撮影装置)で撮影された映像の入力を受けることができる。
 判別部820は、あるビデオカメラ(第1の撮影装置)で撮影された映像に映る移動体と、そのビデオカメラを含む他のビデオカメラ(第2の撮影装置)で撮影された映像内の、他の領域よりも特徴量抽出に優れた適正領域にある移動体とが、同一の移動体であるか否かを特徴量の類似度に応じて判別する。ここで移動体の具体例としては、人間の他、車や自転車、バイク等を挙げることができる。
 このように実装することで、本実施形態に係る監視装置800によれば、複数の撮影装置に係る人物の対応関係を好適に推定することができる。
 (4 付記事項)
 なお、前述の各実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
 なお、前述の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。また、本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
 (付記1)
 複数の撮影装置で撮影された映像の入力を受ける入力手段と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、他の領域よりも特徴量抽出に優れた適正領域にある移動体とが、同一の移動体であるか否かを特徴量の類似度に応じて判別する判別手段とを備える情報処理システム。
 (付記2)
 映像内の各領域において、移動体の特徴量抽出のエリア適正度を算出する算出手段を更に備え、前記適正領域は、映像内の他の領域よりも、エリア適正度の高い領域である、付記1記載の情報処理システム。
 (付記3)
 前記算出手段は、映像内の移動体の移動に応じた特徴量の変化に応じて、映像内の各領域におけるエリア適正度を統計的に算出する、付記2記載の情報処理システム。
 (付記4)
 領域毎に、移動体の類似度を算出するための特徴量を補正するための補正情報を生成する手段を更に備える、付記1乃至付記3のいずれか1項記載の情報処理システム。
 (付記5)
 前記判別手段は、前記第2の撮影装置により撮影された映像内のうちの前記適正領域以外の領域にいる移動体と前記第1の撮影装置により撮影された移動体とが同一であるか否かを判別した後、前記第2の撮影装置により撮影された移動体が前記適正領域に移動した際に、再度、当該移動体が前記第1の撮影装置により撮影された移動体と同一であるか否かを判別する、付記1乃至付記4のいずれか1項記載の情報処理システム。
 (付記6)
 前記算出手段は、映像内の各領域において、複数の異なる条件下でそれぞれエリア適正度を算出し、前記判別手段は、前記算出手段が算出した複数のエリア適正度のうち、条件の対応するエリア適正度により定められる前記適正領域を用いて、同一の移動体であるか否かを判別する、付記2乃至付記5のいずれか1項記載の情報処理システム。
 (付記7)
 前記判別手段による判別結果を報知する、付記1乃至付記6のいずれか1項記載の情報処理システム。
 (付記8)
 複数の撮影装置で撮影された映像の入力を受けるステップと、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、予め定められた適正領域にある移動体とが、同一の移動体であるか否かを類似度に応じて判別するステップとを情報処理システムが行う情報処理方法。
 (付記9)
 映像内の各領域において、移動体の特徴量抽出のエリア適正度を算出するステップを更に備え、前記適正領域は、映像内の他の領域よりも、エリア適正度の高い領域である、付記8記載の情報処理方法。
 (付記10)
 映像内の移動体の移動に応じた特徴量の変化に応じて、映像内の各領域におけるエリア適正度を統計的に算出する、付記9記載の情報処理方法。
 (付記11)
 領域毎に、移動体の類似度を算出するための特徴量を補正するための補正情報を生成するステップを更に備える、付記8乃至付記10のいずれか1項記載の情報処理方法。
 (付記12)
 前記第2の撮影装置により撮影された映像内のうちの前記適正領域以外の領域にいる移動体と前記第1の撮影装置により撮影された移動体とが同一であるか否かを判別した後、前記第2の撮影装置により撮影された移動体が前記適正領域に移動した際に、再度、当該移動体が前記第1の撮影装置により撮影された移動体と同一であるか否かを判別する、付記8乃至付記11のいずれか1項記載の情報処理方法。
 (付記13)
 映像内の各領域において、複数の異なる条件下でそれぞれエリア適正度を算出し、算出した複数のエリア適正度のうち、条件の対応するエリア適正度により定められる前記適正領域を用いて、同一の移動体であるか否かを判別する、付記9乃至付記12のいずれか1項記載の情報処理方法。
 (付記14)
 同一の移動体であるか否かの判別結果を報知する、付記8乃至付記13のいずれか1項記載の情報処理方法。
 (付記15)
 複数の撮影装置で撮影された映像の入力を受ける処理と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、予め定められた適正領域にある移動体とが、同一の移動体であるか否かを類似度に応じて判別する処理とをコンピュータに実行させるプログラム。
 (付記16)
 映像内の各領域において、移動体の特徴量抽出のエリア適正度を算出する算出処理を更に実行させ、前記適正領域は、映像内の他の領域よりも、エリア適正度の高い領域である、付記15記載のプログラム。
 (付記17)
 前記算出処理では、映像内の移動体の移動に応じた特徴量の変化に応じて、映像内の各領域におけるエリア適正度を統計的に算出する、付記16記載のプログラム。
 (付記18)
 領域毎に、移動体の類似度を算出するための特徴量を補正するための補正情報を生成する処理を更に実行させる、付記15乃至付記17のいずれか1項記載のプログラム。
 (付記19)
 前記判別する処理では、前記第2の撮影装置により撮影された映像内のうちの前記適正領域以外の領域にいる移動体と前記第1の撮影装置により撮影された移動体とが同一であるか否かを判別した後、前記第2の撮影装置により撮影された移動体が前記適正領域に移動した際に、再度、当該移動体が前記第1の撮影装置により撮影された移動体と同一であるか否かを判別する、付記15乃至付記18のいずれか1項記載のプログラム。
 (付記20)
 映像内の各領域において、複数の異なる条件下でそれぞれエリア適正度を算出し、算出した複数のエリア適正度のうち、条件の対応するエリア適正度により定められる前記適正領域を用いて、同一の移動体であるか否かを判別する、付記16乃至付記19のいずれか1項記載のプログラム。
 (付記21)
 同一の移動体であるか否かの判別結果を報知する、付記15乃至付記20のいずれか1項記載のプログラム。
 (付記22)
 複数の撮影装置で撮影された映像の入力を受ける入力手段と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別する判別手段とを備える情報処理システム。
 (付記23)
 前記適正領域を目視可能に表示する表示手段を更に備える付記22記載の情報処理システム。
 (付記24)
 複数の撮影装置で撮影された映像の入力を受けるステップと、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別するステップとを情報処理システムが行なう情報処理方法。
 (付記25)
 前記適正領域を目視可能に表示する、付記24記載の情報処理方法。
 (付記26)
 複数の撮影装置で撮影された映像の入力を受ける処理と、前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別する処理とをコンピュータに実行させるプログラム。
 (付記27)
 前記適正領域を目視可能に表示する、付記26記載のプログラム。
 この出願は、2012年12月28日に出願された日本出願特願2012-287759を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1・・・監視システム、20・・・撮影映像、21・・・適正領域、22・・・周辺領域、101・・・画像取得部、110・・・オブジェクト検出・追跡部、111・・・オブジェクト検出部、113・・・オブジェクト追跡部、115・・・オブジェクト特徴量抽出部、120・・・オブジェクト追跡情報データベース、130・・・次カメラ予測部、140・・・カメラ配置情報、150・・・エリア適正度算出部、160・・・エリア適正度情報データベース、170・・・対応関係予測部、180・・・補正情報生成部、190・・・補正情報データベース、800・・・監視装置、810・・・入力部、820・・・判別部

Claims (12)

  1.  複数の撮影装置で撮影された映像の入力を受ける入力手段と、
     前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、他の領域よりも特徴量抽出に優れた適正領域にある移動体とが、同一の移動体であるか否かを特徴量の類似度に応じて判別する判別手段と
    を備える情報処理システム。
  2.  映像内の各領域において、移動体の特徴量抽出のエリア適正度を算出する算出手段
    を更に備え、
     前記適正領域は、映像内の他の領域よりも、エリア適正度の高い領域である、
    請求項1記載の情報処理システム。
  3.  前記算出手段は、映像内の移動体の移動に応じた特徴量の変化に応じて、映像内の各領域におけるエリア適正度を統計的に算出する、
    請求項2記載の情報処理システム。
  4.  領域毎に、移動体の類似度を算出するための特徴量を補正するための補正情報を生成する手段
    を更に備える、請求項1乃至請求項3のいずれか1項記載の情報処理システム。
  5.  前記判別手段は、前記第2の撮影装置により撮影された映像内のうちの前記適正領域以外の領域にいる移動体と前記第1の撮影装置により撮影された移動体とが同一であるか否かを判別した後、前記第2の撮影装置により撮影された移動体が前記適正領域に移動した際に、再度、当該移動体が前記第1の撮影装置により撮影された移動体と同一であるか否かを判別する、
    請求項1乃至請求項4のいずれか1項記載の情報処理システム。
  6.  前記算出手段は、映像内の各領域において、複数の異なる条件下でそれぞれエリア適正度を算出し、
     前記判別手段は、前記算出手段が算出した複数のエリア適正度のうち、条件の対応するエリア適正度により定められる前記適正領域を用いて、同一の移動体であるか否かを判別する、
    請求項2乃至請求項5のいずれか1項記載の情報処理システム。
  7.  複数の撮影装置で撮影された映像の入力を受けるステップと、
     前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、予め定められた適正領域にある移動体とが、同一の移動体であるか否かを類似度に応じて判別するステップと
    を情報処理システムが行う情報処理方法。
  8.  複数の撮影装置で撮影された映像の入力を受ける処理と、
     前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像内の、予め定められた適正領域にある移動体とが、同一の移動体であるか否かを類似度に応じて判別する処理と
    をコンピュータに実行させるプログラム。
  9.  複数の撮影装置で撮影された映像の入力を受ける入力手段と、
     前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別する判別手段と
    を備える情報処理システム。
  10.  前記適正領域を目視可能に表示する表示手段
    を更に備える請求項9記載の情報処理システム。
  11.  複数の撮影装置で撮影された映像の入力を受けるステップと、
     前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別するステップと
    を情報処理システムが行なう情報処理方法。
  12.  複数の撮影装置で撮影された映像の入力を受ける処理と、
     前記複数の撮影装置のうちの第1の撮影装置により撮影された映像に映る第1の移動体と、前記複数の撮影装置のうちの第2の撮影装置により撮影された映像に映る第2の移動体とが類似するか否かを、前記第2の撮影装置により撮影された映像内において他の領域よりも適正に判別可能な適正領域に前記第2の移動体が入った際に判別する処理と
    をコンピュータに実行させるプログラム。
PCT/JP2013/082914 2012-12-28 2013-12-09 情報処理システム、情報処理方法及びプログラム WO2014103673A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014554282A JP6292540B2 (ja) 2012-12-28 2013-12-09 情報処理システム、情報処理方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012287759 2012-12-28
JP2012-287759 2012-12-28

Publications (1)

Publication Number Publication Date
WO2014103673A1 true WO2014103673A1 (ja) 2014-07-03

Family

ID=51020765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/082914 WO2014103673A1 (ja) 2012-12-28 2013-12-09 情報処理システム、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6292540B2 (ja)
WO (1) WO2014103673A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016132772A1 (ja) * 2015-02-19 2016-08-25 シャープ株式会社 情報管理装置、情報管理方法、および制御プログラム
EP3435665A4 (en) * 2016-03-25 2019-03-20 Panasonic Intellectual Property Management Co., Ltd. MONITORING AND MONITORING SYSTEM
WO2020026325A1 (ja) * 2018-07-31 2020-02-06 日本電気株式会社 評価装置、導出装置、監視方法、監視装置、評価方法、コンピュータプログラム、および導出方法
CN111340856A (zh) * 2018-12-19 2020-06-26 杭州海康威视***技术有限公司 车辆的跟踪方法、装置、设备及存储介质
WO2020179730A1 (ja) * 2019-03-04 2020-09-10 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
JP2022050430A (ja) * 2020-06-15 2022-03-30 日本電気株式会社 追跡システム、追跡方法および追跡プログラム
CN114660097A (zh) * 2022-03-23 2022-06-24 成都智元汇信息技术股份有限公司 一种基于双源双视角的同步校正方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004336127A (ja) * 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 監視システム
JP2008219570A (ja) * 2007-03-06 2008-09-18 Matsushita Electric Ind Co Ltd カメラ間連結関係情報生成装置
JP2009032116A (ja) * 2007-07-27 2009-02-12 Toshiba Corp 顔認証装置、顔認証方法および入退場管理装置
JP2011215804A (ja) * 2010-03-31 2011-10-27 Nohmi Bosai Ltd 煙検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004336127A (ja) * 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 監視システム
JP2008219570A (ja) * 2007-03-06 2008-09-18 Matsushita Electric Ind Co Ltd カメラ間連結関係情報生成装置
JP2009032116A (ja) * 2007-07-27 2009-02-12 Toshiba Corp 顔認証装置、顔認証方法および入退場管理装置
JP2011215804A (ja) * 2010-03-31 2011-10-27 Nohmi Bosai Ltd 煙検出装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016132772A1 (ja) * 2015-02-19 2016-08-25 シャープ株式会社 情報管理装置、情報管理方法、および制御プログラム
EP3435665A4 (en) * 2016-03-25 2019-03-20 Panasonic Intellectual Property Management Co., Ltd. MONITORING AND MONITORING SYSTEM
JP7235049B2 (ja) 2018-07-31 2023-03-08 日本電気株式会社 評価装置、評価方法、及びコンピュータプログラム
WO2020026325A1 (ja) * 2018-07-31 2020-02-06 日本電気株式会社 評価装置、導出装置、監視方法、監視装置、評価方法、コンピュータプログラム、および導出方法
JPWO2020026325A1 (ja) * 2018-07-31 2021-08-02 日本電気株式会社 評価装置、導出装置、評価方法、及びコンピュータプログラム
US11328404B2 (en) 2018-07-31 2022-05-10 Nec Corporation Evaluation apparatus, evaluation method, and non-transitory storage medium
CN111340856A (zh) * 2018-12-19 2020-06-26 杭州海康威视***技术有限公司 车辆的跟踪方法、装置、设备及存储介质
CN111340856B (zh) * 2018-12-19 2024-04-02 杭州海康威视***技术有限公司 车辆的跟踪方法、装置、设备及存储介质
WO2020179730A1 (ja) * 2019-03-04 2020-09-10 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
US20220139087A1 (en) * 2019-03-04 2022-05-05 Nec Corporation Information processing apparatus, information processing method, and program
JP2022050430A (ja) * 2020-06-15 2022-03-30 日本電気株式会社 追跡システム、追跡方法および追跡プログラム
CN114660097B (zh) * 2022-03-23 2023-06-02 成都智元汇信息技术股份有限公司 一种基于双源双视角的同步校正方法及***
CN114660097A (zh) * 2022-03-23 2022-06-24 成都智元汇信息技术股份有限公司 一种基于双源双视角的同步校正方法及***

Also Published As

Publication number Publication date
JP6292540B2 (ja) 2018-03-14
JPWO2014103673A1 (ja) 2017-01-12

Similar Documents

Publication Publication Date Title
JP6741130B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP6292540B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP6213843B2 (ja) 画像処理システム、画像処理方法及びプログラム
JP6622894B2 (ja) 多因子画像特徴登録及び追尾のための方法、回路、装置、システム、及び、関連するコンピュータで実行可能なコード
EP2549738B1 (en) Method and camera for determining an image adjustment parameter
JP7131599B2 (ja) 情報処理システム、情報処理方法及びプログラム
CN102833478B (zh) 容错背景模型化
CN107438173A (zh) 视频处理装置、视频处理方法和存储介质
CN105144705B (zh) 对象监视***、对象监视方法和用于提取待监视对象的程序
US20180061065A1 (en) Information processing apparatus, method thereof, and computer-readable storage medium
JP6210234B2 (ja) 画像処理システム、画像処理方法及びプログラム
JP6924064B2 (ja) 画像処理装置およびその制御方法、ならびに撮像装置
JP6638723B2 (ja) 画像解析装置、画像解析方法、及び、画像解析プログラム
KR20110074107A (ko) 카메라를 이용한 오브젝트 검출 방법
EP3432575A1 (en) Method for performing multi-camera automatic patrol control with aid of statistics data in a surveillance system, and associated apparatus
KR20160048428A (ko) 팬틸트줌 카메라 기반의 영상 재생방법 및 장치
KR20130062489A (ko) 객체추적 시스템 및 그 운영방법
KR101362630B1 (ko) 디지털 비디오 레코더에서의 피사체 이동 경로 추적 방법
KR101272631B1 (ko) 이동물체 감지장치 및 방법
Fauzi et al. The importance of bounding box in motion detection
CN107547851A (zh) 大数据管理***
JP5336017B2 (ja) 撮像装置及び撮像方法
CN107547835A (zh) 大数据管理***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13868161

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014554282

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13868161

Country of ref document: EP

Kind code of ref document: A1