WO2024018909A1 - 状態推定装置、状態推定方法及び状態推定プログラム - Google Patents

状態推定装置、状態推定方法及び状態推定プログラム Download PDF

Info

Publication number
WO2024018909A1
WO2024018909A1 PCT/JP2023/025096 JP2023025096W WO2024018909A1 WO 2024018909 A1 WO2024018909 A1 WO 2024018909A1 JP 2023025096 W JP2023025096 W JP 2023025096W WO 2024018909 A1 WO2024018909 A1 WO 2024018909A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
image data
feature
image
state estimation
Prior art date
Application number
PCT/JP2023/025096
Other languages
English (en)
French (fr)
Inventor
浩治 新
志強 胡
承孝 三國
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Publication of WO2024018909A1 publication Critical patent/WO2024018909A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors

Definitions

  • the present application relates to a state estimation device, a state estimation method, and a state estimation program.
  • Patent Document 1 discloses that calibration is performed using a measurement vehicle equipped with a GPS receiver, a data transmitter, a landmark, and the like.
  • Patent Document 2 discloses that in camera calibration, when the direction of a line existing on a road plane is input in a captured image, based on the direction and the direction expressed by an arithmetic expression including road plane parameters, Estimating road plane parameters is disclosed.
  • Patent Document 1 a measurement vehicle was required, and an operator was required when performing calibration.
  • Patent Document 2 there is a problem that it is necessary to manually input the lane on the road into the image, which takes time and effort. For this reason, there is a need to estimate the installation state of a conventional imaging device that images a road without requiring manual work or traffic regulation.
  • a state estimating device includes a first state estimating unit trained to estimate first feature data from first image data including a moving object imaged by an imaging device; A second state estimator trained to estimate second feature data from second image data including roads, and the first feature data and second feature data imaged the input image data. a feature estimator trained to estimate the installation state parameter of the imaging device.
  • a state estimation device includes first image data obtained by imaging a traffic environment by an imaging device, and first correct value data of a first extraction target including a moving object included in the first image data.
  • a first object estimation model that is machine-trained to estimate first feature data that estimates the feature of the first extraction target from the input first image data using the first teacher data.
  • a first state estimating unit that estimates first feature data from the image data obtained by the imaging device; Machine learning was performed to estimate second feature amount data that estimated the feature amount of the first extraction target from the inputted first image data using second teacher data having second correct value data.
  • a second state estimation unit that estimates second feature data from the inputted image data in a second object estimation model, and installation of image data obtained by imaging the traffic environment by an imaging device and the imaging device that captured the image data.
  • the state estimation model is machine-trained to estimate the installation state parameter of the imaging device that captured the input image data using third teacher data having correct value data of the state parameter; a feature estimation unit that estimates the installation state parameter of the imaging device that captured the input image data from data obtained by combining the feature data and the second feature data; and a feature estimation unit that estimates the installation state parameter of the imaging device that captured the input image data, and A diagnosis unit that diagnoses the installation state of the imaging device.
  • a computer collects first image data of a traffic environment captured by an imaging device and first correct value data of a first extraction target including a moving object included in the first image data.
  • a first object estimation model that is machine-learned to estimate first feature data that estimates features of a first extraction target from the inputted first image data using first teacher data having the following. and estimating first feature amount data from the input image data, and estimating second image data obtained by capturing a traffic environment by an imaging device and a second extraction target object including a road included in the second image data.
  • second teacher data having two correct answer value data
  • machine learning is performed to estimate second feature amount data that is the feature amount of the first extraction target from the inputted first image data.
  • a state estimation model is machine-trained to estimate the installation state parameters of the imaging device that captured the inputted image data using third teacher data having the first feature data and the first feature data. estimating the installation state parameters of the imaging device that captured the input image data from data synthesized with two feature data; and diagnosing the installation state of the imaging device based on the estimated installation state parameters.
  • a state estimation program provides a computer with first image data of a traffic environment captured by an imaging device and first correct value data of a first extraction target including a moving object included in the first image data.
  • a first object estimation model that is machine-learned to estimate first feature data that estimates features of a first extraction target from the inputted first image data using first teacher data having the following. and estimating first feature amount data from the input image data, and estimating second image data obtained by capturing a traffic environment by an imaging device and a second extraction target object including a road included in the second image data. 2.
  • second teacher data having two correct answer value data, machine learning is performed to estimate second feature amount data that is the feature amount of the first extraction target from the inputted first image data.
  • a state estimation model is machine-trained to estimate the installation state parameters of the imaging device that captured the inputted image data using third teacher data having the first feature data and the first feature data. estimating the installation state parameters of the imaging device that captured the input image data from data synthesized with two feature data; and diagnosing the installation state of the imaging device based on the estimated installation state parameters. make things happen.
  • FIG. 1 is a diagram for explaining an example of the relationship between a learning device and a state estimation device according to an embodiment.
  • FIG. 2 is a diagram showing an example of image data captured by the imaging device shown in FIG.
  • FIG. 3 is a diagram illustrating an example of the configuration of the learning device according to the embodiment.
  • FIG. 4 is a diagram showing an example of nighttime image data.
  • FIG. 5 is a diagram showing an example of early morning image data.
  • FIG. 6 is a diagram showing an example of a CNN used by the learning device shown in FIG. 3 for state estimation.
  • FIG. 7 is a diagram showing an example of a CNN used by the learning device shown in FIG. 3 for object detection.
  • FIG. 8 is a diagram illustrating an example of the configuration of the state estimation device according to the embodiment.
  • FIG. 1 is a diagram for explaining an example of the relationship between a learning device and a state estimation device according to an embodiment.
  • FIG. 2 is a diagram showing an example of image data captured by the imaging device shown
  • FIG. 9 is a diagram illustrating an example of the configuration of a control unit of the state estimation device according to the embodiment.
  • FIG. 10 is a flowchart illustrating an example of a state estimation method executed by the state estimation device.
  • FIG. 11 is a flowchart illustrating an example of a state estimation method executed by the first processing unit.
  • FIG. 12 is a flowchart illustrating an example of a state estimation method executed by the second processing unit.
  • the state estimation device eliminates the need for work using jigs, road regulation work, etc., and contributes to the spread of the imaging device 10 in the traffic environment.
  • FIG. 1 is a diagram for explaining an example of the relationship between a learning device and a state estimation device according to an embodiment.
  • FIG. 2 is a diagram showing an example of image data captured by the imaging device shown in FIG.
  • the system 1 includes an imaging device 10 and a state estimation device 100.
  • the imaging device 10 can acquire image data D10 obtained by capturing an image of the traffic environment 1000.
  • the state estimating device 100 has a function of acquiring image data D10 from the imaging device 10 and estimating the installation state of the imaging device 10 based on the image data D10.
  • the imaging device 10 and the state estimation device 100 are configured to be able to communicate by wire or wirelessly.
  • the system 1 includes one imaging device 10 and one state estimation device 100, but the number of imaging devices 10 and state estimation devices 100 is plural. It may be.
  • the imaging device 10 is installed so as to be able to image a traffic environment 1000 including a road 1100 and traffic objects 1200 moving on the road 1100.
  • Traffic objects 1200 that move on the road 1100 include, for example, vehicles, people, etc. that can move on the road 1100.
  • the traffic objects 1200 include, for example, large vehicles, regular vehicles, large special vehicles, large motorcycles, regular motorcycles, small special vehicles, etc. as defined in the Road Traffic Act, but may also include other vehicles, moving objects, etc. good.
  • large vehicles include vehicles with a gross vehicle weight of 8,000 kg or more, vehicles with a maximum loading capacity of 5,000 kg or more, and vehicles with a passenger capacity of 11 or more people (buses, trucks, etc.).
  • the imaging device 10 is an image sensor using an image sensor, for example, a CCD (Charge Coupled Device IMAGE Sensor), CMOS (COMPLEMENTALY METAL OXIDE SEMICONDUCONDUCTOR). Can be done.
  • the imaging device 10 is installed so that the imaging direction is directed toward the road plane of the traffic environment 1000.
  • the imaging device 10 can be installed, for example, on a road, at an intersection, or in a parking lot.
  • the road 1100 imaged by the imaging device 10 includes shapes such as straight lines, curves, and gradients of the road, signs installed on the road, shapes of median strips, lines, marks, and signs drawn on the road, guardrails, and street lights. , trees, sidewalks, destination information boards, advertisements, and phosphors to note road shapes such as curves.
  • the imaging device 10 is installed on the roadside at an installation angle that allows it to capture a bird's-eye view of an imaging area of a traffic environment 1000 including a road 1100 and its surroundings.
  • the imaging device 10 acquires image data D10 by imaging the traffic environment 1000.
  • the imaging device 10 may be provided so that the imaging direction is fixed, or may be provided so that the imaging direction can be changed at the same position by a movable mechanism.
  • image data D10 of the imaging device 10 is data showing an image D11 having a first area D110 showing a plurality of roads 1100 and a second area D120 showing traffic objects 1200 passing through the roads 1100. It is.
  • the imaging device 10 supplies captured image data to the state estimation device 100.
  • the image data includes, for example, two-dimensional images such as moving images and still images.
  • the imaging device 10 of this embodiment performs imaging at night and during the day, and captures various image data and supplies it to the state estimation device 100.
  • a predetermined area D100 is set in advance for the image D11.
  • the predetermined area D100 is an area that includes traffic objects 1200 that can be used for estimation, and can be appropriately set based on the traffic environment 1000 to be imaged.
  • the predetermined area D100 may be the entire area of the image D11.
  • the traffic objects 1200 that can be used for estimation include, for example, the traffic objects 1200 that were used as correct values for machine learning of the state estimation model M1.
  • the traffic object 1200 that can be used for estimation is a traffic object 1200 suitable for estimation of the state estimation model M1.
  • the state estimating device 100 may be provided near the imaging device 10 or may be provided at a position away from the imaging device 10.
  • the state estimation device 100 is supplied with image data D10 from one imaging device 10.
  • the image data D10 may be supplied from.
  • the traffic object 1200 is moving along the road direction C1 toward the imaging device 10, and the road direction C2 indicates the direction of the oncoming lane.
  • the state estimation device 100 has a function of managing installation state parameters of the imaging device 10.
  • the installation state parameters include, for example, the installation angle and installation position of the imaging device 10.
  • the installation state parameters may include, for example, the number of pixels of the imaging device 10, the size of the image D11, and the like.
  • the state estimation device 100 estimates the installation state parameters of the imaging device 10 that captured the image data D10 using the first state estimation model M1, the second state estimation model M2, and the feature estimation model M3 machine-learned by the learning device 200. can.
  • the state estimation device 100 identifies whether the plurality of image data D10 are photographed at night or during the day (early morning), inputs the night image data into the first state estimation model M1, and inputs the daytime image data into the second state estimation model M1.
  • the state estimation model M2 is inputted, the feature amount of each image data is outputted, and the first feature amount data calculated using the first state estimation model M1 and the second feature amount data calculated using the second state estimation model M2 are input.
  • the output of the feature amount estimation model M3 can be estimated as the installation state parameter of the imaging device 10.
  • the learning device 200 is, for example, a computer, a server device, or the like.
  • the learning device 200 may or may not be included in the configuration of the system 1.
  • the learning device 200 generates a plurality of first teacher data including image data D10 that captures an image of a traffic environment 1000 including a traffic object 1200, and correct value data D21 of installation state parameters of the imaging device 10 that captures the image data D10. get.
  • the correct value data D21 includes data indicating correct values such as the installation angle ( ⁇ , ⁇ , ⁇ ) of the imaging device 10, the installation position (x, y, z), the number of pixels, the size of the image D11, etc., for example.
  • the correct value data D21 is an example of the first correct value data.
  • the installation angle includes, for example, a pitch angle ⁇ in which the imaging device 10 is turned upside down, a yaw angle ⁇ that allows the imaging device 10 to swing the imaging direction sideways, a roll angle ⁇ in a direction in which the imaging device 10 is tilted, and the like.
  • the installation position has, for example, a position (x, z) on the road surface and a height y.
  • the correct value data D21 may be, for example, a correct value that is a combination of two values ⁇ and ⁇ that can identify the posture with respect to the road surface.
  • the correct value data D21 may be, for example, a correct value that is a combination of three values ⁇ , ⁇ , and y whose scales can be identified.
  • the correct value data D21 may be, for example, a correct value that is a combination of four values ⁇ , ⁇ , ⁇ , and y that can identify the main road directions.
  • the correct value data D21 may be, for example, a correct value that is a combination of six values ⁇ , ⁇ , ⁇ , x, y, and z used in general calibration.
  • the learning device 200 generates a first state estimation model M1, a second state estimation model M2, and a feature estimation model M3 by machine learning using a combination of a plurality of image data taken from the same point and installation state parameters.
  • the image data of the teacher data is classified into night image data and daytime image data.
  • the nighttime image data includes information specifying areas of traffic objects.
  • Daytime image data is an image in which the number of traffic objects is less than a threshold value and includes a road and fixed objects placed around the road.
  • the teacher data includes image data including night traffic as first teacher data, and daytime image data as second teacher data.
  • the learning device 200 generates a first state estimation model M1 that estimates first feature data from the input image data D10 by machine learning using a plurality of first teacher data.
  • the learning device 200 generates a second state estimation model M2 that estimates the second feature amount data from the input image data D10 by machine learning using a plurality of second teacher data.
  • the learning device 200 performs machine learning using data obtained by combining first feature data and second feature data, and determines the installed state of the imaging device 10 based on the first state estimation model M1 and the second state estimation model M2.
  • a feature estimation model M3 for estimating parameters is generated.
  • the first state estimation model M1 uses the image data of a plurality of teacher data and traffic objects included in the image data as correct value data, which is data of the feature, so that the first feature is estimated using the input image data D10.
  • This is a machine learning model of D21.
  • the first state estimation model M1 estimates and outputs first feature amount data including feature amounts of traffic objects included in the image data.
  • the second state estimation model M2 uses image data of a plurality of teacher data and the traffic environment other than traffic objects such as roads included in the image data as feature values so as to estimate a second feature value using the input image data D10.
  • the second state estimation model M2 estimates and outputs second feature data including features of the traffic environment other than traffic objects included in the image data.
  • the third feature estimation model M3 uses a plurality of teaching data such that the installation state parameters of the imaging device 10 that has captured the image data D10 are estimated using data obtained by combining the inputted first feature data and second feature data.
  • This is a model obtained by machine learning the feature amount data of , and the correct value data D22, which is data of the installation state parameters of the imaging device 10 that captured the image.
  • the feature estimation model M3 estimates the installation state parameters of the imaging device 10 that captured the image data D10, and outputs the estimation result.
  • the learning device 200 provides the generated state estimation model M1, state estimation model M2, and feature estimation model M3 to the state estimation device 100, thereby providing a jig dedicated to the calculation of the installation state of the imaging device 10 by the state estimation device 100. This can contribute to eliminating the need for manual work. An example of the learning device 200 will be described later.
  • the state estimation device 100 inputs the image data D to the first state estimation model M1 and the second state estimation model M2 provided by the learning device 200, and calculates the first feature using the first state estimation model M1 and the second state estimation model M2. output the quantity data and the second feature data, input the feature data obtained by combining the first feature data and the second feature data into the feature estimation model M3, and calculate the image data based on the output of the feature estimation model M3. It is possible to estimate the installation state parameters obtained by imaging D10.
  • the state estimating device 100 can diagnose the installation state of the imaging device 10 based on the estimated installation state parameters. Thereby, the state estimating device 100 can eliminate the need for a dedicated jig or manual work to calculate the installation state of the imaging device 10 during installation, maintenance, etc.
  • the state estimating device 100 can eliminate the need for traffic regulations by eliminating the need for jigs and human work. As a result, the state estimation device 100 can contribute to the spread of the imaging device 10 installed in the traffic environment 1000, and can improve the efficiency of maintenance.
  • the learning device 200 can acquire a plurality of third teacher data including image data D10 captured by the imaging device 10 of the traffic environment 1000 including the traffic objects 1200 and correct value data D22 for object detection in the image data D10.
  • the correct value data D22 includes, for example, data indicating correct values such as the position, size, type, and number of objects of the traffic object 1200 in the image D11.
  • the correct value data D22 is an example of the second correct value data.
  • the correct value data D22 includes, for example, a total of five pieces of data: two pieces of data about the position (x, y) of the object in the image D11, two pieces of data about the size (w, h) of the object, and one piece of data about the object type.
  • the number of objects in the image D11 is equal to the number of objects in the image D11.
  • the object types include, for example, a person, a large vehicle, a regular vehicle, a large special vehicle, a large motorcycle, a regular motorcycle, a small special vehicle, a bicycle, and the like.
  • the learning device 200 estimates at least one of the position, size, and type of a traffic object 1200 (object) in the traffic environment 1000 indicated by the input image data D10 by machine learning using a plurality of third training data.
  • An estimated model M4 is generated.
  • the object estimation model M4 performs machine learning on the image data D10 and correct value data D22 of the plurality of teacher data so as to estimate the position, size, and type of the traffic object 1200 in the traffic environment 1000 indicated by the input image data D10. It's a model.
  • the object estimation model M2 estimates the position, size, type, and number of objects of the traffic object 1200 in the traffic environment 1000 indicated by the image data D10, and outputs the estimation result.
  • the learning device 200 can provide the generated object estimation model M4 to the state estimation device 100.
  • the state estimation device 100 has a function of processing so that the image data D10 captured by the imaging device 10 of the traffic environment 1000 includes the traffic object 1200 used for estimation.
  • the state estimation device 100 can use the object estimation model M4 to process the image data D10 captured by the imaging device 10 of the traffic environment 1000 so that it includes the traffic object 1200 used for estimation.
  • the state estimating device 100 can input the image data D10 that can be used for estimating the installation state parameters of the imaging device 10 into the state estimating model M1, and can improve the estimation accuracy of the state estimating model M1.
  • the image data D10 that can be used to estimate the installation state parameters of the imaging device 10 is data that can improve the probability of the estimation result of the state estimation model M1.
  • the system 1 can provide a function of managing maintenance of one or more imaging devices 10 using the estimation results of the state estimation device 100.
  • the system 1 can provide a function of instructing a change in the installation state of the imaging device 10 based on the installation state parameters and the installation position estimated by the state estimation device 100.
  • FIG. 3 is a diagram showing an example of the configuration of the learning device 200 according to the embodiment.
  • the learning device 200 includes a display section 210, an operation section 220, a communication section 230, a storage section 240, and a control section 250.
  • the control section 250 is electrically connected to the display section 210, the operation section 220, the communication section 230, the storage section 240, and the like.
  • a CNN Convolutional Neural Network
  • the display unit 210 is configured to be able to display various information under the control of the control unit 250.
  • the display unit 210 includes a display panel such as a liquid crystal display or an organic EL display, for example.
  • the display unit 210 displays information such as characters, graphics, images, etc. in response to signals input from the control unit 250.
  • the operation unit 220 includes one or more devices for receiving user operations.
  • Devices for accepting user operations include, for example, keys, buttons, touch screens, mice, and the like.
  • the operation unit 220 can supply a signal to the control unit 250 according to the received operation.
  • the communication unit 230 can communicate with the state estimation device 100, other communication devices, etc., for example.
  • the communication unit 230 can support various communication standards.
  • the communication unit 230 can transmit and receive various data via a wired or wireless network, for example.
  • the communication unit 230 can supply the received data to the control unit 250.
  • the communication unit 230 can transmit data to a destination specified by the control unit 250.
  • the storage unit 240 can store programs and data.
  • the storage unit 240 is also used as a work area for temporarily storing processing results of the control unit 250.
  • the storage unit 240 may include any non-transitory storage medium such as a semiconductor storage medium and a magnetic storage medium.
  • Storage unit 240 may include multiple types of storage media.
  • the storage unit 240 may include a combination of a portable storage medium such as a memory card, an optical disk, or a magneto-optical disk, and a storage medium reading device.
  • the storage unit 240 may include a storage device used as a temporary storage area, such as a RAM (Random Access Memory).
  • the storage unit 240 can store various data such as a program 241, teacher data 242, first state estimation model M1, second state estimation model M2, feature estimation model M3, and object estimation model M4.
  • the program 241 causes the control unit 250 to execute a function of generating a state estimation model that estimates the installation state parameters of the imaging device 10 that captured the image data D10 using CNN.
  • the program 241 causes the control unit 250 to execute a function of generating an object estimation model that estimates information about the object indicated by the image data D10 using CNN.
  • the teacher data 242 is learning data, training data, etc. used for machine learning.
  • the teacher data 242 includes data that is a combination of image data D10 used for machine learning of state estimation and correct value data D21 associated with the image data D10.
  • Image data D10 is input data for supervised learning.
  • the image data D10 represents a color image of a traffic environment 1000 including a traffic object 1200, and has a pixel count of 1280 ⁇ 960.
  • the correct value data D21 includes data indicating the installation state parameters of the imaging device 10 that captured the image data D10.
  • the correct value data D21 is correct data of supervised machine learning.
  • the correct value data D21 includes, for example, data indicating six parameters (values) of the installation angle ( ⁇ , ⁇ , ⁇ ) and the installation position (x, y, z) of the imaging device 10.
  • the teacher data 242 further includes data that is a combination of image data D10 used for machine learning of object estimation and correct value data D22 associated with the image data D10.
  • the image data D10 represents a color image of a traffic environment 1000 including a traffic object 1200, and has a pixel count of 1280 ⁇ 960.
  • the correct value data D22 includes data indicating the object position, object size, object type, etc. of the object (traffic object 1200) indicated by the image data D10 for the number of traffic objects 1200 (objects) included in the image.
  • the object position includes, for example, coordinates (x, y) in the associated image data D10.
  • the object size includes, for example, the width, height, etc. of the object indicated by the associated image data D10.
  • the image data D10 includes nighttime images and early morning images.
  • FIG. 4 is a diagram showing an example of nighttime image data.
  • FIG. 5 is a diagram showing an example of early morning image data.
  • image data taken at night can be used to clearly extract the location of lighting devices such as headlights of vehicles that are traffic objects, and also to reflect the traffic environment other than traffic objects that do not emit light, such as roads. This is an image in which lanes, etc. are difficult to identify.
  • image data taken early in the morning is an image with low traffic volume and few traffic objects, and is an image in which the traffic environment other than traffic objects can be easily identified.
  • the first state estimation model M1 extracts features, regularities, patterns, etc. of the image data D10 using night image data (first image data) and correct value data D21 among the image data D10 included in the teacher data 242. However, this is a learning model generated by machine learning the relationship between the image and the feature amount corresponding to the correct value data D21.
  • the first state estimation model M1 receives the image data D10, it predicts teacher data 242 similar to the features of the image data D10, estimates the first feature amount data, and outputs it.
  • the second state estimation model M2 uses daytime image data (second image data) and correct value data D21 of the image data D10 included in the teacher data 242 to estimate the characteristics, regularities, patterns, etc. of the image data D10.
  • the second state estimation model M2 receives the image data D10, it predicts teacher data 242 similar to the features of the image data D10, estimates second feature amount data, and outputs the second state estimation model M2.
  • the daytime image data (second image data) is an image with fewer moving objects than the nighttime image data (first image data).
  • the third feature estimation model M3 is based on the training data 242. It was generated by extracting features, regularities, patterns, etc.
  • the third feature estimation model M3 predicts training data 242 similar to the features of the image data D10, and The installation state parameters of the imaging device 10 that captured the image are estimated, and the estimation results are output.
  • the object estimation model M4 uses the image data D10 and the correct value data D22 included in the teacher data 242 to extract features, regularities, patterns, etc. of the object in the image data D10, and performs machine learning on the relationship with the correct value data D22.
  • This is a learning model generated by When the image data D10 is input, the object estimation model M4 predicts training data 242 similar to the characteristics of the object in the image data D10, and based on the correct value data D22, the object estimation model M4 predicts training data 242 similar to the characteristics of the object in the image data D10, Estimates the position, size, type, etc. of an object and outputs the estimation results.
  • the control unit 250 is an arithmetic processing device.
  • the arithmetic processing unit is, for example, a CPU (Central Processing Unit), a SoC (System-on-a-Chip), an MCU (Micro Control Unit), or an FPGA (Field-Programmable Gate). Array), and coprocessors, but these include Not limited.
  • the control unit 250 can comprehensively control the operation of the learning device 200 to realize various functions.
  • control unit 250 can execute the instructions included in the program 241 stored in the storage unit 240 while referring to the information stored in the storage unit 240 as necessary.
  • the control unit 250 controls the functional units according to data and instructions, thereby realizing various functions.
  • the functional units include, for example, the display unit 210 and the communication unit 230, but are not limited thereto.
  • the control unit 250 includes a first acquisition unit 251, a first machine learning unit 252, a second acquisition unit 253, a second machine learning unit 254, a third acquisition unit 255, a third machine learning unit 256, a fourth acquisition unit 257, It has functional units such as a fourth machine learning unit 258.
  • the control unit 250 controls the first acquisition unit 251, the first machine learning unit 252, the second acquisition unit 253, the second machine learning unit 254, the third acquisition unit 255, and the third machine learning unit. 256, a fourth acquisition unit 257, a fourth machine learning unit 258, etc.
  • the program 241 controls the control unit 250 of the learning device 200 by controlling the first acquisition unit 251, the first machine learning unit 252, the second acquisition unit 253, the second machine learning unit 254, the third acquisition unit 255, and the third machine learning unit 256.
  • This is a program for functioning as the fourth acquisition unit 257 and the fourth machine learning unit 258.
  • the first acquisition unit 251 acquires image data D10 obtained by capturing a traffic environment 1000 including a traffic object 1200, and feature amount data corresponding to correct value data D21 of the installation state parameter of the imaging device 10 that captured the image data D10. Obtain as data.
  • the first acquisition unit 251 acquires nighttime image data from among the image data.
  • the first acquisition unit 251 acquires the feature amount data corresponding to the image data D10 and the correct value data D21 from a preset storage location, a storage location selected by the operation unit 220, etc., and stores it in the teacher data 240 of the storage unit 240. be stored in association with.
  • the first acquisition unit 251 acquires feature amount data corresponding to a plurality of image data D10 and correct value data D21 used for machine learning.
  • the first machine learning unit 252 performs machine learning using the plurality of teacher data 242 (first teacher data) acquired by the first acquisition unit 251 to estimate the feature amount of the image data (first image data).
  • a state estimation model M1 is generated.
  • the first machine learning unit 252 constructs a CNN based on the teacher data 242, for example.
  • the network is constructed so that the CNN inputs the image data D10 and outputs the identification result for the image data D10.
  • the identification result is feature amount data including the feature amount of the traffic object included in the image data D10.
  • the second acquisition unit 253 acquires, as teacher data, image data D10 capturing the traffic environment 1000 and feature amount data corresponding to correct value data D21 of the installation state parameter of the imaging device 10 that captured the image data D10.
  • the second acquisition unit 253 acquires daytime image data, particularly early morning image data, from among the image data.
  • the second acquisition unit 253 acquires the feature amount data corresponding to the image data D10 and the correct value data D21 from a preset storage location, a storage location selected by the operation unit 220, etc., and stores it in the teacher data 240 of the storage unit 240. be stored in association with.
  • the second acquisition unit 253 acquires feature amount data corresponding to the plurality of image data D10 and correct value data D21 used for machine learning.
  • the second machine learning unit 254 performs second machine learning to estimate the feature amount of the image data (second image data) by machine learning using the plurality of teacher data 242 (second teacher data) acquired by the second acquisition unit 253.
  • a state estimation model M1 is generated.
  • the second machine learning unit 252 constructs a CNN based on the teacher data 242, for example.
  • the network is constructed so that the CNN inputs the image data D10 and outputs the identification result for the image data D10.
  • the identification result is feature amount data that includes features of roads, signs, traffic lights, and fixed objects on roadside strips other than the traffic objects included in the image data D10.
  • the third acquisition unit 255 acquires the feature amount data acquired by the first machine learning unit 252 and the second machine learning unit 254 based on the image data D10 obtained by capturing the traffic environment 1000 including the traffic object 1200, and the image data.
  • the feature amount data corresponding to the correct value data D21 of the installation state parameters of the imaging device 10 that captured the image D10 are acquired as teacher data.
  • the third acquisition unit 255 acquires the feature data and the correct value data D21 from a preset storage location, a storage location selected by the operation unit 220, etc., and stores them in association with the teacher data 242 in the storage unit 240.
  • the third acquisition unit 255 acquires a plurality of feature amount data and correct value data D21 used for machine learning.
  • the third machine learning unit 256 uses machine learning using the plurality of teacher data 242 (feature data) acquired by the third acquisition unit 255 to determine the installation state parameters of the imaging device 10 that captured the input image data D10.
  • a feature estimation model M3 to be estimated is generated.
  • the third machine learning unit 256 constructs a CNN based on the teacher data 242, for example.
  • the network is constructed so that the CNN inputs the feature amount data and outputs the identification result for the image data D10.
  • the identification result includes information for estimating the installation state parameters of the imaging device 10 that captured the image data D10.
  • FIG. 6 is a diagram showing an example of a CNN used by the learning device 200 shown in FIG. 3 for state estimation.
  • the first machine learning unit 252, the second machine learning unit 254, and the third machine learning unit 256 construct the CNN shown in FIG. 6 based on the acquired teacher data 242.
  • the first machine learning unit 252, the second machine learning unit 254, and the third machine learning unit 256 each execute machine learning, and the learning results of the first machine learning unit 252 and the second machine learning unit 254 are It is supplied to the third machine learning section 256.
  • the learning in the first machine learning unit 252, the second machine learning unit 254, and the third machine learning unit 256 may be performed as one learning.
  • the feature data that serves as the correct answer data for the first machine learning section 252 and the second machine learning section 254 can be generated using various methods.
  • CNN has an input layer, a middle layer, and an output layer.
  • the learning device 200 includes a first learning unit 400, a second learning unit 410, a third learning unit 420, and output layers 430, 440, and 450.
  • the first learning unit 400 executes the processing of the first machine learning section 252.
  • the first learning unit 400 includes an input layer 500 and a middle layer 510, and outputs a result processed by the middle layer 510 to an output layer 430.
  • image data taken at night is input to the input layer 500 .
  • the input layer 500 outputs input data to the intermediate layer 510.
  • the input image data D10 is, for example, data indicating a 640 ⁇ 640 ⁇ 3 color image.
  • the intermediate layer 510 includes a plurality of feature extraction layers and a combination layer. Each of the plurality of feature extraction layers extracts different features of the image D11 indicated by the image data D10.
  • the features of the image D11 to be extracted include, for example, features related to traffic objects in the image.
  • the feature extraction layer includes, for example, one or more convolution layers and a pooling layer, and extracts desired features from the input image data D10.
  • the convolution layer of the feature extraction layer is a layer that extracts a portion of the image D11 similar to the shape of the filter (weight) by performing a convolution operation on input data.
  • the convolution layer is configured to apply an activation function to a feature map that is a calculation result.
  • a Relu (Rectified linear unit) function is applied as the activation function, but a sigmoid function or the like may be applied.
  • the pooling layer of the feature extraction layer summarizes the features of the image data D10 obtained by convolution into a maximum value or an average value, so that even if the position of the extracted feature changes, it is considered to be the same feature. .
  • the feature extraction layer 2210 learns the desired optimal output, so by increasing the number of convolution layers and pooling layers, more advanced and complex features can be extracted.
  • the combination layer combines the features extracted by the plurality of feature extraction layers and outputs the combined features to the output layer 430.
  • the intermediate layer 510 outputs data indicating the feature amount to the output layer 430.
  • the second learning unit 410 executes the processing of the second machine learning section 254.
  • the second learning unit 410 includes an input layer 520 and a middle layer 530, and outputs a result processed by the middle layer 530 to an output layer 440.
  • the input layer 520 receives image data taken early in the morning or during the day among the image data.
  • the input layer 520 outputs input data to the intermediate layer 530.
  • the input image data D10 is, for example, data indicating a 640 ⁇ 640 ⁇ 3 color image.
  • the intermediate layer 530 includes a plurality of feature extraction layers and a combination layer. Each of the plurality of feature extraction layers extracts different features of the image D11 indicated by the image data D10.
  • the features of the image D11 to be extracted include, for example, features related to the traffic environment other than traffic objects in the image.
  • the feature extraction layer includes, for example, one or more convolution layers and a pooling layer, and extracts desired features from the input image data D10.
  • the convolution layer of the feature extraction layer is a layer that extracts a portion of the image D11 similar to the shape of the filter (weight) by performing a convolution operation on input data.
  • the convolution layer is configured to apply an activation function to a feature map that is a calculation result.
  • a Relu (Rectified linear unit) function is applied as the activation function, but a sigmoid function or the like may be applied.
  • the pooling layer of the feature extraction layer summarizes the features of the image data D10 obtained by convolution into a maximum value or an average value, so that even if the position of the extracted feature changes, it is considered to be the same feature. .
  • the feature extraction layer 2210 learns the desired optimal output, so by increasing the number of convolution layers and pooling layers, more advanced and complex features can be extracted.
  • the combination layer combines the features extracted by the plurality of feature extraction layers and outputs the result to the output layer 440.
  • the intermediate layer 530 outputs data indicating the feature amount to the output layer 440.
  • the second learning unit 410 outputs data in the same data format as the first learning unit 400, that is, the feature amount data has the same number of pixels.
  • the synthesis unit 540 synthesizes the output layer 430 and the feature amount data output from the output layer 440.
  • the synthesis unit 540 selects the feature data of one image from the feature data of the plurality of images output from the output layer 430, and selects the feature data of one image from the feature data of the plurality of images output from the output layer 440. It is selected and combined with feature data to generate one feature data.
  • the compositing unit 540 performs compositing processing for the number of images of feature data output from the output layer 430 and the output layer 440, and generates feature data for a predetermined number of images. Note that the method for selecting images by the combining section 540 is not particularly limited. Furthermore, one image data may be used multiple times.
  • the third learning unit 420 executes the processing of the third machine learning section 256.
  • the third learning unit 420 includes a middle layer 530 and outputs the results processed by the middle layer 550 to the output layer 450.
  • the intermediate layer 530 is supplied with the feature amount data synthesized by the synthesis section 540.
  • the intermediate layer 530 includes a plurality of feature extraction layers and a combination layer. Each of the plurality of feature extraction layers extracts different features of the image D11 indicated by the image data D10 included in the feature amount data.
  • the feature extraction layer includes, for example, one or more convolution layers, and extracts desired features from the input image data D10.
  • the convolution layer of the feature extraction layer is a layer that extracts a portion of the image D11 similar to the shape of the filter (weight) by performing a convolution operation on input data.
  • the convolution layer is configured to apply an activation function to a feature map that is a calculation result. In this embodiment, a Relu (Rectified linear unit) function is applied as the activation function, but a sigmoid function or the like may be applied.
  • the pooling layer of the feature extraction layer summarizes the features of the image data D10 obtained by convolution into a maximum value or an average value, so that even if the position of the extracted feature changes, it is considered to be the same feature. .
  • the feature extraction layer 2210 learns the desired optimal output, so by increasing the number of convolution layers and pooling layers, more advanced and complex features can be extracted.
  • the combination layer combines the features extracted by the plurality of feature extraction layers and outputs the result to the output layer 450.
  • the output layer 450 estimates the installation state parameters of the imaging device 10 that captured the image data D10 based on the features extracted by the intermediate layer 550 and the correct value data D21.
  • the output layer 450 specifies the correct value data D21 associated with a feature similar to the feature output by the combination layer, and outputs the installation state parameter indicated by the correct value data D21.
  • the first machine learning unit 252, the second machine learning unit 254, and the third machine learning unit 256 perform machine learning using the plurality of teacher data 242 to install the imaging device 10 that captured the input image data D10.
  • a first state estimation model M1, a second state estimation model M2, and a feature estimation model M3 are generated.
  • the first machine learning unit 252, the second machine learning unit 254, and the third machine learning unit 256 store the generated first state estimation model M1, second state estimation model M2, and feature estimation model M3 in the storage unit 240. Thereby, the first state estimation model M1 can output feature amount data of the image data when the image data D10 is input.
  • the second state estimation model M2 can output feature amount data of the image data when the image data D10 is input.
  • the feature estimation model M3 can output the result of estimating the installation state parameters of the imaging device 10 that captured the image data D10 when the data in which the feature amount data is synthesized is input.
  • the fourth acquisition unit 257 shown in FIG. 3 acquires, as teacher data 242, image data D10 captured by the imaging device 10 of the traffic environment 1000 including the traffic objects 1200, and correct value data D22 of object detection in the image data D10. .
  • the second acquisition unit 253 acquires the image data D10 and the correct value data D22 from a preset storage location, a storage location selected by the operation unit 220, etc., and stores them in association with the teacher data 242 in the storage unit 240.
  • the fourth acquisition unit 257 acquires a plurality of image data D10 and correct value data D22 used for machine learning.
  • the fourth machine learning unit 258 performs machine learning using the teacher data 242 (fourth teacher data) to determine at least one of the position, size, and type of the traffic object 1200 in the traffic environment 1000 indicated by the input image data D10.
  • An object estimation model M2 to be estimated is generated.
  • the fourth machine learning unit 258 constructs a CNN corresponding to the detection of the traffic object 1200 (object) based on the teacher data 242.
  • the CNN is constructed such that it receives the image data D10 as input and outputs the estimation result of estimating the position, size, and type of the traffic object 1200 in the traffic environment 1000 indicated by the image data D10.
  • the identification result includes the position, size, and type of the traffic object 1200 indicated by the image data D10.
  • the fourth machine learning unit 258 constructs the CNN shown in FIG. 7 based on the acquired teacher data 242.
  • CNN has an input layer 2100, a middle layer 2200, and an output layer 2300.
  • the input layer 2100 supplies input image data D10 to the intermediate layer 2200.
  • the input image data D10 is, for example, data indicating a 640 ⁇ 640 ⁇ 3 color image.
  • the intermediate layer 2200 includes a plurality of feature extraction layers 2210 and a combination layer 2220.
  • the feature extraction layer 2210 extracts the traffic object 1200 (feature) in the image shown by the image data D10.
  • the feature extraction layer 2210 includes, for example, a plurality of convolution layers and a pooling layer, and extracts the traffic object 1200 as a feature from the input image data D10.
  • the convolution layer of the feature extraction layer 2210 extracts a portion of the image D11 similar to the shape of the filter (weight) by performing a convolution operation on the input data.
  • the convolution layer is configured to apply an activation function to a feature map that is a calculation result.
  • the pooling layer of the feature extraction layer 2210 summarizes the features of the image data D10 obtained by convolution into a maximum value or an average value, thereby performing a process of considering the same feature even if the position of the extracted feature changes. conduct.
  • the feature extraction layer 2210 learns the desired optimal output, so by increasing the number of convolution layers and pooling layers, more advanced and complex features can be extracted.
  • the combination layer 2220 combines the features extracted by the plurality of feature extraction layers 2210 and outputs the combined features to the output layer 2300.
  • the output layer 2300 estimates the traffic object 1200 in the image shown by the image data D10 based on the features extracted by the intermediate layer 2200 and the correct value data D22.
  • the output layer 2300 identifies the correct value data D22 associated with a feature similar to the feature output by the fully connected layer 2220, and identifies the position, size, and type of the traffic object 1200 indicated by the correct value data D22, and the estimated traffic object.
  • the number of 1200 pieces is output.
  • the fourth machine learning unit 258 performs machine learning using the plurality of teacher data 242 (fourth teacher data) acquired by the fourth acquisition unit 257 to obtain the traffic object 1200 in the image D11 indicated by the input image data D10.
  • the weights and the like of the intermediate layer 2200 are determined and set in the CNN so as to estimate the object estimation model M2.
  • the fourth machine learning unit 258 stores the generated object estimation model M2 in the storage unit 240.
  • the object estimation model M4 can output the position, size, and type of the traffic object 1200 indicated by the image data D10 for the number of estimated traffic objects 1200. can.
  • the functional configuration example of the learning device 200 according to the present embodiment has been described above. Note that the above configuration described using FIG. 3 is just an example, and the functional configuration of the learning device 200 according to the present embodiment is not limited to the example.
  • the functional configuration of the learning device 200 according to this embodiment can be flexibly modified according to specifications and operation.
  • FIG. 8 is a diagram illustrating an example of the configuration of the state estimation device 100 according to the embodiment.
  • FIG. 9 is a diagram illustrating an example of the configuration of a control unit of the state estimation device according to the embodiment.
  • the state estimation device 100 includes an input section 110, a communication section 120, a storage section 130, and a control section 140.
  • the control section 140 is electrically connected to the input section 110, the communication section 120, the storage section 130, and the like.
  • the input unit 110 receives image data D10 captured by the imaging device 10.
  • the input unit 110 has a connector that can be electrically connected to the imaging device 10 via a cable, for example.
  • the input unit 110 supplies image data D10 input from the imaging device 10 to the control unit 140.
  • the communication unit 120 can communicate with, for example, the learning device 200, a management device that manages the imaging device 10, and the like.
  • the communication unit 120 can support various communication standards.
  • the communication unit 120 can transmit and receive various information via, for example, a wired or wireless network.
  • the communication unit 120 can supply the received data to the control unit 140.
  • the communication unit 120 can transmit data to a destination instructed by the control unit 140.
  • the storage unit 130 can store programs and data.
  • the storage unit 130 is also used as a work area for temporarily storing processing results of the control unit 140.
  • the storage unit 130 may include any non-transitory storage medium such as a semiconductor storage medium and a magnetic storage medium.
  • the storage unit 130 may include multiple types of storage media.
  • the storage unit 130 may include a combination of a portable storage medium such as a memory card, an optical disk, or a magneto-optical disk, and a storage medium reading device.
  • the storage unit 130 may include a storage device such as a RAM used as a temporary storage area.
  • the storage unit 130 can store, for example, a program 131, setting data 132, feature data (feature storage unit) 133, image data D10, state estimation model M1, object estimation model M2, and the like.
  • the program 131 causes the control unit 140 to execute functions related to various controls for operating the state estimation device 100.
  • the setting data 132 includes data such as various settings related to the operation of the state estimation device 100 and settings related to the installation state of the imaging device 10 to be managed.
  • the feature data 133 includes feature data calculated when processing the plurality of image data D10.
  • the storage unit 130 can store a plurality of pieces of image data D10 in chronological order.
  • the first state estimation model M1, the second state estimation model M2, the feature estimation model M3, and the object estimation model M4 are machine learning models generated by the learning device 200.
  • the control unit 140 is an arithmetic processing device. Arithmetic processing devices include, but are not limited to, CPUs, SoCs, MCUs, FPGAs, and coprocessors, for example.
  • the control unit 140 centrally controls the operation of the state estimation device 100 to realize various functions.
  • control unit 140 executes the instructions included in the program 131 stored in the storage unit 130 while referring to the data stored in the storage unit 130 as necessary.
  • the control unit 140 controls the functional units according to data and instructions, thereby realizing various functions.
  • the functional units include, for example, the input unit 110 and the communication unit 120, but are not limited thereto.
  • the control unit 140 has functional units such as a processing unit 141, an estimation unit 142, and a diagnosis unit 143.
  • the control unit 140 implements functional units such as a processing unit 141, an estimation unit 142, a diagnosis unit 143, and the like by executing the program 131.
  • the program 131 is a program for causing the control unit 140 of the state estimation device 100 to function as the processing unit 141, the estimation unit 142, and the diagnosis unit 143.
  • the processing unit 141 and the estimating unit 142 execute processing in a first processing unit 150, a second processing unit 160, and a third processing unit 170, respectively.
  • the first processing unit 150 includes a model acquisition section 152 included in the processing section 141, a preprocessing section 154, a used image determination section 156 and a state estimation section 158 included in the estimation section 142.
  • the second processing unit 160 includes a model acquisition section 162 included in the processing section 141 , a preprocessing section 164 , and a state estimation section 166 included in the estimation section 142 .
  • the third processing unit 170 includes a model acquisition section 172 included in the processing section 141, a feature synthesis section 174, and a feature estimation section 176 included in the estimation section 142.
  • the processing unit 141 obtains a model used by the estimation unit 142.
  • the model acquisition unit 152 acquires a first state estimation model M1 and an object estimation model M4.
  • the model acquisition unit 162 acquires the second state estimation model M2.
  • the model acquisition unit 172 acquires the feature estimation model M3.
  • the processing unit 141 acquires image data D10 captured by the imaging device 10.
  • the processing unit 141 preprocesses the image data D10 used by the estimation unit 142, and supplies the preprocessed image data D10 to the estimation unit 142.
  • the preprocessing unit 154 performs various processes on the acquired image data.
  • the preprocessing unit 154 uses the object estimation model M2 to extract traffic objects included in the acquired image data. Further, the preprocessing unit 154 may process the image data D10 so that the image includes the traffic object 1200 that can be used to estimate the installation state of the imaging device 10.
  • Traffic objects 1200 that can be used for estimation include vehicles and the like whose appearance is suitable for estimation of installation state parameters.
  • the traffic objects 1200 that can be used for estimation include, for example, a vehicle or a person existing in the predetermined area D100 of the image D11, a vehicle or a person heading toward the imaging device 10, and the like.
  • the predetermined area D100 includes, for example, a preset area in the image D11, a central area of the image D11, and the like.
  • Traffic objects 1200 that are not suitable for estimation include, for example, large vehicles such as freight cars, passenger cars, and construction machines that exist in the predetermined area D100 of the image D11 indicated by the image data D10.
  • the processing unit 141 processes the image data D10 so that it includes at least one of the traffic object 1200 existing in the predetermined area D100 and the traffic object 1200 whose front is facing the imaging device 10.
  • the processing unit 141 may have a function of processing the image data D10 so as to delete or change the traffic object 1200 that is unnecessary for estimating the installation state parameter of the imaging device 10 from the image D11.
  • the preprocessing unit 164 performs various processes on the acquired image data.
  • the preprocessing unit 164 extracts traffic objects included in the acquired image data using the object estimation model M2, and selects them as image data to be used when the number of traffic objects is less than or equal to a threshold value.
  • the preprocessing unit 164 may perform processing that improves the accuracy of identifying the traffic environment, such as brightness adjustment and edge detection.
  • the feature synthesis section 174 synthesizes the feature amount data processed by the first processing unit 150 and the second processing unit 160 stored in the feature storage section 133.
  • the feature synthesis section 174 supplies the synthesized feature amount data to the feature estimation section 176.
  • the estimation unit 142 performs estimation processing using the first state estimation model M1, second state estimation model M2, and feature estimation model M3 generated by the learning device 200.
  • the used image determining unit 156 selects image data to be used for estimation processing from the image data processed by the preprocessing unit 154.
  • the used image determination unit 156 selects a set number of image data based on criteria such as images in which traffic objects are extracted using the object estimation model M4 in a size larger than a predetermined size, images in which the estimated angle is high, and the like.
  • the state estimation unit 158 inputs the image data processed by the preprocessing unit 154 and determined to be used by the usage image determination unit 156 to the first state estimation model M1, and estimates feature data (first feature data). and output.
  • the state estimation unit 166 inputs the image data processed by the preprocessing unit 164 to the second state estimation model M2, estimates and outputs feature amount data (second feature amount data).
  • the feature estimation unit 176 inputs the data obtained by synthesizing the feature amounts in the feature synthesis unit 174 to the feature estimation model M3, and estimates the installation state parameters of the imaging device 10 based on the output of the feature estimation model M3.
  • the diagnosis unit 143 can provide a function of diagnosing the installation state of the imaging device 10 based on the installation state parameters estimated by the estimation unit 142.
  • the diagnosis unit 143 can diagnose whether the estimation results of the installation state parameters are appropriate.
  • the diagnosis unit 143 can diagnose the installation state of the imaging device 10 based on the installation state parameters estimated by the estimation unit 142 and the bird's-eye view state of the traffic object 1200 indicated by the image data D10.
  • the diagnosis unit 143 compares the posture of the traffic object 1200 indicated by the image data D10 and the posture of the traffic object 1200 calculated based on the installation state parameters estimated by the estimation unit 142, and if the degree of coincidence is higher than the determination threshold Additionally, the installation state of the imaging device 10 can be diagnosed.
  • the diagnosis unit 143 can compare the installation state parameter estimated by the estimation unit 142 with a preset installation state parameter, and diagnose the installation state of the imaging device 10 based on the comparison result.
  • the control unit 140 can provide a function of supplying the installation state parameters estimated by the estimation unit 142, the diagnosis results of the diagnosis unit 143, etc. to an external device, a database, etc. For example, the control unit 140 performs control to supply the installation state parameters estimated by the estimation unit 142, the diagnosis results of the diagnosis unit 143, etc. via the communication unit 120.
  • the functional configuration example of the state estimation device 100 according to the present embodiment has been described above. Note that the above configuration described using FIG. 8 is just an example, and the functional configuration of the state estimation device 100 according to this embodiment is not limited to the example.
  • the functional configuration of the state estimation device 100 according to this embodiment can be flexibly modified according to specifications and operation.
  • the state estimation device 100 has the control unit 140 functioning as the processing unit 141, the estimation unit 142, and the diagnosis unit 143.
  • the control unit 140 includes the estimation unit 142 and the diagnosis unit 143.
  • a configuration may be adopted in which the processing unit 141 is not provided.
  • the state estimation device 100 may input the image data D10 captured by the imaging device 10 into the state estimation model M1 without preprocessing the image data D10.
  • the processing unit 141 of the state estimation device 100 may be configured in the imaging device 10.
  • FIG. 10 is a flowchart illustrating an example of a state estimation method executed by the state estimation device 100.
  • the state estimating device 100 executes the method shown in FIG. 10 at an execution timing such as when the imaging device 10 is installed, during maintenance, or when an execution instruction is received from the outside. For example, after installation and maintenance are performed at night, the state estimating device 100 acquires image data between night and early morning, and executes the processing shown in FIG. 10 . Note that image data may be acquired for processing between daytime and nighttime.
  • the state estimation device 100 executes estimation processing in the first processing unit (step S12).
  • FIG. 11 is a flowchart illustrating an example of a state estimation method executed by the first processing unit.
  • the first processing unit 150 acquires image data (step S32).
  • the first processing unit 150 detects the photographing time of the image data (step S34).
  • the first processing unit 150 may acquire the photographing time from the imaging device 10 or may perform image analysis and acquire the photographing time from the brightness and illuminance of the image.
  • the first processing unit 150 determines whether the image is a night image (step S36). If the first processing unit 150 determines that the image is not a night image (No in step S36), the process proceeds to step S44.
  • the first processing unit 150 determines that the image is a night image (first image data) (Yes in step S36), it analyzes the image data (step S38). Specifically, the first processing unit 150 detects traffic objects using the object estimation model M4. The first processing unit 150 determines whether there is a traffic object (step S40). The determination criterion is not limited to the presence or absence of a traffic object, but may also be based on whether the traffic object is present at a threshold value or more, or the size and position of the detected traffic object. When the first processing unit 150 determines that there is no traffic object (No in step S40), the process proceeds to step S44. If the first processing unit 150 determines that there is a traffic object (Yes in step S40), the first processing unit 150 selects it as image data to be analyzed (step S42).
  • the first processing unit 150 determines No in step S36, if it determines No in step S40, or executes the process in step S42, the first processing unit 150 determines whether the acquisition of the required number of image data has been completed ( Step S44).
  • step S44 If the first processing unit 150 determines that acquisition of the required number of image data has not been completed (No in step S44), the process returns to step S32. Thereby, the first processing unit 150 repeats the processing from step S32 to step S44 until the required number of image data is acquired.
  • the first processing unit 150 determines that the acquisition of the required number of image data has been completed (Yes in step S44)
  • the first processing unit 150 processes the selected image data to create first feature data (step S46).
  • the first processing unit 150 inputs the selected image data to the first state estimation model M1, estimates feature amount data, and outputs the estimated feature amount data.
  • the state estimation device 100 stores the output first feature data in the feature storage unit 133 (step S14). Next, the state estimating device 100 executes estimation processing in the second processing unit (step S16).
  • FIG. 12 is a flowchart illustrating an example of a state estimation method executed by the second processing unit.
  • the second processing unit 160 acquires image data (step S52).
  • the second processing unit 160 detects the photographing time of the image data (step S54).
  • the second processing unit 160 may acquire the photographing time from the imaging device 10 or may perform image analysis and acquire the photographing time from the brightness and illuminance of the image.
  • the second processing unit 160 determines whether the image is an early morning image (step S56). When the second processing unit 160 determines that the image is not an early morning image (No in step S56), the process proceeds to step S64.
  • the second processing unit 160 determines that the image is an early morning image (second image data) (Yes in step S56), it analyzes the image data (step S58). Specifically, the second processing unit 160 detects traffic objects using the object estimation model M4. The second processing unit 160 determines whether the number of traffic objects is below a predetermined value (step S60). The determination criterion may be the presence or absence of a traffic object, or the size and position of the detected traffic object. If the second processing unit 160 determines that there are more traffic objects than a predetermined number (No in step S60), the process proceeds to step S64. When the second processing unit 160 determines that the traffic object is below a predetermined value (Yes in step S60), the second processing unit 160 selects it as image data to be analyzed (step S62).
  • Step S64 the second processing unit 160 determines whether the acquisition of the required number of image data has been completed.
  • step S64 If the second processing unit 160 determines that the acquisition of the required number of image data has not been completed (No in step S64), the process returns to step S52. Thereby, the second processing unit 160 repeats the processing from step S52 to step S64 until the required number of image data is acquired.
  • the second processing unit 160 determines that the acquisition of the required number of image data has been completed (Yes in step S64), it processes the selected image data to create first feature data (step S66).
  • the second processing unit 160 inputs the selected image data to the second state estimation model M2, estimates feature amount data, and outputs the estimated feature amount data.
  • the state estimation device 100 combines the first feature data and the second feature data (step S18).
  • the state estimating device 100 selects one piece of image data from each of the first feature data outputted by the first processing unit 150 and the second feature data outputted by the second processing unit 160, and combines them into one piece of image data. Create feature data for image data.
  • feature amount data of the image data is generated that includes both the feature amount of the traffic object extracted using the first feature amount data and the feature amount data of the traffic environment other than the traffic object extracted using the second feature amount data. be done.
  • the state estimation device 100 calculates an evaluation value (step S20).
  • the third processing unit 170 inputs the synthesized feature amount data to the feature estimation model M3, and estimates the installation state parameters of the imaging device 10 that captured the input image data D10.
  • the state estimation device 100 estimates the road area of the road 1100 in the image D11 shown by the image data D10 based on the installation state parameters estimated by the feature estimation model M3.
  • the state estimating device 100 stores the estimated installation state parameters and road area in the storage unit 130 in association with the image data D10.
  • the state estimation device 100 executes diagnosis based on the evaluation value (step S22).
  • the state estimating device 100 diagnoses whether the estimated installation state parameters of the imaging device 10 are suitable. Diagnosis of whether the installation state parameters of the imaging device 10 are suitable is performed by diagnosing that the installation state parameters of the imaging device 10 are suitable if the installation state parameters do not require resetting, adjustment, etc. of the imaging device 10. Including.
  • the state estimation device 100 stores the diagnosis result in the storage unit 130 in association with the imaging device 10. When the state estimating device 100 diagnoses that the installation state parameters of the imaging device 10 are suitable, it can supply the diagnosis result, the installation state parameters, etc. to subsequent processing. Further, when the state estimating device 100 diagnoses that the installation state parameters of the imaging device 10 are not suitable, the state estimation device 100 can take an image again with the imaging device 10 and estimate the installation state parameters using the captured image data D10.
  • the state estimation device 100 can estimate installation state parameters with high accuracy. Specifically, by extracting features of traffic objects from nighttime image data using the first state estimation model M1, traffic objects whose lighting devices are turned on in dark surroundings can be identified with high accuracy. Can be done. In addition, by extracting features of the traffic environment other than traffic objects using early morning image data using the second state estimation model M2, it is possible to estimate the traffic environment using images that are not obstructed by moving objects such as vehicles. Features can be extracted with high accuracy. In addition, the state estimation device 100 can estimate installation state parameters with high accuracy by combining the respective feature amounts and estimating the features. Furthermore, since work is frequently performed at night, by processing nighttime images and early morning images, installation state parameters can be estimated in a short period of time after work is performed.
  • the present invention is not limited thereto.
  • the state estimation device 100 may be incorporated into the imaging device 10 and realized by a control unit, a module, etc. of the imaging device 10.
  • the state estimation device 100 may be incorporated into traffic lights, lighting equipment, communication equipment, etc. installed in the traffic environment 1000.
  • the state estimation device 100 described above may be realized by a server device or the like.
  • the state estimation device 100 can be a server device that acquires image data D10 from each of the plurality of imaging devices 10, estimates installation state parameters from the image data D10, and provides the estimation results.
  • the learning device 200 includes two devices: a first device that generates a first state estimation model M1, a second state estimation model M2, and a feature estimation model M3, and a second device that generates an object estimation model M2. You may.
  • the first state estimation model M1, the second state estimation model M2, and the feature estimation model M3 may be provided as separate devices.
  • the present disclosure describes not only the case where the first state estimation model M1, the second state estimation model M2, and the feature estimation model M3 are performed as separate models or in separate learning units, but also as an integrated model that combines both models. , an embodiment in which machine learning is also performed in one machine learning unit integrated therein may be used. In other words, the present disclosure may also include an example in which one model is executed by one learning unit.
  • each functional unit, each means, each step, etc. may be added to other embodiments so as not to be logically contradictory, or each functional unit, each means, each step, etc.
  • each embodiment it is possible to combine or divide a plurality of functional units, means, steps, etc. into one. Further, each embodiment of the present disclosure described above is not limited to being implemented faithfully to each described embodiment, but may be implemented by combining each feature or omitting a part as appropriate. You can also do that.
  • [Additional note] (Additional note 1) input using first teacher data having first image data obtained by imaging a traffic environment by an imaging device and first correct value data of a first extraction target including a moving object included in the first image data.
  • a first object estimation model that is machine-learned to estimate first feature data obtained by estimating the feature data of the first extraction target from the first image data, and extracts the first feature data from the input image data.
  • a first state estimation unit that estimates;
  • the above-mentioned data inputted using second teacher data having second image data obtained by capturing an image of a traffic environment by an imaging device and second correct value data of a second extraction target including a road included in the second image data.
  • a second object estimation model that is machine-learned to estimate second feature data that estimates the features of the first extraction target from the first image data estimates the second feature data from the input image data.
  • a second state estimator that performs The image capturing is performed by capturing the input image data using third teacher data including image data obtained by an image capturing device capturing a traffic environment and correct value data of installation state parameters of the image capturing device that captured the image data.
  • the imaging device captures the input image data from data obtained by combining the first feature amount data and the second feature amount data using a state estimation model that is machine-learned to estimate the installation state parameters of the device.
  • a feature estimation unit that estimates the installation state parameter of; a diagnosis unit that diagnoses the installation state of the imaging device based on the estimated installation state parameters; Equipped with State estimation device.
  • a first preprocessing unit that processes the first image data obtained by imaging the traffic environment by the imaging device to include a first extraction target that can be used for estimation; further comprising a second preprocessing unit that processes the second image data obtained by imaging the traffic environment by the imaging device to include a second extraction target that can be used for estimation;
  • the first processing unit inputs the first image data processed by the processing unit into the first state estimation model, and estimates first feature data;
  • the second processing unit inputs the first image data processed by the processing unit into the second state estimation model, and estimates second feature data.
  • State estimation device In the state estimation device described in (Appendix 1), The first image data is an image taken at night, The second image data is an image taken during the day. State estimation device. (Additional note 4) In the state estimation device described in (Appendix 1), A state estimation device comprising a feature storage section that stores the first feature amount data. (Appendix 5) In the state estimation device described in (Appendix 1), A state estimation device in which the first state estimation unit, the second state estimation unit, and the feature estimation unit are arranged on a cloud server.
  • the diagnosis unit diagnoses the installation status of the imaging device based on the installation status parameter estimated by the estimation unit and the bird's-eye view status of the traffic object indicated by the image data.
  • the diagnosis unit compares the posture of the traffic object indicated by the image data and the posture of the traffic object calculated based on the installation state parameter estimated by the estimation unit, and determines that a degree of coincidence is higher than a determination threshold.
  • the computer is input using first teacher data having first image data obtained by imaging a traffic environment by an imaging device and first correct value data of a first extraction target including a moving object included in the first image data.
  • a first object estimation model that is machine-learned to estimate first feature data obtained by estimating the feature data of the first extraction target from the first image data, and extracts the first feature data from the input image data.
  • estimating and The above-mentioned data inputted using second teacher data having second image data obtained by capturing an image of a traffic environment by an imaging device and second correct value data of a second extraction target including a road included in the second image data.
  • a second object estimation model that is machine-learned to estimate second feature data that estimates the features of the first extraction target from the first image data, estimates the second feature data from the input image data.
  • the image capturing is performed by capturing the input image data using third teacher data including image data obtained by an image capturing device capturing a traffic environment and correct value data of installation state parameters of the image capturing device that captured the image data.
  • the imaging device captures the input image data from data obtained by combining the first feature amount data and the second feature amount data using a state estimation model that is machine-learned to estimate the installation state parameters of the device.
  • a state estimation method comprising: (Appendix 9) to the computer, input using first teacher data having first image data obtained by imaging a traffic environment by an imaging device and first correct value data of a first extraction target including a moving object included in the first image data.
  • a first object estimation model that is machine-learned to estimate first feature data obtained by estimating the feature data of the first extraction target from the first image data, and extracts the first feature data from the input image data.
  • a second object estimation model that is machine-learned to estimate second feature data that estimates the features of the first extraction target from the first image data, estimates the second feature data from the input image data.
  • the image capturing is performed by capturing the input image data using third teacher data including image data obtained by an image capturing device capturing a traffic environment and correct value data of installation state parameters of the image capturing device that captured the image data.
  • the imaging device captures the input image data from data obtained by combining the first feature amount data and the second feature amount data using a state estimation model that is machine-learned to estimate the installation state parameters of the device. estimating the installation state parameters of; diagnosing the installation state of the imaging device based on the estimated installation state parameters; A state estimation program that executes.
  • a first state estimator trained to estimate first feature data from first image data including a moving object captured by the imaging device; a second state estimation unit trained to estimate second feature data from second image data including a road imaged by the imaging device; a feature estimation unit trained to estimate the installation state parameter of the imaging device that captured the input image data from the first feature data and the second feature data; State estimation device.
  • the state estimating device wherein the second image data is an image with fewer moving objects than the first image data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

状態推定装置(100)は、入力した前記画像データから第1特徴量データを推定する第1状態推定部と、入力した画像データから第2特徴量データを推定する第2状態推定部と、撮像装置が交通環境を撮像した画像データと画像データを撮像した撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された画像データを撮像した撮像装置の設置状態パラメータを推定するように機械学習した状態推定モデルで、第1特徴量データと第2特徴量データとを合成したデータから、入力した画像データを撮像した撮像装置の設置状態パラメータを推定する特徴推定部と、推定した設置状態パラメータに基づいて撮像装置の設置状態を診断する診断部と、を備える。

Description

状態推定装置、状態推定方法及び状態推定プログラム
 本出願は、状態推定装置、状態推定方法及び状態推定プログラムに関する。
 道路上、道路の路側等に設置されたカメラは、キャリブレーションを行うことが知られている。特許文献1には、GPS受信機、データ送信機、目印等を搭載した計測車両を用いてキャリブレーションを行うことが開示されている。特許文献2には、カメラのキャリブレーションにおいて、道路平面に存在するラインの方向が撮像画像において入力された場合に、当該方向と道路平面パラメータを含む演算式によって表される方向とに基づいて、道路平面パラメータを推定することが開示されている。
特開2012-10036号公報 特開2017-129942号公報
 特許文献1では、計測車両が必要であり、キャリブレーションを行う場合に作業者が必要であった。特許文献2では、道路上の車線を画像に対して手入力する必要があり、作業の手間がかかるという問題がある。このため、道路を撮像する従来の撮像装置は、人的作業や交通規制を必要とすることなく、交通環境を撮像する撮像装置の設置状態を推定したいとのニーズがある。
 態様の1つに係る状態推定装置は、撮像装置が撮像した移動体を含む第1画像データから第1特徴量データを推定するよう訓練された第1状態推定部と、前記撮像装置が撮像した道路を含む第2画像データから第2特徴量データを推定するよう訓練された第2状態推定部と、前記第1特徴量データと前記第2特徴量データとから、入力した画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するよう訓練された特徴推定部と、を備える。
 態様の1つに係る状態推定装置は、撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定する第1状態推定部と、撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定する第2状態推定部と、撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを合成したデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定する特徴推定部と、推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断する診断部と、を備える。
 態様の1つに係る状態推定方法は、コンピュータが、撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定することと、撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定すること、撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを合成したデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定すること、推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断すること、を含む。
 態様の1つに係る状態推定プログラムは、コンピュータに、撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定することと、撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定すること、撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを合成したデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定すること、推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断すること、を実行させる。
図1は、実施形態に係る学習装置と状態推定装置との関係例を説明するための図である。 図2は、図1に示す撮像装置が撮像した画像データの一例を示す図である。 図3は、実施形態に係る学習装置の構成の一例を示す図である。 図4は、夜間の画像データの一例を示す図である。 図5は、早朝の画像データの一例を示す図である。 図6は、図3に示す学習装置が状態推定に用いるCNNの一例を示す図である。 図7は、図3に示す学習装置が物体検出に用いるCNNの一例を示す図である。 図8は、実施形態に係る状態推定装置の構成の一例を示す図である。 図9は、実施形態に係る状態推定装置の制御部の構成の一例を示す図である。 図10は、状態推定装置が実行する状態推定方法の一例を示すフローチャートである。 図11は、第1処理ユニットが実行する状態推定方法の一例を示すフローチャートである。 図12は、第2処理ユニットが実行する状態推定方法の一例を示すフローチャートである。
 本出願に係る状態推定装置、状態推定方法及び状態推定プログラムを実施するための複数の実施形態を、図面を参照しつつ詳細に説明する。なお、以下の説明により本発明が限定されるものではない。また、以下の説明における構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。
(システム概要)
 従来のシステムでは、撮像装置の設置状態の情報を用いて、撮像した画像と実世界を結びつけるには、専用の治具と作業が必要であった。また、従来のシステムは、撮像装置が道路の近傍に設置されているため、道路規制作業を行う必要があった。本実施形態に係る状態推定装置は、治具を用いた作業、道路規制作業等を不要とし、交通環境への撮像装置10の普及に貢献する。
 図1は、実施形態に係る学習装置と状態推定装置との関係例を説明するための図である。図2は、図1に示す撮像装置が撮像した画像データの一例を示す図である。図1に示すように、システム1は、撮像装置10と、状態推定装置100と、を有する。撮像装置10は、交通環境1000を撮像した画像データD10を取得できる。状態推定装置100は、撮像装置10から画像データD10を取得し、当該画像データD10に基づいて撮像装置10の設置状態を推定する機能を有する。撮像装置10と状態推定装置100とは、有線または無線によって通信可能な構成になっている。図1に示す一例では、説明を簡単化するために、システム1は、撮像装置10及び状態推定装置100をそれぞれ1台有する場合について説明するが、撮像装置10及び状態推定装置100の数は複数であってもよい。
 撮像装置10は、道路1100と当該道路1100を移動する交通事物1200とを含む交通環境1000を撮像可能なように設置されている。道路1100を移動する交通事物1200は、例えば、道路1100を移動可能な車両、人物等を含む。交通事物1200は、例えば、道路交通法で定められた大型自動車、普通自動車、大型特殊自動車、大型自動二輪、普通自動二輪車、小型特殊自動車等を含むが、他の車両、移動体等を含んでもよい。なお、大型自動車は、自動車で車両総重量が8000kg以上のもの、最大積載量が5000kg以上のもの、乗車定員が11人以上のもの(バス、トラックなど)等を含む。撮像装置10は、例えば、CCD(Charge Coupled Device Image Sensor)、CMOS(Complementary Metal Oxide Semiconductor)等のイメージセンサを用いて電子的に画像を撮像できる。撮像装置10の撮像方向は、交通環境1000の道路平面に向けられた状態で設置されている。撮像装置10は、例えば、道路、交差点、駐車場等に設置できる。撮像装置10が撮像する道路1100には、道路の直線や曲がり具合や勾配などの形状、道路に設置された標識、中央分離帯の形状、道路に描かれたラインやマークや標識、ガードレール、街灯、樹木、歩道、行先案内板、広告、及び、カーブなどの道路形状を注意したりなどする蛍光体が含まれるとしてよい。
 図1に示す一例では、撮像装置10は、道路1100とその周囲を含む交通環境1000の撮像領域を、俯瞰するように撮像可能な設置角度で路側に設置されている。撮像装置10は、交通環境1000を撮像することにより画像データD10を取得する。撮像装置10は、撮像方向が固定されるように設けられてもよいし、同じ位置で撮像方向が可動機構によって変更可能に設けられてもよい。撮像装置10の画像データD10は、図2に示すように、複数の道路1100を示す第1領域D110と、当該道路1100を通る交通事物1200を示す第2領域D120とを有する画像D11を示すデータである。
 撮像装置10は、撮像した画像データを状態推定装置100に供給する。本実施形態では、画像データは、例えば、動画、静止画等の2次元画像を含む。本実施形態の撮像装置10は、夜間、日中に撮像を行い、種々の画像データを撮像して状態推定装置100に供給する。画像データD10は、画像D11に対して所定領域D100が予め設定されている。所定領域D100は、推定に利用可能な交通事物1200を含める領域であり、撮像する交通環境1000に基づいて適宜設定することができる。所定領域D100は、画像D11の全ての領域としてもよい。推定に利用可能な交通事物1200は、例えば、状態推定モデルM1の機械学習の正解値として用いられた交通事物1200等を含む。推定に利用可能な交通事物1200は、状態推定モデルM1の推定に適した交通事物1200である。
 図1に示すように、状態推定装置100は、撮像装置10の近傍に設けられてもよいし、撮像装置10から離れた位置に設けられてもよい。図1に示す一例では、説明を簡単化するために、状態推定装置100は、1台の撮像装置10から画像データD10が供給される場合について説明するが、例えば、複数の撮像装置10のそれぞれから画像データD10が供給されてもよい。交通事物1200は、道路方向C1に沿って車線を撮像装置10に向かって移動しており、道路方向C2が対向車線の方向を示している。
 状態推定装置100は、撮像装置10の設置状態パラメータを管理する機能を有する。設置状態パラメータは、例えば、撮像装置10の設置角度、設置位置等を含む。設置状態パラメータは、例えば、撮像装置10の画素数、画像D11のサイズ等を含んでもよい。状態推定装置100は、学習装置200が機械学習した第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を用いて、画像データD10を撮像した撮像装置10の設置状態パラメータを推定できる。状態推定装置100は、複数の画像データD10を撮影タイミングが夜間か日中(早朝)かを識別し、夜間の画像データを第1状態推定モデルM1に入力し、日中の画像データを第2状態推定モデルM2に入力し、それぞれの画像データの特徴量を出力し、第1状態推定モデルM1を用いて算出した第1特徴量データと、第2状態推定モデルM2を用いて算出した第2特徴量データとを組み合わせて特徴推定モデルM3に入力し、特徴量推定モデルM3の出力を撮像装置10の設置状態パラメータと推定できる。
 学習装置200は、例えば、コンピュータ、サーバ装置等である。学習装置200は、システム1の構成に含まれてもよいし、含まれなくてもよい。学習装置200は、交通事物1200を含む交通環境1000を撮像した画像データD10と、当該画像データD10を撮像した撮像装置10の設置状態パラメータの正解値データD21とを有する複数の第1教師データを取得する。正解値データD21は、例えば、撮像装置10の設置角度(α,β,γ)、設置位置(x,y,z)、画素数、画像D11のサイズ等の正解値を示すデータを含む。正解値データD21は、第1正解値データの一例である。設置角度は、例えば、撮像装置10がうつむく方向のピッチ角α、撮像装置10が撮像方向を横に振ることが可能なヨー角β、撮像装置10が傾げる方向のロール角γ等を有する。設置位置は、例えば、道路面上での位置(x,z)と高さyとを有する。正解値データD21は、例えば、道路面に対する姿勢を識別可能なα,γの2つの値を組み合わせた正解値としてもよい。正解値データD21は、例えば、スケールを識別可能なα,γ,yの3つの値を組み合わせた正解値としてもよい。正解値データD21は、例えば、主要な道路方向を識別可能なα,β,γ,yの4値を組み合わせた正解値としてもよい。正解値データD21は、例えば、一般的なキャリブレーションで用いられるα,β,γ,x,y,zの6つの値を組み合わせた正解値としてもよい。
 学習装置200は、同じ地点から撮影した複数の画像データと設置状態パラメータとの組み合わせを用いた機械学習で、第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を生成する。教師データの画像データは、夜間の画像データと、日中の画像データに分類されている。夜間の画像データは、交通事物の領域を特定する情報が含まれる。日中の画像データは、交通事物が閾値以下であり、道路、道路周囲に配置された固定物が含まれる画像である。教師データは、夜間の交通事物を含む画像データを第1教師データと、日中の画像データを第2教師データとして含む。
 学習装置200は、複数の第1教師データを用いた機械学習で、入力された画像データD10から第1特徴量データを推定する第1状態推定モデルM1を生成する。学習装置200は、複数の第2教師データを用いた機械学習で、入力された画像データD10から第2特徴量データを推定する第2状態推定モデルM2を生成する。学習装置200は、第1特徴量データと第2特徴量データを合成したデータを用いた機械学習で、第1状態推定モデルM1と第2状態推定モデルM2から、撮像した撮像装置10の設置状態パラメータを推定する特徴推定モデルM3を生成する。
 教師ありの機械学習は、例えば、ニューラルネットワーク、線形回帰、ロジスティック回帰等のアルゴリズムを用いることができる。第1状態推定モデルM1は、入力された画像データD10で第1特徴量を推定するように、複数の教師データの画像データと画像データに含まれる交通事物を特徴量のデータである正解値データD21とを機械学習したモデルである。第1状態推定モデルM1は、画像データが入力されると、画像データに含まれる交通事物の特徴量を含む第1特徴量データを推定し、出力する。第2状態推定モデルM2は、入力された画像データD10で第2特徴量を推定するように、複数の教師データの画像データと画像データに含まれる道路等の交通事物以外の交通環境を特徴量のデータである正解値データとを機械学習したモデルである。第2状態推定モデルM2は、画像データが入力されると、画像データに含まれる交通事物以外の交通環境の特徴量を含む第2特徴量データを推定し、出力する。第3特徴推定モデルM3は、入力された第1特徴量データと第2特徴量データを合成したデータで画像データD10を撮像した撮像装置10の設置状態パラメータを推定するように、複数の教師データの特徴量データと、画像を撮影した撮像装置10の設置状態パラメータのデータである正解値データD22とを機械学習したモデルである。特徴推定モデルM3は、第1特徴量データと第2特徴量データを合成したデータが入力されると、画像データD10を撮像した撮像装置10の設置状態パラメータを推定し、推定結果を出力する。学習装置200は、生成した状態推定モデルM1、状態推定モデルM2、特徴推定モデルM3を状態推定装置100に提供することで、状態推定装置100による撮像装置10の設置状態の算出に専用の治具や人的作業を不要とすることに貢献できる。学習装置200の一例については、後述する。
 状態推定装置100は、学習装置200が提供した第1状態推定モデルM1、第2状態推定モデルM2に画像データDを入力し、第1状態推定モデルM1、第2状態推定モデルM2で第1特徴量データ、第2特徴量データを出力し、第1特徴量データと第2特徴量データを合成した特徴量データを特徴推定モデルM3に入力し、特徴推定モデルM3の出力に基づいて当該画像データD10を撮像した設置状態パラメータを推定できる。状態推定装置100は、推定した設置状態パラメータに基づいて撮像装置10の設置状態を診断できる。これにより、状態推定装置100は、交通環境1000に対する撮像装置10の設置時、メンテナンス時等において、撮像装置10の設置状態の算出に専用の治具や人的作業を不要とすることができる。状態推定装置100は、治具や人的作業を不要とすることで、交通規制を不要とすることができる。その結果、状態推定装置100は、交通環境1000に設置する撮像装置10の普及に貢献できるとともに、メンテナンスの効率化を図ることができる。
 学習装置200は、撮像装置10によって交通事物1200を含む交通環境1000を撮像した画像データD10と画像データD10における物体検出の正解値データD22とを有する複数の第3教師データを取得できる。正解値データD22は、例えば、画像D11における交通事物1200の位置、サイズ、種別、物体数等の正解値を示すデータを含む。正解値データD22は、第2正解値データの一例である。正解値データD22は、例えば、画像D11における物体の位置(x,y)の2つのデータ、物体のサイズ(w,h)の2つのデータ、物体種別の1つのデータの合計5つのデータを、画像D11における物体の数分有する。物体種別は、例えば、人物、大型自動車、普通自動車、大型特殊自動車、大型自動二輪車、普通自動二輪車、小型特殊自動車、自転車等を含む。
 学習装置200は、複数の第3教師データを用いた機械学習で、入力された画像データD10が示す交通環境1000における交通事物1200(物体)の位置、サイズ及び種別の少なくとも1つを推定する物体推定モデルM4を生成する。物体推定モデルM4は、入力された画像データD10が示す交通環境1000における交通事物1200の位置、サイズ及び種別を推定するように、複数の教師データの画像データD10及び正解値データD22を機械学習したモデルである。物体推定モデルM2は、画像データD10が入力されると、画像データD10が示す交通環境1000における交通事物1200の位置、サイズ、種別及び物体数を推定し、推定結果を出力する。学習装置200は、生成した物体推定モデルM4を状態推定装置100に提供できる。
 状態推定装置100は、撮像装置10が交通環境1000を撮像した画像データD10が推定に用いる交通事物1200を含むように処理する機能を有する。状態推定装置100は、例えば、物体推定モデルM4を用いて、撮像装置10が交通環境1000を撮像した画像データD10が推定に用いる交通事物1200を含むように処理できる。これにより、状態推定装置100は、撮像装置10の設置状態パラメータの推定に利用可能な画像データD10を状態推定モデルM1に入力可能となり、状態推定モデルM1の推定精度を向上させることができる。撮像装置10の設置状態パラメータの推定に利用可能な画像データD10とは、状態推定モデルM1の推定結果の確率を向上可能なデータである。
 システム1は、状態推定装置100の推定結果を用いて、1または複数の撮像装置10のメンテナンスを管理する機能を提供できる。システム1は、状態推定装置100が推定した設置状態パラメータと設置位置とに基づいて、撮像装置10の設置状態の変更を指示する機能を提供できる。
(学習装置)
 図3は、実施形態に係る学習装置200の構成の一例を示す図である。図3に示すように、学習装置200は、表示部210と、操作部220と、通信部230と、記憶部240と、制御部250と、を備える。制御部250は、表示部210、操作部220、通信部230、記憶部240等と電気的に接続されている。本実施形態では、学習装置200は、ニューラルネットワークのひとつであるCNN(Convolutional Neural Network)を用いて機械学習を実行する一例について説明する。
 表示部210は、制御部250の制御によって各種情報を表示可能なように構成されている。表示部210は、例えば、液晶ディスプレイ、有機ELディスプレイ等の表示パネルを有する。表示部210は、制御部250から入力される信号に応じて、文字、図形、画像等の情報を表示する。
 操作部220は、ユーザの操作を受け付けるための1ないし複数のデバイスを有する。ユーザの操作を受け付けるためのデバイスは、例えば、キー、ボタン、タッチスクリーン、マウス等を含む。操作部220は、受け付けた操作に応じた信号を制御部250へ供給できる。
 通信部230は、例えば、状態推定装置100、他の通信機器等と通信できる。通信部230は、各種通信規格をサポートできる。通信部230は、例えば、有線又は無線ネットワーク等を介して各種データを送受信できる。通信部230は、受信したデータを制御部250に供給できる。通信部230は、制御部250が指示した送信先にデータを送信できる。
 記憶部240は、プログラム及びデータを記憶できる。記憶部240は、制御部250の処理結果を一時的に記憶する作業領域としても利用される。記憶部240は、半導体記憶媒体、及び磁気記憶媒体等の任意の非一過的(non-transitory)な記憶媒体を含んでよい。記憶部240は、複数の種類の記憶媒体を含んでよい。記憶部240は、メモリカード、光ディスク、又は光磁気ディスク等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。記憶部240は、RAM(Random Access Memory)等の一時的な記憶領域として利用される記憶デバイスを含んでよい。
 記憶部240は、例えば、プログラム241、教師データ242、第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3、物体推定モデルM4等の各種データを記憶できる。プログラム241は、CNNを用いて、画像データD10を撮像した撮像装置10の設置状態パラメータを推定する状態推定モデルを生成する機能を制御部250に実行させる。プログラム241は、CNNを用いて、画像データD10が示す物体の情報を推定する物体推定モデルを生成する機能を制御部250に実行させる。
 教師データ242は、機械学習に用いる学習データ、訓練データ等である。教師データ242は、状態推定の機械学習に用いる画像データD10と、該画像データD10に関連付けられた正解値データD21とを組み合わせたデータを有する。画像データD10は、教師あり学習の入力データである。例えば、画像データD10は、交通事物1200を含む交通環境1000を撮像したカラーの画像を示し、画素数が1280×960である。正解値データD21は、画像データD10を撮像した撮像装置10の設置状態パラメータを示すデータを有する。正解値データD21は、教師あり機械学習の正解データである。正解値データD21は、例えば、撮像装置10の設置角度(α,β,γ)及び設置位置(x,y,z)の6つのパラメータ(値)を示すデータを有する。
 教師データ242は、物体推定の機械学習に用いる画像データD10と、該画像データD10に関連付けられた正解値データD22とを組み合わせたデータをさらに有する。例えば、画像データD10は、交通事物1200を含む交通環境1000を撮像したカラーの画像を示し、画素数が1280×960である。正解値データD22は、画像データD10が示す物体(交通事物1200)の物***置、物体サイズ、物体種別等を示すデータを、画像に含まれる交通事物1200(物体)の個数分有する。物***置は、例えば、関連付けられた画像データD10における座標(x,y)等を含む。物体サイズは、例えば、関連付けられた画像データD10が示す物体の幅,高さ等を含む。
 画像データD10は、夜間の画像と早朝の画像が含まれる。図4は、夜間の画像データの一例を示す図である。図5は、早朝の画像データの一例を示す図である。図4に示すように夜間に撮影した画像データは、交通事物である車両のヘッドライト等の照明装置の位置が明確に抽出でき、かつ、発光していない交通事物以外の交通環境、例えば道路の車線等が識別しにくい画像である。図5に示すように、早朝に撮影した画像データは、交通量が少なく、交通事物が少ない画像であり、交通事物以外の交通環境が識別しやすい画像である。
 第1状態推定モデルM1は、教師データ242が有する画像データD10のうち夜間の画像データ(第1画像データ)及び正解値データD21を用いて、画像データD10の特徴、規則性、パターン等を抽出し、画像と正解値データD21に対応する特徴量との関係を機械学習することで生成された学習モデルである。第1状態推定モデルM1は、画像データD10が入力されると、該画像データD10の特徴等と類似する教師データ242を予測し、第1特徴量データを推定し、出力する。第2状態推定モデルM2は、教師データ242が有する画像データD10のうち日中の画像データ(第2画像データ)及び正解値データD21を用いて、画像データD10の特徴、規則性、パターン等を抽出し、画像と正解値データD21に対応する特徴量との関係を機械学習することで生成された学習モデルである。第2状態推定モデルM2は、画像データD10が入力されると、該画像データD10の特徴等と類似する教師データ242を予測し、第2特徴量データを推定し、出力する。ここで、日中の画像データ(第2画像データ)は、夜間の画像データ(第1画像データ)に比べて移動体の数が少ない画像である、第3特徴推定モデルM3は、教師データ242が有する画像データD10及び正解値データD21を用いて、画像データD10の特徴、規則性、パターン等を抽出し、画像の特徴量と正解値データD21との関係を機械学習することで生成された学習モデルである。第3特徴推定モデルM3は、第1特徴量データと第2特徴量データとを合成したデータが入力されると、該画像データD10の特徴等と類似する教師データ242を予測し、画像データD10を撮像した撮像装置10の設置状態パラメータを推定し、推定結果を出力する。
 物体推定モデルM4は、教師データ242が有する画像データD10及び正解値データD22を用いて、画像データD10における物体の特徴、規則性、パターン等を抽出し、正解値データD22との関係を機械学習することで生成された学習モデルである。物体推定モデルM4は、画像データD10が入力されると、該画像データD10の物体の特徴等に類似する教師データ242を予測し、当該正解値データD22に基づいて、画像データD10が示す画像における物体の位置、サイズ、種別等を推定し、推定結果を出力する。
 制御部250は、演算処理装置である。演算処理装置は、例えば、CPU(Central Processing Unit)、SoC(System-on-a-Chip)、MCU(Micro Control Unit)、FPGA(Field-Programmable Gate Array)、及びコプロセッサを含むが、これらに限定されない。制御部250は、学習装置200の動作を統括的に制御して各種の機能を実現できる。
 具体的には、制御部250は、記憶部240に記憶されている情報を必要に応じて参照しつつ、記憶部240に記憶されているプログラム241に含まれる命令を実行できる。そして、制御部250は、データ及び命令に応じて機能部を制御し、それによって各種機能を実現できる。機能部は、例えば、表示部210及び通信部230を含むが、これらに限定されない。
 制御部250は、第1取得部251、第1機械学習部252、第2取得部253、第2機械学習部254、第3取得部255、第3機械学習部256、第4取得部257、第4機械学習部258等の機能部を有する。制御部250は、プログラム241を実行することによって、第1取得部251、第1機械学習部252、第2取得部253、第2機械学習部254、第3取得部255、第3機械学習部256、第4取得部257、第4機械学習部258等の機能を実現する。プログラム241は、学習装置200の制御部250を、第1取得部251、第1機械学習部252、第2取得部253、第2機械学習部254第3取得部255、第3機械学習部256、第4取得部257及び第4機械学習部258として機能させるためのプログラムである。
 第1取得部251は、交通事物1200を含む交通環境1000を撮像した画像データD10と該画像データD10を撮像した撮像装置10の設置状態パラメータの正解値データD21に対応する特徴量データとを教師データとして取得する。第1取得部251は、画像データのうち、夜間の画像データを取得する。第1取得部251は、予め設定された格納先、操作部220で選択された格納先等から画像データD10及び正解値データD21に対応する特徴量データを取得して記憶部240の教師データ242に関連付けて記憶する。第1取得部251は、機械学習に用いる複数の画像データD10及び正解値データD21に対応する特徴量データを取得する。
 第1機械学習部252は、第1取得部251が取得した複数の教師データ242(第1教師データ)を用いた機械学習で、画像データ(第1画像データ)の特徴量を推定する第1状態推定モデルM1を生成する。第1機械学習部252は、例えば、教師データ242に基づいてCNNを構築する。CNNは、画像データD10を入力とし、画像データD10に対する識別結果を出力するようにネットワークが構築される。識別結果は、画像データD10に含まれる交通事物の特徴量を含む特徴量データである。
 第2取得部253は、交通環境1000を撮像した画像データD10と該画像データD10を撮像した撮像装置10の設置状態パラメータの正解値データD21に対応する特徴量データとを教師データとして取得する。第2取得部253は、画像データのうち、日中、特に早朝の画像データを取得する。第2取得部253は、予め設定された格納先、操作部220で選択された格納先等から画像データD10及び正解値データD21に対応する特徴量データを取得して記憶部240の教師データ242に関連付けて記憶する。第2取得部253は、機械学習に用いる複数の画像データD10及び正解値データD21に対応する特徴量データを取得する。
 第2機械学習部254は、第2取得部253が取得した複数の教師データ242(第2教師データ)を用いた機械学習で、画像データ(第2画像データ)の特徴量を推定する第2状態推定モデルM1を生成する。第2機械学習部252は、例えば、教師データ242に基づいてCNNを構築する。CNNは、画像データD10を入力とし、画像データD10に対する識別結果を出力するようにネットワークが構築される。識別結果は、画像データD10に含まれる交通事物以外、例えば道路、標識、信号、路側帯にある固定物の特徴量を含む特徴量データである。
 第3取得部255は、交通事物1200を含む交通環境1000を撮像した画像データD10に基づいて第1機械学習部252、第2機械学習部254で取得した特徴量データを取得と、該画像データD10を撮像した撮像装置10の設置状態パラメータの正解値データD21に対応する特徴量データとを教師データとして取得する。第3取得部255は、予め設定された格納先、操作部220で選択された格納先等から特徴量データ及び正解値データD21を取得して記憶部240の教師データ242に関連付けて記憶する。第3取得部255は、機械学習に用いる複数の特徴量データ及び正解値データD21を取得する。
 第3機械学習部256は、第3取得部255が取得した複数の教師データ242(特徴量データ)を用いた機械学習で、入力された画像データD10を撮像した撮像装置10の設置状態パラメータを推定する特徴推定モデルM3を生成する。第3機械学習部256は、例えば、教師データ242に基づいてCNNを構築する。CNNは、特徴量データを入力とし、画像データD10に対する識別結果を出力するようにネットワークが構築される。識別結果は、画像データD10を撮像した撮像装置10の設置状態パラメータを推定するための情報を有する。
 図6は、図3に示す学習装置200が状態推定に用いるCNNの一例を示す図である。第1機械学習部252、第2機械学習部254、第3機械学習部256は、取得した教師データ242に基づいて図6に示すCNNを構築する。本実施形態では、第1機械学習部252、第2機械学習部254、第3機械学習部256でそれぞれ機械学習を実行し、第1機械学習部252、第2機械学習部254の学習結果を第3機械学習部256に供給する。なお、それぞれ別々の処理で実行しても、第1機械学習部252、第2機械学習部254、第3機械学習部256での学習を1つの学習として実行してもよい。第1機械学習部252、第2機械学習部254の正解データとなる特徴量データは、種々の方法で生成することができる。CNNは、公知であるように、入力層と、中間層と、出力層と、を有する。
 図6に示すように、学習装置200は、第1学習ユニット400と、第2学習ユニット410と、第3学習ユニット420と、出力層430、440、450と、を含む。第1学習ユニット400は、第1機械学習部252の処理を実行する。第1学習ユニット400は、入力層500と、中間層510を含み、中間層510で処理した結果を出力層430に出力する。入力層500は、画像データのうち夜間に撮影した画像データ入力される。入力層500は、入力されたデータを中間層510に出力する。入力された画像データD10は、例えば、640×640×3のカラー画像を示すデータである。
 中間層510は、複数の特徴抽出層と、結合層と、を有する。複数の特徴抽出層の各々は、画像データD10が示す画像D11の相異なる特徴を抽出する。抽出する画像D11の特徴は、例えば、画像における交通事物に関する特徴を含む。特徴抽出層は、例えば、1または複数の畳み込み層(Convolution層)と、プーリング層(Pooling層)と、を有し、入力された画像データD10から所望の特徴を抽出する。特徴抽出層の畳み込み層は、入力データに対して畳み込み演算を行うことで、フィルタ(重み)の形と似ている画像D11の部分を抽出する層である。畳み込み層は、演算結果である特徴マップに対して、活性化関数を適用するように構成されている。本実施形態では、活性化関数は、Relu(Rectified linear unit)関数を適用しているが、シグモイド関数等を適用してもよい。特徴抽出層のプーリング層は、畳み込みで得た画像データD10の特徴を最大値や平均値に要約することで、抽出された特徴の位置が変動しても同一の特徴であるとみなす処理を行う。特徴抽出層2210は、求める最適な出力を学習するため、畳み込み層及びプーリング層を増やすことにより、より高度で複雑な特徴を抽出することができる。結合層は、複数の特徴抽出層が抽出した特徴を結合して出力層430に出力する。中間層510は、特徴量を示すデータを出力層430に出力する。
 第2学習ユニット410は、第2機械学習部254の処理を実行する。第2学習ユニット410は、入力層520と、中間層530を含み、中間層530で処理した結果を出力層440に出力する。入力層520は、画像データのうち早朝、日中に撮影した画像データ入力される。入力層520は、入力されたデータを中間層530に出力する。入力された画像データD10は、例えば、640×640×3のカラー画像を示すデータである。
 中間層530は、複数の特徴抽出層と、結合層と、を有する。複数の特徴抽出層の各々は、画像データD10が示す画像D11の相異なる特徴を抽出する。抽出する画像D11の特徴は、例えば、画像における交通事物以外の交通環境に関する特徴を含む。特徴抽出層は、例えば、1または複数の畳み込み層(Convolution層)と、プーリング層(Pooling層)と、を有し、入力された画像データD10から所望の特徴を抽出する。特徴抽出層の畳み込み層は、入力データに対して畳み込み演算を行うことで、フィルタ(重み)の形と似ている画像D11の部分を抽出する層である。畳み込み層は、演算結果である特徴マップに対して、活性化関数を適用するように構成されている。本実施形態では、活性化関数は、Relu(Rectified linear unit)関数を適用しているが、シグモイド関数等を適用してもよい。特徴抽出層のプーリング層は、畳み込みで得た画像データD10の特徴を最大値や平均値に要約することで、抽出された特徴の位置が変動しても同一の特徴であるとみなす処理を行う。特徴抽出層2210は、求める最適な出力を学習するため、畳み込み層及びプーリング層を増やすことにより、より高度で複雑な特徴を抽出することができる。結合層は、複数の特徴抽出層が抽出した特徴を結合して出力層440に出力する。中間層530は、特徴量を示すデータを出力層440に出力する。第2学習ユニット410は、第1学習ユニット400と同じデータフォーマット、つまり、特徴量データの画素数が同じデータを出力する。
 学習装置200は、合成部540で、出力層430と、出力層440で出力された特徴量データを合成する。合成部540は、出力層430で出力された複数の画像の特徴量データから1つの画像の特徴量データと選定し、出力層440で出力された複数の画像の特徴量データから1つの画像の特徴量データと選定し、合成して、1つの特徴量データを生成する。合成部540は、出力層430と、出力層440とで出力された特徴量データの画像の枚数分合成処理を行い、所定の枚数分の画像の特徴量データを生成する。なお、合成部540の画像の選定方法は特に限定されない。また、1つの画像データを複数回使用してもよい。
 第3学習ユニット420は、第3機械学習部256の処理を実行する。第3学習ユニット420は、中間層530を含み、中間層550で処理した結果を出力層450に出力する。中間層530は、合成部540で合成された特徴量データが供給される。
 中間層530は、複数の特徴抽出層と、結合層と、を有する。複数の特徴抽出層の各々は、特徴量データに含まれる画像データD10が示す画像D11の相異なる特徴を抽出する。特徴抽出層は、例えば、1または複数の畳み込み層(Convolution層)と、を有し、入力された画像データD10から所望の特徴を抽出する。特徴抽出層の畳み込み層は、入力データに対して畳み込み演算を行うことで、フィルタ(重み)の形と似ている画像D11の部分を抽出する層である。畳み込み層は、演算結果である特徴マップに対して、活性化関数を適用するように構成されている。本実施形態では、活性化関数は、Relu(Rectified linear unit)関数を適用しているが、シグモイド関数等を適用してもよい。特徴抽出層のプーリング層は、畳み込みで得た画像データD10の特徴を最大値や平均値に要約することで、抽出された特徴の位置が変動しても同一の特徴であるとみなす処理を行う。特徴抽出層2210は、求める最適な出力を学習するため、畳み込み層及びプーリング層を増やすことにより、より高度で複雑な特徴を抽出することができる。結合層は、複数の特徴抽出層が抽出した特徴を結合して出力層450に出力する。
 出力層450は、中間層550で抽出した特徴と正解値データD21とに基づいて、画像データD10を撮像した撮像装置10の設置状態パラメータを推定する。出力層450は、結合層が出力した特徴と類似する特徴に関連付けられた正解値データD21を特定し、該正解値データD21が示す設置状態パラメータを出力する。
 第1機械学習部252、第2機械学習部254、第3機械学習部256は、複数の教師データ242を用いて機械学習することで、入力された画像データD10を撮像した撮像装置10の設置状態パラメータを推定するように、中間層の重み等を決定してCNNに設定し、第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を生成する。第1機械学習部252、第2機械学習部254、第3機械学習部256は、生成した第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を記憶部240に記憶する。これにより、第1状態推定モデルM1は、画像データD10が入力されると、画像データの特徴量データを出力することができる。第2状態推定モデルM2は、画像データD10が入力されると、画像データの特徴量データを出力することができる。特徴推定モデルM3は、特徴量データが合成されたデータが入力されると、当該画像データD10を撮像した撮像装置10の設置状態パラメータを推定した結果を出力することができる。
 図3に示す第4取得部257は、撮像装置10が交通事物1200を含む交通環境1000を撮像した画像データD10と当該画像データD10における物体検出の正解値データD22とを教師データ242として取得する。第2取得部253は、予め設定された格納先、操作部220で選択された格納先等から画像データD10及び正解値データD22を取得し、記憶部240の教師データ242に関連付けて記憶する。第4取得部257は、機械学習に用いる複数の画像データD10及び正解値データD22を取得する。
 第4機械学習部258は、教師データ242(第4教師データ)を用いた機械学習で、入力された画像データD10が示す交通環境1000における交通事物1200の位置、サイズ及び種別の少なくとも1つを推定する物体推定モデルM2を生成する。第4機械学習部258は、例えば、教師データ242に基づいて交通事物1200(物体)の検出に対応したCNNを構築する。CNNは、画像データD10を入力とし、画像データD10が示す交通環境1000における交通事物1200の位置、サイズ、種別を推定した推定結果を出力するようにネットワークが構築される。識別結果は、画像データD10が示す交通事物1200の位置、サイズ及び種別を有する。
 第4機械学習部258は、取得した教師データ242に基づいて、図7に示すCNNを構築する。CNNは、入力層2100と、中間層2200と、出力層2300と、を有する。入力層2100は、入力された画像データD10を中間層2200に供給する。入力された画像データD10は、例えば、640×640×3のカラー画像を示すデータである。中間層2200は、複数の特徴抽出層2210と、結合層2220と、を有する。特徴抽出層2210は、画像データD10が示す画像における交通事物1200(特徴)を抽出する。特徴抽出層2210は、例えば、複数の畳み込み層と、プーリング層と、を有し、入力された画像データD10から交通事物1200を特徴として抽出する。特徴抽出層2210の畳み込み層は、入力データに対して畳み込み演算を行うことで、フィルタ(重み)の形と似ている画像D11の部分を抽出する。畳み込み層は、演算結果である特徴マップに対して、活性化関数を適用するように構成されている。特徴抽出層2210のプーリング層は、畳み込みで得た画像データD10の特徴を最大値や平均値に要約することで、抽出された特徴の位置が変動しても同一の特徴であるとみなす処理を行う。特徴抽出層2210は、求める最適な出力を学習するため、畳み込み層及びプーリング層を増やすことにより、より高度で複雑な特徴を抽出することができる。結合層2220は、複数の特徴抽出層2210が抽出した特徴を結合して出力層2300に出力する。
 出力層2300は、中間層2200で抽出した特徴と正解値データD22とに基づいて、画像データD10が示す画像における交通事物1200を推定する。出力層2300は、全結合層2220が出力した特徴と類似する特徴に関連付けられた正解値データD22を特定し、該正解値データD22が示す交通事物1200の位置、サイズ及び種別と推定した交通事物1200の個数とを出力する。
 第4機械学習部258は、第4取得部257が取得した複数の教師データ242(第4教師データ)を用いて機械学習することで、入力された画像データD10が示す画像D11における交通事物1200を推定するように、中間層2200の重み等を決定してCNNに設定し、物体推定モデルM2を生成する。第4機械学習部258は、生成した物体推定モデルM2を記憶部240に記憶する。これにより、物体推定モデルM4は、画像データD10が入力されると、当該画像データD10が示す交通事物1200の位置、サイズ及び種別を、推定した交通事物1200の個数分の結果を出力することができる。
 以上、本実施形態に係る学習装置200の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る学習装置200の機能構成は係る例に限定されない。本実施形態に係る学習装置200の機能構成は、仕様や運用に応じて柔軟に変形可能である。
(状態推定装置)
 図8は、実施形態に係る状態推定装置100の構成の一例を示す図である。図9は、実施形態に係る状態推定装置の制御部の構成の一例を示す図である。図8に示すように、状態推定装置100は、入力部110と、通信部120と、記憶部130と、制御部140と、を備える。制御部140は、入力部110、通信部120、記憶部130等と電気的に接続されている。
 入力部110は、撮像装置10が撮像した画像データD10が入力される。入力部110は、例えば、ケーブルを介して撮像装置10と電気的に接続可能なコネクタを有する。入力部110は、撮像装置10から入力された画像データD10を制御部140に供給する。
 通信部120は、例えば、学習装置200、撮像装置10を管理する管理装置等と通信できる。通信部120は、各種通信規格をサポートできる。通信部120は、例えば、有線又は無線ネットワーク等を介して各種情報を送受信できる。通信部120は、受信したデータを制御部140に供給できる。通信部120は、制御部140が指示した送信先にデータを送信できる。
 記憶部130は、プログラム及びデータを記憶できる。記憶部130は、制御部140の処理結果を一時的に記憶する作業領域としても利用される。記憶部130は、半導体記憶媒体、及び磁気記憶媒体等の任意の非一過的な記憶媒体を含んでよい。記憶部130は、複数の種類の記憶媒体を含んでよい。記憶部130は、メモリカード、光ディスク、又は光磁気ディスク等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。記憶部130は、RAM等の一時的な記憶領域として利用される記憶デバイスを含んでよい。
 記憶部130は、例えば、プログラム131、設定データ132、特徴量データ(特徴量記憶部)133、画像データD10、状態推定モデルM1、物体推定モデルM2等を記憶できる。プログラム131は、状態推定装置100を稼働させるための各種制御に関する機能を制御部140に実行させる。設定データ132は、状態推定装置100の動作に関する各種の設定、管理対象の撮像装置10の設置状態に関する設定等のデータを含む。特徴量データ133は、複数の画像データD10の処理時に算出した特徴量のデータを含む。記憶部130は、複数の画像データD10を時系列の順序で記憶できる。第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3及び物体推定モデルM4は、学習装置200が生成した機械学習モデルである。
 制御部140は、演算処理装置である。演算処理装置は、例えば、CPU、SoC、MCU、FPGA及びコプロセッサを含むが、これらに限定されない。制御部140は、状態推定装置100の動作を統括的に制御して各種の機能を実現する。
 具体的には、制御部140は、記憶部130に記憶されているデータを必要に応じて参照しつつ、記憶部130に記憶されているプログラム131に含まれる命令を実行する。そして、制御部140は、データ及び命令に応じて機能部を制御し、それによって各種機能を実現する。機能部は、例えば、入力部110及び通信部120を含むが、これらに限定されない。
 制御部140は、処理部141、推定部142、診断部143等の機能部を有する。制御部140は、プログラム131を実行することによって、処理部141、推定部142、診断部143等の機能部を実現する。プログラム131は、状態推定装置100の制御部140を、処理部141、推定部142及び診断部143として機能させるためのプログラムである。処理部141、推定部142は、図8に示すように、第1処理ユニット150と、第2処理ユニット160と、第3処理ユニット170のそれぞれで処理が実行される。第1処理ユニット150は、処理部141に含まれるモデル取得部152と、前処理部154と、推定部142に含まれる使用画像判定部156と状態推定部158と、を含む。第2処理ユニット160は、処理部141に含まれるモデル取得部162と、前処理部164と、推定部142に含まれる状態推定部166と、を含む。第3処理ユニット170は、処理部141に含まれるモデル取得部172と、特徴合成部174と、推定部142に含まれる特徴推定部176と、を含む。
 処理部141は、推定部142で使用するモデルを取得する。モデル取得部152は、第1状態推定モデルM1、物体推定モデルM4を取得する。モデル取得部162は、第2状態推定モデルM2を取得する。モデル取得部172は、特徴推定モデルM3を取得する。
 処理部141は、撮像装置10が撮像した画像データD10を取得する。処理部141は、推定部142が用いる画像データD10の前処理を行い、前処理を行った画像データD10を推定部142に供給する。前処理部154は、取得した画像データに各種処理を実行する。前処理部154は、物体推定モデルM2を用いて、取得した画像データに含まれる交通事物を抽出する。また、前処理部154は、撮像装置10の設置状態の推定に利用可能な交通事物1200が画像に含まれるように、画像データD10を処理してもよい。推定に利用可能な交通事物1200は、設置状態パラメータの推定に相応しい見え方である車両等を含む。推定に利用可能な交通事物1200は、例えば、画像D11の所定領域D100に存在する車両または人物、撮像装置10に向かっている車両または人物等を含む。本実施形態では、所定領域D100は、例えば、画像D11において予め設定された領域、画像D11の中央の領域等を含む。推定に適していない交通事物1200は、例えば、画像データD10が示す画像D11の所定領域D100に存在する貨物自動車、乗合自動車及び建設機械等の大型車両を含む。処理部141は、所定領域D100に存在する交通事物1200、及び、撮像装置10に対して正面が向いている交通事物1200の少なくとも一方を含むように、画像データD10の処理を行う。処理部141は、撮像装置10の設置状態パラメータの推定に不要な交通事物1200を画像D11から削除または変更するように、画像データD10を処理する機能を備えてもよい。
 前処理部164は、取得した画像データに各種処理を実行する。前処理部164は、物体推定モデルM2を用いて、取得した画像データに含まれる交通事物を抽出し、交通事物が閾値以下の台数の場合、使用する画像データに選定する。前処理部164は、輝度調整、エッジ検出等、交通環境を特定する精度が向上する処理を行ってもよい。
 特徴合成部174は、特徴記憶部133に記憶される第1処理ユニット150、第2処理ユニット160で処理した特徴量データを合成する。特徴合成部174は、合成した特徴量のデータを特徴推定部176に供給する。
 推定部142は、学習装置200が生成した第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を用いて推定処理を行う。使用画像判定部156は、前処理部154で処理した画像データから推定処理に用いる画像データを選定する。使用画像判定部156は、物体推定モデルM4を用いて抽出した交通事物が所定以上の大きさの画像、推定角度が高い画像等の基準に基づいて、設定された枚数の画像データを選定する。状態推定部158は、前処理部154で処理され、使用画像判定部156で使用すると判定された画像データを第1状態推定モデルM1に入力し、特徴量データ(第1特徴量データ)を推定し、出力する。状態推定部166は、前処理部164で処理された画像データを第2状態推定モデルM2に入力し、特徴量データ(第2特徴量データ)を推定し、出力する。特徴推定部176は、特徴合成部174で特徴量を合成したデータを特徴推定モデルM3に入力し、特徴推定モデルM3の出力に基づいて撮像装置10の設置状態パラメータを推定する。
 診断部143は、推定部142が推定した設置状態パラメータに基づいて撮像装置10の設置状態を診断する機能を提供できる。診断部143は、設置状態パラメータの推定結果が適しているか否かを診断できる。診断部143は、推定部142が推定した設置状態パラメータと画像データD10が示す交通事物1200の俯瞰状態とに基づいて、撮像装置10の設置状態を診断できる。診断部143は、画像データD10が示す交通事物1200の姿勢と、推定部142が推定した設置状態パラメータに基づいて算出した交通事物1200の姿勢とを比較し、一致度が判定閾値よりも高い場合に、撮像装置10の設置状態を診断できる。診断部143は、推定部142が推定した設置状態パラメータと予め設定された設置状態パラメータとを比較し、比較結果に基づいて撮像装置10の設置状態を診断できる。
 制御部140は、推定部142が推定した設置状態パラメータ、診断部143の診断結果等を外部装置、データベース等に供給する機能を提供できる。例えば、制御部140は、通信部120を介して、推定部142が推定した設置状態パラメータ、診断部143の診断結果等を供給する制御を行う。
 以上、本実施形態に係る状態推定装置100の機能構成例について説明した。なお、図8を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る状態推定装置100の機能構成は係る例に限定されない。本実施形態に係る状態推定装置100の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 本実施形態では、状態推定装置100は、制御部140が処理部141、推定部142及び診断部143として機能する場合について説明するが、例えば、制御部140が推定部142及び診断部143を備え、処理部141を備えない構成としてもよい。この場合、状態推定装置100は、撮像装置10が撮像した画像データD10を前処理せずに、当該画像データD10を状態推定モデルM1に入力すればよい。また、システム1は、状態推定装置100の処理部141を、撮像装置10の構成としてもよい。
 図10は、状態推定装置100が実行する状態推定方法の一例を示すフローチャートである。状態推定装置100は、例えば、撮像装置10の設置時、メンテナンス時、外部から実行が指示された時等の実行タイミングで、図10に示す方法を実行する。状態推定装置100は、例えば、夜間に設置、メンテナンスが実行された後、夜間から早朝の間に画像データを取得して、図10に示す処理を実行する。なお、日中から夜間の間に処理に画像データを取得してもよい。
 状態推定装置100は、第1処理ユニットでの推定処理を実行する(ステップS12)。図11は、第1処理ユニットが実行する状態推定方法の一例を示すフローチャートである。第1処理ユニット150は、画像データを取得する(ステップS32)。第1処理ユニット150は、画像データの撮影時間を検出する(ステップS34)。第1処理ユニット150は、撮像装置10から撮影時間を取得しても、画像解析を行い、画像の輝度、照度から撮影時間を取得してもよい。第1処理ユニット150は、夜の画像かを判定する(ステップS36)。第1処理ユニット150は、夜の画像ではない(ステップS36でNo)と判定した場合、ステップS44に進む。
 第1処理ユニット150は、夜の画像(第1画像データ)である(ステップS36でYes)と判定した場合、画像データを解析する(ステップS38)。具体的には、第1処理ユニット150は、物体推定モデルM4を用いて、交通事物を検出する。第1処理ユニット150は、交通事物があるかを判定する(ステップS40)。判定基準は、交通事物の有無に限定されず、交通事物が閾値以上あるかや、検出した交通事物の大きさ、位置を基準としてもよい。第1処理ユニット150は、交通事物がない(ステップS40でNo)と判定した場合、ステップS44に進む。第1処理ユニット150は、交通事物がある(ステップS40でYes)と判定した場合、解析対象の画像データに選定する(ステップS42)。
 第1処理ユニット150は、ステップS36でNoと判定した場合、ステップS40でNoと判定した場合、ステップS42の処理を実行した場合、必要な枚数の画像データの取得が完了したかを判定する(ステップS44)。
 第1処理ユニット150は、必要な枚数の画像データの取得が完了していない(ステップS44でNo)と判定した場合、ステップS32に戻る。これにより、第1処理ユニット150は、必要な枚数の画像データを取得するまで、ステップS32からステップS44の処理を繰り返す。
 第1処理ユニット150は、必要な枚数の画像データの取得が完了した(ステップS44でYes)と判定した場合、選定した画像データを処理して第1特徴量データを作成する(ステップS46)。第1処理ユニット150は、選定した画像データを第1状態推定モデルM1に入力し、特徴量データを推定し、推定した特徴量データを出力する。
 状態推定装置100は、出力した第1特徴量データを特徴量記憶部133に記憶する(ステップS14)。次に、状態推定装置100は、第2処理ユニットで推定処理を実行する(ステップS16)。図12は、第2処理ユニットが実行する状態推定方法の一例を示すフローチャートである。第2処理ユニット160は、画像データを取得する(ステップS52)。第2処理ユニット160は、画像データの撮影時間を検出する(ステップS54)。第2処理ユニット160は、撮像装置10から撮影時間を取得しても、画像解析を行い、画像の輝度、照度から撮影時間を取得してもよい。第2処理ユニット160は、早朝の画像かを判定する(ステップS56)。第2処理ユニット160は、早朝の画像ではない(ステップS56でNo)と判定した場合、ステップS64に進む。
 第2処理ユニット160は、早朝の画像(第2画像データ)である(ステップS56でYes)と判定した場合、画像データを解析する(ステップS58)。具体的には、第2処理ユニット160は、物体推定モデルM4を用いて、交通事物を検出する。第2処理ユニット160は、交通事物が所定以下かを判定する(ステップS60)。判定基準は、交通事物の有無としても、検出した交通事物の大きさ、位置を基準としてもよい。第2処理ユニット160は、交通事物が所定より多い(ステップS60でNo)と判定した場合、ステップS64に進む。第2処理ユニット160は、交通事物が所定以下(ステップS60でYes)と判定した場合、解析対象の画像データに選定する(ステップS62)。
 第2処理ユニット160は、ステップS56でNoと判定した場合、ステップS60でNoと判定した場合、ステップS62の処理を実行した場合、必要な枚数の画像データの取得が完了したかを判定する(ステップS64)。
 第2処理ユニット160は、必要な枚数の画像データの取得が完了していない(ステップS64でNo)と判定した場合、ステップS52に戻る。これにより、第2処理ユニット160は、必要な枚数の画像データを取得するまで、ステップS52からステップS64の処理を繰り返す。
 第2処理ユニット160は、必要な枚数の画像データの取得が完了した(ステップS64でYes)と判定した場合、選定した画像データを処理して第1特徴量データを作成する(ステップS66)。第2処理ユニット160は、選定した画像データを第2状態推定モデルM2に入力し、特徴量データを推定し、推定した特徴量データを出力する。
 次に、状態推定装置100は、第1特徴量データと第2特徴量データを合成する(ステップS18)。状態推定装置100は、第1処理ユニット150で出力した第1特徴量データと、第2処理ユニット160で出力した第2特徴量データからそれぞれ1つの画像データを選定し、合成して、1つの画像データの特徴量データを作成する。これにより、第1特徴量データで抽出された交通事物の特徴量と、第2特徴量データで抽出された交通事物以外の交通環境の特徴量データの両方を備える画像データの特徴量データが生成される。
 次に、状態推定装置100は、評価値を算出する(ステップS20)。状態推定装置100は、第3処理ユニット170で、合成した特徴量データを特徴推定モデルM3に入力して、入力した画像データD10を撮像した撮像装置10の設置状態パラメータを推定する。状態推定装置100は、特徴推定モデルM3で推定した設置状態パラメータに基づいて、画像データD10が示す画像D11における道路1100の道路領域を推定する。状態推定装置100は、推定した設置状態パラメータ及び道路領域を画像データD10に関連付けて記憶部130に記憶する。
 状態推定装置100は、評価値に基づいて診断を実行する(ステップS22)。状態推定装置100は、推定した撮像装置10の設置状態パラメータが適しているか否かを診断する。撮像装置10の設置状態パラメータが適しているか否かの診断は、設置状態パラメータが撮像装置10の再設定、調整等を必要としない場合、撮像装置10の設置状態パラメータが適していると診断することを含む。状態推定装置100は、診断結果を撮像装置10に関連付けて記憶部130に記憶する。状態推定装置100は、撮像装置10の設置状態パラメータが適していると診断した場合、当該診断結果、設置状態パラメータ等を後段処理に供給することができる。また、状態推定装置100は、撮像装置10の設置状態パラメータが適していないと診断した場合、再度、撮像装置10で撮像し、撮像した画像データD10で設置状態パラメータを推定することができる。
 状態推定装置100は、以上の処理を行うことで、高い精度で設置状態パラメータを推定できる。具体的には、第1状態推定モデルM1を用いて夜間の画像データで交通事物の特徴量を抽出することで、周囲が暗い状態で照明装置を点灯している交通事物を高い精度特定することができる。また、第2状態推定モデルM2を用いて早朝の画像データで交通事物以外の交通環境の特徴量を抽出することで、車両等の移動物で遮蔽されていない状態の画像を用いて交通環境の特徴量を高い精度で抽出することができる。また、状態推定装置100は、それぞれの特徴量を合成して、特徴を推定することで、高い精度で設置状態パラメータを推定できる。また、夜間に作業が行われる頻度が高いため、夜間の画像と、早朝の画像で処理を行うことで、作業を行ったのち、短期間で設置状態パラメータを推定することができる。
 上述した状態推定装置100は、撮像装置10の外部に設けられる場合について説明したが、これに限定されない。例えば、状態推定装置100は、撮像装置10に組み込まれ、撮像装置10の制御部、モジュール等によって実現してもよい。例えば、状態推定装置100は、交通環境1000に設置された信号機、照明機器、通信機器等に組み込まれてもよい。
 上述した状態推定装置100は、サーバ装置等で実現してもよい。例えば、状態推定装置100は、複数の撮像装置10のそれぞれから画像データD10を取得し、当該画像データD10から設置状態パラメータを推定し、推定結果を提供するサーバ装置とすることができる。
 上述した学習装置200は、第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3及び物体推定モデルM4を生成する場合について説明するが、これに限定されない。例えば、学習装置200は、第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を生成する第1装置と、物体推定モデルM2を生成する第2装置との2つの装置によって構成してもよい。第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3を別々の装置としてもよい。
 また、本開示は、第1状態推定モデルM1、第2状態推定モデルM2、特徴推定モデルM3について、別々のモデル、別々の学習部で実施する場合のみならず、両モデルを合わせた統合モデルとし、機械学習も統合したひとつの機械学習部で行う実施例としてもよい。つまり、本開示は、ひとつのモデル、ひとつの学習部で実行する実施例も含むとしてよい。
 添付の請求項に係る技術を完全かつ明瞭に開示するために特徴的な実施形態に関し記載してきた。しかし、添付の請求項は、上記実施形態に限定されるべきものでなく、本明細書に示した基礎的事項の範囲内で当該技術分野の当業者が創作しうるすべての変形例及び代替可能な構成を具現化するように構成されるべきである。本開示の内容は、当業者であれば本開示に基づき種々の変形および修正を行うことができる。したがって、これらの変形および修正は本開示の範囲に含まれる。例えば、各実施形態において、各機能部、各手段、各ステップなどは論理的に矛盾しないように他の実施形態に追加し、若しくは、他の実施形態の各機能部、各手段、各ステップなどと置き換えることが可能である。また、各実施形態において、複数の各機能部、各手段、各ステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。また、上述した本開示の各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。
[付記]
(付記1)
 撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定する第1状態推定部と、
 撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定する第2状態推定部と、
 撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを合成したデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定する特徴推定部と、
 推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断する診断部と、
 を備える、
 状態推定装置。
(付記2)
 (付記1)に記載の状態推定装置において、
 前記撮像装置が前記交通環境を撮像した前記第1画像データが推定に利用可能な第1抽出対象物を含むように処理する第1前処理部と、
 前記撮像装置が前記交通環境を撮像した前記第2画像データが推定に利用可能な第2抽出対象物を含むように処理する第2前処理部をさらに備え、
 前記第1処理部は、前記処理部が処理した前記第1画像データを前記第1状態推定モデルに入力し、第1特徴量データを推定し、
 前記第2処理部は、前記処理部が処理した前記第1画像データを前記第2状態推定モデルに入力し、第2特徴量データを推定する、
 状態推定装置。
(付記3)
 (付記1)に記載の状態推定装置において、
 前記第1画像データは、夜間に撮影された画像であり、
 前記第2画像データは、日中に撮影された画像である
 状態推定装置。
(付記4)
 (付記1)に記載の状態推定装置において、
 前記第1特徴量データを記憶する特徴記憶部を備える
 状態推定装置。
(付記5)
 (付記1)に記載の状態推定装置において、
 前記第1状態推定部、前記第2状態推定部及び前記特徴推定部と、がクラウドサーバ上に配置される
 状態推定装置。
(付記6)
 (付記1)に記載の状態推定装置において、
 前記診断部は、前記推定部が推定した前記設置状態パラメータと前記画像データが示す前記交通事物の俯瞰状態とに基づいて、前記撮像装置の設置状態を診断する
 状態推定装置。
(付記7)
 (付記6)に記載の状態推定装置において、
 前記診断部は、前記画像データが示す前記交通事物の姿勢と、前記推定部が推定した前記設置状態パラメータに基づいて算出した前記交通事物の姿勢とを比較し、一致度が判定閾値よりも高い場合に、前記撮像装置の設置状態を診断する
 状態推定装置。
(付記8)
 コンピュータが、
 撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定することと、
 撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定すること、
 撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを合成したデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定すること、
 推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断すること、
 を備える、状態推定方法。
(付記9)
 コンピュータに、
 撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定することと、
 撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定すること、
 撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを合成したデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定すること、
 推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断すること、
 を実行させる、状態推定プログラム。
(付記10)
 撮像装置が撮像した移動体を含む第1画像データから第1特徴量データを推定するよう訓練された第1状態推定部と、
 前記撮像装置が撮像した道路を含む第2画像データから第2特徴量データを推定するよう訓練された第2状態推定部と、
 前記第1特徴量データと前記第2特徴量データとから、入力した画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するよう訓練された特徴推定部と、を備える、
 状態推定装置。
(付記11)
 (付記10)に記載の状態推定装置において、
 前記第2画像データは、前記第1画像データに比べて移動体の数が少ない画像である、状態推定装置。
 1 システム
 10 撮像装置
 100 状態推定装置
 110 入力部
 120 通信部
 130 記憶部
 131 プログラム
 132 設定データ
 133 特徴記憶部
 140 制御部
 141 処理部
 142 推定部
 143 診断部
 150 第1処理ユニット
 152、162、172 モデル取得部
 154、164 前処理部
 156 使用画像判定部
 158、166 状態推定部
 160 第2処理ユニット
 170 第3処理ユニット
 174 特徴合成部
 176 特徴推定部
 200 学習装置
 210 表示部
 220 操作部
 230 通信部
 240 記憶部
 241 プログラム
 242 教師データ
 250 制御部
 251 第1取得部
 252 第1機械学習部
 253 第2取得部
 254 第2機械学習部
 255 第3取得部
 256 第3機械学習部
 257 第4取得部
 258 第4機械学習部
 1000 交通環境
 1100 道路
 1200 交通事物
 500、520、540、2100 入力層
 510、530、530、2200 中間層
 2210 特徴抽出層
 2220 結合層
 2300 出力層
 D10 画像データ
 D11 画像
 D21 正解値データ
 D22 正解値データ
 D100 所定領域
 M1 第1状態推定モデル
 M2 第2状態推定モデル
 M3 特徴推定モデル
 M4 物体推定モデル

Claims (11)

  1.  撮像装置が撮像した移動体を含む第1画像データから第1特徴量データを推定するよう訓練された第1状態推定部と、
     前記撮像装置が撮像した道路を含む第2画像データから第2特徴量データを推定するよう訓練された第2状態推定部と、
     前記第1特徴量データと前記第2特徴量データとから、入力した画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するよう訓練された特徴推定部と、を備える、
     状態推定装置。
  2.  請求項1に記載の状態推定装置において、
     前記第2画像データは、前記第1画像データに比べて移動体の数が少ない画像である、状態推定装置。
  3.  撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定する第1状態推定部と、
     撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定する第2状態推定部と、
     撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを用いて、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定する特徴推定部と、
     推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断する診断部と、
     を備える、
     状態推定装置。
  4.  請求項3に記載の状態推定装置において、
     前記撮像装置が前記交通環境を撮像した前記第1画像データが推定に利用可能な第1抽出対象物を含むように処理する第1前処理部と、
     前記撮像装置が前記交通環境を撮像した前記第2画像データが推定に利用可能な第2抽出対象物を含むように処理する第2前処理部をさらに備え、
     前記第1処理部は、前記処理部が処理した前記第1画像データを前記第1状態推定モデルに入力し、第1特徴量データを推定し、
     前記第2処理部は、前記処理部が処理した前記第1画像データを前記第2状態推定モデルに入力し、第2特徴量データを推定する、
     状態推定装置。
  5.  請求項3に記載の状態推定装置において、
     前記第1画像データは、夜間に撮影された画像であり、
     前記第2画像データは、日中に撮影された画像である
     状態推定装置。
  6.  請求項3に記載の状態推定装置において、
     前記第1特徴量データを記憶する特徴記憶部を備える
     状態推定装置。
  7.  請求項3に記載の状態推定装置において、
     前記第1状態推定部、前記第2状態推定部及び前記特徴推定部と、がクラウドサーバ上に配置される
     状態推定装置。
  8.  請求項3に記載の状態推定装置において、
     前記診断部は、前記推定部が推定した前記設置状態パラメータと前記画像データが示す前記交通事物の俯瞰状態とに基づいて、前記撮像装置の設置状態を診断する
     状態推定装置。
  9.  請求項8に記載の状態推定装置において、
     前記診断部は、前記画像データが示す前記交通事物の姿勢と、前記推定部が推定した前記設置状態パラメータに基づいて算出した前記交通事物の姿勢とを比較し、一致度が判定閾値よりも高い場合に、前記撮像装置の設置状態を診断する
     状態推定装置。
  10.  コンピュータが、
     撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定することと、
     撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定すること、
     撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを用いてデータから、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定すること、
     推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断すること、
     を備える、状態推定方法。
  11.  コンピュータに、
     撮像装置が交通環境を撮像した第1画像データと前記第1画像データに含まれる移動体を含む第1抽出対象物の第1正解値データとを有する第1教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第1特徴量データを推定するように機械学習した第1物体推定モデルで、入力した前記画像データから第1特徴量データを推定することと、
     撮像装置が交通環境を撮像した第2画像データと前記第2画像データに含まれる道路を含む第2抽出対象物の第2正解値データとを有する第2教師データを用いて、入力された前記第1画像データから第1の抽出対象物の特徴量を推定した第2特徴量データを推定するように機械学習した第2物体推定モデルで、入力した前記画像データから第2特徴量データを推定すること、
     撮像装置が交通環境を撮像した画像データと前記画像データを撮像した前記撮像装置の設置状態パラメータの正解値データとを有する第3教師データを用いて、入力された前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定するように機械学習した状態推定モデルで、前記第1特徴量データと前記第2特徴量データとを用いて、入力した前記画像データを撮像した前記撮像装置の前記設置状態パラメータを推定すること、
     推定した前記設置状態パラメータに基づいて前記撮像装置の設置状態を診断すること、
     を実行させる、状態推定プログラム。
PCT/JP2023/025096 2022-07-21 2023-07-06 状態推定装置、状態推定方法及び状態推定プログラム WO2024018909A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022116422A JP2024013948A (ja) 2022-07-21 2022-07-21 状態推定装置、状態推定方法及び状態推定プログラム
JP2022-116422 2022-07-21

Publications (1)

Publication Number Publication Date
WO2024018909A1 true WO2024018909A1 (ja) 2024-01-25

Family

ID=89617777

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/025096 WO2024018909A1 (ja) 2022-07-21 2023-07-06 状態推定装置、状態推定方法及び状態推定プログラム

Country Status (2)

Country Link
JP (1) JP2024013948A (ja)
WO (1) WO2024018909A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021174044A (ja) * 2020-04-20 2021-11-01 フォルシアクラリオン・エレクトロニクス株式会社 キャリブレーション装置及びキャリブレーション方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021174044A (ja) * 2020-04-20 2021-11-01 フォルシアクラリオン・エレクトロニクス株式会社 キャリブレーション装置及びキャリブレーション方法

Also Published As

Publication number Publication date
JP2024013948A (ja) 2024-02-01

Similar Documents

Publication Publication Date Title
US11318928B2 (en) Vehicular automated parking system
US11093801B2 (en) Object detection device and object detection method
CN109117709B (zh) 用于自动驾驶车辆的碰撞避免***
CN111133447B (zh) 适于自主驾驶的对象检测和检测置信度的方法和***
US8421859B2 (en) Clear path detection using a hierachical approach
US8452053B2 (en) Pixel-based texture-rich clear path detection
US8634593B2 (en) Pixel-based texture-less clear path detection
US11117570B1 (en) Parking assistance using a stereo camera and an added light source
US11256926B2 (en) Method and system for analyzing the movement of bodies in a traffic system
CN112771858A (zh) 自动车辆的相机评估技术
JP2021165914A (ja) 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置
US11776277B2 (en) Apparatus, method, and computer program for identifying state of object, and controller
CN112084835A (zh) 基于航拍数据和遥测数据生成地图特征
CN117015792A (zh) 有凹图像放大用于自动驾驶生成物体检测标签的***和方法
WO2023023336A1 (en) Detected object path prediction for vision-based systems
JP2021128705A (ja) 物体状態識別装置
CN115134537A (zh) 一种图像处理方法、装置及车辆
EP3349201B1 (en) Parking assist method and vehicle parking assist system
WO2024018909A1 (ja) 状態推定装置、状態推定方法及び状態推定プログラム
US20230169797A1 (en) Traffic hand signal detection system and method thereof
CN114008698A (zh) 外部环境识别装置
WO2024043024A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN113966526A (zh) 外部环境识别装置
WO2023145492A1 (ja) 状態推定装置、状態推定方法及び状態推定プログラム
US11681047B2 (en) Ground surface imaging combining LiDAR and camera data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23842834

Country of ref document: EP

Kind code of ref document: A1