WO2023068062A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
WO2023068062A1
WO2023068062A1 PCT/JP2022/037378 JP2022037378W WO2023068062A1 WO 2023068062 A1 WO2023068062 A1 WO 2023068062A1 JP 2022037378 W JP2022037378 W JP 2022037378W WO 2023068062 A1 WO2023068062 A1 WO 2023068062A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
intervention
operator
image
information processing
Prior art date
Application number
PCT/JP2022/037378
Other languages
English (en)
French (fr)
Inventor
佑介 日永田
悠 石原
皓 上原
悠 西村
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023068062A1 publication Critical patent/WO2023068062A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and particularly relates to an information processing device, an information processing method, and a program suitable for use when one operator monitors the surroundings of a plurality of systems. .
  • This technology has been developed in view of this situation, and is intended to reduce the operator's burden when monitoring the surroundings of multiple systems.
  • An information processing device is a recognition unit that extracts a caution area, which is an area that requires attention around each system, based on a plurality of captured images captured at different positions by a plurality of systems. and an image processing unit that generates a first bird's-eye view image based on the captured image including the caution area.
  • an information processing apparatus uses a plurality of captured images captured at different positions by a plurality of systems, and an information processing apparatus detects a caution region, which is a region requiring caution around each system. is extracted, and a bird's-eye view image is generated based on the captured image including the caution area.
  • a program extracts a caution area, which is an area requiring caution around each system, based on a plurality of captured images captured at different positions by a plurality of systems, and A computer is caused to execute a process of generating a bird's-eye view image based on the captured image including the area.
  • a caution area which is an area requiring caution around each system, is extracted based on a plurality of captured images captured at different positions by a plurality of systems, and the caution area is extracted.
  • a bird's-eye view image is generated based on the captured image including
  • FIG. 1 is a block diagram showing a first embodiment of an information processing system to which the present technology is applied;
  • FIG. 1 is a block diagram showing a configuration example of a user support system;
  • FIG. 1 is a schematic diagram showing a specific example of a user support system;
  • FIG. 1 is a block diagram showing a configuration example of a vehicle;
  • FIG. It is a block diagram which shows the structural example of an operating terminal.
  • FIG. 4 is a schematic diagram showing a specific example of an operating terminal; It is a block diagram which shows the structural example of a management server.
  • 2 is a block diagram for explaining an example of processing of the information processing system;
  • FIG. 6 is a flowchart for explaining a first embodiment of monitoring support processing; It is a figure for demonstrating the production
  • FIG. 11 is a flow chart for explaining a second embodiment of monitoring support processing
  • FIG. 4 is a diagram showing an example of a global monitoring image and a local monitoring image
  • FIG. 2 is a diagram showing an example of a route traveled by a vehicle
  • It is a figure which shows the example of the occurrence point of an accident.
  • 4 is a flowchart for explaining accident handling processing; It is a figure which shows the example of the image for monitoring. It is a figure which shows the example of an accident area.
  • FIG. 4 is a diagram showing an example of a global monitoring image and a local monitoring image
  • FIG. 2 is a diagram showing an example of a route traveled by a vehicle
  • It is a figure which shows the example of the occurrence point of an accident.
  • 4 is a flowchart for explaining accident handling processing
  • It is a figure which shows the example of the image for monitoring.
  • It is a figure which shows the example of an accident area.
  • FIG. 11 is a block diagram showing a second embodiment of an information processing system to which the present technology is applied; 4 is a flowchart for explaining learning data generation processing; It is a figure which shows the example of unlabeled data.
  • FIG. 10 is a diagram for explaining a labeling method;
  • FIG. 4 is a diagram showing an example of learning data; It is a figure which shows the data structural example of learning data and a token. It is a figure which shows the structural example of a computer.
  • FIG. 1 shows a configuration example of an information processing system 1 that is a first embodiment of an information processing system 1 to which the present technology is applied.
  • the information processing system 1 includes systems 11-1 to 11-m, operation terminals 12-1 to 12-n, and a management server 13.
  • the systems 11-1 through 11-m, the operation terminals 12-1 through 12-n, and the management server 13 are interconnected via a network 21.
  • FIG. 1
  • the systems 11-1 to 11-m are simply referred to as the system 11 when there is no need to distinguish them individually.
  • the operation terminals 12-1 to 12-n are simply referred to as the operation terminals 12 when there is no need to distinguish them individually.
  • the system 11 is composed of, for example, a user support system that supports users, or an autonomous mobile body that moves autonomously.
  • a user support system is composed of, for example, a security system, an operation support system, an action support system, and the like.
  • a security system is, for example, a system that a user wears or carries, monitors the surroundings of the security system (user), and protects the user from danger.
  • An operation support system is, for example, a system that is provided in a device used by a user, worn by the user, or carried by the user to support the user's operation of the device.
  • Devices that are the target of operation support include, for example, mobile objects such as vehicles that move according to user operations, machine tools that operate according to user operations, and the like.
  • An action support system is, for example, a system worn by a user that supports the user's actions.
  • Action support systems include, for example, power suits worn by users on their arms, hands, legs, etc., prosthetic legs, and the like.
  • Autonomous mobile objects are, for example, autonomously mobile vehicles, drones, robots, etc.
  • the autonomous mobile body may be either a mobile body on which the user boards or a mobile body on which the user does not board.
  • the operation terminal 12 is an information processing device used by an operator. An operator uses the operation terminal 12 to monitor the surroundings of each system 11 and intervene in the system 11 as necessary.
  • At least one of visual intervention, auditory intervention, physical intervention, operation intervention, etc. is used for the intervention performed by the operator.
  • Visibility intervention is, for example, by presenting visual information (hereinafter referred to as visual information) using the system 11 within the field of view of the user using the system 11, thereby intervening in the user's field of view and assisting the user. etc.
  • Visual information to be presented includes, for example, images, display messages, lighting or blinking lights, and the like.
  • Auditory intervention is, for example, by outputting auditory information (hereinafter referred to as auditory information) using the system 11 to the user using the system 11, intervening in the user's auditory sense, supporting the user, etc.
  • auditory information hereinafter referred to as auditory information
  • the auditory information to be output includes, for example, voice messages, warning sounds, and sound effects.
  • the physical intervention is, for example, a process of intervening in the body of the user using the system 11 to move the user's body using the system 11 or giving a stimulus to the user's body to assist the user. is.
  • the operation intervention is, for example, a process of intervening in the operation of the system 11 by remotely operating the system 11 to assist the system 11 or the user who operates the system 11 .
  • the operator can use the operation terminal 12 to combine multiple types of interventions.
  • the operator can use the operation terminal 12 to combine two or more of visual intervention, auditory intervention, physical intervention, and operational intervention. By combining multiple types of intervention, for example, a more immersive interaction is realized.
  • the management server 13 mediates between each system 11 and each operation terminal 12 to support operators, users, and the system 11 . Moreover, the management server 13 intervenes in the system 11 instead of the operator as needed. Furthermore, the management server 13 provides each system 11 and each operation terminal 12 with map information.
  • FIG. 2 shows a configuration example of a user support system 51, which is an example of the system 11. As shown in FIG.
  • the user support system 51 includes an external sensor 61 , an internal sensor 62 , an operation input section 63 , a communication section 64 , a control section 65 and an output section 66 .
  • the external sensor 61 includes a sensor that senses the surroundings of the user support system 51 (user).
  • the external sensor 61 includes one or more of a camera, LiDAR (Light Detection and Ranging, Laser Imaging Detection and Ranging), ToF (Time Of Flight) sensor, millimeter wave radar, ultrasonic sensor, distance sensor, and the like.
  • the external sensor 61 supplies sensor data obtained by each sensor (hereinafter referred to as external sensor data) to the controller 65 .
  • the external sensor data includes captured images of the user's surroundings.
  • a captured image may be either a moving image or a still image. It should be noted that, for example, an image obtained by capturing 360 degrees around the user support system 51 using a fisheye camera or the like can be used as the captured image.
  • the internal sensor 62 includes a sensor that senses the user support system 51 and the user's state.
  • the internal sensor 62 includes a GNSS receiver (Global Navigation Satellite System), an IMU (Inertial Measurement Unit), and the like.
  • the internal sensor 62 supplies sensor data obtained by each sensor (hereinafter referred to as internal sensor data) to the controller 65 .
  • the operation input unit 63 includes various operation devices and is used for user operations.
  • the operation input unit 63 supplies an operation signal corresponding to the user's operation to the control unit 65 .
  • the communication unit 64 includes various communication devices, and can communicate with other devices such as other systems 11, operation terminals 12, management servers 13, etc. via the network 21.
  • the communication unit 64 supplies data received from other devices to the control unit 65 and acquires data to be transmitted to other devices from the control unit 65 .
  • the control unit 65 includes a processor such as a CPU, for example.
  • the control unit 65 controls the user support system 51 and executes various processes.
  • the control unit 65 includes a position estimation unit 71 , a recognition unit 72 , an information processing determination unit 73 and an output control unit 74 .
  • the position estimation unit 71 estimates the position and orientation of the user support system 51 (user) based on the external sensor data and the internal sensor data.
  • the recognition unit 72 recognizes the circumstances surrounding the user support system 51 and the states of the user support system 51 and the user based on the external world sensor data and the internal world sensor data. For example, the recognition unit 72 executes recognition processing for objects around the user support system 51, and recognizes the type, position, size, shape, movement, and the like of the object.
  • the information processing determination unit 73 executes various types of information processing, It makes decisions and controls actions and processes. Further, for example, according to intervention from the operator or the management server 13, the information processing determination unit 73 executes various types of information processing, and determines and controls the operation and processing of the user support system 51. Operational intervention is realized.
  • the output control unit 74 controls the display unit 81, the audio output unit 82, and the driving unit 83 included in the output unit 66.
  • the output control unit 74 also generates monitoring information and transmits it to the operation terminal 12 and the management server 13 via the communication unit 64 and the network 21 .
  • the monitoring information includes, for example, a captured image of the surroundings of the user support system 51, the recognition result of the surrounding situation of the user support system 51, and the recognition result of the state of the user support system 51 and the user.
  • the output unit 66 includes a display unit 81, an audio output unit 82, and a drive unit 83.
  • the display unit 81 includes various display devices such as a display and a head-mounted display, and outputs visual information. Further, for example, visual field intervention is realized by the display unit 81 outputting visual information in accordance with intervention from the operator or the management server 13 .
  • the audio output unit 82 includes various audio output devices such as headphones, earphones, speakers, etc., and outputs auditory information. Further, for example, auditory intervention is realized by the audio output unit 82 outputting auditory information in accordance with intervention from the operator or the management server 13 .
  • the drive unit 83 is composed of, for example, an actuator or the like that provides a tactile sensation or a mild electrical stimulation that is not harmful to the user's body.
  • the driving unit 83 is configured by a power suit worn by the user on arms, hands, legs, or the like, or a device that assists or restrains the movement of the body by driving an exoskeleton. Further, for example, physical intervention is realized by causing the driving unit 83 to move the user's body or apply stimulation to the user's body according to intervention from the operator or the management server 13 .
  • FIG. 3 shows an example of how the user support system 51 is worn.
  • the user support system 51 is a ring-shaped wearable device worn on the user's head.
  • the user support system 51 may be configured by other types of wearable devices. Also, the user support system 51 may be configured by a combination of two or more devices. For example, the user support system 51 may be configured by combining a wearable device and a smart phone.
  • each part of the user support system 51 communicates with another device via the communication part 64 and the network 21, the description of the communication part 64 and the network 21 is omitted.
  • the control unit 65 transmits/receives data to/from the management server 13 via the communication unit 64 and the network 21 , it is described that the control unit 65 transmits/receives data to/from the management server 13 .
  • FIG. 4 shows a configuration example of a vehicle 101 as an example of the system 11.
  • a vehicle 101 is a vehicle capable of autonomous movement through automatic driving.
  • the vehicle 101 includes an external sensor 111, an internal sensor 112, a sensor information acquisition unit 113, a position estimation unit 114, a recognition unit 115, a monitoring information transmission unit 116, an antenna 117, a difference detection unit 118, a remote operation reception unit 119, an accident A detection unit 120 , a situation determination unit 121 , a route generation unit 122 , a vehicle control unit 123 , a map information reception unit 124 , a map update unit 125 and a map DB (database) 126 are provided.
  • the external sensor 111 includes various sensors used for recognizing the circumstances around the vehicle 101 .
  • the external sensor 111 includes one or more of cameras, radar, LiDAR, ultrasonic sensors, distance sensors, and the like.
  • the external sensor 111 supplies sensor data output from each sensor (hereinafter referred to as external sensor data) to the sensor information acquisition unit 113 .
  • the external sensor data includes captured images of the surroundings of the vehicle 101 .
  • the internal sensor 112 includes various sensors used for recognizing the state of the vehicle 101 .
  • the internal sensor 112 includes a GNSS receiver, IMU, speed sensor, accelerator sensor, brake sensor, wheel speed sensor, and the like.
  • the internal sensor 62 supplies sensor data obtained by each sensor (hereinafter referred to as internal sensor data) to the sensor information acquisition unit 113 .
  • the sensor information acquisition unit 113 supplies the external sensor data and the internal sensor data to the position estimation unit 114, the recognition unit 115, and the monitoring information transmission unit 116.
  • the position estimation unit 114 estimates the position and orientation of the vehicle 101 based on the external sensor data and the internal sensor data.
  • the position estimating unit 114 supplies information indicating the position and orientation estimation result of the vehicle 101 to the recognizing unit 115 .
  • the recognition unit 115 recognizes the situation around the vehicle 101 and the state of the vehicle 101 based on the external sensor data, the internal sensor data, and the estimation results of the position and orientation of the vehicle 101 . For example, the recognition unit 115 executes recognition processing for objects around the vehicle 101, and recognizes the type, position, size, shape, movement, and the like of the object. The recognition unit 115 supplies information indicating recognition results to the monitoring information transmission unit 116 , the difference detection unit 118 , and the situation determination unit 121 .
  • the monitoring information transmission unit 116 transmits monitoring information to the operation terminal 12 and the management server 13 via the antenna 117 and the network 21 .
  • the monitoring information includes, for example, a captured image of the surroundings of the vehicle 101 , estimation results of the position and orientation of the vehicle 101 , and recognition results of the circumstances around the vehicle 101 and the state of the vehicle 101 .
  • a captured image may be either a moving image or a still image.
  • the difference detection unit 118 detects the difference between the situation around the vehicle 101 recognized by the recognition unit 115 and the map information accumulated in the map DB 126 .
  • the difference detection unit 118 supplies difference information indicating the detection result of the difference between the situation around the vehicle 101 and the map information to the accident detection unit 120 and the map update unit 125 .
  • the remote control reception unit 119 receives a remote control signal for remotely controlling the vehicle 101 from the control terminal 12 or the management server 13 via the network 21 and the antenna 117 .
  • the remote control receiver 119 supplies the received remote control signal to the accident detector 120 and the vehicle controller 123 .
  • the accident detection unit 120 detects an accident around the vehicle 101 based on the difference information and the remote control signal.
  • an accident is, for example, an external event that impedes the passage of the vehicle 101 .
  • the accident detection unit 120 supplies the situation judgment unit 121 with accident information indicating the detection result of the accident.
  • the situation determination unit 121 controls the driving method based on the monitoring information and the accident information.
  • the running mode includes, for example, normal running, low-speed running, manual running, and running in accordance with operator intervention. Normal running and low-speed running are methods in which the vehicle 101 runs autonomously by automatic driving. Manual driving is a system in which the vehicle is driven by the driver's operation.
  • the situation determination unit 121 notifies the route generation unit 122 of the set driving method of the vehicle 101 and supplies the route generation unit 122 with monitoring information and accident information.
  • the route generation unit 122 When the vehicle 101 travels autonomously, the route generation unit 122 generates route information indicating the route along which the vehicle 101 travels based on the monitoring information, the accident information, and the map information accumulated in the map DB 126. do.
  • the route generator 122 supplies route information to the vehicle controller 123 .
  • the vehicle control unit 123 controls the running of the vehicle 101 according to route information, remote control signals, or operations by the driver.
  • the map information receiving unit 124 receives map information from the management server 13 via the network 21 and the antenna 117.
  • the map information receiving section 124 supplies the received map information to the map updating section 125 .
  • the map update unit 125 updates the map information accumulated in the map DB 126 to the map information received from the outside. Note that the map update unit 125 corrects the map information accumulated in the map DB 126 as necessary based on the difference information.
  • the description of the antenna 117 and the network 21 is omitted.
  • the monitoring information transmitting unit 116 transmits monitoring information to the management server 13 via the antenna 117 and the network 21, the monitoring information transmitting unit 116 transmits the monitoring information to the management server 13. do.
  • FIG. 5 shows a configuration example of the operation terminal 12. As shown in FIG.
  • the operation terminal 12 includes a communication unit 151, a control unit 152, a display unit 153, an audio output unit 154, an operation input unit 155, an imaging unit 156, and an audio input unit 157.
  • the communication unit 151 includes various communication devices, and can communicate with other devices such as the system 11, other operation terminals 12, and the management server 13 via the network 21.
  • the communication unit 151 supplies data received from another device to the control unit 152 and acquires data to be transmitted to the other device from the control unit 152 .
  • the control unit 152 includes a processor such as a CPU, for example.
  • the control unit 152 controls the operation terminal 12 and executes various processes.
  • the control unit 152 includes an output control unit 161 , an action recognition unit 162 and an intervention unit 163 .
  • the output control unit 161 controls the output of visual information by the display unit 153 and the output of auditory information by the audio output unit 154 .
  • the action recognition unit 162 recognizes the operator's action (eg, gesture) based on the captured image of the operator captured by the imaging unit 156 .
  • the intervention unit 163 performs intervention on the system 11 based on information input by the operator via the operation input unit 155 or the voice input unit 157, or the operator's gesture recognized by the action recognition unit 162. Generate intervention information. Intervention information may include, for example, visual information used for visual intervention, auditory signals used for auditory intervention, or remote control signals used for physical or manipulative intervention to remotely control system 11 .
  • the intervention unit 163 transmits intervention information to the system 11 or the management server 13 via the communication unit 151 and the network 21 .
  • the display unit 153 includes various display devices such as a display and a head-mounted display, and outputs visual information.
  • the audio output unit 154 includes various audio output devices such as headphones, earphones, speakers, etc., and outputs auditory information.
  • the operation input unit 155 includes various operation devices and is used for operator operations.
  • the operation input unit 155 supplies an operation signal corresponding to the operator's operation to the control unit 152 .
  • the imaging unit 156 includes, for example, a camera.
  • the imaging unit 156 for example, images an operator and supplies the obtained captured image to the control unit 152 .
  • the voice input unit 157 includes, for example, a microphone.
  • the voice input unit 157 collects the operator's voice and the like, and supplies the obtained voice data to the control unit 152 .
  • FIG. 6 shows an example of how the operation terminal 12 is worn.
  • the operation terminal 12 is a head-mounted display worn on the operator's head.
  • the operation terminal 12 may be configured by other types of wearable devices. Also, the operation terminal 12 may be configured by an information processing device other than a wearable device, such as a PC (Personal Computer), a smart phone, or a tablet terminal. Furthermore, the operation terminal 12 may be configured by a combination of two or more devices. For example, the operation terminal 12 may be configured by a combination of a wearable device and a smart phone. For example, the operation terminal 12 may be composed of a combination of multiple displays and a computer.
  • an information processing device other than a wearable device, such as a PC (Personal Computer), a smart phone, or a tablet terminal.
  • the operation terminal 12 may be configured by a combination of two or more devices.
  • the operation terminal 12 may be configured by a combination of a wearable device and a smart phone.
  • the operation terminal 12 may be composed of a combination of multiple displays and a computer.
  • each unit of the operation terminal 12 communicates with another device via the communication unit 151 and the network 21, the description of the communication unit 151 and the network 21 is omitted.
  • the control unit 152 transmits/receives data to/from the management server 13 via the communication unit 151 and the network 21 , it is described that the control unit 152 transmits/receives data to/from the management server 13 .
  • FIG. 7 shows a configuration example of the management server 13. As shown in FIG.
  • the management server 13 includes a communication unit 201 and a control unit 202.
  • the communication unit 201 includes various communication devices.
  • the communication unit 201 can communicate with the system 11 and other devices such as the operation terminal 12 via the network 21 .
  • the communication unit 201 supplies data received from another device to the control unit 202 and acquires data to be transmitted to the other device from the control unit 202 .
  • the control unit 202 includes a processor such as a CPU, and controls the management server 13 and executes various processes.
  • the control unit 202 includes a recognition unit 211 , an image processing unit 212 , an accident section setting unit 213 , an intermediary unit 214 , an intervention unit 215 , a learning unit 216 and a map information providing unit 217 .
  • the recognition unit 211 recognizes the situation around the system 11 based on the monitoring information received from the system 11 .
  • the image processing unit 212 performs various types of image processing on captured images acquired from the system 11 .
  • the image processing unit 212 generates a monitoring image used by the operator to monitor the environment around the system 11 based on the captured image acquired from each system 11 .
  • the accident interval setting unit 213 sets an accident interval based on intervention information transmitted from the operation terminal 12 when the operator intervenes in the system 11 and monitoring information transmitted from the system 11 when the operator intervenes.
  • the accident section is, for example, a section including the point where the accident occurred and in which the operator intervened.
  • the mediation unit 214 mediates monitoring of the surroundings of the system 11 by the operation terminal 12 (operator) and intervention processing to the system 11 by the operation terminal 12 (operator). For example, the intermediary unit 214 transmits the monitoring image generated by the image processing unit 212 to the operation terminal 12 via the communication unit 201 and the network 21 . For example, the mediation unit 214 transmits the intervention information received from the operation terminal 12 to the system 11 to be intervened via the communication unit 201 and the network 21 . At this time, the intermediary unit 214 processes the intervention information as necessary.
  • the intervention unit 215 executes intervention processing to the system 11 instead of the operator or together with the operator. For example, the intervention unit 215 generates intervention information for performing intervention on the system 11 and transmits it to the target system 11 .
  • the learning unit 216 learns the operator's operation of the system 11 based on the remote control signal included in the monitoring information acquired from the system 11 and the intervention information acquired from the operation terminal 12 . For example, the learning unit 216 learns the operator's operation of the vehicle 101 , which is one type of the system 11 .
  • the map information providing unit 217 provides each system 11 and each operation terminal 12 with map information.
  • step S1 the user support system 51 senses the user's state and operation, as well as the surrounding situation.
  • the external sensor 61 senses the surroundings of the user support system 51 (user) and supplies external sensor data to the control unit 65 .
  • the internal sensor 62 senses the state of the user support system 51 and the user, and supplies internal sensor data to the controller 65 .
  • the operation input unit 63 supplies an operation signal corresponding to the user's operation to the control unit 65 in accordance with the user's operation.
  • the position estimation unit 71 estimates the position and orientation of the user support system 51 (user) based on the external sensor data and the internal sensor data.
  • the recognition unit 72 recognizes the circumstances around the user support system 51 and the states of the user support system 51 and the user based on the external world sensor data and the internal world sensor data.
  • the output control unit 74 generates monitoring information and transmits it to the management server 13 .
  • the monitoring information includes, for example, a captured image of the surroundings of the user support system 51, a recognition result of the surrounding situation of the user support system 51, and a recognition result of the state of the user support system 51 and the user.
  • control unit 202 of the management server 13 receives monitoring information from the system 11 .
  • the image processing unit 212 generates a monitoring image based on the captured image included in the monitoring information.
  • the intermediary unit 214 transmits the monitoring image to the operator's operation terminal 12 .
  • control unit 152 of the operation terminal 12 receives the monitoring image from the management server 13.
  • the display unit 153 displays a monitoring image under the control of the output control unit 161 .
  • the operator monitors the surroundings of the user while viewing the monitoring image displayed on the display unit 153 .
  • step S2 the user support system 51 estimates the operator's need for support.
  • the recognition unit 72 estimates the degree of risk indicating the probability that the user will encounter danger, based on the result of the processing in step S1.
  • the information processing determination unit 73 estimates the necessity of operator support based on the estimated degree of risk. For example, the higher the risk, the higher the need for support, and the lower the risk, the lower the need for support.
  • step S3 the information processing determination unit 73 determines whether operator support is required. For example, when the degree of necessity of support estimated in the process of step S2 is less than a predetermined threshold, the information processing determination section 73 determines that the operator's support is not required, and the process returns to step S1.
  • steps S1 to S3 is repeatedly executed until it is determined in step S3 that the operator's support is required.
  • step S3 when the degree of support necessity estimated in the process of step S2 is equal to or greater than a predetermined threshold, the information processing determination unit 73 determines that the operator's support is required, and the process proceeds to step S4. .
  • step S4 the management server 13 determines whether the operator is available.
  • the information processing determination unit 73 of the user support system 51 requests the management server 13 for operator support.
  • the intermediary unit 214 of the management server 13 receives the request for support from the user support system 51 and inquires of the operator's operation terminal 12 whether or not the user's support is possible.
  • control unit 152 of the operation terminal 12 receives an inquiry from the management server 13 as to whether user support is available.
  • the display unit 153 displays a message inquiring about the availability of user support.
  • the operator determines whether or not the user's support is possible, and inputs the determination result into the operation terminal 12 via the operation input unit 155 .
  • the intervention unit 163 of the operation terminal 12 notifies the management server 13 of the result of the operator's decision as to whether or not the user can be supported.
  • the intermediary unit 214 of the management server 13 receives notification of the result of the determination by the operator as to whether or not support for the user is possible. If the intermediary unit 214 determines that the operator is not available based on the operator's determination result, the process proceeds to step S5.
  • step S5 the user support system 51 autonomously stops operating. Specifically, the intermediary unit 214 of the management server 13 notifies the user support system 51 that the operator is unavailable.
  • control unit 65 of the user support system 51 receives a notification that the operator is unavailable.
  • the user support system 51 autonomously stops operating under the control of the information processing determination section 73 . This ensures local user safety.
  • step S4 After that, the process returns to step S4, and the processes of steps S4 and S5 are repeatedly executed until it is determined in step S4 that the operator is available.
  • step S4 if the intermediary unit 214 of the management server 13 determines that the operator is available based on the operator's determination result, the process proceeds to step S6.
  • step S6 the management server 13 acquires the operator's judgment result. For example, the operator determines an intervention method for assisting the user while viewing the monitoring image, and inputs information about the intervention method using the operation input unit 155 or the like.
  • the intervention unit 163 generates intervention information for executing intervention for the user support system 51 based on the information input by the operator.
  • the intervention unit 163 transmits intervention information to the management server 13 .
  • control unit 202 of the management server 13 receives intervention information from the operation terminal 12 .
  • step S7 the user support system 51 performs semi-automatic control according to the user's ability and condition. Specifically, the intervention unit 215 of the management server 13 transmits the intervention information received from the operation terminal 12 to the user support system 51 .
  • the control unit 65 of the user support system 51 receives intervention information from the management server 13 .
  • the information processing determination unit 73 determines the rate of automatic control by operator intervention according to the user's ability and state based on the intervention information.
  • the output control unit 74 controls the output unit 66 based on the determined automatic control ratio. As a result, the operator's intervention is executed.
  • step S1 After that, the process returns to step S1, and the processes after step S1 are executed.
  • the operator can assist the user through intervention.
  • the management server 13 supports operator monitoring and reduces the operator's load.
  • This process starts when the power of the management server 13 is turned on, and ends when the power of the management server 13 is turned off.
  • step S31 the management server 13 acquires monitoring information from each system 11. That is, the control unit 202 of the management server 13 receives monitoring information transmitted from each system 11 monitored by the operator.
  • the monitoring information includes, for example, a captured image of the surroundings of the system 11, the recognition result of the surrounding situation of the system 11, and the recognition result of the state of the system 11.
  • the monitoring information includes recognition results of the user's state when the system 11 is used by the user (for example, when the system 11 is not a robot or the like on which the user does not ride).
  • step S ⁇ b>32 the recognition unit 211 extracts a caution area from the captured image of each system 11 . For example, based on the monitoring information received from each system 11, the recognition unit 211 extracts the caution area from the captured image included in the monitoring information.
  • the caution area is an area that the user or the system 11 is presumed to need to pay attention to.
  • areas of concern include areas containing hazardous materials and areas containing objects that the user or system 11 needs to see.
  • a dangerous object is, for example, an object that may pose a danger to the user or the system 11, and an object that may pose a danger to the user or the system 11.
  • hazards include objects with which the user or system 11 may collide or come into contact, such as surrounding vehicles, pedestrians, obstacles, and the like.
  • Hazardous materials include, for example, puddles, construction site holes, and other objects that a user or system 11 may tip or fall into.
  • Objects that the user or the system 11 needs to check include, for example, traffic lights, road signs, intersections, railroad crossings, and the like.
  • the caution area is not necessarily extracted from all captured images, and there may be captured images from which the caution area is not extracted.
  • the image processing unit 212 generates a monitoring image by synthesizing the caution areas. Specifically, the image processing unit 212 extracts an image of a caution area (hereinafter referred to as a caution area image) from each captured image, and combines the extracted caution area images to form a monitoring image. Generate. At this time, the image processing unit 212 arranges each caution area image at a position corresponding to the position in the original captured image in the monitoring image. As a result, each caution area image is arranged in the monitoring image while the position viewed from each system 11 is maintained, and a bird's-eye view image in which each caution area is viewed at once is generated.
  • a caution area image an image of a caution area
  • the image processing unit 212 may generate a two-dimensional model or three-dimensional model of an object existing in the caution area and use it as the caution area image.
  • step S34 the mediation unit 214 transmits the monitoring image to the operator. That is, the intermediary unit 214 transmits the monitoring image to the operation terminal 12 used by the operator.
  • the operation terminal 12 receives the monitoring image and causes the display unit 153 to display it.
  • the operator monitors the surroundings of each system 11 while looking at the monitoring image displayed on the display unit 153 .
  • FIG. 10 shows an example in which the operator OP monitors the surroundings of users U1 to U3 (the system 11 used by them).
  • a tree 301 exists in front of the user U1 on the right, and a captured image including the tree 301 is captured by the system 11 of the user U1. Then, an area including the tree 301 is extracted as a caution area from the captured image of the user U1.
  • a traffic light 302 exists in front of the center of the user U2, and a captured image including the traffic light 302 is acquired by the system 11 of the user U2. Then, an area including the traffic light 302 is extracted as a caution area from the captured image of the user U2.
  • a vehicle 303 exists to the left of the user U3, and a captured image including the vehicle 303 is acquired by the system 11 of the user U3. Then, an area including the vehicle 303 is extracted as a caution area from the captured image of the user U3.
  • a monitoring image 311 including images of the tree 301, the traffic light 302, and the vehicle 303 is generated.
  • the tree 301, the traffic light 302, and the vehicle 303 are arranged in the surveillance image 311 at positions corresponding to the positions in the original captured image.
  • trees 301, traffic lights 302, and vehicles 303 which actually exist in different locations, are arranged in one monitoring image 311. Also, a tree 301, a traffic light 302, and a vehicle 303 are arranged at positions similar to those seen from (the system 11 of) each user in the monitoring image.
  • the operator OP can confirm the caution area around each user (the system 11 of the user) at once by viewing the monitoring image.
  • areas other than the caution area are not displayed in the monitoring image, the visibility of the caution area is improved, and the operator OP can easily recognize the caution area.
  • the operator OP can easily recognize the relative position of the caution area with respect to (the system 11 of) each user. That is, the operator OP can easily recognize the position of the caution area seen from each user (the system 11 of the user).
  • step S35 the management server 13 determines whether or not the operator has designated a caution area.
  • area of interest For example, if there is a caution area determined to require intervention to avoid danger to the user or the system 11 among the caution areas in the monitoring image, the operator determines that caution area (hereinafter referred to as area of interest).
  • the method of specifying the attention area is not particularly limited.
  • the operator uses the operation input unit 155 or uses gestures (for example, pointing) or voice to specify the attention area.
  • the intervention unit 163 of the operation terminal 12 transmits information indicating the attention area specified by the operator (hereinafter referred to as attention area information) to the management server 13 .
  • control unit 202 of the management server 13 receives attention area information from the operation terminal 12 . Then, the intermediation unit 214 determines that the operator has specified a caution area, and the process proceeds to step S36.
  • step S36 the intermediary unit 214 identifies the system 11 to intervene. Specifically, the intermediation unit 214 identifies the captured image from which the attention area specified by the operator is extracted based on the attention area information. Further, the intermediary unit 214 identifies the system 11 that captured the identified captured image. As a result, the system 11 to be intervened (hereinafter referred to as intervention target system) is specified.
  • intervention target system the system 11 to be intervened
  • step S37 the management server 13 mediates intervention in the identified system 11.
  • the operator inputs information necessary for intervention into the intervention target system into the operation terminal 12 .
  • the operator's intervention method may be any of the above-described visual intervention, auditory intervention, physical intervention, and operational intervention. Also, two or more intervention methods may be combined.
  • the method of inputting necessary information for intervention is not particularly limited.
  • the operator uses the operation input unit 155 or uses gestures or voice to input information necessary for intervention into the operation terminal 12 .
  • the intervention unit 163 of the operation terminal 12 generates intervention information based on the information input by the operator and transmits it to the management server 13 .
  • the intermediary unit 214 of the management server 13 receives intervention information from the operation terminal 12 .
  • the intermediary unit 214 transmits the received intervention information to the intervention target system.
  • the intervention target system receives the intervention information and executes processing according to the operator's intervention based on the intervention information.
  • the output unit 66 under the control of the output control unit 74, performs visual intervention, auditory intervention, physical intervention, or operation intervention based on the intervention information. Execute the process.
  • the vehicle control unit 123 executes processing according to the operation intervention by controlling the operation of the vehicle 101 based on the intervention information.
  • the operation terminal 12 transmits intervention information including the voice message to the management server 13 .
  • the intermediary unit 214 of the management server 13 receives the intervention information from the operation terminal 12 and transmits it to the system 11 of user U3.
  • the system 11 of user U3 outputs a voice message "There is a car on your left" based on the intervention information.
  • step S31 After that, the process returns to step S31, and the processes after step S31 are executed.
  • step S35 if the intermediary section 214 has not received attention area information from the operation terminal 12, it determines that the operator has not specified a caution area, and the process returns to step S31.
  • the operator can efficiently monitor the surroundings of multiple systems 11 . Also, the operator can quickly perceive the danger around each system 11 and intervene in the system 11 easily and quickly. This allows the operator to quickly and reliably get the user or system 11 out of harm's way, increasing the reliability of operator intervention.
  • step S61 monitoring information is acquired from each system 11 in the same manner as in the process of step S31 in FIG.
  • step S62 a caution area is extracted from the captured image of each system 11, similar to the process of step S32 in FIG.
  • step S63 the recognition unit 211 estimates the degree of risk of each point. For example, the recognition unit 211 estimates the degree of risk of each caution area extracted in the process of step S62.
  • the method of estimating the degree of risk is not particularly limited.
  • the recognition unit 211 estimates the probability and the degree of danger that the user or the system 11 is in danger in the caution area, and conversely, the probability and the degree of danger that the user or the system 11 is in danger in the caution area. . Then, the recognition unit 211 estimates the degree of risk of the caution area based on the estimated result.
  • the recognition unit 211 estimates the degree of risk of each point. For example, the recognizing unit 211 puts together the caution areas existing within a predetermined range into one spot. Then, for example, the recognizing unit 211 calculates the average value of the risk levels of the areas requiring attention within each point as the risk level of each point.
  • step S64 the intermediary unit 214 determines whether or not to present a global monitoring image to the operator. For example, when the condition for presenting the operator with a global monitoring image is satisfied, the intermediary unit 214 determines to present the operator with a global monitoring image, and the process proceeds to step S65.
  • Conditions for presenting a global monitoring image to the operator are assumed, for example, when the operator instructs presentation of a global monitoring image, or when there is no point where the degree of risk is equal to or higher than a predetermined threshold. be done.
  • step S65 the image processing unit 212 generates a global monitoring image.
  • step S64 for example, if the conditions for presenting the local monitoring image to the operator are satisfied, the image processing unit 212 determines to present the local monitoring image to the operator, and the process proceeds to step S64. Proceed to S66.
  • the conditions for presenting the local monitoring image to the operator are, for example, the case where the operator instructs the presentation of the local monitoring image, or the case where there is a point where the degree of risk is equal to or greater than a predetermined threshold. be done.
  • a situation in which the degree of danger is equal to or higher than a predetermined threshold for example, a situation in which a person is about to enter a railroad crossing even though the gate is down is assumed.
  • This situation is recognized based on a scenario set in advance using image processing or machine learning, for example, based on camera or distance sensor data.
  • step S66 the image processing unit 212 generates a local monitoring image.
  • step S67 similar to the processing in step S34 of FIG. 9, the monitoring image is transmitted to the operator. This presents the operator with a global monitoring image or a local monitoring image.
  • FIG. 13 shows an example of a global monitoring image
  • the left side shows an example of a local monitoring image.
  • the global monitoring image is a bird's-eye view image that shows the distribution and degree of risk of each point, including areas requiring attention, on a map.
  • points A to C are displayed on the map as points including the caution area. Further, it is shown that the degree of risk of point A is 0.89, the degree of risk of point B is 0.54, and the degree of risk of point C is 0.81.
  • the display mode of the circle indicating the position of each point changes depending on the degree of danger. For example, the higher the risk, the larger the circle or the darker the circle. On the other hand, the lower the risk, the smaller the circle or the lighter the color of the circle.
  • a local monitoring image for example, a bird's-eye view image that is synthesized by extracting areas requiring attention near the point with the highest risk is used.
  • a local monitoring image is generated, for example, by a method similar to the example of FIG. 10 described above.
  • FIG. 10 an example of a monitoring image in which caution areas are extracted from images captured by each system 11 located near the point A and synthesized is shown.
  • the degree of danger of point A is shown in the surveillance image.
  • a caution area with a particularly high degree of danger is surrounded by a square frame (hereinafter referred to as a bounding box) and highlighted.
  • a train 351, a car 352, and a motorbike 353 are enclosed by bounding boxes.
  • the bounding box changes its display mode based on, for example, the degree of danger of the caution area within the bounding box. For example, the higher the degree of danger, the thicker the frame of the bounding box or the darker the color of the frame. On the other hand, the lower the risk, the narrower the border of the bounding box or the lighter the color of the border. Also, for example, when the inside of the bounding box is translucent, the higher the risk, the darker the color inside the bounding box, and the lower the risk, the lighter the color inside the bounding box.
  • the audio output unit 154 may output a sound (eg, warning sound) corresponding to the object in each caution area under the control of the output control unit 161.
  • a sound eg, warning sound
  • the volume, pitch, etc. of the output sound may be changed based on the degree of danger of each caution area.
  • step S61 After that, the process returns to step S61, and the processes after step S61 are executed.
  • steps S35 to S37 in FIG. 9 may be executed.
  • the operator may specify a local caution area in the monitoring image to intervene in the system 11 that captured the captured image including the designated caution area.
  • the operator can monitor the situation around each system 11 globally and locally.
  • both the global monitoring image and the local monitoring image may be presented to the operator at the same time. Then, when the operator selects one of the monitoring images, the selected monitoring image may be enlarged and displayed.
  • vehicles 101-1 to 101-4 are simply referred to as vehicles 101 when there is no need to distinguish them individually.
  • this figure shows an example in which four vehicles 101 patrol the route 401, the number of vehicles 101 is not particularly limited. However, since the operator's visual load increases, the number of vehicles 101 that can be monitored by one operator is practically limited to several.
  • the operator needs to intervene in each vehicle 101 every time the vehicle 101 travels through the section where the accident occurred.
  • the load on the operator increases, and waiting for the intervention of the operator becomes a speed-limiting factor, which may delay the operation of the vehicle 101 .
  • This process starts when the power of the management server 13 is turned on, and ends when it is turned off.
  • monitoring information is transmitted from each vehicle 101 to the management server 13, for example.
  • the image processing unit 212 of the management server 13 In response to this, the image processing unit 212 of the management server 13 generates a monitoring image based on the captured image included in the monitoring information of each vehicle 101 .
  • the image processing unit 212 may use, for example, the captured image of each vehicle 101 as it is as the monitoring image, or may generate the monitoring image by the method described above with reference to FIG. 9 or FIG. good too.
  • the intermediary unit 214 transmits the monitoring image to the operation terminal 12 .
  • the display unit 153 of the operation terminal 12 displays a monitoring image under the control of the output control unit 161. The operator monitors the surroundings of each vehicle 101 while looking at the monitoring image.
  • step S101 the recognition unit 211 determines whether an accident has occurred. This process is repeatedly executed until it is determined that an accident has occurred, and when it is determined that an accident has occurred, the process proceeds to step S102.
  • the detection of accidents may be performed by any of the management server 13, the vehicle 101, and the operator.
  • the recognition unit 211 of the management server 13 detects an accident based on monitoring information acquired from the vehicle 101 .
  • monitoring information including the accident detection result is transmitted from the vehicle 101 to the management server 13 .
  • the recognition unit 211 of the management server 13 recognizes the occurrence of the accident based on the monitoring information received from the vehicle 101 .
  • the operator uses the operation terminal 12 to notify the management server 13 of the occurrence of the accident.
  • the recognition unit 211 of the management server 13 recognizes the occurrence of the accident based on the notification from the operation terminal 12 .
  • step S102 the mediation unit 214 determines whether or not the operator has intervened.
  • the operator determines whether or not operation intervention is necessary.
  • FIG. 17 shows an example of a monitoring image displayed to the operator.
  • an obstacle 411 exists in front of the vehicle 101 .
  • the operator determines whether or not the vehicle 101 needs intervention in order to avoid the obstacle 411 .
  • the operator When the operator determines that operation intervention is necessary, the operator inputs information necessary for operation intervention into the operation terminal 12 .
  • the input method required for operation intervention is not particularly limited.
  • the operator uses the operation input unit 155 or uses gestures or voice to input information necessary for intervention into the operation terminal 12 .
  • the intervention unit 163 of the operation terminal 12 In response, the intervention unit 163 of the operation terminal 12 generates intervention information based on information input by the operator.
  • the intervention information includes, for example, a remote control signal for remotely controlling the vehicle 101 and information indicating the line-of-sight direction of the operator.
  • the intervention unit 163 transmits intervention information to the management server 13 .
  • the intermediary unit 214 of the management server 13 receives the intervention information from the operation terminal 12, it determines that the operator has intervened, and the process proceeds to step S104.
  • step S103 the management server 13 mediates operation intervention. Specifically, the intermediary unit 214 transmits the intervention information received from the operation terminal 12 to the vehicle 101 targeted for operation intervention.
  • the vehicle control unit 123 of the vehicle 101 targeted for operation intervention receives intervention information from the management server 13 .
  • the vehicle control unit 123 executes processing according to the operation intervention by controlling the operation of the vehicle 101 based on the received intervention information.
  • the management server 13 collects information on manipulation intervention.
  • the learning unit 216 collects the operation history of the operator during operation intervention based on the remote operation signal included in the intervention information.
  • the operation history includes, for example, operation timings and operation amounts of the steering wheel (steering angle), accelerator, and brake of the vehicle 101, as well as sections in which operations were intervened.
  • the learning unit 216 collects visual recognition information regarding an object or the like visually recognized by the operator during the manipulation intervention based on the operator's line-of-sight direction included in the intervention information and the monitoring image presented to the operator during the manipulation intervention. do.
  • the learning unit 216 also collects sensor information at the time of intervention based on the monitoring information received from the vehicle 101 .
  • step S105 the accident section setting unit 213 sets the accident section. For example, based on the information collected by the learning unit 216 in the process of step S104, the accident section setting unit 213 sets the section in which the operator intervened as the accident section.
  • section 401A including point P1 where the accident occurred is set as the accident section.
  • step S106 the learning unit 216 learns the operator's operation. For example, the learning unit 216 learns the operator's operation in the accident section by using the operator's operation in the accident section as an expert and also using the operator's visual information in the accident section. The learning unit 216 obtains the parameters of the learning model that imitates the operator's operation in the accident section, and generates the learning model using the obtained parameters.
  • Any learning method can be adopted for learning the operator's operations.
  • inverse reinforcement learning combined with simulation inverse reinforcement learning using GAIL (Generative Adversarial Imitation Learning), imitation learning using expert manipulation, and the like can be employed.
  • GAIL Geneative Adversarial Imitation Learning
  • imitation learning using expert manipulation and the like can be employed.
  • re-learning fine-tuning
  • a learning model that can not only simply imitate the operator's operation but also avoid moving objects such as vehicles and pedestrians is generated. be.
  • step S107 the intervention unit 215 executes operation intervention in the accident section based on the learning result. Specifically, intervention unit 215 generates intervention information including a remote control signal using a learning model for vehicle 101 traveling in the accident zone, and transmits the intervention information to vehicle 101 .
  • the vehicle control unit 123 of the vehicle 101 receives the intervention information from the management server 13, and controls the operation of the vehicle 101 based on the received intervention information, thereby executing the process according to the operation intervention. Execute.
  • the management server 13 performs the same operation intervention as the operator does on the vehicle 101 traveling in the accident section without the intervention of the operator. As a result, each vehicle 101 can avoid accidents while reducing the burden on the operator.
  • step S108 the management server 13 determines whether or not to cancel the accident section.
  • the recognition unit 211 monitors changes in the situation in the accident section based on monitoring information transmitted from the vehicle 101 .
  • the recognizing unit 211 determines that there has been a large change in the situation of the accident section, it notifies the operation terminal 12 of the operator of the change in the accident section.
  • the output control unit 161 of the operation terminal 12 receives notification of the change in the situation of the accident section, controls the display unit 153 or the audio output unit 154, and notifies the operator of the change in the accident section.
  • the operator checks the monitoring image displayed on the display unit 153 and determines whether or not operation intervention is necessary in the accident section.
  • the operator inputs the determination result into the operation terminal 12 .
  • the method of inputting the judgment result is not particularly limited.
  • the operator uses the operation input unit 155 or uses gestures or voice to input the determination result to the operation terminal 12 .
  • the intervention unit 163 of the operation terminal 12 notifies the management server 13 of the determination result as to whether operation intervention is required in the accident section.
  • the accident section setting unit 213 of the management server 13 determines not to release the accident section, and the process returns to step S107.
  • the accident section setting unit 213 determines not to cancel the accident section, and the process returns to step S107.
  • step S108 the processing from step S107 to step S108 is repeatedly executed until it is determined in step S108 that the accident section is canceled.
  • the management server 13 intervenes in the operation of the vehicle 101 traveling in the accident section until the accident section is cancelled.
  • step S108 when the operator determines that the operation intervention is unnecessary in the accident section, the accident section setting unit 213 determines to cancel the accident section, and the process proceeds to step S109.
  • step S109 the accident section setting unit 213 cancels the accident section.
  • the intervention unit 215 of the management server 13 stops the operation intervention to the vehicle 101 .
  • step S101 After that, the process returns to step S101, and the processes after step S101 are executed.
  • the management server 13 intervenes in the operation of each vehicle 101, thereby reducing the operator's load.
  • each vehicle 101 can safely prevent an accident. can be avoided.
  • the management server 13 performs operation intervention using the learned learning model in the accident section including the point where the accident occurred, so that each vehicle 101 can safely avoid the accident. can be avoided.
  • the recognition unit 211 of the management server 13 executes processing for extracting a caution area from the captured image.
  • the recognizing unit 211 for example, recognizes a dangerous substance in the captured image and extracts a region including the dangerous substance as a caution region.
  • the recognition unit 211 needs to determine, for example, whether the situation or objects in the captured image are dangerous.
  • a learning model obtained by machine learning can be used.
  • the second embodiment of the present technology makes it possible to quickly assign an accurate label to learning data.
  • FIG. 19 shows a configuration example of an information processing system 501 that is a second embodiment of an information processing system to which the present technology is applied.
  • the information processing system 501 includes a data transmission terminal 511, an unlabeled data server 512, a learning data generation server 513, client terminals 514-1 to 514-n, and a learning data server 515.
  • client terminals 514-1 to 514-n are simply referred to as client terminals 514 when there is no need to distinguish them individually.
  • the data transmission terminal 511 selects unlabeled data to be labeled and uploads the selected unlabeled data to the unlabeled data server 512 .
  • Unlabeled data is data that is not labeled.
  • the learning data generation server 513 acquires unlabeled data from the unlabeled data server 512 and transmits it to each client terminal 514 .
  • Each client terminal 514 presents unlabeled data to the evaluator.
  • the evaluator is the user who performs the task of assigning the label.
  • Each client terminal 514 acquires the label given by the evaluator and assigns it to unlabeled data to generate labeled data. Each client terminal 514 transmits labeled data to the learning data generation server 513 .
  • the learning data generation server 513 determines correct labels based on the labels given by each evaluator.
  • the learning data generation server 513 generates learning data by assigning a correct label to unlabeled data.
  • the learning data generation server 513 saves the learning data in the learning data server 515 .
  • the data user uses the learning data stored in the learning data server 515 to perform machine learning.
  • step S201 the data transmission terminal 511 selects data to be labeled. That is, the data transmission terminal 511 selects one of unlabeled data that has not yet been labeled as data to be labeled.
  • FIG. 21 shows an example of unlabeled data.
  • unlabeled data includes image and sensor information.
  • the image may be either a moving image or a still image.
  • Sensor information is, for example, information detected by a given sensor under the conditions shown in the image.
  • sensor information includes information indicative of the speed of the vehicle in the image.
  • step S202 the data transmission terminal 511 uploads the selected data to the unlabeled data server 512.
  • step S203 the learning data generation server 513 distributes the data to be labeled to each client terminal 514. Specifically, the learning data generation server 513 acquires the data uploaded from the data transmission terminal 511 from the unlabeled data server 512 and transmits the data to each client terminal 514 .
  • each client terminal 514 labels the distributed data.
  • the client terminal 514 presents to the evaluator the situation indicated by the image and sensor information contained in the acquired unlabeled data.
  • the client terminal 514 displays a message "Is this dangerous?"
  • the evaluator determines whether the presented situation is dangerous and inputs a label indicating the result of the determination into the client terminal 514. For example, the evaluator enters a label with a value of either "dangerous" or "okay".
  • the client terminal 514 generates labeled data by adding the label input by the evaluator to the distributed data.
  • step S205 the learning data generation server 513 collects labeled data from each client terminal 514.
  • the learning data generation server 513 determines correct labels based on the labels given to the collected data. For example, the learning data generation server 513 determines the correct label by majority vote from the labels given to the collected labeled data. That is, the learning data generation server 513 determines the label with the largest number among the labels given to the collected labeled data as the correct label.
  • the learning data generation server 513 generates learning data by assigning correct labels to data to be labeled.
  • learning data is generated by assigning a correct label whose value is "dangerous" to the unlabeled data in FIG.
  • step S207 the learning data generation server 513 distributes tokens to the evaluators to whom the correct label has been assigned.
  • Tokens are, for example, data that can be exchanged for rewards. Note that the types of rewards that can be exchanged with tokens are not particularly limited.
  • the learning data generation server 513 sends a token to the client terminal 514, which is the source of the labeled data with the correct label.
  • the tokens are distributed to the evaluators who gave the correct labels.
  • a token includes a data ID and a token ID.
  • the data ID is an ID for identifying the data to which the correct label is assigned.
  • the token ID is an ID for identifying the distributed token.
  • the learning data generation server 513 associates the learning data with the distributed token. For example, the learning data generation server 513 associates the learning data with the distributed tokens by adding information about the distributed tokens to the learning data.
  • the left side of FIG. 24 shows a data configuration example of the learning data after linking the information on the distributed tokens.
  • Learning data includes data, labels, data IDs, and token ID lists.
  • the data ID corresponds to the data ID included in the distributed token.
  • the token ID list contains a set of token ID and user ID for each evaluator to whom the token was distributed.
  • the token ID corresponds to the token ID included in the distributed token.
  • a user ID is an ID for identifying an evaluator to whom a token has been distributed.
  • step S209 the learning data generation server 513 saves the learning data in the learning data server 515.
  • the correct label is determined by majority vote from among the labels given by multiple evaluators.
  • tokens are distributed to evaluators who assign correct labels, each evaluator is motivated to assign appropriate labels. This improves label accuracy.
  • the application of inappropriate labels is suppressed.
  • the correct label is determined by majority vote and the task of confirming the contents of the correct label is omitted, the correct label can be quickly assigned to each data at a lower cost.
  • the correct answer rate the probability of assigning a correct label to each evaluator (hereinafter referred to as the correct answer rate) based on the token ID list of each piece of learning data. This makes it possible to determine the superiority or inferiority of each evaluator, and for example, to change the reward based on the superiority or inferiority of the evaluator. For example, an evaluator with a higher accuracy rate can be given a higher reward.
  • rewards such as money may be directly given to evaluators who have given correct labels.
  • a plurality of data may be collectively distributed to evaluators, and each data may be labeled collectively.
  • the data user may individually use the learning data accumulated in the learning data server 515, or may use a learning data group in which a plurality of learning data are collected.
  • the learning data group is classified, for example, according to the type of data, purpose of use, and the like.
  • the data user may pay the data manager who manages the learning data for each piece of learning data, or may pay for a group of learning data.
  • the token ID list identifies the evaluators who gave the correct labels to each training data, so part of the consideration given by the data user is returned to the evaluators who gave the correct labels. Is possible.
  • the data manager may, for example, request labeling from groups such as companies and organizations instead of individuals.
  • the group is evaluated based on the average accuracy rate of the evaluators in the group, and a reward is given.
  • the operation terminal 12 or the management server 13 may execute all or part of the process of recognizing the circumstances around the system 11 and the status of the system 11 and the user.
  • the operation terminal 12 may execute the processing of the management server 13 and the operation terminal 12 may directly intervene in each system 11 .
  • the operation terminal 12 executes the monitoring image generation processing described above with reference to FIGS. 9 and 12 .
  • the learning data generation process described above with reference to FIG. 19 and the like may be executed by the management server 13.
  • the management server 13 may execute the learning process using the learning data generated by the learning data generation process.
  • the system 11 of the information processing system 1 of FIG. 1 can be installed at any location such as a road for monitoring. In this case, for example, the situation around the system 11 is monitored based on the monitoring information obtained by the system 11 . Since the system 11 is neither used nor moved by the user, basically no operator intervention is required.
  • the learning data generation process described above with reference to FIG. 19 and the like can be applied to all processes of labeling learning data, regardless of the learning method, purpose of learning, type of learning data, and the like.
  • FIG. 25 is a block diagram showing an example of the hardware configuration of a computer that executes the series of processes described above by means of a program.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 1005 is further connected to the bus 1004 .
  • An input unit 1006 , an output unit 1007 , a storage unit 1008 , a communication unit 1009 and a drive 1010 are connected to the input/output interface 1005 .
  • the input unit 1006 consists of input switches, buttons, a microphone, an imaging device, and the like.
  • the output unit 1007 includes a display, a speaker, and the like.
  • the storage unit 1008 includes a hard disk, nonvolatile memory, and the like.
  • a communication unit 1009 includes a network interface and the like.
  • a drive 1010 drives a removable medium 1011 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 1001 loads, for example, a program recorded in the storage unit 1008 into the RAM 1003 via the input/output interface 1005 and the bus 1004, and executes the program. A series of processes are performed.
  • the program executed by the computer 1000 can be provided by being recorded on removable media 1011 such as package media, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input/output interface 1005 by loading the removable medium 1011 into the drive 1010 . Also, the program can be received by the communication unit 1009 and installed in the storage unit 1008 via a wired or wireless transmission medium. In addition, programs can be installed in the ROM 1002 and the storage unit 1008 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • this technology can take the configuration of cloud computing in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the flowchart above can be executed by a single device, or can be shared by a plurality of devices.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • a recognition unit that extracts a caution area, which is an area requiring attention around each system, based on a plurality of captured images captured at different positions by a plurality of systems;
  • An information processing apparatus comprising: an image processing unit that generates a first bird's-eye view image based on the captured image including the caution area.
  • the image processing unit generates the first bird's-eye view image by synthesizing a plurality of caution area images respectively indicating the plurality of caution areas.
  • the image processing unit arranges each of the caution area images in the first bird's-eye view image at a position corresponding to a position in the original captured image.
  • the recognition unit estimates the degree of risk of each caution area, The information processing apparatus according to any one of (2) to (7), wherein the image processing unit changes a display mode of the caution area image based on the degree of risk of the caution area. (9) The information processing apparatus according to any one of (2) to (8), wherein the image processing unit generates a second bird's-eye view image showing on a map a distribution of points including the caution area. (10) The recognition unit estimates the degree of danger of each of the points, The information processing apparatus according to (9), wherein one of the first bird's-eye view image and the second bird's-eye view image is selected based on the degree of risk of each of the points, and transmitted to an operation terminal used by an operator. .
  • the image processing unit generates the first bird's-eye view image by synthesizing the caution area image showing the caution area included in the point having a degree of risk equal to or greater than a predetermined threshold value. information processing equipment. (12) The information processing apparatus according to (1), wherein the image processing unit generates the first bird's-eye view image showing a distribution of points including the caution area on a map. (13) The information processing according to any one of (1) to (12) above, wherein the caution area includes at least one of a dangerous object and an object that the system or a user using the system needs to confirm. Device.
  • the intervention unit uses the learning model to intervene in the operation of the vehicle in a second accident section including the point where the second accident occurred.
  • the information processing apparatus according to (14) or (15).
  • a learning data generating unit that generates learning data by assigning correct labels determined based on the labels assigned to the data by a plurality of evaluators to the data used for learning the learning model used by the recognizing unit;
  • the information processing apparatus according to any one of (1) to (16).
  • the information processing device Based on a plurality of captured images captured at different positions by a plurality of systems, extracting a caution region that is a region that requires caution around each system, An information processing method for generating a bird's-eye view image based on the captured image including the caution area. (20) Based on a plurality of captured images captured at different positions by a plurality of systems, extracting a caution region that is a region that requires caution around each system, A program for causing a computer to execute a process of generating a bird's-eye view image based on the captured image including the caution area.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本技術は、オペレータが複数のシステムの周囲を監視する場合の負荷を軽減することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。 情報処理装置は、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、前記要注意領域を含む前記撮像画像に基づいて、第1の俯瞰画像を生成する画像処理部とを備える。本技術は、例えば、オペレータによるシステムの監視及びシステムへの介入を仲介するサーバに適用できる。

Description

情報処理装置、情報処理方法、及び、プログラム
 本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、1人のオペレータが複数のシステムの周囲を監視する場合に用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。
 従来、現場にいるユーザが装着したシステムが撮像した画像を現場にいないオペレータとリアルタイムに共有し、ユーザとオペレータとがコミュニケーションできるようにする技術が提案されている。この技術を用いて、例えば、異なる位置に存在するユーザが装着したシステムが撮像した画像を、現場にいないオペレータとリアルタイムに共有することにより、1人のオペレータが複数のシステム(ユーザ)の周囲を監視することが可能である(例えば、特許文献1参照)。
特許第6822413号公報
 しかしながら、1人のオペレータが複数のシステムの周囲を監視する場合、オペレータの視覚的な負荷が大きくなる。そのため、オペレータがシステムの周囲の危険な状況を見逃してしまうおそれがある。
 本技術は、このような状況に鑑みてなされたものであり、オペレータが複数のシステムの周囲を監視する場合の負荷を軽減できるようにするものである。
 本技術の一側面の情報処理装置は、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、前記要注意領域を含む前記撮像画像に基づいて、第1の俯瞰画像を生成する画像処理部とを備える。
 本技術の一側面の情報処理方法は、情報処理装置が、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する。
 本技術の一側面のプログラムは、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する処理をコンピュータに実行させる。
 本技術の一側面においては、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域が抽出され、前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像が生成される。
本技術を適用した情報処理システムの第1の実施の形態を示すブロック図である。 ユーザ支援システムの構成例を示すブロック図である。 ユーザ支援システムの具体例を示す模式図である。 車両の構成例を示すブロック図である。 操作端末の構成例を示すブロック図である。 操作端末の具体例を示す模式図である。 管理サーバの構成例を示すブロック図である。 情報処理システムの処理の一例を説明するためのブロック図である。 監視支援処理の第1の実施の形態を説明するためのフローチャートである。 監視用画像の生成方法を説明するための図である。 オペレータによる介入方法を説明するための図である。 監視支援処理の第2の実施の形態を説明するためのフローチャートである。 大局的な監視用画像と局所的な監視用画像の例を示す図である。 車両が巡回するルートの例を示す図である。 アクシデントの発生地点の例を示す図である。 アクシデント対応処理を説明するためのフローチャートである。 監視用画像の例を示す図である。 アクシデント区間の例を示す図である。 本技術を適用した情報処理システムの第2の実施の形態を示すブロック図である。 学習データ生成処理を説明するためのフローチャートである。 ラベルなしデータの例を示す図である。 ラベルの付与方法を説明するための図である。 学習データの例を示す図である。 学習データ及びトークンのデータ構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.第1の実施の形態
 2.第2の実施の形態
 3.変形例
 4.その他
 <<1.第1の実施の形態>>
 まず、図1乃至図18を参照して、本技術の第1の実施の形態について説明する。
  <情報処理システム1の構成例>
 図1は、本技術を適用した情報処理システム1の第1の実施の形態である情報処理システム1の構成例を示している。
 情報処理システム1は、システム11-1乃至システム11-m、操作端末12-1乃至操作端末12-n、及び、管理サーバ13を備える。システム11-1乃至システム11-m、操作端末12-1乃至操作端末12-n、及び、管理サーバ13は、ネットワーク21を介して相互に接続されている。
 なお、以下、システム11-1乃至システム11-mを個々に区別する必要がない場合、単にシステム11と称する。以下、操作端末12-1乃至操作端末12-nを個々に区別する必要がない場合、単に操作端末12と称する。
 システム11は、例えば、ユーザの支援を行うユーザ支援システム、又は、自律的に移動する自律移動体等により構成される。
 ユーザ支援システムは、例えば、セキュリティシステム、操作支援システム、行動支援システム等により構成される。
 セキュリティシステムは、例えば、ユーザが装着又は携帯し、セキュリティシステム(ユーザ)の周囲を監視し、ユーザを危険から守るシステムである。
 操作支援システムは、例えば、ユーザが使用する装置に設けられたり、ユーザが装着又は携帯したりして、ユーザの当該装置に対する操作を支援するシステムである。操作支援の対象となる装置には、例えば、車両等のユーザ操作により移動する移動体、ユーザ操作により動作する工作機械等がある。
 行動支援システムは、例えば、ユーザに装着され、ユーザの行動を支援するシステムである。行動支援システムには、例えば、ユーザが腕、手、脚等に装着するパワースーツ、義足等がある。
 自律移動体は、例えば、自律的に移動可能な車両、ドローン、ロボット等である。また、自律移動体は、ユーザが搭乗する移動体、又は、ユーザが搭乗しない移動体のいずれであってもよい。
 操作端末12は、オペレータにより使用される情報処理装置である。オペレータは、操作端末12を用いて、各システム11の周囲を監視したり、必要に応じてシステム11に介入したりする。
 オペレータが実行する介入には、例えば、視界介入、聴覚介入、身体介入、操作介入等のうち少なくとも1つが用いられる。
 視界介入は、例えば、システム11を使用するユーザの視界内に、システム11を用いて視覚的な情報(以下、視覚情報と称する)を提示することにより、ユーザの視界に介入し、ユーザの支援等を行う処理である。提示される視覚情報としては、例えば、画像、表示メッセージ、光の点灯又は点滅等がある。
 聴覚介入は、例えば、システム11を使用するユーザに対して、システム11を用いて聴覚的な情報(以下、聴覚情報と称する)を出力することにより、ユーザの聴覚に介入し、ユーザの支援等を行う処理である。出力される聴覚情報としては、例えば、音声メッセージ、警告音、効果音等がある。
 身体介入は、例えば、システム11を使用するユーザに対して、システム11を用いて身体を動作させたり、身体に刺激を与えたりして、ユーザの身体に介入し、ユーザの支援等を行う処理である。
 操作介入は、例えば、システム11を遠隔から操作することにより、システム11の動作に介入し、システム11又はシステム11を操作するユーザの支援等を行う処理である。
 なお、オペレータは、操作端末12を用いて、複数の種類の介入を組み合わせて用いることが可能である。例えば、オペレータは、操作端末12を用いて、視界介入、聴覚介入、身体介入、及び、操作介入のうち2つ以上を組み合わせて用いることが可能である。複数の種類の介入が組み合わされることにより、例えば、よりimmersiveな(=没入感のある)インタラクションが実現される。
 管理サーバ13は、各システム11と各操作端末12との間を仲介し、オペレータ、ユーザ、及び、システム11の支援を行う。また、管理サーバ13は、必要に応じて、オペレータの代わりに、システム11に介入する。さらに、管理サーバ13は、各システム11及び各操作端末12に地図情報を提供する。
  <ユーザ支援システム51の構成例>
 図2は、システム11の一例であるユーザ支援システム51の構成例を示している。
 ユーザ支援システム51は、外界センサ61、内界センサ62、操作入力部63、通信部64、制御部65、及び、出力部66を備える。
 外界センサ61は、ユーザ支援システム51(ユーザ)の周囲の状況をセンシングするセンサを備える。例えば、外界センサ61は、カメラ、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)、ToF(Time Of Flight)センサ、ミリ波レーダ、超音波センサ、距離センサ等のうち1つ以上を備える。外界センサ61は、各センサにより得られたセンサデータ(以下、外界センサデータと称する)を制御部65に供給する。
 外界センサデータは、ユーザの周囲を撮像した撮像画像を含む。撮像画像は、動画又は静止画のいずれであってもよい。なお、例えば、魚眼カメラ等によりユーザ支援システム51の周囲360度を撮像した画像を撮像画像に用いることが可能である。
 内界センサ62は、ユーザ支援システム51及びユーザの状態をセンシングするセンサを備える。例えば、内界センサ62は、GNSS受信機(Global Navigation Satellite System)、IMU(Inertial Measurement Unit)等を備える。内界センサ62は、各センサにより得られたセンサデータ(以下、内界センサデータと称する)を制御部65に供給する。
 操作入力部63は、各種の操作デバイスを備え、ユーザの操作に用いられる。操作入力部63は、ユーザの操作に対応した操作信号を制御部65に供給する。
 通信部64は、各種の通信デバイスを備え、ネットワーク21を介して、他のシステム11、操作端末12、管理サーバ13等の他の装置と通信可能である。通信部64は、他の装置から受信したデータを制御部65に供給し、他の装置に送信するデータを制御部65から取得する。
 制御部65は、例えば、CPU等のプロセッサを備える。制御部65は、ユーザ支援システム51の制御及び各種の処理を実行する。制御部65は、位置推定部71、認識部72、情報処理判断部73、及び、出力制御部74を備える。
 位置推定部71は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム51(ユーザ)の位置及び姿勢を推定する。
 認識部72は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム51の周囲の状況、並びに、ユーザ支援システム51及びユーザの状態を認識する。例えば、認識部72は、ユーザ支援システム51の周囲の物体の認識処理を実行し、物体の種類、位置、大きさ、形、動き等を認識する。
 情報処理判断部73は、操作入力部63からの操作信号、位置推定部71の推定結果、及び、認識部72の認識結果に基づいて、各種の情報処理を実行したり、ユーザ支援システム51の動作や処理についての判断及び制御を行ったりする。また、例えば、オペレータ又は管理サーバ13からの介入に従って、情報処理判断部73が、各種の情報処理を実行したり、ユーザ支援システム51の動作や処理についての判断及び制御を行ったりすることより、操作介入が実現される。
 出力制御部74は、出力部66が備える表示部81、音声出力部82、及び、駆動部83の制御を行う。また、出力制御部74は、監視用情報を生成し、通信部64及びネットワーク21を介して、操作端末12及び管理サーバ13に送信する。
 監視用情報は、例えば、ユーザ支援システム51の周囲を撮像した撮像画像、ユーザ支援システム51の周囲の状況の認識結果、並びに、ユーザ支援システム51及びユーザの状態の認識結果を含む。
 出力部66は、表示部81、音声出力部82、及び、駆動部83を備える。
 表示部81は、ディスプレイ、ヘッドマウントディスプレイ等の各種の表示デバイスを備え、視覚情報を出力する。また、例えば、オペレータ又は管理サーバ13からの介入に従って、表示部81が視覚情報を出力することにより、視界介入が実現される。
 音声出力部82は、ヘッドフォン、イヤフォン、スピーカ等の各種の音声出力デバイスを備え、聴覚情報を出力する。また、例えば、オペレータ又は管理サーバ13からの介入に従って、音声出力部82が聴覚情報を出力することにより、聴覚介入が実現される。
 駆動部83は、例えば、触覚(タクタイル)や健康に害のない程度の軽微な電気刺激をユーザの身体に与えるアクチュエータ等により構成される。例えば、駆動部83は、ユーザが、腕、手、脚等に装着するパワースーツや、外骨格を駆動することで身体の運動を補助又は拘束する装置により構成される。また、例えば、オペレータ又は管理サーバ13からの介入に従って、駆動部83がユーザの身体を動作させたり、ユーザの身体に刺激を与えたりすることにより、身体介入が実現される。
 図3は、ユーザ支援システム51の装着例を示している。この例では、ユーザ支援システム51が、ユーザの頭部に装着されるリング状のウエアラブルデバイスである例が示されている。
 なお、ユーザ支援システム51は、他の種類のウエアラブルデバイスにより構成されてもよい。また、ユーザ支援システム51は、2以上の装置の組み合わせにより構成されてもよい。例えば、ユーザ支援システム51は、ウエアラブルデバイスとスマートフォンの組み合わせにより構成されてもよい。
 なお、以下、ユーザ支援システム51の各部が、通信部64及びネットワーク21を介して、他の装置と通信を行う場合、通信部64及びネットワーク21の記載を省略する。例えば、制御部65が、通信部64及びネットワーク21を介して、管理サーバ13とデータの送受信を行う場合、制御部65が、管理サーバ13とデータの送受信を行うと記載する。
  <車両101の構成例>
 図4は、システム11の一例である車両101の構成例を示している。車両101は、自動運転により自律的な移動が可能な車両である。
 車両101は、外界センサ111、内界センサ112、センサ情報取得部113、位置推定部114、認識部115、監視用情報送信部116、アンテナ117、差分検出部118、遠隔操作受信部119、アクシデント検出部120、状況判断部121、経路生成部122、車両制御部123、地図情報受信部124、地図更新部125、及び、地図DB(データベース)126を備える。
 外界センサ111は、車両101の周囲の状況の認識に用いられる各種のセンサを備える。例えば、外界センサ111は、カメラ、レーダ、LiDAR、超音波センサ、距離センサ等のうち1つ以上を備える。外界センサ111は、各センサから出力されるセンサデータ(以下、外界センサデータと称する)をセンサ情報取得部113に供給する。外界センサデータは、車両101の周囲を撮像した撮像画像を含む。
 内界センサ112は、車両101の状態の認識に用いられる各種のセンサを備える。例えば、内界センサ112は、GNSS受信機、IMU、速度センサ、アクセルセンサ、ブレーキセンサ、車輪速センサ等を備える。内界センサ62は、各センサにより得られたセンサデータ(以下、内界センサデータと称する)をセンサ情報取得部113に供給する。
 センサ情報取得部113は、外界センサデータ及び内界センサデータを位置推定部114、認識部115、及び、監視用情報送信部116に供給する。
 位置推定部114は、外界センサデータ及び内界センサデータに基づいて、車両101の位置及び姿勢を推定する。位置推定部114は、車両101の位置及び姿勢の推定結果を示す情報を認識部115に供給する。
 認識部115は、外界センサデータ、内界センサデータ、並びに、車両101の位置及び姿勢の推定結果に基づいて、車両101の周囲の状況、及び、車両101の状態を認識する。例えば、認識部115は、車両101の周囲の物体の認識処理を実行し、物体の種類、位置、大きさ、形、動き等を認識する。認識部115は、認識結果を示す情報を、監視用情報送信部116、差分検出部118、及び、状況判断部121に供給する。
 監視用情報送信部116は、アンテナ117及びネットワーク21を介して、操作端末12及び管理サーバ13に監視用情報を送信する。
 監視用情報は、例えば、車両101の周囲を撮像した撮像画像、車両101の位置及び姿勢の推定結果、並びに、車両101の周囲の状況及び車両の101の状態の認識結果を含む。撮像画像は、動画又は静止画のいずれであってもよい。
 差分検出部118は、認識部115により認識された車両101の周囲の状況と、地図DB126に蓄積されている地図情報との差分の検出処理を実行する。差分検出部118は、車両101の周囲の状況と地図情報との差分の検出結果を示す差分情報をアクシデント検出部120及び地図更新部125に供給する。
 遠隔操作受信部119は、ネットワーク21及びアンテナ117を介して、車両101を遠隔操作するための遠隔操作信号を、操作端末12又は管理サーバ13から受信する。遠隔操作受信部119は、受信した遠隔操作信号をアクシデント検出部120及び車両制御部123に供給する。
 アクシデント検出部120は、差分情報及び遠隔操作信号に基づいて、車両101の周囲のアクシデントの検出処理を実行する。ここで、アクシデントとは、例えば、車両101の通行に支障をもたらす外部の事象である。具体的には、例えば、災害、事故、工事、障害物、道路の破損等が、アクシデントして想定される。アクシデント検出部120は、アクシデントの検出結果を示すアクシデント情報を状況判断部121に供給する。
 状況判断部121は、監視用情報及びアクシデント情報に基づいて、走行方式を制御する。ここで、走行方式とは、例えば、通常走行、低速走行、マニュアル走行、オペレータの操作介入に従った走行等である。通常走行及び低速走行は、車両101が自動運転により自律的に走行する方式である。マニュアル走行は、運転者の操作により走行する方式である。状況判断部121は、設定した車両101の走行方式を経路生成部122に通知するとともに、監視用情報及びアクシデント情報を経路生成部122に供給する。
 経路生成部122は、車両101が自律的に走行する場合、監視用情報、アクシデント情報、及び、地図DB126に蓄積されている地図情報に基づいて、車両101が走行する経路を示す経路情報を生成する。経路生成部122は、経路情報を車両制御部123に供給する。
 車両制御部123は、経路情報、遠隔操作信号、又は、運転者による操作に従って、車両101の走行を制御する。
 地図情報受信部124は、ネットワーク21及びアンテナ117を介して、管理サーバ13から地図情報を受信する。地図情報受信部124は、受信した地図情報を地図更新部125に供給する。
 地図更新部125は、地図DB126に蓄積されている地図情報を、外部から受信した地図情報に更新する。なお、地図更新部125は、差分情報に基づいて、必要に応じて地図DB126に蓄積されている地図情報を修正する。
 なお、以下、車両101の各部が、アンテナ117及びネットワーク21を介して、他の装置と通信を行う場合、アンテナ117及びネットワーク21の記載を省略する。例えば、監視用情報送信部116が、アンテナ117及びネットワーク21を介して、管理サーバ13に監視用情報を送信する場合、監視用情報送信部116が、管理サーバ13に監視用情報を送信すると記載する。
  <操作端末12の構成例>
 図5は、操作端末12の構成例を示している。
 操作端末12は、通信部151、制御部152、表示部153、音声出力部154、操作入力部155、撮像部156、及び、音声入力部157を備える。
 通信部151は、各種の通信デバイスを備え、ネットワーク21を介して、システム11、他の操作端末12、管理サーバ13等の他の装置と通信可能である。通信部151は、他の装置から受信したデータを制御部152に供給し、他の装置に送信するデータを制御部152から取得する。
 制御部152は、例えば、CPU等のプロセッサを備える。制御部152は、操作端末12の制御及び各種の処理を実行する。制御部152は、出力制御部161、行動認識部162、及び、介入部163を備える。
 出力制御部161は、表示部153による視覚情報の出力、及び、音声出力部154による聴覚情報の出力を制御する。
 行動認識部162は、撮像部156により撮像されるオペレータの撮像画像に基づいて、オペレータの行動(例えば、ジェスチャ)を認識する。
 介入部163は、操作入力部155若しくは音声入力部157を介してオペレータにより入力される情報、又は、行動認識部162により認識されたオペレータのジェスチャに基づいて、システム11に対する介入を実行するための介入情報を生成する。介入情報は、例えば、視覚介入に用いる視覚情報、聴覚介入に用いる聴覚信号、又は、身体介入又は操作介入に用いられ、システム11を遠隔操作する遠隔操作信号を含む。介入部163は、通信部151及びネットワーク21を介して、システム11又は管理サーバ13に介入情報を送信する。
 表示部153は、例えば、ディスプレイ、ヘッドマウントディスプレイ等の各種の表示デバイスを備え、視覚情報を出力する。
 音声出力部154は、ヘッドフォン、イヤフォン、スピーカ等の各種の音声出力デバイスを備え、聴覚情報を出力する。
 操作入力部155は、各種の操作デバイスを備え、オペレータの操作に用いられる。操作入力部155は、オペレータの操作に対応した操作信号を制御部152に供給する。
 撮像部156は、例えば、カメラを備える。撮像部156は、例えば、オペレータを撮像し、得られた撮像画像を制御部152に供給する。
 音声入力部157は、例えば、マイクロフォンを備える。音声入力部157は、オペレータの声等を収集し、得られた音声データを制御部152に供給する。
 図6は、操作端末12の装着例を示している。この例では、操作端末12が、オペレータの頭部に装着されるヘッドマウントディスプレイである例が示されている。
 なお、操作端末12は、他の種類のウエアラブルデバイスにより構成されてもよい。また、操作端末12は、PC(Personal Computer)、スマートフォン、タブレット端末等のウエアラブルデバイス以外の情報処理装置により構成されてもよい。さらに、操作端末12は、2以上の装置の組み合わせにより構成されてもよい。例えば、操作端末12は、ウエアラブルデバイスとスマートフォンの組み合わせにより構成されてもよい。例えば、操作端末12は、複数のディスプレイとコンピュータの組み合わせにより構成されてもよい。
 なお、以下、操作端末12の各部が、通信部151及びネットワーク21を介して、他の装置と通信を行う場合、通信部151及びネットワーク21の記載を省略する。例えば、制御部152が、通信部151及びネットワーク21を介して、管理サーバ13とデータの送受信を行う場合、制御部152が、管理サーバ13とデータの送受信を行うと記載する。
  <管理サーバ13の構成例>
 図7は、管理サーバ13の構成例を示している。
 管理サーバ13は、通信部201及び制御部202を備える。
 通信部201は、各種の通信デバイスを備える。通信部201は、ネットワーク21を介して、システム11、及び、操作端末12等の他の装置と通信可能である。通信部201は、他の装置から受信したデータを制御部202に供給し、他の装置に送信するデータを制御部202から取得する。
 制御部202は、CPU等のプロセッサを備え、管理サーバ13の制御及び各種の処理を実行する。制御部202は、認識部211、画像処理部212、アクシデント区間設定部213、仲介部214、介入部215、学習部216、及び、地図情報提供部217を備える。
 認識部211は、システム11から受信した監視用情報に基づいて、システム11の周囲の状況を認識する。
 画像処理部212は、システム11から取得した撮像画像に対して、各種の画像処理を実行する。例えば、画像処理部212は、各システム11から取得した撮像画像に基づいて、オペレータがシステム11の周囲の環境の監視に用いる監視用画像を生成する。
 アクシデント区間設定部213は、オペレータによるシステム11への操作介入時に操作端末12から送信される介入情報、及び、操作介入時にシステム11から送信される監視用情報に基づいて、アクシデント区間を設定する。アクシデント区間とは、例えば、アクシデントの発生地点を含み、オペレータにより操作介入が行われた区間である。
 仲介部214は、操作端末12(オペレータ)によるシステム11の周囲の監視、及び、操作端末12(オペレータ)によるシステム11への介入処理を仲介する。例えば、仲介部214は、通信部201及びネットワーク21を介して、画像処理部212により生成された監視用画像を操作端末12に送信する。例えば、仲介部214は、操作端末12から受信した介入情報を、通信部201及びネットワーク21を介して、介入する対象となるシステム11に送信する。このとき、仲介部214は、必要に応じて、介入情報の加工を行う。
 介入部215は、オペレータの代わりに、又は、オペレータと共に、システム11への介入処理を実行する。例えば、介入部215は、システム11への介入を実行するための介入情報を生成し、対象となるシステム11に送信する。
 学習部216は、システム11から取得した監視用情報、及び、操作端末12から取得した介入情報に含まれる遠隔操作信号に基づいて、オペレータによるシステム11の操作を学習する。例えば、学習部216は、システム11の一種である車両101のオペレータによる操作を学習する。
 地図情報提供部217は、各システム11及び各操作端末12に地図情報を提供する。
  <情報処理システム1の処理>
 次に、図8乃至図18を参照して、情報処理システム1の処理について説明する。
   <操作支援処理>
 まず、図8のフローチャートを参照して、情報処理システム1により実行される操作支援処理について説明する。
 以下、ユーザがユーザ支援システム51の操作を行い、オペレータが必要に応じて操作介入する場合の例について説明する。
 ステップS1において、ユーザ支援システム51は、ユーザの状態及び操作、並びに、周囲の状況をセンシングする。具体的には、外界センサ61は、ユーザ支援システム51(ユーザ)の周囲の状況をセンシングし、外界センサデータを制御部65に供給する。内界センサ62は、ユーザ支援システム51及びユーザの状態をセンシングし、内界センサデータを制御部65に供給する。操作入力部63は、ユーザ操作に伴い、ユーザ操作に対応した操作信号を制御部65に供給する。
 位置推定部71は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム51(ユーザ)の位置及び姿勢を推定する。認識部72は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム51の周囲の状況、並びに、ユーザ支援システム51及びユーザの状態を認識する。
 出力制御部74は、監視用情報を生成し、管理サーバ13に送信する。監視用情報は、例えば、ユーザ支援システム51の周囲を撮像した撮像画像、ユーザ支援システム51の周囲の状況の認識結果、並びに、ユーザ支援システム51及びユーザの状態の認識結果を含む。
 これに対して、管理サーバ13の制御部202は、システム11から監視用情報を受信する。画像処理部212は、監視用情報に含まれる撮像画像に基づいて、監視用画像を生成する。仲介部214は、オペレータの操作端末12に監視用画像を送信する。
 これに対して、操作端末12の制御部152は、管理サーバ13から監視用画像を受信する。表示部153は、出力制御部161の制御の下に、監視用画像を表示する。オペレータは、表示部153に表示された監視用画像を見ながら、ユーザの周囲の状況を監視する。
 ステップS2において、ユーザ支援システム51は、オペレータのサポートの必要度を推定する。例えば、認識部72は、ステップS1の処理の結果に基づいて、ユーザが危険に遭遇する確率を示す危険度を推定する。情報処理判断部73は、推定した危険度に基づいて、オペレータのサポートの必要度を推定する。例えば、サポートの必要度は、危険度が高くなるほど高くなり、危険度が低くなるほど低くなる。
 ステップS3において、情報処理判断部73は、オペレータのサポートが必要であるか否かを判定する。例えば、情報処理判断部73は、ステップS2の処理で推定したサポートの必要度が所定の閾値未満である場合、オペレータのサポートが必要でないと判定し、処理はステップS1に戻る。
 その後、ステップS3において、オペレータのサポートが必要であると判定されるまで、ステップS1乃至ステップS3の処理が繰り返し実行される。
 一方、ステップS3において、情報処理判断部73は、ステップS2の処理で推定したサポートの必要度が所定の閾値以上である場合、オペレータのサポートが必要であると判定し、処理はステップS4に進む。
 ステップS4において、管理サーバ13は、オペレータが対応可能であるか否かを判定する。
 例えば、ユーザ支援システム51の情報処理判断部73は、管理サーバ13にオペレータのサポートを要求する。
 これに対して、管理サーバ13の仲介部214は、ユーザ支援システム51からのサポートの要求を受け、オペレータの操作端末12にユーザのサポートの可否を問い合わせる。
 これに対して、操作端末12の制御部152は、管理サーバ13からのユーザのサポートの可否の問い合わせを受ける。表示部153は、出力制御部161の制御の下に、ユーザのサポートの可否を問い合わせるメッセージを表示する。
 これに対して、オペレータは、ユーザのサポートの可否を判定し、操作入力部155を介して、判定結果を操作端末12に入力する。操作端末12の介入部163は、オペレータによるユーザのサポートの可否の判定結果を管理サーバ13に通知する。
 これに対して、管理サーバ13の仲介部214は、オペレータによるユーザのサポートの可否の判定結果の通知を受ける。仲介部214が、オペレータによる判定結果に基づいて、オペレータが対応可能でないと判定した場合、処理はステップS5に進む。
 ステップS5において、ユーザ支援システム51は、自律的に動作を停止する。具体的には、管理サーバ13の仲介部214は、ユーザ支援システム51にオペレータが対応可能でないことを通知する。
 これに対して、ユーザ支援システム51の制御部65は、オペレータが対応可能ないとの通知を受ける。ユーザ支援システム51は、情報処理判断部73の制御の下に、自律的に動作を停止する。これにより、局所的にユーザの安全が確保される。
 その後、処理はステップS4に戻り、ステップS4において、オペレータが対応可能であると判定されるまで、ステップS4及びステップS5の処理が繰り返し実行される。
 一方、ステップS4において、管理サーバ13の仲介部214が、オペレータによる判定結果に基づいて、オペレータが対応可能であると判定した場合、処理はステップS6に進む。
 ステップS6において、管理サーバ13は、オペレータの判断結果を取得する。例えば、オペレータは、監視用画像を見ながら、ユーザを支援するための介入方法を判断し、介入方法に関する情報を、操作入力部155等を用いて入力する。介入部163は、オペレータにより入力された情報に基づいて、ユーザ支援システム51に対する介入を実行するための介入情報を生成する。介入部163は、介入情報を管理サーバ13に送信する。
 これに対して、管理サーバ13の制御部202は、介入情報を操作端末12から受信する。
 ステップS7において、ユーザ支援システム51は、ユーザの能力や状態に応じて、半自動制御を行う。具体的には、管理サーバ13の介入部215は、操作端末12から受信した介入情報をユーザ支援システム51に送信する。
 これに対して、ユーザ支援システム51の制御部65は、管理サーバ13から介入情報を受信する。例えば、情報処理判断部73は、介入情報に基づいて、ユーザの能力や状態に応じて、オペレータの介入による自動制御の割合を決定する。出力制御部74は、決定された自動制御の割合に基づいて、出力部66を制御する。これにより、オペレータによる操作介入が実行される。
 その後、処理はステップS1に戻り、ステップS1以降の処理が実行される。
 以上のようにして、オペレータの介入により、ユーザを支援することができる。
   <監視支援処理の第1の実施の形態>
 例えば、オペレータが監視するシステム11の数が多くなるほど、オペレータの負荷が大きくなる。そのため、例えば、図8のステップS4において、オペレータが対応可能でないと判定され、ユーザ支援システム51が動作を停止したり、オペレータがユーザを支援できなくなったりする可能性が高くなる。
 これに対して、以下に説明するように、管理サーバ13がオペレータの監視を支援し、オペレータの負荷を軽減する。
 ここで、図9のフローチャートを参照して、管理サーバ13により実行される監視支援処理の第1の実施の形態について説明する。
 この処理は、例えば、管理サーバ13の電源がオンされたとき開始され、管理サーバ13の電源がオフされたとき終了する。
 以下、複数のシステム11(ユーザ)の周囲の状況を監視する1人のオペレータを支援する場合を例に挙げて説明する。
 ステップS31において、管理サーバ13は、各システム11から監視用情報を取得する。すなわち、管理サーバ13の制御部202は、オペレータが監視している各システム11から送信されてくる監視用情報を受信する。
 監視用情報は、例えば、システム11の周囲を撮像した撮像画像、システム11の周囲の状況の認識結果、並びに、システム11の状態の認識結果を含む。また、監視用情報は、システム11がユーザにより使用されている場合(例えば、システム11が、ユーザが搭乗しないロボット等でない場合)、ユーザの状態の認識結果を含む。
 ステップS32において、認識部211は、各システム11の撮像画像から要注意領域を抽出する。例えば、認識部211は、各システム11から受信した監視用情報に基づいて、監視用情報に含まれる撮像画像から要注意領域を抽出する。
 ここで、要注意領域とは、ユーザ又はシステム11が注意する必要があると推測される領域である。例えば、要注意領域は、危険物を含む領域、及び、ユーザ又はシステム11が確認する必要がある物体を含む領域を含む。
 危険物とは、例えば、ユーザ又はシステム11に危険を及ぼす可能性がある物体、及び、逆にユーザ又はシステム11が危険を及ぼす可能性がある物体である。例えば、危険物は、周囲の車両、歩行者、障害物等のユーザ又はシステム11が衝突又は接触する可能性がある物体を含む。例えば、危険物は、水たまりや工事現場の穴等のユーザ又はシステム11が転倒又は落下する可能性がある物体を含む。
 ユーザ又はシステム11が確認する必要がある物体は、例えば、信号機、道路標識、交差点、踏切等を含む。
 なお、必ずしも全ての撮像画像から要注意領域が抽出されるとは限らず、要注意領域が抽出されない撮像画像も存在し得る。
 ステップS33において、画像処理部212は、各要注意領域を合成することにより、監視用画像を生成する。具体的には、画像処理部212は、各撮像画像から要注意領域の画像(以下、要注意領域画像と称する)を抽出し、抽出した要注意領域画像を合成することにより、監視用画像を生成する。このとき、画像処理部212は、監視用画像において、各要注意領域画像を元の撮像画像における位置に対応する位置に配置する。これにより、各要注意領域画像が、各システム11から見た位置が保持されたまま監視用画像内に配置され、各要注意領域を一度に俯瞰した俯瞰画像が生成される。
 なお、例えば、画像処理部212は、撮像画像から抽出した画像の代わりに、要注意領域に存在するオブジェクトの2次元モデル又は3次元モデルを生成し、要注意領域画像として用いてもよい。
 ステップS34において、仲介部214は、監視用画像をオペレータに送信する。すなわち、仲介部214は、オペレータが使用している操作端末12に監視用画像を送信する。
 これに対して、操作端末12は、監視用画像を受信し、表示部153に表示させる。オペレータは、表示部153に表示された監視用画像を見ながら、各システム11の周囲を監視する。
 ここで、図10を参照して、監視用画像の生成方法の例について説明する。図10は、オペレータOPが、ユーザU1乃至ユーザU3(が使用しているシステム11)の周囲を監視している場合の例を示している。
 例えば、ユーザU1の右前方に木301が存在しており、ユーザU1のシステム11により、木301を含む撮像画像が撮像される。そして、ユーザU1の撮像画像から、木301を含む領域が要注意領域として抽出される。
 例えば、ユーザU2の中央前方に信号機302が存在しており、ユーザU2のシステム11により、信号機302を含む撮像画像が取得される。そして、ユーザU2の撮像画像から、信号機302を含む領域が要注意領域として抽出される。
 例えば、ユーザU3の左前方に車両303が存在しており、ユーザU3のシステム11により、車両303を含む撮像画像が取得される。そして、ユーザU3の撮像画像から、車両303を含む領域が要注意領域として抽出される。
 そして、木301、信号機302、及び、車両303の画像を含む監視用画像311が生成される。木301、信号機302、及び、車両303は、監視用画像311内において、元の撮像画像内の位置に対応する位置に配置される。
 このように、実際には異なる場所に存在する木301、信号機302、及び、車両303が、1つの監視用画像311内に配置される。また、木301、信号機302、及び、車両303が、監視用画像内において各ユーザ(のシステム11)から見た位置と同様の位置に配置される。
 これにより、オペレータOPは、監視用画像を見ることにより、各ユーザ(のシステム11)の周囲の要注意領域を一度に確認することができる。また、監視用画像には要注意領域以外の領域が表示されないため、要注意領域の視認性が向上し、オペレータOPは、要注意領域を容易に認識することが可能になる。さらに、オペレータOPは、各ユーザ(のシステム11)に対する要注意領域の相対位置を容易に認識することができる。すなわち、オペレータOPは、各ユーザ(のシステム11)から見た要注意領域の位置を容易に認識することができる。
 ステップS35において、管理サーバ13は、オペレータにより要注意領域が指定されたか否かを判定する。
 例えば、オペレータは、監視用画像内の要注意領域のうち、ユーザ又はシステム11を危険から回避させるために介入する必要があると判定した要注意領域が存在する場合、その要注意領域(以下、注目領域と称する)を指定する。
 なお、注目領域の指定方法は特に限定されない。例えば、オペレータは、操作入力部155を用いたり、ジェスチャ(例えば、指差し等)や音声を用いたりして、注目領域を指定する。
 操作端末12の介入部163は、オペレータにより指定された注目領域を示す情報(以下、注目領域情報と称する)を管理サーバ13に送信する。
 これに対して、管理サーバ13の制御部202は、操作端末12から注目領域情報を受信する。そして、仲介部214は、オペレータにより要注意領域が指定されたと判定し、処理はステップS36に進む。
 ステップS36において、仲介部214は、介入するシステム11を特定する。具体的には、仲介部214は、注目領域情報に基づいて、オペレータにより指定された注目領域の抽出元となる撮像画像を特定する。また、仲介部214は、特定した撮像画像を撮像したシステム11を特定する。これにより、介入する対象となるシステム11(以下、介入対象システムと称する)が特定される。
 ステップS37において、管理サーバ13は、特定したシステム11への介入を仲介する。
 例えば、オペレータは、注目領域を指定した後、介入対象システムに介入に必要な情報を操作端末12に入力する。なお、オペレータの介入方法は、上述した視覚介入、聴覚介入、身体介入、及び、操作介入のいずれであってもよい。また、2種類以上の介入方法が組み合わされてもよい。
 また、介入な必要な情報の入力方法は、特に限定されない。例えば、オペレータは、操作入力部155を用いたり、ジェスチャや音声を用いたりして、介入に必要な情報を操作端末12に入力する。
 操作端末12の介入部163は、オペレータにより入力された情報に基づいて、介入情報を生成し、管理サーバ13に送信する。
 これに対して、管理サーバ13の仲介部214は、介入情報を操作端末12から受信する。仲介部214は、受信した介入情報を介入対象システムに送信する。
 これに対して、介入対象システムは、介入情報を受信し、介入情報に基づいて、オペレータによる介入に従った処理を実行する。
 例えば、介入対象システムがユーザ支援システム51の場合、出力部66は、出力制御部74の制御の下に、介入情報に基づいて、視覚介入、聴覚介入、身体介入、又は、操作介入に従った処理を実行する。
 例えば、介入対象システムが車両101の場合、車両制御部123は、介入情報に基づいて、車両101の動作を制御することにより、操作介入に従った処理を実行する。
 例えば、図11に模式的に示されるように、オペレータOPが、監視用画像311内の車両303を指定し、「左手に車が来ています」という音声メッセージを操作端末12に入力した場合、操作端末12は、当該音声メッセージを含む介入情報を管理サーバ13に送信する。
 これに対して、管理サーバ13の仲介部214は、介入情報を操作端末12から受信し、ユーザU3のシステム11に送信する。
 これに対して、ユーザU3のシステム11は、介入情報に基づいて、「左手に車が来ています」という音声メッセージを出力する。
 このようにして、オペレータによるユーザU3のシステム11への聴覚介入が実現される。
 その後、処理はステップS31に戻り、ステップS31以降の処理が実行される。
 一方、ステップS35において、仲介部214は、操作端末12から注目領域情報を受信していない場合、オペレータにより要注意領域が指定されていないと判定し、処理はステップS31に戻る。
 その後、ステップS31以降の処理が実行される。
 以上のようにして、オペレータは、複数のシステム11の周囲を効率的に監視することが可能になる。また、オペレータは、各システム11の周囲の危険を迅速に察知し、容易かつ迅速にシステム11に介入することができる。これにより、オペレータは、ユーザ又はシステム11を迅速かつ確実に危険から回避させることができ、オペレータによる介入の信頼性が向上する。
   <監視支援処理の第2の実施の形態>
 次に、図12のフローチャートを参照して、管理サーバ13により実行される監視支援処理の第2の実施の形態について説明する。
 ステップS61において、図9のステップS31の処理と同様に、各システム11から監視用情報が取得される。
 ステップS62において、図9のステップS32の処理と同様に、各システム11の撮像画像から要注意領域が抽出される。
 ステップS63において、認識部211は、各地点の危険度を推定する。例えば、認識部211は、ステップS62の処理で抽出した各要注意領域の危険度を推定する。
 ここで、危険度の推定方法は、特に限定されない。例えば、認識部211は、要注意領域においてユーザ又はシステム11に危険を及ぼす確率及び危険の程度、並びに、逆に要注意領域においてユーザ又はシステム11が危険を及ぼす確率及び危険の程度等を推定する。そして、認識部211は、推定した結果に基づいて、要注意領域の危険度を推定する。
 また、例えば、認識部211は、各地点の危険度を推定する。例えば、認識部211は、所定の範囲内に存在する要注意領域を1つの地点にまとめる。そして、例えば、認識部211は、各地点内に存在する要注意領域の危険度の平均値を各地点の危険度として算出する。
 ステップS64において、仲介部214は、大局的な監視用画像をオペレータに提示するか否かを判定する。例えば、仲介部214は、大局的な監視用画像をオペレータに提示する条件が満たされている場合、大局的な監視用画像をオペレータに提示すると判定し、処理はステップS65に進む。
 大局的な監視用画像をオペレータに提示する条件は、例えば、オペレータにより大局的な監視用画像の提示が指示された場合、又は、危険度が所定の閾値以上の地点が存在しない場合等が想定される。
 ステップS65において、画像処理部212は、大局的な監視用画像を生成する。
 その後、処理はステップS67に進む。
 一方、ステップS64において、例えば、画像処理部212は、局所的な監視用画像をオペレータに提示する条件が満たされている場合、局所的な監視用画像をオペレータに提示すると判定し、処理はステップS66に進む。
 局所的な監視用画像をオペレータに提示する条件は、例えば、オペレータにより局所的な監視用画像の提示が指示された場合、又は、危険度が所定の閾値以上の地点が存在する場合等が想定される。
 なお、危険度が所定の閾値以上となる状況としては、例えば、災害や事故等によって、道路上に障害物が散乱したり、動線が欠損したりしている状況が想定される。この状況は、例えば、カメラや距離センサのデータに基づいて、パターンマッチングや機械学習を用いて非定常の度合いを推定することにより認識される。
 また、危険度が所定の閾値以上となる状況としては、例えば、遮断機が下りているにも関わらず、踏切へ侵入しようとしている状況が想定される。この状況は、例えば、カメラや距離センサのデータに基づいて、画像処理や機械学習を用いて、予め設定したシナリオに基づいて認識される。
 ステップS66において、画像処理部212は、局所的な監視用画像を生成する。
 その後、処理はステップS67に進む。
 ステップS67において、図9のステップS34の処理と同様に、監視用画像がオペレータに送信される。これにより、大局的な監視用画像又は局所的な監視用画像がオペレータに提示される。
 ここで、図13を参照して、オペレータOPに提示される大局的な監視用画像と局所的な監視用画像の例について説明する。図13の右側は、大局的な監視用画像の例を示し、左側は、局所的な監視用画像の例を示している。
 大局的な監視用画像は、要注意領域を含む各地点の分布及び危険度が地図上に俯瞰的に示される俯瞰画像である。この例では、地点A乃至地点Cが、要注意領域を含む地点として地図上に表示されている。また、地点Aの危険度が0.89、地点Bの危険度が0.54、地点Cの危険度が、0.81であることが示されている。
 なお、例えば、危険度に応じて、各地点の位置を示す円の表示態様が変化する。例えば、危険度が高くなるほど、円が大きくなったり、円の色が濃くなったりする。一方、危険度が低くなるほど、円が小さくなったり、円の色が薄くなったりする。
 局所的な監視用画像には、例えば、最も危険度が高い地点付近の要注意領域が抽出され、合成された俯瞰画像が用いられる。局地的な監視用画像は、例えば、上述した図10の例と同様の方法により生成される。ここでは、地点A付近に存在する各システム11の撮像画像から要注意領域が抽出され、合成された監視用画像の例が示されている。
 また、この例では、地点Aの危険度が監視用画像内に示されている。また、特に危険度が高い要注意領域が、四角の枠(以下、バウンディングボックスと称する)で囲まれ、強調表示されている。この例では、電車351、車両352、及び、モータバイク353が、バウンディングボックスにより囲まれている。
 バウンディングボックスは、例えば、バウンディングボックス内の要注意領域の危険度に基づいて表示態様が変化する。例えば、危険度が高くなるほど、バウンディングボックスの枠が太くなったり、枠の色が濃くなったりする。一方、危険度が低くなるほど、バウンディングボックスの枠が細くなったり、枠の色が薄くなったりする。また、例えば、バウンディングボックス内が半透明である場合、危険度が高くなるほど、バウンディングボックス内の色が濃くなり、危険度が低くなるほど、バウンディングボックス内の色が薄くなる。
 なお、例えば、音声出力部154が、出力制御部161の制御の下に、各要注意領域内のオブジェクトに対応する音(例えば、警告音)を出力するようにしてもよい。この場合、例えば、各要注意領域の危険度に基づいて、出力音の大きさやピッチ等が変化するようにしてもよい。
 その後、処理はステップS61に戻り、ステップS61以降の処理が実行される。
 なお、例えば、局所的な監視用画像がオペレータに提示されている場合に、図9のステップS35乃至ステップS37と同様の処理が実行されるようにしてもよい。すなわち、オペレータが局所的な監視用画像内の要注意領域を指定することにより、指定した要注意領域を含む撮像画像を撮像したシステム11への介入が行われるようにしてもよい。
 以上のようにして、オペレータは、各システム11の周囲の状況を大局的及び局所的に監視することが可能になる。
 なお、例えば、大局的な監視用画像及び局所的な監視用画像の両方が同時にオペレータに提示されるようにしてもよい。そして、オペレータがいずれかの監視用画像を選択することにより、選択した監視用画像が拡大して表示されるようにしてもよい。
   <アクシデント対応処理>
 例えば、図14に示されるように、自律走行するバスである車両101-1乃至車両101-4が定められたルート401を巡回している場合、安全を確保するために、本技術を適用して、オペレータが車両101-1乃至車両101-4の周囲を監視することが想定される。
 なお、以下、車両101-1乃至車両101-4を個々に区別する必要がない場合、単に車両101と称する。
 この図では、4台の車両101がルート401を巡回する例を示しているが、車両101の数は特に制限されない。しかし、オペレータの視覚的な負荷が大きくなるため、現実的には、1人のオペレータが監視できる車両101の数は、数台程度が限界となる。
 また、例えば、図15に示されるように、ルート401上の地点P1においてアクシデントが発生した場合、オペレータが、アクシデントを回避するために、車両101に対して操作介入する必要が生じる場合が想定される。
 この場合、オペレータは、アクシデントが発生した区間を各車両101が走行する度に、各車両101に対して操作介入する必要が生じる。そのため、オペレータの負荷が増大し、オペレータの介入待ちが律速となり、車両101の運行が遅延するおそれがある。
 これに対して、管理サーバ13により実行されるアクシデント対応処理について、図16のフローチャートを参照して説明する。
 この処理は、例えば、管理サーバ13の電源がオンされたとき開始され、オフされたとき終了する。
 なお、この処理中に、例えば、各車両101から管理サーバ13に監視用情報が送信される。
 これに対して、管理サーバ13の画像処理部212は、各車両101の監視用情報に含まれる撮像画像に基づいて、監視用画像を生成する。なお、画像処理部212は、例えば、各車両101の撮像画像をそのまま監視用画像として用いてもよいし、図9又は図12を参照して上述した方法により監視用画像を生成するようにしてもよい。仲介部214は、監視用画像を操作端末12に送信する。
 操作端末12の表示部153は、出力制御部161の制御の下に、監視用画像を表示する。オペレータは、監視用画像を見ながら、各車両101の周囲を監視する。
 ステップS101において、認識部211は、アクシデントが発生したか否かを判定する。この処理は、アクシデントが発生したと判定されるまで、繰り返し実行され、アクシデントが発生したと判定された場合、処理はステップS102に進む。
 なお、アクシデントの検出は、管理サーバ13、車両101、及び、オペレータのいずれで行ってもよい。
 例えば、管理サーバ13の認識部211は、車両101から取得した監視用情報に基づいて、アクシデントを検出する。
 例えば、車両101がアクシデントを検出した場合、アクシデントの検出結果を含む監視用情報が、車両101から管理サーバ13に送信される。これに対して、管理サーバ13の認識部211は、車両101から受信した監視用情報に基づいて、アクシデントの発生を認識する。
 例えば、オペレータは、アクシデントを検出した場合、操作端末12を用いて、アクシデントの発生を管理サーバ13に通知する。これに対して、管理サーバ13の認識部211は、操作端末12からの通知に基づいて、アクシデントの発生を認識する。
 ステップS102において、仲介部214は、オペレータが操作介入したか否かを判定する。
 例えば、オペレータは、操作端末12の表示部153に表示されている監視用画像を見ながら、操作介入が必要であるか否かを判定する。
 図17は、オペレータに対して表示される監視用画像の例を示している。この例では、車両101の前方に障害物411が存在している。例えば、オペレータは、この監視用画像を見ながら、障害物411を避けるために、車両101に対して操作介入が必要か否かを判定する。
 オペレータは、操作介入が必要であると判定した場合、操作介入に必要な情報を操作端末12に入力する。
 なお、操作介入に必要な入力方法は、特に限定されない。例えば、オペレータは、操作入力部155を用いたり、ジェスチャや音声を用いたりして、操作介入に必要な情報を操作端末12に入力する。
 これに対して、操作端末12の介入部163は、オペレータにより入力された情報に基づいて、介入情報を生成する。介入情報は、例えば、車両101を遠隔操作するための遠隔操作信号、オペレータの視線方向を示す情報を含む。介入部163は、介入情報を管理サーバ13に送信する。
 これに対して、管理サーバ13の仲介部214は、操作端末12から介入情報を受信した場合、オペレータが操作介入したと判定し、処理はステップS104に進む。
 ステップS103において、管理サーバ13は、操作介入の仲介を行う。具体的には、仲介部214は、操作端末12から受信した介入情報を、操作介入の対象となる車両101に送信する。
 これに対して、操作介入の対象となる車両101の車両制御部123は、介入情報を管理サーバ13から受信する。車両制御部123は、受信した介入情報に基づいて、車両101の動作を制御することにより、操作介入に従った処理を実行する。
 ステップS104において、管理サーバ13は、操作介入に関する情報を収集する。具体的には、学習部216は、介入情報に含まれる遠隔操作信号に基づいて、操作介入中のオペレータの操作履歴を収集する。操作履歴は、例えば、車両101のステアリングホイール(操舵角)、アクセル、ブレーキの操作タイミングや操作量、並びに、操作介入した区間を含む。さらに、学習部216は、介入情報に含まれるオペレータの視線方向と、操作介入中にオペレータに提示された監視用画像とに基づいて、操作介入中にオペレータが視認した物体等に関する視認情報を収集する。また、学習部216は、車両101から受信した監視用情報に基づいて、操作介入時のセンサ情報を収集する。
 ステップS105において、アクシデント区間設定部213は、アクシデント区間を設定する。例えば、アクシデント区間設定部213は、ステップS104の処理で学習部216により収集された情報に基づいて、オペレータによる操作介入が行われた区間をアクシデント区間に設定する。
 例えば、図18に示されるように、ルート401において、アクシデントが発生した地点P1を含む区間401Aがアクシデント区間に設定される。
 ステップS106において、学習部216は、オペレータの操作を学習する。例えば、学習部216は、アクシデント区間におけるオペレータの操作をエキスパートとし、アクシデント区間におけるオペレータの視認情報等も利用して、アクシデント区間におけるオペレータの操作を学習する。学習部216は、アクシデント区間においてオペレータによる操作を模倣する学習モデルのパラメータを求め、求めたパラメータを用いて学習モデルを生成する。
 オペレータの操作の学習には、任意の学習手法を採用することが可能である。例えば、シミュレーションを組み合わせた逆強化学習、GAIL(Generative Adversarial Imitation Learning)を用いた逆強化学習、エキスパートの操作を利用した模倣学習等を採用することが可能である。逆強化学習を用いて再学習(Fine-tuning)を行うことにより、オペレータの操作を単純に模倣するだけでなく、車両や歩行者等の移動物体を回避することが可能な学習モデルが生成される。
 ステップS107において、介入部215は、学習結果に基づいて、アクシデント区間において操作介入を実行する。具体的には、介入部215は、アクシデント区間を走行する車両101に対して、学習モデルを用いて遠隔操作信号を含む介入情報を生成し、当該車両101に送信する。
 これに対して、当該車両101の車両制御部123は、介入情報を管理サーバ13から受信し、受信した介入情報に基づいて、車両101の動作を制御することにより、操作介入に従った処理を実行する。
 これにより、オペレータを介さずに管理サーバ13により、オペレータと同様の操作介入が、アクシデント区間を走行する車両101に対して実行される。その結果、オペレータの負荷を軽減しつつ、各車両101がアクシデントを回避できるようになる。
 ステップS108において、管理サーバ13は、アクシデント区間を解除するか否かを判定する。例えば、認識部211は、車両101から送信されてくる監視用情報に基づいて、アクシデント区間の状況の変化を監視する。認識部211は、アクシデント区間の状況に大きな変化があったと判定した場合、アクシデント区間の変化をオペレータの操作端末12に通知する。
 これに対して、操作端末12の出力制御部161は、アクシデント区間の状況の変化の通知を受け、表示部153又は音声出力部154を制御して、アクシデント区間の変化をオペレータに通知する。
 これに対して、オペレータは、表示部153に表示される監視用画像を確認し、アクシデント区間において操作介入が不要であるか否かを判定する。オペレータは、判定結果を操作端末12に入力する。
 なお、判定結果の入力方法は、特に限定されない。例えば、オペレータは、操作入力部155を用いたり、ジェスチャや音声を用いたりして、判定結果を操作端末12に入力する。
 操作端末12の介入部163は、アクシデント区間における操作介入の要否の判定結果を管理サーバ13に通知する。
 これに対して、管理サーバ13のアクシデント区間設定部213は、オペレータがアクシデント区間において操作介入が必要であると判定した場合、アクシデント区間を解除しないと判定し、処理はステップS107に戻る。
 また、アクシデント区間設定部213は、アクシデント区間の状況に大きな変化がない場合、アクシデント区間を解除しないと判定し、処理はステップS107に戻る。
 その後、ステップS108において、アクシデント区間を解除すると判定されるまで、ステップS107乃至ステップS108の処理が繰り返し実行される。これにより、アクシデント区間が解除されるまで、管理サーバ13が、アクシデント区間を走行する車両101に対して操作介入を行う。
 一方、ステップS108において、アクシデント区間設定部213は、オペレータがアクシデント区間において操作介入が不要であると判定した場合、アクシデント区間を解除すると判定し、処理はステップS109に進む。
 ステップS109において、アクシデント区間設定部213は、アクシデント区間を解除する。アクシデント区間の解除に伴い、管理サーバ13の介入部215は、車両101への操作介入を停止する。
 その後、処理はステップS101に戻り、ステップS101以降の処理が実行される。
 以上のようにして、オペレータの代わりに、管理サーバ13が各車両101に対して操作介入を行うことにより、オペレータの負荷が軽減される。
 また、オペレータの操作介入中の操作履歴等に基づいて学習処理を実行することにより生成された学習モデルを用いて、管理サーバ13の操作介入が実行されるため、各車両101が安全にアクシデントを回避することが可能になる。
 さらに、将来同様のアクシデントが発生した場合に、当該アクシデントの発生地点を含むアクシデント区間において、学習済みの学習モデルを用いて管理サーバ13が操作介入を行うことにより、各車両101が安全にアクシデントを回避することが可能になる。
 <<2.第2の実施の形態>>
 次に、図19乃至図24を参照して、本技術の第2の実施の形態について説明する。
 上述したように、管理サーバ13の認識部211は、撮像画像から要注意領域を抽出する処理を実行する。この処理において、認識部211は、例えば、撮像画像内の危険物を認識し、危険物を含む領域を要注意領域として抽出する。
 この場合、認識部211は、例えば、撮像画像内の状況や物体が危険であるか否かを判定する必要がある。この判定処理に、例えば、機械学習により得られた学習モデルを用いることが可能である。
 また、より多くの学習データを用いて機械学習を実行することにより、学習モデルの精度が向上する。しかし、大量の良質な学習データを収集するには、大量のデータに正確なラベルを付与する必要がある。
 これに対して、本技術の第2の実施の形態は、学習用のデータに正確なラベルを迅速に付与できるようにするものである。
  <情報処理システム501の構成例>
 図19は、本技術を適用した情報処理システムの第2の実施の形態である情報処理システム501の構成例を示している。
 情報処理システム501は、データ送信端末511、ラベルなしデータサーバ512、学習データ生成サーバ513、クライアント端末514-1乃至クライアント端末514-n、及び、学習データサーバ515を備える。
 以下、クライアント端末514-1乃至クライアント端末514-nを個々に区別する必要がない場合、単にクライアント端末514と称する。
 データ送信端末511は、ラベル付けの対象となるラベルなしデータを選択し、選択したラベルなしデータをラベルなしデータサーバ512にアップロードする。ラベルなしデータは、ラベルが付与されていないデータである。
 学習データ生成サーバ513は、ラベルなしデータサーバ512からラベルなしデータを取得し、各クライアント端末514に送信する。
 各クライアント端末514は、ラベルなしデータを評価者に提示する。ここで、評価者は、ラベルを付与する作業を行うユーザのことである。
 各クライアント端末514は、評価者により付与されたラベルを取得し、ラベルなしデータに付与することにより、ラベル付きデータを生成する。各クライアント端末514は、ラベル付きデータを学習データ生成サーバ513に送信する。
 学習データ生成サーバ513は、各評価者により付与されたラベルに基づいて、正解ラベルを決定する。学習データ生成サーバ513は、ラベルなしデータに正解ラベルを付与することにより、学習データを生成する。学習データ生成サーバ513は、学習データを学習データサーバ515に保存する。
 そして、データ利用者は、学習データサーバ515に保存されている学習データを利用して、機械学習を行う。
  <学習データ生成処理>
 次に、図20のフローチャートを参照して、情報処理システム501により実行される学習データ生成処理の詳細について説明する。
 ステップS201において、データ送信端末511は、ラベル付けするデータを選択する。すなわち、データ送信端末511は、まだラベル付けが済んでいないラベルなしデータのうちの1つを、ラベル付けするデータに選択する。
 図21は、ラベルなしデータの例を示している。この例では、ラベルなしデータは、画像及びセンサ情報を含む。画像は、動画及び静止画のいずれでもよい。センサ情報は、例えば、画像内に示される状況下で所定のセンサにより検出された情報である。例えば、センサ情報は、画像内の車両の速度を示す情報を含む。
 ステップS202において、データ送信端末511は、選択したデータをラベルなしデータサーバ512にアップロードする。
 ステップS203において、学習データ生成サーバ513は、ラベル付けする対象となるデータを各クライアント端末514に配布する。具体的には、学習データ生成サーバ513は、データ送信端末511からアップロードされたデータをラベルなしデータサーバ512から取得し、各クライアント端末514に送信する。
 ステップS204において、各クライアント端末514は、配布されたデータにラベルを付与する。
 例えば、図22に示されるように、クライアント端末514は、取得したラベルなしデータに含まれる画像及びセンサ情報により示される状況を評価者に提示する。また、クライアント端末514は、「これは危険ですか?」というメッセージを表示したり、音声を出力したりすることにより、提示した状況が危険であるか否かを評価者に問い合わせる。
 これに対して、評価者は、提示された状況が危険であるか否かを判断し、判断した結果を示すラベルをクライアント端末514に入力する。例えば、評価者は、「危険」又は「大丈夫」のいずれかの値のラベルを入力する。
 クライアント端末514は、評価者により入力されたラベルを配布されたデータに付与することにより、ラベル付きデータを生成する。
 ステップS205において、学習データ生成サーバ513は、ラベル付きデータを各クライアント端末514から収集する。
 ステップS206において、学習データ生成サーバ513は、収集したデータに付与されたラベルに基づいて、正解ラベルを決定する。例えば、学習データ生成サーバ513は、収集したラベル付きデータに付与されているラベルの中から、多数決で正解ラベルを決定する。すなわち、学習データ生成サーバ513は、収集したラベル付きデータに付与されているラベルのうち最も数が多いラベルを正解ラベルに決定する。
 学習データ生成サーバ513は、ラベル付けの対象になっているデータに正解ラベルを付与することにより、学習データを生成する。
 例えば、図23に示されるように、図21のラベルなしデータに、値が「危険」である正解ラベルが付与されることにより、学習データが生成される。
 ステップS207において、学習データ生成サーバ513は、正解ラベルを付与した評価者にトークンを配布する。トークンは、例えば、報酬と交換可能なデータである。なお、トークンにより交換可能な報酬の種類は、特に限定されない。
 具体的には、学習データ生成サーバ513は、正解ラベルが付与されたラベル付きデータの送信元であるクライアント端末514にトークンを送付する。これにより、正解ラベルを付与した評価者にトークンが配布される。
 図24の右側は、トークンのデータ構成例を示している。トークンは、データID及びトークンIDを含む。
 データIDは、正解ラベルを付与したデータを識別するためのIDである。
 トークンIDは、配布したトークンを識別するためのIDである。
 ステップS208において、学習データ生成サーバ513は、学習データと配布したトークンを紐づける。例えば、学習データ生成サーバ513は、学習データに、配布したトークンに関する情報を追加することにより、学習データと配布したトークンを紐づける。
 図24の左側は、配布したトークンに関する情報を紐づけた後の学習データのデータ構成例を示している。学習データは、データ、ラベル、データID、及び、トークンIDリストを含む。
 データIDは、配布したトークンに含まれるデータIDと対応する。
 トークンIDリストは、トークンが配布された評価者毎にトークンID及びユーザIDの組を含む。トークンIDは、配布したトークンに含まれるトークンIDと対応する。ユーザIDは、トークンが配布された評価者を識別するためのIDである。
 これにより、学習データ毎に、正解ラベルを付与することによりトークンが配布された評価者を把握することが可能になる。
 ステップS209において、学習データ生成サーバ513は、学習データを学習データサーバ515に保存する。
 以上の処理が繰り返されることにより、適切なラベルが付与された学習データを大量かつ迅速に収集することができる。
 すなわち、複数の評価者により付与されたラベルの中から多数決で正解ラベルが決定される。また、正解ラベルを付与した評価者にトークンが配布されるため、各評価者が適切なラベルを付与するように動機づけられる。これにより、ラベルの精度が向上する。また、不適切なラベルが付与されることが抑制される。
 また、不特定多数の評価者がラベル付けに参加できるため、各データに対するラベルを迅速に収集することができる。
 さらに、正解ラベルが多数決により決定され、正解ラベルの内容を確認する作業が省略されるため、より低コストで迅速に各データに正解ラベルを付与することができる。
 なお、例えば、各学習データのトークンIDリストに基づいて、評価者毎に正解ラベルを付与する確率(以下、正解率と称する)を算出することが可能である。これにより、各評価者の優劣を判定することができ、例えば、評価者の優劣に基づいて、報酬を変えることができる。例えば、正解率が高い評者者ほど、付与する報酬を高価にすることができる。
 また、例えば、正解ラベルを付与した評価者に、トークンではなく、お金等の報酬を直接付与するようにしてもよい。
 さらに、例えば、複数のデータをまとめて評価者に配布し、各データにラベルをまとめて付与してもらうようにしてもよい。
 また、データ利用者は、学習データサーバ515に蓄積されている学習データを個別に利用してもよいし、複数の学習データをまとめた学習データ群を利用してもよい。なお、学習データ群は、例えば、データの種類や使用目的等により分類される。
 また、データ利用者は、学習データを管理するデータ管理者に学習データ毎に対価を与えてもよいし、学習データ群に対して対価を与えてもよい。いずれの場合も、トークンIDリストにより、各学習データに正解ラベルを付与した評価者が把握されるため、データ利用者から与えられた対価の一部を、正解ラベルを付与した評価者に還元することが可能である。
 さらに、データ管理者は、例えば、個人ではなく、会社や団体等のグループにラベル付けを依頼するようにしてもよい。この場合、例えば、グループ内の評価者の正解率の平均等に基づいて、当該グループが評価され、報酬が付与される。
 <<3.変形例>>
 以下、上述した本技術の実施の形態の変形例について説明する。
  <処理の分担に関する変形例>
 情報処理システム1において、各処理の分担を必要に応じて変更することが可能である。
 例えば、システム11の周囲の状況、並びに、システム11及びユーザの状態の認識処理の全部又は一部を、操作端末12又は管理サーバ13が実行するようにしてもよい。
 例えば、操作端末12が、管理サーバ13の処理を実行し、操作端末12が、各システム11に直接介入するようにしてもよい。この場合、例えば、図9及び図12を参照して上述した監視用画像の生成処理が、操作端末12により実行される。
 例えば、図19等を参照して上述した学習データ生成処理を、管理サーバ13が実行するようにしてもよい。また、学習データ生成処理により生成された学習データを用いた学習処理を、管理サーバ13が実行するようにしてもよい。
  <その他の変形例>
 図1の情報処理システム1のシステム11を、監視用に道路等の任意の場所に設置することが可能である。この場合、例えば、当該システム11により得られた監視用情報に基づいて、システム11の周囲の状況が監視される。なお、当該システム11は、特にユーザが使用したり、移動したりしないため、基本的にオペレータの介入は不要である。
 図19等を参照して上述した学習データ生成処理は、学習方法、学習の目的、学習データの種類等に関わらず、学習データにラベルを付与する処理全般に適用することができる。
 <<4.その他>>
  <コンピュータの構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図25は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータ1000において、CPU(Central Processing Unit)1001,ROM(Read Only Memory)1002,RAM(Random Access Memory)1003は、バス1004により相互に接続されている。
 バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及びドライブ1010が接続されている。
 入力部1006は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア1011を駆動する。
 以上のように構成されるコンピュータ1000では、CPU1001が、例えば、記憶部1008に記録されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータ1000では、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
  <構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、
 前記要注意領域を含む前記撮像画像に基づいて、第1の俯瞰画像を生成する画像処理部と
 備える情報処理装置。
(2)
 前記画像処理部は、複数の前記要注意領域をそれぞれ示す複数の要注意領域画像を合成することにより前記第1の俯瞰画像を生成する
 前記(1)に記載の情報処理装置。
(3)
 前記画像処理部は、前記第1の俯瞰画像において各前記要注意領域画像を元の前記撮像画像における位置に対応する位置に配置する
 前記(2)に記載の情報処理装置。
(4)
 前記第1の俯瞰画像内の前記要注意領域のうちオペレータにより指定された前記要注意領域を含む前記撮像画像を撮像した前記システムに対して、前記オペレータによる介入を仲介する仲介部を
 さらに備える前記(3)に記載の情報処理装置。
(5)
 前記オペレータによる介入には、視覚介入、聴覚介入、身体介入、又は、操作介入のうち少なくとも1つが用いられる
 前記(4)に記載の情報処理装置。
(6)
 前記要注意領域画像は、前記撮像画像から抽出された画像である
 前記(2)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記要注意領域画像は、前記要注意領域に存在するオブジェクトの2次元モデル又は3次元モデルである
 前記(2)乃至(5)のいずれかに記載の情報処理装置。
(8)
 前記認識部は、各前記要注意領域の危険度を推定し、
 前記画像処理部は、前記要注意領域の危険度に基づいて、前記要注意領域画像の表示態様を変化させる
 前記(2)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す第2の俯瞰画像を生成する
 前記(2)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記認識部は、各前記地点の危険度を推定し、
 各前記地点の危険度に基づいて、前記第1の俯瞰画像及び前記第2の俯瞰画像のうちいずれかを選択して、オペレータが用いる操作端末に送信する
 前記(9)に記載の情報処理装置。
(11)
 前記画像処理部は、危険度が所定の閾値以上の前記地点に含まれる前記要注意領域を示す前記要注意領域画像を合成することにより前記第1の俯瞰画像を生成する
 前記(10)に記載の情報処理装置。
(12)
 前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す前記第1の俯瞰画像を生成する
 前記(1)に記載の情報処理装置。
(13)
 前記要注意領域は、危険物、及び、前記システム又は前記システムを使用するユーザが確認する必要がある物体のうち少なくとも1つを含む
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 オペレータが第1のアクシデントを回避するために前記システムである車両に対して操作介入を行った区間に基づいて、前記第1のアクシデントの発生地点を含む第1のアクシデント区間を設定するアクシデント区間設定部と、
 前記第1のアクシデント区間における前記車両に対する前記オペレータの操作を学習することにより学習モデルを生成する学習部と、
 前記学習モデルを用いて、前記第1のアクシデント区間において他の車両に対する操作介入を行う介入部と
 を備える前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記アクシデント区間設定部は、前記オペレータにより前記第1のアクシデント区間における操作介入が不要と判定された場合、前記第1のアクシデント区間を解除し、
 前記介入部は、前記第1のアクシデント区間が解除された場合、前記他の車両に対する操作介入を停止する
 前記(14)に記載の情報処理装置。
(16)
 前記介入部は、前記第1のアクシデントと同様の第2のアクシデントが発生した場合、前記学習モデルを用いて、前記第2のアクシデントの発生地点を含む第2のアクシデント区間において車両に対する操作介入を行う
 前記(14)又は(15)に記載の情報処理装置。
(17)
 前記認識部が用いる学習モデルの学習に用いるデータに、複数の評価者により前記データに付与されたラベルに基づいて決定した正解ラベルを付与することにより、学習データを生成する学習データ生成部を
 さらに備える前記(1)乃至(16)のいずれかに記載の情報処理装置。
(18)
 前記学習データ生成部は、複数の前記評価者のうち、前記正解ラベルを付与した前記評価者に報酬を付与する
 前記(17)に記載の情報処理装置。
(19)
 情報処理装置が、
 複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
 前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
 情報処理方法。
(20)
 複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
 前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
 処理をコンピュータに実行させるためのプログラム。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 1 情報処理システム, 11-1乃至11-m システム, 12-1乃至12-m, 13 管理サーバ, 51 ユーザ支援システム, 61 外界センサ, 62 内界センサ, 65 制御部, 66 出力部, 101 車両, 111 外界センサ, 113 内界センサ, 115 認識部, 116 監視用情報送信部, 120 アクシデント検出部, 121 状況判断部, 122 経路生成部, 123 車両制御部, 152 制御部, 153 表示部, 154 音声出力部, 155 操作入力部, 156 撮像部, 157 音声入力部, 161 出力制御部, 162 行動認識部, 163 介入部, 202 制御部, 211 認識部, 212 画像処理部, 213 アクシデント区間設定部, 214 仲介部, 215 介入部, 216 学習部, 501 情報処理システム, 513 学習データ生成サーバ, 514-1乃至514-n クライアント端末, 515 学習データサーバ

Claims (20)

  1.  複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、
     前記要注意領域を含む前記撮像画像に基づいて、第1の俯瞰画像を生成する画像処理部と
     備える情報処理装置。
  2.  前記画像処理部は、複数の前記要注意領域をそれぞれ示す複数の要注意領域画像を合成することにより前記第1の俯瞰画像を生成する
     請求項1に記載の情報処理装置。
  3.  前記画像処理部は、前記第1の俯瞰画像において各前記要注意領域画像を元の前記撮像画像における位置に対応する位置に配置する
     請求項2に記載の情報処理装置。
  4.  前記第1の俯瞰画像内の前記要注意領域のうちオペレータにより指定された前記要注意領域を含む前記撮像画像を撮像した前記システムに対して、前記オペレータによる介入を仲介する仲介部を
     さらに備える請求項3に記載の情報処理装置。
  5.  前記オペレータによる介入には、視覚介入、聴覚介入、身体介入、又は、操作介入のうち少なくとも1つが用いられる
     請求項4に記載の情報処理装置。
  6.  前記要注意領域画像は、前記撮像画像から抽出された画像である
     請求項2に記載の情報処理装置。
  7.  前記要注意領域画像は、前記要注意領域に存在するオブジェクトの2次元モデル又は3次元モデルである
     請求項2に記載の情報処理装置。
  8.  前記認識部は、各前記要注意領域の危険度を推定し、
     前記画像処理部は、前記要注意領域の危険度に基づいて、前記要注意領域画像の表示態様を変化させる
     請求項2に記載の情報処理装置。
  9.  前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す第2の俯瞰画像を生成する
     請求項2に記載の情報処理装置。
  10.  前記認識部は、各前記地点の危険度を推定し、
     各前記地点の危険度に基づいて、前記第1の俯瞰画像及び前記第2の俯瞰画像のうちいずれかを選択して、オペレータが用いる操作端末に送信する
     請求項9に記載の情報処理装置。
  11.  前記画像処理部は、危険度が所定の閾値以上の前記地点に含まれる前記要注意領域を示す前記要注意領域画像を合成することにより前記第1の俯瞰画像を生成する
     請求項10に記載の情報処理装置。
  12.  前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す前記第1の俯瞰画像を生成する
     請求項1に記載の情報処理装置。
  13.  前記要注意領域は、危険物、及び、前記システム又は前記システムを使用するユーザが確認する必要がある物体のうち少なくとも1つを含む
     請求項1に記載の情報処理装置。
  14.  オペレータが第1のアクシデントを回避するために前記システムである車両に対して操作介入を行った区間に基づいて、前記第1のアクシデントの発生地点を含む第1のアクシデント区間を設定するアクシデント区間設定部と、
     前記第1のアクシデント区間における前記車両に対する前記オペレータの操作を学習することにより学習モデルを生成する学習部と、
     前記学習モデルを用いて、前記第1のアクシデント区間において他の車両に対する操作介入を行う介入部と
     を備える請求項1に記載の情報処理装置。
  15.  前記アクシデント区間設定部は、前記オペレータにより前記第1のアクシデント区間における操作介入が不要と判定された場合、前記第1のアクシデント区間を解除し、
     前記介入部は、前記第1のアクシデント区間が解除された場合、前記他の車両に対する操作介入を停止する
     請求項14に記載の情報処理装置。
  16.  前記介入部は、前記第1のアクシデントと同様の第2のアクシデントが発生した場合、前記学習モデルを用いて、前記第2のアクシデントの発生地点を含む第2のアクシデント区間において車両に対する操作介入を行う
     請求項14に記載の情報処理装置。
  17.  前記認識部が用いる学習モデルの学習に用いるデータに、複数の評価者により前記データに付与されたラベルに基づいて決定した正解ラベルを付与することにより、学習データを生成する学習データ生成部を
     さらに備える請求項1に記載の情報処理装置。
  18.  前記学習データ生成部は、複数の前記評価者のうち、前記正解ラベルを付与した前記評価者に報酬を付与する
     請求項17に記載の情報処理装置。
  19.  情報処理装置が、
     複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
     前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
     情報処理方法。
  20.  複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
     前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
     処理をコンピュータに実行させるためのプログラム。
PCT/JP2022/037378 2021-10-18 2022-10-06 情報処理装置、情報処理方法、及び、プログラム WO2023068062A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021170464 2021-10-18
JP2021-170464 2021-10-18

Publications (1)

Publication Number Publication Date
WO2023068062A1 true WO2023068062A1 (ja) 2023-04-27

Family

ID=86058162

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/037378 WO2023068062A1 (ja) 2021-10-18 2022-10-06 情報処理装置、情報処理方法、及び、プログラム

Country Status (1)

Country Link
WO (1) WO2023068062A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006042147A (ja) * 2004-07-29 2006-02-09 Honda Motor Co Ltd 車両の認知支援装置
JP2009171002A (ja) * 2008-01-11 2009-07-30 Hitachi Kokusai Electric Inc 無線電話機
CN110971878A (zh) * 2019-12-12 2020-04-07 北京京能清洁能源电力股份有限公司北京分公司 一种工程现场管理***
JP6822413B2 (ja) 2015-10-20 2021-01-27 ソニー株式会社 サーバ装置及び情報処理方法、並びにコンピュータ・プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006042147A (ja) * 2004-07-29 2006-02-09 Honda Motor Co Ltd 車両の認知支援装置
JP2009171002A (ja) * 2008-01-11 2009-07-30 Hitachi Kokusai Electric Inc 無線電話機
JP6822413B2 (ja) 2015-10-20 2021-01-27 ソニー株式会社 サーバ装置及び情報処理方法、並びにコンピュータ・プログラム
CN110971878A (zh) * 2019-12-12 2020-04-07 北京京能清洁能源电力股份有限公司北京分公司 一种工程现场管理***

Similar Documents

Publication Publication Date Title
US20220413497A1 (en) Systems and methods for computer-assisted shuttles, buses, robo-taxis, ride-sharing and on-demand vehicles with situational awareness
EP3371668B1 (en) Teleoperation system and method for trajectory modification of autonomous vehicles
US10043316B2 (en) Virtual reality experience for a vehicle
US9922466B2 (en) Virtual reality experience for a vehicle
US20200004241A1 (en) Teleoperation system and method for trajectory modification of autonomous vehicles
JP2022009142A (ja) 自律車両の軌道修正のための遠隔操作システムおよび方法
US20200302194A1 (en) Intention Recognition
SA520420162B1 (ar) انذار مبكر وتفادي حدوث الاصطدامات
CN108776481B (zh) 一种平行驾驶控制方法
CN111216127A (zh) 一种机器人控制方法、装置、服务器及介质
CN107199966B (zh) 能够在测试环境下交互作用的方法和***
KR20190096871A (ko) 복수의 로봇들을 관제하는 인공 지능 서버 및 그 방법
KR102263159B1 (ko) 로봇의 경로를 결정하는 인공 지능 서버 및 그 방법
JPWO2019188391A1 (ja) 制御装置、制御方法、並びにプログラム
JPWO2019188390A1 (ja) 露光制御装置、露光制御方法、プログラム、撮影装置、及び、移動体
KR20190094313A (ko) 인공 지능을 이용하여, 안내 서비스를 제공하는 로봇 및 그의 동작 방법
EP3682306B1 (en) Action plan generation when the own position is unknown
KR20190096854A (ko) 인공 지능을 이용하여, 복수의 로봇들을 제어하는 인공 지능 서버
CN110654380A (zh) 用于控制车辆的方法和装置
WO2021024805A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2023068062A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
Matviienko et al. QuantiBike: quantifying perceived cyclists' safety via head movements in virtual reality and outdoors
US20230324906A1 (en) Systems and methods for remote viewing of self-driving vehicles
KR20190094312A (ko) 인공 지능을 이용하여, 복수의 로봇들을 제어하는 관제 시스템
US11538251B2 (en) Vehicle control and 3D environment experience with or without visualization based on 3D audio/visual sensors

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22883367

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023554453

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2022883367

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022883367

Country of ref document: EP

Effective date: 20240521