WO2021234839A1 - 対話予兆検知装置、および、対話予兆検知方法 - Google Patents

対話予兆検知装置、および、対話予兆検知方法 Download PDF

Info

Publication number
WO2021234839A1
WO2021234839A1 PCT/JP2020/019888 JP2020019888W WO2021234839A1 WO 2021234839 A1 WO2021234839 A1 WO 2021234839A1 JP 2020019888 W JP2020019888 W JP 2020019888W WO 2021234839 A1 WO2021234839 A1 WO 2021234839A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
unit
output
sign detection
sign
Prior art date
Application number
PCT/JP2020/019888
Other languages
English (en)
French (fr)
Inventor
紫織 島谷
尚嘉 竹裏
匠 武井
真 宗平
政信 大澤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/019888 priority Critical patent/WO2021234839A1/ja
Publication of WO2021234839A1 publication Critical patent/WO2021234839A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • This disclosure relates to a dialogue sign detection device that detects a sign of dialogue by a person, and a dialogue sign detection method.
  • Patent Document 1 when a sign of human dialogue is detected, the state shifts to the state of starting the reception of voice without notifying that the sign has been detected. Therefore, there is a problem that a person cannot grasp when the reception of voice is started.
  • the present disclosure has been made to solve the above-mentioned problems, and an object of the present disclosure is to provide a dialogue sign detection device that provides information that enables a person to grasp when the reception of voice is started. And.
  • the dialogue sign detection device is an information acquisition unit that acquires behavior information related to human behavior, and a dialogue sign detection that detects whether or not there is a dialogue sign by a person based on the behavior information acquired by the information acquisition unit. It is provided with a unit and an output content determination unit that outputs information indicating that the dialogue is being accepted when the dialogue sign detection unit detects that there is a dialogue sign by a person.
  • the dialogue sign detection device can provide a person with information that can grasp when the voice reception is started.
  • FIG. 5 is a diagram showing a configuration example of a dialogue sign detection device having a configuration having a function of determining whether or not the detected dialogue sign is erroneous detection in the first embodiment.
  • the dialogue sign detection device When the dialogue sign detection device according to the second embodiment is configured not to have a priority determination unit, it detects that there are dialogue signs of a plurality of occupants and outputs information indicating that "dialogue is being accepted". It is a figure for demonstrating the image of an example of the flow until the process. It is a figure which shows the configuration example of the dialogue sign detection device which concerns on Embodiment 3. It is a flowchart for demonstrating the operation of the dialogue sign detection apparatus which concerns on Embodiment 3.
  • FIG. 12A is a diagram for explaining the image of the above, and FIG. 12A is an output device when the line-of-sight direction of the occupant is the direction of the display device when outputting the device state information indicating that the device is in the “dialogue standby state”.
  • FIG. 12B shows an output device when the line-of-sight direction of the occupant is not the direction of the display device when outputting the device state information indicating that the device is in the “dialogue standby state”.
  • An image of an example of the information output from is shown.
  • 13A and 13B are diagrams showing an example of the hardware configuration of the dialogue sign detection device according to the first to third embodiments.
  • FIG. 1 is a diagram showing a configuration example of the dialogue sign detection device 1 according to the first embodiment.
  • the dialogue sign detection device 1 is mounted on a vehicle (not shown).
  • the user of the dialogue sign detection device 1 is a vehicle occupant.
  • the occupant of the vehicle as a user is assumed to be a driver, but this is only an example, and the occupant of the vehicle as a user may be a passenger.
  • the dialogue sign detection device 1 is connected to the sensor 2, the microphone 3, and the output device 4.
  • the sensor 2 acquires information about the occupants present in the vehicle.
  • the sensor 2 outputs the acquired information about the occupant (hereinafter referred to as “user information”) to the dialogue sign detection device 1.
  • the sensor 2 constantly acquires user information.
  • the sensor 2 is a visible light camera, a range image sensor, an ultrasonic sensor, an infrared sensor, or the like mounted on a vehicle.
  • the sensor 2 acquires user information and outputs it to the dialogue sign detection device 1.
  • the visible light camera captures an image of the occupant and outputs the captured image as user information to the dialogue sign detection device 1.
  • the visible light camera is installed at least in a place where the face of the occupant can be imaged.
  • the distance image sensor acquires distance information to the occupant and outputs the acquired distance information to the dialogue sign detection device 1 as user information.
  • the distance image sensor is installed at least in a place where the distance information to the occupant's face can be acquired.
  • the microphone 3 is mounted on a vehicle, for example.
  • the microphone 3 acquires voice in the vehicle such as utterance by the occupant or noise.
  • the microphone 3 outputs the acquired voice to the dialogue sign detection device 1. It should be noted that the microphone 3 constantly acquires voice.
  • One microphone 3 may be mounted on the vehicle, or a plurality of microphones 3 may be mounted on the vehicle. When a plurality of microphones 3 are mounted on the vehicle, each of the plurality of microphones 3 outputs the acquired voice to the dialogue sign detection device 1 in association with the information that can identify the microphones 3.
  • the dialogue sign detection device 1 acquires the user information output from the sensor 2, and whether or not the occupant is trying to talk, in other words, whether or not there is a sign of dialogue by the occupant (hereinafter referred to as "dialogue sign"). Is detected.
  • the dialogue sign detection device 1 constantly determines what state the own device is in with respect to the dialogue by the occupant based on the detection result of whether or not there is a dialogue sign by the occupant, and outputs information indicating the state. Output from the output device 4.
  • the dialogue sign detection device 1 can determine whether the own device is in the “dialogue waiting state”, the “dialogue accepting state”, or the “dialogue accepting state”.
  • the “dialogue standby state” is the state of the dialogue sign detection device 1 before the dialogue sign detection device 1 detects that there is a dialogue sign by the occupant. In this state, the dialogue sign detection device 1 does not accept voice.
  • the "voice reception" performed by the dialogue sign detection device 1 means receiving the voice that needs to be output to the occupant in response to the dialogue of the occupant. The details of the "voice reception” performed by the dialogue sign detection device 1 will be described later.
  • the dialogue sign detection device 1 outputs information indicating that the own device is in the “dialogue standby state” to the output device 4.
  • the “dialogue acceptance state” is the state of the dialogue sign detection device 1 after the dialogue sign detection device 1 detects that there is a dialogue sign by the occupant.
  • the dialogue sign detection device 1 outputs information indicating that the own device is in the “dialogue acceptance state” to the output device 4, and starts accepting the voice acquired by the microphone 3.
  • the dialogue sign detection device 1 performs voice recognition of the voice received from the microphone 3, and based on the result of the voice recognition, the output device 4 is provided with information indicating the response content to the occupant (hereinafter, "response content information"). ) Is output.
  • the dialogue sign detection device 1 after the dialogue sign detection device 1 is in the "dialogue acceptance state", when the occupant actually has a dialogue and the dialogue sign detection device 1 is in the state of receiving voice from the microphone 3, the own device "dialogues". It is judged that the status is "accepting”. In this state, the dialogue sign detection device 1 outputs information indicating that the own device is in the “dialogue accepting state” to the output device 4.
  • the output device 4 includes, for example, a display device, a speaker, an LED (Light Emitting Diode) lighting device, or an actuator.
  • the output device 4 is mounted on, for example, an in-vehicle car navigation device installed on the dashboard of a vehicle.
  • the output device 4 outputs information indicating the state of the dialogue sign detection device 1 output from the dialogue sign detection device 1. The details of the output of the information indicating the state of the dialogue sign detection device 1 by the output device 4 will be described later.
  • the dialogue sign detection device 1 includes an information acquisition unit 11, a dialogue sign detection unit 12, an output content determination unit 13, a voice reception unit 14, a voice recognition unit 15, and a storage unit 16.
  • the output content determination unit 13 includes a response content generation unit 131.
  • the information acquisition unit 11 acquires the user information output from the sensor 2.
  • the information acquisition unit 11 stores the acquired user information in the storage unit 16 in association with the information regarding the acquisition date and time of the user information. Further, the information acquisition unit 11 detects the behavior of the occupant based on the acquired user information.
  • the behavior of the occupant means, for example, the occupant's face orientation, line of sight, mouth movement, or occupant's face movement.
  • the information acquisition unit 11 detects the occupant's face orientation, line of sight, or mouth movement using a known image recognition technique based on the acquired image. Further, for example, the information acquisition unit 11 detects that the occupant's face is moving based on the acquired distance information.
  • the information acquisition unit 11 may acquire user information acquired from the sensor 2 in the past from the storage unit 16 when detecting the movement of the occupant's face or the movement of the face, for example.
  • the information acquisition unit 11 outputs the detected information regarding the behavior of the occupant (hereinafter referred to as “behavior information”) to the dialogue sign detection unit 12.
  • the dialogue sign detection unit 12 detects whether or not there is a dialogue sign by the occupant based on the behavior information acquired by the information acquisition unit 11. Specifically, for example, the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant when the line-of-sight direction of the occupant is the direction of the display device. Further, for example, the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant when the face direction of the occupant is the direction of the display device. Since the installation position of the display device is known in advance, the dialogue sign detection unit 12 can determine whether or not the line-of-sight direction of the occupant is the direction of the display device if the line-of-sight direction of the occupant is known.
  • the dialogue sign detection unit 12 can determine whether or not the face orientation of the occupant is the direction of the display device. Further, for example, the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant when there is a movement of the occupant's mouth. Further, for example, the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant when the occupant's face approaches the display device. Since the installation position of the display device is known in advance, the dialogue sign detection unit 12 determines whether or not the occupant's face is moving in the direction approaching the display device if the moving direction of the occupant's face is known. Can be done. The dialogue sign detection unit 12 may combine the above-mentioned methods to detect whether or not there is a dialogue sign by the occupant.
  • the dialogue sign detection unit 12 outputs information indicating whether or not it has been detected that there is a dialogue sign by the occupant (hereinafter referred to as “predictive detection result information”) to the output content determination unit 13. Specifically, when the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant, the dialogue sign detection unit 12 outputs the sign detection result information indicating that there is a dialogue sign to the output content determination unit 13. When the dialogue sign detection unit 12 detects that there is no dialogue sign by the user, the dialogue sign detection unit 12 outputs the sign detection result information indicating that there is no dialogue sign to the output content determination unit 13.
  • the output content determination unit 13 determines the state of the dialogue sign detection device 1 based on the sign detection result information output from the dialogue sign detection unit 12 or the voice recognition result output from the voice recognition unit 15. Specifically, when the output content determination unit 13 outputs the sign detection result information indicating that there is no dialogue sign by the user from the dialogue sign detection unit 12, the dialogue sign detection device 1 is in the “dialogue standby state”. Judge. When the dialogue sign detection unit 12 outputs the sign detection result information indicating that the user has a dialogue sign, the output content determination unit 13 determines that the dialogue sign detection device 1 is in the “dialogue acceptance state”. When the voice recognition result is output from the voice recognition unit 15 after the dialogue sign detection device 1 is in the “dialogue acceptance state”, the output content determination unit 13 is in the dialogue sign detection device 1 in the “dialogue acceptance state”. Judge that there is.
  • the output content determination unit 13 determines the state of the dialogue sign detection device 1, it outputs information indicating the state of the dialogue sign detection device 1 (hereinafter referred to as “device status information”) to the output device 4.
  • the output content determination unit 13 determines that the dialogue sign detection device 1 is in the “dialogue acceptance state”
  • the output content determination unit 13 outputs device status information indicating that the dialogue reception status is “dialogue acceptance state” to the output device 4 and also outputs the voice reception unit. Output to 14.
  • the output content determination unit 13 outputs an instruction from the control unit (not shown) of the dialogue sign detection device 1 to output the information indicating that the output device 4 is in the “dialogue standby state” when the power is turned on. If so, the device status information indicating the "dialogue standby state” may be output to the output device 4.
  • the output content determination unit 13 controls the output device 4 in what form the device status information is output.
  • the output content determination unit 13 when the output device 4 is a display device, the output content determination unit 13 is in a "dialogue standby state", a "dialogue acceptance state", or a "dialogue acceptance state” in the display device. Display characters, icons, figures, etc. to indicate that.
  • the output content determination unit 13 tells the speaker a voice or a melody indicating that the speaker is in a “dialogue waiting state”, a “dialogue accepting state”, or a “dialogue accepting state”. Is output.
  • the output content determination unit 13 when the output device 4 is an LED lighting device, the output content determination unit 13 lights or blinks the LED lighting device as indicated by "dialogue standby state", "dialogue acceptance state", or "dialogue acceptance state”. To do.
  • the output content determination unit 13 may cause the LED lighting device to change the lighting pattern or the blinking pattern according to the state of the dialogue sign detection device 1.
  • the output content determination unit 13 causes the actuator to vibrate in accordance with the “dialogue waiting state”, the “dialogue accepting state”, or the “dialogue accepting state”.
  • the output content determination unit 13 may cause the actuator to change the vibration pattern according to the state of the dialogue sign detection device 1.
  • the output device 4 outputs the device status information according to the device status information output from the output content determination unit 13.
  • the output form of the device status information as described above is only an example.
  • the occupant who confirmed the output device 4 is in any of the "dialogue standby state", "dialogue acceptance state", or "dialogue acceptance state” in the dialogue sign detection device 1. It suffices if the device status information is output from the output device 4 so that the presence or absence can be grasped.
  • the output content determination unit 13 may output device status information to a plurality of different types of output devices 4.
  • the output content determination unit 13 can display the device status information on the display device and output the device status information by voice from the speaker. It is possible to appropriately set which output device 4 the output content determination unit 13 outputs the device status information in what form.
  • the response content generation unit 131 of the output content determination unit 13 is based on the voice recognition result.
  • Information indicating the response content to the occupant (hereinafter referred to as "response content information”) is generated and output to the output device 4. That is, the response content generation unit 131 generates response content information based on the voice recognition result output from the voice recognition unit 15 when the dialogue sign detection device 1 is in the “dialogue accepting state”.
  • the response content generation unit 131 generates response content information by, for example, converting the voice recognition result into text.
  • the output content determination unit 13 outputs the response content information generated by the response content generation unit 131 to the output device 4.
  • the output device 4 outputs the response content information. Specifically, for example, when the output device 4 is a display device and the response content information is information indicating a guidance route, the display device displays information indicating the guidance route.
  • the voice reception unit 14 receives the voice acquired by the microphone 3 from the microphone 3 when the dialogue sign detection unit 12 detects the dialogue sign by the occupant. Specifically, when the voice reception unit 14 detects that the dialogue sign detection unit 12 has a dialogue sign by the occupant, the output content determination unit 13 outputs information indicating that the dialogue reception state is in effect. The voice acquired by the microphone 3 is received.
  • the "voice reception" performed by the dialogue sign detection device 1 means that, as described above, it is necessary for the dialogue sign detection device 1 to output a response to the occupant according to the dialogue of the occupant. It means to accept various voices.
  • the "voice reception” performed by the dialogue sign detection device 1 means that the response content generation unit 131 of the output content determination unit 13 is activated in the dialogue sign detection device 1 and the response content. Refers to the reception of voice that is the target for generating information.
  • the output content determination unit 13 determines that the device status information is "dialogue reception status” and outputs the device status information indicating that the device status information is "dialogue reception status”
  • the device status information is output to the voice reception unit. It is started by transmitting to 14.
  • the voice reception unit 14 outputs the received voice to the voice recognition unit 15.
  • the voice recognition unit 15 performs signal processing on the voice received by the voice reception unit 14, and performs voice recognition processing.
  • the signal processing is, for example, noise removal processing or voice enhancement processing.
  • the voice recognition unit 15 may perform voice recognition processing using a known voice recognition technique.
  • the voice recognition unit 15 outputs the voice recognition result to the output content determination unit 13. Further, the voice recognition unit 15 stores the voice recognition result in the storage unit 16 in association with, for example, information regarding the date and time when the voice recognition process is performed. At this time, the voice recognition unit 15 stores the voice received by the voice reception unit 14 in the storage unit 16 in association with the voice recognition result of the voice, for example.
  • the voice and the voice recognition result stored by the voice recognition unit 15 are used by the response content generation unit 131 when the response content generation unit 131 generates the response content, for example.
  • the response content generation unit 131 can refer to the voice recognition result for the previously received voice stored in the storage unit and generate the response content information for the voice recognition result for the voice received this time. ..
  • the response content generation unit 131 generates the response content information indicating the response content "I have just turned the next intersection".
  • the response content generation unit 131 acquires the voice recognition result corresponding to "Where is the store called XX?", Which is the voice recognition result for the voice received immediately before, from the storage unit 16, and " ⁇ ". ⁇ ”is generated as response content information indicating the business hours of the store.
  • the storage unit 16 stores the user information acquired by the information acquisition unit 11, the voice received by the voice reception unit 14, and the voice recognition result recognized by the voice recognition unit 15.
  • the storage unit 16 is provided in the dialogue sign detection device 1, but this is only an example, and the storage unit 16 is outside the dialogue sign detection device 1.
  • the dialogue sign detection device 1 may be provided in a place where it can be referred.
  • the dialogue sign detection device 1 determines whether the state of the own device is the "dialogue waiting state”, the "dialogue accepting state”, or the “dialogue accepting state”, and " The device status information indicating "dialogue standby state”, the device status information indicating "dialogue acceptance status”, or the device status information indicating "dialogue acceptance status” is output to the output device 4, but this is an example. Not too much.
  • the dialogue sign detection device 1 determines at least that the own device is in the "dialogue standby state” or the "dialogue acceptance state", and when the own device is in the "dialogue standby state” or the “dialogue acceptance state", “ It suffices if the device status information indicating the "dialogue standby state” or "dialogue acceptance state” is output to the output device 4.
  • the dialogue sign detection device 1 determines either the "dialogue standby state” or the “dialogue acceptance state” as the state of the own device, and the device status information indicating the "dialogue standby state” or the device status information. It is assumed that the device status information indicating the "dialogue acceptance status" is output to the output device 4.
  • FIG. 2 is a flowchart for explaining the operation of the dialogue sign detection device 1 according to the first embodiment.
  • the dialogue sign detection device 1 performs the operation described in the flowchart of FIG. 2 while the power is turned on.
  • the output content determination unit 13 of the dialogue sign detection device 1 outputs device status information indicating that it is in the “dialogue standby state” to the output device 4 (step ST201). For example, when the power is turned on, in this step ST201, the control unit of the dialogue sign detection device 1 causes the output content determination unit 13 to output information to the effect that the output device 4 is in the “dialogue standby state”.
  • the information acquisition unit 11 acquires the user information output from the sensor 2 (step ST202).
  • the information acquisition unit 11 stores the acquired user information in the storage unit 16 in association with the information regarding the acquisition date and time of the user information. Further, the information acquisition unit 11 detects the behavior of the occupant based on the acquired user information. The information acquisition unit 11 outputs the detected behavior information to the dialogue sign detection unit 12.
  • the dialogue sign detection unit 12 detects whether or not there is a dialogue sign by the occupant based on the behavior information acquired by the information acquisition unit 11 (step ST203). When it is detected in step ST203 that there is no dialogue sign by the occupant (when “NO” in step ST203), the dialogue sign detection unit 12 outputs the sign detection result information indicating that there is no dialogue sign to the output content determination unit 13. do. Then, the operation of the dialogue sign detection device 1 returns to step ST201. That is, the output device 4 continues to output device status information indicating that it is in the “dialogue standby state”.
  • step ST203 When it is detected in step ST203 that there is a dialogue sign by the occupant (when “YES” in step ST203), the dialogue sign detection unit 12 outputs the sign detection result information indicating that there is a dialogue sign to the output content determination unit 13. do. Then, the operation of the dialogue sign detection device 1 proceeds to step ST204.
  • the output content determination unit 13 determines that the dialogue sign detection device 1 is in the “dialogue acceptance state” based on the sign detection result information output from the dialogue sign detection unit 12 in step ST203 (step ST204).
  • the output content determination unit 13 outputs device status information indicating that it is in the “dialogue acceptance state” to the output device 4, and outputs information indicating that it is in the “dialogue acceptance state” to the voice reception unit 14. do.
  • the output device 4 outputs the device status information.
  • the voice reception unit 14 When the voice reception unit 14 outputs the information indicating that the "dialogue reception state" is output from the output content determination unit 13 in step ST204, the voice reception unit 14 receives the voice acquired by the microphone 3 from the microphone 3. The voice reception unit 14 outputs the received voice to the voice recognition unit 15. Then, the voice recognition unit 15 performs voice recognition processing on the voice received by the voice reception unit 14 (step ST205). The voice recognition unit 15 outputs the voice recognition result to the output content determination unit 13. Further, the voice recognition unit 15 stores the voice recognition result in the storage unit 16 in association with, for example, information regarding the date and time when the voice recognition process is performed. At this time, the voice recognition unit 15 stores the voice received by the voice reception unit 14 in the storage unit 16 in association with the voice recognition result of the voice, for example.
  • the response content generation unit 131 of the output content determination unit 13 When the voice recognition result is output from the voice recognition unit 15 in step ST205, the response content generation unit 131 of the output content determination unit 13 generates response content information based on the voice recognition result (step ST206).
  • the output content determination unit 13 outputs the response content information generated by the response content generation unit 131 to the output device 4 (step ST207).
  • the output device 4 outputs the response content information.
  • FIG. 3 is for explaining an image of an example of a flow in which the dialogue sign detection device 1 according to the first embodiment detects that there is a dialogue sign by an occupant and outputs information indicating that the dialogue is in the “dialogue acceptance state”. It is a figure of.
  • the output device 4 is a display device, and the dialogue sign detection device 1 causes the display device to display device status information.
  • the display device shall display the device status information in characters.
  • the dialogue sign detection unit 12 detects that there is a dialogue sign when the line-of-sight direction of the occupant is the direction of the display device based on the behavior information output from the information acquisition unit 11. It is supposed to be done.
  • the dialogue sign detection unit 12 When the occupant is not looking at the display device as shown on the left side of FIG. 3, in other words, when the line-of-sight direction of the occupant is not the direction of the display device, the dialogue sign detection unit 12 has a dialogue by the occupant. It is detected that there is no sign (see the case of "NO" in step ST203 in FIG. 2). In this case, the dialogue sign detection unit 12 outputs the sign detection result information indicating that the occupant has detected that there is no dialogue sign to the output content determination unit 13. The output content determination unit 13 determines that the device is in the “dialogue standby state” and outputs device status information indicating the “dialogue standby state” to the display device (see step ST201 in FIG. 2). Then, the display device displays the characters "dialogue standby state".
  • the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant (see the case of “YES” in step ST203 in FIG. 2).
  • the dialogue sign detection unit 12 outputs the sign detection result information indicating that the occupant has detected that there is a dialogue sign to the output content determination unit 13.
  • the output content determination unit 13 determines that it is in the “dialogue acceptance state” and outputs device status information indicating that it is in the “dialogue acceptance state” to the display device (see step ST204 in FIG. 2). Then, the display device displays the characters "dialogue acceptance status".
  • "user signal type”, “always activated type”, or “always activated type” or ""Dialogue sign detection type” is known.
  • the user needs to give a signal such as pressing a switch or speaking a wakeup word in order to obtain a response.
  • a wake-up word is a predetermined word for starting the reception of a voice that is targeted for receiving a response only by voice.
  • the user has to give a signal each time in order to start accepting the voice to be obtained a response, which is troublesome.
  • the technology for solving the above-mentioned "user signal type” problem is the "always-start type".
  • the device constantly accepts voice. Since the device is constantly accepting voice, the user can interact to obtain a response at any time.
  • the device may erroneously accept a voice close to a dialogue by a user, such as a TV voice.
  • the technique for solving the problems of the "user signal type” and the “always activated type” as described above is the “dialogue sign detection type” as described with reference to Patent Document 1.
  • the "dialogue sign detection type” starts accepting voice when the device detects that there is a dialogue sign of the user.
  • the "dialogue sign detection type” does not require the user to give a signal each time as in the "user signal type”, and the possibility that the device erroneously accepts the voice as in the "always activated type” can be reduced.
  • the dialogue sign detection device 1 according to the first embodiment outputs information indicating that the dialogue is in the “dialogue acceptance state” from the output device 4. This allows the user, in other words, the occupant, to know when the voice reception has started.
  • the voice reception unit 14 Shall start accepting voice.
  • the voice reception unit 14 may end the voice reception when the predetermined condition (hereinafter referred to as “voice reception end condition”) is satisfied after the voice reception is started. ..
  • the voice reception end condition is, for example, that the volume of the received voice is equal to or less than a certain value and continues for a predetermined time. In this way, the dialogue sign detection device 1 may limit the time for receiving the voice. As a result, the dialogue sign detection device 1 can protect the privacy of the occupant.
  • the voice reception unit 14 when the voice reception unit 14 outputs the device status information indicating that the output content determination unit 13 is in the “dialogue reception state”, the voice reception unit 14 “voices. "Reception” will be started.
  • the voice reception unit 14 does not perform "voice reception", but may be in a state of constantly acquiring voice from the microphone 3.
  • the dialogue sign detection unit 12 may detect whether or not there is a dialogue sign by the occupant based on the voice constantly acquired from the microphone 3 by the voice reception unit 14. Specifically, for example, does the dialogue sign detection unit 12 include predetermined contents in the voice recognition result obtained by the voice recognition unit 15 for the voice acquired by the voice reception unit 14.
  • the predetermined content is, for example, a dialogue such as "Let's check” or “Let's search”, which is presumed to have been performed by the occupant with the intention of activating the dialogue sign detection device 1 (hereinafter, "Let's search”). It is called “startup instruction dialogue”).
  • the user registers the activation instruction dialogue in advance. If the voice recognition result includes the activation instruction dialogue, the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant. Since the voice reception unit 14 does not always perform "voice reception", the output content determination unit 13 does not operate based on the voice constantly acquired by the voice reception unit 14.
  • the output content determination unit 13 operates in response to the detection by the dialogue sign detection unit 12 whether or not there is a dialogue sign.
  • the voice reception unit 14 starts accepting voice, and the voice received by the voice reception unit 14 and the voice.
  • the voice recognition result by the voice recognition unit 15 is stored in the storage unit 16.
  • the voice constantly acquired by the voice reception unit 14 and the voice recognition result based on the voice are not stored. Since unnecessary voice and voice recognition results are not stored, the privacy of the occupant can be protected.
  • the dialogue sign detection device 1 may be configured to have a function of determining whether or not the detected dialogue sign is erroneous detection.
  • FIG. 4 is a diagram showing a configuration example of the dialogue sign detection device 1 having a configuration having a function of determining whether or not the detected dialogue sign is erroneous detection in the first embodiment.
  • the same components as those of the dialogue sign detection device 1 shown in FIG. 1 are designated by the same reference numerals, and duplicated description will be omitted.
  • the dialogue sign detection device 1 shown in FIG. 4 is different from the dialogue sign detection device 1 shown in FIG. 1 in that the dialogue sign detection unit 12 includes a false positive determination unit 121, and the voice recognition unit 15 includes a voice deletion unit 151. The point to prepare is different.
  • the false detection determination unit 121 of the dialogue sign detection unit 12 determines whether or not the dialogue sign detected by the dialogue sign detection unit 12 is a false detection. Specifically, for example, the false positive determination unit 121 voices within a preset time (hereinafter referred to as “false positive determination time”) after the dialogue sign detection unit 12 detects the dialogue sign by the occupant. Depending on whether or not the voice recognition result is output from the recognition unit 15, it is determined whether or not the dialogue sign detected by the dialogue sign detection unit 12 is a false detection. If the voice recognition result is not output within the erroneous detection determination time, the erroneous detection determination unit 121 determines that the dialogue symptom detected by the dialogue symptom detection unit 12 is erroneous detection.
  • the false detection determination unit 121 determines whether or not the voice recognition result output from the voice recognition unit 15 after the dialogue sign detection unit 12 detects the dialogue sign by the occupant is the voice recognition result for the dialogue of the occupant. Therefore, it is determined whether or not the dialogue sign detected by the dialogue sign detection unit 12 is a false detection. Specifically, in the false detection determination unit 121, when the voice recognition result output from the voice recognition unit 15 is a voice recognition result by an occupant other than the occupant who has detected that there is a dialogue sign, the dialogue sign detection unit 12 causes the dialogue sign detection unit 12. It is determined that the detected dialogue sign was a false positive.
  • the false positive determination unit 121 determines whether or not the voice recognition result output from the voice recognition unit 15 is the voice recognition result for the dialogue of the occupant who has detected that there is a dialogue sign, and the user information acquired from the information acquisition unit 11. It should be judged based on. For example, when the erroneous detection determination unit 121 does not move the mouth of the occupant who has detected that there is a dialogue sign, the voice recognition result is the voice recognition result for the dialogue of the occupants other than the occupant who has detected that there is a dialogue sign. Judge. In this case, the false detection determination unit 121 determines that the dialogue sign detected by the dialogue sign detection unit 12 is a false detection.
  • the occupant can point out the false positive by himself / herself.
  • the output content determination unit 13 outputs information to the effect that it is in the “dialogue standby state” to the output device 4.
  • the occupant confirms the output device 4 and grasps that the dialogue sign has been erroneously detected.
  • the occupant can point out the erroneous detection by, for example, touching the cancel button displayed on the display device.
  • the display device shall be a touch panel display.
  • the reception unit (not shown) of the dialogue sign detection device 1 accepts the cancellation information and outputs the received cancellation information to the false positive determination unit 121.
  • the false detection determination unit 121 determines that the dialogue sign detected by the dialogue sign detection unit 12 is a false detection.
  • the false positive determination unit 121 may determine whether or not the predictive detection detected by the dialogue sign detection unit 12 is a false positive by a method other than the above example. .. Further, the false detection determination unit 121 may determine whether or not the sign detection detected by the dialogue sign detection unit 12 is a false detection by combining the methods of the above-mentioned examples.
  • the false detection determination unit 121 determines that the dialogue sign detected by the dialogue sign detection unit 12 is a false detection
  • the information indicating that the dialogue sign is a false detection hereinafter referred to as "false detection notification information" is voiced. Output to the recognition unit 15.
  • the voice deletion unit 151 of the voice recognition unit 15 receives voice when the false detection determination unit 121 determines that the dialogue sign is a false detection, in other words, when the false detection notification information is output from the false positive determination unit 121.
  • Department 14 deletes the information about the received voice.
  • the information related to the voice received by the voice reception unit 14 is the voice received by the voice reception unit 14 and the voice recognition result in which the voice recognition process is performed on the voice by the voice recognition unit 15.
  • the voice and the voice recognition result are stored in the storage unit 16.
  • the voice deletion unit 151 outputs information to the effect that the voice and voice recognition result have been deleted to the output content determination unit 13.
  • the output content determination unit 13 outputs the information to the output device 4.
  • the output device 4 outputs information indicating that the voice has been deleted.
  • step ST204 determines whether or not the dialogue sign is false detection
  • step ST205 the operation of the voice deletion unit 151 to delete the information related to the received voice
  • FIG. 5 is a diagram for explaining an image of an example of an operation flow for determining that a dialogue sign has been erroneously detected in the dialogue sign detection device 1 having a function of determining a erroneous detection of a dialogue sign.
  • the output device 4 is a display device
  • the dialogue sign detection device 1 causes the display device to output device status information.
  • the display device shall display the device status information in characters.
  • the dialogue sign detection unit 12 detects that there is a dialogue sign when the line-of-sight direction of the occupant is the direction of the display device based on the behavior information acquired by the information acquisition unit 11. It is supposed to be.
  • the dialogue sign detection unit 12 When the occupant is not looking at the display device as shown on the left side of FIG. 5, in other words, when the line-of-sight direction of the occupant is not the direction of the display device, the dialogue sign detection unit 12 has a dialogue by the occupant. It is detected that there is no sign (see the case of "NO" in step ST203 in FIG. 2). In this case, the dialogue sign detection unit 12 outputs the sign detection result information indicating that the occupant has detected that there is no dialogue sign to the output content determination unit 13. The output content determination unit 13 determines that the device is in the “dialogue standby state” and outputs device status information indicating the “dialogue standby state” to the display device (see step ST201 in FIG. 2). Then, the display device displays the characters "dialogue standby state".
  • the dialogue sign detection unit 12 detects that there is a dialogue sign by the occupant (see the case of “YES” in step ST203 in FIG. 2).
  • the dialogue sign detection unit 12 outputs the sign detection result information indicating that the occupant has detected that there is a dialogue sign to the output content determination unit 13.
  • the output content determination unit 13 determines that it is in the “dialogue acceptance state” and outputs device status information indicating that it is in the “dialogue acceptance state” to the display device (see step ST204 in FIG. 2).
  • the display device displays the characters "dialogue acceptance status".
  • the false detection determination unit 121 determines that the dialogue sign detected by the dialogue sign detection unit 12 is a false detection.
  • the voice deletion unit 151 deletes the information related to the voice received by the voice reception unit 14, and outputs the information to the effect that the voice and the voice recognition result have been deleted to the output content determination unit 13.
  • the output content determination unit 13 outputs information to the effect that the voice recognition result has been deleted to the display device.
  • the display device displays information indicating that the voice and the voice recognition result have been deleted.
  • the display device is designed to display the characters "voice deletion".
  • the dialogue sign detection device 1 can be configured to have a function of determining whether or not the detected dialogue sign is a false detection. As a result, the dialogue sign detection device 1 can prevent the occupant from outputting an unnecessary response. Further, when the dialogue sign detection device 1 determines that the detected dialogue sign is a false detection, the dialogue sign detection device 1 can delete the information regarding the received voice. As a result, the dialogue sign detection device 1 can prevent the user from storing unnecessary information that is not intended by the user. As a result, the privacy of the user can be protected.
  • the dialogue sign detection device 1 is based on the information acquisition unit 11 that acquires the behavior information regarding the behavior of the person (user) and the behavior information acquired by the information acquisition unit 11.
  • the dialogue sign detection unit 12 that detects whether or not there is a dialogue sign by a person and the dialogue sign detection unit 12 detects that there is a dialogue sign by a person, information indicating that the dialogue is accepted is displayed.
  • It is configured to include an output content determination unit 13 for output. Therefore, the dialogue sign detection device 1 can provide a person with information capable of grasping at what point in time the reception of voice is started. As a result, it is possible to provide the dialogue sign detection device 1 that is easy for humans to use.
  • the dialogue sign detection device 1 can eliminate anxiety that a person may be eavesdropped by the dialogue sign detection device 1 without knowing it.
  • Embodiment 2 In the first embodiment, it is assumed that the dialogue sign detection device 1 has only one user to detect whether or not there is a dialogue sign. In the second embodiment, an embodiment assuming that the dialogue sign detection device 1 has a plurality of users to be detected for whether or not there is a dialogue sign will be described.
  • FIG. 6 is a diagram showing a configuration example of the dialogue sign detection device 1a according to the second embodiment.
  • the dialogue sign detection device 1a according to the second embodiment is different from the dialogue sign detection device 1 according to the first embodiment in that the information acquisition unit 11a includes a plurality of target detection units 111.
  • the dialogue sign detection device 1a according to the second embodiment is different from the dialogue sign detection device 1 according to the first embodiment in that the output content determination unit 13a includes the priority determination unit 132.
  • the specific operation of the dialogue sign detection unit 12a is the specific operation of the dialogue sign detection unit 12 of the dialogue sign detection device 1 according to the first embodiment. Is different.
  • the dialogue sign detection device 1a is assumed to be mounted on a vehicle.
  • the user of the dialogue sign detection device 1a is a plurality of occupants including the driver of the vehicle and the passenger.
  • the sensor 2 acquires user information regarding a plurality of occupants in the vehicle.
  • the sensor 2 is a visible light camera
  • the visible light camera captures a plurality of occupants in the vehicle.
  • one sensor 2 may be mounted on the vehicle and one sensor 2 may acquire user information regarding all the plurality of occupants in the vehicle, or the vehicle may be equipped with the plurality of sensors 2 and the plurality of sensors. 2 may be used to acquire user information regarding a plurality of occupants.
  • a sensor 2 may be installed in each seat, and user information regarding an occupant seated in the seat according to the installation position may be acquired.
  • each of the plurality of sensors 2 outputs the acquired user information to the dialogue sign detection device 1a in association with the information that can identify the sensor 2.
  • the information acquisition unit 11a acquires the user information output from the sensor 2.
  • the information acquisition unit 11a stores the acquired user information in the storage unit 16 in association with the information regarding the acquisition date and time of the user information.
  • the plurality of target detection units 111 of the information acquisition unit 11a detect a plurality of occupants at different locations based on the user information acquired from the sensor 2. Specifically, the plurality of target detection units 111 detect the positions of a plurality of occupants and the plurality of occupants.
  • the plurality of target detection units 111 may detect the positions of a plurality of occupants and the plurality of occupants by using a known technique.
  • the plurality of target detection units 111 perform image recognition processing using known image recognition technology, and perform image recognition processing to a plurality of occupants and the plurality of occupants. Detects the position of.
  • the plurality of target detection units 111 output information regarding the detected plurality of occupants and the positions of the plurality of occupants to the information acquisition unit 11a.
  • the information acquisition unit 11a detects the behavior of the occupants for each of the plurality of occupants detected by the plurality of target detection units 111 based on the user information. Since the specific method for detecting the behavior of the occupant has already been described in the first embodiment, duplicate description will be omitted.
  • the information acquisition unit 11a outputs the detected behavior information of each occupant to the dialogue sign detection unit 12a in association with the information that can identify the occupant and the information regarding the position of the occupant.
  • the dialogue sign detection unit 12a detects whether or not there is a dialogue sign by the occupants for each of the plurality of occupants detected by the plurality of target detection units 111 based on the behavior information acquired by the information acquisition unit 11a.
  • the specific method for detecting whether or not the dialogue sign detection unit 12a has a dialogue sign by the occupant is described in the first embodiment, and the dialogue sign detection unit 12 detects whether or not there is a dialogue sign by the occupant. Since it is the same as the specific method of performing, duplicate explanations will be omitted.
  • the dialogue sign detection unit 12a outputs the sign detection result information to the output content determination unit 13a.
  • the dialogue sign detection unit 12a detects that there is a dialogue sign by any of the occupants among the plurality of occupants
  • the dialogue sign detection unit 12a outputs the sign detection result information indicating that there is a dialogue sign
  • the output content determination unit 13a Output to.
  • the dialogue sign detection unit 12a detects that none of the occupants has a dialogue sign among the plurality of occupants
  • the dialogue sign detection unit 12a outputs the sign detection result information indicating that there is no dialogue sign to the output content determination unit 13a. do.
  • the sign detection result information output by the dialogue sign detection unit 12a information that can identify the occupant, information on the position of the occupant, and the detection result of whether or not there is a dialogue sign by the occupant correspond to each of the plurality of occupants. Attached.
  • the output content determination unit 13a determines the state of the dialogue sign detection device 1a based on the sign detection result information output from the dialogue sign detection unit 12a or the voice recognition result output from the voice recognition unit 15. Specifically, when the output content determination unit 13a outputs the sign detection result information indicating that there is no dialogue sign by the occupant from the dialogue sign detection unit 12a, the output content determination unit 13a is based on the dialogue detection result information. , The dialogue sign detection device 1a determines that it is in the "dialogue standby state". When the output content determination unit 13a outputs the sign detection result information indicating that there is a dialogue sign by any of a plurality of occupants from the dialogue sign detection unit 12a, the dialogue sign detection unit 13a is based on the sign detection result information.
  • the detection device 1a determines that it is in the "dialogue acceptance state". Also in the second embodiment, as in the dialogue sign detection device 1 according to the first embodiment, the dialogue sign detection device 1a sets either the “dialogue standby state” or the “dialogue acceptance state” as the state of the own device. Judgment shall be made, and the device status information indicating the "dialogue standby state” or the device status information indicating the "dialogue acceptance status” shall be output.
  • the priority determination unit 132 of the output content determination unit 13a determines that the "dialogue acceptance state" is present and there are a plurality of occupants detected to have a dialogue sign, the priority is given to the plurality of occupants. To judge.
  • the priority determination unit 132 determines, for example, that the driver has a high priority. Further, the priority determination unit 132 may determine, for example, that the occupant who is presumed to have a higher degree of dialogue request has a higher priority.
  • the priority determination unit 132 may estimate whether or not the degree of dialogue request is high based on the behavior information output from the information acquisition unit 11a. For example, the priority determination unit 132 estimates that the closer the occupant is to the output device 4, the higher the degree of dialogue request.
  • the output content determination unit 13a determines the state of the dialogue sign detection device 1a
  • the output content determination unit 13a outputs device status information indicating the state of the dialogue sign detection device 1a to the output device 4.
  • the output content determination unit 13a determines that the dialogue sign detection device 1a is in the "dialogue acceptance state”
  • the output content determination unit 13a outputs device status information indicating that the dialogue is in the "dialogue acceptance state” to the output device 4 and receives voice. Output to unit 14.
  • the dialogue sign detection unit 12a When the output content determination unit 13a determines that it is in the "dialogue acceptance state", among the plurality of occupants, the dialogue sign detection unit 12a provides information on the occupant who has detected that there is a dialogue sign, and the priority determination unit 132 The information regarding the determined priority is associated with the device status information and output to the output device 4.
  • the information about the occupant who has detected that there is a sign of dialogue includes information that can identify the occupant and information about the position of the occupant.
  • the dialogue sign detection device 1a is not essential that the dialogue sign detection device 1a is provided with the priority determination unit 132.
  • the dialogue sign detection device 1a when the voice recognition unit 15 cannot execute the voice recognition process of the dialogue voice by a plurality of occupants at the same time, the dialogue sign detection device 1a is provided with the priority determination unit 132.
  • FIG. 7 is a flowchart for explaining the operation of the dialogue sign detection device 1a according to the second embodiment.
  • the dialogue sign detection device 1a performs the operation described in the flowchart of FIG. 7 while the power is turned on.
  • the output content determination unit 13a of the dialogue sign detection device 1a outputs device status information indicating that the dialogue is in the “dialogue standby state” to the output device 4 (step ST701). For example, when the power is turned on, in this step ST701, the control unit (not shown) of the dialogue sign detection device 1a outputs information to the output device 4 to the effect that it is in the “dialogue standby state” to the output content determination unit 13a. Let me.
  • the information acquisition unit 11a acquires the user information output from the sensor 2 (step ST702).
  • the information acquisition unit 11a stores the acquired user information in the storage unit 16 in association with the information regarding the acquisition date and time of the user information.
  • the plurality of target detection units 111 of the information acquisition unit 11a detect a plurality of occupants at different locations based on the user information acquired from the sensor 2 in step ST702 (step ST703).
  • the plurality of target detection units 111 output information regarding the detected plurality of occupants and the positions of the plurality of occupants to the information acquisition unit 11a.
  • the information acquisition unit 11a detects the behavior of the occupants based on the user information for each of the plurality of occupants detected by the plurality of target detection units 111.
  • the information acquisition unit 11a outputs the detected behavior information of each occupant to the dialogue sign detection unit 12a in association with the information that can identify the occupant and the information regarding the position of the occupant.
  • the dialogue sign detection unit 12a detects whether or not there is a dialogue sign by the occupants for each of the plurality of occupants detected by the plurality of target detection units 111 based on the behavior information acquired by the information acquisition unit 11a (step ST704).
  • the dialogue sign detection unit 12a indicates that there is no dialogue sign detection result information. Is output to the output content determination unit 13a. Then, the operation of the dialogue sign detection device 1a returns to step ST701. That is, the output device 4 continues to output device status information indicating that it is in the “dialogue standby state”.
  • step ST704 When it is detected in step ST704 that one of the plurality of occupants has a dialogue sign by the occupant (when “YES” in step ST704), the dialogue sign detection unit 12a has a sign detection result indicating that there is a dialogue sign. The information is output to the output content determination unit 13a. Then, the operation of the dialogue sign detection device 1a proceeds to step ST705.
  • the output content determination unit 13a determines that the dialogue sign detection device 1a is in the “dialogue acceptance state” based on the sign detection result information output from the dialogue sign detection unit 12a in step ST704 (step ST705). At this time, when there are a plurality of occupants who are detected to have a dialogue sign, the priority determination unit 132 of the output content determination unit 13a determines the priority for the plurality of occupants.
  • the output content determination unit 13a outputs device status information indicating that it is in the “dialogue acceptance state” to the output device 4, and also outputs information indicating that it is in the “dialogue acceptance state” to the voice reception unit 14. Output.
  • the output content determination unit 13a associates the information regarding the occupant who has detected that the dialogue sign detection unit 12a has a dialogue sign with the information regarding the priority determined by the priority determination unit 132 among the plurality of occupants. It is output to the output device 4 together with the device status information.
  • the output content determination unit 13a causes the output device 4 to display device status information so as to indicate the priority of the occupant who is detected to have a dialogue sign and the occupant who is detected to have a dialogue sign. , Information about the occupants who detected that there is a sign of dialogue, and information about the priority are output.
  • steps ST706 to ST708 are the same as the specific operations of steps ST205 to ST207 of FIG. 2 described in the first embodiment, duplicate explanations will be omitted.
  • FIG. 8 shows, when the dialogue sign detection device 1a according to the second embodiment detects that there is a dialogue sign of a plurality of occupants, the priority of the plurality of occupants detected as having a dialogue sign is determined. , It is a figure for demonstrating an image of an example of the flow until the information indicating that "dialogue is being accepted" is output. As shown in FIG. 8, it is assumed that there are four occupants A to D in the vehicle. Crew A is a driver.
  • the output device 4 is a display device, and the dialogue sign detection device 1a outputs device status information to the display device.
  • the display device is supposed to display the device status information by characters and icons.
  • the dialogue sign detection unit 12a may move the occupant's mouth when the line-of-sight direction of the occupant is the direction of the display device based on the behavior information acquired by the information acquisition unit 11a. If there is, it is supposed to detect that there is a sign of dialogue.
  • the dialogue sign detection unit 12a detects that there is a dialogue sign by the occupant A and a dialogue sign by the occupant C (in the case of “YES” in step ST704).
  • the dialogue sign detection unit 12a outputs the dialogue sign by the occupant A and the sign detection result information indicating that the occupant C has detected that there is a dialogue sign to the output content determination unit 13a.
  • the output content determination unit 13a determines that it is in the "dialogue acceptance state", and outputs device status information indicating that it is in the "dialogue acceptance state” to the display device.
  • the priority determination unit 132 determines the priority of the occupant A and the occupant C, and outputs the information regarding the determined priority to the display device together with the device status information (see step ST705).
  • the priority determination unit 132 determines that the occupant A, who is the driver, has a higher priority than the occupant C, who is the passenger.
  • the output content determination unit 13a causes the display device to display that it is in the “dialogue acceptance state”. Further, the output content determination unit 13a causes the display device to display the occupant who is detected to have a sign of dialogue and the priority for the occupant. In FIG. 8, the display device indicates that it is in the “dialogue acceptance state” by displaying the characters “dialogue acceptance!”. Further, the display device displays the icons indicating the occupants A and C in different colors from those of the other occupants B and D so that the occupants A and C who have been detected to have a sign of dialogue can be identified. I have to. Further, the display device displays the icon indicating the occupant A having a high priority darker than the icon indicating the occupant C having a low priority. Further, the display device also displays the display position of the character "Dialogue reception! Corresponding to the occupant A having a high priority to indicate that the occupant A has a high priority.
  • the dialogue sign detection device 1a includes the priority determination unit 132.
  • the output content determination unit 13a determines that it is in the "dialogue acceptance state”
  • FIG. 9 detects that there is a dialogue sign of a plurality of occupants when the dialogue sign detection device 1a according to the second embodiment is configured not to include the priority determination unit 132, and "dialogue is being accepted. It is a figure for demonstrating the image of an example of the flow until the information which shows that is output is output. In FIG. 9, as in FIG.
  • the output device 4 is a display device
  • the dialogue sign detection device 1a causes the display device to output device status information.
  • the display device shall display the device status information by characters and icons.
  • the dialogue sign detection unit 12a detects that there is a dialogue sign when the line-of-sight direction of the occupant is the direction of the display device based on the behavior information acquired by the information acquisition unit 11a. There is.
  • the line-of-sight directions of the occupant B and the occupant C are the directions of the display device. Detects that there is a sign of dialogue by C.
  • the dialogue sign detection unit 12a outputs the dialogue sign by the occupant B and the sign detection result information indicating that the occupant C has detected that there is a dialogue sign to the output content determination unit 13a.
  • the output content determination unit 13a determines that it is in the "dialogue acceptance state", and outputs device status information indicating that it is in the "dialogue acceptance state” to the display device. At this time, the output content determination unit 13a outputs information to the effect that the dialogue sign has been detected for the occupant B and the occupant C to the display device together with the device status information.
  • the output content determination unit 13a causes the display device to display that it is in the “dialogue acceptance state”. In addition, the output content determination unit 13a causes the display device to display so that the occupant who has detected that there is a sign of dialogue can be identified. In FIG. 9, the display device indicates that it is in the “dialogue acceptance state” by displaying the characters “dialogue acceptance”. In addition, the display device displays the icons indicating the occupants B and C in different colors from those of the other occupants A and D so that the occupants B and C who have been detected to have a sign of dialogue can be identified. I have to.
  • the display device also displays the display position of the character "Dialogue reception! Corresponding to the occupant B and the occupant C who are detected to have the dialogue sign, so that the occupant B and the occupant C can indicate the dialogue sign. It is designed to indicate that the occupant is detected as having.
  • the dialogue sign detection device 1a can detect the dialogue sign by a plurality of occupants. Then, when it is detected that there is a dialogue sign by a plurality of occupants, information indicating that the dialogue is being accepted is output to the output device 4. This allows the occupant to know when the voice reception has started. Further, when there are a plurality of occupants who have detected that there is a dialogue sign, the dialogue sign detection device 1a outputs information so that the plurality of occupants can be identified. As a result, when there are a plurality of occupants, the occupant can grasp which occupant's dialogue is accepted.
  • the dialogue sign detection device 1a determines the priority of the plurality of occupants and outputs information so that the priority can be understood.
  • the occupant can grasp which occupant is determined to have the highest priority for the dialogue. ..
  • the dialogue sign detection device 1a may have a function of determining whether or not the detected dialogue sign detection device is a false detection, as in the dialogue sign detection device 1 according to the first embodiment. Yes (see Figure 4).
  • the dialogue sign detection device 1a includes a plurality of target detection units 111 that detect a plurality of people (users) in different places, and the dialogue sign detection unit 12a includes a plurality of targets. It is configured to detect a dialogue sign by a plurality of people detected by the detection unit 111. Therefore, when there are a plurality of people, the dialogue sign detection device 1a can provide the plurality of people with information capable of grasping at what time the voice reception is started.
  • the dialogue sign detection unit 12a detects the dialogue sign. For the detected person, the information about the person is output together with the information indicating that the dialogue is being accepted. Therefore, when there are a plurality of people, the dialogue sign detection device 1a provides information to the plurality of people so that it is possible to grasp which person's dialogue is accepted. Can be done.
  • the dialogue sign detection device 1a in the dialogue sign detection device 1a, the plurality of target detection units 111 have detected a plurality of people (users), and the dialogue sign detection unit 12a has detected a dialogue sign by a plurality of people.
  • the dialogue sign detection unit 12a is provided with a priority determination unit 132 for determining the priority of a plurality of people who have detected the dialogue sign. Therefore, when there are a plurality of occupants who have detected that there is a dialogue sign, the dialogue sign detection device 1a can determine the priority of the plurality of occupants and output information so that the priority can be known.
  • Embodiment 3 In the third embodiment, an embodiment having a function of determining an output method of device state information will be described.
  • FIG. 10 is a diagram showing a configuration example of the dialogue sign detection device 1b according to the third embodiment.
  • the dialogue sign detection device 1b according to the third embodiment is different from the dialogue sign detection device 1 according to the first embodiment in that it includes a peripheral state information acquisition unit 17 and an output method determination unit 18.
  • the specific operation of the output content determination unit 13b is the specific operation of the output content determination unit 13 of the dialogue sign detection device 1 described in the first embodiment. It is different from the normal operation.
  • the dialogue sign detection device 1b is mounted on the vehicle.
  • the user of the dialogue sign detection device 1b is a vehicle occupant such as a vehicle driver or a passenger.
  • the peripheral state information acquisition unit 17 acquires information on the state around the occupant (hereinafter referred to as "peripheral state information").
  • the peripheral state information includes, for example, the current position information of the vehicle, the map information around the vehicle, the guide route information of the vehicle, or the vehicle speed information.
  • the peripheral state information includes information on the state of the occupant himself, such as the direction of the occupant's line of sight.
  • the peripheral state information acquisition unit 17 acquires, for example, the current position information of the vehicle or the guidance route information of the vehicle from the car navigation system (not shown).
  • the peripheral state information acquisition unit 17 acquires vehicle speed information from a vehicle speed sensor (not shown) mounted on the vehicle by CAN (Control Area Network) communication, for example.
  • the peripheral state information acquisition unit 17 acquires, for example, the line-of-sight direction of the occupant from the information acquisition unit 11.
  • the peripheral state information acquisition unit 17 outputs the acquired peripheral state information to the output method determination unit 18.
  • the output method determination unit 18 determines the output method of the device state information output by the output content determination unit 13b based on the peripheral state information acquired by the peripheral state information acquisition unit 17. Specifically, the output method determination unit 18 outputs the device status information when the output content determination unit 13b outputs the device status information indicating that the "dialogue acceptance status" is based on the peripheral state information. Judge the method. In the third embodiment, when the output content determination unit 13b determines that the dialogue sign detection device 1b is in the "dialogue acceptance state", the output method determination first determines the device status information indicating that the dialogue acceptance state is in the "dialogue acceptance state". Output to unit 18.
  • the output method determination unit 18 determines the output method of the device status information based on the peripheral state information.
  • the output method determination unit 18 determines the output method of the device status information
  • the output method determination unit 18 notifies the output content determination unit 13b of the determined output method.
  • the output content determination unit 13b outputs device status information according to the method notified from the output method determination unit 18.
  • the output method determined by the output method determination unit 18 is from which output device 4 the device status information is output.
  • the form in which the device status information is output may be predetermined or may be appropriately determined by the output content determination unit 13b. ..
  • the output content determination unit 13b determines whether the device status information is displayed as an icon or characters on the display device. You can make an appropriate decision.
  • the output device 4 is a display device and a speaker
  • the output content determination unit 13b can display the device status information on the display device or output the device status information from the speaker. do.
  • the output method determination unit 18 outputs the device status information indicating that the output content determination unit 13b is in the “dialogue acceptance state”, if the line-of-sight direction of the occupant is the direction of the display device, the occupant Since it is presumed that there is room to watch the display device, it is determined that the device status information is only displayed on the display device.
  • the line-of-sight direction of the occupant is not the direction of the output device 4, it is estimated that the occupant cannot afford to gaze at the display device. In addition to the display on, it is judged that the audio is output from the speaker.
  • the output method determination unit 18 determines that the line-of-sight direction of the occupant is the direction of the display device.
  • the line-of-sight direction of the occupant is the display device depending on whether or not the line-of-sight direction of the occupant is the direction of the display device. You just have to judge whether it is the direction or not.
  • the output method determination unit 18 determines, for example, whether or not the state in which the line-of-sight direction of the occupant is the direction of the display device continues for a certain period of time after the device status information is output from the output content determination unit 13b. It may be determined whether or not the line-of-sight direction of is the direction of the display device.
  • the output method determination unit 18 when the output method determination unit 18 outputs the device status information indicating that the output content determination unit 13b is in the “dialogue acceptance state”, the occupant watches the display device when the vehicle is stopped. Since it is presumed that there is a margin, it is determined that the device status information is only displayed on the display device.
  • the output method determination unit 18 determines that the vehicle is stopped, for example, when the vehicle speed is zero, based on the peripheral state information. Further, for example, when the output method determination unit 18 outputs the device status information indicating that the output content determination unit 13b is in the “dialogue acceptance state”, the occupant displays the display device when the vehicle is about to turn at the intersection.
  • the output method determination unit 18 determines that the vehicle is about to turn at the intersection, for example, based on the current position information of the vehicle and the map information included in the peripheral state information. Further, for example, when the output method determination unit 18 outputs the device status information indicating that the output content determination unit 13b is in the “dialogue acceptance state”, if the vehicle is not on the guide path, the occupant watches the display device. Since it is presumed that there is no room for the device status information, it is determined that the device status information is output from the speaker in addition to the display on the display device. The output method determination unit 18 determines whether or not the vehicle is on the guidance route, for example, based on the current position information of the vehicle and the guidance route information included in the peripheral state information.
  • the output method determination unit 18 has given an example in which the output method of the device status information is determined to be either display only or display and audio output, but these are only examples.
  • the output method determination unit 18 may determine that the device status information output method is only audio output.
  • the output method determination unit 18 can change the output method of the device state information as appropriate by combining various peripheral state information.
  • FIG. 11 is a flowchart for explaining the operation of the dialogue sign detection device 1b according to the third embodiment.
  • the dialogue sign detection device 1b performs the operation described in the flowchart of FIG. 11 while the power is turned on.
  • the specific operations of steps ST1101 to ST1103 and steps ST1106 to ST1108 of FIG. 11 are the specific operations of steps ST201 to ST203 and steps ST205 to ST207 of FIG. 2 described in the first embodiment. Since they are the same, duplicate explanations will be omitted.
  • step ST1103 When it is detected in step ST1103 that there is a dialogue sign by the occupant (when “YES” in step ST1103), the dialogue sign detection unit 12 outputs the sign detection result information indicating that there is a dialogue sign to the output content determination unit 13b. do. Then, the operation of the dialogue sign detection device 1 proceeds to step ST1104.
  • the output content determination unit 13b determines that the dialogue sign detection device 1 is in the “dialogue acceptance state” based on the sign detection result information output from the dialogue sign detection unit 12 in step ST1103.
  • the output content determination unit 13b outputs device status information indicating that the dialogue sign detection device 1b is in the “dialogue acceptance state” to the output method determination unit 18.
  • the output method determination unit 18 determines the output method of the device status information based on the peripheral state information (step ST1104).
  • the peripheral state information acquisition unit 17 has acquired the peripheral state information by the time the operation of step ST1104 is performed.
  • the output method determination unit 18 determines the output method of the device status information, the output method determination unit 18 notifies the output content determination unit 13b of the determined output method.
  • the output content determination unit 13b outputs device status information indicating that it is in the “dialogue acceptance state” to the output device 4 according to the method notified from the output method determination unit 18 in step ST1104 (step ST1105).
  • FIG. 12 shows from the output device 4 when the dialogue sign detection device 1b according to the third embodiment detects that there is a dialogue sign of the occupant and outputs device status information indicating that the vehicle is in the “dialogue standby state”. It is a figure for demonstrating the image of an example of the output information.
  • FIG. 12A shows an image of an example of information output from the output device 4 when the line-of-sight direction of the occupant is the direction of the display device when the device state information indicating the “dialogue standby state” is output.
  • 12B shows an image of an example of information output from the output device 4 when the device status information indicating that the device is in the “dialogue standby state” is output and the line-of-sight direction of the occupant is not the direction of the display device. Shows.
  • the occupant whose dialogue sign detection device 1b detects the dialogue sign is a passenger in the passenger seat.
  • the output device 4 is assumed to be a display device and a speaker, and the speaker is mounted on the display device.
  • the output method determination unit 18 only displays the device status information on the display device when the line-of-sight direction of the occupant is the direction of the display device, and the line-of-sight direction of the occupant is not the direction of the display device. In this case, it is determined that the audio is output from the speaker in addition to the display on the display device.
  • the output content determination unit 13b displays the device status information in characters when displaying the device status information on the display device, and outputs a voice message when the device status information is output from the speaker.
  • the output method determination unit 18 determines that the device status information is output only by the display.
  • the output content determination unit 13b only displays the characters "dialogue acceptance status" on the display device.
  • the output method determination unit 18 determines that the device status information is output by display and voice output.
  • the output content determination unit 13b causes the display device to display the characters "dialogue acceptance state" and causes the speaker to output a voice message notifying that the dialogue acceptance status is present.
  • the dialogue sign detection device 1b outputs the device status information after determining the output method when outputting the device status information indicating the "dialogue acceptance state".
  • the dialogue sign detection device 1b can notify the occupant of the "dialogue acceptance state" without imposing a burden on the occupants.
  • the dialogue sign detection device 1b may have a function of determining whether or not the detected dialogue sign detection device is a false detection, as in the dialogue sign detection device 1 according to the first embodiment. Yes (see Figure 4).
  • the configuration of the dialogue sign detection device 1b according to the third embodiment described above may be applied to the dialogue sign detection device 1a described in the second embodiment.
  • the peripheral state information acquisition unit 17 acquires information on the detected plurality of occupants and the positions of the plurality of occupants from the plurality of target detection units 111 as peripheral state information
  • the output method determination unit 18 May determine how to output device status information based on the position of the occupant. Specifically, for example, when the occupant in which the dialogue sign is detected is the driver, the output method determination unit 18 displays the device status information even if the line-of-sight direction of the driver is the direction of the display device. In addition, it is judged to be output by voice.
  • the output method determination unit 18 outputs the device status information when the output content determination unit 13b outputs the device status information indicating that the device status information is in the “dialogue acceptance state”. I decided to make a judgment, but this is just an example.
  • the output method determination unit 18 not only outputs the device status information indicating that it is in the “dialogue acceptance state”, but also outputs the device status information indicating that the output content determination unit 13b is in the “dialogue standby state”. , The method of outputting the device status information may be determined. Further, the output method determination unit 18 not only outputs the device status information indicating that the dialogue is accepted, but also outputs the response content information when the response content generation unit 131 of the output content determination unit 13b outputs the response content information. The output method of the response content information may be determined.
  • the peripheral state information acquisition unit 17 for acquiring the peripheral state information regarding the peripheral state of the person (user) and the peripheral state information acquisition unit 17 are used. Based on the acquired peripheral state information, the output method determination unit 18 for determining the output method of the information indicating that the dialogue reception state is output, which is output by the output content determination unit 13b, is provided. Therefore, the dialogue sign detection device 1b can notify the person that the dialogue reception state has been reached without imposing a burden on the person.
  • FIGS 13A and 13B are diagrams showing an example of the hardware configuration of the dialogue sign detection devices 1, 1a and 1b according to the first to third embodiments.
  • the dialogue sign detection device 1 according to the first embodiment, the dialogue sign detection device 1a according to the second embodiment, and the dialogue sign detection device 1b according to the third embodiment have the same hardware configuration.
  • the information acquisition units 11, 11a, the dialogue sign detection units 12, 12a, the output content determination units 13, 13a, 13b, the voice reception unit 14, and the voice recognition unit 15 The functions of the peripheral state information acquisition unit 17 and the output method determination unit 18 are realized by the processing circuit 1301.
  • the dialogue sign detection devices 1, 1a, 1b detect whether or not there is a dialogue sign by a person, and when it detects that there is a dialogue sign by a person, the person is in the "dialogue acceptance state".
  • a processing circuit 1301 for controlling to output information for notifying is provided.
  • the processing circuit 1301 may be dedicated hardware as shown in FIG. 13A, or may be a CPU (Central Processing Unit) 1305 that executes a program stored in the memory 1306 as shown in FIG. 13B.
  • CPU Central Processing Unit
  • the processing circuit 1301 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). Gate Array) or a combination of these is applicable.
  • the processing circuit 1301 is the CPU 1305, the information acquisition unit 11, 11a, the dialogue sign detection unit 12, 12a, the output content determination unit 13, 13a, 13b, the voice reception unit 14, the voice recognition unit 15, and the peripheral state
  • the functions of the information acquisition unit 17 and the output method determination unit 18 are realized by software, firmware, or a combination of software and firmware. That is, the information acquisition units 11, 11a, the dialogue sign detection units 12, 12a, the output content determination units 13, 13a, 13b, the voice reception unit 14, the voice recognition unit 15, the peripheral state information acquisition unit 17, and the peripheral state information acquisition unit 17.
  • the output method determination unit 18 is realized by a processing circuit such as a CPU 1305 that executes a program stored in a memory 1306 or the like, or a system LSI (Large-Scale Integration) or the like.
  • the programs stored in the memory 1306 or the like include the information acquisition units 11, 11a, the dialogue sign detection units 12, 12a, the output content determination units 13, 13a, 13b, the voice reception unit 14, and the voice recognition unit 15. It can also be said that the computer is made to execute the procedures and methods of the peripheral state information acquisition unit 17 and the output method determination unit 18.
  • the memory 1306 is, for example, a RAM, a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable ReadOnly Memory), an EEPROM (Electrically Erasable Molecular) volatile Read-O, etc.
  • a semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, a DVD (Digital Versaille Disc), or the like is applicable.
  • the storage unit 16 uses the memory 1306. Note that this is only an example, and the storage unit 16 may be configured by an HDD 1302, an SSD (Solid State Drive), a DVD, or the like.
  • Some of the functions of the output method determination unit 18 may be realized by dedicated hardware, and some may be realized by software or firmware.
  • the information acquisition units 11 and 11a, the voice reception unit 14, and the peripheral state information acquisition unit 17 are realized by the processing circuit 1301 as dedicated hardware, and are output to the dialogue sign detection units 12 and 12a.
  • the functions of the content determination unit 13, 13a, 13b, the voice recognition unit 15, and the output method determination unit 18 can be realized by the processing circuit 1301 reading and executing the program stored in the memory 1306. be.
  • the dialogue sign detection devices 1, 1a, 1b include an input interface device 1303 and an output interface device 1304 that communicate with the sensor 2, the microphone 3, the output device 4, the navigation system, and the like.
  • the dialogue sign detection devices 1, 1a and 1b are in-vehicle devices mounted on the vehicle, and the information acquisition units 11 and 11a, the dialogue sign detection units 12 and 12a, and the output content determination.
  • the units 13, 13a, 13b, the voice reception unit 14, the voice recognition unit 15, the peripheral state information acquisition unit 17, and the output method determination unit 18 are provided in the dialogue sign detection devices 1, 1a, 1b. I made it. Not limited to this, the information acquisition unit 11, 11a, the dialogue sign detection unit 12, 12a, the output content determination unit 13, 13a, 13b, the voice reception unit 14, the voice recognition unit 15, and the peripheral state information acquisition unit.
  • the dialogue sign detection system may be configured with. Further, an application for a dialogue sign detection system, etc., in which the dialogue sign detection devices 1, 1a, 1b according to the above embodiments 1 to 3 are installed on a smartphone, a tablet PC, a mobile information terminal such as a mobile phone, or the like. May be applied to.
  • the user of the dialogue sign detection devices 1, 1a, 1b is the occupant of the vehicle, and the functions of the dialogue sign detection devices 1, 1a, 1b are used in the vehicle.
  • the users of the dialogue sign detection devices 1, 1a, 1b may be residents of a residence, and the dialogue sign detection devices 1, 1a, 1b may be used in a living room.
  • the dialogue sign detection devices 1, 1a, 1b detect whether or not there is a dialogue sign by the resident or the like existing in the living room, and when the dialogue sign is detected, the resident or the like is in a "dialogue standby state". The information indicating that it is "is output.
  • the dialogue sign detection devices 1, 1a and 1b are provided with the voice recognition unit 15, but the dialogue sign detection devices 1, 1a and 1b include the voice recognition unit 15. It may be configured not to be provided. That is, the dialogue sign detection devices 1, 1a, 1b may not have a voice recognition function. In this case, the dialogue sign detection devices 1, 1a, 1b do not perform the voice recognition process after detecting that there is a dialogue sign by the user.
  • the dialogue sign detection devices 1, 1a, 1b are devices that interact with the user via a machine, such as a dialogue with a rear occupant in the inker communication function or a dialogue with a call center operator in the operator service function. Can be applied to.
  • the dialogue sign detection devices 1, 1a and 1b may be configured not to include the voice reception unit 14 and the voice recognition unit 15.
  • the output content determination units 13, 13a and 13b are in the "dialogue acceptance state".
  • the device status information indicating that the above is output to the output device 4.
  • the dialogue sign detection devices 1, 1a, 1b notify the user that the voice is being transmitted to the predetermined dialogue target for the user.
  • the dialogue sign detection devices 1, 1a, 1b output the voice acquired by the microphone 3 received by the voice reception unit 14 to a predetermined dialogue target.
  • the dialogue sign detection devices 1, 1a, 1b may output the voice acquired by the microphone 3 as it is, or may output it after signal processing.
  • the signal processing is, for example, noise or removal of voice other than voice by a user's dialogue when it is detected that there is a dialogue sign.
  • the dialogue sign detection devices 1, 1a, 1b estimate the dialogue section of the user from the volume level of the voice due to the dialogue of the user after detecting that there is a dialogue sign, and output only the dialogue portion of the user. May be good.
  • the output content determination units 13, 13a and 13b of the dialogue sign detection devices 1, 1a and 1b can make different presentations. , Device status information can be output. Further, in the dialogue sign detection devices 1, 1a, 1b, when the user to be detected for the dialogue sign cannot be specified among a plurality of users, the output content determination units 13, 13a, 13b detect the dialogue sign. Information to the effect that the target user cannot be specified may be transmitted to the output device 4, and a response may be made to the user to confirm the target user for detecting the dialogue sign.
  • any combination of the embodiments can be freely combined, any component of the embodiment can be modified, or any component can be omitted in each embodiment.
  • the dialogue sign detection device configured to be able to provide a person with information that can grasp when the voice reception is started, the dialogue sign detection that detects the sign of the dialogue by the person is performed. It can be applied to the device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

人の挙動に関する挙動情報を取得する情報取得部(11,11a)と、情報取得部(11,11a)が取得した挙動情報に基づき、人による対話予兆があるか否かを検知する対話予兆検知部(12,12a)と、対話予兆検知部(12,12a)が、人による対話予兆があると検知した場合に、対話受付状態である旨を示す情報を出力する出力内容判断部 (13,13a,13b)とを備えた。

Description

対話予兆検知装置、および、対話予兆検知方法
 本開示は、人による対話の予兆を検知する対話予兆検知装置、および、対話予兆検知方法に関する。
 従来、音声を受け付け可能な状態において、音声または画像等から人による対話の予兆を検知し、当該予兆を検知すると、音声の受付を開始する状態へと遷移する、いわゆる「対話予兆検知型」の技術が知られている(例えば、特許文献1)。
特開2017-138476号公報
 特許文献1に開示されているような技術では、人の対話の予兆を検知すると、当該予兆を検知したことを通知することなく音声の受付を開始する状態へと遷移する。そのため、人は、どの時点で音声の受付が開始されているか把握できないという課題があった。
 本開示は上記のような課題を解決するためになされたもので、人に対して、どの時点で音声の受付が開始されたかが把握可能な情報提供を行う対話予兆検知装置を提供することを目的とする。
 本開示に係る対話予兆検知装置は、人の挙動に関する挙動情報を取得する情報取得部と、情報取得部が取得した挙動情報に基づき、人による対話予兆があるか否かを検知する対話予兆検知部と、対話予兆検知部が、人による対話予兆があると検知した場合に、対話受付状態である旨を示す情報を出力する出力内容判断部とを備えたものである。
 本開示によれば、対話予兆検知装置は、人に対して、どの時点で音声の受付が開始されたかが把握可能な情報を提供することができる。
実施の形態1に係る対話予兆検知装置の構成例を示す図である。 実施の形態1に係る対話予兆検知装置の動作を説明するためのフローチャートである。 実施の形態1に係る対話予兆検知装置において、乗員による対話予兆があると検知し、「対話受付状態」であることを示す情報を出力する流れの一例のイメージを説明するための図である。 実施の形態1において、検知した対話予兆が誤検知であったか否かを判断する機能を有する構成とした対話予兆検知装置の構成例を示す図である。 対話予兆の誤検知を判断する機能を有する対話予兆検知装置において、対話予兆が誤検知されたことを判断する動作の流れの一例のイメージを説明するための図である。 実施の形態2に係る対話予兆検知装置の構成例を示す図である。 実施の形態2に係る対話予兆検知装置の動作を説明するためのフローチャートである。 実施の形態2に係る対話予兆検知装置において、複数の乗員の対話予兆があると検知した場合に、対話予兆があると検知された複数の乗員の優先度を判断した上で、「対話受付中」であることを示す情報を出力するまでの流れの一例のイメージを説明するための図である。 実施の形態2に係る対話予兆検知装置において、優先度判断部を備えない構成とした場合に、複数の乗員の対話予兆があると検知し、「対話受付中」であることを示す情報を出力するまでの流れの一例のイメージを説明するための図である。 実施の形態3に係る対話予兆検知装置の構成例を示す図である 実施の形態3に係る対話予兆検知装置の動作を説明するためのフローチャートである。 実施の形態3に係る対話予兆検知装置において、乗員の対話予兆があると検知し、「対話待機状態」であることを示す装置状態情報を出力した場合に、出力装置から出力される情報の一例のイメージを説明するための図であって、図12Aは、「対話待機状態」であることを示す装置状態情報を出力する際、乗員の視線方向が表示装置の方向である場合に、出力装置から出力される情報の一例のイメージを示し、図12Bは、「対話待機状態」であることを示す装置状態情報を出力する際、乗員の視線方向が表示装置の方向ではない場合に、出力装置から出力される情報の一例のイメージを示している。 図13A,図13Bは、実施の形態1~実施の形態3に係る対話予兆検知装置のハードウェア構成の一例を示す図である。
 以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る対話予兆検知装置1の構成例を示す図である。
 実施の形態1において、対話予兆検知装置1は、車両(図示省略)に搭載されることを想定している。実施の形態1において、対話予兆検知装置1のユーザは、車両の乗員とする。実施の形態1では、ユーザとする車両の乗員は、運転者を想定しているが、これは一例に過ぎず、ユーザとする車両の乗員は、同乗者であってもよい。
 対話予兆検知装置1は、センサ2、マイク3、および、出力装置4と接続される。
 センサ2は、車両内に存在する乗員に関する情報を取得する。センサ2は、取得した乗員に関する情報(以下「ユーザ情報」という。)を、対話予兆検知装置1に出力する。なお、センサ2は、常時、ユーザ情報を取得している。
 センサ2は、車両に搭載されている可視光カメラ、距離画像センサ、超音波センサ、または、赤外線センサ等である。センサ2は、ユーザ情報を取得し、対話予兆検知装置1に出力する。具体的には、例えば、センサ2が可視光カメラである場合、可視光カメラは、乗員を撮像し、撮像画像をユーザ情報として対話予兆検知装置1に出力する。なお、可視光カメラは、少なくとも、乗員の顔を撮像可能な場所に設置されている。また、例えば、センサ2が距離画像センサである場合、距離画像センサは、乗員までの距離情報を取得し、取得した距離情報を、ユーザ情報として対話予兆検知装置1に出力する。なお、距離画像センサは、少なくとも、乗員の顔までの距離情報を取得可能な場所に設置されている。
 マイク3は、例えば、車両に搭載されている。マイク3は、乗員による発話、または、雑音等、車両内の音声を取得する。マイク3は、取得した音声を対話予兆検知装置1に出力する。なお、マイク3は、常時、音声を取得している。
 車両に1つのマイク3が搭載されているものとしてもよいし、車両に複数のマイク3が搭載されているものとしてもよい。車両に複数のマイク3が搭載されている場合、当該複数のマイク3は、それぞれ、対話予兆検知装置1に、取得した音声を、マイク3を特定可能な情報と対応付けて、出力する。
 対話予兆検知装置1は、センサ2から出力されたユーザ情報を取得し、乗員が話かけようとしているか否か、言い換えれば、乗員による対話の予兆(以下「対話予兆」という。)があるか否かを検知する。対話予兆検知装置1は、乗員による対話予兆があるか否かの検知結果に基づき、常時、自装置が乗員による対話に対してどのような状態にあるかを判断し、当該状態を示す情報を出力装置4から出力する。
 ここで、対話予兆検知装置1が判断する対話予兆検知装置1の状態について、具体的に説明する。対話予兆検知装置1は、自装置が「対話待機状態」、「対話受付状態」、または、「対話受付中状態」であるかを判断することができる。「対話待機状態」とは、対話予兆検知装置1が乗員による対話予兆があると検知する前の当該対話予兆検知装置1の状態である。この状態では、対話予兆検知装置1は、音声の受付を行っていない。なお、実施の形態1において、対話予兆検知装置1が行う「音声の受付」とは、乗員に対して、乗員の対話に応じた応答を出力することが必要な音声を受け付けることをいう。対話予兆検知装置1が行う「音声の受付」の詳細については、後述する。
 このとき、対話予兆検知装置1は、自装置が「対話待機状態」であることを示す情報を、出力装置4に出力する。
 「対話受付状態」とは、対話予兆検知装置1が乗員による対話予兆があると検知した後の当該対話予兆検知装置1の状態である。この状態となると、対話予兆検知装置1は、自装置が「対話受付状態」であることを示す情報を出力装置4に出力するとともに、マイク3が取得した音声の受付を開始する。そして、対話予兆検知装置1は、マイク3から受け付けた音声の音声認識を行い、音声認識を行った結果に基づき、出力装置4に、乗員への応答内容を示す情報(以下「応答内容情報」という。)を出力する。
 さらに、対話予兆検知装置1は、「対話受付状態」となった後、実際に乗員が対話を行い、対話予兆検知装置1がマイク3から音声を受け付けている状態となると、自装置が「対話受付中状態」となったと判断する。この状態になると、対話予兆検知装置1は、自装置が「対話受付中状態」であることを示す情報を、出力装置4に出力する。
 出力装置4には、例えば、表示装置、スピーカ、LED(Light Emitting Diode)照明装置、または、アクチュエータが含まれる。出力装置4は、例えば、車両のダッシュボードに設置された車載用のカーナビゲーション装置に搭載される。
 出力装置4は、対話予兆検知装置1から出力された、当該対話予兆検知装置1の状態を示す情報を出力する。出力装置4による、対話予兆検知装置1の状態を示す情報の出力の詳細については、後述する。
 対話予兆検知装置1は、情報取得部11、対話予兆検知部12、出力内容判断部13、音声受付部14、音声認識部15、および、記憶部16を備える。
 出力内容判断部13は、応答内容生成部131を備える。
 情報取得部11は、センサ2から出力されたユーザ情報を取得する。情報取得部11は、取得したユーザ情報を、当該ユーザ情報の取得日時に関する情報と対応付けて、記憶部16に記憶する。
 また、情報取得部11は、取得したユーザ情報に基づき、乗員の挙動を検出する。実施の形態1において、乗員の挙動とは、例えば、乗員の顔向き、視線、口の動き、または、乗員の顔の移動をいう。例えば、情報取得部11は、取得した撮像画像に基づき、既知の画像認識技術を用いて、乗員の顔向き、視線、または、口の動きを検出する。また、例えば、情報取得部11は、取得した距離情報に基づき、乗員の顔が移動していることを検知する。なお、情報取得部11は、例えば、乗員の顔の動きまたは顔の移動を検出する際、過去にセンサ2から取得したユーザ情報を、記憶部16から取得すればよい。
 情報取得部11は、検出した、乗員の挙動に関する情報(以下「挙動情報」という。)を、対話予兆検知部12に出力する。
 対話予兆検知部12は、情報取得部11が取得した挙動情報に基づき、乗員による対話予兆があるか否かを検知する。
 具体的には、例えば、対話予兆検知部12は、乗員の視線方向が表示装置の方向となった場合、乗員による対話予兆があると検知する。また、例えば、対話予兆検知部12は、乗員の顔向きが表示装置の方向となった場合、乗員による対話予兆があると検知する。なお、表示装置の設置位置は予めわかっているので、対話予兆検知部12は、乗員の視線方向がわかれば、当該乗員の視線方向が表示装置の方向となっているか否かを判断できる。また、対話予兆検知部12は、乗員の顔向きがわかれば、当該乗員の顔向きが表示装置の方向となっているか否かを判断できる。
 また、例えば、対話予兆検知部12は、乗員の口の動きがあった場合、乗員による対話予兆があると検知する。
 また、例えば、対話予兆検知部12は、乗員の顔が表示装置に近づいた場合、乗員による対話予兆があると検知する。表示装置の設置位置は予めわかっているので、対話予兆検知部12は、乗員の顔の移動方向がわかれば、当該乗員の顔が表示装置に近づく方向に移動しているか否かを判断することができる。
 なお、対話予兆検知部12は、上述した方法を組み合わせて、乗員による対話予兆があるか否かを検知するようにしてもよい。
 対話予兆検知部12は、乗員による対話予兆があることを検知したか否かを示す情報(以下「予兆検知結果情報」という。)を、出力内容判断部13に出力する。
 具体的には、対話予兆検知部12は、乗員による対話予兆があると検知した場合、対話予兆がある旨の予兆検知結果情報を、出力内容判断部13に出力する。対話予兆検知部12は、ユーザによる対話予兆がないと検知した場合は、対話予兆がない旨の予兆検知結果情報を、出力内容判断部13に出力する。
 出力内容判断部13は、対話予兆検知部12から出力された予兆検知結果情報、または、音声認識部15から出力された音声認識結果に基づき、対話予兆検知装置1の状態を判断する。
 具体的には、出力内容判断部13は、対話予兆検知部12から、ユーザによる対話予兆がない旨の予兆検知結果情報が出力された場合、対話予兆検知装置1は「対話待機状態」であると判断する。
 出力内容判断部13は、対話予兆検知部12から、ユーザによる対話予兆があった旨の予兆検知結果情報が出力された場合、対話予兆検知装置1は「対話受付状態」であると判断する。
 出力内容判断部13は、対話予兆検知装置1が「対話受付状態」となった後、音声認識部15から音声認識結果が出力されると、対話予兆検知装置1は「対話受付中状態」であると判断する。
 出力内容判断部13は、対話予兆検知装置1の状態を判断すると、当該対話予兆検知装置1の状態を示す情報(以下「装置状態情報」という。)を出力装置4に出力する。出力内容判断部13は、対話予兆検知装置1が「対話受付状態」であると判断した場合には、「対話受付状態」である旨の装置状態情報を出力装置4に出力するとともに音声受付部14に出力する。
 また、出力内容判断部13は、電源投入時等、対話予兆検知装置1の制御部(図示省略)から、出力装置4に対して「対話待機状態」である旨の情報を出力する指示が出力された場合には、「対話待機状態」を示す装置状態情報を出力装置4に出力することもある。
 出力内容判断部13は、出力装置4に対して、どのような形態で装置状態情報を出力させるか、制御する。
 具体的には、例えば、出力装置4が表示装置である場合、出力内容判断部13は、表示装置に、「対話待機状態」、「対話受付状態」、または、「対話受付中状態」であることを示す文字、アイコン、または図形等を表示させる。
 例えば、出力装置4がスピーカである場合、出力内容判断部13は、スピーカに、「対話待機状態」、「対話受付状態」、または、「対話受付中状態」であることを示す音声またはメロディ等を出力させる。
 例えば、出力装置4がLED照明装置である場合、出力内容判断部13は、LED照明装置に、「対話待機状態」、「対話受付状態」、または、「対話受付中状態」で示す点灯または点滅を行わせる。例えば、出力内容判断部13は、LED照明装置に対して、対話予兆検知装置1の状態に応じて点灯パターンまたは点滅パターンを変更させるようにしてもよい。
 また、例えば、出力装置4がアクチュエータである場合、出力内容判断部13は、アクチュエータに、「対話待機状態」、「対話受付状態」、または、「対話受付中状態」にあわせて振動させる。例えば、出力内容判断部13は、アクチュエータに、対話予兆検知装置1の状態に応じて振動パターンを変更させてもよい。
 出力装置4は、出力内容判断部13から出力された装置状態情報に従って、当該装置状態情報を出力する。
 なお、上述したような、装置状態情報の出力形態は一例に過ぎない。出力内容判断部13は、出力装置4を確認した乗員が、対話予兆検知装置1は、「対話待機状態」、「対話受付状態」、または、「対話受付中状態」のうちのいずれの状態であるかが把握できるように、出力装置4から装置状態情報を出力させるようになっていればよい。
 また、出力内容判断部13は、複数の異なる種類の出力装置4に対して、装置状態情報を出力してもよい。例えば、出力内容判断部13は、表示装置に装置状態情報を表示させるとともに、スピーカから装置状態情報を音声出力させることもできる。出力内容判断部13が、どの出力装置4に対して、どのような形態で装置状態情報を出力させるかは、適宜設定可能である。
 出力内容判断部13の応答内容生成部131は、対話予兆検知装置1が「対話受付状態」となった後、音声認識部15から音声認識結果が出力されると、当該音声認識結果に基づき、乗員に対する応答内容を示す情報(以下「応答内容情報」という。)を生成し、出力装置4に出力する。すなわち、応答内容生成部131は、対話予兆検知装置1が「対話受付中状態」である場合において、音声認識部15から出力された音声認識結果に基づき、応答内容情報を生成する。応答内容生成部131は、例えば、音声認識結果をテキスト化することで、応答内容情報を生成する。
 応答内容生成部131が応答内容情報を生成すると、出力内容判断部13は、応答内容生成部131が生成した応答内容情報を出力装置4に出力する。
 出力装置4は、対話予兆検知装置1から応答内容情報が出力されると、当該応答内容情報を出力する。具体的には、例えば、出力装置4が表示装置であって、応答内容情報が案内経路を示す情報であった場合、表示装置は、当該案内経路を示す情報を表示する。
 音声受付部14は、対話予兆検知部12が乗員による対話予兆を検知した場合に、マイク3から当該マイク3が取得した音声を受け付ける。具体的には、音声受付部14は、対話予兆検知部12が乗員による対話予兆があると検知したことによって出力内容判断部13から「対話受付状態」である旨の情報が出力されると、マイク3が取得した音声を受け付ける。
 実施の形態1において、対話予兆検知装置1が行う「音声の受付」とは、上述のとおり、対話予兆検知装置1において、乗員に対して、乗員の対話に応じた応答を出力することが必要な音声を受け付けることをいう。より詳細には、実施の形態1において、対話予兆検知装置1が行う「音声の受付」とは、対話予兆検知装置1において、出力内容判断部13の応答内容生成部131が起動して応答内容情報を生成する対象となる音声の受付をいう。「音声の受付」は、出力内容判断部13が「対話受付状態」と判断し「対話受付状態」である旨の装置状態情報を出力装置4に出力する際に当該装置状態情報を音声受付部14にも送信することで、開始される。
 音声受付部14は、受け付けた音声を音声認識部15に出力する。
 音声認識部15は、音声受付部14が受け付けた音声に対して、信号処理を行い、音声認識処理を行う。信号処理とは、例えば、雑音の除去処理、または、音声の強調処理である。音声認識部15は、既知の音声認識技術を用いて音声認識処理を行えばよい。
 音声認識部15は、音声認識結果を、出力内容判断部13に出力する。また、音声認識部15は、音声認識結果を、例えば、音声認識処理を行った日時に関する情報と対応付けて記憶部16に記憶する。音声認識部15は、このとき、音声受付部14が受け付けた音声を、例えば、当該音声の音声認識結果と対応付けて記憶部16に記憶する。
 なお、ここで音声認識部15が記憶した音声および音声認識結果は、例えば、応答内容生成部131が応答内容を生成する際に、応答内容生成部131によって使用される。例えば、応答内容生成部131は、記憶部に記憶されている、一つ前に受け付けた音声に対する音声認識結果を参照し、今回受け付けた音声に対する音声認識結果に対する応答内容情報を生成することができる。
 具体例を挙げると、対話予兆検知装置1が「対話受付状態」となった後、乗員による「〇〇っていう店はどこにある?」という発話があり、当該発話があった旨の音声認識結果が音声認識部15から出力されたとする。これに対し、応答内容生成部131は、「次の交差点を曲がったところです」という応答内容を示す応答内容情報を生成したとする。そうすると、続いて、乗員による「営業時間は何時まで?」という発話があり、当該発話があった旨の音声認識結果が音声認識部15から出力されたとする。この場合、応答内容生成部131は、一つ前に受け付けた音声に対する音声認識結果である「〇〇っていう店はどこにある?」に対応する音声認識結果を記憶部16から取得し、「〇〇」という店の営業時間を示す応答内容情報を生成するようにする。
 記憶部16は、情報取得部11が取得したユーザ情報、音声受付部14が受け付けた音声、および、音声認識部15が認識した音声認識結果を記憶する。
 なお、ここでは、図1に示すように、記憶部16は、対話予兆検知装置1に備えられるものとするが、これは一例に過ぎず、記憶部16は、対話予兆検知装置1の外部の、対話予兆検知装置1が参照可能な場所に備えられるものとしてもよい。
 以上の説明では、対話予兆検知装置1は、自装置の状態として、「対話待機状態」、「対話受付状態」、または、「対話受付中状態」のいずれの状態であるかを判断し、「対話待機状態」を示す装置状態情報、「対話受付状態」を示す装置状態情報、または、「対話受付中状態」を示す装置状態情報を出力装置4に出力するものとしたが、これは一例に過ぎない。対話予兆検知装置1は、少なくとも、自装置が「対話待機状態」または「対話受付状態」であることを判断し、自装置が「対話待機状態」または「対話受付状態」である場合に、「対話待機状態」または「対話受付状態」であることを示す装置状態情報を出力装置4に出力するようになっていればよい。
 以下の説明においては、対話予兆検知装置1は、自装置の状態として、「対話待機状態」または「対話受付状態」のいずれかを判断し、「対話待機状態」を示す装置状態情報、または、「対話受付状態」を示す装置状態情報を出力装置4に出力するものとする。
 実施の形態1に係る対話予兆検知装置1の動作について説明する。
 図2は、実施の形態1に係る対話予兆検知装置1の動作を説明するためのフローチャートである。
 対話予兆検知装置1は、例えば、電源が投入されると、電源が投入されている間、図2のフローチャートにて説明する動作を行う。
 まず、対話予兆検知装置1の出力内容判断部13は、「対話待機状態」であることを示す装置状態情報を、出力装置4に出力する(ステップST201)。
 例えば、電源投入時、このステップST201において、対話予兆検知装置1の制御部は、出力内容判断部13に、出力装置4に対して「対話待機状態」である旨の情報を出力させる。
 情報取得部11は、センサ2から出力されたユーザ情報を取得する(ステップST202)。情報取得部11は、取得したユーザ情報を、当該ユーザ情報の取得日時に関する情報と対応付けて、記憶部16に記憶する。
 また、情報取得部11は、取得したユーザ情報に基づき、乗員の挙動を検出する。情報取得部11は、検出した挙動情報を、対話予兆検知部12に出力する。
 対話予兆検知部12は、情報取得部11が取得した挙動情報に基づき、乗員による対話予兆があるか否かを検知する(ステップST203)。
 ステップST203において、乗員による対話予兆がないと検知した場合(ステップST203の“NO”の場合)、対話予兆検知部12は、対話予兆がない旨の予兆検知結果情報を出力内容判断部13に出力する。そして、対話予兆検知装置1の動作は、ステップST201へ戻る。すなわち、出力装置4において、「対話待機状態」であることを示す装置状態情報が引き続き出力される。
 ステップST203において、乗員による対話予兆があると検知した場合(ステップST203の“YES”の場合)、対話予兆検知部12は、対話予兆がある旨の予兆検知結果情報を出力内容判断部13に出力する。そして、対話予兆検知装置1の動作は、ステップST204へ進む。
 出力内容判断部13は、ステップST203にて対話予兆検知部12から出力された予兆検知結果情報に基づき、対話予兆検知装置1は、「対話受付状態」であると判断する(ステップST204)。
 出力内容判断部13は、「対話受付状態」であることを示す装置状態情報を出力装置4に出力するとともに、音声受付部14に対して、「対話受付状態」であることを示す情報を出力する。
 出力装置4は、対話予兆検知装置1から「対話受付状態」であることを示す装置状態情報が出力されると、当該装置状態情報を出力する。
 音声受付部14は、ステップST204にて出力内容判断部13から「対話受付状態」であることを示す情報が出力されると、マイク3から当該マイク3が取得した音声を受け付ける。音声受付部14は、受け付けた音声を音声認識部15に出力する。そして、音声認識部15は、音声受付部14が受け付けた音声に対して、音声認識処理を行う(ステップST205)。
 音声認識部15は、音声認識結果を、出力内容判断部13に出力する。また、音声認識部15は、音声認識結果を、例えば、音声認識処理を行った日時に関する情報と対応付けて記憶部16に記憶する。音声認識部15は、このとき、音声受付部14が受け付けた音声を、例えば、当該音声の音声認識結果と対応付けて記憶部16に記憶する。
 出力内容判断部13の応答内容生成部131は、ステップST205にて音声認識部15から音声認識結果が出力されると、当該音声認識結果に基づき、応答内容情報を生成する(ステップST206)。
 応答内容生成部131が応答内容情報を生成すると、出力内容判断部13は、応答内容生成部131が生成した応答内容情報を、出力装置4に出力する(ステップST207)。出力装置4は、対話予兆検知装置1から応答内容情報が出力されると、当該応答内容情報を出力する。
 図3は、実施の形態1に係る対話予兆検知装置1において、乗員による対話予兆があると検知し、「対話受付状態」であることを示す情報を出力する流れの一例のイメージを説明するための図である。
 なお、図3では、一例として、出力装置4は表示装置とし、対話予兆検知装置1は、表示装置に装置状態情報を表示させるものとしている。また、表示装置は、文字にて装置状態情報を表示するものとしている。また、対話予兆検知装置1において、対話予兆検知部12は、情報取得部11から出力された挙動情報に基づき、乗員の視線方向が表示装置の方向となった場合に、対話予兆があると検知するものとしている。
 図3上、左側に示す状態のように、乗員が表示装置を見ていない場合、言い換えれば、乗員の視線方向が表示装置の方向となっていない場合、対話予兆検知部12は、乗員による対話予兆はないと検知する(図2のステップST203の“NO”の場合参照)。この場合、対話予兆検知部12は、乗員による対話予兆はないと検知した旨の予兆検知結果情報を出力内容判断部13に出力する。出力内容判断部13は、「対話待機状態」であると判断し、「対話待機状態」であることを示す装置状態情報を表示装置に出力する(図2のステップST201参照)。そして、表示装置は、「対話待機状態」との文字を表示する。
 図3上、左側に示す状態から、図3上、右側に示すように、乗員が表示装置を見た状態になったとする。言い換えれば、乗員の視線方向が表示装置の方向となったとする。この場合、対話予兆検知部12は、乗員による対話予兆があると検知する(図2のステップST203の“YES”の場合参照)。対話予兆検知部12は、乗員による対話予兆があると検知した旨の予兆検知結果情報を出力内容判断部13に出力する。出力内容判断部13は、「対話受付状態」であると判断し、「対話受付状態」であることを示す装置状態情報を表示装置に出力する(図2のステップST204参照)。そして、表示装置は、「対話受付状態」との文字を表示する。
 一般に、例えば、ユーザの対話による音声を受け付けて、当該対話に応じた応答を返す機能を有する装置における、音声受付の開始に関する技術として、「ユーザ合図型」、「常時起動型」、または、「対話予兆検知型」が知られている。
 「ユーザ合図型」の場合、ユーザは、応答を得るために、例えば、スイッチを押下する、または、ウェイクアップワードを発話するといった合図をする必要がある。ウェイクアップワードとは、声だけで応答を得る対象となる音声の受付を開始させるための、予め定められた言葉である。当該「ユーザ合図型」の場合、ユーザは、応答を得る対象となる音声の受付を開始させるために、都度、合図をしなくてはならず、手間がかかる。
 上述したような「ユーザ合図型」の問題を解決する技術が「常時起動型」である。当該「常時起動型」では、装置が絶えず音声の受付を行う。装置が絶えず音声の受付を行っているため、ユーザは、任意のタイミングで、応答を得るための対話することが可能である。しかし、「常時起動型」では、装置が、例えば、テレビの音声等、ユーザによる対話に近い音声を誤って受け付ける可能性があるという問題がある。
 上述したような「ユーザ合図型」および「常時起動型」の問題を解決する技術が、特許文献1を挙げて説明したような、「対話予兆検知型」である。
 「対話予兆検知型」は、装置において、ユーザの対話予兆があることを検知すると、音声の受付を開始する。「対話予兆検知型」は、「ユーザ合図型」のようにユーザが都度合図をする必要がなく、また、「常時起動型」のように装置が誤って音声を受け付ける可能性も低減できる。
 しかし、従来の「対話予兆検知型」の技術においては、上述のとおり、ユーザは、どの時点で音声の受付が開始されているか把握できないという課題があった。
 これに対し、実施の形態1に係る対話予兆検知装置1は、「対話受付状態」であることを示す情報を出力装置4から出力させるようにした。これにより、ユーザ、言い換えれば、乗員は、音声の受付が開始されたタイミングを把握することができる。
 以上の実施の形態1では、対話予兆検知装置1において、対話予兆検知部12が乗員による対話予兆を検知し、出力内容判断部13が「対話受付状態」であると判断すると、音声受付部14が音声の受付を開始するものとした。これに加え、音声受付部14は、音声の受付を開始した後、予め定められた条件(以下「音声受付終了条件」という。)を満たす場合に、音声の受付を終了するようにしてもよい。
 音声受付終了条件は、例えば、受け付けた音声の音量が一定値以下となった状態が、予め決められた時間継続していること、である。
 このように、対話予兆検知装置1は、音声の受付を行う時間を限定するようにしてもよい。これにより、対話予兆検知装置1は、乗員のプライバシーを保護することができる。
 また、以上の実施の形態1では、対話予兆検知装置1において、音声受付部14は、出力内容判断部13から「対話受付状態」である旨の装置状態情報が出力されると、「音声の受付」を開始するものとした。ここで、音声受付部14は、「音声の受付」は行わないが、常時、マイク3から音声を取得している状態とすることもできる。
 そして、例えば、対話予兆検知部12は、音声受付部14が常時マイク3から取得している音声に基づいて、乗員による対話予兆があるか否かを検知するようにすることもできる。具体的には、例えば、対話予兆検知部12は、音声受付部14が取得した音声に対して音声認識部15が音声認識を行った音声認識結果に、予め定められた内容が含まれているか否かによって対話予兆があるか否かを検知することができる。予め定められた内容とは、例えば、「調べてみよう。」または「検索してみよう。」といった、乗員が対話予兆検知装置1を起動させることを意図して行ったと推定される対話(以下「起動指示対話」という。)である。例えば、ユーザは、起動指示対話を、予め登録しておく。対話予兆検知部12は、音声認識結果に起動指示対話が含まれていれば、乗員による対話予兆があると検知する。
 なお、音声受付部14は、常時「音声の受付」を行うものではないため、音声受付部14が常時取得している音声に基づいて、出力内容判断部13が動作することはない。出力内容判断部13は、対話予兆検知部12によって対話予兆があるか否かが検知されたことを受けて動作する。出力内容判断部13が動作し、当該出力内容判断部13が「対話受付状態」と判断すると、音声受付部14によって、音声の受付が開始され、音声受付部14が受け付けた音声と、当該音声に対する音声認識部15による音声認識結果とが記憶部16に記憶される。音声受付部14が常時取得している音声と、当該音声に基づく音声認識結果が記憶されることはない。必要のない音声および音声認識結果が記憶されることがないため、乗員のプライバシーを保護することができる。
 また、以上の実施の形態1において、対話予兆検知装置1は、検知した対話予兆が誤検知であったか否かを判断する機能を有する構成とすることもできる。
 図4は、実施の形態1において、検知した対話予兆が誤検知であったか否かを判断する機能を有する構成とした対話予兆検知装置1の構成例を示す図である。
 図4において、図1で示した対話予兆検知装置1と同様の構成については、同じ符号を付して重複した説明を省略する。
 図4に示す対話予兆検知装置1は、図1に示した対話予兆検知装置1とは、対話予兆検知部12が誤検知判断部121を備える点と、音声認識部15が音声削除部151を備える点が異なる。
 対話予兆検知部12の誤検知判断部121は、対話予兆検知部12が検知した対話予兆は誤検知であるか否かを判断する。
 具体的には、例えば、誤検知判断部121は、対話予兆検知部12が乗員による対話予兆を検知した後、予め設定された時間(以下「誤検知判断用時間」という。)内に、音声認識部15から音声認識結果が出力されたか否かによって、対話予兆検知部12が検知した対話予兆は誤検知であったか否かを判断する。誤検知判断部121は、誤検知判断用時間内に音声認識結果が出力されない場合、対話予兆検知部12が検知した対話予兆は誤検知であったと判断する。
 また、例えば、誤検知判断部121は、対話予兆検知部12が乗員による対話予兆を検知した後、音声認識部15から出力された音声認識結果が、乗員の対話に対する音声認識結果であるか否かによって、対話予兆検知部12が検知した対話予兆は誤検知であったか否かを判断する。具体的には、誤検知判断部121は、音声認識部15から出力された音声認識結果が、対話予兆があると検知した乗員以外の乗員による音声認識結果である場合、対話予兆検知部12が検知した対話予兆は誤検知であったと判断する。誤検知判断部121は、音声認識部15から出力された音声認識結果が、対話予兆があると検知した乗員の対話に対する音声認識結果であるか否かを、情報取得部11から取得したユーザ情報に基づいて判断すればよい。例えば、誤検知判断部121は、対話予兆があると検知した乗員の口の動きがなかった場合、音声認識結果は、対話予兆があると検知した乗員以外の乗員の対話に対する音声認識結果であると判断する。この場合、誤検知判断部121は、対話予兆検知部12が検知した対話予兆は誤検知であったと判断する。
 また、例えば、乗員が、自ら誤検知を指摘することもできる。具体的には、対話予兆検知部12が対話予兆を検知すると、出力内容判断部13は「対話待機状態」である旨の情報を出力装置4に出力する。乗員は出力装置4を確認し、対話予兆が誤検知されたことを把握する。この場合に、乗員は、例えば、表示装置に表示されている取消ボタンをタッチすることで、誤検知を指摘することができる。なお、表示装置は、タッチパネル式ディスプレイとする。対話予兆検知装置1の受付部(図示省略)は、取消ボタンがタッチされると、取消情報を受け付け、受け付けた取消情報を誤検知判断部121に出力する。誤検知判断部121は、受付部から取消情報が出力されると、対話予兆検知部12が検知した対話予兆は誤検知であったと判断する。
 なお、上述の例は一例に過ぎず、誤検知判断部121は、上述したような例以外の方法で対話予兆検知部12が検知した予兆検知が誤検知であったか否かを判断してもよい。また、誤検知判断部121は、上述したような例の方法を組み合わせて、対話予兆検知部12が検知した予兆検知が誤検知であったか否かを判断してもよい。
 誤検知判断部121は、対話予兆検知部12が検知した対話予兆が誤検知であると判断すると、対話予兆が誤検知である旨の情報(以下「誤検知通知情報」という。)を、音声認識部15に出力する。
 音声認識部15の音声削除部151は、誤検知判断部121が対話予兆は誤検知であると判断した場合、言い換えれば、誤検知判断部121から誤検知通知情報が出力された場合、音声受付部14が受付済みの音声に関する情報を削除する。音声受付部14が受付済みの音声に関する情報とは、音声受付部14が受け付けた音声、および、音声認識部15によって当該音声に対して音声認識処理が行われた音声認識結果である。当該音声および音声認識結果は、記憶部16に記憶されている。
 音声削除部151は、記憶部16に記憶されている音声および音声認識結果を削除すると、音声および音声認識結果を削除した旨の情報を、出力内容判断部13に出力する。出力内容判断部13は、音声削除部151から、音声および音声認識結果を削除した旨の情報が出力されると、当該情報を、出力装置4に出力する。出力装置4は、音声を削除したことを示す情報を出力する。
 なお、誤検知判断部121による、対話予兆が誤検知であるか否かを判断する動作、および、音声削除部151による、受付済みの音声に関する情報を削除する動作は、図2のフローチャートで説明した対話予兆検知装置1の動作において、例えば、ステップST204の動作が行われた後、ステップST205以降の動作と並行して行われる。また、例えば、図2のステップST204の動作の後、ステップST205の動作が行われる前に、誤検知判断部121が、対話予兆は誤検知であるか否かを判断し、誤検知判断部121が対話予兆は誤検知であると判断した場合に、音声削除部151が受付済みの音声に関する情報を削除するようにしてもよい。その後、対話予兆検知装置1の動作はステップST205に進む。
 図5は、対話予兆の誤検知を判断する機能を有する対話予兆検知装置1において、対話予兆が誤検知されたことを判断する動作の流れの一例のイメージを説明するための図である。
 なお、図5では、一例として、出力装置4は表示装置であり、対話予兆検知装置1は、表示装置に装置状態情報を出力させるものとしている。また、表示装置は、文字にて装置状態情報を表示するものとしている。また、対話予兆検知装置1において、対話予兆検知部12は、情報取得部11が取得した挙動情報に基づき、乗員の視線方向が表示装置の方向となった場合に、対話予兆があったと検知するものとしている。
 図5上、左側に示す状態のように、乗員が表示装置を見ていない場合、言い換えれば、乗員の視線方向が表示装置の方向となっていない場合、対話予兆検知部12は、乗員による対話予兆はないと検知する(図2のステップST203の“NO”の場合参照)。この場合、対話予兆検知部12は、乗員による対話予兆はないと検知した旨の予兆検知結果情報を出力内容判断部13に出力する。出力内容判断部13は、「対話待機状態」であると判断し、「対話待機状態」であることを示す装置状態情報を表示装置に出力する(図2のステップST201参照)。そして、表示装置は、「対話待機状態」との文字を表示する。
 図5上、左側に示す状態から、図5上、真ん中に示すように、乗員が表示装置を見た状態になったとする。言い換えれば、乗員の視線方向が表示装置の方向となったとする。この場合、対話予兆検知部12は、乗員による対話予兆があると検知する(図2のステップST203の“YES”の場合参照)。対話予兆検知部12は、乗員による対話予兆があると検知した旨の予兆検知結果情報を出力内容判断部13に出力する。出力内容判断部13は、「対話受付状態」であると判断し、「対話受付状態」であることを示す装置状態情報を表示装置に出力する(図2のステップST204参照)。そして、表示装置は、「対話受付状態」との文字を表示する。
 しかし、その後、誤検知判断用時間が経過しても、乗員は対話を行わず、音声受付部14はマイク3から音声を受け付けられなかったとする。すなわち、誤検知判断用時間内に、音声認識部15から音声認識結果が出力されなかったとする。この場合、誤検知判断部121は、対話予兆検知部12が検知した対話予兆は誤検知であったと判断する。そして、音声削除部151は、音声受付部14が受付済みの音声に関する情報を削除し、音声および音声認識結果を削除した旨の情報を、出力内容判断部13に出力する。
 そして、図5上、右側に示すように、出力内容判断部13は、音声認識結果を削除した旨の情報を、表示装置に出力する。表示装置は、音声および音声認識結果を削除したことを示す情報を表示する。ここでは、表示装置は、「音声削除」との文字を表示するようにしている。
 このように、対話予兆検知装置1は、検知した対話予兆が誤検知であったか否かを判断する機能を有する構成とすることができる。これにより、対話予兆検知装置1は、乗員にとって不要な応答を出力してしまうことを防ぐことができる。また、対話予兆検知装置1は、検知した対話予兆が誤検知であったと判断した場合は、受付済みの音声に関する情報を削除するようにすることができる。これにより、対話予兆検知装置1は、ユーザが意図しない不要な情報を記憶しておかないようにすることができる。その結果、ユーザのプライバシーを保護することができる。
 以上のように、実施の形態1によれば、対話予兆検知装置1は、人(ユーザ)の挙動に関する挙動情報を取得する情報取得部11と、情報取得部11が取得した挙動情報に基づき、人による対話予兆があるか否かを検知する対話予兆検知部12と、対話予兆検知部12が、人による対話予兆があると検知した場合に、「対話受付状態」である旨を示す情報を出力する出力内容判断部13とを備えるように構成した。そのため、対話予兆検知装置1は、人に対して、どの時点で音声の受付が開始されたかが把握可能な情報を提供することができる。その結果、人にとって使い勝手のよい対話予兆検知装置1を提供することができる。また、対話予兆検知装置1は、人に対して、知らない間に対話予兆検知装置1に盗聴されているかもしれないとの不安を解消することができる。
実施の形態2.
 実施の形態1では、対話予兆検知装置1が、対話予兆があるか否かを検知する対象となるユーザは、1人であることを想定していた。
 実施の形態2では、対話予兆検知装置1が、対話予兆があるか否かを検知する対象となるユーザが複数人であることを想定した実施の形態について説明する。
 図6は、実施の形態2に係る対話予兆検知装置1aの構成例を示す図である。
 図6において、実施の形態1にて図1を用いて説明した対話予兆検知装置1と同様の構成については、同じ符号を付して重複した説明を省略する。
 実施の形態2に係る対話予兆検知装置1aは、実施の形態1に係る対話予兆検知装置1とは、情報取得部11aが複数対象検知部111を備える点が異なる。また、実施の形態2に係る対話予兆検知装置1aは、実施の形態1に係る対話予兆検知装置1とは、出力内容判断部13aが優先度判断部132を備える点が異なる。また、実施の形態2に係る対話予兆検知装置1aにおいて、対話予兆検知部12aの具体的な動作が、実施の形態1に係る対話予兆検知装置1の対話予兆検知部12の具体的な動作とは異なる。
 実施の形態2において、対話予兆検知装置1aは、車両に搭載されることを想定している。実施の形態2において、対話予兆検知装置1aのユーザは、車両の運転者および同乗者を含む、複数の乗員とする。
 実施の形態2において、センサ2は、車両内の複数の乗員に関するユーザ情報を取得する。例えば、センサ2が可視光カメラである場合、可視光カメラは、車両内の複数の乗員を撮像する。
 なお、車両に1つのセンサ2が搭載され、1つのセンサ2が車両内の複数の乗員全員に関するユーザ情報を取得するようにしてもよいし、車両に複数のセンサ2が搭載され、複数のセンサ2によって複数の乗員に関するユーザ情報を取得するようにしてもよい。例えば、各座席にセンサ2が設置され、それぞれ、設置位置に応じた座席に着座している乗員に関するユーザ情報を取得するようにしてもよい。車両に複数のセンサ2が搭載されている場合、当該複数のセンサ2は、それぞれ、対話予兆検知装置1aに、取得したユーザ情報を、センサ2を特定可能な情報と対応付けて、出力する。
 情報取得部11aは、センサ2から出力されたユーザ情報を取得する。情報取得部11aは、取得したユーザ情報を、当該ユーザ情報の取得日時に関する情報と対応付けて、記憶部16に記憶する。
 情報取得部11aの複数対象検知部111は、センサ2から取得したユーザ情報に基づき、異なる場所にいる複数の乗員を検知する。具体的には、複数対象検知部111は、複数の乗員、および、当該複数の乗員の位置を検知する。複数対象検知部111は、既知の技術を用いて、複数の乗員、および、当該複数の乗員の位置を検知すればよい。例えば、センサ2が可視光カメラであり、ユーザ情報が画像である場合、複数対象検知部111は、既知の画像認識技術を用いて画像認識処理を行い、複数の乗員、および、当該複数の乗員の位置を検知する。
 複数対象検知部111は、検知した複数の乗員、および、当該複数の乗員の位置に関する情報を、情報取得部11aに出力する。
 情報取得部11aは、ユーザ情報に基づき、複数対象検知部111が検知した複数の乗員それぞれについて、乗員の挙動を検出する。乗員の挙動を検知する具体的な方法は、実施の形態1にて説明済みであるため、重複した説明を省略する。
 情報取得部11aは、検出した各乗員の挙動情報を、乗員を特定可能な情報、および、乗員に位置に関する情報と対応付けて、対話予兆検知部12aに出力する。
 対話予兆検知部12aは、情報取得部11aが取得した挙動情報に基づき、複数対象検知部111が検知した複数の乗員それぞれについて、乗員による対話予兆があるか否かを検知する。対話予兆検知部12aが乗員による対話予兆があるか否かを検知する具体的な方法は、実施の形態1において説明済みの、対話予兆検知部12が乗員による対話予兆があるか否かを検知する具体的な方法と同様であるため、重複した説明を省略する。
 対話予兆検知部12aは、予兆検知結果情報を、出力内容判断部13aに出力する。
 具体的には、対話予兆検知部12aは、複数の乗員のうち、いずれかの乗員による対話予兆があると検知した場合、対話予兆があった旨の予兆検知結果情報を、出力内容判断部13aに出力する。対話予兆検知部12aは、複数の乗員のうち、いずれの乗員も、当該乗員による対話予兆がないと検知した場合は、対話予兆がない旨の予兆検知結果情報を、出力内容判断部13aに出力する。
 対話予兆検知部12aが出力する予兆検知結果情報では、複数の乗員それぞれについて、乗員を特定可能な情報と、乗員の位置に関する情報と、乗員による対話予兆があるか否かの検知結果とが対応付けられる。
 出力内容判断部13aは、対話予兆検知部12aから出力された予兆検知結果情報、または、音声認識部15から出力された音声認識結果に基づき、対話予兆検知装置1aの状態を判断する。
 具体的には、出力内容判断部13aは、対話予兆検知部12aから、いずれの乗員も、当該乗員による対話予兆がない旨の予兆検知結果情報が出力された場合、当該対話検知結果情報に基づき、対話予兆検知装置1aは「対話待機状態」であると判断する。
 出力内容判断部13aは、対話予兆検知部12aから、複数の乗員のうちのいずれかによる対話予兆があった旨の予兆検知結果情報が出力された場合、当該予兆検知結果情報に基づき、対話予兆検知装置1aは「対話受付状態」であると判断する。
 なお、実施の形態2においても、実施の形態1に係る対話予兆検知装置1同様、対話予兆検知装置1aは、自装置の状態として、「対話待機状態」または「対話受付状態」のいずれかを判断し、「対話待機状態」を示す装置状態情報、または、「対話受付状態」を示す装置状態情報を出力するものとする。
 出力内容判断部13aの優先度判断部132は、「対話受付状態」であると判断した場合において、対話予兆があると検知された乗員が複数存在する場合、当該複数の乗員に対して優先度を判断する。優先度判断部132は、例えば、運転者は優先度が高いと判定する。また、優先度判断部132は、例えば、対話要求度合いが高いと推定される乗員ほど優先度が高いと判定してもよい。優先度判断部132は、対話要求度合いが高いか否かを、情報取得部11aから出力される挙動情報に基づいて推定すればよい。例えば、優先度判断部132は、出力装置4に対して近づいている乗員ほど、対話要求度合いが高いと推定する。
 出力内容判断部13aは、対話予兆検知装置1aの状態を判断すると、当該対話予兆検知装置1aの状態を示す装置状態情報を出力装置4に出力する。出力内容判断部13aは、対話予兆検知装置1aが「対話受付状態」であると判断した場合には、「対話受付状態」である旨の装置状態情報を、出力装置4に出力するとともに音声受付部14に出力する。
 出力内容判断部13aは、「対話受付状態」であると判断した場合、複数の乗員のうち、対話予兆検知部12aが、対話予兆があると検知した乗員に関する情報と、優先度判断部132が判定した優先度に関する情報とを対応付けて、装置状態情報とともに、出力装置4に出力するようにする。対話予兆があると検知した乗員に関する情報には、当該乗員を特定可能な情報と、当該乗員の位置に関する情報とが含まれる。
 なお、対話予兆検知装置1aにおいて、優先度判断部132を備えることは必須ではない。例えば、対話予兆検知装置1aにおいて、音声認識部15が、同時に複数の乗員による対話音声の音声認識処理が実行できない場合に、対話予兆検知装置1aは優先度判断部132を備えるものとする。
 実施の形態2に係る対話予兆検知装置1aの動作について説明する。
 図7は、実施の形態2に係る対話予兆検知装置1aの動作を説明するためのフローチャートである。
 対話予兆検知装置1aは、例えば、電源が投入されると、電源が投入されている間、図7のフローチャートにて説明する動作を行う。
 まず、対話予兆検知装置1aの出力内容判断部13aは、「対話待機状態」であることを示す装置状態情報を、出力装置4に出力する(ステップST701)。
 例えば、電源投入時、このステップST701において、対話予兆検知装置1aの制御部(図示省略)は、出力内容判断部13aに、出力装置4に対して「対話待機状態」である旨の情報を出力させる。
 情報取得部11aは、センサ2から出力されたユーザ情報を取得する(ステップST702)。情報取得部11aは、取得したユーザ情報を、当該ユーザ情報の取得日時に関する情報と対応付けて、記憶部16に記憶する。
 情報取得部11aの複数対象検知部111は、ステップST702にてセンサ2から取得したユーザ情報に基づき、異なる場所にいる複数の乗員を検知する(ステップST703)。
 複数対象検知部111は、検知した複数の乗員、および、当該複数の乗員の位置に関する情報を、情報取得部11aに出力する。
 そして、情報取得部11aは、複数対象検知部111が検知した複数の乗員それぞれについて、ユーザ情報に基づき、乗員の挙動を検出する。
 情報取得部11aは、検出した各乗員の挙動情報を、乗員を特定可能な情報、および、乗員に位置に関する情報と対応付けて、対話予兆検知部12aに出力する。
 対話予兆検知部12aは、情報取得部11aが取得した挙動情報に基づき、複数対象検知部111が検知した複数の乗員それぞれについて、乗員による対話予兆があるか否かを検知する(ステップST704)。
 ステップST704において、複数の乗員のいずれも、当該乗員による対話予兆がないと検知した場合(ステップST704の“NO”の場合)、対話予兆検知部12aは、対話予兆がない旨の予兆検知結果情報を出力内容判断部13aに出力する。そして、対話予兆検知装置1aの動作は、ステップST701へ戻る。すなわち、出力装置4において、「対話待機状態」であることを示す装置状態情報が引き続き出力される。
 ステップST704において、複数の乗員のいずれかに、当該乗員による対話予兆があると検知した場合(ステップST704の“YES”の場合)、対話予兆検知部12aは、対話予兆がある旨の予兆検知結果情報を出力内容判断部13aに出力する。そして、対話予兆検知装置1aの動作は、ステップST705へ進む。
 出力内容判断部13aは、ステップST704にて対話予兆検知部12aから出力された予兆検知結果情報に基づき、対話予兆検知装置1aは「対話受付状態」であると判断する(ステップST705)。このとき、出力内容判断部13aの優先度判断部132は、対話予兆があると検知された乗員が複数存在する場合、当該複数の乗員に対して優先度を判定する。
 出力内容判断部13aは、「対話受付状態」であることを示す装置状態情報を出力装置4に出力するとともに、音声受付部14に対しても、「対話受付状態」であることを示す情報を出力する。
 出力内容判断部13aは、複数の乗員のうち、対話予兆検知部12aが、対話予兆があると検知した乗員に関する情報と、優先度判断部132が判定した優先度に関する情報とを対応付けて、装置状態情報とともに、出力装置4に出力するようにする。
 出力内容判断部13aは、出力装置4に対して、対話予兆があると検知された乗員と、対話予兆があると検知された乗員に対する優先度とがわかるような表示をさせるよう、装置状態情報、対話予兆があると検知した乗員に関する情報、および、優先度に関する情報を出力する。
 ステップST706~ステップST708の具体的な動作は、それぞれ、実施の形態1にて説明した、図2のステップST205~ステップST207の具体的な動作と同様であるため、重複した説明を省略する。
 図8は、実施の形態2に係る対話予兆検知装置1aにおいて、複数の乗員の対話予兆があると検知した場合に、対話予兆があると検知された複数の乗員の優先度を判断した上で、「対話受付中」であることを示す情報を出力するまでの流れの一例のイメージを説明するための図である。
 図8に示すように、車両内には、4人の乗員A~乗員Dが存在しているものとする。乗員Aは、運転者である。
 なお、図8では、一例として、出力装置4は表示装置であり、対話予兆検知装置1aは、表示装置に装置状態情報を出力するものとしている。また、表示装置は、文字およびアイコンにて装置状態情報を表示させるものとしている。また、対話予兆検知装置1aにおいて、対話予兆検知部12aは、情報取得部11aが取得した挙動情報に基づき、乗員の視線方向が表示装置の方向となった場合、または、乗員の口の動きがあった場合に、対話予兆があると検知するものとしている。
 図8に示す状態のように、乗員A~乗員Dのうち、乗員Aについて口の動きがあり、乗員Cについて視線方向が表示装置の方向となったとする。この場合、対話予兆検知部12aは、乗員Aによる対話予兆、および、乗員Cによる対話予兆があると検知する(ステップST704の“YES”の場合)。対話予兆検知部12aは、乗員Aによる対話予兆、および、乗員Cによる対話予兆があると検知した旨の予兆検知結果情報を出力内容判断部13aに出力する。
 出力内容判断部13aは、「対話受付状態」であると判断し、「対話受付状態」であることを示す装置状態情報を表示装置に出力する。このとき、優先度判断部132は、乗員Aおよび乗員Cについて、優先度を判断し、判断した優先度に関する情報を、装置状態情報とあわせて、表示装置に出力する(ステップST705参照)。ここでは、優先度判断部132は、運転者である乗員Aの方が、同乗者である乗員Cよりも優先度が高いと判断するものとする。
 出力内容判断部13aは、表示装置に対して、「対話受付状態」であることを示す表示を行わせる。また、出力内容判断部13aは、表示装置に対して、対話予兆があると検知された乗員と、当該乗員に対する優先度とがわかるような表示を行わせる。
 図8では、表示装置は、「対話受付!」の文字を表示することで「対話受付状態」であることを示すものとしている。また、表示装置は、対話予兆があると検知された乗員Aおよび乗員Cがわかるよう、乗員Aおよび乗員Cを示すアイコンについて、他の乗員Bおよび乗員Dとは色を異ならせて表示するようにしている。さらに、表示装置は、優先度が高い乗員Aを示すアイコンのほうが、優先度が低い乗員Cを示すアイコンよりも濃く表示するようにしている。また、表示装置は、「対話受付!」の文字の表示位置を、優先度が高い乗員Aに対応させて表示することでも、乗員Aの優先度が高いことを示すようにしている。
 なお、上述のとおり、対話予兆検知装置1aは、優先度判断部132を備えることを必須としない。この場合、出力内容判断部13aは、「対話受付状態」であると判断すると、「対話受付状態」であることを示す装置状態情報と、対話予兆があると検知した乗員に関する情報とを、表示装置に出力する。
 ここで、図9は、実施の形態2に係る対話予兆検知装置1aにおいて、優先度判断部132を備えない構成とした場合に、複数の乗員の対話予兆があると検知し、「対話受付中」であることを示す情報を出力するまでの流れの一例のイメージを説明するための図である。
 図9では、図8同様、車両内には、4人の乗員A~乗員Dが存在しているものとしている。乗員Aは、運転者である。
 また、図9では、一例として、出力装置4は表示装置であり、対話予兆検知装置1aは、表示装置に装置状態情報を出力させるものとしている。また、表示装置は、文字およびアイコンにて装置状態情報を表示するものとしている。対話予兆検知装置1aにおいて、対話予兆検知部12aは、情報取得部11aが取得した挙動情報に基づき、乗員の視線方向が表示装置の方向となった場合に、対話予兆があったと検知するものとしている。
 図9に示す状態のように、乗員A~乗員Dのうち、乗員Bおよび乗員Cの視線方向が表示装置の方向となったため、対話予兆検知部12aは、乗員Bによる対話予兆、および、乗員Cによる対話予兆があると検知する。対話予兆検知部12aは、乗員Bによる対話予兆、および、乗員Cによる対話予兆があると検知した旨の予兆検知結果情報を出力内容判断部13aに出力する。
 出力内容判断部13aは、「対話受付状態」であると判断し、「対話受付状態」であることを示す装置状態情報を表示装置に出力する。このとき、出力内容判断部13aは、乗員Bおよび乗員Cについて、対話予兆を検知した旨の情報を、装置状態情報とあわせて、表示装置に出力する。
 出力内容判断部13aは、表示装置に対して、「対話受付状態」であることを示す表示を行わせる。また、出力内容判断部13aは、表示装置に対して、対話予兆があると検知された乗員がわかるような表示を行わせる。
 図9では、表示装置は、「対話受付」の文字を表示することで「対話受付状態」であることを示すものとしている。また、表示装置は、対話予兆があると検知された乗員Bおよび乗員Cがわかるよう、乗員Bおよび乗員Cを示すアイコンについて、他の乗員Aおよび乗員Dとは色を異ならせて表示するようにしている。さらに、表示装置は、「対話受付!」の文字の表示位置を、対話予兆があると検知された乗員Bおよび乗員Cに対応させて表示することでも、当該乗員Bおよび乗員Cが、対話予兆があると検知された乗員であることを示すようにしている。
 このように、実施の形態2に係る対話予兆検知装置1aは、複数の乗員による対話予兆を検知可能とした。そして、複数の乗員による対話予兆があると検知した場合に、「対話受付状態」であることを示す情報を出力装置4に出力する。これにより、乗員は、音声の受付が開始されたタイミングを把握することができる。
 また、対話予兆検知装置1aは、対話予兆があると検知した乗員が複数存在する場合、当該複数の乗員がわかるよう、情報出力を行う。これにより、乗員が複数存在する場合に、乗員は、どの乗員の対話が受け付けられる状態となったのかを把握することができる。
 また、対話予兆検知装置1aは、対話予兆があると検知した乗員が複数存在する場合、当該複数の乗員の優先度の判定を行い、優先度がわかるよう、情報出力を行う。これにより、乗員が複数存在する場合であって、かつ、対話を行おうとする乗員が複数存在する場合に、乗員は、どの乗員による対話の優先度が高いと判断されたかを把握することができる。
 なお、実施の形態2において、対話予兆検知装置1aは、実施の形態1に係る対話予兆検知装置1同様、検知した対話予兆が誤検知であったか否かを判断する機能を有する構成とすることもできる(図4参照)。
 以上のように、実施の形態2によれば、対話予兆検知装置1aは、異なる場所にいる複数の人(ユーザ)を検知する複数対象検知部111を備え、対話予兆検知部12aは、複数対象検知部111が検知した複数の人による対話予兆を検知するように構成した。そのため、対話予兆検知装置1aは、複数の人が存在する場合、当該複数の人に対して、どの時点で音声の受付が開始されたかを把握可能な情報を提供することができる。
 また、実施の形態2によれば、対話予兆検知装置1aにおいて、出力内容判断部13aは、複数対象検知部111が検知した複数の人(ユーザ)のうち、対話予兆検知部12aが対話予兆を検知した人について、当該人に関する情報を、対話受付状態である旨を示す情報とともに出力するようにした。そのため、対話予兆検知装置1aは、人が複数存在する場合に、当該複数の人に対して、どの人の対話が受け付けられる状態となったのかを把握することができるよう、情報提供を行うことができる。
 また、実施の形態2によれば、対話予兆検知装置1aにおいて、複数対象検知部111が複数の人(ユーザ)を検知し、かつ、対話予兆検知部12aが複数の人による対話予兆を検知した場合、対話予兆検知部12aが対話予兆を検知した複数の人について、優先度を判断する優先度判断部132を備えるようにした。そのため、対話予兆検知装置1aは、対話予兆があると検知した乗員が複数存在する場合、当該複数の乗員の優先度の判定を行い、優先度がわかるよう、情報出力を行うことができる。
実施の形態3.
 実施の形態3では、装置状態情報の出力方法を決定する機能を有する実施の形態について説明する。
 図10は、実施の形態3に係る対話予兆検知装置1bの構成例を示す図である。
 図10において、実施の形態1において図1を用いて説明した対話予兆検知装置1と同様の構成については、同じ符号を付して重複した説明を省略する。
 実施の形態3に係る対話予兆検知装置1bは、実施の形態1に係る対話予兆検知装置1とは、周辺状態情報取得部17および出力方法判断部18を備える点が異なる。
 また、実施の形態3に係る対話予兆検知装置1bでは、出力内容判断部13bの具体的な動作が、実施の形態1にて説明した、対話予兆検知装置1の出力内容判断部13の具体的な動作とは異なる。
 実施の形態3において、対話予兆検知装置1bは、車両に搭載されることを想定している。実施の形態3において、対話予兆検知装置1bのユーザは、車両の運転者または同乗者等、車両の乗員とする。
 周辺状態情報取得部17は、乗員周辺の状態に関する情報(以下「周辺状態情報」という。)を取得する。周辺状態情報は、例えば、車両の現在位置情報、車両周辺の地図情報、車両の案内経路情報、または、車速情報を含む。また、周辺状態情報は、乗員の視線方向等、乗員自身の状態に関する情報も含む。
 周辺状態情報取得部17は、例えば、車両の現在位置情報、または、車両の案内経路情報を、カーナビゲーションシステム(図示省略)から取得する。周辺状態情報取得部17は、例えば、車速情報を、車両に搭載されている車速センサ(図示省略)から、CAN(Controller Area Network)通信によって取得する。周辺状態情報取得部17は、例えば、乗員の視線方向を、情報取得部11から取得する。
 周辺状態情報取得部17は、取得した周辺状態情報を、出力方法判断部18に出力する。
 出力方法判断部18は、周辺状態情報取得部17が取得した周辺状態情報に基づいて、出力内容判断部13bが出力する装置状態情報の出力方法を判断する。具体的には、出力方法判断部18は、周辺状態情報に基づいて、出力内容判断部13bが、「対話受付状態」である旨の装置状態情報を出力する際の、当該装置状態情報の出力方法を判断する。
 実施の形態3では、出力内容判断部13bは、対話予兆検知装置1bが「対話受付状態」であると判断すると、まず、「対話受付状態」であることを示す装置状態情報を、出力方法判断部18に出力する。出力方法判断部18は、出力内容判断部13bから装置状態情報が出力されると、周辺状態情報に基づいて、当該装置状態情報の出力方法を判断する。出力方法判断部18は、装置状態情報の出力方法を判断すると、判断した出力方法を出力内容判断部13bに通知する。出力内容判断部13bは、出力方法判断部18から通知された方法に従って、装置状態情報を出力する。
 なお、実施の形態3において、出力方法判断部18が判断する出力方法とは、装置状態情報をどの出力装置4から出力するか、である。出力方法判断部18が判断した出力装置4において、どのような形態で装置状態情報を出力するかは、予め決められているものとしてもよいし、出力内容判断部13bが適宜判断してもよい。例えば、出力方法判断部18が、装置状態情報を表示装置から出力すると判断した場合、表示装置において、装置状態情報をアイコンで表示させるか、文字で表示させるか等は、出力内容判断部13bが適宜判断すればよい。
 出力方法判断部18が判断する、装置状態情報の出力方法について、いくつか例を挙げて説明する。なお、以下の例では、出力装置4は、表示装置およびスピーカとし、出力内容判断部13bは、装置状態情報を表示装置に表示すること、または、装置状態情報をスピーカから出力することができるとする。
 例えば、出力方法判断部18は、出力内容判断部13bが「対話受付状態」である旨の装置状態情報を出力する際に、乗員の視線方向が表示装置の方向となっている場合、乗員は表示装置を注視する余裕があると推定されるため、当該装置状態情報について、表示装置への表示のみ行うと判断する。一方、出力方法判断部18は、乗員の視線方向が出力装置4の方向になっていない場合は、乗員は表示装置を注視する余裕がないと推定されるため、当該装置状態情報について、表示装置への表示に加え、スピーカからの音声出力を行うと判断する。
 なお、出力方法判断部18が、どのような場合に、乗員の視線方向が表示装置の方向となっていると判断するかは、適宜設定可能である。出力方法判断部18は、例えば、出力内容判断部13bから装置状態情報が出力された時点で、乗員の視線方向が表示装置の方向となっているか否かによって、乗員の視線方向が表示装置の方向となっているか否かを判断すればよい。出力方法判断部18は、例えば、出力内容判断部13bから装置状態情報が出力されてから一定時間、乗員の視線方向が表示装置の方向となっている状態が継続しているか否かによって、乗員の視線方向が表示装置の方向となっているか否かを判断してもよい。
 また、例えば、出力方法判断部18は、出力内容判断部13bが「対話受付状態」である旨の装置状態情報を出力する際に、車両が停車中である場合、乗員は表示装置を注視する余裕があると推定されるため、当該装置状態情報について、表示装置への表示のみ行うと判断する。なお、出力方法判断部18は、周辺状態情報に基づき、例えば、車速がゼロである場合に、車両は停車中であると判断する。
 また、例えば、出力方法判断部18は、出力内容判断部13bが「対話受付状態」である旨の装置状態情報を出力する際に、車両が交差点を曲がろうとしていた場合、乗員は表示装置を注視することが難しいと推定されるため、当該装置状態情報について、表示装置への表示に加え、スピーカからの音声出力を行うと判断する。なお、出力方法判断部18は、例えば、周辺状態情報に含まれる、車両の現在位置情報と地図情報とに基づき、車両が交差点を曲がろうとしていると判断する。
 また、例えば、出力方法判断部18は、出力内容判断部13bが「対話受付状態」である旨の装置状態情報を出力する際に、車両が案内経路上にない場合、乗員は表示装置を注視する余裕がないと推定されるため、当該装置状態情報について、表示装置への表示に加え、スピーカからの音声出力を行うと判断する。なお、出力方法判断部18は、例えば、周辺状態情報に含まれる、車両の現在位置情報と案内経路情報とに基づき、車両が案内経路上にあるか否かを判断する。
 以上の例では、出力方法判断部18は、装置状態情報の出力方法を、表示のみ、または、表示および音声出力のいずれかと判断する例を挙げたが、これらは一例に過ぎない。出力方法判断部18は、装置状態情報の出力方法を、音声出力のみと判断してもよい。出力方法判断部18は、種々の周辺状態情報を組み合わせて、適宜、装置状態情報の出力方法を変更することができる。
 図11は、実施の形態3に係る対話予兆検知装置1bの動作を説明するためのフローチャートである。
 対話予兆検知装置1bは、例えば、電源が投入されると、電源が投入されている間、図11のフローチャートにて説明する動作を行う。
 図11のステップST1101~ステップST1103、ステップST1106~ステップST1108の具体的な動作は、実施の形態1にて説明した、図2のステップST201~ステップST203、ステップST205~ステップST207の具体的な動作と同様であるため、重複した説明を省略する。
 ステップST1103において、乗員による対話予兆があると検知した場合(ステップST1103の“YES”の場合)、対話予兆検知部12は、対話予兆がある旨の予兆検知結果情報を出力内容判断部13bに出力する。そして、対話予兆検知装置1の動作は、ステップST1104へ進む。
 出力内容判断部13bは、ステップST1103にて対話予兆検知部12から出力された予兆検知結果情報に基づき、対話予兆検知装置1は「対話受付状態」であると判断する。出力内容判断部13bは、対話予兆検知装置1bが「対話受付状態」であることを示す装置状態情報を、出力方法判断部18に出力する。
 出力方法判断部18は、出力内容判断部13bから装置状態情報が出力されると、周辺状態情報に基づいて、当該装置状態情報の出力方法を判断する(ステップST1104)。
 なお、周辺状態情報取得部17は、ステップST1104の動作が行われるまでに周辺状態情報を取得している。
 出力方法判断部18は、装置状態情報の出力方法を判断すると、判断した出力方法を出力内容判断部13bに通知する。
 出力内容判断部13bは、ステップST1104にて出力方法判断部18から通知された方法に従って、「対話受付状態」であることを示す装置状態情報を、出力装置4に出力する(ステップST1105)。
 図12は、実施の形態3に係る対話予兆検知装置1bにおいて、乗員の対話予兆があると検知し、「対話待機状態」であることを示す装置状態情報を出力した場合に、出力装置4から出力される情報の一例のイメージを説明するための図である。
 図12Aは、「対話待機状態」であることを示す装置状態情報を出力する際、乗員の視線方向が表示装置の方向である場合に、出力装置4から出力される情報の一例のイメージを示し、図12Bは、「対話待機状態」であることを示す装置状態情報を出力する際、乗員の視線方向が表示装置の方向ではない場合に、出力装置4から出力される情報の一例のイメージを示している。
 図12では、対話予兆検知装置1bが対話予兆を検知する乗員は、助手席の同乗者としている。
 また、図12では、一例として、出力装置4は、表示装置およびスピーカとし、スピーカは表示装置に搭載されているものとしている。また、出力方法判断部18は、装置状態情報について、乗員の視線方向が表示装置の方向となっている場合は表示装置への表示のみ行い、乗員の視線方向が表示装置の方向になっていない場合は、表示装置への表示に加え、スピーカからの音声出力を行うと判断するものとする。
 また、出力内容判断部13bは、装置状態情報を表示装置に表示させる際は文字にて表示させ、装置状態情報をスピーカから出力させる際は音声メッセージを音声出力させるものとする。
 図12Aに示す状態では、乗員の視線方向が表示装置の方向であるため、出力方法判断部18は、装置状態情報を表示のみで出力すると判断する。出力内容判断部13bは、表示装置に「対話受付状態」との文字を表示する表示のみ行う。
 図12Bに示す状態では、乗員の視線方向が表示装置の方向ではないため、出力方法判断部18は、装置状態情報を表示と音声出力によって出力させると判断する。出力内容判断部13bは、表示装置に「対話受付状態」との文字を表示させるとともに、スピーカから「対話受付状態」であることを通知する音声メッセージを音声出力させる。
 このように、対話予兆検知装置1bは、「対話受付状態」であることを示す装置状態情報を出力する際の出力方法を判断した上で、装置状態情報を出力する。これにより、対話予兆検知装置1bは、「対話受付状態」となったことを、乗員に負担をかけることなく知らせることができる。
 なお、実施の形態3において、対話予兆検知装置1bは、実施の形態1に係る対話予兆検知装置1同様、検知した対話予兆が誤検知であったか否かを判断する機能を有する構成とすることもできる(図4参照)。
 また、以上で説明した実施の形態3に係る対話予兆検知装置1bの構成を、実施の形態2にて説明した対話予兆検知装置1aに適用してもよい。
 この場合、例えば、周辺状態情報取得部17は、複数対象検知部111から、検知した複数の乗員、および、当該複数の乗員の位置に関する情報を、周辺状態情報として取得し、出力方法判断部18は、乗員の位置に基づいて、装置状態情報の出力方法を判断するようにしてもよい。
 具体的には、出力方法判断部18は、例えば、対話予兆が検知された乗員が運転者である場合、運転者の視線方向が表示装置の方向であったとしても、装置状態情報を表示することに加え、音声によって出力すると判断する。
 また、以上の実施の形態3では、出力方法判断部18は、出力内容判断部13bが「対話受付状態」である旨の装置状態情報を出力する際に、当該装置状態情報を出力する方法を判断するものとしたが、これは一例に過ぎない。出力方法判断部18は、「対話受付状態」である旨の装置状態情報を出力する際に加え、出力内容判断部13bが「対話待機状態」である旨の装置状態情報を出力する際にも、当該装置状態情報の出力方法を判断するようにしてもよい。また、出力方法判断部18は、「対話受付状態」である旨の装置状態情報を出力する際に加え、出力内容判断部13bの応答内容生成部131が応答内容情報を出力する際にも、当該応答内容情報の出力方法を判断するようにしてもよい。
 以上のように、実施の形態3によれば、対話予兆検知装置1bは、人(ユーザ)の周辺の状態に関する周辺状態情報を取得する周辺状態情報取得部17と、周辺状態情報取得部17が取得した周辺状態情報に基づいて、出力内容判断部13bが出力する、対話受付状態である旨を示す情報の出力方法を判断する出力方法判断部18を備えるように構成した。そのため、対話予兆検知装置1bは、「対話受付状態」となったことを、人に、負担をかけることなく知らせることができる。
 図13A,図13Bは、実施の形態1~実施の形態3に係る対話予兆検知装置1,1a,1bのハードウェア構成の一例を示す図である。実施の形態1に係る対話予兆検知装置1と、実施の形態2に係る対話予兆検知装置1aと、実施形態3に係る対話予兆検知装置1bとは、同様のハードウェア構成を有する。
 実施の形態1~実施の形態3において、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18の機能は、処理回路1301により実現される。すなわち、対話予兆検知装置1,1a,1bは、人による対話予兆があるか否かを検知し、人による対話予兆があると検知した場合に、「対話受付状態」となったことを人に知らせるための情報を出力する制御を行うための処理回路1301を備える。
 処理回路1301は、図13Aに示すように専用のハードウェアであっても、図13Bに示すようにメモリ1306に格納されるプログラムを実行するCPU(Central Processing Unit)1305であってもよい。
 処理回路1301が専用のハードウェアである場合、処理回路1301は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。
 処理回路1301がCPU1305の場合、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18は、メモリ1306等に記憶されたプログラムを実行するCPU1305、またはシステムLSI(Large-Scale Integration)等の処理回路により実現される。また、メモリ1306等に記憶されたプログラムは、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18の手順や方法をコンピュータに実行させるものであるとも言える。ここで、メモリ1306とは、例えば、RAM、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)等が該当する。
 また、記憶部16は、メモリ1306を使用する。なお、これは一例であって、記憶部16は、HDD1302、SSD(Solid State Drive)、または、DVD等によって構成されるものであってもよい。
 なお、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、情報取得部11,11aと、音声受付部14と、周辺状態情報取得部17については専用のハードウェアとしての処理回路1301でその機能を実現し、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声認識部15と、出力方法判断部18については処理回路1301がメモリ1306に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
 また、対話予兆検知装置1,1a,1bは、センサ2、マイク3、出力装置4、または、ナビゲーションシステム等との通信を行う、入力インタフェース装置1303、および、出力インタフェース装置1304を有する。
 以上の実施の形態1~3では、対話予兆検知装置1,1a,1bは、車両に搭載される車載装置とし、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18とは、対話予兆検知装置1,1a,1bに備えられているものとした。これに限らず、情報取得部11,11aと、対話予兆検知部12,12aと、出力内容判断部13,13a,13bと、音声受付部14と、音声認識部15と、周辺状態情報取得部17と、出力方法判断部18のうち、一部を車両の車載装置に搭載されるものとし、その他を当該車載装置とネットワークを介して接続されるサーバに備えられるものとして、車載装置とサーバとで対話予兆検知システムを構成するようにしてもよい。
 また、以上の実施の形態1~3に係る対話予兆検知装置1,1a,1bを、スマートフォン、タブレットPC、または、携帯電話等の携帯情報端末等にインストールされる、対話予兆検知システムのアプリケーション等に適用してもよい。
 また、以上の実施の形態1~3では、対話予兆検知装置1,1a,1bのユーザは車両の乗員とし、対話予兆検知装置1,1a,1bが有する機能は車両にて使用されるものとしたが、これは一例に過ぎない。
 例えば、対話予兆検知装置1,1a,1bのユーザは住居の住人等であり、対話予兆検知装置1,1a,1bは居室にて使用されるものとしてもよい。この場合、対話予兆検知装置1,1a,1bは、居室に存在する住人等による対話予兆があるか否かを検知し、対話予兆を検知した場合に、住人等に対して、「対話待機状態」であることを示す情報を出力する。
 また、以上の実施の形態1~3では、対話予兆検知装置1,1a,1bは、音声認識部15を備えるものとしたが、対話予兆検知装置1,1a,1bは、音声認識部15を備えない構成としてもよい。すなわち、対話予兆検知装置1,1a,1bは、音声認識機能を有しないものとしてもよい。この場合、対話予兆検知装置1,1a,1bは、ユーザによる対話予兆があると検知した後、音声認識処理を行わない。
 例えば、対話予兆検知装置1,1a,1bは、インカーコミュニケーション機能における後方の乗員との対話、または、オペレータサービス機能におけるコールセンターのオペレータとの対話のように、機械を経由してユーザと対話する装置に適用することができる。この場合、対話予兆検知装置1,1a,1bは、音声受付部14および音声認識部15を備えない構成とすることができる。
 具体的には、対話予兆検知装置1,1a,1bにおいて、対話予兆検知部12,12aがユーザによる対話予兆があると検知した場合、出力内容判断部13,13a,13bは、「対話受付状態」であることを示す装置状態情報を出力装置4に出力する。これにより、対話予兆検知装置1,1a,1bは、ユーザに対して、当該ユーザにとっての所定の対話対象に音声が送信される状態となったことを知らせる。
 対話予兆検知装置1,1a,1bは、音声受付部14が受け付けた、マイク3にて取得された音声を、所定の対話対象に出力する。
 なお、対話予兆検知装置1,1a,1bは、マイク3にて取得された音声をそのまま出力してもよいし、信号処理した上で出力してもよい。信号処理とは、例えば、雑音、または、対話予兆があると検知したユーザの対話による音声以外の音声の除去である。また、対話予兆検知装置1,1a,1bは、対話予兆があると検知した後の、ユーザの対話による音声の音量レベル等からユーザの対話区間を推定し、ユーザの対話部分のみを出力してもよい。
 また、対話予兆検知装置1,1a,1bのユーザが複数人想定される場合、対話予兆検知装置1,1a,1bにおいて、出力内容判断部13,13a,13bは、それぞれ異なる提示をできるように、装置状態情報を出力することができる。また、対話予兆検知装置1,1a,1bにおいて、複数人のユーザのうち、対話予兆を検知する対象とするユーザが特定できない場合、出力内容判断部13,13a,13bは、対話予兆を検知する対象とするユーザが特定できない旨の情報を出力装置4に送信し、ユーザに対して、対話予兆を検知する対象とするユーザを確認するための応答をするようにしてもよい。
 なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 本開示に係る対話予兆検知装置は、人に対して、どの時点で音声の受付が開始されたかが把握可能な情報を提供することができるに構成したため、人による対話の予兆を検知する対話予兆検知装置に適用することができる。
 1,1a,1b 対話予兆検知装置、2 センサ、3 マイク、4 出力装置、11,11a 情報取得部、111 複数対象検知部、12,12a 対話予兆検知部、13,13a,13b 出力内容判断部、131 応答内容生成部、132 優先度判断部、14 音声受付部、15 音声認識部、151 音声削除部、16 記憶部、17 周辺状態情報取得部、18 出力方法判断部、1301 処理回路、1302 HDD、1303 入力インタフェース装置、1304 出力インタフェース装置、1305 CPU、1306 メモリ。

Claims (10)

  1.  人の挙動に関する挙動情報を取得する情報取得部と、
     前記情報取得部が取得した挙動情報に基づき、前記人による対話予兆があるか否かを検知する対話予兆検知部と、
     前記対話予兆検知部が、前記人による対話予兆があると検知した場合に、対話受付状態である旨を示す情報を出力する出力内容判断部
     とを備えた対話予兆検知装置。
  2.  音声を受け付ける音声受付部と、
     前記音声受付部が受け付けた音声を認識する音声認識部と、
     前記音声認識部による前記音声の認識結果に基づき、前記人への応答内容を示す応答内容情報を生成する応答内容生成部
     とを備えた請求項1記載の対話予兆検知装置。
  3.  前記出力内容判断部は、
     前記対話予兆検知部が、前記人による対話予兆を検知しなかった場合、対話待機状態である旨を示す情報を出力する
     ことを特徴とする請求項1記載の対話予兆検知装置。
  4.  前記音声受付部は、
     前記対話予兆検知部が、前記人による対話予兆を検知すると、前記音声の受付を開始する
     ことを特徴とする請求項2記載の対話予兆検知装置。
  5.  前記対話予兆検知部が検知した前記対話予兆は誤検知であるか否かを判断する誤検知判断部と、
     前記誤検知判断部が前記対話予兆は誤検知であると判断した場合、前記音声受付部が受付済みの音声に関する情報を削除する音声削除部
     とを備えた請求項4記載の対話予兆検知装置。
  6.  異なる場所にいる複数の人を検知する複数対象検知部を備え、
     前記対話予兆検知部は、
     前記複数対象検知部が検知した複数の人による対話予兆を検知する
     ことを特徴とする請求項1記載の対話予兆検知装置。
  7.  前記出力内容判断部は、
     前記複数対象検知部が検知した複数の人のうち、前記対話予兆検知部が前記対話予兆を検知した人について、当該人に関する情報を、前記対話受付状態である旨を示す情報とともに出力する
     ことを特徴とする請求項6記載の対話予兆検知装置。
  8.  前記複数対象検知部が複数の人を検知し、かつ、前記対話予兆検知部が複数の人による対話予兆を検知した場合、前記対話予兆検知部が対話予兆を検知した複数の人について優先度を判断する優先度判断部
     を備えた請求項6記載の対話予兆検知装置。
  9.  前記人の周辺の状態に関する周辺状態情報を取得する周辺状態情報取得部と、
     前記周辺状態情報取得部が取得した周辺状態情報に基づいて、前記出力内容判断部が出力する、前記対話受付状態である旨を示す情報の出力方法を判断する出力方法判断部
     を備えた請求項1記載の対話予兆検知装置。
  10.  情報取得部が、人の挙動に関する挙動情報を取得するステップと、
     対話予兆検知部が、前記情報取得部が取得した挙動情報に基づき、前記人による対話予兆があるか否かを検知するステップと、
     出力内容判断部が、前記対話予兆検知部が前記人による対話予兆があると検知した場合に、対話受付状態である旨を示す情報を出力するステップ
     とを備えた対話予兆検知方法。
PCT/JP2020/019888 2020-05-20 2020-05-20 対話予兆検知装置、および、対話予兆検知方法 WO2021234839A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/019888 WO2021234839A1 (ja) 2020-05-20 2020-05-20 対話予兆検知装置、および、対話予兆検知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/019888 WO2021234839A1 (ja) 2020-05-20 2020-05-20 対話予兆検知装置、および、対話予兆検知方法

Publications (1)

Publication Number Publication Date
WO2021234839A1 true WO2021234839A1 (ja) 2021-11-25

Family

ID=78708283

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/019888 WO2021234839A1 (ja) 2020-05-20 2020-05-20 対話予兆検知装置、および、対話予兆検知方法

Country Status (1)

Country Link
WO (1) WO2021234839A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009653A1 (ja) * 2022-07-04 2024-01-11 ソニーグループ株式会社 情報処理装置、情報処理方法、及び情報処理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009653A1 (ja) * 2022-07-04 2024-01-11 ソニーグループ株式会社 情報処理装置、情報処理方法、及び情報処理システム

Similar Documents

Publication Publication Date Title
EP3742255B1 (en) Methods and apparatus to operate closed-lid portable computers
US9218812B2 (en) Vehicular device, server, and information processing method
US9881605B2 (en) In-vehicle control apparatus and in-vehicle control method
EP3165994B1 (en) Information processing device
US9318006B2 (en) Systems and methods for haptic confirmation of commands
JP6178198B2 (ja) 音声翻訳システム、方法およびプログラム
CN113486760A (zh) 对象说话检测方法及装置、电子设备和存储介质
US10490188B2 (en) System and method for language selection
KR20160053596A (ko) 디바이스가 다른 디바이스를 제어하는 방법 및 그 디바이스
US20220005469A1 (en) Providing Interactive Feedback, on a Spoken Announcement, for Vehicle Occupants
WO2021234839A1 (ja) 対話予兆検知装置、および、対話予兆検知方法
CN113488043B (zh) 乘员说话检测方法及装置、电子设备和存储介质
CN113539265B (zh) 一种控制方法、装置、设备及存储介质
CN111045512B (zh) 车辆、输出车辆的信息的方法及计算机可读记录介质
JP2016133378A (ja) カーナビゲーション装置
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
US20230003535A1 (en) Rendezvous assistance system and rendezvous assistance method
WO2018033068A1 (en) Apparatus and method for facilitating return of a mobile device
KR20190074344A (ko) 대화 시스템 및 대화 처리 방법
JP2019149023A (ja) 運転支援方法、車両、及び運転支援システム
US11209960B2 (en) Control method of terminal device
KR101981316B1 (ko) 이동 단말기 및 이동 단말기의 제어 방법
KR20160133780A (ko) 차량 및 이의 제어방법
WO2018056169A1 (ja) 対話装置、処理方法、プログラム
KR101607977B1 (ko) 차량 제어 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20937002

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20937002

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP