WO2022038724A1 - 音声対話装置、および、音声対話装置における対話対象判定方法 - Google Patents

音声対話装置、および、音声対話装置における対話対象判定方法 Download PDF

Info

Publication number
WO2022038724A1
WO2022038724A1 PCT/JP2020/031359 JP2020031359W WO2022038724A1 WO 2022038724 A1 WO2022038724 A1 WO 2022038724A1 JP 2020031359 W JP2020031359 W JP 2020031359W WO 2022038724 A1 WO2022038724 A1 WO 2022038724A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
voice
response
utterance
unit
Prior art date
Application number
PCT/JP2020/031359
Other languages
English (en)
French (fr)
Inventor
政信 大澤
直哉 馬場
友紀 古本
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/031359 priority Critical patent/WO2022038724A1/ja
Publication of WO2022038724A1 publication Critical patent/WO2022038724A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present disclosure relates to a voice dialogue device and a dialogue target determination method in the voice dialogue device.
  • Patent Document 1 discloses a voice recognition device that determines whether or not an utterance by a speaker is an utterance to a dialogue device.
  • the voice recognition device disclosed in Patent Document 1 determines whether or not the utterance by the speaker is an utterance to the dialogue device based on the voice signal characteristics of the speaker such as the change in pitch frequency, the speed of utterance, or the volume. Judge. Specifically, for example, the voice recognition device disclosed in Patent Document 1 determines whether the change in the pitch frequency of the utterance of the speaker is within a predetermined range, and the change is within a predetermined range. For example, it is determined that the utterance by the speaker is the utterance to the dialogue device.
  • the utterance by the speaker is directed to the person other than the speaker depending on whether or not a person other than the speaker responds to the utterance within a predetermined time. Determine if it is an utterance or an utterance to a dialogue device.
  • the voice disclosed in Patent Document 1 is used when determining whether the dialogue request utterance by the speaker is a dialogue request utterance to the voice dialogue device or a dialogue request utterance to a person other than the speaker.
  • the voice uttering device may make an erroneous judgment when judging from the voice signal characteristics of the speaker as in the recognition device. For example, when the speaker speaks without inflection, the voice dialogue device may respond even if the dialogue request is made to a person other than the speaker.
  • the speaker when it utters with intonation, even if it is a dialogue request utterance to the voice dialogue device, it may be a dialogue request utterance to a person other than the speaker, and a person other than the speaker. May wait for a response.
  • This disclosure is made in order to solve the above-mentioned problems, and whether the dialogue request utterance by the speaker is a dialogue request utterance to a voice dialogue device or a dialogue request utterance to a person other than the speaker. It is an object of the present invention to provide a voice dialogue device capable of reducing erroneous determination as compared with the conventional determination technique.
  • the voice dialogue device is a voice dialogue device, which includes a voice acquisition unit that acquires spoken voice, a speaker identification unit that identifies a speaker based on the spoken voice acquired by the voice acquisition unit, and voice acquisition. Dialogue request by the user based on the voice recognition unit that performs voice recognition for the spoken voice acquired by the unit, the information about the speaker specified by the speaker identification unit, and the voice recognition result performed by the voice recognition unit.
  • a dialogue request detection unit that detects a speech
  • a response sign detection unit that detects a response sign by another user based on occupant status information indicating the status of another user when the dialogue request detection unit detects a dialogue request speech
  • a response sign detection unit that detects a response sign by another user based on occupant status information indicating the status of another user when the dialogue request detection unit detects a dialogue request speech.
  • the response sign detection unit detects a response sign by another user
  • the response is determined after the response sign is detected based on the information about the speaker specified by the speaker identification unit and the voice recognition result performed by the voice recognition unit.
  • the response detection unit that determines whether or not the other user has detected a voice within the usage time, the detection result of whether or not the response sign detection unit has detected the response sign, and the response detection unit detects the speech by the other user.
  • the dialogue request utterance detected by the dialogue request detection unit has a dialogue target determination unit that determines whether it is for the voice dialogue device or for other users. It is prepared.
  • the voice dialogue device is a conventional determination technique for determining whether a dialogue request utterance by a speaker is a dialogue request utterance to a voice dialogue device or a dialogue request utterance to a person other than the speaker. It is possible to reduce erroneous determination.
  • FIG. 4A and 4B are diagrams showing an example of the hardware configuration of the voice dialogue device according to the first embodiment.
  • FIG. 1 is a diagram showing a configuration example of the voice dialogue device 1 according to the first embodiment.
  • the voice dialogue device 1 is mounted on the vehicle.
  • the user of the voice dialogue device 1 is a vehicle occupant.
  • the voice dialogue device 1 when there is a dialogue request utterance by a certain occupant (hereinafter referred to as "dialogue request occupant") among the occupants existing in the vehicle, the dialogue request utterance is the voice dialogue device 1.
  • dialogue request utterance means an utterance made by the speaker in anticipation of a response from another person, as described above.
  • dialogue request utterance means an utterance that another person needs to respond to.
  • dialogue request utterance is an utterance such as "Hey,” or "I wonder if there is a supermarket around here.”
  • the other includes the other occupant and the voice dialogue device 1.
  • the voice dialogue device 1 determines whether the dialogue request utterance by the dialogue request occupant is the dialogue request utterance to the voice dialogue device 1 or the dialogue request utterance to the other occupants, in response to the dialogue request utterance by the dialogue request occupant.
  • the detection result of whether or not the response sign (hereinafter referred to as "response sign") is detected, and whether the utterance by other occupants is detected within a predetermined time (hereinafter referred to as "response determination time"). Judgment is made based on the judgment result of whether or not.
  • the details of the determination by the voice dialogue device 1 whether the dialogue request utterance is for the voice dialogue device 1 or for other occupants will be described later.
  • the determination of whether the dialogue request utterance performed by the voice dialogue device 1 is for the voice dialogue device 1 or for other occupants is also referred to as "dialogue target determination".
  • the voice dialogue device 1 determines that the dialogue request utterance is a dialogue request utterance to the voice dialogue request occupant, and determines that the dialogue request utterance is a response to the dialogue request utterance. return it.
  • the voice dialogue device 1 is installed in, for example, an in-vehicle car navigation device installed on a dashboard of a vehicle.
  • the voice dialogue device 1 is connected to the microphone 2, the image pickup device 3, and the output device 4.
  • the microphone 2 collects utterance voices by an occupant sitting in the vehicle.
  • the microphone 2 is, for example, an array microphone including a plurality of omnidirectional microphones.
  • the microphone 2 is an array microphone, and the array microphone is installed on the upper part of the rearview mirror. Note that this is only an example, and the array microphone may be installed in a place other than the upper part of the rearview mirror. For example, the array microphone may be located in the center of the dashboard.
  • the array microphone may be capable of collecting spoken voices by occupants sitting in the vehicle.
  • the array microphone outputs the collected utterance voice to the voice dialogue device 1.
  • the image pickup device 3 is installed in the vehicle and captures at least the face of the occupant seated in the vehicle.
  • the image pickup device 3 is installed, for example, on the dashboard or ceiling of the vehicle. It should be noted that this is only an example, and the image pickup device 3 may be installed at least in a place where the face of the occupant seated in the vehicle can be imaged.
  • the image pickup device 3 outputs the captured image (hereinafter referred to as "in-vehicle image capture image”) to the voice dialogue device 1.
  • the output device 4 is, for example, a speaker or a display device installed in the vehicle.
  • the output device 4 is mounted on, for example, an in-vehicle car navigation device installed on the dashboard of a vehicle.
  • the output device 4 outputs the response information output from the voice dialogue device 1.
  • the speaker outputs the response information by voice.
  • the display device displays the response information. The details of the response information output from the voice dialogue device 1 will be described later.
  • the voice dialogue device 1 includes a voice acquisition unit 11, a speaker identification unit 12, a voice recognition unit 13, a dialogue request detection unit 14, a state information acquisition unit 15, a response sign detection unit 16, a dialogue target determination unit 17, and a response generation unit 18. , And a response output unit 19.
  • the dialogue target determination unit 17 includes a response detection unit 171.
  • the voice acquisition unit 11 acquires the utterance voice collected by the array microphone.
  • the voice acquisition unit 11 outputs the acquired utterance voice to the speaker identification unit 12.
  • the speaker identification unit 12 identifies the speaker based on the utterance voice acquired by the voice acquisition unit 11. Specifically, the speaker identification unit 12 identifies the speaker together with the position of the speaker. For example, the speaker identification unit 12 analyzes the characteristics of the sound, such as frequency analysis, with respect to the spoken voice acquired by the voice acquisition unit 11. The speaker identification unit 12 may analyze the spoken voice by using a known voice analysis technique. Then, the speaker identification unit 12 identifies the speaker based on the analysis result for the spoken voice.
  • the speaker identification unit 12 specifies the direction of the sound source based on the analysis result of the spoken voice.
  • the speaker identification unit 12 may specify the direction of the sound source based on the analysis result of the utterance voice acquired from the array microphone by using a known technique.
  • the speaker specifying unit 12 specifies the direction of the sound source, the speaker specifying unit 12 identifies the occupant existing in the specified direction as the speaker.
  • the array microphone is installed on the upper part of the rear-view mirror. Therefore, for example, in the speaker identification unit 12, the direction of the sound source is the direction of the array microphone in the vehicle with respect to the array microphone. If it is in front of the right side of a straight line passing through the center and parallel to the direction of travel of the vehicle, the speaker identifies the first occupant, in other words, the driver sitting in the driver's seat. On the other hand, in the speaker identification unit 12, when the direction of the sound source is the front left side of the straight line passing through the center of the array microphone and parallel to the traveling direction of the vehicle in the vehicle, the speaker is the speaker. Identify the second occupant, in other words, the occupant seated in the passenger seat. In the first embodiment, it is assumed that the vehicle has a right-hand drive. Further, in the first embodiment, "parallel” is not limited to strictly “parallel”, but also includes “substantially parallel”.
  • the speaker identification unit 12 outputs information indicating the specified speaker (hereinafter referred to as “speaker information”) to the voice recognition unit 13.
  • the speaker information is, for example, a seat ID associated with each seat.
  • the seat ID is set in advance.
  • the voice recognition unit 13 performs voice recognition on the utterance voice acquired by the voice acquisition unit 11 and recognizes the utterance content.
  • the voice recognition unit 13 may recognize the utterance content by using the existing voice recognition technology.
  • the voice recognition unit 13 may acquire the utterance voice acquired by the voice acquisition unit 11 via the speaker identification unit 12.
  • the voice recognition unit 13 performs voice recognition on the spoken voice acquired by the voice acquisition unit 11 without receiving an instruction to start voice recognition by the user, such as pressing a button displayed on the display device.
  • the voice recognition result of the utterance content by the voice recognition unit 13 includes a character string indicating the utterance content.
  • the voice recognition unit 13 outputs information in which the voice recognition result of the utterance content and the information indicating the speaker are associated with each other as voice-related information to the dialogue request detection unit 14 and the dialogue target determination unit 17.
  • the information indicating the speaker is information about the speaker specified by the speaker specifying unit 12.
  • the dialogue request detection unit 14 is based on the voice-related information output from the voice recognition unit 13, in other words, based on the information about the speaker specified by the speaker identification unit 12 and the voice recognition result performed by the voice recognition unit 13. , Dialogue request Detects dialogue request utterances by occupants. Specifically, the dialogue request detection unit 14 determines, for example, whether or not the utterance content based on the voice recognition result and the preset utterance (hereinafter referred to as “dialogue request determination utterance”) match. By doing so, the dialogue request utterance is detected.
  • the utterance for determining the dialogue request is set in advance to be an utterance presumed to be a dialogue request utterance.
  • the utterance for determining the dialogue request is, for example, "Hey” or "I wonder if there is a supermarket in this area".
  • the dialogue request detection unit 14 matches the utterance content based on the voice recognition result and the dialogue request determination utterance, it is assumed that the dialogue request utterance is detected. Then, the dialogue request detection unit 14 identifies which occupant is the dialogue request utterance based on the information indicating the speaker associated with the voice recognition result. That is, the dialogue request detection unit 14 identifies which occupant is the dialogue request occupant.
  • the dialogue request detection unit 14 estimates the intention of the utterance from the utterance content based on the voice recognition result, and the estimated intention and the preset intention of the utterance (hereinafter referred to as "dialogue request determination preparation diagram"). ) May be determined.
  • the dialogue request detection unit 14 may estimate the intention of the utterance by using a known intention estimation technique.
  • an intention presumed as an intention to utter a dialogue request is set in advance.
  • an intention presumed as an intention to make a dialogue request utterance for example, an intention of a facility search such as a restaurant search or a gas station search can be mentioned.
  • the dialogue request detection unit 14 matches the estimated intention of the utterance and the dialogue request determination preparation diagram, it is assumed that the dialogue request utterance is detected. Then, the dialogue request detection unit 14 identifies which occupant is the dialogue request utterance based on the information indicating the speaker associated with the voice recognition result. That is, the dialogue request detection unit 14 identifies which occupant is the dialogue request occupant.
  • the dialogue request detection unit 14 When the dialogue request detection unit 14 detects a dialogue request utterance, the dialogue request detection unit 14 outputs information regarding the detected dialogue request utterance (hereinafter referred to as “dialogue request utterance information”) to the response sign detection unit 16.
  • the dialogue request utterance information is information in which the dialogue request utterance and the speaker information of the dialogue request occupant are associated with each other.
  • the state information acquisition unit 15 acquires information on the state inside the vehicle (hereinafter referred to as "in-vehicle state information").
  • the state information acquisition unit 15 acquires the in-vehicle image captured as the in-vehicle state information from the image pickup device 3. Then, the state information acquisition unit 15 detects the state of the occupant based on the acquired in-vehicle state information, and acquires information indicating the state of the occupant (hereinafter referred to as "occupant state information").
  • the state information acquisition unit 15 performs known image recognition processing on the captured image in the vehicle, and detects the state of the occupant, for example.
  • the state of the occupant is the direction of the occupant's line of sight, the direction of the occupant's face, the facial expression of the occupant, the emotion of the occupant, the posture of the occupant, the gesture of the occupant, the degree of opening of the occupant, and the like.
  • the state information acquisition unit 15 detects the state of the occupant, it also detects the position of the occupant.
  • the state information acquisition unit 15 acquires the in-vehicle captured image as the in-vehicle state information from the image pickup device 3, but this is only an example.
  • the state information acquisition unit 15 may acquire the voice recognition result of the utterance content as the vehicle interior state information from the voice recognition unit 13.
  • the state information acquisition unit 15 detects the state of the occupant based on the voice recognition result of the utterance content.
  • the state information acquisition unit 15 detects the feeling that the occupant is surprised as the occupant's state.
  • the state information acquisition unit 15 may acquire distance information as vehicle interior state information from a distance sensor (not shown). In this case, the state information acquisition unit 15 detects the state of the occupant based on the distance information.
  • the state information acquisition unit 15 detects the posture of the occupant leaning forward as the occupant's state based on the distance information.
  • the state information acquisition unit 15 acquires two or more of the in-vehicle image, the voice recognition result of the utterance content, or the distance information as the in-vehicle state information, and combines the methods as described above to obtain the occupant's state. It may be detected.
  • the state information acquisition unit 15 is information on the line of sight of the occupant, information on the orientation of the occupant's face, information on the degree of opening of the occupant, information on the facial expression of the occupant, information on the emotion of the occupant, information on the attitude of the occupant, or information on the occupant's posture.
  • Information about the gesture and the like are output to the response sign detection unit 16 as occupant status information in association with information that can identify the occupant.
  • the occupant-identifiable information includes at least information indicating the position of the occupant.
  • the occupant status information may include at least one of the above-mentioned information.
  • the response sign detection unit 16 is among the occupant status information indicating the status of each occupant output from the status information acquisition unit 15 when the dialogue request detection unit 14 detects the dialogue request utterance by the dialogue request occupant. Based on the occupant status information indicating the status of, other occupant response signs are detected.
  • the response sign detection unit 16 includes other information on the occupant's line of sight, other information on the occupant's face orientation, other information on the occupant's opening degree, other information on the occupant's facial expression, and other information on the occupant's emotions, which are included in the occupant status information. , Other information about the occupant's posture, or at least one of the other information about the occupant's gesture may be used to detect other signs of response by the occupant. Since the response sign detection unit 16 can identify the dialogue request occupant based on the dialogue request utterance information output from the dialogue request detection unit 14, other occupants can also be specified based on the dialogue request utterance information.
  • the response sign detected by the response sign detection unit 16 is specifically a change in the state of the other occupant or the state of the other occupant, which suggests that the other occupant may respond to the dialogue request utterance. , Or other occupant's actions.
  • the response sign detection unit 16 is in a state in which other occupants are preset (hereinafter referred to as "predictive detection state") based on the occupant state information acquired from the state information acquisition unit 15, or is in the state of other occupants. It is determined whether there is a change or whether the occupant has performed a preset action (hereinafter referred to as "predictive detection action").
  • the response sign detection unit 16 determines that the other occupant is in the sign detection state, the other occupant's state has changed, or the other occupant has performed the sign detection action, the response sign detection unit 16 causes the response sign by the other occupant. It is assumed that it is detected.
  • the sign detection state means, for example, a state in which the opening degree is larger than a predetermined threshold value (hereinafter referred to as “opening determination threshold value”).
  • opening determination threshold value a predetermined threshold value
  • the sign detection state may be, for example, a predetermined emotion (hereinafter referred to as “predict detection emotion”) or a state expressing the sign detection emotion. .. Emotions for predictive detection are, for example, surprises.
  • a change in the occupant's condition means, for example, a change in the degree of opening, or a change in emotions or facial expressions.
  • the opening degree is defined in the range of 0 to 10
  • the facial expression or facial expression of the occupant changes from the emotion or facial expression expressing "calmness” to the emotion or facial expression expressing "surprise”
  • the state of the occupant is said to change.
  • the sign detection action means, for example, turning the line of sight, the direction of the face, or the posture toward the dialogue request uttering occupant.
  • the action for detecting a sign may be, for example, performing a gesture such as leaning forward, nodding, or clapping a hand.
  • the response sign detection unit 16 stores the occupant status information acquired from the status information acquisition unit 15 in association with the acquisition date and time of the occupant status information, and refers to the past occupant status information to refer to other occupants. It suffices to detect that there is a change in the state of the vehicle, or that the occupant has performed a sign detection action.
  • the response sign detection unit 16 outputs the detection result of whether or not the response sign of the other occupants has been detected to the dialogue target determination unit 17.
  • the dialogue target determination unit 17 determines whether the dialogue request utterance detected by the dialogue request detection unit 14 is for the voice dialogue device 1 or for other occupants. In other words, the dialogue target determination unit 17 determines the dialogue target.
  • the dialogue target determination unit 17 determines whether or not the response sign detection unit 16 outputs a detection result indicating that another occupant's response sign has been detected.
  • the dialogue target determination unit 17 determines that the response sign detection unit 16 does not output the detection result indicating that the response sign of the other occupant has been detected, in other words, the response sign of the other occupant has not been detected.
  • the detection result is output, it is determined that the dialogue request utterance is for the voice dialogue device 1.
  • the response detection unit 171 of the dialogue target determination unit 17 determines the response sign. Within the response determination time after the detection of the above, it is determined whether or not the other occupant's utterance is detected. Specifically, the response detection unit 171 is based on the voice-related information output from the voice recognition unit 13, in other words, the information about the speaker specified by the speaker identification unit 12 and the voice recognition performed by the voice recognition unit 13. Based on the result, it is determined whether or not the other occupant's utterance is detected within the response determination time after the response sign is detected.
  • the response sign detection unit 171 attaches information on the detection time and outputs the information indicating that the response sign has been detected.
  • the time when the response sign is detected may be specified based on the information output from the response sign detection unit 16.
  • the response detection unit 171 may set the time when the dialogue target determination unit 17 acquires the information that the response sign of the other occupant is detected from the response sign detection unit 16 as the time when the response sign is detected.
  • the dialogue target determination unit 17 is a case where the detection result indicating that the response sign of the other occupant is detected is output from the response sign detection unit 16, and after the response sign detection unit 171 detects the response sign. If the utterance by the other occupant is detected within the response determination time, it is determined that the dialogue request utterance is the dialogue request utterance to the other occupant. Even if the dialogue target determination unit 17 outputs a detection result indicating that another occupant's response sign has been detected from the response sign detection unit 16, the response detection unit 171 responds after the response sign is detected. If no other utterance by the occupant is detected within the determination time, it is determined that the dialogue request utterance is a dialogue request utterance for the voice dialogue device 1.
  • the dialogue target determination unit 17 determines that the dialogue request utterance is a dialogue request utterance to the voice dialogue device 1, information indicating that a response is required for the dialogue request utterance (hereinafter referred to as "response required information"). ) Is output to the response generation unit 18. The dialogue target determination unit 17 outputs the voice recognition result of the voice recognition of the dialogue request utterance to the response generation unit 18 in association with the response required information.
  • the response generation unit 18 When the response required information is output from the dialogue target determination unit 17, the response generation unit 18 generates response information regarding the response content to the dialogue request utterance. The response generation unit 18 outputs the generated response information to the response output unit 19.
  • the response output unit 19 outputs the response information to the output device 4.
  • the response output unit 19 may display the response information on the display device, or may output the response information by voice from the speaker.
  • FIG. 2 is a flowchart for explaining the operation of the voice dialogue device 1 according to the first embodiment.
  • the driver who is the first occupant makes a dialogue request utterance
  • the voice dialogue device 1 determines whether the dialogue request utterance is for the voice dialogue device 1 or the second occupant. It shall be determined whether it is for an occupant seated in a passenger seat. That is, in the following operation explanation, the dialogue request utterance occupant is the first occupant, and the other occupants are the second occupants.
  • the voice acquisition unit 11 acquires the utterance voice collected by the array microphone (step ST201).
  • the voice acquisition unit 11 outputs the acquired utterance voice to the speaker identification unit 12.
  • the speaker identification unit 12 identifies the speaker based on the utterance voice acquired by the voice acquisition unit 11 in step ST201 (step ST202).
  • the speaker identification unit 12 outputs the speaker information to the voice recognition unit 13.
  • the voice recognition unit 13 performs voice recognition on the utterance voice acquired by the voice acquisition unit 11 in step ST201, and recognizes the utterance content (step ST203).
  • the voice recognition unit 13 outputs information in which the voice recognition result of the utterance content and the information indicating the speaker are associated with each other as voice-related information to the dialogue request detection unit 14 and the dialogue target determination unit 17.
  • the dialogue request detection unit 14 is based on the voice-related information output from the voice recognition unit 13 in step ST203, in other words, the information about the speaker specified by the speaker identification unit 12 and the voice recognition performed by the voice recognition unit 13. Based on the result, it is determined whether or not the dialogue request utterance by the dialogue request occupant is detected. Here, the dialogue request detection unit 14 determines whether or not the dialogue request utterance by the first occupant has been detected (step ST204).
  • step ST204 When the dialogue request detection unit 14 does not detect the dialogue request utterance by the first occupant (when "NO” in step ST204), the operation of the voice dialogue device 1 returns to the operation of step ST201.
  • the dialogue request detection unit 14 detects the dialogue request utterance by the first occupant (when "YES” in step ST204)
  • the dialogue request detection unit 14 outputs the dialogue request utterance information to the response sign detection unit 16. .. Then, the operation of the voice dialogue device 1 proceeds to step ST205.
  • the response sign detection unit 16 detects a response sign by other occupants based on the occupant status information indicating the status of other occupants among the occupant status information indicating the status of each occupant output from the status information acquisition unit 15.
  • the response sign detection unit 16 detects the response sign by the second occupant (step ST205).
  • the state information acquisition unit 15 has acquired the occupant state information from the vehicle interior state information.
  • the response sign detection unit 16 outputs the detection result of whether or not the response sign of the other occupant, here, the second occupant, has been detected to the dialogue target determination unit 17.
  • the dialogue target determination unit 17 determines in step ST205 whether or not the response sign detection unit 16 outputs a detection result indicating that the response sign of the second occupant has been detected (step ST206). In step ST206, when the dialogue target determination unit 17 determines that the response sign detection unit 16 does not output the detection result indicating that the response sign of the second occupant has been detected, in other words, the response of the second occupant. When it is determined that the detection result indicating that the sign has not been detected is output (in the case of "NO" in step ST206), the operation of the voice dialogue device 1 proceeds to step ST208.
  • step ST206 when the dialogue target determination unit 17 determines that the response sign detection unit 16 has output a detection result indicating that the response sign of the second occupant has been detected (when "YES" in step ST206). ), The response detection unit 171 of the dialogue target determination unit 17 determines whether or not the utterance by the second occupant is detected within the response determination time after the response sign is detected (step ST207).
  • step ST207 when it is determined that the response detection unit 171 has detected the utterance by the second occupant within the response determination time after the response sign is detected (in the case of "YES" in step ST207), the dialogue target determination is performed.
  • the unit 17 determines that the dialogue request utterance is a dialogue request utterance to the second occupant (step ST209). Then, the operation of the voice dialogue device 1 ends the processing.
  • step ST207 when the response detection unit 171 determines that the utterance by the second occupant has not been detected within the response determination time after the response sign is detected (in the case of "NO" in step ST207), the voice dialogue The operation of the device 1 proceeds to step ST208.
  • step ST206 when the dialogue target determination unit 17 determines that the response sign detection unit 16 has not output a detection result indicating that the response sign of the second occupant has been detected (in the case of "NO" in step ST206).
  • step ST207 when the response detection unit 171 determines that the utterance by the second occupant has not been detected within the response determination time after the response sign is detected (in the case of "NO" in step ST207).
  • the dialogue target determination unit 17 determines that the dialogue request utterance is a dialogue request utterance for the voice dialogue device 1 (step ST208).
  • the dialogue target determination unit 17 outputs the response required information to the response generation unit 18. Then, the operation of the voice dialogue device 1 proceeds to step ST210.
  • the response generation unit 18 generates response information regarding the content of the response to the dialogue request utterance.
  • the response generation unit 18 outputs the generated response information to the response output unit 19.
  • the response output unit 19 outputs the response information to the output device 4 (step ST210).
  • the voice dialogue device 1 detects the response sign by the other occupants based on the occupant status information indicating the status of the other occupants.
  • the voice dialogue device 1 detects a response sign by another occupant, the dialogue target determination is made based on whether or not the other occupant's utterance is detected within the response determination time after the response sign is detected based on the voice-related information. I do.
  • the voice dialogue device 1 Assuming that the voice dialogue device 1 first tries to determine the dialogue target from the voice signal characteristics of the speaker as in the above-mentioned conventional technique, the voice dialogue device 1 has a dialogue request utterance for the voice dialogue device 1. There is a possibility of misjudging whether it is for the occupants or for other occupants.
  • the voice dialogue device 1 according to the first embodiment first determines the dialogue target depending on whether or not a response sign by another occupant is detected for the dialogue request utterance. As a result, the voice dialogue device 1 can perform the dialogue target determination with less erroneous determination than in the case of performing the dialogue target determination from the voice signal characteristics of the speaker as in the prior art.
  • the voice dialogue device 1 When the voice dialogue device 1 according to the first embodiment detects a response sign by another occupant, the dialogue target determination is made based on whether or not the other occupant's utterance is detected within the response determination time. I do. First, the voice dialogue device 1 can determine the dialogue target with less erroneous determination depending on whether or not a response sign by the other occupant is detected. As a result, the other occupant speaks within the response determination time. Dialogue target determination based on whether or not it is detected can also further reduce erroneous determination.
  • the voice dialogue device 1 determines that the dialogue request utterance is for the voice dialogue device 1 even though the dialogue request utterance is for other occupants, the voice dialogue device 1 makes a dialogue request. It returns a response to the utterance. This means that an unexpected response was made to the dialogue request speaker.
  • the voice dialogue device 1 determines a response. Waiting for the time and other utterances by the occupants, the response to the dialogue request occupants will be delayed.
  • the voice dialogue device 1 returns a response. That is, an unexpected response is made to the dialogue request speaker.
  • the voice dialogue device 1 first determines the dialogue target based on whether or not a response sign by another occupant is detected in response to the dialogue request utterance, and thus makes a more erroneous determination as compared with the prior art. It is possible to make a dialogue target determination with a reduced number of. As a result, it is possible to achieve both a reduction in the response delay for the dialogue request speaker and a reduction in the response from the voice dialogue device that the dialogue request speaker does not expect.
  • the response detection unit 171 detects the response sign.
  • the dialogue target is determined based on whether or not the other occupant's utterance is detected within the response determination time.
  • the dialogue target determination unit 17 is a case where the response sign detection unit 16 detects a response sign by another occupant, and the response sign detection unit 16 detects the response sign.
  • the dialogue target determination may be performed depending on whether or not the other occupant's line of sight or face direction is directed to the target device.
  • the target device is a device presumed to expect a response from the voice dialogue device 1 when the dialogue request occupant turns his / her eyes or face to the dialogue request occupant. ..
  • the target device is, for example, a voice dialogue device 1 or a navigation device on which the voice dialogue device 1 is mounted. Further, the target device may be, for example, a speaker or a display device. Which device is the target device can be set as appropriate.
  • the dialogue target determination unit 17 may acquire occupant status information from the status information acquisition unit 15 and determine whether or not the other occupant's line of sight or face is facing the target device based on the occupant status information. good.
  • the state information acquisition unit 15 or the response sign detection unit 16 determines whether or not the other occupant's line of sight or face direction is directed toward the target device, and the dialogue target determination unit 17 acquires the determination result. You may.
  • the dialogue target determination unit 17 determines whether or not the dialogue target determination unit 17 has detected an utterance by another occupant within the response determination time after the response sign is detected. Instead of the determination, it is determined whether or not the line of sight or the face of the occupant is facing the direction of the target device. After detecting the response sign, the dialogue target determination unit 17 determines that the dialogue request utterance is a dialogue request utterance to the voice dialogue device 1 when the line of sight or the face of the occupant faces the direction of the target device. After detecting the response sign, the dialogue target determination unit 17 determines that the dialogue request utterance is a dialogue request utterance to the other occupant when the line of sight or the face of the occupant does not face the direction of the target device. In this case, the voice dialogue device 1 may be configured not to include the response detection unit 171.
  • the dialogue target determination unit 17 determines whether or not the dialogue target determination unit 17 has detected an utterance by another occupant within the response determination time after the response sign is detected. In addition to the determination, it may be determined whether or not the line of sight or the face of the occupant faces the direction of the target device. Specifically, in this case, the dialogue target determination unit 17 targets the other occupant's line of sight or face after the response sign detection unit 16 detects the response sign by the other occupant and before the response determination time elapses. When facing the direction of, it is determined that the dialogue request utterance is a dialogue request utterance for the voice dialogue device 1.
  • the dialogue target determination unit 17 determines that the dialogue request utterance is a dialogue request utterance to the voice dialogue device 1 when the line of sight or the face of the occupant faces the direction of the target device. If the line of sight or face of the other occupant does not turn toward the target device after the response sign is detected and before the response determination time elapses, the dialogue target determination unit 17 is determined by the other occupant within the response determination time. The dialogue target is determined depending on whether or not an utterance is detected.
  • FIG. 3 shows whether or not, in the first embodiment, after the dialogue target determination unit 17 detects the response sign of another occupant by the response sign detection unit 16, the line of sight or face of the other occupant faces the target device. It is a flowchart for demonstrating the operation of the voice dialogue apparatus 1 when the dialogue target determination is made by this.
  • the operation of the voice dialogue device 1 shown in the flowchart of FIG. 3 is different from the operation of the voice dialogue device 1 shown in the flowchart of FIG. 2 in that step ST301 is performed instead of step ST207 of FIG.
  • step ST301 is performed instead of step ST207 of FIG.
  • the dialogue target determination unit 17 detect utterances by other occupants within the response determination time after the response sign was detected in the operation of the voice dialogue device 1 described with reference to FIG. Instead of determining whether or not (see step ST207), it is determined whether or not the line of sight or face of the occupant is facing the direction of the target device.
  • the operations described in FIG. 2 are given the same step numbers, and duplicate explanations are
  • step ST206 When it is determined in step ST206 that the dialogue target determination unit 17 has output a detection result indicating that the response sign of the second occupant has been detected from the response sign detection unit 16 (in the case of "YES" in step ST206).
  • the dialogue target determination unit 17 determines whether or not the line of sight or face of the occupant is directed toward the target device (step ST301).
  • step ST301 when it is determined that the line of sight or face of the other occupant does not face the direction of the target device (in the case of "NO" in step ST301), the dialogue target determination unit 17 has the dialogue request utterance as the second occupant. It is determined that the dialogue request utterance is made to (step ST209). Then, the operation of the voice dialogue device 1 ends the processing.
  • step ST301 when it is determined that the other occupant's line of sight or face direction is directed toward the target device (in the case of "YES" in step ST207), the dialogue target determination unit 17 tells the dialogue request utterance to the voice dialogue device 1. It is determined that the dialogue request is spoken (step ST208). The dialogue target determination unit 17 outputs the response required information to the response generation unit 18. Then, the operation of the voice dialogue device 1 proceeds to step ST210.
  • the dialogue target determination unit 17 determines whether or not the other occupant's utterance is detected within the response determination time after the response sign is detected, and also the line of sight or face of the other occupant.
  • the voice dialogue device 1 has the case of "NO" in step ST301 in the flowchart of FIG. 3, followed by step ST207 of FIG. Make it work.
  • the voice dialogue device 1 depends on whether or not the other occupant's line of sight or face is directed toward the target device after detecting the response sign by the other occupant.
  • the dialogue target may be determined.
  • the dialogue request conversation is more accurate than the case where the other occupant's line of sight or face orientation is not determined after the other occupant's response sign is detected by the voice dialogue device 1.
  • the response delay to the dialogue request occupant can be reduced.
  • FIG. 4A and 4B are diagrams showing an example of the hardware configuration of the voice dialogue device 1 according to the first embodiment.
  • the functions of 17, the response generation unit 18, and the response output unit 19 are realized by the processing circuit 401. That is, when the dialogue request utterance is made by the speaker, the voice dialogue device 1 is a dialogue request utterance to a person other than the speaker, whether the dialogue request utterance is a dialogue request utterance to the voice dialogue device 1.
  • a processing circuit 401 for controlling the determination is provided.
  • the processing circuit 401 may be dedicated hardware as shown in FIG. 4A, or may be a CPU (Central Processing Unit) 405 that executes a program stored in the memory 406 as shown in FIG. 4B.
  • CPU Central Processing Unit
  • the processing circuit 401 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). Gate Array) or a combination of these is applicable.
  • the processing circuit 401 is the CPU 405, the voice acquisition unit 11, the speaker identification unit 12, the voice recognition unit 13, the dialogue request detection unit 14, the state information acquisition unit 15, the response sign detection unit 16, and the dialogue target.
  • the functions of the determination unit 17, the response generation unit 18, and the response output unit 19 are realized by software, firmware, or a combination of software and firmware. That is, the voice acquisition unit 11, the speaker identification unit 12, the voice recognition unit 13, the dialogue request detection unit 14, the state information acquisition unit 15, the response sign detection unit 16, the dialogue target determination unit 17, and the response.
  • the generation unit 18 and the response output unit 19 are realized by a processing circuit 401 such as an HDD (Hard Disk Drive) 402, a CPU 405 that executes a program stored in a memory 406, and a system LSI (Large-Scale Dialogue). Further, the programs stored in the HDD 402, the memory 406, etc. include the voice acquisition unit 11, the speaker identification unit 12, the voice recognition unit 13, the dialogue request detection unit 14, the state information acquisition unit 15, and the response sign detection. It can also be said that the procedure or method of the unit 16, the dialogue target determination unit 17, the response generation unit 18, and the response output unit 19 is executed by the computer.
  • a processing circuit 401 such as an HDD (Hard Disk Drive) 402, a CPU 405 that executes a program stored in a memory 406, and a system LSI (Large-Scale Dialogue).
  • the programs stored in the HDD 402, the memory 406, etc. include the voice acquisition unit 11, the speaker identification unit 12, the voice recognition unit 13, the dialogue request detection unit 14,
  • the memory 406 is, for example, a RAM, a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable Read Only Memory), an EEPROM (Electrically Erasable Molecular) volatile Read, etc.
  • a semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, a DVD (Digital Versaille Disc), or the like is applicable.
  • Some of the functions of the generation unit 18 and the response output unit 19 may be realized by dedicated hardware, and some may be realized by software or firmware.
  • the voice acquisition unit 11, the state information acquisition unit 15, and the response output unit 19 are realized by the processing circuit 401 as dedicated hardware, and the speaker identification unit 12, the voice recognition unit 13, and the voice recognition unit 13
  • the functions of the dialogue request detection unit 14, the response sign detection unit 16, the dialogue target determination unit 17, and the response generation unit 18 are realized by the processing circuit 401 reading and executing the program stored in the memory 406. It is possible.
  • the voice dialogue device 1 includes a device such as a microphone 2, an image pickup device 3, or an output device 4, and an input interface device 403 and an output interface device 404 that perform wired communication or wireless communication.
  • the microphone 2 is an array microphone, and one array microphone is installed in the vehicle, but this is only an example.
  • the microphone 2 may be, for example, a directional microphone installed in each seat so as to collect spoken voice in each seat.
  • the speaker identification unit 12 identifies the speaker based on, for example, the position in the vehicle where the directional microphone in which the utterance voice is collected is installed. Specifically, the speaker identification unit 12 identifies, for example, an occupant seated in a seat in which a directional microphone in which utterance voices are collected is installed as a speaker.
  • the voice dialogue device 1 is an in-vehicle device mounted on a vehicle, and includes a voice acquisition unit 11, a speaker identification unit 12, a voice recognition unit 13, and a dialogue request detection unit 14.
  • the state information acquisition unit 15, the response sign detection unit 16, the dialogue target determination unit 17, the response generation unit 18, and the response output unit 19 are assumed to be provided in the voice dialogue device 1.
  • a part or all of the response generation unit 18 and the response output unit 19 shall be mounted on the vehicle-mounted device of the vehicle, and the others shall be provided on the server connected to the vehicle-mounted device via the network.
  • the voice dialogue system may be configured by the in-vehicle device and the server.
  • the response sign detection unit 16 may detect any response sign among the plurality of other occupants. Further, the response sign detection unit 16 may be configured so that the response sign detection unit 16 detects an utterance by another occupant who has detected the response sign.
  • the voice dialogue device 1 is mounted on the vehicle, and the user of the voice dialogue device 1 is the occupant of the vehicle, but this is only an example.
  • the voice dialogue device 1 may be installed in, for example, a living room, and the user of the voice dialogue device 1 may be a resident of the living room.
  • the voice acquisition unit 11 that acquires the spoken voice and the speaker identification unit 12 that identifies the speaker based on the spoken voice acquired by the voice acquisition unit 11.
  • the voice recognition unit 13 that performs voice recognition for the spoken voice acquired by the voice acquisition unit 11, the information about the speaker specified by the speaker identification unit 12, and the voice recognition result performed by the voice recognition unit 13.
  • the dialogue request detection unit 14 that detects the dialogue request speech by the dialogue request user (dialogue request occupant) and the occupant that indicates the status of the other user (other occupant) when the dialogue request detection unit 14 detects the dialogue request speech.
  • a response sign detection unit 16 that detects a response sign by another user based on the state information, and information about the speaker specified by the speaker identification unit 12 when the response sign detection unit 16 detects a response sign by another user. Based on the voice recognition result performed by the voice recognition unit 13, the response detection unit 171 that determines whether or not another user's speech is detected within the response determination time after the response sign is detected, and the response sign detection unit.
  • the dialogue request speech detected by the dialogue request detection unit 14 is based on the detection result of whether or not 16 has detected a response sign and the determination result of whether or not the response detection unit 171 has detected a speech by another user. It is configured to include a dialogue target determination unit 17 for determining whether it is for the voice dialogue device 1 or for other users.
  • the voice dialogue device 1 is erroneous as compared with the conventional determination technique in determining whether the dialogue request utterance by the speaker is a dialogue request utterance to the voice dialogue device or a dialogue request utterance to a person other than the speaker. The judgment can be reduced.
  • the voice dialogue device can perform the dialogue target determination with less erroneous determination than the conventional determination technique for determining the dialogue target based on the voice signal characteristics of the speaker, the dialogue target determination can be performed. It can be applied to a voice dialogue device that performs the device.
  • 1 voice dialogue device 2 microphone, 3 image pickup device, 4 output device, 11 voice acquisition unit, 12 speaker identification unit, 13 voice recognition unit, 14 dialogue request detection unit, 15 status information acquisition unit, 16 response sign detection unit, 17 Dialogue target judgment unit, 171 response detection unit, 18 response generation unit, 19 response output unit, 401 processing circuit, 402 HDD, 403 input interface device, 404 output interface device, 405 CPU, 406 memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

発話音声を取得する音声取得部(11)と、発話者を特定する発話者特定部(12)と、音声認識を行う音声認識部(13)と、発話者に関する情報と音声認識結果とに基づき対話要求発話を検知する対話要求検知部(14)と、対話要求検知部(14)が対話要求発話を検知した場合に、その他ユーザによる応答予兆を検知する応答予兆検知部(16)と、応答予兆検知部(16)が応答予兆を検知した場合、発話者に関する情報と音声認識結果とに基づき、応答判定用時間内にその他ユーザによる発話を検知したか否かを判定する応答検知部(171)と、応答予兆検知部(16)が応答予兆を検知したか否かの検知結果と、応答検知部(171)がその他ユーザによる発話を検知したか否かの判定結果とに基づいて、対話要求発話は音声対話装置(1)に対するものであるか、その他ユーザに対するものであるかを判定する対話対象判定部(17)を備えた。

Description

音声対話装置、および、音声対話装置における対話対象判定方法
 本開示は、音声対話装置、および、音声対話装置における対話対象判定方法に関する。
 従来、発話者による発話に対して応答する音声対話装置において、発話者による発話が、音声対話装置に対して応答を期待している発話であるのか、発話者以外の人に対して応答を期待している発話であるのかを判定する技術が知られている。以下、発話者が他者からの応答を期待して行った発話を「対話要求発話」という。ここでいう「他者」は、発話者以外の人、および、音声対話装置を含む。
 例えば、特許文献1には、発話者による発話が対話装置に対する発話であるかどうかを判断する音声認識装置が開示されている。特許文献1に開示されている音声認識装置は、ピッチ周波数の変化、発話の速度、または、音量等、発話者の音声信号特性に基づいて、発話者による発話が対話装置に対する発話であるか否かを判断する。具体的には、例えば、特許文献1に開示されている音声認識装置は、発話者の発話のピッチ周波数の変化が所定の範囲内であるかを判断し、当該変化が所定の範囲内であれば、発話者による発話が対話装置に対する発話であると判断する。この音声認識装置は、ピッチ周波数の変化が所定の範囲内でなければ、所定時間以内に発話者以外の人が発話に応答しているか否かによって、発話者による発話が発話者以外の人に対する発話か、対話装置に対する発話かを判断する。
特開2019-191477号公報
 音声対話装置において、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるのか、発話者以外の人に対する対話要求発話であるのかを判定する際、特許文献1に開示されている音声認識装置のように発話者の音声信号特性から判定すると、音声発話装置が誤判定する可能性があるという課題があった。例えば、発話者が抑揚をつけずに発話した場合、発話者以外の人に対する対話要求発話であっても、音声対話装置が応答してしまう可能性がある。逆に、例えば、発話者が抑揚をつけて発話した場合、音声対話装置に対する対話要求発話であっても、発話者以外の人に対する対話要求発話である可能性があるとして、発話者以外の人による応答を待ってしまう可能性がある。
 本開示は、上記のような課題を解決するためになされたもので、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるか、発話者以外の人に対する対話要求発話であるかの判定において、従来の判定技術よりも誤判定を低減することができる音声対話装置を提供することを目的とする。
 本開示に係る音声対話装置は、音声対話装置であって、発話音声を取得する音声取得部と、音声取得部が取得した発話音声に基づき、発話者を特定する発話者特定部と、音声取得部が取得した発話音声に対して音声認識を行う音声認識部と、発話者特定部が特定した発話者に関する情報と、音声認識部が行った音声認識結果とに基づき、対話要求ユーザによる対話要求発話を検知する対話要求検知部と、対話要求検知部が対話要求発話を検知した場合に、その他ユーザの状態を示す乗員状態情報に基づき、その他ユーザによる応答予兆を検知する応答予兆検知部と、応答予兆検知部がその他ユーザによる応答予兆を検知した場合、発話者特定部が特定した発話者に関する情報と、音声認識部が行った音声認識結果とに基づき、応答予兆が検知されてから応答判定用時間内にその他ユーザによる発話を検知したか否かを判定する応答検知部と、応答予兆検知部が応答予兆を検知したか否かの検知結果と、応答検知部が前記その他ユーザによる発話を検知したか否かの判定結果とに基づいて、対話要求検知部が検知した対話要求発話は、音声対話装置に対するものであるか、その他ユーザに対するものであるかを判定する対話対象判定部とを備えたものである。
 本開示によれば、音声対話装置は、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるか、発話者以外の人に対する対話要求発話であるかの判定において、従来の判定技術よりも誤判定を低減することができる。
実施の形態1に係る音声対話装置の構成例を示す図である。 実施の形態1に係る音声対話装置の動作を説明するためのフローチャートである。 実施の形態1において、対話対象判定部が、応答予兆検知部によってその他乗員の応答予兆が検知された後に、その他乗員の視線または顔向きが対象装置の方向を向いたか否かによって対話対象判定を行うようにした場合の、音声対話装置の動作について説明するためのフローチャートである。 図4A,図4Bは、実施の形態1に係る音声対話装置のハードウェア構成の一例を示す図である。
 以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
 図1は、実施の形態1に係る音声対話装置1の構成例を示す図である。
 実施の形態1において、音声対話装置1は、車両に搭載されているものとする。また、音声対話装置1のユーザは、車両の乗員とする。
 音声対話装置1は、車内において、当該車内に存在する乗員のうちのある乗員(以下「対話要求乗員」という。)による対話要求発話があった場合に、当該対話要求発話が、音声対話装置1に対する対話要求発話であるか、対話要求乗員以外の乗員(以下「その他乗員」という。)に対する対話要求発話であるかを判定する。ここで、「対話要求発話」とは、上述のとおり、発話者が他者からの応答を期待して行った発話をいう。換言すると、「対話要求発話」とは、他者が応答する必要がある発話をいう。具体例を挙げると、「対話要求発話」は、「ねえねえ」または「この辺にスーパーないかなあ」等の発話である。なお、実施の形態1において、他者は、その他乗員と音声対話装置1とを含む。
 音声対話装置1は、対話要求乗員による対話要求発話が、音声対話装置1に対する対話要求発話であるか、その他乗員に対する対話要求発話であるかを、対話要求乗員による対話要求発話に対してその他乗員による応答の予兆(以下「応答予兆」という。)を検知したか否かの検知結果と、予め決められた時間(以下「応答判定用時間」という。)内にその他乗員による発話を検知したか否かの判定結果とに基づいて判定する。音声対話装置1による、対話要求発話が音声対話装置1に対するものかその他乗員に対するものかの判定の詳細については、後述する。実施の形態1において、音声対話装置1が行う、対話要求発話が、音声対話装置1に対するものであるか、その他乗員に対するものであるかの判定を、「対話対象判定」ともいう。
 音声対話装置1は、対話要求乗員による対話要求発話があった場合に、当該対話要求発話が音声対話装置1に対する対話要求発話であると判定すると、対話要求乗員に対して、対話要求発話に対する応答を返す。
 以下の実施の形態1では、一例として、乗員は車内に2人(第1の乗員および第2の乗員)存在し、第1の乗員は運転者であり、第2の乗員は助手席に着座している同乗者であるとする。
 また、音声対話装置1は、例えば、車両のダッシュボードに設置された、車載用のカーナビゲーション装置に搭載されるものとする。
 音声対話装置1は、マイク2、撮像装置3、および、出力装置4と接続される。
 マイク2は、車内にて着座している乗員による発話音声を収集する。マイク2は、例えば、複数個の全指向性のマイクからなるアレイマイクである。
 実施の形態1では、マイク2はアレイマイクであるものとし、当該アレイマイクは、ルームミラーの上部に設置されているものとする。なお、これは一例に過ぎず、アレイマイクは、ルームミラーの上部以外の場所に設置されていてもよい。例えば、アレイマイクは、ダッシュボードの中央に設置されていてもよい。アレイマイクは、車内にて着座している乗員による発話音声を収集できるようになっていればよい。
 アレイマイクは、収集した発話音声を、音声対話装置1に出力する。
 撮像装置3は、車内に設置され、車内にて着座している乗員の、少なくとも顔を撮像する。撮像装置3は、例えば、車両のダッシュボードまたは天井部に設置される。なお、これは一例に過ぎず、撮像装置3は、車内にて着座している乗員の、少なくとも顔を撮像可能な場所に設置されるようになっていればよい。
 撮像装置3は、撮像した撮像画像(以下「車内撮像画像」という。)を、音声対話装置1に出力する。
 出力装置4は、例えば、車内に設置されているスピーカまたは表示装置である。出力装置4は、例えば、車両のダッシュボードに設置された、車載用のカーナビゲーション装置に搭載される。
 出力装置4は、音声対話装置1から出力された応答情報を出力する。例えば、出力装置4がスピーカである場合、スピーカは、応答情報を音声出力する。例えば、出力装置4が表示装置である場合、表示装置は、応答情報を表示する。音声対話装置1から出力される応答情報の詳細については、後述する。
 音声対話装置1は、音声取得部11、発話者特定部12、音声認識部13、対話要求検知部14、状態情報取得部15、応答予兆検知部16、対話対象判定部17、応答生成部18、および、応答出力部19を備える。
 対話対象判定部17は、応答検知部171を備える。
 音声取得部11は、アレイマイクが収集した発話音声を取得する。
 音声取得部11は、取得した発話音声を発話者特定部12に出力する。
 発話者特定部12は、音声取得部11が取得した発話音声に基づき、発話者を特定する。具体的には、発話者特定部12は、発話者を、当該発話者の位置とあわせて特定する。
 例えば、発話者特定部12は、音声取得部11が取得した発話音声に対して、周波数分析等、音の特徴を解析する。なお、発話者特定部12は、既知の音声解析技術を用いて、発話音声の解析を行えばよい。そして、発話者特定部12は、発話音声に対する解析結果に基づいて、発話者を特定する。
 具体的には、例えば、発話者特定部12は、発話音声の解析結果に基づき、音源の方向を特定する。発話者特定部12は、アレイマイクから取得された発話音声の解析結果に基づく音源の方向の特定を、既知の技術を用いて行えばよい。発話者特定部12は、音源の方向を特定すると、特定した方向に存在する乗員を発話者と特定する。
 実施の形態1では、アレイマイクは、ルームミラーの上部に設置されるものとしているので、例えば、発話者特定部12は、音源の方向が、車内において、アレイマイクに対して、当該アレイマイクの中心を通り車両の進行方向と平行な直線よりも右側前部である場合、発話者は、第1の乗員、言い換えれば、運転席に着座している運転者であると特定する。一方、発話者特定部12は、音源の方向が、車内において、アレイマイクに対して、当該アレイマイクの中心を通り車両の進行方向と平行な直線よりも左側前部である場合、発話者は第2の乗員、言い換えれば、助手席に着座している乗員であると特定する。なお、実施の形態1では、車両は右ハンドルであるものを想定している。また、実施の形態1において、「平行」とは、厳密に「平行」であることに限らず、「略平行」も含む。
 発話者特定部12は、特定した発話者を示す情報(以下「発話者情報」という。)を、音声認識部13に出力する。
 発話者情報は、例えば、各座席に対応付けられている、座席のIDである。座席のIDは、予め、設定されている。
 音声認識部13は、音声取得部11が取得した発話音声に対して音声認識を行い、発話内容を認識する。音声認識部13は、既存の音声認識技術を用いて、発話内容を認識するようにすればよい。なお、音声認識部13は、音声取得部11が取得した発話音声を、発話者特定部12を介して取得すればよい。音声認識部13は、例えば、表示装置に表示されたボタンの押下等、ユーザによる音声認識開始の指示を受け付けなくても、音声取得部11により取得された発話音声に対して音声認識を行う。
 音声認識部13による発話内容の音声認識結果は、発話内容を示す文字列を含む。音声認識部13は、発話内容の音声認識結果と、発話者を示す情報とを対応付けた情報を、音声関連情報として、対話要求検知部14および対話対象判定部17に出力する。なお、発話者を示す情報は、発話者特定部12が特定した発話者に関する情報である。
 対話要求検知部14は、音声認識部13から出力された音声関連情報に基づき、言い換えれば、発話者特定部12が特定した発話者に関する情報と音声認識部13が行った音声認識結果とに基づき、対話要求乗員による対話要求発話を検知する。
 具体的には、対話要求検知部14は、例えば、音声認識結果に基づく発話内容と、予め設定されている発話(以下「対話要求判定用発話」という。)とが一致するか否かを判定することで、対話要求発話を検知する。対話要求判定用発話には、予め、対話要求発話であると推定される発話が設定されている。具体的には、対話要求判定用発話は、例えば、「ねえねえ」または「この辺にスーパーないかなあ」等である。対話要求検知部14は、音声認識結果に基づく発話内容と対話要求判定用発話とが一致した場合、対話要求発話を検知したものとする。そして、対話要求検知部14は、音声認識結果に対応付けられている発話者を示す情報に基づき、どの乗員による対話要求発話であるかを特定する。すなわち、対話要求検知部14は、どの乗員が対話要求乗員であるかを特定する。
 また、例えば、対話要求検知部14は、音声認識結果に基づく発話内容から発話の意図を推定し、推定した意図と、予め設定されている発話の意図(以下「対話要求判定用意図」という。)とが一致するか否かを判定するようにしてもよい。なお、対話要求検知部14は、既知の意図推定技術を用いて、発話の意図を推定すればよい。対話要求判定用意図には、予め、対話要求発話を行う意図として推定される意図が設定されている。対話要求発話を行う意図として推定される意図としては、例えば、レストラン検索またはガソリンスタンド検索等の施設検索の意図が挙げられる。対話要求検知部14は、推定した発話の意図と対話要求判定用意図とが一致した場合、対話要求発話を検知したものとする。そして、対話要求検知部14は、音声認識結果に対応付けられている発話者を示す情報に基づき、どの乗員による対話要求発話であるかを特定する。すなわち、対話要求検知部14は、どの乗員が対話要求乗員であるかを特定する。
 対話要求検知部14は、対話要求発話を検知した場合、検知した対話要求発話に関する情報(以下「対話要求発話情報」という。)を、応答予兆検知部16に出力する。
 対話要求発話情報は、対話要求発話と対話要求乗員の発話者情報とが対応付けられた情報である。
 状態情報取得部15は、車内の状態に関する情報(以下「車内状態情報」という。)を取得する。
 実施の形態1では、状態情報取得部15は、撮像装置3から、車内撮像画像を、車内状態情報として取得する。そして、状態情報取得部15は、取得した車内状態情報に基づき、乗員の状態を検知し、乗員の状態を示す情報(以下「乗員状態情報」という。)を取得する。状態情報取得部15は、例えば、車内撮像画像に対して既知の画像認識処理を行い、乗員の状態を検知する。実施の形態1において、乗員の状態とは、乗員の視線方向、乗員の顔の向き、乗員の表情、乗員の感情、乗員の姿勢、乗員のジェスチャ、または、乗員の開口度等である。なお、状態情報取得部15は、乗員の状態を検知する際、当該乗員の位置についても、あわせて検知する。
 なお、実施の形態1では、上述のとおり、状態情報取得部15は、撮像装置3から車内撮像画像を車内状態情報として取得するものとするが、これは一例に過ぎない。
 例えば、状態情報取得部15は、音声認識部13から、発話内容の音声認識結果を車内状態情報として取得するようにしてもよい。この場合、状態情報取得部15は、発話内容の音声認識結果に基づき、乗員の状態を検知する。具体例を挙げると、状態情報取得部15は、例えば、発話内容が「えっ」である場合は、乗員が驚いているという感情を、乗員の状態として検知する。
 また、例えば、状態情報取得部15は、図示しない距離センサから、距離情報を車内状態情報として取得するようにしてもよい。この場合、状態情報取得部15は、距離情報に基づき、乗員の状態を検知する。具体例を挙げると、状態情報取得部15は、距離情報に基づいて、前のめりになっている乗員の姿勢を、乗員の状態として検知する。
 また、状態情報取得部15は、車内撮像画像、発話内容の音声認識結果、または、距離情報のうちの2つ以上を車内状態情報として取得し、上述したような方法を組み合わせて乗員の状態を検知するようにしてもよい。
 状態情報取得部15は、乗員の視線に関する情報、乗員の顔の向きに関する情報、乗員の開口度に関する情報、乗員の表情に関する情報、乗員の感情に関する情報、乗員の姿勢に関する情報、または、乗員のジェスチャに関する情報等を、乗員状態情報として、乗員を特定可能な情報と対応付けて、応答予兆検知部16に出力する。乗員を特定可能な情報は、少なくとも、乗員の位置を示す情報を含む。
 なお、乗員状態情報には、上述したような情報のうちの、少なくとも1つが含まれるようになっていればよい。
 応答予兆検知部16は、対話要求検知部14が対話要求乗員による対話要求発話を検知した場合に、状態情報取得部15から出力された、各乗員の状態を示す乗員状態情報のうち、その他乗員の状態を示す乗員状態情報に基づき、その他乗員による応答予兆を検知する。
 応答予兆検知部16は、乗員状態情報に含まれる、その他乗員の視線に関する情報、その他乗員の顔向きに関する情報、その他乗員の開口度に関する情報、その他乗員の表情に関する情報、その他乗員の感情に関する情報、その他乗員の姿勢に関する情報、または、その他乗員のジェスチャに関する情報のうちの少なくとも1つを用いて、その他乗員による応答予兆を検知すればよい。
 なお、応答予兆検知部16は、対話要求検知部14から出力される対話要求発話情報に基づけば対話要求乗員を特定できるので、当該対話要求発話情報に基づけばその他乗員も特定できる。
 応答予兆検知部16が検知する、その他乗員による応答予兆とは、具体的には、対話要求発話に対してその他乗員が応答する可能性を示唆する、その他乗員の状態、その他乗員の状態の変化、または、その他乗員の行動である。
 応答予兆検知部16は、状態情報取得部15から取得した乗員状態情報に基づき、その他乗員が予め設定されている状態(以下「予兆検知用状態」という。)であるか、その他乗員の状態に変化があるか、または、その他乗員が予め設定されている行動(以下「予兆検知用行動」という。)を行ったかを判定する。そして、応答予兆検知部16は、その他乗員が予兆検知用状態である、その他乗員の状態に変化がある、または、その他乗員が予兆検知用行動を行ったと判定した場合、その他乗員による応答予兆を検知したとする。
 ここで、予兆検知用状態とは、例えば、開口度が予め定められた閾値(以下「開口判定用閾値」という。)よりも大きい状態をいう。開口度が開口判定用閾値より大きい状態は、対話要求発話に応答しようとして口を開けている状態と推定される。また、予兆検知用状態とは、例えば、予め定められた感情(以下「予兆検知用感情」という。)である、または、当該予兆検知用感情をあらわす表情をしている状態であってもよい。予兆検知用感情は、例えば、驚きである。
 乗員の状態に変化があるとは、例えば、開口度に変化があること、または、感情もしくは表情に変化があることをいう。例えば、開口度が0から10の範囲の度合いで定義されているとすると、乗員の開口度が0から7に変わった場合、当該乗員の状態には変化があるという。また、例えば、乗員の表情または感情が、「落ち着いている」ことをあらわす感情または表情から、「驚き」をあらわす感情または表情に変わった場合、当該乗員の状態には変化があるという。
 予兆検知用行動とは、例えば、視線、顔の向き、または、姿勢を、対話要求発話乗員の方向に向けることをいう。予兆検知用行動とは、例えば、姿勢を前のめりにする、うなずく、手をたたく等のジェスチャを行うこととしてもよい。
 なお、応答予兆検知部16は、状態情報取得部15から取得した乗員状態情報を、当該乗員状態情報の取得日時と対応付けて記憶するようにし、過去の乗員状態情報を参照して、その他乗員の状態に変化があること、または、その他乗員が予兆検知用行動を行ったことを検知すればよい。
 応答予兆検知部16は、その他乗員の応答予兆を検知したか否かの検知結果を、対話対象判定部17に出力する。
 対話対象判定部17は、対話要求検知部14が検知した対話要求発話は、音声対話装置1に対するものであるか、その他乗員に対するものであるかを判定する。言い換えれば、対話対象判定部17は、対話対象判定を行う。
 対話対象判定部17が行う対話対象判定の判定方法について、詳細に説明する。
 まず、対話対象判定部17は、応答予兆検知部16から、その他乗員の応答予兆を検知した旨の検知結果が出力されたか否かを判定する。
 対話対象判定部17は、応答予兆検知部16から、その他乗員の応答予兆を検知した旨の検知結果が出力されなかったと判定した場合、言い換えれば、その他乗員の応答予兆を検知しなかった旨の検知結果が出力されたと判定した場合、対話要求発話は音声対話装置1に対するものであると判定する。
 一方、対話対象判定部17が、応答予兆検知部16から、その他乗員の応答予兆を検知した旨の検知結果が出力されたと判定した場合、対話対象判定部17の応答検知部171は、応答予兆が検知されてから応答判定用時間内に、その他乗員による発話を検知したか否かを判定する。具体的には、応答検知部171は、音声認識部13から出力された音声関連情報に基づき、言い換えれば、発話者特定部12が特定した発話者に関する情報と音声認識部13が行った音声認識結果とに基づき、応答予兆が検知されてから応答判定用時間内に、その他乗員による発話を検知したか否かを判定する。
 なお、応答予兆検知部16は、例えば、その他乗員の応答予兆を検知した場合、検知時刻に関する情報を付与して当該応答予兆を検知した旨の情報を出力するようにし、応答検知部171は、応答予兆検知部16から出力された情報に基づき、応答予兆が検知された時刻を特定すればよい。また、例えば、応答検知部171は、対話対象判定部17が応答予兆検知部16からその他乗員の応答予兆を検知した旨の情報を取得した時刻を、応答予兆が検知された時刻としてもよい。
 対話対象判定部17は、応答予兆検知部16から、その他乗員の応答予兆を検知した旨の検知結果が出力された場合であって、かつ、応答検知部171が、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知すれば、対話要求発話はその他乗員に対する対話要求発話であると判定する。
 対話対象判定部17は、応答予兆検知部16から、その他乗員の応答予兆を検知した旨の検知結果が出力された場合であっても、応答検知部171が、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知しなければ、対話要求発話は音声対話装置1に対する対話要求発話であると判定する。
 対話対象判定部17は、対話要求発話が音声対話装置1に対する対話要求発話であると判定した場合、当該対話要求発話に対して応答が必要である旨の情報(以下「応答要情報」という。)を、応答生成部18に出力する。なお、対話対象判定部17は、応答要情報と対応付けて、音声認識部13が対話要求発話を音声認識した音声認識結果を、応答生成部18に出力する。
 応答生成部18は、対話対象判定部17から応答要情報が出力された場合、対話要求発話に対する応答内容に関する応答情報を生成する。
 応答生成部18は、生成した応答情報を、応答出力部19に出力する。
 応答出力部19は、応答情報を出力装置4に出力する。
 応答出力部19は、応答情報を表示装置に表示させてもよいし、応答情報をスピーカから音声出力させるようにしてもよい。
 実施の形態1に係る音声対話装置1の動作について説明する。
 図2は、実施の形態1に係る音声対話装置1の動作を説明するためのフローチャートである。
 以下の動作説明では、一例として、第1の乗員である運転者が対話要求発話を行い、音声対話装置1は、当該対話要求発話が音声対話装置1に対するものであるか、第2の乗員である助手席に着座している乗員に対するものであるかを判定するものとする。すなわち、以下の動作説明において、対話要求発話乗員は第1の乗員であり、その他乗員は第2の乗員である。
 音声取得部11は、アレイマイクが収集した発話音声を取得する(ステップST201)。
 音声取得部11は、取得した発話音声を発話者特定部12に出力する。
 発話者特定部12は、ステップST201にて音声取得部11が取得した発話音声に基づき、発話者を特定する(ステップST202)。
 発話者特定部12は、発話者情報を、音声認識部13に出力する。
 音声認識部13は、ステップST201にて音声取得部11が取得した発話音声に対して音声認識を行い、発話内容を認識する(ステップST203)。
 音声認識部13は、発話内容の音声認識結果と、発話者を示す情報とを対応付けた情報を、音声関連情報として、対話要求検知部14および対話対象判定部17に出力する。
 対話要求検知部14は、ステップST203にて音声認識部13から出力された音声関連情報に基づき、言い換えれば、発話者特定部12が特定した発話者に関する情報と音声認識部13が行った音声認識結果とに基づき、対話要求乗員による対話要求発話を検知したか否かを判定する。ここでは、対話要求検知部14は、第1の乗員による対話要求発話を検知したか否かを判定する(ステップST204)。
 対話要求検知部14が第1の乗員による対話要求発話を検知しない場合(ステップST204の”NO”の場合)、音声対話装置1の動作はステップST201の動作に戻る。
 対話要求検知部14が第1の乗員による対話要求発話を検知した場合(ステップST204の”YES”の場合)、対話要求検知部14は、対話要求発話情報を、応答予兆検知部16に出力する。そして、音声対話装置1の動作は、ステップST205に進む。
 応答予兆検知部16は、状態情報取得部15から出力された各乗員の状態を示す乗員状態情報のうち、その他乗員の状態を示す乗員状態情報に基づき、その他乗員による応答予兆を検知する。ここでは、応答予兆検知部16は、第2の乗員による応答予兆を検知する(ステップST205)。
 なお、当該ステップST205の動作が行われるまでに、状態情報取得部15は車内状態情報から乗員状態情報を取得している。
 応答予兆検知部16は、その他乗員、ここでは、第2の乗員の応答予兆を検知したか否かの検知結果を、対話対象判定部17に出力する。
 対話対象判定部17は、ステップST205にて、応答予兆検知部16から、第2の乗員の応答予兆を検知した旨の検知結果が出力されたか否かを判定する(ステップST206)。
 ステップST206において、対話対象判定部17は、応答予兆検知部16から、第2の乗員の応答予兆を検知した旨の検知結果が出力されなかったと判定した場合、言い換えれば、第2の乗員の応答予兆を検知しなかった旨の検知結果が出力されたと判定した場合(ステップST206の”NO”の場合)、音声対話装置1の動作は、ステップST208に進む。
 一方、ステップST206において、対話対象判定部17が、応答予兆検知部16から、第2の乗員の応答予兆を検知した旨の検知結果が出力されたと判定した場合(ステップST206の”YES”の場合)、対話対象判定部17の応答検知部171は、応答予兆が検知されてから応答判定用時間内に、第2の乗員による発話を検知したか否かを判定する(ステップST207)。
 ステップST207において、応答検知部171が、応答予兆が検知されてから応答判定用時間内に第2の乗員による発話を検知したと判定した場合(ステップST207の”YES”の場合)、対話対象判定部17は、対話要求発話が第2の乗員に対する対話要求発話であると判定する(ステップST209)。そして、音声対話装置1の動作は、処理終了する。
 ステップST207において、応答検知部171が、応答予兆が検知されてから応答判定用時間内に第2の乗員による発話を検知しなかったと判定した場合(ステップST207の”NO”の場合)、音声対話装置1の動作は、ステップST208に進む。
 ステップST206において、対話対象判定部17は、応答予兆検知部16から、第2の乗員の応答予兆を検知した旨の検知結果が出力されなかったと判定した場合(ステップST206の”NO”の場合)、または、ステップST207において、応答検知部171が、応答予兆が検知されてから応答判定用時間内に第2の乗員による発話を検知しなかったと判定した場合(ステップST207の”NO”の場合)、対話対象判定部17は、対話要求発話が音声対話装置1に対する対話要求発話であると判定する(ステップST208)。対話対象判定部17は、応答要情報を、応答生成部18に出力する。そして、音声対話装置1の動作は、ステップST210に進む
 応答生成部18は、対話要求発話に対する応答内容に関する応答情報を生成する。応答生成部18は、生成した応答情報を、応答出力部19に出力する。そして、応答出力部19は、応答情報を出力装置4に出力する(ステップST210)。
 このように、音声対話装置1は、音声関連情報に基づき対話要求乗員による対話要求発話を検知した場合に、その他乗員の状態を示す乗員状態情報に基づき、その他乗員による応答予兆を検知する。音声対話装置1は、その他乗員による応答予兆を検知した場合、音声関連情報に基づき、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行う。
 仮に、音声対話装置1が、上述の従来技術のように、まず、発話者の音声信号特性から対話対象判定を行おうとすると、音声対話装置1は、対話要求発話が、音声対話装置1に対するものであるか、その他乗員に対するものであるかを誤判定する可能性がある。
 これに対し、実施の形態1に係る音声対話装置1は、上述のとおり、まず、対話要求発話に対してその他乗員による応答予兆が検知されたか否かによって、対話対象判定を行うようにした。これにより、音声対話装置1は、従来技術のように発話者の音声信号特性から対話対象判定を行う場合よりも誤判定を低減させて、当該対話対象判定を行うことができる。実施の形態1に係る音声対話装置1は、その上で、その他乗員による応答予兆が検知された場合には、応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行う。音声対話装置1は、まず、その他乗員による応答予兆が検知されたか否かによってより誤判定を低減させた対話対象判定を行えているため、結果として、応答判定用時間内にその他乗員による発話を検知したかに基づく対話対象判定も、より誤判定を低減させることができる。
 仮に、対話要求発話はその他乗員に対するものであるにもかかわらず、音声対話装置1が当該対話要求発話は音声対話装置1に対するものであると誤判定してしまうと、音声対話装置1は対話要求発話に対して応答を返してしまう。これは、対話要求発話者にとっては、予期しない応答がなされたことになる。
 逆に、対話要求発話は音声対話装置1に対する発話であるにもかかわらず、音声対話装置1が当該対話要求発話はその他乗員に対するものと誤判定してしまうと、音声対話装置1は、応答判定用時間、その他乗員による発話を待ってしまい、対話要求乗員への応答が遅延することになってしまう。なお、例えば、このような誤判定に備え、応答判定用時間を短く設定すると、対話要求発話がその他乗員に対するものである場合にその他乗員が応答判定用時間内に発話できなければ、音声対話装置1が応答を返してしまう。すなわち、対話要求発話者にとっては、予期しない応答がなされることになる。
 実施の形態1に係る音声対話装置1は、まず、対話要求発話に対してその他乗員による応答予兆が検知されたか否かによって対話対象判定を行うようにしたので、従来技術に比べ、より誤判定を低減させた対話対象判定を行うことができる。その結果、対話要求発話者に対する応答遅延の低減と、対話要求発話者が予期しない音声対話装置からの応答の低減との両立を図ることができる。
 以上の実施の形態1では、対話対象判定部17は、応答予兆検知部16から、その他乗員の応答予兆を検知した旨の検知結果が出力された場合、応答検知部171が、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行うものとした。
 これに限らず、実施の形態1において、対話対象判定部17は、応答予兆検知部16がその他乗員による応答予兆を検知した場合であって、かつ、応答予兆検知部16が当該応答予兆を検知した後に、その他乗員の視線または顔向きが、対象装置の方向を向いたか否かによって、対話対象判定を行うようにしてもよい。実施の形態1において、対象装置とは、そこに対話要求乗員が視線または顔向きを向けた場合に当該対話要求乗員が音声対話装置1からの応答を期待していると推定される装置である。
 ここで、対象装置とは、例えば、音声対話装置1、または、当該音声対話装置1が搭載されているナビゲーション装置である。また、対象装置とは、例えば、スピーカ、または、表示装置としてもよい。どの装置を、対象装置とするかは、適宜、設定可能である。
 対話対象判定部17は、例えば、状態情報取得部15から乗員状態情報を取得し、乗員状態情報に基づいて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かを判定すればよい。例えば、状態情報取得部15または応答予兆検知部16が、その他乗員の視線または顔向きが対象装置の方向を向いたか否かを判定し、対話対象判定部17はその判定結果を取得するようにしてもよい。
 例えば、以上の実施の形態1で説明したような音声対話装置1において、対話対象判定部17は、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定に代えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにする。対話対象判定部17は、応答予兆を検知した後に、その他乗員の視線または顔向きが対象装置の方向を向いた場合は、対話要求発話は音声対話装置1に対する対話要求発話であると判定する。対話対象判定部17は、応答予兆を検知した後に、その他乗員の視線または顔向きが対象装置の方向を向かなかった場合は、対話要求発話はその他乗員に対する対話要求発話であると判定する。
 なお、この場合、音声対話装置1は、応答検知部171を備えない構成とすることができる。
 また、例えば、以上の実施の形態1で説明したような音声対話装置1において、対話対象判定部17は、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定に加えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにしてもよい。具体的には、この場合、対話対象判定部17は、応答予兆検知部16がその他乗員による応答予兆を検知した後、応答判定用時間が経過する前にその他乗員の視線または顔向きが対象装置の方向を向いた場合は、対話要求発話は音声対話装置1に対する対話要求発話であると判定するようにする。対話対象判定部17は、応答予兆を検知した後に、その他乗員の視線または顔向きが対象装置の方向を向いた場合は、対話要求発話は音声対話装置1に対する対話要求発話であると判定する。対話対象判定部17は、応答予兆を検知した後、応答判定用時間が経過する前にその他乗員の視線または顔向きが対象装置の方向を向かなければ、応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行う。
 図3は、実施の形態1において、対話対象判定部17が、応答予兆検知部16によってその他乗員の応答予兆が検知された後に、その他乗員の視線または顔向きが対象装置の方向を向いたか否かによって対話対象判定を行うようにした場合の、音声対話装置1の動作について説明するためのフローチャートである。
 図3のフローチャートで示す音声対話装置1の動作は、図2のフローチャートで示した音声対話装置1の動作とは、図2のステップST207に代えてステップST301を行うようにした点が異なる。図3では、一例として、対話対象判定部17は、図2を用いて説明した音声対話装置1の動作において、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定(ステップST207参照)に代えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにするものとしている。
 図2で説明済みの動作については、同じステップ番号を付して、重複した説明を省略する。
 ステップST206において、対話対象判定部17が、応答予兆検知部16から、第2の乗員の応答予兆を検知した旨の検知結果が出力されたと判定した場合(ステップST206の”YES”の場合)、対話対象判定部17は、その他乗員の視線または顔向きが対象装置の方向を向いたか否かを判定する(ステップST301)。
 ステップST301において、その他乗員の視線または顔向きが対象装置の方向を向かなかったと判定した場合(ステップST301の”NO”の場合)、対話対象判定部17は、対話要求発話が第2の乗員に対する対話要求発話であると判定する(ステップST209)。そして、音声対話装置1の動作は、処理終了する。
 ステップST301において、その他乗員の視線または顔向きが対象装置の方向を向いたと判定した場合(ステップST207の”YES”の場合)、対話対象判定部17は、対話要求発話が音声対話装置1に対する対話要求発話であると判定する(ステップST208)。対話対象判定部17は、応答要情報を、応答生成部18に出力する。そして、音声対話装置1の動作は、ステップST210に進む
 なお、音声対話装置1において、対話対象判定部17は、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定に加えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにする場合、音声対話装置1は、図3のフローチャートにて、ステップST301の”NO”の場合の後に、図2のステップST207の動作を行うようにする。
 このように、音声対話装置1は、その他乗員による応答予兆を検知した場合であって、かつ、当該応答予兆を検知した後にその他乗員の視線または顔向きが対象装置の方向を向いたか否かによって、対話対象判定を行うようにしてもよい。これにより、音声対話装置1は、その他乗員による応答予兆を検知した後にその他乗員の視線または顔向きの判定を行わない場合と比べ、より正確に、対話要求会話が音声対話装置1に対する対話要求会話であることを判定できる。その結果、対話要求乗員に対する応答遅延を低減することができる。
 図4A,図4Bは、実施の形態1に係る音声対話装置1のハードウェア構成の一例を示す図である。
 実施の形態1において、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19の機能は、処理回路401により実現される。すなわち、音声対話装置1は、発話者によって対話要求発話が行われた場合に、当該対話要求発話が、音声対話装置1に対する対話要求発話であるのか、発話者以外の人に対する対話要求発話であるかの判定を制御する処理回路401を備える。
 処理回路401は、図4Aに示すように専用のハードウェアであっても、図4Bに示すようにメモリ406に格納されるプログラムを実行するCPU(Central Processing Unit)405であってもよい。
 処理回路401が専用のハードウェアである場合、処理回路401は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。
 処理回路401がCPU405の場合、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19は、HDD(Hard Disk Drive)402、メモリ406等に記憶されたプログラムを実行するCPU405、システムLSI(Large-Scale Integration)等の処理回路401により実現される。また、HDD402、メモリ406等に記憶されたプログラムは、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19の手順または方法をコンピュータに実行させるものであるとも言える。ここで、メモリ406とは、例えば、RAM、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)等が該当する。
 なお、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、音声取得部11と、状態情報取得部15と、応答出力部19については専用のハードウェアとしての処理回路401でその機能を実現し、発話者特定部12と、音声認識部13と、対話要求検知部14と、応答予兆検知部16と、対話対象判定部17と、応答生成部18については処理回路401がメモリ406に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
 また、音声対話装置1は、マイク2、撮像装置3、または、出力装置4等の装置と、有線通信または無線通信を行う入力インタフェース装置403および出力インタフェース装置404を備える。
 なお、以上の実施の形態1では、マイク2はアレイマイクとし、当該アレイマイクが1つ、車内に設置されているものとしたが、これは一例に過ぎない。マイク2は、例えば、各座席に、当該各座席における発話音声を収集するよう設置されている指向性マイクとしてもよい。
 この場合、音声対話装置1において、発話者特定部12は、例えば、発話音声が収集された指向性マイクが設置されている車内の位置に基づいて、発話者を特定する。具体的には、発話者特定部12は、例えば、発話音声が収集された指向性マイクが設置されている座席に着座している乗員を、発話者と特定する。
 また、以上の実施の形態1では、音声対話装置1は、車両に搭載される車載装置とし、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19は、音声対話装置1に備えられているものとした。
 これに限らず、音声取得部11と、発話者特定部12と、音声認識部13と、対話要求検知部14と、状態情報取得部15と、応答予兆検知部16と、対話対象判定部17と、応答生成部18と、応答出力部19のうち、一部または全部を車両の車載装置に搭載されるものとし、その他を当該車載装置とネットワークを介して接続されるサーバに備えられるものとして、車載装置とサーバとで音声対話システムを構成するようにしてもよい。
 また、以上の実施の形態1では、乗員は車内に2人存在するものとしたが、これは一例に過ぎない。例えば、乗員は車内に3人以上存在するものとしてもよい。この場合、その他乗員は複数存在することとなる。応答予兆検知部16は、複数のその他乗員のうち、いずれかの応答予兆を検知すればよい。また、応答予兆検知部16は、応答予兆検知部16が応答予兆を検知したその他乗員による発話を検知するようにすればよい。
 また、以上の実施の形態1では、音声対話装置1は車両に搭載され、音声対話装置1のユーザは車両の乗員としたが、これは一例に過ぎない。音声対話装置1は、例えば、居室等に設置され、音声対話装置1のユーザは、居室の住人としてもよい。
 以上のように、実施の形態1に係る音声対話装置1は、発話音声を取得する音声取得部11と、音声取得部11が取得した発話音声に基づき、発話者を特定する発話者特定部12と、音声取得部11が取得した発話音声に対して音声認識を行う音声認識部13と、発話者特定部12が特定した発話者に関する情報と、音声認識部13が行った音声認識結果とに基づき、対話要求ユーザ(対話要求乗員)による対話要求発話を検知する対話要求検知部14と、対話要求検知部14が対話要求発話を検知した場合に、その他ユーザ(その他乗員)の状態を示す乗員状態情報に基づき、その他ユーザによる応答予兆を検知する応答予兆検知部16と、応答予兆検知部16がその他ユーザによる応答予兆を検知した場合、発話者特定部12が特定した発話者に関する情報と、音声認識部13が行った音声認識結果とに基づき、応答予兆が検知されてから応答判定用時間内にその他ユーザによる発話を検知したか否かを判定する応答検知部171と、応答予兆検知部16が応答予兆を検知したか否かの検知結果と、応答検知部171がその他ユーザによる発話を検知したか否かの判定結果とに基づいて、対話要求検知部14が検知した対話要求発話は、音声対話装置1に対するものであるか、その他ユーザに対するものであるかを判定する対話対象判定部17とを備えるように構成した。そのため、音声対話装置1は、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるか、発話者以外の人に対する対話要求発話であるかの判定において、従来の判定技術よりも誤判定を低減することができる。
 なお、本開示は、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 本開示に係る音声対話装置は、発話者の音声信号特性に基づいて対話対象判定を行う従来の判定技術よりも誤判定を低減させて当該対話対象判定を行うことができるため、当該対話対象判定装置を行う音声対話装置に適用することができる。
 1 音声対話装置、2 マイク、3 撮像装置、4 出力装置、11 音声取得部、12 発話者特定部、13 音声認識部、14 対話要求検知部、15 状態情報取得部、16 応答予兆検知部、17 対話対象判定部、171 応答検知部、18 応答生成部、19 応答出力部、401 処理回路、402 HDD、403 入力インタフェース装置、404 出力インタフェース装置、405 CPU、406 メモリ。

Claims (6)

  1.  音声対話装置であって、
     発話音声を取得する音声取得部と、
     前記音声取得部が取得した発話音声に基づき、発話者を特定する発話者特定部と、
     前記音声取得部が取得した発話音声に対して音声認識を行う音声認識部と、
     前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、対話要求ユーザによる対話要求発話を検知する対話要求検知部と、
     前記対話要求検知部が前記対話要求発話を検知した場合に、その他ユーザの状態を示す乗員状態情報に基づき、前記その他ユーザによる応答予兆を検知する応答予兆検知部と、
     前記応答予兆検知部が前記その他ユーザによる前記応答予兆を検知した場合、前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、前記応答予兆が検知されてから応答判定用時間内に前記その他ユーザによる発話を検知したか否かを判定する応答検知部と、
     前記応答予兆検知部が前記応答予兆を検知したか否かの検知結果と、前記応答検知部が前記その他ユーザによる発話を検知したか否かの判定結果とに基づいて、前記対話要求検知部が検知した前記対話要求発話は、前記音声対話装置に対するものであるか、前記その他ユーザに対するものであるかを判定する対話対象判定部
     とを備えた音声対話装置。
  2.  前記対話対象判定部は、
     前記応答予兆検知部が前記応答予兆を検知しなかった場合、前記対話要求発話は前記音声対話装置に対するものであったと判定し、
     前記応答予兆検知部が前記応答予兆を検知した場合、前記応答検知部が前記応答判定用時間内に前記その他ユーザによる発話を検知したと判定すれば、前記対話要求発話は前記その他ユーザに対する前記対話要求発話であると判定し、前記応答検知部が前記応答判定用時間内に前記その他ユーザによる発話を検知しなかったと判定すれば、前記対話要求発話は前記音声対話装置に対する前記対話要求発話であると判定する
     ことを特徴とする請求項1記載の音声対話装置。
  3.  前記応答予兆検知部は、
     前記その他ユーザの視線に関する情報、前記その他ユーザの顔向きに関する情報、前記その他ユーザの開口度に関する情報、前記その他ユーザの表情に関する情報、前記その他ユーザの感情に関する情報、前記その他ユーザの姿勢に関する情報、または、前記その他ユーザのジェスチャに関する情報のうちの少なくとも1つを用いて前記その他ユーザによる前記応答予兆を検知する
     ことを特徴とする請求項1記載の音声対話装置。
  4.  前記その他ユーザの視線に関する情報、前記その他ユーザの顔向きに関する情報、前記その他ユーザの開口度に関する情報、前記その他ユーザの表情に関する情報、前記その他ユーザの感情に関する情報、前記その他ユーザの姿勢に関する情報、または、前記その他ユーザにジェスチャに関する情報は、撮像画像に基づいて取得されたものである
     ことを特徴とする請求項3記載の音声対話装置。
  5.  前記対話対象判定部は、
     前記応答予兆検知部が前記応答予兆を検知した場合であって、かつ、前記応答予兆検知部が前記応答予兆を検知した後に、前記その他ユーザの視線または顔向きが、前記対話要求ユーザが視線または顔向きを向けた場合に当該対話要求ユーザが前記音声対話装置からの応答を期待していると推定される対象装置の方向を向いた場合は、前記対話要求発話は前記音声対話装置に対する前記対話要求発話であると判定する
     ことを特徴とする請求項1記載の音声対話装置。
  6.  音声対話装置における対話対象判定方法であって、
     音声取得部が、発話音声を取得するステップと、
     発話者特定部が、前記音声取得部が取得した発話音声に基づき、発話者を特定するステップと、
     音声認識部が、前記音声取得部が取得した発話音声に対して音声認識を行うステップと、
     対話要求検知部が、前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、対話要求ユーザによる対話要求発話を検知するステップと、
     応答予兆検知部が、前記対話要求検知部が前記対話要求発話を検知した場合に、その他ユーザの状態を示す乗員状態情報に基づき、前記その他ユーザによる応答予兆を検知するステップと、
     応答検知部が、前記応答予兆検知部が前記その他ユーザによる前記応答予兆を検知した場合、前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、前記応答予兆が検知されてから応答判定用時間内に前記その他ユーザによる発話を検知したか否かを判定するステップと、
     対話対象判定部が、前記応答予兆検知部が前記応答予兆を検知したか否かの検知結果と、前記応答検知部が前記その他ユーザによる発話を検知したか否かの判定結果とに基づいて、前記対話要求検知部が検知した前記対話要求発話は、前記音声対話装置に対するものであるか、前記その他ユーザに対するものであるかを判定するステップ
     とを備えた音声対話装置における対話対象判定方法。
PCT/JP2020/031359 2020-08-20 2020-08-20 音声対話装置、および、音声対話装置における対話対象判定方法 WO2022038724A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031359 WO2022038724A1 (ja) 2020-08-20 2020-08-20 音声対話装置、および、音声対話装置における対話対象判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031359 WO2022038724A1 (ja) 2020-08-20 2020-08-20 音声対話装置、および、音声対話装置における対話対象判定方法

Publications (1)

Publication Number Publication Date
WO2022038724A1 true WO2022038724A1 (ja) 2022-02-24

Family

ID=80323469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/031359 WO2022038724A1 (ja) 2020-08-20 2020-08-20 音声対話装置、および、音声対話装置における対話対象判定方法

Country Status (1)

Country Link
WO (1) WO2022038724A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020080110A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 制御装置、エージェント装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020080110A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 制御装置、エージェント装置及びプログラム

Similar Documents

Publication Publication Date Title
US11437020B2 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
CN106796786B (zh) 语音识别***
JP3910898B2 (ja) 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
JP4859982B2 (ja) 音声認識装置
JP5154363B2 (ja) 車室内音声対話装置
JP2017090611A (ja) 音声認識制御システム
US11176948B2 (en) Agent device, agent presentation method, and storage medium
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
JP2002091466A (ja) 音声認識装置
JP2017090612A (ja) 音声認識制御システム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP2001013994A (ja) 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両
WO2022038724A1 (ja) 音声対話装置、および、音声対話装置における対話対象判定方法
JP2008250236A (ja) 音声認識装置および音声認識方法
JP2018144534A (ja) 運転支援システムおよび運転支援方法並びに運転支援プログラム
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
JP2001296891A (ja) 音声認識方法および装置
WO2022176038A1 (ja) 音声認識装置および音声認識方法
WO2022137534A1 (ja) 車載用音声認識装置及び車載用音声認識方法
JP2019197964A (ja) マイク制御装置
CN115113739A (zh) 用于生成表情符号的装置、车辆和用于生成表情符号的方法
JP7407665B2 (ja) 音声出力制御装置および音声出力制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20950289

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20950289

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP