WO2019235134A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2019235134A1
WO2019235134A1 PCT/JP2019/018769 JP2019018769W WO2019235134A1 WO 2019235134 A1 WO2019235134 A1 WO 2019235134A1 JP 2019018769 W JP2019018769 W JP 2019018769W WO 2019235134 A1 WO2019235134 A1 WO 2019235134A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
unit
voice
input
information
Prior art date
Application number
PCT/JP2019/018769
Other languages
English (en)
French (fr)
Inventor
栗屋 志伸
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2019235134A1 publication Critical patent/WO2019235134A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that execute a process and a response according to a user utterance.
  • Such a voice interaction system is called, for example, a smart speaker, an agent, or an agent device.
  • Such a voice interaction system analyzes a user utterance input via a microphone, and performs processing according to the analysis result.
  • the weather information is acquired from the weather information providing server, a system response based on the acquired information is generated, and the generated response is output from the speaker.
  • System utterance “Tomorrow's weather is sunny. However, there may be a thunderstorm in the evening.” Such a system utterance is output.
  • a major problem with spoken dialogue systems is that it is difficult to determine whether the sound that is input through the system microphone is the voice that the user has spoken to the system, or the utterance or noise that is not from the system. .
  • the noise includes a person's utterance other than the user's utterance to the system, an output sound such as TV and Internet audio content, and a stationary noise sound such as an air conditioner / ventilator.
  • Patent Document 1 Japanese Patent Laid-Open No. 2017-138476
  • Japanese Patent Laid-Open No. 2017-138476 Japanese Patent Laid-Open No. 2017-138476
  • This is to detect the state of the peripheral device serving as a noise source and perform control to reduce the output sound of the peripheral device in accordance with the timing when the user is estimated to speak.
  • this method requires processing for estimating the user's utterance timing, and there is a problem that the effect cannot be obtained unless this timing estimation is executed correctly.
  • the present disclosure has been made in view of the above problems, for example, and performs high-accuracy noise removal from the input sound to the system without performing processing such as controlling the output sound of the peripheral device according to the user utterance timing. It is an object of the present invention to provide an information processing apparatus, an information processing system, an information processing method, and a program that perform a high-accuracy speech recognition by acquiring a clear user utterance.
  • noise information for each noise generation source is registered in a noise database (DB), and noise is removed from input sound to the system using this registration information to obtain a clear user utterance.
  • DB noise database
  • noise information for each noise generation source is registered in a noise database (DB)
  • DB noise database
  • noise is removed from input sound to the system using this registration information to obtain a clear user utterance.
  • the first aspect of the present disclosure is: A noise cancellation unit that removes or reduces noise from the voice input via the voice input unit; A voice recognition unit that performs voice recognition processing by inputting voice information after noise cancellation in the noise cancellation unit; A response processing unit for executing a response process based on a voice recognition result in the voice recognition unit; It has a noise database that records noise information in association with noise identifiers,
  • the noise cancellation unit is An information processing apparatus that analyzes a noise component included in an input voice of the voice input unit using noise information recorded in the noise database and performs a process of subtracting the noise component from the input voice.
  • the second aspect of the present disclosure is: An information processing system having a user terminal and a data processing server,
  • the user terminal is A voice input unit for inputting a user utterance;
  • the data processing server A noise cancellation unit that removes or reduces noise from the voice received from the user terminal;
  • a voice recognition unit that performs voice recognition processing by inputting voice information after noise cancellation in the noise cancellation unit;
  • a response processing unit for executing a response process based on a voice recognition result in the voice recognition unit; It has a noise database that records noise information in association with noise identifiers,
  • the noise cancellation unit is An information processing system for analyzing a noise component included in a voice received from the user terminal using noise information recorded in the noise database and performing a process of subtracting the noise component from the voice received from the user terminal is there.
  • the third aspect of the present disclosure is: An information processing method executed in an information processing apparatus, A noise cancellation processing step in which the noise cancellation unit removes or reduces noise from the voice input via the voice input unit; A voice recognition unit that performs voice recognition processing by inputting voice information after noise cancellation in the noise cancellation processing step; The response processing unit executes a response processing step for executing a response process based on the voice recognition result in the voice recognition step,
  • the fourth aspect of the present disclosure is: An information processing method executed in an information processing system having a user terminal and a data processing server,
  • the user terminal is Execute voice input processing to input user utterance
  • the data processing server is Noise cancellation processing for removing or reducing noise from the voice received from the user terminal;
  • Speech recognition processing for speech information after noise cancellation, Perform response processing based on the speech recognition results,
  • the noise cancellation process Analyzing the noise component contained in the voice received from the user terminal using the noise information recorded in the noise database in association with the noise identifier, and executing the process of subtracting the noise component from the voice received from the user terminal
  • the fifth aspect of the present disclosure is: A program for executing information processing in an information processing apparatus; A noise cancellation processing step for removing or reducing noise from the voice input through the voice input unit to the noise cancellation unit; A voice recognition step for executing voice recognition processing by inputting voice information after noise cancellation in the noise cancellation processing step to the voice recognition unit; Causing the response processing unit to execute a response processing step for executing a response process based on the voice recognition result in the voice recognition step;
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an information processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the information processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • an apparatus and a method that can perform voice recognition based on a clear user utterance by removing noise from a voice input via a voice input unit.
  • a noise canceling unit that removes noise from speech input via the speech input unit
  • a speech recognition unit that inputs speech information after noise cancellation and executes speech recognition processing
  • a speech recognition result And a noise database in which a noise identifier is associated with a noise signal, a noise signal calculation function, or the like.
  • the noise cancellation unit analyzes a noise component included in the input voice of the voice input unit using noise information recorded in the noise database, and executes a process of subtracting the noise component from the input voice.
  • FIG. 11 is a diagram illustrating a specific example of noise cancellation processing executed by the information processing apparatus.
  • FIG. 11 is a diagram illustrating a specific example of noise cancellation processing executed by the information processing apparatus.
  • FIG. 25 is a diagram for describing an example hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a processing example of an information processing apparatus 10 that recognizes and responds to a user utterance made by a user 1.
  • the voice recognition process of this user utterance is executed.
  • the information processing apparatus 10 executes processing based on the speech recognition result of the user utterance.
  • the information processing apparatus 10 performs the following system response.
  • System response “Tomorrow in Osaka, the afternoon weather is fine, but there may be a shower in the evening.”
  • the information processing apparatus 10 executes speech synthesis processing (TTS: Text To Speech) to generate and output the system response.
  • TTS Text To Speech
  • the information processing apparatus 10 generates and outputs a response using knowledge data acquired from a storage unit in the apparatus or knowledge data acquired via a network.
  • An information processing apparatus 10 illustrated in FIG. 1 includes a camera 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration capable of audio input / output and image input / output.
  • the information processing apparatus 10 illustrated in FIG. 1 is called, for example, a smart speaker or an agent device.
  • voice recognition processing and semantic analysis processing for user utterances may be performed in the information processing apparatus 10 or may be performed in a data processing server that is one of the servers 20 on the cloud side.
  • the information processing apparatus 10 constituting the voice interaction system is not limited to the agent device 10a, but can be various apparatus forms such as a smartphone 10b and a PC 10c.
  • the information processing apparatus 10 recognizes the utterance of the user 1 and performs a response based on the user utterance. For example, the information processing apparatus 10 also executes control of the external device 30 such as a television and an air conditioner illustrated in FIG. For example, when the user utterance is a request such as “change the TV channel to 1” or “set the air conditioner temperature to 20 degrees”, the information processing apparatus 10 determines whether the user utterance is based on the voice recognition result of the user utterance. A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user utterance.
  • Wi-Fi Wi-Fi, infrared light, etc.
  • the information processing apparatus 10 is connected to the server 20 via the network, and can acquire information necessary for generating a response to the user utterance from the server 20. Further, as described above, the server may be configured to perform voice recognition processing and semantic analysis processing.
  • FIG. 3 An example of the actual use environment of the information processing apparatus 10 is shown in FIG. 3, devices (external devices) such as TVs 1 and 31, air conditioners 1 and 32, ventilation fans 33, and TVs 2 and 34 exist around the information processing apparatus 10 that performs voice conversation. These devices (external devices) generate various sounds (noise) during operation.
  • TV switch If the TV switch is ON, various program sounds will be output. This TV sound is a noise sound for a user utterance. In addition, when an air conditioner or a ventilation fan is operating, a steady noise is generated.
  • the information processing apparatus 10 also inputs noise output from such various devices (external devices) in conjunction with the user utterance via the microphone.
  • the information processing apparatus 10 cannot correctly execute the speech recognition process of the user utterance, and the possibility of generating an error (a source) that executes a process different from the intention of the user utterance is increased. become.
  • the information processing apparatus of the present disclosure realizes reduction of errors by removing or reducing noise from a microphone input sound to extract a clear user utterance and performing voice recognition.
  • FIG. 4 is a diagram illustrating a configuration example of the information processing apparatus 100 that recognizes a user utterance and performs processing and a response corresponding to the user utterance.
  • the information processing apparatus 100 shown in FIG. 4 has the same configuration as the information processing apparatus 10 shown in FIGS. 1 and 2 and executes the same processing.
  • an image-related processing configuration (camera, display unit) will be omitted.
  • the information processing apparatus 100 includes a tuner 101, a decoder 102, a noise management unit 103, a control unit 104, a noise cancellation unit 105, a voice input unit (microphone) 106, a voice recognition unit 107, and a response processing unit 108. , An audio output unit (speaker) 109, a noise DB (database) 110, a response processing data DB 111, and a communication unit 112.
  • the communication unit 112 executes communication between the information processing apparatus 100 and the external device 200, the external device controller (remote controller) 220, the information providing server 250, and the like.
  • the external device 200 is a noise generating device that generates various noises in the usage environment of the information processing apparatus 100, such as a television (TV), an air conditioner, and a ventilation fan described above with reference to FIG. Although only one external device 200 is shown in FIG. 4, the number of external devices is not limited to one, and a plurality of external devices may exist.
  • the external device 200 has a state management unit 201 and an audio output unit 202.
  • This configuration is a simplified configuration of a television (TV), an air conditioner, a ventilation fan, and the like, and shows only the configuration used in the processing of the present disclosure.
  • the state management unit 201 performs voice output control, operation mode control (ON, OFF, setting, channel, etc.), and communication with the information processing apparatus 100.
  • the external device controller (remote controller) 220 is, for example, a remote controller, such as a TV remote controller, a remote controller such as an air conditioner or a ventilation fan.
  • the external device controller (remote controller) 220 also has a communication function with the information processing apparatus 100. However, this communication function is not an essential configuration, and the information processing apparatus 100 receives the operation mode (ON, OFF, setting, channel) of the external device 200 from at least one of the external device 200 and the external device controller (remote controller) 220. Etc.) as long as the information can be acquired.
  • the information providing server 250 is a server that provides information and processes corresponding to the user utterance of the user 1 executed for the information processing apparatus 100, for example.
  • the server includes a server that provides a service according to a user request, such as a server that provides weather information, a music providing server, and the like.
  • a server that provides weather information, a music providing server, and the like such as a server that provides weather information, a music providing server, and the like.
  • the tuner 101 receives data distributed via, for example, television and radio broadcast waves, and the Internet. For example, a television program, music content, video content, etc. are received. In the case of a television, a signal of a specific setting channel is received, and information from a specific designated URL is received from the Internet.
  • Data received by the tuner 101 is input to the decoder 102, and the decoder 102 decodes the received data.
  • the audio signal included in the decoding result is input to the noise management unit 103.
  • the noise management unit 103 executes different processes when the following two processes are executed.
  • A When Noise Information Registration Process is Performed
  • b When Noise Canceling Process is Performed
  • the process executed by the noise management unit 103 when these two processes are performed will be described.
  • Noise information registration processing is processing for registering noise information output from various external devices in the noise DB (database) 110.
  • An example of data registered in the noise DB (database) 110 is shown in FIG. The following data is recorded in the noise DB 110 in association with each noise identifier.
  • Noise identifier ((a1) device identifier and (a2) operation mode)
  • B) Noise type (c) Microphone input voice noise calculation function (d) Microphone input stationary noise (e) Noise signal acquisition link
  • the noise identifier is composed of (a1) a device identifier and (a2) an operation mode.
  • device identifier TV1
  • noise type (a) the type of noise specified by the noise identifier is registered. Specifically, there are the following three types of noise.
  • B3) Special audio noise such as noise generated at the time of a device error, for example, link setting noise that the device manufacturer or seller provides noise audio information,
  • audio noise is a noise signal that changes with time (t).
  • Stationary noise is a noise signal that hardly changes with time (t).
  • B3 Link setting noise is a noise signal capable of acquiring noise sound information from the outside.
  • the microphone input voice noise calculation function is recorded only when (b) the noise type is “voice noise”. That is, it is recorded only in the case of audio-compatible audio noise that constitutes a television, radio program, or network distribution content.
  • a microphone input voice noise signal calculation function corresponding to the environment in which the information processing apparatus 100 is placed is recorded.
  • Various environments such as the environment described with reference to FIG. 3 are assumed as the environment where the information processing apparatus 100 is placed.
  • a noise signal corresponding to the environment is input to the microphone of the information processing apparatus 100.
  • the output sound from the speaker of an external device such as a television is reflected on the surrounding wall, ceiling, floor, etc., and the sound input to the microphone of the information processing apparatus 100 is This is a composite of the output sound from the speaker and the reflected sound.
  • f1 (t) is a function indicating a transition according to time (t) of the audio signal received by the tuner 101 of the information processing apparatus 100. That is, the above (Equation 1) is a function for calculating the audio noise signal g1 (t) input by the audio input unit (microphone) 106 of the information processing apparatus 100 from the function f1 (t) of the audio signal received by the tuner 101. It is.
  • the reception signal of the tuner 101 is a reception signal having the same setting as that of the TV 1 channel.
  • n is the number of sounds when the sound output from the TV 1 is input to the microphone of the information processing apparatus 100.
  • a plurality of reflected sounds such as a wall and a ceiling are input to the microphone.
  • n is the total number of these input sounds.
  • k (n) is a parameter indicating the level (relative intensity) of each of the n input sounds.
  • T (n) is a delay time of each of n input sounds.
  • f1 (t) is an audio signal (audio waveform) of the output sound of the TV 1, that is, an audio waveform signal without delay.
  • f1 (t ⁇ T (n)) is an audio signal (audio waveform) taking into account the delay time of each of the n input sounds.
  • k (1) ⁇ f1 (t ⁇ T (1)) corresponds to the first input speech signal (speech waveform) of n input sounds input to the microphone of the information processing apparatus 100.
  • k (2) ⁇ f1 (t ⁇ T (2)) corresponds to the second input audio signal (audio waveform) of n input sounds input to the microphone of the information processing apparatus 100.
  • the result of adding all n input sounds input to the microphone of the information processing apparatus 100 is a value calculated by the above (Equation 2), and this value is a noise sound input to the microphone of the information processing apparatus 100. Equivalent to.
  • the noise management unit 103 causes the noise cancellation unit 105 to input an audio signal with no delay input from the tuner 101 and a TV audio signal including various reflected waves from the audio input unit (microphone) 106, and ),
  • the microphone input sound noise calculation function shown in (Expression 2) is calculated, and this function g is registered in the noise DB 110.
  • “(c) microphone input sound noise calculation function” a different function g is registered for each device such as a TV and a radio with different installation positions. Details of the DB registration processing sequence of this function will be described later.
  • the noise cancellation processing by the noise cancellation unit 105 becomes possible.
  • the noise canceling unit 105 applies the undelayed audio signal f1 (t) input from the tuner 101 and the microphone input audio noise calculation function g1 (f1 (t)) registered in the noise DB 110 to process the information processing apparatus 100.
  • the noise signal component included in the audio signal input to the audio input unit (microphone) 106 is calculated. Details of the sequence of the audio noise calculation process using this DB registration function will be described later.
  • the description of the registration data of the noise DB 110 shown in FIG. (D) The microphone input stationary noise signal is recorded when the noise type is stationary noise, that is, when it is stationary noise with little temporal variation such as operation sound of an air conditioner, a ventilation fan, or the like.
  • the noise management unit 103 inputs a stationary noise registration start instruction from the control unit 104, and transmits a stationary noise audio signal (waveform) input from the audio input unit (microphone) 106 via the noise cancellation unit 105. It is input and registered in the noise DB 110 in association with the noise identifier (device identifier and operation mode). Since stationary noise such as operating sounds of air conditioners and ventilators has little variation with time, a signal input from the voice input unit (microphone) 106 is registered as it is without considering a delay or the like.
  • the noise signal acquisition link is a special audio noise such as a noise generated at the time of a device error when the noise type is a link setting noise, and acquires noise audio information from a device manufacturer or a seller. Recorded if possible link setup noise.
  • noise signal acquisition link access information such as URL information of a site providing noise audio information is recorded.
  • the noise management unit 103 acquires noise audio information provider information such as a manufacturer or a seller of the external device via the network, and a noise identifier (device identifier and operation mode) Are registered in the noise DB 110 in association with.
  • URL information acquired by the user may be recorded.
  • the noise management unit 103 executes different processes according to the noise type when the noise information registration process is executed. That is, the following processes are executed.
  • the noise type is audio noise such as TV or radio broadcast, or net distribution content
  • the microphone input audio noise calculation function is registered in the “(c) microphone input audio noise calculation function” field.
  • the noise type is stationary noise such as an operating sound of an air conditioner, a ventilation fan, etc.
  • the sound of stationary noise input from the voice input unit (microphone) 106 in the “(d) microphone input stationary noise signal” field. Register the signal (waveform).
  • the noise type is link setting noise, access information such as URL information indicating a noise voice information providing site is registered in “(e) Noise acquisition link”.
  • the noise management unit 103 acquires noise information registered in the noise DB 110 in response to an instruction from the control unit 104 when executing the noise cancellation process, and the noise cancellation unit 105.
  • the processing provided to is performed.
  • the noise cancellation unit 105 executes noise cancellation processing using this information.
  • control unit 104 When the noise management unit 103 performs processing for registering noise information in the noise DB 110, the control unit 104 controls the operation mode of an external device that is a noise generation source registered in the noise DB 110, or acquires operation mode information. The processing provided to the noise management unit 103 is executed.
  • the noise cancellation unit 105 executes noise cancellation processing from an audio signal input via the audio input unit (microphone) 106, the operation mode information of the external device that is the source of the noise is acquired and the noise is cancelled. For example, processing provided to the management unit 103 and the noise cancellation unit 105 is executed.
  • the noise cancellation unit 105 executes noise cancellation processing from an audio signal input via the audio input unit (microphone) 106. A specific sequence of this process and a specific example of the process will be described later.
  • the voice input unit (microphone) 106 inputs a user utterance of the user 1. However, this input sound includes not only user utterances but also noises uttered by external devices such as televisions, air conditioners, and ventilation fans.
  • the audio signal input by the audio input unit (microphone) 106 is input to the noise canceling unit 105, and the noise canceling unit 105 performs noise removal or reduction processing.
  • the voice recognition unit 107 inputs a clear user utterance voice signal from which noise has been removed or reduced from the noise cancellation unit 105, and executes voice recognition processing of the user utterance.
  • speech data is converted into text data composed of a plurality of words by an ASR (Automatic Speech Recognition) function.
  • ASR Automatic Speech Recognition
  • an utterance semantic analysis process is performed on the text data. For example, with natural language understanding functions such as NLU (Natural Language Understanding), the intention (intent) of user utterance from text data, and entity information (entity: meaningful element) included in the utterance Entity).
  • NLU Natural Language Understanding
  • the response processing unit 108 acquires a voice recognition result from the voice recognition unit 107, refers to the response processing DB 111, and generates a response (system utterance) to the user 1.
  • Input user utterance text information is text information of a user utterance input as a voice recognition result from the voice recognition unit 107.
  • the output system response utterance is a system response utterance that the response processing unit 108 outputs via the voice output unit (speaker) 109 when the user utterance registered in (a) is input from the voice recognition unit 107. is there.
  • the output command is a command that the response processing unit 108 outputs to the control unit 104 when the user utterance registered in (a) is input from the voice recognition unit 107.
  • the voice output unit (speaker) 109 outputs the system utterance (response) generated by the response processing unit 108.
  • the information processing apparatus 100 can output a response via a display unit or the like.
  • the response processing unit 108 displays image information for response. It is acquired from the generation or response processing DB 111 or an external server and output to the display unit.
  • Noise information registration process for the noise DB 110 [3-1. (Process 1) Noise information registration process for the noise DB 110] First, (Process 1) Noise information registration processing for the noise DB 110 will be described with reference to sequence diagrams shown in FIGS. Hereinafter, processing of each step in the sequence diagrams shown in FIGS. 7 and 8 will be described.
  • Step S11 First, in step S ⁇ b> 11, noise output from the audio output unit 202 of the external device 200 is input to the audio input unit (microphone) 106 of the information processing apparatus 100.
  • the external device 200 is a television (TV 1 shown in FIGS. 3 and 5) will be described. That is, a processing example in the case of performing registration processing of data of entry (1) in the data of the noise DB 111 shown in FIG.
  • step S12 Next, in step S ⁇ b> 12, the user 1 executes the following user utterance with respect to the information processing apparatus 100.
  • User utterance register TV noise
  • the user utterance is input to the voice input unit (microphone) 106 of the information processing apparatus 100, voice recognition processing is executed in the voice recognition unit 107, and the voice recognition result is input to the response processing unit 108.
  • voice input unit microphone
  • voice recognition processing is executed in the voice recognition unit 107
  • voice recognition result is input to the response processing unit 108.
  • step S13 the response processing unit 108 outputs the following system utterance (response) via the audio output unit (speaker) 109.
  • System utterance OK. Please be quiet for a while.
  • This system utterance is a process using the registration data of the response processing DB 111 described above with reference to FIG.
  • the response processing unit 108 receives the operation mode information of the external device received by the control unit 104 via the communication unit 112, and generates and outputs a command based on the input information.
  • the response processing unit 108 does not notify the control unit 104 of the noise identifier (device identifier, operation mode), and controls only the registration request for the audio noise input to the audio input unit (microphone) 106 as a command.
  • the control unit 104 may be configured to output audio noise input to the audio input unit (microphone) 106 based on information acquired from the external device 200 or the guide device controller 220. Get the device identifier and the operation mode that is the source of.
  • Step S24 Next, in step S ⁇ b> 24, the control unit 104 outputs a noise registration process start instruction to the noise management unit 103.
  • Step S25 Next, in step S ⁇ b> 25, the noise management unit 103 outputs a microphone input sound noise calculation function g (f (t)) acquisition instruction to the noise cancellation unit 105.
  • Step S26 Next, in step S ⁇ b> 26, the noise management unit 103 inputs the audio signal f (t) via the tuner 101 and the decoder 102.
  • Step S27 Next, in step S ⁇ b> 27, the noise management unit 103 transfers the audio signal f (t) acquired via the tuner 101 and the decoder 102 to the noise cancellation unit 105.
  • Step S28 Next, in step S ⁇ b> 28, the noise canceling unit 105 inputs the audio g (t) output from the external device 200 (TV1 in this example) via the audio input unit (microphone) 106.
  • This input sound g (t) includes a direct sound and a plurality of reflected sounds reflected by walls, ceilings, and the like.
  • Step S29 Next, in step S29, the noise cancellation unit 105 applies the audio signal f (t) acquired via the tuner 101 and the decoder 102 and the audio g (t) input via the audio input unit (microphone) 106. Then, the microphone input sound noise calculation function g (f (t)) is calculated. The microphone input sound noise calculation function g (f (t)) can calculate a sound noise signal input via the sound input unit (microphone) 106 from the sound signal f (t) that can be acquired via the tuner 101. Function.
  • Step S30 Next, in step S ⁇ b> 30, the noise cancellation unit 105 outputs the microphone input sound noise calculation function g (f (t)) calculated in step S ⁇ b> 29 to the noise management unit 103.
  • Step S31 Next, in step S ⁇ b> 31, the noise management unit 103 registers the microphone input sound noise calculation function g (f (t)) input from the noise cancellation unit 105 in the noise DB 110. In the registration process, a process of registering in association with a noise identifier (device identifier and operation mode) and a noise type is executed.
  • a noise identifier device identifier and operation mode
  • the noise information registration process for entry (1) of the noise DB 111 shown in FIG. 5 is performed.
  • the above-described processing sequence is a registration process when the noise type is TV noise, radio broadcasting, audio noise such as Internet distribution content, or the like.
  • the noise type is stationary noise such as operation sound of an air conditioner, a ventilation fan, etc.
  • the noise type is link setting noise
  • a process of registering access information such as URL information indicating a noise voice information providing site is executed in “(e) Noise acquisition link”.
  • Step S31 First, in step S ⁇ b> 31, noise output from the audio output unit 202 of the external device 200 is input to the audio input unit (microphone) 106 of the information processing apparatus 100.
  • the external device 200 is a television (TV 1 shown in FIGS. 3 and 5) will be described. That is, a processing example in the case of performing noise cancellation processing using the registration data of entry (1) in the data of the noise DB 111 shown in FIG. 5 will be described.
  • step S ⁇ b> 32 the user 1 executes the following user utterance with respect to the information processing apparatus 100.
  • User utterance What time is this user utterance?
  • the user utterance is input to the voice input unit (microphone) 106 of the information processing apparatus 100, and is input to the noise canceling unit 105 in step S33.
  • Step S34 the noise cancellation part 105 acquires the registration data of noise DB110 via the noise management part 103 in step S34.
  • the noise management unit 103 receives information about the currently operating external device and operation mode information from the control unit 104, and generates noise input to the voice input unit (microphone) 106 based on the input information. Registration information regarding the source is provided to the noise cancellation unit 105.
  • Step S35 Next, the noise cancellation part 105 performs the noise cancellation process using the registration data of noise DB110 acquired by step S34 in step S35.
  • step S41 the noise canceling unit 105 acquires a tuner input voice signal f (t) at the time of user utterance input from the memory.
  • the information processing apparatus 100 records a past audio signal of a certain period input by the audio input unit (microphone) 106 in a memory (storage unit), and the noise cancellation unit 105 is a tuner input audio signal at the time of user utterance input.
  • f (t) is obtained from the memory.
  • Step S42 the noise canceling unit 105 applies the tuner input audio signal f (t) and the microphone input audio noise calculation function g (f (t)) registered in the noise DB 110 to generate an audio input unit (
  • the TV noise audio signal g (f (t)) included in the input signal of the microphone 106 is calculated.
  • Step S43 the noise canceling unit 105 subtracts the TV noise audio signal g (f (t)) calculated in step S42 from the audio signal input from the audio input unit (microphone) 106 to remove noise. A later user utterance voice signal is generated.
  • FIG. 11A is an example of an audio signal input from the audio input unit (microphone) 106.
  • This input signal is an input voice signal when a user utterance is executed, and includes a voice signal corresponding to the user utterance and a television noise signal output from the television.
  • FIG. 11B is a signal calculated by the noise cancellation unit 105 in step S42 of the flow shown in FIG. That is, it is a TV noise audio signal included in the input signal of the audio input unit (microphone) 106.
  • the noise cancellation unit 105 applies the tuner input audio signal f (t) and the microphone input audio noise calculation function g (f (t)) registered in the noise DB 110 to the input signal of the audio input unit (microphone) 106.
  • the included TV noise audio signal g (f (t)) is calculated. This calculation result is the television noise signal shown in FIG.
  • the signal shown in FIG. A later user speech signal is obtained.
  • the process of acquiring the noise-removed user utterance voice signal by the subtraction process is the process of step S43 in the flow shown in FIG.
  • the noise canceling unit 105 executes the noise canceling process using the registration data of the noise DB 110 in step S35 shown in FIG. To get.
  • Step S36 Next, the noise canceling unit 105 outputs a clear user utterance voice signal after the noise cancellation to the voice recognition unit 107 in step S36.
  • Step S37 the speech recognition unit 107 executes speech recognition processing based on the noise-cancelled clear user utterance speech signal acquired from the noise cancellation unit 105 and outputs a speech recognition result to the response processing unit 108.
  • step S38 the response processing unit 108 generates the following system utterance (response), and outputs it via the audio output unit (speaker) 109 in step S39.
  • System utterance 10:00. This system utterance is processing using registration data in the response processing DB 111 described above with reference to FIG.
  • the noise cancellation processing described with reference to FIGS. 9 to 11 is an example in which the noise included in the audio signal input from the audio input unit (microphone) 106 is one audio noise of one television.
  • the noises from a plurality of noise generation sources such as a television and an air conditioner are input together.
  • noise cancellation processing of the noise cancellation unit 105 when noise from a plurality of external devices (noise generation sources) is input in this way will be described with reference to FIG.
  • This input signal is an input voice signal when a user utterance is executed, and includes an audio signal corresponding to the user utterance, a TV noise signal output from the television, and an air conditioner noise signal output from the air conditioner.
  • the upper left (B1) of FIG. 12 is a TV noise audio signal calculated by the noise canceling unit 105, and is a TV noise audio signal included in the input signal of the audio input unit (microphone) 106.
  • the noise cancellation unit 105 applies the tuner input audio signal f (t) and the microphone input audio noise calculation function g (f (t)) registered in the noise DB 110 to the input signal of the audio input unit (microphone) 106.
  • the included TV noise audio signal g (f (t)) is calculated. This calculation result is the television noise signal shown in FIG.
  • FIG. 12 (B2) is an air conditioner noise signal (microphone input stationary noise) acquired by the noise canceling unit 105 from the registered data of the noise DB 110. Since the air conditioner noise signal has little temporal variation, data acquired in advance can be used as it is.
  • (B3) shown in the upper right of FIG. 12 is (B1) + (B2), which is a result of adding the TV noise signal calculated based on the noise canceling unit 105 tuner input signal and the air conditioner noise signal registered in the noise DB 110. is there.
  • FIG. 12 shows the subtraction processing of the TV noise signal + air conditioner noise signal shown in FIG. 12 (B3) from the input voice signal of the voice input unit (microphone) 106 shown in FIG.
  • the signal shown in FIG. 12C that is, the user speech signal after noise removal is obtained.
  • the noise canceling unit 105 executes the noise canceling process by using the registered data of the noise DB 110 even when the input audio signal of the audio input unit (microphone) 106 includes noises from a plurality of external devices. It is possible to obtain a clear user utterance voice signal from which the noise signal of the external device is removed or reduced.
  • Step S51 First, in step S ⁇ b> 51, noise output from the audio output unit 202 of the external device 200 is input to the audio input unit (microphone) 106 of the information processing apparatus 100.
  • the external device 200 is a television (TV 1 shown in FIGS. 3 and 5) and the setting of the television is set to 6ch will be described.
  • noise DB 110 As shown in FIG. 14, 6Ch noise information of TV1 is registered as entry (1), and 1Ch noise information of TV1 is registered as entry (2).
  • Step S ⁇ b> 52 the user 1 executes the following user utterance with respect to the information processing apparatus 100.
  • the user utterance is changed to 1ch.
  • This user utterance is input to the voice input unit (microphone) 106 of the information processing apparatus 100, and is input to the noise canceling unit 105 in step S53.
  • Step S54 the noise cancellation part 105 acquires the registration data of noise DB110 via the noise management part 103 in step S54.
  • the noise management unit 103 receives information about the currently operating external device and operation mode information from the control unit 104, and generates noise input to the voice input unit (microphone) 106 based on the input information. Registration information regarding the source is provided to the noise cancellation unit 105.
  • Step S55 Next, the noise cancellation part 105 performs the noise cancellation process using registration data of noise DB110 acquired by step S54 in step S55.
  • step S55 The noise cancellation processing executed in step S55 is the same processing as that described above with reference to FIGS.
  • Step S56 the noise canceling unit 105 outputs a clear user utterance voice signal that has been subjected to noise cancellation to the voice recognition unit 107.
  • Step S57 the speech recognition unit 107 executes speech recognition processing based on the noise-cancelled clear user utterance speech signal acquired from the noise cancellation unit 105 and outputs a speech recognition result to the response processing unit 108.
  • step S58 the response processing unit 108 generates the following system utterance (response), and outputs it via the audio output unit (speaker) 109 in step S59.
  • System utterance OK. This system utterance is processing using registration data in the response processing DB 111 described above with reference to FIG.
  • Step S60 Further, the response processing unit 108 outputs an external device control instruction to the control unit 104 in step S60.
  • This process is also a process using the registration data of the response processing DB 111 described above with reference to FIG. The detailed processing after step S60 will be described with reference to FIG.
  • the output of this instruction command is a process based on the voice recognition result when the user utterance is changed to 1ch, and is a process using the registration data of the response processing DB 111 described above with reference to FIG.
  • CH reception and operation mode control signal
  • Step S84 the control unit 104 outputs a noise identifier (device identifier + operation mode) to the noise management unit 103.
  • steps S85 to S86 the control unit 104 receives the noise identifier from the noise DB 110 via the noise management unit 103.
  • Noise information corresponding to (device identifier + operation mode) is acquired and output to the noise canceling unit 105. That is, the noise information of entry (2) of the noise DB 110 shown in FIG. 14 is acquired and output to the noise canceling unit 105.
  • the noise cancellation unit 105 performs noise cancellation processing using this data. As described above, when the operation mode of the external device is changed, the noise information corresponding to the operation mode after the change is acquired from the noise DB 110, and the correct noise cancellation processing according to the audio output mode of the external device is executed. It becomes possible to do.
  • FIG. 16 shows a system configuration example.
  • Information processing system configuration example 1 has almost all the functions of the information processing apparatus shown in FIG. 4 as one apparatus, for example, a smartphone or PC owned by the user, or voice input / output and image input / output functions.
  • the information processing apparatus 410 is a user terminal such as an agent device.
  • the information processing apparatus 410 corresponding to the user terminal executes communication with the service providing server 420 only when an external service is used when generating a response sentence, for example.
  • the service providing server 420 is, for example, a music providing server, a content providing server such as a movie, a game server, a weather information providing server, a traffic information providing server, a medical information providing server, a tourism information providing server, and the like, and executes processing for user utterances And a server group capable of providing information necessary for generating a response.
  • FIG. 16 (2) information processing system configuration example 2 includes a part of the functions of the information processing apparatus shown in FIG. 4 in the information processing apparatus 410 that is a user terminal such as a smartphone, PC, or agent device owned by the user.
  • This is an example of a system that is configured and configured to be executed by a data processing server 460 that can partially communicate with an information processing apparatus.
  • the voice input unit (microphone) 106 and the voice output unit (speaker) 109 in the apparatus shown in FIG. 4 are provided on the information processing apparatus 410 side on the user terminal side, and all other functions are executed on the server side. Etc. are possible.
  • the user terminal has an audio input unit
  • the data processing server removes or reduces noise from the audio received from the user terminal
  • the audio information after the noise cancellation is input
  • a configuration including a speech recognition unit that executes recognition processing and a response processing unit that executes response processing based on the speech recognition result is possible.
  • the noise cancellation unit of the server acquires the noise information associated with the noise identifier, and executes a process of subtracting the noise component from the voice received from the user terminal.
  • the function division mode of the function on the user terminal side and the function on the server side can be set in various different ways, and a configuration in which one function is executed by both is also possible.
  • FIG. 17 is an example of the hardware configuration of the information processing apparatus described above with reference to FIG. 4, and constitutes the data processing server 460 described with reference to FIG. It is an example of the hardware constitutions of information processing apparatus.
  • a CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, processing according to the sequence described in the above-described embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501 and data.
  • the CPU 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504.
  • An input unit 506 including various switches, a keyboard, a mouse, a microphone, and a sensor, and an output unit 507 including a display and a speaker are connected to the input / output interface 505.
  • the CPU 501 executes various processes in response to a command input from the input unit 506 and outputs a processing result to the output unit 507, for example.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk and stores programs executed by the CPU 501 and various data.
  • a communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • BT Bluetooth
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and executes data recording or reading.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • the technology disclosed in this specification can take the following configurations.
  • a noise cancellation unit that removes or reduces noise from the voice input via the voice input unit;
  • a voice recognition unit that performs voice recognition processing by inputting voice information after noise cancellation in the noise cancellation unit;
  • a response processing unit for executing a response process based on a voice recognition result in the voice recognition unit; It has a noise database that records noise information in association with noise identifiers,
  • the noise cancellation unit is An information processing apparatus that analyzes a noise component included in an input voice of the voice input unit using noise information recorded in the noise database and performs a process of subtracting the noise component from the input voice.
  • the noise database is Acquires a device identifier of an external device that is a noise generation source, a noise identifier configured by the operation mode of the external device, a noise signal input from the voice input unit, a calculation function of the noise signal, or the noise signal It is a noise database that associates access information to The noise cancellation unit is The information processing apparatus according to (1), wherein a noise cancellation process is executed using registration information of the noise database.
  • the noise cancellation unit is The information processing apparatus according to (1) or (2), wherein a noise signal input from the audio input unit is calculated based on a function registered in the noise database and an audio signal input via the tuner.
  • the noise cancellation unit A process of subtracting a noise signal calculated based on a function registered in the noise database and an audio signal input via the tuner from an audio signal input via the audio input unit (3) The information processing apparatus described.
  • the noise cancellation unit is The information processing apparatus according to any one of (1) to (4), wherein a process of subtracting a stationary noise signal registered in the noise database from an audio signal input via the audio input unit is executed.
  • the noise cancellation unit is The information according to any one of (1) to (5), wherein a process of subtracting a noise signal acquired from an access destination based on access information registered in the noise database from an audio signal input via the audio input unit Processing equipment.
  • the noise cancellation unit When noise from a plurality of different external devices is included in the audio signal input through the audio input unit, the addition result of the noise of each external device is calculated, from the audio signal input through the audio input unit, The information processing apparatus according to any one of (1) to (6), wherein a process of subtracting the addition result is executed.
  • the information processing apparatus further includes: It has a control unit that acquires the operation mode of the external device that becomes the noise source,
  • the controller is The information processing apparatus according to any one of (1) to (7), wherein control necessary for noise cancellation processing in the noise cancellation unit is executed.
  • control unit The information processing apparatus according to (8), wherein a control signal is output to the tuner so that an audio signal corresponding to an operation mode of an external device that is a noise generation source is received via the tuner.
  • control unit The information processing apparatus according to any one of (8) to (10), wherein the noise cancellation unit is caused to execute a process of generating a function for calculating a noise signal input from the voice input unit.
  • An information processing system having a user terminal and a data processing server,
  • the user terminal is A voice input unit for inputting a user utterance;
  • the data processing server A noise cancellation unit that removes or reduces noise from the voice received from the user terminal;
  • a voice recognition unit that performs voice recognition processing by inputting voice information after noise cancellation in the noise cancellation unit;
  • a response processing unit for executing a response process based on a voice recognition result in the voice recognition unit; It has a noise database that records noise information in association with noise identifiers,
  • the noise cancellation unit is An information processing system that analyzes a noise component included in a voice received from the user terminal using noise information recorded in the noise database and performs a process of subtracting the noise component from the voice received from the user terminal.
  • the noise database is Acquires a device identifier of an external device that is a noise generation source, a noise identifier configured by an operation mode of the external device, a noise signal input from the voice input unit, a calculation function of the noise signal, or the noise signal It is a noise database that associates access information to The noise cancellation unit is The information processing system according to (12), wherein noise cancellation processing is executed using registration information of the noise database.
  • An information processing method executed in the information processing apparatus A noise cancellation processing step in which the noise cancellation unit removes or reduces noise from the voice input via the voice input unit; A voice recognition unit that performs voice recognition processing by inputting voice information after noise cancellation in the noise cancellation processing step; The response processing unit executes a response processing step for executing a response process based on the voice recognition result in the voice recognition step,
  • An information processing method executed in an information processing system having a user terminal and a data processing server The user terminal is Execute voice input processing to input user utterance,
  • the data processing server is Noise cancellation processing for removing or reducing noise from the voice received from the user terminal; Speech recognition processing for speech information after noise cancellation, Perform response processing based on the speech recognition results,
  • the noise cancellation process Analyzing the noise component contained in the voice received from the user terminal using the noise information recorded in the noise database in association with the noise identifier, and executing the process of subtracting the noise component from the voice received from the user terminal Information processing method.
  • a program for executing information processing in an information processing device A noise cancellation processing step for removing or reducing noise from the voice input through the voice input unit to the noise cancellation unit; A voice recognition step for executing voice recognition processing by inputting voice information after noise cancellation in the noise cancellation processing step to the voice recognition unit; Causing the response processing unit to execute a response processing step for executing a response process based on the voice recognition result in the voice recognition step;
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • an apparatus capable of performing speech recognition based on a clear user utterance by removing noise from speech input via the speech input unit.
  • the method is realized. Specifically, for example, a noise canceling unit that removes noise from speech input via the speech input unit, a speech recognition unit that inputs speech information after noise cancellation and executes speech recognition processing, and a speech recognition result And a noise database in which a noise identifier is associated with a noise signal, a noise signal calculation function, or the like.
  • the noise cancellation unit analyzes a noise component included in the input voice of the voice input unit using noise information recorded in the noise database, and executes a process of subtracting the noise component from the input voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法を実現する。音声入力部を介して入力する音声からノイズを除去するノイズキャンセル部と、ノイズキャンセル後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部と、ノイズ識別子とノイズ信号、またはノイズ信号の算出関数等を対応付けたノイズデータベースを有する。ノイズキャンセル部は、ノイズデータベースに記録されたノイズ情報を利用して音声入力部の入力音声に含まれるノイズ成分を解析し、入力音声からノイズ成分を減算する処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。このような音声対話システムは、例えばスマートスピーカー、エージェント、あるいはエージェント機器等と呼ばれる。
 このような音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 音声対話システムの大きな課題として、システムのマイクを介して入力する音が、ユーザがシステムに話しかけた音声であるか、あるいはシステム以外に対する発話やノイズであるかを判断するのが難しいという問題がある。
 ユーザがシステムに対して話しかけた音以外の音をシステムがユーザ発話であると認識して処理を行うと、誤った処理を行ってしまう可能性がある。このようなシステムの誤動作は、例えば「湧き出し」と呼ばれる。
 このような誤動作を防止する方法はいくつか提案されている。例えば、ユーザがシステムに対する発話を行う場合、予め規定した「起動ワード」を用いるものがある。具体的には、例えばシステムのニックネームを「起動ワード」として予め登録し、ユーザがシステムに対して発話を行う場合、まず、起動ワードの発話を行い、起動ワードに続けてシステムに対する要求を発話するというものである。
 システム側では、例えば、起動ワード後の1発話のみを対象として認識するという処理等が行われる。しかし、この設定では、ユーザは1つの発話ごとに、逐次、起動ワードを発する必要があり、ユーザの負担が大きくなる。
 起動ワード後の複数発話以上をシステムに対するユーザ発話であると認識させる構成も可能であるが、起動ワード後のユーザ発話のどこまでをシステムに対する発話であると判断すべきかの区切りが困難になるという問題がある。
 起動ワードを利用することなく、システムに対するユーザ発話を識別するためには、システムに対するユーザ発話と、それ以外の音、すなわちノイズ音等を区別することが必要となる。ノイズにはシステムに対するユーザ発話以外の人のしゃべり声、TV、インターネット音声コンテンツなどの出力音、さらに、エアコン・換気扇などの定常ノイズ音等がある。
 なお、ユーザの周辺に他の音源が存在する場合でも音声認識精度を向上させる技術を開示した従来技術として特許文献1(特開2017-138476号公報)がある。これは、雑音の音源となる周辺装置の状態を検出して、ユーザが発話すると推定されるタイミングに合わせて周辺装置の出力音を低下させる制御を行うというものである。
 しかし、この手法では、ユーザの発話タイミングを推定する処理が必要であり、このタイミング推定が正しく実行されなければ効果が得られないという問題がある。
特開2017-138476号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザ発話タイミングに応じて周辺装置の出力音を制御するといった処理を行うことなく、システムに対する入力音から高精度なノイズ除去を行い、クリアなユーザ発話を取得して精度の高い音声認識を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の一実施例においては、ノイズ発生源ごとのノイズ情報をノイズデータベース(DB)に登録し、この登録情報を利用してシステムに対する入力音からノイズを除去して、明瞭なユーザ発話を取得することを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。
 本開示の第1の側面は、
 音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル部と、
 前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
 前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
 ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理装置にある。
 さらに、本開示の第2の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、
 前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
 前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
 ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 ノイズキャンセル部が、音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル処理ステップと、
 音声認識部が、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識ステップと、
 応答処理部が、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行する応答処理ステップを実行し、
 前記ノイズキャンセル処理ステップにおいては、
 ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末が、
 ユーザ発話を入力する音声入力処理を実行し、
 前記データ処理サーバが、
 前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル処理と、
 ノイズキャンセルされた後の音声情報に対する音声認識処理と、
 音声認識結果に基づく応答処理を実行し、
 前記ノイズキャンセル処理においては、
 ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 ノイズキャンセル部に、音声入力部を介して入力する音声からノイズを除去または低減させるノイズキャンセル処理ステップと、
 音声認識部に、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行させる音声認識ステップと、
 応答処理部に、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行させる応答処理ステップを実行させ、
 前記ノイズキャンセル処理ステップにおいては、
 ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
 具体的には、例えば、音声入力部を介して入力する音声からノイズを除去するノイズキャンセル部と、ノイズキャンセル後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部と、ノイズ識別子とノイズ信号、またはノイズ信号の算出関数等を対応付けたノイズデータベースを有する。ノイズキャンセル部は、ノイズデータベースに記録されたノイズ情報を利用して音声入力部の入力音声に含まれるノイズ成分を解析し、入力音声からノイズ成分を減算する処理を実行する。
 本構成により、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に基づく応答や処理を行う音声対話システムの例について説明する図である。 音声対話システムとして利用可能な情報処理装置の構成例と利用例について説明する図である。 情報処理装置の設置環境の例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 ノイズDBの格納データの一例について説明する図である。 応答用データDBの格納データの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。 情報処理装置の実行するノイズキャンセル処理の具体例について説明する図である。 情報処理装置の実行するノイズキャンセル処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 ノイズDBの格納データの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 情報処理システムの構成例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.音声対話システムの概要と問題点について
 2.本開示の情報処理装置の構成例について
 3.情報処理装置の実行する処理の詳細について
 3-1.(処理1)ノイズDB110に対するノイズ情報の登録処理
 3-2.(処理2)ノイズDB110に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理
 3-3.(処理3)ユーザ発話に基づく応答処理と外部デバイス制御処理
 4.情報処理装置、および情報処理システムの構成例について
 5.情報処理装置のハードウェア構成例について
 6.本開示の構成のまとめ
  [1.音声対話システムの概要と問題点について]
 まず、図1以下を参照して、音声対話システムの概要と問題点について説明する。
 図1は、ユーザ1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、ユーザの発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー14を介して出力する。
 図1に示す例では、情報処理装置10は、以下のシステム応答を行っている。
 システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 なお、ユーザ発話に対する音声認識処理や意味解析処理は、情報処理装置10内で行ってもよいし、クラウド側のサーバ20の1つであるデータ処理サーバにおいて実行する構成としもよい。
 音声対話システムを構成する情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等のような様々な装置形態とすることが可能である。
 情報処理装置10は、ユーザ1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、前述したように音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
 しかし、音声対話を行う情報処理装置10の実際の利用環境には様々なノイズが存在する。情報処理装置10の実際の利用環境の一例を図3に示す。
 図3に示すように、音声対話を行う情報処理装置10の周囲には、TV1,31、エアコン1,32、換気扇33、TV2,34等の機器(外部デバイス)が存在している。これらの機器(外部デバイス)は、動作時に様々な音(ノイズ)を発生する。
 TVのスイッチがONであれば、様々な番組の音声が出力されることになる。このTV音声は、ユーザ発話に対するノイズ音である。またエアコンや換気扇が動作している場合、定常的なノイズ音が発生する。
 情報処理装置10は、ユーザ発話に併せてこのような様々な機器(外部デバイス)から出力されるノイズもマイクを介して入力する。
 この結果、情報処理装置10は、ユーザ発話の音声認識処理を正しく実行することができず、ユーザ発話の意図と異なる処理を実行してしまうというエラー(湧きだし)を発生させる可能性が高まることになる。
 本開示の情報処理装置は、マイク入力音からノイズを除去または低減してクリアなユーザ発話音声を抽出して音声認識を行うことで、エラーの低減を実現するものである。
  [2.本開示の情報処理装置の構成例について]
 次に、図4を参照して、本開示の情報処理装置の具体的な構成例について説明する。
 図4は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置100の一構成例を示す図である。この図4に示す情報処理装置100は、図1、図2に示す情報処理装置10と同様の構成を有し、同様の処理を実行する。ただし、以下において説明する本開示の処理は主に音声に関する処理であるので、画像関連の処理構成(カメラ、表示部)については省略して説明する。
 図4に示すように、情報処理装置100は、チューナ101、デコーダ102、ノイズ管理部103、制御部104、ノイズキャンセル部105、音声入力部(マイク)106、音声認識部107、応答処理部108、音声出力部(スピーカー)109、ノイズDB(データベース)110、応答処理用データDB111、通信部112を有する。
 通信部112は、外部デバイス200、外部デバイスコントローラ(リモコン)220、情報提供サーバ250等と情報処理装置100間の通信を実行する。
 外部デバイス200は、例えば、先に図3を参照して説明したテレビ(TV)や、エアコンや、換気扇等、情報処理装置100の利用環境において様々なノイズを発生するノイズ発生機器である。図4には、外部デバイス200を1つのみ示しているが、外部デバイスは1つに限らず、複数存在してもよい。
 外部デバイス200は、状態管理部201と、音声出力部202を有する。この構成は、テレビ(TV)や、エアコンや、換気扇等の構成を簡略化して示したものであり、本開示の処理において利用される構成のみを示している。状態管理部201は、音声出力制御、動作モード(ON,OFF、設定、チャンネル等)の制御や、情報処理装置100との通信を行う。
 外部デバイスコントローラ(リモコン)220は、例えばリモコンであり、TVのリモコン、エアコンや換気扇等のリモコンである。外部デバイスコントローラ(リモコン)220も情報処理装置100との通信機能を有する。ただし、この通信機能は必須構成ではなく、情報処理装置100は、外部デバイス200、または、外部デバイスコントローラ(リモコン)220の少なくともいずれかから、外部デバイス200の動作モード(ON,OFF、設定、チャンネル等)に関する情報を取得可能な構成であればよい。
 情報提供サーバ250は、例えば情報処理装置100に対して実行されたユーザ1のユーザ発話に対応する情報提供や処理を行うサーバである。例えば天気情報を提供するサーバ、音楽提供サーバ等、ユーザの要求に応じたサービスを提供するサーバ等によって構成される。図には1つの情報提供サーバ250のみを示しているが、このサーバも多数存在し、ネットワークを介して情報処理装置100との通信を実行する。
 次に、情報処理装置100の内部の構成について説明する。
 チューナ101は、例えばテレビやラジオの放送波、さらにインターネット等を介して配信されるデータを受信する。例えばテレビ番組や、音楽コンテンツ、動画コンテンツ等を受信する。テレビの場合、特定の設定チャンネルの信号を受信し、インターネットからは、特定の指定URLからの情報を受信する。
 チューナ101による受信データは、デコーダ102へ入力され、デコーダ102において受信データのデコード処理が実行される。デコード結果に含まれる音声信号は、ノイズ管理部103へ入力される。
 ノイズ管理部103は、以下の2つの処理実行時に際して異なる処理を実行する。
 (a)ノイズ情報登録処理実行時
 (b)ノイズキャンセル処理実行時
 以下、これらの2つの処理実行時においてノイズ管理部103が実行する処理について説明する。
 (a)ノイズ情報登録処理実行時
 ノイズ情報登録処理とは、様々な外部デバイスから出力されるノイズ情報をノイズDB(データベース)110に登録する処理である。
 ノイズDB(データベース)110に登録されるデータの例を図5に示す。
 ノイズDB110には、ノイズ識別子単位で以下のデータが対応付けられて記録される。
 (a)ノイズ識別子((a1)デバイス識別子と、(a2)動作モード)
 (b)ノイズ種別
 (c)マイク入力音声ノイズ算出関数
 (d)マイク入力定常ノイズ
 (e)ノイズ信号取得用リンク
 (a)ノイズ識別子は、(a1)デバイス識別子と、(a2)動作モードによって構成される。例えばエントリ(1)に示す例は、デバイス識別子=TV1、動作モード=(CH=any,VOL=30))がノイズ識別子である。
 このノイズ識別子データは、ノイズを発生させる機器である外部デバイスの識別子(TV1等)と、その外部デバイスの動作モード(VOL=30)等からなるデータである。
 (b)ノイズ種別には、(a)ノイズ識別子によって特定されるノイズの種類が登録される。具体的には、以下の3種類のノイズ種別がある。
 (b1)テレビやラジオ番組、ネット配信コンテンツを構成する音声対応の音声ノイズ、
 (b2)エアコン、換気扇等の動作音等の定常ノイズ、
 (b3)例えばデバイスエラー時に発するノイズ等、特殊な音声ノイズであり、デバイスの製造者や販売者がノイズ音声情報を提供するリンク設定ノイズ、
 具体的には、(b1)音声ノイズとは、時間(t)の推移に伴い変化するノイズ信号である。(b2)定常ノイズは、時間(t)の推移に伴う変化がほとんどないノイズ信号である。(b3)リンク設定ノイズは、外部からノイズ音情報を取得可能なノイズ信号である。
 (c)マイク入力音声ノイズ算出関数は、(b)ノイズ種別が「音声ノイズ」である場合にのみ記録される。すなわち、テレビやラジオ番組、ネット配信コンテンツを構成する音声対応の音声ノイズである場合にのみ記録される。
 この「(c)マイク入力音声ノイズ算出関数」には、情報処理装置100が置かれた環境に応じたマイク入力音声ノイズ信号の算出関数を記録する。情報処理装置100が置かれる環境は、例えば図3を参照して説明した環境等、様々な環境が想定される。情報処理装置100のマイクには、その環境に応じたノイズ信号が入力される。
 例えば図3に示すような環境では、テレビ等の外部デバイスのスピーカーからの出力音は、周囲の壁、天井、床等に反射し、情報処理装置100のマイクに入力する音は、外部デバイスのスピーカーからの出力音と反射音を合成したものとなる。
 図5に示すエントリ(1)(TV1)には、マイク入力音声ノイズ算出関数として、以下の(式1)が登録されている。
 g1(f1(t))・・・(式1)
 上記(式1)において、
 f1(t)は、情報処理装置100のチューナ101が受信する音声信号の時間(t)に従った推移を示す関数である。すなわち、上記(式1)は、チューナ101が受信する音声信号の関数f1(t)から、情報処理装置100の音声入力部(マイク)106が入力する音声ノイズ信号g1(t)を算出する関数である。
 なお、チューナ101の受信信号は、TV1のチャンネルと同じ設定の受信信号である。
 図5に示すエントリ(1)(TV1)には、マイク入力音声ノイズ算出関数g1(f1(t))の一例として以下の(式2)が登録されている。
 g1(f1(t))=ΣK(n)・f1(t-T(n))・・・(式2)
 上記(式2)は、チューナ受信信号f1(t)から、マイク入力音声ノイズ信号を算出する関数g1(f1(t))の一例である。
 上記(式2)において、
 nは、TV1から出力された音が情報処理装置100のマイクに入力する場合の音の数である。マイクには、TV1から直接入力する音の他、壁や天井等の複数の反射音が入力する。nはこれらの入力音の総数である。
 k(n)は、n個の各入力音のレベル(相対強度)を示すパラメータである。
 T(n)は、n個の各入力音の遅延時間である。
 なお、f1(t)が、TV1の出力音の音声信号(音声波形)、すなわち遅延のない音声波形信号である。
 f1(t-T(n))は、n個の各入力音の遅延時間を考慮した音声信号(音声波形)となる。
 例えば、
 k(1)・f1(t-T(1))は、情報処理装置100のマイクに入力するn個の入力音の第1番目の入力音声信号(音声波形)に相当する。
 k(2)・f1(t-T(2))は、情報処理装置100のマイクに入力するn個の入力音の第2番目の入力音声信号(音声波形)に相当する。
 情報処理装置100のマイクに入力するn個の入力音を全て加算した結果が、上記(式2)によって算出される値であり、この値が、情報処理装置100のマイクに入力するノイズ音に相当する。
 ノイズ管理部103は、ノイズキャンセル部105にチューナ101から入力する遅延の無い音声信号と、音声入力部(マイク)106から様々な反射波等を含むTV音声信号を入力させて、上記(式1)、(式2)に示すマイク入力音声ノイズ算出関数を算出させて、この関数gをノイズDB110に登録する。
 なお、「(c)マイク入力音声ノイズ算出関数」は、設置位置が異なるTVやラジオ等の機器ごとに異なる関数gが登録される。
 この関数のDB登録処理のシーケンスの詳細については後段で説明する。
 ノイズDB110に対する関数登録処理の後、ノイズキャンセル部105によるノイズキャンセル処理が可能となる。ノイズキャンセル部105は、チューナ101から入力する遅延の無い音声信号f1(t)と、ノイズDB110に登録されたマイク入力音声ノイズ算出関数g1(f1(t))を適用して、情報処理装置100の音声入力部(マイク)106に入力される音声信号に含まれるノイズ信号成分を算出する。
 このDB登録関数を利用した音声ノイズ算出処理のシーケンスの詳細についても後段で説明する。
 図5に示すノイズDB110の登録データについての説明を続ける。
 (d)マイク入力定常ノイズ信号は、ノイズ種別が定常ノイズである場合、すなわち、エアコン、換気扇等の動作音等時間的変異の少ない定常ノイズである場合に記録される。
 ノイズ管理部103は、定常ノイズの場合、制御部104から定常ノイズ登録開始指示を入力して、音声入力部(マイク)106から入力する定常ノイズの音声信号(波形)をノイズキャンセル部105経由で入力して、ノイズ識別子(デバイス識別子と動作モード)に対応付けてノイズDB110に登録する。エアコン、換気扇等の動作音等の定常ノイズは時間による変動量が少ないため、遅延等を考慮することなく、音声入力部(マイク)106から入力する信号をそのまま登録する。
 (e)ノイズ信号取得用リンクは、ノイズ種別がリンク設定ノイズである場合、すなわち例えばデバイスエラー時に発するノイズ等、特殊な音声ノイズであり、デバイスの製造者や販売者等からノイズ音声情報を取得可能なリンク設定ノイズである場合に記録される。
 この(e)ノイズ信号取得用リンクには、ノイズ音声情報を提供するサイトのURL情報等のアクセス情報を記録する。
 ノイズ管理部103は、ノイズ種別がリンク設定ノイズである場合、外部デバイスの製造者や販売者等のノイズ音声情報提供者情報を、ネットワークを介して取得し、ノイズ識別子(デバイス識別子と動作モード)に対応付けてノイズDB110に登録する。あるいはユーザが取得したURL情報等を記録してもよい。
 このように、ノイズ管理部103は、ノイズ情報登録処理実行時には、ノイズ種別に応じた異なる処理を実行する。すなわち、以下の各処理を実行する。
 (1)ノイズ種別がTVやラジオの放送、あるいはネット配信コンテンツ等の音声ノイズ等である場合は、「(c)マイク入力音声ノイズ算出関数」フィールドに、マイク入力音声ノイズ算出関数を登録する。
 (2)ノイズ種別が、エアコン、換気扇等の動作音等の定常ノイズである場合は、「(d)マイク入力定常ノイズ信号」フィールドに、音声入力部(マイク)106から入力する定常ノイズの音声信号(波形)を登録する。
 (3)ノイズ種別がリンク設定ノイズである場合は、「(e)ノイズ取得用リンク」に、ノイズ音声情報提供サイトを示すURL情報等のアクセス情報を登録する。
 ノイズ管理部103は、このノイズDB110に対するノイズ情報登録処理の他、ノイズキャンセル処理実行時には、制御部104からの指示に応じて、ノイズDB110に登録されたノイズ情報を取得して、ノイズキャンセル部105に提供する処理を行う。ノイズキャンセル部105は、この情報を利用してノイズキャンセル処理を実行する。
 次に制御部104について説明する。制御部104は、ノイズ管理部103がノイズDB110にノイズ情報を登録する処理を行う場合、ノイズDB110に登録するノイズの発生源となる外部デバイスの動作モードを制御、または動作モード情報を取得してノイズ管理部103に提供する処理等を実行する。
 また、ノイズキャンセル部105が音声入力部(マイク)106を介して入力する音声信号からのノイズキャンセル処理を実行する場合には、ノイズの発生源である外部デバイスの動作モード情報を取得してノイズ管理部103と、ノイズキャンセル部105に提供する処理等を実行する。
 ノイズキャンセル部105は、音声入力部(マイク)106を介して入力する音声信号からのノイズキャンセル処理を実行する。この処理の具体的なシーケンスと処理の具体例については後述する。
 音声入力部(マイク)106は、ユーザ1のユーザ発話を入力する。ただし、この入力音には、ユーザ発話のみならず、テレビ、エアコン、換気扇等の外部デバイスの発するノイズが含まれる。
 音声入力部(マイク)106が入力した音声信号は、ノイズキャンセル部105に入力され、ノイズキャンセル部105においてノイズの除去または低減処理が実行される。
 音声認識部107は、ノイズキャンセル部105から、ノイズ除去または低減されたクリアなユーザ発話音声信号を入力して、ユーザ発話の音声認識処理を実行する。具体的には、例えば、ASR(Automatic Speech Recognition)機能により、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。例えば、NLU(Natural Language Understanding)等の自然言語理解機能により、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 応答処理部108は、音声認識部107から音声認識結果を取得し、応答処理用DB111を参照して、ユーザ1に対する応答(システム発話)を生成する。
 なお、ユーザ1が、ノイズの登録処理や、外部デバイスの制御を要求している場合には、音声出力部(スピーカー)109にユーザ1を介して出力する応答(システム発話)、例えば、システム発話=「了解です」を生成するとともに、制御部104に対して、ノイズの登録処理や、外部デバイスの制御指示を出力する。
 応答処理用DB111に格納されるデータの一例について、図6を参照して説明する。図6に示すように、応答処理用DB111には、以下の各データが対応付けて記録されている。
 (a)入力ユーザ発話テキスト情報
 (b)出力システム応答発話
 (c)出力コマンド
 (a)入力ユーザ発話テキスト情報は、音声認識部107から音声認識結果として入力するユーザ発話のテキスト情報である。
 (b)出力システム応答発話は、(a)に登録されたユーザ発話が音声認識部107から入力された場合、応答処理部108が音声出力部(スピーカー)109を介して出力するシステム応答発話である。
 (c)出力コマンドは、(a)に登録されたユーザ発話が音声認識部107から入力された場合、応答処理部108が制御部104に出力するコマンドである。
 音声出力部(スピーカー)109は応答処理部108で生成されたシステム発話(応答)を出力する。
 なお、図4の構成図には示していないが、情報処理装置100は表示部等を介した応答出力を行うことも可能であり、この場合、応答処理部108は、応答用の画像情報を生成、または応答処理用DB111や外部サーバから取得して表示部に出力する。
  [3.情報処理装置の実行する処理の詳細について]
 次に、図4に示す情報処理装置100が実行する処理の詳細について説明する。
 情報処理装置100が実行する以下の各処理について、順次、説明する。
 (処理1)ノイズDB110に対するノイズ情報の登録処理
 (処理2)ノイズDB110に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理
 (処理3)ユーザ発話に基づく応答処理と外部デバイス制御処理
  [3-1.(処理1)ノイズDB110に対するノイズ情報の登録処理]
 まず、(処理1)ノイズDB110に対するノイズ情報の登録処理について、図7、図8に示すシーケンス図を参照して説明する。
 以下、図7、図8に示すシーケンス図の各ステップの処理について説明する。
  (ステップS11)
 まず、ステップS11において、外部デバイス200の音声出力部202が出力するノイズが、情報処理装置100の音声入力部(マイク)106に入力される。
 なお、ここでは、一例として、外部デバイス200がテレビ(図3、図5に示すTV1)である場合の処理例について説明する。すなわち、図5に示すノイズDB111のデータ中のエントリ(1)のデータの登録処理を行う場合の処理例について説明する。
  (ステップS12)
 次に、ステップS12において、ユーザ1が情報処理装置100に対して、以下のユーザ発話を実行する。
 ユーザ発話=テレビのノイズを登録して
 このユーザ発話は、情報処理装置100の音声入力部(マイク)106に入力され、音声認識部107において音声認識処理が実行され、音声認識結果が応答処理部108に入力される。
  (ステップS13)
 次に、ステップS13において、応答処理部108が、音声出力部(スピーカー)109を介して以下のシステム発話(応答)を出力する。
 システム発話=了解です。しばらく静かにしてください。
 このシステム発話は、先に図6を参照して説明した応答処理用DB111の登録データを利用した処理である。
  (ステップS21)
 次に、図8に進み、ステップS21において、応答処理部108は、制御部104に対して、テレビノイズ登録指示コマンド(REGISTER:TVCH=1:VOL=30)を出力する。
 すなわち、ノイズ登録を実行する対象を特定するためのノイズ識別子(デバイス識別子、動作モード)を制御部104に通知して、ノイズ登録を実行するように要求する。
 なお、応答処理部108は、制御部104が通信部112を介して受信した外部デバイスの動作モード情報を入力しており、この入力情報に基づいてコマンドを生成して出力する。
 あるいは、応答処理部108は、ノイズ識別子(デバイス識別子、動作モード)を制御部104に通知することなく、単に音声入力部(マイク)106に入力されている音声ノイズの登録要求のみをコマンドとして制御部104に出力する構成としてもよい、この場合、制御部104は、外部デバイス200、あるいはガイブデバイスコントローラ220からの取得情報に基づいて、音声入力部(マイク)106に入力されている音声ノイズの発生源であるデバイス識別子と動作モードを取得する。
  (ステップS22)
 次に、制御部104は、ステップS22において、外部デバイス200の状態管理部201に外部デバイス制御信号(CH=1:VOL=30)を出力する。これは、ノイズ登録処理期間において、外部デバイス200(本例ではTV1)の設定チャンネルとボリュームを固定するために実行される。
  (ステップS23)
 次に、制御部104は、ステップS23において、チューナ101に対して、受信動作モード制御信号(CH=1:VOL=30)を出力する。これは、ノイズ情報登録処理対象となる音声信号と同じ音声信号を、チューナ101を介して受信するための処理である。
  (ステップS24)
 次に、制御部104は、ステップS24において、ノイズ管理部103に対して、ノイズ登録処理の開始指示を出力する。
  (ステップS25)
 次に、ステップS25において、ノイズ管理部103は、ノイズキャンセル部105に対して、マイク入力音声ノイズ算出関数g(f(t))取得指示を出力する。
  (ステップS26)
 次に、ステップS26において、ノイズ管理部103は、チューナ101、デコーダ102を介して音声信号f(t)を入力する。この音声信号f(t)は、(CH=1:VOL=30)の設定の遅延のないテレビの音声信号に相当する。
  (ステップS27)
 次に、ステップS27において、ノイズ管理部103は、ノイズキャンセル部105に、チューナ101、デコーダ102を介して取得した音声信号f(t)を転送する。この音声信号f(t)は、(CH=1:VOL=30)の設定の遅延のないテレビの音声信号に相当する。
  (ステップS28)
 次に、ステップS28において、ノイズキャンセル部105は、音声入力部(マイク)106を介して、外部デバイス200(本例ではTV1)から出力される音声g(t)を入力する。この入力音声g(t)には直接音の他、壁、天井等によって反射された複数の反射音等が含まれる。
  (ステップS29)
 次に、ステップS29において、ノイズキャンセル部105は、チューナ101、デコーダ102を介して取得した音声信号f(t)と、音声入力部(マイク)106を介して入力する音声g(t)を適用して、マイク入力音声ノイズ算出関数g(f(t))を算出する。
 マイク入力音声ノイズ算出関数g(f(t))は、チューナ101を介して取得可能な音声信号f(t)から、音声入力部(マイク)106を介して入力する音声ノイズ信号を算出可能とした関数である。
  (ステップS30)
 次に、ステップS30において、ノイズキャンセル部105は、ステップS29で算出したマイク入力音声ノイズ算出関数g(f(t))をノイズ管理部103に出力する。
  (ステップS31)
 次に、ステップS31において、ノイズ管理部103は、ノイズキャンセル部105から入力したマイク入力音声ノイズ算出関数g(f(t))を、ノイズDB110に登録する。なお、登録処理に際しては、ノイズ識別子(デバイス識別子と動作モード)、ノイズ種別に対応付けて登録する処理を実行する。
 このようにして、図5に示すノイズDB111のエントリ(1)のノイズ情報登録処理が行われる。
 なお、上述した処理シーケンスは、ノイズ種別がTVやラジオの放送、あるいはネット配信コンテンツ等の音声ノイズ等である場合の登録処理である。ノイズ種別が、エアコン、換気扇等の動作音等の定常ノイズである場合は、「(d)マイク入力定常ノイズ信号」フィールドに、音声入力部(マイク)106から入力する定常ノイズの音声信号(波形)を登録する。また、ノイズ種別がリンク設定ノイズである場合は、「(e)ノイズ取得用リンク」に、ノイズ音声情報提供サイトを示すURL情報等のアクセス情報を登録する処理が実行される。
  [3-2.(処理2)ノイズDB110に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理]
 次に、(処理2)ノイズDB110に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理について、図9に示すシーケンス図を参照して説明する。
  (ステップS31)
 まず、ステップS31において、外部デバイス200の音声出力部202が出力するノイズが、情報処理装置100の音声入力部(マイク)106に入力される。
 なお、ここでは、一例として、外部デバイス200がテレビ(図3、図5に示すTV1)である場合の処理例について説明する。すなわち、図5に示すノイズDB111のデータ中のエントリ(1)の登録データを利用したノイズキャンセル処理を行う場合の処理例について説明する。
  (ステップS32~S33)
 次に、ステップS32において、ユーザ1が情報処理装置100に対して、以下のユーザ発話を実行する。
 ユーザ発話=今、何時
 このユーザ発話は、情報処理装置100の音声入力部(マイク)106に入力され、ステップS33において、ノイズキャンセル部105に入力される。
  (ステップS34)
 次に、ノイズキャンセル部105は、ステップS34において、ノイズDB110の登録データを、ノイズ管理部103を介して取得する。
 ノイズ管理部103は、制御部104から、現在動作中の外部デバイスの情報と動作モード情報を入力しており、この入力情報に基づいて、音声入力部(マイク)106に入力されているノイズ発生源に関する登録情報をノイズキャンセル部105に提供する。本例では図5に示すノイズDB111のデータ中のエントリ(1)の登録データが、ノイズキャンセル部105に提供される。
  (ステップS35)
 次に、ノイズキャンセル部105は、ステップS35において、ステップS34で取得したノイズDB110の登録データを利用したノイズキャンセル処理を実行する。
 ステップS35においてノイズキャンセル部105が実行するノイズキャンセル処理の詳細シーケンスについて、図10に示すフローチャートを参照して説明する。
  (ステップS41)
 まず、ノイズキャンセル部105は、ステップS41において、ユーザ発話入力時のチューナ入力音声信号f(t)をメモリから取得する。情報処理装置100は、音声入力部(マイク)106が入力する一定期間の過去の音声信号をメモリ(記憶部)に記録しており、ノイズキャンセル部105は、ユーザ発話入力時のチューナ入力音声信号f(t)をメモリから取得する。
  (ステップS42)
 次に、ノイズキャンセル部105は、ステップS42において、チューナ入力音声信号f(t)と、ノイズDB110に登録されたマイク入力音声ノイズ算出関数g(f(t))を適用して音声入力部(マイク)106の入力信号に含まれるテレビノイズ音声信号g(f(t))を算出する。
  (ステップS43)
 次に、ノイズキャンセル部105は、ステップS43において、音声入力部(マイク)106から入力する音声信号から、ステップS42で算出したテレビノイズ音声信号g(f(t))を減算して、ノイズ除去後のユーザ発話音声信号を生成する。
 ノイズキャンセル処理の具体例について図11を参照して説明する。
 図11(A)は、音声入力部(マイク)106から入力する音声信号の一例である。
 この入力信号は、ユーザ発話実行時の入力音声信号であり、ユーザ発話対応の音声信号と、テレビから出力されるテレビノイズ信号が含まれている。
 図11(B)は、図10に示すフローのステップS42において、ノイズキャンセル部105が算出した信号である。すなわち、音声入力部(マイク)106の入力信号に含まれるテレビノイズ音声信号である。
 ノイズキャンセル部105は、チューナ入力音声信号f(t)と、ノイズDB110に登録されたマイク入力音声ノイズ算出関数g(f(t))を適用して音声入力部(マイク)106の入力信号に含まれるテレビノイズ音声信号g(f(t))を算出する。この算出結果が、図11(B)に示すテレビノイズ信号である。
 図11(A)に示す音声入力部(マイク)106から入力する音声信号から、図11(B)に示すテレビノイズ信号を減算することで、図11(C)に示す信号、すなわち、ノイズ除去後のユーザ発話音声信号が得られる。
 この減算処理によるノイズ除去ユーザ発話音声信号の取得処理が、図10に示すフローのステップS43の処理である。
 このようにして、ノイズキャンセル部105は、図9に示すステップS35において、ノイズDB110の登録データを利用してノイズキャンセル処理を実行してテレビノイズ信号を除去、または低減したクリアなユーザ発話音声信号を取得する。
  (ステップS36)
 次に、ノイズキャンセル部105は、ステップS36において、ノイズキャンセル済みのクリアなユーザ発話音声信号を音声認識部107に出力する。
  (ステップS37)
 次に、音声認識部107は、ノイズキャンセル部105から取得したノイズキャンセル済みのクリアなユーザ発話音声信号に基づく音声認識処理を実行して、音声認識結果を応答処理部108に出力する。
  (ステップS38~S39)
 次に、ステップS38において、応答処理部108が、以下のシステム発話(応答)を生成し、ステップS39において、音声出力部(スピーカー)109を介して出力する。
 システム発話=10時です。
 このシステム発話は、先に図6を参照して説明した応答処理用DB111の登録データを利用した処理である。
 なお、図9~図11を参照して説明したノイズキャンセル処理は、音声入力部(マイク)106から入力する音声信号に含まれるノイズが1台のテレビの1つの音声ノイズである場合の例であるが、現実には、例えばテレビとエアコン等、複数のノイズ発生源からのノイズが併せて入力されるといったことが想定される。
 このように複数の外部デバイス(ノイズ発生源)からのノイズが入力される場合のノイズキャンセル部105のノイズキャンセル処理例について図12を参照して説明する。
 図12左下に示す(A)は、音声入力部(マイク)106から入力する音声信号の一例である。
 この入力信号は、ユーザ発話実行時の入力音声信号であり、ユーザ発話対応の音声信号と、テレビから出力されるテレビノイズ信号と、さらにエアコンから出力されるエアコンノイズ信号が含まれている。
 図12左上(B1)は、ノイズキャンセル部105が算出するテレビノイズ音声信号であり、音声入力部(マイク)106の入力信号に含まれるテレビノイズ音声信号である。
 ノイズキャンセル部105は、チューナ入力音声信号f(t)と、ノイズDB110に登録されたマイク入力音声ノイズ算出関数g(f(t))を適用して音声入力部(マイク)106の入力信号に含まれるテレビノイズ音声信号g(f(t))を算出する。この算出結果が、図12(B1)に示すテレビノイズ信号である。
 図12(B2)は、ノイズキャンセル部105がノイズDB110の登録データから取得したエアコンノイズ信号(マイク入力定常ノイズ)である。エアコンノイズ信号は時間的な変異が少ないため、予め取得済みのデータをそのまま利用することができる。
 図12右上に示す(B3)は、(B1)+(B2)であり、ノイズキャンセル部105チューナ入力信号に基づいて算出したテレビノイズ信号と、ノイズDB110に登録されたエアコンノイズ信号の加算結果である。
 図12下段には、図12(A)に示す音声入力部(マイク)106の入力音声信号から、図12(B3)に示すテレビノイズ信号+エアコンノイズ信号の減算処理を示している。この減算処理により、図12(C)に示す信号、すなわち、ノイズ除去後のユーザ発話音声信号が得られる。
 このようにノイズキャンセル部105は、音声入力部(マイク)106の入力音声信号に複数の外部デバイスによるノイズが含まれる場合でも、ノイズDB110の登録データを利用してノイズキャンセル処理を実行して複数の外部デバイスのノイズ信号を除去または低減したクリアなユーザ発話音声信号を取得することができる。
  [3-3.(処理3)ユーザ発話に基づく応答処理と外部デバイス制御処理]
 次に、(処理3)ユーザ発話に基づく応答処理と外部デバイス制御処理について、図13に示すシーケンス図を参照して説明する。
  (ステップS51)
 まず、ステップS51において、外部デバイス200の音声出力部202が出力するノイズが、情報処理装置100の音声入力部(マイク)106に入力される。
 なお、ここでは、一例として、外部デバイス200がテレビ(図3、図5に示すTV1)であり、テレビの設定が6chに設定されている場合の処理例について説明する。
 なお、ノイズDB110には、図14に示すように、エントリ(1)としてTV1の6Chのノイズ情報が登録されており、エントリ(2)としてTV1の1Chのノイズ情報が登録されている。
  (ステップS52~S53)
 次に、ステップS52において、ユーザ1が情報処理装置100に対して、以下のユーザ発話を実行する。
 ユーザ発話=1chに変えて
 このユーザ発話は、情報処理装置100の音声入力部(マイク)106に入力され、ステップS53において、ノイズキャンセル部105に入力される。
  (ステップS54)
 次に、ノイズキャンセル部105は、ステップS54において、ノイズDB110の登録データを、ノイズ管理部103を介して取得する。
 ノイズ管理部103は、制御部104から、現在動作中の外部デバイスの情報と動作モード情報を入力しており、この入力情報に基づいて、音声入力部(マイク)106に入力されているノイズ発生源に関する登録情報をノイズキャンセル部105に提供する。本例では図5に示すノイズDB111のデータ中のエントリ(1)の登録データが、ノイズキャンセル部105に提供される。
  (ステップS55)
 次に、ノイズキャンセル部105は、ステップS55において、ステップS54で取得したノイズDB110の登録データを利用したノイズキャンセル処理を実行する。
 このステップS55において実行するノイズキャンセル処理は、先に図10、図11を参照して説明した処理と同様の処理である。
  (ステップS56)
 次に、ノイズキャンセル部105は、ステップS56において、ノイズキャンセル済みのクリアなユーザ発話音声信号を音声認識部107に出力する。
  (ステップS57)
 次に、音声認識部107は、ノイズキャンセル部105から取得したノイズキャンセル済みのクリアなユーザ発話音声信号に基づく音声認識処理を実行して、音声認識結果を応答処理部108に出力する。
  (ステップS58~S59)
 次に、ステップS58において、応答処理部108が、以下のシステム発話(応答)を生成し、ステップS59において、音声出力部(スピーカー)109を介して出力する。
 システム発話=了解です。
 このシステム発話は、先に図6を参照して説明した応答処理用DB111の登録データを利用した処理である。
  (ステップS60)
 さらに、応答処理部108はステップS60において、外部デバイス制御指示を制御部104に対して出力する。この処理も、先に図6を参照して説明した応答処理用DB111の登録データを利用した処理である。
 このステップS60以下の詳細処理について、図15を参照して説明する。
 なお、前述したように、ノイズDB110には、図14に示すように、エントリ(1)としてTV1の6Chのノイズ情報が登録されており、エントリ(2)としてTV1の1Chのノイズ情報が登録されている。
  (ステップS81)
 まず、応答処理部108はステップS81において、外部デバイス(テレビ)制御指示コマンド(CHANGE:TV:CH=1)を制御部104に出力する。この指示コマンドの出力は、ユーザ発話=1chに変えての音声認識結果に基づく処理であり、先に図6を参照して説明した応答処理用DB111の登録データを利用した処理である。
  (ステップS82)
 次に、制御部104は、ステップS82において、チューナ101に対して、受信、動作モード制御信号(CH=1)を出力し、チューナ101の受信設定を1chに変更する。
  (ステップS83)
 次に、制御部104は、ステップS83において、外部デバイス200(本例ではTV)の状態管理部201に対して、制御信号(CH=1)を出力し、外部デバイス(TV)200の設定を1chに変更する。
  (ステップS84~S86)
 次に、制御部104は、ステップS84において、ノイズ識別子(デバイス識別子+動作モード)をノイズ管理部103に出力して、ステップS85~S86において、ノイズ管理部103を介してノイズDB110から、ノイズ識別子(デバイス識別子+動作モード)対応のノイズ情報を取得してノイズキヤンセル部105に出力する。
 すなわち、図14に示すノイズDB110のエントリ(2)のノイズ情報を取得してノイズキヤンセル部105に出力する。
 ノイズキャンセル部105は、このデータを利用してノイズキャンセル処理を行うことになる。
 このように、外部デバイスの動作モードが変更された場合には、その変更後の動作モード対応のノイズ情報をノイズDB110から取得することで外部デバイスの音声出力態様に合せた正しいノイズキャンセル処理を実行することが可能となる。
  [4.情報処理装置、および情報処理システムの構成例について]
 本開示の情報処理装置10の実行する処理について説明したが、図4に示す情報処理装置100の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
 図16にシステム構成例を示す。
 図16(1)情報処理システム構成例1は、図4に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
 ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部サービスを利用する場合にのみ、サービス提供サーバ420と通信を実行する。
 サービス提供サーバ420は、例えば音楽提供サーバ、映画等のコンテンツ提供サーバ、ゲームサーバ、天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する処理の実行や応答生成に必要となる情報を提供可能なサーバ群によって構成される。
 一方、図16(2)情報処理システム構成例2は、図4に示す情報処理装置の機能の一部をユーザの所有するスマホやPC、エージェント機器等のユーザ端末である情報処理装置410内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ460において実行する構成としたシステム例である。
 例えば、図4に示す装置中の音声入力部(マイク)106、音声出力部(スピーカー)109のみをユーザ端末側の情報処理装置410側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。
 具体的には、ユーザ端末が音声入力部を有し、データ処理サーバがユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、ノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部を有する構成等が可能である。サーバのノイズキャンセル部は、ノイズ識別子に対応付けられたノイズ情報を取得して、ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する。
 なお、ユーザ端末側の機能と、サーバ側の機能の機能分割態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
  [5.情報処理装置のハードウェア構成例について]
 次に、図17を参照して、情報処理装置のハードウェア構成例について説明する。
 図17を参照して説明するハードウェアは、先に図4を参照して説明した情報処理装置のハードウェア構成例であり、また、図16を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [6.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル部と、
 前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
 前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
 ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理装置。
 (2) 前記ノイズデータベースは、
 ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
 前記ノイズキャンセル部は、
 前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する(1)に記載の情報処理装置。
 (3) 前記ノイズデータベースには、チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出するための関数が登録され、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出する(1)または(2)に記載の情報処理装置。
 (4) 前記ノイズキャンセル部は、
 前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて算出したノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する(3)に記載の情報処理装置。
 (5) 前記ノイズデータベースには、時間推移に伴う変化の少ない定常ノイズ信号が登録されており、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに登録された定常ノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記ノイズデータベースには、ノイズ信号を取得するためのアクセス情報が記録されており、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに登録されたアクセス情報によるアクセス先から取得するノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記ノイズキャンセル部は、
 前記音声入力部を介して入力する音声信号に複数の異なる外部デバイスからのノイズが含まれる場合、各外部デバイスのノイズの加算結果を算出し、前記音声入力部を介して入力する音声信号から、前記加算結果を減算する処理を実行する(1)~(6)いずれかに記載の情報処理装置。
 (8) 前記情報処理装置は、さらに、
 ノイズ発生源となる外部デバイスの動作モードを取得する制御部を有し、
 前記制御部は、
 前記ノイズキャンセル部におけるノイズキャンセル処理に必要となる制御を実行する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記制御部は、
 ノイズ発生源となる外部デバイスの動作モードに対応する音声信号をチューナを介して受信するようにチューナに制御信号を出力する(8)に記載の情報処理装置。
 (10) 前記制御部は、
 前記ノイズデータベースに対するノイズ情報登録処理の開始要求をノイズ管理部に出力する(8)または(9)に記載の情報処理装置。
 (11) 前記制御部は、
 前記ノイズキャンセル部に、前記音声入力部から入力するノイズ信号を算出するための関数を生成する処理を実行させる(8)~(10)いずれかに記載の情報処理装置。
 (12) ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、
 前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
 前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
 ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
 前記ノイズキャンセル部は、
 前記ノイズデータベースに記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理システム。
 (13) 前記ノイズデータベースは、
 ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
 前記ノイズキャンセル部は、
 前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する(12)に記載の情報処理システム。
 (14) 情報処理装置において実行する情報処理方法であり、
 ノイズキャンセル部が、音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル処理ステップと、
 音声認識部が、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識ステップと、
 応答処理部が、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行する応答処理ステップを実行し、
 前記ノイズキャンセル処理ステップにおいては、
 ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理方法。
 (15) ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末が、
 ユーザ発話を入力する音声入力処理を実行し、
 前記データ処理サーバが、
 前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル処理と、
 ノイズキャンセルされた後の音声情報に対する音声認識処理と、
 音声認識結果に基づく応答処理を実行し、
 前記ノイズキャンセル処理においては、
 ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理方法。
 (16) 情報処理装置において情報処理を実行させるプログラムであり、
 ノイズキャンセル部に、音声入力部を介して入力する音声からノイズを除去または低減させるノイズキャンセル処理ステップと、
 音声認識部に、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行させる音声認識ステップと、
 応答処理部に、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行させる応答処理ステップを実行させ、
 前記ノイズキャンセル処理ステップにおいては、
 ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
 具体的には、例えば、音声入力部を介して入力する音声からノイズを除去するノイズキャンセル部と、ノイズキャンセル後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部と、ノイズ識別子とノイズ信号、またはノイズ信号の算出関数等を対応付けたノイズデータベースを有する。ノイズキャンセル部は、ノイズデータベースに記録されたノイズ情報を利用して音声入力部の入力音声に含まれるノイズ成分を解析し、入力音声からノイズ成分を減算する処理を実行する。
 本構成により、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
  10 情報処理装置
  11 カメラ
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 100 情報処理装置
 101 チューナ
 102 デコーダ
 103 ノイズ管理部
 104 制御部
 105 ノイズキャンセル部
 106 音声入力部(マイク)
 107 音声認識部
 108 応答処理部
 109 音声出力部(スピーカー)
 110 ノイズDB(データベース)
 111 応答処理用データDB
 112 通信部
 410 情報処理装置
 420 サービス提供サーバ
 460 データ処理サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (16)

  1.  音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル部と、
     前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
     前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
     ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
     前記ノイズキャンセル部は、
     前記ノイズデータベースに記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理装置。
  2.  前記ノイズデータベースは、
     ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
     前記ノイズキャンセル部は、
     前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する請求項1に記載の情報処理装置。
  3.  前記ノイズデータベースには、チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出するための関数が登録され、
     前記ノイズキャンセル部は、
     前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出する請求項1に記載の情報処理装置。
  4.  前記ノイズキャンセル部は、
     前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて算出したノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する請求項3に記載の情報処理装置。
  5.  前記ノイズデータベースには、時間推移に伴う変化の少ない定常ノイズ信号が登録されており、
     前記ノイズキャンセル部は、
     前記ノイズデータベースに登録された定常ノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する請求項1に記載の情報処理装置。
  6.  前記ノイズデータベースには、ノイズ信号を取得するためのアクセス情報が記録されており、
     前記ノイズキャンセル部は、
     前記ノイズデータベースに登録されたアクセス情報によるアクセス先から取得するノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する請求項1に記載の情報処理装置。
  7.  前記ノイズキャンセル部は、
     前記音声入力部を介して入力する音声信号に複数の異なる外部デバイスからのノイズが含まれる場合、各外部デバイスのノイズの加算結果を算出し、前記音声入力部を介して入力する音声信号から、前記加算結果を減算する処理を実行する請求項1に記載の情報処理装置。
  8.  前記情報処理装置は、さらに、
     ノイズ発生源となる外部デバイスの動作モードを取得する制御部を有し、
     前記制御部は、
     前記ノイズキャンセル部におけるノイズキャンセル処理に必要となる制御を実行する請求項1に記載の情報処理装置。
  9.  前記制御部は、
     ノイズ発生源となる外部デバイスの動作モードに対応する音声信号をチューナを介して受信するようにチューナに制御信号を出力する請求項8に記載の情報処理装置。
  10.  前記制御部は、
     前記ノイズデータベースに対するノイズ情報登録処理の開始要求をノイズ管理部に出力する請求項8に記載の情報処理装置。
  11.  前記制御部は、
     前記ノイズキャンセル部に、前記音声入力部から入力するノイズ信号を算出するための関数を生成する処理を実行させる請求項8に記載の情報処理装置。
  12.  ユーザ端末と、データ処理サーバを有する情報処理システムであり、
     前記ユーザ端末は、
     ユーザ発話を入力する音声入力部を有し、
     前記データ処理サーバは、
     前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、
     前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
     前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
     ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
     前記ノイズキャンセル部は、
     前記ノイズデータベースに記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理システム。
  13.  前記ノイズデータベースは、
     ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
     前記ノイズキャンセル部は、
     前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する請求項12に記載の情報処理システム。
  14.  情報処理装置において実行する情報処理方法であり、
     ノイズキャンセル部が、音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル処理ステップと、
     音声認識部が、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識ステップと、
     応答処理部が、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行する応答処理ステップを実行し、
     前記ノイズキャンセル処理ステップにおいては、
     ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理方法。
  15.  ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記ユーザ端末が、
     ユーザ発話を入力する音声入力処理を実行し、
     前記データ処理サーバが、
     前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル処理と、
     ノイズキャンセルされた後の音声情報に対する音声認識処理と、
     音声認識結果に基づく応答処理を実行し、
     前記ノイズキャンセル処理においては、
     ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理方法。
  16.  情報処理装置において情報処理を実行させるプログラムであり、
     ノイズキャンセル部に、音声入力部を介して入力する音声からノイズを除去または低減させるノイズキャンセル処理ステップと、
     音声認識部に、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行させる音声認識ステップと、
     応答処理部に、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行させる応答処理ステップを実行させ、
     前記ノイズキャンセル処理ステップにおいては、
     ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行させるプログラム。
PCT/JP2019/018769 2018-06-07 2019-05-10 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2019235134A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018109296 2018-06-07
JP2018-109296 2018-06-07

Publications (1)

Publication Number Publication Date
WO2019235134A1 true WO2019235134A1 (ja) 2019-12-12

Family

ID=68770734

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018769 WO2019235134A1 (ja) 2018-06-07 2019-05-10 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2019235134A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716444A (zh) * 2019-11-21 2020-01-21 三星电子(中国)研发中心 一种基于智能家居的声音控制方法、装置和存储介质
CN111128192A (zh) * 2019-12-31 2020-05-08 深圳市优必选科技股份有限公司 语音识别降噪方法、***、移动终端及存储介质
CN111599364A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 语音识别降噪方法、***、移动终端及存储介质
CN115331690A (zh) * 2022-08-17 2022-11-11 中邮消费金融有限公司 一种用于通话语音的噪声实时消除的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2007093635A (ja) * 2005-09-26 2007-04-12 Doshisha 既知雑音除去装置
JP2014222523A (ja) * 2008-09-16 2014-11-27 パーソニクス ホールディングス インコーポレイテッド 音声ライブラリおよび方法
JP2016114744A (ja) * 2014-12-15 2016-06-23 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2007093635A (ja) * 2005-09-26 2007-04-12 Doshisha 既知雑音除去装置
JP2014222523A (ja) * 2008-09-16 2014-11-27 パーソニクス ホールディングス インコーポレイテッド 音声ライブラリおよび方法
JP2016114744A (ja) * 2014-12-15 2016-06-23 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716444A (zh) * 2019-11-21 2020-01-21 三星电子(中国)研发中心 一种基于智能家居的声音控制方法、装置和存储介质
CN111128192A (zh) * 2019-12-31 2020-05-08 深圳市优必选科技股份有限公司 语音识别降噪方法、***、移动终端及存储介质
CN111599364A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 语音识别降噪方法、***、移动终端及存储介质
CN115331690A (zh) * 2022-08-17 2022-11-11 中邮消费金融有限公司 一种用于通话语音的噪声实时消除的方法

Similar Documents

Publication Publication Date Title
WO2019235134A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11138977B1 (en) Determining device groups
CN107112014B (zh) 在基于语音的***中的应用焦点
US10861444B2 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US10777203B1 (en) Speech interface device with caching component
US20210243528A1 (en) Spatial Audio Signal Filtering
US20180182399A1 (en) Control method for control device, control method for apparatus control system, and control device
US9886233B2 (en) Apparatus, systems and methods for audio content diagnostics
KR20120079344A (ko) 결합기반의 음성명령 인식 장치 및 그 방법
US10685664B1 (en) Analyzing noise levels to determine usability of microphones
US11328721B2 (en) Wake suppression for audio playing and listening devices
WO2019035371A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6775563B2 (ja) 人工知能機器の自動不良検出のための方法およびシステム
WO2019155716A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR102262634B1 (ko) 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
US11423920B2 (en) Methods and systems for suppressing vocal tracks
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20220156786A (ko) 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
Panek et al. Challenges in adopting speech control for assistive robots
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
WO2019138477A1 (ja) スマートスピーカー、スマートスピーカーの制御方法、及びプログラム
WO2021140816A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020230460A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR102685533B1 (ko) 비정상 잡음을 판단하는 전자 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19814944

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19814944

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP