WO2020230460A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2020230460A1
WO2020230460A1 PCT/JP2020/013473 JP2020013473W WO2020230460A1 WO 2020230460 A1 WO2020230460 A1 WO 2020230460A1 JP 2020013473 W JP2020013473 W JP 2020013473W WO 2020230460 A1 WO2020230460 A1 WO 2020230460A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
external device
information processing
input
output sound
Prior art date
Application number
PCT/JP2020/013473
Other languages
English (en)
French (fr)
Inventor
高橋 晃
和也 立石
裕一郎 小山
浩明 小川
智恵 鎌田
典子 戸塚
衣未留 角尾
悠希 武田
幸徳 前田
寛 黒田
啓 福井
秀明 渡辺
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/609,314 priority Critical patent/US20220223167A1/en
Publication of WO2020230460A1 publication Critical patent/WO2020230460A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers

Definitions

  • This disclosure relates to information processing devices, information processing systems, information processing methods, and programs. More specifically, the present invention relates to an information processing device, an information processing system, an information processing method, and a program that execute processing and response according to a user's utterance.
  • Such a voice dialogue system is called, for example, a smart speaker, an agent, an agent device, or the like.
  • Such a voice dialogue system analyzes the user's utterance input through the microphone and performs processing according to the analysis result.
  • the weather information is acquired from the weather information providing server, a system response based on the acquired information is generated, and the generated response is output from the speaker.
  • System utterance "Tomorrow's weather will be fine, but there may be thunderstorms in the evening.” Output such a system utterance.
  • a major issue with voice dialogue systems is that the sound input through the system microphone is the voice spoken by the user to the system, or the voice or noise output from devices other than the user, such as televisions, radios, and air conditioners. There is a problem that it is difficult to distinguish between them.
  • Patent Document 1 Japanese Patent Laid-Open No. 2017-090789 discloses a configuration for preventing such a malfunction.
  • This Patent Document 1 includes, for example, an acoustic signal such as a television broadcast acquired by voice recognition of an acoustic signal including a speaker's voice to obtain a first voice recognition result and further obtained by another sound collecting means.
  • a second voice recognition result is obtained by voice recognition of an acoustic signal, common data is extracted from the two voice recognition results, and this common data is removed from the first voice recognition result including the speaker's voice. Therefore, a method of extracting only the speech of the speaker included in the first speech recognition result is disclosed.
  • the present disclosure has been made in view of the above problems, for example, and is an information processing device and an information processing system capable of distinguishing between user utterances and noises other than user utterances and performing processing only for user utterances. , And information processing methods, as well as programs.
  • the characteristic amount of sound output from a device such as a television that should be distinguished as noise other than user speech is registered in a database (DB), and the system is used by using this registration information.
  • DB database
  • an information processing device an information processing system, an information processing method, and a program capable of acquiring a clear user's speech by removing noise from the input sound of
  • the first aspect of the disclosure is It has a user-spoken voice extraction unit that extracts the user-spoken voice from the input sound via the voice input unit.
  • the user utterance voice extraction unit The sound source direction of the input sound is analyzed, Based on the sound source direction of the external device output sound recorded in the external device output sound characteristic database, it is determined whether or not the input sound includes the external device output sound, and if it is determined, the external device output is output. It is in an information processing device that executes a process of removing an external device output sound from the input sound by using a feature amount of an external device output sound recorded in a sound characteristic database.
  • the second aspect of the disclosure is It has an external device output sound analysis unit that analyzes the characteristics of the output sound of the external device and records it in the database.
  • the external device output sound analysis unit Audio data with known frequency characteristics is output from an external device, the sound signal acquired by the microphone array is input, and the input sound signal is analyzed to determine the sound source direction of the external device and the frequency of the sound output from the external device. It is in an information processing device that analyzes characteristics.
  • the third aspect of the present disclosure is It is an information processing method executed in an information processing device.
  • the information processing device has a user-spoken voice extraction unit that extracts user-spoken voice from input sound via a voice input unit.
  • the user utterance voice extraction unit The sound source direction of the input sound is analyzed, Based on the sound source direction of the external device output sound recorded in the external device output sound characteristic database, it is determined whether or not the input sound includes the external device output sound, and if it is determined, the external device output is output. It is an information processing method that executes a process of removing an external device output sound from the input sound by using a feature amount of an external device output sound recorded in a sound characteristic database.
  • the fourth aspect of the present disclosure is It is an information processing method executed in an information processing device.
  • the information processing device It has an external device output sound analysis unit that analyzes the characteristics of the output sound of the external device and records it in the database.
  • the external device output sound analysis unit Audio data with known frequency characteristics is output from an external device, the sound signal acquired by the microphone array is input, and the input sound signal is analyzed to determine the sound source direction of the external device and the frequency of the sound output from the external device. It is in the information processing method that analyzes the characteristics.
  • the fifth aspect of the present disclosure is A program that executes information processing in an information processing device.
  • the information processing device has a user-spoken voice extraction unit that extracts user-spoken voice from input sound via a voice input unit.
  • the program is applied to the user-spoken voice extraction unit.
  • the sound source direction of the input sound is analyzed.
  • Based on the sound source direction of the external device output sound recorded in the external device output sound characteristic database it is determined whether or not the input sound includes the external device output sound, and if it is determined, the external device output is output.
  • the sixth aspect of the present disclosure is A program that executes information processing in an information processing device.
  • the information processing device It has an external device output sound analysis unit that analyzes the characteristics of the output sound of the external device and records it in the database.
  • the program is sent to the external device output sound analysis unit. Audio data with known frequency characteristics is output from an external device, the sound signal acquired by the microphone array is input, and the input sound signal is analyzed to determine the sound source direction of the external device and the frequency of the sound output from the external device. It is in the program that analyzes the characteristics.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium that is provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • a program that can be provided by a storage medium or a communication medium that is provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
  • a device and a method capable of removing the output sound of an external device from the voice input via the voice input unit and performing voice recognition based on a clear user utterance are realized. Will be done. Specifically, for example, it has a user-spoken voice extraction unit that extracts the user-spoken voice from the microphone input sound.
  • the user-spoken sound extraction unit analyzes the sound source direction of the input sound, determines whether or not the input sound includes the external device output sound based on the sound source direction of the external device output sound recorded in the database, and includes the sound source.
  • the characteristic amount of the external device output sound recorded in the database for example, the sound signal corresponding to the frequency characteristic is removed from the input sound, and the user-spoken sound from which the external device output sound is removed is extracted.
  • FIG. 1 is a diagram showing an example of processing of an information processing device 10 that recognizes a user's utterance uttered by the user 1 and makes a response.
  • the voice recognition process of this user utterance is executed.
  • the information processing device 10 executes a process based on the voice recognition result of the user's utterance.
  • the information processing apparatus 10 makes the following system response.
  • System response "Tomorrow in Osaka, the weather will be fine in the afternoon, but there may be showers in the evening.”
  • the information processing device 10 executes voice synthesis processing (TTS: Text To Speech) to generate and output the above system response.
  • TTS Text To Speech
  • the information processing device 10 generates and outputs a response by using the knowledge data acquired from the storage unit in the device or the knowledge data acquired via the network.
  • the information processing device 10 shown in FIG. 1 includes a microphone (array) 11, a display unit 12, and a speaker 13, and has a configuration capable of audio input / output and image input / output.
  • the information processing device 10 shown in FIG. 1 is called, for example, a smart speaker or an agent device.
  • the voice recognition process and the semantic analysis process for the user's utterance may be performed in the information processing device 10 or may be executed in the server on the cloud side.
  • the microphone (array) 11 is composed of a plurality of microphones arranged at different positions in order to specify the sound source direction.
  • a plurality of microphones arranged at different positions acquire sound from a sound source in a specific direction
  • the arrival time of the sound from the sound source for each microphone of the microphone array 11 is slightly deviated. That is, each microphone inputs a sound signal having a phase difference according to the sound source direction. This phase difference differs depending on the sound source direction, and the sound source direction can be obtained by analyzing the phase difference of the audio signal acquired by each microphone.
  • the information processing device 10 recognizes the utterance of the user 1 and makes a response based on the user's utterance.
  • the information processing device 10 is connected to the server via a network, and can acquire information necessary for generating a response to a user's utterance from the server. Further, as described above, the server may be configured to perform voice recognition processing and semantic analysis processing.
  • FIG. 2 shows an example of the actual usage environment of the information processing device 10.
  • external devices such as a television 31, a radio 32, a refrigerator 33, and a rice cooker 34 around the information processing device 10 that performs voice dialogue. These external devices output various sounds during operation.
  • the switch of the television 31 or the radio 32 is ON, the sound of various programs will be output.
  • the voices of the television 31 and the radio 32 are noise sounds for user utterances.
  • many refrigerators 33, rice cookers 34, and the like in recent years also have an audio output function.
  • the refrigerator 33 outputs a voice such as "the door is open”.
  • the rice cooker 34 outputs a voice such as "rice is cooked”.
  • a steady noise sound is generated even when an external device such as an air conditioner or a ventilation fan is operating.
  • the information processing device 10 also inputs noise output from such various external devices through the microphone in addition to the user's utterance. As a result, the information processing device 10 cannot correctly execute the voice recognition process of the user's utterance, and there is a high possibility that an error (welling out) that the process is executed different from the intention of the user's utterance is generated. become.
  • the information processing device of the present disclosure realizes reduction of errors by removing or reducing noise from microphone input sound, extracting clear user-spoken voice, and performing voice recognition.
  • the following method can be considered. (1) Select only the utterance section that seems to be voice. For example, voice section detection by VAD (Voice Activity Detection) is performed to distinguish between voice and noise. (2) When the user speaks, the user is requested to speak a specific "activation word”. (3) Detect the difference between the background noise and the sound pressure spoken by the user. (4) A noise sound output by a device having a fixed sound source position as a noise source is registered, and this registered noise data is removed from the input sound of the information processing device 10 to extract a user's speech.
  • VAD Voice Activity Detection
  • the measure (1) above is when the noise source is a device such as a television or a radio that outputs a sound similar to human voice.
  • the activation word of (2) forces the user to utter the activation word one after another, which causes a problem that the burden on the user increases.
  • the process of distinguishing between the background noise and the sound pressure of the user's utterance in (3) is performed when the speaker of a TV or radio is set close to the microphone, or when the user and the microphone are separated.
  • a clear distinction cannot be made and the possibility of erroneous judgment increases.
  • the configuration of removing the registered noise data of (4) from the input sound of the information processing device 10 and extracting the user's utterance is effective for a device that constantly emits noise, for example, a device such as an air conditioner. Will be done.
  • devices such as televisions and radios do not output a certain amount of noise, it is difficult to obtain the effect of this processing.
  • the information processing device of the present disclosure solves these problems and removes or reduces noise (noise) which is an output sound from various external devices included in the microphone input sound of the information processing device 10 and clears it. By extracting the user-spoken voice and performing voice recognition, error reduction is realized.
  • noise noise
  • the information processing device of the present disclosure is clear by removing or reducing these external device output sounds from the microphone input sound when the microphone input sound of the information processing device includes various external device output sounds other than the user's speech. Select and extract the user-spoken voice and execute response processing for the user-spoken voice.
  • the information processing apparatus of the present disclosure generates a database (DB) in which characteristic information of the output sound of the external device is recorded in advance.
  • This database is called an “external device output sound characteristic database (DB)”.
  • FIG. 3 shows a data configuration example of the “external device output sound characteristic database (DB)”.
  • the external device output sound characteristic DB is a database in which the following information is associated and recorded for various external devices such as televisions and radios.
  • (A) External device ID (B) Device type (c) Sound source direction (d) Feature amount In the feature amount, at least one of (d1) frequency characteristics and (d2) utterance text information is recorded.
  • the external device ID for example, the identifier of the external device placed in the living room where the information processing device 10 shown in FIG. 2 is placed is recorded.
  • the type of external device for example, the device type such as TV or radio is recorded.
  • the sound source direction can be determined by analyzing the acquired sounds of the microphones constituting the microphone array of the information processing device 10.
  • the frequency characteristic is, for example, correspondence information between the frequency (Hz) and the output intensity (dB) of the output sound of the external device.
  • the frequency characteristic of the external device output sound can be acquired by the characteristic measurement process of the external device output sound executed by the information processing device 10. The details of this process will be described later.
  • the utterance text is, for example, an utterance text such as "rice is cooked” output from the speaker of the rice cooker.
  • This utterance text information may be registered by user input, or may be configured to register the text information analyzed by the voice recognition process of the information processing device 10.
  • the sound waves output by an external device such as a television include a direct wave directly input from the external device to the information processing device 10 and a reflected wave reflected on a wall or the like. It becomes a mixed sound wave.
  • the sound wave output from the television 31 which is an external device is input to the information processing device 10 as one direct wave and a plurality of reflected waves.
  • the information processing device 10 inputs a mixed signal of these plurality of sound waves by each microphone constituting the microphone array 11.
  • the data processing unit of the information processing apparatus 10 estimates the arrival direction of the direct wave component, that is, the sound source direction of the external device by using, for example, the sound source arrival direction estimation (DOA: Direction of Arrival) technology, and determines this estimation direction. Record in the database.
  • the microphone array 11 can be used to determine the sound source direction by the existing DS method or MUSIC method.
  • beamforming processing which is a signal processing that selects and emphasizes the estimated sound in the sound source direction of the external device, is executed to select and acquire the sound from the sound source direction, and the frequency characteristics of the sound are analyzed. ..
  • the frequency characteristic information of the analyzed external device output sound is recorded in the database.
  • a sound source (reproduced audio file) prepared in advance is used, and this sound source (reproduced audio file) is used. Is output from the speaker of an external device such as a television to be measured.
  • FIG. 5 and 6 show specific examples of a sound source (reproduced audio file) used when measuring a feature amount such as a sound source direction and frequency characteristics of an external device output sound.
  • FIG. 5 is white noise that evenly includes sounds in all frequency bands in the audible region.
  • FIG. 5 shows (1a) waveform data (1b) spectrogram (1c) frequency characteristic average data of white noise, and each of these data is shown.
  • Such white noise is output from the speaker of the external device and acquired by the microphone array 11 of the information processing device 10 to measure the characteristics of the external device output sound, that is, the characteristic amount such as the sound source direction and the frequency characteristic.
  • the sound source (reproduced audio file) used when measuring the sound source direction of the sound output from the external device and the feature amount such as the frequency characteristic is not limited to such white noise, and as shown in FIG. It may be a sound source whose frequency characteristics fluctuate.
  • the data processing unit of the information processing device 10 holds the characteristic information of the sound source (reproduced sound file) to be used, and compares the characteristics of this sound source (reproduced sound file) with the characteristics of the input sound from the microphone array 11. Then, the feature quantities such as the sound source direction and frequency characteristics of the output sound of the external device are analyzed.
  • FIG. 7 is a graph showing an example of the analysis result of the frequency characteristics of the external device output sound by the data processing unit of the information processing device 10.
  • the horizontal axis is frequency (Hz) and the vertical axis is intensity (dB).
  • the graph shows two lines.
  • the solid line is the frequency characteristic measurement result when the white noise described with reference to FIG. 5 is used as the sound source (reproduced audio file).
  • the dotted line is the frequency characteristic measurement result when the sound source described with reference to FIG. 6, that is, the sound source whose frequency characteristic fluctuates with the passage of time is used as the sound source (reproduced audio file). Almost the same analysis results are obtained when any sound source is used.
  • impulse response measurement methods In general, when measuring acoustic features such as a room or a concert hall, the impulse response is often measured.
  • TSP Time Streamed Pulse
  • M-sequence signal Matmum Length Sequence
  • the frequency characteristics of the microphone array 11 of the information processing device 10 are known, and a sound source (reproduced sound file) having the known frequency characteristics in advance is output from the speaker of the external device.
  • the data processing unit of the information processing apparatus 10 analyzes the characteristics of the output sound of each external device by using these known information. That is, the characteristics of the output sound of each external device are measured without measuring the impulse response as described above.
  • the characteristics of the microphone are known and the characteristics of the sound source (reproduced audio file) are also known, the characteristics of the output sound of each external device, that is, the sound source direction, frequency characteristics, etc., without knowing the exact impulse response in the room. Can be analyzed.
  • the information processing device 10 of the present disclosure executes beamforming processing, which is a signal processing that selects and emphasizes the estimated sound in the sound source direction of the external device, selects and acquires the sound from the sound source direction, and obtains the sound. Analyze the frequency characteristics of sound.
  • the frequency characteristic of the external device acquired by this analysis process is, for example, intensity characteristic (dB) information corresponding to each frequency (Hz), and is the frequency characteristic of the external device represented by the following equation.
  • External device frequency characteristics (frequency characteristics of the observed signal acquired by the microphone array 11)-(frequency characteristics of the sound source (reproduced audio file))
  • the frequency characteristic of the external device analyzed here is a frequency characteristic including the influence of the transmission characteristic of the living room where the external device and the information processing device 10 are placed.
  • the frequency characteristic information of the analyzed external device output sound is recorded in the database.
  • FIG. 8 is a diagram showing a configuration example of an information processing device 100 that recognizes a user utterance and performs a process or a response corresponding to the user utterance.
  • the information processing device 100 shown in FIG. 8 corresponds to the information processing device 10 shown in FIG. 1 and others described above.
  • the information processing device 100 includes a control unit 101, a storage unit 102, a communication unit 103, a sound input unit (microphone array) 105, a sound output unit (speaker) 106, and an image output unit (display unit) 107. , Data processing unit 110, external device output sound DB 121, and response processing data DB 122.
  • the data processing unit 110 includes an external device output sound analysis unit 111, a user utterance voice extraction unit 112, a voice recognition unit 113, and a response processing unit 114.
  • FIG. 8 also shows one external device 150.
  • the external device 150 is, for example, an external device such as a television 31, a radio 32, and a refrigerator 33 described above with reference to FIG.
  • the external device 150 includes a control unit 151, a voice output unit 152, and a communication unit 153. In addition to the one shown in the figure, there are a plurality of external devices.
  • the communication unit 103 of the information processing device 100 executes communication with the external device 150 and other external devices, and further communicates with an external server, for example, the data processing server 161 shown in the figure and the external device information providing server 162. Run.
  • the data processing server 161 executes, for example, voice recognition processing.
  • the voice recognition process may be executed in the information processing apparatus 100, or may be executed in an external server.
  • the voice recognition processing unit 113 in the data processing unit 110 of the information processing device 100 shown in the figure may be omitted.
  • the information processing device 100 requests the data processing server 161 for voice recognition processing via the communication unit 103, receives the voice recognition result in the data processing server 161 and inputs it to the response processing unit 114 to the user 1. Make a response.
  • the external device information providing server 162 is a server that provides information regarding the output sound of the external device. For example, voice text information output by a rice cooker, specifically, "Rice is cooked" The voice output voice text information of such an external device is provided to the information processing device 100.
  • the control unit 101 of the information processing device 100 registers this information in the external device output sound characteristic DB 121. That is, it is registered as the (d2) utterance text information of the (d) feature amount of the external device output sound characteristic DB 121 described above with reference to FIG.
  • the database registration process of the utterance text of the external device may be executed by the user, or may be executed by using the voice recognition result in the voice recognition unit 113 of the data processing unit 110 of the information processing device 100. You may.
  • the control unit 101 executes integrated control of various processes executed in the information processing apparatus 100. For example, it executes comprehensive control of various processes executed in the information processing apparatus 100, such as analysis processing of output sound characteristics of an external device, analysis processing of user utterances, and response generation processing. These processes can be executed according to, for example, a program stored in the storage unit 102.
  • the control unit 101 has a processor such as a CPU having a program execution function.
  • the storage unit 102 stores parameters and the like applied to various processes in addition to the program executed by the control unit 101. For example, a sound source (reproduced audio file) for use in the characteristic analysis of the external device output sound described above with reference to FIGS. 5 and 6 is also stored. Further, it is also used as a recording area for voice information input via the voice input unit (microphone) 105.
  • a sound source reproduced audio file
  • voice input unit microphone
  • the communication unit 103 executes communication with the external device 150 and the external server.
  • the external device 150 is, for example, a television (TV), a radio, or the like, and is a noise generating device that generates various external device output sounds (noise).
  • the external device 150 has a control unit 151, an audio output unit 152, and a communication unit 153.
  • the information processing device 100 transmits the sound source (reproduced audio file) described above with reference to FIGS. 5 and 6 via the communication unit 103. Then, it is output via the audio output unit 152 of the external device 150.
  • This output sound is input to the voice input unit (microphone array) 105 of the information processing device 100.
  • the acquired sound signal input to the voice input unit (microphone array) 105 is input to the external device output sound analysis unit 111 of the data processing unit 110.
  • the external device output sound analysis unit 111 analyzes the output sound of the external device, and analyzes the sound source direction of the external device, the frequency characteristic as a feature amount, and the like. Further, this analysis result is recorded in the external device output sound characteristic database 121. That is, data generation and recording processing for recording in the external device output sound characteristic database 121 described above with reference to FIG. 3 are performed. The details of the processing executed by the external device output sound analysis unit 111 will be described later.
  • the uttered voice is input to the voice input unit (microphone array) 105 of the information processing device 100.
  • the acquired sound signal input to the voice input unit (microphone array) 105 is input to the user-spoken voice extraction unit 112 of the data processing unit 110.
  • the user-spoken voice extraction unit 112 executes a process of removing or reducing the output sound of the external device from the acquired sound input to the voice input unit (microphone array) 105, and extracts the user-spoken voice from the input sound.
  • the registered information of the external device output sound characteristic database 121 is used in the user utterance voice extraction process in the user utterance voice extraction unit 112. The details of the process executed by the user-spoken voice extraction unit 112 will be described later.
  • the user-spoken voice signal extracted by the user-spoken voice extraction unit 112 is input to the voice recognition protection 113.
  • the voice recognition unit 113 inputs a clear user-spoken voice signal from which the output sound of the external device has been removed or reduced, and executes the user-spoken voice recognition process.
  • the ASR Automatic Speech Recognition
  • the utterance semantic analysis process for the text data is executed. For example, by using a natural language understanding function such as NLU (Natural Language Understanding), the intention of the user's utterance (Intent) from the text data and the actual information (entity:) that is a meaningful element (significant element) included in the utterance. Entry) is estimated.
  • NLU Natural Language Understanding
  • the response processing unit 114 acquires the voice recognition result from the voice recognition unit 113, refers to the response processing data DB 122, and generates a response (system utterance) to the user 1.
  • the response data generated by the response processing unit 114 is output via the voice output unit (speaker) 106 and the image output unit (display unit) 107.
  • the external device output sound analysis unit 111 analyzes the output sound of the external device, and analyzes the sound source direction of the external device, the frequency characteristic as a feature amount, and the like. Further, this analysis result is recorded in the external device output sound characteristic database 121. That is, data generation and recording processing for recording in the external device output sound characteristic database 121 described above with reference to FIG. 3 are performed.
  • the sequence of processing executed by the external device output sound analysis unit 111 will be described with reference to the flowchart shown in FIG.
  • the process according to the flow shown in FIG. 9 and below is, for example, a process that can be executed under the control of a CPU or the like having a program execution function according to a program stored in the storage unit of the information processing apparatus.
  • the processing of each step of the flow shown in FIG. 9 will be sequentially described.
  • Step S101 the information processing device 100 selects the device to be analyzed for the output sound characteristics in step S101.
  • one device to be analyzed for output sound characteristics is selected from a plurality of external devices in the living environment shown in FIG. 2, that is, external devices such as a television 31, a radio 32, a refrigerator 33, and a rice cooker 34.
  • Step S102 the information processing device 100 causes the external device selected in step S101 to output a sound according to a specified sound source (reproduced audio file) prepared in advance.
  • a sound according to the sound source (reproduced audio file) described above with reference to FIGS. 5 and 6 is output via the speaker of the selected external device.
  • the information processing device 100 transmits sound source (reproduced audio file) data to an external device selected as an analysis target via the communication unit 103, and selects a sound according to the transmitted sound source (reproduced audio file). Output through the speaker of.
  • Step S103 The process of the next step S103 and subsequent steps is a process executed by the external device output sound analysis unit 111 of the data processing unit 110 of the information processing device 100.
  • step S102 the sound signal output from the external device is input to the voice input unit (microphone array) 105 of the information processing device 100, and the input sound is input to the external device output sound analysis unit 111.
  • voice input unit microphone array
  • the external device output sound analysis unit 111 executes the analysis process of the sound source direction in step S103.
  • the external device output sound analysis unit 111 analyzes the sound source direction of the sound output from the external device by using, for example, the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • the sound source direction is analyzed by the DS method or the MUSIC method to which the phase difference analysis of the input signals of each microphone constituting the voice input unit (microphone array) 105 is applied.
  • Step S104 The external device output sound analysis unit 111 determines in step S104 whether or not the analysis process of the sound source direction is successful, and if not, proceeds to step S111, executes output sound adjustment, and again in step S102 or less. Repeat the process of.
  • step S104 If it is determined in step S104 that the analysis process of the sound source direction is successful, the process proceeds to step S105.
  • Step S105 If it is determined in step S104 that the sound source direction analysis process is successful, the external device output sound analysis unit 111 registers the sound source direction data of the output sound of the selected device in the database in step S105. That is, it is recorded in the external device output sound characteristic database 121.
  • Step S106 the external device output sound analysis unit 111 executes a beamforming process, which is a signal process for selecting and emphasizing the sound in the sound source direction of the external device.
  • the external device output sound analysis unit 111 analyzes the frequency characteristics of the external device output sound in step S107.
  • the frequency characteristic data acquired by this analysis processing is, for example, intensity (dB) information corresponding to each frequency (Hz), and is, for example, the frequency characteristic of an external device represented by the following equation.
  • External device frequency characteristics (frequency characteristics of the observed signal acquired by the audio input unit (microphone array) 105)-(frequency characteristics of the sound source (reproduced audio file))
  • the frequency characteristic of the external device analyzed here is a frequency characteristic including the influence of the transmission characteristic of the living room where the external device and the information processing device 100 are placed.
  • Step S108 the external device output sound analysis unit 111 registers the frequency characteristics of the external device output sound analyzed in step S107 in the database. That is, it is recorded in the external device output sound characteristic database 121.
  • step S109 the external device output sound analysis unit 111 determines whether or not the analysis processing of all the analysis target external devices has been completed. If there is an unprocessed external device, the process returns to step S101, and the process of step S101 or less is executed for the unprocessed device.
  • step S109 If it is determined in step S109 that the analysis processing of all the analysis target external devices is completed, the processing ends. By these processes, the process of registering the external device voice characteristic information in the external device output sound characteristic database 121 described above with reference to FIG. 3 is completed.
  • the information acquired from the external device information providing server 162 may be input. Further, it may be registered by user input, or the voice recognition result by the voice recognition unit 113 of the information processing device 100 may be registered.
  • the output sound characteristic information of the external device that is, the sound source direction of the external device, the frequency characteristic as the feature amount, and the like are obtained by the external device output sound analysis unit 111 in the data processing unit 110 of the information processing device 100. It is executed according to the flow shown in FIG. 9 and recorded in the external device output sound characteristic database 121.
  • FIG. 10 shows a voice input unit (mic array) of the information processing apparatus 100. It is a figure explaining the signal processing with respect to the input sound signal which 105 inputs. These signal processes are executed by the external device output sound analysis unit 111.
  • step S181 the time-frequency conversion process is executed for the input sound signal 171 input by the voice input unit (microphone array) 105.
  • FT Fourier Transform
  • step S182 the sound source direction estimation process is executed using the time-frequency conversion data.
  • the direction of arrival of the direct wave component that is, the direction of the sound source of the external device is calculated by using the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • step S183 the beamforming (BF) coefficient, which is a parameter for performing beamforming (BF) processing, which is signal processing for selecting and emphasizing the estimated sound in the sound source direction of the external device, is calculated.
  • step S184 a beamforming (BF) process to which the calculated coefficient is applied is executed.
  • step S185 the process of step S185 or less is executed for the input sound from the sound source direction.
  • step S185 a process of adding the frequency characteristic data sequentially acquired according to the processing sequence for each specific frequency is executed, and further, in step S186, an averaging process of the addition result is executed.
  • step S186 an averaging process of the addition result is executed.
  • step S187 the external device frequency characteristic data for finally recording in the external device output sound characteristic DB 121 is calculated.
  • the reproduced sound source frequency characteristic 172 is acquired, and the frequency characteristic of the external device to be registered in the database is calculated according to the following formula.
  • External device frequency characteristics (frequency characteristics of the observed signal acquired by the microphone array 11)-(frequency characteristics of the sound source (reproduced audio file)) If the frequency characteristics of the sound source (reproduced audio file) are not flat, the frequency characteristics of the sound source are corrected as necessary.
  • the frequency characteristic of the external device calculated according to the above formula is a frequency characteristic including the influence of the transmission characteristic of the living room where the external device and the information processing device 100 are placed.
  • the frequency characteristic information of the analyzed external device output sound is recorded in the external device output sound characteristic DB 121.
  • Steps S201 to S205, S211 The processes of steps S201 to S205 and steps S211 are the same as the processes of steps S101 to S105 and S111 of the flow described above with reference to FIG.
  • step S201 the device to be analyzed for the output sound characteristics is selected.
  • step S202 the external device selected in step S201 outputs a sound according to a specified sound source (reproduced audio file) prepared in advance. Specifically, for example, the sound according to the sound source (reproduced audio file) described above with reference to FIGS. 5 and 6 is output via the speaker of the selected external device.
  • step S203 the analysis process of the sound source direction is executed.
  • the external device output sound analysis unit 111 analyzes the sound source direction of the sound output from the external device by using, for example, the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • step S204 it is determined whether or not the analysis process of the sound source direction is successful, and if it is not successful, the process proceeds to step S211 to execute the output sound adjustment, and the process of step S202 and the like is repeated again. If it is determined in step S204 that the analysis process of the sound source direction is successful, the process proceeds to step S205.
  • the external device output sound analysis unit 111 registers the sound source direction data of the output sound of the selected device in the database in step S205. That is, it is recorded in the external device output sound characteristic database 121.
  • the analysis process of the sound source direction of the output sound of the external device and the database recording process are the same as the processes of steps S101 to S105 and S111 of the flow described above with reference to FIG. Is executed as a process of.
  • step S206 and subsequent steps is a process unique to this embodiment. Hereinafter, the processing of step S206 and subsequent steps will be described.
  • Step S206 the external device output sound analysis unit 111 of the information processing device 100 analyzes the frequency characteristics of each microphone input sound unit constituting the microphone array of the voice input unit (microphone array) 105.
  • the frequency characteristic data acquired by this analysis process is the frequency characteristic of the input sound of each microphone constituting the microphone array of the voice input unit (microphone array) 105. For example, if the number of microphones that make up the microphone array is n, Generates n frequency characteristic data corresponding to the number of microphones n.
  • n frequency characteristics corresponding to the first microphone to the nth microphone are acquired.
  • Frequency characteristics corresponding to the first microphone which is the frequency characteristics of the output sound of the external device corresponding to the input sound of the first microphone.
  • Frequency characteristics corresponding to the second microphone which is the frequency characteristics of the output sound of the external device corresponding to the input sound of the second microphone.
  • Frequency characteristics corresponding to the nth microphone which is the frequency characteristics of the output sound of the external device corresponding to the input sound of the nth microphone.
  • the external device output sound analysis unit 111 acquires n frequency characteristics corresponding to the first microphone to the nth microphone in step S206.
  • the output sound frequency characteristics of these n external devices are, for example, intensity (dB) information corresponding to each frequency (Hz), and for example, the external device frequency characteristics of the x-th microphone are calculated by the following formula. It becomes the frequency characteristic of the external device.
  • x is any value from 1 to n.
  • the frequency characteristic of the external device analyzed here is a frequency characteristic including the influence of the transmission characteristic of the living room where the external device and the information processing device 100 are placed.
  • Step S207 the external device output sound analysis unit 111 registers the frequency characteristics of the n external device output sounds corresponding to the n microphones analyzed in step S206 in the database. That is, it is recorded in the external device output sound characteristic database 121.
  • step S208 the external device output sound analysis unit 111 determines whether or not the analysis processing of all the analysis target external devices has been completed. If there is an unprocessed external device, the process returns to step S201, and the process of step S201 or less is executed for the unprocessed device.
  • step S208 when it is determined that the analysis processing of all the analysis target external devices is completed, the processing is terminated.
  • the process of registering the external device voice characteristic information in the external device output sound characteristic database 121 described above with reference to FIG. 3 is completed.
  • the (d1) frequency characteristic of the external device output sound characteristic database 121 of FIG. 3 corresponds to n corresponding to n microphones constituting the voice input unit (microphone array) 105 of the information processing device 100. A number of frequency characteristic information is recorded.
  • FIG. 12 shows a voice input unit (mic array) of the information processing apparatus 100. It is a figure explaining the signal processing with respect to the input sound signal which 105 inputs. These signal processes are executed by the external device output sound analysis unit 111.
  • step S281 the time-frequency conversion process is executed for the input sound signal 271 input by the voice input unit (microphone array) 105.
  • FT Fourier Transform
  • step S282 the sound source direction estimation process is executed using the time-frequency conversion data.
  • the direction of arrival of the direct wave component that is, the direction of the sound source of the external device is calculated by using the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • step S283 a process of adding the frequency characteristic data sequentially acquired according to the processing sequence for each specific frequency is executed, and further, in step S284, an averaging process of the addition result is executed.
  • step S283 a process of adding the frequency characteristic data sequentially acquired according to the processing sequence for each specific frequency is executed, and further, in step S284, an averaging process of the addition result is executed.
  • n frequency characteristics corresponding to the first microphone to the nth microphone for finally recording in the external device output sound characteristic DB 121 are calculated.
  • the reproduced sound source frequency characteristic 272 is acquired, and the data to be recorded in the external device output sound characteristic DB 121 is calculated.
  • External device compatible with the x-microphone Frequency characteristics (Frequency characteristics of the observed signal acquired by the x-microphone)-(Frequency characteristics of the sound source (reproduced audio file))
  • the frequency characteristics of the sound source are not flat, the frequency characteristics of the sound source are corrected as necessary.
  • the frequency characteristic of the external device calculated according to the above formula is a frequency characteristic including the influence of the transmission characteristic of the living room where the external device and the information processing device 100 are placed.
  • the frequency characteristic information of the analyzed external device output sound is recorded in the external device output sound characteristic DB 121.
  • the process of registering the external device voice characteristic information in the external device output sound characteristic database 121 described above with reference to FIG. 3 is completed.
  • the (d1) frequency characteristic of the external device output sound characteristic database 121 of FIG. 3 corresponds to n corresponding to n microphones constituting the voice input unit (microphone array) 105 of the information processing device 100. A number of frequency characteristic information is recorded. In the process of this embodiment, it is possible to omit the beamforming process.
  • the user utterance voice extraction unit 112 executes a process of removing or reducing the output sound of the external device from the acquired sound input to the voice input unit (microphone array) 105, and the user utterance from the input sound. Extract audio.
  • the registered information of the external device output sound characteristic database 121 is used in the user utterance voice extraction process in the user utterance voice extraction unit 112.
  • Step S301 First, the user-spoken voice extraction unit 112 of the data processing unit 110 of the information processing device 100 inputs a sound signal from the voice input unit (microphone array) 105 in step S301.
  • Step S302 the user-spoken voice extraction unit 112 analyzes the sound source direction of the input sound in step S302.
  • the sound source direction of the microphone input sound is calculated by using the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • Step S303 the user utterance voice extraction unit 112 searches the external device output sound characteristic DB 121 using the sound source direction analyzed in step S302 as a search key.
  • Step S304 the user utterance voice extraction unit 112 determines whether or not a registered external device that records a sound source direction that matches or is similar to the sound source direction analyzed in step S302 is detected in the external device output sound characteristic DB 121. judge. If it is not detected, the process proceeds to step S321. On the other hand, if it is detected, the process proceeds to step S305.
  • Step S305 When a registered external device that records a sound source direction that matches or is similar to the sound source direction of the input sound is detected in step S304, the user utterance voice extraction unit 112 detects the feature amount of the registered external device from the DB in step S305. It is determined whether or not the frequency characteristic information is recorded as. If it is not registered, the process proceeds to step S311. If it is registered, the process proceeds to step S306.
  • step S306 If a plurality of registered external devices that record sound source directions that match or are similar to the sound source directions analyzed in step S302 and that record frequency characteristics are detected in the DB, the following steps S306 to S307 The process is repeatedly executed for each external device detected from the DB.
  • Step S306 When it is determined in step S305 that the frequency characteristic information is recorded as the DB registration data of the registered external device that records the sound source direction that matches or is similar to the sound source direction of the input sound, the user-spoken sound extraction unit 112 determines in step S306. In, the frequency characteristic information of the registered external device is acquired from the DB.
  • step S307 the user-spoken voice extraction unit 112 executes a process of subtracting a sound signal corresponding to the frequency characteristic of the registered external device acquired from the DB from the input sound from the voice input unit (microphone array) 105. To do. After this process, the process proceeds to step S311.
  • Step S311 The determination in step S305 is No, that is, when the frequency characteristic information is not recorded as the feature amount of the registered external device detected from the DB, and after the processing in step S307 is completed, that is, it corresponds to the frequency characteristic of the recording external device. After executing the process of subtracting the sound signal from the input sound from the voice input unit (microphone array) 105, the process of step S311 is executed.
  • step S311 the user utterance voice extraction unit 112 determines whether or not the utterance text is recorded as a feature amount of the DB-registered external device determined to match the input sound and the sound source direction. If it has not been recorded, the process proceeds to step S321. On the other hand, if the utterance text is recorded, the process proceeds to step S312.
  • Step S312 When it is determined in step S311 that the utterance text is recorded as the DB registration data of the registered external device that records the sound source direction that matches or is similar to the sound source direction of the input sound, the user utterance voice extraction unit 112 determines in step S312. , Acquires the utterance text recorded corresponding to the registered external device from the DB.
  • step S313 the user-spoken voice extraction unit 112 causes the voice recognition unit 113 to execute the voice recognition process for the input sound signal, and inputs the voice recognition result.
  • Step S314 the user utterance voice extraction unit 112 compares the voice recognition result for the input sound signal with the utterance text recorded corresponding to the registered external device of the DB, and determines whether or not they match. ..
  • step S322 executes the response process.
  • Step S321 The determination in step S304 is No, that is, when a registered external device that records a sound source direction that matches or is similar to the sound source direction of the input sound is not detected, or the determination in step S311 is No, that is, the input sound and the sound source direction. If the spoken text is not recorded as a feature amount of the DB-registered external device determined to match, in these cases, the processes of steps S321 to S322 are executed. In these cases, it is the processing when it is determined that the input sound contains only the user's utterance.
  • step S321 the voice recognition process of the input signal is executed.
  • This process is executed by the voice recognition unit 113. Alternatively, it may be executed on the external data processing server 161.
  • Step S322 After the processing of step S321, or when the determination in step S314 is No, that is, when it is determined that the voice recognition result for the input sound signal and the utterance text recorded corresponding to the registered external device of the DB do not match. Executes the process of step S322.
  • step S322 the information processing device 100 executes response processing based on the voice recognition result. This process is executed by the response processing unit 114 of the data processing unit 110 of the information processing device 100. This process is a process executed as a response process to the user's utterance.
  • FIG. 15 is a processing example in which a user-spoken voice and an output sound of an external device are mixed in the input sound of the voice input unit (microphone array) 105.
  • FIG. 16 is a processing example in which the input sound of the voice input unit (microphone array) 105 does not include the user-spoken voice but includes only the output sound of the external device.
  • FIG. 15 is a diagram illustrating signal processing for an input sound signal input by the voice input unit (microphone array) 105 of the information processing device 100. These signal processes are executed by the user-spoken voice extraction unit 112.
  • step S401 the time-frequency conversion process is executed for the input sound signal 321 input by the voice input unit (microphone array) 105.
  • the voice input unit microphone array
  • FT Fourier Transform
  • time-frequency transform data capable of analyzing the amplitude of the frequency component in each time unit is generated.
  • the input sound signal 321 is a mixed signal including a user-spoken voice and an external device output sound.
  • step S402 the sound source direction estimation process is executed using the time-frequency conversion data.
  • the sound source direction of the microphone input sound is calculated by using the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • step S403 the filter coefficient, which is a parameter for performing beamforming (BF) processing and noise reduction (NR) processing, which are signal processing for selecting and emphasizing the sound in the estimated sound source direction, is calculated.
  • step S404 beamforming (BF) processing and noise reduction (NR) processing to which the calculated coefficient is applied are executed.
  • step S405 audio section detection processing is executed for the signal after beamforming (BF) and noise reduction (NR) processing.
  • BF signal after beamforming
  • NR noise reduction
  • This voice section detection process is, for example, a process using the existing VAD (Voice Activity Detection) technology, discriminates between sections containing voice and sections other than the voice section, and selects and extracts the voice section signal of only the voice section. It is a process to do.
  • VAD Voice Activity Detection
  • step S406 the external device output sound removal process is executed for the selected and extracted voice section signal.
  • This external device output sound removal process is executed by using the information registered in the external device output characteristic database 121.
  • the entry of the external device corresponding to the obtained sound source direction analyzed by the sound source direction analysis result in step S402 is selected. Further, the feature amount of the selected entry, for example, frequency characteristic information is acquired.
  • step S406 a process of subtracting a frequency signal matching the frequency characteristic of the entry selected from the external device output characteristic database 121 is executed from the audio signal included in the audio section signal.
  • the output voice of the external device included in the voice section signal selected in step S405 is removed, and as a result, only the user-spoken voice signal including the output sound of the external device is extracted.
  • step S406 the user-spoken voice signal is extracted by removing the external device output sound from the voice section signal.
  • step S407 frequency-time conversion processing for a signal composed only of the user-spoken audio signal, that is, inverse Fourier transform (inverse FT) is executed.
  • inverse FT inverse Fourier transform
  • the user-spoken voice extraction unit 112 executes signal processing on the input sound signal input by the voice input unit (mic array) 105 of the information processing device 100, and the user-spoken sound and the output sound of the external device are mixed.
  • the process of removing or reducing the output sound of the external device from the input sound to be output and extracting the output sound signal 331 consisting of only the user-spoken voice signal is executed.
  • the user utterance voice signal (output sound signal 331) extracted by the user utterance voice extraction unit 112 is input to the voice recognition unit 113 of the data processing unit 110 of the information processing device 100.
  • the voice recognition unit 113 inputs a clear user-spoken voice signal from which the output sound of the external device has been removed or reduced, and executes the user-spoken voice recognition process.
  • the ASR Automatic Speech Recognition
  • the voice recognition process may be executed on an external server, that is, the data processing server 161 described with reference to FIG.
  • the user utterance voice signal extracted by the user utterance voice extraction unit 112 is transmitted to the data processing server 161 and the voice recognition result is received from the data processing server 161.
  • the voice recognition processing result is output to the response processing unit 114.
  • the response processing unit 114 inputs the voice recognition processing result, refers to the response processing data DB 122, and generates a response (system utterance) to the user.
  • the response data generated by the response processing unit 114 is output via the voice output unit (speaker) 106 and the image output unit (display unit) 107.
  • step S401 the time-frequency conversion process is executed for the input sound signal 351 input by the voice input unit (microphone array) 105.
  • FT Fourier Transform
  • the input sound signal 351 does not include the user-spoken voice, but includes only the output voice of the external device.
  • step S402 the sound source direction estimation process is executed using the time-frequency conversion data.
  • the sound source direction of the microphone input sound is calculated by using the sound source arrival direction estimation (DOA: Direction of Arrival) technology.
  • DOA Direction of Arrival
  • step S403 the filter coefficient, which is a parameter for performing beamforming (BF) processing and noise reduction (NR) processing, which are signal processing for selecting and emphasizing the sound in the estimated sound source direction, is calculated.
  • step S404 beamforming (BF) processing and noise reduction (NR) processing to which the calculated coefficient is applied are executed.
  • step S405 audio section detection processing is executed for the signal after beamforming (BF) and noise reduction (NR) processing.
  • BF signal after beamforming
  • NR noise reduction
  • This voice section detection process is, for example, a process using the existing VAD (Voice Activity Detection) technology, discriminates between sections containing voice and sections other than the voice section, and selects and extracts the voice section signal of only the voice section. It is a process to do.
  • VAD Voice Activity Detection
  • step S406 the external device output sound removal process is executed for the selected and extracted voice section signal.
  • This external device output sound removal process is executed by using the information registered in the external device output characteristic database 121.
  • the entry of the external device corresponding to the obtained sound source direction analyzed by the sound source direction analysis result in step S402 is selected. Further, the feature amount of the selected entry, for example, frequency characteristic information is acquired.
  • step S406 a process of subtracting a frequency signal matching the frequency characteristic of the entry selected from the external device output characteristic database 121 is executed from the audio signal included in the audio section signal. By this subtraction process, the output voice of the external device included in the voice section signal selected in step S405 is removed.
  • the input sound signal 351 includes only the output sound of the external device and does not include the user-spoken voice signal. Therefore, in step S406, most of the voice signal is included by removing the output sound of the external device. No signal is generated.
  • step S407 frequency-time conversion processing for this signal, that is, inverse Fourier transform (inverse FT) is executed.
  • inverse FT inverse Fourier transform
  • the signal extracted by the user-spoken voice extraction unit 112 is input to the voice recognition unit 113 of the data processing unit 110 of the information processing device 100, but the voice recognition unit 113 performs voice recognition processing for an almost silent input signal. Do not execute. That is, in the information processing device 100 of the present disclosure, unnecessary voice recognition is not performed for voices other than those spoken by the user, and unnecessary data processing is not executed.
  • the CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in the ROM (Read Only Memory) 502 or the storage unit 508. For example, the process according to the sequence described in the above-described embodiment is executed.
  • the RAM (Random Access Memory) 503 stores programs and data executed by the CPU 501. These CPU 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to the input / output interface 505 via the bus 504, and the input / output interface 505 is connected to an input unit 506 consisting of various switches, a keyboard, a mouse, a microphone, a sensor, etc., and an output unit 507 consisting of a display, a speaker, and the like. Has been done.
  • the CPU 501 executes various processes in response to a command input from the input unit 506, and outputs the process results to, for example, the output unit 507.
  • the storage unit 508 connected to the input / output interface 505 is composed of, for example, a hard disk or the like, and stores a program executed by the CPU 501 and various data.
  • the communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and records or reads data.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • the technology disclosed in the present specification can have the following configuration. (1) It has a user-spoken voice extraction unit that extracts the user-spoken voice from the input sound via the voice input unit.
  • the user utterance voice extraction unit The sound source direction of the input sound is analyzed, Based on the sound source direction of the external device output sound recorded in the external device output sound characteristic database, it is determined whether or not the input sound includes the external device output sound, and if it is determined, the external device output is output.
  • An information processing device that executes a process of removing the external device output sound from the input sound by using the feature amount of the external device output sound recorded in the sound characteristic database.
  • the user-spoken voice extraction unit After analyzing the sound source direction of the input sound, The information processing apparatus according to (1) or (2), which executes beamforming processing, which is signal processing that selects and emphasizes the analyzed sound in the direction of the sound source.
  • beamforming processing which is signal processing that selects and emphasizes the analyzed sound in the direction of the sound source.
  • the user-spoken voice extraction unit Using the feature amount of the external device output sound recorded in the external device output sound characteristic database, the process of subtracting the external device output sound from the input sound is executed to extract the user-spoken voice (1) to (3). ) The information processing device described in either.
  • the user utterance voice extraction unit Any one of (1) to (4), which acquires the frequency characteristics of the external device output sound from the external device output sound characteristic database and subtracts the sound signal corresponding to the acquired frequency characteristics from the input sound.
  • the sound source direction of the external device output sound and the external device utterance text information which is a feature amount are recorded.
  • the user utterance voice extraction unit External device utterance text information is acquired from the external device output sound characteristic database, and when the acquired external device utterance text information matches the voice recognition result of the input sound, the input sound includes the external device output sound.
  • the information processing apparatus according to any one of (1) to (5).
  • the user-spoken voice extraction unit The voice section detection process of the input sound is executed,
  • the information processing apparatus according to any one of (1) to (6), which executes a removal process of external device output sound using the data to be processed as audio section data.
  • the external device output sound analysis unit that analyzes the characteristics of the output sound of the external device and records it in the database.
  • the external device output sound analysis unit Audio data with known frequency characteristics is output from an external device, the sound signal acquired by the microphone array is input, and the input sound signal is analyzed to determine the sound source direction of the external device and the frequency of the sound output from the external device.
  • An information processing device that analyzes characteristics.
  • the external device output sound analysis unit
  • the information processing device according to (8) which analyzes frequency characteristics including the influence of transmission characteristics in a room where the external device and the information processing device are placed.
  • the external device output sound analysis unit After analyzing the sound source direction of the input sound, The information processing apparatus according to any one of (8) to (10), which analyzes the frequency characteristics of the sound output from an external device by executing beamforming processing, which is a signal processing that selects and emphasizes the analyzed sound in the direction of the sound source. ..
  • the external device output sound analysis unit
  • the information processing apparatus according to any one of (8) to (11), which analyzes frequency characteristics for each acquired sound of each microphone constituting the microphone array.
  • the information processing device has a user-spoken voice extraction unit that extracts user-spoken voice from input sound via a voice input unit.
  • the user utterance voice extraction unit The sound source direction of the input sound is analyzed, Based on the sound source direction of the external device output sound recorded in the external device output sound characteristic database, it is determined whether or not the input sound includes the external device output sound, and if it is determined, the external device output is output.
  • An information processing method that executes a process of removing the external device output sound from the input sound by using the feature amount of the external device output sound recorded in the sound characteristic database.
  • the information processing device It has an external device output sound analysis unit that analyzes the characteristics of the output sound of the external device and records it in the database.
  • the external device output sound analysis unit Audio data with known frequency characteristics is output from an external device, the sound signal acquired by the microphone array is input, and the input sound signal is analyzed to determine the sound source direction of the external device and the frequency of the sound output from the external device.
  • An information processing method that analyzes characteristics.
  • a program that executes information processing in an information processing device has a user-spoken voice extraction unit that extracts user-spoken voice from input sound via a voice input unit.
  • the program is applied to the user-spoken voice extraction unit.
  • the sound source direction of the input sound is analyzed. Based on the sound source direction of the external device output sound recorded in the external device output sound characteristic database, it is determined whether or not the input sound includes the external device output sound, and if it is determined, the external device output is output.
  • a program that executes information processing in an information processing device The information processing device It has an external device output sound analysis unit that analyzes the characteristics of the output sound of the external device and records it in the database.
  • the program is sent to the external device output sound analysis unit. Audio data with known frequency characteristics is output from an external device, the sound signal acquired by the microphone array is input, and the input sound signal is analyzed to determine the sound source direction of the external device and the frequency of the sound output from the external device.
  • the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • executing processing by software install the program that records the processing sequence in the memory in the computer built in the dedicated hardware and execute it, or execute the program on a general-purpose computer that can execute various processing. It can be installed and run.
  • the program can be pre-recorded on a recording medium.
  • LAN Local Area Network
  • the various processes described in the specification are not only executed in chronological order according to the description, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes.
  • the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
  • the device and method are realized. Specifically, for example, it has a user-spoken voice extraction unit that extracts the user-spoken voice from the microphone input sound.
  • the user-spoken sound extraction unit analyzes the sound source direction of the input sound, determines whether or not the input sound includes the external device output sound based on the sound source direction of the external device output sound recorded in the database, and includes the sound source.
  • the characteristic amount of the external device output sound recorded in the database for example, the sound signal corresponding to the frequency characteristic is removed from the input sound, and the user-spoken sound from which the external device output sound is removed is extracted.
  • Information processing device 11 Microphone (array) 12 Display unit 13 Speaker 31 TV 32 Radio 33 Refrigerator 34 Rice cooker 100 Information processing device 101 Control unit 102 Storage unit 103 Communication unit 105 Voice input unit (microphone array) 106 Audio output section (speaker) 107 Image output unit (display unit) 110 Data processing unit 111 External device output sound analysis unit 112 User utterance voice extraction unit 113 Voice recognition unit 114 Response processing unit 121 External device output sound DB 122 Response processing data DB 150 External device 151 Control unit 152 Audio output unit 153 Communication unit 161 Data processing server 162 External device information providing server 501 CPU 502 ROM 503 RAM 504 Bus 505 Input / Output Interface 506 Input Unit 507 Output Unit 508 Storage Unit 509 Communication Unit 510 Drive 511 Removable Media

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法を実現する。マイク入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有する。ユーザ発話音声抽出部は、入力音の音源方向を解析し、データベースに記録された外部機器出力音の音源方向に基づいて、入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、データベースに記録された外部機器出力音の特徴量、例えば周波数特性に対応する音信号を入力音から除去して外部機器出力音を除去したユーザ発話音声を抽出する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。このような音声対話システムは、例えばスマートスピーカー、エージェント、あるいはエージェント機器等と呼ばれる。
 このような音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 音声対話システムの大きな課題として、システムのマイクを介して入力する音が、ユーザがシステムに話しかけた音声であるか、あるいはユーザ以外のテレビやラジオ、エアコン等の装置等から出力される音声やノイズであるかを区別するのが難しいという問題がある。
 ユーザがシステムに対して話しかけた音以外の音をシステムがユーザ発話であると認識して処理を行うと、誤った処理を行ってしまう可能性がある。このようなシステムの誤動作は、例えば「湧き出し」と呼ばれる。
 このような誤動作を防止する構成を開示した従来技術として特許文献1(特開2017-090789号公報)がある。
 この特許文献1には、発話者の音声を含む音響信号を音声認識して第1の音声認識結果を取得し、さらに、別の収音手段で取得した例えばテレビ放送等の音響信号等を含む音響信号を音声認識して第2の音声認識結果を取得し、この2つの音声認識結果から共通データを抽出して、この共通データを発話者の音声を含む第1の音声認識結果から取り除くことで、第1の音声認識結果に含まれる発話者の発話のみを抽出する手法を開示している。
 しかし、この特許文献1に開示された方式は、複数の音響信号に対して個別に音声認識処理を実行して、さらにその2つの音声認識結果の共通部分を解析して抽出し、最後に、第1の音声認識結果から共通部分を減算するという複雑な処理を行う必要があり、システム内の音声認識エンジン等のデータ処理部の処理負荷や処理時間の増大、すなわち処理コストが大きくなるという問題がある。
特開2017-090789号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザ発話とユーザ発話以外の雑音とを区別して、ユーザ発話のみに対する処理を行うことを可能とする情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の一実施例においては、ユーザ発話以外の雑音(ノイズ)として区別すべきテレビ等の機器から出力される音響の特徴量をデータベース(DB)に登録し、この登録情報を利用してシステムに対する入力音からノイズを除去して、明瞭なユーザ発話を取得することを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。
 本開示の第1の側面は、
 音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
 前記ユーザ発話音声抽出部は、
 前記入力音の音源方向を解析し、
 外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理装置にある。
 さらに、本開示の第2の側面は、
 外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
 前記外部機器出力音解析部は、
 既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理装置にある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
 前記ユーザ発話音声抽出部が、
 前記入力音の音源方向を解析し、
 外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、
 外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
 前記外部機器出力音解析部が、
 既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
 前記プログラムは、前記ユーザ発話音声抽出部に、
 前記入力音の音源方向を解析させ、
 外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行させるプログラムにある。
 さらに、本開示の第6の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、
 外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
 前記プログラムは、前記外部機器出力音解析部に、
 既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
 具体的には、例えば、マイク入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有する。ユーザ発話音声抽出部は、入力音の音源方向を解析し、データベースに記録された外部機器出力音の音源方向に基づいて、入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、データベースに記録された外部機器出力音の特徴量、例えば周波数特性に対応する音信号を入力音から除去して外部機器出力音を除去したユーザ発話音声を抽出する。
 本構成により、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に基づく応答や処理を行う音声対話システムの例について説明する図である。 情報処理装置の設置環境の例について説明する図である。 本開示の情報処理装置が生成、利用する外部機器出力音特性データベースの格納データの例について説明する図である。 外部機器の出力する音の情報処理装置に対する入力例について説明する図である。 外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源(再生音声ファイル)の具体例について説明する図である。 外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源(再生音声ファイル)の具体例について説明する図である。 情報処理装置のデータ処理部による外部機器出力音の周波数特性の解析結果の例を示すグラフである。 本開示の情報処理装置の具体的な構成例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.音声対話システムの概要と問題点について
 2.本開示の情報処理装置が生成、利用する外部機器出力音特性データベースについて
 3.本開示の情報処理装置の構成例について
 4.外部機器出力音解析部の実行する処理の詳細について
 5.外部機器出力音解析部がビームフォーミング処理を実行せずマイクアレイのマイク単位の入力音の周波数特性解析処理を行う実施例について
 6.ユーザ発話音声抽出部の実行する処理の詳細について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.音声対話システムの概要と問題点について]
 まず、図1以下を参照して、音声対話システムの概要と問題点について説明する。
 図1は、ユーザ1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、ユーザの発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー13を介して出力する。
 図1に示す例では、情報処理装置10は、以下のシステム応答を行っている。
 システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、マイク(アレイ)11、表示部12、スピーカー13を有しており、音声入出力と画像入出力が可能な構成を有する。
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 なお、ユーザ発話に対する音声認識処理や意味解析処理は、情報処理装置10内で行ってもよいし、クラウド側のサーバにおいて実行する構成としてもよい。
 マイク(アレイ)11は、音源方向を特定するため、異なる位置に配置した複数のマイクから構成されている。
 異なる位置に配置した複数のマイクが、特定方向にある音源からの音を取得すると、マイクアレイ11の各マイクに対する音源からの音の到達時間は少しずつ、ずれることになる。すなわち、各マイクは音源方向に応じて位相差を持った音信号を入力する。この位相差は、音源方向に応じて異なるものとなり、各マイクの取得した音声信号の位相差を解析することで、音源方向を求めることができる。
 情報処理装置10は、ユーザ1の発話を認識して、ユーザ発話に基づく応答を行う。
 なお、情報処理装置10は、ネットワークを介してサーバと接続され、サーバから、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、前述したように音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
 しかし、音声対話を行う情報処理装置10の実際の利用環境には様々なノイズが存在する。情報処理装置10の実際の利用環境の一例を図2に示す。
 図2に示すように、音声対話を行う情報処理装置10の周囲には、テレビ31、ラジオ32、冷蔵庫33、炊飯器34等の外部機器が存在している。これらの外部機器は、動作時に様々な音を出力する。
 例えば、テレビ31やラジオ32のスイッチがONであれば、様々な番組の音声が出力されることになる。これらのテレビ31やラジオ32の音声は、ユーザ発話に対するノイズ音になる。
 また、近年の冷蔵庫33、炊飯器34等にも音声出力機能を有しているものが多い。例えば冷蔵庫33からは、「ドアが開いています」といった音声出力がなされる。また、炊飯器34からは、「ごはんが炊き上がりました」といった音声出力がなされる。
 なお、図2に示す機器以外にも、エアコンや換気扇等の外部機器が動作している場合にも、定常的なノイズ音が発生する。
 情報処理装置10は、ユーザ発話に併せてこのような様々な外部機器から出力されるノイズもマイクを介して入力する。
 この結果、情報処理装置10は、ユーザ発話の音声認識処理を正しく実行することができず、ユーザ発話の意図と異なる処理を実行してしまうというエラー(湧き出し)を発生させる可能性が高まることになる。
 本開示の情報処理装置は、マイク入力音からノイズを除去または低減してクリアなユーザ発話音声を抽出して音声認識を行うことで、エラーの低減を実現するものである。
 なお、このような、湧き出しによるエラーを回避する対策としては、以下のような方法が考えられる。
 (1)音声らしい発話区間のみを選択する。例えばVAD(Voice Activity Detection)による音声区間検出を行い、音声とノイズを区別する。
 (2)ユーザが発話する場合、特定の「起動ワード」の発話を求める。
 (3)背景ノイズとユーザ発話の音圧の違いを検出する。
 (4)ノイズ源となる音源位置が固定された機器の出力するノイズ音を登録し、この登録ノイズデータを情報処理装置10の入力音から除去してユーザ発話を抽出する。
 例えば上記(1)~(4)のような複数の対策が考えられるが、上記(1)の対策は、ノイズ源がテレビやラジオ等、人の音声と同様の音を出力する機器の場合は、VADによる検出を実行しても、ユーザ発話との区別を行うことができないという問題がある。
 (2)の起動ワードは、ユーザに逐次、起動ワードを発声させることを強いることになり、ユーザ負担が大きくなるという問題がある。
 (3)の背景ノイズとユーザ発話の音圧の違いで区別する処理は、テレビやラジオなどのスピーカーがマイクに近い位置に設定されている場合や、ユーザとマイクが離れている場合などでは、明確な区別ができず、誤判定する可能性が高くなるという問題がある。
 (4)の登録ノイズデータを情報処理装置10の入力音から除去してユーザ発話を抽出する構成は、常時ノイズを発している機器、例えばエアコン等の機器に対しては、効果があると推定される。しかし、テレビやラジオ等の機器は一定のノイズを出力しないため、この処理による効果が得られにくい。
 本開示の情報処理装置は、これらの問題点を解決して、情報処理装置10のマイク入力音に含まれる様々な外部機器からの出力音であるノイズ(雑音)を除去、または低減してクリアなユーザ発話音声を抽出して音声認識を行うことで、エラーの低減を実現する。
  [2.本開示の情報処理装置が生成、利用する外部機器出力音特性データベースについて]
 次に、本開示の情報処理装置が生成し、ユーザ発話抽出のために利用する外部機器出力音特性データベースについて説明する。
 本開示の情報処理装置は、情報処理装置のマイク入力音にユーザ発話以外の様々な外部機器出力音が含まれる場合、マイク入力音からこれらの外部機器出力音を除去、または低減してクリアなユーザ発話音声を選択抽出して、ユーザ発話に対する応答処理を実行する。
 この処理を実現するため、本開示の情報処理装置は、予め外部機器の出力音の特性情報を記録したデータベース(DB)を生成する。このデータベースを「外部機器出力音特性データベース(DB)」と呼ぶ。
 図3に「外部機器出力音特性データベース(DB)」のデータ構成例を示す。
 図3に示すように、外部機器出力音特性DBは、テレビやラジオ等の様々な外部機器について、以下の各情報を対応付けて記録したデータベースである。
 (a)外部機器ID
 (b)機器種別
 (c)音源方向
 (d)特徴量
 なお、特徴量には、(d1)周波数特性、または(d2)発話テキストの少なくともいずれかの情報を記録する。
 (a)外部機器IDには、例えば、図2に示す情報処理装置10の置かれたリビングルームに置かれた外部機器の識別子を記録する。
 (b)機器種別には、外部機器の種類、例えば、TV、ラジオ等の機器種別を記録する。
 (c)音源方向と、(d)特徴量については、情報処理装置10が実行する外部機器出力音の特性測定処理によって取得された情報、あるいはユーザによる入力情報を記録する。
 (c)音源方向は、情報処理装置10の有するマイクアレイを構成する各マイクの取得音を解析することによって判別することができる。
 なお、前述したように、(d)特徴量には、(d1)周波数特性、または(d2)発話テキストの少なくともいずれかの情報を記録する。
 (d1)周波数特性は、例えば、外部機器出力音の周波数(Hz)と出力強度(dB)との対応情報である。
 外部機器出力音の周波数特性は、情報処理装置10が実行する外部機器出力音の特性測定処理によって取得することができる。この処理の詳細については後述する。
 (d2)発話テキストは、例えば、炊飯器のスピーカーから出力される「ごはんが炊き上がりました」等の発話テキストである。
 この発話テキスト情報は、ユーザ入力によって登録してもよいし、情報処理装置10の音声認識処理によって解析したテキスト情報を登録する構成としてもよい。
 なお、例えば図2に示すようなリビング環境では、テレビ等の外部機器の出力する音波は、外部機器から情報処理装置10に直接入力する直接波と壁等に反射して入力する反射波とが混在した音波となる。
 具体的には、図4に示すように、例えば外部機器であるテレビ31の出力する音波は、1つの直接波と複数の反射波として情報処理装置10に入力されることになる。
 情報処理装置10はマイクアレイ11を構成する各マイクによってこれらの複数の音波の混合信号を入力する。情報処理装置10のデータ処理部は、例えば、音源到来方向推定(DOA:Direction of Arrival)技術を利用して直接波成分の到来方向、すなわち外部機器の音源方向を推定して、この推定方向をデータベースに記録する。
 なお、具体的には、例えばマイクアレイ11を利用して既存のDS法やMUSIC法によって音源方向を判定することが可能である。
 さらに、推定した外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、音源方向の方からの音を選択取得して、その音の周波数特性を解析する。
 解析された外部機器出力音の周波数特性情報はデータベースに記録する。
 なお、これらの外部機器出力音の特性、すなわち音源方向や、周波数特性等の特徴量を計測する際には、予め用意された音源(再生音声ファイル)を利用し、この音源(再生音声ファイル)を、測定対象とするテレビ等の外部機器のスピーカーから出力させる。
 外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源(再生音声ファイル)の具体例を図5、図6に示す。
 図5は、可聴領域の全周波数帯の音を均等に含むホワイトノイズである。
 図5には、ホワイトノイズの
 (1a)波形データ
 (1b)スペクトログラム
 (1c)周波数特性平均データ
 これらの各データを示している。
 このようなホワイトノイズを、外部機器のスピーカーから出力させて情報処理装置10のマイクアレイ11で取得して外部機器出力音の特性、すなわち音源方向や、周波数特性等の特徴量を計測する。
 なお、外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源(再生音声ファイル)は、このようなホワイトノイズに限らず、図6に示すように時間推移に伴い周波数特性が変動する音源としてもよい。
 ただし、情報処理装置10のデータ処理部は、利用する音源(再生音声ファイル)の特性情報を保持し、この音源(再生音声ファイル)の特性と、マイクアレイ11からの入力音の特性を比較して、外部機器出力音の音源方向や周波数特性等の特徴量を解析する。
 図7は、情報処理装置10のデータ処理部による外部機器出力音の周波数特性の解析結果の例を示すグラフである。
 横軸が周波数(Hz)、縦軸が強度(dB)である。
 グラフには、2つの線を示している。実線が、音源(再生音声ファイル)として、図5を参照して説明したホワイトノイズを利用した場合の周波数特性計測結果である。
 点線が、音源(再生音声ファイル)として、図6を参照して説明した音源、すなわち時間推移に伴い周波数特性が変動する音源を利用した場合の周波数特性計測結果である。
 いずれの音源を利用した場合もほぼ同様の解析結果が得られている。
 なお、一般的に例えば部屋やコンサートホール等の音響特徴量を計測する場合、インパルス応答を計測する場合が多い。
 インパルス応答計測手法として、下記の2つの手法が知られている。
 (1)TSP(Time Streched Pulse)を利用した処理
 (2)M系列信号(Mixmum Length Sequence)を利用した処理
 ただし、本開示の構成では、情報処理装置10のマイクアレイ11の周波数特性は既知であり、さらに、予め既知の周波数特性を有する音源(再生音声ファイル)を外部機器のスピーカーから出力する構成であり、情報処理装置10のデータ処理部は、これらの既知の情報を用いることで、各外部機器の出力音の特性を解析している。すなわち、上記のようなインパルス応答の計測を行うことなく各外部機器の出力音の特性を計測している。
 マイクの特性が既知であり、音源(再生音声ファイル)の特性も既知であれば、厳密な室内のインパルス応答を知らなくても、各外部機器の出力音の特性、すなわち音源方向や周波数特性等を解析することができる。
 本開示の情報処理装置10は、推定した外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、音源方向の方からの音を選択取得して、その音の周波数特性を解析する。
 この解析処理によって取得する外部機器の周波数特性は、例えば各周波数(Hz)対応の強度特性(dB)情報等であり、以下の式で示される外部機器周波数特性である。
 外部機器周波数特性=(マイクアレイ11の取得する観測信号の周波数特性)-(音源(再生音声ファイル)の周波数特性)
 ここで解析される外部機器周波数特性は、外部機器と情報処理装置10の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
 解析された外部機器出力音の周波数特性情報はデータベースに記録する。
  [3.本開示の情報処理装置の構成例について]
 次に、図8を参照して、本開示の情報処理装置の具体的な構成例について説明する。
 図8は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置100の一構成例を示す図である。この図8に示す情報処理装置100は、先に説明した図1他に示す情報処理装置10に対応する。
 図8に示すように、情報処理装置100は、制御部101、記憶部102、通信部103、音声入力部(マイクアレイ)105、音声出力部(スピーカー)106、画像出力部(表示部)107、データ処理部110、外部機器出力音DB121、応答処理用データDB122を有する。
 なお、データ処理部110は、外部機器出力音解析部111、ユーザ発話音声抽出部112、音声認識部113、応答処理部114を有する。
 なお、図8には、1つの外部機器150も示している。外部機器150は、例えば先に図2を参照して説明したテレビ31、ラジオ32、冷蔵庫33等の外部機器である。外部機器150は、制御部151、音声出力部152、通信部153を有する。
 なお、外部機器は図に示す1つ以外にも複数の外部機器が存在する。
 情報処理装置100の通信部103は、この外部機器150やその他の外部機器との通信を実行し、さらに外部サーバ、例えば図に示すデータ処理サーバ161や、外部機器情報提供サーバ162との通信を実行する。
 データ処理サーバ161は、例えば音声認識処理を実行する。先に説明したように、音声認識処理は、情報処理装置100内で実行してもよいが、外部サーバにおいて実行してもよい。情報処理装置100内で音声認識処理を実行しない場合、図に示す情報処理装置100のデータ処理部110内の音声認識処理部113は省略してもよい。この場合、情報処理装置100は通信部103を介してデータ処理サーバ161に音声認識処理を依頼し、データ処理サーバ161における音声認識結果を受信して、応答処理部114に入力してユーザ1に対する応答を行う。
 外部機器情報提供サーバ162は、外部機器の出力音に関する情報を提供するサーバである。
 例えば炊飯器が出力する音声テキスト情報、具体的には、
 「ごはんが炊き上がりました」
 このような外部機器の音声出力音声テキスト情報等を情報処理装置100に提供する。
 情報処理装置100の制御部101は、この情報を外部機器出力音特性DB121に登録する。すなわち、先に図3を参照して説明した外部機器出力音特性DB121の(d)特徴量の(d2)発話テキスト情報として登録する。
 なお、前述したように、外部機器の発話テキストのデータベース登録処理は、ユーザが実行してもよいし、情報処理装置100のデータ処理部110の音声認識部113における音声認識結果を利用して実行してもよい。
 情報処理装置100の各構成要素の実行する処理について説明する。
 制御部101は、情報処理装置100内で実行する様々な処理の統括的制御を実行する。例えば外部機器の出力音特性の解析処理や、ユーザ発話の解析処理、応答生成処理等、情報処理装置100内で実行する様々な処理の統括的制御を実行する。
 これらの処理は、例えば記憶部102に格納されたプログラムに従って実行することができる。
 制御部101はプログラム実行機能を有するCPU等のプロセッサを有している。
 記憶部102は、制御部101の実行するプログラムの他、様々な処理に適用するパラメータ等を格納している。例えば先に図5や図6を参照して説明した外部機器出力音の特性解析に利用するための音源(再生音声ファイル)も格納している。さらに、音声入力部(マイク)105を介して入力される音声情報の記録領域としても利用される。
 通信部103は、外部機器150や外部サーバとの通信を実行する。
 外部機器150は、例えば、テレビ(TV)やラジオ等であり、様々な外部機器出力音(ノイズ)を発生するノイズ発生装置である。
 外部機器150は、制御部151、音声出力部152、通信部153を有する。外部機器150の出力音の解析処理を実行する場合は、情報処理装置100は、通信部103を介して、先に図5や図6を参照して説明した音源(再生音声ファイル)を送信して、外部機器150の音声出力部152を介して出力させる。
 この出力音は、情報処理装置100の音声入力部(マイクアレイ)105に入力される。
 音声入力部(マイクアレイ)105に入力されたた取得音信号は、データ処理部110の外部機器出力音解析部111に入力される。
 外部機器出力音解析部111は、外部機器の出力音の解析を実行し、外部機器の音源方向、特徴量としての周波数特性等を解析する。さらに、この解析結果を、外部機器出力音特性データベース121に記録する。
 すなわち、先に図3を参照して説明した外部機器出力音特性データベース121に記録するためのデータの生成と記録処理を行う、
 なお、外部機器出力音解析部111の実行する処理の詳細については、後段で説明する。
 ユーザが発話を実行した場合も、その発話音声は、情報処理装置100の音声入力部(マイクアレイ)105に入力される。
 音声入力部(マイクアレイ)105に入力されたた取得音信号は、データ処理部110のユーザ発話音声抽出部112に入力される。
 ユーザ発話音声抽出部112は、音声入力部(マイクアレイ)105に入力される取得音から、外部機器の出力音を除去または低減する処理を実行して、入力音からユーザ発話音声を抽出する。
 このユーザ発話音声抽出部112におけるユーザ発話音声抽出処理に際して、外部機器出力音特性データベース121の登録情報が利用される。
 なお、このユーザ発話音声抽出部112の実行する処理の詳細については後段で説明する。
 ユーザ発話音声抽出部112によって抽出されたユーザ発話音声信号は、音声認識付保113に入力される。
 音声認識部113は、外部機器の出力音が除去または低減されたクリアなユーザ発話音声信号を入力して、ユーザ発話の音声認識処理を実行する。具体的には、例えば、ASR(Automatic Speech Recognition)機能により、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。例えば、NLU(Natural Language Understanding)等の自然言語理解機能により、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 応答処理部114は、音声認識部113から音声認識結果を取得し、応答処理用データDB122を参照して、ユーザ1に対する応答(システム発話)を生成する。
 応答処理部114の生成した応答データは、音声出力部(スピーカー)106や、画像出力部(表示部)107を介して出力される。
  [4.外部機器出力音解析部の実行する処理の詳細について]
 次に、情報処理装置100のデータ処理部110内の外部機器出力音解析部111の実行する処理の詳細について説明する。
 前述したように、外部機器出力音解析部111は、外部機器の出力音の解析を実行し、外部機器の音源方向、特徴量としての周波数特性等を解析する。さらに、この解析結果を、外部機器出力音特性データベース121に記録する。
 すなわち、先に図3を参照して説明した外部機器出力音特性データベース121に記録するためのデータの生成と記録処理を行う、
 図9に示すフローチャートを参照して外部機器出力音解析部111の実行する処理のシーケンスについて説明する。
 なお、図9以下に示すフローに従った処理は、例えば、情報処理装置の記憶部に格納されたプログラムに従って、プログラム実行機能を持つCPU等の制御の下に実行可能な処理である。
 図9に示すフローの各ステップの処理について、順次、説明する。
  (ステップS101)
 まず、情報処理装置100は、ステップS101において、出力音特性の解析対象機器を選択する。
 例えば図2に示すリビング環境における複数の外部機器、すなわちテレビ31、ラジオ32、冷蔵庫33、炊飯器34等の外部機器から1つの出力音特性の解析対象機器を選択する。
  (ステップS102)
 次に、情報処理装置100は、ステップS101で選択した外部機器から、規定の予め用意された音源(再生音声ファイル)に従った音を出力させる。
 具体的には、例えば先に図5、図6を参照して説明した音源(再生音声ファイル)に従った音を、選択した外部機器のスピーカーを介して出力させる。
 情報処理装置100は、通信部103を介して、解析対象として選択した外部機器に音源(再生音声ファイル)データを送信し、送信した音源(再生音声ファイル)に従った音を、選択した外部機器のスピーカーを介して出力させる。
  (ステップS103)
 次のステップS103以下の処理は、情報処理装置100のデータ処理部110の外部機器出力音解析部111が実行する処理である。
 ステップS102において、外部機器から出力された音信号は、情報処理装置100の音声入力部(マイクアレイ)105に入力され、その入力音が外部機器出力音解析部111に入力される。
 外部機器出力音解析部111は、まず、ステップS103において音源方向の解析処理を実行する。
 外部機器出力音解析部111は、例えば、音源到来方向推定(DOA:Direction of Arrival)技術を利用して外部機器から出力される音の音源方向を解析する。具体的には、音声入力部(マイクアレイ)105を構成する各マイクの入力信号の位相差解析などを適用したDS法やMUSIC法によって音源方向を解析する。
  (ステップS104)
 外部機器出力音解析部111は、ステップS104において音源方向の解析処理に成功したか否かを判定し、成功していない場合はステップS111に進み、出力音調整を実行し、再度、ステップS102以下の処理を繰り返す。
 ステップS104において音源方向の解析処理に成功したと判定した場合はステップS105に進む。
  (ステップS105)
 ステップS104において音源方向の解析処理に成功したと判定した場合は、外部機器出力音解析部111は、ステップS105において選択機器の出力音の音源方向データをデータベースに登録する。すなわち外部機器出力音特性データベース121に記録する。
  (ステップS106)
 次に、外部機器出力音解析部111は、ステップS106において、外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行する。
  (ステップS107)
 次に、外部機器出力音解析部111は、ステップS107において、外部機器出力音の周波数特性を解析する。
 この解析処理によって取得する周波数特性データは、例えば各周波数(Hz)対応の強度(dB)情報等であり、例えば、以下の式で示される外部機器周波数特性である。
 外部機器周波数特性=(音声入力部(マイクアレイ)105の取得する観測信号の周波数特性)-(音源(再生音声ファイル)の周波数特性)
 ここで解析される外部機器周波数特性は、外部機器と情報処理装置100の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
  (ステップS108)
 次に、外部機器出力音解析部111は、ステップS108において、ステップS107で解析した外部機器出力音の周波数特性をデータベースに登録する。
 すなわち外部機器出力音特性データベース121に記録する。
  (ステップS109)
 最後に、外部機器出力音解析部111は、ステップS109において、全ての解析対象外部機器の解析処理が完了したか否かを判定する。未処理の外部機器がある場合は、ステップS101に戻り、未処理機器について、ステップS101以下の処理を実行する。
 ステップS109において、全ての解析対象外部機器の解析処理が完了したと判定した場合は処理を終了する。
 これらの処理によって、先に図3を参照して説明した外部機器出力音特性データベース121に対する外部機器音声特性情報の登録処理が完了する。
 なお、図3に示す外部機器出力音特性データベース121の登録データ中、(d2)発話テキストについては、外部機器情報提供サーバ162から取得する情報を入力すればよい。また、ユーザ入力によって登録してもよいし、情報処理装置100の音声認識部113による音声認識結果を登録してもよい。
 上述したように、外部機器の出力音特性情報、すなわち、外部機器の音源方向、特徴量としての周波数特性等は、情報処理装置100のデータ処理部110内の外部機器出力音解析部111において、図9に示すフローに従って実行され、外部機器出力音特性データベース121に記録される。
 次に、図10を参照して図9に示すフローに従って実行される外部機器の出力する音信号に対する信号処理の具体例について説明する
 図10は、情報処理装置100の音声入力部(マイクアレイ)105が入力する入力音信号に対する信号処理を説明する図である。
 これらの信号処理は、外部機器出力音解析部111が実行する。
 まず、ステップS181において、音声入力部(マイクアレイ)105が入力する入力音信号171に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換(FT:Fourier Transform)により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。
 次に、ステップS182において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定(DOA:Direction of Arrival)技術を利用して直接波成分の到来方向、すなわち外部機器の音源方向を算出する。
 次に、ステップS183において、推定した外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング(BF)処理を行うためのパラメータであるビームフォーミング(BF)係数を算出して、ステップS184において、算出した係数を適用したビームフォーミング(BF)処理を実行する。
 次に、音源方向からの入力音に対してステップS185以下の処理を実行する。
 ステップS185では、処理シーケンスに応じて順次取得される周波数特性データを特定周波数ごとに加算する処理を実行し、さらに、ステップS186において、その加算結果の平均化処理を実行する。
 これらの処理によって、音声信号に含まれるノイズ除去、低減が実行される。
 ステップS187では、最終的に外部機器出力音特性DB121に記録するための外部機器周波数特性データを算出する。具体的には、再生音源周波数特性172を取得して、以下の式に従ってデータベースに登録する外部機器周波数特性を算出する。
 外部機器周波数特性=(マイクアレイ11の取得する観測信号の周波数特性)-(音源(再生音声ファイル)の周波数特性)
 なお、音源(再生音声ファイル)の周波数特性が平坦でない場合は、必要に応じて音源の周波数特性に対する補正処理を行う。
 上記式に従って算出される外部機器周波数特性は、外部機器と情報処理装置100の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
 解析された外部機器出力音の周波数特性情報を外部機器出力音特性DB121に記録する。
  [5.外部機器出力音解析部がビームフォーミング処理を実行せずマイクアレイのマイク単位の入力音の周波数特性解析処理を行う実施例について]
 次に、情報処理装置100のデータ処理部110内の外部機器出力音解析部111の実行する処理の別の処理例として、ビームフォーミング処理を実行せずマイクアレイのマイク単位の入力音の周波数特性解析処理を行う実施例について説明する。
 図11に示すフローチャートを参照して本実施例に従って外部機器出力音解析部111が実行する処理のシーケンスについて説明する。
  (ステップS201~S205,S211)
 ステップS201~S205、およびステップS211の処理は、先に図9を参照して説明したフローのステップS101~S105,S111の処理と同様の処理である。
 すなわち、ステップS201において、出力音特性の解析対象機器を選択する。
 ステップS202において、ステップS201で選択した外部機器から、規定の予め用意された音源(再生音声ファイル)に従った音を出力させる。
 具体的には、例えば先に図5、図6を参照して説明した音源(再生音声ファイル)に従った音を、選択した外部機器のスピーカーを介して出力させる。
 次に、ステップS203において、音源方向の解析処理を実行する。
 外部機器出力音解析部111は、例えば、音源到来方向推定(DOA:Direction of Arrival)技術を利用して外部機器から出力される音の音源方向を解析する。
 ステップS204において音源方向の解析処理に成功したか否かを判定し、成功していない場合はステップS211に進み、出力音調整を実行し、再度、ステップS202以下の処理を繰り返す。
 ステップS204において音源方向の解析処理に成功したと判定した場合はステップS205に進む。
 ステップS204において音源方向の解析処理に成功したと判定した場合は、外部機器出力音解析部111は、ステップS205において選択機器の出力音の音源方向データをデータベースに登録する。すなわち外部機器出力音特性データベース121に記録する。
 このように、本実施例においても、外部機器の出力音の音源方向の解析処理とデータベース記録処理については、先に図9を参照して説明したフローのステップS101~S105,S111の処理と同様の処理として実行される。
 ステップS206以下の処理が、本実施例固有の処理となる。以下、ステップS206以下の処理について説明する。
  (ステップS206)
 情報処理装置100の外部機器出力音解析部111は、ステップS206において、音声入力部(マイクアレイ)105のマイクアレイを構成する各マイクの入力音単位で、周波数特性を解析する。
 この解析処理によって取得する周波数特性データは、音声入力部(マイクアレイ)105のマイクアレイを構成する各マイク単位の入力音の周波数特性である。
 例えばマイクアレイを構成するマイクの数がn個である場合、
 マイク数nに応じたn個の周波数特性データを生成する。
 すなわち、以下の第1マイク~第nマイク対応のn個の周波数特性を取得する。
 第1マイクの入力音に対応する外部機器出力音の周波数特性である第1マイク対応周波数特性
 第2マイクの入力音に対応する外部機器出力音の周波数特性である第2マイク対応周波数特性
  ・・・
 第nマイクの入力音に対応する外部機器出力音の周波数特性である第nマイク対応周波数特性
 このように、外部機器出力音解析部111は、ステップS206において第1マイク~第nマイク対応のn個の周波数特性を取得する。
 これらのn個の外部機器出力音周波数特性は、いずれも例えば各周波数(Hz)対応の強度(dB)情報等であり、例えば、第xマイクの外部機器周波数特性は以下の式によって算出される外部機器周波数特性となる。なお、xは1~nのいずれかの値である。
 第xマイク対応外部機器周波数特性=(第xマイクの取得する観測信号の周波数特性)-(音源(再生音声ファイル)の周波数特性)
 ここで解析される外部機器周波数特性は、外部機器と情報処理装置100の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
  (ステップS207)
 次に、外部機器出力音解析部111は、ステップS207において、ステップS206で解析したn個のマイク対応のn個の外部機器出力音の周波数特性をデータベースに登録する。
 すなわち外部機器出力音特性データベース121に記録する。
  (ステップS208)
 最後に、外部機器出力音解析部111は、ステップS208において、全ての解析対象外部機器の解析処理が完了したか否かを判定する。未処理の外部機器がある場合は、ステップS201に戻り、未処理機器について、ステップS201以下の処理を実行する。
 ステップS208において、全ての解析対象外部機器の解析処理が完了したと判定した場合は処理を終了する。
 これらの処理によって、先に図3を参照して説明した外部機器出力音特性データベース121に対する外部機器音声特性情報の登録処理が完了する。
 ただし、本実施例では、図3の外部機器出力音特性データベース121の(d1)周波数特性には、情報処理装置100の音声入力部(マイクアレイ)105を構成するn個のマイクに対応するn個の周波数特性情報が記録される。
 次に、図12を参照して図11に示すフローに従って実行される外部機器の出力する音信号に対する信号処理の具体例について説明する
 図12は、情報処理装置100の音声入力部(マイクアレイ)105が入力する入力音信号に対する信号処理を説明する図である。
 これらの信号処理は、外部機器出力音解析部111が実行する。
 まず、ステップS281において、音声入力部(マイクアレイ)105が入力する入力音信号271に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換(FT:Fourier Transform)により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。
 次に、ステップS282において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定(DOA:Direction of Arrival)技術を利用して直接波成分の到来方向、すなわち外部機器の音源方向を算出する。
 次に、ステップS283において、処理シーケンスに応じて順次取得される周波数特性データを特定周波数ごとに加算する処理を実行し、さらに、ステップS284において、その加算結果の平均化処理を実行する。
 これらの処理によって、音声信号に含まれるノイズ除去、低減が実行される。
 ステップS285では、最終的に外部機器出力音特性DB121に記録するための第1マイク~第nマイク対応のn個の周波数特性を算出する。具体的には、再生音源周波数特性272を取得して、外部機器出力音特性DB121に記録するデータを算出する。
 例えば、第xマイクの外部機器周波数特性は以下の式によって算出される外部機器周波数特性となる。ただしx=1~nである。
 第xマイク対応外部機器周波数特性=(第xマイクの取得する観測信号の周波数特性)-(音源(再生音声ファイル)の周波数特性)
 なお、音源(再生音声ファイル)の周波数特性が平坦でない場合は、必要に応じて音源の周波数特性に対する補正処理を行う。
 上記式に従って算出される外部機器周波数特性は、外部機器と情報処理装置100の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
 解析された外部機器出力音の周波数特性情報を外部機器出力音特性DB121に記録する。
 これらの処理によって、先に図3を参照して説明した外部機器出力音特性データベース121に対する外部機器音声特性情報の登録処理が完了する。
 ただし、本実施例では、図3の外部機器出力音特性データベース121の(d1)周波数特性には、情報処理装置100の音声入力部(マイクアレイ)105を構成するn個のマイクに対応するn個の周波数特性情報が記録される。
 本実施例の処理では、ビームフォーミング処理を省略した処理が可能となる。
  [6.ユーザ発話音声抽出部の実行する処理の詳細について]
 次に、図8に示す情報処理装置100のデータ処理部110のユーザ発話音声抽出部112の実行する処理の詳細について説明する。
 前述したように、ユーザ発話音声抽出部112は、音声入力部(マイクアレイ)105に入力される取得音から、外部機器の出力音を除去または低減する処理を実行して、入力音からユーザ発話音声を抽出する。
 このユーザ発話音声抽出部112におけるユーザ発話音声抽出処理に際して、外部機器出力音特性データベース121の登録情報が利用される。
 図13と図14に示すフローチャートを参照してユーザ発話音声抽出部112の実行する処理のシーケンスについて説明する。
 図13~図14に示すフローの各ステップの処理について、順次、説明する。
  (ステップS301)
 まず、情報処理装置100のデータ処理部110のユーザ発話音声抽出部112は、ステップS301において、音声入力部(マイクアレイ)105から音信号を入力する。
  (ステップS302)
 次に、ユーザ発話音声抽出部112は、ステップS302において、入力音の音源方向を解析する。例えば、音源到来方向推定(DOA:Direction of Arrival)技術を利用してマイク入力音の音源方向を算出する。
  (ステップS303)
 次に、ユーザ発話音声抽出部112は、ステップS303において、ステップS302で解析した音源方向を検索キーとして、外部機器出力音特性DB121を検索する。
  (ステップS304)
 次に、ユーザ発話音声抽出部112は、ステップS304において、外部機器出力音特性DB121に、ステップS302で解析した音源方向と一致または類似する音源方向を記録した登録外部機器が検出されたか否かを判定する。
 検出されなかった場合は、ステップS321に進む。
 一方、検出された場合はステップS305に進む。
  (ステップS305)
 ステップS304において、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器が検出された場合、ユーザ発話音声抽出部112は、ステップS305において、DBから検出した登録外部機器の特徴量として周波数特性情報が記録されているか否かを判定する。
 登録されていない場合は、ステップS311に進む。
 登録されている場合は、ステップS306に進む。
 なお、ステップS302で解析した音源方向と一致または類似する音源方向を記録した登録外部機器で、かつ周波数特性を記録した外部機器がDBから複数、検出された場合は、以下のステップS306~S307の処理をDBから検出された外部機器ごとに繰り返し実行する。
  (ステップS306)
 ステップS305において、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器のDB登録データとして周波数特性情報が記録されていると判定した場合、ユーザ発話音声抽出部112は、ステップS306において、DBからその登録外部機器の周波数特性情報を取得する。
  (ステップS307)
 次に、ユーザ発話音声抽出部112は、ステップS307において、DBから取得した登録外部機器の周波数特性に相当する音信号を、音声入力部(マイクアレイ)105からの入力音から減算する処理を実行する。
 この処理の後、ステップS311に進む。
  (ステップS311)
 ステップS305の判定がNo、すなわち、DBから検出した登録外部機器の特徴量として周波数特性情報が記録されていない場合、および、ステップS307の処理完了後、すなわち、録外部機器の周波数特性に相当する音信号を、音声入力部(マイクアレイ)105からの入力音から減算する処理を実行後、ステップS311の処理を実行する。
 ユーザ発話音声抽出部112は、ステップS311において、入力音と音源方向が一致すると判定されたDB登録外部機器の特徴量として発話テキストが記録されているか否かを判定する。
 記録されていない場合は、ステップS321に進む。
 一方、発話テキストが記録されている場合は、ステップS312に進む。
  (ステップS312)
 ステップS311において、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器のDB登録データとして発話テキストが記録されていると判定した場合、ユーザ発話音声抽出部112は、ステップS312において、DBからその登録外部機器に対応して記録された発話テキストを取得する。
  (ステップS313)
 次に、ユーザ発話音声抽出部112は、ステップS313において、入力音信号に対する音声認識処理を音声認識部113において実行させ、その音声認識結果を入力する。
  (ステップS314)
 次に、ユーザ発話音声抽出部112は、ステップS314において、入力音信号に対する音声認識結果と、DBの登録外部機器に対応して記録された発話テキストを比較し、一致するか否かを判定する。
 一致した場合は、入力音が外部機器による発話であると判定し、その後の応答処理を実行することなく、処理を終了する。
 一方、一致しない場合はユーザ発話であると判定し、ステップS322に進み、応答処理を実行する。
  (ステップS321)
 ステップS304の判定がNo、すなわち、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器が検出されなかった場合、または、ステップS311の判定がNo、すなわち、入力音と音源方向が一致すると判定されたDB登録外部機器の特徴量として発話テキストが記録されていない場合、これらの場合は、ステップS321~S322の処理を実行する。
 これらの場合は、入力音に、ユーザ発話のみが含まれると判定した場合の処理であ
 この場合、ステップS321において、入力信号の音声認識処理を実行する。
 この処理は、音声認識部113において実行される。あるいは外部のデータ処理サーバ161において実行してもよい。
  (ステップS322)
 ステップS321の処理後、または、ステップS314の判定がNoの場合、すなわち、入力音信号に対する音声認識結果と、DBの登録外部機器に対応して記録された発話テキストが一致しないと判定された場合はステップS322の処理を実行する。
 情報処理装置100は、ステップS322において、音声認識結果に基づく応答処理を実行する。
 この処理は、情報処理装置100のデータ処理部110の応答処理部114が実行する。
 この処理は、ユーザ発話に対する応答処理として実行される処理となる。
 次に、図15と、図16を参照してユーザ発話音声抽出部112の実行する処理の具体例について説明する。
 図15は、音声入力部(マイクアレイ)105の入力音に、ユーザ発話音声と外部機器の出力音が混在する場合の処理例である。
 図16は、音声入力部(マイクアレイ)105の入力音に、ユーザ発話音声が含まれず、外部機器の出力音のみが含まれる場合の処理例である。
 まず、図15を参照して、音声入力部(マイクアレイ)105の入力音に、ユーザ発話音声と外部機器の出力音が混在する場合の処理例について説明する。
 図15は、情報処理装置100の音声入力部(マイクアレイ)105が入力する入力音信号に対する信号処理を説明する図である。
 これらの信号処理は、ユーザ発話音声抽出部112が実行する。
 まず、ステップS401において、音声入力部(マイクアレイ)105が入力する入力音信号321に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換(FT:Fourier Transform)により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。
 なお、本処理例において、入力音信号321には、ユーザ発話音声と外部機器出力音が含まれた混在信号である。
 次に、ステップS402において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定(DOA:Direction of Arrival)技術を利用してマイク入力音の音源方向を算出する。
 次に、ステップS403において、推定した音源方向の音を選択して強調する信号処理であるビームフォーミング(BF)処理とノイズ低減(NR)処理を行うためのパラメータであるフィルタ係数を算出して、ステップS404において、算出した係数を適用したビームフォーミング(BF)処理とノイズ低減(NR)処理を実行する。
 次に、ステップS405において、ビームフォーミング(BF)とノイズ低減(NR)処理後の信号に対する音声区間検出処理を実行する。
 この音声区間検出処理は、例えば既存のVAD(Voice Actovity Detection)技術を利用した処理であり、音声が含まれる区間と、それ以外の区間を判別して、音声区間のみの音声区間信号を選択抽出する処理である。
 次に、選択抽出された音声区間信号に対して、ステップS406において、外部機器出力音の除去処理を実行する。
 この外部機器出力音除去処理は、外部機器出力特性データベース121に登録された情報を利用して実行する。
 まず、外部機器出力特性データベース121に登録された複数の外部機器対応情報から、ステップS402における音源方向解析結果によって解析された得音源方向に該当する外部機器のエントリを選択する。
 さらに、その選択エントリの特徴量、例えば周波数特性情報を取得する。
 ステップS406では、音声区間信号に含まれる音声信号から、この外部機器出力特性データベース121から選択したエントリの周波数特性に一致する周波数信号を減算する処理を実行する。
 この減算処理によって、ステップS405で選択された音声区間信号内に含まれる外部機器の出力音声が取り除かれ、結果として外部機器の出力音が含まれないユーザ発話音声信号のみが抽出される。
 このように、ステップS406では、音声区間信号から外部機器出力音を除去してユーザ発話音声信号が抽出される。
 次のステップS407では、ユーザ発話音声信号のみによって構成される信号に対する周波数時間変換処理、すなわち逆フーリエ変換(逆FT)を実行する。この処理によってユーザ発話対応の音声信号からなる出力音信号331が生成される。
 このように、ユーザ発話音声抽出部112は、情報処理装置100の音声入力部(マイクアレイ)105が入力する入力音信号に対する信号処理を実行して、ユーザ発話音声と外部機器の出力音が混在する入力音から、外部機器出力音を除去または低減してユーザ発話音声信号のみからなる出力音信号331を抽出する処理を実行する。
 ユーザ発話音声抽出部112が抽出したユーザ発話音声信号(出力音信号331)は、情報処理装置100のデータ処理部110の音声認識部113に入力される。
 音声認識部113は、外部機器の出力音が除去または低減されたクリアなユーザ発話音声信号を入力して、ユーザ発話の音声認識処理を実行する。具体的には、例えば、ASR(Automatic Speech Recognition)機能により、音声データを複数の単語から構成されるテキストデータに変換する。
 なお、前述したように音声認識処理は外部サーバ、すなわち図8を参照して説明したデータ処理サーバ161において実行させてもよい。
 この場合は、ユーザ発話音声抽出部112が抽出したユーザ発話音声信号をデータ処理サーバ161に送信し、音声認識結果をデータ処理サーバ161から受信する。
 音声認識処理結果は、応答処理部114に出力される。応答処理部114は、音声認識処理結果を入力して、応答処理用データDB122を参照して、ユーザに対する応答(システム発話)を生成する。
 応答処理部114の生成した応答データは、音声出力部(スピーカー)106や、画像出力部(表示部)107を介して出力される。
 次に、図16を参照して、音声入力部(マイクアレイ)105の入力音に、ユーザ発話音声が含まれず、外部機器の出力音のみが含まれる場合の処理例について説明する。
 図16に示す信号処理も、ユーザ発話音声抽出部112が実行する。
 まず、ステップS401において、音声入力部(マイクアレイ)105が入力する入力音信号351に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換(FT:Fourier Transform)により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。
 なお、本処理例において、入力音信号351には、ユーザ発話音声は含まれず、外部機器の出力音声のみが含まれる。
 次に、ステップS402において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定(DOA:Direction of Arrival)技術を利用してマイク入力音の音源方向を算出する。
 次に、ステップS403において、推定した音源方向の音を選択して強調する信号処理であるビームフォーミング(BF)処理とノイズ低減(NR)処理を行うためのパラメータであるフィルタ係数を算出して、ステップS404において、算出した係数を適用したビームフォーミング(BF)処理とノイズ低減(NR)処理を実行する。
 次に、ステップS405において、ビームフォーミング(BF)とノイズ低減(NR)処理後の信号に対する音声区間検出処理を実行する。
 この音声区間検出処理は、例えば既存のVAD(Voice Actovity Detection)技術を利用した処理であり、音声が含まれる区間と、それ以外の区間を判別して、音声区間のみの音声区間信号を選択抽出する処理である。
 次に、選択抽出された音声区間信号に対して、ステップS406において、外部機器出力音の除去処理を実行する。
 この外部機器出力音除去処理は、外部機器出力特性データベース121に登録された情報を利用して実行する。
 まず、外部機器出力特性データベース121に登録された複数の外部機器対応情報から、ステップS402における音源方向解析結果によって解析された得音源方向に該当する外部機器のエントリを選択する。
 さらに、その選択エントリの特徴量、例えば周波数特性情報を取得する。
 ステップS406では、音声区間信号に含まれる音声信号から、この外部機器出力特性データベース121から選択したエントリの周波数特性に一致する周波数信号を減算する処理を実行する。
 この減算処理によって、ステップS405で選択された音声区間信号内に含まれる外部機器の出力音声が取り除かれる。
 本実施例では、入力音信号351には、外部機器の出力音のみが含まれ、ユーザ発話音声信号は含まれていないため、ステップS406では外部機器出力音の除去により、音声信号がほとんど含まれない信号が生成される。
 次のステップS407では、この信号に対する周波数時間変換処理、すなわち逆フーリエ変換(逆FT)を実行する。このの処理によって生成される出力音信号361は、ほぼ無音の信号となる。
 ユーザ発話音声抽出部112が抽出した信号は、情報処理装置100のデータ処理部110の音声認識部113に入力されるが、音声認識部113は、ほぼ無音の入力信号に対して音声認識処理は実行しない。
 すなわち、本開示の情報処理装置100では、ユーザ発話以外の音声に対して無駄な音声認識を行うことがなくなり、余計なデータ処理が実行されない。
  [7.情報処理装置のハードウェア構成例について]
 次に、図17を参照して、情報処理装置のハードウェア構成例について説明する。
 図17を参照して説明するハードウェアは、先に図8を参照して説明した情報処理装置のハードウェア構成例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
 前記ユーザ発話音声抽出部は、
 前記入力音の音源方向を解析し、
 外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理装置。
 (2) 前記ユーザ発話音声抽出部は、
 前記外部機器出力音特性データベースに記録された外部機器出力音の音源方向が、前記入力音の音源方向と一致または類似する場合、前記入力音に外部機器出力音が含まれると判定する(1)に記載の情報処理装置。
 (3) 前記ユーザ発話音声抽出部は、
 前記入力音の音源方向を解析後に、
 解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記ユーザ発話音声抽出部は、
 外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を減算する処理を実行してユーザ発話音声を抽出する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である周波数特性が記録され、
 前記ユーザ発話音声抽出部は、
 前記外部機器出力音特性データベースから、外部機器出力音の周波数特性を取得して、取得した周波数特性に対応する音信号を前記入力音から減算する処理を実行する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である外部機器発話テキスト情報が記録され、
 前記ユーザ発話音声抽出部は、
 前記外部機器出力音特性データベースから、外部機器発話テキスト情報を取得して、取得した外部機器発話テキスト情報が、前記入力音の音声認識結果と一致する場合に、入力音に外部機器出力音が含まれると判定する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記ユーザ発話音声抽出部は、
 前記入力音の音声区間検出処理を実行し、
 処理対象データを音声区間データとして、外部機器出力音の除去処理を実行する(1)~(6)いずれかに記載の情報処理装置。
 (8) 外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
 前記外部機器出力音解析部は、
 既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理装置。
 (9) 前記外部機器出力音解析部は、
 前記外部機器と情報処理装置の置かれた室内の伝達特性の影響を含む周波数特性を解析する(8)に記載の情報処理装置。
 (10) 前記外部機器出力音解析部の取得する前記外部機器の周波数特性は、
 外部機器の周波数特性=(マイクアレイの取得する観測信号の周波数特性)-(再生音声データの周波数特性)
 上記式に従った周波数特性である(8)または(9)に記載の情報処理装置。
 (11) 前記外部機器出力音解析部は、
 前記入力音の音源方向を解析後に、
 解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、外部機器出力音の周波数特性を解析する(8)~(10)いずれかに記載の情報処理装置。
 (12) 前記外部機器出力音解析部は、
 前記マイクアレイを構成する各マイクの取得音単位で周波数特性を解析する(8)~(11)いずれかに記載の情報処理装置。
 (13) 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
 前記ユーザ発話音声抽出部が、
 前記入力音の音源方向を解析し、
 外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理方法。
 (14) 情報処理装置において実行する情報処理方法であり、
 前記情報処理装置は、
 外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
 前記外部機器出力音解析部が、
 既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理方法。
 (15) 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
 前記プログラムは、前記ユーザ発話音声抽出部に、
 前記入力音の音源方向を解析させ、
 外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行させるプログラム。
 (16) 情報処理装置において情報処理を実行させるプログラムであり、
 前記情報処理装置は、
 外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
 前記プログラムは、前記外部機器出力音解析部に、
 既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
 具体的には、例えば、マイク入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有する。ユーザ発話音声抽出部は、入力音の音源方向を解析し、データベースに記録された外部機器出力音の音源方向に基づいて、入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、データベースに記録された外部機器出力音の特徴量、例えば周波数特性に対応する音信号を入力音から除去して外部機器出力音を除去したユーザ発話音声を抽出する。
 本構成により、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
  10 情報処理装置
  11 マイク(アレイ)
  12 表示部
  13 スピーカー
  31 テレビ
  32 ラジオ
  33 冷蔵庫
  34 炊飯器
 100 情報処理装置
 101 制御部
 102 記憶部
 103 通信部
 105 音声入力部(マイクアレイ)
 106 音声出力部(スピーカー)
 107 画像出力部(表示部)
 110 データ処理部
 111 外部機器出力音解析部
 112 ユーザ発話音声抽出部
 113 音声認識部
 114 応答処理部
 121 外部機器出力音DB
 122 応答処理用データDB
 150 外部機器
 151 制御部
 152 音声出力部
 153 通信部
 161 データ処理サーバ
 162 外部機器情報提供サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (16)

  1.  音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
     前記ユーザ発話音声抽出部は、
     前記入力音の音源方向を解析し、
     外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理装置。
  2.  前記ユーザ発話音声抽出部は、
     前記外部機器出力音特性データベースに記録された外部機器出力音の音源方向が、前記入力音の音源方向と一致または類似する場合、前記入力音に外部機器出力音が含まれると判定する請求項1に記載の情報処理装置。
  3.  前記ユーザ発話音声抽出部は、
     前記入力音の音源方向を解析後に、
     解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行する請求項1に記載の情報処理装置。
  4.  前記ユーザ発話音声抽出部は、
     外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を減算する処理を実行してユーザ発話音声を抽出する請求項1に記載の情報処理装置。
  5.  前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である周波数特性が記録され、
     前記ユーザ発話音声抽出部は、
     前記外部機器出力音特性データベースから、外部機器出力音の周波数特性を取得して、取得した周波数特性に対応する音信号を前記入力音から減算する処理を実行する請求項1に記載の情報処理装置。
  6.  前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である外部機器発話テキスト情報が記録され、
     前記ユーザ発話音声抽出部は、
     前記外部機器出力音特性データベースから、外部機器発話テキスト情報を取得して、取得した外部機器発話テキスト情報が、前記入力音の音声認識結果と一致する場合に、入力音に外部機器出力音が含まれると判定する請求項1に記載の情報処理装置。
  7.  前記ユーザ発話音声抽出部は、
     前記入力音の音声区間検出処理を実行し、
     処理対象データを音声区間データとして、外部機器出力音の除去処理を実行する請求項1に記載の情報処理装置。
  8.  外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
     前記外部機器出力音解析部は、
     既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理装置。
  9.  前記外部機器出力音解析部は、
     前記外部機器と情報処理装置の置かれた室内の伝達特性の影響を含む周波数特性を解析する請求項8に記載の情報処理装置。
  10.  前記外部機器出力音解析部の取得する前記外部機器の周波数特性は、
     外部機器の周波数特性=(マイクアレイの取得する観測信号の周波数特性)-(再生音声データの周波数特性)
     上記式に従った周波数特性である請求項8に記載の情報処理装置。
  11.  前記外部機器出力音解析部は、
     前記入力音の音源方向を解析後に、
     解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、外部機器出力音の周波数特性を解析する請求項8に記載の情報処理装置。
  12.  前記外部機器出力音解析部は、
     前記マイクアレイを構成する各マイクの取得音単位で周波数特性を解析する請求項8に記載の情報処理装置。
  13.  情報処理装置において実行する情報処理方法であり、
     前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
     前記ユーザ発話音声抽出部が、
     前記入力音の音源方向を解析し、
     外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理方法。
  14.  情報処理装置において実行する情報処理方法であり、
     前記情報処理装置は、
     外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
     前記外部機器出力音解析部が、
     既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理方法。
  15.  情報処理装置において情報処理を実行させるプログラムであり、
     前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
     前記プログラムは、前記ユーザ発話音声抽出部に、
     前記入力音の音源方向を解析させ、
     外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行させるプログラム。
  16.  情報処理装置において情報処理を実行させるプログラムであり、
     前記情報処理装置は、
     外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
     前記プログラムは、前記外部機器出力音解析部に、
     既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析させるプログラム。
PCT/JP2020/013473 2019-05-14 2020-03-25 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2020230460A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/609,314 US20220223167A1 (en) 2019-05-14 2020-03-25 Information processing device, information processing system, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019091131 2019-05-14
JP2019-091131 2019-05-14

Publications (1)

Publication Number Publication Date
WO2020230460A1 true WO2020230460A1 (ja) 2020-11-19

Family

ID=73289438

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/013473 WO2020230460A1 (ja) 2019-05-14 2020-03-25 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20220223167A1 (ja)
WO (1) WO2020230460A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP2011071655A (ja) * 2009-09-24 2011-04-07 Oki Electric Industry Co Ltd 集音装置、音響通信システム及びプログラム
JP2012216998A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 信号処理装置及び信号処理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
US9900688B2 (en) * 2014-06-26 2018-02-20 Intel Corporation Beamforming audio with wearable device microphones
US9794710B1 (en) * 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10241748B2 (en) * 2016-12-13 2019-03-26 EVA Automation, Inc. Schedule-based coordination of audio sources
AU2017402614B2 (en) * 2017-03-10 2022-03-31 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
EP3499915B1 (en) * 2017-12-13 2023-06-21 Oticon A/s A hearing device and a binaural hearing system comprising a binaural noise reduction system
US10943599B2 (en) * 2018-10-26 2021-03-09 Spotify Ab Audio cancellation for voice recognition
US10728662B2 (en) * 2018-11-29 2020-07-28 Nokia Technologies Oy Audio mixing for distributed audio sensors
US10832695B2 (en) * 2019-02-14 2020-11-10 Microsoft Technology Licensing, Llc Mobile audio beamforming using sensor fusion
US11100909B2 (en) * 2019-05-06 2021-08-24 Apple Inc. Devices, methods, and graphical user interfaces for adaptively providing audio outputs
US11178504B2 (en) * 2019-05-17 2021-11-16 Sonos, Inc. Wireless multi-channel headphone systems and methods
US20200374269A1 (en) * 2019-05-22 2020-11-26 Synaptics Incorporated Secure audio systems and methods
US11437004B2 (en) * 2019-06-20 2022-09-06 Bose Corporation Audio performance with far field microphone

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP2011071655A (ja) * 2009-09-24 2011-04-07 Oki Electric Industry Co Ltd 集音装置、音響通信システム及びプログラム
JP2012216998A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 信号処理装置及び信号処理方法

Also Published As

Publication number Publication date
US20220223167A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
US11138977B1 (en) Determining device groups
JP6169910B2 (ja) 音声処理装置
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
JP6889698B2 (ja) 音声を増幅する方法及び装置
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
CA2382175C (en) Noisy acoustic signal enhancement
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
US20200051580A1 (en) Method and apparatus for sound processing
JP2002140089A (ja) 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置
JP2020115206A (ja) システム及び方法
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
CN113810825A (zh) 在存在强噪声干扰的情况下的鲁棒的扬声器定位***和方法
US20080120100A1 (en) Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
Flores et al. Cepstral distance based channel selection for distant speech recognition
WO2020230460A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN116884405A (zh) 语音指令识别方法、设备及可读存储介质
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
KR101863098B1 (ko) 음성 인식 장치 및 방법
JP2007093635A (ja) 既知雑音除去装置
Giannakopoulos et al. A practical, real-time speech-driven home automation front-end

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20805328

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20805328

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP