WO2019230065A1 - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
WO2019230065A1
WO2019230065A1 PCT/JP2019/005109 JP2019005109W WO2019230065A1 WO 2019230065 A1 WO2019230065 A1 WO 2019230065A1 JP 2019005109 W JP2019005109 W JP 2019005109W WO 2019230065 A1 WO2019230065 A1 WO 2019230065A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
failure
information processing
processing apparatus
Prior art date
Application number
PCT/JP2019/005109
Other languages
English (en)
French (fr)
Inventor
俊允 上坂
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/058,092 priority Critical patent/US20210201929A1/en
Priority to EP19810077.8A priority patent/EP3806090A4/en
Publication of WO2019230065A1 publication Critical patent/WO2019230065A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • the present technology relates to a technical field regarding an information processing device, an information processing method, and a program for determining success or failure of voice recognition and generating advice information corresponding to the determination.
  • Patent Document 1 describes that the cause of speech recognition failure is notified by determining the speech mode such as speech volume and speech speed and estimating noise.
  • Patent Document 2 describes that the main cause of speech recognition failure is determined by paying attention to speech volume, SNR (Signal-Noise Ratio), speech segment length, beginning and end cutting, and the like.
  • an imaging device of the present technology aims to generate and present advice information indicating an action that a user should take in order to succeed in recognizing a voice again.
  • An information processing apparatus includes a speech recognition success / failure determination unit that determines success / failure of speech recognition for a user's speech input, and a normal state for presenting the user when the speech recognition is determined successful in the determination
  • a normal response generation unit that generates response information
  • an advice information generation unit that generates advice information to be presented to the user when it is determined in the determination that the voice recognition has failed due to the user's surrounding environment; It is equipped with.
  • advice information to be presented for succeeding the next voice recognition is generated. This makes it possible to present advice information that allows the user to take appropriate actions.
  • the normal response information is selected, and a result indicating that the speech recognition is failed is acquired.
  • a response control unit that selects the advice information may be provided. That is, response information (either normal response information or advice information) is selected according to the success or failure of voice recognition.
  • the information processing apparatus may include a response information presentation unit that presents information selected by the response control unit to the user. That is, response information corresponding to the success or failure of voice recognition is presented to the user.
  • a cause determination process for determining the cause of the failure may be performed.
  • the cause of failure in speech recognition of the user's speech input is identified.
  • the cause determination process in the information processing apparatus described above it may be determined whether the failure is due to an utterance mode or noise. Thereby, it is determined whether the cause of the speech recognition failure is due to an utterance mode that can be estimated to be resolvable by retry or due to noise.
  • the cause determination process in the information processing apparatus when it is determined that the failure is due to noise, it may be further determined whether the noise is temporary noise or non-temporary noise.
  • the cause of speech recognition failure is noise, it is possible to appropriately determine which advice information for requesting speech input again or other advice information is presented by determining the noise characteristics. .
  • a classifier may be used in the cause determination process in the information processing apparatus. By using the classifier, it is possible to automatically estimate the cause of speech recognition failure.
  • the classifier may be generated by machine learning.
  • Machine learning is used as a specific processing method for generating a classifier.
  • map data may be used for determining the cause of failure.
  • the information such as noise obtained by the analysis of the audio data but also the cause of the noise is estimated using the map data and used for the determination of the cause of failure.
  • the advice information generation unit in the information processing apparatus may generate advice information including information for presenting a place to retry speech input. Thereby, information for making the next speech recognition successful is presented to the user.
  • the location where the retry is performed may be an alternative location different from the current location.
  • an appropriate movement candidate location for succeeding the next speech recognition is presented to the user as an alternative location.
  • the location where the retry is performed may be a current location.
  • advice information for suggesting an appropriate action to be taken by the user for succeeding the next speech recognition is generated.
  • the location where the retry is performed may be an alternative location different from the current location.
  • advice information for succeeding the next speech recognition is generated, and advice information is generated so that the user does not have to take inappropriate actions such as voice input in the speech restriction area.
  • the location where the retry is performed may be determined using map data.
  • map data By using map data in determining an appropriate place (substitute place) for performing voice input again, the proximity of the alternative place, the magnitude of noise, and the like are taken into consideration.
  • the location where the retry is performed may be determined using performance information of other users.
  • advice information is generated in consideration of the geographical situation (peripheral environment) where voice input is actually likely to succeed by using other user performance information. Is done.
  • the information processing apparatus may include a microphone that acquires a user's voice.
  • a voice recognition success / failure determination unit, a normal response generation unit, and an advice information generation unit are provided in a user terminal equipped with a microphone, the user's voice is acquired, the success / failure of the voice recognition is determined, and the normal response information accordingly
  • the user terminal can execute the process of generating any of the advice information.
  • An information processing method includes a speech recognition success / failure determination procedure for determining success / failure of speech recognition for a user's speech input, and a normal state for presenting to the user when it is determined that the speech recognition is successful in the determination
  • a normal response generation procedure for generating response information
  • an advice information generation procedure for generating advice information to be presented to the user when it is determined in the determination that the voice recognition has failed due to the surrounding environment of the user.
  • advice information indicating an action to be taken by the user in order to succeed in recognizing the voice again can be presented to the user.
  • a program according to the present technology is a program that causes an information processing apparatus to execute the procedure of the above method.
  • System configuration> A configuration of the entire system including an information processing apparatus that performs processing such as generation and presentation of advice information to a user will be described with reference to FIG.
  • the information processing system 1 When the user's voice recognition fails, the information processing system 1 presents advice information for making the next voice recognition successful.
  • Various aspects of the information processing system 1 can be considered. Here, an example will be described.
  • the information processing system 1 includes a server device 2 as a specific example of the information processing device according to the claims, a user terminal 3 carried by the user, and a communication network 4.
  • the information processing system 1 includes a sound acquisition unit 1a, a feature amount extraction unit 1b, a speech recognition engine unit 1c, a speech recognition success / failure determination unit 1d, an advice information generation unit 1e, a normal response generation unit 1f, a response A control unit 1g and a response information presentation unit 1h are provided.
  • These units may be realized by the information processing system 1 as a whole. Therefore, part of the server device 2 may be provided, and the other part may be provided by the user terminal 3 or all of the user terminal 3 may be provided. In addition, one unit may be realized by both the server device 2 and the user terminal 3.
  • the sound acquisition unit 1a acquires sound information such as voices uttered by the user and surrounding environmental sounds (including noise). For example, it is realized by one or a plurality of microphones.
  • the sound acquisition unit 1a is a function provided in the user terminal 3.
  • the feature quantity extraction unit 1b performs processing for converting the acquired sound information into voice feature quantities (feature quantities of audio signals).
  • the sound feature amount may be, for example, a volume, a sound arrival direction, a Fourier coefficient, a mel frequency cepstrum value, or a sound signal itself.
  • the speech recognition engine unit 1c performs processing for converting speech feature values into command information.
  • the command information may be text information in a natural language, or may be a finite number of commands and parameters prepared in advance. That is, the command information converted here is, for example, user instruction (command) information grasped as a result of analyzing voice input by the user. Specifically, it is information for specifying an instruction such as “tell me a nearby restaurant”.
  • the voice recognition success / failure determination unit 1d receives the voice feature amount extracted by the feature amount extraction unit 1b as input, and determines whether or not the command information generated by the voice recognition engine unit 1c is intended by the user. Do.
  • the success / failure determination may be performed by obtaining command information from the speech recognition engine unit 1c.
  • the advice information generation unit 1e generates advice information to be presented to the user in order to succeed in the next speech recognition, using the voice feature amount output from the feature amount extraction unit 1b and the user position information.
  • the normal response generation unit 1f receives the command information output from the speech recognition engine unit 1c as input, and generates normal response information for performing a normal response corresponding to the command information. For example, restaurant information corresponding to the current location of the user is generated as normal response information to be presented to the user in response to the command information “find a nearby restaurant”. Such information may be acquired from, for example, a DB (Database) included in the information processing system 1 or a DB included in an external system. In order to perform such processing, the normal response generation unit 1 f may acquire the current location information of the user from the user terminal 3.
  • DB Database
  • the response control unit 1g acquires the recognition success / failure information from the speech recognition success / failure determination unit 1d, and instructs the normal response generation unit 1f and the advice information generation unit 1e to generate response information.
  • the response information is information presented to the user as a response to the user's voice input, such as normal response information or advice information.
  • the response control unit 1g may instruct response information to either the normal response generation unit 1f or the advice information generation unit 1e based on the recognition success / failure information, or the normal response generation unit 1f and the advice information generation unit Response information may be instructed to both 1e.
  • the response information presentation unit 1h performs a process of presenting response information generated by the normal response generation unit 1f and the advice information generation unit 1e.
  • the response information presentation unit 1h may be included in the server device 2 or the user terminal 3.
  • the response information presenting unit 1h of the server device 2 may execute a process for causing the user terminal 3 to present the response information, or the server device is configured by the presentation process of the response information presenting unit 1h of the user terminal 3.
  • Response information received from 2 may be presented.
  • FIG. 3 shows the sound acquisition unit 1a, feature extraction unit 1b, speech recognition engine unit 1c, speech recognition success / failure determination unit 1d, advice information generation unit 1e, normal response generation unit 1f, response control unit 1g, and response information presentation. It is the figure which illustrated which of the server apparatus 2 and the user terminal 3 is provided about each part of the part 1h.
  • the server device 2 includes a feature amount extraction unit 1b, a speech recognition engine unit 1c, a speech recognition success / failure determination unit 1d, an advice information generation unit 1e, a normal response generation unit 1f, a response control unit 1g, and a communication unit 2m.
  • the communication unit 2m communicates with an external device such as the user terminal 3.
  • a process for transmitting the response information instructed to be generated by the response control unit 1g to the user terminal 3 is performed.
  • the process which receives the sound information and the present location information which are the information transmitted from the user terminal 3 is performed.
  • the user terminal 3 includes a sound acquisition unit 1a, a response information presentation unit 1h, a current location information acquisition unit 3n, and a communication unit 3m.
  • a mobile phone or a wearable terminal can be considered.
  • the wearable terminal includes a wristwatch, glasses, a headphone, a headphone, and the like.
  • the current location information acquisition unit 3n performs a process of acquiring position information by, for example, GPS (Global Positioning System).
  • GPS Global Positioning System
  • the position information is not limited to GPS, and the position information may be acquired by receiving a signal transmitted by a beacon transmitter. The position information may be acquired periodically or may be acquired as necessary.
  • the communication unit 3m communicates with an information processing apparatus other than the user terminal 3. Specifically, processing for transmitting sound information, current location information, and the like to the server device 2 is performed. In addition, processing for receiving response information and the like to be presented to the user from the server device 2 is performed.
  • the advice information generation unit 1e will be described in detail with reference to FIG.
  • the advice information generation unit 1 e includes a position information acquisition unit 5, a map database access unit 6, a recurrent speech validity determination unit 7, and a generation unit 8.
  • the location information acquisition unit 5 performs processing for acquiring current location information from the user terminal 3.
  • the acquired current location information is passed to the map database access unit 6.
  • the map database access unit 6 receives the current location information of the user terminal 3 and acquires information for various processes from the map database 50.
  • the map database 50 stores map data in which position information is associated with other information.
  • the recurrent speech validity determination unit 7 receives the information of the voice feature amount from the feature amount extraction unit 1b, and performs a process of determining whether or not the recurrent speech on the spot is valid. In the recurrent speech validity determination process, it is determined whether or not the current location is a place suitable for recurrent speech. Information used for this processing is map data. As map data, information related to environmental noise such as noise type and noise level distribution is stored.
  • information stored as map data information as to whether or not there is a noise source such as an expressway in the vicinity of the location is used in the recurrence effectiveness determination process.
  • the noise source may be timed. For example, if there is a building under construction in the vicinity from ** month * day to * month * day, the position information of the building under construction may be stored as a noise source only during that period.
  • map data information in which facility location information is associated with a label indicating the purpose of use is also an example of map data. For example, it is possible to obtain from the map data whether or not the current location of the user who performs voice input is included in the speech restriction area. That is, information on places where utterances in loud voices are not desirable, such as in hospitals, is stored in the map database 50. In the recurrent speech effectiveness determination process, the effectiveness of recurrent speech is determined using such map data.
  • the map data may be information such as the level difference of the ground surface and undulations (mountains and basins).
  • the recurrence speech validity determination process may be performed based on such information.
  • Map data is also used in other processes. For example, map data may be used when searching for a place to retry when recognition of voice input by the user fails. Also, map data may be used to identify the cause of voice recognition failure. Specific examples of these will be described later.
  • generation part 8 performs the process which receives the determination result of recurrence speech validity determination, and produces
  • the recurrent speech validity determination unit 7 also performs processing for identifying the cause of voice recognition failure.
  • the configuration of various information processing apparatuses 150 (including the server apparatus 2 and the user terminal 3) included in the information processing system 1 will be described.
  • the information processing apparatus is realized with a hardware configuration as shown in FIG. 5, for example.
  • the information processing apparatus 150 includes a CPU (Central Processing Unit) 151, a ROM (Read Only Memory) 152, and a RAM (Random Access Memory) 153.
  • the CPU 151 executes various processes according to a program stored in the ROM 152 or a program loaded from the storage unit 159 to the RAM 153.
  • the RAM 153 also appropriately stores data necessary for the CPU 151 to execute various processes.
  • the CPU 151, ROM 152, and RAM 153 are connected to each other via a bus 154.
  • An input / output interface 155 is also connected to the bus 154.
  • the input / output interface 155 includes a display unit 156 including a liquid crystal panel or an organic EL (Electroluminescence) panel, an input unit 157 including a keyboard and a mouse, a speaker 158, a storage unit 159 including an HDD (Hard Disk Drive), A communication unit 160 or the like can be connected.
  • a display unit 156 including a liquid crystal panel or an organic EL (Electroluminescence) panel
  • an input unit 157 including a keyboard and a mouse
  • a speaker 158 including a storage unit 159 including an HDD (Hard Disk Drive)
  • HDD Hard Disk Drive
  • the display 156 may be integrated with the information processing apparatus 150 or may be a separate device.
  • the input unit 157 means an input device used by a user who uses the information processing apparatus 150. Specifically, it is a touch panel or a microphone in the user terminal 3.
  • the communication unit 160 performs communication processing via a network including the Internet and communication with peripheral devices.
  • An example of the communication unit 160 is the communication unit 2m of the server device 2 or the communication unit 3m of the user terminal 3.
  • a drive 161 is connected to the input / output interface 155 as necessary, a memory card 162 is mounted, and a computer program read from the memory card 162 is installed in the storage unit 159 as necessary, or the CPU 151 The data processed in the above is stored in the memory card 162.
  • the drive 161 may be a recording / reproducing drive for a removable storage medium such as a magnetic disk, an optical disk, or a magneto-optical disk.
  • the information processing apparatus 150 of the embodiment can be performed.
  • the user terminal 3 performs processing for acquiring sound information, processing for presenting response information, and the like.
  • the server device 2 can perform processing for determining success or failure of voice recognition, processing for generating advice information, and the like.
  • the information processing apparatus 150 is not limited to a single information processing apparatus 150 having a hardware configuration as illustrated in FIG. 5, and may be configured by systemizing a plurality of information processing apparatuses.
  • the plurality of information processing apparatuses may be systemized by a LAN or the like, or may be arranged at a remote place by a VPN (Virtual Private Network) using the Internet or the like.
  • the plurality of information processing devices may include an information processing device that can be used by a cloud computing service.
  • the information processing apparatus 150 can be realized as a stationary or notebook personal computer, or a portable terminal such as a tablet terminal or a smartphone.
  • Various electronic devices such as an image editing device, a recording / playback device, and a television receiver can function as the information processing device 150 by including the configuration shown in FIG.
  • a state in which a voice uttered by the user or a surrounding environmental sound is input by the sound acquisition unit 1a such as a microphone (sound input state) It is said that.
  • the user may be configured to transition to the sound input state by activating an application installed in the user terminal 3, or may be always in the sound input state while the user terminal 3 is activated. It may be configured.
  • step S101 the information processing system 1 performs feature amount extraction processing.
  • This process is a process in which sound information input via the sound acquisition unit 1a is converted into a sound feature amount and acquired. Examples of the sound feature amount include a volume, a sound spectrogram, a mel frequency cepstrum, and a sound signal waveform itself.
  • step S102 the information processing system 1 determines whether or not the user's speech section has been detected.
  • the case where the utterance section can be detected is, for example, a case where both the detection of the start point and the detection of the end point at which the user started utterance for giving some instruction by voice can be achieved.
  • the end point can be detected, for example, by detecting a period when there is no voice input for a predetermined time.
  • the process returns to step S101.
  • step S103 the information processing system 1 performs voice recognition processing in step S103.
  • This process is a process for grasping the user's utterance content (command information) based on the voice feature amount. That is, it is a process of converting the voice feature amount into command information.
  • step S104 the information processing system 1 determines whether speech recognition is successful. This process is a process for determining whether or not the grasp of the utterance content performed in the previous step S103 has succeeded.
  • DNN Deep Neural Network
  • receives the speech spectrogram of the speech section and the average energy of speech As this DNN, what has been learned in advance as training data on a speech utterance whose speech recognition is known to be successful or unsuccessful is used. If the speech recognition likelihood output by the DNN is equal to or greater than the threshold parameter, it is determined that the speech recognition is successful, and if it is smaller than the threshold parameter, it is determined that the speech recognition fails.
  • step S105 the information processing system 1 performs a branch process based on the success or failure of the speech recognition. If it is determined that the voice recognition is successful, the information processing system 1 makes a normal response in step S106.
  • this process is a process for performing an appropriate output according to the command information. Specifically, it is processing that acquires information to be presented to the user from a database, generates (processes) information to present as needed, and presents it to the user. For example, in response to the command information “find a nearby restaurant”, the restaurant information corresponding to the user's current position is acquired from the database storing the restaurant information, and the information is generated according to the mode presented to the user. To the user terminal 3. The user terminal 3 outputs the received presentation information in a mode suitable for the user (a voice output or a mode displayed on the screen).
  • the information processing system 1 performs an advice information generation process in step S107.
  • the information processing system 1 that has generated the advice information performs an advice response for presenting the advice information to the user in step S108. Thereby, the advice information according to the voice recognition failure mode is presented to the user.
  • step S109 the information processing system 1 determines whether or not there is a voice input stop instruction from the user. For example, when an instruction to stop is given, such as when an application installed in the user terminal 3 is terminated for voice recognition, the series of processes shown in FIG. 6 is ended. If there is no stop instruction, the process returns to step S101 to prepare for the next voice input.
  • the advice information generation process is, for example, a process executed by the information processing system 1 using the function of the advice information generation unit 1e. Specifically, this will be described with reference to FIG.
  • the information processing system 1 executes a process for identifying the cause of failure. For example, this can be realized by preparing a candidate for speech recognition failure cause in advance and using a classifier that classifies to which candidate the speech feature value converted from the sound information input by the current speech input corresponds. It is.
  • Candidate 1 Candidate with high utterance speed 2: Candidate with high microphone signal gain 3: Candidate with high crowd noise 4: High noise on nearby road
  • Candidates 1 and 2 are based on utterance modes.
  • Candidates 3 and 4 are due to non-temporary noise at the user's current location.
  • Non-temporary noise is permanent noise measured at the place, or a period longer than the utterance period such as several minutes or hours (for example, the utterance period is longer than 5 seconds but longer than 5 seconds). ) Noise that is continuously measured.
  • the number of voice recognition failure cause candidates is N.
  • the voice spectrogram extracted in the feature quantity extraction process is input to the DNN that has been learned in advance by the teacher data.
  • the speech spectrogram input here may be an input for the length of the detected utterance section, or an input of a fixed-length partial section cut out from the utterance section.
  • DNN applies several stages of conversion to the input information and outputs the likelihood of each candidate for speech recognition failure as an N-dimensional vector.
  • the cause of failure in the utterance is determined from the likelihood of each candidate.
  • the candidate with the highest likelihood is the cause of speech recognition failure.
  • the data input to DNN is a speech spectrogram corresponding to the length of the detected speech segment
  • it is determined that the candidate with the highest likelihood is the cause of speech recognition failure.
  • the data input to DNN is a fixed-length speech spectrogram of a partial section cut out from the detected speech section
  • the cause of the speech recognition failure is determined by integrating the plurality of outputs.
  • a speech spectrogram corresponding to the length of the utterance section is extracted from the sound signal as a speech feature amount, and six fixed-length speech spectrograms are extracted from the speech spectrogram and input to the DNN.
  • Each speech spectrogram input to the DNN outputs a three-dimensional vector for each candidate (candidate a, b, c) of the cause of failure in speech recognition.
  • a three-dimensional vector having 0.1, 0.3, and 0.6 as elements is output from the first fixed-length speech spectrogram.
  • 0.1 is a numerical value indicating the likelihood (likelihood) that the cause of speech recognition failure is candidate a.
  • 0.3 is a numerical value indicating the high possibility (likelihood) that the cause of speech recognition failure is candidate b.
  • 0.6 is a numerical value indicating the likelihood (likelihood) that the cause of voice recognition failure is the candidate c. Accordingly, FIG. 8 shows that the DNN determines that the cause of the speech recognition failure is likely to be the candidate c from the first fixed-length speech spectrogram.
  • the cause of failure is determined by using the likelihood of each failure cause candidate obtained as a result of inputting the sixth fixed length speech spectrogram from the first fixed length speech spectrogram to the DNN, [0 .1 0.3 0.6] ⁇ T, [0.1 0.2 0.7] ⁇ T, [0.2 0.2 0.6] ⁇ T, [0.3 0.3 0.4 ] T, [0.4 0.3 0.3] ⁇ T, [0.3 0.4 0.3] ⁇ T.
  • “ ⁇ T” indicates transposition of a vector.
  • the average likelihood of candidate a is about 0.23
  • the average likelihood of candidate b is about 0.28
  • the average likelihood of candidate c is about 0.48. Therefore, in the failure cause identification process of step S201 in FIG. 7, the candidate c is identified as the failure cause of speech recognition.
  • map data may be used in the process of identifying the cause of voice recognition failure. That is, even if a similar audio spectrogram is input to the DNN, a different cause of failure may be specified depending on the current location of the user.
  • step S202 the information processing system 1 executes a process for determining the effectiveness of the recurrent speech.
  • the effectiveness of re-speech is a process of determining whether or not the speech recognition is successful when the user speaks again on the spot without moving. An example of the recurrent speech validity determination process will be described with reference to FIG.
  • step S301 the information processing system 1 determines whether or not it is a place where an utterance can be requested.
  • the places where utterances can be requested are places where utterances are prohibited or restricted. Specifically, it is determined that the utterance request is not possible in a hospital or library where it is not preferable to speak. On the other hand, it is determined that utterances can be requested for public roads and restaurants.
  • Such a determination may be made based on, for example, position information acquired from the user terminal 3 and information stored in the map database 50. That is, it is stored in the map database 50 whether or not it is a place where the utterance can be made corresponding to the position information, and whether or not the user terminal 3 can speak at the place where the user terminal 3 is currently located by referring to the information. Determine whether.
  • the map database 50 in which information indicating the position on the map and information indicating the purpose of use of the facility located there (restaurant, coffee shop, hospital, etc.) are linked, the possibility of utterance request for each purpose of use of the facility ( The determination may be made using a database in which utterance request is possible and utterance request is impossible.
  • the information processing system 1 determines whether or not the cause of the failure is due to the utterance mode in step S302. For example, if the speech rate is too fast or too slow, or if the microphone signal gain is too large or too small with no noise around it, the speech mode is the cause of voice recognition failure. If there is, the information processing system 1 determines again that the utterance is valid in step S303.
  • the information processing system 1 determines that the cause of failure is due to the surrounding environment, and in step S304, determines whether or not the cause of failure in speech recognition is temporary noise. judge.
  • the determination of whether or not the noise is temporary may be performed using the map database 50, for example. Specifically, it is conceivable to store the level and magnitude of non-temporary noise for each position in the map database 50 in association with each other.
  • voice recognition fails in a place where non-temporary noise is not high
  • the cause of failure is not due to the speech mode, it may be determined that the noise is due to temporary noise.
  • step S303 determines in step S303 that the recurrent speech is valid because speech recognition is likely to succeed by uttering again at the same location. To do.
  • the information processing system 1 determines that the re-utterance is invalid in step S305. Even when it is determined in step S301 that the utterance cannot be requested, that is, when it is determined that the user is located in a hospital or the like, the information processing system 1 determines that the re-utterance is invalid in step S305.
  • the information processing system 1 obtains a determination result as to whether or not the recurrent speech is valid by performing the process of step S202.
  • step S203 the information processing system 1 performs a branching process according to whether or not the recurrent speech is valid. If the re-utterance is valid, the information processing system 1 makes a re-utterance request in step S204. That is, the user is prompted to input voice again via the user terminal 3. Specifically, a display for prompting to perform voice input again may be performed, or the user terminal 3 may perform voice output for prompting to perform voice input. In other words, information for prompting a recurrent talk at the current location without moving is presented via the user terminal 3.
  • the information processing system 1 performs a process of generating information on the movement destination candidate in step S205.
  • map data stored in the map database 50 is used. It is preferable that the moving destination candidate has a short moving distance of the user, and that the success probability of voice recognition is high. Therefore, in the process of step S205, an appropriate destination candidate is generated in consideration of these factors. In other words, information for prompting recurrence at an alternative location different from the current location is presented via the user terminal 3. In addition, you may give a priority to a movement destination candidate.
  • the generation process of the movement destination candidate can be considered. For example, if voice recognition continues to fail even though the user has repeatedly moved and performed voice input, it may be possible to generate a destination candidate so that the moving distance is as short as possible. . Conversely, in order not to repeat the failure any more, information may be generated by weighting the destination candidates that are considered to have a high probability of successful speech recognition.
  • the success probability of speech recognition may be calculated for each location using the performance information of other users, and a destination candidate having a high success probability of speech recognition may be generated by referring to the calculation result.
  • the information on the moving destination candidates may be different for each user, or the same moving destination candidates may be used regardless of the user. It may be. For example, for a user who is difficult to move, a moving destination candidate with a short moving distance may be easily selected by giving a high weight to the moving distance.
  • the information processing system 1 that has generated the destination candidate information performs an advice sentence generation process in step S206. For example, a sentence with the highest priority from the destination candidates may be selected, and a sentence that prompts the user to retry speech input after the movement may be generated as an advice sentence.
  • list information for showing the destination candidates as they are to the user may be generated, and a phrase such as “Please select a destination from the following” may be generated along with the list information and used as an advice sentence.
  • the command information obtained by the speech recognition engine unit 1c by speech recognition belongs to a valid command information set.
  • the voice recognition success / failure determination unit 1d may determine whether or not the voice recognition is successful by simply determining whether or not the voice recognition is successful. Thereby, the processing load can be reduced.
  • step S201 the process for identifying the cause of voice recognition failure (step S201) and the advice sentence generation process (step S206) are performed separately, but a DNN is constructed so as to generate an advice sentence directly from the speech feature amount. May be. That is, RNN (Recurrent Neural Network) or LSTM (Long Short-Term Memory) that sequentially outputs text may be used instead of outputting likelihood vectors of N-dimensional speech recognition failure cause candidates. Thereby, it is possible to provide information with good responsiveness to the user's voice input.
  • RNN Recurrent Neural Network
  • LSTM Long Short-Term Memory
  • the map database 50 is associated with the location information and the information and the purpose of facilities such as public roads, restaurants and hospitals, and the information associated with the distribution of the environmental noise type and the environmental noise level.
  • the frequency and frequency of successful speech recognition in this configuration are extracted from the user's usage history for each location and stored as a distribution (success area or failure area). Information may be stored. Further, human distribution information for each place and each time may be stored.
  • step S304 when the cause of failure is temporary noise (step S304), an example has been described in which the user is prompted to re-utter on the spot by determining that the re-utterance is valid. If the occurrence of non-temporary noise is detected before the user starts re-speaking after prompting, the display prompting re-speech on the spot is canceled and the user is prompted to move May be. In that case, even when prompting the user to re-speak on the spot, it is possible to respond immediately to changes in the surrounding environment by searching for alternative locations in advance using map data etc. System can be provided.
  • the server device 2 performs various determination processes.
  • the user terminal 3 may partially include the determination process.
  • the user terminal 3 may include a feature amount extraction unit 1b, a speech recognition engine unit 1c, and a speech recognition success / failure determination unit 1d.
  • the success or failure of voice recognition is determined by the user terminal 3, and processing for requesting either advice information or normal response information to the server device 2 is performed according to the result.
  • the server device 2 transmits the presentation information generated by the advice information generation unit 1e or the normal response generation unit 1f to the user terminal 3.
  • the user terminal 3 performs a presentation process for presenting the received presentation information to the user.
  • the user terminal 3 may further include an advice information generation unit 1e, a normal response generation unit 1f, and a response control unit 1g. That is, each determination process or the like may be performed by the user terminal 3.
  • the information processing device presents the user with the speech recognition success / failure determination unit 1d that determines the success or failure of speech recognition of the user's speech input, and when the speech recognition is determined to be successful in the determination.
  • Normal response generating unit 1 f that generates normal response information for generating the advice information, and advice information generation for generating advice information to be presented to the user when it is determined in the determination that speech recognition has failed due to the user's surrounding environment Part 1e.
  • advice information to be presented for succeeding the next voice recognition is generated. This makes it possible to present advice information that allows the user to take appropriate actions.
  • the user can take an appropriate action according to the advice information, and can increase the possibility of successful voice input.
  • a system that presents advice information such as “Please speak more slowly”, in other words, an advice information generation system that correlates the cause of voice recognition failure with advice information on a one-to-one basis. It is easy to configure.
  • the advice information generation unit 1e that generates the advice information for succeeding the next speech recognition is provided.
  • Advice information can be presented to the user. This effect can be realized more easily by providing a later-described configuration in which an alternative location different from the current location is presented as a retry location.
  • the user terminal 3 is a voice recognition success / failure determination process (step S104) for determining the success or failure of the voice recognition for the user's voice input, and a normal for presenting to the user when it is determined that the voice recognition is successful in the determination.
  • Normal response generation processing for generating response information (step S106), and advice information generation processing for generating advice information to be presented to the user when it is determined in the determination that speech recognition has failed due to the surrounding environment of the user
  • step S105 in FIG. 6 when a result indicating that the speech recognition is successful is acquired as the determination result, normal response information is selected, and a result indicating that the speech recognition has failed is obtained.
  • a response control unit 1g for selecting advice information may be provided. That is, response information (either normal response information or advice information) is selected according to the success or failure of voice recognition. Alternatively, which response information is to be generated is determined according to the success or failure of voice recognition. Accordingly, since appropriate information is selected as information to be presented to the user, an appropriate response according to the surrounding environment is made.
  • a response information presentation unit 1h that presents information selected by the response control unit 1g to the user may be provided. That is, response information corresponding to the success or failure of voice recognition is presented to the user.
  • response information corresponding to the success or failure of voice recognition is presented to the user.
  • Advice information can be presented to the user, and an instruction by voice input desired by the user can be realized with a small number of trials.
  • cause determination processing for determining (identifying) the cause of failure may be performed.
  • the cause of failure in speech recognition of the user's speech input is identified. Therefore, when voice recognition fails, appropriate advice information corresponding to the cause of the failure can be generated, and the possibility of succeeding the next voice recognition can be increased by presenting the advice information to the user.
  • the cause determination process (failure cause specifying process) it may be determined whether the failure is due to an utterance mode or noise. Thereby, it is determined whether the cause of the speech recognition failure is due to an utterance mode that can be estimated to be resolvable by retry or due to noise. Therefore, for example, when the cause of failure is due to the utterance mode, it is possible to perform processing such as presenting advice information for performing speech recognition again.
  • the cause determination process when it is determined that the failure is caused by noise, the noise is temporary or non-temporary. You may further determine whether it is a noise.
  • the cause of speech recognition failure is noise, it is possible to appropriately determine which advice information for requesting speech input again or other advice information is presented by determining the noise characteristics. .
  • the noise is temporary noise (temporary noise)
  • the speech recognition will be successful by retrying the voice input
  • the advice information for requesting the voice input again is presented
  • non-temporary noise non-temporary noise
  • different advice information is presented.
  • a classifier may be used in the cause determination process (failure cause identification process). By using the classifier, it is possible to automatically estimate the cause of speech recognition failure. Accordingly, it is possible to promptly provide appropriate advice to the user when voice recognition fails.
  • the classifier may be generated by machine learning (for example, DNN).
  • Machine learning is used as a specific processing method for generating a classifier. For example, by using a specific method such as deep learning, a classifier can be automatically generated and used to estimate the cause of failure.
  • map data may be used for determination of the cause of failure.
  • the information such as noise obtained by the analysis of the audio data but also the cause of the noise is estimated using the map data and used for the determination of the cause of failure. Therefore, the accuracy of the failure cause determination process can be improved, and more appropriate advice information can be generated and presented.
  • the advice information generation unit 1e may generate advice information including information for presenting a place to retry speech input. Thereby, information for making the next speech recognition successful is presented to the user. Therefore, the user can take an appropriate action based on the advice information.
  • steps S304 and S305 in FIG. 9 steps S203 and S205 in FIG. 7, and the like
  • the location where the retry is performed is the current location. It may be a different alternative.
  • an appropriate movement candidate location for succeeding the next speech recognition is presented to the user as an alternative location. Therefore, the user can take appropriate measures based on the advice information, and can increase the possibility that the next speech recognition will be successful.
  • steps S304 and S303 in FIG. 9 steps S203 and S204 in FIG. 7, and the like
  • the location where the retry is performed may be the current location. Good.
  • advice information for suggesting an appropriate action to be taken by the user for succeeding the next speech recognition is generated. Therefore, it is possible to increase the possibility of succeeding in the next speech recognition.
  • the location where the retry is performed is the current location, the user does not have to move from the current location in order to perform the next speech input. The time required to operate this function can be shortened. That is, a highly convenient function can be provided.
  • the location where the retry is performed may be an alternative location different from the current location.
  • advice information for succeeding the next speech recognition is generated, and advice information is generated so that the user does not have to take inappropriate actions such as voice input in the speech restriction area. The Thereby, it can prevent that a user takes inappropriate action.
  • the location where the retry is performed may be determined using map data.
  • map data in determining an appropriate place (substitute place) for performing voice input again, the proximity of the alternative place, the magnitude of noise, and the like are taken into consideration. That is, not only the advice information that the user can easily retry the voice input is presented, but also the appropriate advice information considering the ease of the retry is presented. That is, it is possible to provide a service with high convenience for the user.
  • the location where the retry is performed may be determined using the performance information of other users.
  • advice information is generated in consideration of the geographical situation (peripheral environment) where voice input is actually likely to succeed by using other user performance information. Is done. Therefore, even if there is a situation that cannot be grasped in advance with map data etc. for the place that is a candidate for the alternative place, an appropriate alternative place is selected based on the actual success / failure information of other users. Therefore, it is possible to provide appropriate advice information for succeeding the next voice input. It is also effective to further consider the time information. By considering the other user performance information that matches the time zone in which the user is actually performing voice input, the possibility of successful voice recognition for the user's voice input can be further increased.
  • the user terminal 3 may include a microphone that acquires the user's voice.
  • a voice recognition success / failure determination unit, a normal response generation unit, and an advice information generation unit are provided in a user terminal equipped with a microphone, the user's voice is acquired, the success / failure of the voice recognition is determined, and the normal response information accordingly
  • the user terminal can execute the process of generating any of the advice information. That is, it is possible to perform appropriate speech recognition and advice information presentation only by the user terminal without performing communication with other information processing apparatuses such as a server apparatus. Since communication does not occur, consumption of communication capacity allowed for the user terminal can be suppressed.
  • a program is a speech recognition success / failure determination function for determining success or failure of speech recognition for a user's speech input, and for presenting to a user when it is determined that the speech recognition is successful in the determination.
  • a normal response generation function for generating normal response information
  • an advice information generation function for generating advice information to be presented to the user when it is determined in the determination that the speech recognition has failed due to the surrounding environment of the user
  • it is a program that causes the arithmetic processing unit to realize the above. More specifically, it is a program that causes the control unit (the CPU 151 of the server device 2 of the information processing system 1 and the CPU 151 of the user terminal 3) to execute the processes shown in FIGS.
  • Such a program facilitates the realization of the information processing system 1 of the present embodiment.
  • a program can be stored in advance in a recording medium built in a device such as an arithmetic processing unit or a ROM in a microcomputer having a CPU.
  • it can be stored (memorized) temporarily or permanently in a removable recording medium such as a semiconductor memory, a memory card, an optical disk, a magneto-optical disk, or a magnetic disk.
  • a removable recording medium can be provided as so-called package software.
  • Such a program can be downloaded from a removable recording medium to a personal computer or the like, or downloaded from a download site via a network such as a LAN or the Internet.
  • a speech recognition success / failure determination unit for determining the success or failure of speech recognition for the user's speech input;
  • a normal response generator for generating normal response information to be presented to the user when it is determined that the voice recognition is successful in the determination;
  • An information processing apparatus comprising: an advice information generation unit configured to generate advice information to be presented to a user when it is determined in the determination that the voice recognition has failed due to a surrounding environment of the user.
  • the information processing apparatus further including a response information presentation unit that presents information selected by the response control unit to a user.
  • a cause determination process for determining a cause of failure is performed when the voice recognition fails.
  • the cause determination process determines whether the failure is due to an utterance mode or noise.
  • the cause determination process further determines whether the noise is temporary noise or non-temporary noise when it is determined that the failure is due to noise.
  • a classifier is used in the cause determination process.
  • the information processing apparatus is generated by machine learning.
  • the information processing apparatus according to any one of (4) to (8), wherein the cause determination process uses map data for determining a cause of failure.
  • the information processing apparatus according to any one of (1) to (9), wherein the advice information generation unit generates advice information including information for presenting a place to retry speech input.
  • the advice information generation unit generates advice information including information for presenting a place to retry speech input.
  • the location where the retry is performed is an alternative location different from the current location.
  • (12) The information processing apparatus according to any one of (10) and (11), wherein when the cause of the voice recognition failure is temporary noise, a location where the retry is performed is a current location.
  • the information processing apparatus according to any one of (10) to (12), wherein when it is determined that the current location of the user is an utterance restriction area, the location where the retry is performed is an alternative location different from the current location. (14) The information processing apparatus according to any one of (10) to (13), wherein a place to perform the retry is determined using map data. (15) The information processing apparatus according to any one of (10) to (14), wherein a place to perform the retry is determined using performance information of another user. (16) The information processing apparatus according to any one of (1) to (15), further including a microphone that acquires a user's voice.
  • a speech recognition success / failure determination procedure for determining the success or failure of speech recognition for the user's speech input;
  • a normal response generation procedure for generating normal response information to be presented to the user when it is determined that the voice recognition is successful in the determination;
  • An information processing apparatus executes an advice information generation procedure for generating advice information to be presented to a user when it is determined in the determination that the voice recognition has failed due to the surrounding environment of the user
  • a speech recognition success / failure determination function for determining the success or failure of speech recognition for the user's speech input
  • a normal response generation function for generating normal response information to be presented to the user when it is determined that the voice recognition is successful in the determination;
  • a program for causing an arithmetic processing unit to implement an advice information generation function for generating advice information to be presented to a user when it is determined in the determination that the voice recognition has failed due to the surrounding environment of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報を生成し提示する。そのために、情報処理装置は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えるものとした。

Description

情報処理装置、情報処理方法、プログラム
 本技術は、音声認識の成否判定とそれに応じたアドバイス情報を生成する情報処理装置、情報処理方法及びプログラムについての技術分野に関する。
 音声認識が失敗したときに、認識失敗の原因を推定して提示する技術や、大きな雑音が検出されたときに静かな場所での再発話を促す技術がある。例えば、以下に示す特許文献1では、発話音量や発話速度などの発話態様を判定すると共に雑音の推定を行うことにより、音声認識の失敗の原因を通知することが記載されている。
 また、特許文献2では、発話音量やSNR(Signal-Noise Ratio)や音声区間長や語頭切断や語尾切断などに注目し、音声認識の失敗の主原因を判定することが記載されている。
特開2008-256802号公報 特開2010-186126号公報
 しかし、ユーザは音声認識の失敗原因を認識したとしても、その対処法が不明であったり、静かな場所を指定されても具体的な場所が分からなかったりするなど、次回の音声認識を成功させるには不十分であった。
 そこで、本技術の撮像装置は、再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報を生成し提示することを目的とする。
 本技術に係る情報処理装置は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えている。
 ユーザの周辺環境に起因して音声認識が失敗したと判定した場合に、次の音声認識を成功させるために提示するアドバイス情報が生成される。これによって、ユーザが適切な行動を取れるようなアドバイス情報を提示することが可能となる。
 上記の情報処理装置においては、前記判定の結果として、前記音声認識が成功したことを示す結果を取得した場合には前記通常応答情報を選択し、前記音声認識が失敗したことを示す結果を取得した場合には前記アドバイス情報を選択する応答制御部を備えていてもよい。
 即ち、音声認識の成否に応じて応答情報(通常応答情報とアドバイス情報の何れか)が選択される。
 上記の情報処理装置においては、前記応答制御部によって選択された情報をユーザに提示する応答情報提示部を備えていてもよい。
 即ち、音声認識の成否に応じた応答情報がユーザに提示される。
 上記の情報処理装置においては、前記音声認識が失敗した場合に、失敗原因を判定するための原因判定処理を行ってもよい。
 ユーザの音声入力の音声認識についての失敗原因が特定される。
 上記の情報処理装置における前記原因判定処理では、失敗が発話態様によるものかノイズによるものかの判定を行ってもよい。
 これにより、音声認識の失敗原因について、再試行により解消可能と推測できる発話態様によるものであるのか、或いはノイズによるものであるのか、判定される。
 上記の情報処理装置における前記原因判定処理では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定してもよい。
 音声認識の失敗原因がノイズである場合に、該ノイズの特性を判定することにより、音声入力を再度求めるアドバイス情報とその他のアドバイス情報の何れを提示するか、適切に判定することが可能となる。
 上記の情報処理装置における前記原因判定処理では、分類器を用いてもよい。
 分類器を用いることにより、音声認識の失敗原因の推定を自動で行うことができる。
 上記の情報処理装置においては、前記分類器は機械学習によって生成されてもよい。
 分類器を生成するための具体的な処理方法として機械学習が用いられる。
 上記の情報処理装置における前記原因判定処理では、失敗原因の判定のために地図データを用いてもよい。
 これにより、音声データの解析によって得られるノイズなどの情報だけでなく、地図データを用いてノイズの発生原因などが推定されて、失敗原因の判定に利用される。
 上記の情報処理装置における前記アドバイス情報生成部は、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成してもよい。
 これにより、次回の音声認識を成功させるための情報がユーザに提示される。
 上記の情報処理装置においては、前記音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされてもよい。
 これにより、次回の音声認識を成功させるための適切な移動候補地が代替地としてユーザに提示される。
 上記の情報処理装置においては、前記音声認識の失敗原因が一時的なノイズである場合において、前記再試行を行う場所は現在地とされてもよい。
 これにより、次回の音声認識を成功させるためのユーザがとるべき適切な行動を示唆するためのアドバイス情報が生成される。
 上記の情報処理装置においては、ユーザの現在地が発話制限エリアであると判定された場合において、前記再試行を行う場所は現在地とは異なる代替地とされてもよい。
 これにより、次回の音声認識を成功させるためのアドバイス情報が生成されると共に、ユーザが発話制限エリアで音声入力を行ってしまうような不適切な行動を取らなくて済むためのアドバイス情報が生成される。
 上記の情報処理装置においては、前記再試行を行う場所は地図データを用いて決定されてもよい。
 音声入力を改めて行うのに適切な場所(代替地)の決定において地図データを用いることにより、代替地の近さや騒音の大きさなどが考慮される。
 上記の情報処理装置においては、前記再試行を行う場所は他のユーザの実績情報を用いて決定されてもよい。
 音声入力に改めて行うのに適切な場所(代替地)の決定において、他ユーザ実績情報を用いることにより、実際に音声入力が成功しやすい地理的な状況(周辺環境)を鑑みたアドバイス情報が生成される。
 上記の情報処理装置においては、ユーザの音声を取得するマイクロフォンを備えていてもよい。
 マイクロフォンを備えたユーザ端末に音声認識成否判定部と通常応答生成部とアドバイス情報生成部が設けられている場合、ユーザの音声を取得し、音声認識の成否を判定し、それに応じて通常応答情報かアドバイス情報の何れかを生成する処理をユーザ端末が実行可能とされる。
 本技術に係る情報処理方法は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定手順と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成手順と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成手順と、を情報処理装置が実行する情報処理方法である。
 これにより再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報をユーザに提示することができる。
 本技術に係るプログラムは、上記方法の手順を情報処理装置に実行させるプログラムである。
 本技術によれば、再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報を生成し提示することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の実施の形態の情報処理システムの説明図である。 情報処理システムの機能ブロック図である。 サーバ装置とユーザ端末の機能構成の一例を示す図である。 アドバイス情報生成部の一例を示す図である。 情報処理装置のハードウェア構成についての説明図である。 全体処理についてのフローチャートである。 アドバイス情報生成処理についてのフローチャートである。 DNNの複数の出力を統合して音声認識の失敗原因を判定する例についての説明図である。 再発話有効性判定についてのフローチャートである。
 以下、実施の形態について添付図面を参照しながら次の順序で説明する。
<1.システムの構成>
<2.情報処理装置の構成>
<3.各処理>
[3-1.全体処理]
[3-2.アドバイス情報生成処理]
<4.変形例>
<5.まとめ>
<6.本技術>
<1.システムの構成>

 ユーザへのアドバイス情報の生成及び提示等の各処理を行う情報処理装置を含むシステム全体の構成について、図1を参照して説明する。
 情報処理システム1は、ユーザの音声認識が失敗した際に、次回の音声認識を成功させるためのアドバイス情報を提示するものである。情報処理システム1の態様は、各種考えられる。ここでは、その一例について説明する。
 情報処理システム1は、請求項の情報処理装置の具体例としてのサーバ装置2と、ユーザが携帯するユーザ端末3と、通信ネットワーク4を備えている。
 情報処理システム1は、図2に示すように、音取得部1a、特徴量抽出部1b、音声認識エンジン部1c、音声認識成否判定部1d、アドバイス情報生成部1e、通常応答生成部1f、応答制御部1g、応答情報提示部1hとを備えている。
 これらの各部は、情報処理システム1全体で実現可能とされていればよい。従って、一部をサーバ装置2が備え、他の部分をユーザ端末3が備えていてもよいし、全てをユーザ端末3が備えていてもよい。また、サーバ装置2とユーザ端末3の双方によって一つの部が実現される構成とされていてもよい。
 音取得部1aは、ユーザが発した音声や周囲の環境音(ノイズ含む)などの音情報を取得する。例えば、1または複数のマイクロフォンなどによって実現される。音取得部1aは、ユーザ端末3が備える機能である。
 特徴量抽出部1bは、取得した音情報を音声特徴量(音声信号の特徴量)に変換する処理を行う。音声特徴量とは、例えば、音量や音の到来方向、フーリエ係数、メル周波数ケプストラムの値、或いは音信号そのものであってもよい。
 音声認識エンジン部1cは、音声特徴量を命令情報に変換する処理を行う。命令情報は、自然言語によるテキスト情報であってもよいし、予め用意された有限個のコマンドやパラメータであってもよい。
 即ち、ここで変換された命令情報は、例えば、ユーザによって入力された音声を解析した結果把握したユーザの指示(命令)情報である。具体的には、「近くのレストランを教えて」などの命令を特定するための情報である。
 音声認識成否判定部1dは、特徴量抽出部1bによって抽出された音声特徴量を入力とし、音声認識エンジン部1cが生成した命令情報がユーザの意図したものであるか否かを判定する処理を行う。なお、音声認識エンジン部1cから命令情報を取得して成否判定を行ってもよい。
 アドバイス情報生成部1eは、特徴量抽出部1bの出力である音声特徴量及びユーザの位置情報を用いて、次回の音声認識を成功させるためにユーザに提示するアドバイス情報を生成する。
 通常応答生成部1fは、音声認識エンジン部1cの出力した命令情報を入力とし、命令情報に対応した通常応答を行うための通常応答情報を生成する。例えば、「近くのレストランを探して」という命令情報に応じてユーザに提示する通常応答情報として、ユーザの現在地に応じたレストラン情報を生成する。このような情報は、例えば情報処理システム1が備えるDB(Database)や外部のシステムが備えるDBから取得してもよい。
 このような処理を行うために、通常応答生成部1fは、ユーザの現在地情報をユーザ端末3から取得してもよい。
 応答制御部1gは、音声認識成否判定部1dから認識成否情報を取得し、通常応答生成部1fやアドバイス情報生成部1eに対して応答情報の生成を指示する。応答情報とは、通常応答情報やアドバイス情報など、ユーザの音声入力への応答としてユーザに提示される情報である。
 応答制御部1gは、認識成否情報に基づいて、通常応答生成部1fとアドバイス情報生成部1eの何れか一方に応答情報の指示を行ってもよいし、通常応答生成部1fとアドバイス情報生成部1eの双方に対して応答情報の指示を行ってもよい。
 例えば、ユーザの音声入力について音声認識を行った結果変換された命令情報に基づき通常応答生成部1fに対して通常応答情報の生成を指示すると共に、認識した命令情報が誤っていたときのためにユーザが取るべき行動をアドバイスするためのアドバイス情報の生成をアドバイス情報生成部1eに指示してもよい。
 応答情報提示部1hは、通常応答生成部1fやアドバイス情報生成部1eが生成した応答情報の提示処理を行う。応答情報提示部1hは、サーバ装置2が備えていてもよいし、ユーザ端末3が備えていてもよい。具体的には、ユーザ端末3に応答情報を提示させるための処理をサーバ装置2の応答情報提示部1hが実行してもよいし、ユーザ端末3の応答情報提示部1hの提示処理によってサーバ装置2から受信した応答情報が提示されてもよい。
 図3は、上記した音取得部1a、特徴量抽出部1b、音声認識エンジン部1c、音声認識成否判定部1d、アドバイス情報生成部1e、通常応答生成部1f、応答制御部1g、応答情報提示部1hの各部について、サーバ装置2とユーザ端末3の何れが備えるかを例示した図である。
 サーバ装置2は、特徴量抽出部1b、音声認識エンジン部1c、音声認識成否判定部1d、アドバイス情報生成部1e、通常応答生成部1f、応答制御部1g、通信部2mを備えている。
 通信部2mは、ユーザ端末3のような外部装置との通信を行う。本例では、応答制御部1gによって生成の指示がなされた応答情報をユーザ端末3へ送信するための処理を行う。
 また、ユーザ端末3から送信されてくる情報である音情報や現在地情報を受信する処理を行う。
 ユーザ端末3は、音取得部1a、応答情報提示部1h、現在地情報取得部3n、通信部3mを備えている。ユーザ端末3としては、例えば、携帯電話やウェアラブル端末などが考えられる。ウェアラブル端末としては、具体的に、腕時計、眼鏡、首掛けイヤフォン、ヘッドフォンなどが含まれる。
 現在地情報取得部3nは、例えばGPS(Global Positioning System)による位置情報を取得する処理を行う。位置情報は、GPSに限らず、ビーコン発信機が発信する信号を受信することにより位置情報を取得してもよい。
 位置情報は、定期的に取得し続けてもよいし、必要に応じて取得してもよい。
 通信部3mは、ユーザ端末3以外の情報処理装置と通信を行う。具体的には、サーバ装置2に対して音情報や現在地情報などを送信する処理を行う。また、サーバ装置2からユーザに提示するための応答情報などを受信する処理を行う。
 アドバイス情報生成部1eについて図4を参照して詳述する。
 アドバイス情報生成部1eは、位置情報取得部5、地図データベースアクセス部6、再発話有効性判定部7、生成部8を備えている。
 位置情報取得部5は、ユーザ端末3から現在地情報を取得する処理を行う。取得した現在地情報は、地図データベースアクセス部6へ渡される。
 地図データベースアクセス部6は、ユーザ端末3の現在地情報を受け取り、各種の処理のための情報を地図データベース50から取得する。地図データベース50には、位置情報と他の情報が紐付けられた地図データが記憶されている。
 地図データの具体例について述べる。
 再発話有効性判定部7は、特徴量抽出部1bから音声特徴量の情報を受け取り、その場での再発話が有効か否かを判定する処理を行う。再発話有効性判定処理では、現在地が再発話に適した場所か否かを判定する。この処理のために用いられる情報が地図データである。地図データとしては、ノイズ種別やノイズレベルの分布等の環境ノイズと関連する情報が記憶されている。
 例えば、地図データとして記憶された情報として、その場所の付近に高速道路などの騒音源となるものが存在しているか否かの情報などが再発話有効性判定処理において用いられる。騒音源は、時限的なものであってもよい。例えば、○月○日~×月×日まで付近で工事中の建物がある場合には、その期間に限って工事中の建物の位置情報が騒音源として記憶されていてもよい。
 また、施設の位置情報と用途目的を示すラベル等が紐付けられた情報も地図データの一例である。例えば、音声入力を行うユーザの現在地が発話制限エリアに含まれるか否かの情報を地図データから得ることができる。即ち、病院内などのように大きな声での発話が好ましくない場所の情報が地図データベース50に記憶されている。
 再発話有効性判定処理では、このような地図データを用いて再発話の有効性を判定する。
 更には、地図データとして地表の高低差や起伏(山や盆地)などの情報であってもよい。それらの情報を元に再発話有効性判定処理を行ってもよい。
 地図データは他の処理においても用いられる。
 例えば、ユーザの入力した音声入力の認識に失敗した場合に、再試行を行う場所を検索する際に地図データが用いられてもよい。また、音声認識の失敗原因を特定するために地図データが用いられてもよい。これらの具体的な例については後述する。
 生成部8は、再発話有効性判定の判定結果を受け取り、結果に応じたアドバイス情報を生成する処理を行う。この際にも、地図データベース50に記憶されている地図データが用いられる。
 例えば、その場での再発話が好ましくないと判定された場合、アドバイス情報として代替地へ移動した後に音声入力を再試行するように提案することが考えられる。この場合、代替地は、現在地から遠すぎるものは不適当となる可能性が高く、また距離的に近かったとしても移動し難いものも不適当である可能性が高い。更には、周辺に騒音源が存在する場所も代替地として好ましくない。
 代替地が適当であるか否かの判定にも、地図データが用いられる。
 生成部8で生成したアドバイス情報は、応答情報提示部1hに送られる。
 なお、再発話有効性判定部7は、音声認識の失敗原因を特定する処理も行う。
<2.情報処理装置の構成>

 情報処理システム1が備える各種の情報処理装置150(サーバ装置2、ユーザ端末3を含む)の構成を説明する。情報処理装置は、例えば図5のようなハードウェア構成で実現される。
 情報処理装置150は、CPU(Central Processing Unit)151、ROM(Read Only Memory)152、RAM(Random Access Memory)153を有して構成される。
 CPU151は、ROM152に記憶されているプログラム、または記憶部159からRAM153にロードされたプログラムに従って各種の処理を実行する。RAM153にはまた、CPU151が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU151、ROM152、およびRAM153は、バス154を介して相互に接続されている。このバス154にはまた、入出力インターフェース155も接続されている。
 入出力インターフェース155には、液晶パネル或いは有機EL(Electroluminescence)パネルなどよりなるディスプレイ156、キーボード、マウスなどよりなる入力部157、スピーカ158、HDD(Hard Disk Drive)などより構成される記憶部159、通信部160などが接続可能である。
 ディスプレイ156は情報処理装置150と一体でも良いし別体の機器でもよい。
 入力部157は、情報処理装置150を使用するユーザが用いる入力デバイスを意味する。具体的には、ユーザ端末3におけるタッチパネルやマイクロフォンである。
 通信部160は、インターネットを含むネットワークを介しての通信処理や、周辺各部の機器との間の通信を行う。通信部160の一例は、サーバ装置2の通信部2mやユーザ端末3の通信部3mである。
 入出力インターフェース155にはまた、必要に応じてドライブ161が接続され、メモリカード162が装着され、メモリカード162から読み出されたコンピュータプログラムが、必要に応じて記憶部159にインストールされたり、CPU151で処理したデータがメモリカード162に記憶される。
 もちろんドライブ161は、磁気ディスク、光ディスク、光磁気ディスク等のリムーバブル記憶媒体に対する記録再生ドライブとされてもよい。
 このようなハードウェア構成において、実施の形態の情報処理装置150としての各種処理(後述)を行うことができる。具体的にはユーザ端末3が音情報の取得を行う処理や、応答情報の提示処理などを行う。また、サーバ装置2においては、音声認識の成否判定を行う処理や、アドバイス情報の生成処理などを行うことができる。
 これらの処理はCPU151で起動されるソフトウェアにより実現される。そのソフトウェアを構成するプログラムは、ネットワークからダウンロードされたり、リムーバブル記憶媒体から読み出されたりして図5の情報処理装置150にインストールされる。或いはそのプログラムが記憶部159としてのHDD等に予め記憶されていてもよい。そしてCPU151において当該プログラムが起動されることで、情報処理装置150の各機能が発現する。
 なお、情報処理装置150は、図5のようなハードウェア構成の情報処理装置150が単一で構成されることに限らず、複数の情報処理装置がシステム化されて構成されてもよい。複数の情報処理装置は、LAN等によりシステム化されていてもよいし、インターネット等を利用したVPN(Virtual Private Network)等により遠隔地に配置されたものでもよい。複数の情報処理装置には、クラウドコンピューティングサービスによって利用可能な情報処理装置が含まれてもよい。
 またこの情報処理装置150は、据え置き型、ノート型等のパーソナルコンピュータ、タブレット端末やスマートフォン等の携帯端末として実現できる。
 画像編集装置、記録再生装置、テレビジョン受像器など各種の電子機器が図21のような構成を備えることで情報処理装置150として機能することもできる。
<3.各処理>

[3-1.全体処理]
 ユーザが音声入力を行ってから応答情報が提示されるまでに情報処理システム1が実行する各処理について、図6を参照して説明する。
 なお、図6に示す一連の処理は、情報処理システム1がサーバ装置2またはユーザ端末3が備える音取得部1a~応答情報提示部1h、通信部2m、現在地情報取得部3n、通信部3mなどの各機能を用いることにより実行されるものである。
 以降で説明する各処理を実行するにあたって、情報処理システム1のユーザ端末3においては、マイクロフォンなどの音取得部1aによってユーザの発話による音声や周辺の環境音が入力された状態(音入力状態)とされている。ユーザがユーザ端末3にインストールされているアプリケーションを起動することによって音入力状態へ遷移するように構成されていてもよいし、ユーザ端末3が起動している間は常に音入力状態となるように構成されていてもよい。
 情報処理システム1は、ステップS101で、特徴量抽出処理を行う。この処理は、音取得部1aを介して入力されている音情報を音声特徴量に変換して取得する処理である。
 音声特徴量としては、例えば、音量や音声スペクトログラムや、メル周波数ケプストラムや、音信号波形そのものなどである。
 続いて、情報処理システム1は、ステップS102において、ユーザの発話区間を検出したか否かを判定する。発話区間を検出できた場合とは、例えば、ユーザが何らかの指示を音声で行うための発話を開始した開始点の検出と、終了点の検出の双方が達成できた場合である。終了点の検出は、例えば所定時間の音声入力が無い期間を検出することにより実現可能である。
 発話の開始点を検出したが終了点の検出ができていない場合(例えばまだ発話し続けている場合など)は、ステップS101の処理へと戻る。
 発話区間を検出できた場合、情報処理システム1はステップS103で、音声認識処理を行う。この処理は、音声特徴量に基づいてユーザの発話内容(命令情報)を把握する処理である。即ち、音声特徴量を命令情報に変換する処理である。
 続いて、情報処理システム1はステップS104で、音声認識の成否判定を行う。この処理は、先のステップS103で行った発話内容の把握が成功したか否かを判定する処理である。
 具体的には、発話区間の音声スペクトログラムと音声の平均エネルギーを入力とするDNN(Deep Neural Network)を用いて音声認識尤度に変換することで行う。このDNNには、音声認識が成功するか失敗するかが既知とされた音声発話を訓練データとして事前に学習されたものが用いられる。
 DNNによって出力された音声認識尤度が閾値パラメータ以上であれば音声認識成功と判定し、閾値パラメータよりも小さければ音声認識失敗と判定する。
 情報処理システム1は、ステップS105で、音声認識の成否に基づく分岐処理を行う。音声認識が成功したと判定した場合、情報処理システム1はステップS106で、通常応答を行う。この処理は、前述したように、命令情報に応じた適切な出力を行うための処理である。具体的には、ユーザに対して提示する情報をデータベースから取得し、必要に応じて提示するための情報として生成(加工)し、ユーザに提示する処理である。例えば、「近くのレストランを探して」という命令情報に対して、レストラン情報が記憶されたデータベースからユーザの現在位置に応じたレストラン情報を取得し、ユーザに提示する態様に応じて情報を生成し、ユーザ端末3に送信する。ユーザ端末3では、受信した提示情報をユーザに適切な態様(音声出力であってもよいし、画面に表示する態様であってもよい)で出力する。
 一方、音声認識に失敗した場合、情報処理システム1はステップS107で、アドバイス情報生成処理を行う。アドバイス情報生成処理の具体例については後述する。
 アドバイス情報を生成した情報処理システム1は、ステップS108でアドバイス情報をユーザに提示するためのアドバイス応答を行う。これにより、音声認識の失敗態様に応じたアドバイス情報がユーザに提示される。
 最後に、情報処理システム1はステップS109で、ユーザから音声入力の停止指示があったか否かを判定する。例えば、音声認識のためにユーザ端末3にインストールされているアプリケーションを終了させるなどの操作を行った場合のように、停止指示があった場合には、図6に示す一連の処理を終了する。
 また、停止指示がなかった場合は、次の音声入力に備えてステップS101の処理へと戻る。
[3-2.アドバイス情報生成処理]
 アドバイス情報生成処理は、例えば、情報処理システム1がアドバイス情報生成部1eの機能を用いて実行する処理である。具体的に、図7を参照して説明する。
 情報処理システム1は、ステップS201において、失敗原因を特定する処理を実行する。
 例えば、音声認識の失敗原因の候補を予め用意しておき、今回の音声入力によって入力された音情報を変換した音声特徴量がどの候補に該当するかを分類する分類器を用いることで実現可能である。
 音声認識失敗原因の候補は、複数種類用意することが考えられる。具体例を以下に挙げる。
候補1:発話速度が速い
候補2:マイク信号のゲインが大きい
候補3:人混みのノイズが大きい
候補4:近くの道路の騒音が大きい
 候補1,2は、発話態様によるものである。また、候補3,4はユーザの現在地における非一時的ノイズによるものである。非一時的ノイズとは、その場所で測定される恒常的なノイズであったり、数分や数時間など発話区間よりも長い期間(例えば、発話区間が5秒に対して5秒以上の長い時間)継続的に測定され続けるノイズなどである。
 なお、四つの候補を例示したが、これ以外にも多数考えられる。ここでは、音声認識失敗原因の候補数をN個とする。
 音声認識の失敗原因の特定処理では、教師データによって予め学習済みのDNNに特徴量抽出処理で抽出した音声スペクトログラムを入力する。ここで入力する音声スペクトログラムは検出された発話区間の長さ分の入力であってもよいし、発話区間から切り出した固定長の一部区間の入力であってもよい。
 DNNは入力情報に数段階の変換を適用し、音声認識失敗原因の候補それぞれの尤度をN次元のベクトルとして出力する。候補それぞれの尤度からその発話における失敗原因を判定する。
 例えば、DNNに入力されたデータが検出された発話区間の長さ分の音声スペクトログラムである場合、尤度の最も高い候補が音声認識の失敗原因であると判定する。
 また、DNNに入力されたデータが検出された発話区間から切り出された一部区間の固定長の音声スペクトログラムである場合、発話区間から切り出された複数の一部区間の固定長の音声スペクトログラムに対するDNNの複数の出力を統合して音声認識の失敗原因を判定する。
 具体的に、図8を参照して説明する。図8は、音声認識失敗原因の候補数を3個(N=3)としたときの例を示したものである。即ち、音声認識の失敗原因の候補として、候補a,b,cの三つを挙げた例である。
 音信号から発話区間の長さ分の音声スペクトログラムが音声特徴量として抽出され、そこから六つの固定長の音声スペクトログラムが切り出され、それぞれがDNNに入力される。
 DNNに入力されたそれぞれの音声スペクトログラムは、音声認識の失敗原因の候補(候補a、b、c)ごとに3次元ベクトルが出力される。
 具体的に、一つ目の固定長音声スペクトログラムからは、0.1、0.3及び0.6を要素とした3次元ベクトルが出力される。このとき、0.1は音声認識の失敗原因が候補aである可能性の高さ(尤度)を示す数値である。また、0.3は音声認識の失敗原因が候補bである可能性の高さ(尤度)を示す数値である。そして、0.6は音声認識の失敗原因が候補cである可能性の高さ(尤度)を示す数値である。
 従って、図8では、一つ目の固定長音声スペクトログラムからは、音声認識の失敗原因が候補cである可能性が高いとDNNによって判定されたことを示している。
 同様に、一つ目の固定長音声スペクトログラムから六つ目の固定長音声スペクトログラムをそれぞれDNNに入力した結果得られたそれぞれの失敗原因候補の尤度を用いて、失敗原因を判定すると、[0.1 0.3 0.6]^T、[0.1 0.2 0.7]^T、[0.2 0.2 0.6]^T、[0.3 0.3 0.4]^T、[0.4 0.3 0.3]^T、[0.3 0.4 0.3]^Tとなる。なお、「^T」はベクトルの転置を示す。失敗原因の候補ごとに平均値を算出すると、候補aの平均尤度は約0.23、候補bの平均尤度は約0.28、候補cの平均尤度は約0.48となる。
 従って、図7ステップS201の失敗原因特定処理では、候補cが音声認識の失敗原因として特定される。
 なお、音声認識失敗原因の特定処理では、地図データを用いてもよい。即ち、同じような音声スペクトログラムがDNNに入力されたとしても、ユーザの現在地によって異なる失敗原因が特定されるように構成されていてもよい。
 図7の説明に戻る。
 情報処理システム1はステップS202において、再発話の有効性を判定する処理を実行する。再発話の有効性とは、ユーザが移動せずにその場で再度発話を行うことにより、音声認識が成功するか否かを判定する処理である。
 再発話有効性判定処理の一例について、図9を参照して説明する。
 情報処理システム1はステップS301で、発話要求可能な場所か否かを判定する。発話要求可能な場所とは、発話が禁止されるような場所や抑制されるような場所である。具体的には、発声することが好ましくない病院や図書館などでは、発話要求不可と判定される。一方、公道やレストランなどは発話要求可能と判定される。
 なお、このような判定は、例えばユーザ端末3から取得した位置情報と地図データベース50に記憶された情報に基づいて判定してもよい。即ち、地図データベース50に位置情報に対応して発話可能な場所か否かを紐付けて記憶しておき、その情報を参照することによりユーザ端末3が現在位置している場所で発話可能か否かを判定する。
 また、地図上の位置を示す情報とそこに位置する施設の用途目的を示す情報(レストランや喫茶店、病院等)を紐付けられた地図データベース50と共に、施設の用途目的ごとの発話要求可能性(発話要求可能、発話要求不可能)を対応させたデータベースを用いて判定してもよい。
 ユーザ端末3が位置する場所が発話要求可能な場所と判定した場合、情報処理システム1はステップS302で、失敗原因が発話態様によるものか否かを判定する。
 例えば、発話速度が過剰に速すぎる場合や過剰に遅すぎる場合、或いは、周りに雑音が無い状態でマイク信号のゲインが大きすぎる場合や小さすぎる場合など、発話の態様が音声認識の失敗原因である場合には、情報処理システム1はステップS303で再度発話有効と判定する。
 一方、失敗原因が発話態様によるものでないと判定した場合、情報処理システム1は失敗原因が周辺環境によるものと判定し、ステップS304で、音声認識の失敗原因が一時的ノイズであるか否かを判定する。
 一時的ノイズか否かの判定は、例えば、地図データベース50を用いて行ってもよい。具体的には、地図データベース50に位置ごとの非一時的ノイズのレベルや大きさを紐付けて記憶しておくことが考えられる。非一時的ノイズが高くない場所で音声認識が失敗した場合に、失敗原因が発話態様によるものでなければ、一時的ノイズによるものと判定してもよい。また、取得した音情報を解析した結果、一時的ノイズが検出された場合に一時的ノイズによって音声認識が失敗したと判定してもよい。
 音声認識の失敗原因が一時的ノイズであると判定した場合、再度同じ場所で発話を行うことにより音声認識が成功する可能性が高いことから、情報処理システム1はステップS303で再発話有効と判定する。
 一方、音声認識の失敗原因が一時的ノイズではなく非一時的ノイズと判定した場合、情報処理システム1はステップS305で再発話無効と判定する。
 なお、ステップS301で発話要求可能でない場所と判定した場合、即ちユーザが病院などに位置していると判定した場合についても、情報処理システム1はステップS305で再発話無効と判定する。
 図7の説明に戻る。
 情報処理システム1はステップS202の処理を行うことにより、再発話が有効であるか否かの判定結果を得る。
 次に情報処理システム1はステップS203で、再発話有効であるか否かに応じた分岐処理を行う。再発話有効である場合には、情報処理システム1はステップS204で、再発話要求を行う。即ち、ユーザ端末3を介してユーザに再度音声入力を行うように促す。具体的には、音声入力を再度行うように促すための表示を行ってもよいし、音声入力を行うことを促すための音声出力をユーザ端末3が行ってもよい。換言すれば、移動せずに現在地での再発話を促すための情報をユーザ端末3を介して提示する。
 一方、再発話無効と判定した場合、情報処理システム1はステップS205で、移動先候補の情報を生成する処理を行う。この処理では、例えば、地図データベース50に記憶された地図データが用いられる。
 移動先候補は、ユーザの移動距離が短い方が好ましく、また、音声認識の成功確率が高い方が望ましい。従って、ステップS205の処理では、これらの要素を考慮し、適切な移動先候補を生成する。換言すれば、現在地とはことなる代替地での再発話を促すための情報をユーザ端末3を介して提示する。
 なお、移動先候補には優先順位を付与しても構わない。
 移動先候補の生成処理にはいくつかの例が考えられる。
 例えば、ユーザが何度も移動を繰り返して音声入力を行ったにも関わらず音声認識の失敗が続いている場合には、移動距離ができるだけ短くなるように移動先候補を生成することが考えられる。また、逆に、これ以上失敗を繰り返さないためにも、音声認識の成功確率が高いと思われる移動先候補に重みを付けて情報を生成してもよい。
 また、他のユーザの実績情報を用いて音声認識の成功確率を場所ごとに算出し、該算出結果を参照することにより音声認識の成功確率が高い移動先候補を生成してもよい。
 更に、移動距離と音声認識の成功確率それぞれにユーザ毎に異なる重み付けをすることにより、移動先候補の情報がユーザ毎に異なるようにしてもよいし、ユーザによらず同じ移動先候補となるようにしてもよい。例えば、移動が困難な状況にあるユーザについては、移動距離に高い重みを付けることにより、移動距離が短い移動先候補が選択されやすいようにしてもよい。
 移動先候補情報を生成した情報処理システム1はステップS206でアドバイス文生成処理を行う。例えば、移動先候補から優先順位の最も高いものを一つ選択し、移動後に音声入力を再試行するように促す文章をアドバイス文として生成してもよい。また、移動先候補をそのままユーザに見せるためのリスト情報を生成し、それと共に「以下から移動先を選んでください」のような文言を生成し、アドバイス文としてもよい。
<4.変形例>

 上述したステップS104の音声認識成否判定処理では、特徴量抽出処理で抽出した音声特徴量のみを用いて処理を行う例を述べた。ここでは、音声特徴量だけでなく命令情報を用いて音声認識の成否判定を行ってもよい。
 例えば、通常応答生成部1fに受け渡す命令情報として有効なものが有限個に限定されている場合などに、音声認識によって音声認識エンジン部1cが得た命令情報が有効な命令情報集合に属しているか否かを音声認識成否判定部1dが判定することにより、音声認識の成否判定を簡便に行ってもよい。
 これによって、処理負担の軽減が図られる。
 また、上述した処理例では、通常応答情報とアドバイス情報の何れか一方がユーザに提示される例を示したが、情報量を多くすることによりユーザに適切な情報が提示される可能性を高めるために、通常応答情報とアドバイス情報の双方をユーザ端末3上に提示するように構成してもよい。
 これにより、通常応答情報がユーザの行った音声入力に応じた適切なものであれば、ユーザは通常応答情報を閲覧することにより自身の望む適切な情報を得ることができる。また、通常応答情報がユーザの所望の情報でない場合は、アドバイス情報を閲覧することにより、次回の音声入力を成功させるために適切な行動を選択することができる。
 上述した例では、音声認識の失敗原因を特定する処理(ステップS201)とアドバイス文生成処理(ステップS206)を別々に行っているが、音声特徴量から直接アドバイス文を生成するようにDNNを構築してもよい。即ち、N次元の音声認識失敗原因候補の尤度ベクトルを出力するのではなく、テキストを逐次的に出力するRNN(Recurrent Neural Network)やLSTM(Long Short-Term Memory)を用いてもよい。
 これにより、ユーザの音声入力に対してレスポンス性のよい情報提供を行うことができる。
 上述した例では、地図データベース50には、環境ノイズ種別や環境ノイズレベルの分布が位置情報と紐付けられた情報や、公道やレストランや病院などといった施設の用途や目的が位置情報と紐付けられた情報が地図データとして記憶されている例を説明したが、本構成の音声認識の成功頻度や失敗頻度をユーザの使用履歴から場所ごとに抽出し、分布(成功エリアや失敗エリア)として蓄積された情報が記憶されていてもよい。また、場所ごと及び時間ごとの人間の分布情報が記憶されていてもよい。
 上述した例では、失敗原因が一時的なノイズである場合(ステップS304)、再発話有効として判定することにより、その場での再発話をユーザに促す例を説明したが、再発話をユーザに促した後ユーザが再発話を開始するまでに突発的なノイズではなく非一時的なノイズの発生を検出した場合には、その場での再発話を促す表示を取りやめ、移動を促すように構成されていてもよい。また、その場合には、ユーザにその場での再発話を促す場合であっても、地図データなどを用いて代替地の検索を予め行っておくことにより、周辺環境の変化に即座に対応可能なシステムを提供することができる。
 上述した例では、サーバ装置2が各種の判定処理を行う例を説明したが、一部をユーザ端末3が備えていてもよい。例えば、ユーザ端末3が特徴量抽出部1b、音声認識エンジン部1c、音声認識成否判定部1dを備えていてもよい。この場合には、ユーザ端末3で音声認識の成否判定が行われ、その結果に応じてサーバ装置2に対して、アドバイス情報と通常応答情報の何れかを要求する処理を行う。サーバ装置2は該要求に基づいて、アドバイス情報生成部1e或いは通常応答生成部1fで生成した提示情報をユーザ端末3に送信する。ユーザ端末3では受信した提示情報をユーザに提示する提示処理が行われる。
 また、ユーザ端末3が更にアドバイス情報生成部1e、通常応答生成部1f、応答制御部1gを備えていてもよい。即ち、ユーザ端末3で各判定処理などが行われてもよい。
<5.まとめ>

 上述したように、情報処理装置(サーバ装置2)は、ユーザの音声入力の音声認識の成否を判定する音声認識成否判定部1dと、判定において音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部1fと、判定においてユーザの周辺環境に起因して音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部1eと、を備えている。
 ユーザの周辺環境に起因して音声認識が失敗した場合に、次の音声認識を成功させるために提示するアドバイス情報が生成される。これによって、ユーザが適切な行動を取れるようなアドバイス情報を提示することが可能となる。
 従って、ユーザはアドバイス情報に応じた適切な行動を取ることができ、音声入力を成功させる可能性を高めることができる。
 例えば、発話速度が速すぎる場合に「もっとゆっくり喋ってください」とアドバイス情報を提示するようなシステム、換言すれば、音声認識の失敗原因とアドバイス情報を一対一に対応付けたアドバイス情報生成システムを構成することは容易である。しかし、そのようなシステムの場合、その場で再発話を行うことにより解決可能な問題には有効かもしれないが、その場では再度の音声認識が成功しない場合には適切なアドバイス情報を提示することができない。
 しかし、本構成によれば、その場での再発話では解決できない問題であっても、次の音声認識を成功させるためのアドバイス情報を生成するアドバイス情報生成部1eを備えているため、有効なアドバイス情報をユーザに提示することが可能である。この効果は、再試行を行う場所として現在地とは異なる代替地を提示するような後述する構成を備えることにより更に容易に実現可能である。
 なお、ユーザ端末3は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定処理(ステップS104)と、判定において音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成処理(ステップS106)と、判定においてユーザの周辺環境に起因して音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成処理(ステップS107)とによって生成されたいずれかの提示情報を受信する通信部3mと、該受信情報を提示する提示部とを備える。
 また、図6のステップS105で説明したように、判定の結果として、音声認識が成功したことを示す結果を取得した場合には通常応答情報を選択し、音声認識が失敗したことを示す結果を取得した場合にはアドバイス情報を選択する応答制御部1gを備えていてもよい。
 即ち、音声認識の成否に応じて応答情報(通常応答情報とアドバイス情報の何れか)が選択される。または、音声認識の成否に応じて何れの応答情報を生成するか決定される。
 従って、ユーザに提示する情報として適切な情報が選択されるため、周辺環境に応じた適切な応答がなされる。
 更に、図6のステップS106,S108で説明したように、応答制御部1gによって選択された情報をユーザに提示する応答情報提示部1hを備えていてもよい。
 即ち、音声認識の成否に応じた応答情報がユーザに提示される。
 これにより、音声認識が成功したと判定した場合には認識した音声指示に応じて適切な情報がユーザに提示されると共に、音声認識が失敗した場合には次回の音声認識を成功させるための適切なアドバイス情報をユーザに提示することができ、ユーザが行いたい音声入力による指示を少ない試行回数で実現することができる。
 更にまた、図7のステップS201で説明したように、音声認識が失敗した場合に、失敗原因を判定(特定)するための原因判定処理(失敗原因特定処理)を行ってもよい。
 ユーザの音声入力の音声認識についての失敗原因が特定される。
 従って、音声認識の失敗時に、失敗原因に応じた適切なアドバイス情報を生成することができ、該アドバイス情報をユーザに提示することにより次回の音声認識を成功させる可能性を高めることができる。
 加えて、図9のステップS302、S304などで説明したように、原因判定処理(失敗原因特定処理)では、失敗が発話態様によるものかノイズによるものかの判定を行ってもよい。
 これにより、音声認識の失敗原因について、再試行により解消可能と推測できる発話態様によるものであるのか、或いはノイズによるものであるのか、判定される。
 従って、例えば失敗原因が発話態様によるものである場合に、再度音声認識のやり直しを行うためのアドバイス情報を提示するなどの処理を行うことができる。
 そして、図9のステップS302、S304で説明したように、原因判定処理(失敗原因特定処理)では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定してもよい。
 音声認識の失敗原因がノイズである場合に、該ノイズの特性を判定することにより、音声入力を再度求めるアドバイス情報とその他のアドバイス情報の何れを提示するか、適切に判定することが可能となる。
 具体的には、ノイズが一時的なノイズ(一時ノイズ)である場合には、音声入力の再試行により音声認識が成功する可能性が高いため、再度の音声入力を求めるアドバイス情報を提示し、ノイズが非一時的なノイズ(非一時ノイズ)である場合には、音声入力の再試行によって音声認識が成功する可能性が低いため、異なるアドバイス情報を提示する。
 これにより、次回の音声認識を成功させるための適切なアドバイス情報をユーザに提示することが可能となる。
 なお、本構成を用いなくとも、単に雑音レベルから「静かな場所でもう一度喋ってください」とアドバイス情報を生成するシステムを構築することは可能かもしれない。しかし、突発的で一時的な雑音が混じったことにより失敗したのであって、その場所の恒常的な雑音レベルであればその場で再発話することにより次回の音声認識が成功する可能性が高い場合であっても、同様のアドバイス情報を提示してしまう可能性が高い。この場合には、場所移動を強いる不適切なアドバイス情報となってしまう。
 更に、ユーザが周囲の静かな場所を知らない場合は、どこに移動すれば音声認識が成功するのか分からず、不十分なアドバイス情報となってしまう。
 本構成によれば、そのようなことを防止するために、ノイズが一時的ノイズであるのか非一時的ノイズであるのかを判定している。これにより、ユーザに対して適切なアドバイス情報を提示することができる。
 また、図7のアドバイス情報生成処理で説明したように、原因判定処理(失敗原因特定処理)では、分類器を用いてもよい。
 分類器を用いることにより、音声認識の失敗原因の推定を自動で行うことができる。
 これにより、音声認識の失敗時に、ユーザに対して適切なアドバイスを迅速に提示することが可能となる。
 更に、図7のアドバイス情報生成処理で説明したように、分類器は機械学習(例えばDNN)によって生成されてもよい。
 分類器を生成するための具体的な処理方法として機械学習が用いられる。
 例えばディープラーニングなどの具体的な手法を用いることにより、自動で分類器を生成することができ、失敗原因の推定に用いることができる。
 更にまた、図7のステップS201や図8で説明したように、原因判定処理(失敗原因特定処理)では、失敗原因の判定のために地図データを用いてもよい。
 これにより、音声データの解析によって得られるノイズなどの情報だけでなく、地図データを用いてノイズの発生原因などが推定されて、失敗原因の判定に利用される。
 従って、失敗原因の判定処理の精度を高めることができ、より適切なアドバイス情報の生成及び提示を行うことが可能となる。
 加えて、図7のアドバイス情報生成処理で説明したように、アドバイス情報生成部1eは、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成してもよい。
 これにより、次回の音声認識を成功させるための情報がユーザに提示される。
 従って、ユーザはアドバイス情報に基づいた適切な行動をとることができる。
 そして、図9のステップS304、S305、図7のステップS203、S205等で説明したように、音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされてもよい。
 これにより、次回の音声認識を成功させるための適切な移動候補地が代替地としてユーザに提示される。
 従って、ユーザはアドバイス情報に基づいて適切な対処を行うことができ、次回の音声認識が成功する可能性を高めることができる。
 また、図9のステップS304、S303、図7のステップS203、S204等で説明したように、音声認識の失敗原因が一時的なノイズである場合において、再試行を行う場所は現在地とされてもよい。
 これにより、次回の音声認識を成功させるためのユーザがとるべき適切な行動を示唆するためのアドバイス情報が生成される。
 従って、次回の音声認識を成功させる可能性を高めることができる。また、再試行を行う場所が現在地とされることにより、ユーザは次回の音声入力を行うために現在地から移動しなくても済むため、速やかに次回の音声入力を行うことができ、ユーザの所望の機能を動作させるために要する時間も短くて済む。即ち利便性の高い機能を提供することができる。
 更に、図9のステップS301で説明したように、ユーザの現在地が発話制限エリアであると判定された場合において、再試行を行う場所は現在地とは異なる代替地とされてもよい。
 これにより、次回の音声認識を成功させるためのアドバイス情報が生成されると共に、ユーザが発話制限エリアで音声入力を行ってしまうような不適切な行動を取らなくて済むためのアドバイス情報が生成される。
 これにより、ユーザが不適切な行動を取ってしまうことを防止することができる。
 更にまた、図7のステップS205で説明したように、再試行を行う場所は地図データを用いて決定されてもよい。
 音声入力を改めて行うのに適切な場所(代替地)の決定において地図データを用いることにより、代替地の近さや騒音の大きさなどが考慮される。
 即ち、ユーザにとって音声入力の再試行が成功しやすいアドバイス情報が提示されるだけでなく、再試行の容易さを考慮した適切なアドバイス情報が提示される。即ち、ユーザにとって高い利便性を備えたサービスを提供することができる。
 加えて、図7のステップS205で説明したように、再試行を行う場所は他のユーザの実績情報を用いて決定されてもよい。
 音声入力に改めて行うのに適切な場所(代替地)の決定において、他ユーザ実績情報を用いることにより、実際に音声入力が成功しやすい地理的な状況(周辺環境)を鑑みたアドバイス情報が生成される。
 従って、代替地の候補となる場所について、地図データなどでは事前に把握できない事情が存在していたとしても、他ユーザの実際の成否情報に基づいて、適切な代替地が選択されるため、ユーザにとって次回の音声入力を成功させるための適切なアドバイス情報を提供することができる。
 また、時刻情報を更に考慮することも有効である。ユーザが実際に音声入力を行おうとしている時間帯に合わせた他ユーザ実績情報を考慮することにより、ユーザの音声入力に対する音声認識を成功させる可能性を更に高めることができる。
 システムの構成において説明したように、ユーザ端末3がユーザの音声を取得するマイクロフォンを備えていてもよい。
 マイクロフォンを備えたユーザ端末に音声認識成否判定部と通常応答生成部とアドバイス情報生成部が設けられている場合、ユーザの音声を取得し、音声認識の成否を判定し、それに応じて通常応答情報かアドバイス情報の何れかを生成する処理をユーザ端末が実行可能とされる。
 即ち、サーバ装置などの他の情報処理装置と通信を行わずにユーザ端末のみで適切な音声認識及びアドバイス情報の提示を行うことが可能となる。通信が発生しないことにより、ユーザ端末に許容されている通信容量の消費を抑えることが可能となる。
 本発明の実施の形態のプログラムは、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定機能と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成機能と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成機能と、を演算処理装置に実現させるプログラムである。
 より具体的には、図6乃至図9に示す各処理を演算処理装置としての制御部(情報処理システム1のサーバ装置2のCPU151やユーザ端末3のCPU151)に実行させるプログラムである。
 このようなプログラムにより本実施の形態の情報処理システム1の実現が容易となる。
 そしてこのようなプログラムは演算処理装置等の機器に内蔵されている記録媒体や、CPUを有するマイクロコンピュータ内のROM等に予め記憶しておくことができる。あるいはまた、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスクなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記憶)しておくことができる。またこのようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN、インターネットなどのネットワークを介してダウンロードすることもできる。
 尚、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
<6.本技術>

 本技術は以下のような構成も採ることができる。
(1)
 ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、
 前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、
 前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えた
 情報処理装置。
(2)
 前記判定の結果として、前記音声認識が成功したことを示す結果を取得した場合には前記通常応答情報を選択し、前記音声認識が失敗したことを示す結果を取得した場合には前記アドバイス情報を選択する応答制御部を備えた
 上記(1)に記載の情報処理装置。
(3)
 前記応答制御部によって選択された情報をユーザに提示する応答情報提示部を備えた
 上記(2)に記載の情報処理装置。
(4)
 前記音声認識が失敗した場合に、失敗原因を判定するための原因判定処理を行う
 上記(1)乃至(3)の何れかに記載の情報処理装置。
(5)
 前記原因判定処理では、失敗が発話態様によるものかノイズによるものかの判定を行う
 上記(4)に記載の情報処理装置。
(6)
 前記原因判定処理では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定する
 上記(5)に記載の情報処理装置。
(7)
 前記原因判定処理では、分類器を用いる
 上記(4)乃至(6)の何れかに記載の情報処理装置。
(8)
 前記分類器は機械学習によって生成される
 上記(7)に記載の情報処理装置。
(9)
 前記原因判定処理では、失敗原因の判定のために地図データを用いる
 上記(4)乃至(8)の何れかに記載の情報処理装置。
(10)
 前記アドバイス情報生成部は、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成する
 上記(1)乃至(9)の何れかに記載の情報処理装置。
(11)
 前記音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
 上記(10)に記載の情報処理装置。
(12)
 前記音声認識の失敗原因が一時的なノイズである場合において、前記再試行を行う場所は現在地とされた
 上記(10)または(11)の何れかに記載の情報処理装置。
(13)
 ユーザの現在地が発話制限エリアであると判定された場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
 上記(10)乃至(12)の何れかに記載の情報処理装置。
(14)
 前記再試行を行う場所は地図データを用いて決定された
 上記(10)乃至(13)の何れかに記載の情報処理装置。
(15)
 前記再試行を行う場所は他のユーザの実績情報を用いて決定された
 上記(10)乃至(14)の何れかに記載の情報処理装置。
(16)
 ユーザの音声を取得するマイクロフォンを備えた
 上記(1)乃至(15)の何れかに記載の情報処理装置。
(17)
 ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定手順と、
 前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成手順と、
 前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成手順と、を情報処理装置が実行する
 情報処理方法
(18)
 ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定機能と、
 前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成機能と、
 前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成機能と、を演算処理装置に実現させる
 プログラム
1…情報処理システム、1d…音声認識成否判定部、1e…アドバイス情報生成部、1f…通常応答生成部、1g…応答制御部、1h…応答情報提示部、2…サーバ装置、3…ユーザ端末、50…地図データベース

Claims (18)

  1.  ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、
     前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、
     前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えた
     情報処理装置。
  2.  前記判定の結果として、前記音声認識が成功したことを示す結果を取得した場合には前記通常応答情報を選択し、前記音声認識が失敗したことを示す結果を取得した場合には前記アドバイス情報を選択する応答制御部を備えた
     請求項1に記載の情報処理装置。
  3.  前記応答制御部によって選択された情報をユーザに提示する応答情報提示部を備えた
     請求項2に記載の情報処理装置。
  4.  前記音声認識が失敗した場合に、失敗原因を判定するための原因判定処理を行う
     請求項1に記載の情報処理装置。
  5.  前記原因判定処理では、失敗が発話態様によるものかノイズによるものかの判定を行う
     請求項4に記載の情報処理装置。
  6.  前記原因判定処理では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定する
     請求項5に記載の情報処理装置。
  7.  前記原因判定処理では、分類器を用いる
     請求項4に記載の情報処理装置。
  8.  前記分類器は機械学習によって生成される
     請求項7に記載の情報処理装置。
  9.  前記原因判定処理では、失敗原因の判定のために地図データを用いる
     請求項4に記載の情報処理装置。
  10.  前記アドバイス情報生成部は、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成する
     請求項1に記載の情報処理装置。
  11.  前記音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
     請求項10に記載の情報処理装置。
  12.  前記音声認識の失敗原因が一時的なノイズである場合において、前記再試行を行う場所は現在地とされた
     請求項10に記載の情報処理装置。
  13.  ユーザの現在地が発話制限エリアであると判定された場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
     請求項10に記載の情報処理装置。
  14.  前記再試行を行う場所は地図データを用いて決定された
     請求項10に記載の情報処理装置。
  15.  前記再試行を行う場所は他のユーザの実績情報を用いて決定された
     請求項10に記載の情報処理装置。
  16.  ユーザの音声を取得するマイクロフォンを備えた
     請求項1に記載の情報処理装置。
  17.  ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定手順と、
     前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成手順と、
     前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成手順と、を情報処理装置が実行する
     情報処理方法。
  18.  ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定機能と、
     前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成機能と、
     前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成機能と、を演算処理装置に実現させる
     プログラム。
PCT/JP2019/005109 2018-05-31 2019-02-13 情報処理装置、情報処理方法、プログラム WO2019230065A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/058,092 US20210201929A1 (en) 2018-05-31 2019-02-13 Information processing apparatus, information processing method, and program
EP19810077.8A EP3806090A4 (en) 2018-05-31 2019-02-13 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS, AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018104737 2018-05-31
JP2018-104737 2018-05-31

Publications (1)

Publication Number Publication Date
WO2019230065A1 true WO2019230065A1 (ja) 2019-12-05

Family

ID=68698043

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/005109 WO2019230065A1 (ja) 2018-05-31 2019-02-13 情報処理装置、情報処理方法、プログラム

Country Status (3)

Country Link
US (1) US20210201929A1 (ja)
EP (1) EP3806090A4 (ja)
WO (1) WO2019230065A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022044167A1 (ja) * 2020-08-26 2022-03-03 オリンパス株式会社 幹細胞の分化を評価するシステム、方法、及び、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2008256802A (ja) 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010186126A (ja) 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1367438A (en) * 1919-03-27 1921-02-01 Strausbaugh Charles Francis Concrete-wall mold
JP5370335B2 (ja) * 2010-10-26 2013-12-18 日本電気株式会社 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP7240116B2 (ja) * 2018-09-11 2023-03-15 カワサキモータース株式会社 乗物の音声システム及び音声出力方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2008256802A (ja) 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010186126A (ja) 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3806090A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022044167A1 (ja) * 2020-08-26 2022-03-03 オリンパス株式会社 幹細胞の分化を評価するシステム、方法、及び、プログラム

Also Published As

Publication number Publication date
US20210201929A1 (en) 2021-07-01
EP3806090A1 (en) 2021-04-14
EP3806090A4 (en) 2021-07-21

Similar Documents

Publication Publication Date Title
CN107039038B (zh) 学习个性化实体发音
US20210249013A1 (en) Method and Apparatus to Provide Comprehensive Smart Assistant Services
KR102622356B1 (ko) 장치에 대한 다중 사용자 인증
CN110140168B (zh) 上下文热词
CN104575493B (zh) 使用地理信息的声学模型适配
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
EP3923281B1 (en) Noise compensation using geotagged audio signals
JP6118838B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US20150193379A1 (en) System and method for cognizant time-based reminders
CN111627424A (zh) 基于词比较的语音端点定位的方法、***和介质
CN106796788A (zh) 基于用户反馈来改善自动语音识别
US20220148572A1 (en) Server supported recognition of wake phrases
CN107967916A (zh) 确定语音关系
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
KR20200098079A (ko) 대화 시스템 및 대화 처리 방법
US11756538B1 (en) Lower latency speech processing
WO2019230065A1 (ja) 情報処理装置、情報処理方法、プログラム
CN111145735A (zh) 电子设备及其操作方法
KR20200082137A (ko) 전자 장치 및 그의 제어 방법
WO2014199428A1 (ja) 候補告知装置、候補告知方法及び候補告知用プログラム
JP7251953B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US11641592B1 (en) Device management using stored network metrics
JP5160653B2 (ja) 情報提供装置、通信端末、情報提供システム、情報提供方法、情報出力方法、情報提供プログラム、情報出力プログラムおよび記録媒体
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
Sidiq et al. Vomma: Android application launcher using voice command

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19810077

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019810077

Country of ref document: EP

Effective date: 20210111

NENP Non-entry into the national phase

Ref country code: JP