WO2017175351A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
WO2017175351A1
WO2017175351A1 PCT/JP2016/061385 JP2016061385W WO2017175351A1 WO 2017175351 A1 WO2017175351 A1 WO 2017175351A1 JP 2016061385 W JP2016061385 W JP 2016061385W WO 2017175351 A1 WO2017175351 A1 WO 2017175351A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
utterance
information processing
processing apparatus
options
Prior art date
Application number
PCT/JP2016/061385
Other languages
English (en)
French (fr)
Inventor
真一 本多
めぐみ 菊池
隆史 佐竹
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to PCT/JP2016/061385 priority Critical patent/WO2017175351A1/ja
Priority to US16/087,924 priority patent/US10839800B2/en
Priority to JP2018510188A priority patent/JP6654691B2/ja
Publication of WO2017175351A1 publication Critical patent/WO2017175351A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, a program, and an information storage medium that accept voice input from a user.
  • the information processing apparatus plays back the speech to the user by voice prior to the user's utterance, the user cannot start the utterance until the playback of the speech is finished. For this reason, if the information processing apparatus makes a statement that is not of interest to the user, smooth communication may be impaired.
  • the present invention has been made in consideration of the above situation, and one of its purposes is an information processing apparatus, an information processing method, a program, and an information processing apparatus capable of realizing smooth communication with a user by voice.
  • An object is to provide an information storage medium.
  • An information processing apparatus includes an option presenting unit that presents a plurality of options to a user, a voice recognition unit that recognizes the utterance content of the user who selects any of the plurality of options, and the recognized user
  • a selection result specifying unit that specifies the option selected by the user based on whether or not a phrase included in the utterance content corresponds to a phrase included in a dictionary corresponding to each of the plurality of options prepared in advance It is characterized by including these.
  • the program according to the present invention includes an option presentation unit that presents a plurality of options to a user, a voice recognition unit that recognizes the user's utterance content that selects any of the plurality of options, and the recognized user utterance.
  • a selection result specifying unit for specifying an option selected by the user based on whether or not a word or phrase included in the content corresponds to a word or phrase included in a dictionary corresponding to each of the plurality of options prepared in advance.
  • FIG. 1 is a configuration block diagram showing a configuration of an information processing apparatus 1 according to an embodiment of the present invention.
  • the information processing apparatus 1 is, for example, a home game machine, a portable game machine, a personal computer, a smart phone, or the like, and includes a control unit 11, a storage unit 12, and an interface unit 13, as shown in FIG. It is configured to include.
  • the information processing apparatus 1 is connected to the display device 14, the microphone 15, the speaker 16, and the camera 17.
  • the control unit 11 includes a CPU and the like, and executes various kinds of information processing by executing programs stored in the storage unit 12. A specific example of processing executed by the control unit 11 in the present embodiment will be described later.
  • the storage unit 12 includes a memory device such as a RAM, and stores a program executed by the control unit 11 and data processed by the program.
  • the interface unit 13 is an interface for the information processing apparatus 1 to exchange various information with the display device 14, the microphone 15, the speaker 16, and the camera 17.
  • the display device 14 is a head-mounted display, a household television receiver, a liquid crystal display, or the like, and displays an image corresponding to the video signal output from the information processing device 1 on the screen.
  • the display device 14 is a device of a type that covers the user's field of view, such as a head-mounted display, the user cannot see his or her hand, so that it is difficult to operate an operation input device such as a controller by hand. Therefore, as described later, the information processing apparatus 1 accepts input of information by the voice of the user, so that the user can easily input information even in a situation where his / her hand cannot be confirmed.
  • the microphone 15 outputs an audio signal obtained by collecting a voice uttered by the user of the information processing apparatus 1 to the information processing apparatus 1.
  • the speaker 16 sounds a sound according to the sound signal output from the information processing apparatus 1.
  • the camera 17 captures an image showing the state of the user and inputs the captured image to the information processing apparatus 1.
  • the display device 14, the microphone 15, and the speaker 16 may all be built in the housing of the information processing device 1, or may be separate devices connected to the information processing device 1 by wire or wirelessly. Good.
  • the information processing apparatus 1 may be connected to a device including a posture detection sensor such as a three-axis acceleration sensor or a geomagnetic sensor in order to detect the movement of the user's head. When the user wears such a device, the motion of the user's head can be detected. Further, the information processing apparatus 1 may be connected to an operation input device (such as a controller) that receives a user operation input.
  • a posture detection sensor such as a three-axis acceleration sensor or a geomagnetic sensor
  • an operation input device such as a controller
  • the information processing apparatus 1 functionally includes an agent processing unit 21, an audio signal acquisition unit 22, an audio recognition unit 23, and a selection result specifying unit 24. These functions are realized by the control unit 11 operating according to a program stored in the storage unit 12. This program may be provided to the information processing apparatus 1 via a communication network such as the Internet, or may be provided by being stored in a computer-readable information storage medium such as an optical disk.
  • FIG. 3 shows an example of a screen for displaying options.
  • the question “Where are you going?” From the agent to the user and possible answers to that question are “Pool”, “Nissho Park”, “Plum Land”, “Cool Cat Park”.
  • Four options are presented.
  • a phrase translated into English and a label (here, a number) for identifying the option are displayed side by side.
  • the four options are not arranged in order from the top, but are arranged in four directions, up, down, left, and right when viewed from the center of the screen.
  • the agent processing unit 21 may reproduce a plurality of options in order from the speaker 16 instead of displaying the options on the screen. Although the options are displayed on the screen, only the questions may be reproduced as audio.
  • the agent processing unit 21 may display the agent's utterance on the screen of the display device 14 instead of reproducing it as voice.
  • the agent processing unit 21 may calculate not only the selection result of the user but also various feature amounts indicating the characteristics of the selected utterance, and may determine the utterance content of the subsequent agent using the calculation result.
  • the content of the agent's utterance may be determined using information on the facial expression and action of the user captured by the camera 17. Even when the user makes a selection from among the choices, it is considered that various emotions are included, such as whether the selection is made positively or passively.
  • the agent processing unit 21 obtains feature quantities relating to various paralinguistic information and non-linguistic information reflecting the user's emotions and thoughts by analyzing the selected utterance itself and the state of the user when the selected utterance is performed. be able to. By determining the subsequent agent behavior using such feature amounts, the agent processing unit 21 is more natural than a conversation between humans compared to the case of merely presenting options and accepting selection results. Communication can be realized.
  • the audio signal acquisition unit 22 acquires the audio signal collected by the microphone 15 and outputs it to the audio recognition unit 23.
  • the audio signal acquisition unit 22 acquires an audio signal including a user's voice that responds to the agent's question.
  • the voice recognition unit 23 specifies the content of the user's utterance by analyzing the voice signal acquired by the voice signal acquisition unit 22. Such specification of the utterance content can be realized by using various known speech recognition techniques such as a statistical method using a hidden Markov model and a dynamic time expansion / contraction method. The specified user's utterance content is used for specifying the selection result by the selection result specifying unit 24.
  • the voice recognition unit 23 may execute the voice recognition process at any time while the user is speaking instead of performing the voice recognition process after the user has finished speaking. In this case, while the user continues speaking, the voice recognition unit 23 performs voice recognition processing on the voice signals for a predetermined time sequentially acquired by the voice signal acquisition unit 22, and the voice for the predetermined time. Identify what phoneme the signal corresponds to. By repeatedly executing such processing over time, the user's utterance content can be specified in real time.
  • the selection result specifying unit 24 specifies the selection result of the user according to the content of the selected utterance specified as a result of the voice recognition by the voice recognition unit 23.
  • the selection result specifying unit 24 utters the phrase. What is necessary is just to specify an option as a selection result as it is.
  • the user does not always utter the choice phrase itself.
  • the speech recognition unit 23 Even when the user utters the word of choice itself, the speech recognition unit 23 always keeps the content of the user's utterance accurate because of problems such as ambient noise, the user's own tongue, and accuracy of speech recognition processing. Not always recognizable. Therefore, the selection result specifying unit 24 executes various determination processes based on the voice recognition result by the voice recognition unit 23 and specifies the user's selection result.
  • a related word dictionary including the choice word / phrase itself and a related word / phrase is prepared in advance. For example, if the choice word is a proper noun, the abbreviation or nickname may be included in the related word dictionary.
  • the selection result specifying unit 24 determines that an option corresponding to the related word dictionary is selected when the user's utterance content recognized by the voice recognition unit 23 matches any of the words registered in the related word dictionary. To do. By registering various expressions for the same word / phrase in the related word dictionary in advance, the user's selection result can be specified even when the user speaks the displayed choice in another expression.
  • the related word dictionary may include a translated word obtained by translating an optional word or a related word into various languages.
  • choice words and phrases are displayed in both Japanese and English, but translation expressions of choice words and phrases are also registered in the related word dictionary for other foreign languages. In this way, even if the user speaks the contents of the choice in a foreign language, the selection result can be specified.
  • the related word dictionary is not limited to foreign language translation expressions, and may include phrases expressing alternative phrases in local dialects. Also, even if the words themselves are the same, the intonation at the time of utterance differs depending on the user, and due to such a difference in intonation, there is a possibility that the words are recognized as different words in the speech recognition processing. Therefore, the related word dictionary may include expressions that utter the same phrase with various intonations. In addition to normal English expressions, Japanese-speaking English (so-called Katakana English) may also be included.
  • the agent processing unit 21 adds and displays a label for identifying the option.
  • a numeric label is added to each option.
  • the user may speak a phrase indicating a label added to the option instead of the option phrase. For example, when the user wants to select a pool in the example of FIG. 3, the user may utter “1”.
  • the labels added to the choices are not limited to numbers, but alphabets, Greek letters (“ ⁇ ”, “ ⁇ ”,%), Phonetic codes (“Alfa”, “Bravo”, etc, Japanese syllabary (“A”, “I” “” “” “” “” “” “,” “Iroha”, “” “” “” “” “” “” “” “” “” “” “” “”.” “”.
  • the label may be a symbol such as “ ⁇ ”, “ ⁇ ”, “ ⁇ ”. In this case, the user can select an option by saying “maru” or “sankaku”.
  • a label dictionary that registers words corresponding to labels is prepared in advance, and when the agent processing unit 21 adds a label to each option and presents it, a word indicating the label added to each option Label dictionaries containing are matched.
  • the selection result specifying unit 24 specifies the option to which the label is added as the selection result.
  • the label dictionary includes not only words that directly represent labels such as “Ichi” and “maru”, but also words that have been translated into national languages, words that have different intonations, etc. It may be.
  • the label dictionary is not limited to a word indicating a label added to an option, and may include a word indicating an option display mode.
  • a phrase indicating such a display mode a phrase indicating a display position in the option screen can be given.
  • the label dictionary may include words representing positions such as “up”, “done”, “migi”, and “hidari”. In this way, the user can select the “pool” displayed in the upward direction by speaking “up”, for example.
  • the phrase indicating the display mode may include a phrase such as a number indicating the display order or an ordinal number.
  • the selection result specifying unit 24 may use a combination of the first example and the second example. In this case, the selection result specifying unit 24 may compare the words / phrases included in all of the related word dictionary and the label dictionary with the user's utterance content to find a matching word / phrase.
  • the selection result specifying unit 24 may determine that the content of the user's utterance corresponds to a word / phrase included in the dictionary even if the selection result specifying unit 24 does not completely match.
  • a phrase included in a related word dictionary or a label dictionary that is, a phrase that the selection result specifying unit 24 should compare with a user's utterance content
  • a comparison target phrase a phrase included in a related word dictionary or a label dictionary
  • the selection result specifying unit 24 considers that the user has selected an option corresponding to the comparison target word / phrase.
  • judgment criteria regarding decorative expressions will be described.
  • the user does not always utter an option word and its related words, or a word indicating a label given to the option, but may add various words (decorative expressions) before and after.
  • various words decorative expressions
  • the user when the user speaks in an attitude close to that of a normal conversation, the user is more likely to speak a sentence including the comparison target phrase than to speak a single phrase.
  • some words such as “Pool Kana...” “I Kana! It is thought that the content is uttered. Even in such a case, the selection result specifying unit 24 is desired to correctly specify the user's selection result.
  • the selection result specifying unit 24 specifies an option corresponding to the matching comparison target phrase as the selection result. In this way, the selection result specifying unit 24 determines whether a part of the user's utterance matches the comparison target phrase, so that the user can make an utterance for selecting an option with an attitude close to a natural conversation. Can do.
  • the user's utterance content may be recognized as a word that is close to the comparison target word but does not completely match due to misrecognition in the speech recognition processing or a user's utterance habit.
  • the selection result specifying unit 24 matches both when a predetermined pattern shift occurs as a fluctuation in expression between the comparison target phrase and the user's utterance content. Judge that.
  • the selection result specifying unit 24 may determine that when the vowels match between the user's utterance content and the comparison target phrase, both correspond even if the consonants do not match.
  • the selection result specifying unit 24 estimates that the user has uttered “Ichi” in Japanese and selects the first option. You may specify as a result.
  • the speech recognition result for the user's utterance content includes another phrase such as “beach” that differs only in some consonants, “peach” "May be specified as the selection result.
  • the user's utterance “Shigag” may be determined to mean “Shikak” in Japanese. Further, when there is a difference in pronunciation of the same word between British English and American English, it may be determined that such a phrase with a changed sound corresponds to a comparison target phrase. Specifically, it is known that there is a difference in pronunciation between British English and American English, such as the first i pronunciation in vitamina and the first h pronunciation in herb. By comparing the words to be compared with the content of the user's utterance using these criteria, such words and phrases can be compared with the words to be compared even if not all the words whose expressions have changed due to dialects are included in the dictionary. Can be determined.
  • the selection result specifying unit 24 determines that the comparison target words and the user's utterance content partially correspond to each other within a predetermined reference range. For example, a person's name may be called with a nickname whose first half matches the original name but does not match the second half. Specifically, if the name is “Malthus”, there is a possibility that “Maru-chan”, “Maru-kun”, “Maru-san”, etc. will be called. “Christina” may also be called “Chris”, “Chrissy”, and the like.
  • the selection result specifying unit 24 compares the user's utterance content and the comparison target when the user's utterance content includes a predetermined number of phonemes, or a phrase whose head phoneme of a predetermined ratio matches the comparison target word / phrase. Judge that the phrase corresponds. In this way, when the user uses an expression in which a part of the choice word / phrase is changed, the selection result can be correctly specified even if the changed expression is not comprehensively registered in the dictionary. Note that the user's selection result should be specified based on the same criteria, not only for the person's name, but also when the word of the choice is “cut” and the user utters “cutity”. Can do.
  • the selection result specifying unit 24 can specify the user's selection result.
  • the agent processing unit 21 determines the remark of the subsequent agent according to the selection result specified by the selection result specifying unit 24. Furthermore, the agent processing unit 21 may change subsequent utterances according to not only the user's selection result but also the user's emotion and attitude read from the selected utterance. As a method for determining the user's emotion and attitude from the utterance content, a known method can be used.
  • the agent processing unit 21 estimates the user's emotion using the feature amount of the paralinguistic information calculated from the voice signal recording the selected utterance.
  • the paralinguistic information may include speech speed, volume (voice pressure), voice inflection, intonation (such as words emphasized by the user), wording (such as polite tone), amount of speech, and the like.
  • various types of information obtained from a user image captured by the camera 17 may be used.
  • Information obtained from video includes user's facial expression, line of sight, blinking, and actions (gestures) such as whispering and hand shaking.
  • the agent processing unit 21 calculates an elapsed time from when the option is presented until the user starts the selected utterance (hereinafter referred to as “thinking time”) as one of the feature values, and uses it for the emotion evaluation process. Good. It is presumed that the shorter the thinking time, the user is choosing the option without hesitation, and when the thinking time is long, the user is considered to be at a loss when making the selection. By referring to such information, the user's emotion can be read. When the user's emotion is evaluated using the thinking time, the evaluation criterion may be changed according to the presentation order when the selection result selected by the user is presented as an option.
  • the agent processing unit 21 determines that the thinking time is shorter than the actual time compared to the case where the option presented earlier is specified as the selection result. Evaluate. In this way, the evaluation can be performed according to the time from when the user visually recognizes the option until the user makes the selected utterance.
  • the user may utter a phrase indicating a label instead of uttering the choice phrase itself in the selected utterance.
  • the emotion may be evaluated assuming that the word indicates an option word. For example, when the user utters “It is A”, if the label A is added to the option “cute”, the agent processing unit 21 is the same as when the user utters “cute”. Evaluate emotions based on evaluation criteria. As a result, it is possible to evaluate whether the user really thinks it is cute or whether it is sarcastic. On the other hand, when the label A is added to the option “apple”, the emotion is evaluated on the assumption that the user has spoken about the apple. In this case, it is not necessary to evaluate whether the statement is ironic.
  • the agent processing unit 21 may use the evaluation result obtained by the emotion evaluation process described above for the determination of the content of the statement, or may reflect it in other output content. For example, when the agent processing unit 21 executes a game process, the progress of the game may be changed according to the evaluation result. In this example, if it is evaluated that the user has made the selected utterance with a strong emotion, an advantageous effect may be generated in the game. Further, the agent processing unit 21 may present the evaluation result itself to the user. Further, the agent processing unit 21 may change the selection result specified by the selection result specifying unit 24 depending on the emotion evaluation result. As an example, when the user selects a certain selection result, and the evaluation process of the emotion for the selected utterance is evaluated as negative, the agent processing unit 21 has another option. The process may be continued as specified as a selection result.
  • the information processing apparatus 1 uses the emotion evaluation result to cause the user to select one of a plurality of options, and the subsequent processing content exceeds the number of options. Can be changed in various ways.
  • the information processing apparatus 1 can guide the user to utter an utterance that naturally includes the emotion. This makes it possible for the user to feel as if he / she is performing natural communication similar to a conversation between humans even though he / she chooses an option.
  • the agent processing unit 21 determines the content of the next utterance of the agent based on the result of analyzing the utterance content, and outputs the determined utterance To do.
  • the agent processing unit 21 determines the content of the next utterance of the agent based on the result of analyzing the utterance content, and outputs the determined utterance To do.
  • the speech recognition unit 23 ends the speech recognition processing unconditionally when the end of the utterance cannot be detected even after a predetermined time has elapsed after the option is presented, and the recognition processing result for the speech signal acquired so far
  • the following processing may be executed using In general, unlike free conversations, it seems that it takes less time for users to answer their choices, so even if the speech recognition process is completed within a predetermined time, the user's selection is It is assumed that it is likely to be included.
  • the selection result specifying unit 24 when the speech recognition process is executed in real time during the user's utterance, the selection result specifying unit 24 also detects the phrase corresponding to the comparison target phrase from the selected utterance using the result of the voice recognition process in real time. May be performed. As a result, if a corresponding word is detected, the selection result specifying unit 24 can specify the selection result based on the result, and the voice recognition processing by the voice recognition unit 23 may be interrupted at that time. In this way, after the user finishes speaking, the agent's speech can be reproduced at an appropriate timing without any gap, and conversation delay due to voice recognition processing can be avoided.
  • the agent processing unit 21 may start the reproduction of the next utterance. If the selection result can be specified, even if the end of the user's utterance cannot be detected, the next conversation that has received the user's selected utterance can be presented naturally.
  • FIG. 4 shows an example of the selected utterance performed by the user.
  • the user starts a selective utterance at a short interval from the timing when the option is presented (time t0) (time t1), and even during the selective utterance, the utterance of the filler (ie, linguistically) Utterance that does not make sense) (time t2), and then speaks a phrase ("ichi") indicating a label corresponding to the selected option.
  • the utterance of the phrase itself ends at time t3, but the user continues speaking after that and ends the utterance at time t4.
  • the selection result specifying unit 24 specifies that the user has selected the first option by using the result of the voice recognition processing on the voice signal acquired so far after the time t3. it can. If this specific process is completed before time t4, the agent processing unit 21 can output an agent response to the user's utterance without waiting for the user. In this case, the voice recognition unit 23 may interrupt the voice recognition processing for the subsequent selected utterance when the selection result specifying unit 24 completes the specification of the selection result. In addition, the agent processing unit 21 may perform a user emotion evaluation process using the audio signal obtained up to time t3.
  • the agent processing unit 21 independently evaluates emotions for the utterance part (from time t2 to time t3 in the example of FIG. 4) specified by the selection result specifying unit 24 and the part before and after the utterance part. May be executed. Thereby, emotion can be evaluated for each of the state in which the user is confused about the selection, the state in which the determined selection is uttered, and the state after the utterance is completed. Note that the agent processing unit 21 may perform the emotion evaluation process for only a part of the states instead of performing the emotion evaluation process for all of these states.
  • the agent processing unit 21 reproduces the agent's speech as a voice
  • the user may want to block his / her speech and start his / her speech. Such a case may occur especially when the agent's speech time is long.
  • the agent's utterance presents multiple options in order, if the user is trying to select the option presented first, the user starts the selected utterance without listening to the later option I think there are things I want to do. Therefore, the voice recognition unit 23 may monitor the user's utterance and execute the utterance content recognition process while the agent's utterance is being reproduced.
  • the voice recognizing unit 23 may execute the monitoring process as described above only in a state where the user may speak while blocking the agent's speech. For example, if the agent's speech to be reproduced by the agent processing unit 21 is less than a predetermined length, the voice recognition unit 23 ignores the user's speech until the agent's speech is completed. In some cases, the user's speech may be monitored.
  • the predetermined length in this case may be determined, for example, in units of playback time, or may be determined by the number of words, the number of mora, and the like.
  • the voice recognition unit 23 may change the content of the user utterance detection process with time. Specifically, in a state where the agent has just started speaking, it is assumed that the user rarely wants to block the statement. On the other hand, if the agent's utterance continues to some extent, the user's desire to interrupt the agent's utterance and start his / her own utterance will increase. Therefore, the voice recognition unit 23 does not detect the user's utterance until the utterance of the predetermined length is reproduced from the start time of the utterance of the agent, and the timing at which the utterance of the predetermined length is reproduced. Thereafter, the user's utterance may be monitored.
  • the monitoring itself starts from the start of the agent's speech, but the detection criterion for detecting that the user has made a speech that blocks the agent's speech may be changed before and after the speech of a predetermined length.
  • the agent processing unit 21 detects when the voice recognition unit 23 detects that the user has spoken a predetermined phrase such as “stop” until the agent finishes speaking for a predetermined length.
  • the agent's speech may be stopped for a limited time, and in the state where the agent is speaking beyond a predetermined length, the agent's speech may be stopped when it is determined that the user has made some speech.
  • the agent processing unit 21 displays a question to the user and a plurality of options as answer candidates on the screen of the display device 14 and presents them to the user (S1). Thereafter, the acquisition of the audio signal by the audio signal acquisition unit 22 and the audio recognition process for the audio signal acquired by the audio recognition unit 23 are started (S2). While the user is performing the selected utterance, the speech recognition unit 23 determines whether or not the user's utterance has been completed each time a predetermined time elapses (S3). Specifically, the voice recognition unit 23 determines that the user's utterance has ended when the user's voice cannot be detected for a certain period of time or when a predetermined time or more has elapsed since the selection of the option of S1.
  • the selection result specifying unit 24 determines whether the user's selection result has been specified (S4). If it has been specified, the process returns to S3 and the process is repeated until the end of the user's utterance is detected. If not already specified, the selection result specifying unit 24 attempts to specify the selection result by comparing the result of the speech recognition processing obtained so far with the comparison target phrase included in the dictionary (S5). If the selection result can be specified, the selection result specifying unit 24 outputs the selection result to the agent processing unit 21 (S6). Thereafter, the process returns to S3 to determine whether or not the user's speech has ended.
  • the agent processing unit 21 can provide a user with any answer without presenting the options. May be presented.
  • the agent processing unit 21 may first present a question that can be answered arbitrarily, and may present answer candidate options for the question when the user's response to the question fails to be recognized. .
  • the information processing apparatus 1 it is possible to narrow down the user's answer contents by presenting options, and to reduce the possibility of erroneous recognition.
  • the choice word / phrase itself, it is possible to identify which choice the user's answer selects, so the user can be encouraged to answer with a natural statement.
  • the embodiments of the present invention are not limited to those described above.
  • the option is presented together with the question by the agent, but the information processing apparatus 1 may simply present the question and the option to the user without depending on the agent.
  • the local information processing apparatus 1 immediately next to the user executes all of the processing such as the determination of the content of the agent's speech, the speech recognition processing, the selection result specification, and the emotion evaluation processing. Some or all of these processes may be executed by a server device connected via a communication network.
  • this server device determines an option and performs a speech recognition process on a speech signal obtained from a local terminal device to specify a selection result, this server device functions as the information processing device in the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザーとの間で音声による円滑なコミュニケーションを実現することのできる情報処理装置を提供する。 複数の選択肢をユーザーに提示し、当該複数の選択肢のいずれかを選択するユーザーの発話内容を認識し、認識されるユーザーの発話内容に含まれる語句が、予め用意された複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、ユーザーが選択した選択肢を特定する情報処理装置である。

Description

情報処理装置
 本発明は、ユーザーから音声による入力を受け付ける情報処理装置、情報処理方法、プログラム、及び情報記憶媒体に関する。
 ユーザーが発話する音声を受け付けて、その音声の内容に応じて情報処理を実行する情報処理装置が知られている。このような技術によれば、ユーザーは手を使ってキーボードやタッチパネルで文字を入力する代わりに、声で各種の指示や情報を入力することができる。また、ユーザーの発話から、感情や態度など発話した内容以外のものを読み取る技術も研究されている(例えば非特許文献1参照)。
Kikuo Maekawa and Hiroki Mori、"VOICE-QUALITY ANALYSIS OF JAPANESE FILLED PAUSES: A PRELIMINARY REPORT"、[online]、[平成27年11月16日検索]、インターネット<URL:http://www2.ninjal.ac.jp/kikuo/Maekawa-DISS2015.pdf>
 上記従来例の技術においては、ユーザーと情報処理装置との間で円滑なコミュニケーションを実現するうえで様々な課題がある。例えば、ユーザーの音声を受け付ける際には、精度よくユーザーの発話内容を認識する必要がある。しかしながら、ユーザーに完全に自由な発話を許すこととすると、ユーザーの発話内容を正確に認識することが難しくなる。そこで、ユーザーから受け付ける情報の種類が限られている場合には、ユーザーに選択肢を提示することによって、ユーザーが発話する内容をこの選択肢に限定することが考えられる。ところが、ユーザーの発話内容を選択肢だけに制限すると、ユーザーの発話が機械的になり、ユーザーの感情や態度が発話内容に表れにくくなる。そのため、ユーザーに自然な発話をさせたい場合には、ユーザーの発話内容を選択肢だけに制限することは望ましくない。
 また、ユーザーの発話に先立って情報処理装置がユーザーに対する発言を音声で再生する場合、その発言の再生が終了するまでは、ユーザーが発話を開始することができない。そのため、情報処理装置がユーザーにとって興味のない発言などを行うと、円滑なコミュニケーションが損なわれることもあり得る。
 本発明は上記実情を考慮してなされたものであって、その目的の一つは、ユーザーとの間で音声による円滑なコミュニケーションを実現することのできる情報処理装置、情報処理方法、プログラム、及び情報記憶媒体を提供することにある。
 本発明に係る情報処理装置は、複数の選択肢をユーザーに提示する選択肢提示部と、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、を含むことを特徴とする。
 本発明に係る別の情報処理装置は、ユーザーに提示すべき発言を音声で再生する再生部と、前記ユーザーの発話内容を認識する音声認識部と、を含み、前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止することを特徴とする。
 本発明に係る情報処理方法は、複数の選択肢をユーザーに提示するステップと、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、を含むことを特徴とする。
 本発明に係るプログラムは、複数の選択肢をユーザーに提示する選択肢提示部、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部、及び、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、としてコンピュータを機能させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の実施の形態に係る情報処理装置の構成を示す構成ブロック図である。 本発明の実施の形態に係る情報処理装置の機能を示す機能ブロック図である。 選択肢を表示する画面の一例を示す図である。 ユーザーが行う選択発話の一例を示す図である。 本発明の実施の形態に係る情報処理装置が実行する処理の流れの一例を示すフロー図である。
 以下、本発明の実施形態について、図面に基づき詳細に説明する。
 図1は、本発明の一実施形態に係る情報処理装置1の構成を示す構成ブロック図である。情報処理装置1は、例えば家庭用ゲーム機や携帯型ゲーム機、パーソナルコンピュータ、スマートホン等であって、図1に示すように、制御部11と、記憶部12と、インタフェース部13と、を含んで構成されている。また、情報処理装置1は、表示装置14、マイクロホン15、スピーカー16、及びカメラ17と接続されている。
 制御部11はCPU等を含んで構成され、記憶部12に記憶されているプログラムを実行して各種の情報処理を実行する。本実施形態において制御部11が実行する処理の具体例については、後述する。記憶部12は、RAM等のメモリデバイスを含み、制御部11が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。インタフェース部13は、情報処理装置1が表示装置14、マイクロホン15、スピーカー16、及びカメラ17との間で各種の情報を授受するためのインタフェースである。
 表示装置14は、ヘッドマウントディスプレイや家庭用テレビ受像機、液晶ディスプレイ等であって、情報処理装置1が出力する映像信号に応じた画像を画面上に表示する。特に表示装置14がヘッドマウントディスプレイのようにユーザーの視界を覆うタイプのデバイスである場合、ユーザーは自分の手元が見えなくなるため、コントローラ等の操作入力デバイスを手で操作しにくくなる。そこで、後述するように情報処理装置1がユーザーの声による情報の入力を受け付けることで、ユーザーは自分の手元が確認できない状況でも容易に情報の入力を行うことができる。マイクロホン15は、情報処理装置1のユーザーが発する声を集音して得られる音声信号を情報処理装置1に対して出力する。スピーカー16は、情報処理装置1が出力する音声信号に従って音声を鳴動させる。カメラ17は、ユーザーの様子を示す映像を撮像し、撮像された映像を情報処理装置1に入力する。なお、表示装置14、マイクロホン15、及びスピーカー16は、いずれも情報処理装置1の筐体内に内蔵されてもよいし、情報処理装置1と有線又は無線により接続される別個の装置であってもよい。
 また、情報処理装置1は、ユーザーの頭部の動きを検出するために、3軸加速度センサーや地磁気センサーなどの姿勢検出センサーを備えたデバイスと接続されてもよい。このようなデバイスをユーザーが装着することで、ユーザーの頭部の動作を検出できる。また、情報処理装置1は、ユーザーの操作入力を受け付ける操作入力デバイス(コントローラ等)と接続されてもよい。
 以下、情報処理装置1が実現する機能について、図2を用いて説明する。図2に示すように、情報処理装置1は、機能的に、エージェント処理部21、音声信号取得部22、音声認識部23、及び選択結果特定部24を含んで構成されている。これらの機能は、制御部11が記憶部12に記憶されたプログラムに従って動作することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置1に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
 エージェント処理部21は、ユーザーとコミュニケーションを行う仮想的なエージェントを実現し、エージェントによるユーザーとの会話処理を実行する。具体的にエージェント処理部21は、会話の一部として、ユーザーに対して選択肢の提示と、その選択肢に対するユーザーの選択の受け入れを行う。本実施形態においてエージェント処理部21は、表示装置14の画面に複数の選択肢を表示することによって、ユーザーに選択肢を提示する。
 図3は、選択肢を表示する画面の一例を示している。この図の例では、「どこに行く?」というエージェントからユーザーに向けた質問と、その質問に対する回答の候補として、「プール」、「日昇公園」、「梅ランド」、「クール猫パーク」の4個の選択肢が提示されている。さらにこの例では、日本語の各選択肢の語句に対して、英語に翻訳した語句と、選択肢を識別するラベル(ここでは数字)が並んで表示されている。また、この図の例では、4個の選択肢が上から順に並んでいるのではなく、画面中央から見て上下左右の4方向に配置されている。なお、エージェント処理部21は、選択肢を画面に表示させる代わりに、複数の選択肢を順に音声としてスピーカー16から再生してもよい。また、選択肢は画面に表示するが、質問だけは音声として再生してもよい。
 図3に例示されるような選択肢が提示されると、ユーザーはその中から自分が選択する内容に関する発話を行う。以下では、この選択肢の提示を受けてユーザーが行う発話を、選択発話という。また、ユーザーが選択する選択肢のことを選択結果という。後述するように、本実施形態では、ユーザーによる選択発話の内容は必ずしも選択肢の語句そのものと一致しておらずともよい。選択発話の内容は、音声信号取得部22、音声認識部23、及び選択結果特定部24によって処理され、これにより選択結果特定部24がユーザーの選択結果を特定する。エージェント処理部21は、特定された選択結果の情報を用いて、続くエージェントの発言内容を決定する。そして、決定したエージェントの発言内容を話す音声信号を生成し、スピーカー16に対して出力する。これにより、エージェントの発言がスピーカー16から音声として再生される。エージェント処理部21は、エージェントの発言を音声として再生する代わりに、表示装置14の画面に表示させてもよい。
 エージェント処理部21は、ユーザーの選択結果だけでなく、選択発話の特徴を示す各種の特徴量を算出し、その算出結果を用いて続くエージェントの発言内容を決定してもよい。また、カメラ17によって撮像されたユーザーの表情や動作などに関する情報を用いてエージェントの発言内容を決定してもよい。ユーザーが選択肢の中から選択を行う場合にも、その選択を積極的に行ったか、または消極的に行ったかなど、様々な感情が込められていると考えられる。エージェント処理部21は、選択発話自体や、選択発話を行った際のユーザーの様子を解析することによって、ユーザーの感情や思考を反映する各種のパラ言語情報、非言語情報などに関する特徴量を求めることができる。このような特徴量を用いて以降のエージェントの振る舞いを決定することによって、単に選択肢の提示と選択結果の受け入れだけを行う場合と比較して、エージェント処理部21は人間同士の会話に近い自然なコミュニケーションを実現することができる。
 また、エージェント処理部21は、エージェントの発言を音声として再生するだけでなく、エージェントを表すキャラクターなどの画像を表示装置14の画面に表示してもよい。さらに、ユーザーの発話内容やエージェントの発言内容などに応じてこのキャラクターが動作する様子を示す映像を表示してもよい。
 音声信号取得部22は、マイクロホン15によって集音された音声信号を取得し、音声認識部23に対して出力する。本実施形態において音声信号取得部22は、エージェントの質問に対して応答するユーザーの声を含んだ音声信号を取得することになる。
 音声認識部23は、音声信号取得部22が取得した音声信号を解析することによって、ユーザーの発話内容を特定する。このような発話内容の特定は、隠れマルコフモデルを用いた統計的手法や動的時間伸縮法など、各種公知の音声認識技術などを用いて実現できる。特定されたユーザーの発話内容は、選択結果特定部24による選択結果の特定に用いられる。
 なお、音声認識部23は、ユーザーが発話を終えてから音声認識処理を実行するのではなく、ユーザーが発話を行っている間、随時音声認識処理を実行してもよい。この場合、ユーザーが発話を続けている間、音声認識部23は、音声信号取得部22によって順次取得される所定時間分の音声信号に対して音声認識処理を実行し、その所定時間分の音声信号が何の音素に対応するかを特定する。このような処理を時間の経過に伴って繰り返し実行することによって、リアルタイムでユーザーの発話内容を特定することができる。
 選択結果特定部24は、音声認識部23による音声認識の結果特定される選択発話の内容に応じて、ユーザーの選択結果を特定する。ここで、選択肢として提示された語句そのもの(例えば「プール」など)をユーザーが発話し、かつ、その語句が音声認識部23によって正しく認識された場合、選択結果特定部24は、ユーザーが発話した選択肢をそのまま選択結果として特定すればよい。しかしながら、ユーザーは選択肢の語句そのものを発話するとは限らない。また、ユーザーが選択肢の語句そのものを発話した場合であっても、周囲の雑音やユーザー本人の滑舌、音声認識処理の精度などの問題から、ユーザーの発話内容を常に音声認識部23が正確に認識できるとは限らない。そこで選択結果特定部24は、音声認識部23による音声認識結果に基づいて、各種の判定処理を実行して、ユーザーの選択結果を特定する。
 以下、選択結果特定部24が選択結果を特定するために実行する処理の具体例について、説明する。まず、辞書を利用して選択結果を特定する具体例について説明する。
 辞書を使用する第1の例として、複数の選択肢のそれぞれに対応する関連語辞書を用いる例について説明する。この例では、選択肢の語句のそれぞれに対して、選択肢の語句そのものと、これに関連する語句とを含んだ関連語辞書を予め用意しておく。例えば選択肢の語句が固有名詞の場合、関連語辞書にはその略称や愛称などが含まれてよい。選択結果特定部24は、音声認識部23によって認識されたユーザーの発話内容が関連語辞書に登録されたいずれかの語句と一致した場合に、その関連語辞書に対応する選択肢が選択されたと判定する。同じ語句についての様々な表現を予め関連語辞書に登録しておくことで、表示された選択肢をユーザーが別の表現で発話した場合にも、ユーザーの選択結果を特定できる。
 また、関連語辞書は、選択肢の語句やその関連語句を様々な言語に翻訳した翻訳語を含んでもよい。図3の例では日本語と英語の双方で選択肢の語句が表示されているが、それ以外の外国語についても、選択肢の語句の翻訳表現を関連語辞書に登録しておく。こうすれば、ユーザーが外国語で選択肢の内容を発話した場合であっても、選択結果を特定できる。なお、関連語辞書には、外国語の翻訳表現だけに限らず、選択肢の語句を各地方の方言で表現した語句が含まれてもよい。また、語句の文字自体は同じであってもユーザーによっては発話時のイントネーションが異なり、このようなイントネーションの違いにより音声認識処理で違う語句と認識される可能性がある。そこで、関連語辞書は同じ語句を各種のイントネーションで発話した表現を含んでもよい。また、通常の英語表現のほかに、日本人訛りの英語(いわゆるカタカナ英語)などを含んでもよい。
 次に辞書を使用する第2の例として、選択肢に付加されるラベルを示すラベル辞書を用いる例について説明する。この例では、エージェント処理部21は、各選択肢を表示する際に、その選択肢を識別するためのラベルを付加して表示する。図3の例では、各選択肢に数字のラベルが付加されている。この場合にユーザーは、選択肢の語句の代わりに、選択肢に付加されたラベルを示す語句を発話してもよい。例えば図3の例でプールを選択したい場合、ユーザーは「いち」と発話してもよい。選択肢に付加されるラベルは、数字に限らず、アルファベットやギリシア文字(「α」、「β」…)、フォネティックコード(「Alfa」、「Bravo」…)、五十音(「あ」「い」「う」「え」…)、いろは仮名(「い」「ろ」「は」「に」…)など、各種のものあってよい。また、ラベルは「○」「△」「□」などの記号であってもよい。この場合、ユーザーは「まる」「さんかく」などと発話することによって、選択肢を選択できる。
 この第2の例では、ラベルに対応する語句を登録したラベル辞書が予め用意され、エージェント処理部21が各選択肢にラベルを付加して提示する際に、各選択肢に付加されたラベルを示す語句を含んだラベル辞書が対応づけられる。選択結果特定部24は、ユーザーの発話内容がラベル辞書に含まれる語句に一致する場合、そのラベルが付加された選択肢を選択結果として特定する。関連語辞書の例と同様に、ラベル辞書には、「いち」や「まる」などのラベルを直接表す語句だけでなく、その語句を各国語に翻訳した語句や、イントネーション違いの語句などが含まれてよい。
 また、ラベル辞書には、選択肢に付加されるラベルを示す語句に限らず、選択肢の表示態様を示す語句が含まれてもよい。このような表示態様を示す語句の例としては、選択肢の画面内における表示位置を示す語句が挙げられる。具体的に、図3の例では複数の選択肢が上下左右に並んで配置されている。この場合、ラベル辞書には、「うえ」「した」「みぎ」「ひだり」といった位置を表す語句が含まれてよい。こうすれば、ユーザーは、例えば「うえ」と発話することで上方向に表示された「プール」を選択できる。また、表示態様を示す語句は、表示順序を示す数字や序数などの語句を含んでもよい。こうすれば、選択肢に数字のラベルが付加されていない場合であっても、ユーザーは「いちばん」「ひとつめ」などの数字や序数を示す語句を発話することで、その数によって指定される選択肢を選択できる。また、各選択肢が互いに異なる文字色や背景色で表示されている場合、ラベル辞書はその文字色や背景色(表示色)の名前(例えば「あか」「あお」など)を含んでよい。これにより、ユーザーは表示色で選択肢を指定できる。
 以上説明した第1の例、及び第2の例では、いずれも選択肢に対応づけられた辞書を用いてユーザーの発話内容が特定の語句に一致するか否かのマッチングを行うこととしているが、いずれの場合にも限られた語句だけを含んだ辞書を用いることになる。そのため、不特定多数の語句を含んだ辞書を用いて自然言語の音声認識処理を行う場合と比較すれば、処理負荷はそれほど高くなく、認識精度も高くなる。なお、選択結果特定部24は、この第1の例と第2の例を組み合わせて用いてもよい。この場合、選択結果特定部24は、関連語辞書及びラベル辞書の全てに含まれる語句をユーザーの発話内容と比較して、一致する語句を探せばよい。
 以上の説明では、音声認識部23によって認識されたユーザーの発話内容が、いずれかの辞書に含まれる語句と完全に一致することを前提とした。しかしながら、ユーザーの発話内容は、様々な理由から各辞書に含まれる語句と完全に一致しない場合がある。そこで、選択結果特定部24は、各種の判断基準を用いることによって、完全に一致しない場合であっても、ユーザーの発話内容が辞書に含まれる語句と対応すると判断してもよい。以下、このような判断基準のいくつかの例について、説明する。なお、以下の説明では、関連語辞書やラベル辞書に含まれる語句(すなわち、選択結果特定部24がユーザーの発話内容と比較すべき語句)を、比較対象語句という。以下に例示する判断基準によってユーザーの発話内容がいずれかの比較対象語句に対応すると判断された場合、選択結果特定部24は、その比較対象語句に対応する選択肢をユーザーが選択したとみなす。
 判断基準の第1の例として、装飾表現に関する判断基準について説明する。ユーザーは選択肢の語句やその関連語句、あるいは選択肢に付与されたラベルを示す語句等を単独で発話するとは限らず、様々な語句(装飾表現)を前後に付け加える場合がある。特にユーザーが通常の会話に近い態度で発話をする場合、ユーザーは単独の語句を発話するよりも比較対象語句を含んだセンテンスを話す可能性が高い。例えば図3の例では、1番のプールを選択しようとする場合に、「プールかな…」「イチかな。」「イチでしょ!」など、選択肢の語句やラベルを示す語句等を一部に含んだ内容を発話すると考えられる。選択結果特定部24は、このような場合であってもユーザーの選択結果を正しく特定することが望まれる。そこで選択結果特定部24は、ユーザーの発話内容に含まれる一部の音素列が比較対象語句と一致する場合、一致する比較対象語句に対応する選択肢を選択結果として特定する。このようにユーザーの発話全体のうちの一部の語句が比較対象語句とマッチするかを選択結果特定部24が判断することで、ユーザーは自然な会話に近い態度で選択肢を選ぶ発話を行うことができる。
 次に第2の例として、表現の揺らぎに関する判断基準について説明する。ユーザーの発話内容は、音声認識処理における誤認識やユーザーの発話の癖などによって、比較対象語句に近いが完全には一致しない語句として認識される場合がある。このような場合に対応するために、選択結果特定部24は、比較対象語句とユーザーの発話内容との間で表現の揺らぎとして予め定められたパターンのずれが生じている場合に、両者が一致すると判断する。
 具体例として、ユーザーの滑舌が悪い場合、特に子音が誤認識される場合がある。そこで選択結果特定部24は、ユーザーの発話内容と比較対象語句とで母音が一致した場合に、子音が一致せずとも両者が対応すると判断してもよい。一例として、「イキ」「イシ」などの語句がユーザーの発話内容に含まれる場合に、選択結果特定部24はユーザーが日本語の「イチ」と発話したと推定し、1番目の選択肢を選択結果として特定してもよい。また、英語の「peach」が比較対象語句に含まれており、ユーザーの発話内容に対する音声認識結果に、「beach」のように一部の子音だけが異なる別の語句が含まれる場合、「peach」を選択結果として特定してもよい。
 また、選択結果特定部24は、ユーザーの発話内容から長音を省略した語句が比較対象語句に一致する場合に、両者が対応すると判断してもよい。例えばユーザーが日本語で「イーチ」と発話した場合に、1番目の選択肢を選択結果として特定する。同様に、英語など他の言語においても、「alphaaa」などのように同じ母音が連続する語句をユーザーが発話した場合に、母音を短縮した比較対象語句が選択されたと判断してもよい。また、訛りや方言などによって変化する音がある場合、選択結果特定部24は、そのような音の変化した語句を比較対象語句に対応すると判断する判断基準を用いてもよい。例えば、「シガグ」というユーザーの発話を日本語の「シカク」を意味するものと判断してもよい。また、イギリス英語とアメリカ英語で同じ単語の発音の仕方に違いがある場合に、このような音の変化した語句を比較対象語句に対応すると判断してもよい。具体的には、vitaminにおける最初のiの発音や、herbの最初のhの発音などのように、イギリス英語とアメリカ英語で発音の仕方に違いがあることが知られている。このような判断基準を用いて比較対象語句とユーザーの発話内容とを比較することで、方言などにより表現が変化した語句を全て辞書に含めなくとも、このような語句が比較対象語句と対応していると判断することができる。
 次に第3の例として、部分一致の判断基準について説明する。この例では、選択結果特定部24は、比較対象語句とユーザーの発話内容とが所定の基準の範囲内で部分的に一致する場合に、両者が対応すると判断する。例えば人名は、その前半部分が元の名前と一致するが後半部分が一致しない愛称で呼ばれることがある。具体的には、「マルサス」という名前であれば「マルちゃん」「マルくん」「マルさん」などの呼ばれ方をする可能性があり得る。また、「クリスティーナ」は、「クリス」、「クリスィー」などと呼ばれる可能性がある。そこで、例えば選択結果特定部24は、先頭の所定数の音素、または先頭の所定割合の音素が比較対象語句と一致する語句がユーザーの発話内容に含まれる場合に、ユーザーの発話内容と比較対象語句とが対応すると判断する。こうすれば、ユーザーが選択肢の語句の一部を変化させた表現を用いた場合に、このような変化した表現を網羅的に辞書に登録しておかなくとも、選択結果を正しく特定できる。なお、人名に限らず、選択肢の語句が「cute」でユーザーが「cuty」と発話した場合など、語尾が活用する語句などの場合にも、同様の判断基準でユーザーの選択結果を特定することができる。
 以上説明した判断基準は、組み合わせて用いられてよい。これにより、ユーザーが多様な表現で選択肢を選ぶ発話を行ったとしても、選択結果特定部24はユーザーの選択結果を特定することができる。
 前述したように、エージェント処理部21は、選択結果特定部24によって特定された選択結果に応じて、続くエージェントの発言を決定する。さらにエージェント処理部21は、ユーザーの選択結果だけでなく、選択発話から読み取られるユーザーの感情や態度に応じて、その後の発言を変化させてもよい。発話内容からユーザーの感情や態度を判断する手法としては、公知のものが利用可能である。
 具体的に、エージェント処理部21は、選択発話を記録した音声信号から算出されるパラ言語情報の特徴量を用いてユーザーの感情を推定する。パラ言語情報は、話速、音量(声圧)、声の抑揚、イントネーション(ユーザーが強調する語句など)、言葉遣い(丁寧口調かくだけた口調かなど)、発言量などを含んでよい。また、マイクロホン15が取得する音声信号に限らず、カメラ17によって撮像されるユーザーの映像から得られる各種の情報を利用してもよい。映像から得られる情報としては、ユーザーの表情、視線、瞬き、また頷きや手振りなどの動作(ジェスチャー)が挙げられる。
 また、エージェント処理部21は、選択肢が提示されてからユーザーが選択発話を開始するまでの経過時間(以下、思考時間という)を特徴量の一つとして算出し、感情の評価処理に用いてもよい。思考時間が短いほど、ユーザーは迷いなく選択肢を選んでいると推定され、思考時間が長い場合、ユーザーは選択の際に迷いがあったと考えられる。このような情報を参照することで、ユーザーの感情を読み取ることができる。思考時間を用いてユーザーの感情を評価する場合、ユーザーが選んだ選択結果が選択肢として提示された際の提示順序に応じて、評価基準を変化させてもよい。複数の選択肢が画面上に表示される場合、ユーザーは上から順に選択肢を見て、どの選択肢を選ぶか決定すると考えられる。つまり、後に提示される選択肢に目を通すまでには時間がかかると想定される。そのためエージェント処理部21は、後に提示される選択肢が選択結果として特定された場合、先に提示される選択肢が選択結果として特定された場合と比較して、思考時間が実際より短いものとして感情の評価を行う。こうすれば、ユーザーが選択肢を視認してから選択発話を行うまでの時間に応じて評価を行うことができる。
 また、前述したようにユーザーは選択発話において選択肢の語句そのものを発話する代わりに、ラベルを示す語句を発話する場合がある。このような場合にも、その語句が選択肢の語句を指しているものとして、感情の評価を行えばよい。例えばユーザーが「Aだよ」という発話を行った場合、Aというラベルが「かわいい」という選択肢に付加されていたのであれば、エージェント処理部21はユーザーが「かわいい」と発話したときと同様の評価基準で感情の評価を行う。その結果、ユーザーが本心からかわいいと思っているか、あるいは皮肉っぽく発言したのか、などを評価することができる。一方、Aというラベルが「リンゴ」という選択肢に付加されていた場合には、ユーザーがリンゴについて発言したという前提の下に感情の評価を行う。この場合には、その発言が皮肉かどうか、などの評価を行う必要はない。
 エージェント処理部21は、以上説明した感情の評価処理によって得られる評価結果を、発言内容の決定に用いてもよいし、その他の出力内容に反映させてもよい。例えばエージェント処理部21がゲームの処理を実行する場合、評価結果に応じてゲームの進行を変化させてもよい。この例では、ユーザーが選択発話を強い感情で行ったと評価される場合、ゲームで有利な効果を発生させてもよい。また、エージェント処理部21は、評価結果そのものをユーザーに提示してもよい。また、感情の評価結果によっては、エージェント処理部21は、選択結果特定部24によって特定された選択結果を変更してもよい。一例として、ユーザーがある選択結果を選んだ際に、選択発話に対して感情の評価処理を実行した結果、その発言に消極的であったと評価された場合、エージェント処理部21は別の選択肢が選択結果として特定されたものとして処理を続行してもよい。
 以上説明したように、情報処理装置1は、感情の評価結果を利用することで、複数の選択肢のうちの一つをユーザーに選択させる場合であっても、選択肢の数以上にその後の処理内容を様々に変化させることができる。また、感情の評価結果をフィードバックした結果をユーザーに提示することで、情報処理装置1はユーザーが自然に感情を込めた発話を行うように誘導することができる。これにより、選択肢をユーザーに選ばせるにもかかわらず、人間同士の会話に近い自然なコミュニケーションを行っているようにユーザーに感じさせることができる。
 以下、エージェント処理部21による会話のタイミング制御に関して説明する。通常、エージェント処理部21は、音声認識部23によってユーザーの発話の終了が検出されてから、その発話内容を解析した結果に基づいてエージェントの次の発言の内容を決定し、決定した発言を出力する。しかしながら、周囲の騒音などが原因でユーザーの発話が終了したことを検出できない場合がある。そこで音声認識部23は、選択肢が提示されてから所定時間が経過しても発話の終了が検出できない場合に、無条件で音声認識処理を終了し、それまで取得された音声信号に対する認識処理結果を用いて次の処理を実行してもよい。一般的に、自由会話の場合と異なり、選択肢の提示に対するユーザーの回答にはそれほど時間がかからないと考えられることから、所定時間で音声認識処理を終了しても、その中にユーザーの選択内容が含まれる可能性は高いと想定される。
 また、前述したようにユーザーの発話中にリアルタイムで音声認識処理を実行する場合、選択結果特定部24もリアルタイムで音声認識処理の結果を用いて選択発話内から比較対象語句と対応する語句の検出を行ってもよい。その結果、対応する語句が検出されれば、その結果に基づいて選択結果特定部24は選択結果を特定できるので、その時点で音声認識部23による音声認識処理を中断してもよい。こうすれば、ユーザーが発話を終了した後、間を置かずに適切なタイミングでエージェントの発言を再生させることができ、音声認識処理による会話の遅延を回避できる。さらに、選択結果の特定ができた後にユーザーの発話の終了が検出できない状態が所定時間続いた場合、エージェント処理部21は次の発言の再生を開始してもよい。選択結果の特定ができていれば、ユーザーの発話の終了が検出できない場合であっても、自然にユーザーの選択発話を受けた次の会話を提示することができる。
 具体的なタイミング制御について、図4を例として説明する。図4は、ユーザーが行った選択発話の一例を示している。この図の例では、ユーザーは選択肢が提示されたタイミング(時刻t0)から少し間を空けて選択発話を始め(時刻t1)、さらに選択発話中においても冒頭にフィラーの発声(すなわち、言語的に意味をなさない発声)をしてから(時刻t2)、選択した選択肢に対応するラベルを示す語句(「イチ」)を発話している。この語句自体の発話は時刻t3に終了しているが、その後もユーザーは発話を続け、時刻t4に発話を終了している。このような場合において、選択結果特定部24は、時刻t3を経過した後、それまでに取得された音声信号に対する音声認識処理の結果を用いて、ユーザーが1番の選択肢を選択したことを特定できる。この特定処理が時刻t4よりも前に完了すれば、エージェント処理部21はユーザーを待たせずにユーザーの発話に対するエージェントの応答を出力することができる。この場合、音声認識部23は、選択結果特定部24が選択結果の特定を完了した時点で、それ以降の選択発話に対する音声認識処理を中断してもよい。また、エージェント処理部21は、時刻t3までに得られた音声信号を用いて、ユーザーの感情の評価処理を実行してもよい。
 なお、エージェント処理部21は、選択結果特定部24が選択結果として特定した発話部分(図4の例における時刻t2から時刻t3まで)とその前後の部分に対して、それぞれ独立に感情の評価処理を実行してもよい。これにより、ユーザーが選択を迷っている状態、決定した選択内容を発話している状態、及び発話し終えた後の状態のそれぞれについて感情の評価を行うことができる。なお、エージェント処理部21は、これらの状態の全てについて感情の評価処理を行うのではなく、一部の状態についてのみ感情の評価処理を実行してもよい。
 また、エージェントの発言をエージェント処理部21が音声として再生している間に、ユーザーがその発言を遮って自分の発言を始めたい場合がある。特にエージェントの発言時間が長くなると、このような場合が生じ得る。また、エージェントの発言が複数の選択肢を順に提示するものである場合、ユーザーが最初の方に提示された選択肢を選択しようとしているのであれば、ユーザーは後の選択肢を聞かずに選択発話を開始したいこともあると考えられる。そこで音声認識部23は、エージェントの発言が再生されている間にも、ユーザーの発話を監視し、発話内容の認識処理を実行してもよい。
 音声認識部23は、特にユーザーがエージェントの発言を遮って発話をする可能性のある状態に限って、上述したような監視処理を実行してもよい。例えばエージェント処理部21が再生しようとするエージェントの発言が所定の長さ未満であれば、音声認識部23はエージェントの発言が完了するまでユーザーの発話は無視することとし、所定の長さ以上の場合にユーザーの発話を監視してもよい。この場合の所定の長さは、例えば再生時間を単位として決定されてもよいし、語数、モーラ数などによって決定されてもよい。
 さらに音声認識部23は、ユーザーの発話の検出処理の内容を時間とともに変化させてもよい。具体的に、エージェントが発言を開始したばかりの状態では、ユーザーがその発言を遮りたい場合は少ないと想定される。一方で、エージェントの発言がある程度続いていると、ユーザーがエージェントの発言を遮って自分の発話を開始したいという欲求は高まると考えられる。そこで、音声認識部23は、エージェントの発言開始時を起算点として、所定の長さの発言が再生されるまではユーザーの発話の検出を行わず、所定の長さの発言が再生されたタイミング以降、ユーザーの発話を監視してもよい。また、監視自体はエージェントの発言開始時から開始するが、ユーザーがエージェントの発言を遮る発話を行ったと検出する検出基準を、所定の長さの発言がされる前後で変更してもよい。具体的に、例えばエージェント処理部21は、エージェントが所定の長さの発言を終えるまでは、ユーザーが「やめて」などの予め定められた語句を発話したことを音声認識部23が検出した場合に限ってエージェントの発言を中止することとし、エージェントが所定の長さを超えて発言している状態では、ユーザーが何らかの発話を行ったと判定された場合にエージェントの発言を中止してもよい。
 以下、本実施形態に係る情報処理装置1が実行する処理の流れの一例について、図5のフロー図を用いて説明する。
 まずエージェント処理部21は、ユーザーに対する質問、及びその回答候補となる複数の選択肢を表示装置14の画面に表示させてユーザーに提示する(S1)。その後、音声信号取得部22による音声信号の取得、及び音声認識部23による取得された音声信号に対する音声認識処理が開始される(S2)。ユーザーが選択発話を行っている間、所定時間が経過するごとに、音声認識部23は、ユーザーの発話が終了したか否かを判定する(S3)。具体的に音声認識部23は、ユーザーの音声が一定時間検出できなかったり、S1の選択肢の提示から所定時間以上の時間が経過したりした場合に、ユーザーの発話が終了したと判定する。
 ユーザーの発話が終了していなければ、選択結果特定部24がユーザーの選択結果を特定済みか否か判定する(S4)。特定済みであれば、S3に戻ってユーザーの発話の終了が検出されるまで処理が繰り返される。まだ特定済みでなければ、選択結果特定部24は、それまでに得られる音声認識処理の結果を辞書に含まれる比較対象語句と対比して、選択結果の特定を試みる(S5)。選択結果が特定できれば、選択結果特定部24はその選択結果をエージェント処理部21に対して出力する(S6)。その後、S3に戻ってユーザーの発話が終了したか否かの判定が行われる。
 S3でユーザーの発話が終了した場合、エージェント処理部21はそれまで得られた音声信号に基づいてユーザーの感情を評価する評価処理を実行する(S7)。そして、S6で出力されるユーザーの選択結果と、S7における感情の評価処理の結果に基づいて、エージェントの次の発言内容を決定し、出力する(S8)。これにより、ユーザーの選択に応じた会話が行われる。
 なお、以上の説明ではエージェント処理部21がユーザーに選択肢を提示する場合の処理について説明したが、これに限らず、エージェント処理部21は選択肢を提示せずにユーザーに任意の回答が可能な質問を提示してもよい。また、エージェント処理部21は、まず任意の回答が可能な質問をユーザーに提示し、これに対するユーザーの回答の認識に失敗した場合に、その質問に対する回答候補の選択肢を提示するようにしてもよい。
 以上説明した本実施形態に係る情報処理装置1によれば、選択肢を提示することでユーザーの回答内容を絞り込むことができ、誤認識の可能性を低減できる。その一方で、ユーザーが選択肢の語句そのものを回答しない場合であっても、ユーザーの回答がどの選択肢を選択するものなのかを特定できるので、ユーザーに自然な発言での回答を促すことができる。
 なお、本発明の実施の形態は、以上説明したものに限られない。以上の説明では選択肢はエージェントによる質問とともに提示されることとしたが、情報処理装置1は、エージェントによらずに単にユーザーに質問と選択肢を提示してもよい。
 また、以上の説明ではユーザーのすぐそばにあるローカルの情報処理装置1がエージェントの発言内容の決定、音声認識処理、選択結果の特定、感情の評価処理などの処理を全て実行することとしたが、これらの処理の一部、又は全部は通信ネットワークを介して接続されたサーバ装置によって実行されてもよい。特にサーバ装置が選択肢を決定し、ローカルの端末装置から得られる音声信号に対する音声認識処理を行って選択結果を特定する場合、このサーバ装置が本発明における情報処理装置として機能することになる。
 1 情報処理装置、11 制御部、12 記憶部、13 インタフェース部、14 表示装置、15 マイクロホン、16 スピーカー、17 カメラ、21 エージェント処理部、22 音声信号取得部、23 音声認識部、24 選択結果特定部。

Claims (18)

  1.  複数の選択肢をユーザーに提示する選択肢提示部と、
     前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、
     前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、
     を含むことを特徴とする情報処理装置。
  2.  請求項1に記載の情報処理装置において、
     前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の語句に関連する語句、及び当該選択肢の語句を他の言語に翻訳した語句のいずれか少なくとも一つを含む
     ことを特徴とする情報処理装置。
  3.  請求項1に記載の情報処理装置において、
     前記選択肢提示部は、前記複数の選択肢のそれぞれに対して、当該選択肢を識別するラベルを付加して前記ユーザーに提示し、
     前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢に付加されたラベルを示す語句を含む
     ことを特徴とする情報処理装置。
  4.  請求項1に記載の情報処理装置において、
     前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の表示態様を示す語句を含む
     ことを特徴とする情報処理装置。
  5.  請求項4に記載の情報処理装置において、
     前記選択肢の表示態様を示す語句は、前記選択肢の表示位置、表示順序、及び、表示色のいずれか少なくとも一つを含む
     ことを特徴とする情報処理装置。
  6.  請求項1に記載の情報処理装置において、
     前記選択結果特定部は、前記発話内容に含まれる語句が、前記辞書に含まれる語句の一部と一致する場合に、両者が対応すると判定する
     ことを特徴とする情報処理装置。
  7.  請求項1に記載の情報処理装置において、
     前記選択結果特定部は、前記発話内容に含まれる語句と前記辞書に含まれる語句との間のずれが予め定められたパターンに該当する場合に、両者が対応すると判定する
     ことを特徴とする情報処理装置。
  8.  請求項1に記載の情報処理装置において、
     前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部をさらに含む
     ことを特徴とする情報処理装置。
  9.  請求項8に記載の情報処理装置において、
     前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含み、
     前記出力部は、前記経過時間を用いて前記ユーザーの感情を評価する際に、前記選択結果特定部が特定する選択肢が前記ユーザーに提示された際の提示順序に応じて、評価基準を変化させる
     ことを特徴とする情報処理装置。
  10.  請求項1に記載の情報処理装置において、
     ユーザーに提示すべき発言を音声で再生する再生部をさらに含み、
     前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止する
     ことを特徴とする情報処理装置。
  11.  請求項10に記載の情報処理装置において、
     前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
     ことを特徴とする情報処理装置。
  12.  請求項10に記載の情報処理装置において、
     前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
     ことを特徴とする情報処理装置。
  13.  ユーザーに提示すべき発言を音声で再生する再生部と、
     前記ユーザーの発話内容を認識する音声認識部と、
     を含み、
     前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止する
     ことを特徴とする情報処理装置。
  14.  請求項13に記載の情報処理装置において、
     前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
     ことを特徴とする情報処理装置。
  15.  請求項13に記載の情報処理装置において、
     前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
     ことを特徴とする情報処理装置。
  16.  複数の選択肢をユーザーに提示するステップと、
     前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、
     前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、
     を含むことを特徴とする情報処理方法。
  17.  複数の選択肢をユーザーに提示する選択肢提示部、
     前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部、及び、
     前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、
     としてコンピュータを機能させるためのプログラム。
  18.  請求項17に記載のプログラムを記憶した、コンピュータ読み取り可能な情報記憶媒体。
PCT/JP2016/061385 2016-04-07 2016-04-07 情報処理装置 WO2017175351A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2016/061385 WO2017175351A1 (ja) 2016-04-07 2016-04-07 情報処理装置
US16/087,924 US10839800B2 (en) 2016-04-07 2016-04-07 Information processing apparatus
JP2018510188A JP6654691B2 (ja) 2016-04-07 2016-04-07 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/061385 WO2017175351A1 (ja) 2016-04-07 2016-04-07 情報処理装置

Publications (1)

Publication Number Publication Date
WO2017175351A1 true WO2017175351A1 (ja) 2017-10-12

Family

ID=60000927

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/061385 WO2017175351A1 (ja) 2016-04-07 2016-04-07 情報処理装置

Country Status (3)

Country Link
US (1) US10839800B2 (ja)
JP (1) JP6654691B2 (ja)
WO (1) WO2017175351A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020158435A1 (ja) * 2019-02-01 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020198553A (ja) * 2019-06-03 2020-12-10 コニカミノルタ株式会社 画像処理装置及びプログラム
JP2021043435A (ja) * 2019-09-11 2021-03-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体
JP2021051172A (ja) * 2019-09-24 2021-04-01 学校法人早稲田大学 対話システムおよびプログラム
WO2021230100A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023068067A1 (ja) 2021-10-18 2023-04-27 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629200B2 (en) * 2017-03-07 2020-04-21 Salesboost, Llc Voice analysis training system
KR20210059367A (ko) 2019-11-15 2021-05-25 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JP2006343661A (ja) * 2005-06-10 2006-12-21 Sanyo Electric Co Ltd 音声認識装置および音声認識プログラム
JP2007065226A (ja) * 2005-08-31 2007-03-15 Advanced Telecommunication Research Institute International ボーカル・フライ検出装置及びコンピュータプログラム
JP2009271258A (ja) * 2008-05-02 2009-11-19 Toshiba Corp 情報選択装置
JP2010054549A (ja) * 2008-08-26 2010-03-11 Gifu Univ 回答音声認識システム
JP2011171948A (ja) * 2010-02-17 2011-09-01 Advance:Kk デジタルテレビの双方向システム
JP2013114020A (ja) * 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067521A (en) * 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
EP2498250B1 (en) * 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JP2006343661A (ja) * 2005-06-10 2006-12-21 Sanyo Electric Co Ltd 音声認識装置および音声認識プログラム
JP2007065226A (ja) * 2005-08-31 2007-03-15 Advanced Telecommunication Research Institute International ボーカル・フライ検出装置及びコンピュータプログラム
JP2009271258A (ja) * 2008-05-02 2009-11-19 Toshiba Corp 情報選択装置
JP2010054549A (ja) * 2008-08-26 2010-03-11 Gifu Univ 回答音声認識システム
JP2011171948A (ja) * 2010-02-17 2011-09-01 Advance:Kk デジタルテレビの双方向システム
JP2013114020A (ja) * 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020158435A1 (ja) * 2019-02-01 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11984121B2 (en) 2019-02-01 2024-05-14 Sony Group Corporation Information processing device to stop the turn off of power based on voice input for voice operation
JP2020198553A (ja) * 2019-06-03 2020-12-10 コニカミノルタ株式会社 画像処理装置及びプログラム
JP7388006B2 (ja) 2019-06-03 2023-11-29 コニカミノルタ株式会社 画像処理装置及びプログラム
JP2021043435A (ja) * 2019-09-11 2021-03-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体
JP2021051172A (ja) * 2019-09-24 2021-04-01 学校法人早稲田大学 対話システムおよびプログラム
JP7274210B2 (ja) 2019-09-24 2023-05-16 学校法人早稲田大学 対話システムおよびプログラム
WO2021230100A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023068067A1 (ja) 2021-10-18 2023-04-27 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US20190096401A1 (en) 2019-03-28
JP6654691B2 (ja) 2020-02-26
JPWO2017175351A1 (ja) 2018-08-02
US10839800B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
JP6654691B2 (ja) 情報処理装置
CN106373569B (zh) 语音交互装置和方法
JP6755304B2 (ja) 情報処理装置
US20200279553A1 (en) Linguistic style matching agent
JP4085130B2 (ja) 感情認識装置
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US9070363B2 (en) Speech translation with back-channeling cues
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
CN107403011B (zh) 虚拟现实环境语言学习实现方法和自动录音控制方法
US10755704B2 (en) Information processing apparatus
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
US20110276329A1 (en) Speech dialogue apparatus, dialogue control method, and dialogue control program
JP4729902B2 (ja) 音声対話システム
WO2022057283A1 (zh) 声纹注册方法、装置和计算机可读存储介质
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
Siegert et al. “Speech Melody and Speech Content Didn’t Fit Together”—Differences in Speech Behavior for Device Directed and Human Directed Interactions
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
JP2010197644A (ja) 音声認識システム
CN113112575A (zh) 一种口型生成方法、装置、计算机设备及存储介质
KR102433964B1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
Pandey et al. Effects of speaking rate on speech and silent speech recognition
Furui Toward the ultimate synthesis/recognition system

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018510188

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16897908

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16897908

Country of ref document: EP

Kind code of ref document: A1