JP7063779B2 - 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 - Google Patents
音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 Download PDFInfo
- Publication number
- JP7063779B2 JP7063779B2 JP2018162774A JP2018162774A JP7063779B2 JP 7063779 B2 JP7063779 B2 JP 7063779B2 JP 2018162774 A JP2018162774 A JP 2018162774A JP 2018162774 A JP2018162774 A JP 2018162774A JP 7063779 B2 JP7063779 B2 JP 7063779B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- learning model
- utterance
- degree
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 69
- 230000004044 response Effects 0.000 claims description 199
- 238000001514 detection method Methods 0.000 claims description 97
- 230000008451 emotion Effects 0.000 claims description 56
- 230000036541 health Effects 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 39
- 238000010801 machine learning Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 26
- 230000001755 vocal effect Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 230000002996 emotional effect Effects 0.000 description 16
- 230000008859 change Effects 0.000 description 15
- 230000033764 rhythmic process Effects 0.000 description 13
- 230000037007 arousal Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000036772 blood pressure Effects 0.000 description 5
- 230000036760 body temperature Effects 0.000 description 5
- 210000003128 head Anatomy 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Ophthalmology & Optometry (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- User Interface Of Digital Computer (AREA)
- Manipulator (AREA)
Description
本発明は、このように構成されていることによって、ユーザの対話に対する積極性の度合に適合した学習モデルを用いて対話を行うので、対話を行うユーザの積極性に合わせて応答を実行することができる。
本発明は、このように構成されていることによって、より正確に、ユーザの積極性の度合を判定することができる。
本発明は、このように構成されていることによって、ユーザに適合した学習モデルを用いて対話を行うので、対話を行うユーザに合わせて応答を実行することができる。
本発明は、このように構成されていることによって、ユーザの対話に対する感情の度合に適合した学習モデルを用いて対話を行うので、対話を行うユーザの感情に合わせて応答を実行することができる。
本発明は、このように構成されていることによって、ユーザの健康状態の度合に適合した学習モデルを用いて対話を行うので、対話を行うユーザの健康状態に合わせて応答を実行することができる。
本発明は、このように構成されていることによって、ユーザの覚醒状態の度合に適合した学習モデルを用いて対話を行うので、対話を行うユーザの覚醒状態に合わせて応答を実行することができる。
以下、図面を参照して本発明の実施の形態について説明する。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
図4~図6は、実施の形態1にかかる学習モデルの生成方法の概略を説明するための図である。まず、学習モデルを生成するためのサンプルデータを取得する。図4で示すように、ユーザAの発話に対して、ロボット(音声対話システム1)が応答するといった、ユーザAとロボットとの対話によって、特徴ベクトルと正解ラベルとが対応付けられたサンプルデータ(教師データ)を収集する。このとき、オペレータは、ユーザAの発話に対して適切な応答をロボットが実行するように、ロボット(音声対話システム1)を操作する。
図9は、ユーザ状態がユーザの識別情報である場合における処理を示す図である。図9は、ユーザ状態がユーザの識別情報である場合における、S130,S140(図7)の具体的な処理を示す。ユーザ状態検出部140は、カメラである検出装置6から、ユーザの画像を取得する(ステップS132A)。なお、「画像」とは、情報処理の対象としての、画像を示す画像データをも意味し得る(以下の説明において同様)。
図10は、ユーザ状態がユーザの対話に対する積極性の度合である場合における処理を示す図である。図10は、ユーザ状態がユーザの積極性の度合である場合における、S130,S140(図7)の具体的な処理を示す。ユーザ状態検出部140は、過去T分間におけるユーザ発話割合Rsを取得する(ステップS132B)。ここで、Tは、予め定められた期間を示す。例えば、T=1[分]であるが、これに限定されない。「過去T分間」とは、現在からT分間遡った時刻から現在までの期間である。ユーザ発話割合Rsは、過去T分間における、音声対話システム1が応答として音声を出力した時間tr[分]とユーザ発話した時間tu[分]との合計tu+tr[分]に対するユーザが発話した時間tuの割合である。つまり、Rs[%]=100*tu/(tu+tr)である。
図12は、ユーザ状態がユーザの感情である場合における処理を示す図である。図12は、ユーザ状態がユーザの感情の度合である場合における、S130,S140(図7)の具体的な処理を示す。「感情の度合」とは、例えば「喜び」の度合である。しかしながら、「感情の度合」は、怒りの度合、悲しみの度合、又は驚きの度合であってもよい。
図13は、ユーザ状態がユーザの健康状態である場合における処理を示す図である。図13は、ユーザ状態がユーザの健康状態の度合である場合における、S130,S140(図7)の具体的な処理を示す。「健康状態の度合」とは、例えば、心拍数の度合である。しかしながら、「健康状態の度合」は、血圧の度合又は体温の度合であってもよい。
図14は、ユーザ状態がユーザの覚醒状態の度合である場合における処理を示す図である。図14は、ユーザ状態がユーザの覚醒状態の度合である場合における、S130,S140(図7)の具体的な処理を示す。
次に、実施の形態2について説明する。実施の形態2においては、音声対話システム1が複数の学習モデルを生成する点で、実施の形態1と異なる。なお、実施の形態2にかかる音声対話システム1のハードウェア構成については、図1に示した実施の形態1にかかる音声対話システム1のハードウェア構成と実質的に同様であるので、説明を省略する。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述したフローチャートにおいて、複数の処理の順序は、適宜、変更可能である。また、上述したフローチャートにおいて、複数の処理のうちの1つは、省略されてもよい。例えば、図7のS130の処理は、S102~S120の間に行われてもよい。
Claims (11)
- ユーザと音声を用いた対話を行う音声対話システムであって、
前記ユーザの発話であるユーザ発話を取得する発話取得部と、
前記取得されたユーザ発話の非言語情報を示す特徴を少なくとも抽出する特徴抽出部と、
予め機械学習によって生成された複数の学習モデルであって、複数の学習モデルのそれぞれが、非言語情報の特徴を入力として、沈黙、頷き及び発話を応答として出力し、少なくともユーザの積極性の度合ごとに学習が行われることによって生成される、複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定する応答決定部と、
前記決定された応答を実行するための制御を行う応答実行部と、
前記ユーザの状態であるユーザ状態であって、少なくとも前記ユーザの積極性の度合を含むユーザ状態を検出するユーザ状態検出部と、
前記検出されたユーザ状態に応じて、前記複数の学習モデルから前記学習モデルを選択する学習モデル選択部と
を有し、
前記応答決定部は、前記学習モデル選択部によって選択された学習モデルを用いて、前記応答を決定する
音声対話システム。 - 前記ユーザ状態検出部は、前記ユーザ状態として対話に対する前記ユーザの積極性の度合を検出し、
前記学習モデル選択部は、前記ユーザの積極性の度合に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。 - 前記ユーザ状態検出部は、予め定められた期間における前記ユーザの発話量、又は、前記期間において当該音声対話システムが応答として音声を出力した時間と前記ユーザが発話した時間との合計に対する前記ユーザが発話した時間の割合を検出し、
前記学習モデル選択部は、前記ユーザの発話量又は前記ユーザが発話した時間の割合に対応する前記学習モデルを選択する
請求項2に記載の音声対話システム。 - 前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの識別情報を検出し、
前記学習モデル選択部は、前記ユーザの識別情報に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。 - 前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの感情を検出し、
前記学習モデル選択部は、前記ユーザの感情に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。 - 前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの健康状態を検出し、
前記学習モデル選択部は、前記ユーザの健康状態に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。 - 前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの覚醒状態の度合を検出し、
前記学習モデル選択部は、前記ユーザの覚醒状態の度合に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。 - ユーザと音声を用いた対話を行う音声対話システムを用いて行われる音声対話方法であって、
前記ユーザの発話であるユーザ発話を取得し、
前記取得されたユーザ発話の非言語情報を示す特徴を少なくとも抽出し、
予め機械学習によって生成された複数の学習モデルであって、複数の学習モデルのそれぞれが、非言語情報の特徴を入力として、沈黙、頷き及び発話を応答として出力し、少なくともユーザの積極性の度合ごとに学習が行われることによって生成される、複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定し、
前記決定された応答を実行するための制御を行い、
前記ユーザの状態であるユーザ状態であって、少なくとも前記ユーザの積極性の度合を含むユーザ状態を検出し、
前記検出されたユーザ状態に応じて、前記複数の学習モデルから前記学習モデルを選択し、
前記選択された学習モデルを用いて、前記応答を決定する
音声対話方法。 - ユーザと音声を用いた対話を行う音声対話システムを用いて行われる音声対話方法を実行するプログラムであって、
前記ユーザの発話であるユーザ発話を取得するステップと、
前記取得されたユーザ発話の非言語情報を示す特徴を少なくとも抽出するステップと、
予め機械学習によって生成された複数の学習モデルであって、複数の学習モデルのそれぞれが、非言語情報の特徴を入力として、沈黙、頷き及び発話を応答として出力し、少なくともユーザの積極性の度合ごとに学習が行われることによって生成される、複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定するステップと、
前記決定された応答を実行するための制御を行うステップと、
前記ユーザの状態であるユーザ状態であって、少なくとも前記ユーザの積極性の度合を含むユーザ状態を検出するステップと、
前記検出されたユーザ状態に応じて、前記複数の学習モデルから前記学習モデルを選択するステップと、
前記選択された学習モデルを用いて、前記応答を決定するステップと
をコンピュータに実行させるプログラム。 - ユーザと音声を用いた対話を行う音声対話システムで用いられる学習モデルを生成する学習モデル生成装置であって、
1以上の任意ユーザと対話を行うことによって前記任意ユーザの発話であるユーザ発話を取得する発話取得部と、
前記取得されたユーザ発話の非言語情報を示す特徴を少なくとも示す特徴ベクトルを抽出する特徴抽出部と、
前記ユーザ発話に対する応答として、沈黙、頷き及び発話のいずれかを示す正解ラベルと前記特徴ベクトルとが対応付けられたサンプルデータを生成するサンプルデータ生成部と、
前記ユーザ発話を発したときの前記任意ユーザの状態であるユーザ状態であって、少なくとも前記任意ユーザの積極性の度合を含むユーザ状態を取得して、前記取得されたユーザ状態を前記ユーザ発話に対応する前記サンプルデータに対応付けるユーザ状態取得部と、
前記ユーザ状態ごとに前記サンプルデータを分類するサンプルデータ分類部と、
前記分類された前記サンプルデータごとに、機械学習によって複数の学習モデルを生成する学習モデル生成部と
を有する学習モデル生成装置。 - ユーザと音声を用いた対話を行う音声対話システムで用いられる学習モデルを生成する学習モデル生成方法であって、
1以上の任意ユーザと対話を行うことによって前記任意ユーザの発話であるユーザ発話を取得し、
前記取得されたユーザ発話の非言語情報を示す特徴を少なくとも示す特徴ベクトルを抽出し、
前記ユーザ発話に対する応答として、沈黙、頷き及び発話のいずれかを示す正解ラベルと前記特徴ベクトルとが対応付けられたサンプルデータを生成し、
前記ユーザ発話を発したときの前記任意ユーザの状態であるユーザ状態であって、少なくとも前記任意ユーザの積極性の度合を含むユーザ状態を取得して、前記取得されたユーザ状態を前記ユーザ発話に対応する前記サンプルデータに対応付け、
前記ユーザ状態ごとに前記サンプルデータを分類し、
前記分類された前記サンプルデータごとに、機械学習によって複数の学習モデルを生成する
学習モデル生成方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018162774A JP7063779B2 (ja) | 2018-08-31 | 2018-08-31 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
EP19191406.8A EP3618063B1 (en) | 2018-08-31 | 2019-08-13 | Voice interaction system, voice interaction method and corresponding program |
CN201910783430.8A CN110875032B (zh) | 2018-08-31 | 2019-08-23 | 语音交互***和方法、程序、学习模型生成装置和方法 |
US16/555,603 US20200075007A1 (en) | 2018-08-31 | 2019-08-29 | Voice interaction system, voice interaction method, program, learning model generation apparatus, and learning model generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018162774A JP7063779B2 (ja) | 2018-08-31 | 2018-08-31 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020034835A JP2020034835A (ja) | 2020-03-05 |
JP7063779B2 true JP7063779B2 (ja) | 2022-05-09 |
Family
ID=67620297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018162774A Active JP7063779B2 (ja) | 2018-08-31 | 2018-08-31 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200075007A1 (ja) |
EP (1) | EP3618063B1 (ja) |
JP (1) | JP7063779B2 (ja) |
CN (1) | CN110875032B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7107248B2 (ja) * | 2019-02-26 | 2022-07-27 | トヨタ自動車株式会社 | 対話システム、対話方法及びプログラム |
KR102314385B1 (ko) * | 2019-08-08 | 2021-10-19 | 엘지전자 주식회사 | 로봇 및 그의 제어 방법 |
CN113163216B (zh) * | 2020-01-22 | 2023-08-22 | 华为云计算技术有限公司 | 基于云手机的直播方法和直播*** |
WO2021260848A1 (ja) * | 2020-06-24 | 2021-12-30 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
US20220084504A1 (en) * | 2020-09-11 | 2022-03-17 | International Business Machines Corporation | Artificial intelligence voice response system for speech impaired users |
CN113035191B (zh) * | 2021-02-26 | 2023-11-10 | 光禹莱特数字科技(上海)有限公司 | 语音交互方法、装置、存储介质和计算机设备 |
WO2022215104A1 (ja) * | 2021-04-05 | 2022-10-13 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
WO2024018400A2 (en) * | 2022-07-20 | 2024-01-25 | Q (Cue) Ltd. | Detecting and utilizing facial micromovements |
US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
CN116453027B (zh) * | 2023-06-12 | 2023-08-22 | 深圳市玩瞳科技有限公司 | 用于教育机器人的ai识别管理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271182A (ja) | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
US20050182618A1 (en) | 2004-02-18 | 2005-08-18 | Fuji Xerox Co., Ltd. | Systems and methods for determining and using interaction models |
JP2005331689A (ja) | 2004-05-19 | 2005-12-02 | Yamaha Motor Co Ltd | 落水対応音声認識装置、ならびにこれを用いた船舶用音声指示装置、船舶システムおよび救命胴衣、ならびに落水対応音声認識方法および落水者支援方法 |
JP2016218309A (ja) | 2015-05-22 | 2016-12-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
JP2018031918A (ja) | 2016-08-25 | 2018-03-01 | 株式会社デンソー | 車両用対話制御装置 |
JP2018040897A (ja) | 2016-09-06 | 2018-03-15 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
JP2018072650A (ja) | 2016-10-31 | 2018-05-10 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
JP2018124432A (ja) | 2017-02-01 | 2018-08-09 | トヨタ自動車株式会社 | 対話装置 |
JP2018132704A (ja) | 2017-02-16 | 2018-08-23 | トヨタ自動車株式会社 | 対話装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7222074B2 (en) * | 2001-06-20 | 2007-05-22 | Guojun Zhou | Psycho-physical state sensitive voice dialogue system |
JP2005352154A (ja) | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | 感情状態反応動作装置 |
US7729911B2 (en) * | 2005-09-27 | 2010-06-01 | General Motors Llc | Speech recognition method and system |
US8949266B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
CN101739870B (zh) * | 2009-12-03 | 2012-07-04 | 深圳先进技术研究院 | 交互式语言学习***及交互式语言学习方法 |
KR20170033722A (ko) * | 2015-09-17 | 2017-03-27 | 삼성전자주식회사 | 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치 |
US10289076B2 (en) * | 2016-11-15 | 2019-05-14 | Roborus Co., Ltd. | Concierge robot system, concierge service method, and concierge robot |
-
2018
- 2018-08-31 JP JP2018162774A patent/JP7063779B2/ja active Active
-
2019
- 2019-08-13 EP EP19191406.8A patent/EP3618063B1/en active Active
- 2019-08-23 CN CN201910783430.8A patent/CN110875032B/zh active Active
- 2019-08-29 US US16/555,603 patent/US20200075007A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271182A (ja) | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
US20050182618A1 (en) | 2004-02-18 | 2005-08-18 | Fuji Xerox Co., Ltd. | Systems and methods for determining and using interaction models |
JP2005331689A (ja) | 2004-05-19 | 2005-12-02 | Yamaha Motor Co Ltd | 落水対応音声認識装置、ならびにこれを用いた船舶用音声指示装置、船舶システムおよび救命胴衣、ならびに落水対応音声認識方法および落水者支援方法 |
JP2016218309A (ja) | 2015-05-22 | 2016-12-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
JP2018031918A (ja) | 2016-08-25 | 2018-03-01 | 株式会社デンソー | 車両用対話制御装置 |
JP2018040897A (ja) | 2016-09-06 | 2018-03-15 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
JP2018072650A (ja) | 2016-10-31 | 2018-05-10 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
JP2018124432A (ja) | 2017-02-01 | 2018-08-09 | トヨタ自動車株式会社 | 対話装置 |
JP2018132704A (ja) | 2017-02-16 | 2018-08-23 | トヨタ自動車株式会社 | 対話装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3618063B1 (en) | 2022-09-14 |
US20200075007A1 (en) | 2020-03-05 |
JP2020034835A (ja) | 2020-03-05 |
CN110875032B (zh) | 2023-10-10 |
EP3618063A1 (en) | 2020-03-04 |
CN110875032A (zh) | 2020-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7063779B2 (ja) | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 | |
US11010645B2 (en) | Interactive artificial intelligence analytical system | |
US10388279B2 (en) | Voice interaction apparatus and voice interaction method | |
US10706873B2 (en) | Real-time speaker state analytics platform | |
JP6617053B2 (ja) | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 | |
Busso et al. | Interrelation between speech and facial gestures in emotional utterances: a single subject study | |
Lee et al. | Modeling mutual influence of interlocutor emotion states in dyadic spoken interactions. | |
US10702991B2 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
US10573307B2 (en) | Voice interaction apparatus and voice interaction method | |
Busso et al. | Iterative feature normalization scheme for automatic emotion detection from speech | |
EP1318505A1 (en) | Emotion recognizing method, sensibility creating method, device, and software | |
CN110473533B (zh) | 语音对话***、语音对话方法以及程序 | |
Rybka et al. | Comparison of speaker dependent and speaker independent emotion recognition | |
JP2019020684A (ja) | 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム | |
JP7123856B2 (ja) | プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置 | |
Bojanić et al. | Application of neural networks in emotional speech recognition | |
JP2017182261A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20240220016A1 (en) | System and method for using gestures and expressions for controlling speech applications | |
Lin et al. | Nonverbal acoustic communication in human-computer interaction | |
Narayanan | Speech in Affective Computing 12 | |
El Haddad | Nonverbal conversation expressions processing for human-agent interactions | |
Egorow | Accessing the interlocutor: recognition of interaction-related interlocutor states in multiple modalities | |
JP2005128242A (ja) | 音声認識装置 | |
WO2024079605A1 (en) | Assisting a speaker during training or actual performance of a speech | |
Sadoughi Nourabadi | Synthesizing Naturalistic and Meaningful Speech-Driven Behaviors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7063779 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |