JP6795387B2 - 音声対話装置、音声対話方法、音声対話プログラム及びロボット - Google Patents
音声対話装置、音声対話方法、音声対話プログラム及びロボット Download PDFInfo
- Publication number
- JP6795387B2 JP6795387B2 JP2016242180A JP2016242180A JP6795387B2 JP 6795387 B2 JP6795387 B2 JP 6795387B2 JP 2016242180 A JP2016242180 A JP 2016242180A JP 2016242180 A JP2016242180 A JP 2016242180A JP 6795387 B2 JP6795387 B2 JP 6795387B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- infant
- activity
- voice
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 74
- 230000000694 effects Effects 0.000 claims description 528
- 239000000284 extract Substances 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 24
- 239000003607 modifier Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000036544 posture Effects 0.000 description 84
- 230000004044 response Effects 0.000 description 77
- 230000008569 process Effects 0.000 description 57
- 238000012545 processing Methods 0.000 description 50
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 230000008859 change Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 230000002452 interceptive effect Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/0003—Home robots, i.e. small robots for domestic use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S901/00—Robots
- Y10S901/01—Mobile robot
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S901/00—Robots
- Y10S901/46—Sensing device
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
特許文献1は、ネットワークを介して行われる対話型の通話を円滑に進める対話型通信システムを開示している。特許文献1では、対話型通信システムは、複数ユーザの会話が停滞した場合に、ワードデータベースから最近数ヶ月以内に対話型通信システムの会話に出現したワードを無作為に抽出するとともに、位置情報データベースから最近数ヶ月以内に対話型通信システムを利用したユーザ端末の位置情報を無作為に抽出し、抽出したワードと位置情報とに合致する話題を検索サイト又はニュースサイトへアクセスして検索し、検索した話題を提供している(例えば、段落0038参照)。また、特許文献1の対話型通信システムは、検索した話題に含まれるテキストデータ又は画像データを対話型通信画面に表示する(例えば、段落0039参照)。
まず始めに、話題提供装置と子ども(例えば、幼児)と大人(例えば、子どもの親等)との対話について、図1、図2、図3及び図4を用いて説明する。話題提供装置100と子どもと大人との対話は、図1、図2、図3及び図4に示される場面順で進行する。
実施の形態2では、話題提供装置100が幼児活動データベース204を作成する処理について説明する。
実施の形態3では、話題提供装置100をロボット400に実装した例について図16及び図17を用いて説明する。なお、以下の説明では、説明の簡略化のため上記実施の形態1,2と同様の構成については同一の符号を付けて説明を省略する。
101 センサ
102 マイク
103 人物推定部
104 音声認識部
105 応答文生成部
106 音声合成部
107 スピーカ
108 メモリ
200 第1処理部
201 親子対話判断部
202 対話履歴データベース
203 話題提供判断部
204 幼児活動データベース
205 対話話題判断部
206 話題候補抽出部
207 提供話題判断部
300 第2処理部
301 姿勢推定部
302 運動量測定部
303 活動項目推定部
304 音量測定部
305 活動項目判断部
306 活動項目登録部
400 ロボット
401 制御回路
402 主制御部
403 駆動制御部
404 駆動部
405 メイン筐体
406 球冠部
Claims (14)
- 複数のユーザと音声対話する装置であって、
前記装置の周辺の画像データを取得するセンサと、
前記装置の周辺の音を取得するマイクと、
前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、
前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、
前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、
前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、
前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、
前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、
前記一の話題を含む音声データを生成する生成部と、
前記生成された音声データを出力するスピーカと、
を備える、
装置。 - 前記第2データベースは、更に、前記活動項目に対応する運動量を示す運動量情報と、前記活動項目に対応する音量を示す音量情報と、前記活動項目に対応する日付を示す日付情報とを記憶し、
前記抽出部は、前記第2データベースに基づいて、最新の活動項目を特定し、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なる第2活動項目を、前記話題の候補として抽出し、
前記選択部は、前記最新の活動項目に対応する第1運動量と、前記最新の活動項目に対応する第1音量と、前記活動項目のうち第2活動項目に対応する第2運動量と、前記第2活動項目に対応する第2音量とに基づいて、前記第2活動項目から第3活動項目を前記一の話題として選択する、
請求項1に記載の装置。 - 前記選択部は、前記第1運動量に対する前記第2運動量の相対運動量の二乗と、前記第1音量に対する前記第2音量の相対音量の二乗との和が最大となる第2活動項目を前記第3活動項目として選択する、
請求項2に記載の装置。 - 前記抽出部は、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なり、且つ第2所定期間に記録された第2活動項目を、前記話題の候補として抽出する、
請求項2に記載の装置。 - 前記運動量情報は、前記運動量に第1係数が乗算された値であり、
前記音量情報は、前記音量に第2係数が乗算された値である、
請求項2に記載の装置。 - 前記生成部は、前記第2データベースに基づいて、前記第3活動項目に対応する第3運動量が第1閾値以上である場合は、第2キーワードを含む前記音声データを生成し、前記第2データベースに基づいて、前記第3活動項目に対応する第3運動量が第1閾値未満である場合は、第3キーワードを含む前記音声データを生成する、
請求項2に記載の装置。 - 前記第2キーワード及び前記第3キーワードは、前記第3活動項目に取り組む前記幼児の活発さを示す修飾語を含み、
前記第2キーワードが示す意味は、前記第3キーワードが示す意味とは反対の意味である、
請求項6に記載の装置。 - 前記生成部は、前記第2データベースに基づいて、前記第3活動項目に対応する第3音量が第1閾値以上である場合は、第2キーワードを含む前記音声データを生成し、前記第2データベースに基づいて、前記第3活動項目に対応する第3音量が前記第1閾値未満である場合は、第3キーワードを含む前記音声データを生成する、
請求項2に記載の装置。 - 前記第2キーワード及び前記第3キーワードは、前記第3活動項目に取り組む前記幼児の活発さを示す修飾語を含み、
前記第2キーワードが示す意味は、前記第3キーワードが示す意味とは反対の意味である、
請求項8に記載の装置。 - 前記特徴量は、前記音声を発話した発話者の声紋を含む、
請求項1に記載の装置。 - 前記第1キーワードは、話題を示す単語を含む、
請求項1に記載の装置。 - 請求項1記載の装置と、
前記装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。 - 複数のユーザと音声対話する装置における方法であって、
前記装置の周辺の画像データを取得し、
前記装置の周辺の音を取得し、
前記取得した画像データと、前記複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記複数のユーザは、大人と幼児とを含み、
前記取得した音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録し、
前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定した人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定し、
前記大人と前記幼児とが会話していると判定した場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定し、
前記話題を提供する必要があると判定した場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出し、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択し、
前記一の話題を含む音声データを生成し、
前記生成した音声データを出力する、
方法。 - 複数のユーザと音声対話するためのプログラムであって、
前記複数のユーザと音声対話する装置が備えるプロセッサを、
センサによって取得された前記装置の周辺の画像データと、前記複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記複数のユーザは、大人と幼児とを含み、
マイクによって取得された前記装置の周辺の音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、
前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、
前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、
前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、
前記一の話題を含む音声データを生成し、前記生成した音声データをスピーカに出力する生成部として機能させる、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016242180A JP6795387B2 (ja) | 2016-12-14 | 2016-12-14 | 音声対話装置、音声対話方法、音声対話プログラム及びロボット |
CN201710831295.0A CN108231070B (zh) | 2016-12-14 | 2017-09-13 | 语音对话装置、语音对话方法、记录介质以及机器人 |
US15/834,030 US10650815B2 (en) | 2016-12-14 | 2017-12-06 | Voice interaction device, voice interaction method, voice interaction program, and robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016242180A JP6795387B2 (ja) | 2016-12-14 | 2016-12-14 | 音声対話装置、音声対話方法、音声対話プログラム及びロボット |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097185A JP2018097185A (ja) | 2018-06-21 |
JP6795387B2 true JP6795387B2 (ja) | 2020-12-02 |
Family
ID=62490203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016242180A Active JP6795387B2 (ja) | 2016-12-14 | 2016-12-14 | 音声対話装置、音声対話方法、音声対話プログラム及びロボット |
Country Status (3)
Country | Link |
---|---|
US (1) | US10650815B2 (ja) |
JP (1) | JP6795387B2 (ja) |
CN (1) | CN108231070B (ja) |
Families Citing this family (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
AU2017100670C4 (en) | 2016-06-12 | 2019-11-21 | Apple Inc. | User interfaces for retrieving contextually relevant media content |
JP6751536B2 (ja) * | 2017-03-08 | 2020-09-09 | パナソニック株式会社 | 装置、ロボット、方法、及びプログラム |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US11220008B2 (en) * | 2017-07-18 | 2022-01-11 | Panasonic Intellectual Property Management Co., Ltd. | Apparatus, method, non-transitory computer-readable recording medium storing program, and robot |
CN110800045A (zh) * | 2017-10-24 | 2020-02-14 | 北京嘀嘀无限科技发展有限公司 | 用于不间断应用唤醒和语音识别的***和方法 |
JP7280512B2 (ja) * | 2018-02-16 | 2023-05-24 | 日本電信電話株式会社 | 非言語情報生成装置及びプログラム |
JP7015711B2 (ja) * | 2018-03-08 | 2022-02-03 | パナソニック株式会社 | 装置、ロボット、方法、及びプログラム |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) * | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
JP7042167B2 (ja) * | 2018-06-13 | 2022-03-25 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、およびプログラム |
CN109176535B (zh) * | 2018-07-16 | 2021-10-19 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及*** |
CN109165997A (zh) * | 2018-07-19 | 2019-01-08 | 阿里巴巴集团控股有限公司 | 一种线下购物推荐内容的生成方法及装置 |
EP3859568A4 (en) * | 2018-09-28 | 2021-09-29 | Fujitsu Limited | DIALOGUE DEVICE, DIALOGUE PROCEDURE AND DIALOGUE PROGRAM |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11869509B1 (en) * | 2018-12-21 | 2024-01-09 | Cerner Innovation, Inc. | Document generation from conversational sources |
US11798560B1 (en) | 2018-12-21 | 2023-10-24 | Cerner Innovation, Inc. | Rapid event and trauma documentation using voice capture |
US11875883B1 (en) | 2018-12-21 | 2024-01-16 | Cerner Innovation, Inc. | De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources |
CN109760068A (zh) * | 2019-01-22 | 2019-05-17 | 合肥状元郎电子科技有限公司 | 一种儿童娱教监护机器人 |
JP2020119412A (ja) * | 2019-01-28 | 2020-08-06 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN109902834B (zh) * | 2019-01-28 | 2021-02-05 | 北京怡凯智能技术有限公司 | 一种话题驱动的老人陪伴主动对话机器人 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11379016B2 (en) | 2019-05-23 | 2022-07-05 | Intel Corporation | Methods and apparatus to operate closed-lid portable computers |
CN110334341B (zh) * | 2019-05-23 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于数据分析的语料推荐方法、装置、介质及电子设备 |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110459200A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
WO2021005648A1 (ja) * | 2019-07-05 | 2021-01-14 | 日本電信電話株式会社 | 情報推薦装置、情報推薦システム、情報推薦方法及び情報推薦プログラム |
US11543873B2 (en) | 2019-09-27 | 2023-01-03 | Intel Corporation | Wake-on-touch display screen devices and related methods |
JP7156242B2 (ja) * | 2019-10-18 | 2022-10-19 | トヨタ自動車株式会社 | 情報処理装置、プログラム及び制御方法 |
US11733761B2 (en) | 2019-11-11 | 2023-08-22 | Intel Corporation | Methods and apparatus to manage power and performance of computing devices based on user presence |
US11809535B2 (en) | 2019-12-23 | 2023-11-07 | Intel Corporation | Systems and methods for multi-modal user device authentication |
US11360528B2 (en) | 2019-12-27 | 2022-06-14 | Intel Corporation | Apparatus and methods for thermal management of electronic user devices based on user activity |
US11449555B2 (en) * | 2019-12-30 | 2022-09-20 | GM Cruise Holdings, LLC | Conversational AI based on real-time contextual information for autonomous vehicles |
JP6841535B1 (ja) * | 2020-01-29 | 2021-03-10 | 株式会社インタラクティブソリューションズ | 会話解析システム |
JP7325757B2 (ja) * | 2020-03-25 | 2023-08-15 | 淳 大▲高▼ | 対話可能物体表示プログラムおよび対話可能物体表示装置 |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US20210109585A1 (en) * | 2020-12-21 | 2021-04-15 | Intel Corporation | Methods and apparatus to improve user experience on computing devices |
WO2023135781A1 (ja) * | 2022-01-17 | 2023-07-20 | 日本電気株式会社 | 転倒検出装置、システム及び方法、並びに、コンピュータ可読媒体 |
CN115312031B (zh) * | 2022-07-22 | 2024-06-18 | 东北大学 | 基于深度学习的自然语言处理方法及*** |
WO2024023901A1 (ja) * | 2022-07-25 | 2024-02-01 | 日本電信電話株式会社 | 通信端末、コメント出力方法、及びプログラム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003302558A1 (en) * | 2002-12-02 | 2004-06-23 | Sony Corporation | Dialogue control device and method, and robot device |
JP2005010691A (ja) * | 2003-06-20 | 2005-01-13 | P To Pa:Kk | 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム |
JP4048492B2 (ja) * | 2003-07-03 | 2008-02-20 | ソニー株式会社 | 音声対話装置及び方法並びにロボット装置 |
WO2005086051A1 (ja) * | 2004-03-08 | 2005-09-15 | National Institute Of Information And Communications Technology | 対話システム、対話ロボット、プログラム及び記録媒体 |
JP4682217B2 (ja) * | 2007-03-07 | 2011-05-11 | パナソニック株式会社 | 行動制御装置、方法、プログラム |
JP2009131928A (ja) * | 2007-11-30 | 2009-06-18 | Olympus Corp | ロボット制御システム、ロボット、プログラム及び情報記憶媒体 |
JP2009061547A (ja) * | 2007-09-06 | 2009-03-26 | Olympus Corp | ロボット制御システム、ロボット、プログラム及び情報記憶媒体 |
US8886663B2 (en) * | 2008-09-20 | 2014-11-11 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
JP5300497B2 (ja) * | 2009-01-07 | 2013-09-25 | 株式会社東芝 | 対話装置、対話プログラムおよび対話方法 |
KR101622111B1 (ko) * | 2009-12-11 | 2016-05-18 | 삼성전자 주식회사 | 대화 시스템 및 그의 대화 방법 |
FR2963132A1 (fr) * | 2010-07-23 | 2012-01-27 | Aldebaran Robotics | Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface |
US8447863B1 (en) * | 2011-05-06 | 2013-05-21 | Google Inc. | Systems and methods for object recognition |
JP5684082B2 (ja) * | 2011-09-27 | 2015-03-11 | 株式会社東芝 | 対話支援装置、方法及びプログラム |
JP6281164B2 (ja) * | 2013-12-25 | 2018-02-21 | 株式会社国際電気通信基礎技術研究所 | 遊び行動認識システム、遊び行動認識プログラム、遊び行動認識方法および遊び行動認識装置 |
US9621713B1 (en) * | 2014-04-01 | 2017-04-11 | Securus Technologies, Inc. | Identical conversation detection method and apparatus |
JP2015219583A (ja) * | 2014-05-14 | 2015-12-07 | 日本電信電話株式会社 | 話題決定装置、発話装置、方法、及びプログラム |
JP6432177B2 (ja) * | 2014-06-20 | 2018-12-05 | カシオ計算機株式会社 | 対話型通信システム、端末装置およびプログラム |
US10366689B2 (en) * | 2014-10-29 | 2019-07-30 | Kyocera Corporation | Communication robot |
CN105654950B (zh) * | 2016-01-28 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106020488A (zh) * | 2016-06-03 | 2016-10-12 | 北京光年无限科技有限公司 | 一种面向对话***的人机交互方法及装置 |
JP6633008B2 (ja) * | 2017-02-01 | 2020-01-22 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
US10853717B2 (en) * | 2017-04-11 | 2020-12-01 | Microsoft Technology Licensing, Llc | Creating a conversational chat bot of a specific person |
-
2016
- 2016-12-14 JP JP2016242180A patent/JP6795387B2/ja active Active
-
2017
- 2017-09-13 CN CN201710831295.0A patent/CN108231070B/zh active Active
- 2017-12-06 US US15/834,030 patent/US10650815B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10650815B2 (en) | 2020-05-12 |
CN108231070A (zh) | 2018-06-29 |
CN108231070B (zh) | 2023-04-18 |
US20180166076A1 (en) | 2018-06-14 |
JP2018097185A (ja) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6795387B2 (ja) | 音声対話装置、音声対話方法、音声対話プログラム及びロボット | |
KR102627948B1 (ko) | 다수의 연령 및/또는 어휘 수준을 수용하는 자동화 어시스턴트 | |
Roy et al. | Learning words from sights and sounds: A computational model | |
US20190172448A1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
JP6558364B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5782459B2 (ja) | 音声−体識別の相関 | |
CN112955911B (zh) | 数字图像分类和注释 | |
CN109923512A (zh) | 人机交互的***及方法 | |
JP6821393B2 (ja) | 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット | |
JP2017064853A (ja) | ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム | |
KR20180012192A (ko) | 유아동용 학습 장치 및 그 동작 방법 | |
JP2021131699A (ja) | 情報処理装置および行動モード設定方法 | |
JP6306447B2 (ja) | 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム | |
Ktistakis et al. | A multimodal human-machine interaction scheme for an intelligent robotic nurse | |
JP6997733B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6866731B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
Schuller et al. | Speech communication and multimodal interfaces | |
JPWO2019044534A1 (ja) | 情報処理装置、及び情報処理方法 | |
JP7015711B2 (ja) | 装置、ロボット、方法、及びプログラム | |
Denby | Down with sound, the story of silent speech | |
Hrúz et al. | Input and output modalities used in a sign-language-enabled information kiosk | |
Rossiter | Multimodal intent recognition for natural human-robotic interaction | |
JP2005110726A (ja) | 学習装置及びその方法 | |
Cooke et al. | Using the focus of visual attention to improve spontaneous speech recognition. | |
Putra | A Natural User Interface Translation Tool: From Sign Language to Spoken Text and Vice Versa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191120 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20200605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201112 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6795387 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |