CN108231070B - 语音对话装置、语音对话方法、记录介质以及机器人 - Google Patents

语音对话装置、语音对话方法、记录介质以及机器人 Download PDF

Info

Publication number
CN108231070B
CN108231070B CN201710831295.0A CN201710831295A CN108231070B CN 108231070 B CN108231070 B CN 108231070B CN 201710831295 A CN201710831295 A CN 201710831295A CN 108231070 B CN108231070 B CN 108231070B
Authority
CN
China
Prior art keywords
child
topic
activity
database
activity item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710831295.0A
Other languages
English (en)
Other versions
CN108231070A (zh
Inventor
樋口圣弥
国武勇次
太田雄策
宫崎亮太
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN108231070A publication Critical patent/CN108231070A/zh
Application granted granted Critical
Publication of CN108231070B publication Critical patent/CN108231070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0003Home robots, i.e. small robots for domestic use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/01Mobile robot
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/46Sensing device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及语音对话装置、语音对话方法、语音对话程序以及机器人。语音对话装置具备:话题候选提取部,其在判定为家长和孩子正在交谈、且判定为需要向家长和孩子重新提供话题的情况下,基于对话历史记录数据库、和存储表示幼儿在第1预定期间活动了的项目的活动项目的幼儿活动数据库,提取与活动项目对应、并且与记录于第1数据库的文本数据所包含的活动项目不对应的话题的候选;提供话题判断部,其从话题的候选中选择向家长和孩子提供的一个话题;语音合成部,其生成包括一个话题的语音数据;以及扬声器,其输出语音数据。

Description

语音对话装置、语音对话方法、记录介质以及机器人
技术领域
本公开涉及与多个用户进行语音对话的语音对话装置、语音对话方法、语音对话程序以及机器人,并且,涉及与用户进行语音对话的语音对话装置、语音对话方法、语音对话程序以及机器人。
背景技术
在现有技术中,提供与对话者彼此所说的话关联的事情作为话题(例如参照专利文献1、专利文献2以及专利文献3)。
现有技术文献
专利文献1:日本特开2016-6607号公报
专利文献2:日本特开2013-73355号公报
专利文献3:日本专利第5300497号说明书
发明内容
发明所要解决的问题
在大人与幼儿的对话中,希望提供幼儿易聊的话题。
然而,在上述现有技术中,需要进一步的改善。
本公开是为了解决上述问题而做出的,提供语音对话装置、语音对话方法、语音对话程序以及机器人,该语音对话装置、语音对话方法、语音对话程序以及机器人能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
用于解决问题的技术方案
本公开的一个技术方案涉及的装置,是与多个用户进行语音对话的装置,具备:传感器,其取得所述装置周边的图像数据;麦克风,其取得所述装置周边的声音;存储器,其存储有与所述多个用户对应的多个图像数据,所述多个用户包括大人和幼儿;推定部,其基于所述取得的图像数据和所述存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息;语音识别部,其从所述取得的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;第1判定部,其基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;第2判定部,其在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;提取部,其在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;选择部,其从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;生成部,其生成包括所述一个话题的语音数据;以及扬声器,其输出所述生成的语音数据。
发明效果
根据本公开,能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
附图说明
图1是用于说明话题提供装置与小孩对话,确定小孩当前正在进行活动的活动项目,并且测定小孩的运动量以及嗓音的音量,使活动项目、运动量和音量编入数据库的处理的示意图。
图2是用于说明在亲子对话时,话题提供装置确定对话的话题的处理的示意图。
图3是用于说明话题提供装置选择接下来要对家长和孩子提供的话题的处理的示意图。
图4是用于说明话题提供装置将所选择的话题提供给家长和孩子的处理的示意图。
图5是表示本实施方式1中的话题提供装置的整体结构的图。
图6是表示本实施方式1中的话题提供装置的第1处理部的构成的图。
图7是表示本实施方式1中的对话历史记录数据库的一例的图。
图8是表示本实施方式1中的幼儿活动数据库的一例的图。
图9是用于说明本实施方式1中的提供话题判断部从话题的候选中选择向大人和幼儿提供的一个话题的处理的图。
图10是表示由本实施方式1中的话题提供装置进行的话题提供处理的一例的流程图。
图11是用于说明图10的步骤S13的提供话题文生成处理的流程图。
图12是表示本实施方式2中的话题提供装置的第2处理部的构成的图。
图13是表示在本实施方式2中活动项目推定部推定活动项目时所使用的关联了活动项目、人体的各部位的运动量、和姿势的状态的表的图。
图14是表示由本实施方式2中的话题提供装置进行的登记处理的一例的第1流程图。
图15是表示由本实施方式2中的话题提供装置进行的登记处理的一例的第2流程图。
图16是本实施方式3涉及的机器人的外观图。
图17是表示本实施方式3涉及的机器人的构成的框图。
标号说明
100:话题提供装置               101:传感器
102:麦克风                     103:人物推定部
104:语音识别部                 105:响应文生成部
106:语音合成部                 107:扬声器
108:存储器                     200:第1处理部
201:亲子对话判断部             202:对话历史记录数据库
203:话题提供判断部             204:幼儿活动数据库
205:对话话题判断部             206:话题候选提取部
207:提供话题判断部             300:第2处理部
301:姿势推定部                 302:运动量测定部
303:活动项目推定部             304:音量测定部
305:活动项目判断部             306:活动项目登记部
400:机器人                     401:控制电路
402:主控制部                   403:驱动控制部
404:驱动部                     405:主壳体
406:球冠部
具体实施方式
(成为本公开的基础的见解)
专利文献1公开了一种使经由网络进行的对话式的通话顺畅地推进的对话式通信***。在专利文献1中,对话式通信***在多个用户的交谈停滞的情况下,从字符(word)数据库随机提取在最近几个月以内出现于对话式通信***的交谈中的字符,并且,从位置信息数据库随机提取在最近几个月以内利用过对话式通信***的用户终端的位置信息,访问检索网站或者新闻网站来检索与提取到的字符和位置信息吻合的话题,并提供检索到的话题(例如参照段落0038)。另外,专利文献1的对话式通信***将检索到的话题所包含的文本数据或者图像数据显示于对话式通信画面(例如参照段落0039)。
另外,专利文献2公开了一种辅助由多个说话人进行的对话的对话辅助装置。在专利文献2中,对话辅助装置在机器翻译介于对话的情况下,根据对话来提示用于补充知识的补充信息。专利文献2的对话辅助装置从对话者的说话内容中提取关键字,从补充说明数据库输出与关键字对应的多个补充信息,从多个补充信息中按优先级自高向低的顺序选择预先确定的个数的补充信息并进行提示(例如参照段落0091、0095以及0097)。
另外,专利文献3公开了一种与用户对话的对话装置。在专利文献3中,对话装置针对用户说的话进行与用户的兴趣度相应的响应。专利文献3的对话装置从构成用户所表达的语言的单词中提取中心词(主要词),判定对于用户的兴趣度至少表示高低的用户兴趣度,从关联词数据库中选择根据用户兴趣度而与中心词关联的关联词,将中心词和关联词***与这些中心词及关联词之间的概念上的上下关系对应的固定格式文并制作响应文(例如参照段落0011)。
然而,在上述的专利文献1中,从检索网站或者新闻网站上检索并提供与随机提取到的过去出现的字符和随机提取到的用户终端的位置信息吻合的话题,因此,无法提供与幼儿的活动内容相应的话题,无法提供幼儿易交谈的话题。
另外,在上述的专利文献2中,从对话者的说话内容提取关键字,按优先级的顺序提示与关键字对应的补充信息,因此,无法提供与幼儿的活动内容相应的话题,无法提供幼儿易交谈的话题。
另外,在上述的专利文献3中,针对用户说的话进行与用户的兴趣度相应的响应,但没有提供与幼儿的活动内容相应的话题,无法提供幼儿易交谈的话题。
(1)本公开的一个技术方案涉及的装置,是与多个用户进行语音对话的装置,具备:传感器,其取得所述装置周边的图像数据;麦克风,其取得所述装置周边的声音;存储器,其存储有与所述多个用户对应的多个图像数据,所述多个用户包括大人和幼儿;推定部,其基于所述取得的图像数据和所述存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息;语音识别部,其从所述取得的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;第1判定部,其基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;第2判定部,其在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;提取部,其在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;选择部,其从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;生成部,其生成包括所述一个话题的语音数据;以及扬声器,其输出所述生成的语音数据。
根据该构成,可取得装置周边的图像数据。可取得装置周边的声音。与多个用户对应的多个图像数据被存储于存储器。多个用户包括大人和幼儿。可基于取得的图像数据和存储的多个图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。可从取得的声音中提取语音,提取与语音对应的文本数据和语音的特征量,将文本数据与特征量关联并记录于第1数据库。可基于用户信息和第1数据库,判断大人与幼儿是否正在交谈。可在推定出的人物是大人和幼儿、并且特征量包括互不相同的多个特征量的情况下,判定为大人与幼儿正在交谈。可在判定为大人与幼儿正在交谈的情况下,基于第1数据库,判定是否需要向大人和幼儿重新提供话题。可在文本数据包含有第1关键字的情况下,判定为需要向大人和幼儿重新提供话题。可在判定为需要提供话题的情况下,基于第1数据库和第2数据库,提取话题的候选。第2数据库存储有表示幼儿在第1预定期间活动了的项目的活动项目。话题的候选与活动项目对应,并且与记录于第1数据库的文本数据所包含的活动项目不对应。可从话题的候选中选择向大人和幼儿提供的一个话题。可生成包括一个话题的语音数据。可输出所生成的语音数据。
因此,可基于存储表示大人与幼儿的对话的文本数据的第1数据库、和存储表示幼儿在第1预定期间活动了的项目的活动项目的第2数据库,提取与活动项目对应、并且与记录于第1数据库的文本数据所包含的活动项目不对应的话题的候选,从话题的候选中选择向大人与幼儿提供的一个话题,所以能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(2)在上述技术方案中,也可以为,所述第2数据库还存储:表示与所述活动项目对应的运动量的运动量信息;表示与所述活动项目对应的音量的音量信息;和表示与所述活动项目对应的日期的日期信息,所述提取部基于所述第2数据库,确定最新的活动项目,提取与所述最新的活动项目和所述文本数据所包含的活动项目不同的第2活动项目来作为所述话题的候选,所述选择部基于与所述最新的活动项目对应的第1运动量、与所述最新的活动项目对应的第1音量、与所述活动项目中的第2活动项目对应的第2运动量、和与所述第2活动项目对应的第2音量,从所述第2活动项目中选择第3活动项目作为所述一个话题。
根据该构成,第2数据库还存储有:表示与活动项目对应的运动量的运动量信息;表示与活动项目对应的音量的音量信息;和表示与活动项目对应的日期的日期信息。可基于第2数据库,确定最新的活动项目,提取与最新的活动项目和文本数据所包含的活动项目不同的第2活动项目来作为话题的候选。可基于与最新的活动项目对应的第1运动量、与最新的活动项目对应的第1音量、与活动项目中的第2活动项目对应的第2运动量、和与第2活动项目对应的第2音量,从第2活动项目中选择第3活动项目作为一个话题。
因此,可提取与最新的活动项目和文本数据所包含的活动项目不同的第2活动项目来作为话题的候选,所以能够将已经出现于大人与幼儿的对话的活动项目从话题的候选中排除,能够提供新的话题。
(3)在上述技术方案中,也可以为,所述选择部将所述第2运动量相对于所述第1运动量的相对运动量的平方、与所述第2音量相对于所述第1音量的相对音量的平方之和成为最大的第2活动项目选择作为所述第3活动项目。
根据该构成,可将第2运动量相对于第1运动量的相对运动量的平方、与第2音量相对于第1音量的相对音量的平方之和成为最大的第2活动项目选择作为第3活动项目。
因此,可选择运动量以及音量与最新的活动项目大不相同的第2活动项目作为第3活动项目,所以能够提供与对话中的当前的话题完全不同的话题。
(4)在上述技术方案中,也可以为,所述提取部提取与所述最新的活动项目和所述文本数据所包含的活动项目不同、并且在第2预定期间记录的第2活动项目来作为所述话题的候选。
根据该构成,可提取与最新的活动项目和文本数据所包含的活动项目不同、并且在第2预定期间记录的第2活动项目来作为话题的候选,所以能够从较新的第2活动项目中提取话题的候选。
(5)在上述技术方案中,也可以为,所述运动量信息是对所述运动量乘以第1系数而得到的值,所述音量信息是对所述音量乘以第2系数而得到的值。
根据该构成,运动量信息是对运动量乘以第1系数而得到的值,音量信息是对音量乘以第2系数而得到的值,所以能够使运动量的标度(scale)与音量的标度相协调。
(6)在上述技术方案中,也可以为,所述生成部,基于所述第2数据库,在与所述第3活动项目对应的第3运动量大于等于第1阈值的情况下,生成包括第2关键字的所述语音数据,基于所述第2数据库,在与所述第3活动项目对应的第3运动量小于第1阈值的情况下,生成包括第3关键字的所述语音数据。
根据该构成,可基于第2数据库,在与第3活动项目对应的第3运动量大于等于第1阈值的情况下,生成包括第2关键字的语音数据。另外,可基于第2数据库,在与第3活动项目对应的第3运动量小于第1阈值的情况下,生成包括第3关键字的语音数据。因此,能够根据运动量的大小,输出不同的语音数据。
(7)在上述技术方案中,也可以为,所述第2关键字以及所述第3关键字包括表示投入所述第3活动项目的所述幼儿的活跃度的修饰词,所述第2关键字所示的意思是与所述第3关键字所示的意思相反的意思。
根据该构成,第2关键字以及第3关键字包括表示投入第3活动项目的幼儿的活跃度的修饰词。第2关键字所示的意思是与第3关键字所示的意思相反的意思。因此,能够提供幼儿更易聊的话题。
(8)在上述技术方案中,也可以为,所述生成部,基于所述第2数据库,在与所述第3活动项目对应的第3音量大于等于第1阈值的情况下,生成包括第2关键字的所述语音数据,基于所述第2数据库,在与所述第3活动项目对应的第3音量小于所述第1阈值的情况下,生成包括第3关键字的所述语音数据。
根据该构成,可基于第2数据库,在与第3活动项目对应的第3音量大于等于第1阈值的情况下,生成包括第2关键字的语音数据。另外,可基于第2数据库,在与第3活动项目对应的第3音量小于第1阈值的情况下,生成包括第3关键字的语音数据。因此,能够根据音量的大小,输出不同的语音数据。
(9)在上述技术方案中,也可以为,所述第2关键字以及所述第3关键字包括表示投入所述第3活动项目的所述幼儿的活跃度的修饰词,所述第2关键字所示的意思是与所述第3关键字所示的意思相反的意思。
根据该构成,第2关键字以及第3关键字包括表示投入第3活动项目的幼儿的活跃度的修饰词。第2关键字所示的意思是与第3关键字所示的意思相反的意思。因此,能够提供幼儿更易聊的话题。
(10)在上述技术方案中,也可以为,所述特征量包括发出所述语音的说话者的声纹。根据该构成,能够根据发出语音的说话者的声纹,更准确地识别人物。
(11)在上述技术方案中,也可以为,所述第1关键字包括表示话题的单词。根据该构成,大人或者幼儿能够向装置请求新的话题。
(12)本公开的另一技术方案涉及的机器人,具备:技术方案(1)所述的装置;壳体,其内置所述装置;以及移动机构,其使所述壳体移动。根据该构成,能够将上述的装置适用于机器人。
(13)本公开的另一技术方案涉及的方法,是与多个用户进行语音对话的装置中的方法,包括:取得所述装置周边的图像数据;取得所述装置周边的声音;基于所述取得的图像数据、和存储与所述多个用户对应的多个图像数据的存储器所存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述多个用户包括大人和幼儿;从所述取得的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;生成包括所述一个话题的语音数据;以及输出所述生成的语音数据。
根据该构成,可取得装置周边的图像数据。可取得装置周边的声音。可基于取得的图像数据、和存储与多个用户对应的多个图像数据的存储器所存储的多个图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。多个用户包括大人和幼儿。可从取得的声音中提取语音,提取与语音对应的文本数据和语音的特征量,将文本数据与特征量关联并记录于第1数据库。可基于用户信息和第1数据库,判断大人与幼儿是否正在交谈。可在推定出的人物是大人和幼儿、并且特征量包括互不相同的多个特征量的情况下,判定为大人与幼儿正在交谈。可在判定为大人与幼儿正在交谈的情况下,基于第1数据库,判定是否需要向大人和幼儿重新提供话题。可在文本数据包含有第1关键字的情况下,判定为需要向大人和幼儿重新提供话题。可在判定为需要提供话题的情况下,基于第1数据库和第2数据库,提取话题的候选。第2数据库存储有表示幼儿在第1预定期间活动了的项目的活动项目。话题的候选与活动项目对应,并且与记录于第1数据库的文本数据所包含的活动项目不对应。可从话题的候选中选择向大人和幼儿提供的一个话题。可生成包括一个话题的语音数据。可输出所生成的语音数据。
因此,可基于存储表示大人与幼儿的对话的文本数据的第1数据库、和存储表示幼儿在第1预定期间活动了的项目的活动项目的第2数据库,提取与活动项目对应、并且与记录于第1数据库的文本数据所包含的活动项目不对应的话题的候选,从话题的候选中选择向大人与幼儿提供的一个话题,所以能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(14)本公开的另一技术方案涉及的程序,是用于与多个用户进行语音对话的程序,该程序使与所述多个用户进行语音对话的装置所具备的处理器作为如下各部(单元)而发挥功能:推定部,其基于通过传感器取得的所述装置周边的图像数据、和存储有与所述多个用户对应的多个图像数据的存储器所存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述多个用户包括大人和幼儿;语音识别部,其从通过麦克风取得的所述装置周边的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;第1判定部,其基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;第2判定部,其在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;提取部,其在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;选择部,其从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;以及生成部,其生成包括所述一个话题的语音数据,将所述生成的语音数据输出到扬声器。
根据该构成,可基于通过传感器取得的装置周边的图像数据、和存储有与多个用户对应的多个图像数据的存储器所存储的多个图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。多个用户包括大人和幼儿。可从通过麦克风取得的装置周边的声音中提取语音,提取与语音对应的文本数据和语音的特征量,将文本数据与特征量关联并记录于第1数据库。可基于用户信息和第1数据库,判定大人与幼儿是否正在交谈。可在推定出的人物是大人和幼儿、并且特征量包括互不相同的多个特征量的情况下,判定为大人与幼儿正在交谈。可在判定为大人与幼儿正在交谈的情况下,基于第1数据库,判定是否需要向大人和幼儿重新提供话题。可在文本数据包含有第1关键字的情况下,判定为需要向大人和幼儿重新提供话题。可在判定为需要提供话题的情况下,基于第1数据库和第2数据库,提取话题的候选。第2数据库存储有表示幼儿在第1预定期间活动了的项目的活动项目。话题的候选与活动项目对应,并且与记录于第1数据库的文本数据所包含的活动项目不对应。可从话题的候选中选择向大人和幼儿提供的一个话题。可生成包括一个话题的语音数据。可将生成的语音数据输出到扬声器。
因此,可基于存储表示大人与幼儿的对话的文本数据的第1数据库、和存储表示幼儿在第1预定期间活动了的项目的活动项目的第2数据库,提取与活动项目对应、并且与记录于第1数据库的文本数据所包含的活动项目不对应的话题的候选,从话题的候选中选择向大人与幼儿提供的一个话题,所以能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(15)本公开的另一技术方案涉及的装置,是与用户进行语音对话的装置,具备:传感器,其取得所述装置周边的图像数据、和表示到位于所述装置周边的包括人物在内的物体的距离的距离数据;麦克风,其取得所述装置周边的声音;存储器;音量测定部,其从所述取得的声音中提取语音,输出表示所述提取到的语音的音量的音量信息;人物推定部,其基于所述取得的图像数据和所述存储器所存储的与所述用户对应的图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述用户包括幼儿;姿势推定部,其在所述用户信息所示的人物是所述幼儿的情况下,基于所述取得的图像数据、所述取得的距离数据、和所述存储器所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定所述幼儿的姿势,输出表示所述推定出的幼儿的姿势的姿势信息;运动量测定部,其在所述用户信息所示的人物是所述幼儿的情况下,基于所述取得的图像数据、所述取得的距离数据、和所述存储的人体模型数据,算出所述幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示所述运动量的运动量信息;活动项目推定部,其基于所述姿势信息、所述运动量信息、和所述存储器所存储的示出了所述幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于所述提取到的语音所包含的名词,推定所述幼儿当前正在进行的活动项目,输出表示所述推定出的活动项目的活动信息;生成部,其生成包括与所述活动信息所表示的活动项目对应的关键字的第1语音数据,所述第1语音数据用疑问句来表现;扬声器,其输出所述第1语音数据;语音识别部,其在所述第1语音数据被输出后,识别从所取得的声音中提取到的语音的内容,输出表示识别出的语音的内容的文本数据;判定部,其判定所述文本数据是否包含有肯定句;以及记录部,其在判定为所述文本数据包含有肯定句的情况下,将所述活动信息、所述运动量信息与所述音量信息关联并记录于数据库。
根据该构成,可取得装置周边的图像数据、和表示到位于装置周边的包括人物人物在内的物体的距离的距离数据。可取得装置周边的声音。可从取得的声音中提取语音,输出表示所提取到的语音的音量的音量信息。可基于取得的图像数据和存储器所存储的与用户对应的图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。用户包括幼儿。可在用户信息所示的人物是幼儿的情况下,基于取得的图像数据、取得的距离数据、和存储器所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定幼儿的姿势,输出表示所推定出的幼儿的姿势的姿势信息。可在用户信息所示的人物是幼儿的情况下,基于取得的图像数据、取得的距离数据、和存储的人体模型数据,算出幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示运动量的运动量信息。可基于姿势信息、运动量信息、和存储器所存储的示出了幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,输出表示所推定出的活动项目的活动信息。可生成包括与活动信息所表示的活动项目对应的关键字的第1语音数据。第1语音数据用疑问句来表现。可输出第1语音数据。可在第1语音数据被输出后,识别从所取得的声音中提取到的语音的内容,输出表示识别出的语音的内容的文本数据。可判定文本数据是否包含有肯定句。可在判定为文本数据包含有肯定句的情况下,将活动信息、运动量信息与音量信息关联并记录于数据库。
因此,可基于幼儿的姿势和幼儿的运动量,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,将表示所推定出的活动项目的活动信息、运动量信息与音量信息关联并记录于数据库,所以能够容易地制作与幼儿相应的数据库。
另外,通过使用使表示活动项目的活动信息、运动量信息与音量信息相关联的数据库,能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(16)在上述技术方案中,也可以为,所述第1语音数据包括询问所述幼儿是否正在进行所述推定出的活动项目的文本数据。
根据该构成,第1语音数据包括询问幼儿是否正在进行所推定出的活动项目的文本数据,所以能够切实地确定幼儿实际正在进行的活动项目。
(17)在上述技术方案中,也可以为,所述判定部在判定为所述文本数据不包含所述肯定句的情况下,判定所述文本数据是否包含有否定句,所述活动项目推定部在通过所述判定部判定为所述文本数据不包含所述否定句的情况下,判定所述文本数据是否包含有名词,在判定为所述文本数据包含有所述名词的情况下,推定为所述名词表示了所述幼儿当前正在进行的活动项目。
根据该构成,可在判定为文本数据不包含肯定句的情况下,判定文本数据是否包含有否定句。可在判定为文本数据不包含否定句的情况下,判定文本数据是否包含有名词,在判定为文本数据包含有名词的情况下,推定为名词表示了幼儿当前正在进行的活动项目。
因此,能够在推定出的活动项目被幼儿否定了的情况下,将幼儿响应的文本数据所包含的名词确定作为幼儿当前正在进行的活动项目。
(18)在上述技术方案中,也可以为,所述生成部在通过所述活动项目推定部判定为所述文本数据不包含所述名词的情况下,生成用于询问所述幼儿其正在干什么的第2语音数据,所述扬声器输出所述第2语音数据。
根据该构成,可在判定为文本数据不包含名词的情况下,生成用于询问幼儿其正在干什么的第2语音数据,并输出第2语音数据,所以能够切实地确定幼儿当前正在进行的活动项目。
(19)在上述技术方案中,也可以为,所述运动量测定部算出在包括所述第1预定期间的第2预定期间内的所述变化量的平均值作为所述运动量,所述音量测定部将在所述第2预定期间内提取到的语音的音量的平均值作为所述音量信息输出。
根据该构成,可算出在包括第1预定期间的第2预定期间内的变化量的平均值作为运动量。另外,可将在第2预定期间内提取到的语音的音量的平均值作为音量信息输出。
因此,能够算出第2预定期间内的变化量的平均值作为运动量,并且,能够将在第2预定期间内提取到的语音的音量的平均值作为音量信息输出。
(20)在上述技术方案中,也可以为,所述记录部将被乘以第1系数的所述运动量作为所述运动量信息记录于所述数据库,并且将被乘以第2系数的所述音量作为所述音量信息记录于所述数据库,所述第1系数是预定的第1常数除以第2常数而得到的值,所述第2系数是预定的第3常数除以所述第2常数而得到的值。
根据该构成,可将被乘以第1系数的运动量作为运动量信息记录于数据库,并且将被乘以第2系数的音量作为音量信息记录于数据库。第1系数是预定的第1常数除以第2常数而得到的值,第2系数是预定的第3常数除以第2常数而得到的值。因此,能够使运动量的标度与音量的标度相协调。
(21)本公开的另一技术方案涉及的机器人,具备:技术方案(15)所述的装置;壳体,其内置所述装置;以及移动机构,其使所述壳体移动。根据该构成,能够将上述的装置适用于机器人。
(22)本公开的另一技术方案涉及的方法,是与用户进行语音对话的装置中的方法,包括:取得所述装置周边的图像数据、和表示到位于所述装置周边的包括人物在内的物体的距离的距离数据;取得所述装置周边的声音;从所述取得的声音中提取语音,输出表示所述提取到的语音的音量的音量信息;基于所述取得的图像数据和存储器所存储的与所述用户对应的图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述用户包括幼儿;在所述用户信息所示的人物是所述幼儿的情况下,基于所述取得的图像数据、所述取得的距离数据、和所述存储器所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定所述幼儿的姿势,输出表示所述推定出的幼儿的姿势的姿势信息;在所述用户信息所示的人物是所述幼儿的情况下,基于所述取得的图像数据、所述取得的距离数据、和所述存储的人体模型数据,算出所述幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示所述运动量的运动量信息;基于所述姿势信息、所述运动量信息、和所述存储器所存储的示出了所述幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于所述提取到的语音所包含的名词,推定所述幼儿当前正在进行的活动项目,输出表示所述推定出的活动项目的活动信息;生成包括与所述活动信息所表示的活动项目对应的关键字的第1语音数据,所述第1语音数据用疑问句来表现;输出所述第1语音数据;在输出所述第1语音数据后,识别从所取得的声音中提取到的语音的内容,输出表示识别出的语音的内容的文本数据;判定所述文本数据是否包含有肯定句;以及在判定为所述文本数据包含有肯定句的情况下,将所述活动信息、所述运动量信息与所述音量信息关联并记录于数据库。
根据该构成,可取得装置周边的图像数据、和表示到位于装置周边的包括人物人物在内的物体的距离的距离数据。可取得装置周边的声音。可从取得的声音中提取语音,输出表示所提取到的语音的音量的音量信息。可基于取得的图像数据和存储器所存储的与用户对应的图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。用户包括幼儿。可在用户信息所示的人物是幼儿的情况下,基于取得的图像数据、取得的距离数据、和存储器所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定幼儿的姿势,输出表示所推定出的幼儿的姿势的姿势信息。可在用户信息所示的人物是幼儿的情况下,基于取得的图像数据、取得的距离数据、和存储的人体模型数据,算出幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示运动量的运动量信息。可基于姿势信息、运动量信息、和存储器所存储的示出了幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,输出表示所推定出的活动项目的活动信息。可生成包括与活动信息所表示的活动项目对应的关键字的第1语音数据。第1语音数据用疑问句来表现。可输出第1语音数据。可在第1语音数据被输出后,识别从所取得的声音中提取到的语音的内容,输出表示识别出的语音的内容的文本数据。可判定文本数据是否包含有肯定句。可在判定为文本数据包含有肯定句的情况下,将活动信息、运动量信息与音量信息关联并记录于数据库。
因此,可基于幼儿的姿势和幼儿的运动量,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,将表示所推定出的活动项目的活动信息、运动量信息与音量信息关联并记录于数据库,所以能够容易地制作与幼儿相应的数据库。
另外,通过使用使表示活动项目的活动信息、运动量信息与音量信息相关联的数据库,能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(23)本公开的另一技术方案涉及的程序,是用于与用户进行语音对话的程序,该程序使与所述用户进行语音对话的装置所具备的处理器作为如下各部而发挥功能:音量测定部,其从通过麦克风取得的所述装置周边的声音中提取语音,输出表示所述提取到的语音的音量的音量信息;人物推定部,其基于通过传感器取得的所述装置周边的图像数据和存储器所存储的与所述用户对应的图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述用户包括幼儿;姿势推定部,其在所述用户信息所示的人物是所述幼儿的情况下,基于所述取得的图像数据、表示通过所述传感器取得的到位于所述装置周边的包括人物在内的物体的距离的距离数据、和所述存储器所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定所述幼儿的姿势,输出表示所述推定出的幼儿的姿势的姿势信息;运动量测定部,其在所述用户信息所示的人物是所述幼儿的情况下,基于所述取得的图像数据、所述取得的距离数据、和所述存储的人体模型数据,算出所述幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示所述运动量的运动量信息;活动项目推定部,其基于所述姿势信息、所述运动量信息、和所述存储器所存储的示出了所述幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于所述提取到的语音所包含的名词,推定所述幼儿当前正在进行的活动项目,输出表示所述推定出的活动项目的活动信息;生成部,其生成包括与所述活动信息所表示的活动项目对应的关键字的第1语音数据,将所述第1语音数据输出给扬声器,所述第1语音数据用疑问句来表现;语音识别部,其在输出所述第1语音数据后,识别从所取得的声音中提取到的语音的内容,输出表示识别出的语音的内容的文本数据;判定部,其判定所述文本数据是否包含有肯定句;以及记录部,其在判定为所述文本数据包含有肯定句的情况下,将所述活动信息、所述运动量信息与所述音量信息关联并记录于数据库。
根据该构成,可从通过麦克风取得的装置周边的声音中提取语音,输出表示所提取到的语音的音量的音量信息。可基于通过传感器取得的装置周边的图像数据和存储器所存储的与用户对应的图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。用户包括幼儿。可在用户信息所示的人物是幼儿的情况下,基于取得的图像数据、表示通过传感器取得的到位于装置周边的包括人物在内的物体的距离的距离数据、和存储器所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定幼儿的姿势,输出表示所推定出的幼儿的姿势的姿势信息。可在用户信息所示的人物是幼儿的情况下,基于取得的图像数据、取得的距离数据、和存储的人体模型数据,算出幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示运动量的运动量信息。可基于姿势信息、运动量信息、和存储器所存储的示出了幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,输出表示所推定出的活动项目的活动信息。可生成包括与活动信息所表示的活动项目对应的关键字的第1语音数据,将第1语音数据输出给扬声器。第1语音数据用疑问句来表现。可在输出第1语音数据后,识别从所取得的声音中提取到的语音的内容,输出表示识别出的语音的内容的文本数据。可判定文本数据是否包含有肯定句。可在判定为文本数据包含有肯定句的情况下,将活动信息、运动量信息与音量信息关联并记录于数据库。
因此,可基于幼儿的姿势和幼儿的运动量,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,将表示所推定出的活动项目的活动信息、运动量信息与音量信息关联并记录于数据库,所以能够容易地制作与幼儿相应的数据库。
另外,通过使用使表示活动项目的活动信息、运动量信息与音量信息相关联的数据库,能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
以下,参照附图,对本公开的各实施方式进行说明。此外,以下的实施方式是将本公开具体化后的一例,并非限定本公开的技术范围。另外,在各附图中,对相同的构成要素使用了相同的标号。
(实施方式1)
首先,使用图1、图2、图3以及图4来对话题提供装置、小孩(例如幼儿)、和大人(例如小孩的家长等)的对话进行说明。话题提供装置100、小孩、和大人的对话按照图1、图2、图3以及图4所示的场景顺序进行。
此外,在本公开的各实施方式中,小孩表示3岁~6岁的幼儿。
图1是用于说明话题提供装置与小孩对话,确定小孩当前正在进行活动的活动项目,并且测定小孩的运动量以及嗓音的音量,使活动项目、运动量和音量编入数据库的处理的示意图。在图1中,话题提供装置100与小孩11对话,确定小孩11现在在干什么,即确定小孩11的活动项目(例如跳舞)。另外,此时,话题提供装置100测定小孩11的嗓音的音量和小孩11的运动量,使活动项目、运动量和音量编入数据库。此外,图1的处理对应于话题提供装置100的第2处理部所进行的处理,关于第2处理部,会在实施方式2中说明详细内容。
图2是用于说明在亲子对话时,话题提供装置确定对话的话题的处理的示意图。在图2中,作为例子,示出了话题提供装置100所确定的话题是“绘本”的情况。例如,在晚上,家长12询问小孩11今天干了什么玩了什么。对此,小孩11答复说读了绘本。此时,话题提供装置100将家长12与小孩11当前的话题确定为是“绘本”。此外,图2的处理对应于话题提供装置100的第1处理部所进行的处理,关于第1处理部,会在实施方式1中说明详细内容。
图3是用于说明话题提供装置选择接下来要对家长和孩子提供的话题的处理的示意图。话题提供装置100基于当前的话题(图2)和预先所生成的数据库(图1),选择接下来要对家长12以及小孩11提供的话题。在图3中,作为例子,示出了话题提供装置100选择了“英雄角色饰演游戏”作为向家长12和小孩11提供的下一个话题的情况。此外,本公开的目的在于,通过使家长和孩子就富于变化的话题进行对话来给予使亲子间的对话充裕的契机。为此,话题提供装置100选择与当前的话题(例如绘本等运动较少的活动项目)相比,小孩11的运动量以及小孩11的嗓音的音量大不相同的话题(例如英雄角色饰演游戏等运动较活跃的活动项目)来作为接下来提供的话题。图3的处理对应于话题提供装置100的第1处理部所进行的处理,关于第1处理部,会在实施方式1中说明详细内容。
图4是用于说明话题提供装置将所选择的话题提供给家长和孩子的处理的示意图。在图4中,作为例子,示出了话题提供装置100提供“英雄角色饰演游戏”作为下一个话题的情况。在该情况下,话题提供装置100输出“话说,今天玩了英雄角色饰演游戏呢啊”这一语音。针对话题提供装置100的语音输出,小孩11回答“嗯!”。这样,提供新的话题,由此,尤其是家长12会认识到今天小孩干了什么,并会对家长12以及小孩11给予接下来想要聊一聊“英雄角色饰演游戏”这一动机。此外,图4的处理对应于话题提供装置100的第1处理部所进行的处理,关于第1处理部,会在实施方式1中说明详细内容。
图5是表示本实施方式1中的话题提供装置的整体结构的图。第1处理部200和第2处理部300是为了可在时间轴不同的定时(timing)调出,方便起见而划分的。图6是表示本实施方式1中的话题提供装置的第1处理部的构成的图。此外,关于话题提供装置的第2处理部的构成,会在实施方式2中说明。
图5以及图6所示的话题提供装置100具备传感器101、麦克风102、人物推定部103、语音识别部104、响应文生成部105、语音合成部106、扬声器107、存储器108、第1处理部200、第2处理部300、对话历史记录数据库(DB)202和幼儿活动数据库(DB)204。第1处理部200具备亲子对话判断部201、话题提供判断部203、对话话题判断部205、话题候选提取部206和提供话题判断部207。
传感器101取得话题提供装置100周边的图像数据。传感器101例如是摄像头(camera),将拍摄到人物的图像数据输出给人物推定部103。此外,传感器101既可以是距离传感器,也可以取得人物的三维的模型数据,输出给人物推定部103。也就是说,传感器101能够取得每个人物的表示身体特征的数据即可。
麦克风102取得话题提供装置100周边的声音。麦克风102收集用户所说的语音,输出给语音识别部104。
存储器108存储有与多个用户对应的多个图像数据。多个用户包括大人和幼儿。即,存储器108存储对配置有话题提供装置100的家中的家庭成员进行拍摄而得到的多个图像数据。家庭成员例如包括爸爸以及妈妈即家长、和幼儿即小孩。话题提供装置100与大人(家长)和幼儿(小孩)进行语音对话。
人物推定部103基于通过传感器101取得的图像数据、和存储器108所存储的多个图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。人物推定部103使用传感器101输出的图像数据内的人物的脸部的特征点的信息、和存储器108预先所存储的每个特定用户的图像数据内的用户的脸部的特征点的信息,通过模式匹配等公知的人物推定处理,推定传感器101输出的图像数据内所包含的人物。另外,人物推定部103在传感器101输出的图像数据内拍摄到多个人物的情况下,也可以对该图像数据内的人物分别进行上述的人物推定处理,同时输出与多个人物对应的多个用户信息。人物推定部103将推定出的用户信息输出给亲子对话判断部201。
语音识别部104从通过麦克风102取得的声音中提取语音,提取与语音对应的文本数据和语音的特征量,将文本数据与特征量关联并记录于对话历史记录数据库202(第1数据库)。此外,特征量包括发出语音的说话者的声纹。
语音识别部104首先将由麦克风102收集到的模拟数据变换为数字数据。例如,语音识别部104使用脉冲编码调制(PCM:Pulse Code Modulation)等来将模拟的语音进行数字化。语音识别部104通过对被数字化的语音数据执行使用了存储器108内所存储的声学模型以及语言模型的公知的语音识别处理,检测语音数据所示的语音所包含的人物说的话的语音,将语音数据变换为表现该说的话的内容的文本数据。此外,语音识别部104也可以利用云(cloud)服务器上所存储的声学模型以及语言模型。声学模型保持有声音的波形采样,语言模型保持有预定语言的单词的排列方式这一话语的信息。在利用云服务器上所存储的声学模型以及语言模型的情况下,话题提供装置100将被数字化的语音数据发送到云服务器,接收在云服务器上变换得到的文本数据。
语音识别部104生成的文本数据在生成过程中根据上述的语音数据的语音特性,被赋加了表示是否为同一人物的属性信息。例如,在存在两个人物,取得了三个语音数据A、B、C,语音数据A以及B是由第1人物说的话,语音数据C是由第2人物说的话的情况下,语音识别部104用预定方法对语音数据A以及B赋予表示是由相同的第1人物说的话的标签,对语音数据C赋予表示是由第2人物说的话的标签。语音识别部104将生成的文本数据输出给对话历史记录数据库202。
图7是表示本实施方式1中的对话历史记录数据库的一例的图。如图7所示,对话历史记录数据库202将语音识别部104输出的文本数据、表示登记该文本数据的定时的时间戳、和辨识该文本数据的说话者的信息关联并进行登记。对话历史记录数据库202被亲子对话判断部201、话题提供判断部203和对话话题判断部205所使用。
亲子对话判断部201基于用户信息和对话历史记录数据库202,判定家长(大人)与小孩(幼儿)是否正在交谈。亲子对话判断部201在推定出的人物是家长和孩子、并且特征量包括互不相同的多个特征量的情况下,判定为家长和孩子正在交谈。
亲子对话判断部201判断多个人物是否是家长和孩子、家长和孩子是否在对话。亲子对话判断部201根据人物推定部103的推定结果来判断多个人物是否是家长和孩子,从对话历史记录数据库202来判断家长和孩子是否处于对话状态。
亲子对话判断部201在人物推定部103输出的用户信息表示家长及小孩的某一方、且在预定时间内用户信息表示家长及小孩的某另一方的情况下,判断为家长和小孩同时存在。或者,也可以为,确定多个用户信息,同时检测出家长和小孩。在人物推定部103输出的用户信息例如是家长的情况下,当在检测出家长后的预定时间内,人物推定部103输出了小孩的用户信息时,亲子对话判断部201判断为家长和小孩同时存在。
另外,亲子对话判断部201在判断为家长和孩子同时存在的情况下,参照对话历史记录数据库202,当在预定时间内有两个人物在说话的情况下判断为家长和孩子正在对话。亲子对话判断部201参照对话历史记录数据库202,在从识别为家长和孩子正在对话的文本数据的时间戳所示的时刻到前一个文本数据的时间戳所示的时刻为止的经过时间在预定时间以内的情况下,判断为该前一个文本数据是由家长和孩子进行的对话中的说话内容。而且,亲子对话判断部201依次追朔确认前一个文本数据的时间戳,在经过时间比预定时间长的情况下,将文本数据的时间戳判断为是表示家长和孩子开始对话的时刻的开始时间。亲子对话判断部201在判断为家长和孩子正在对话的情况下,将亲子对话的开始时间记录于存储器108。
话题提供判断部203在判定为家长(大人)与小孩(幼儿)正在交谈的情况下,基于对话历史记录数据库202,判断是否需要向家长和孩子重新提供话题。话题提供判断部203在文本数据包含有预定关键字(第1关键字)的情况下,判断为需要向家长和孩子重新提供话题。预定关键字包括表示话题的单词。
话题提供判断部203在通过亲子对话判断部201判断为家长和孩子正在对话时,使用对话历史记录数据库202的文本数据来判断是否需要提供话题。话题提供判断部203参照对话历史记录数据库202内的最新的文本数据,在该文本数据包含有预定关键字的情况下,判断为需要提供话题。预定关键字例如指的是如“请给个话题”这样的像要请求话题的关键字。话题提供判断部203在这种关键字包含于文本数据的情况下,判断为需要提供话题。
话题提供判断部203也可以在存在家长和小孩、并且文本数据最后被记录于对话历史记录数据库202后经过了预定时间的情况下,判断为需要提供话题。在该情况下,将会在家长与小孩对话期间,没有了话题,持续沉默的情况下,提供新的话题。
幼儿活动数据库204存储表示小孩(幼儿)在第1预定期间活动了的项目的活动项目。另外,幼儿活动数据库204还存储表示与活动项目对应的运动量的运动量信息、表示与活动项目对应的音量的音量信息、和表示与活动项目对应的日期的日期信息。即,幼儿活动数据库204将活动项目、运动量信息、音量信息和日期信息关联并进行存储。
图8是表示本实施方式1中的幼儿活动数据库的一例的图。幼儿活动数据库204存储有表示幼儿活动了的内容的活动项目、幼儿的活动时的运动量、幼儿的活动时的音量、和幼儿进行了活动的日期。幼儿活动了的内容是幼儿的玩耍内容,例如有“英雄角色饰演游戏”、“汽车模仿”、“和玩偶做游戏”、“绘本”或者“积木”等。幼儿的活动时的运动量是表现在活动期间幼儿进行了多少运动的指标。运动量信息是对运动量乘以第1系数而得到的值。幼儿的活动时的音量指的是表现在活动期间产生的声音的大小的指标。音量信息是对音量乘以第2系数而得到的值。将在后述的实施方式2中说明关于幼儿活动数据库204的制作方法的详细内容。
对话话题判断部205判断已经出现在亲子对话中的话题。对话话题判断部205从存储器108参照亲子对话的开始时间,从对话历史记录数据库202参照用户之间的对话的开始时间到当前为止的对话历史记录,取得对话的开始时间到当前为止的文本数据。对话话题判断部205当在将幼儿活动数据库204的活动项目作为关键字时,所取得的文本数据内存在与关键字一致的文字串的情况下,将一致的该关键字判断为是已经出现在对话中的话题。对话话题判断部205例如在将成为关键字的活动项目设为“绘本”,文本数据包含有“读了匹诺曹的绘本哦”这一内容的情况下,由于文本数据内存在与关键字一致的文字串“绘本”,因此判断为在对话中出现了与“绘本”有关的话题。
对话话题判断部205在沿时间序列参照对话历史记录数据库202所登记的文本数据的情况下,将最新时刻的文本数据所包含的话题判断为是在用户间进行的对话的最新的话题。即,对话话题判断部205基于幼儿活动数据库204(第2数据库),确定最新的活动项目。对话话题判断部205将表示已经出现在对话中的话题的信息输出给话题候选提取部206。另外,对话话题判断部205将表示最新的话题的信息输出给提供话题判断部207。
话题候选提取部206在判定为需要提供话题的情况下,基于对话历史记录数据库202(第1数据库)和幼儿活动数据库204(第2数据库),提取话题的候选。话题的候选与活动项目对应,并且与记录于对话历史记录数据库202(第1数据库)的文本数据所包含的活动项目不对应。话题候选提取部206提取与最新的活动项目和文本数据所包含的活动项目不同的活动项目(第2活动项目)来作为话题的候选。
话题候选提取部206提取幼儿活动数据库204的活动项目作为向家长和孩子提供的话题的候选。话题候选提取部206从对话话题判断部205接收表示已经出现在用户间的对话中的话题的信息,将接收到的话题从话题的候选中排除。
另外,话题候选提取部206提取与最新的活动项目和文本数据所包含的活动项目不同、并且在预定期间(第2预定期间)记录的活动项目(第2活动项目)来作为话题的候选。预定期间(第2预定期间)例如是表示当天的期间。话题候选提取部206参照幼儿活动数据库204内的日期信息,从话题的候选中排除当天以外的活动项目。话题候选提取部206将话题的候选输出给提供话题判断部207。
提供话题判断部207从话题的候选中选择向家长(大人)和小孩(幼儿)提供的一个话题。提供话题判断部207基于与最新的活动项目对应的第1运动量、与最新的活动项目对应的第1音量、与活动项目中的第2活动项目对应的第2运动量、和与第2活动项目对应的第2音量,从第2活动项目中选择第3活动项目作为一个话题。提供话题判断部207将第2运动量相对于第1运动量的相对运动量的平方、与第2音量相对于第1音量的相对音量的平方之和成为最大的第2活动项目选择作为第3活动项目。
提供话题判断部207基于幼儿的活动数据,从情趣教育的观点判断要提供的话题。提供话题判断部207从幼儿活动数据库204取得包括幼儿的活动项目、运动量和音量的活动数据,从对话话题判断部205接收表示在用户之间对话的最新的话题的信息,从话题候选提取部206接收表示话题的候选的信息。提供话题判断部207在将作为幼儿活动数据库204的活动数据的属性的运动量和音量分别设为相正交的坐标轴的坐标平面上,设定最新的话题的活动数据和话题的候选的活动数据。提供话题判断部207将与最新的话题的活动数据对应的坐标、和与话题的候选的活动数据对应的坐标之间的相对距离(欧几里得距离)成为最大的活动数据的话题的候选判断作为提供话题。提供话题判断部207在最新的话题的活动数据没有包含当天的运动量和音量的情况下,从幼儿活动数据库204取得当天之前的过去所进行的同一活动项目所对应的运动量和音量。另外,提供话题判断部207在过去不存在同一活动项目所对应的运动量和音量的情况下,将最新的话题的运动量以及音量设为预定值。提供话题判断部207根据提供话题的判断结果,将表示要提供的话题的信息输出给响应文生成部105。
图9是用于说明本实施方式1中的提供话题判断部从话题的候选中选择向大人和幼儿提供的一个话题的处理的图。在图9中,横轴表示运动量,纵轴表示音量。
在图9中,例如,出现于对话的最新话题501为“绘本”,第1话题候选511为“英雄角色饰演游戏”,第2话题候选512为“汽车模仿”,第3话题候选513为“积木”。另外,最新话题501、第1话题候选511、第2话题候选512以及第3话题候选513的各活动数据保存于图8所示的幼儿活动数据库204。作为最新话题501的“绘本”的运动量为2.1,音量为1.5。另外,作为第1话题候选511的“英雄角色饰演游戏”的运动量为8.3,音量为7.2。因此,最新话题501与第1话题候选511的欧几里得距离用{(2.1-8.3)2+(1.5-7.2)2}1/2来计算。提供话题判断部207也同样地算出最新话题501与其他话题候选的欧几里得距离,选择算出的欧几里得距离最大的话题候选作为向大人和幼儿提供的提供话题。
响应文生成部105从提供话题判断部207接收与要提供的话题有关的信息,作为文本数据生成向用户传达要提供的话题的内容的响应文。例如,在要提供的话题为“英雄角色饰演游戏”的情况下,响应文生成部105生成“今天,玩了英雄角色饰演游戏哦”这一响应文。
此外,响应文生成部105优选不仅使活动项目包含在内,而且还组合其他属性来生成响应文。即,响应文生成部105基于幼儿活动数据库204,在与提供话题(第3活动项目)对应的运动量(第3运动量)大于等于第1阈值的情况下,生成包括第2关键字的语音数据。另外,响应文生成部105基于幼儿活动数据库204,在与提供话题(第3活动项目)对应的运动量(第3运动量)小于第1阈值的情况下,生成包括第3关键字的语音数据。此时,第2关键字以及第3关键字包括表示投入提供话题(第3活动项目)的幼儿的活跃度的修饰词。第2关键字所示的意思是与第3关键字所示的意思相反的意思。
另外,响应文生成部105基于幼儿活动数据库204,在与提供话题(第3活动项目)对应的音量(第3音量)大于等于第1阈值的情况下,生成包括第2关键字的语音数据。另外,响应文生成部105基于幼儿活动数据库204,在与提供话题(第3活动项目)对应的音量(第3音量)小于第1阈值的情况下,生成包括第3关键字的语音数据。
例如,在要提供的话题为“英雄角色饰演游戏”的情况下,响应文生成部105也可以参照运动量或者音量的大小,生成响应文。例如,响应文生成部105在运动量比预定值大的情况下,生成“今天,玩了英雄角色饰演游戏,好好活动了一下哦”这一响应文,或在音量比预定值大的情况下,生成“今天,玩了英雄角色饰演游戏,吵得很大声哦”这一响应文,从而生成赋予了幼儿的活动状态的响应文。或者,响应文生成部105也可以如“今天,玩了英雄角色饰演游戏,好好活动了一下,吵得很大声哦”这样生成赋予了与运动量以及音量这两方属性对应的活动状态的响应文。响应文生成部105将表现所生成的响应文的文本数据输出给语音合成部106。
语音合成部106生成包括从话题的候选中选择出的向大人和幼儿提供的一个话题的语音数据。语音合成部106从响应文生成部105接收表现响应文的文本数据,通过执行公知的语音合成处理,将表现响应文的文本数据变换为语音数据。语音合成部106将变换出的语音数据输出给扬声器107。
扬声器107输出通过语音合成部106生成的语音数据。扬声器107输出从语音合成部106接收到的语音数据。
此外,在本实施方式1中,传感器101、麦克风102以及扬声器107以外的构成的一部分或者全部也可以设置于与话题提供装置100以能够经由网络相互通信的方式连接的服务器。
以下,使用图10,对在实施方式1中,判断正在进行对话的用户是否是家长和孩子、判断是否提供话题、选择提供的话题、提供话题为止的话题提供处理进行说明。
图10是表示由本实施方式1中的话题提供装置进行的话题提供处理的一例的流程图。
首先,传感器101取得拍摄多个用户而得到的图像数据来作为输入信息(步骤S1)。传感器101将取得的图像数据输出给人物推定部103。
接着,人物推定部103参照存储器108所存储的用户信息,对从传感器101输出的图像数据执行人物推定处理,由此,推定图像数据所包含的人物(步骤S2)。
接着,人物推定部103判断是否推定出了图像数据所包含的人物(步骤S3)。在此,在判断为推定出了人物的情况下(步骤S3:是),人物推定部103将与图像数据所包含的人物对应的用户信息输出给亲子对话判断部201(步骤S4)。
另一方面,在图像数据所包含的人物不符合存储器108所存储的用户信息,判断为没有推定出人物的情况下(步骤S3:否),返回至步骤S1的处理。
接着,麦克风102取得表现由多个用户所说的语音的语音数据来作为输入信息(步骤S5)。麦克风102将取得的语音数据输出给语音识别部104。
接着,语音识别部104对从麦克风102输出的语音数据执行语音识别处理,将语音数据所包含的人物的说话内容变换为文本数据(步骤S6)。
接着,语音识别部104根据在语音识别处理过程中提取到的语音数据的语音特性,将表示说话者是否为同一人物的属性信息附加于文本数据,将文本数据与时间戳登记于对话历史记录数据库202(步骤S7)。
接着,亲子对话判断部201基于由人物推定部103输出的用户信息,判断话题提供装置100周边是否存在家长和孩子(步骤S8)。通过进行多次步骤S1~S7的处理,能够判断亲子间是否正在对话。亲子对话判断部201,当在预定时间内仅输出了表示家长的用户信息和表示小孩的用户信息中的某一方的情况下,判断为话题提供装置100周边不存在家长和孩子,当在预定时间内输出了表示家长的用户信息和表示小孩的用户信息这两方的情况下,判断为话题提供装置100周边存在家长和孩子。在此,在判断为话题提供装置100周边不存在家长和孩子的情况下(步骤S8:否),返回至步骤S1的处理。
另一方面,在判断为话题提供装置100周边存在家长和孩子的情况下(步骤S8:是),亲子对话判断部201参照对话历史记录数据库202,判断家长和孩子是否正在对话(步骤S9)。亲子对话判断部201参照对话历史记录数据库202,当在预定时间内两个不同的人物在说话、即对话历史记录数据库202中存在有在预定时间内与两个不同的说话者对应的文本数据的情况下,判断为家长和孩子正在对话。另外,亲子对话判断部201参照对话历史记录数据库202,当在预定时间内仅有一个人物在说话、即对话历史记录数据库202中存在有在预定时间内仅与一个说话者对应的文本数据,或者在预定时间内人物没有说话、即对话历史记录数据库202中不存在预定时间内的文本数据的情况下,判断为家长和孩子没有在对话。在此,在判断为家长和孩子没有在对话的情况下(步骤S9:否),返回至步骤S1的处理。
此外,亲子对话判断部201参照对话历史记录数据库202,在从识别为家长和孩子正在对话的文本数据的时间戳所示的时刻到前一个文本数据的时间戳所示的时刻为止的经过时间在预定时间以内的情况下,判断为该前一个文本数据是由家长和孩子进行的对话中的说话内容。而且,亲子对话判断部201通过依次判断前一个文本数据,确定表示家长和孩子开始对话的时刻的开始时间。亲子对话判断部201在判断为家长和孩子正在对话时,将表示家长和孩子开始对话的时刻的开始时间记录于存储器108。
另一方面,在判断为家长和孩子正在对话的情况下(步骤S9:是),话题提供判断部203从对话历史记录数据库202中参照最新的文本数据,判断是否需要提供话题(步骤S10)。话题提供判断部203在最新的文本数据内包含有预定关键字的情况下,判断为需要提供话题。此外,预定关键字例如是“请给个话题”等希望提供话题的语句。另外,话题提供判断部203在最新的文本数据内没有包含预定关键字的情况下,判断为无需提供话题。在此,在判断为无需提供话题的情况下(步骤S10:否),返回至步骤S1的处理。
另一方面,在判断为需要提供话题的情况下(步骤S10:是),对话话题判断部205确定出现在了亲子对话中的话题(步骤S11)。对话话题判断部205读出存储器108所保存的亲子对话的开始时间,取得对话历史记录数据库202的开始时间到当前时刻为止的文本数据。对话话题判断部205将幼儿活动数据库204内的幼儿的活动项目作为关键字,在取得的文本数据中进行检索。对话话题判断部205在文本数据内具有与关键字一致的单词的情况下,将与该关键字对应的活动项目确定作为出现在了亲子对话中的已出现过的话题。
接着,对话话题判断部205确定出现在了亲子对话中的话题中的、最新的话题(步骤S12)。对话话题判断部205在幼儿活动数据库204内的包括与幼儿的活动项目对应的关键字的文本数据中,将最新的文本数据内的关键字确定作为最新的话题。
接着,话题候选提取部206、提供话题判断部207以及响应文生成部105执行生成用于向家长和孩子提供话题的响应文的提供话题文生成处理(步骤S13)。此外,关于提供话题文生成处理的详细内容,将在后面使用图11进行说明。
接着,语音合成部106将表现要提供的话题的响应文的文本数据变换为语音数据(步骤S14)。
接着,扬声器107输出语音数据(步骤S15)。
接下来,使用图11对图10的步骤S13的提供话题文生成处理进行说明。
图11是用于说明图10的步骤S13的提供话题文生成处理的流程图。
首先,话题候选提取部206从幼儿活动数据库204中取得幼儿的当天的活动数据(步骤S21)。
接着,话题候选提取部206从幼儿的活动数据的当天所进行的活动项目中,提取排除了与通过对话话题判断部205判断为已出现在亲子对话中的话题一致的活动项目后的活动项目作为话题候选(步骤S22)。
接着,提供话题判断部207判断当天的活动数据中是否存在与通过对话话题判断部205判断出的最新的话题对应的活动数据(步骤S23)。在此,在判断为存在与最新的话题对应的活动数据的情况下(步骤S23:是),移至步骤S27的处理。
另一方面,在判断为不存在与最新的话题对应的活动数据的情况下(步骤S23:否),提供话题判断部207参照幼儿活动数据库204内的幼儿的过去的活动数据,判断过去是否存在包括与最新的话题一致的活动项目的活动数据(步骤S24)。在此,在判断为过去存在包括与最新的话题一致的活动项目的活动数据的情况下(步骤S24:是),提供话题判断部207从幼儿活动数据库204中提取过去的包括与最新的话题一致的活动项目的活动数据。
另一方面,在判断为过去不存在包括与最新的话题一致的活动项目的活动数据的情况下(步骤S24:否),提供话题判断部207生成包括预先存储于存储器108的预定值(预定运动量以及预定音量)的活动数据,作为最新的话题的活动数据(步骤S26)。
接着,提供话题判断部207在将活动数据内的运动量与音量分别设为坐标轴的坐标平面内,算出话题候选的活动数据相对于最新的话题的活动数据的相对矢量(步骤S27)。
接着,提供话题判断部207判断是否算出了与所提取的所有话题候选对应的相对矢量(步骤S28)。在此,在判断为未算出与所有话题候选对应的相对矢量的情况下(步骤S28:否),返回至步骤S27的处理。
另一方面,在判断为算出了与所有话题候选对应的相对矢量的情况下(步骤S28:是),提供话题判断部207选择相对矢量的值(欧几里得距离)成为最大的话题候选来作为提供话题。
接着,响应文生成部105基于通过提供话题判断部207选择出的提供话题的活动数据,生成响应文(步骤S30)。响应文生成部105生成与对应于提供话题的活动项目、和提供话题的活动数据所包含的运动量以及/或者音量相应的响应文。
如此,可基于存储表示大人与幼儿的对话的文本数据的对话历史记录数据库202、和存储表示幼儿在第1预定期间活动了的项目的活动项目的幼儿活动数据库204,提取与活动项目对应、并且与记录于对话历史记录数据库202的文本数据所包含的活动项目不对应的话题的候选,从话题的候选中选择向大人与幼儿提供的一个话题,所以能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(实施方式2)
在实施方式2中,对话题提供装置100制作幼儿活动数据库204的处理进行说明。
图12是表示本实施方式2中的话题提供装置的第2处理部的构成的图。此外,在以下的说明中,为了简化说明而对与上述实施方式1同样的构成赋予相同的标号并省略说明。
图12所示的第2处理部300具备姿势推定部301、运动量测定部302、活动项目推定部303、音量测定部304、活动项目判断部305和活动项目登记部306。在本实施方式2中,包括扬声器107输出对幼儿进行提问的语音、麦克风102取得幼儿的响应语音的处理。根据幼儿的响应内容,有时也会反复进行上述的处理。
传感器101取得话题提供装置100周边的图像数据、和表示从传感器101到位于话题提供装置100周边的包括人物在内的物体的距离的距离数据。传感器101例如是立体摄像头或者距离传感器,取得图像数据、和幼儿的三维空间的距离数据。传感器101将取得的图像数据以及距离数据输出给人物推定部103。
人物推定部103与实施方式1同样地,基于通过传感器101取得的图像数据和存储器108所存储的与用户对应的图像数据,推定取得的图像数据所包含的人物,输出表示所推定出的人物的用户信息。人物推定部103将表示推定出的人物的用户信息、和从传感器101取得的距离数据输出给姿势推定部301以及运动量测定部302。
姿势推定部301在用户信息所示的人物是幼儿的情况下,基于从传感器101取得的图像数据、从传感器101取得的距离数据、和存储器108所存储的表示人体的各姿势下的三维骨骼位置的人体模型数据,推定幼儿的姿势,输出表示所推定出的幼儿的姿势的姿势信息。
姿势推定部301根据图像数据和三维空间的距离数据来推定幼儿的姿势。姿势推定部301根据人物的各部位的姿势(位置),推定姿势的状态。所谓部位,表示多关节对象的构成要素例如头部、躯体、手臂以及腿脚等。根据各部位的状态,将“站着”、“坐着”、“蹲着”、“走着”、“跑着”以及“躺着”等作为姿势的状态事先定义于存储器108。
姿势推定部301将各部位的状态作为要素,根据各部位的状态推定姿势的状态。例如,在腿的姿势为相对于地面直立的情况下,姿势的状态成为满足“站着”这一条件的要素。在腿的姿势为相对于地面平行的情况下,姿势的状态成为满足“坐着”或者“躺着”的条件的要素。另外,例如在两腿的姿势为相对于地面直立、躯体的姿势为相对于地面直立的情况下,姿势的状态成为满足“站着”的条件的要素。姿势推定部301根据对从传感器101取得的距离数据与存储器108预先所存储的幼儿的人体模型进行匹配等公知的姿势推定技术,将事先定义的姿势的状态作为推定结果,将推定出的姿势的状态输出给活动项目推定部303。
运动量测定部302在用户信息所示的人物是幼儿的情况下,基于从传感器101取得的图像数据、从传感器101取得的距离数据、和存储器108所存储的人体模型数据,算出幼儿的特定部位在第1预定期间内的位置的变化量作为运动量,输出表示运动量的运动量信息。另外,运动量测定部302算出在包括第1预定期间的第2预定期间内的变化量的平均值作为运动量。
运动量测定部302根据图像数据和三维空间的距离数据来测定幼儿的运动量。运动量成为,利用骨骼追踪等对人物的部位进行追踪,各部位在三维空间上的变化量的时间平均。例如,首先,手位于三维空间上的坐标(x0、y0、z0)时,预定时间后手所位于的坐标(x1、y1、z1)的变化量为{(x0-x1)2+(y0-y1)2+(z0-z1)2}1/2。运动量测定部302对预定时间的人物的部位的变化量相加,算出将相加后的变化量除以预定时间而得到的值作为运动量。运动量测定部302将算出的运动量输出给活动项目推定部303和活动项目登记部306。
活动项目推定部303基于姿势信息、运动量信息、存储器108所存储的示出了幼儿进行的活动项目、与该活动项目对应的运动量以及与该活动项目对应的幼儿的姿势之间的对应关系的表,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,输出表示所推定出的活动项目的活动信息。
活动项目推定部303根据姿势的状态和定义于存储器108的各部位的运动量来推定幼儿的活动项目(活动内容)。或者,活动项目推定部303根据幼儿的说话内容来推定幼儿的活动项目。推定结果也可以列举多个活动项目作为候选。活动项目根据在预定时间持续了姿势的状态和各部位的比预定运动量高或者低的状态的结果来推定。
图13是表示在本实施方式2中活动项目推定部推定活动项目时所使用的关联了活动项目、人体的各部位的运动量、和姿势的状态的表的图。例如,在连续5分钟测定了各部位的运动量并且推定出姿势的状态的情况下,活动项目推定部303将各部位的运动量和姿势的状态满足图13所示的条件的活动项目设为推定结果。
例如,在测定出的头部的运动量为2.0、测定出的躯干的运动量为2.5、测定出的臂部的运动量为2.5、测定出的腿部的运动量为0、推定出的姿势的状态为“坐着”的情况下,活动项目推定部303将满足头部的运动量为“3.0以下”、躯干的运动量为“3.0以下”、臂部的运动量为“3.0以下”并且姿势的状态为“坐着”这一条件的“绘本”推定作为活动项目。
另外,例如,在测定出的头部的运动量为8.5、测定出的躯干的运动量为8.0、测定出的臂部的运动量为8.2、测定出的腿部的运动量为8.2、推定出的姿势的状态为“走着”的情况下,活动项目推定部303将满足头部的运动量为“8.0以上”、躯干的运动量为“8.0以上”、臂部的运动量为“8.0以上”、腿部的运动量为“8.0以上”并且姿势的状态为“走着”这一条件的“英雄角色饰演游戏”和满足头部的运动量为“7.0以上”、躯干的运动量为“7.0以上”、臂部的运动量为“7.0以上”、腿部的运动量为“7.0以上”并且姿势的状态为“走着”这一条件的“跳舞”这两方推定作为活动项目。在存在多个活动项目的候选的情况下,活动项目推定部303随机选择一个候选。
活动项目推定部303对推定出的活动项目赋予动词并输出给响应文生成部105。例如,在推定结果为“绘本”的情况下,活动项目推定部303将“读绘本”输出给响应文生成部105。
响应文生成部105生成将从活动项目推定部303取得的推定结果变换为疑问句而得到的文本数据。例如,关于所生成的文本数据,在推定结果为“读绘本”的情况下,响应文生成部105生成“读了绘本吗?”这一文本数据。另外,例如在推定结果为“玩英雄角色饰演游戏”的情况下,响应文生成部105生成“玩了英雄角色饰演游戏吗?”这一文本数据。响应文生成部105将生成的文本数据输出给语音合成部106。
语音合成部106将从响应文生成部105接收到的文本数据变换为语音数据,输出给扬声器107。语音合成部106生成包括与活动信息所表示的活动项目对应的关键字的语音数据(第1语音数据)。语音数据用疑问句来表现。另外,语音数据包括询问幼儿是否在进行所推定出的活动项目的文本数据。扬声器107输出语音数据(第1语音数据)。
麦克风102取得话题提供装置100周边的声音。麦克风102在人物推定部103检测到幼儿期间,一直持续取得周边的环境声音,输出给音量测定部304。另外,麦克风102取得对于从扬声器107输出的提问的幼儿的响应语音,输出给语音识别部104。此外,麦克风102无法识别幼儿说的话与环境声音的差异,因此,向语音识别部104与音量测定部304输出的声音是相同的。
语音识别部104进行与实施方式1同样的处理,将从麦克风102取得的幼儿的响应语音变换为文本数据,输出给活动项目判断部305。语音识别部104在从扬声器107输出了语音数据(第1语音数据)后,识别从通过麦克风102取得的声音中提取到的语音的内容,输出表示所识别出的语音的内容的文本数据。
音量测定部304从通过麦克风102取得的声音中提取语音,输出表示所提取到的语音的音量的音量信息。另外,音量测定部304将在包括第1预定期间的第2预定期间内提取到的语音的音量的平均值作为音量信息输出。音量测定部304通过公知的噪音测定处理来测定从麦克风102取得的声音的大小(音量)。声音的大小用声压的大小来表现。音量测定部304将测定出的音量输出给活动项目登记部306。
活动项目判断部305从幼儿的响应内容判断活动项目。活动项目判断部305判定来自语音识别部104的文本数据是否包含有肯定句。另外,活动项目判断部305在判定为文本数据不包含肯定句的情况下,判定文本数据是否包含有否定句。
活动项目判断部305将幼儿的响应内容按照单词进行分解,判断单词是表示肯定的意思、或是表示否定的意思、还是表示其他意思。活动项目判断部305在对于扬声器107语音输出的提问的、幼儿的响应内容是“嗯”或者“是呀”这样的意味着肯定意思的情况下,将通过活动项目推定部303推定出的活动项目判断为是幼儿的活动项目。另外,活动项目判断部305在幼儿的响应内容意味着否定或者是暗示另外的活动项目的内容的情况下,判断为没有明确幼儿的活动项目或者幼儿没有在活动。
例如,在扬声器107输出“是在读绘本吗?”这一提问的语音数据,幼儿说出“嗯,是在读绘本”这一响应语音的情况下,活动项目判断部305根据“嗯”这一意味着肯定的话判断为活动项目是“绘本”。另外,在扬声器107输出“在干什么呢”这一提问的语音数据,幼儿说出“在玩英雄角色饰演游戏”这一不存在表示肯定或者否定的表达的响应语音的情况下,活动项目判断部305判断为无法确定幼儿的活动项目。另外,在幼儿说出“什么都没干呀”这一响应语音的情况下,活动项目判断部305判断为幼儿没有在进行活动行为。另外,在幼儿长时间没有说出响应语音、或者话题提供装置100提问了多次幼儿也没有说出响应语音的情况下,活动项目判断部305判断为幼儿没有在进行活动行为。
活动项目判断部305在确定了幼儿的活动项目的情况下,将所确定的活动项目输出给活动项目登记部306。活动项目判断部305在没能确定幼儿的活动项目的情况下,将表示按照单词分解出的幼儿的响应内容的文本数据输出给活动项目推定部303。
活动项目推定部303在通过活动项目判断部305判定为文本数据不包含否定句的情况下,判定文本数据是否包含有名词,在判定为文本数据包含有名词的情况下,推定为名词表示了幼儿当前正在进行的活动项目。
活动项目推定部303在没有通过活动项目判断部305确定出幼儿的活动项目的情况下,基于表示幼儿的响应内容的文本数据来推定活动项目。活动项目推定部303从表示按照单词分解出的幼儿的响应内容的文本数据中提取名词短语。活动项目推定部303将提取到的名词短语推定为是幼儿正在进行的活动项目。例如,在幼儿的响应内容为“在玩英雄角色饰演游戏”的情况下,活动项目推定部303提取作为名词短语的“英雄角色饰演游戏”。活动项目推定部303对推定结果赋予动词并输出给响应文生成部105。
另外,例如在幼儿的响应内容为“不是呀”,表示响应内容的文本数据不包含名词短语,没能推定出活动项目的情况下,活动项目推定部303将“在干什么呀?”这一询问幼儿的行为的内容的文本数据作为推定结果。在该情况下,响应文生成部105在通过活动项目推定部303判定为文本数据不包含名词的情况下,生成用于询问幼儿在干什么的语音数据(第2语音数据)。扬声器107输出语音数据(第2语音数据)。
活动项目登记部306在通过活动项目判断部305判定为文本数据包含有肯定句的情况下,将活动信息、运动量信息与音量信息关联并记录于幼儿活动数据库204。活动项目登记部306将幼儿的活动项目、运动量、音量和活动日期登记于幼儿活动数据库204。活动项目登记部306将运动量以及音量变换为0.0~10.0的评价值,登记于幼儿活动数据库204。此外,评价值是用预定方法使如运动量以及音量这样的单位不同的两个以上的值的标度相协调的值。例如,也可以事先取得随着幼儿的各种活动的运动量以及音量的数据,将取得的各自的数据的最小值设定为0.0,将最大值设定为10.0。活动项目登记部306将变换出的运动量、变换出的音量、活动项目判断部305所判断出的活动项目、和活动日期登记于幼儿活动数据库204。活动项目登记部306将标准化后的运动量作为运动量信息记录于幼儿活动数据库204,并且将标准化后的音量作为音量信息记录于幼儿活动数据库204。即,活动项目登记部306将被乘以第1系数的运动量作为运动量信息记录于幼儿活动数据库204,并且将被乘以第2系数的音量作为音量信息记录于幼儿活动数据库204。而且,第1系数是预定的第1常数除以第2常数而得到的值,第2系数是预定的第3常数除以第2常数而得到的值。
此外,活动项目登记部306将幼儿的身体各部位的运动量的平均值作为与活动项目对应的运动量登记于幼儿活动数据库204。另外,活动项目登记部306也可以将幼儿的身体各部位的运动量的最大值或者最小值作为与活动项目对应的运动量登记于幼儿活动数据库204。
另外,在本实施方式2中,传感器101、麦克风102以及扬声器107以外的构成的一部分或者全部也可以设置于与话题提供装置100以能够经由网络相互通信的方式连接的服务器。
以下,使用图14以及图15,对在实施方式2中,将幼儿的活动项目、运动量信息、音量信息和日期登记于幼儿活动数据库的登记处理进行说明。
图14是表示由本实施方式2中的话题提供装置进行的登记处理的一例的第1流程图,图15是表示由本实施方式2中的话题提供装置进行的登记处理的一例的第2流程图。
首先,传感器101取得图像数据和三维距离数据(步骤S41)。传感器101将取得的图像数据输出给人物推定部103。另外,传感器101也将取得的图像数据和三维距离数据输出到姿势推定部301。
接着,人物推定部103参照存储器108所存储的用户信息,对从传感器101输出的图像数据执行人物推定处理,由此,推定图像数据所包含的人物(步骤S42)。
接着,人物推定部103判断是否推定出了图像数据所包含的幼儿(步骤S43)。在此,在没有推定出幼儿的情况下(步骤S43:否),返回至步骤S41的处理,反复进行步骤S41~步骤S43的处理直到检测到幼儿为止。
另一方面,在判断为推定出了幼儿的情况下(步骤S43:是),运动量测定部302追踪幼儿的运动,测定追踪到的幼儿的三维距离数据上的变化量来作为运动量(步骤S44)。此外,运动量测定部302将幼儿的身体整体切分为手、脚、躯体以及头这四个部位,测定各个部位的运动量。
接着,运动量测定部302将表示所测定到的各部位的运动量的运动量信息保存于存储器108(步骤S45)。
接着,麦克风102取得随着幼儿的活动的语音数据(步骤S46)。麦克风102将取得的语音数据输出给音量测定部304。
接着,音量测定部304测定所取得的语音数据的音量(步骤S47)。
接着,音量测定部304将表示所测定的音量的音量信息保存于存储器108(步骤S48)。
接着,姿势推定部301针对从传感器101取得的图像数据以及距离数据,与存储器108所保持的人体模型的姿势进行匹配,将相似度最大的姿势推定作为幼儿的姿势(步骤S49)。姿势推定部301将表示所推定出的幼儿的姿势的状态的姿势信息输出给活动项目推定部303。
接着,活动项目推定部303利用事先在存储器108中定义的使幼儿的姿势、各部位的运动量与活动项目相关联的表,推定幼儿的活动项目(步骤S50)。例如,当推定为在预定时间以上幼儿的姿势为坐着的状态、检测到在预定时间以上手的部位的运动量大于预定运动量并且其他部位的运动量小于预定运动量的情况下,活动项目推定部303推定为幼儿正在读绘本或者幼儿正在画画。例如,活动项目推定部303将对“绘本”这一表示所推定出的活动项目的名词赋予了“读”这一动词的文本数据输出给响应文生成部105。此外,在日语的情况下,活动项目推定部303可以将“を”这一助词也附加于活动项目,输出“絵本を読む”(读绘本)这一文本数据。另外,在其他语言中,活动项目推定部303也可以将代名词等其他词类附加于活动项目。
接着,活动项目推定部303判断是否推定出了幼儿的活动项目(步骤S51)。在此,在判断为没有推定出活动项目的情况下(步骤S51:否),返回至步骤S41的处理,进行与步骤S41~步骤S51同样的处理。
另一方面,在判断为推定出了活动项目的情况下(步骤S51:是),响应文生成部105生成将从活动项目推定部303接收到的包括幼儿的活动项目的文本数据变换为现在进行时的疑问句形式而得到的文本数据(步骤S52)。例如,在接收到的包括幼儿的活动项目的文本数据为“读绘本”的情况下,响应文生成部105生成“在读绘本吗?”这一疑问句形式的文本数据,输出给语音合成部106。
接着,语音合成部106将从响应文生成部105取得的文本数据变换为语音数据(步骤S53)。语音合成部106将语音数据输出给扬声器107。
接着,扬声器107输出从语音合成部106接收到的语音数据(步骤S54)。由此,话题提供装置100对幼儿进行提问。
接着,麦克风102取得表示关于从扬声器107输出的提问内容,幼儿的响应内容的语音数据(步骤S55)。麦克风102将取得的表示幼儿的响应内容的语音数据输出给语音识别部104。
接着,语音识别部104对从麦克风102输出的语音数据执行语音识别处理,将取得的语音数据所包含的幼儿的响应内容变换为文本数据(步骤S56)。
接着,语音识别部104判断幼儿是否做出了响应(步骤S57)。语音识别部104在变换为文本数据的结果的可信值小于等于预定值的情况下,将变换出的文本数据废弃。文本数据的废弃表示幼儿没有对话题提供装置100做出响应。另外,在即使从由扬声器107输出了包含活动项目的疑问形式的语音数据后经过了预定时间也没有取得表示幼儿的响应内容的语音数据的情况下,语音识别部104也可以判断为幼儿没有做出响应。在此,在判断为幼儿没有做出响应的情况下(步骤S57:否),返回至步骤S55的处理,进行步骤S55~步骤S57的处理。
另一方面,在判断为幼儿做出了响应的情况下(步骤S57:是),活动项目判断部305判断从语音识别部104取得的文本数据是否包含肯定句(步骤S58)。肯定句例如是“对”、“嗯”或者“是呀”这样的字符。在文本数据包含肯定句的情况下,话题提供装置100能够判断为幼儿正在进行所推定出的活动。因此,活动项目判断部305将活动项目输出给活动项目登记部306。
在此,在判断为文本数据不包含肯定句的情况下(步骤S58:否),活动项目判断部305判断文本数据是否包含否定句(步骤S59)。否定句例如是“不对”、“不是呀”或者“没在做那个呀”这样的字符。
在此,在判断为文本数据包含否定句的情况下(步骤S59:是),返回至步骤S50的处理,活动项目推定部303将文本数据按照单词进行分解,从文本数据中提取名词短语。活动项目推定部303将提取到的名词短语推定为是幼儿正在进行的活动项目。例如,在文本数据为“不是呀,我在画图画呢”的情况下,活动项目推定部303提取“图画”,赋予与活动项目对应的动词并输出“画图画”这一文本数据。另外,在文本数据不包含“画图画”这样的名词短语(比如“不是呀”或者“没在做那个呀”)的情况下,活动项目推定部303无法推定活动项目,因此,例如生成“在干什么呀?”这一询问活动项目的内容的文本数据作为推定结果。在推定活动项目后,进行步骤S50以后的处理。
另一方面,在判断为文本数据不包含否定句的情况下(步骤S59:否),结束处理。即,活动项目判断部305在幼儿否定了自身的活动本身时,判断为幼儿没有在活动。例如,在文本数据包含如“什么都没干呀”或者“没在玩呀”这样的对“做什么”这一情况和/或“玩”这一情况进行否定的字符时,活动项目判断部305判断为幼儿否定了活动,结束处理。
另外,在判断为文本数据包含肯定句的情况下(步骤S58:是),活动项目登记部306将幼儿的活动项目、运动量、音量和日期登记于幼儿活动数据库204(步骤S60)。活动项目登记部306参照从检测到活动项目的定时到回溯预定时间后的时间为止存储器108所保存的音量和各部位的运动量。活动项目登记部306用预定方法使参照的音量的标度与各部位的运动量的标度相协调。例如,对事先假定的音量或者各部位的运动量预先确定最大值以及最小值,将最小值设为0.0,将最大值设为10.0时,则从最大值以及最小值这一幅度落入到0.0~10.0的标度。此外,在所参照的音量或者各部位的运动量比最小值小的情况下设为0.0,在所参照的音量或者各部位的运动量比最大值大的情况下设为10.0。落入标度的音量或者各部位的运动量例如成为与预定时间范围内的所参照的音量的平均值或者各部位的运动量的平均值。
如此,可基于幼儿的姿势和幼儿的运动量,或者基于提取到的语音所包含的名词,推定幼儿当前正在进行的活动项目,将表示所推定出的活动项目的活动信息、运动量信息与音量信息关联并记录于幼儿活动数据库204,所以能够容易地制作与幼儿相应的数据库。
另外,通过使用使表示活动项目的活动信息、运动量信息与音量信息相关联的幼儿活动数据库204,能够提供与幼儿的活动内容相应的话题,能够提供幼儿易交谈的话题。
(实施方式3)
在实施方式3中,使用图16以及图17,对将话题提供装置100安装于机器人400的例子进行说明。此外,在以下的说明中,为了简化说明而对与上述实施方式1、2同样的构成赋予相同的标号并省略说明。
图16是本实施方式3涉及的机器人的外观图。图17是表示本实施方式3涉及的机器人的构成的框图。
如图16所示,机器人400具备球带状的主壳体405和球冠部406,主壳体405和球冠部406作为整体而构成球体。即,机器人400具有球体形状。另外,如图16所示,机器人400在球冠部406具备传感器101、麦克风102和扬声器107。另外,如图17所示,机器人400具备控制电路401。传感器101是使用了两个摄像头的立体摄像头,因此,取得周边环境的图像数据和距离数据。控制电路401控制机器人的各种动作。将在后面参照图17对控制电路401的详细内容进行说明。此外,在本实施方式3中,机器人400整体构成为球体,但并非限定于此,只要是至少具有移动机构的构成即可。
图17所示的机器人400具备传感器101、麦克风102、扬声器107、控制电路401、驱动控制部403和驱动部404。
控制电路401具备人物推定部103、语音识别部104、对话历史记录数据库202、幼儿活动数据库204、第1处理部200、第2处理部300、主控制部402、响应文生成部105、语音合成部106和存储器108。
传感器101以与实施方式2同样的方式,对人物推定部103输出图像数据和距离数据。
麦克风102以与实施方式1、2同样的方式,向语音识别部104输出语音数据。
人物推定部103进行与实施方式1同样的处理,向第1处理部200输出人物的推定结果。另外,人物推定部103进行与实施方式2同样的处理,向第2处理部300输出人物(幼儿)的推定结果。
语音识别部104进行与实施方式1同样的处理,将文本数据等输出给对话历史记录数据库202。另外,语音识别部104进行与实施方式2同样的处理,将文本数据等输出给第2处理部300。
对话历史记录数据库202以与实施方式1同样的方式被使用。此外,对话历史记录数据库202也可以存在于云上。
幼儿活动数据库204以与实施方式1以及实施方式2同样的方式被使用。此外,幼儿活动数据库204也可以存在于云上。
第1处理部200进行与实施方式1同样的处理,在向用户提供的话题的提取完成了的情况下,将与提供话题有关的信息输出给主控制部402。
第2处理部300进行与实施方式2同样的处理,在幼儿的活动项目的推定完成了的情况下,将推定结果输出给主控制部402。
主控制部402管理机器人400的行动。主控制部402通过满足预定条件,向驱动控制部403发送指令。由此,机器人400进行移动。主控制部402从第1处理部200取得与提供话题有关的信息。主控制部402在取得了与提供话题有关的信息的情况下,将与提供话题有关的信息输出给响应文生成部105。
主控制部402从第2处理部300取得幼儿的活动项目的推定结果。主控制部402在取得了幼儿的活动项目的推定结果的情况下,将推定结果输出给响应文生成部105。
驱动控制部403根据从主控制部402发送来的指令,使机器人400的驱动部404工作。如果从主控制部402发送来的指令例如是指示搜索用户的指令,则机器人400进行回旋以使得扫视周边。
驱动部404通过使球带状的主壳体405旋转,前进或者后退。另外,驱动部404通过使主壳体405内部的重心位置例如利用内置的摆来发生改变从而能够回旋运动。
响应文生成部105进行与实施方式1以及实施方式2同样的处理,生成文本数据,并向语音合成部106输出。
语音合成部106进行与实施方式1以及实施方式2同样的处理,将文本数据变换为语音数据。扬声器107输出语音数据。
在本公开中,单元(unit)、装置、部件或功能部的全部或一部分、或者图示的框图的功能块的全部或一部分也可以通过包括半导体装置、半导体集成电路(IC)或者LSI(Large Scale Integration,大规模集成电路)的一个或多个电子电路来执行。LSI或IC可以集成于一个芯片,也可以组合多个芯片而构成。例如,存储元件以外的功能块也可以集成于一个芯片。在此,虽然称为LSI、IC,但也可以根据集成的程度而改变称呼,称为***LSI、VLSI(Very Large Scale Integration,超大规模集成电路)、或ULSI(Ultra Large ScaleIntegration,特大规模集成电路)。以相同的目的,也可以使用在LSI制造后可编程的FPGA(Field Programmable Gate Array,现场可编程门阵列)、或者能够重构LSI内部的接合关系或设定LSI内部的电路划分的可重构逻辑器件(Reconfigurable Logic Device)。
再者,单元、装置、部件或功能部的全部或一部分的功能或操作可以通过软件处理来执行。在该情况下,软件记录于一个或多个ROM、光盘、硬盘驱动器等非瞬时性记录介质,在软件由处理装置(Processor)执行时,由该软件确定的功能通过处理装置(Processor)和***装置来执行。***或装置也可以具备记录有软件的一个或多个非瞬时性记录介质、处理装置(Processor)以及所需的硬件设备例如接口。

Claims (14)

1.一种装置,是与多个用户进行语音对话的装置,具备:
传感器,其取得所述装置周边的图像数据;
麦克风,其取得所述装置周边的声音;
存储器,其存储有与所述多个用户对应的多个图像数据,所述多个用户包括大人和幼儿;
推定部,其基于所述取得的图像数据和所述存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息;
语音识别部,其从所述取得的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;
第1判定部,其基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;
第2判定部,其在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;
提取部,其在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;
选择部,其从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;
生成部,其生成包括所述一个话题的语音数据;以及
扬声器,其输出所述生成的语音数据。
2.根据权利要求1所述的装置,
所述第2数据库还存储:表示与所述活动项目对应的运动量的运动量信息;表示与所述活动项目对应的音量的音量信息;和表示与所述活动项目对应的日期的日期信息,
所述提取部基于所述第2数据库,确定最新的活动项目,提取与所述最新的活动项目和所述文本数据所包含的活动项目不同的第2活动项目来作为所述话题的候选,
所述选择部基于与所述最新的活动项目对应的第1运动量、与所述最新的活动项目对应的第1音量、与所述活动项目中的第2活动项目对应的第2运动量、和与所述第2活动项目对应的第2音量,从所述第2活动项目中选择第3活动项目作为所述一个话题。
3.根据权利要求2所述的装置,
所述选择部将所述第2运动量相对于所述第1运动量的相对运动量的平方、与所述第2音量相对于所述第1音量的相对音量的平方之和成为最大的第2活动项目选择作为所述第3活动项目。
4.根据权利要求2所述的装置,
所述提取部提取与所述最新的活动项目和所述文本数据所包含的活动项目不同、并且在第2预定期间记录的第2活动项目来作为所述话题的候选。
5.根据权利要求2所述的装置,
所述运动量信息是对所述运动量乘以第1系数而得到的值,
所述音量信息是对所述音量乘以第2系数而得到的值。
6.根据权利要求2所述的装置,
所述生成部,基于所述第2数据库,在与所述第3活动项目对应的第3运动量大于等于第1阈值的情况下,生成包括第2关键字的所述语音数据,基于所述第2数据库,在与所述第3活动项目对应的第3运动量小于第1阈值的情况下,生成包括第3关键字的所述语音数据。
7.根据权利要求6所述的装置,
所述第2关键字以及所述第3关键字包括表示投入所述第3活动项目的所述幼儿的活跃度的修饰词,
所述第2关键字所示的意思是与所述第3关键字所示的意思相反的意思。
8.根据权利要求2所述的装置,
所述生成部,基于所述第2数据库,在与所述第3活动项目对应的第3音量大于等于第1阈值的情况下,生成包括第2关键字的所述语音数据,基于所述第2数据库,在与所述第3活动项目对应的第3音量小于所述第1阈值的情况下,生成包括第3关键字的所述语音数据。
9.根据权利要求8所述的装置,
所述第2关键字以及所述第3关键字包括表示投入所述第3活动项目的所述幼儿的活跃度的修饰词,
所述第2关键字所示的意思是与所述第3关键字所示的意思相反的意思。
10.根据权利要求1所述的装置,
所述特征量包括发出所述语音的说话者的声纹。
11.根据权利要求1所述的装置,
所述第1关键字包括表示话题的单词。
12.一种机器人,具备:
权利要求1所述的装置;
壳体,其内置所述装置;以及
移动机构,其使所述壳体移动。
13.一种方法,是与多个用户进行语音对话的装置中的方法,包括:
取得所述装置周边的图像数据;
取得所述装置周边的声音;
基于所述取得的图像数据、和存储与所述多个用户对应的多个图像数据的存储器所存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述多个用户包括大人和幼儿;
从所述取得的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;
基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;
在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;
在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;
从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;
生成包括所述一个话题的语音数据;以及
输出所述生成的语音数据。
14.一种计算机可读的记录介质,存储有用于与多个用户进行语音对话的程序,该程序使与所述多个用户进行语音对话的装置所具备的处理器作为如下各部而发挥功能:
推定部,其基于通过传感器取得的所述装置周边的图像数据、和存储有与所述多个用户对应的多个图像数据的存储器所存储的多个图像数据,推定所述取得的图像数据所包含的人物,输出表示所述推定出的人物的用户信息,所述多个用户包括大人和幼儿;
语音识别部,其从通过麦克风取得的所述装置周边的声音中提取语音,提取与所述语音对应的文本数据和所述语音的特征量,将所述文本数据与所述特征量关联并记录于第1数据库;
第1判定部,其基于所述用户信息和所述第1数据库,判定所述大人与所述幼儿是否正在交谈,在所述推定出的人物是所述大人和所述幼儿、并且所述特征量包括互不相同的多个特征量的情况下,判定为所述大人与所述幼儿正在交谈;
第2判定部,其在判定为所述大人与所述幼儿正在交谈的情况下,基于所述第1数据库,判定是否需要向所述大人和所述幼儿重新提供话题,在所述文本数据包含有第1关键字的情况下,判定为需要向所述大人和所述幼儿重新提供话题;
提取部,其在判定为需要提供所述话题的情况下,基于所述第1数据库和第2数据库,提取所述话题的候选,所述第2数据库存储表示所述幼儿在第1预定期间活动了的项目的活动项目,所述话题的候选与所述活动项目对应,并且与记录于所述第1数据库的所述文本数据所包含的活动项目不对应;
选择部,其从所述话题的候选中选择向所述大人和所述幼儿提供的一个话题;以及
生成部,其生成包括所述一个话题的语音数据,将所述生成的语音数据输出到扬声器。
CN201710831295.0A 2016-12-14 2017-09-13 语音对话装置、语音对话方法、记录介质以及机器人 Active CN108231070B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-242180 2016-12-14
JP2016242180A JP6795387B2 (ja) 2016-12-14 2016-12-14 音声対話装置、音声対話方法、音声対話プログラム及びロボット

Publications (2)

Publication Number Publication Date
CN108231070A CN108231070A (zh) 2018-06-29
CN108231070B true CN108231070B (zh) 2023-04-18

Family

ID=62490203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710831295.0A Active CN108231070B (zh) 2016-12-14 2017-09-13 语音对话装置、语音对话方法、记录介质以及机器人

Country Status (3)

Country Link
US (1) US10650815B2 (zh)
JP (1) JP6795387B2 (zh)
CN (1) CN108231070B (zh)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
AU2017100670C4 (en) 2016-06-12 2019-11-21 Apple Inc. User interfaces for retrieving contextually relevant media content
JP6751536B2 (ja) * 2017-03-08 2020-09-09 パナソニック株式会社 装置、ロボット、方法、及びプログラム
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US11220008B2 (en) * 2017-07-18 2022-01-11 Panasonic Intellectual Property Management Co., Ltd. Apparatus, method, non-transitory computer-readable recording medium storing program, and robot
CN110800045A (zh) * 2017-10-24 2020-02-14 北京嘀嘀无限科技发展有限公司 用于不间断应用唤醒和语音识别的***和方法
US11989976B2 (en) * 2018-02-16 2024-05-21 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP7015711B2 (ja) * 2018-03-08 2022-02-03 パナソニック株式会社 装置、ロボット、方法、及びプログラム
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) * 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
JP7042167B2 (ja) * 2018-06-13 2022-03-25 本田技研工業株式会社 車両制御装置、車両制御方法、およびプログラム
CN109176535B (zh) * 2018-07-16 2021-10-19 北京光年无限科技有限公司 基于智能机器人的交互方法及***
CN109165997A (zh) * 2018-07-19 2019-01-08 阿里巴巴集团控股有限公司 一种线下购物推荐内容的生成方法及装置
WO2020066019A1 (ja) * 2018-09-28 2020-04-02 富士通株式会社 対話装置、対話方法及び対話プログラム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11869509B1 (en) * 2018-12-21 2024-01-09 Cerner Innovation, Inc. Document generation from conversational sources
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11798560B1 (en) 2018-12-21 2023-10-24 Cerner Innovation, Inc. Rapid event and trauma documentation using voice capture
CN109760068A (zh) * 2019-01-22 2019-05-17 合肥状元郎电子科技有限公司 一种儿童娱教监护机器人
CN109902834B (zh) * 2019-01-28 2021-02-05 北京怡凯智能技术有限公司 一种话题驱动的老人陪伴主动对话机器人
JP2020119412A (ja) * 2019-01-28 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DE112019007085T5 (de) 2019-03-27 2022-01-20 Intel Corporation Intelligente Anzeigetafeleinrichtung und verwandte Verfahren
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110334341B (zh) * 2019-05-23 2022-05-17 平安科技(深圳)有限公司 基于数据分析的语料推荐方法、装置、介质及电子设备
US11379016B2 (en) 2019-05-23 2022-07-05 Intel Corporation Methods and apparatus to operate closed-lid portable computers
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP7207543B2 (ja) * 2019-07-05 2023-01-18 日本電信電話株式会社 情報推薦装置、情報推薦システム、情報推薦方法及び情報推薦プログラム
CN110459200A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 语音合成方法、装置、计算机设备及存储介质
US11543873B2 (en) 2019-09-27 2023-01-03 Intel Corporation Wake-on-touch display screen devices and related methods
JP7156242B2 (ja) * 2019-10-18 2022-10-19 トヨタ自動車株式会社 情報処理装置、プログラム及び制御方法
US11733761B2 (en) 2019-11-11 2023-08-22 Intel Corporation Methods and apparatus to manage power and performance of computing devices based on user presence
US11809535B2 (en) 2019-12-23 2023-11-07 Intel Corporation Systems and methods for multi-modal user device authentication
US11360528B2 (en) 2019-12-27 2022-06-14 Intel Corporation Apparatus and methods for thermal management of electronic user devices based on user activity
US11449555B2 (en) * 2019-12-30 2022-09-20 GM Cruise Holdings, LLC Conversational AI based on real-time contextual information for autonomous vehicles
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
JP7325757B2 (ja) * 2020-03-25 2023-08-15 淳 大▲高▼ 対話可能物体表示プログラムおよび対話可能物体表示装置
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20210109585A1 (en) * 2020-12-21 2021-04-15 Intel Corporation Methods and apparatus to improve user experience on computing devices
WO2023135781A1 (ja) * 2022-01-17 2023-07-20 日本電気株式会社 転倒検出装置、システム及び方法、並びに、コンピュータ可読媒体
CN115312031B (zh) * 2022-07-22 2024-06-18 东北大学 基于深度学习的自然语言处理方法及***
WO2024023901A1 (ja) * 2022-07-25 2024-02-01 日本電信電話株式会社 通信端末、コメント出力方法、及びプログラム

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573924A (zh) * 2003-06-20 2005-02-02 PtoPA株式会社 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
JPWO2005086051A1 (ja) * 2004-03-08 2008-01-24 独立行政法人情報通信研究機構 対話システム、対話ロボット、プログラム及び記録媒体
JP2008246665A (ja) * 2007-03-07 2008-10-16 Matsushita Electric Ind Co Ltd 行動制御装置、方法、プログラム
JP2009061547A (ja) * 2007-09-06 2009-03-26 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
JP2013073355A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 対話支援装置、方法及びプログラム
JP5300497B2 (ja) * 2009-01-07 2013-09-25 株式会社東芝 対話装置、対話プログラムおよび対話方法
JP2015122005A (ja) * 2013-12-25 2015-07-02 株式会社国際電気通信基礎技術研究所 遊び行動認識システム、遊び行動認識プログラム、遊び行動認識方法および遊び行動認識装置
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP2016006607A (ja) * 2014-06-20 2016-01-14 カシオ計算機株式会社 対話型通信システム、端末装置およびプログラム
WO2016068262A1 (ja) * 2014-10-29 2016-05-06 京セラ株式会社 コミュニケーションロボット
CN105654950A (zh) * 2016-01-28 2016-06-08 百度在线网络技术(北京)有限公司 自适应语音反馈方法和装置
CN106020488A (zh) * 2016-06-03 2016-10-12 北京光年无限科技有限公司 一种面向对话***的人机交互方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1720520B (zh) * 2002-12-02 2010-05-05 索尼株式会社 对话控制设备和方法,以及机器人设备
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
JP2009131928A (ja) * 2007-11-30 2009-06-18 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
KR101622111B1 (ko) * 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US8447863B1 (en) * 2011-05-06 2013-05-21 Google Inc. Systems and methods for object recognition
US9621713B1 (en) * 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
JP6633008B2 (ja) * 2017-02-01 2020-01-22 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
US10853717B2 (en) * 2017-04-11 2020-12-01 Microsoft Technology Licensing, Llc Creating a conversational chat bot of a specific person

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573924A (zh) * 2003-06-20 2005-02-02 PtoPA株式会社 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
JPWO2005086051A1 (ja) * 2004-03-08 2008-01-24 独立行政法人情報通信研究機構 対話システム、対話ロボット、プログラム及び記録媒体
JP2008246665A (ja) * 2007-03-07 2008-10-16 Matsushita Electric Ind Co Ltd 行動制御装置、方法、プログラム
JP2009061547A (ja) * 2007-09-06 2009-03-26 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
JP5300497B2 (ja) * 2009-01-07 2013-09-25 株式会社東芝 対話装置、対話プログラムおよび対話方法
JP2013073355A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 対話支援装置、方法及びプログラム
JP2015122005A (ja) * 2013-12-25 2015-07-02 株式会社国際電気通信基礎技術研究所 遊び行動認識システム、遊び行動認識プログラム、遊び行動認識方法および遊び行動認識装置
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP2016006607A (ja) * 2014-06-20 2016-01-14 カシオ計算機株式会社 対話型通信システム、端末装置およびプログラム
WO2016068262A1 (ja) * 2014-10-29 2016-05-06 京セラ株式会社 コミュニケーションロボット
CN105654950A (zh) * 2016-01-28 2016-06-08 百度在线网络技术(北京)有限公司 自适应语音反馈方法和装置
CN106020488A (zh) * 2016-06-03 2016-10-12 北京光年无限科技有限公司 一种面向对话***的人机交互方法及装置

Also Published As

Publication number Publication date
JP2018097185A (ja) 2018-06-21
JP6795387B2 (ja) 2020-12-02
US10650815B2 (en) 2020-05-12
US20180166076A1 (en) 2018-06-14
CN108231070A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108231070B (zh) 语音对话装置、语音对话方法、记录介质以及机器人
KR102627948B1 (ko) 다수의 연령 및/또는 어휘 수준을 수용하는 자동화 어시스턴트
Roy et al. Learning words from sights and sounds: A computational model
WO2017112813A1 (en) Multi-lingual virtual personal assistant
US20150325240A1 (en) Method and system for speech input
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
JP6821393B2 (ja) 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
JP2016071050A (ja) 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム
CN107909995B (zh) 语音交互方法和装置
JPWO2018230345A1 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
KR20180012192A (ko) 유아동용 학습 장치 및 그 동작 방법
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
CN114359446A (zh) 一种动画绘本生成方法、装置、设备和存储介质
Schuller et al. Speech communication and multimodal interfaces
JPWO2019044534A1 (ja) 情報処理装置、及び情報処理方法
JP7474211B2 (ja) ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
CN114155479B (zh) 语言交互处理方法、装置及电子设备
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법
EP4350690A1 (en) Artificial intelligence device and operating method thereof
US20220399016A1 (en) Presence-based application invocation
JP2018173522A (ja) 音声認識装置、音声認識方法、及びプログラム
Denby Down with sound, the story of silent speech
JP6759907B2 (ja) 情報提示装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant