CN111587413A - 信息处理装置、信息处理***、信息处理方法和程序 - Google Patents

信息处理装置、信息处理***、信息处理方法和程序 Download PDF

Info

Publication number
CN111587413A
CN111587413A CN201880084925.5A CN201880084925A CN111587413A CN 111587413 A CN111587413 A CN 111587413A CN 201880084925 A CN201880084925 A CN 201880084925A CN 111587413 A CN111587413 A CN 111587413A
Authority
CN
China
Prior art keywords
user
utterance
information processing
processing apparatus
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201880084925.5A
Other languages
English (en)
Inventor
河野真一
滝祐平
岩濑広
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111587413A publication Critical patent/CN111587413A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

通过生成并使用其中收集了多个用户语音实例的语音收集列表,本发明实现了一种能够基于多个用户语音实例精确且重复地执行处理的装置和方法。学习处理单元生成语音收集列表,其中,收集对应于多个不同处理请求的多个用户语音实例。此外,在显示单元上显示生成的语音收集列表。在诸如当获得用户同意或者确定对应于用户语音的多个处理的执行已经成功时或者当多个用户语音实例的组合达到或超过预定阈值或者推断用户满意时等情况下,所述学习处理单元生成语音收集列表并且将语音收集列表存储在存储单元中。

Description

信息处理装置、信息处理***、信息处理方法和程序
技术领域
本公开涉及一种信息处理装置、一种信息处理***、一种信息处理方法和一种程序。更具体地,本公开涉及一种根据用户话语执行处理的信息处理装置、信息处理***和信息处理方法以及程序。
背景技术
近年来,已经越来越多地使用语音交互***,其执行用户话语的语音识别,并基于识别结果执行各种处理和响应。
那些语音识别***识别并理解通过麦克风输入的用户话语,并根据该识别和理解执行处理。
例如,在用户说出“显示感兴趣的运动图像”的情况下,语音识别***执行从运动图像内容提供服务器获取运动图像内容并将运动图像内容输出到显示单元或连接的电视机的处理。或者,在用户说出“关掉电视”的情况下,语音识别***执行例如关闭电视的操作。
通用语音交互***具有例如自然语言理解功能,例如,自然语言理解(NLU),并且通过应用自然语言理解(NLU)功能来理解用户话语的意图。
然而,例如,为了使语音交互***连续执行多个处理,用户需要执行对应于多个处理的多个用户话语。例如,一个示例如下。
“显示一个感兴趣的运动图像(moving image)。”
“播放古典音乐。”
“我想继续玩昨天停止的游戏。”
“我想和我的朋友玩游戏,所以请联系他们。”
例如,在做出这种连续的用户话语的情况下,用户很难立即确认***是否能够理解并执行所有这些话语。
实际上,用户需要在发出话语之后等待一段时间,以基于执行结果来确认是否响应于用户话语执行了处理。
在没有执行处理的情况下,需要执行关于没有执行的处理的重复话语的处理、关于该处理的重复话语的处理或其他处理。
这种响应给用户带来了沉重的负担。此外,完成这些处理所需时间的增加是有问题的。
公开了用于基于用户话语安全地执行处理请求的配置的相关技术是例如专利文献1(日本专利申请公开号2007-052397)。该文献公开了一种配置,其中,在显示单元上预先显示可以输入到汽车导航***的语音命令的列表,使得用户可以在查看该列表的同时输入语音命令。
这种配置使得能够使用户发出汽车导航***能够理解的用户话语(命令)。因此,可以降低执行汽车导航***不能理解的用户话语(命令)的可能性。
这种配置可以将用户话语与***中登记的命令相匹配。然而,如上所述,为了使配置连续执行多个处理请求,用户需要从列表中搜索与用户想要的多个处理相对应的多个命令。这增加了用户的负担。此外,结果,出现了完成这些处理所需的时间增加的问题。
引文目录
专利文献
专利文献1:日本专利申请公开号2007-052397
发明内容
本发明要解决的问题
考虑到例如上述问题,已经构成了本公开,并且其目的是提供一种能够更安全地根据用户话语执行处理的信息处理装置、信息处理***、信息处理方法以及程序。
此外,本公开的实施方式提供了一种能够在共同执行多个不同的处理的情况下安全地执行用户请求的多个处理的信息处理装置、信息处理***、信息处理方法以及程序。
问题的解决方案
本公开的第一方面是
一种信息处理装置,包括
学习处理单元,其被配置为执行用户话语的学习处理,其中,
所述学习处理单元生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
此外,本公开的第二方面是
一种信息处理***,包括
用户终端;以及
数据处理服务器,其中:
所述用户终端包括
语音输入单元,其被配置为输入用户话语;
所述数据处理服务器包括
学习处理单元,其被配置为执行从用户终端接收的用户话语的学习处理;并且
所述学习处理单元生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
此外,本公开的第三方面是
一种在信息处理装置中执行的信息处理方法,其中:
所述信息处理装置包括:学习处理单元,其被配置为执行用户话语的学习处理;并且
所述学习处理单元生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
此外,本公开的第四方面是
一种在包括用户终端和数据处理服务器的信息处理***中执行的信息处理方法,其中:
所述用户终端执行输入用户话语的语音输入处理;
所述数据处理服务器执行从用户终端接收的用户话语的学习处理;并且
在学习处理中生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
此外,本公开的第五方面是
一种用于使信息处理装置执行信息处理的程序,其中:
所述信息处理装置包括:学习处理单元,其被配置为执行用户话语的学习处理;并且
所述程序使学习处理单元生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
注意,本公开的程序例如是可以由存储介质或通信介质以计算机可读格式提供的程序,用于可以执行各种程序代码的信息处理装置或计算机***。通过以计算机可读格式提供这种程序,在信息处理装置或计算机***中实现根据该程序的处理。
基于稍后描述的本公开的实施方式和附图的更详细的描述,本公开的其他目的、特征和优点将变得显而易见。注意,在本说明书中,***是多个装置的逻辑集合配置,并且不限于具有相应配置的装置在同一外壳中的***。
本发明的效果
根据本公开的实施方式的配置,能够基于多个用户话语准确且重复地执行处理的装置和方法通过生成并使用收集了多个用户话语的话语收集列表来实现。
具体地,例如,学习处理单元生成话语收集列表,其中,收集了对应于多个不同处理请求的多个用户话语。此外,在显示单元上显示生成的话语收集列表。在用户同意的情况下,在确定已经成功执行了与用户话语对应的多个处理的情况下,在多个用户话语的组合等于或大于预定阈值次数的情况下,在估计用户满意的情况下,或者在其他情况下,学习处理单元生成话语收集列表,并将话语收集列表存储在存储单元中。
通过这种配置,能够基于多个用户话语精确地和重复地执行处理的装置和方法通过生成和使用收集了多个用户话语的话语收集列表来实现。
注意,本说明书中描述的效果仅仅是示例,并不限于此,并且可以具有其他额外效果。
附图说明
图1示出了基于用户话语执行响应和处理的信息处理装置的示例;
图2示出了信息处理装置的配置示例和使用示例;
图3示出了信息处理装置的具体配置示例;
图4示出了信息处理装置的显示数据的示例;
图5示出了信息处理装置的显示数据的示例;
图6示出了信息处理装置的显示数据的示例;
图7示出了信息处理装置的显示数据的示例;
图8示出了信息处理装置的显示数据的示例;
图9示出了信息处理装置的显示数据的示例;
图10示出了信息处理装置的显示数据的示例;
图11示出了信息处理装置的显示数据的示例;
图12示出了信息处理装置的显示数据的示例;
图13示出了信息处理装置的显示数据的示例;
图14示出了信息处理装置的显示数据的示例;
图15示出了信息处理装置的显示数据的示例;
图16示出了信息处理装置的显示数据的示例;
图17示出了信息处理装置的显示数据的示例;
图18示出了信息处理装置的显示数据的示例;
图19示出了信息处理装置的显示数据的示例;
图20示出了信息处理装置的显示数据的示例;
图21示出了信息处理装置的显示数据的示例;
图22示出了信息处理装置的显示数据的示例;
图23示出了信息处理装置的显示数据的示例;
图24示出了信息处理装置的显示数据的示例;
图25示出了信息处理装置的显示数据的示例;
图26示出了信息处理装置的显示数据的示例;
图27示出了信息处理装置的显示数据的示例;
图28示出了信息处理装置的显示数据的示例;
图29示出了信息处理装置的显示数据的示例;
图30示出了信息处理装置的显示数据的示例;
图31示出了信息处理装置的显示数据的示例;
图32示出了信息处理装置的显示数据的示例;
图33示出了信息处理装置的显示数据的示例;
图34示出了信息处理装置的显示数据的示例;
图35示出了信息处理装置的显示数据的示例;
图36是示出由信息处理装置执行的处理序列的流程图;
图37是示出由信息处理装置执行的处理序列的流程图;
图38是示出由信息处理装置执行的处理序列的流程图;
图39是示出由信息处理装置执行的处理序列的流程图;
图40是示出由信息处理装置执行的处理序列的流程图;
图41示出了信息处理***的配置示例;
图42示出了信息处理装置的硬件配置示例。
具体实施方式
在下文中,将参考附图描述本公开的信息处理装置、信息处理***和信息处理方法以及程序的细节。注意,将根据以下项目进行描述。
1.信息处理装置的配置示例
2.生成由信息处理装置输出的显示信息和话语收集列表的示例
3.使用话语收集列表的处理示例
4.显示和生成话语收集列表的其他示例
5.由信息处理装置执行的处理序列
6.信息处理装置和信息处理***的配置示例
7.信息处理装置的硬件配置示例
8.本公开的配置概述
[1.信息处理装置的配置示例]
首先,将参考图1和随后的附图描述根据本公开实施方式的信息处理装置的配置示例。
图1示出了信息处理装置10的配置和处理示例,该信息处理装置10识别用户1发出的用户话语,并执行对应于用户话语的处理和响应。
用户1在步骤S01中发出以下用户话语。
用户话语=“显示感兴趣的运动图像。”
在步骤S02中,信息处理装置10执行用户话语的语音识别,并基于识别结果执行处理。
在图1的示例中,在步骤S02中,输出以下***话语,作为对用户话语=“显示感兴趣的运动图像”的响应。
***话语=“好的,我将播放感兴趣的运动图像。”
此外,信息处理装置10从例如作为连接到网络的云中的服务器20的内容分发服务器获取运动图像内容,并将运动图像内容输出到信息处理装置10的显示单元13或由信息处理装置10控制的附近的外部装置(电视)30。
此外,在步骤S03中,用户1发出以下用户话语。
用户话语=“播放古典音乐。”
在步骤S04中,信息处理装置10执行用户话语的语音识别,并基于识别结果执行处理。
在图1的示例中,在步骤S04中,输出以下***话语,作为对用户话语=“播放古典音乐”的响应。
***话语=“好的,我将播放古典音乐。”
此外,信息处理装置10从例如作为连接到网络的云中的服务器20的音乐分发服务器获取古典音乐内容,并将古典音乐内容输出到信息处理装置10的扬声器14或附近的外部装置(扬声器)。
图1中的信息处理装置10包括相机11、麦克风12、显示单元13和扬声器14,并且被配置为执行语音输入/输出和图像输入/输出。
图1中的信息处理装置10称为例如“智能扬声器”、“代理装置”等。
注意,针对用户话语的语音识别处理和语义分析处理可以在信息处理装置10中执行,或者可以在作为云中的一个服务器20的数据处理服务器中执行。
如图2所示,本公开的信息处理装置10不限于代理装置10a,并且可以是各种装置形式,例如,智能手机10b和PC 10c。
信息处理装置10识别用户1的话语并基于用户话语做出响应,并且还例如响应于用户话语来控制外部装置30,例如,图2中所示的电视机和空调。
例如,在用户话语是诸如“将电视频道变为1。”或者“将空调的温度设置为20o。”等请求的情况下,信息处理装置10基于用户话语的语音识别结果向外部装置30输出控制信号(无线网络、红外光等),并根据用户话语执行控制。
注意,信息处理装置10经由网络连接到服务器20,并且可以从服务器20获取生成对用户话语的响应所需的信息。此外,如上所述,服务器可以被配置为执行语音识别处理和语义分析处理。
接下来,将参考图3描述信息处理装置的具体配置示例。
图3示出了识别用户话语并执行对应于用户话语的处理和响应的信息处理装置10的配置示例。
如图3所示,信息处理装置10包括输入单元110、输出单元120和数据处理单元150。
注意,尽管可以在信息处理装置10中设置数据处理单元150,但是可以使用外部服务器的数据处理单元,而不在信息处理装置10中设置数据处理单元150。在使用服务器的配置的情况下,信息处理装置10经由网络将从输入单元110输入的输入数据发送到服务器,接收服务器的数据处理单元150的处理结果,并且经由输出单元120输出处理结果。
接下来,将描述图3的信息处理装置10的组件。
输入单元110包括语音输入单元(麦克风)111、图像输入单元(相机)112和传感器113。
输出单元120包括语音输出单元(扬声器)121和图像输出单元(显示单元)122。
信息处理装置10至少包括那些组件。
注意,语音输入单元(麦克风)111对应于图1中的信息处理装置10的麦克风12。
图像输入单元(相机)112对应于图1中的信息处理装置10的相机11。
语音输出单元(扬声器)121对应于图1中的信息处理装置10的扬声器14。
图像输出单元(显示单元)122对应于图1中的信息处理装置10的显示单元13。
注意,图像输出单元(显示单元)122也可以由例如投影仪等配置,或者可以被配置为使用作为外部装置的电视的显示单元。
如上所述,在信息处理装置10或能够与信息处理装置10通信的服务器中提供数据处理单元150。
数据处理单元150包括输入数据分析单元160、存储单元170和输出信息生成单元180。
输入数据分析单元160包括语音分析单元161、图像分析单元162、传感器信息分析单元163、用户状态估计单元164和学习处理单元165。
输出信息生成单元180包括输出语音生成单元181和显示信息生成单元182。
显示信息生成单元182生成显示数据,例如,节点树和话语收集列表。稍后将详细描述显示数据。
用户的话语语音输入到诸如麦克风等语音输入单元111。
语音输入单元(麦克风)111将输入的用户话语语音输入到语音分析单元161。
语音分析单元161具有例如自动语音识别(ASR)功能,并将语音数据转换成包括多个单词的文本数据。
此外,语音分析单元161对文本数据执行话语语义分析处理。
语音分析单元161具有例如自然语言理解功能,例如,自然语言理解(NLU),并且从文本数据估计用户话语的意图和作为话语中包括的有意义元素(重要元素)的实体。
将描述一个具体的示例。例如,输入以下用户话语。
用户话语=告诉我明天下午大阪的天气预报。
该用户话语的意图是知道天气,其实体是以下单词:大阪、明天和下午。
当可以从用户话语中准确地估计和获取意图和实体时,信息处理装置100可以响应于用户话语执行准确的处理。
例如,在上面的示例中,可以获取大阪明天下午的天气预报并作为响应输出。
由语音分析单元161获取的用户话语分析信息191存储在存储单元170中,并且还输出到学习处理单元165和输出信息生成单元180。
此外,语音分析单元161基于用户的语音获取用户情绪分析处理所需的信息(非语言信息),并将获取的信息输出到用户状态估计单元164。
图像输入单元112捕捉话语用户及其周围的图像,并将该图像输入到图像分析单元162。
图像分析单元162分析用户的面部表情、手势、视线信息等,并将分析结果输出到用户状态估计单元164。
传感器113包括例如用于获取分析用户的视线、体温、心率、脉搏、脑电波等所需的数据的传感器。来自传感器的获取信息输入到传感器信息分析单元163。
传感器信息分析单元163基于传感器获取信息获取用户的数据,例如,视线、体温、心率等,并将分析结果输出到用户状态估计单元164。
用户状态估计单元164接收以下数据的输入,估计用户的状态,并生成用户状态估计信息192:
语音分析单元161的分析结果,即,基于用户的语音的用户情感分析处理所需的信息(非语言信息);
图像分析单元162的分析结果,即分析信息,例如,用户的面部表情、手势和视线信息;以及
传感器信息分析单元163的分析结果,即用户的数据,例如,视线、体温、心率、脉搏和脑电波。
生成的用户状态估计信息192存储在存储单元170中,并且还输出到学习处理单元165和输出信息生成单元180。
注意,由用户状态估计单元164生成的用户状态估计信息192具体是例如指示用户是否满意的估计信息等,即用户是否满意信息处理装置对用户话语执行的处理。
例如,在估计用户满意的情况下,估计由信息处理装置响应于用户话语执行的处理是正确的,即,已经成功执行该处理。
学习处理单元165对用户话语执行学习处理,并将学习数据存储在存储单元170中。例如,在输入新的用户话语或者用户话语的意图未知时,基于装置和用户之间的后续交互来分析意图并且获得分析结果的情况下,学习处理单元165执行生成用户话语与意图相关联的学习数据并将学习数据存储在存储单元170中的处理。
通过执行这样的学习处理,可以逐渐实现对大量用户话语的意图的准确理解。
此外,学习处理单元165还执行生成收集多个用户话语的“话语收集列表”并将该话语收集列表存储在存储单元170中的处理。
稍后将详细描述“话语收集列表”。
注意,不仅语音分析单元161的分析结果,而且图像分析单元162、传感器信息分析单元163和用户状态估计单元164生成的分析信息和估计信息也输入到学习处理单元165。
基于这样的输入信息,学习处理单元165掌握例如由信息处理装置10响应于用户话语而执行的处理的成功程度。在学习处理单元165确定已经成功执行处理的情况下,学习处理单元165执行生成学习数据并将学习数据存储在存储单元170中的处理或其他处理。
存储单元170存储用户话语的内容、基于用户话语的学习数据、要输出到图像输出单元(显示单元)122的显示数据等。
注意,显示数据包括由显示信息生成单元182生成的节点树、话语收集列表等。稍后将详细描述这些数据。
输出信息生成单元180包括输出语音生成单元181和显示信息生成单元182。
输出语音生成单元181基于作为语音分析单元161的分析结果的用户话语分析信息191生成对用户的响应。具体地,输出语音生成单元181根据作为语音分析单元161的分析结果的用户话语的意图来生成响应。
经由诸如扬声器等语音输出单元121输出由输出语音生成单元181生成的响应语音信息。
输出语音生成单元181还基于用户状态估计信息192执行改变要输出的响应的控制。
例如,在用户具有不满意和困惑的表情的情况下,输出语音生成单元181进行执行***话语(例如,“你有任何问题吗?”)的处理或其他处理。
显示信息生成单元182生成要在图像输出单元(显示单元)122上显示的显示数据,例如,节点树和话语收集列表。
稍后将详细描述这些数据。
注意,图3没有示出用于用户话语的处理执行功能,例如,用于执行用于播放运动图像的运动图像获取处理的配置和用于输出获取的运动图像的配置,这些配置已经在上面参考图1进行了描述。然而,也在数据处理单元150中配置这些功能。
[2.生成由信息处理装置输出的显示信息和话语收集列表的示例]
接下来,将描述生成由信息处理装置10输出的显示信息和话语收集列表的示例。
图4示出了要输出到信息处理装置10的图像输出单元(显示单元)122的显示数据的示例。
注意,图像输出单元(显示单元)122对应于如上所述的图1中的信息处理装置10的显示单元13,但是可以由例如投影仪等配置,并且还可以被配置为使用作为外部装置的电视的显示单元。
在图4的示例中,首先,用户发出以下用户话语,作为对信息处理装置10的呼叫。
用户话语=“嘿,Sonitaro。”
注意,“Sonitaro”是信息处理装置10的昵称。
响应于该呼叫,信息处理装置10做出以下***响应。
***响应=“您想做什么?这是你能做的。”
在信息处理装置10中,输出语音生成单元182生成上述***响应,并经由语音输出单元(扬声器)121输出***响应。
除了上述***响应的输出之外,信息处理装置10还在图像输出单元(显示单元)122上显示由显示信息生成单元182生成的图4的显示数据。
将描述图4所示的显示数据。
域对应节点树200是根据类型(域)对信息处理装置10响应于用户话语可执行的处理进行分类的树(树结构)数据,并且还示出了每个域的可接受的用户话语示例。
在图4的示例中,
游戏域,
媒体域,
设置域,以及
商店领域
被设置为域201,并且
照片域,
视频域,以及
音乐域
进一步显示为媒体域的子域。
可接受话语显示节点202进一步被设置为每个域的子节点。
稍后将参考图5和随后的附图描述可接受话语显示节点202的具体示例。
显示单元还在右上部分显示显示区域识别信息211。这是指示在显示单元上显示的域对应节点树200对应于整个树的哪一部分的信息。
显示单元还在右下部分显示登记的话语收集列表信息212。这是记录在信息处理装置10的存储单元170上的话语收集列表的列表数据。
话语收集列表是收集了一系列多个不同用户话语的列表。例如,在请求信息处理装置10连续执行两个或更多处理的情况下,使用话语收集列表。
稍后将详细描述话语收集列表。
图4中的状态转移到图5中的状态。
如图5所示,用户发出以下用户话语。
用户话语=“播放BGM。”
信息处理装置10执行用户话语的语音识别和语义分析,并且掌握用户意图是“播放”。
基于该用户话语分析信息,显示信息生成单元182更新显示单元上的显示数据,如图5所示。
图5的显示数据是显示数据,示出作为视频域和音乐域的子节点的处理类别显示节点203,并且进一步示出作为处理类别显示节点203的子节点的可接受话语显示节点202。
处理类别显示节点203是指示对应于每个域(视频、音乐、游戏等)的可执行处理的类别的节点。
可接受话语显示节点202被显示为处理类别显示节点203的子节点。
使信息处理装置10执行与在处理类别节点中显示的处理相关的处理的登记的用户话语,例如,在可接受话语显示节点202中显示命令。注意,该命令是使信息处理装置10执行用户话语中的一些处理的用户话语(=命令)。
如图5所示,
在可接受话语显示节点202中显示以下用户话语(=命令)的文本数据:
“快进十分钟”;
“回到起点”;以及
“播放昨天大家都看的运动图像。”
在可接受话语显示节点202中显示的那些用户话语是例如预先记录在存储单元170上的学习数据(记录了用户话语和意图之间的对应关系的学习数据)或者由学习处理单元165基于过去的用户话语学习和生成的学习数据,并且是记录在存储单元170上的数据。
当用户发出与可接受话语显示节点202匹配的话语时,信息处理装置10可以基于学习数据准确地掌握用户话语的意图,并根据用户话语安全地执行处理。
从用户的角度来看,当用户照原样读出显示在显示单元上的可接受话语显示节点202时,用户可以确信信息处理装置10执行了用户想要的处理,并且因此可以无焦虑地发出话语。
注意,在可接受话语显示节点202中显示的字符串是作为学习数据记录的字符串。然而,即使在用户发出包括与该字符串不匹配的字符串的话语的情况下,信息处理装置10的语音分析单元161也通过参考包括接近字符串的学习数据来估计用户话语的意图。因此,当用户发出接近显示数据的话语时,信息处理装置10可以根据用户话语执行准确的处理。
在显示单元上显示图5的显示数据。接下来,将参考图6进行描述。
如图6所示,用户发出以下用户话语。
用户话语=“播放80年代的歌曲。”
信息处理装置10执行用户话语的语音识别和语义分析,并且掌握用户的意图是“播放80年代的歌曲”。
基于该用户话语分析信息,信息处理装置10执行处理(播放80年代的歌曲)。
注意,要播放的歌曲从例如连接到网络的服务器(提供音乐内容的服务提供服务器)获取。
此外,如图6所示,显示信息生成单元182更新显示单元上的显示数据。
在图6的显示数据中,
以下节点被突出显示为突出显示节点221:
“播放1999年的歌曲”,这是一个可接受的话语显示节点202。
用户话语=“播放80年代的歌曲”
类似于在节点中的话语数据“播放1999年的歌曲”,这是已经作为学习数据记录的话语,并且
信息处理装置10的语音分析单元161可以通过参考记录了话语数据“播放1999年的歌曲”的学习数据来执行准确的语音识别和语义分析,因此可以安全地掌握用户的意图是“播放80年代的歌曲”。即,可以获得“80年代”,作为一个年龄实体,结果,播放80年代的歌曲。
当掌握了用户话语的意图时,信息处理装置10的显示信息生成单元182突出显示以下节点作为突出显示节点221:
节点=“播放1999年的歌曲”,这是具有类似意图的一个可接受话语显示节点202。
通过查看该显示,用户可以确信已经正确地解释了用户话语。
此外,如图6所示,
可以掌握对信息处理装置10的理解程度,并确定其他可用的话语,从以下话语中可以看出:
{执行了该处理。很好!我想我可以通过改变“1999”这个部分来表达各种意思}
接下来,将参考图7进行描述。
如图7所示,用户发出以下用户话语。
用户话语=“播放收藏列表”
信息处理装置10执行用户话语的语音识别和语义分析,并且掌握用户意图是“播放收藏列表”。
基于该用户话语分析信息,信息处理装置10执行处理(播放收藏列表)。
注意,要播放的收藏列表和歌曲从例如连接到网络的服务器(提供音乐内容的服务提供服务器)获取。
此外,如图7所示,显示信息生成单元182更新显示单元上的显示数据。
在图7的显示数据中,
以下节点被突出显示为突出显示节点221:
“播放收藏列表”,这是一个可接受的话语显示节点202。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我正在播放您最喜欢的歌曲。”
注意,在响应于用户话语的处理的执行期间(在歌曲的播放期间),输入数据分析单元160的语音分析单元161、图像分析单元162、传感器信息分析单元163和用户状态估计单元164基于用户话语、图像、传感器信息等来估计用户的状态(用户是否满意等),并将该估计信息输出到学习处理单元165。学习处理单元165基于该信息执行诸如生成、更新或丢弃学习数据等处理。
例如,在估计用户满意的情况下,学习处理单元165确定已经正确执行了对意图的掌握和响应于用户话语的处理的执行,生成并更新学习数据,并将学习数据存储在存储单元170中。
在估计用户不满意的情况下,学习处理单元165确定没有正确执行对意图的掌握和响应于用户话语的处理的执行,并且不生成或更新学习数据。或者,例如,学习处理单元165丢弃生成的学习数据。
接下来,将参考图8进行描述。
如图8所示,用户发出以下用户话语。
用户话语=“添加Souzan”
注意,“Souzan”被认为是一个著名的艺术家的名字。
假设信息处理装置10执行用户话语的语音识别和语义分析,但是不能解释用户意图。
这种不能解释用户意图的话语称为“域外话语”(OOD话语)。
注意,其用户意图可解释并且可由信息处理装置10执行的用户话语称为“域内(话语)”。
当信息处理装置10接收到这种OOD话语的输入时,输出语音生成单元181生成查询响应,并经由语音输出单元121输出查询响应。即,如图8所示,输出语音生成单元181生成并输出以下***响应。
***回应=“对不起,我不懂“Souzan”。你能再说一遍吗?”
此外,如图8所示,显示信息生成单元182在显示单元的右下方显示以下指南信息222。
指南信息=我不懂“添加Souzan”。你可以在十秒钟内复述一遍。
在该显示之后,信息处理装置10等待10秒。
接下来,将参考图9进行描述。
如图9所示,用户发出下面的用户话语,作为被视为OOD话语的“添加Souzan”的重述话语。
用户话语(重述)=“播放昨天的Souzan歌曲。”
信息处理装置10执行用户话语的语音识别和语义分析,并且
掌握被视为OOD话语的“添加Souzan”的用户意图是“播放Souzan歌曲”,这与“播放昨天的Souzan歌曲”的意图相似。
学习处理单元165将掌握意图的结果作为学习数据存储在存储单元170中。
此外,信息处理装置10的输出语音生成单元181生成并输出以下***响应。
***响应=“好的,我学会了“添加Souzan””。
此外,如图9所示,显示信息生成单元182更新显示单元上的显示数据。
添加指示已经成功掌握其意图的用户话语的节点,作为额外节点231,并且进一步显示指示已经执行学习的指南信息232。
注意,如上所述,学习处理单元165基于从输入数据分析单元160的语音分析单元161、图像分析单元162、传感器信息分析单元163和用户状态估计单元164输入的信息估计的用户状态(用户是否满意等),执行诸如生成、更新和丢弃学习数据等处理。
即,在估计用户满意的情况下,学习处理单元165确定已经正确执行了对意图的掌握和响应于用户话语的处理的执行,生成并更新学习数据,并将学习数据存储在存储单元170中。在估计用户不满意的情况下,学习处理单元165确定没有正确执行对意图的掌握和响应于用户话语的处理的执行,并且不生成或更新学习数据。或者,学习处理单元165丢弃生成的学习数据。
接下来,将参考图10进行描述。
用户接下来想要玩游戏,并发出以下用户话语。
用户话语=“显示我可以在游戏中使用的命令(话语)”
注意,命令是使信息处理装置10执行如上所述的一些处理的用户话语(=命令)。
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析。基于该分析结果,显示信息生成单元182更新显示单元上的显示数据,如图10所示。
如图10所示,示出了显示对应于游戏域设置的可接受话语显示节点202(=可接受命令节点)的树区域。
用户认为他/她想和他/她的朋友一起玩游戏,并从可接受话语显示节点202(=可接受命令节点)中搜索最佳话语(命令)。
用户找到以下节点:
节点=“向我的朋友发送邀请”,并且
发出在节点中显示的话语。
如图11所示,用户发出以下用户话语。
用户话语=“向我的朋友发送邀请。”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析,并且基于其结果,信息处理装置10执行处理(向朋友发送邀请电子邮件)。
注意,对朋友的邀请电子邮件例如直接从信息处理装置10发送,或者经由连接到网络的服务器(提供游戏的服务提供服务器)发送。
此外,如图11所示,显示信息生成单元182更新显示单元上的显示数据。
当掌握了用户话语的意图时,信息处理装置10的显示信息生成单元182突出显示以下节点:
节点=“向我的朋友发送邀请”,这是具有类似意图的一个可接受话语显示节点202。
通过查看该显示,用户可以确信已经正确地解释用户话语。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我向你的普通游戏朋友发出了邀请。”
接下来,将参考图12进行描述。
用户想要在玩游戏的同时播放运动图像,并发出以下用户话语。
用户话语=“播放昨天大家都看过的运动图像。”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析。基于该分析结果,信息处理装置10执行处理(播放运动图像)。
注意,从例如连接到网络的服务器(提供运动图像内容的服务提供服务器)获取要播放的运动图像。
此外,如图12所示,显示信息生成单元182更新显示单元上的显示数据。
如图12所示,突出显示了以下节点:
节点=“播放昨天大家都看的运动图像”,这是视频域的一个可接受话语显示节点,即对应于用户话语的节点。
通过查看该显示,用户可以确信已经正确地解释用户话语。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我正在播放大家昨天都看过的喜剧运动图像。”
接下来,将参考图13进行描述。
在图13中,用户如下思考。即,用户认为
{我以前可以执行这些处理,但是我不知道我是否还能再做同样的事情(四件事),我也不介意去做}。
这四件事是对应于以下四个用户话语的处理:
(1)“播放收藏列表”(图7);
(2)“添加Souzan”(图8);
(3)“向我的朋友发出邀请。”(图11);并且
(4)“播放大家昨天都看过的运动图像。”(图12)。
此时,信息处理装置10的输入数据分析单元160分析用户担心某事并且似乎不满意。即,基于从语音分析单元161、图像分析单元162和传感器信息分析单元163输入的信息,用户状态估计单元164生成指示用户担心某事并且似乎不满意的用户状态估计信息192,并且将用户状态估计信息输出到输出信息生成单元180。
输出信息生成单元180的输出语音生成单元181响应于用户状态估计信息192的输入,生成并输出以下***话语。
***话语=“我可以一起记录从‘播放收藏列表’到“播放大家昨天都看过的运动图像”的话语。
接下来,将参考图14进行描述。
如图14所示,用户响应于***话语发出以下用户话语。
用户话语=“记住这个操作。”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析。基于分析结果,信息处理装置10执行处理(生成“话语收集列表”的处理)。此外,显示信息生成单元182更新显示单元上的显示数据,如图14所示。
如图14所示,显示单元显示话语收集列表231,其中,收集并列出多个话语。
“话语收集列表”是列出了多个用户话语(命令)的数据。
即,记录在“话语收集列表”中的用户话语是对应于处理用户向信息处理装置10做出的请求的命令的用户话语。
在学习处理单元165中生成“话语收集列表”。
响应用户话语=“记住这个操作。”
学习处理单元165生成话语收集列表,其中,收集以下四个用户话语,作为列表,并且将该列表作为一条学习数据存储在存储单元170中:
这四件事是对应于以下四个用户话语的处理:
(1)“播放收藏列表”(图7);
(2)“添加Souzan”(图8);
(3)“向我的朋友发出邀请。”(图11);并且
(4)“播放大家昨天都看过的运动图像”(图12)。
例如,在用户发出包括在存储单元170中存储的“话语收集列表”中的用户话语的情况下,或者在用户指定存储单元170中存储的“话语收集列表”并发出话语,以请求处理的情况下,信息处理装置10根据记录在“话语收集列表”中的用户话语依次执行处理。
当在学习处理单元165中生成“话语收集列表”时,如图14所示,显示信息生成单元182在显示单元上显示生成的“话语收集列表”231。
当用户发出话语,以从下一次开始指定“话语收集列表”231时,用户可以使信息处理装置一起执行记录在指定列表中的多个处理。
将参考图15描述使用生成的话语收集列表的处理示例。
[3.使用话语收集列表的处理示例]
接下来,将描述使用话语收集列表的处理示例。
将描述使用通过以上参考图14描述的处理生成的“话语收集列表”231的处理示例。
首先,当信息处理装置10开始时,信息处理装置10的显示单元显示图15所示的初始屏幕。
这与上面参考图4描述的显示数据相同。
如图15所示,首先,用户发出以下用户话语,作为对信息处理装置10的呼叫:
用户话语=“嘿,Sonitaro。”
响应于该呼叫,信息处理装置10做出以下***响应。
***响应=“您想做什么?这是你能做的。”
除了上述***响应的输出之外,信息处理装置10还在图像输出单元(显示单元)122上显示由显示信息生成单元182生成的图15的显示数据。
图15的显示数据是示出上面参考图4描述的域对应节点树200的数据。
用户在查看显示数据时会有如下想法。
{我想做和前天一样的事情...我该怎么办?我不记得了...}
注意,假设参考图14描述的“话语收集列表”231是前天生成的。
接下来,将参考图16进行描述。
如图16所示,用户发出以下用户话语。
用户话语=“显示前天收集的话语收集列表”
信息处理装置10执行用户话语的语音识别和语义分析,并且掌握用户意图是“显示前天生成的话语收集列表的请求”。
基于该用户话语分析信息,信息处理装置10的显示信息生成单元182在显示单元上显示“话语收集列表”231。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“好的,这是前天收集的话语收集列表。”
通过查看在显示单元上显示的话语收集列表231,用户可以再次确认前天执行的一系列四个话语和处理。
接下来,将参考图17进行描述。
在图17中,用户依次发出与在显示单元上显示的话语收集列表231中记录的话语相似的话语。即,用户依次发出以下话语:
(1)“播放收藏列表”;
(2)“添加Souzan”;
(3)“向我的朋友发出邀请”;并且
(4)“播放大家昨天都看过的运动图像。”,
因此,可以使信息处理装置10安全地执行与前天执行的处理完全相同的处理。
或者,代替依次发出那些话语,用户可以发出一个以下话语:
用户话语=“处理话语收集列表(2)”;并且
用户话语=“处理显示的话语收集列表”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析。基于分析结果,信息处理装置10执行处理(“话语收集列表(2)”的处理)。即,信息处理装置10依次执行与记录在话语收集列表中的多个用户话语相对应的处理。
注意,信息处理装置10的显示信息生成单元182根据信息处理装置10中的处理的执行状态来改变在显示单元上显示的话语收集列表231的显示模式。
具体地,显示信息生成单元182执行突出显示列表中与信息处理装置10当前执行的处理相对应的节点(可接受话语显示节点)的处理。
将参考图18和随后的附图描述该突出显示处理。
首先,信息处理装置10首先基于对应于以下节点的用户话语开始处理(播放收藏列表的处理):
节点=“播放收藏列表”,这是记录在话语收集列表231中的第一节点。
如图18所示,显示信息生成单元182突出显示记录在话语收集列表231中并且当前由信息处理装置10执行的节点,即,以下节点:
节点=“播放收藏列表”。
通过查看突出显示,用户可以确认信息处理装置10正在正确执行播放收藏列表的处理。
接下来,将参考图19进行描述。
如图19所示,信息处理装置10基于对应于以下节点的用户话语开始处理(播放Souzan):
节点=“添加Souzan”,这是记录在话语收集列表231中的第二节点。
然后,如图19所示,显示信息生成单元182突出显示记录在话语收集列表231中并且当前由信息处理装置10执行的节点,即,以下节点:
节点=“添加Souzan”。
通过查看突出显示,用户可以确认信息处理装置10正在正确地执行播放Souzan的处理。
接下来,将参考图20进行描述。
如图20所示,信息处理装置10基于对应于以下节点的用户话语开始处理(向朋友发送邀请电子邮件):
节点=“向我的朋友发送邀请”,这是记录在话语收集列表231中的第三节点。
然后,如图20所示,显示信息生成单元182突出显示记录在话语收集列表231中并且当前由信息处理装置10执行的节点,即,以下节点:
节点=“向我的朋友发送邀请”
通过查看突出显示,用户可以确认信息处理装置10正在正确执行向朋友发送邀请电子邮件的处理。
接下来,将参考图21进行描述。
如图20所示,信息处理装置10基于对应于以下节点的用户话语开始处理(播放昨天大家都看过的运动图像):
节点=“播放昨天大家都看过的运动图像”,这是记录在话语收集列表231中的第四节点。
然后,如图20所示,显示信息生成单元182突出显示记录在话语收集列表231中并且当前由信息处理装置10执行的节点,即,以下节点:
节点=“播放昨天大家都看的运动图像”。
通过查看突出显示,用户可以确认信息处理装置10正在正确执行播放昨天大家都看过的运动图像的处理。
“话语收集列表”可以由用户自由创建,并且可以通过使用创建的列表来执行处理,使得信息处理装置10一次或依次安全地执行多个处理。
此外,也可以使用由另一用户创建的“话语收集列表”。
图22示出了显示由作为另一用户的用户ABC生成的话语收集列表232的示例。
用户发出以下用户话语。
用户话语=“显示ABC先生的公开话语收集列表”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析,并且基于其结果,信息处理装置10执行处理(获取并显示ABC先生的公开话语收集列表)。
如图22所示,显示信息生成单元182更新显示单元上的显示数据。
即,显示ABC先生的公开话语收集列表232。
例如,大量用户的话语收集列表存储在信息处理装置10可访问的服务器的存储单元中。
对于每个话语收集列表,可以设置是否公开话语收集列表,并且可以响应于来自另一用户的请求,仅仅获取和显示被设置为“公开”的列表。
如图22所示,在显示单元上显示的另一用户的公开话语收集列表此后存储在存储单元170中,作为呼叫该列表的用户可以随时使用的列表。
此外,如图23所示,还可以例如获取、显示和使用网络公开话语收集列表233,该网络公开话语收集列表233是由纯游戏服务器管理的纯游戏网络生成的公开话语收集列表。
此外,如图24所示,还可以例如获取、显示和使用博客公开话语收集列表234,该博客公开话语收集列表234是在博客中公开的公开话语收集列表。
[4.显示和生成话语收集列表的其他示例]
接下来,将描述与上述实施方式不同的显示和生成话语收集列表的其他处理示例。
将参考图25和随后的附图描述这些处理示例。
图25示出了当信息处理装置10开始时在信息处理装置10的显示单元上显示的初始屏幕。
这与上面参考图4描述的显示数据相同。
如图25所示,首先,用户发出以下用户话语,作为对信息处理装置10的呼叫。
用户话语=“嘿,Sonitaro。”
响应于该呼叫,信息处理装置10做出以下***响应。
***响应=“您想做什么?这是你能做的。”
除了上述***响应的输出之外,信息处理装置10还在图像输出单元(显示单元)122上显示由显示信息生成单元182生成的图15的显示数据。
图15的显示数据是示出上面参考图4描述的域对应节点树200的数据。
用户在查看显示数据时会有如下想法。
{我想做和前天一样的事情...一开始我说了什么?哦,我告诉Sonitaro播放收藏列表!}
接下来,将参考图26进行描述。
如图26所示,用户发出以下用户话语。
用户话语=“播放收藏列表”
信息处理装置10执行用户话语的语音识别和语义分析,并且掌握用户意图是“播放收藏列表的请求”。
此外,信息处理装置10的学习处理单元165输入该语音分析结果,并且
进行搜索,以确定登记了以下用户话语的“话语收集列表”是否存储在存储单元170中:
用户话语=“播放收藏列表”。
结果,检测到上面参考图14描述的“话语收集列表”存储在存储单元170中。即,检测到记录了以下用户话语的“话语收集列表”存储在存储单元170中:
(1)“播放收藏列表”;
(2)“添加Souzan”;
(3)“向我的朋友发出邀请”;并且
(4)“播放大家昨天都看过的运动图像。”。
基于检测结果,信息处理装置10的显示信息生成单元182执行在显示单元上显示存储在存储单元170中的“话语收集列表”的处理。
首先,如图26所示,显示信息生成单元182开始移动与记录在“话语收集列表”中的用户话语相对应的节点,即,图26中的话语收集列表对应节点241。
然后,如图27所示,显示包括那些节点的话语收集列表242。
通过查看该显示,用户可以确认存在“话语收集列表”242,该列表包括先前发出的用户话语,即以下用户话语:
用户话语=“播放收藏列表”
此外,通过参考显示的“话语收集列表”242,用户可以使信息处理装置10安全地执行与先前已经执行的一系列多个处理完全相同的处理。
此外,将参考图28和随后的附图描述信息处理装置10的学习处理单元165自发地确定是否执行生成话语收集列表的处理并执行生成话语收集列表的处理的示例。
首先,如图28所示,用户发出以下用户话语。
用户话语=“播放生日快乐”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析,并且掌握用户意图是“播放生日快乐的请求”。
基于该用户话语分析信息,信息处理装置10执行处理(播放生日快乐)。此外,显示信息生成单元182更新显示单元上的显示数据,如图28所示。
在图28的显示数据中,
以下节点被突出显示为突出显示节点221:
“播放生日快乐”,这是一个可接受的话语显示节点202。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我在播放生日快乐。”
然后,如图29所示,用户发出以下用户话语。
用户话语=“播放使用该歌曲的电影。”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析,并且掌握用户意图是“播放使用生日快乐的电影的请求”。
基于该用户话语分析信息,信息处理装置10执行处理(播放使用生日快乐的电影)。此外,显示信息生成单元182更新显示单元上的显示数据,如图29所示。
在图29的显示数据中,
以下节点被突出显示为突出显示节点221:
“播放使用“生日快乐”的电影”,这是一个可接受的话语显示节点202。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我将播放电影幸福生活。”
此外,在图30中,信息处理装置10的学习处理单元165验证用户话语的历史。
用户话语=“播放生日快乐”
用户话语=“播放使用该歌曲的电影。”
学习处理单元165确认在这两个用户话语之间,第二用户话语包括第一用户话语的指示词“该”,并且确定这两个用户话语具有强关系。
基于关系的确定,学习处理单元165确定应当生成包括两个用户话语的话语收集列表。
如图30所示,即使没有来自用户的明确请求,信息处理装置10也输出以下***话语。
***话语=“我可以一起记录从‘播放生日快乐’到‘播放使用该歌曲的电影’的话语。”
接下来,将参考图31进行描述。
如图31所示,用户响应于***话语发出以下用户话语。
用户话语=“记住这个操作。”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析。基于分析结果,信息处理装置10执行处理(生成“话语收集列表”的处理)。此外,显示信息生成单元182更新显示单元上的显示数据,如图31所示。
如图31所示,显示单元显示话语收集列表261,其中,收集并列出多个话语。
图31的“话语收集列表”261是收集以下两种用户话语的列表:
用户话语=“播放生日快乐”;并且
用户话语=“播放使用该歌曲的电影”。
在学习处理单元165中生成“话语收集列表”。
响应于用户话语=“记住这个操作。”
学习处理单元165生成话语收集列表,其中,收集以下两个用户话语,作为列表,并且将该列表作为一条学习数据存储在存储单元170中:
(1)“播放生日快乐”;并且
(2)“播放使用该歌曲的电影”。
用户可以稍后通过使用话语收集列表安全地执行相同的一系列处理。
参考图28至31描述的处理是
处理示例,其中,确认在以下两个用户话语之中,第二用户话语包括第一用户话语的指示词“该”:
第一用户话语:“播放生日快乐。”;并且
第二用户话语:“播放使用该歌曲的电影”,并且
确定这两个用户话语具有强关系,作为确定的结果,生成话语收集列表。
接下来,将参考图32和随后的附图描述在两个用户话语的顺序不同的情况下生成话语收集列表的处理示例,即,在首先做出播放电影的请求并且之后做出播放电影中使用的歌曲的请求的情况下。
首先,如图32所示,用户发出以下用户话语。
用户话语=“播放幸福生活”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析,并且掌握用户意图是“播放电影幸福生活的请求”。
基于该用户话语分析信息,信息处理装置10执行处理(播放电影幸福生活)。此外,显示信息生成单元182更新显示单元上的显示数据,如图32所示。
在图32的显示数据中,
以下节点被突出显示为突出显示节点221:
“播放幸福生活”,这是一个可接受的话语显示节点202。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我将播放电影幸福生活。”
然后,如图33所示,用户发出以下用户话语。
用户话语=“播放该电影中的主题曲。”
首先,信息处理装置10的图像分析单元162分析用户的视线信息,并确认用户正在查看电影幸福生活。此外,语音分析单元161执行用户话语的语音识别和语义分析,并且掌握用户意图是“请求播放电影幸福生活中的主题曲”。
基于该用户话语分析信息,信息处理装置10执行处理(播放电影幸福生活=生日快乐中的主题曲)。此外,显示信息生成单元182更新显示单元上的显示数据,如图33所示。
在图33的显示数据中,
以下节点被突出显示为突出显示节点221:
“播放生日快乐”,这是一个可接受的话语显示节点202。
此外,信息处理装置10的输出语音生成单元181生成以下***响应,并经由语音输出单元121输出***响应。
***响应=“我在播放生日快乐。”
此外,在图34中,信息处理装置10的学习处理单元165验证用户话语的历史。
用户话语=“幸福生活”
用户话语=“播放这个电影中的主题曲。”
学习处理单元165确认在这两个用户话语之中,第二用户话语包括第一用户话语的指示词“这个”。
此外,学习处理单元165基于图像分析单元162的分析结果确认用户正在查看电影幸福生活,并且确定上述两个用户话语具有强关系。
基于关系的确定,学习处理单元165确定应当生成包括两个用户话语的话语收集列表。
如图34所示,即使没有来自用户的明确请求,信息处理装置10也输出以下***话语。
***话语=“我可以一起记录从‘幸福生活’到‘播放该电影中的主题曲’的话语”。
接下来,将参考图35进行描述。
如图35所示,用户响应于***话语发出以下用户话语。
用户话语=“记住这个操作。”
信息处理装置10的语音分析单元161执行用户话语的语音识别和语义分析。基于分析结果,信息处理装置10执行处理(生成“话语收集列表”的处理)。此外,显示信息生成单元182更新显示单元上的显示数据,如图35所示。
如图35所示,显示单元显示话语收集列表262,其中,收集并列出多个话语。
图35的“话语收集列表”262是收集以下两个用户话语的列表:
用户话语=“幸福生活”;并且
用户话语=“播放生日快乐”。
在学习处理单元165中生成“话语收集列表”。
响应用户话语=“记住这个操作。”
学习处理单元165生成话语收集列表,其中,收集以下两个用户话语,作为列表,并且将该列表作为一条学习数据存储在存储单元170中:
(1)“播放生日快乐”;并且
(2)“播放使用这个歌曲的电影”。
通过使用该话语收集列表,用户可以稍后安全地执行相同的一系列处理。
如上所述,本公开的信息处理装置10的学习处理单元165根据各种条件生成话语收集列表。
学习处理单元165生成话语收集列表并将话语收集列表存储在存储单元170中的处理的执行示例例如如下。
(1)学习处理单元165询问用户是否生成话语收集列表,在用户同意的情况下生成话语收集列表,并将话语收集列表存储在存储单元170中。
(2)在学习处理单元165确定已经成功执行了对应于多个用户话语的多个处理的情况下,学习处理单元165生成话语收集列表并将该话语收集列表存储在存储单元170中。
(3)在多个用户话语的组合等于或大于预定阈值次数的情况下,学习处理单元165生成话语收集列表,并将该话语收集列表存储在存储单元170中。
例如,在阈值被设置为三次、并且以下两种用户话语的组合:
用户话语=“播放收藏列表”;并且
用户话语=“显示喜剧电影”
被输入三次的情况下,学习处理单元165生成包括上述两个话语的组合的话语收集列表,并将该话语收集列表存储在存储单元170中。
(4)学习处理单元165分析指示包括在多个用户话语中的话语之间的关系的指示词的存在或不存在,基于分析结果生成话语收集列表,并将话语收集列表存储在存储单元170中。
这对应于上面参考图28至31描述的处理示例。
(5)学习处理单元165响应于用户话语,分析关于由信息处理装置10执行的处理的用户状态,基于分析结果生成话语收集列表,并将话语收集列表存储在存储单元170中。
如上所述,输入数据分析单元160的语音分析单元161、图像分析单元162、传感器信息分析单元163和用户状态估计单元164基于用户话语、图像、传感器信息等来估计用户的状态(用户是否满意等),并将该估计信息输出到学习处理单元165。学习处理单元165基于该信息执行诸如学习数据的生成、更新或丢弃等处理。
例如,在估计用户满意的情况下,学习处理单元165确定已经正确执行了对意图的掌握和响应于用户话语的处理的执行,生成并更新学习数据,并将学习数据存储在存储单元170中。
在估计用户不满意的情况下,学习处理单元165确定没有正确执行对意图的掌握和响应于用户话语的处理的执行,并且不生成或更新学习数据。或者,例如,学习处理单元165丢弃生成的学习数据。
(6)学习处理单元165根据上下文信息选择要收集的用户话语,生成话语收集列表,并将该话语收集列表存储在存储单元170中。
这是一个示例,其中,基于例如由输入数据分析单元160的语音分析单元161、图像分析单元162和传感器信息分析单元163从分析结果获得的指示用户状态的上下文信息来执行诸如学习数据的生成、更新或丢弃等处理,这类似于上述示例。
例如,学习处理单元165根据用户的状态,例如,用户正在烹饪的状态、用户正在玩游戏的状态以及用户正在听音乐的状态,仅选择估计为用户需要的处理,生成话语收集列表,并将话语收集列表存储在存储单元170中。
注意,上下文信息不限于用户的行为信息,并且可以是各种环境信息,例如,时间信息、天气信息和位置信息。
例如,在时间段是白天的情况下,学习处理单元165生成仅包括对应于对可能在白天执行的处理的请求的用户话语的列表。
例如,在时间段是晚上的情况下,学习处理单元165生成仅包括对应于对可能在晚上执行的处理的请求的用户话语的列表。
[5.由信息处理装置执行的处理序列]
接下来,将参考图36和随后的附图中的流程图来描述信息处理装置10执行的处理序列。
根据例如存储在信息处理装置10的存储单元中的程序来执行根据图36和随后的附图中的流程图的处理。例如,这些处理可由具有程序执行功能的处理器(例如,CPU)作为程序执行处理来执行。
首先,将参考图36的流程图描述由信息处理装置10执行的处理的整体序列。
将描述图36的流程中各个步骤中的处理。
(步骤S101)
首先,在步骤S101中,信息处理装置10输入并分析语音、图像和传感器信息。
该处理是由图3的信息处理装置10的输入单元110和输入数据分析单元160执行的处理。
在步骤S101中,执行用户话语语音的语音识别和语义分析,以获取用户话语的意图,并且进一步获取基于用户话语语音、图像、传感器信息等的用户状态(用户是否满意等)。
稍后将参考图37中的流程描述该处理的细节。
(步骤S102至S103)
然后,在步骤S102至S103中,信息处理装置10分析用户话语(命令(处理请求))的内容,并确定对应于用户话语的处理是可执行(在域中)还是不可执行(在域之外:OOD)。
在处理不可执行的情况下(在域之外(OOD),处理终止。
注意,此时,可以通知用户不能执行该处理,或者可以给用户提供请求重述的***响应。
同时,在确定对应于用户话语的处理是可执行的情况下(在域中),处理进行到步骤S104。
(步骤S104)
然后,在步骤S104中,信息处理装置10将被确定为可执行的用户话语记录在存储单元170上(在域中)。
(步骤S105)
然后,在步骤S105中,信息处理装置10在显示在图像输出单元(显示单元)122上的域对应节点树中突出显示对应于用户话语的节点。
例如,这是上面参考图7描述的显示突出显示节点221的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
(步骤S106)
然后,在步骤S106中,信息处理装置10执行对应于用户话语的处理,即,对应于在步骤S105中突出显示的节点的处理。
具体地,例如,在图7的示例中,用户话语是
用户话语=“播放收藏列表”
从而播放包括在预先登记的用户收藏列表中的歌曲。
注意,从例如连接到网络的服务器(提供音乐内容的服务提供服务器)获取要播放的收藏列表和歌曲。
(步骤S107至S108)
然后,在步骤S107至S108中,信息处理装置10基于从输入信息(语音、图像和传感器信息)的分析结果估计的用户状态(满意、不满意等),估计是否已经成功执行对应于用户话语(命令)的处理,并且基于估计结果确定是否执行收集多个话语的处理。
这是由图3中的信息处理装置10的学习处理单元165执行的处理。
即,学习处理单元165生成参考图14等描述的话语收集列表,并将该话语收集列表存储在存储单元170中。
在例如满足以下条件的情况下:即,
(1)在指定时间内以一定间隔输入多个用户话语(命令),
例如,如参考图13所述,学习处理单元165输出指示可以生成“话语收集列表”的***话语。
此外,在用户同意的情况下,如图14所示,确定生成了“话语收集列表”(步骤S108=是),并且处理进行到步骤S109。
同时,在用户不同意的情况下,确定没有生成“话语收集列表”(步骤S108=否),并且处理终止。
(步骤S109)
在步骤S108中确定生成了“话语收集列表”(步骤S108=是)并且处理进行到步骤S109的情况下,信息处理装置10的学习处理单元165生成“话语收集列表”。
具体地,这是例如图14的话语收集列表231。
图14的示例示出了话语收集列表,其中,收集以下四个用户话语,作为列表:
(1)“播放收藏列表”;
(2)“添加Souzan”;
(3)“向我的朋友发出邀请”;并且
(4)“播放大家昨天都看过的运动图像。”
信息处理装置10的学习处理单元165将列表作为一条学习数据存储在存储单元170中。
在学习处理单元165生成“话语收集列表”的情况下,如图14所示,显示信息生成单元182在显示单元上显示生成的“话语收集列表”。
当用户发出话语,以从下一次开始指定“话语收集列表”231时,用户可以使信息处理装置一起执行记录在指定列表中的多个处理。
例如,在用户发出包括在存储单元170中存储的“话语收集列表”中的用户话语的情况下,或者在用户指定存储单元170中存储的“话语收集列表”并发出话语以请求处理的情况下,信息处理装置10根据记录在“话语收集列表”中的用户话语依次执行处理。
接下来,将参考图37的流程图描述图36的流程图中的步骤S101中的处理的细节,即,
输入和分析语音、图像和传感器信息的处理的细节。
该处理是由图3的信息处理装置10的输入单元110和输入数据分析单元160执行的处理。
在步骤S101中,执行用户话语语音的语音识别和语义分析,以获取用户话语的意图,并且进一步获取基于用户话语语音、图像、传感器信息等的用户状态(用户是否满意等)。
输入单元110包括语音输入单元(麦克风)111、图像输入单元(相机)112和传感器113,并且获取用户话语语音、用户图像和传感器获取信息(用户的视线、体温、心率、脉搏和脑电波等)。
输入数据分析单元160的语音分析单元161、图像分析单元162、传感器信息分析单元163和用户状态估计单元164执行输入数据的分析。
将描述图37的流程中的各个步骤中的处理。
(步骤S201)
首先,在步骤S201中,输入单元110的语音输入单元(麦克风)111、图像输入单元(相机)112和传感器113获取用户话语语音、用户图像和传感器获取信息(用户的视线、体温、心率、脉搏和脑电波等)。
在步骤S202和S204中,处理由语音输入单元(麦克风)111获取的语音信息。
在步骤S206和S207中处理由图像输入单元(相机)112获取的图像信息。
在步骤S208中,处理由传感器113获取的传感器信息。
这些处理可以并行执行。
(步骤S202至S203)
步骤S202至S203是由语音分析单元161执行的处理。
例如,在步骤S202中,语音分析单元161通过自动语音识别(ASR)功能将语音数据转换成包括多个单词的文本数据。
此外,在步骤S203中,语音分析单元161对文本数据执行话语语义分析处理。例如,语音分析单元161通过应用诸如自然语言理解(NLU)等自然语言理解功能,从文本数据中估计用户话语的意图和作为话语中包括的有意义元素(重要元素)的实体。
通过使用该语义分析的结果来执行图36的流程中的步骤S102中的处理。
(步骤S204至S205)
步骤S204至S205中的处理也是由语音分析单元161执行的处理。
语音分析单元161基于用户的语音获取用户情绪分析处理所需的信息(非语言信息),并将获取的信息输出到用户状态估计单元164。
非语言信息例如是从除文本数据之外的用户语音获得的信息,例如,语音的音高、音调、语调和颤抖,并且是可以用于分析用户状态的信息,例如,兴奋状态或紧张状态。该信息输出到用户状态估计单元164。
(步骤S206)
步骤S206中的处理是由图像分析单元162执行的处理。
图像分析单元162分析由图像输入单元112捕捉的用户的面部表情、手势等,并将分析结果输出到用户状态估计单元164。
(步骤S207)
步骤S207中的处理是由图像分析单元162或传感器信息分析单元163执行的处理。
图像分析单元162或传感器信息分析单元163基于由图像输入单元112捕捉的用户图像或传感器信息来分析用户的视线。
具体地,例如,图像分析单元162或传感器信息分析单元163获取视线信息等,用于分析对信息处理装置10执行的处理的关注程度,例如,用户是否正在查看信息处理装置10已经开始播放的运动图像。该信息输出到用户状态估计单元164。
(步骤S208)
步骤S208中的处理是由传感器信息分析单元163执行的处理。
传感器信息分析单元163获取由传感器113获取的信息(用户的视线、体温、心率、脉搏、脑电波等),并将获取的信息输出到用户状态估计单元164。
(步骤S210)
步骤S210中的处理是由用户状态估计单元164执行的处理。
用户状态估计单元164接收以下数据的输入,估计用户的状态,并生成图3的用户状态估计信息192:
语音分析单元161的分析结果,即,基于用户的语音的用户情感分析处理所需的信息(非语言信息);
图像分析单元162的分析结果,即分析信息,例如,用户的面部表情、手势和视线信息;以及
传感器信息分析单元163的分析结果,即,用户的诸如视线、体温、心率、脉搏和脑电波等数据。
稍后在图36的流程中的步骤S102的处理和步骤S107的处理中使用该信息。
注意,由用户状态估计单元164生成的用户状态估计信息192具体是例如估计用户是否满意的信息,即用户是否满意信息处理装置对用户话语执行的处理。
在估计用户满意的情况下,估计由信息处理装置响应于用户话语执行的处理是正确的,即,已经成功执行该处理。
学习处理单元165对用户话语执行学习处理,并将学习数据存储在存储单元170中。例如,在输入新的用户话语并且用户话语的意图未知的情况下,基于与装置的后续交互来分析意图,学习处理单元165执行生成用户话语与意图相关联的学习数据并将学习数据存储在存储单元170中的处理。
通过执行这样的学习处理,可以逐渐实现对用户话语意图的准确掌握。
此外,在上述图36的步骤S107中,学习处理单元165还执行生成收集多个用户话语的“话语收集列表”并将该话语收集列表存储在存储单元170中的处理。
接下来,将参考图38的流程图描述示出显示和使用话语收集列表的处理的示例的序列。
将依次描述图38中的流程图的各个步骤中的处理。
(步骤S301至S304)
步骤S301至S304中的处理类似于上面参考图36的流程描述的步骤S101至S104中的处理。
即,首先,在步骤S301中,信息处理装置10输入并分析语音、图像和传感器信息。
该处理是参考图37描述的处理,并且是执行用户话语语音的语音识别和语义分析以获取用户话语的意图,并且基于用户话语语音、图像、传感器信息等进一步获取用户的状态(用户是否满意等)的处理。
然后,在步骤S302至S303中,信息处理装置10分析用户话语的内容(命令(处理请求)),并确定对应于用户话语的处理是可执行(在域中)还是不可执行(在域之外:OOD)。
在处理不可执行的情况下(在域之外(OOD),处理终止。
同时,在确定对应于用户话语的处理是可执行的情况下(在域中),处理进行到步骤S304。
然后,在步骤S304中,信息处理装置10在存储单元170上记录被确定为可执行的用户话语(在域中)。
(步骤S305)
然后,在步骤S305中,信息处理装置确定是否存在包括与用户话语对应的话语的话语收集列表。
该处理是由图3中的输出信息生成单元180执行的处理。
输出信息生成单元180在存储单元170中进行搜索,以确定是否存在包括与用户话语对应的话语的话语收集列表。
在不存在包括与用户话语对应的话语的话语收集列表的情况下,处理进行到步骤S306。
同时,在存在包括与用户话语对应的话语的话语收集列表的情况下,处理进行到步骤S308。
(步骤S306至S307)
在步骤S305中确定不存在包括与用户话语对应的话语的话语收集列表的情况下,在步骤S306中,突出显示在图像输出单元(显示单元)122上显示的域对应节点树中与用户话语相对应的节点。
例如,这是上面参考图7描述的显示突出显示节点221的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
此外,在步骤S307中,执行对应于用户话语的处理,即,对应于在步骤S306中突出显示的节点的处理。
(步骤S308)
同时,在步骤S305中确定存在包括与用户话语对应的话语的话语收集列表的情况下,在步骤S308中,在图像输出单元(显示单元)122上显示话语收集列表。
例如,这是上面参考图14等描述的显示话语收集列表231的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
(步骤S309)
然后,在步骤S309中,依次执行对应于用户话语的处理,即,对应于在步骤S308中显示的话语收集列表231中列出的用户话语对应节点的处理。
此外,执行在显示的话语收集列表231中突出显示当前执行的用户话语对应节点的处理。
该处理对应于上面参考图18至21描述的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
接下来,将参考图39和图40中的流程图来描述在不存在由用户创建的话语收集列表的情况下使用上面参考图22至图24描述的外部话语收集列表(即,另一个人的话语收集列表、网络公开列表、博客公开列表等)的处理序列。
将依次描述图39和40中的流程图的各个步骤中的处理。
(步骤S401至S404)
步骤S401至S404中的处理类似于上面参考图36的流程描述的步骤S101至S104中的处理。
即,首先,在步骤S401中,信息处理装置10输入并分析语音、图像和传感器信息。
该处理是参考图37描述的处理,并且是执行用户话语语音的语音识别和语义分析以获取用户话语的意图,并且基于用户话语语音、图像、传感器信息等进一步获取用户的状态(用户是否满意等)的处理。
然后,在步骤S402至S403中,信息处理装置10分析用户话语的内容(命令(处理请求)),并确定与用户话语相对应的处理是可执行(在域中)还是不可执行(在域之外:OOD)。
在处理不可执行的情况下(在域之外(OOD),处理终止。
同时,在确定对应于用户话语的处理是可执行的情况下(在域中),处理进行到步骤S404。
然后,在步骤S404中,信息处理装置10将被确定为可执行的用户话语记录在存储单元170上(在域中)。
(步骤S405)
然后,在步骤S405中,信息处理装置确定用户话语是否是获取和显示外部话语收集列表的请求。
在用户话语不是获取和显示外部话语收集列表的请求的情况下,处理进行到步骤S406。
同时,在用户话语是获取和显示外部话语收集列表的请求的情况下,处理进行到步骤S408。
(步骤S4306至S407)
在步骤S405中用户话语不是获取和显示外部话语收集列表的请求的情况下,在步骤S406中,突出显示与在图像输出单元(显示单元)122上显示的域对应节点树中的用户话语对应的节点。
例如,这是上面参考图7描述的显示突出显示节点221的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
此外,在步骤S407中,执行对应于用户话语的处理,即,对应于在步骤S406中突出显示的节点的处理。
(步骤S408)
同时,在步骤S405中用户话语是获取和显示外部话语收集列表的请求的情况下,在步骤S408中,在图像输出单元(显示单元)122上显示从外部获取的话语收集列表。
例如,这是上面参考图22至24描述的显示话语收集列表的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
(步骤S501)
然后,在步骤S501中,确定是否已经输入了指示与显示的外部话语收集列表中显示的节点相对应的处理请求的新用户话语。
该处理是由信息处理装置10的输入数据分析单元160执行的处理。
在确定已经输入了指示与显示的外部话语收集列表中显示的节点对应的处理请求的新用户话语的情况下,处理进行到步骤S502。
同时,在确定没有输入指示与显示的外部话语收集列表中显示的节点对应的处理请求的新用户话语的情况下,处理进行到步骤S503。
(步骤S502)
在确定已经输入了指示与在步骤S501中显示的外部话语收集列表中显示的节点对应的处理请求的新用户话语的情况下,处理进行到步骤S502。在步骤S502中,依次执行与话语收集列表中列出的用户话语对应节点相对应的处理。
此外,执行在显示的话语收集列表中突出显示当前执行的用户话语对应节点的处理。
该处理是由图3中的信息处理装置10的显示信息生成单元182执行的处理。
(步骤S503)
同时,在确定没有输入指示与步骤S501中显示的外部话语收集列表中显示的节点相对应的处理请求的新用户话语的情况下,处理进行到步骤S503。在步骤S503中,执行根据用户话语的正常处理,而不使用话语收集列表。
[6.信息处理装置和信息处理***的配置示例]
已经描述了多个实施方式,并且在这些实施方式中描述的各种处理功能(例如,图3的信息处理装置10的各个组件的处理功能)可以全部配置在单个装置中,例如,用户拥有的装置,例如,代理装置、智能手机或PC。或者,也可以在服务器等中执行部分处理功能。
图41示出了***配置示例。
图41(1)的信息处理***配置示例1是在单个装置中配置图3的信息处理装置的几乎所有功能的示例,例如,用户拥有的信息处理装置410,信息处理装置是诸如智能手机、PC等用户终端或具有语音输入/输出功能和图像输入/输出功能的代理装置。
仅当例如信息处理装置410使用外部服务来生成响应语句时,对应于用户终端的信息处理装置410才与服务提供服务器420通信。
服务提供服务器420例如是音乐提供服务器、电影等的内容提供服务器、游戏服务器、天气信息提供服务器、交通信息提供服务器、医疗信息提供服务器、观光信息提供服务器等,并且包括能够提供响应于用户话语执行处理并生成响应所必需的信息的一组服务器。
同时,图41(2)的信息处理***配置示例2是在用户拥有的信息处理装置410中配置图3的信息处理装置的部分功能的***示例,信息处理装置410是诸如智能手机、PC或代理装置等用户终端,并且在能够与信息处理装置通信的数据处理服务器460中执行部分功能。
例如,可以采用这样的配置,其中,在用作用户终端的信息处理装置410中仅提供图3的装置中的输入单元110和输出单元120,并且在服务器中执行所有其他功能。
注意,可以不同地设置将功能分为用户终端和服务器的模式。此外,这两者都可以执行单个功能。
[7.信息处理装置的硬件配置示例]
接下来,将参考图42描述信息处理装置的硬件配置示例。
参考图42描述的硬件是上面参考图3描述的信息处理装置的硬件配置示例,并且也是形成参考图41描述的数据处理服务器460的信息处理装置的硬件配置示例。
中央处理单元(CPU)501用作根据存储在只读存储器(ROM)502或存储单元508中的程序执行各种处理的控制单元或数据处理单元。例如,CPU 501根据上述实施方式中描述的顺序执行处理。随机存取存储器(RAM)503存储由CPU 501执行的程序、数据等。CPU 501、ROM502和RAM 503通过总线504相互连接。
CPU 501通过总线504连接到输入/输出接口505。输入/输出接口505连接到包括各种开关、键盘、鼠标、麦克风、传感器等的输入单元506,并且还连接到包括显示器、扬声器等的输出单元507。CPU 501响应于从输入单元506输入的命令执行各种处理,并将处理结果输出到例如输出单元507。
连接到输入/输出接口505的存储单元508包括例如硬盘等,并且存储由CPU 501执行的程序和各种数据。通信单元509用作经由诸如因特网或局域网等网络进行Wi-Fi通信、蓝牙(注册商标)(BT)通信和其他数据通信的传输/接收单元,并且与外部装置通信。
连接到输入/输出接口505的驱动器510驱动可移动介质511,例如,磁盘、光盘、磁光盘或半导体存储器(例如,存储卡),以记录或读取数据。
[8.本公开的配置概述]
在上文中,已经通过参考特定实施方式详细描述了本公开的实施方式。然而,很明显,本领域技术人员可以在不脱离本公开的范围的情况下对实施方式进行修改和替换。即,已经以说明的形式描述了本发明,并且不应该以限制的方式解释本发明。为了确定本公开的要点,应该考虑权利要求。
注意,本说明书中公开的技术可以如下配置。
(1)一种信息处理装置,包括
学习处理单元,其被配置为执行用户话语的学习处理,其中,
所述学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
(2)根据(1)所述的信息处理装置,其中,
所述信息处理装置还在显示单元上显示话语收集列表。
(3)根据(1)或(2)所述的信息处理装置,其中,
记录在所述话语收集列表中的用户话语是对应于作为用户对所述信息处理装置做出的处理请求的命令的用户话语。
(4)根据(1)至(3)中任一项所述的信息处理装置,其中,
所述学习处理单元询问用户是否生成话语收集列表,在用户同意的情况下生成话语收集列表,并将话语收集列表存储在存储单元中。
(5)根据(1)至(4)中任一项所述的信息处理装置,其中,
在学习处理单元确定已经成功执行了对应于多个用户话语的多个处理的情况下,所述学习处理单元生成话语收集列表并将话语收集列表存储在存储单元中。
(6)根据(1)至(4)中任一项所述的信息处理装置,其中,
在多个用户话语的组合等于或大于预定阈值次数的情况下,所述学习处理单元生成话语收集列表,并将话语收集列表存储在存储单元中。
(7)根据(1)至(4)中任一项所述的信息处理装置,其中,
所述学习处理单元分析指示包括在多个用户话语中的话语之间的关系的指示词的存在或不存在,基于分析的结果生成话语收集列表,并将话语收集列表存储在存储单元中。
(8)根据(1)至(4)中任一项所述的信息处理装置,其中,
所述学习处理单元分析用户相对于信息处理装置响应于用户话语而执行的处理的状态,基于分析的结果生成话语收集列表,并将话语收集列表存储在存储单元中。
(9)根据(1)至(4)中任一项所述的信息处理装置,其中,
在学习处理单元接收用户状态信息的输入并且用户状态信息是指示用户满意的信息的情况下,所述学习处理单元生成话语收集列表并将话语收集列表存储在存储单元中。
(10)根据(9)所述的信息处理装置,其中,
所述用户状态信息是指示用户满意状态的信息,并且是基于以下信息中的至少一条而获取的:
基于用户话语并由语音分析单元生成的非语言信息;
基于用户图像并由图像分析单元生成的图像分析信息;或者
由传感器信息分析单元生成的传感器信息分析信息。
(11)根据(1)至(10)中任一项所述的信息处理装置,还包括
显示信息生成单元,其被配置为执行对当前由所述信息处理装置执行的话语对应节点进行突出显示的处理,其中,所述话语对应节点在包括在所述显示单元上显示的所述话语收集列表中的多个话语对应节点之中。
(12)根据(1)至(11)中任一项所述的信息处理装置,其中,
所述信息处理装置还获取可由信息处理装置获取的外部话语收集列表,并在显示单元上显示该外部话语收集列表。
(13)根据(1)至(12)中任一项所述的信息处理装置,其中,
所述学习处理单元根据上下文信息选择要收集的用户话语,并生成话语收集列表。
(14)一种信息处理***,包括用户终端和数据处理服务器,其中:
所述用户终端包括
语音输入单元,其被配置为输入用户话语;
所述数据处理服务器包括
学习处理单元,其被配置为执行从用户终端接收的用户话语的学习处理;并且
所述学习处理单元生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
(15)根据(14)所述的信息处理***,其中,
所述用户终端在显示单元上显示话语收集列表。
(16)一种在信息处理装置中执行的信息处理方法,其中:
所述信息处理装置包括:学习处理单元,其被配置为执行用户话语的学习处理;并且
所述学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
(17)一种在包括用户终端和数据处理服务器的信息处理***中执行的信息处理方法,其中:
所述用户终端执行输入用户话语的语音输入处理;
所述数据处理服务器执行从用户终端接收的用户话语的学习处理;并且
在学习处理中生成话语收集列表,其中,收集对应于多个不同处理请求的多个用户话语。
(18)一种用于使信息处理装置执行信息处理的程序,其中:
所述信息处理装置包括:学习处理单元,其被配置为执行用户话语的学习处理;并且
所述程序使学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
此外,说明书中描述的一系列处理可以由硬件、软件或两者的组合配置来执行。在通过软件执行处理的情况下,可以通过安装处理序列记录在包含到专用硬件中的计算机内部的存储器中的程序并且执行该程序,或者通过在能够执行各种处理的通用计算机中安装程序并且执行该程序,来执行处理。例如,程序可以预先记录在记录介质上。该程序可以从记录介质安装在计算机中,或者也可以经由诸如局域网(LAN)或因特网等网络接收,并且安装在诸如内置硬盘等记录介质中。
注意,说明书中描述的各种处理不仅根据描述按时间序列执行,而且根据执行处理的装置的处理能力或根据需要并行或单独执行。此外,在本说明书中,***是多个装置的逻辑集合配置,并且不限于具有相应配置的装置在同一外壳中的***。
工业适用性
如上所述,根据本公开的实施方式的配置,能够基于多个用户话语准确且重复地执行处理的装置和方法通过生成并使用收集了多个用户话语的话语收集列表来实现。
具体地,例如,学习处理单元生成话语收集列表,其中,收集了对应于多个不同处理请求的多个用户话语。此外,在显示单元上显示生成的话语收集列表。在用户同意的情况下,在确定已经成功执行了与用户话语对应的多个处理的情况下,在多个用户话语的组合等于或大于预定阈值次数的情况下,在估计用户满意的情况下,或者在其他情况下,学习处理单元生成话语收集列表,并将话语收集列表存储在存储单元中。
通过这种配置,能够基于多个用户话语精确地和重复地执行处理的装置和方法通过生成和使用收集了多个用户话语的话语收集列表来实现。
附图标记列表
10 信息处理装置
11 相机
12 麦克风
13 显示单元
14 扬声器
20 服务器
30 外部装置
110 输入单元
111 语音输入单元
112 图像输入单元
113 传感器
120 输出单元
121 语音输出单元
122 图像输出单元
150 数据处理单元
160 输入数据分析单元
161 语音分析单元
162 图像分析单元
163 传感器信息分析单元
164 用户状态估计单元
165 学习处理单元
170 存储单元
180 输出信息生成单元
181 输出语音生成单元
182 显示信息生成单元
200 域对应节点树
201 域
202 可接受话语显示节点
211 显示区域标识信息
212 登记的话语收集列表信息
221 突出显示节点
222 指南信息
231 话语收集列表
232 另一用户的公开话语收集列表
233 网络公开话语收集列表
234 博客公开话语收集列表
241 话语收集列表对应节点
242 话语收集列表
261 话语收集列表
420 服务提供服务器
460 数据处理服务器
501 CPU
502 ROM
503 RAM
504 总线
505 输入输出接口
506 输入单元
507 输出单元
508 存储单元
509 通信单元
510 驱动器
511 可移动介质

Claims (18)

1.一种信息处理装置,包括:
学习处理单元,被配置为执行用户话语的学习处理,其中,
所述学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
2.根据权利要求1所述的信息处理装置,其中,
所述信息处理装置还在显示单元上显示所述话语收集列表。
3.根据权利要求1所述的信息处理装置,其中,
记录在所述话语收集列表中的用户话语是对应于作为用户对所述信息处理装置做出的处理请求的命令的用户话语。
4.根据权利要求1所述的信息处理装置,其中,
所述学习处理单元询问用户是否生成所述话语收集列表,在用户同意的情况下生成所述话语收集列表,并将所述话语收集列表存储在存储单元中。
5.根据权利要求1所述的信息处理装置,其中,
在所述学习处理单元确定已经成功执行了对应于多个用户话语的多个处理的情况下,所述学习处理单元生成所述话语收集列表并将所述话语收集列表存储在存储单元中。
6.根据权利要求1所述的信息处理装置,其中,
在多个用户话语的组合等于或大于预定阈值次数的情况下,所述学习处理单元生成所述话语收集列表,并将所述话语收集列表存储在存储单元中。
7.根据权利要求1所述的信息处理装置,其中,
所述学习处理单元分析指示包括在多个用户话语中的话语之间的关系的指示词的有无,基于分析的结果生成所述话语收集列表,并将所述话语收集列表存储在存储单元中。
8.根据权利要求1所述的信息处理装置,其中,
所述学习处理单元分析用户相对于所述信息处理装置响应于用户话语而执行的处理的状态,基于分析的结果生成所述话语收集列表,并将所述话语收集列表存储在存储单元中。
9.根据权利要求1所述的信息处理装置,其中,
在所述学习处理单元接收用户状态信息的输入并且所述用户状态信息是指示用户满意的信息的情况下,所述学习处理单元生成所述话语收集列表并将所述话语收集列表存储在存储单元中。
10.根据权利要求9所述的信息处理装置,其中,
所述用户状态信息是指示用户满意状态的信息,并且是基于以下信息中的至少一条而获取的:
基于用户话语并由语音分析单元生成的非语言信息;
基于用户图像并由图像分析单元生成的图像分析信息;或者
由传感器信息分析单元生成的传感器信息分析信息。
11.根据权利要求1所述的信息处理装置,还包括
显示信息生成单元,被配置为执行对当前由所述信息处理装置执行的话语对应节点进行突出显示的处理,其中,所述话语对应节点在包括在所述显示单元上显示的所述话语收集列表中的多个话语对应节点之中。
12.根据权利要求1所述的信息处理装置,其中,
所述信息处理装置还获取可由所述信息处理装置获取的外部话语收集列表,并在显示单元上显示该外部话语收集列表。
13.根据权利要求1所述的信息处理装置,其中,
所述学习处理单元根据上下文信息选择要收集的用户话语,并生成所述话语收集列表。
14.一种信息处理***,包括用户终端和数据处理服务器,其中,
所述用户终端包括
语音输入单元,被配置为输入用户话语;
所述数据处理服务器包括
学习处理单元,被配置为执行从用户终端接收的用户话语的学习处理;并且
所述学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
15.根据权利要求14所述的信息处理***,其中,
所述用户终端在显示单元上显示所述话语收集列表。
16.一种在信息处理装置中执行的信息处理方法,其中,
所述信息处理装置包括:学习处理单元,被配置为执行用户话语的学习处理;并且
所述学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
17.一种在包括用户终端和数据处理服务器的信息处理***中执行的信息处理方法,其中,
所述用户终端执行输入用户话语的语音输入处理;
所述数据处理服务器执行从用户终端接收的用户话语的学习处理;并且
在学习处理中生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
18.一种用于使信息处理装置执行信息处理的程序,其中,
所述信息处理装置包括:学习处理单元,其被配置为执行用户话语的学习处理;并且
所述程序使学习处理单元生成话语收集列表,在所述话语收集列表中,收集对应于多个不同处理请求的多个用户话语。
CN201880084925.5A 2018-02-09 2018-11-16 信息处理装置、信息处理***、信息处理方法和程序 Withdrawn CN111587413A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018022114 2018-02-09
JP2018-022114 2018-02-09
PCT/JP2018/042411 WO2019155717A1 (ja) 2018-02-09 2018-11-16 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN111587413A true CN111587413A (zh) 2020-08-25

Family

ID=67549410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880084925.5A Withdrawn CN111587413A (zh) 2018-02-09 2018-11-16 信息处理装置、信息处理***、信息处理方法和程序

Country Status (5)

Country Link
US (1) US20200365139A1 (zh)
EP (1) EP3751393A4 (zh)
JP (1) JP7347217B2 (zh)
CN (1) CN111587413A (zh)
WO (1) WO2019155717A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111727473A (zh) 2018-02-22 2020-09-29 索尼公司 信息处理装置、信息处理方法和程序
JP2022051970A (ja) * 2019-02-01 2022-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7123028B2 (ja) * 2019-11-27 2022-08-22 Tis株式会社 情報処理システム、情報処理方法、及びプログラム
US20210312138A1 (en) * 2020-03-10 2021-10-07 MeetKai, Inc. System and method for handling out of scope or out of domain user inquiries

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP4696734B2 (ja) * 2005-07-06 2011-06-08 ソニー株式会社 コンテンツデータ再生装置及びコンテンツデータ再生方法
JP2007052397A (ja) 2005-07-21 2007-03-01 Denso Corp 操作装置
JP5222411B2 (ja) * 2006-06-19 2013-06-26 キヤノン株式会社 印刷装置、印刷装置の制御方法、コンピュータプログラム
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US20140115456A1 (en) * 2012-09-28 2014-04-24 Oracle International Corporation System for accessing software functionality
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
KR20160045353A (ko) * 2014-10-17 2016-04-27 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
US20170060348A1 (en) * 2015-08-26 2017-03-02 Sap Se Compact display of hierarchical structure on user interface

Also Published As

Publication number Publication date
JP7347217B2 (ja) 2023-09-20
US20200365139A1 (en) 2020-11-19
WO2019155717A1 (ja) 2019-08-15
EP3751393A4 (en) 2021-03-31
JPWO2019155717A1 (ja) 2021-02-25
EP3751393A1 (en) 2020-12-16

Similar Documents

Publication Publication Date Title
KR102429436B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
EP3583749B1 (en) User registration for intelligent assistant computer
US10991374B2 (en) Request-response procedure based voice control method, voice control device and computer readable storage medium
KR102342623B1 (ko) 음성 및 연결 플랫폼
CN111587413A (zh) 信息处理装置、信息处理***、信息处理方法和程序
CN109508167B (zh) 显示装置和在语音识别***中控制显示装置的方法
US11462213B2 (en) Information processing apparatus, information processing method, and program
CN109102802B (zh) 用于处理用户话语的***
US20210134278A1 (en) Information processing device and information processing method
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
KR20170115501A (ko) 크라우드 소싱에 기초해서 디지털 퍼스널 어시스턴트에 대한 언어 이해 분류기 모델을 업데이트하는 기법
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
WO2019213443A1 (en) Audio analytics for natural language processing
US10838954B1 (en) Identifying user content
US10950240B2 (en) Information processing device and information processing method
US20180218728A1 (en) Domain-Specific Speech Recognizers in a Digital Medium Environment
JP2017003611A (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
CN111919248A (zh) 用于处理用户发声的***及其控制方法
WO2019239659A1 (ja) 情報処理装置および情報処理方法
US20210065708A1 (en) Information processing apparatus, information processing system, information processing method, and program
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
KR20210036527A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
KR20210066651A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200825

WW01 Invention patent application withdrawn after publication