CN111727473A - 信息处理装置、信息处理方法和程序 - Google Patents
信息处理装置、信息处理方法和程序 Download PDFInfo
- Publication number
- CN111727473A CN111727473A CN201880089383.0A CN201880089383A CN111727473A CN 111727473 A CN111727473 A CN 111727473A CN 201880089383 A CN201880089383 A CN 201880089383A CN 111727473 A CN111727473 A CN 111727473A
- Authority
- CN
- China
- Prior art keywords
- utterance
- speech
- voice
- recognition result
- meaning corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 61
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 54
- 230000004048 modification Effects 0.000 description 54
- 238000012545 processing Methods 0.000 description 53
- 238000004891 communication Methods 0.000 description 38
- 238000000034 method Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000000352 storage cell Anatomy 0.000 description 2
- 208000031361 Hiccup Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 208000011293 voice disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
[问题]提出了一种信息处理装置、信息处理方法以及程序,其中,对关于第二语音是否是第一语音的重述的确定结果,可以以自适应的方式学习与第一语音的语音识别结果相对应的含义。[解决方案]一种信息处理装置,包括学习单元,该学习单元基于关于在第一时间之后的第二时间获取其声音的第二语音是否是在第一时间获取其声音的第一语音的重述的确定结果,来学习与第一语音的语音识别结果相对应的含义。
Description
技术领域
本公开涉及信息处理装置、信息处理方法以及程序。
背景技术
迄今为止,已经提出了关于语音识别的各种技术。在语音识别中,用户说话时的语音可以转换成字符串。
例如,下面的专利文献1描述了一种用于确定输入音频信号是否包括重述话语的技术。
引用列表
专利文献
专利文献1:JP 2016-180917 A
发明内容
技术问题
然而,在专利文献1中描述的技术中,不考虑关于在第一语音之后收集的第二语音是否是第一语音的重述的确定结果,来自适应学习与第一语音的语音识别结果相对应的含义。
因此,在本公开中,提出了一种信息处理装置、信息处理方法以及程序,这些是新颖的、改进的,并且能够关于第二语音是否是第一语音的重述的确定结果,来自适应学习与第一语音的语音识别结果相对应的含义。
问题的解决方案
根据本公开,提供了一种信息处理装置,包括:学习单元,被配置为基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,学习与第一语音的语音识别结果相对应的含义。
此外,根据本公开,提供了一种信息处理方法,包括:使处理器基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,学习与第一语音的语音识别结果相对应的含义。
此外,根据本公开,提供了一种程序,用于使计算机用作学习单元,其被配置为基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,学习与第一语音的语音识别结果相对应的含义。
如上所述,根据本公开,可以关于第二语音是否是第一语音的重述的确定结果,来自适应学习与第一语音的语音识别结果相对应的含义。注意,本文描述的效果不必受限,并且可以是本公开中描述的任何效果。
附图说明
[图1]是示出根据本公开实施方式的信息处理***的配置示例的说明图;
[图2]是示出根据本实施方式的终端20的功能配置示例的框图;
[图3]是示出根据本实施方式的服务器10的功能配置示例的框图;
[图4]是示出用户之间的关系的示例的示图;
[图5]是示出多个用户在终端20上的话语的示例的示图;
[图6]是示出多个用户在终端20上的话语的示例的示图;
[图7]是示出在图5所示的情况之后由终端20执行的处理的示例的示图;
[图8]是示出在图5所示的情况之后收集话语的情况下由终端20执行的处理的示例的示图;
[图9]是示出根据本实施方式的应用示例的用户之间的关系的示图;
[图10]是示出根据本应用示例的多个用户在终端20上的话语的示例的示图;
[图11]是示意性地示出在图10所示的情况之后学习结果的应用用户和学习结果的非应用对象用户的示图;
[图12]是示出在图10所示的情况之后收集话语的情况下由终端20执行的处理的示例的示图;
[图13]是示出在图10所示的情况之后收集话语的情况下由终端20执行的处理的示例的示图;
[图14]是示出根据本实施方式的处理流程的示例的流程图;
[图15]是示出根据本实施方式的“语音输入处理”的流程的一部分的流程图;
[图16]是示出根据本实施方式的“语音输入处理”的流程的一部分的流程图;
[图17]是示出根据本实施方式的“用于更新学习结果的应用范围的处理”的流程的流程图;
[图18]是示出根据本实施方式的“用于确定是否学习的处理”的流程的流程图;
[图19]是示出“用于确定是否学习的处理”的第一变型的流程的流程图;
[图20]是示出“用于确定是否学习的处理”的第二变型的流程的流程图;
[图21]是示出“用于确定是否学习的处理”的第三变型的流程的流程图;
[图22]是示出“用于确定是否学习的处理”的第四变型的流程的流程图;
[图23]是示出根据本实施方式的“用于确定学习结果的应用范围的处理”的流程的流程图;
[图24]是示出“用于确定学习结果的应用范围的处理”的第一变型的流程的流程图;
[图25]是示出“用于确定学习结果的应用范围的处理”的第二变型的流程的流程图;
[图26]是示出“用于确定学习结果的应用范围的处理”的第三变型的流程的流程图;
[图27]是示出“用于确定学习结果的应用范围的处理”的第四变型的流程的流程图;
[图28]是示出“用于确定学习结果的应用范围的处理”的第五变型的流程的流程图;
[图29]是示出根据本实施方式的第一应用示例的动态添加学习结果的应用用户的示例的示图;
[图30]是示出根据第一应用示例的动态减少学习结果的应用用户的示例的示图;
[图31]是示出根据本实施方式的第二应用示例的动态添加学习结果的应用用户的示例的示图;
[图32]是示出根据第二应用示例的动态减少学习结果的应用用户的示例的示图;
[图33]是示出根据第二应用示例的“用于更新学习结果的应用范围的处理”的流程的流程图;
[图34]是示出根据本实施方式的第三应用示例的多个用户在终端20上的话语的示例的示图;
[图35]是示出在图34所示的情况之后收集话语的情况下由终端20执行的处理的示例的示图;
[图36]是示出服务器10的硬件配置示例的示图。
具体实施方式
在下文中,将参考附图详细描述本公开的优选实施方式。在本说明书和附图中,具有基本相同的功能和配置的组件由相同的附图标记表示,并且省略了冗余的描述。
在本说明书和附图中,具有基本上相同功能和配置的多个组件可以通过在相同的附图标记后分配不同的字母来彼此区分。例如,根据需要区分具有基本相同功能配置的多个组件,例如,终端20a和终端20b。然而,当不需要具体区分具有基本上相同功能配置的多个组件中的每一个时,仅分配相同的附图标记。例如,当不需要具体区分终端20a和终端20b时,终端20a和20b简称为终端20。
此外,将按照下面所示的项的顺序描述“实施本发明的模式”。
1.信息处理***的配置
2.实施方式的详细描述
3.应用示例
4.硬件配置
5.变型
<<1.信息处理***的配置>>
首先,将参考图1描述根据本公开实施方式的信息处理***的配置示例。如图1所示,根据本实施方式的信息处理***包括服务器10、终端20和通信网络22。
<1-1.服务器10>
服务器10是根据本公开的信息处理装置的示例。服务器10可以具有语音识别功能。例如,服务器10能够经由通信网络22从终端20接收由稍后描述的终端20收集的语音,识别语音,并分析语音识别结果的含义。
此外,服务器10可以控制终端20输出各种类型的信息。例如,服务器10使终端20基于用户的指令等输出预定的运动图像或预定的语音。
<1-2.终端20>
例如,终端20根据服务器10的控制输出各种类型的信息。例如,该终端20可以是通用个人计算机(PC)、平板装置、游戏机、移动电话(例如,智能手机)、便携式音乐播放器、扬声器、投影仪、可佩戴装置(例如,头戴式显示器(HMD)和智能手表)、车载装置(例如,汽车导航装置)或机器人(例如,人形机器人或自动驾驶汽车)。
在此处,参考图2描述终端20的功能配置。图2是示出终端20的功能配置示例的框图。如图2所示,终端20包括控制单元200、通信单元220、传感器单元222、输出单元224和存储单元226。
{1-2-1.控制单元200}
例如,控制单元200可以被配置为包括处理电路,例如,中央处理单元(CPU)和图形处理单元(GPU)。控制单元200整体上控制终端20的操作。例如,控制单元200使通信单元220向服务器10发送由稍后描述的传感器单元222感测的各种感测结果。此外,控制单元200使输出单元224根据从服务器10接收的输出控制信息输出由输出控制信息指定的信息。
{1-2-2.传感器单元222}
传感器单元222可以具有麦克风。传感器单元222可以收集附近发出的语音。
此外,例如,传感器单元222可以包括相机(图像传感器)、距离传感器(例如,飞行时间型传感器、立体相机等)、温度传感器、生物传感器、加速度传感器、方向传感器和肌电传感器中的至少一个。此外,传感器单元222还可以包括接收器,该接收器从定位卫星(例如,全球定位***(GPS)和全球导航卫星***(GLONASS))接收定位信号。
传感器单元222中包括的各个传感器可以一直执行感测,或者可以周期性地执行感测,或者可以仅在特定情况下执行感测(例如,当存在来自控制单元200的指令等时)。
{1-2-3.通信单元220}
通信单元220通过例如无线通信和/或有线通信向另一装置发送信息和从另一装置接收信息。例如,根据控制单元200的控制,通信单元220将由传感器单元222获取的各种感测结果(例如,由麦克风收集的音频数据)发送到服务器10。此外,通信单元220从服务器10接收各种图像和各种声音的输出控制信息。
{1-2-4.输出单元224}
输出单元224根据控制单元200的控制输出各种类型的信息(例如,视频和声音)。输出单元224可以包括音频输出单元。音频输出单元被配置为包括例如扬声器、耳机或头戴式耳机。音频输出单元根据控制单元200的控制输出声音(语音、音乐等)。
此外,输出单元224可以包括显示单元。显示单元被配置为包括例如液晶显示器(LCD)、有机发光二极管(OLED)或投影仪。显示单元根据控制单元200的控制显示(投影等)视频。
{1-2-5.存储单元226}
存储单元226存储各种数据和各种软件。
<1-3.通信网络22>
通信网络22是用于从连接到通信网络22的装置传输的信息的有线或无线传输路径。例如,通信网络22可以包括公共线路网络(例如,电话线网络、互联网和卫星通信网络)、包括以太网(注册商标)的各种局域网(LAN)、广域网(WAN)等。此外,通信网络22可以包括专用线路网络,例如,互联网协议虚拟专用网络(IP-VPN)。
<1-4.问题的概述>
上面已经描述了根据本实施方式的信息处理***的配置。顺便提及,在由话语操作的***中,即使用户试图说出***可接受的话语(在下文中,这有时称为“域内(InDomain)”),***有时也可以确定该话语在接受范围之外(在下文中,这有时称为“域外(OutOfDomain(OOD))”)。因此,用户有时可能会在成为OOD的话语A之后重述域内的话语C。
因此,为了提高用户的便利性,希望能够自动学习“话语A和话语C是具有相同意图的话语这一事实”。此时,如果不能高精度地确定已经变为域内的话语C是否是“话语A的重述”,则学习质量将劣化。因此,希望能够高精度地确定这一点。
此外,不希望学习与话语A相对应的含义的结果一致地反映给所有用户。例如,希望仅当上下文与执行话语A的时间的上下文相同时,才反映学习的结果。
因此,在考虑到上述情况的情况下创建根据本实施方式的服务器10。基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,根据本实施方式的服务器10学习与第一语音的语音识别结果相对应的含义。因此,可以适当地学习与第一语音的语音识别结果相对应的含义。
在此处,第一语音和第二语音可以是同一个人发出的语音或者不同的人发出的语音。此外,第一语音不限于该话语,并且可以是与自然语言的语法规则无关的话语(例如,由患有语音障碍的人产生的声音等)。此外,第一语音不限于人类语音,并且可以是除了人类之外的动物(例如,鸟)的叫声。此外,第二语音可以是话语(根据标准自然语言的语法规则)。在下文中,将主要描述第一语音和第二语音是话语的示例。
<<2.实施方式的详细描述>>
<2-1.配置>
接下来,将描述根据本实施方式的配置。图3是示出根据本实施方式的服务器10的功能配置示例的框图。如图3所示,服务器10包括控制单元100、通信单元120和存储单元122。
{2-1-1.控制单元100}
例如,控制单元100可以被配置为包括稍后将描述的处理电路,例如,CPU 150和GPU。控制单元100整体上控制服务器10的操作。此外,如图3所示,控制单元100包括语音识别单元102、语义分析单元104、重述确定单元106、学习单元108和输出控制单元110。
{2-1-2.语音识别单元102}
语音识别单元102例如对从终端20接收的语音数据中的语音执行语音识别。例如,语音识别单元102对语音执行语音识别,从而将语音转换成字符串。
{2-1-3.语义分析单元104}
语义分析单元104对语音识别单元102执行的识别结果执行自然语言处理,从而分析语音的含义。
{2-1-4.重述确定单元106}
重述确定单元106是根据本公开的确定单元的示例。基于预定标准,重述确定单元106确定在第一时间之后的第二时间收集的第二话语是否是在第一时间收集的第一话语的重述。例如,当第一时间和第二时间之间的时间保持在预定阈值内时,重述确定单元106确定第二话语是第一话语的重述。此外,当第一时间和第二时间之间的时间大于预定阈值时,重述确定单元106确定第二话语不是第一话语的重述。
或者,重述确定单元106还能够基于语义分析单元104对第二话语的语义分析的结果,来确定第二话语是否是第一话语的重述。例如,当第二话语被分析为“教导意图(或含义)的话语”时,例如,“代表‘...’”或者“是指‘...’”,重述确定单元106确定第二话语是第一话语的重述。
或者,基于第二话语的分析结果和在第二时间的第二话语的说话者的行为识别结果的组合,重述确定单元106可以确定第二话语是否是第一话语的重述。例如,当第二话语被分析为“教导意图(或含义)的话语”时,并且当识别出第二话语的说话者在第二时间将眼睛转向或指向第一话语的说话者时,则重述确定单元106确定第二话语是第一话语的重述。
{2-1-5.学习单元108}
(2-1-5-1.确定是否学习)
学习单元108基于重述确定单元106的确定结果,来学习与第一话语的语音识别结果相对应的含义。例如,当确定第二话语不是第一话语的重述时,学习单元108不学习与第一话语的语音识别结果相对应的含义。此外,当确定第二话语是第一话语的重述时,则学习单元108基于与第二话语的语音识别结果相对应的含义,学习与第一话语的语音识别结果相对应的含义。例如,当确定第二话语是第一话语的重述时,不能够指定与第一话语的语音识别结果相对应的含义,但是能够指定与第二话语的语音识别结果相对应的含义,然后,学习单元108基于与第二话语的语音识别结果相对应的含义,来学习与第一话语的语音识别结果相对应的含义。即,当第一话语是OOD,并且第二话语是域内时,则学习单元108基于与第二话语的语音识别结果相对应的含义,学习与第一话语的语音识别结果相对应的含义。在这种情况下,例如,学习单元108学习与第一话语的语音识别结果相对应的含义,使得与第一话语的语音识别结果相对应的含义变得相同或相似于和第二话语的语音识别结果相对应的含义。
-确定示例1:上下文之间的关系
在下文中,将更详细地描述学习单元108确定是否学习的示例。例如,学习单元108还基于第一时间的上下文和第二时间的上下文之间的关系,来确定是否学习与第一话语的语音识别结果相对应的含义。例如,当确定关于第一时间的上下文和第二时间的上下文之间的差异的预定评估值满足预定条件时(例如,当确定第一时间的上下文和第二时间的上下文彼此相差很大时),学习单元108确定不学习与第一话语的语音识别结果相对应的含义。此外,当确定关于第一时间的上下文和第二时间的上下文之间的差异的预定评估值不满足预定条件时(例如,当确定第一时间的上下文和第二时间的上下文基本相同时),学习单元108确定基于与第二话语的语音识别结果相对应的含义,学习与第一话语的语音识别结果相对应的含义。
在此处,关于这种上下文差异的预定评估值可以是指示非语言信息(例如,音量和语调)语音差异的值。在这种情况下,学习单元108可以基于第一话语和第二话语之间的语音的非语言信息的差异,来确定是否学习与第一话语的语音识别结果相对应的含义。
或者,关于上下文之间的差异的预定评估值可以是指示除了语音之外的非语言信息(例如,手势)中的差异的值。在这种情况下,学习单元108可以基于指示在第一时间除了语音之外的非语言信息和在第二时间除了语音之外的非语言信息之间的差异的值,来确定是否学习与第一话语的语音识别结果相对应的含义。例如,当在第二时间检测到负向运动(例如,摇头)时,学习单元108可以确定上下文在第一时间和第二时间之间几乎没有变化,并且可以确定学习与第一话语的语音识别结果相对应的含义。可替代地,当检测到第一话语的说话者的注视点在第一时间和第二时间之间已经改变了预定阈值以上时,学习单元108可以确定上下文在第一时间和第二时间之间已经大幅改变,并且可以确定不学习与第一话语的语音识别结果相对应的含义。
-确定示例2:关于说话者的信息
可替代地,学习单元108可以进一步基于第二话语的说话者识别的结果,来确定是否学习与第一话语的语音识别结果相对应的含义。例如,学习单元108可以基于第二话语的说话者的过去重述的成功频率是否等于或大于预定阈值,来确定是否学习与第一话语的语音识别结果相对应的含义。因此,例如,一个人在没有理解情境的情况下说出的话语可以从要学习的对象中排除(换言之,作为噪音来消除)。此外,学习单元108可以基于第二话语的说话者对语音输入的使用频率是否等于或大于预定阈值,来确定是否学习与第一话语的语音识别结果相对应的含义。或者,学习单元108基于从第二话语的说话者感测到的生物信息,来确定第二话语的说话者是否在说谎,并且由此可以确定是否学习与第一话语的语音识别结果相对应的含义。例如,根据这种方法,儿童的淘气话语可以从要学习的对象中排除。
在此处,将参考图4至图6更详细地描述上述内容。如图4所示,在此处,假设祖父“A”、祖母“B”、“A”的孙子“D”和“A”的孙子“F”是一个家庭。如图5所示,假设确定,首先,祖母“B”向终端20发出话语30a“营造怀旧气氛”,终端20向服务器10发送话语30a的语音数据,并且服务器10确定话语30a是OOD。此时,服务器10可以使终端20输出语音40a(例如,“我不明白”或者“呃?”),指示话语30a被确定为OOD。
假设随后祖父“A”向终端20发出话语30b“可以播放AAA吗?”,作为对话语30a的重述,终端20向服务器10发送话语30b的语音数据,并且服务器10确定话语30b也是OOD。假设随后孙子“D”向终端20发出话语30c“播放我祖父母喜欢的音乐”,作为对话语30a的重述,终端20向服务器10发送话语30c的语音数据,并且服务器10确定话语30c是域内。在此处,假设孙子“D”的过去重述的成功频率等于或大于预定阈值。因此,学习单元108可以确定学习对应于话语30a的含义。此外,学习单元108可以学习对应于话语30a的含义,使得对应于话语30a的含义与对应于话语30c的含义相同。
图6是示出不同于图5所示的示例的情况的示例的示图。如图6所示,如图5所示的示例,假设首先祖母“B”发出话语30a,然后祖父“A”发出话语30b。此后,与图5所示的示例不同,假设孙辈“F”向终端20发出淘气话语30d“播放组A的曲调”,终端20向服务器10发送话语30d的语音数据,并且服务器10确定话语30d是域内。在此处,假设孙子“F”的过去重述的成功频率小于预定阈值。因此,学习单元108可以确定不学习对应于话语30a的含义。在这种情况下,如图6所示,控制单元100可以将“组A的曲调”传送到“F”拥有的预定终端(例如,智能手机)。此外,稍后将描述的输出控制单元110使终端20输出语音40d,该语音40d发出尚未学习与话语30a相对应的含义的通知(换言之,已经传送“组A的曲调”)。
(2-1-5-2.学习结果的应用范围的确定)
-第一确定示例:习惯于语音输入
此外,当已经学习了与第一话语的语音识别结果相对应的含义时,学习单元108能够基于预定标准来确定一个或多个用户(在下文中,有时称为“学习结果的应用用户”),在每个用户中,当发出与第一话语基本相同的话语时,与第一话语基本相同的话语的含义被确定与和第一话语的语音识别结果相对应的含义的学习结果相同。例如,学习单元108可以基于关于第二话语的说话者是否习惯于语音输入的确定结果,来确定学习结果的应用用户。例如,当确定第二话语的说话者习惯于语音输入时,学习单元108可以将学习结果的应用用户确定为所有成员。此外,当确定第二话语的说话者不习惯语音输入时,学习单元108可以将学习结果的应用用户确定为仅是第二话语的说话者。
在此处,可以基于例如用户对语音输入的使用频率、用户话语的语音识别结果的可靠性、或者用户话语中是否存在语音犹豫或填充,来确定用户是否习惯于语音输入。可替代地,可以基于用户是否存在自信,来确定用户是否习惯于语音输入,基于用户的生物信息或用户的表达的分析结果来确定自信。可替代地,可以基于两个以上这些指标的组合,来确定用户是否习惯于语音输入。因此,可以提高确定的准确性。例如,当确定某个用户的话语的语音识别结果的可靠性高并且没有语音犹豫时,可以确定用户习惯于语音输入。
-第二确定示例:语音到达的范围
可替代地,学习单元108可以将那些已经被确定为存在于第二话语的语音物理到达的范围内的用户,确定为学习结果的应用用户。根据该方法当已经发出第二话语时未存在周围的那些人,可以作为学习结果的非应用对象用户被排除。这可以防止当未存在周围的那些人使用语音输入时获得意外的语音识别结果。在此处,可以例如通过基于在第二时间在说话者周围捕捉的图像,组合说话者的位置信息和图像识别结果,来确定语音到达的范围。可替代地,可以使用例如雷达,基于距说话者的距离的测量结果,来确定语音到达的范围。可替代地,例如,基于在第二时间在第二话语的说话者的时间表的登记内容,指定说话者应该位于的位置,由此可以确定语音到达的范围。
-第三确定示例:说话者的社区
可替代地,学习单元108可以将与第二话语的说话者属于同一社区(community,团体)的一个或多个用户确定为学习结果的应用用户,例如,根据第二话语的说话者的人口统计信息指定一个或多个用户。在此处,社区的示例包括家庭、游戏伙伴社区、聊天组和朋友。例如,当第二话语的说话者是“孙子”时,学习单元108可以将学习结果的应用用户确定为第二话语的说话者的家庭。
-第四确定示例:话语主题的社区
可替代地,学习单元108可以将属于与第一话语或第二话语的主题匹配的社区的一个或多个用户,确定为学习结果的应用用户。例如,当第一话语是“播放怀旧音乐”时,学习单元108可以确定第一话语的主题是“音乐”,并且可以将属于“音乐”社区的一个或多个用户确定为学习结果的应用用户。可替代地,当第二话语是包括特定游戏特有的短语的话语时,学习单元108可以将属于“游戏”社区的一个或多个用户确定为学习结果的应用用户。
-第五确定示例:期望个人化的话语
可替代地,当检测到第二话语是期望个人化的话语时,学习单元108可以确定学习结果的应用用户仅是第二话语的说话者。这种情况的具体示例包括这样的情况,其中,第一话语是对应于秘密密码的话语,并且第二话语是第一话语的重述(换言之,不希望其他用户记住该话语的情况)。在此处,检测话语是期望个人化的话语的方法的示例包括:检测第二话语的说话者是否使用麦克风发出了该话语;检测是否由耳语发出第二话语;检测第二话语的说话者在第二话语时是否已经执行了捂嘴的手势等。注意,可以通过例如不可听见的鸣叫识别或嘴唇识别来检测第二话语是否是耳语。
-具体示例
在此处,将参考图5更详细地描述学习单元108的上述功能。在图5所示的示例中,假设孙子“D”对语音输入的使用频率等于或大于预定阈值。因此,学习单元108可以将与话语30a相对应的含义的学习结果的应用用户,确定为存在该地方的所有用户(即,“A”、“B”、“C”、“D”和“F”)。可替代地,学习单元108可以将学习结果的应用用户确定为仅是“D”的家人。
{2-1-6.输出控制单元110}
(2-1-6-1.学习完成的通知)
-第一通知示例
输出控制单元110控制来自终端20的信息(例如,视频、声音等)的输出。例如,当学习单元108已经学习了与第一话语的语音识别结果相对应的含义时,输出控制单元110使终端20输出通知语音(例如,文本到语音(TTS)等),指示已经学习与第一话语的语音识别结果相对应的含义。
在此处,将参考图7更详细地描述上述功能。图7是示出在图5所示的示例中控制终端20的输出的示例的示图。图7示出了紧接在学习单元108确定学习对应于话语30c的含义之后的情况。如图7所示,首先,输出控制单元110基于对应于话语30c的含义的分析结果,使终端20开始输出“AAABB歌曲集”。此外,输出控制单元110使终端20输出通知语音40e,该通知语音40e指示已经学习了对应于话语30a的含义,例如,“在‘祖母’的‘营造怀旧气氛’的请求下播放AAABB歌曲集”,并且指示学习的内容。
-第二通知示例
当学习单元108已经学习到对应于某一话语的含义与对应于多个其他话语中的每一个的含义相同时,输出控制单元110还能够使终端20输出发出关于该学习结果的通知的语音。例如,输出控制单元110首先选择例如多个其他话语中的任何一个,作为要发出通知的话语。接下来,输出控制单元110确定要通知的用户。然后,输出控制单元110使终端20向要通知的用户输出发出通知的语音,该通知表示已经学习到,对应于要发出通知的话语的含义和对应于特定话语的含义是相同的。例如,输出控制单元110首先使终端20使用第一TTS输出特定话语的内容,并且使终端20使用第二TTS输出要发出通知的话语的内容。例如,假设某个话语是“播放BGM”,并且将要发出通知的话语的内容是“指示再现组A的歌曲”。在这种情况下,例如,输出控制单元110可以使终端20使用第一TTS输出语音“播放BGM”,并且紧接其后,可以使终端20使用第二TTS输出语音“将在……的请求下传送组A的歌曲X”。
注意,输出控制单元110可以使终端20仅在特定时间输出该通知语音。例如,仅当终端20输出“歌曲X”的音量等于或小于预定阈值时,输出控制单元110可以使终端20输出该通知语音。可替代地,当终端20周围的噪声量变得等于或低于预定阈值时,输出控制单元110可以使终端20输出该通知语音。
接下来,将更详细地描述选择要发出通知(关于该通知语音)的话语的示例。例如,输出控制单元110可以从多个其他话语中选择具有最高自然语言理解可靠性的话语,作为要发出通知的话语,或者可以从多个其他话语中选择首先发出的话语,或者可以选择最后发出的话语。可替代地,输出控制单元110可以选择说话时识别的说话者的行为程度(行为的幅度、频率等)最大的话语,作为要发出通知的话语。可替代地,对于多个其他语音中的每一个,输出控制单元110可以基于说话时的重要信息或语音的非语言信息,来确定说话时的兴奋程度,并且可以选择说话时的兴奋程度最大的话语,作为要发出通知的话语。
在下文中,将更详细地描述确定要通知的上述用户的示例。例如,输出控制单元110可以将位于终端20周围的所有用户确定为要通知的用户。可替代地,输出控制单元110可以将当前忙碌程度(例如,行为频率)最小的人确定为要通知的用户。可替代地,输出控制单元110可以将处于终端20的感测范围内的“收听状态”的一个或多个用户确定为要通知的用户。基于例如用户的眨眼频率是否为低,可以检测每个用户是否处于收听状态。
(2-1-6-2.基于学习结果的输出控制)
当学习单元108已经学习了与第一话语的语音识别结果相对应的含义时,输出控制单元110能够基于学习结果控制终端20关于信息的输出。
图8是示出在图5所示的示例中学习单元108执行学习之后,控制终端20关于输出的示例的示图。如图8所示,假设祖父“A”已经向终端20发出了与图5所示的话语30a相同的话语32,并且终端20已经向服务器10发送了话语32的语音数据。在这种情况下,首先,基于学习单元108的这种学习结果,服务器10的语义分析单元104分析出,对应于话语32的含义是“指示再现AAABB歌曲集”(换言之,与对应于图5所示的话语30c的含义相同的含义)。然后,输出控制单元110基于分析结果使终端20开始输出“AAABB歌曲集”。
{2-1-7.通信单元120}
通信单元120可被配置为包括稍后描述的通信装置166。通信单元120向其他装置发送信息,并且从其他装置接收信息。例如,通信单元120根据输出控制单元110的控制向终端20发送各种信息。此外,通信单元120从终端20接收各种感测结果。
{2-1-8.存储单元122}
存储单元122可被配置为包括稍后描述的存储装置164。存储单元122存储各种数据和各种软件。例如,存储单元122存储学习单元108的这种学习结果的历史。
<2-2.应用示例>
上面已经描述了本实施方式的配置。接下来,将参考图9至图13描述本实施方式的应用示例。在本应用示例中,如图9所示,示出了兄弟“H”、兄弟“I”和祖父“A”是家庭成员,以及“H”、“G”和“J”属于同一游戏社区的示例。在本应用示例中,假设如图10所示,首先,“H”向终端20发出话语30a“BAN怎么样?”,并且终端20向服务器10发送话语30a的语音数据,并且服务器10确定该话语30a是OOD。假设此后,“H”向终端20发出话语30b“我指的是刚才BAN完成的场景”,作为对话语30a的重述,并且终端20向服务器10发送话语30b的语音数据,并且服务器10确定话语30b也是OOD。假设此后,“G”向终端20发出话语30c“再现在游戏X中完成BAN时记录的运动图像”,作为话语30a的重述,终端20向服务器10发送话语30c的语音数据,并且服务器10确定该话语30c是域内。在此处,假设“G”的过去重述的成功频率等于或大于预定阈值。因此,学习单元108能够确定学习对应于话语30a的含义,并且能够学习对应于话语30a的含义,使得对应于话语30a的含义与对应于话语30c的含义相同。
此外,在本应用示例中,假设由“G”对语音输入的使用频率等于或大于预定阈值。因此,学习单元108能够将与话语30a相对应的学习结果的应用用户(即,应用用户是一个或多个用户,其中,当发出与话语30a基本相同的话语时,话语的含义与和话语30a的语音识别结果相对应的含义的学习结果相同)确定为仅属于上述游戏社区的用户(即,“G”、“H”和“J”),如图11中的框架所示。
假设此后,如图12所示,例如,几天后,“H”向终端20发出与图10所示的话语30a基本相同的话语32a“BAN今天怎么样?”,并且终端20已经向服务器10发送了话语32a的语音数据。在这种情况下,首先,服务器10的语义分析单元104确认“H”是对应于话语30a的含义的学习结果的应用用户。接下来,基于学习单元108的学习结果,语义分析单元104分析对应于话语32a的含义是“指示再现游戏X的运动图像”(换言之,与对应于图10所示的话语30c的含义相同的含义)。然后,输出控制单元110基于分析结果使终端20开始输出“游戏X的运动图像”。
假设,如图13所示,例如,此后,“I”已经向终端20发出与图10所示的话语30a基本相同的话语32b“我的BAN怎么样”,并且终端20已经向服务器10发送话语32b的语音数据。在这种情况下,首先,服务器10的语义分析单元104确认“I”不是对应于话语30a的含义的学习结果的应用用户。接下来,语义分析单元104确定不使用学习单元108的学习结果,以便分析对应于话语32b的含义。然后,语义分析单元104确定话语32b是OOD。此后,输出控制单元110使终端20输出指示确定结果的通知语音42b。
<2-3.处理流程>
{2-3-1.处理的整体流程}
上面已经描述了本实施方式的应用示例。接下来,将描述根据本实施方式的处理流程。图14是示出根据本实施方式的处理流程的示例的流程图。如图14所示,首先,服务器10执行稍后描述的“语音输入处理”(S101)。
此后,服务器10的重述确定单元106确定在S101中输入的最新话语是否是已经输入的话语的重述(S103)。当确定话语不是重述时(S103:否),服务器10执行稍后描述的S117的处理。
同时,当确定该话语是已经输入的话语的重述时(S103:是),则语义分析单元104确定该话语是否是域内(S105)。当确定话语不是域内时(即,是OOD)(S105:否),服务器10再次执行S101以及之后的处理。
同时,当确定该话语是域内时(S105:是),服务器10的控制单元100首先将关于该话语的信息(例如语音识别结果)记录在存储单元122中。(S107)。
随后,学习单元108执行稍后将描述的“用于确定是否学习的处理”(S109)。当确定不学习S109中的话语时(S111:否),服务器10执行稍后描述的S117的处理。
同时,当确定学习S109中话语时(S111:是),学习单元108执行稍后描述的“用于确定学习结果的应用范围的处理”(S113)。
随后,学习单元108基于对应于第二话语的语音识别结果的含义,学习对应于另一话语(第一话语)的语音识别结果的含义,该另一话语对应于第二话语并且在该话语(第二话语)之前收集(S115)。
此后,控制单元100执行对应于话语的语音识别结果的处理(S117)。
{2-3-2.语音输入处理}
在此处,将参考图15和图16更详细地描述S101中的“语音输入处理”的流程。图15和图16是均示出“语音输入处理”流程的一部分的流程图。如图15所示,首先,终端20开始各种类型的感测,例如,声音收集。然后,每当获取各种感测结果时,终端20依次将获取的单独感测结果发送到服务器10(S201)。
此后,当在S201中收集语音时,服务器10的语音识别单元102识别该语音(S203)。随后,语音识别单元102获取对应于S203中的识别结果的文本数据(S205)。随后,语音识别单元102获取S203中的语音识别结果的置信度值(S207)。此外,语音识别单元102确定语音是否包含语音犹豫或填充词(S209)。此后,服务器10执行稍后将描述的S241、S245、S251和S253的处理。
此外,当在S201中收集语音时,控制单元100基于例如在收集语音时由终端20捕捉的捕捉图像来识别语音的说话者(S211)。随后,控制单元100从存储单元122提取与S211中识别的说话者的话语相关的学习历史数据(S213)。随后,控制单元100从存储单元122提取历史数据,该历史数据指示学习在S211中识别的说话者的话语时的语音输入内容(S215)。此后,服务器10执行稍后将描述的S241、S245、S251和S253的处理。
此外,在S201之后,控制单元100基于例如由终端20捕捉的说话者的图像、由终端20收集的语音等来识别说话者的感觉(S217)。当终端20收集语音时,控制单元100进一步通过指定非语言信息来获取语音的非语言信息(例如,音量、语调等)(S219)。随后,控制单元100基于由终端20获取的各种感测结果(例如,说话者的生物信息等)来指定说话者的兴奋程度(S221)。此后,服务器10执行稍后将描述的S241、S245、S251和S253的处理。
此外,在S201之后,控制单元100基于例如由终端20捕捉的说话者的图像来识别说话者的手势(S223),并且获取所识别的手势的数据(S225)。此后,服务器10执行稍后将描述的S241、S245、S251和S253的处理。
此外,在S201之后,控制单元100基于例如由终端20捕捉的说话者的图像来识别说话者的视线(S227),并且获取视线的数据(S229)。此后,服务器10执行稍后将描述的S241、S245、S251和S253的处理。
此外,在S201之后,控制单元100基于例如由终端20获取的说话者的生物信息对说话者执行生物识别(S231)。然后,控制单元100获取说话者的心率数据(S233)。此外,控制单元100基于获取的生物信息确定说话者是否对话语有自信(S235)。
在此处,将参考图16描述S235(以及S209、S215、S221、S225、S229)之后的处理流程。如图16所示,在S235之后,首先,控制单元100基于终端20的声音收集结果,执行用于识别环境声音的处理(S241)。随后,控制单元100基于S241中的识别结果指定说话者周围的噪声状况(S243)。此后,控制单元100执行稍后描述的“用于更新学习结果的应用范围的处理”(S255)。
此外,在S235之后,控制单元100对由终端20捕捉的图像执行图像识别处理(S245)。随后,控制单元100基于S245中的识别结果来指定说话者的位置信息(S247)。此外,控制单元100基于S245中的识别结果来识别存在在说话者周围的人,并且基于这样的识别结果来获取这些人的人口统计信息(S249)。此后,控制单元100执行S255的处理。
此外,在S235之后,控制单元100获取终端20的位置信息,基于终端20从定位卫星(例如,GPS)接收的信号来指定该位置信息(S251)。此后,控制单元100执行S255的处理。
此外,在S235之后,控制单元100指定例如在调度器中登记的说话者的时间表的内容,并且基于指定的内容,指定说话者应该位于的位置(S253)。此后,控制单元100执行S255的处理。
{2-3-3.用于更新学习结果的应用范围的处理}
接下来,参考图17,将给出S255中的“用于更新学习结果的应用范围的处理”的流程的描述。如图17所示,首先,控制单元100基于由终端20获取的各种感测结果(捕捉的图像等),确定包括在应用学习结果的对象范围中的人是否正在与另一个人谈话(S301)。当确定这个人没有与另一个人谈话时(S301:否),该“用于更新学习结果的应用范围的处理”结束。
同时,当确定这个人正在与另一个人谈话时(S301:是),首先,控制单元100获取关于伙伴的数据,应用学习结果的对象范围中包括的人正在与该伙伴谈话(S303)。
随后,控制单元100确定在这样的对话期间这个人面向另一个人的时间长度是否等于或大于预定时间(S305)。当这个人面向这样的另一个人的时间长度小于预定时间时(S305:否),该“用于更新学习结果的应用范围的处理”结束。
同时,当这个人面向这样的另一个人的时间长度等于或大于预定时间时(S305:是),则控制单元100确定在该对话中进行的回合(turn)数是否已经等于或大于预定阈值(S307)。当对话中进行的回合数小于预定阈值时(S307:否),该“用于更新学习结果的应用范围的处理”结束。
同时,当对话中进行的回合数已经等于或大于预定阈值时(S307:是),学习单元108将这个人正在交谈的伙伴添加到应用学习结果的对象范围(S309)。
{2-3-4.用于确定是否学习的处理}
接下来,将参考图18描述S109中的“用于确定是否学习的处理”的流程。如图18所示,学习单元108确定说话者过去的成功学习的次数是否等于或大于预定阈值(S401)。当说话者过去的成功学习的次数等于或大于预定阈值时(S401:是),学习单元108确定学习话语(S403)。同时,当说话者过去的成功学习的次数在预定阈值以下时(S401:否),学习单元108确定不学习话语(S405)。
注意,S109的处理流程不限于图18所示的示例。例如,可以应用图19至图22所示的“第一变型”至“第四变型”中的任何一个,代替图18所示的示例作为S109的处理流程。可替代地,可以并行执行“第一变型”到“第四变型”中的任何两个以上和图18中所示的示例,并且可以将这些结果组合在一起。
(2-3-4-1.第一变型)
图19是示出根据S109的第一变型的处理流程的流程图。如图19所示,在本变型中,学习单元108确定紧接在该话语之前收集的另一话语的时间、和该话语的时间之间的话语的说话者的兴奋程度的差异是否等于或小于预定阈值(S411)。当话语的说话者的兴奋程度的差异大于预定阈值时(S411:否),学习单元108确定学习该话语(S413)。另一方面,当说话者的兴奋程度的差异等于或小于预定阈值时(S411:是),学习单元108确定不学习该话语(S415)。
(2-3-4-2.第二变型)
图20是示出根据S109的第二变型的处理流程的流程图。如图20所示,在本变型中,学习单元108确定由话语的说话者的心率数据指示的值是否等于或大于预定阈值(S421)。当心率数据指示的值小于预定阈值时(S421:否),学习单元108确定学习话语(S423)。另一方面,当心率数据指示的值等于或大于预定阈值时(S421:是),学习单元108确定不学习话语(S425)。
(2-3-4-3.第三变型)
图21是示出根据S109的第三变型的处理流程的流程图。如图21所示,在本变型中,学习单元108确定话语的说话者过去执行的语音输入的数量是否等于或大于预定阈值(S431)。当说话者过去执行的语音输入的数量等于或大于预定阈值时(S431:是),学习单元108确定学习话语(S433)。另一方面,当说话者过去执行的语音输入的数量小于预定阈值时(S431:否),学习单元108确定不学习话语(S435)。
(2-3-4-4.第四变型)
图22是示出根据S109的第四变型的处理流程的流程图。如图22所示,在本变型中,学习单元108确定话语的说话者是否在说话时执行了伴随摇头动作的手势(S441)。当话语的说话者在说话时没有执行伴随摇头动作的手势时(S441:否),学习单元108确定学习该话语(S443)。另一方面,当话语的说话者在说话时已经执行了伴随摇头动作的手势时(S441:是),学习单元108确定不学习该话语(S445)。
{2-3-5.用于确定学习结果的应用范围的处理}
接下来,参考图23,将给出S113中的“用于确定学习结果的应用范围的处理”的流程的描述。如图23所示,学习单元108确定话语的说话者过去执行的语音输入的数量是否等于或大于预定阈值(S501)。当说话者过去执行的语音输入的数量等于或大于预定阈值时(S501:是),学习单元108确定将存在于终端20周围的所有被识别的人登记为学习结果的应用对象用户(S503)。另一方面,当说话者过去执行的语音输入的数量小于预定阈值时(S501:否),学习单元108确定仅将说话者登记为学习结果的这种应用对象用户(S505)。
注意,S113的处理流程不限于图23所示的示例。例如,可以应用图24至图28中所示的“第一变型”至“第五变型”中的任何一个,代替图23中所示的示例作为S113的处理流程。可替代地,可以并行执行“第一变型”到“第五变型”中的任何两个以上和图23中所示的示例,并且可以将这些结果组合在一起。
(2-3-5-1.第一变型)
图24是示出根据S113的第一变型的处理流程的流程图。如图24所示,在本变型中,学习单元108确定该话语的说话者和紧接在该话语之前收集并被确定为OOD的另一话语的说话者是否属于同一团体(S511)。当这两者都属于同一团体时(S511:是),学习单元108确定将属于该团体的所有人登记为学习结果的应用对象用户(S513)。另一方面,当这两者不属于同一团体时(S511:否),学习单元108确定仅将说话者登记为学习结果的这种应用对象用户(S515)。
(2-3-5-2.第二变型)
图25是示出根据S113的第二变型的处理流程的流程图。如图25所示,在本变型中,学习单元108确定是否存在距***的距离(例如,距终端20的距离)在预定阈值内的一个或多个人(S521)。当存在距***的距离在预定阈值内的一个或多个人时(S521:是),学习单元108将所有这些人登记为学习结果的应用对象用户(S523)。另一方面,当没有人距***的距离在预定阈值内时(S521:否),学习单元108仅将说话者登记为学习结果的这种应用对象用户(S525)。
(2-3-5-3.第三变型)
图26是示出根据S113的第三变型的处理流程的流程图。如图26所示,在本变型中,学习单元108确定是否存在距说话者的距离在预定阈值内的一个或多个人(S531)。当存在距说话者的距离在预定阈值内的一个或多个人时(S531:是),学习单元108将所有这些人登记为学习结果的应用对象用户(S533)。另一方面,当没有人距说话者的距离在预定阈值内时(S531:否),学习单元108仅将说话者登记为学习结果的这种应用对象用户(S535)。
(2-3-5-4.第四变型)
图27是示出根据S113的第四变型的处理流程的流程图。如图27所示,在本变型中,首先,语义分析单元104对与话语的语音识别结果相对应的文本执行预定的自然语言处理(S541),并提取与话语相对应的主题(S543)。随后,学习单元108确定是否存在与提取的主题匹配的社区(S545)。当存在与主题匹配的社区时(S545:是),学习单元108确定将属于该社区的所有成员登记为学习结果的应用对象用户(S547)。另一方面,当不存在与主题匹配的社区时(S545:否),学习单元108确定仅将说话者登记为学习结果的这样的应用对象用户(S549)。
(2-3-5-5.第五变型)
图28是示出根据S113的第五变型的处理流程的流程图。如图28所示,在本变型中,首先,学习单元108基于由终端20获取的说话时的感测结果(捕捉图像等),确定话语的说话者在说话时是否已经捂住嘴(S551)。当确定说话者在说话时已经捂住嘴时(S551:是),学习单元108确定仅将说话者登记为学习结果的应用对象用户(S559)。
另一方面,当确定说话者在说话时没有捂住嘴时(S551:否),则学习单元108确定该说话是否是耳语(S553)。当话语是耳语时(S553:是),学习单元108确定仅将说话者登记为学习结果的应用对象用户(S559)。
另一方面,当话语不是耳语时(S553:否),则学习单元108确定在说话时使用的麦克风是否是说话者的个人麦克风(S555)。当确定麦克风是说话者的个人麦克风时(S555:是),学习单元108确定仅将说话者登记为学习结果的应用对象用户(S559)。另一方面,当确定麦克风不是说话者的个人麦克风时(S555:否),服务器10执行S501、S511、S521、S531或S541和之后的处理,如图23至图27所示。
<2-4.效果>
{2-4-1.第一效果}
如上所述,基于关于在第一时间之后的第二时间收集的第二话语是否是在第一时间收集的第一话语的重述的确定结果,根据本实施方式的服务器10学习与第一话语的语音识别结果相对应的含义。因此,可以适当地学习与第一话语的语音识别结果相对应的含义。
例如,当确定第二话语是第一话语的重述时,无法指定与第一话语的语音识别结果相对应的含义,并且能够指定与第二话语的语音识别结果相对应的含义,然后,服务器10基于与第二话语的语音识别结果相对应的含义,来学习与第一话语的语音识别结果相对应的含义。由于这个原因,即使在OOD的话语之后,用户也重述这样的域内话语,由此可以使服务器10学习到对应于OOD的话语的含义与对应于域内话语的含义相同。结果,可以提高语音输入的便利性。
{2-4-2.第二效果}
此外,服务器10能够基于第一时间的上下文和第二时间的上下文之间的关系,来确定是否学习与第一话语的语音识别结果相对应的含义。为此,服务器10可以准确地确定第二话语是否是第一话语的重述,相应地,可以适当地学习与第一话语的语音识别结果相对应的含义。
此外,当已经确定学习与第一话语的语音识别结果相对应的含义时,服务器10可以响应于该情况适当地确定应用学习结果的一个或多个用户(即,一个或多个用户,在每个用户中,当发出与第一话语基本相同的话语时,与第一话语基本相同的话语的含义被确定为与和第一话语的语音识别结果相对应的含义的学习结果相同)。
<<3.应用示例>>
本实施方式不限于上述示例,并且各种应用示例都是适用的。接下来,将在“3-1.第一应用示例”至“3-3.第三应用示例”中描述本实施方式的应用示例。注意,根据每个应用示例的服务器10中包括的每个组件与图3所示的示例中的相同。在下文中,将仅描述具有不同于上述实施方式的功能的组件,并且将省略对相同内容的描述。
<3-1.第一应用示例>
首先,将描述根据本实施方式的第一应用示例。根据第一应用示例,服务器10能够动态地增加和减少学习结果的应用用户。
{3-1-1.学习单元108}
根据第一应用示例的学习单元108基于预定标准动态地增加或减少学习结果的应用用户。例如,当确定学习结果的非应用对象用户的身体的方向、或其视线,面向学习结果的应用用户的时间长度是预定时间以上时,学习单元108可以动态地将该用户添加为学习结果的这种应用对象用户。可替代地,例如,当确定在学习结果的非应用对象用户和学习结果的应用用户之间的对话中进行的回合数(根据语音识别的结果和说话者识别的结果指定该回合数)已经达到预定阈值以上时,学习单元108可以动态地将该用户添加为学习结果的应用对象用户。可替代地,当学习结果的应用用户都是某个聊天组的成员,并且任何成员离开聊天组时,学习单元108可以从学习结果的应用用户中动态地排除这个离开的成员。
{3-1-2.应用示例}
在此处,将参考图29和图30描述第一应用示例的应用示例。在本应用示例中,假设学习结果的应用用户和学习结果的非应用对象用户在初始时间点与图11所示的示例中相同。换言之,学习结果的应用用户是“G”、“H”和“J”,而学习结果的非应用对象用户是“I”和“A”。
首先,如图29所示,首先假设“H”和“I”彼此面向并进行友好的对话。在这种情况下,学习单元108确定“I”对于“H”有效,并且临时添加“I”,作为学习结果的应用用户。假设此后,如图29所示,例如,“I”已经向终端20发出与图10所示的话语30a基本上相同的话语34a“BAN怎么样?”,并且终端20已经向服务器10发送了话语34a的语音数据。在这种情况下,首先,基于学习单元108的学习结果,服务器10的语义分析单元104分析,对应于话语34a的含义是“指示再现游戏X的运动图像”(换言之,与对应于图10所示的话语30c的含义相同的含义)。然后,输出控制单元110基于分析结果使终端20开始输出“游戏X的运动图像”。
假设此后,如图30所示,“A”已经与“I”交谈,“H”已经移动到另一个地方。在这种情况下,学习单元108确定“I”对于“H”无效,并且从学习结果的应用用户中排除“I”。
<3-2.第二应用示例>
上面已经描述了第一应用示例。接下来,将描述根据本实施方式的第二应用示例。根据第二应用示例,服务器10能够询问学习结果的至少一个应用用户,以动态增加学习结果的应用用户。
{3-2-1.学习单元108}
当已经确定动态添加一个或多个用户,作为学习结果的应用用户时,根据第二应用示例的学习单元108询问学习结果的应用用户中的至少一个关于是否允许添加一个或多个用户。此外,当已经从学习结果的应用用户获得指示允许添加一个或多个用户的回答时,学习单元108动态地添加一个或多个用户,作为学习结果的应用用户。
{3-2-2.应用示例}
在此处,将参考图31和图32描述第二应用示例的应用示例。在本应用示例中,假设学习结果的应用用户和学习结果的非应用对象用户在初始时间点分别与第一应用示例中相同(即,与图11所示的示例中相同)。
首先,如图31所示,首先假设“H”和“I”彼此面向并进行友好的对话。在这种情况下,学习单元108确定“I”对于“H”有效,并且确定临时添加“I”,作为学习结果的应用用户。然后,学习单元108使终端20向“H”输出例如这样的语音46a,以询问“H”关于是否允许将“I”添加到学习结果的应用用户。语音46a是例如“I可以对‘H’提要求吗,该要求是‘BAN怎么样?’,对“I”也有效?”。假设此后,如图31所示,“H”已经发出话语36,以允许终端20进行该询问的语音,并且终端20已经向服务器10发送了话语36的语音数据。在这种情况下,学习单元108基于话语36的语音识别结果向学习结果的应用用户动态地添加“I”。
假设此后,如图32所示,“A”已经与“I”交谈,“H”已经移动到另一个地方。在这种情况下,学习单元108确定“I”对于“H”无效,并且从学习结果的应用用户中排除“I”。此外,如图32所示,输出控制单元110使终端20输出语音46b,该语音发出已经从学习结果的应用用户中排除“I”的通知。
{3-2-3.处理流程}
接下来,将参考图33描述根据第二应用示例的处理流程。除了图17所示的“用于更新学习结果的应用范围的处理”之外,该处理的流程与上述实施方式的流程相同。此外,如图33所示,S301至S307与图17所示的示例相同。
当在S307中对话中进行的回合数等于或大于预定阈值时(S307:是),学习单元108使终端20输出TTS,用于询问是否允许将与该用户交谈的伙伴添加到应用学习结果的对象范围(S321)。
此后,当从用户获得指示同意询问的回答时(S323),学习单元108将与该用户交谈的伙伴动态地添加到应用学习结果的对象范围(S309)。
<3-3.第三应用示例>
上面已经描述了第二应用示例。接下来,将描述根据本实施方式的第三应用示例。根据第三应用示例,当在收集到该OOD的话语之后连续收集到与该OOD的话语相对应的域内的两条话语时,服务器10可以适当地将与这两条话语中的任一条相对应的学习对象含义确定为与该OOD的话语相对应的含义。
{3-3-1.学习单元108}
当确定上述第二话语是第一话语的重述,并且确定在第二时间之后的第三时间收集的第三话语也是第一话语的重述时,则基于与第二话语的语音识别结果相对应的含义或者与第三话语的语音识别结果相对应的含义,根据第三变型的学习单元108学习与第一话语的语音识别结果相对应的含义。例如,基于预定标准,学习单元108选择与第二话语的语音识别结果相对应的含义和与第三话语的语音识别结果相对应的含义中的任一者,作为学习与第一话语的语音识别结果相对应的含义的基础。
在此处,预定标准可以是指示第一话语的说话者和第二话语的说话者之间的关系的信息、以及指示第一话语的说话者和第三话语的说话者之间的关系的信息。可替代地,预定标准可以是第一话语的说话者的人口统计信息。可替代地,预定标准可以是对应于第二话语的语音识别结果的含义的抽象程度和对应于第三话语的语音识别结果的含义的抽象程度之间的比较结果。例如,学习单元108可以确定学习与第二话语的语音识别结果相对应的含义和与第三话语的语音识别结果相对应的含义之间的抽象程度较低的含义,作为与第一话语的语音识别结果相对应的含义。
{3-3-2.应用示例}
在此处,将参考图34和图35描述第三应用示例的应用示例。在本应用示例中,假设初始时间点的用户之间的关系与图4所示的示例中的相同。
如图34所示,假设确定,首先,祖母“B”向终端20发出话语30a“营造怀旧气氛”,终端20向服务器10发送话语30a的语音数据,并且服务器10确定话语30a是OOD。假设此后,孙子“D”向终端20发出话语30c“播放我祖父母喜欢的音乐”,作为对话语30a的重述,终端20向服务器10发送话语30c的语音数据,并且服务器10确定话语30c是域内。此外,假设紧接其后,祖父“A”向终端20发出话语30d“是指‘播放XYZ’”,作为对话语30a的重述,终端20向服务器10发送话语30d的语音数据,并且服务器10确定话语30d也是域内。在这种情况下,例如,学习单元108可以确定“D”和“A”具有比“D”和“B”更紧密的关系,并且可以学习对应于话语30a的含义,使得对应于话语30a的含义变得与对应于话语30d的含义相同。
(3-3-2-1.变型)
作为变型,学习单元108可以学习对应于话语30c的含义和对应于话语30d的含义,作为对应于话语30a的含义。在下文中,将参考图35描述根据该变型的应用示例。如图35所示,假设在学习之后,例如,“A”已经向终端20发出与话语30a基本相同的话语38a,并且终端20已经向服务器10发送了话语38a的语音数据。在这种情况下,首先,基于学习单元108的学习结果,服务器10的语义分析单元104分析,存在对应于话语30c的含义和对应于话语30d的含义,作为对应于话语38a的含义。然后,如图35所示,基于分析的结果,输出控制单元110使终端20向“A”输出语音48(例如,“你想要哪一个,AAABB歌曲集还是XYZ歌曲集?”),用于询问将执行与话语30c的含义相对应的处理(即,再现“AAABB歌曲集”)和与话语30d的含义相对应的处理(即,再现“XYZ歌曲集”)中的哪一个。假设此后,如图35所示,“A”已经向终端20发出话语38b(例如,“播放XYZ歌曲集”等),指示执行与话语30d的含义相对应的处理(即,再现“XYZ歌曲集”),并且终端20已经向服务器10发送话语38b的语音数据。在这种情况下,输出控制单元110使终端20基于话语38b的语音识别结果开始输出“XYZ歌曲集”。
<<4.硬件配置>>
接下来,将参考图36描述根据本实施方式的服务器10的硬件配置的示例。如图36所示,服务器10包括CPU 150、只读存储器(ROM)152、随机存取存储器(RAM)154、总线156、接口158、输入装置160、输出装置162、存储装置164和通信装置166。
CPU 150用作算术处理装置和控制装置,并根据各种程序控制服务器10中的整体操作。此外,CPU 150在服务器10中实现控制单元100的功能。注意,CPU 150由处理器(例如,微处理器)组成。
ROM 152存储由CPU 150使用的程序、控制数据(例如,操作参数)等。
RAM 154临时存储例如要由CPU 150执行的程序、使用中的数据等。
总线156由CPU总线等组成。总线156将CPU 150、ROM 152和RAM 154相互连接。
接口158将输入装置160、输出装置162、存储装置164和通信装置166连接到总线156。
输入装置160包括:用于使用户输入信息的输入装置,例如,触摸面板、按钮、开关、杠杆和麦克风;以及输入控制电路,其基于用户的输入产生输入信号,并将输入信号输出到CPU 150。
输出装置162包括显示装置,例如,投影仪和显示器,例如,LCD和OLED。此外,输出装置162包括语音输出装置,例如,扬声器。
存储装置164是用于存储数据的装置,存储装置164用作存储单元122。存储装置164包括例如存储介质、在存储介质中记录数据的记录装置、从存储介质读取数据的读取装置、删除记录在存储介质中的数据的删除装置等。
通信装置166是由例如连接到通信网络22等的通信装置(例如,网卡等)组成的通信接口。此外,通信装置166可以是无线LAN兼容通信装置、长期演进(LTE)兼容通信装置、或者执行有线通信的有线通信装置。通信装置166用作通信单元120。
<<5.变型>>
上面已经参考附图详细描述了本公开的优选实施方式;然而,本公开不限于这些示例。显然,在本公开所涉及的技术领域中具有普通知识的那些技术人员,可以在权利要求中描述的技术思想的范围内设想各种修改或变更,并且应当理解,这些修改或变更也自然落入本公开的技术范围内。
<5-1.第一变型>
例如,终端20的配置不限于图2所示的示例。例如,终端20可以包括上述服务器10的控制单元100中包括的所有组件。在这种情况下,根据本公开的信息处理装置可以是终端20。此外,在该变型中,不必安装服务器10。
<5-2.第二变型>
作为另一变型,根据本公开的信息处理装置不限于服务器10,并且可以是包括上述服务器10的控制单元100中包括的所有组件的另一设备。例如,信息处理装置可以是通用个人计算机(PC)、平板终端、游戏机、移动电话(例如,智能手机)、便携式音乐播放器、扬声器、投影仪、可佩戴装置(例如,头戴式显示器(HMD)和智能手表)、车载装置(例如,汽车导航装置)或机器人(例如,人形机器人或自动驾驶车辆)。
<5-3.第三变型>
上述每个实施方式中的处理流程中的各个步骤不一定必须按照所描述的顺序来执行。例如,可以以适当改变的顺序来处理各个步骤。此外,各个步骤可以部分并行或单独处理,而不是按时间序列处理。此外,可以省略一些描述的步骤,或者可以进一步添加另一步骤。
此外,根据上述每个实施方式,还可以提供一种计算机程序,用于使硬件(例如,CPU 150、ROM 152和RAM 154)发挥与根据本实施方式的服务器10的各个组件相同的功能。此外,还提供了记录有计算机程序的存储介质。
此外,本说明书中描述的效果仅仅是说明性的或示例性的,而不是限制性的。即,除了上述效果之外或者代替上述效果,根据本公开的技术可以显示对于本领域技术人员来说从本说明书的描述中显而易见的其他效果。
注意,以下配置也在本公开的技术范围内。
(1)一种信息处理装置,包括:
学习单元,其被配置为基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,学习与第一语音的语音识别结果相对应的含义。
(2)根据(1)的信息处理装置,其中,学习单元还基于与第二语音的语音识别结果相对应的含义,来学习与第一语音的语音识别结果相对应的含义。
(3)根据(2)的信息处理装置,
其中,当确定第二语音是第一语音的重述时,学习单元基于与第二语音的语音识别结果相对应的含义,来学习与第一语音的语音识别结果相对应的含义,并且
其中,当确定第二语音不是第一语音的重述时,学习单元不学习与第一语音的语音识别结果相对应的含义。
(4)根据(3)的信息处理装置,其中,当确定第二语音是第一语音的重述时,无法指定与第一语音的语音识别结果相对应的含义,并且能够指定与第二语音的语音识别结果相对应的含义,然后,学习单元基于与第二语音的语音识别结果相对应的含义,来学习与第一语音的语音识别结果相对应的含义。
(5)根据(4)的信息处理装置,其中,学习单元学习与第一语音的语音识别结果相对应的含义,使得与第一语音的语音识别结果相对应的含义变得与和第二语音的语音识别结果相对应的含义相同。
(6)根据(2)至(5)中任一项的信息处理装置,其中,学习单元还基于第一时间的上下文和第二时间的上下文之间的关系,确定是否学习与第一语音的语音识别结果相对应的含义。
(7)根据(6)的信息处理装置,
其中,当确定关于第一时间的上下文和第二时间的上下文之间的差异的预定评估值满足预定条件时,学习单元确定不学习与第一语音的语音识别结果相对应的含义,并且
其中,当确定关于第一时间的上下文和第二时间的上下文之间的差异的预定评估值不满足预定条件时,学习单元确定基于与第二语音的语音识别结果相对应的含义,来学习与第一语音的语音识别结果相对应的含义。
(8)根据(6)或(7)的信息处理装置,
其中,第一语音是第一话语,
其中,第二语音是第二话语,并且
其中,学习单元还基于第二话语的说话者的过去重述的成功频率、或者第二话语的说话者对语音输入的使用频率,来确定是否学习与第一话语的语音识别结果相对应的含义。
(9)根据(6)至(8)中任一项的信息处理装置,其中,学习单元还基于关于第二语音的非语言信息和第一语音的非语言信息之间的差异的预定评估值,确定是否学习与第一语音的语音识别结果相对应的含义。
(10)根据(6)至(9)中任一项的信息处理装置,
其中,第一语音是第一话语,
其中,第二语音是第二话语,并且
其中,当已经确定学习与第一话语的语音识别结果相对应的含义时,学习单元还基于关于第二话语的说话者是否习惯于语音输入的确定结果,确定一个或多个第一用户,在每个第一用户中,当发出与第一话语基本相同的话语时,与第一话语基本相同的话语的含义被确定与和第一话语的语音识别结果相对应的含义的学习结果相同。
(11)根据(6)至(10)中任一项的信息处理装置,
其中,第一语音是第一话语,
其中,第二语音是第二话语,并且
其中,当已经确定学习与第一话语的语音识别结果相对应的含义时,学习单元进一步将一个或多个第一用户确定为与第二话语的说话者属于相同社区的一个或多个用户,在每个第一用户中,当发出与第一话语基本相同的话语时,与第一话语基本相同的话语的含义被确定与和第一话语的语音识别结果相对应的含义的学习结果相同。
(12)根据(10)或(11)的信息处理装置,其中,学习单元基于预定标准动态地增加或减少一个或多个第一用户。
(13)根据(12)的信息处理装置,
其中,当已经确定向一个或多个第一用户添加一个或多个第二用户时,学习单元询问一个或多个第一用户中的至少一个是否允许添加一个或多个第二用户,并且
其中,当已经获得指示允许添加一个或多个第二用户的回答时,学习单元将一个或多个第二用户添加到一个或多个第一用户。
(14)根据(6)至(13)中任一项的信息处理装置,
其中,第一语音是第一话语,
其中,第二语音是第二话语,并且
当确定第二话语是第一话语的重述,并且确定在第二时间之后的第三时间收集的第三话语也是第一话语的重述时,则基于与第二话语的语音识别结果相对应的含义、或者与第三话语的语音识别结果相对应的含义,学习单元学习与第一话语的语音识别结果相对应的含义。
(15)根据(14)的信息处理装置,其中,基于指示第一话语的说话者和第二话语的说话者之间的关系的信息、和指示第一话语的说话者和第三话语的说话者之间的关系的信息,学习单元选择与第二话语的语音识别结果相对应的含义和与第三话语的语音识别结果相对应的含义中的任一者,作为学习与第一话语的语音识别结果相对应的含义的基础。
(16)根据(14)或(15)的信息处理装置,其中,基于与第二话语的语音识别结果相对应的含义的抽象程度和与第三话语的语音识别结果相对应的含义的抽象程度之间的比较,学习单元选择与第二话语的语音识别结果相对应的含义和与第三话语的语音识别结果相对应的含义中的任一个,作为学习与第一话语的语音识别结果相对应的含义的基础。
(17)根据(1)至(16)中任一项的信息处理装置,还包括输出控制单元,输出控制单元被配置为当学习单元已经学习了与第一语音的语音识别结果相对应的含义时,使输出单元输出指示已经学习了与第一语音的语音识别结果相对应的含义的通知。
(18)根据(17)的信息处理装置,还包括确定单元,确定单元被配置为基于第二语音的语义分析的结果来确定第二语音是否是第一语音的重述,
其中,学习单元还基于确定单元的确定结果来学习与第一语音的语音识别结果相对应的含义。
(19)一种信息处理方法,包括:
使处理器基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,学习与第一语音的语音识别结果相对应的含义。
(20)一种程序,用于使计算机用作
学习单元,其被配置为基于关于在第一时间之后的第二时间收集的第二语音是否是在第一时间收集的第一语音的重述的确定结果,学习与第一语音的语音识别结果相对应的含义。
附图标记列表
10 服务器
20 终端
22 通信网络
100、200 控制单元
102 语音识别单元
104 语义分析单元
106 重述确定单元
108 学习单元
110 输出控制单元
120、220 通信单元
122、226 存储单元
222 传感器单元
224 输出单元。
Claims (20)
1.一种信息处理装置,包括:
学习单元,被配置为基于关于在第一时间之后的第二时间收集的第二语音是否是在所述第一时间收集的第一语音的重述的确定结果,学习与所述第一语音的语音识别结果相对应的含义。
2.根据权利要求1所述的信息处理装置,其中,所述学习单元还基于与所述第二语音的语音识别结果相对应的含义,来学习与所述第一语音的语音识别结果相对应的含义。
3.根据权利要求2所述的信息处理装置,
其中,当确定所述第二语音是所述第一语音的重述时,所述学习单元基于与所述第二语音的语音识别结果相对应的含义来学习与所述第一语音的语音识别结果相对应的含义,并且
其中,当确定所述第二语音不是所述第一语音的重述时,所述学习单元不学习与所述第一语音的语音识别结果相对应的含义。
4.根据权利要求3所述的信息处理装置,其中,当确定所述第二语音是所述第一语音的重述时,不能够指定与所述第一语音的语音识别结果相对应的含义,但是能够指定与所述第二语音的语音识别结果相对应的含义,然后,所述学习单元基于与所述第二语音的语音识别结果相对应的含义来学习与所述第一语音的语音识别结果相对应的含义。
5.根据权利要求4所述的信息处理装置,其中,所述学习单元学习与所述第一语音的语音识别结果相对应的含义,使得与所述第一语音的语音识别结果相对应的含义变得与和所述第二语音的语音识别结果相对应的含义相同。
6.根据权利要求2所述的信息处理装置,其中,所述学习单元还基于所述第一时间的上下文和所述第二时间的上下文之间的关系,确定是否学习与所述第一语音的语音识别结果相对应的含义。
7.根据权利要求6所述的信息处理装置,
其中,当确定关于所述第一时间的上下文和所述第二时间的上下文之间的差异的预定评估值满足预定条件时,所述学习单元确定不学习与所述第一语音的语音识别结果相对应的含义,并且
其中,当确定关于所述第一时间的上下文和所述第二时间的上下文之间的差异的所述预定评估值不满足所述预定条件时,所述学习单元确定基于与所述第二语音的语音识别结果相对应的含义来学习与所述第一语音的语音识别结果相对应的含义。
8.根据权利要求6所述的信息处理装置,
其中,所述第一语音是第一话语,
其中,所述第二语音是第二话语,并且
其中,所述学习单元还基于所述第二话语的说话者的过去重述的成功频率、或者所述第二话语的说话者对语音输入的使用频率,来确定是否学习与所述第一话语的语音识别结果相对应的含义。
9.根据权利要求6所述的信息处理装置,其中,所述学习单元还基于关于所述第二语音的非语言信息和所述第一语音的非语言信息之间的差异的预定评估值,确定是否学习与所述第一语音的语音识别结果相对应的含义。
10.根据权利要求6所述的信息处理装置,
其中,所述第一语音是第一话语,
其中,所述第二语音是第二话语,并且
其中,当已经确定学习与所述第一话语的语音识别结果相对应的含义时,所述学习单元还基于关于所述第二话语的说话者是否习惯于语音输入的确定结果,确定一个或多个第一用户,在每个第一用户中,当发出与所述第一话语基本相同的话语时,与所述第一话语基本相同的话语的含义被确定与和所述第一话语的语音识别结果相对应的含义的学习结果相同。
11.根据权利要求6所述的信息处理装置,
其中,所述第一语音是第一话语,
其中,所述第二语音是第二话语,并且
其中,当已经确定学习与所述第一话语的语音识别结果相对应的含义时,所述学习单元进一步将一个或多个第一用户确定为与所述第二话语的说话者属于相同社区的一个或多个用户,在每个第一用户中,当发出与所述第一话语基本相同的话语时,与所述第一话语基本相同的话语的含义被确定与和所述第一话语的语音识别结果相对应的含义的学习结果相同。
12.根据权利要求10所述的信息处理装置,其中,所述学习单元基于预定标准动态地增加或减少所述一个或多个第一用户。
13.根据权利要求12所述的信息处理装置,
其中,当已经确定向所述一个或多个第一用户添加一个或多个第二用户时,所述学习单元询问所述一个或多个第一用户中的至少一个第一用户是否允许添加所述一个或多个第二用户,并且
其中,当已经获得指示允许添加所述一个或多个第二用户的回答时,所述学习单元将所述一个或多个第二用户添加到所述一个或多个第一用户。
14.根据权利要求6所述的信息处理装置,
其中,所述第一语音是第一话语,
其中,所述第二语音是第二话语,并且
当确定所述第二话语是所述第一话语的重述,并且确定在所述第二时间之后的第三时间收集的第三话语也是所述第一话语的重述时,则所述学习单元基于与所述第二话语的语音识别结果相对应的含义和与所述第三话语的语音识别结果相对应的含义中的任一者,学习与所述第一话语的语音识别结果相对应的含义。
15.根据权利要求14所述的信息处理装置,其中,基于指示所述第一话语的说话者和所述第二话语的说话者之间的关系的信息、和指示所述第一话语的说话者和所述第三话语的说话者之间的关系的信息,所述学习单元选择与所述第二话语的语音识别结果相对应的含义和与所述第三话语的语音识别结果相对应的含义中的任一者,作为学习与所述第一话语的语音识别结果相对应的含义的基础。
16.根据权利要求14所述的信息处理装置,其中,基于与所述第二话语的语音识别结果相对应的含义的抽象程度和与所述第三话语的语音识别结果相对应的含义的抽象程度之间的比较,所述学习单元选择与所述第二话语的语音识别结果相对应的含义和与所述第三话语的语音识别结果相对应的含义中的任一者,作为学习与所述第一话语的语音识别结果相对应的含义的基础。
17.根据权利要求6所述的信息处理装置,还包括输出控制单元,所述输出控制单元被配置为当所述学习单元已经学习了与所述第一语音的语音识别结果相对应的含义时,使输出单元输出指示已经学习了与所述第一语音的语音识别结果相对应的含义的通知。
18.根据权利要求17所述的信息处理装置,还包括确定单元,所述确定单元被配置为基于所述第二语音的语义分析的结果,来确定所述第二语音是否是所述第一语音的重述,
其中,所述学习单元还基于所述确定单元的确定结果,来学习与所述第一语音的语音识别结果相对应的含义。
19.一种信息处理方法,包括:
使处理器基于关于在第一时间之后的第二时间收集的第二语音是否是在所述第一时间收集的第一语音的重述的确定结果,学习与所述第一语音的语音识别结果相对应的含义。
20.一种程序,用于使计算机用作:
学习单元,被配置为基于关于在第一时间之后的第二时间收集的第二语音是否是在所述第一时间收集的第一语音的重述的确定结果,学习与所述第一语音的语音识别结果相对应的含义。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-029347 | 2018-02-22 | ||
JP2018029347 | 2018-02-22 | ||
PCT/JP2018/044288 WO2019163247A1 (ja) | 2018-02-22 | 2018-11-30 | 情報処理装置、情報処理方法、および、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111727473A true CN111727473A (zh) | 2020-09-29 |
Family
ID=67687541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880089383.0A Withdrawn CN111727473A (zh) | 2018-02-22 | 2018-11-30 | 信息处理装置、信息处理方法和程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11398221B2 (zh) |
EP (1) | EP3757988A4 (zh) |
JP (1) | JP7375741B2 (zh) |
CN (1) | CN111727473A (zh) |
WO (1) | WO2019163247A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121155A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019163247A1 (ja) * | 2018-02-22 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP7363107B2 (ja) * | 2019-06-04 | 2023-10-18 | コニカミノルタ株式会社 | 発想支援装置、発想支援システム及びプログラム |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
JP4639094B2 (ja) | 2005-02-04 | 2011-02-23 | 株式会社日立製作所 | 音声認識システム、音声認識装置及び音声認識プログラム |
JP4816409B2 (ja) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
WO2008106655A1 (en) * | 2007-03-01 | 2008-09-04 | Apapx, Inc. | System and method for dynamic learning |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US9257115B2 (en) * | 2012-03-08 | 2016-02-09 | Facebook, Inc. | Device for extracting information from a dialog |
KR101907406B1 (ko) * | 2012-05-08 | 2018-10-12 | 삼성전자 주식회사 | 통신 서비스 운용 방법 및 시스템 |
US9538114B2 (en) * | 2013-02-22 | 2017-01-03 | The Directv Group, Inc. | Method and system for improving responsiveness of a voice recognition system |
KR102108500B1 (ko) * | 2013-02-22 | 2020-05-08 | 삼성전자 주식회사 | 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기 |
CN105190607B (zh) * | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10446141B2 (en) * | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
JP6305629B2 (ja) | 2015-03-19 | 2018-04-04 | 株式会社東芝 | 分類装置、方法及びプログラム |
JP6448765B2 (ja) * | 2015-03-20 | 2019-01-09 | 株式会社東芝 | 対話装置、方法及びプログラム |
JP6334815B2 (ja) | 2015-03-20 | 2018-05-30 | 株式会社東芝 | 学習装置、方法、プログラムおよび音声対話システム |
JP6280074B2 (ja) | 2015-03-25 | 2018-02-14 | 日本電信電話株式会社 | 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム |
JP6389787B2 (ja) | 2015-03-25 | 2018-09-12 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
JP2017117371A (ja) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御方法、制御装置およびプログラム |
CN107526720A (zh) * | 2016-06-17 | 2017-12-29 | 松下知识产权经营株式会社 | 意思生成方法、意思生成装置以及程序 |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10546578B2 (en) * | 2016-12-26 | 2020-01-28 | Samsung Electronics Co., Ltd. | Method and device for transmitting and receiving audio data |
US10354642B2 (en) * | 2017-03-03 | 2019-07-16 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
US11501768B2 (en) * | 2017-03-10 | 2022-11-15 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
EP3614330A4 (en) * | 2017-03-10 | 2020-11-18 | Koon Kim | LEARNING CONTENT PROVIDING DEVICE USING A BINARY PRINCIPLE, AND RELATED PROCESS |
US10600406B1 (en) * | 2017-03-20 | 2020-03-24 | Amazon Technologies, Inc. | Intent re-ranker |
US10567515B1 (en) * | 2017-10-26 | 2020-02-18 | Amazon Technologies, Inc. | Speech processing performed with respect to first and second user profiles in a dialog session |
US10715604B1 (en) * | 2017-10-26 | 2020-07-14 | Amazon Technologies, Inc. | Remote system processing based on a previously identified user |
WO2019142427A1 (ja) | 2018-01-16 | 2019-07-25 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP7347217B2 (ja) | 2018-02-09 | 2023-09-20 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
WO2019163247A1 (ja) * | 2018-02-22 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
-
2018
- 2018-11-30 WO PCT/JP2018/044288 patent/WO2019163247A1/ja unknown
- 2018-11-30 JP JP2020502034A patent/JP7375741B2/ja active Active
- 2018-11-30 EP EP18907172.3A patent/EP3757988A4/en not_active Withdrawn
- 2018-11-30 US US16/969,979 patent/US11398221B2/en active Active
- 2018-11-30 CN CN201880089383.0A patent/CN111727473A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121155A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3757988A1 (en) | 2020-12-30 |
JPWO2019163247A1 (ja) | 2021-02-04 |
WO2019163247A1 (ja) | 2019-08-29 |
EP3757988A4 (en) | 2021-03-31 |
US11398221B2 (en) | 2022-07-26 |
JP7375741B2 (ja) | 2023-11-08 |
US20200402498A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017765B2 (en) | Intelligent assistant with intent-based information resolution | |
US11508361B2 (en) | Sentiment aware voice user interface | |
JP7234926B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US11669300B1 (en) | Wake word detection configuration | |
CN112074900B (zh) | 用于自然语言处理的音频分析 | |
CN108701458B (zh) | 话音识别 | |
US20180293221A1 (en) | Speech parsing with intelligent assistant | |
US11763808B2 (en) | Temporary account association with voice-enabled devices | |
US11574637B1 (en) | Spoken language understanding models | |
KR20150104615A (ko) | 디지털 어시스턴트를 위한 음성 트리거 | |
CN114041283A (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
CN111727473A (zh) | 信息处理装置、信息处理方法和程序 | |
US11361764B1 (en) | Device naming-indicator generation | |
CN114762038A (zh) | 在多轮对话中的自动轮次描述 | |
US20180350362A1 (en) | Information processing apparatus | |
US11532301B1 (en) | Natural language processing | |
US20220059086A1 (en) | Learning how to rewrite user-specific input for natural language understanding | |
US11756538B1 (en) | Lower latency speech processing | |
US11626107B1 (en) | Natural language processing | |
WO2019221894A1 (en) | Intelligent device user interactions | |
JP2021117371A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
WO2023040658A1 (zh) | 语音交互方法及电子设备 | |
US11430435B1 (en) | Prompts for user feedback | |
US11790898B1 (en) | Resource selection for processing user inputs | |
CN118235197A (zh) | 选择性生成和/或选择性渲染用于所说出话语完成的延续内容 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200929 |