CN104781782A - 信息处理设备、信息处理方法和程序 - Google Patents

信息处理设备、信息处理方法和程序 Download PDF

Info

Publication number
CN104781782A
CN104781782A CN201380057286.0A CN201380057286A CN104781782A CN 104781782 A CN104781782 A CN 104781782A CN 201380057286 A CN201380057286 A CN 201380057286A CN 104781782 A CN104781782 A CN 104781782A
Authority
CN
China
Prior art keywords
image
user
control object
information handling
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380057286.0A
Other languages
English (en)
Inventor
大村淳己
河野道成
池田卓郎
冈田宪一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN104781782A publication Critical patent/CN104781782A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种信息处理包括:处理电路,被配置成生成用于控制显示装置的数据,以将与语音输入相关联的控制对象重叠在显示图像上,其中,显示图像是用户执行的姿势操作的反馈图像,并且显示图像是从摄像装置捕获图像得到的图像。

Description

信息处理设备、信息处理方法和程序
技术领域
本公开涉及一种信息处理设备、信息处理方法和程序。
本公开包含与2012年11月8日向日本专利局提交的日本优先权专利申请JP 2012-246118中公开的主题相关的主题,其全部内容通过引用合并于此。
背景技术
在过去,语音识别已被用作当输入到信息设施时辅助用户的技术。作为一个示例,JP 2012-58838公开了使用语音识别将用户产生的语音样本的内容转换为文本以及在用于多个用户之间的通信的屏幕上显示所获得的文本的技术。
引用列表
专利文献
PTL 1:JP 2012-58838A
发明内容
技术问题
然而,在许多情况下,在语音识别起作用并且语音输入有效的定时与用户产生用于语音识别的语音样本的定时之间存在偏差。如果这样的定时不匹配,则可能出现问题,诸如没有对期望的语音样本执行语音识别或者对不期望的语音样本执行语音识别。
因此,期望提供一种新颖且改进的构架,其辅助用户以适当的定时产生用于语音识别的语音样本。
问题的解决方案
根据一个实施例,描述了一种信息处理***,其包括处理电路,该处理电路被配置成生成用于控制显示装置的数据,以将与语音输入相关联的控制对象重叠在显示图像上,其中,显示图像是用户执行的姿势操作的反馈图像,并且显示图像是从摄像装置捕获图像获得的图像。
根据另一实施例,一种信息处理方法包括:利用处理电路生成用于控制显示装置的数据,以将与语音输入相关联的控制对象重叠在显示图像上,其中,显示图像是用户执行的姿势操作的反馈图像,并且显示图像是从摄像装置捕获图像获得的图像。
根据另一实施例,描述了一种存储有计算机可读指令的非暂态计算机可读存储介质,该计算机可读指令在被处理电路执行时执行信息处理方法,该方法包括:利用处理电路生成用于控制显示装置的数据,以将与语音输入相关联的控制对象重叠在显示图像上,其中,显示图像是用户执行的姿势操作的反馈图像,并且显示图像是从摄像装置捕获图像获得的图像。
本发明的有利效果
根据本公开的以上实施例,可以辅助用户以适当的定时产生用于语音识别的语音样本。
附图说明
图1是用于说明根据本公开的第一实施例的信息处理设备的概况的图。
图2是用于说明根据本公开的第二实施例的信息处理设备的概况的图。
图3是示出根据第一实施例的信息处理设备的示例硬件配置的框图。
图4是示出根据第一实施例的信息处理设备的逻辑功能的示例配置的框图。
图5是用于说明图像识别的结果的一个示例的图。
图6是用于说明图像识别的结果的另一示例的图。
图7是用于说明用于控制语音识别的控制对象的第一示例的图。
图8是用于说明用于控制语音识别的控制对象的第二示例的图。
图9是用于说明用于激活语音输入的激活条件的第一示例的图。
图10是用于说明用于激活语音输入的激活条件的第二示例的图。
图11是用于说明语音识别结果的视觉反馈的一个示例的图。
图12是用于说明表示语音样本的识别内容的附加显示对象的示例的第一图。
图13是用于说明表示语音样本的识别内容的附加显示对象的示例的第二图。
图14是用于说明辅助语音识别的附加显示对象的示例的图。
图15是用于说明对麦克风的方向性的控制的示例的第一图。
图16是用于说明对麦克风的方向性的控制的示例的第二图。
图17是用于说明对麦克风的方向性的控制的示例的第三图。
图18是用于说明输出图像的窗口布局的第一示例的图。
图19是用于说明输出图像的窗口布局的第二示例的图。
图20是用于说明第一控制场景的图。
图21是用于说明第二控制场景的图。
图22是用于说明第三控制场景的图。
图23是用于说明第四控制场景的图。
图24是示出根据第一实施例的处理流程示例的流程图的前半部。
图25是示出根据第一实施例的处理流程示例的流程图的后半部。
图26是示出根据第二实施例的信息处理设备的示例硬件配置的框图。
图27是用于说明第二实施例中的控制场景的示例的图。
具体实施方式
在下文中,将参照附图详细描述本公开的优选实施例。注意,在该说明书和附图中,具有基本上相同的功能和结构的结构元件以相同的附图标记来表示,并且省略对这些结构元件的重复说明。
按以下示出的顺序来给出以下描述。
1.概况
2.第一实施例
2-1.示例硬件配置
2-2.示例功能配置
2-3.示例控制场景
2-4.示例处理流程
3.第二实施例
4.结论
<1.概况>
首先,将参照图1和图2描述可以应用根据本公开的实施例的技术的信息处理设备的概况。根据本公开的实施例的技术可以应用于使用语音识别作为用户界面的一部分的多种设备和***。作为示例,根据本公开的实施例的技术可以应用于诸如电视机设备、数字照相机或者数字摄像机的数字家庭设施。根据本公开的实施例的技术还可以应用于诸如PC(个人计算机)、智能电话、PDA(个人数字助理)或游戏控制台的终端设备。根据本公开的实施例的技术也可以应用于诸如卡拉OK***或娱乐设备的专用***或设备。
图1是用于说明根据本公开的第一实施例的信息处理设备100的概况的图。如图1所示,信息处理设备100是电视机设备。信息处理设备100包括摄像装置101、麦克风102和显示器108。摄像装置101拍摄正观看信息处理设备100的显示器108的用户的图像。麦克风102获得这样的用户产生的语音样本。显示器108显示信息处理设备100生成的图像。除内容图像之外,显示器108显示的图像可包括用户界面(UI)图像。在图1的示例中,用户Ua和Ub正观看显示器108。UI图像W01显示在显示器108上。UI图像W01是使用由摄像装置101拍摄的拍摄图像而生成的,并且实现了可以是用户的实际图像或用户的体现(avatar)的所谓“镜像图像”显示。信息处理设备100具有语音识别功能。通过经由麦克风102对信息处理设备100进行语音输入,用户Ua和Ub能够操作信息处理设备100或者将信息输入到信息处理设备100中。
图2是用于说明根据本公开的第二实施例的信息处理设备200的概况的图。如图2所示,信息处理设备200是平板PC。信息处理设备200包括摄像装置201、麦克风202和显示器208。摄像装置201拍摄正观看信息处理设备200的显示器208的用户的图像。麦克风202获得这样的用户产生的语音样本。显示器208显示信息处理设备200生成的图像。除内容图像之外,显示器208显示的图像可包括用户界面(UI)图像。在图2的示例中,用户Uc正观看显示器208。UI图像W02显示在显示器208上。UI图像W02是使用摄像装置201拍摄的拍摄图像而生成的并且实现了所谓的“镜像图像”显示。信息处理设备200具有语音识别功能。通过经由麦克风202对信息处理设备200进行语音输入,用户Uc能够操作信息处理设备200或者将信息输入到信息处理设备200中。
对于这样的设备,在语音识别功能正工作并且语音输入有效时,不保证用户所说的任何事(即,不是每一个语音样本)都旨在被用于语音识别。还存在当语音输入无效时用户产生旨在用于语音识别的语音样本的可能性。这样的定时偏差可能为用户导致问题,诸如,不旨在用于语音识别的语音样本接受语音识别或者语音识别不成功。为此,信息处理设备100或200根据在以下章节详细描述的构架而辅助用户以适当的定时产生旨在用于语音识别的语音样本。
<2.第一实施例>
<2-1.示例硬件配置>
图3是示出可在单个设备中实现的或者在多个单元的分布资源中实现的信息处理设备100的示例硬件配置的框图。如图3所示,信息处理设备100包括摄像装置101、麦克风102、输入装置103、通信接口(I/F)104、存储器105、调谐器106、解码器107、显示器108、扬声器109、远程控制I/F 110、总线111和处理器112(作为处理电路的一个示例,诸如CPU)。
(1)摄像装置
摄像装置101包括诸如CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体)的图像拍摄元件并且拍摄图像。摄像装置101拍摄的图像(构成视频的帧)被视为用于信息处理设备100的处理的输入图像。
(2)麦克风
麦克风102获得用户产生的语音样本并且生成语音信号。麦克风102生成的语音信号被视为旨在用于信息处理设备100的语音识别的输入语音。麦克风102可以是全方向麦克风或者具有固定的或可变的方向性的麦克风。在其它场景中,麦克风102具有可变的方向性并且使得其方向性被动态地控制。
(3)输入装置
输入装置103是用户用于直接操作信息处理设备100的装置。作为示例,输入装置103可包括布置在信息处理设备100的壳体上的按钮、开关、拨号盘等。在检测到用户输入时,输入装置103生成与所检测的用户输入对应的输入信号。
(4)通信接口
通信I/F 104用作信息处理设备100与其它设备之间的通信的媒介。通信I/F 104支持任意无线通信协议或者有线通信协议,并且建立与其它设备的通信连接。
(5)存储器
存储器105由诸如半导体存储器或硬盘驱动器的存储介质构成,并且存储用于信息处理设备100的处理的程序和数据以及内容数据。作为一个示例,存储器105存储的数据可包括用于稍后描述的图像识别和语音识别的特性数据。注意,本说明书中描述的程序和数据的一些或全部可不由存储器105来存储,而是替代地可从外部数据源(作为示例,数据服务器、网络存储装置或者外接存储器)来获取。
(6)调谐器
调谐器106从经由天线(未示出)接收的广播信号提取期望信道上的内容信号并进行解调。调谐器106然后将解调后的内容信号输出到解码器107。
(7)解码器
解码器107根据从调谐器106输入的内容信号解码内容数据。解码器107可根据经由通信I/F 104接收的内容信号而解码内容数据。内容图像可基于由解码器107解码的内容数据来生成。
(8)显示器
显示器108具有由LCD(液晶显示器)、OLED(有机发光二极管)、CRT(阴极射线管)等构成的屏幕,并且显示信息处理设备100生成的图像。作为示例,参照图1和图2描述的内容图像和UI图像可显示在显示器108的屏幕上。
(9)扬声器
扬声器109具有振动膜和诸如放大器的电路元件,并且基于信息处理设备100生成的输出语音信号而输出音频。扬声器109的音量是可变的。
(10)远程控制接口
远程控制I/F 110是接收从用户使用的遥控器传送的远程控制信号(红外信号或其它无线信号)的接口。在检测到远程控制信号时,远程控制I/F 110生成与所检测的远程控制信号对应的输入信号。
(11)总线
总线111将摄像装置101、麦克风102、输入装置103、通信I/F 104、存储器105、调谐器106、解码器107、显示器108、扬声器109、远程控制I/F 110和处理器112彼此连接。
(12)处理器
作为示例,处理器112可以是CPU(中央处理单元)或DSP(数字信号处理器)。通过执行存储在存储器105或其它存储介质中的程序,处理器112使得信息处理设备100以如稍后描述的各种方式起作用。
<2-2.示例功能配置>
图4是示出由图3所示的信息处理设备100的存储器105和处理器112实现的逻辑功能的示例配置的框图。如图4所示,信息处理设备100包括图像获取单元120、语音获取单元130、应用单元140、识别单元150、特性数据库(DB)160和控制单元170。识别单元150包括图像识别单元152和语音识别单元154。控制单元170包括识别控制单元172和显示控制单元174。注意,图4所示的功能块的一些可由信息处理设备100外部的设备(诸如云计算环境中的设备)来实现。作为一个示例,取代由自身来执行以下描述的图像识别处理,图像识别单元152可使得这样的处理由外部图像识别功能来执行。以相同的方式,取代由自身来执行以下描述的语音识别功能,语音识别单元154可使得这样的处理由外部语音识别功能来执行。
(1)图像获取单元
图像获取单元120获取摄像装置101拍摄的图像作为输入图像。输入图像通常是构成用户出现的视频的一系列帧中的单个帧。图像获取单元120然后将所获取的输入图像输出到识别单元150和控制单元170。
(2)语音获取单元
语音获取单元130获取麦克风102生成的语音信号作为输入语音。语音获取单元130然后将所获取的输入语音输出到识别单元150。
(3)应用单元
应用单元140执行信息处理设备100的各种应用功能。作为示例,可由应用单元140来执行电视节目再现功能、电子节目指南显示功能、记录设置功能、照片再现功能、视频再现功能、音乐再现功能和因特网浏览功能。应用单元140将经由应用功能生成的应用图像(可包括内容图像)和音频输出到控制单元170。
在本实施例中,应用单元140执行的应用功能的至少一部分与稍后描述的语音识别单元154一致地进行工作,并且接收来自用户的语音输入。作为一个示例,电视节目再现功能可根据语音识别单元154识别的语音命令而改变设置,诸如要再现的频道和音量。电子节目指南显示功能可根据语音识别单元154识别的语音命令而改变要显示的电子节目指南的频道或时段。照片再现功能可再现在语音识别单元154识别的指定日期拍摄的照片。因特网浏览功能可使用语音识别单元154识别的关键词进行因特网搜索。
(4)图像识别单元
图像识别单元152识别出现在从图像获取单元120输入的输入图像中的用户的身体。作为一个示例,通过针对用户身体的特定部位使得从输入图像提取的图像特性值与特性DB 160预先存储的图像特性值进行匹配,识别这样的特定部位。作为示例,“特定部位”可包括用户的手、嘴和面部中的至少一个。
图5是用于说明图像识别单元152的图像识别的结果的一个示例的图。如图5所示,用户Ua出现在输入图像W03中。用户Ua正面向摄像装置101并且抬起他的左手。通过匹配图像特征值或者使用其它已知方法,图像识别单元152能够识别输入图像W03中的手区域A01、嘴区域A02和面部区域A03。图像识别单元152然后将示出这样识别的区域的位置的位置数据输出到控制单元170。
作为一个示例,图像识别单元152可通过使得在输入图像内识别的面部区域的图像部分(面部图像)与特性DB 160预先存储的已知用户的面部图像数据进行匹配来标识用户。作为示例,图像识别单元152产生的用户标识结果可以用于对语音识别进行调整,对显示在UI图像中的菜单进行个性化,或者由应用单元140用于推荐内容。注意,用户的标识(即,个人识别)可基于输入语音而不是基于输入图像来执行。
在本实施例中,图像识别单元152还可以识别出现在输入图像中的用户的姿势。注意,在本说明书中,表述“姿势”假设还包括不涉及用户身体的动态移动的所谓“姿态”(形式)。
图6是用于说明图像识别单元152的图像识别的结果的另一示例的图。如图6所示,用户Ua和Ub出现在输入图像W04中。用户Ua正通过将他的右手的食指放在他的嘴上而做出姿势。图像识别单元152能够识别输入图像W04中的手区域A04并且还能够识别用户Ua做出的这样的姿势。用户Ub正通过用他的双手盖住他的嘴而做出姿势。图像识别单元152能够识别输入图像W04中的手区域A05并且还能够识别用户Ub做出的这样的姿势。在识别出用户的姿势时,图像识别单元152将示出所识别的姿势的类型的姿势数据输出到控制单元170。
(5)语音识别单元
语音识别单元154基于从语音获取单元130输入的输入语音而对用户输入的语音样本执行语音识别。在本实施例中,从语音获取单元130到语音识别单元154的语音输入由识别控制单元172来激活或去激活。当语音输入有效时,语音识别单元154将输入语音转换为示出输入语音的内容的文本。如果正执行的应用接收到自由文本的输入,则语音识别单元154可将示出经过了语音识别的语音样本的内容的文本输出到应用单元140。替选地,如果正执行的应用接收到语音命令的特定集合中的语音命令的输入,则语音识别单元154可将标识从用户的语音样本识别的语音命令的标识符输出到应用单元140。当语音输入无效时,语音识别单元154不执行语音识别。
语音识别单元154还可确定从语音获取单元130输入的输入语音的水平以及向控制单元170通知所确定的水平。稍后描述的识别控制单元172能够根据语音识别单元154指示的输入语音的水平而在屏幕上向用户给出各种反馈。
如之前所述,在给定场景中,麦克风102具有可变方向性。在该情况下,麦克风102的方向性由稍后描述的识别控制单元172来设置。语音识别单元154然后使用麦克风102获取的语音信号,对位于与所设置的方向性对应的方向上的用户的语音样本执行语音识别。
(6)特性DB
特性DB 160预先存储要用在图像识别单元152的图像识别中的图像特性数据和要用在语音识别单元154的语音识别中的语音特性数据。作为一个示例,图像特性数据可包括对于用户的特定部位(诸如手、嘴或面部)的已知图像特性值。图像特性数据还可包括对于每个用户的面部图像数据。图像特性数据还可包括定义要由图像识别单元152识别的姿势的姿势定义数据。语音特性数据可包括例如示出各个用户的说话特性的语音特性值。
(7)识别控制单元
识别控制单元172生成与说话相关并且要重叠在输入图像上的对象。识别控制单元172使用所生成的对象来控制语音识别单元154执行的语音识别。用于控制语音识别的这样的对象在下文中称为“控制对象”。控制对象可根据用户的操作而在屏幕上移动或者可显示在固定位置。
图7是用于说明控制对象的第一示例的图。如图7所示,控制对象IC1重叠在输入图像W05上。控制对象IC1是类似手持麦克风的图标。作为一个示例,当启动了从用户接收语音输入的应用(下文中称为“语音兼容应用”)时,识别控制单元172使得控制对象IC1显示在屏幕上的指定显示位置处或者图像识别单元152识别的用户的身体附近。识别控制单元172然后根据用户的移动(例如,手区域的移动)而改变控制对象IC1的显示位置。识别控制单元172可根据用户的移动(例如,手区域的旋转)而改变控制对象IC1的朝向。当语音兼容应用结束时,控制对象IC1可从屏幕被删除或者被去激活并被移动到屏幕的边缘部分或默认显示位置。
图8是用于说明控制对象的第二示例的图。如图8所示,控制对象IC2重叠在输入图像W06上。控制对象IC2是类似直立型麦克风的图标。作为一个示例,当启动了语音兼容应用时,识别控制单元172使得控制对象IC2显示在屏幕上的默认显示位置处。控制对象IC2的显示位置不移动。当语音兼容应用结束时,控制对象IC2可从屏幕被删除。
注意,图7和图8所示的控制对象IC1和IC2仅是示例。作为示例,类似嘴或扩音器或文本标签的其它类型图标可用作控制对象。另外,取代控制对象的外观,控制对象的功能可与说话有关。
在本实施例中,识别控制单元172基于控制对象与图像识别单元152识别的用户身体的特定部位之间在屏幕上的位置关系,控制语音识别单元154执行的语音识别。作为一个示例,如果基于这样的位置关系满足激活条件,则识别控制单元172激活到语音识别单元154的语音输入。如果不满足激活条件,则识别控制单元172不激活到语音识别单元154的语音输入。
图9是用于说明用于激活语音输入的激活条件的第一示例的图。如图9所示,用户Ua出现在输入图像W07a和W07b中。图像识别单元152识别出现在输入图像中的用户的嘴区域和手区域。在该第一示例中,激活条件是用户的嘴与控制对象之间的距离短于距离阈值D1的条件。在图中,以嘴区域的中心点G2为中心并且其半径等于距离阈值D1的圆以虚线示出。识别控制单元172根据所识别的手区域A01的移动而在屏幕上移动控制对象IC1。在图9的上部,由于用户的嘴与控制对象IC1之间的距离大于距离阈值D1,因此语音输入无效。即,即使用户产生了语音样本(或者在附近产生了噪声),语音识别单元154也不会执行语音识别。因此,在这样的时间期间,防止了由于用户不期望的语音识别而导致的应用的意外操作。在图9的下部,作为用户移动其手的结果,用户的嘴与控制对象IC1之间的距离短于距离阈值D1。为此,识别控制单元172确定满足激活条件并且激活语音输入。结果,用户产生的语音样本接受语音识别单元154的语音识别。注意,除了嘴之外的用户身体的部位与控制对象之间的距离可与上述距离阈值进行比较。
图10是用于说明用于激活语音输入的激活条件的第二示例的图。如图10所示,用户Ub出现在输入图像W08a和W08b中。控制对象IC2也重叠在输入图像W08a和W08b上。图像识别单元152识别出现在输入图像中的用户的嘴区域A06。在该第二示例中,激活条件是用户的嘴与控制对象之间的距离短于距离阈值D2的条件。在图中,以控制对象的中心点G2为中心并且其半径等于距离阈值D2的圆以虚线示出。在图10的上部,由于用户的嘴与控制对象IC2之间的距离大于距离阈值D2,因此语音输入无效。即,即使用户产生语音样本(或者在附近产生了噪声),语音识别单元154也不会执行语音识别。因此,在这样的时间期间,防止了由于用户不期望的语音识别而导致的应用的意外操作。在图10的下部,作为用户移动的结果,用户的嘴与控制对象IC2之间的距离短于距离阈值D2。为此,识别控制单元172确定满足激活条件并且激活语音输入。结果,用户产生的语音样本接受语音识别单元154的语音识别。
注意,参照图9和图10描述的激活条件仅是示例。作为另一示例,可以将对与控制对象有关的特定姿势的检测(诸如触摸控制对象或者向上抬高控制对象)作为激活条件。
一旦激活了语音输入,识别控制单元172使得维持语音输入的有效状态直到满足特定去激活条件为止。作为一个示例,去激活条件可以是上述激活条件的简单相反条件(例如,用户的嘴与控制对象之间的距离超过距离阈值)。替选地,去激活条件可以是图像识别单元152对用户的特定姿势的识别等。作为一个示例,用于去激活语音输入的姿势可以是用户用他的/她的食指触摸他的/她的嘴的姿势。去激活条件还可包括单个语音命令的成功识别或者从激活开始过去特定时间长度。
在语音输入有效时,识别控制单元172还控制与语音识别单元154的语音识别有关的对用户的视觉反馈。
作为一个示例,识别控制单元172通过改变控制对象的显示属性而向用户通知到语音识别单元154的语音输入已被激活。作为示例,识别控制单元172改变的控制对象的显示属性可包括颜色、亮度、透明度、大小、形状和纹理中的至少一个。在图9和图10的示例中,通过改变控制对象的纹理来将语音输入示出为有效或无效。
作为另一示例,识别控制单元172向用户给出关于语音识别单元153指示的输入语音的水平的反馈。可通过改变控制对象的属性或者通过改变重叠了控制对象的UI图像的状态来给出关于输入语音的水平的反馈。图11是用于说明语音识别结果的视觉反馈的一个示例的图。如图11所示,效果Fb1被施加于重叠了控制对象IC1的UI图像W09。效果Fb1表示波看起来从控制对象IC1(可以是用户的嘴)发出的UI图像的状态。如果输入语音的水平下降到特定阈值以下,则可移除这样的效果Fb1。通过提供这样的反馈,用户可以直观地了解用户他/她自身产生的语音样本是否正适当地被信息处理设备100检测。识别控制单元172可根据超过上述特定阈值的输入语音的水平而改变控制对象的显示属性的变化水平或者输出图像的状态变化。作为一个示例,效果Fb1可被施加于其大小随着输入语音的水平增加而增加的图像区域。这样,用户可以直观地了解信息处理设备100针对用户他/她自身产生的语音样本所检测的水平。注意,识别控制单元172可改变效果Fb1的显示属性(例如,颜色),以便指示语音识别的状态以及错误的存在与否。将输入语音的水平与特定标准值进行比较的结果可被显示为UI图像W09中的文本。
另外,作为一个示例,识别控制单元172可在出现在输入图像中的用户附近重叠包括表示语音识别单元154识别的语音样本的内容的文本的附加显示对象。图12和图13是用于说明表示语音样本的识别内容的附加显示对象的示例的图。如图12所示,控制对象IC1和附加对象Fb2重叠在UI图像W10上。附加对象Fb2是包括表示出现在UI图像W10中的用户Ua产生的语音样本的内容的文本的说话气泡。通过接收这样的反馈,用户可以立即了解信息处理设备100是否已正确地识别了用户产生的语音样本。如图13所示,附加对象Fb2包括随机字符串Str1。当检测到超过特定阈值的水平的输入语音但是基于这样的输入语音的语音识别不成功时,随机字符串Str1可被***到附加对象Fb2中。通过接收这样的反馈,用户可以立即了解虽然用户他/她自身产生的语音样本的水平足够但是语音识别不成功。可通过改变附加对象Fb2的显示属性来向用户通知语音识别不成功。注意,附加对象Fb2可取代随机字符串而包括空格。随机字符串或空格的长度可根据其语音识别不成功的说话的长度(时间长度)来确定。
作为另一示例,识别控制单元172可重叠示出语音识别单元154检测的语音的水平以及用于有效地执行语音识别所需的语音水平的附加对象。用于有效地执行语音识别所需的语音水平可由存储器105预先存储或者可动态地计算以便根据环境中的噪声水平。图14是用于说明辅助语音识别的附加显示对象的示例的图。如图14所示,控制对象IC1、附加对象Fb2和附加对象Fb3重叠在UI图像W12上。附加对象Fb2是包括表示说话的内容的文本的说话气泡。这里,作为由于用户语音的水平不足而导致语音识别不成功的结果,附加对象Fb2的背景颜色被改变为暗色。附加对象Fb3是指示语音水平的指示符。在附加对象Fb3的外侧以虚线绘制的圆的半径对应于有效地执行语音识别所需的语音水平。有色圆的半径对应于语音识别单元154指示的输入语音的水平。如果输入语音的水平增加,则有色圆增大。注意,附加对象Fb3不限于图14中的示例,并且可以是例如条形指示符。通过接收这样的反馈,用户可以直观地了解当用户产生的语音样本的水平不足时,他的/她的语音应该提高多少以使得语音识别能够成功。注意,识别控制单元172可改变附加对象Fb3的显示属性(例如,颜色)以指示语音识别的状态或者错误的存在与否。将输入语音的水平与特定标准值进行比较的结果可被显示为UI图像W12中的文本。
如果麦克风102具有可变方向性,则识别控制单元172可通过使用控制对象设置麦克风102的方向性来改进语音识别的精度。作为一个示例,识别控制单元172可根据控制对象在屏幕上的位置,设置麦克风102的方向性。另外,识别控制单元172可根据控制对象在屏幕上的朝向来设置麦克风102的方向性。
图15至图17是用于说明对麦克风的方向性的控制的示例的图。在图15的上部,控制对象IC1重叠在UI图像W13上。控制对象IC1的显示位置可根据用户Ua的手区域的移动而改变。在所示出的时间,控制对象IC1的显示位置在屏幕的中心略靠左侧。在图15的下部,示出了当从用户Ua的头上方的视点查看时信息处理设备100与用户Ua之间的真实空间中的位置关系。作为一个示例,识别控制单元172基于摄像装置101的视角和控制对象IC1的显示位置而以角度R1设置麦克风102的方向性。由于用户Ua存在于角度R1的方向上,因此,麦克风102变得可以以较高的质量获得用户Ua产生的语音样本。
在图16的上部,控制对象IC1重叠在UI图像W14上。用户Ua和Ub也出现在UI图像W14中。在所示出的时间,与用户Ua相比,控制对象IC1的显示位置更靠近用户Ub的面部。在图16的下部,示出了当从用户Ua和Ub的头上方的视点查看时信息处理设备100与用户Ua和Ub之间的真实空间中的位置关系。作为一个示例,识别控制单元172基于摄像装置101的视角和控制对象IC1的显示位置而以角度R2设置麦克风102的方向性。由于用户Ub存在于角度R2的方向上,因此,麦克风102变得可以以较高的质量获得用户Ub产生的语音样本。
在图17的上部,控制对象IC1重叠在UI图像W15上。控制对象IC1在屏幕上的朝向可以根据用户Ua的手区域的朝向而改变。用户Ua和Ub出现在UI图像W15中。在所示出的时间,控制对象IC1正由用户Ua操作并且正指向用户Ub的面部区域A07的方向。在图17的下部,示出了当从用户Ua和Ub的头上方的视点查看时信息处理设备100与用户Ua和Ub之间的真实空间中的位置关系。作为一个示例,识别控制单元172基于控制对象IC1的显示位置和朝向以及用户Ub的面部区域A07的位置而以角度R3设置麦克风102的方向性。由于用户Ub存在于角度R3的方向上,因此,麦克风102变得可以以较高的质量获得用户Ub产生的语音样本。
根据参照图16或图17描述的方法,当存在多个用户时,通过如作为真实的麦克风一样来使用控制对象IC1,可以在用户之间传递说话以进行语音识别的权利。
除了上述示例之外,可实现基于用户的姿势的多种用户界面。作为一个示例,识别控制单元172可根据用户用他的/她的手盖住他的/她的嘴的姿势的识别而取消语音识别单元154至此产生的语音识别结果。这样,当用户产生了具有错误内容的语音样本时或者当语音识别单元154错误地识别了语音样本的内容时,用户可以容易地重复语音输入。识别控制单元172还可根据预先定义的姿势的识别而增加或减小从扬声器109输出的音频的音量。
识别控制单元172还可将分别表示至少一个语音命令候选的文本对象重叠在输入图像上。这样,甚至当用户预先不知道应用功能接收的语音命令时,用户也可以适当地给出所需语音命令。
(8)显示控制单元
显示控制单元174经由显示器108控制图像的显示。作为一个示例,显示控制单元174在显示器108上显示从应用单元140输入的应用图像。另外,如果启动了语音兼容应用,则显示控制单元174在显示器108上显示识别控制单元172生成的UI图像。显示控制单元174可仅在显示器108上显示UI图像或者可在显示器108上显示通过组合应用图像和UI图像而生成的单个输出图像。
图18和图19示出了本实施例可使用的输出图像的窗口布局的示例。在这样的图中,显示器108显示了UI窗口WUI和应用窗口WAPP。UI窗口WUI显示识别控制单元172生成的UI图像。应用窗口WAPP显示从应用单元140输入的应用图像(例如,内容图像)。在图18的第一示例中,应用窗口WAPP在UI窗口WUI的右下角处被组合。在图19的第二示例中,UI窗口WUI与应用窗口WAPP的一个部分混合。通过使用这样的窗口布局,作为一个示例,即使当用户手边没有遥控器时,用户也可以在观看内容图像的同时使用控制对象利用他的/她的语音来操作信息处理设备100。
<2-3.示例控制场景>
现在将参照图20至图23描述上述信息处理设备100可以执行的控制场景的示例。
(1)第一场景
图20是用于说明第一控制场景的图。在图20中,沿着时间轴示出了五个UI图像ST11至ST15。
用户Ud出现在UI图像ST11中,并且实现了镜像图像显示。
下一UI图像ST12可例如在启动了语音兼容应用之后或者当用户做出了姿势(诸如抬起他的手)之后被显示。控制对象IC1重叠在UI图像ST12上。然而,此时,到语音识别单元154的语音输入尚未被激活。
下一UI图像ST13可例如在用户Ud将控制对象IC1移动到他的嘴附近之后被显示。作为满足激活条件的结果,识别控制单元172激活到语音识别单元154的语音输入。在UI图像ST13中,控制对象IC1的显示属性改变以指示有效状态。
下一UI图像ST14可在用户Ud正产生语音样本的同时被显示。在UI图像ST14中,控制对象IC1的显示属性继续指示有效状态。另外,效果Fb1被施加于UI图像ST14,并且示出所识别的语音样本的内容的附加对象Fb2重叠在UI图像ST14上。
下一UI图像ST15可在满足去激活条件时被显示。这里,假设用食指触摸嘴的姿势被定义为用于去激活语音输入的姿势。根据对这样的姿势的识别,识别控制单元172去激活到语音识别单元154的语音输入。控制对象IC1的显示位置返回到默认显示位置,并且控制对象IC1的显示属性被改变以指示无效状态。
(2)第二场景
图21是用于说明第二控制场景的图。在图21中,沿着时间轴示出了五个UI图像ST21至ST25。
用户Ud出现在UI图像ST21中。控制对象IC1也重叠在UI图像ST21上。然而,此时,到语音识别单元154的语音输入尚未被激活。
下一UI图像ST22可例如在用户Ud将控制对象IC1移动到他的嘴附近之后被显示。作为满足激活条件的结果,识别控制单元172激活到语音识别单元154的语音输入。在UI图像ST22中,控制对象IC1的显示属性改变以指示有效状态。
下一UI图像ST23可在用户Ud正产生语音样本的同时被显示。在UI图像ST23中,控制对象IC1的显示属性继续指示有效状态。在该第二场景中,在用户Ud正产生语音样本的同时,控制对象IC1的显示位置保持在用户Ud的嘴附近而与手移动无关。因此,如果用户输入诸如电子邮件消息的长文本作为语音样本,则可以在无需用户持续抬起他的手并且变累的情况下继续语音输入。
在下一UI图像ST24中,用户Ud正做出用他的手盖住他的嘴的姿势。识别控制单元172根据对这样的姿势的识别而取消至此的语音识别结果。在第二控制场景中,此后维持到语音识别单元154的语音输入的有效状态。
在下一UI图像ST25中,用户Ud产生另一语音样本。结果,语音识别单元154适当地识别具有与用户Ud初始产生的语音样本的内容不同的内容的语音样本。
(3)第三场景
图22是用于说明第三控制场景的图。在图22中,沿着时间轴示出了三个UI图像ST31至ST33。
用户Ud出现在UI图像ST31中,并且实现了镜像图像显示。
下一UI图像ST32可例如在用户做出了诸如举起他的手的姿势之后被显示。控制对象IC2重叠在UI图像ST32上。分别表示语音兼容应用接收的语音命令候选(命令A至命令D)的四个文本对象也重叠在UI图像ST32上。
在下一UI图像ST33中,作为用户Ud例如接近控制对象IC12附近的结果,激活语音输入。用户Ud然后产生语音样本以便读出命令B,并且语音识别单元154适当地识别说出的命令B。作为示例,语音命令候选可以是预先提供的以便使得用户远程控制信息处理设备100的至少一个命令。
以此方式,在本实施例中,即使用户手边没有遥控器,用户也可以远程控制信息处理设备100。作为示例,即使当遥控器丢失或者遥控器正由其他用户持有时,用户仍能够以期望的定时控制信息处理设备100而不会感觉到任何压力。注意,在显示UI图像ST32之后,根据对特定语音命令或姿势的识别,表示语音命令A至D的文本对象可用表示其它语音命令候选的文本对象来取代。
(4)第四场景
第四场景是不涉及控制对象的补充场景。图23是用于说明第四控制场景的图。在图23中,沿着时间轴示出了三个UI图像ST41至ST43。
用户Ud出现在UI图像ST41中,并且实现了镜像图像显示。
在下一UI图像ST42中,用户Ud正做出用他的手罩住他的耳朵的姿势。识别控制单元172根据对这样的姿势的识别而增加从扬声器109输出的音频的音量。音量的增加可根据识别姿势的时间长度而改变。
在下一UI图像ST43中,用户Ud做出用他的食指触摸他的嘴的姿势。识别控制单元172根据对这样的姿势的识别而减小从扬声器109输出的音频的音量。音量的减小可根据识别姿势的时间长度来改变。
以此方式,在本实施例中,可基于用户姿势而实现各种用户界面。根据语音输入是否有效或者是否正执行语音兼容应用,同一类型的姿势可被解释为具有不同的含义。注意,可提供用于允许用户登记来源于用户的姿势的用户界面。作为一个示例,可登记用手推开(控制对象)的姿势,并且这样的姿势可被定义为用于激活/去激活语音输入的姿势。还可提供用于允许用户定制对于各个姿势的移动与对应于这样的姿势的处理之间的映射的用户界面。
<2-4.示例处理流程>
图24和图25中的流程图示出了根据本实施例的信息处理设备100可执行的处理的流程的示例。针对构成摄像装置101拍摄的视频的一系列帧中的每个帧重复这里描述的处理。
如图24所示,首先,图像获取单元120获取摄像装置101拍摄的图像作为输入图像(步骤S100)。图像获取单元120然后将所获取的输入图像输出到识别单元150和控制单元170。
接下来,图像识别单元152识别出现在从图像获取单元120输入的输入图像中的用户的身体(步骤S105)。例如,图像识别单元152识别输入图像中的用户的手区域和嘴区域,并且将示出这样识别的区域的位置的位置数据输出到控制单元170。图像识别单元152可另外地识别预先定义的多个用户姿势。
识别控制单元172接下来确定是否启动了语音兼容应用(步骤S110)。如果尚未启动语音兼容应用,则跳过以下步骤S115至S160中的处理。如果启动了语音兼容应用(或者如果通过在步骤S105中识别的姿势启动了语音兼容应用),则处理进行到步骤S115。
在步骤S115中,识别控制单元172确定与说话有关的控制对象的显示位置和朝向(步骤S115)。控制对象的显示位置可以是默认位置或者可移动以便跟踪图像识别单元152识别的用户手的移动。以相同方式,控制对象的朝向可以是默认朝向或者可旋转以便跟踪用户手的移动。
此后,如果麦克风102具有可变方向性,则识别控制单元172根据在步骤S115中确定的控制对象的显示位置和朝向而设置麦克风102的方向性(步骤S120)。
接下来,识别控制单元172将具有在步骤S115中确定的显示位置和朝向的控制对象重叠在显示输入图像的镜像图像的UI图像上(步骤S125)。这里,控制对象的显示属性可被设置为指示语音输入尚未被激活的值。
返回到图25,识别控制单元172接下来根据先前描述的激活条件和去激活条件来确定语音输入是否有效(步骤S130)。作为一个示例,当用户的嘴区域与控制对象之间的距离低于距离阈值时,确定满足激活条件。如果没有确定语音输入有效,则跳过以下步骤S135至S160中的处理。如果确定语音输入有效,则处理进行到步骤S135。
在步骤S135中,识别控制单元172根据需要激活到语音识别单元154的语音输入,并且将控制对象的显示属性设置为指示语音输入已被激活的值(步骤S135)。
接下来,语音获取单元130将从麦克风102获取的输入语音输出到语音识别单元154(步骤S140)。
此后,语音识别单元154基于从语音获取单元130输入的输入语音而对用户的语音样本执行语音识别(步骤S145)。语音识别单元154然后将语音识别的结果输出到应用单元140和识别控制单元172。
接下来,识别控制单元172将关于从语音识别单元154输入的语音识别结果的反馈合并到UI图像中(步骤S150)。作为一个示例,识别控制单元172将图11所示的效果Fb1施加于UI图像。识别控制单元172还可将图12至图14所示的附加对象Fb2或Fb3重叠在UI图像上。
此后,识别控制单元172确定语音识别是否成功(步骤S155)。如果语音识别不成功,则跳过以下步骤S160中的处理。如果语音识别成功,则处理进行到步骤S160。
在步骤S160中,应用单元140基于语音识别结果而执行应用处理(步骤S160)。例如,应用单元140可执行与所识别的语音命令对应的处理。应用单元140还可接收示出所识别的语音样本的内容的文本作为输入信息。
接下来,显示控制单元174在显示器108上显示包括UI图像的输出图像(步骤S165)。这里显示的输出图像可仅包括UI图像或者可包括UI图像和应用图像两者。此后,处理返回到图24中的步骤S100。
注意,至此已主要描述了仅将一个控制对象重叠在UI图像上的示例。然而,本公开不限于这样的示例,并且多个控制对象可重叠在UI图像上。作为一个示例,当多个用户出现在输入图像中时,如果针对各个用户重叠分别的控制对象,则各个用户可以以期望的定时输入语音命令而不需要在用户之间传递控制对象的操作。
<3.第二实施例>
如之前所述,根据本公开的实施例的技术不限于电视机设备,并且可以应用于各种类型的设备。为此,现在将描述根据本公开的实施例的技术应用于包括消息应用的信息处理设备200的示例作为第二实施例。如参照图2所描述的,信息处理设备200是平板PC。
(1)示例硬件配置
图26是示出信息处理设备200的示例硬件配置的框图。如图26所示,信息处理设备200包括摄像装置201、麦克风202、输入装置203、通信I/F 204、存储器205、显示器208、扬声器209、总线211和处理器212。
摄像装置201包括诸如CCD或CMOS的图像拍摄元件并且拍摄图像。摄像装置201拍摄的图像(构成视频的帧)被视为用于信息处理设备200的处理的输入图像。
麦克风202获得用户产生的语音样本并且生成语音信号。麦克风202生成的语音信号被视为旨在用于信息处理设备200的语音识别的输入语音。
输入装置203是用户用于直接操作信息处理设备200或将信息输入到信息处理设备200的装置。作为一个示例,输入装置103可包括触摸板、按钮、开关等。在检测到用户输入时,输入装置203生成与所检测的用户输入对应的输入信号。
通信I/F 204用作信息处理设备200与其它设备之间的通信的媒介。通信I/F 204支持任意无线通信协议或有线通信协议,并且建立与其它设备的通信连接。
存储器205由诸如半导体存储器或硬盘驱动器的存储介质构成,并且存储用于信息处理设备200的处理的程序和数据以及内容数据。注意,程序和数据的一些或全部可不由存储器205来存储,而是替代地可从外部数据源(作为示例,数据服务器、网络存储装置或外接存储器)来获取。
显示器208具有由LCD、OLED等构成的屏幕并且显示信息处理设备200生成的图像。作为一个示例,与在第一实施例中描述的UI图像相同的UI图像可显示在显示器208的屏幕上。
扬声器209具有振动膜和诸如放大器的电路元件,并且基于信息处理设备200生成的输出音频信号而输出音频。扬声器209的音量是可变的。
总线211将摄像装置201、麦克风202、输入装置203、通信I/F 204、存储器205、显示器208、扬声器209和处理器212彼此连接。
作为示例,处理器112可以是CPU或DSP。通过执行存储在存储器205或其它存储介质中的程序,以与根据第一实施例的信息处理设备100的处理器112相同的方式,处理器212使得信息处理设备200以各种方式起作用。除了应用功能中的差别之外,信息处理设备200的存储器205和处理器212实现的逻辑功能的配置可与图4所示的信息处理设备100的配置相同。
(2)示例控制场景
图27是用于说明第二实施例中的控制场景的示例的图。在图27中,沿着时间轴示出了四个UI图像ST51至ST54。在该场景中,各个输出图像由在顶部的消息应用的应用图像和底部的UI图像构成。
在输出图像ST51中,应用图像包括消息输入框。消息尚未被输入到消息输入框中。用户Ud出现在UI图像中并且实现了镜像图像显示。
下一输出图像ST52可例如在用户做出诸如抬起他的手的姿势之后被显示。在输出图像ST52中,控制对象IC1重叠在UI图像上。然而,此时,语音输入尚未被激活。
下一输出图像ST53可例如在用户Ud将控制对象IC1移动到他的嘴附近之后被显示。语音输入被激活,并且控制对象IC1的显示属性被改变以指示有效状态。用户产生的语音样本的内容被输入到消息输入框中。
下一输出图像ST54可例如在用户Ud将控制对象IC1移动远离他的嘴附近之后被显示。语音输入被去激活,并且控制对象IC1的显示属性改变以便示出无效状态。即使用户在该状态下产生语音样本,这样的语音样本的内容也不会被输入到消息输入框中。因此,通过仅做出移动他的/她的手的简单操作,用户可以切换语音输入的状态,并且仅包括用户希望在消息中输入的语音样本的内容。
<4.结论>
至此参照图1至图27详细描述了本公开的实施例。根据先前描述的实施例,重叠在输入图像上所显示的控制对象用于控制信息设施执行的语音识别。因此,通过使用屏幕上的控制对象的状态作为向导,用户能够确定用于语音识别的合适定时。
另外,根据以上实施例,基于控制对象与在输入图像中识别的用户身体的特定部位之间的位置关系来控制语音识别。因此,通过移动显示在屏幕上的他/她自己的身体,用户能够处置与语音识别有关的各种功能。
另外,根据上述实施例,可基于用户的嘴与控制对象之间的距离来激活用于语音识别的语音输入。控制对象还可根据用户手的移动来在屏幕上移动。因此,通过移动控制对象或者朝向控制对象相反地移动他/她自己,用户能够容易地以期望的定时仅对期望的语音输入执行语音识别。由于在这样的时间要执行的所需移动类似当处置真实麦克风时的移动,因此这样的构架使得可以实现对用户直观的用户界面。
另外,根据上述实施例,经由控制对象的显示属性的改变向用户通知语音输入是否已被激活。因此,用户可以仅通过仅注意屏幕上的控制对象而以适当的定时说话。
注意,通常使用软件来实现被描述为本公开的实施例的各种设备执行的一系列处理。作为一个示例,由实现这样的一系列处理的软件构成的程序预先存储在设置在这样的设备内部或外部的存储介质(非暂态介质)中。作为一个示例,在执行期间,这样的程序然后被写入到RAM(随机存取存储器)中并且由诸如CPU的处理器来执行。
尽管以上参照附图详细描述了本公开的优选实施例,但是本公开的技术范围不限于此。本领域技术人员应理解,在所附权利要求或其等同方案的范围内,可根据设计要求和其它因素进行各种修改、组合、子组合和变更。
另外,本技术还可如下配置。
(1)一种信息处理***,包括:
处理电路,被配置成生成用于控制显示装置的数据,以在显示图像上重叠与语音输入相关联的控制对象,其中,所述显示图像是用户执行的姿势操作的反馈图像,并且所述显示图像是从摄像装置捕获图像获得的图像。
(2)根据(1)所述的信息处理***,其中,
所述显示图像是所述用户的镜像图像。
(3)根据(1)所述的信息处理***,其中,
所述处理电路被配置成基于所述控制对象与所述反馈图像中的用户的身体部位之间的显示位置关系而发起由语音输入触发的处理。
(4)根据(3)所述的信息处理***,其中,
当所述显示位置关系包括所述控制对象在距所述反馈图像中的用户的身体部位预定距离内时,所述处理电路发起所述处理。
(5)根据(3)所述的信息处理***,其中,
所述反馈图像中的所述用户的身体部位是所述用户的面部的至少一部分。
(6)根据(3)所述的信息处理***,其中,
当所述显示位置关系包括所述反馈图像中的所述用户的身体部位在距所述控制对象的预定方向内时,所述处理电路发起所述处理。
(7)根据(3)所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以改变所述控制对象的图像属性,以指示所述处理电路发起了所述处理。
(8)根据(3)所述的信息处理***,其中,
所述处理是语音识别处理。
(9)根据(1)所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以响应于所述用户执行的姿势操作而改变所述控制对象的显示位置。
(10)根据(1)所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以显示根据所述语音输入的检测状态而改变外观的指示符。
(11)根据(1)所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以与所述反馈图像同步地显示附加对象,所述附加对象与所述语音输入相关联并且与所述控制对象不同。
(12)根据(11)所述的信息处理***,其中,
所述附加对象是基于所述语音输入生成的文本信息。
(13)根据(11)所述的信息处理***,其中,
所述附加对象指示所述语音输入的音量水平。
(14)根据(8)所述的信息处理***,其中,
所述处理电路被配置成基于所述语音识别而控制装置的功能。
(15)根据(14)所述的信息处理***,其中,
所述装置被配置成控制内容的再现,并且所述处理电路被配置成控制所述显示装置以同时显示所述反馈图像、所述控制对象和作为所述语音输入的对象的所述内容的图像。
(16)根据(1)所述的信息处理***,还包括:
所述显示装置,其中,所述显示装置和所述处理电路是单个设备的部件。
(17)根据(3)所述的信息处理***,其中,
所述镜像图像是所述用户的实际图像。
(18)根据(3)所述的信息处理***,其中,
所述镜像图像是所述用户的体现。
(19)一种信息处理方法,包括:
利用处理电路生成用于控制显示装置的数据,以在显示图像上重叠与语音输入相关联的控制对象,其中,所述显示图像是用户执行的姿势操作的反馈图像,并且所述显示图像是从摄像装置捕获图像得到的图像。
(20)一种存储有计算机可读指令的非暂态计算机可读存储介质,所述计算机可读指令当由处理电路执行时执行信息处理方法,所述方法包括:
利用所述处理电路生成用于控制显示装置的数据,以在显示图像上重叠与语音输入相关联的控制对象,其中,所述显示图像是用户执行的姿势操作的反馈图像,并且所述显示图像是从摄像装置捕获图像得到的图像。
另外,本技术还可如下配置。
(1)一种信息处理设备,包括:
图像获取单元,获取输入图像;以及
控制单元,在屏幕上显示重叠在所述输入图像上的与说话有关的对象,
其中,所述控制单元使用所述对象控制对用户的语音样本执行的语音识别。
(2)根据(1)所述的信息处理设备,还包括:
图像识别单元,识别出现在所述输入图像中的用户的身体,
其中,所述控制单元基于所述对象与所述图像识别单元识别的所述用户的身体的特定部位之间在所述屏幕上的位置关系,控制所述语音识别。
(3)根据(2)所述的信息处理设备,
其中,所述特定部位包括用户的嘴,以及
其中,所述控制单元基于所述对象与所述用户的嘴之间的距离而激活用于所述语音识别的语音输入。
(4)根据(3)所述的信息处理设备,
其中,所述特定部位包括用户的手,以及
其中,所述控制单元根据所述用户的手的移动而在所述屏幕上移动所述对象。
(5)根据(3)或(4)所述的信息处理设备,
其中,所述控制单元根据出现在所述输入图像中的用户的姿势而去激活用于所述语音识别的语音输入。
(6)根据(1)至(5)中任一项所述的信息处理设备,
其中,所述控制单元通过改变所述对象的显示属性而向所述用户通知用于所述语音识别的语音输入是否被激活。
(7)根据(1)至(6)中任一项所述的信息处理设备,
其中,所述控制单元通过改变所述对象的显示属性和重叠了所述对象的输出图像的状态中的任意一个,向所述用户通知在所述语音识别期间是否检测到语音样本。
(8)根据(7)所述的信息处理设备,
其中,所述控制单元根据在所述语音识别期间检测的语音样本的水平,改变所述对象的显示属性的变化水平或者所述输出图像的状态。
(9)根据(1)至(8)中任一项所述的信息处理设备,
其中,对具有可变方向性的麦克风获取的语音信号执行所述语音识别。
(10)根据(9)所述的信息处理设备,
其中,所述控制单元根据所述用户的移动而改变所述对象的位置,以及
其中,所述麦克风的方向性是根据所述对象的位置而设置的。
(11)根据(9)或(10)所述的信息处理设备,
其中,所述控制单元根据所述用户的移动而改变所述对象的朝向,以及
其中,所述麦克风的方向性是根据所述对象的朝向设置的。
(12)根据(1)至(11)中任一项所述的信息处理设备,
其中,所述控制单元还将第一附加对象重叠在出现在所述输入图像中的所述用户附近,所述第一附加对象包括表示通过所述语音识别而识别的语音样本的内容的文本。
(13)根据(12)所述的信息处理设备,
其中,当所述语音识别失败时,所述控制单元能够***作以通过改变所述第一附加对象的显示属性以及将特殊字符串***到所述文本中之一而向所述用户通知所述语音识别失败。
(14)根据(1)至(13)中任一项所述的信息处理设备,
其中,所述控制单元还将第二附加对象重叠在所述输入图像上,所述第二附加对象指示在所述语音识别期间检测的语音样本的水平和有效地执行所述语音识别所需的语音水平。
(15)根据(1)至(14)中任一项所述的信息处理设备,
其中,所述控制单元还将分别表示至少一个语音命令的候选的文本对象重叠在所述输入图像上。
(16)根据(15)所述的信息处理设备,
其中,所述信息处理设备是电视机设备,以及
其中,所述语音命令是所述用户发出的用于远程控制所述信息处理设备的命令。
(17)根据(1)至(16)中任一项所述的信息处理设备,
其中,所述对象是类似麦克风的图标。
(18)一种由信息处理设备执行的信息处理方法,所述信息处理方法包括:
获取输入图像;以及
在屏幕上显示重叠在所述输入图像上的与说话有关的对象,使用所述对象控制对用户的语音样本执行的语音识别。
(19)一种用于使得控制信息处理设备的计算机用作以下单元的程序:
图像获取单元,获取输入图像;以及
控制单元,在屏幕上显示重叠在所述输入图像上的与说话有关的对象,
其中,所述控制单元使用所述对象控制对用户的语音样本执行的语音识别。
附图标记列表
100,200 信息处理设备
120 图像获取单元
152 图像识别单元
154 语音识别单元
172 识别控制单元
174 显示控制单元
IC1,IC2 控制对象

Claims (20)

1.一种信息处理***,包括:
处理电路,被配置成生成用于控制显示装置的数据,以在显示图像上重叠与语音输入相关联的控制对象,其中,所述显示图像是用户执行的姿势操作的反馈图像,并且所述显示图像是从摄像装置捕获图像获得的图像。
2.根据权利要求1所述的信息处理***,其中,
所述显示图像是所述用户的镜像图像。
3.根据权利要求1所述的信息处理***,其中,
所述处理电路被配置成基于所述控制对象与所述反馈图像中的用户的身体部位之间的显示位置关系而发起由语音输入触发的处理。
4.根据权利要求3所述的信息处理***,其中,
当所述显示位置关系包括所述控制对象在距所述反馈图像中的用户的身体部位预定距离内时,所述处理电路发起所述处理。
5.根据权利要求3所述的信息处理***,其中,
所述反馈图像中的所述用户的身体部位是所述用户的面部的至少一部分。
6.根据权利要求3所述的信息处理***,其中,
当所述显示位置关系包括所述反馈图像中的所述用户的身体部位在距所述控制对象的预定方向内时,所述处理电路发起所述处理。
7.根据权利要求3所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以改变所述控制对象的图像属性,以指示所述处理电路发起了所述处理。
8.根据权利要求3所述的信息处理***,其中,
所述处理是语音识别处理。
9.根据权利要求1所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以响应于所述用户执行的姿势操作而改变所述控制对象的显示位置。
10.根据权利要求1所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以显示根据所述语音输入的检测状态而改变外观的指示符。
11.根据权利要求1所述的信息处理***,其中,
所述处理电路被配置成控制所述显示装置以与所述反馈图像同步地显示附加对象,所述附加对象与所述语音输入相关联并且与所述控制对象不同。
12.根据权利要求11所述的信息处理***,其中,
所述附加对象是基于所述语音输入生成的文本信息。
13.根据权利要求11所述的信息处理***,其中,
所述附加对象指示所述语音输入的音量水平。
14.根据权利要求8所述的信息处理***,其中,
所述处理电路被配置成基于所述语音识别而控制装置的功能。
15.根据权利要求14所述的信息处理***,其中,
所述装置被配置成控制内容的再现,并且所述处理电路被配置成控制所述显示装置以同时显示所述反馈图像、所述控制对象和作为所述语音输入的对象的所述内容的图像。
16.根据权利要求1所述的信息处理***,还包括:
所述显示装置,其中,所述显示装置和所述处理电路是单个设备的部件。
17.根据权利要求3所述的信息处理***,其中,
所述镜像图像是所述用户的实际图像。
18.根据权利要求3所述的信息处理***,其中,
所述镜像图像是所述用户的体现。
19.一种信息处理方法,包括:
利用处理电路生成用于控制显示装置的数据,以在显示图像上重叠与语音输入相关联的控制对象,其中,所述显示图像是用户执行的姿势操作的反馈图像,并且所述显示图像是从摄像装置捕获图像得到的图像。
20.一种存储有计算机可读指令的非暂态计算机可读存储介质,所述计算机可读指令当由处理电路执行时执行信息处理方法,所述方法包括:
利用所述处理电路生成用于控制显示装置的数据,以在显示图像上重叠与语音输入相关联的控制对象,其中,所述显示图像是用户执行的姿势操作的反馈图像,并且所述显示图像是从摄像装置捕获图像得到的图像。
CN201380057286.0A 2012-11-08 2013-10-01 信息处理设备、信息处理方法和程序 Pending CN104781782A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012-246118 2012-11-08
JP2012246118A JP5998861B2 (ja) 2012-11-08 2012-11-08 情報処理装置、情報処理方法及びプログラム
PCT/JP2013/005859 WO2014073149A1 (en) 2012-11-08 2013-10-01 Information processing apparatus, information processing method, and program

Publications (1)

Publication Number Publication Date
CN104781782A true CN104781782A (zh) 2015-07-15

Family

ID=49510468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380057286.0A Pending CN104781782A (zh) 2012-11-08 2013-10-01 信息处理设备、信息处理方法和程序

Country Status (5)

Country Link
US (1) US10438058B2 (zh)
EP (1) EP2917824B1 (zh)
JP (1) JP5998861B2 (zh)
CN (1) CN104781782A (zh)
WO (1) WO2014073149A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及***
CN108647002A (zh) * 2018-03-30 2018-10-12 联想(北京)有限公司 信息处理方法及电子设备
CN111033606A (zh) * 2017-08-31 2020-04-17 索尼公司 信息处理装置、信息处理方法和程序
WO2020244410A1 (zh) * 2019-06-03 2020-12-10 清华大学 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
CN107112018A (zh) * 2014-12-25 2017-08-29 索尼公司 信息处理装置、信息处理方法和程序
CN107430856B (zh) * 2015-03-23 2021-02-19 索尼公司 信息处理***和信息处理方法
USD777784S1 (en) * 2015-08-26 2017-01-31 Google Inc. Display screen with icon
JP6547551B2 (ja) * 2015-09-28 2019-07-24 ブラザー工業株式会社 カラオケ装置、プログラム
US20180018965A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining Gesture and Voice User Interfaces
US20180039478A1 (en) * 2016-08-02 2018-02-08 Google Inc. Voice interaction services
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
EP3343483A1 (en) 2016-12-30 2018-07-04 Spotify AB System and method for providing a video with lyrics overlay for use in a social messaging environment
US10146501B1 (en) * 2017-06-01 2018-12-04 Qualcomm Incorporated Sound control by various hand gestures
CN109391884A (zh) * 2017-08-08 2019-02-26 惠州超声音响有限公司 扬声器***及操控扬声器的方法
WO2019070242A1 (en) * 2017-10-03 2019-04-11 Google Llc DATA TRANSFERS FROM A MEMORY TO MANAGE GRAPHIC OUTPUT LATENCY
US11195525B2 (en) * 2018-06-13 2021-12-07 Panasonic Intellectual Property Corporation Of America Operation terminal, voice inputting method, and computer-readable recording medium
EP3848788A4 (en) * 2018-09-07 2021-11-10 Sony Group Corporation TERMINAL DEVICE AS WELL AS THE MANUFACTURING PROCESS OF THE SAME, AND RECORDING MEDIA
US11157086B2 (en) * 2020-01-28 2021-10-26 Pison Technology, Inc. Determining a geographical location based on human gestures
JP7491147B2 (ja) * 2020-08-31 2024-05-28 セイコーエプソン株式会社 表示システムの制御方法、表示システム、及び、表示装置の制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
WO2008109299A2 (en) * 2007-03-01 2008-09-12 Sony Computer Entertainment America Inc. System and method for communicating with a virtual world
CN100520912C (zh) * 2003-02-03 2009-07-29 三菱电机株式会社 车载控制装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001067228A1 (en) * 2000-03-09 2001-09-13 Koninklijke Philips Electronics N.V. Method of interacting with a consumer electronics system
JP3705735B2 (ja) * 2000-08-29 2005-10-12 シャープ株式会社 オンデマンド・インタフェース装置とそのウィンドウ表示装置
JP4689548B2 (ja) * 2006-07-19 2011-05-25 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、画像処理方法、記録媒体、コンピュータプログラム、半導体デバイス
GB0703974D0 (en) * 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
KR20100088094A (ko) * 2009-01-29 2010-08-06 삼성전자주식회사 다중 입력 소스를 이용한 오브젝트 조작 장치
KR101623007B1 (ko) 2009-11-11 2016-05-20 엘지전자 주식회사 디스플레이 장치 및 그 제어방법
WO2011093855A1 (en) * 2010-01-27 2011-08-04 Bridgestone Americas Tire Operations, Llc Tire with noise-reducing tread pattern
KR101184460B1 (ko) * 2010-02-05 2012-09-19 연세대학교 산학협력단 마우스 포인터 제어 장치 및 방법
JP2012058838A (ja) 2010-09-06 2012-03-22 Sony Corp 画像処理装置、プログラム及び画像処理方法
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
CN100520912C (zh) * 2003-02-03 2009-07-29 三菱电机株式会社 车载控制装置
WO2008109299A2 (en) * 2007-03-01 2008-09-12 Sony Computer Entertainment America Inc. System and method for communicating with a virtual world

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及***
CN111033606A (zh) * 2017-08-31 2020-04-17 索尼公司 信息处理装置、信息处理方法和程序
US11460994B2 (en) 2017-08-31 2022-10-04 Sony Corporation Information processing apparatus and information processing method
CN108647002A (zh) * 2018-03-30 2018-10-12 联想(北京)有限公司 信息处理方法及电子设备
WO2020244410A1 (zh) * 2019-06-03 2020-12-10 清华大学 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质

Also Published As

Publication number Publication date
EP2917824B1 (en) 2018-07-25
EP2917824A1 (en) 2015-09-16
JP5998861B2 (ja) 2016-09-28
WO2014073149A1 (en) 2014-05-15
US10438058B2 (en) 2019-10-08
US20150262005A1 (en) 2015-09-17
JP2014095766A (ja) 2014-05-22

Similar Documents

Publication Publication Date Title
CN104781782A (zh) 信息处理设备、信息处理方法和程序
CN107832036B (zh) 语音控制方法、装置及计算机可读存储介质
US10678563B2 (en) Display apparatus and method for controlling display apparatus
US10587742B2 (en) Mobile terminal and control method therefor
KR20190111624A (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
KR102147329B1 (ko) 영상 표시 기기 및 그의 동작 방법
KR20170010494A (ko) 이동 단말기 및 그 제어 방법
KR20160076201A (ko) 이동 단말기 및 그 제어 방법
KR20160091628A (ko) 싱크 디바이스 및 그 제어 방법
EP3754957A1 (en) Mobile terminal and control method therefor
JP2020527734A (ja) 遠隔制御装置及び遠隔制御装置のユーザ音声受信方法
KR20180065592A (ko) 디스플레이 장치 및 디스플레이 장치의 채널 정보 획득 방법
JP2019175453A (ja) ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置
KR20130045471A (ko) 전자장치 및 그 제어방법
US11404065B2 (en) Method for displaying visual information associated with voice input and electronic device supporting the same
KR20180076830A (ko) 오디오 장치 및 그 제어방법
KR20170020090A (ko) 이동 단말기 및 이의 제어방법
CN105448300A (zh) 用于通话的方法及装置
KR20170008040A (ko) 단말기 및 그것을 포함한 시스템
US11240466B2 (en) Display device, mobile device, video calling method performed by the display device, and video calling method performed by the mobile device
CN111400729B (zh) 控制方法及电子设备
CN110958474B (zh) 显示装置及其控制方法
KR20160088652A (ko) 멀티미디어 디바이스 및 그 제어 방법
EP4044018A1 (en) Display device and method for controlling same
US11463775B2 (en) Image display device and method for operating same

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150715

RJ01 Rejection of invention patent application after publication