CN203151689U - 图像处理设备以及图像处理*** - Google Patents

图像处理设备以及图像处理*** Download PDF

Info

Publication number
CN203151689U
CN203151689U CN2013200292585U CN201320029258U CN203151689U CN 203151689 U CN203151689 U CN 203151689U CN 2013200292585 U CN2013200292585 U CN 2013200292585U CN 201320029258 U CN201320029258 U CN 201320029258U CN 203151689 U CN203151689 U CN 203151689U
Authority
CN
China
Prior art keywords
speech
voice
voice command
image processing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2013200292585U
Other languages
English (en)
Inventor
李周瑛
潘锡浩
朴相信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Application granted granted Critical
Publication of CN203151689U publication Critical patent/CN203151689U/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Details Of Television Systems (AREA)

Abstract

公开了一种图像处理设备以及图像处理***。所说图像处理设备包括:处理用于显示图像的图像信号的图像处理器;接收用户的言语的语音输入单元;确定与语音输入单元接收的言语的语音命令匹配的操作的语音处理器;执行语音处理器确定的操作并调整语音命令与操作之间的匹配关系的控制器。

Description

图像处理设备以及图像处理***
本申请要求于2012年10月26日提交到韩国知识产权局的第10-2012-0119634号韩国专利申请的优先权,所述申请的公开通过参照合并于此。
技术领域
与示例性实施例一致的设备和方法涉及一种处理从外部提供的诸如广播信号的图像信号,以基于处理的图像信号处理显示图像的图像处理设备及其控制方法以及图像处理***,更具体地讲,涉及识别用户的语音(voice)命令以执行对应于所述语音命令的功能或操作的图像处理设备及其控制方法以及图像处理***。
背景技术
图像处理设备根据各种图像处理操作处理从外部提供的图像信号/图像数据。图像处理设备可基于处理的图像信号在其显示面板上显示图像,或者将处理的图像信号输出到具有面板的另一显示设备以基于处理的图像信号在其上显示图像。即,只要图像处理设备可处理图像信号时,所述图像处理设备可包括或可不包括用于显示图像的面板。前面的情况可被实现为TV,而后面的情况可被实现为机顶盒。
图像处理设备被持续添加功能,并且扩展符合技术的发展的功能。在这种趋势下,提供各种配置和方法以将期望的用户的命令输入到图像处理设备。例如,在传统图像处理设备中,如果用户从遥控器按压键/按钮,则控制信号被发送到图像处理设备,以执行由用户期望的操作。但是,最近几年,图像处理设备检测用户的动作或语音(speech),识别检测的内容并执行对应的操作,即,通过反映用户的意图来控制图像处理设备。
实用新型内容
因此,为了最小化用于识别用户的命令并执行操作的时间,本实用新型提供了一种图像处理设备以及图像处理***。
可通过提供一种图像处理设备来获得上述和/或其它方面,其中,所述图像处理设备包括:处理图像信号的图像处理器,其中基于处理的图像信号显示图像;接收用户的言语的语音输入单元;确定与语音输入单元接收的言语的语音命令匹配的操作的语音处理器;执行语音处理器确定的操作并基于用户的命令调整语音命令与操作之间的匹配关系的控制器。
控制器还提供用于调整将操作与语音接收单元接收的语言的语音命令之间的匹配关系的用户接口(UI),并且当与预定言语的语音命令匹配的操作通过所述UI从第一操作调整到第二操作,并且通过语音输入单元接收到所述预定言语时,控制器执行第二操作。
如果在在用于引导用户说话的所述UI的引导下言语被输入到语音输入单元,则控制器将多个预设操作中的一个选择为与所述言语的语音命令匹配的第二操作。
控制器可提供用于引导用户操作安装在用户输入单元中的多个输入按钮的UI,并且将预先指定给通过所述引导操作的输入按钮的操作选择为所述多个预设操作中的第二操作。
控制器将从UI所包括的多个预设操作的列表中选择的操作选择为第二操作。
控制器可提供用于设置用于通过单个言语顺序地执行与多个言语对应的多个操作的宏指令的UI。
如果与宏指令所包括的多个预设操作中的第一操作对应的言语被输入,则控制器可执行宏指令。
所述图像处理设备还可包括:连接到服务器以进行通信的通信单元,其中,如果言语被输入则控制器控制语音处理器和服务器中的一个确定与所述言语的语音命令匹配的操作。
通信单元可与将言语转换为语音命令的文本的言语至文本(STT)服务器,如果言语被输入到语音输入单元,则控制器可将言语的语音信号发送到STT服务器并从STT服务器接收与言语对应的语音命令。
如果语音命令是短句则控制器可控制语音处理器确定于语音命令匹配的操作,如果语音命令时交谈语句则控制器可控制服务器确定与语音命令匹配的操作。
所述图像处理设备还可包括:显示单元,基于图像处理器处理的图像信号在其上显示图像。
可通过提供一种图像处理设备的控制方法来获得本实用新型的另一方面,其中,所述图像处理设备包括:接收用户的言语;根据与所述言语对应的语音命令执行预设的对应的操作;如果对应的操作与言语不匹配则调整语音命令的对应的操作,并根据调整的结果进行设置以执行与所述言语匹配的对应的操作。
所述设置步骤可包括:提供用于调整针对语音命令的对应操作的指定状态调整的用户接口(UI);并且,如果对于预定言语的语音命令指定的对应的操作通过UI从第一操作调整到第二操作,则进行设置以在接收到所述言语时执行第二操作。
所述UI可引导用户说话,并且所述设置可包括:如果通过UI的引导言语输入到语音输入单元,则将多个预设操作中的一个选择为与所述言语的语音命令对应的第二操作。
所述UI可引导用户操作安装在所述图像处理设备的用户输入单元中的多个输入按钮,并且所述设置步骤可包括:将预先指定给通过所述引导操作的输入按钮的操作选择为所述多个预设操作中的第二操作。
所述UI可包括多个预设操作的列表,并且所述设置可包括:从所述列表选择的操作选择为第二操作。
所述UI可被提供以设置用于通过单个言语顺序地设置多个言语和与所述多个言语对应的多个操作的宏指令。
所述控制方法还包括:如果与宏指令所包括的多个预设操作中的第一操作对应的言语被输入,则执行宏指令。
所述图像处理设备还可以与服务器进行通信,并且,所述执行预设的对应的操作的步骤包括:由图像处理设备和服务器中的一个处理与所述言语对应的语音命令。
所述图像处理设备还可以与将言语转换为语音命令的文本的言语至文本(STT)服务器,并且,输入用户的言语的步骤可包括:将言语的语音信号发送到STT服务器并从STT服务器接收与言语对应的语音命令。
所述控制步骤可包括:如果语音命令是短句则控制所述图像处理设备处理语音命令,如果语音命令是交谈语句则控制服务器处理语音命令。
所述图像处理设备还可包括:显示单元,基于图像处理器处理的图像信号在其上显示图像。
可通过提供一种图像处理***来获得本实用新型的另一方面,所述图像处理***包括:处理图像信号以基于处理的图像信号显示图像的图像处理设备;与所述图像处理设备进行通信的服务器,其中,所述图像处理设备包括:接收用户的言语的语音输入单元;确定与语音输入单元接收的言语的语音命令匹配的操作的语音处理器;如果言语通过语音输入单元输入则控制语音处理器和服务器中的至少一个确定与语音输入单元接收的言语的语音命令匹配的操作,执行语音处理器和服务器中的至少一个的操作并基于用户的命令调整语音命令与操作之间的匹配关系的控制器。
根据本实用新型,通过根据用户的说话习惯调整图像处理设备的操作与言语的匹配关系来正确识别与用户的言语对应的操作,从而最小化了用于识别用户的命令并执行操作的时间。
附图说明
通过下面结合附图对示例性实施例进行的描述,上述和/或其他方面将会变得清楚和更易于理解,其中:
图1是根据第一实施例的显示设备的框图;
图2是示出图1中的显示设备和服务器的交互式结构的框图;
图3示出存储在图2中的显示设备或交谈服务器中的用于与语音命令对应的操作的数据库;
图4至图6示出用于在图2中的显示设备中设置语音命令的用户界面(UI)的示例;
图7示出根据第二实施例的在可在显示设备中设置的宏指令的序列的示例;
图8至图12示出用于设置图7中的宏指令的示例。
具体实施方式
下面,将参照附图详细描述示例性实施例,从而具有本领域一般知识的人可容易地实现所述示例性实施例。可通过各种形式实施所述示例性实施例,而不限于在此阐述的示例性实施例。为了清楚起见,省略对公知部件的描述,并且贯穿全文,相同的标号表示相同的元件。
图1是根据实施例的图像处理设备100的框图。
以下实施例解释可在其上显示图像的图像处理设备100,但是本实用新型的构思可应用于在其上不显示图像而是将图像信号/控制信号输出到其它显示设备的其它装置。因此,本实用新型的构思不限于以下实施例。本实施例解释实现为TV的图像处理设备100,图像处理设备100的实施例可不同。
如图1中所示,根据本实施例的图像处理设备100或显示设备100从图像供应源(未示出)接收图像信号。显示设备100可接收的图像信号不受限于类型和特性,例如,显示设备100可接收由广播站的发送设备(未示出)发送的广播信号,对广播信号进行调谐并显示广播图像。
显示设备100包括:图像接收器110,从图像供应源(未示出)接收图像信号;图像处理器120,根据预设图像处理操作处理图像接收器110接收的图像信号;显示单元130,基于图像处理器120处理的图像信号在其上显示图像;通信单元140,与外部装置(诸如,服务器10)进行通信;用户输入单元150,由用户操作;语音输入单元160,从外部接收语音或声音;语音处理器170,解释并处理输入到语音输入单元160的语音/声音;存储单元180,在其中存储数据/信息;控制器190,控制显示设备100的整体操作。
图像接收器110以有线或无线方式接收图像信号/图像数据,并将图像信号/图像数据发送到图像处理器120。图像接收器110根据接收的图像信号的标准以及显示设备100的实施类型可不同。例如,图像接收器110可接收射频(RF)信号或根据标准(诸如,复合视频、分量视频、超级视频、SCART、高清晰多媒体接口(HDMI)、显示端口(DisplayPort)、统一视频接口(UDI)或无线HD标准)的图像信号。如果图像信号是广播信号,则图像接收器110包括用于对每个频道的广播进行调谐的调谐器。
图像处理器120根据各种图像处理操作处理图像接收器110接收的图像信号。图像处理器120将处理的图像信号输出到显示单元130,其中,所述显示单元基于处理的图像信号显示图像。例如,如果广播信号被图像接收器110调谐到特定信道,则图像处理器120从与信道对应的广播信号提取图像、语音以及附加数据,将图像信号调整到预定分辨率并在显示单元130上显示图像。
图像处理器120的图像处理操作可包括但不限于与图像数据的图像格式对应的解码操作、用于将交织图像数据转换为渐进图像数据的解交织操作、用于将图像数据调整为预设的分辨率的缩放操作、用于提高图像品质的去噪操作、细节增强操作、帧刷新率转换等。
图像处理器120被实现为集成前述功能的片上***(SOC)或实现为图像处理板(未示出),其中,所述图像处理板通过将单独元件安装在印刷电路板(PCB)(未示出)上以执行前述图像处理操作来形成并且安装在显示设备100中。
显示单元130基于图像处理器120输出的图像信号在其上显示图像。显示单元130可被实现为包括,但不限于,液晶、等离子、发光二极管(LED)、有机发光二极管(OLED)、表面传导电子发射器、碳纳米管和纳米晶的各种显示面板。
显示单元130还可根据其实施类型包括附加元件。例如,作为LCD的显示单元130可包括LCD面板(未示出)、将光发射到LCD面板上的背光单元(未示出)以及用于驱动LCD面板的面板驱动基板(未示出)。
通信单元140发送和接收用于在显示设备100和服务器10之间交互通信的数据。通信单元140根据服务器10的通信协议,通过有线/无线广域网/局域网或本地连接与服务器10连接。
用户输入单元150通过用户的操作和输入将预设的各种控制命令或信息发送给控制器190。用户输入单元150被实现为菜单键或安装在显示设备100的外部部件中的输入面板,或者被实现为与显示设备100分离/分开的遥控器。否则,可在显示单元130中集成地形成用户输入单元150。如果显示单元130是触摸屏,则用户可触摸显示在显示单元130上的输入菜单(未示出),以将预设的命令发送给控制器190。
语音输入单元160被实现为麦克风,并且检测从显示设备100的外部环境产生的各种声音。语音输入单元160检测到的声音包括用户的言语以及由用户以外的各种因素产生的其他声音。
在显示设备100执行的各种预设的处理中,语音处理器170处理输入到语音输入单元160的语音/声音。由语音处理器170处理的“语音”是指输入到语音输入单元160的语音。当图像处理器120处理的图像信号包括语音数据时,该语音数据被图像处理器120处理。
如果语音/声音输入到语音输入单元160,则语音处理器170确定输入的语音/声音是用户的言语所致还是被其他因素产生。该确定可使用各种配置,并且不能够被规定,例如,所述确定包括确定输入的语音/声音落入与人的语音对应的波长/频段的方法,或者确定输入的语音/声音落入事先规定的用户语音资料的方法。
如果确定用户的言语已经输入,则语音处理器170根据与所述言语对应的语音命令,确定与所述语音命令对应的预设的操作。语音命令是指与用户说出的内容对应的数据。稍后将详细地对此进行描述。
在本实施例中,单独地提供语音处理器170和图像处理器120。但是,这仅是用于便于清楚地解释实施例的目的的功能划分,且不表示图像处理器120和语音处理器170在实现本实施例的显示设备100中必需相互分离。即,显示设备100可包括集成了图像处理器120和语音处理器170的信号处理器(未示出)。
存储单元180在控制器190的控制下,在其中存储未限制的数据。存储单元180被实现为如闪存或硬盘驱动器的非易失性存储器。存储单元180被控制器190、图像处理器120或语音处理器170访问,并且在其中存储的数据可被控制器190、图像处理器120或语音处理器170读取/写入/修改/删除/更新。
在通过语音输入单元160接收到用户的言语后,控制器190控制语音处理器170处理输入的言语。控制器190确定与言语对应的语音命令是短句还是交谈语句,并且根据确定结果控制语音处理器170或服务器10处理语音命令。具体地讲,如果语音命令是短句,则控制器190控制语音处理器170处理语音命令。如果语音命令是交谈语句,则控制器190通过通信单元140将语音命令发送到服务器10,以通过服务器10处理语音命令。
图2是示出显示设备100与服务器20和30的交互式结构的框图。
如图所示,显示设备100包括通信单元140、语音输入单元160、语音处理器170和控制器190。上述构造与图1解释的构造相同。通信单元140连接到STT服务器20和交谈服务器30,STT服务器20将用户的言语转换为语音命令,交谈服务器30分析语音命令以确定语音命令的对应操作。
当接收到语音信号时,STT服务器20分析语音信号的波形并将语音信号的内容转换为文本。当从显示设备100接收到用户的言语的语音信号时,STT服务器20将语音信号转换为语音命令。
交谈服务器30包括用于与语音命令对应的显示设备10的各种操作的数据库。交谈服务器30分析显示设备10发送的语音命令,并将控制信号发送到显示设备100以执行与语音命令对应的操作。
如果用户的言语输入到语音输入单元160,则控制器190将言语的语音信号发送到STT服务器20,并从STT服务器20接收与所述言语对应的语音命令。
控制器190确定STT服务器20发送的语音命令是短句还是交谈语句。如果语音命令是短句,则控制器190控制语音处理器170处理语音命令。如果语音命令是交谈语句,则控制器190控制交谈服务器130处理语音命令。
如果语音命令是短句,则语音处理器170在控制器190的控制下搜索存储在存储单元180中的数据库,以规定与语音命令对应的显示设备100的功能或操作。控制器190控制规定的操作被执行。
如果语音命令是交谈语句,则控制器190将语音命令发送到交谈服务器30。交谈服务器30分析显示设备100发送的语音命令以规定显示设备100的操作。交谈服务器30将用于命令规定操作的控制信号发送到显示设备100,显示设备100根据所述控制信号执行操作。
然后,通过用户的言语显示设备100的预设对应操作被执行。
根据语音命令是短句还是交谈语句选择语音命令的处理对象的处理可归因于显示设备100的处理能力和***负载。由于交谈语句是自然语言,所以机械的提取在作为交谈语句的语音命令中的期望的对应的操作不是相对容易的。由于通过使用显示设备100的有限的资源来分析作为交谈语句的语音命令不是容易的,所以可由交谈服务器30来处理作为交谈语句的语音命令,从而处理各种言语。
可在设计中改变这种构造,可由显示设备100执行STT服务器20和交谈服务器30中的至少一个的处理。例如,显示设备100,而不是服务器20和30,将用户的言语转换为语音命令或分析作为交谈语句的语音命令。
通过上述构造,控制器190控制语音处理器170或交谈服务器30,执行规定与用户的言语的语音命令对应的操作的处理。下面,将描述,由控制器190控制语音处理器170规定与语音命令对应的显示设备100的操作的构造。由交谈服务器30来执行与语音命令对应的显示设备100的操作的构造可采用下面描述的实施例。
图3示出存储在显示设备100或交谈服务器30中的关于与语音命令对应的操作的数据库210的示例。
如在此示出,存储单元180在其中存储数据库210,其中,所述数据库210将与用户的言语对应的语音命令和由显示设备100执行的各种功能或操作进行匹配。“操作”表示显示设备100执行和支持的任何类型的操作和功能。
控制器190基于预定的语音命令搜索数据库210,并且可确定哪个操作对应于语音命令。
根据本实施例的数据库210仅表示数据建立原理或方法之一,而不限制本实用新型的构思。附图中示出的数据库210表示一个命令对应于一个操作,但是这仅是为了方便的目的。实际上,数据库210可表示多个命令可对应于一个操作。数据库210的标号仅为了方便的目的。
例如,如果与用户的言语对应的语音命令是“开启”,则控制器190可基于语音命令“开启”搜索数据库210,并确定与语音命令“开启”对应的操作是“开启***”。
然后,控制器190可考虑显示设备100的当前状态而选择性地执行操作。如果显示设备100已经开启,则控制器190可不执行操作“开启***”。如果显示设备100当前关闭,则控制器190控制显示设备100开启***。
作为另一示例,如果在显示设备100显示图像时用户说出“音量过大”,则控制器190可从数据库210规定与语音命令“音量过大”对应的操作是“静音”。控制器190可将显示的图像的音量调整为零,以执行“静音”操作。
作为另一示例,如果在显示设备100显示图像时用户说出“我无法听到任何声音”,则控制器190可从数据库210确定与命令“我无法听到任何声音”对应的操作是“将音量提高到等级5”。然后,控制器190将显示的图像的音量提高到等级5。
通过上述方法,控制器190可执行与用户的言语对应的操作。
但是,由于用户具有不同的说话习惯和结构,因此用于识别用户的语音命令的上述构造在通过STT服务器20或语音处理器170的语音识别逻辑解释用户所有言语方面无法总是产生正确结果。
例如,如果用户说出“开启”,则STT服务器20可将言语的语音信号转换为另一语音命令,而不是语音命令“开启”。如果数据库210不具有转换的语音命令,则控制器190可不执行任意与语音命令对应的任何操作。
另外,转换的语音命令可存在于数据库210中,但是可以与用户的语音命令不同。例如,如果用户已经说出“开启”,但是转换的语音命令为“关闭”,则控制器190可确定与语音命令对应的操作为“关闭***”。关于用户的言语“开启”,与用户的意图不同,这导致关闭显示设备100的***。
考虑上述情况,在本实施例中提供下面的方法。
如果输入到语音输入单元160的用户的言语不与对应的操作匹配,则控制器190允许用户针对用户的命令调整对应的操作。如果相同的言语稍后被输入,则控制器190执行根据调整的结果与言语匹配的对应的操作。
更详细地讲,当发生预设事件时,控制器190提供用于调整数据库210中的语音命令与对应的操作之间的相互连接的设置状态的用户接口(UI)。所述预设事件可包括用户输入单元150的用户的操作或作为用户言语的结果请求产生UI的命令。
在第一操作被指定给预定第一命令的初始状态下,如果与第一命令对应的操作通过UI被调整为与第一操作不同的第二操作,则控制器190根据所述调整更新数据库210。如果与用户的言语对应的语音命令是第一命令,则控制器190基于更新的数据库210执行第二操作,而不是第一操作。
在第一操作被指定给预定第一命令的初始状态下,如果作为新的语音命令的第二命令被指定给第一操作,则控制器190根据所述调整更新数据库210。如果与用户的言语对应的语音命令是第一命令或第二命令,则控制器190基于更新的数据库执行第一操作。
然后,语音识别操作可被调整为与用户的意图一致。
以下,将描述通过UI改变语音命令的设置的方法。
图4至图6示出用于设置语音命令的UI220、230和240的示例。
如图4所示,用户通过用户输入单元150请求控制器190显示UI220以改变与言语对应的语音命令的设置。控制器190显示UI220。
UI220包括引导用户说话的信息,从而规定反映用户的设置的言语和语音命令。在UI220显示时用户说出语音命令。
如果UI220显示时用户的言语通过语音输入单元160输入,则控制器190控制语音处理器170或STT服务器20将用户的言语转换为语音命令。
如图5所示,控制器190显示引导用户以指定期望的操作的UI230,以规定存储在数据库210中的显示设备100的各种操作(参照图3)当中与输入的语音命令对应的操作。
在先前的UI200(参照图4)被显示时,UI230被提供给用户以选择与用户的言语的语音命令对应的操作。
例如,将考虑UI220(参照图4)被显示时用户说出“开启”时的情况。用户根据UI230的引导按下实现为遥控器的用户输入单元150的电源按钮151。控制器190将转换了用户的言语的语音命令与由用户操作的电源按钮151进行匹配,并更新数据库210(参照图3)。
由于电源按钮151是开关类型(toggle type),所以如果用户按下电源按钮151,则执行两种类型的结果,即,开启和关闭。在这种情况下,UI230可附加地提供用于选择开启或关闭的选项。
作为另一示例,将考虑在UI220(参照图4)显示的同时用户说出语音命令“减小音量”的情况。用户根据UI230的引导按下用户输入单元150的音量降低按钮152。然后,控制器190进行调整以执行与语音命令“减小音量”对应的音量降低按钮152的操作。
即,即使用户的言语被转换为与实际内容不同的语音命令,用户也可指定或调整与语音命令对应的操作,结果,可执行与用户的意图匹配的操作。
如图6所示,在另一实施例中,如果在UI220(参照图4)显示时用户的言语被输入,则控制器190可显示包括多个预设操作的列表的UI240,以选择与针对所述言语的语音命令对应的操作。
在UI240中显示列表的方法可被改变为包括:通过滚动类型以预设顺序显示多个操作或者如果用户选择多个代表性项目中的一个则以关于子项目的树弹出或显示。
通过上述方法,在特定语音命令在数据库210中被设置给第一操作时,控制器190可将用于语音命令的指定状态从第一操作调整为第二操作,或添加新的语音命令以对应于第一操作。
但是,第一操作和第二操作可以是用于调整相同功能的数字等级的操作,但是等级号可不同。
例如,将考虑用户的言语的语音命令“减小音量”以及对应的操作是用于将当前音量减小到等级7的情况。如果通过上面解释的UI,等级7被调整为等级5,则控制器190使用调整的内容来更新数据库210。
如果稍后用户的言语“减小音量”被输入,则控制器190将音量减小为等级5。
如上,通过UI更新数据库210可反映用户的各种意图。
控制器190可设置通过单个言语顺序地执行与多个用户的言语对应的多个操作的宏指令。
图7示出根据本实施例的宏指令的序列的示例。
如在此示出,控制器190可提供用于宏指令的设置,以顺序地执行多个操作,这可由用户通过UI设置。
UI的实现方法可改变,例如,可提供所述UI以从各种预设操作的列表选择操作。
将考虑用户设置用于自动地执行睡眠预订和闹铃设置的宏指令的情况。在这种情况下,操作的序列包括选择睡眠预定功能310、用于关闭显示设备100的***电源的时间320、选择闹铃设置功能330、用于闹铃的时间340以及序列完成设置350。
当通过经用户输入单元150的用户的操作或经语音输入单元160的用户的言语,接收用于设置宏指令的请求时,控制器190显示用于设置宏指令的UI。
图8至图12示出用于设置宏指令的UI410、420、430、440和450的示例。
如图8所示,控制器190显示用于选择宏指令的第一操作的UI410。提供UI410以选择多个操作中的一个,并且用户可操作用户输入单元150或说出与操作对应的语音命令,以选择宏指令的第一操作。在本实施例中,用户通过UI410选择“睡眠预定”操作。
如图9所示,如果用户选择“睡眠预定”,则控制器190显示用于指定时间的UI420,其中,在所述时间之后关闭显示设备100。
提供UI420,以选择多个示例预设时间。另外,UI420可被提供给用户以通过他/她的言语输入时间或通过用户输入单元150输入时间。
如图10所示,控制器190将UI430显示给用户,以选择完成包括上面解释的操作序列的宏指令的设置还是通过添加操作来继续设置宏指令。
用户选择“完成”以完成宏指令的设置,或选择“继续”。
如图11所示,如果用户从UI430(参照图10)选择“继续”,则控制器190将UI440显示给用户以选择宏指令的下一操作。UI440的类型与图8的情况基本相同。
用户通过UI440选择“闹铃设置”操作。
如图12所示,控制器190根据选择先前选择的“闹铃设置”操作的选择将UI450显示给用户以指定闹铃时间。
用户可在UI450显示的同时通过用户输入单元150输入数字或说出数字,从而设置闹铃时间。
如果设置操作完成,则控制器190显示如图10所示的UI430。如果用户选择“完成”,则控制器190在存储单元180的数据库中以图7中的序列存储用于设置操作的宏指令。
如果用户说出宏指令中的与第一操作对应的语音命令,即说出落入“睡眠预定”的语音命令,则控制器190顺序地执行如在宏指令中的设置的多个操作。另外,在设置宏指令期间,可设置新的语音命令以执行宏指令。
如上所述,可通过用户的简单语音命令,可顺序地执行多个操作。
虽然示出和描述了一些示例性实施例,但是本领域技术人员应该理解,在不脱离由所附权利要求及其等同物限定的范围的本实用新型的原理和精神的前提下,可对这些示例性实施例进行修改。

Claims (12)

1.一种图像处理设备,其特征在于包括:
处理图像信号的图像处理器,其中,基于所述处理的图像信号显示图像;
接收用户的言语的语音输入单元;
确定与语音输入单元接收的言语的语音命令匹配的操作的语音处理器;执行语音处理器确定的操作并基于用户的命令调整语音命令与操作之间的匹配关系的控制器。
2.根据权利要求1所述的图像处理设备,其特征在于,控制器提供用于调整操作与语音接收单元接收的语言的语音命令之间的匹配关系的用户接口UI,
其中,当与预定言语的语音命令匹配的操作通过所述UI从第一操作调整到第二操作,并且通过语音输入单元接收到所述预定言语时,控制器执行第二操作。
3.根据权利要求2所述的图像处理设备,其特征在于,如果在用于引导用户说话的UI的引导下言语被输入到语音输入单元,则控制器将多个预设操作中的一个选择为与所述言语的语音命令匹配的第二操作。
4.根据权利要求3所述的图像处理设备,其特征在于,控制器提供用于引导用户操作安装在用户输入单元中的多个输入按钮的UI,并将预先指定给通过所述引导操作的输入按钮的操作选择为所述多个预设操作中的第二操作。
5.根据权利要求3所述的图像处理设备,其中,控制器将从UI所包括的多个预设操作的列表中选择的操作选择为第二操作。
6.根据权利要求1所述的图像处理设备,其特征在于,控制器提供用于设置用于通过单个言语顺序地执行与多个言语对应的多个操作的宏指令的UI。
7.根据权利要求6所述的图像处理设备,其特征在于,如果与宏指令所包括的多个预设操作中的第一操作对应的言语被输入,则控制器执行宏指令。
8.根据权利要求1所述的图像处理设备,其特征在于还包括:连接到服务器以进行通信的通信单元,其中,如果言语被输入则控制器控制语音处理器和服务器中的一个确定与所述言语的语音命令匹配的操作。
9.根据权利要求8所述的图像处理设备,其特征在于,通信单元与将言语转换为文本的语音命令的言语至文本STT服务器通信,
其中,如果言语被输入到语音输入单元,则控制器将言语的语音信号发送到STT服务器,并从STT服务器接收与言语对应的语音命令。
10.根据权利要求8所述的图像处理设备,其特征在于,如果语音命令是短句,则控制器控制语音处理器确定与语音命令匹配的操作,如果语音命令是交谈语句,则控制器控制服务器确定与语音命令匹配的操作。
11.根据权利要求1所述的图像处理设备,其特征在于还包括:显示单元,基于图像处理器处理的图像信号在其上显示图像。
12.一种图像处理***,其特征在于包括:
处理图像信号以基于处理的图像信号显示图像的图像处理设备;
与所述图像处理设备进行通信的服务器,
其中,所述图像处理设备包括:
接收用户的言语的语音输入单元;
确定与语音输入单元接收的言语的语音命令匹配的操作的语音处理器;
如果言语通过语音输入单元输入则控制语音处理器和服务器中的至少一个确定与语音输入单元接收的言语的语音命令匹配的操作,执行语音处理器和服务器中的至少一个的操作并基于用户的命令调整语音命令与操作之间的匹配关系的控制器。
CN2013200292585U 2012-10-26 2013-01-21 图像处理设备以及图像处理*** Expired - Fee Related CN203151689U (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0119634 2012-10-26
KR1020120119634A KR101284594B1 (ko) 2012-10-26 2012-10-26 영상처리장치 및 그 제어방법, 영상처리 시스템

Publications (1)

Publication Number Publication Date
CN203151689U true CN203151689U (zh) 2013-08-21

Family

ID=47751802

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2013200292585U Expired - Fee Related CN203151689U (zh) 2012-10-26 2013-01-21 图像处理设备以及图像处理***
CN201310020547.3A Pending CN103796053A (zh) 2012-10-26 2013-01-21 图像处理设备及其控制方法和图像处理***

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201310020547.3A Pending CN103796053A (zh) 2012-10-26 2013-01-21 图像处理设备及其控制方法和图像处理***

Country Status (8)

Country Link
US (2) US20140122088A1 (zh)
EP (1) EP2725576A1 (zh)
JP (1) JP2014132370A (zh)
KR (1) KR101284594B1 (zh)
CN (2) CN203151689U (zh)
DE (1) DE202012104833U1 (zh)
FR (1) FR2997599B3 (zh)
WO (1) WO2014065467A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109218843A (zh) * 2018-09-27 2019-01-15 四川长虹电器股份有限公司 基于电视设备的个性化智能语音提示方法
CN109259800A (zh) * 2018-10-26 2019-01-25 深圳开立生物医疗科技股份有限公司 超声成像控制***
CN110058832A (zh) * 2013-10-15 2019-07-26 三星电子株式会社 图像处理装置及其控制方法
CN111597808A (zh) * 2020-04-24 2020-08-28 北京百度网讯科技有限公司 仪表盘绘制处理方法、装置、电子设备和存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
CN104795067B (zh) 2014-01-20 2019-08-06 华为技术有限公司 语音交互方法及装置
JP2016046636A (ja) * 2014-08-21 2016-04-04 日本電気株式会社 動作制御装置、動作制御方法、および動作制御プログラム
CN107003647B (zh) * 2014-09-25 2019-08-06 西门子公司 用于执行自动化***的配置的方法和***
CN105763929B (zh) * 2016-02-23 2018-10-23 广州酷狗计算机科技有限公司 音频切换方法及装置
CN106791370A (zh) * 2016-11-29 2017-05-31 北京小米移动软件有限公司 一种拍摄照片的方法和装置
US20190333508A1 (en) * 2016-12-30 2019-10-31 Harman International Industries, Incorporated Voice recognition system
US10424297B1 (en) * 2017-02-02 2019-09-24 Mitel Networks, Inc. Voice command processing for conferencing
CN107248235A (zh) * 2017-05-26 2017-10-13 黄晓咏 一种语音寄存柜通讯***
CN109584862B (zh) * 2017-09-29 2024-01-12 上海寒武纪信息科技有限公司 图像处理装置和方法
CN109584864B (zh) * 2017-09-29 2023-11-24 上海寒武纪信息科技有限公司 图像处理装置和方法
CN108235185A (zh) * 2017-12-14 2018-06-29 珠海荣邦智能科技有限公司 音源输入客户端设备、遥控器,以及播放音乐的***
JP7263919B2 (ja) * 2019-05-22 2023-04-25 コニカミノルタ株式会社 画像処理装置およびプログラム
JP7318381B2 (ja) * 2019-07-18 2023-08-01 コニカミノルタ株式会社 画像形成システムおよび画像形成装置
KR102165084B1 (ko) * 2020-01-21 2020-10-13 주식회사 나인위드 직관적인 사용자 인터페이스를 이용한 경품 추첨 서비스 제공 시스템

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07109560B2 (ja) * 1990-11-30 1995-11-22 富士通テン株式会社 音声認識装置
KR970057020A (ko) * 1995-12-15 1997-07-31 배순훈 음성인식에 의한 텔레비전 제어장치
ES2198758T3 (es) * 1998-09-22 2004-02-01 Nokia Corporation Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz.
KR20000042731A (ko) * 1998-12-26 2000-07-15 전주범 텔레비전의 음성인식에 의한 채널전환장치
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
JP4789227B2 (ja) * 2001-04-04 2011-10-12 Necディスプレイソリューションズ株式会社 音声認識機能を内蔵した映像表示装置
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
KR100672518B1 (ko) * 2005-02-15 2007-01-24 엘지전자 주식회사 음성인식 기능을 갖는 티브이
TWI298844B (en) * 2005-11-30 2008-07-11 Delta Electronics Inc User-defines speech-controlled shortcut module and method
JP4181590B2 (ja) * 2006-08-30 2008-11-19 株式会社東芝 インタフェース装置及びインタフェース処理方法
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
KR20120119634A (ko) 2011-04-22 2012-10-31 (주)광인사 입체무늬를 갖는 플라스틱 카드

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110058832A (zh) * 2013-10-15 2019-07-26 三星电子株式会社 图像处理装置及其控制方法
CN110058832B (zh) * 2013-10-15 2022-11-25 三星电子株式会社 图像处理装置及其控制方法
CN109218843A (zh) * 2018-09-27 2019-01-15 四川长虹电器股份有限公司 基于电视设备的个性化智能语音提示方法
CN109218843B (zh) * 2018-09-27 2020-10-23 四川长虹电器股份有限公司 基于电视设备的个性化智能语音提示方法
CN109259800A (zh) * 2018-10-26 2019-01-25 深圳开立生物医疗科技股份有限公司 超声成像控制***
CN111597808A (zh) * 2020-04-24 2020-08-28 北京百度网讯科技有限公司 仪表盘绘制处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2014065467A1 (en) 2014-05-01
CN103796053A (zh) 2014-05-14
US20140122089A1 (en) 2014-05-01
US20140122088A1 (en) 2014-05-01
FR2997599B3 (fr) 2015-05-29
KR101284594B1 (ko) 2013-07-10
FR2997599A3 (fr) 2014-05-02
DE202012104833U1 (de) 2013-01-30
JP2014132370A (ja) 2014-07-17
EP2725576A1 (en) 2014-04-30

Similar Documents

Publication Publication Date Title
CN203151689U (zh) 图像处理设备以及图像处理***
CN203340238U (zh) 图像处理设备
CN103945250B (zh) 图像处理设备、其控制方法、以及图像处理***
CN109429097B (zh) 图像显示设备及其操作方法
EP3013063B1 (en) Closed caption-support content receiving apparatus and display apparatus, system having the same, and closed caption-providing method thereof
CN103281580A (zh) 分离用户界面的电视机遥控方法及其***
EP3542539B1 (en) Image display apparatus and operation method thereof
CN109361943A (zh) 遥控器的复用方法、装置和存储介质
CN112163086A (zh) 多意图的识别方法、显示设备
CN103533391A (zh) 一种声控式交互的双向互动数字电视盒***及实现方法
US11907616B2 (en) Electronic apparatus, display apparatus and method of controlling the same
CN111385624B (zh) 一种基于语音的数据传输控制方法、智能电视及存储介质
CN109564758A (zh) 电子设备及其语音识别方法
US20150025893A1 (en) Image processing apparatus and control method thereof
KR102460927B1 (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이장치의 제어방법
US20180316963A1 (en) Display apparatus and method of operating the same
EP3859517A1 (en) Electronic apparatus and method of controlling the same
WO2022046231A1 (en) Providing transfer and configuration of web conferencing between consumer devices
CN101656066B (zh) 卡拉ok点歌机双路点歌的方法
CN108108105B (zh) 一种信息处理设备及信息处理方法
CN114627864A (zh) 显示设备与语音交互方法
CN103686266A (zh) 多媒体***及其操作方法
CN117807307A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20190121

CF01 Termination of patent right due to non-payment of annual fee