CN116189674A - 一种语音控制方法及显示设备 - Google Patents

一种语音控制方法及显示设备 Download PDF

Info

Publication number
CN116189674A
CN116189674A CN202211597149.3A CN202211597149A CN116189674A CN 116189674 A CN116189674 A CN 116189674A CN 202211597149 A CN202211597149 A CN 202211597149A CN 116189674 A CN116189674 A CN 116189674A
Authority
CN
China
Prior art keywords
voice information
control module
voice
main control
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211597149.3A
Other languages
English (en)
Inventor
杨香斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202211597149.3A priority Critical patent/CN116189674A/zh
Publication of CN116189674A publication Critical patent/CN116189674A/zh
Priority to PCT/CN2023/121251 priority patent/WO2024125032A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • H04N21/4436Power management, e.g. shutting down unused components of the receiver
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种语音控制方法及显示设备,涉及智能终端技术领域,能够提高用户控制待机状态下的显示设备显示媒体资源(如,视频)的速度。显示设备包括:显示器,被配置为显示媒体资源;主控制模块,被配置为在显示设备处于待机状态下停止工作;开机控制模块,被配置为:在显示设备处于待机状态下,获取语音信息;若语音信息包括第一语音信息,则触发主控制模块启动,并确定语音信息是否包括除第一语音信息之外的第二语音信息;第一语音信息用于指示唤醒词;主控制模块,被配置为:若语音信息包括第二语音信息,则根据第二语音信息,控制显示器显示第二语音信息所指示的媒体资源。

Description

一种语音控制方法及显示设备
技术领域
本申请涉及智能终端技术领域,尤其涉及一种语音控制方法及显示设备。
背景技术
目前,显示设备(如,手机,电视等)的智能化程度越来越高,例如,显示设备开始提供远场语音功能。通过该远场语音功能,用户不需要执行实体操作,通过语音就能控制显示设备的功能。例如,语音控制显示设备开机,语音控制显示设备播放视频。
其中,显示设备处于待机状态时,只响应于触发显示设备开机的开机语音。因此,如果用户在显示设备处于待机状态时,想要控制显示设备播放视频,需要用户先发出触发显示设备开机的开机语音,并等待显示设备开机。在显示设备成功开机后,用户再发出触发显示设备播放视频的显示指令语音,显示设备接收并响应于该显示指令语音,显示该视频。可以知道的是,用户需要多次发出语音才能控制显示设备播放视频。这样无疑就增加了用户控制待机状态下的显示设备播放视频的步骤,从而降低了用户控制待机状态下的显示设备播放视频的速度。
发明内容
本申请实施例提供一种语音控制方法及显示设备,能够提高用户控制待机状态下的显示设备显示媒体资源(如,视频)的速度。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种语音控制方法,应用于显示设备中,显示设备包括开机控制模块,开机控制模块在显示设备处于待机状态下工作。该方法包括:显示设备在待机状态下,开机控制模块获取语音信息;若语音信息包括第一语音信息,则显示设备开机,并确定语音信息是否包括除第一语音信息之外的第二语音信息;第一语音信息用于指示唤醒词;若语音信息包括第二语音信息,则显示设备根据第二语音信息,显示第二语音信息所指示的媒体资源。
结合第一方面,在一种可能的实现方式中,该方法还包括:开机控制模块确定语音信息是否包括第一语音信息;若语音信息不包括第一语音信息,则开机控制模块确定下一个语音信息是否包括第一语音信息。下一个语音信息是开机控制模块在语音信息之后获取的。
结合第一方面,另一种可能的实现方式中,显示设备还包括主控制模块;主控制模块在显示设备处于待机状态下停止工作。上述显示设备开机,并从语音信息中确定除第一语音信息之外的第二语音信息,包括:开机控制模块触发主控制模块启动,并且,开机控制模块确定语音信息是否包括除第一语音信息之外的第二语音信息。
结合第一方面,另一种可能的实现方式中,上述显示设备根据第二语音信息,显示第二语音信息所指示的媒体资源,包括:主控制模块获取来自开机控制模块的第二语音信息;主控制模块向服务器发送第二语音信息;主控制模块接收服务器发送的第二语音信息的语音识别结果;主控制模块根据语音识别结果,确定第二语音信息所指示的媒体资源并显示。
结合第一方面,另一种可能的实现方式中,上述主控制模块获取来自开机控制模块的第二语音信息,包括:若语音信息包括第二语音信息,则开机控制模块生成第一标识;第一标识表征语音信息包括第二语音信息;主控制模块向开机控制模块发送第一查询请求;开机控制模块响应于主控制模块发送的第一查询请求,向主控制模块发送第一标识;主控制模块根据开机控制模块发送的第一标识,向开机控制模块发送第二查询请求;开机控制模块响应于主控制模块发送的第二查询请求,向主控制模块发送第二语音信息;主控制模块接收开机控制模块发送的第二语音信息。
第二方面,提供了一种显示设备,显示设备包括:显示器、开机控制模块和主控制模块。
其中,显示器,被配置为显示媒体资源。主控制模块,被配置为在显示设备处于待机状态下停止工作。开机控制模块,被配置为:在显示设备处于待机状态下,获取语音信息;若语音信息包括第一语音信息,则触发主控制模块启动,并确定语音信息是否包括除第一语音信息之外的第二语音信息;第一语音信息用于指示唤醒词。主控制模块,被配置为:若语音信息包括第二语音信息,则根据第二语音信息,控制显示器显示第二语音信息所指示的媒体资源。
结合第二方面,另一种可能的实现方式中,开机控制模块,还被配置为:确定语音信息是否包括第一语音信息;若语音信息不包括第一语音信息,则确定下一个语音信息是否包括第一语音信息;下一个语音信息是开机控制模块在语音信息之后获取的。
结合第二方面,另一种可能的实现方式中,显示设备包括通信器。主控制模块,具体被配置为:获取来自开机控制模块的第二语音信息;控制通信器向服务器发送第二语音信息;控制通信器接收服务器发送的第二语音信息的语音识别结果;根据语音识别结果,确定第二语音信息所指示的媒体资源,并控制显示器显示第二语音信息所指示的媒体资源。
结合第二方面,另一种可能的实现方式中,开机控制模块,还被配置为:若语音信息包括第二语音信息,则生成第一标识;第一标识表征语音信息包括第二语音信息。主控制模块,还被配置为:向开机控制模块发送第一查询请求。开机控制模块,还被配置为:响应于主控制模块发送的第一查询请求,向主控制模块发送第一标识。主控制模块,还被配置为:根据开机控制模块发送的第一标识,向开机控制模块发送第二查询请求。开机控制模块,还被配置为:响应于主控制模块发送的第二查询请求,向主控制模块发送第二语音信息。
第三方面,提供了一种显示设备,该显示设备具有实现上述第一方面所述的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
第四方面,提供了一种显示设备,包括:处理器和存储器;该存储器用于存储计算机指令,当该显示设备运行时,该处理器执行该存储器存储的该计算机指令,以使该显示设备执行如上述第一方面中任一项所述的语音控制方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在显示设备上运行时,使得显示设备可以执行上述第一方面中任一项所述的语音控制方法。
第六方面,提供了一种包含计算机指令的计算机程序产品,当计算机指令在显示设备上运行时,使得显示设备可以执行上述第一方面中任一项所述的语音控制方法。
第七方面,提供了一种装置(例如,该装置可以是芯片***),该装置包括处理器,用于支持显示设备实现上述第一方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存显示设备必要的程序指令和数据。该装置是芯片***时,可以由芯片构成,也可以包含芯片和其他分立器件。
本申请实施例中的本申请实施例提供一种语音控制方法,显示设备在待机状态下获取语音信息后,先确定该语音信息是否包括唤醒词。如果该语音信息包括唤醒词,则显示设备开机,并且,显示设备还继续确定该语音信息是否包括指示媒体资源的第二语音信息。如果该语音信息还包括指示媒体资源的第二语音信息,则显示设备再显示该媒体资源。也就是说,用户在显示设备处于待机状态下发出的语音信息,即能够控制显示设备开机,还能够控制显示设备显示媒体资源。用户无需等待显示设备开机后再控制显示设备显示媒体资源,简化了用户控制待机状态下的显示设备显示媒体资源的步骤,从而可以提高用户控制待机状态下的显示设备显示媒体资源的速度。
附图说明
图1为相关技术提供的一种语音控制方法的流程图;
图2为本申请实施例提供的一种语音控制方法的场景示意图;
图3为本申请实施例提供的一种显示设备的结构示意图一;
图4为本申请实施例提供的一种显示设备的结构示意图二;
图5为本申请实施例提供的一种语音控制方法的流程图一;
图6为本申请实施例提供的一种语音控制方法的流程图二;
图7为本申请实施例提供的一种用户语音控制电视播放视频的示意图;
图8为本申请实施例提供的一种显示设备的硬件示意图;
图9为本申请实施例提供的一种语音控制方法的流程图三;
图10为本申请实施例提供的一种显示设备的结构示意图三;
图11为本申请实施例提供的一种芯片***的结构示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
本申请中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
目前,电视机提供的功能越来越丰富,例如,电视机提供的远场语音功能。通过该远场语音功能,用户无需对电视机的控制装置进行操作,只需在距离电视机的一定范围内发出语音,就能控制电视机执行相应的操作。例如,语音控制电视机开机,语音控制电视机播放视频。
其中,由于电视机在通电且处于待机状态时,电视机中的所有模块(例如,控制器,通信模块)基本都停止工作。因此,为了保证在电视机处于待机状态下,用户能通过语音控制电视机开机,电视机中设置一个开机控制模块,并且,该开机控制模块在电视机处于待机状态下仍然正常工作。该开机控制模块可以获取用户触发电视机开机的开机语音,并根据该开机语音触发电视机开机。从而实现了用户语音控制待机状态下的电视机开机。
然而,由于电视机除了开关机,还提供很多其他电视功能,例如,电视机显示某个应用程序,电视机显示某个频道,电视机播放一个球赛视频,电视机播放一个唱歌视频等等。也就是说,电视机提供的其他电视机功能的种类很多。那么,用户触发其他电视机功能的功能性语音的内容也是很丰富多变的。因此,识别触发控制其他电视机功能的功能性语音的难度也较大。电视机中的该开机控制模块处理能力有限,只能用于识别开机语音,无法识别内容丰富多边的功能性语音。电视机中的控制器需要控制通信模块与服务器进行通信,以请求服务器识别功能性语音。
然而,电视机在待机状态下,电视机中的控制器和通信模块均停止工作。因此,在电视机处于待机状态下,通过工作中的开机控制模块只能实现语音控制电视机开机。如果用户在电视机处于待机状态时,想要控制电视机执行某个其他电视机功能,例如,播放一个球赛视频,需要用户先发出触发电视机开机的开机语音,并等待电视机开机。在电视机成功开机后,用户再发出触发电视机播放球赛视频的显示指令语音,电视机接收并响应于该显示指令语音,显示该球赛视频。可以知道的是,用户需要多次发出语音才能控制电视机播放球赛视频。这样无疑就增加了用户控制待机状态下的电视机播放球赛视频的步骤,从而降低了用户控制待机状态下的电视机播放球赛视频的速度。
示例性地,如图1所示的相关技术提供的语音控制方法,该方法包括以下步骤:S11、电视机在待机状态下,获取用户发出的语音信息一;S12、判断该语音信息一是否包括唤醒词;
S13、若该语音信息一包括唤醒词,则电视机开机,电视机进入开机状态;S14、若该语音信息一不包括唤醒词,则电视机保持待机状态;S15、电视机在开机状态下,获取用户发出的语音信息二;S16、判断该语音信息二是否包括唤醒词;S17、若该语音信息二包括唤醒词,则继续对该语音信息二进行识别,确定该语音信息二所指示的媒体资源;S18、若该语音信息二不包括唤醒词,则电视机保持开机状态;S19、电视机显示该语音信息二所指示的媒体资源。
可以理解的是,用户需要分别发出两次语音信息,并且,两次语音均包括唤醒词。而且,用户在发出语音信息一后,等待电视开机后,再发出语音信息二。这样无疑就增加了用户控制待机状态下的电视播放媒体资源的步骤,从而降低了用户控制待机状态下的电视播放媒体资源的速度。
针对上述问题,本申请实施例提供一种语音控制方法,显示设备在待机状态下获取语音信息后,先确定该语音信息是否包括唤醒词。如果该语音信息包括唤醒词,则显示设备开机,并且,显示设备还继续确定该语音信息是否包括指示媒体资源的第二语音信息。如果该语音信息还包括指示媒体资源的第二语音信息,则显示设备再显示该媒体资源。也就是说,用户在显示设备处于待机状态下发出的语音信息,即能够控制显示设备开机,还能够控制显示设备显示媒体资源。用户无需等待显示设备开机后再控制显示设备显示媒体资源,简化了用户控制待机状态下的显示设备显示媒体资源的步骤,从而可以提高用户控制待机状态下的显示设备显示媒体资源的速度。
下面对本申请实施例提供的语音控制方法进行描述。
本申请实施方式提供的显示设备可以具有多种实施形式,例如,可以是平板电脑、PC、电视机、智能电视、激光投影设备、电子桌面(electronic table)等具有显示器的显示设备。本申请实施例在此对显示设备的具体形态不做限制。本申请实施例中以显示设备为电视机为例进行示意说明。
图2为根据实施例中用户控制显示设备的场景示意图。如图2所示,用户可通过控制装置100或智能设备300操作电视机200。或者,用户还可以在距离电视机200一定范围内发出语音,通过该语音控制电视机200。
在一些实施例中,控制装置100可以是遥控器,遥控器和电视机200的通信包括红外协议通信,及其他短距离通信方式,通过无线或有线方式来控制电视机200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令,来控制电视机200。
在一些实施例中,用户也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)控制电视机200。例如,使用在智能设备300上运行的应用程序控制电视机200。
在一些实施例中,电视机200可以不使用上述的智能设备300或控制装置100接收指令,而是通过触摸或者手势等接收用户的指令。
在一些实施例中,电视机200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过电视机200内部配置的语音获取模块(如,麦克风)直接接收用户的语音,也可以通过电视机200外部设置的语音获取设备来接收用户的语音。下面以通过电视机200内部配置的语音获取模块接收用户的语音为例,对本申请实施例提供的方法进行说明。
在一些实施例中,电视机200还与服务器400进行数据通信。可允许电视机200通过局域网(Local Area Network,LAN)、无线局域网(Wireless Local Area Networks,WLAN)和其他网络进行通信连接。服务器400可以向电视机200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
示例性地,图3示出了本申请实施例提供的一种电视机的结构示意图。
如图3所示,电视机200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。
在一些实施例中,控制器250包括:CPU,视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),随机存取存储器(Random Access Memory,RAM),只读存储器(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。显示器260可为液晶显示器、有机发光二极管(Organic Light-Emitting Diode,OLED)显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制电视机200的工作和响应用户的操作。控制器250控制电视机200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,声音采集器可以是麦克风,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当进行语音交互时,用户可以通过人嘴靠近麦克风发声,将声音信号输入到麦克风。显示设备200可以设置至少一个麦克风。在另一些实施例中,显示设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,显示设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
其中,麦克风可以是内置在电视机200上,或者麦克风通过有线或者无线的方式与电视机200相连接。例如,麦克风可以设置于电视机200的显示器260的下侧边缘处。当然,本申请实施例对麦克风在电视机200上的位置不作限定。或者,电视机200可以不包括麦克风,即上述麦克风并未设置于电视机200中。电视机200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在电视机200上。例如,外接的话筒可以通过外部固定件,固定在电视机200的显示器260的边缘处,如上侧边缘处。
在一些实施例中,“用户界面”,是应用程序或操作***与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些示例中,以电视机200的操作***为Android***为例,如图4所示,电视机200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图4所示,硬件层可包括图3所示的控制器250、通信器220、检测器230和显示器260等。应用层21包括一个或多个应用。应用可以为***应用,也可以为第三方应用。如,应用层21包括远场语音应用,远场语音应用可以提供远场语音功能。远场语音应用可以具体用于在电视机200处于开机状态下获取用户发出的语音信息,并请求服务器400识别获取到的语音信息;再根据识别结果控制电视机200显示识别结果所指示的媒体资源。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
服务器400包括通信控制模块201和语音识别模块202。通信控制模块201用于与电视机200建立通信连接。如:电视机200中的远场语音应用通过调用通信器220,实现与服务器400的通信控制模块201的通信连接。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230中的声音采集器采集的语音信息发送至远场语音应用。电视机200处于开机状态时,电视机200中的远场语音应用和通信器220启动。通信器220与服务器400中的通信控制模块201建立通信连接。检测器驱动用于将检测器230中声音采集器采集的用户输入的语音信息发送至远场语音应用。之后,远场语音应用将该语音信息发送至服务器400的语音识别模块202。语音识别模块202在接收到电视机200发送的语音信息后,确定该语音信息对应的语音文本。语音识别模块202将语音信息对应的语音文本发送至电视机200的远场语音应用。远场语音应用在接收到服务器400发送的语音文本后,控制显示器192显示该语音文本所指示的媒体资源。
本申请所涉及的语音信息可以为经用户授权或者经过各方充分授权的数据。
以下实施例中的方法均可以在具有上述硬件结构的显示设备中实现。
以下结合附图5对本申请实施例提供的语音控制方法进行详细说明。如图5所示,继续以显示设备为电视机200为例进行示意说明,本申请实施例提供的语音控制方法可以包括以下S501-S503。
S501、电视机200在待机状态下,开机控制模块获取语音信息。
电视机200可以包括开机控制模块和主控制模块。电视机200在待机状态下,电视机200中的开机控制模块仍然处于工作状态,电视机200包括的主控制模块和通信模块等多个模块停止工作。此时,若用户在距离电视机200一定范围内发出语音,则电视机200可以通过开机控制模块获取用户发出的语音信息,并缓存该语音信息。
其中,电视机200中的开机控制模块用于获取语音信息,并对语音信息进行识别。该开机控制模块主要用于识别用于触发电视开机的语音信息。该开机控制模块也可以称为远场语音模块。
示例性地,电视机200中的开机控制模块可以由数字信号处理(Digital SignalProcessing,DSP)实现。电视机200中的主控制模块可以由***级芯片(System on Chip,SOC)实现。
需要说明的是,电视机200在待机状态下,主控制模块、通信模块和显示器等多个模块暂停工作,电视机200的功耗降低。因此,该待机状态也可以称为低功耗状态。其次,电视机200在待机状态下,显示器也停止工作,则显示器处于黑屏状态。
在一些实施例中,电视机200在待机状态下,开机控制模块可以一直获取语音信息。开机控制模块获取语音信息后,可以对该语音信息进行识别,以确定该语音信息是否包括第一语音信息。若该语音信息包括第一语音信息,表示用户成功唤醒电视,电视开机,即执行S502。若该语音信息不包括第一语音信息,则电视机200可以保持待机状态,并且,开机控制模块可以对在该语音信息之后获取的下一个语音信息进行识别,以确定下一个语音信息是否包括第一语音信息。
其中,该第一语音信息用于指示唤醒词。该唤醒词可以为指定的词语。例如,唤醒词可以包括“你好**”。
需要说明的是,开机控制模块对该下一个语音信息的处理过程,可以参照开机控制模块对该语音信息的处理过程。
示例性的,电视机200在待机状态下,检测器驱动和检测器230仍然处于工作状态。若用户发出语音,则检测器230中的声音采集器采集用户发出的语音信息。检测器驱动再将声音采集器采集的语音信息发送至开机控制模块。开机控制模块获取来自声音采集器的语音信息,再判断该语音信息是否包括唤醒词。
示例性地,开机控制模块可以每次获取第一时长的语音信息,再对获取的第一时长的语音信息进行处理(例如,语音识别)。其中,开机控制模块获取一个第一时长的语音信息后,可以继续获取下一个第一时长的语音信息。
S502、若语音信息包括第一语音信息,则电视机200开机,并确定语音信息是否包括除第一语音信息之外的第二语音信息;第一语音信息用于指示唤醒词。
若开机控制模块确定该语音信息包括第一语音信息(或者说包括唤醒词),表示语音唤醒成功,则开机控制模块可以触发电视机200中的主控制模块启动,并且,开机控制模块确定语音信息是否包括除第一语音信息之外的第二语音信息。进一步地,主控制模块启动,则主控制器可以控制显示器显示电视机中的一个界面(如,主界面)。
在一些实施例中,若语音信息包括第一语音信息,除了开机控制模块触发主控制模块启动,电视机200中停止工作的其他模块也可以启动,如,通信模块。例如,开机控制模块触发电视机200中停止工作的其他模块启动,或者,主控制模块触发电视机200中停止工作的其他模块启动。
在一些实施例中,电视机200中的开机控制模块获取语音信息后,可以缓存该语音信息。然后,开机控制模块在确定该语音信息包括第一语音信息后,再确定该语音信息是否包括除第一语音信息之外的其他语音信息,即第二语音信息。若该语音信息包括第二语音信息,则电视机200可以对该第二语音信息进行识别,即执行S503。若该语音信息不包括第二语音信息,则开机控制模块可以删除该语音信息。
示例性地,开机控制模块可以采用语音活动检测(Voice Activity Detection,VAD),确定该语音信息是否包括除第一语音信息之外的第二语音信息。
S503、若语音信息包括第二语音信息,则电视机200根据第二语音信息,显示第二语音信息所指示的媒体资源。
若开机控制模块确定该语音信息包括第二语音信息,则开机控制模块可以将该第二语音信息发送至电视机200中的主控制模块。然后,主控制模块可以根据第二语音信息,显示第二语音信息所指示的媒体资源。例如,该第二语音信息可以包括**球赛直播,则主控制模块可以控制显示器播放**球赛的视频。
示例性地,主控制模块根据第二语音信息,显示第二语音信息所指示的媒体资源可以包括如下步骤:先对该第二语音信息进行识别,得到该第二语音信息对应的语音文本(可以称为语音识别结果);再根据该语音文本,控制显示器显示该语音文本所指示的媒体资源(即该第二语音信息所指示的媒体资源)。
示例性地,主控制模块可以通过通信模块,将第二语音信息发送至服务器。服务器对第二语音信息进行识别,得到该第二语音信息对应的语音文本,并将该语音文本发送给主控制模块。
在一些实施例中,电视机200可以本地保存有第二语音信息所指示的媒体资源,或者,电视机200从服务器获取第二语音信息所指示的媒体资源。
在一些实施例中,电视机200可以安装有远场语音应用。主控制模块可以通过该远场语音应用实现上述“根据第二语音信息,显示第二语音信息所指示的媒体资源”。
示例性地,以用户在电视待机状态下想看健身视频,以及电视机200包括开机控制模块和主控制模块为例,介绍本申请实施例提供的语音控制方法。如图6所示,该方法中的S501包括S601。该方法还包括S602。该方法中的S502包括S603,S503包括S604-S607。
S601、电视机200在待机状态下,开机控制模块获取语音信息。
例如,如图7中的(a)所示,电视机200在待机状态下,电视机200的显示器黑屏。用户在距离电视机200的一定范围内,说出“你好,我想健身”。开机控制模块可以获取到用户发出的语音信息,并缓存该语音信息。该语音信息包括“你好,我想健身”。
S602、开机控制模块判断语音信息是否包括第一语音信息,该第一语音信息用于指示唤醒词。
若确定语音信息包括第一语音信息,则开机控制模块执行S603-S604。若确定语音信息不包括第一语音信息,则电视机200保持待机状态。
例如,继续以开机控制模块获取的语音信息包括“你好,我想健身”为例,开机控制模块可以确定该语音信息包括唤醒词,即“你好”,则执行S603。
S603、开机控制模块触发主控制模块启动。
例如,如图7中的(b)所示,主控制模块启动,则控制电视机200的显示器显示主界面701。
S604、开机控制模块获取语音信息中除第一语音信息之外的第二语音信息。
例如,继续以开机控制模块获取的语音信息包括“你好,我想健身”为例,开机控制模块可以获取该语音信息中的第二语音信息包括“我想健身”。
需要说明的是,除了图6所示的开机控制模块先执行S603,再执行S604,开机控制模块也可以同时执行S603和S604。本申请实施例对S603和S604的先后顺序不作限制。
S605、开机控制模块将第二语音信息发送至主控制模块。
S606、主控制模块对第二语音信息进行识别,得到第二语音信息对应的语音文本。
例如,继续以第二语音信息包括“我想健身”为例,主控制模块对该第二语音信息进行识别,可以得到该第二语音信息对应的语音文本包括“健身”。
S607、主控制模块根据第二语音信息对应的语音文本,显示该语音文本所指示的媒体资源。
例如,如图7中的(c)所示,以该第二语音信息对应的语音文本包括“健身”为例,主控制模块可以确定“健身”所指示的一个健身视频,并控制显示器显示该健身视频702。该健身视频可以是用户历史浏览过的健身视频,或者是电视机200自定义的健身视频。
需要说明的是,用户发出“你好,我想健身”后,除了图7所示的电视机的显示器从黑屏跳转至主界面701,再从主界面701跳转至包括健身视频702的界面。电视机的显示器也可以从黑屏直接跳转至包括健身视频702的界面。本申请实施例对此不做限制。
可以理解的是,用户在电视机200处于待机状态下,发出包括唤醒词的语音后,不仅可以控制电视机200开机,还可以控制电视机200开机后播放该语音所指示的媒体资源。用户在电视机200处于待机状态下发出一次语音,就可以控制电视机200显示媒体资源,实现了发出一次语音控制待机状态下的电视机200显示媒体资源。发出一次语音控制待机状态下的电视机200显示媒体资源的过程可以称为oneshot。用户无需等待电视机200开机后再发出第二次语音,提高了控制电视机200显示媒体资源的速度。
示例性地,如图8所示,电视机200中的开机控制模块由DSP实现,主控制模块由SOC实现。其中,DSP可以包括唤醒模块811、VAD模块812和音频交互模块813。
结合图8所示的电视机200的结构,介绍本申请实施例提供的语音控制方法。
首先,无论电视机200处于开机状态,还是待机状态,DSP可以一直通过声音采集器获取语音信息。唤醒模块811可以对DSP获取的语音信息进行识别,以判断该语音信息是否包括第一语音信息。若该语音信息包括第一语音信息,DSP可以向SOC发送启动通知信息。该启动通知信息用于触发设置SOC的通用输入/输出口(General-purpose input/output,GPIO)引脚为低电平。SOC的GPIO引脚处于低电平时,SOC启动。SOC的GPIO引脚用于控制SOC的暂停/启动。
其次,DSP在判断该语音信息是否包括第一语音信息的同时,仍然通过声音采集器获取语音信息。DSP可以在获取第一时长的语音信息后,通过VAD模块812确定获取的第一时长的语音信息是否包括除第一语音信息之外的第二语音信息。
在SOC启动后,SOC可以触发电视机200中停止工作的其他模块启动,如,触发通信器220启动。SOC还可以触发电视机200中安装的至少一个应用(包括远场语音应用)启动。SOC中的远场语音应用可以从DSP中的音频交互模块813获取第二语音信息。然后,SOC中的远场语音应用可以通过通信器220与服务器通信,请求服务器识别第二语音信息。SOC中的远场语音应用可以接收服务器发送的第二语音信息对应的语音文本。SOC可以根据该语音文本控制显示器显示该语音文本所指示的媒体资源。
其中,第一时长可以为SOC启动所需的时长,如2秒(s)。
在一些实施例中,电视机200中的开机控制模块确定第二语音信息后,等待主控制模块发送触发获取第二语音信息的查询请求(即下述第二查询请求)。在接收到主控制模块发送的该查询请求后,开机控制模块响应于该查询请求,向主控制模块发送该第二查询请求。
示例性地,继续以电视机200包括开机控制模块和主控制模块,以及电视机200安装有远场语音应用为例,介绍本申请实施例提供的语音控制方法。如图9所示,该方法中的S502还可以包括S901,S503中的S606还可以包括S902-S906。该方法还可以包括S907-S908。
S901、开机控制模块判断语音信息是否包括除第一语音信息之外的第二语音信息。
开机控制模块可以对该语音信息中除第一语音信息之外的信息进行VAD,确定该语音信息中除第一语音信息之外的信息是否包括第二语音信息。若该语音信息中除第一语音信息之外的信息包括第二语音信息,即语音信息包括第二语音信息,则执行S604和S902。若该语音信息中除第一语音信息之外的信息不包括第二语音信息,即语音信息不包括第二语音信息,则开机控制模块可以生成第二标识,第二标识表征语音信息不包括第二语音信息,即执行S909。
S902、开机控制模块生成第一标识;第一标识表征语音信息包括第二语音信息。
若语音信息包括第二语音信息,则开机控制模块可以生成第一标识。该第一标识表征语音信息包括第二语音信息。该第二语音信息是除触发电视机200开机之外的语音信息,也就是说,该第二语音信息属于功能性语音。该功能性语音用于触发除开关机功能以外的其他电视机功能。
S903、主控制模块向开机控制模块发送第一查询请求。
主控制模块启动后,可以向开机控制模块发送第一查询请求,该第一查询请求用于请求查询用户是否输入功能性语音。
S904、开机控制模块响应于第一查询请求,向主控制模块发送第一标识。
开机控制模块生成第一标识后,响应于主控制模块发送的第一查询请求,向主控制模块发送第一标识。
S905、主控制模块根据第一标识,向开机控制模块发送第二查询请求。
主控制模块根据开机控制模块发送的第一标识,确定用户输入第二语音信息(即功能性语音),则可以向开机控制模块发送第二查询请求。该第二查询请求用于请求获取第二语音信息。
S906、开机控制模块响应于第二查询请求,向主控制模块发送第二语音信息。
开机控制模块响应于主控制模块发送的第二查询请求,向主控制模块发送第二语音信息。
S907、开机控制模块生成第二标识;第二标识表征语音信息不包括第二语音信息。
若语音信息不包括第二语音信息,则开机控制模块可以生成第二标识。该第二标识表征语音信息不包括第二语音信息,即表征用户未输入功能性语音。
S908、开机控制模块响应于第一查询请求,向主控制模块发送第二标识。
开机控制模块生成第二标识后,响应于主控制模块发送的第一查询请求,向主控制模块发送该第二标识。然后,主控制模块根据开机控制模块发送的第二标识,可以再向开机控制模块发送第一查询请求,以向开机控制模块重新请求查询用户是否输入功能性语音。
示例性地,继续结合图8所示的电视机200的结构为例,介绍本申请实施例中主控制模块获取来自开机控制模块的第二语音信息的具体过程。首先,SOC启动后,可以通过远场语音应用向音频交互模块813发送第一查询请求。音频交互模块813响应于该第一查询请求,可以获取VAD模块812生成的第一标识;再向SOC中的远场语音应用发送第一标识。其中,VAD模块812在确定获取的语音信息包括第二语音信息时生成该第一标识。
然后,SOC中的远场语音应用根据该第一标识,可以再向音频交互模块813发送第二查询请求。该音频交互模块813响应于该第二查询请求,可以向SOC中的远场语音应用发送该第二语音信息。
其中,音频交互模块813可以将第二语音信息分成多个音频块(例如,大小为512个字节的音频块),依次向SOC中的远场语音应用发送这多个音频。或者,音频交互模块813也可以将完整的第二语音信息,一次发送给SOC中的远场语音应用。
示例性地,SOC与DSP可以通过通用串行总线(Universal Serial Bus,USB)接口连接。此时,SOC中的远场语音应用与DSP中的音频交互模块813可以通过USB接***互。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对显示设备(如,电视机200)进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请的实施例还提供一种显示设备。如图10所示,显示设备1000包括:显示器1001、开机控制模块1002和主控制模块1003。
其中,显示器1001,被配置为显示媒体资源。主控制模块1003,被配置为在显示设备处于待机状态下停止工作。开机控制模块1002,被配置为:在显示设备1000处于待机状态下,获取语音信息;若语音信息包括第一语音信息,则触发主控制模块1003启动,并确定语音信息是否包括除第一语音信息之外的第二语音信息;第一语音信息用于指示唤醒词。主控制模块1003,被配置为:若语音信息包括第二语音信息,则根据第二语音信息,控制显示器1001显示第二语音信息所指示的媒体资源。
在一种可能的实现方式中,开机控制模块1002,还被配置为:确定语音信息是否包括第一语音信息;若语音信息不包括第一语音信息,则确定下一个语音信息是否包括第一语音信息;下一个语音信息是开机控制模块在语音信息之后获取的。
另一种可能的实现方式中,显示设备1000包括通信器1004。主控制模块1003,具体被配置为:获取来自开机控制模块1002的第二语音信息;控制通信器1004向服务器发送第二语音信息;控制通信器1004接收服务器发送的第二语音信息的语音识别结果;根据语音识别结果,确定第二语音信息所指示的媒体资源,并控制显示器1001显示第二语音信息所指示的媒体资源。
另一种可能的实现方式中,开机控制模块1002,还被配置为:若语音信息包括第二语音信息,则生成第一标识;第一标识表征语音信息包括第二语音信息。主控制模块1003,还被配置为:向开机控制模块1002发送第一查询请求。开机控制模块1002,还被配置为:响应于主控制模块1003发送的第一查询请求,向主控制模块1003发送第一标识。主控制模块1003,还被配置为:根据开机控制模块1002发送的第一标识,向开机控制模块1002发送第二查询请求。开机控制模块1002,还被配置为:响应于主控制模块1003发送的第二查询请求,向主控制模块1003发送第二语音信息。
当然,本申请实施例提供的显示设备1000包括但不限于上述模块,例如显示设备1000还可以包括存储器。存储器可以用于存储该写显示设备1000的可执行指令,还可以用于存储显示设备1000在运行过程中生成的数据,如获取的语音信息等。
本申请实施例还提供一种显示设备,包括:处理器和存储器;该存储器用于存储计算机指令,当该显示设备运行时,该处理器执行该存储器存储的该计算机指令,以使该显示设备执行本申请实施例提供的语音控制方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在显示设备上运行时,使得显示设备可以执行本申请实施例提供的语音控制方法。
例如,该计算机可读存储介质可以是ROM、RAM、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本申请实施例还提供一种包含计算机指令的计算机程序产品,当计算机指令在显示设备上运行时,使得显示设备可以执行本申请实施例提供的语音控制方法。
本申请实施例还提供一种装置(例如,该装置可以是芯片***),该装置包括处理器,用于支持显示设备实现本申请实施例提供的语音控制方法。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存显示设备必要的程序指令和数据。该装置是芯片***时,可以由芯片构成,也可以包含芯片和其他分立器件。
示例性地,如图11所示,本申请实施例提供的芯片***可以包括至少一个处理器1101和至少一个接口电路1102。该处理器1101可以是上述电视机200中的处理器。处理器1101和接口电路1102可通过线路互联。该处理器1101可以通过接口电路1102从上述电视机200的存储器接收并执行计算机指令。当计算机指令被处理器1101执行时,可使得电视机200执行上述实施例中电视机200执行的各个步骤。当然,该芯片***还可以包含其他分立器件,本申请实施例对此不作具体限定。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置(如,第一控制设备,区域控制器)的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的***,装置(如,第一控制设备,区域控制器)和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置(如,第一控制设备,区域控制器)和方法,可以通过其它的方式实现。例如,以上所描述的装置(如,第一控制设备,区域控制器)实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种显示设备,其特征在于,所述显示设备包括:
显示器,被配置为显示媒体资源;
主控制模块,被配置为在所述显示设备处于待机状态下停止工作;
开机控制模块,被配置为:在所述显示设备处于待机状态下,获取语音信息;若所述语音信息包括第一语音信息,则触发所述主控制模块启动,并确定所述语音信息是否包括除所述第一语音信息之外的第二语音信息;所述第一语音信息用于指示唤醒词;
所述主控制模块,被配置为:若所述语音信息包括所述第二语音信息,则根据所述第二语音信息,控制所述显示器显示所述第二语音信息所指示的媒体资源。
2.根据权利要求1所述的显示设备,其特征在于,
所述开机控制模块,还被配置为:确定所述语音信息是否包括所述第一语音信息;若所述语音信息不包括所述第一语音信息,则确定下一个语音信息是否包括所述第一语音信息;所述下一个语音信息是所述开机控制模块在所述语音信息之后获取的。
3.根据权利要求2所述的显示设备,其特征在于,所述显示设备包括通信器;
所述主控制模块,具体被配置为:
获取来自所述开机控制模块的所述第二语音信息;
控制所述通信器向服务器发送所述第二语音信息;
控制所述通信器接收所述服务器发送的所述第二语音信息的语音识别结果;
根据所述语音识别结果,确定所述第二语音信息所指示的媒体资源,并控制所述显示器显示所述第二语音信息所指示的媒体资源。
4.根据权利要求3所述的显示设备,其特征在于,
所述开机控制模块,还被配置为:若所述语音信息包括所述第二语音信息,则生成第一标识;所述第一标识表征所述语音信息包括所述第二语音信息;
所述主控制模块,还被配置为:向所述开机控制模块发送第一查询请求;
所述开机控制模块,还被配置为:响应于所述主控制模块发送的所述第一查询请求,向所述主控制模块发送所述第一标识;
所述主控制模块,还被配置为:根据所述开机控制模块发送的所述第一标识,向所述开机控制模块发送第二查询请求;
所述开机控制模块,还被配置为:响应于所述主控制模块发送的所述第二查询请求,向所述主控制模块发送所述第二语音信息。
5.一种语音控制方法,其特征在于,应用于显示设备中,所述显示设备包括开机控制模块,所述开机控制模块在所述显示设备处于待机状态下工作;所述方法包括:
所述显示设备在所述待机状态下,所述开机控制模块获取语音信息;
若所述语音信息包括第一语音信息,则所述显示设备开机,并确定所述语音信息是否包括除所述第一语音信息之外的第二语音信息;所述第一语音信息用于指示唤醒词;
若所述语音信息包括所述第二语音信息,则所述显示设备根据所述第二语音信息,显示所述第二语音信息所指示的媒体资源。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述开机控制模块确定所述语音信息是否包括所述第一语音信息;
若所述语音信息不包括所述第一语音信息,则所述开机控制模块确定下一个语音信息是否包括所述第一语音信息;所述下一个语音信息是所述开机控制模块在所述语音信息之后获取的。
7.根据权利要求6所述的方法,其特征在于,所述显示设备还包括主控制模块;所述主控制模块在所述显示设备处于待机状态下停止工作;
所述显示设备开机,并从所述语音信息中确定除所述第一语音信息之外的第二语音信息,包括:
所述开机控制模块触发所述主控制模块启动,并且,所述开机控制模块确定所述语音信息是否包括除所述第一语音信息之外的第二语音信息。
8.根据权利要求7所述的方法,其特征在于,所述显示设备根据所述第二语音信息,显示所述第二语音信息所指示的媒体资源,包括:
所述主控制模块获取来自所述开机控制模块的所述第二语音信息;
所述主控制模块向服务器发送所述第二语音信息;
所述主控制模块接收所述服务器发送的所述第二语音信息的语音识别结果;
所述主控制模块根据所述语音识别结果,确定所述第二语音信息所指示的媒体资源并显示。
9.根据权利要求8所述的方法,其特征在于,所述主控制模块获取来自所述开机控制模块的所述第二语音信息,包括:
若所述语音信息包括所述第二语音信息,则所述开机控制模块生成第一标识;所述第一标识表征所述语音信息包括所述第二语音信息;
所述主控制模块向所述开机控制模块发送第一查询请求;
所述开机控制模块响应于所述主控制模块发送的所述第一查询请求,向所述主控制模块发送所述第一标识;
所述主控制模块根据所述开机控制模块发送的所述第一标识,向所述开机控制模块发送第二查询请求;
所述开机控制模块响应于所述主控制模块发送的所述第二查询请求,向所述主控制模块发送所述第二语音信息;
所述主控制模块接收所述开机控制模块发送的所述第二语音信息。
CN202211597149.3A 2022-12-12 2022-12-12 一种语音控制方法及显示设备 Pending CN116189674A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211597149.3A CN116189674A (zh) 2022-12-12 2022-12-12 一种语音控制方法及显示设备
PCT/CN2023/121251 WO2024125032A1 (zh) 2022-12-12 2023-09-25 一种语音控制方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211597149.3A CN116189674A (zh) 2022-12-12 2022-12-12 一种语音控制方法及显示设备

Publications (1)

Publication Number Publication Date
CN116189674A true CN116189674A (zh) 2023-05-30

Family

ID=86447952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211597149.3A Pending CN116189674A (zh) 2022-12-12 2022-12-12 一种语音控制方法及显示设备

Country Status (1)

Country Link
CN (1) CN116189674A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024125032A1 (zh) * 2022-12-12 2024-06-20 海信视像科技股份有限公司 一种语音控制方法及终端设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024125032A1 (zh) * 2022-12-12 2024-06-20 海信视像科技股份有限公司 一种语音控制方法及终端设备

Similar Documents

Publication Publication Date Title
US11551683B2 (en) Electronic device and operation method therefor
KR101992676B1 (ko) 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
JP6229287B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US20100088096A1 (en) Hand held speech recognition device
JP2014203208A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN112599126B (zh) 一种智能设备的唤醒方法、智能设备及计算设备
CN112511882A (zh) 一种显示设备及语音唤起方法
US20190066669A1 (en) Graphical data selection and presentation of digital content
CN109032554B (zh) 一种音频处理方法和电子设备
CN112002321B (zh) 显示设备、服务器及语音交互方法
CN112165641A (zh) 一种显示设备
CN116189674A (zh) 一种语音控制方法及显示设备
CN109389977B (zh) 一种语音交互方法及装置
CN115150501A (zh) 一种语音交互方法及电子设备
CN113241097A (zh) 录音方法、装置、电子设备和可读存储介质
WO2023155607A1 (zh) 终端设备和语音唤醒方法
CN116437155A (zh) 一种直播互动方法、装置、计算机设备和存储介质
JP2020198077A (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
CN113038048B (zh) 一种远场语音唤醒方法和显示设备
CN113593559A (zh) 一种内容显示方法、显示设备及服务器
CN114694661A (zh) 一种第一终端设备、第二终端设备和语音唤醒方法
CN114900386A (zh) 一种终端设备及数据接力方法
CN113079400A (zh) 显示设备、服务器及语音交互方法
CN114627864A (zh) 显示设备与语音交互方法
CN114979781B (zh) 显示设备、设备控制方法及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination