CN111862947A - 用于控制智能设备的方法、装置、电子设备和计算机存储介质 - Google Patents

用于控制智能设备的方法、装置、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN111862947A
CN111862947A CN202010614961.7A CN202010614961A CN111862947A CN 111862947 A CN111862947 A CN 111862947A CN 202010614961 A CN202010614961 A CN 202010614961A CN 111862947 A CN111862947 A CN 111862947A
Authority
CN
China
Prior art keywords
attribute
smart device
determined
sound information
module configured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010614961.7A
Other languages
English (en)
Inventor
赵涛涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010614961.7A priority Critical patent/CN111862947A/zh
Publication of CN111862947A publication Critical patent/CN111862947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开的实施例涉及一种用于控制智能设备的方法、装置、电子设备和计算机可读存储介质,涉及语音技术、语音交互领域。该方法可以包括:获取环境中声音信息,所述声音信息包括与对象相关联的声音信息;从所述声音信息中提取与所述对象相关联的至少一个特征值;基于所述至少一个特征值,确定所述对象是否与目标对象相匹配,其中所述目标对象具有至少一个属性;以及响应于所述对象匹配所述目标对象,确定所述对象具有所述目标对象的所述至少一个属性;经由所述智能设备提供与所确定的所述至少一个属性相符合的信息。在此描述的用于控制智能设备的方法可以提高设备的智能化程度。

Description

用于控制智能设备的方法、装置、电子设备和计算机存储介质
技术领域
本公开的实施例主要涉及语音技术、语音交互领域,并且更具体地,涉及用于控制智能设备的方法、装置、电子设备和计算机存储介质。
背景技术
随着语音识别技术的发展,人类可以通过语音与智能设备进行更多的交互。利用语音识别技术,使得用户和智能设备之间的交互更加简便;同时,还可以提高信息的处理效率,提高用户的使用体验。在交互过程中,人类通过语音指令来控制智能设备的操作,例如期望得到与语音指令相关的特定信息,智能设备基于语音指令搜索并输出该特定信息。然而,在智能设备的控制中还存在着许多需要解决的问题。
发明内容
根据本公开的示例实施例,提供了一种用于控制智能设备的方案。
在本公开的第一方面中,提供了一种用于控制智能设备的方法。该方法包括:获取环境中声音信息,声音信息包括与对象相关联的声音信息;从声音信息中提取与对象相关联的至少一个特征值;基于至少一个特征值,确定对象是否与目标对象相匹配,其中目标对象具有至少一个属性;以及响应于对象匹配目标对象,确定对象具有目标对象的至少一个属性;经由智能设备提供与所确定的至少一个属性相符合的信息。
在此描述的用于控制智能设备的方法可以提高智能设备的智能化程度。
在本公开的第二方面中,提供了用于控制智能设备的装置,包括:获取模块,被配置为获取环境中声音信息,声音信息包括与对象相关联的声音信息;提取模块,被配置为从声音信息中提取与对象相关联的至少一个特征值;运算模块,被配置为基于至少一个特征值,确定对象是否与目标对象相匹配,其中目标对象具有至少一个属性;属性确定模块,被配置为响应于对象匹配目标对象,确定对象具有目标对象的至少一个属性;以及输出模块,被配置为经由智能设备提供与所确定的至少一个属性相符合的信息。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的用于控制智能设备的方法的过程的流程图;
图3示出了根据本公开的实施例的用于控制智能设备的方法的进一步的流程图;
图4示出了根据本公开的实施例的用于控制智能设备的装置的框图;以及
图5示出了根据本公开的实施例的能够实施本公开的多个实施例的电子设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在人类与智能设备进行语音交互的过程中,智能设备基于语音识别技术,对用户的控制指令做出响应并应答。
然而,本公开的发明人意识到在智能设备传统控制方式中存在一些问题。智能设备针对控制指令进行响应,而没有对用户的属性信息进行识别,从而在一些情况下并不能为用户提供期望的应答。而且,在环境中存在多个用户的情况下,智能设备不能基于特定的环境选择性地提供适当的信息。同时,用户无法根据自身特点对智能设备进行相应的设置以使智能设备可以提供令用户满意的应答。因此,如何改善智能设备的控制策略,以提高智能设备的智能化程度是亟需解决的问题。
根据本公开的实施例,提出一种用于控制智能设备的方法。在该方案中,通过提取与对象相关联的至少一个特征值,来确定对象是否匹配目标对象,并且如果确定对象具有目标对象的至少一个属性,则经由智能设备提供与所确定的至少一个属性相符合的信息。通过该方法,可以根据所确定的至少一个属性为用户提供期望的应答;并且,在特定情形下,还可以根据所确定的至少一个属性选择性地提供信息以保护环境中的特定用户。
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中,一个或多个对象110的语音信息或声音信息113被发送至智能设备120。
智能设备120可以通过任何语音设备获得声音信息113。在一些实施例中,一个或多个对象110可以在智能设备120能够捕获声音信息的环境中对智能设备120讲话,智能设备120可以获得声音信息113。在一些实施例中,如果智能设备120在一个或多个对象110周围,则智能设备120可以获取环境中的声音信息113。在一些实施例中,可以通过执行唤醒智能设备的操作以后,由智能设备120获取环境中的声音信息113。上述示例仅是描述本公开,而非对本公开的具体限定。
智能设备120可以具有相关联的声音采集器(例如,一个或多个麦克风)来采集对象的语音指令或声音信息。智能设备还可以具有相关联的声音播放器(例如,一个或多个扬声器)来进行应答或播放声音。
智能设备可以是任何能够通过语音信号进行控制和/或交互的任何电子设备。智能设备的一些示例可以包括但不限于:智能音箱、语音交互电视盒、语音家教机、智能机器人等。
例如,在智能设备是智能音箱的情况下,语音指令可以是“播放某某歌曲、播放某某内容、降低/升高音量、进入休眠模式”等,智能设备在声音信号被正确识别后可以搜索对应的歌曲/内容并且播放、或者降低/升高音量等。
智能设备120经由网络221与服务器130通信连接。在某些实施例中,智能设备120可以将声音信息113或经过处理的控制指令传输到服务器130,由服务器130进行相应的响应动作(例如,分析声音信息或者执行检索等),并由服务器130将检索到的结果传输至智能设备120。智能设备120由此可以获得服务器130的处理结果或者输出该处理结果。
在另一些实施例中,可以由智能设备120进行对声音信息113的处理,包括提取不同对象的声音信息、针对每个对象的声音信息提取至少一个特征值、以及确定对象是否与目标对象相匹配等。
应当理解,图1示出的环境仅是示例性的,而非对本公开的具体限定。
图2示出了根据本公开的实施例的用于控制智能设备的方法的流程图。以下结合如图1所示的智能设备120来描述方法200中所涉及的动作。例如,在一些实施例中,方法200可以由智能设备120执行,也可以由智能设备120将相应的信息传输至服务器130并由服务器130来执行。为了便于描述,将以智能设备120为对象来进行示例性说明。
应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,并且本公开的范围在此方面不受限制。
在框202中,智能设备120获取环境中的声音信息113,声音信息113包括与对象110(可以是一个对象,也可以是多个对象)相关联的声音信息。在一些实施例中,响应于智能设备120被唤醒或收到对象的控制指令(搜索某歌曲、某诗词、获取天气信息等等),智能设备120可以获取环境中的声音信息113。
应当理解,在智能设备的应用环境中,可以存在一个或多个对象110。例如,以智能音箱为例,在环境中可能存在儿童、青年人、老年人等。声音信息113可以是一个对象的声音,也可以是多个对象的混合的声音信息。
在框204中,智能设备120将从声音信息113中提取与对象110相关联的至少一个特征值。在一些实施例中,当声音信息113中存在噪音时,智能设备120可以先根据噪音的特点(例如频率、峰值等)过滤掉噪声后进行特征值的提取。
在一些实施例中,当获取的声音信息113是多个对象的混合的声音信息时,智能设备120可以根据预先训练好的声音处理模型或本领域已知的语音识别技术提取出具有相同特性(例如频率、强度、峰值或者声音方向等)的声音信息,并将相应的声音信息归类为同一对象的声音,进而实现对多个对象的声音的分别提取。然后再针对各个对象的声音信息进行至少一个特征值的提取。
在一些实施例中,至少一个特征值可以包括以下项中的至少一项:音量标准差、音量动态范围、频谱质心平均值、频谱质心方差振幅、频率、共振峰值、梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)AMDF平均值、AMDF标准差、短时能量平均值、短时能量偏差。
应当理解,前述特征值仅仅是示例性,并不旨在限制本公开的范围。本领域技术人员可以采用语音处理领域中任何适当的方式来选取适当的特征值,以使得智能设备120能够对对象的属性进行识别。
在框206中,智能设备120确定对象是否与目标对象相匹配,例如,智能设备120可以针对每个对象分别确定其是否与目标对象相匹配。具体地,智能设备120将基于至少一个特征值来确定对象是否与目标对象相匹配。如果智能设备120确定对象与目标对象相匹配,则进入步骤208。
在一些实施例中,如果智能设备120确定对象与目标对象不相匹配,则智能设备120可以结束方法200的执行。优选地,如果智能设备120确定对象与目标对象不相匹配,则智能设备120可以返回到步骤202重新获取环境中的声音信息。更优选地,如果智能设备120确定对象与目标对象不相匹配,则智能设备120可以在经过预定时间(例如,若干小时或若干天)以后,再执行步骤202以获取环境中的声音信息。
在一些实施例中,目标对象的对应特征值可以是一个数值、也可以是一个数值范围。
在一些实施例中,智能设备120可以基于针对某个对象所提取的特征值T约等于目标对象的对应特征值t1、或者落入对应特征值的数值范围[t1,t2]内,确定该对象与目标对象相匹配。
在另一些实施例中,智能设备120可以针对某个对象所提取的至少一个特征值T1~Tn进行算法计算,例如进行简单求和、加权求和(对不同的特征值赋予不同的权重)、相减等各种方式来得到某个对象的至少一个特征值所对应的值Ts,并且将该值Ts与目标对象的对应特征值(数值t1’或数值范围[t1’,t2’])相比较。如果值Ts约等于目标对象的对应特征值(数值t1’)或者落入对应特征值范围(数值范围[t1’,t2’])内,则确定该对象与目标对象相匹配。当该对象与目标对象相匹配时,则可以确定该对象具有目标对象的属性。
需要说明的是,目标对象的属性与目标对象的对应特征值相关联。因此,在一些实施例中,在对象的至少一个特征值与目标对象的对应特征值相匹配时,可以确定对象具有目标对象的属性。
在一些实施例中,目标对象的对应特征值以及其属性可以被存储在智能设备120中,也可以被存储在服务器130的存储设备131中。
根据本公开的实施例,目标对象具有至少一个属性。在一些实施例中,至少一个属性包括以下属性中的至少一个:年龄、性别、偏好。作为示例,例如,属性可以是0-8岁儿童、8-18岁青少年、18-60岁成年人、60岁以上老年人、男、女、喜爱儿歌、喜爱诗词、喜爱摇滚/民谣/流行音乐、喜爱新闻消息等等。
在框208中,响应于框206的判断结果为“是”,即响应于该对象与目标对象相匹配,智能设备120确定对象具有目标对象的至少一个属性。具体地,如果对象与目标对象相匹配,则智能设备120确定对象110具有目标对象的属性。在一些实施例中,如果对象与0-8岁儿童的目标对象相匹配,则可以将对象确定为具有“0-8岁儿童”的属性;如果对象与8-18岁青少年的目标对象相匹配,则可以将对象确定为具有“8-18岁青少年”的属性;以此类推。
进一步地,对象可以具有多个目标对象的属性,例如,对象可以同时具有一个或两个目标对象的属性。例如,可以确定对象具有“0-8岁儿童”的属性;或者,确定对象具有“0-8岁儿童、喜爱诗词”的属性;或者,确定对象具有“60岁以上老年人、女、喜爱流行音乐”的属性等。
在框210中,智能设备120提供与所确定的至少一个属性相符合的信息。在一些实施例中,智能设备120可以经由声音播放器(例如,一个或多个扬声器)来提供前述信息。
在一些实施例中,对象向智能设备120发出声音,声音中包含语音控制指令(例如,某某诗词、某某歌曲、某某节目、某某电视台),则智能设备120将根据语音控制指令进行检索并得到检索结果。在某些实施例中,智能设备120可以将语音控制指令发送给服务器130,由服务器130进行相应的检索,并且随后将检索到的结果发送给智能设备120。
之后,智能设备120可以从检索结果中选择与所确定的至少一个属性相符合的信息,并输出该与所确定的至少一个属性相符合的信息,例如播放某歌曲或诗词。在某些实施例中,可以由服务器130确定对象的属性,并且服务器130在检索完成后,可以从检索结果中选择与所确定的至少一个属性相符合的信息,并且将符合要求的信息发送回智能设备120,然后由智能设备120输出。
在另一些实施例中,智能设备120还可以在接收到语音控制指令以后,仅在与所确定的至少一个属性相关联的领域中进行检索,并输出检索到的结果。备选地,由服务器130在与所确定的至少一个属性相关联的领域中进行检索,并且将检索到的信息发送回智能设备120并由智能设备120输出。
在一些实施例中,可以训练智能设备120以使其能够智能地定义新的目标对象。具体地,图3示出了根据本公开的实施例的用于控制智能设备的方法的进一步的流程图。
在步骤302中,智能设备120可以以前文所述的方式获得对象的声音信息。
在步骤304中,智能设备120以前文所述的方式从声音信息中提取与对象相关联的至少一个的特征值(可以称为待分类特征值)。
在步骤306中,智能设备120接收与对象的至少一个属性相关联的标签。在一些实施例中,用户或者对象可以经由智能设备120输入该标签。在另一些实施例中,用户或者对象可以经由安装有应用程序的其他电子设备来输入该标签,由其他电子设备将该标签传输给智能设备120或者服务器130。安装有应用程序的其他电子设备可以包括但不限于智能手机、台式计算机、多媒体计算机、笔记本电脑、个人数字助理(PDA)等。
在步骤308中,智能设备120将所接收的标签与至少一个特征值(步骤304中的待分类特征值)相关联,并将所接收的标签标识为新的目标对象。新的目标对象具有所接收的标签,而标签与所接收的对象的至少一个属性相关联,因此,新的目标对象具有所接收的对象的至少一个属性。备选地,新的目标对象可以被存储在智能设备120中,也可以被存储在服务器130的存储设备131中。
作为示例,所接收的对象的至少一个属性可以是对象的偏好。例如,所接收的对象的至少一个属性可以是以下项中的至少一个:喜爱儿歌、喜爱诗词、喜爱摇滚/民谣/流行音乐、喜爱新闻消息。
应当理解,方法300的启动可以由用户通过语音控制指令、或者经由安装有应用程序的其他电子设备来使智能设备120开始执行定义新的目标对象的步骤。其中,安装有应用程序的其他电子设备可以包括但不限于智能手机、台式计算机、多媒体计算机、笔记本电脑、个人数字助理(PDA)等。
在一些实施例中,智能设备120还可以根据所确定至少一个属性,调整其音量或控制智能设备的连续运行时间。例如,在确定对象具有“0-8岁儿童”的属性的情形下,智能设备120可以根据所确定的该属性,降低音量或者将音量调整至较小音量以保护儿童听力,和/或控制智能设备120的连续运行时间,例如限制为30min或60min或90min等。
备选地,在确定对象具有“60岁以上老年人、喜爱戏剧”的属性的情形下,智能设备120可以根据所确定的该属性,适当提高音量并优先播放戏剧内容等。
在一些实施例中,智能设备120还可以将所确定的至少一个属性作为反馈提供给用户。作为示例,智能设备120可以经由声音播放器、显示器或安装有应用程序的其他智能设备来向用户提供反馈。
然后,用户可以经由语音输入、触摸显示器、键盘、鼠标、以及安装有应用程序的其他智能设备等任一种方式针对该反馈而向智能设备120输入指令。智能设备120可以基于该指令,确定是继续维持还是取消所确定的至少一个属性。
下面以智能音箱为例,对本公开的部分实施例进行说明。对于家用智能音箱,其应用环境中可能会存在儿童。因此,在用户每次输入语音控制指令时(例如,唤醒指令、执行搜索歌曲/诗词等任务的指令),智能音箱可以获取环境中的对象(一个对象或多个对象)的声音信息,以及从声音信息中提取与对象相关联的至少一个特征值。在多个对象的情形下,智能音箱可以从该声音信息中分辨出不同的对象,针对每个对象提取与每个对象相关联的至少一个特征值。在另一些实施例中,智能音箱也可以将声音信息发送给服务器,由服务器从声音信息中提取与对象相关联的至少一个特征值,例如,由服务器分辨多个对象的声音,并且针对每个对象提取与每个对象相关联的至少一个特征值。
随后,智能音箱或服务器可以基于所提取的至少一个特征值确定对象是否与目标对象相匹配。例如,如果识别出环境中的某个对象与目标对象(“0-8岁儿童”)相匹配,则将该对象确定为具有“0-8岁儿童”属性。在这种情况下,智能音箱或者服务器将仅提供适于“0-8岁儿童”接受的信息。作为示例,智能音箱可以仅提供儿歌、钢琴曲、诗词、童话故事等儿童领域内的信息,从而提高智能音箱的智能化程度,保护未成年人。
作为另一示例,如果确定对象与目标对象(18-60岁成年人、喜爱摇滚音乐)相匹配,则可以确定该对象具有“18-60岁成年人、喜爱摇滚音乐”的属性。于是,针对用户的语音控制指令,智能音箱优先在摇滚音乐领域内搜索结果以及播放属于摇滚音乐领域内的结果。
在一些实施例中,目标对象的属性可以具有不同的优先级,智能设备提供与高优先级的属性相符合的信息。在某些实施例中,在确定多个对象分别具有不同的属性的情形下,本公开的控制方法使得智能设备(例如智能音箱)提供与高优先级的属性相符合的信息。例如,年龄的优先级高于偏好的优先级、“年龄小”的优先级高于“年龄大”的优先级。例如,在确定某一个对象具有“0-8岁儿童”属性,并且还确定另一个对象具有“18-60岁成年人、喜爱摇滚音乐民谣”的属性时,智能设备将优先提供与“0-8岁儿童”的属性(高优先级)相符合的信息。在本示例中的目标对象的属性的优先级可以被定义为:0-8岁儿童和18-60岁成年人>偏好民谣,并且0-8岁儿童>18-60岁成年人。
图4示出了根据本公开实施例的用于控制智能设备的装置400的示意性框图。如图4所示,装置400可以包括:获取模块,被配置为获取环境中声音信息,声音信息包括与对象相关联的声音信息;提取模块,被配置为从声音信息中提取与对象相关联的至少一个特征值;运算模块,被配置为基于至少一个特征值,确定对象是否与目标对象相匹配,其中目标对象具有至少一个属性;属性确定模块,被配置为响应于对象匹配目标对象,确定对象具有目标对象的至少一个属性;以及输出模块,被配置为经由智能设备提供与所确定的至少一个属性相符合的信息。
在一些实施例中,所提取的至少一个特征值包括以下项中的至少一项:振幅、频率、共振峰值、梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)。
在一些实施例中,装置400还可以包括:第一检索模块(未示出),被配置为响应于接收到语音控制指令,根据语音控制指令进行检索并得到检索结果;以及过滤模块(未示出),被配置为从检索结果中选择与所确定的至少一个属性相符合的信息。
在一些实施例中,装置400还可以包括第二检索模块(未示出),被配置为响应于接收到语音控制指令,在与所确定的至少一个属性相关联的领域中进行检索并得到检索结果。
在一些实施例中,至少一个属性包括以下属性中的至少一个:年龄、性别、偏好。
在一些实施例中,装置400还可以包括:对象声音获取模块(未示出),被配置为获取对象的声音信息;对象声音提取模块(未示出),被配置为从声音信息中提取与对象相关联的至少一个特征值;接收模块(未示出),被配置为接收与对象的至少一个属性相关联的标签;标识模块(未示出),被配置为将所接收的标签与至少一个特征值相关联,并将所接收的标签标识为目标对象中的一个目标对象。
在一些实施例中,装置400还可以包括:操作控制模块(未示出),被配置为根据所确定至少一个属性,调整智能设备的音量或控制智能设备的连续运行时间。
在一些实施例中,装置400还可以包括:反馈模块(未示出),被配置为将所确定的至少一个属性作为反馈提供给用户;反馈接收模块(未示出),被配置为接收用户针对反馈而输入的指令;以及属性判断模块(未示出),被配置为基于指令,维持或取消所确定的至少一个属性。
在一些实施例中,由装置400所控制的智能设备是智能音箱。
图5示出了能够实施本公开的多个实施例的电子设备的示意性框图。例如,如图1所示的智能设备120可以由电子设备500实施。
如图所示,电子设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200和/或方法300,可由处理单元501执行。例如,在一些实施例中,方法200和/或方法300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法200和/或方法300的一个或多个动作。
本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (20)

1.一种用于控制智能设备的方法,包括:
获取环境中声音信息,所述声音信息包括与对象相关联的声音信息;
从所述声音信息中提取与所述对象相关联的至少一个特征值;
基于所述至少一个特征值,确定所述对象是否与目标对象相匹配,其中所述目标对象具有至少一个属性;以及
响应于所述对象匹配所述目标对象,确定所述对象具有所述目标对象的所述至少一个属性;
经由所述智能设备提供与所确定的所述至少一个属性相符合的信息。
2.根据权利要求1所述的方法,其中至少一个特征值包括以下项中的至少一项:振幅、频率、共振峰值、梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)。
3.根据权利要求1或2所述的方法,其中提供与所确定的所述至少一个属性相符合的信息包括:
响应于接收到语音控制指令,根据所述语音控制指令进行检索并得到检索结果;以及
从所述检索结果中选择与所确定的所述至少一个属性相符合的信息,并经由所述智能设备输出所述相符合的信息。
4.根据权利要求1或2所述的方法,其中提供与所确定的所述至少一个属性相符合的信息包括:
响应于接收到语音控制指令,在与所确定的所述至少一个属性相关联的领域中进行检索,并经由所述智能设备输出检索到的结果。
5.根据权利要求1或2所述的方法,其中所述至少一个属性包括以下属性中的至少一个:年龄、性别、偏好。
6.根据权利要求1或2所述的方法,还包括:
获取所述对象的声音信息;
从所述声音信息中提取与所述对象相关联的至少一个特征值;
接收与所述对象的至少一个属性相关联的标签;
将所接收的所述标签与所述至少一个特征值相关联,并将所接收的所述标签标识为所述目标对象中的一个目标对象。
7.根据权利要求1或2所述的方法,还包括:
根据所确定所述至少一个属性,调整所述智能设备的音量或控制所述智能设备的连续运行时间。
8.根据权利要求1或2所述的方法,还包括:
将所确定的所述至少一个属性作为反馈提供给用户;
接收所述用户针对所述反馈而输入的指令;以及
基于所述指令,维持或取消所确定的所述至少一个属性。
9.根据权利要求1或2所述的方法,其中所述智能设备是智能音箱。
10.一种用于控制智能设备的装置,包括:
获取模块,被配置为获取环境中声音信息,所述声音信息包括与对象相关联的声音信息;
提取模块,被配置为从所述声音信息中提取与所述对象相关联的至少一个特征值;
运算模块,被配置为基于所述至少一个特征值,确定所述对象是否与目标对象相匹配,其中所述目标对象具有至少一个属性;
属性确定模块,被配置为响应于所述对象匹配所述目标对象,确定所述对象具有所述目标对象的所述至少一个属性;以及
输出模块,被配置为经由所述智能设备提供与所确定的所述至少一个属性相符合的信息。
11.根据权利要求10所述的装置,其中所提取的至少一个特征值包括以下项中的至少一项:振幅、频率、共振峰值、梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)。
12.根据权利要求10或11所述的装置,还包括:
第一检索模块,被配置为响应于接收到语音控制指令,根据所述语音控制指令进行检索并得到检索结果;以及
过滤模块,被配置为从所述检索结果中选择与所确定的所述至少一个属性相符合的信息。
13.根据权利要求10或11所述的装置,还包括:
第二检索模块,被配置为响应于接收到语音控制指令,在与所确定的所述至少一个属性相关联的领域中进行检索并得到检索结果。
14.根据权利要求10或11所述的装置,其中所述至少一个属性包括以下属性中的至少一个:年龄、性别、偏好。
15.根据权利要求10或11所述的装置,还包括:
对象声音获取模块,被配置为获取所述对象的声音信息;
对象声音提取模块,被配置为从所述声音信息中提取与所述对象相关联的至少一个特征值;
接收模块,被配置为接收与所述对象的至少一个属性相关联的标签;
标识模块,被配置为将所接收的所述标签与所述至少一个特征值相关联,并将所接收的所述标签标识为所述目标对象中的一个目标对象。
16.根据权利要求10或11所述的装置,还包括:
操作控制模块,被配置为根据所确定所述至少一个属性,调整所述智能设备的音量或控制所述智能设备的连续运行时间。
17.根据权利要求10或11所述的装置,还包括:
反馈模块,被配置为将所确定的所述至少一个属性作为反馈提供给用户;
反馈接收模块,被配置为接收所述用户针对所述反馈而输入的指令;以及
属性判断模块,被配置为基于所述指令,维持或取消所确定的所述至少一个属性。
18.根据权利要求10或11所述的装置,其中所述智能设备是智能音箱。
19.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-9任一项所述的方法。
CN202010614961.7A 2020-06-30 2020-06-30 用于控制智能设备的方法、装置、电子设备和计算机存储介质 Pending CN111862947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614961.7A CN111862947A (zh) 2020-06-30 2020-06-30 用于控制智能设备的方法、装置、电子设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614961.7A CN111862947A (zh) 2020-06-30 2020-06-30 用于控制智能设备的方法、装置、电子设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN111862947A true CN111862947A (zh) 2020-10-30

Family

ID=72989098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614961.7A Pending CN111862947A (zh) 2020-06-30 2020-06-30 用于控制智能设备的方法、装置、电子设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN111862947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114660939A (zh) * 2022-03-29 2022-06-24 北京百度网讯科技有限公司 对象控制方法及装置、电子设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096937A (zh) * 2015-05-26 2015-11-25 努比亚技术有限公司 语音数据处理方法及终端
CN105895096A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种身份识别与语音交互操作的方法及装置
CN106128467A (zh) * 2016-06-06 2016-11-16 北京云知声信息技术有限公司 语音处理方法及装置
CN107481720A (zh) * 2017-06-30 2017-12-15 百度在线网络技术(北京)有限公司 一种显式声纹识别方法及装置
CN108075892A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种语音处理的方法、装置和设备
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109036395A (zh) * 2018-06-25 2018-12-18 福来宝电子(深圳)有限公司 个性化的音箱控制方法、***、智能音箱及存储介质
CN109255053A (zh) * 2018-09-14 2019-01-22 北京奇艺世纪科技有限公司 资源搜索方法、装置、终端、服务器、计算机可读存储介质
CN109412910A (zh) * 2018-11-20 2019-03-01 三星电子(中国)研发中心 控制智能家居设备的方法和装置
CN109947984A (zh) * 2019-02-28 2019-06-28 北京奇艺世纪科技有限公司 一种针对儿童的内容推送方法及推送装置
CN110047493A (zh) * 2019-03-13 2019-07-23 深圳市酷开网络科技有限公司 基于声纹识别优先级的控制方法、装置及存储介质
CN110248021A (zh) * 2019-05-10 2019-09-17 百度在线网络技术(北京)有限公司 一种智能设备音量控制方法及***
CN110309266A (zh) * 2019-07-05 2019-10-08 拉扎斯网络科技(上海)有限公司 对象搜索方法、装置、电子设备及存储介质
CN110336723A (zh) * 2019-07-23 2019-10-15 珠海格力电器股份有限公司 智能家电的控制方法及装置、智能家电设备
CN110415695A (zh) * 2019-07-25 2019-11-05 华为技术有限公司 一种语音唤醒方法及电子设备
CN110570850A (zh) * 2019-07-30 2019-12-13 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096937A (zh) * 2015-05-26 2015-11-25 努比亚技术有限公司 语音数据处理方法及终端
CN105895096A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种身份识别与语音交互操作的方法及装置
CN106128467A (zh) * 2016-06-06 2016-11-16 北京云知声信息技术有限公司 语音处理方法及装置
CN108075892A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种语音处理的方法、装置和设备
CN107481720A (zh) * 2017-06-30 2017-12-15 百度在线网络技术(北京)有限公司 一种显式声纹识别方法及装置
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109036395A (zh) * 2018-06-25 2018-12-18 福来宝电子(深圳)有限公司 个性化的音箱控制方法、***、智能音箱及存储介质
CN109255053A (zh) * 2018-09-14 2019-01-22 北京奇艺世纪科技有限公司 资源搜索方法、装置、终端、服务器、计算机可读存储介质
CN109412910A (zh) * 2018-11-20 2019-03-01 三星电子(中国)研发中心 控制智能家居设备的方法和装置
CN109947984A (zh) * 2019-02-28 2019-06-28 北京奇艺世纪科技有限公司 一种针对儿童的内容推送方法及推送装置
CN110047493A (zh) * 2019-03-13 2019-07-23 深圳市酷开网络科技有限公司 基于声纹识别优先级的控制方法、装置及存储介质
CN110248021A (zh) * 2019-05-10 2019-09-17 百度在线网络技术(北京)有限公司 一种智能设备音量控制方法及***
CN110309266A (zh) * 2019-07-05 2019-10-08 拉扎斯网络科技(上海)有限公司 对象搜索方法、装置、电子设备及存储介质
CN110336723A (zh) * 2019-07-23 2019-10-15 珠海格力电器股份有限公司 智能家电的控制方法及装置、智能家电设备
CN110415695A (zh) * 2019-07-25 2019-11-05 华为技术有限公司 一种语音唤醒方法及电子设备
CN110570850A (zh) * 2019-07-30 2019-12-13 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114660939A (zh) * 2022-03-29 2022-06-24 北京百度网讯科技有限公司 对象控制方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11600291B1 (en) Device selection from audio data
US11875820B1 (en) Context driven device arbitration
US11676575B2 (en) On-device learning in a hybrid speech processing system
US11138977B1 (en) Determining device groups
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
EP3598437A1 (en) Information processing device, information processing system, information processing method, and program
US11189277B2 (en) Dynamic gazetteers for personalized entity recognition
US11687526B1 (en) Identifying user content
KR20200100677A (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
US20220076674A1 (en) Cross-device voiceprint recognition
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
US11741944B2 (en) Speech personalization and federated training using real world noise
CN111640434A (zh) 用于控制语音设备的方法和装置
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
US11948564B2 (en) Information processing device and information processing method
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
US20200402498A1 (en) Information processing apparatus, information processing method, and program
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
CN111862947A (zh) 用于控制智能设备的方法、装置、电子设备和计算机存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
WO2020208972A1 (ja) 応答生成装置及び応答生成方法
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
US11011174B2 (en) Method and system for determining speaker-user of voice-controllable device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210430

Address after: 100080 No.10, Shangdi 10th Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100080 No.10, Shangdi 10th Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right