CN112233676A - 智能设备唤醒方法、装置、电子设备及存储介质 - Google Patents

智能设备唤醒方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112233676A
CN112233676A CN202011311387.4A CN202011311387A CN112233676A CN 112233676 A CN112233676 A CN 112233676A CN 202011311387 A CN202011311387 A CN 202011311387A CN 112233676 A CN112233676 A CN 112233676A
Authority
CN
China
Prior art keywords
awakening
audio data
wake
result
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011311387.4A
Other languages
English (en)
Inventor
宋汉冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Oribo Technology Co Ltd
Original Assignee
Shenzhen Oribo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Oribo Technology Co Ltd filed Critical Shenzhen Oribo Technology Co Ltd
Priority to CN202011311387.4A priority Critical patent/CN112233676A/zh
Publication of CN112233676A publication Critical patent/CN112233676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • H04N21/4432Powering on the client, e.g. bootstrap loading using setup parameters being stored locally or received from the server
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种智能设备的唤醒方法、装置、电子设备及存储介质。其中,该方法包括:通过获取待识别音频数据,根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果,再根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果,当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。因此,本申请实施例提供的方案中,对待识别音频数据分别用第一误唤醒算法和第二唤醒算法获得第一唤醒结果和第二唤醒结果,结合第一唤醒结果和第二唤醒结果判断是否唤醒智能设备,从而降低智能设备的误唤醒率。

Description

智能设备唤醒方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,更具体地,涉及一种智能设备唤醒方法、装置、电子设备及存储介质。
背景技术
传统的人机交互方式往往需要通过手动按钮来启动,但这种方式在需要解放双手和距离较远的情况下显得力不从心。随着人工智能技术的不断发展,越来越多的设备设置有语音唤醒功能。智能设备可以通过麦克风等语音采集装置采集语音数据,依照用户输入的指令执行任务。语音唤醒功能使用户解放了双手,能够更便捷的与智能设备用语音进行交互。
在实际使用中,需要为智能设备设置一个唤醒机制,当采集的语音数据符合唤醒条件时,智能设备就会被唤醒,分析用户需求;否则智能设备处于待机状态。
然而,当用户在聊天或者看电视的时候,又或者存在其它非唤醒意图的声音时,智能设备常常被突然误唤醒,让用户不胜其烦。
发明内容
有鉴于此,本申请实施例提出了一种智能设备唤醒方法、装置、电子设备及存储介质,以改善上述问题。
第一方面,本申请实施例提供了一种智能设备唤醒方法,该方法包括:
获取待识别音频数据;
根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果;
根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果;
当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
第二方面,本申请实施例提供了一种智能设备唤醒装置,该装置包括:
待识别音频数据获取模块,用于获取待识别音频数据;
第一唤醒结果获取模块,用于根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果;
第二唤醒结果获取模块,用于根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果;
唤醒模块,用于当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
第三方面,本申请实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的智能设备唤醒方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的智能设备唤醒方法。
本申请实施例提供的方案,通过获取待识别音频数据,根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果,再根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果,当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。因此,本申请实施例提供的方案中,对待识别音频数据分别用第一误唤醒算法和第二唤醒算法获得第一唤醒结果和第二唤醒结果,结合第一唤醒结果和第二唤醒结果判断是否唤醒智能设备,从而降低智能设备的误唤醒率。
本申请实施例的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种智能设备唤醒***的应用场景示意图;
图2示出了本申请一实施例提出的一种智能设备唤醒方法的流程示意图;
图3示出了本申请另一实施例提出的一种智能设备唤醒方法的流程示意图;
图4示出了本申请又一实施例提出的一种智能设备唤醒方法的流程示意图;
图5示出了本申请再一实施例的一种智能设备唤醒方法的流程示意图;
图6示出了本申请一实施例提出的电子设备的结构框图;
图7示出了本申请一实施例提出的一种智能设备的控制装置的结构框图;
图8示出了本申请一实施例提出的一种计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
语音唤醒具有广泛的应用领域,配置有语音唤醒功能的智能设备,可以作为本申请实施例中的电子设备。如智能控制面板、智能家用电器、智能穿戴设备、智能语音导航设备、智能机器人等。对智能设备进行语音指令,当符合唤醒条件时,智能设备便从唤醒状态中被唤醒,并作出指定响应,如唤醒智能设备播放音乐等。
用户向智能设备进行语音唤醒,智能设备接收用户的语音数据,并对用户的语音数据进行处理和识别,当语音数据包括有预设的唤醒词时,智能设备进行相应的唤醒。
智能设备在识别接收到的音频是否为唤醒音频时,可以将接收到的音频进行处理后与唤醒音频进行匹配,获取匹配度。预先配置与匹配度比较的阈值,定义为预设阈值,根据该匹配度与预设阈值的大小确定是否接收到唤醒指令,是否执行唤醒操作。若匹配度大于预设阈值,说明接收到与唤醒音频接近度高的音频,可以确定接收到唤醒指令,执行唤醒操作;若匹配度小于或等于预设阈值,说明接收到与唤醒音频接近度较低的音频,可以确定接收到的不是唤醒指令,不执行唤醒操作。但是,智能设备在接收到一些非唤醒意图的语音数据,例如用户的聊天对话,或者播放电视节目的声音,部分非唤醒意图的语音数据与唤醒音频接近度较高,智能设备常常容易被误唤醒。
为了有效降低智能设备的误唤醒率,发明人经过长期的研究,提出了本申请实施例中的智能设备唤醒方法、装置、电子设备及存储介质。通过通过获取待识别音频数据,根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果,再根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果,当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。因此,本申请实施例提供的方案中,对待识别音频数据分别用第一误唤醒算法和第二唤醒算法获得第一唤醒结果和第二唤醒结果,结合第一唤醒结果和第二唤醒结果判断是否唤醒智能设备,从而降低智能设备的误唤醒率。
为了便于详细说明,下面先结合附图对本申请实施例所适用的应用场景进行示例性说明。
请参见图1,图1示出了本申请实施例提供的智能设备唤醒方法的应用场景示意图,该应用场景包括本申请实施例提供的一种智能设备唤醒***。该智能设备唤醒***包括:智能设备100和服务器200。
其中,智能设备100可以为但不限于为智能控制面板、智能家用电器、智能穿戴设备、智能语音导航设备、智能机器人、手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio LayerⅢ,动态影像压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio LayerⅣ,动态影像压缩标准音频层面4)播放器、个人计算机等等。本申请实施例对具体的智能设备的类型不作限定。
于本申请实施例中,智能设备100设置有音频采集器,如麦克风等,可通过音频采集器采集音频数据,本申请实施例对具体的音频采集器的类型不作限定。
其中,服务器200可以是传统服务器,也可以是云端服务器,可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
在一些可能的实施方式中,对输入音频数据进行处理的装置可设置于服务器200,则在终端100获取输入语音后,可将输入音频数据发送至服务器200,由服务器200对输入音频数据处理后返回处理结果至智能设备100,以使智能设备100可根据处理结果执行后续操作。
其中,对输入语音进行处理的装置可以为误唤醒计算装置。在一些实施例中,对输入语音进行处理的装置还可以为唤醒结果匹配装置。
作为一种实施方式,误唤醒计算装置可设置于服务器200,唤醒结果匹配装置可设置于智能设备100,则服务器100可返回唤醒结果至智能设备100,由智能设备100基于唤醒结果进一步确定唤醒结果是否符合预设唤醒关系。
另外,作为另一种实施方式,误唤醒计算装置、唤醒结果匹配装置的设置位置也可对换,即误唤醒计算装置可设置于智能设备100,唤醒结果匹配装可设置于服务器200,则智能设备100基于误唤醒计算装置进行音频数据的处理,并将唤醒结果发送至服务器200,指示服务器200基于唤醒结果进一步确定唤醒结果是否符合预设唤醒关系。并返回处理结果至智能设备100。以使智能设备100可基于处理结果确定是否唤醒。
作为又一种实施方式,误唤醒计算装置、唤醒结果匹配装置均可设置于服务器200,则服务器200可返回结果至智能设备100,以使智能设备100可基于结果确定是否唤醒。
在另一些可能的实施方式中,对输入音频数据进行处理的装置也可以设置于智能设备100上,使得智能设备100无需依赖与服务器200建立通信,也可对输入音频数据进行处理得到处理结果,则此时智能设备唤醒***可以只包括智能设备100。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面将结合附图具体具体描述本申请的各实施例。
请参阅图2,图2所示为本申请一实施例提出的一种智能设备唤醒方法的流程示意图,该方法从图1可以看出包括步骤S110至步骤S140。下面将针对图2所示的实施例进行详细的阐述,所述方法具体可以包括以下步骤:
步骤S110、获取待识别音频数据;
在本申请的实施例中,智能设备100可设置有音频采集器,也可连接外部的音频采集器。此处连接可以是无线连接,也可是有线连接,在此不做限定。在一些实施方式中,若为无线连接,则终端可设置有无线通讯模块,例如无线保真(Wireless Fidelity,WiFi)模块、蓝牙(Bluetooth)模块等,可基于无线通讯模块获取音频采集装置采集的待识别音频数据。
在一些实施例中,智能设备100终端可通过音频采集器如麦克风等进行拾音,获取音频采集器采集的待识别音频数据。由于利用音频采集器进行拾音的功耗较低,因此,音频采集装置可一直处于开启状态进行拾音。并且,在一些实施方式中,音频采集器可以定时将采集到的音频进行缓存,并送入处理器对所采集的待识别音频数据进行处理。
步骤S120、根据第一误唤醒算法获得待识别音频数据的第一唤醒结果。
步骤S130、根据第二误唤醒算法获得待识别音频数据的第二唤醒结果。
本申请的实施例中,步骤S120和步骤S130采用了两种不同的误唤醒算法分别对待识别音频数据进行处理,分别获得各自算法的唤醒结果。可以理解的是,每一种误唤醒算法对待识别音频数据进行处理总会存在一定的误差。假设通过识别待识别音频数据是否为噪音的误唤醒算法假设噪音识别准确率为80%,总有20%的待识别音频数据无法通过误唤醒算法的识别而引起误唤醒。其它误唤醒算法也存在同样的问题。因此,本申请的实施例采用了两种不同的误唤醒算法,分别对待识别音频数据进行处理,如此,比起采用单独一种误唤醒算法,采用两种不同的误唤醒算法,由于判断是否为误唤醒的考虑角度不同,有些算法是考虑相似词是否相似,有些算法是考虑是否为噪音数据,其中一种误唤醒算法无法识别的待识别音频数据可以在另外一种误唤醒算法中得以补充识别。从而可以极大地降低智能设备的误唤醒率。
步骤S140、当第一唤醒结果和第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
在本申请的实施例中,待识别音频数据需经过两种不同误唤醒算法的处理,假设经过第一误唤醒算法,待识别音频数据为误唤醒的概率为a%,其中,0≤a≤100;经过第二误唤醒算法,待识别音频数据为误唤醒的概率为b%,其中,0≤b≤100。假设在第一误唤醒算法中,误唤醒的概率小于A%,其中,0≤A≤100的音频数据才不属于误唤醒,假设在第二误唤醒算法中,误唤醒的概率小于B%,其中,0≤B≤100的音频数据才不属于误唤醒。则需要同时满足第一唤醒结果a<A且第二误唤醒结果b<B时,才对智能设备执行唤醒。可以理解的是,在不同的应用场景下,可以对预唤醒关系进行适当调整,例如假设第一误唤醒算法为噪音估算算法,如果待识别音频数据噪音的要求比较严格,可以将第一误唤醒算法的误唤醒概率阈值A再调小一点,例如从20%调至10%,从而待识别音频数据中经过第一误唤醒算法处理后,需要误唤醒概率低于10%才有可能唤醒智能设备。可以理解的是,在不同的应用场景下,可以对预唤醒关系进行根据实际场景的需要进行适应性地调整。
本申请实施例提供的方案,通过获取待识别音频数据,根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果,再根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果,当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。因此,本申请实施例提供的方案中,对待识别音频数据分别用第一误唤醒算法和第二唤醒算法获得第一唤醒结果和第二唤醒结果,结合第一唤醒结果和第二唤醒结果判断是否唤醒智能设备,从而降低智能设备的误唤醒率。
请参阅图3,图3所示为本申请另一实施例提出的一种智能设备唤醒方法的流程示意图。下面将针对图3所示的实施例进行详细的阐述,所述方法具体可以包括如下步骤:
步骤S210、获取待识别音频数据。
其中步骤S210的具体描述请参阅步骤S110,在此不再赘述。
在本申请的实施例中,第一唤醒算法采用关键词算法,即对待识别音频数据进行处理,判断待识别音频数据是否包含特定关键词,具体地根据第一误唤醒算法获得待识别音频数据的第一唤醒结果可以具体包括:
步骤S220、提取待识别音频数据中的关键词。
在本申请的实施例中,智能设备在获取到待识别音频数据后可以对该待识别音频数据进行处理。具体地,作为一种实施方式,可以先对待识别音频数据进行自动语音识别技术(ASR,Automatic Speech Recognition),即将待识别音频数据转换为文本,然后智能设备对转换得到的文本执行自然语音理解操作(Natural Language Understanding,NLU),从而实现对待识别音频数据的关键词的提取。
步骤S230、计算关键词与目标关键词的关键词相似度。
作为本申请的一种实施方式,智能设备在获取关键词后,可以计算关键词与目标关键词的相似度。目标关键词是用户或者智能设备预先设置的用于唤醒的词语。作为本申请的一种实施方式,可以通过机器学习模型预先训练目标关键词匹配模型,即采用大量的训练文本和目标关键词进行模型的训练,从而获得可以计算与目标关键词相似度的标关键词匹配模型。
可以理解的是,通过计算关键词与目标关键词的相似度,可以得到待识别语音数据为用户想要与智能设备进行交互的概率。并且,当关键词与目标关键词的关键词相似度低于预设阈值时,可以判断待识别音频为误唤醒音频。因此,可以通过计算关键词与目标关键词的关键词相似度的方式,从是否存在与智能设备进行交互的意图的角度,判断待识别音频数据是否为误唤醒音频数据。
本申请的实施例中,第二唤醒算法采用噪音估算算法,即对待识别音频数据进行处理,计算待识别音频数据的噪音估算值,具体地,根据第二误唤醒算法获得待识别音频数据的第二唤醒结果可以具体包括:
步骤S240、计算待识别音频数据的噪音估算值。
作为本申请的一种实施方式,智能设备在获取到待识别音频数据后还计算待识别音频数据的噪音估算值。可以理解的是,智能设备所处的环境存在很多非用户指令的声音,可能是车辆来往的声音,外面的杂音,或者是东西碰撞的声音,走路声音等等,这些声音也可能会引起智能设备的误唤醒。为了排除噪音引起的误唤醒,本申请实施例计算待识别音频数据的噪音估算值,可以得到待识别音频数据为噪音的概率。并且,当噪音估算值高于预设阈值时,可以判断待识别音频为误唤醒音频。因此,可以通过计算噪音估算值,从是否为噪音的角度,判断待识别音频数据是否为误唤醒音频数据。
作为本申请的一种实施方式,可以通过机器学***均算法(Minimum Controlled Regressive Averaging,MCRA)等计算待识别音频数据的噪音估算值,本申请对此不作限制。
步骤S250、当关键词相似度大于关键词阈值,且噪音估算值小于预设噪音阈值时,对智能设备执行唤醒。
可选地,关键词阈值的范围为70%~90%;噪音阈值的范围为10%~30%。
可以理解的是,预设关键词阈值和预设噪音阈值可以根据实际使用场景的需要进行设置。例如,可以设置预设关键词阈值为80%,预设噪音阈值为20%,当待识别音频数据的关键词相似度大于80%,且噪音估算值小于20%时,对智能设备执行唤醒。但本发明并不限制于此,预设关键词阈值和预设噪音阈值可以根据实际使用场景的需要进行设置。
在本申请的实施例中,对待识别音频数据分别用关键词相似算法计算待识别音频数据的关键词相似度,用噪音估算算法计算待识别音频数据的噪音估算值,结合关键词相似度和噪音估算值从用户交互和噪音两个角度综合判断待识别音频数据是否为误唤醒音频,从而从而降低智能设备的误唤醒率。
请参阅图4,图4所示为本申请又一实施例提出的一种智能设备唤醒方法的流程示意图。下面将针对图4所示的实施例进行详细的阐述,所示方法具体可以包括如下步骤:
步骤S310、获取待识别音频数据。
其中步骤S310的具体描述请参阅步骤S110,在此不再赘述。
步骤S320、提取待识别音频数据中的关键词。
步骤S330、计算关键词与目标关键词的关键词相似度。
在本申请的实施例中,第一唤醒算法采用关键词算法,其中步骤S320至步骤S330的具体描述请参阅步骤S220至步骤S230。
本申请的实施例中,第二唤醒算法采用音频类别判断算法,即对待识别音频数据进行处理,判断待识别音频数据的背景相似度和用户相似度,具体地,根据第二误唤醒算法获得待识别音频数据的第二唤醒结果可以具体包括:
步骤S340、计算待识别音频数据与背景音频的背景相似度。
在本申请的实施例中,智能设备在获取到待识别音频数据后还计算待识别音频数据与背景音频的背景相似度。可以理解的是,一些背景音频中很可能包括有目标关键词,例如用户播放歌曲时,歌曲中可能含有目标关键词。又例如用户在播放电视节目时,电视节目中的音频数据也很可能包括有目标关键词。虽然这些音频数据包括有目标关键词,但用户是不希望它们对智能设备进行唤醒,如果不对这些背景音频进行剔除,就很可能用户在播放音乐或者观看电视时频频因为背景音频唤醒智能设备而影响用户正常听音乐和观看电视。因此,本申请的实施例还计算待识别音频数据与背景音频的背景相似度。
步骤S350、计算待识别音频数据与用户音频的用户相似度。
在本申请的实施例中,智能设备在获取到待识别音频数据后还计算待识别音频数据与用户音频的用户相似度。可以理解的是,待识别音频数据与用户音频的用户相似度越高,其为背景音频的概率就越低,因此,在本申请的实施例中通过计算待识别音频的背景相似度和用户相似度综合判断待识别音频的音频类别,从而判断待识别音频是否为误唤醒音频。
作为本申请的一种实施方式,可以通过机器学习模型预先训练音频类别判断模型,即采用大量的训练音频进行模型的训练,从而获得可以计算背景相似度和用户相似度的音频类别判断模型。
步骤S360、当关键词相似度大于关键词阈值,且背景相似度小于背景阈值,并且用户相似度大于用户阈值时,对智能设备执行唤醒。
可选地,关键词阈值的范围为70%~90%;背景阈值的范围为10%~30%;用户阈值的范围为80~95%。
可以理解的是,关键词阈值、背景阈值和用户阈值可以根据实际使用场景的需要进行设置。例如,可以设置关键词阈值为80%,背景阈值为20%,用户阈值为90%,当待识别音频数据的关键词相似度大于80%,背景相似度小于30%,且用户相似度大于90%时,对智能设备执行唤醒。但本发明并不限制于此,关键词阈值、背景阈值和用户阈值可以根据实际使用场景的需要进行设置。
在本申请的实施例中,对待识别音频数据分别用关键词相似算法计算待识别音频数据的关键词相似度,音频类别判断算法计算待识别音频数据的背景相似度和用户相似度,结合关键词相似度和背景相似度和用户相似度从用户交互和音频类别两个角度综合判断待识别音频数据是否为误唤醒音频,从而从而降低智能设备的误唤醒率。
请参阅图5,图5所示为本申请再一实施例提出的一种智能设备唤醒方法的流程示意图。下面将针对图5所示的实施例进行详细的阐述,所示方法具体可以包括如下步骤:
步骤S410、获取待识别音频数据。
其中步骤S410的具体描述请参阅步骤S110,在此不再赘述。
步骤S420、获取智能设备的当前状态,当前状态包括工作状态和休眠状态。
在本申请的实施方式中,智能设备的当前状态包括工作状态和休眠状态。作为一种实施方式,当智能设备在预设时间内未被唤醒,则智能设备进入休眠状态,当智能设备被重新唤醒后,进入工作状态。作为另一种实施方式,也可以是设置智能设备的工作时段,即智能设备在工作时段处于工作状态,在非工作时段处于休眠状态。
步骤S430、计算待识别音频数据的音量值。
作为本申请的一种实施方式,智能设备设置有音频采集装置,音频采集装置可以根据待识别音频数据的振幅等计算待识别音频数据的音量值。
步骤S440、判断当前状态是否为工作状态。若是,则执行步骤S441,若否,则执行步骤S443。
步骤S441、判断待识别音频数据的音量值是否小于第一预设音量值,若是,则执行步骤S442,若否,则执行步骤S450。
步骤S442、退出唤醒过程。
步骤S443、判断当前状态是否为休眠状态。若是,则执行步骤S444。
步骤S444、判断待识别音频数据的音量值是否小于第二预设音量值,若是,则执行步骤S445;若否,则执行步骤S450。
作为本申请的一种实施方式,智能设备无论在工作状态还是休眠状态,待识别音频的音量值需要达到预设的音量值才可能对智能设备进行唤醒。音量过低的待识别音频为误唤醒音频的概率更高。作为本申请的一种实施方式,在智能设备在预设时间内未被唤醒,可能是用户外出或者晚上休息的时间段。为防止噪音对智能设备进行误唤醒,在休眠状态下唤醒智能设备的待识别音频的音量值要高于工作状态下唤醒智能设备的待识别音频的音量值。
步骤S450、根据第一误唤醒算法获得待识别音频数据的第一唤醒结果。
步骤S460、根据第二误唤醒算法获得待识别音频数据的第二唤醒结果;
步骤S470、当第一唤醒结果和第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
其中步骤S450至步骤S470的具体描述请参阅步骤S120至步骤S140,在此不再赘述。
请参阅图6,图6示出了本申请一实施例提供的电子设备500,包括存储器510、处理器520以及存储在存储器510中并可在处理器520上运行的计算机程序,处理器520执行计算机程序时实现前述方法实施例中所描述的方法。
处理器520可以包括一个或者多个处理核。处理器520利用各种接口和线路连接整个电子设备500内的各个部分,通过运行或执行存储在存储器510内的指令、程序、代码集或指令集,以及调用存储在存储器310内的数据,执行电子设备500的各种功能和处理数据。可选地,处理器520可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器520可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,调制解调器也可以不集成到处理器520中,单独通过一块通信芯片进行实现。
存储器510可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器510可用于存储指令、程序、代码、代码集或指令集。存储器510可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如获取、选取、提取、控制等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据(比如用户输入信息、当前状态信息、预设任务规则、任务执行信息)等。
请参阅图7,图7示出了本申请一实施例提出的一种智能设备的控制装置600的结构框图。下面将针对图7所示的框图进行阐述,本实施例的智能设备的控制装置600应用于智能设备,该装置包括:
待识别音频数据获取模块610,用于获取待识别音频数据;
第一唤醒结果获取模块620,用于根据第一误唤醒算法获得待识别音频数据的第一唤醒结果;
第二唤醒结果获取模块630,用于根据第二误唤醒算法获得待识别音频数据的第二唤醒结果;
唤醒模块640,用于当第一唤醒结果和第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
所属领域的技术人员可以清楚地了解到,本申请实施例提供的***升级装置能够实现图1的方法实施例中智能控制终端实现的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。
在一些实施方式中,第一唤醒结果获取模块620可以包括:
关键词提取单元,用于提取所述待识别音频数据中的关键词,
相似度计算单元,用于计算所述关键词与目标关键词的关键词相似度。
在一些实施方式中,第二唤醒结果获取模块630可以包括:
噪音估算值计算单元,用于计算所述待识别音频数据的噪音估算值。
在一些实施方式中,唤醒模块640还可以用于当关键词相似度大于预设关键词阈值,且所述噪音估算值小于预设噪音阈值时,对智能设备执行唤醒。
在一些实施方式中,第二唤醒结果获取模块630可以包括:
背景相似度计算单元,用于计算待识别音频数据与背景音频的背景相似度;
用户相似度计算单元,用于计算待识别音频数据与用户音频的用户相似度。
在一些实施方式中,唤醒模块640还可以用于当关键词相似度大于关键词阈值,且背景相似度小于背景阈值,并且所述用户相似度大于用户阈值时,对智能设备执行唤醒。
在一些实施方式中,智能设备的控制装置600还包括:
当前状态获取模块,用户获取智能设备的当前状态,当前状态包括工作状态和休眠状态;
音量值计算模块,用户计算待识别音频数据的音量值,
第一判断模块,用于当当前状态为工作状态时,判断待识别音频数据的音量值是否小于第一预设音量值,若是,则退出唤醒过程;
第二判断模块,用于当当前状态为休眠状态时,判断待识别音频数据的音量值是否小于第二预设音量值,若是,则退出唤醒过程;
其中,第一预设音量值小于第二预设音量值。
请参阅图8,图8示出了本申请实施例提出的一种计算机可读存储介质的结构框图。该计算机可读存储介质中存储有程序代码810,所述程序代码810可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质可以是诸如闪存、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory,EEPROM)、可擦除可编程只读存储器(erasable programmable read only memory,EPROM)、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitorycomputer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序介质的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
可选地,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
综上所述,本申请实施例提供的智能设备的唤醒方法、装置、电子设备及存储介质,通过获取待识别音频数据,根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果,再根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果,当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。因此,本申请实施例提供的方案中,对待识别音频数据分别用第一误唤醒算法和第二唤醒算法获得第一唤醒结果和第二唤醒结果,结合第一唤醒结果和第二唤醒结果判断是否唤醒智能设备,从而降低智能设备的误唤醒率。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种智能设备唤醒方法,其特征在于,所述方法包括:
获取待识别音频数据;
根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果;
根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果;
当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
2.根据权利要求1所述的方法,其特征在于,所述第一误唤醒算法为关键词相似算法;
则所述根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果的步骤,具体包括:
提取所述待识别音频数据中的关键词,
计算所述关键词与目标关键词的关键词相似度。
3.根据权利要求2所述的方法,其特征在于,所述第二误唤醒算法为噪音估算算法,则所述根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果的步骤,具体包括:
计算所述待识别音频数据的噪音估算值。
4.根据权利要求3所述的方法,其特征在于,所述当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒的步骤具体包括:
当所述关键词相似度大于关键词阈值,且所述噪音估算值小于噪音阈值时,对智能设备执行唤醒。
5.根据权利要求2所述的方法,其特征在于,所述第二误唤醒算法为音频类别判断算法
则所述根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果的步骤,具体包括:
计算所述待识别音频数据与背景音频的背景相似度;
计算所述待识别音频数据与用户音频的用户相似度。
6.根据权利要求5所述的方法,其特征在于,所述当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒的步骤包括:
当所述关键词相似度大于关键词阈值,且所述背景相似度小于背景阈值,并且所述用户相似度大于用户阈值时,对智能设备执行唤醒。
7.根据权利要求1所述的方法,其特征在于,所述根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果的步骤之前,所述方法还包括步骤:
获取智能设备的当前状态,所述当前状态包括工作状态和休眠状态;
计算所述待识别音频数据的音量值,
当所述当前状态为工作状态时,判断所述待识别音频数据的音量值是否小于第一预设音量值,若是,则退出唤醒过程;
当所述当前状态为休眠状态时,判断所述待识别音频数据的音量值是否小于第二预设音量值,若是,则退出唤醒过程;
其中,所述第一预设音量值小于所述第二预设音量值。
8.一种智能设备唤醒装置,其特征在于,所述装置包括:
待识别音频数据获取模块,用于获取待识别音频数据;
第一唤醒结果获取模块,用于根据第一误唤醒算法获得所述待识别音频数据的第一唤醒结果;
第二唤醒结果获取模块,用于根据第二误唤醒算法获得所述待识别音频数据的第二唤醒结果;
唤醒模块,用于当所述第一唤醒结果和所述第二唤醒结果符合预设唤醒关系时,对智能设备执行唤醒。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
CN202011311387.4A 2020-11-20 2020-11-20 智能设备唤醒方法、装置、电子设备及存储介质 Pending CN112233676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011311387.4A CN112233676A (zh) 2020-11-20 2020-11-20 智能设备唤醒方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011311387.4A CN112233676A (zh) 2020-11-20 2020-11-20 智能设备唤醒方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112233676A true CN112233676A (zh) 2021-01-15

Family

ID=74124542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011311387.4A Pending CN112233676A (zh) 2020-11-20 2020-11-20 智能设备唤醒方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112233676A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593546A (zh) * 2021-06-25 2021-11-02 青岛海尔科技有限公司 终端设备唤醒方法和装置、存储介质及电子装置
CN113641795A (zh) * 2021-08-20 2021-11-12 上海明略人工智能(集团)有限公司 用于话术统计的方法及装置、电子设备、存储介质
CN114283793A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音唤醒方法、装置、电子设备、介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN106775569A (zh) * 2017-01-12 2017-05-31 环旭电子股份有限公司 装置位置提示***与方法
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
CN109671426A (zh) * 2018-12-06 2019-04-23 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
CN109920420A (zh) * 2019-03-08 2019-06-21 四川长虹电器股份有限公司 一种基于环境检测的语音唤醒***
CN110500721A (zh) * 2019-08-21 2019-11-26 宁波奥克斯电气股份有限公司 一种空调语音控制方法、装置以及空调器
US20200227049A1 (en) * 2019-01-11 2020-07-16 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for waking up voice interaction device, and storage medium
CN111880856A (zh) * 2020-07-31 2020-11-03 Oppo广东移动通信有限公司 语音唤醒方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
JP2019502947A (ja) * 2015-11-30 2019-01-31 ゼットティーイー コーポレイション 音声ウェイクアップ実現方法、装置及び端末、コンピュータ記憶媒体
CN106775569A (zh) * 2017-01-12 2017-05-31 环旭电子股份有限公司 装置位置提示***与方法
CN109671426A (zh) * 2018-12-06 2019-04-23 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
US20200227049A1 (en) * 2019-01-11 2020-07-16 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for waking up voice interaction device, and storage medium
CN109920420A (zh) * 2019-03-08 2019-06-21 四川长虹电器股份有限公司 一种基于环境检测的语音唤醒***
CN110500721A (zh) * 2019-08-21 2019-11-26 宁波奥克斯电气股份有限公司 一种空调语音控制方法、装置以及空调器
CN111880856A (zh) * 2020-07-31 2020-11-03 Oppo广东移动通信有限公司 语音唤醒方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593546A (zh) * 2021-06-25 2021-11-02 青岛海尔科技有限公司 终端设备唤醒方法和装置、存储介质及电子装置
CN113593546B (zh) * 2021-06-25 2023-09-15 青岛海尔科技有限公司 终端设备唤醒方法和装置、存储介质及电子装置
CN113641795A (zh) * 2021-08-20 2021-11-12 上海明略人工智能(集团)有限公司 用于话术统计的方法及装置、电子设备、存储介质
CN114283793A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音唤醒方法、装置、电子设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN109378000B (zh) 语音唤醒方法、装置、***、设备、服务器及存储介质
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN108182943B (zh) 一种智能设备控制方法、装置及智能设备
CN108962240B (zh) 一种基于耳机的语音控制方法及***
CN112233676A (zh) 智能设备唤醒方法、装置、电子设备及存储介质
CN111968644B (zh) 智能设备唤醒方法、装置及电子设备
CN110704004B (zh) 一种语音控制的分屏显示方法及电子设备
CN105556595A (zh) 用于调整用于激活话音辅助功能的检测阈值的方法及设备
CN111192590B (zh) 语音唤醒方法、装置、设备及存储介质
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN112201246A (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
CN110634468B (zh) 语音唤醒方法、装置、设备及计算机可读存储介质
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
WO2021218600A1 (zh) 语音唤醒方法和设备
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN108509225B (zh) 一种信息处理方法及电子设备
CN111312222A (zh) 一种唤醒、语音识别模型训练方法及装置
CN110570857B (zh) 语音唤醒方法、装置、电子设备及存储介质
CN112185369B (zh) 一种基于语音控制的音量调节方法、装置、设备和介质
TW202022849A (zh) 語音資料的識別方法、裝置及系統
CN113963695A (zh) 一种智能设备的唤醒方法、装置、设备及存储介质
WO2021212388A1 (zh) 一种交互沟通实现方法、设备和存储介质
CN113160815B (zh) 语音唤醒的智能控制方法、装置、设备及存储介质
CN109686372B (zh) 资源播放控制方法和装置
CN110933345A (zh) 一种降低电视待机功耗的方法、电视机及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination