CN113160815B - 语音唤醒的智能控制方法、装置、设备及存储介质 - Google Patents

语音唤醒的智能控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113160815B
CN113160815B CN202110407187.7A CN202110407187A CN113160815B CN 113160815 B CN113160815 B CN 113160815B CN 202110407187 A CN202110407187 A CN 202110407187A CN 113160815 B CN113160815 B CN 113160815B
Authority
CN
China
Prior art keywords
wake
current
intelligent
voice signal
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110407187.7A
Other languages
English (en)
Other versions
CN113160815A (zh
Inventor
何海亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Oribo Technology Co Ltd
Original Assignee
Shenzhen Oribo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Oribo Technology Co Ltd filed Critical Shenzhen Oribo Technology Co Ltd
Priority to CN202110407187.7A priority Critical patent/CN113160815B/zh
Publication of CN113160815A publication Critical patent/CN113160815A/zh
Application granted granted Critical
Publication of CN113160815B publication Critical patent/CN113160815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Electric Clocks (AREA)

Abstract

本申请公开了一种语音唤醒的智能控制方法、装置、设备及存储介质,通过当智能设备被唤醒时,判断当前唤醒是否为误唤醒,若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值,从而通过提高智能设备在嘈杂环境下的唤醒难度,降低智能设备的误唤醒率,同时,通过对智能设备执行休眠操作,降低智能设备的能耗。

Description

语音唤醒的智能控制方法、装置、设备及存储介质
技术领域
本申请涉及语音处理技术领域,更具体地,涉及一种语音唤醒的智能控制方法、装置、设备及存储介质。
背景技术
语音唤醒是语音识别技术的一种形式,其不直接接触硬件设备,通过语音即可将智能设备唤醒运行,不仅方便用户操作,且采用语音唤醒的机制,智能设备不用实时地处于工作状态,可以节省能耗。
然而,在实际应用中,多种因素都会影响智能设备语音唤醒的准确率,例如,在智能设备处于嘈杂环境时,容易被环境中的干扰语音引起误唤醒,导致智能设备的误唤醒率较高。
发明内容
鉴于上述问题,本发明提出了一种语音唤醒的智能控制方法、装置、设备及存储介质以改善上述问题。
第一方面,本申请实施例提供了一种语音唤醒的智能控制方法,该方法包括:当智能设备被唤醒时,判断当前唤醒是否为误唤醒。其中,当当前唤醒的置信度大于智能设备的置信度阈值时,智能设备被唤醒。若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
第二方面,本申请实施例还提供了一种语音唤醒的智能控制装置,该装置包括:误唤醒确认模块以及置信度阈值调整模块。其中,误唤醒确认模块用于当智能设备被唤醒时,判断当前唤醒是否为误唤醒。其中,当当前唤醒的置信度大于智能设备的置信度阈值时,智能设备被唤醒。置信度阈值调整模块用于若当前唤醒为误唤醒时,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
第三方面,本申请实施例还提供了一种电子设备,包括一个或多个处理器、存储器以及一个或多个应用程序。其中,一个或多个程序被存储在存储器中并被配置为由上述一个或多个处理器执行。一个或多个程序配置执行以实现如上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码。程序代码可被处理器调用执行如上述第一方面所述的方法。
本发明提供的技术方案,通过当智能设备被唤醒时,判断当前唤醒是否为误唤醒,若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值,从而通过提高智能设备在嘈杂环境下的唤醒难度,降低智能设备的误唤醒率,同时,通过对智能设备执行休眠操作,降低智能设备的能耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本发明保护的范围。
图1示出了本申请一实施例提出的一种语音唤醒的智能控制方法的流程示意图;
图2示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图;
图3示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图;
图4示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图;
图5示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图;
图6示出了本申请一实施例提出的一种语音唤醒的智能控制装置的结构框图;
图7示出了本申请一实施例提出的一种电子设备的结构框图;
图8示出了本申请一实施例提出的一种计算机可读存储介质的结构框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
语音唤醒技术具有广泛的应用领域,可以应用于例如机器人、手机、可穿戴设备、智能家居、车载等智能设备,通过语音唤醒技术作为人和智能设备互动的一个开始或入口,为智能化生活带来了无限的可能。
通常,智能设备获取语音信号,分析语音信号的置信度,若语音信号的置信度大于预设的置信度阈值,则执行对智能设备的唤醒操作。然而,在实际应用中,在智能设备处于多人交谈等嘈杂环境下嘈杂环境时,容易被环境中的干扰语音引起误唤醒,导致智能设备的误唤醒率较高。
为了改善上述问题,本申请的发明人提出了本申请提供的语音唤醒的智能控制方法、装置、设备及存储介质,通过当智能设备被唤醒时,判断当前唤醒是否为误唤醒,若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值,从而通过提高智能设备在嘈杂环境下的唤醒难度,降低智能设备的误唤醒率,同时,通过对智能设备执行休眠操作,降低智能设备的能耗。
下面将结合附图具体描述本申请的各实施例。
请参阅图1,本申请一实施例提供了一种语音唤醒的智能控制方法,可应用于具有语音唤醒功能的电子设备,本实施例描述的是电子设备侧的步骤流程,该方法可以包括步骤S110至步骤S120。
步骤S110、当智能设备被唤醒时,判断当前唤醒是否为误唤醒。其中,当当前唤醒的置信度大于所述智能设备的置信度阈值时,智能设备被唤醒。
作为一种实施方式,智能设备可以有多种工作模式,例如休眠模式、唤醒模式、关机模式等。可以理解的是,在智能设备未被唤醒时,智能设备可处于休眠模式。在休眠模式下,智能设备可以监听周围的语音信号。
在一些实施方式中,智能设备通过自带的拾音设备(如麦克风)从周围环境中拾取语音信号。
在另一些实施方式中,智能设备也可以从其他设备处获取到语音信号。例如,作为一种方式,可以是外设的拾音设备拾取到语音信号后,将该语音信号发送至智能设备,从而智能设备获取到语音信号。
当智能设备接收到语音信号时,可确定语音信号的置信度,即当前唤醒的置信度。若接收到的语音信号的置信度大于智能设备的置信度阈值时,可以基于语音信号执行对智能设备的唤醒操作,以唤醒智能设备,即智能设备从休眠模式转换为唤醒模式。其中,该置信度阈值可能是智能设备的初始置信度阈值,也可能是对智能设备的初始置信度阈值的数值进行调整后的置信度阈值,即,智能设备在当前时刻的置信度阈值。在实际应用中,可以根据用户需求及实际应用环境确定智能设备的初始置信度阈值。
作为一种实施方式,置信度可以采用唤醒模型(或预先训练的模型)对输入的语音信号进行分析,确定语音信号的置信度。根据选用模型的不同,影响置信度的因素可能不同。其中,影响置信度的因素包括但不限于语音信号的声学特征,例如包含的关键词(是否包括唤醒词)、音量大小(音量是否达到预设值)等。在实际应用中,可以根据应用环境的需要选择置信度的确定方式。
在一些实施方式中,唤醒模型可以是唤醒词检测模型,通过唤醒词检测模型确定语音信号中是否存在预设唤醒词。可选地,唤醒词检测模型可以是经过大量训练语音信号预先训练得到的。通过唤醒词检测模型计算语音信号的初始置信度。在一些实施方式中,语音信号的置信度指唤醒词与预设唤醒词的声学特征的相似度。可选地,唤醒模型可以采用卷积神经网络算法(Convolutional Neural Networks,CNN)、深度神经网络算法(DeepNeural Networks,DNN)、卷积循环神经网络算法(Convolution Recurrent NeuralNetwork,CRNN)构建唤醒模型。可以理解的是,本发明并不限制于此,也可以采用其它唤醒模型获得语音信号的置信度。
可以理解的是,用户唤醒智能设备是为了使智能设备进入唤醒模式,从而可以与智能设备进行交互,使智能设备完成用户发出的相关指令。例如用户通过唤醒智能设备用于播放音乐、控制其他设备的工作状态、查询天气情况等。而噪音引起的智能设备的唤醒,智能设备虽然进入了唤醒模式,但不会再进一步接收到语音指令。
虽然智能设备在接收到置信度大于置信度阈值的语音信号后被唤醒,但是,由于智能设备用于计算置信度的方法都存在一定的误唤醒率。因此,并不是每次引起唤醒的语音信号都是来源于具有交互意图的用户。
在一些情况下,环境中的噪声会引起智能设备的唤醒。环境中的噪声可以是其它设备工作时的噪音,例如,音乐播放设备、电视、洗衣机等。环境中的噪声还可以是无规律的噪音,例如:装修时产生的噪音、马路过往车辆产生的噪音。在另一些情况下,嘈杂的环境下也可能会引起智能设备的唤醒,例如,在多人会谈的环境下,会产生大量的噪音,可能会引起智能设备的唤醒。
在本申请的实施例中,可以通过判断智能设备被唤醒后,是否有接收到进一步的交互语音来判断当前唤醒是否为误唤醒。
步骤S120、若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
在一些嘈杂环境下,环境中会持续一段时间存在大量的噪音。例如在多人交谈的场景下,短时间内环境中会存在大量用户交谈的噪音,这些噪音在短时间内会频繁地引起智能设备的误唤醒。而现有技术中,并未对这种情况采取有效的措施,导致智能设备被噪音频繁误唤醒,严重影响用户的使用体验。
在本申请的实施例中,在识别出当前唤醒为误唤醒时,执行对智能设备的休眠操作。同时,为了使得智能设备在嘈杂环境下不被噪音频繁地误唤醒,可以将智能设备的置信度阈值的数值调高,从而增加智能设备被唤醒的难度,进而降低环境中的噪音引起智能设备的误唤醒的概率。
在一些实施方式中,为了增加智能设备在嘈杂环境下被唤醒的难度,可以将智能设备的置信度阈值的数值调整至第一阈值,且第一阈值大于当前唤醒的置信度。可以理解的是,当前唤醒的置信度大于智能设备原先的置信度阈值的数值,因此,第一阈值也大于智能设备原先的置信度阈值的数值,从而增加了智能设备被唤醒的难度,降低智能设备的误唤醒。
本实施例提供的语音唤醒的智能控制方法,通过当智能设备被唤醒时,判断当前唤醒是否为误唤醒,若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值,从而通过提高智能设备在嘈杂环境下的唤醒难度,降低智能设备的误唤醒率,同时,通过对智能设备执行休眠操作,降低智能设备的能耗。
请参阅图2,本申请另一实施例提供了一种语音唤醒的智能控制方法,可应用于电子设备,本实施例描述的是电子设备侧的步骤流程,该方法可以包括步骤S210至步骤S230。
步骤S210、当智能设备被唤醒时,获取当前环境状态信息。其中,当前环境状态信息包括:音频播放设备的工作状态、当前环境的检测音频中的至少一种。
可以理解的是,噪音会引起智能设备的误唤醒。但在有些场景下,只存在少量的噪音,并不会频繁引起智能设备的误唤醒,对用户的影响较小。而在一些嘈杂场景下,环境中有大量的噪音,会频繁地引起智能设备的误唤醒,对用户的影响较大。
而为了更精确地对影响较大的嘈杂环境下的智能设备的误唤醒情况进行有效抑制,在本申请的实施例中,在智能设备被唤醒时,可以先确定当前环境是否属于需要进行抑制的嘈杂环境。
在一些实施方式中,为了确定当前环境是否属于需要抑制的嘈杂环境,可以先获取当前环境状态信息。
在一些实施方式中,当前环境状态信息包括音频播放设备的工作状态。可以理解的是,音频播放设备播放音频时会产生大量干扰噪音。若智能设备周围环境中的音频播放设备处于音频播放状态,则智能设备周围环境中会存在大量干扰噪音,智能设备被误唤醒的概率较大。
可选地,智能设备与音频播放设备可以通过网络进行通信连接。在一些方式中,智能设备可以通过发送查询指令至音频播放设备以获取音频播放设备的工作状态。在一些方式中,音频播放设备也可以定期将工作状态发送至智能设备,以使智能设备获取音频播放设备的工作状态。
可选地,上述的网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(WideArea Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
在一些实施方式中,当前环境状态信息包括当前环境的检测音频。可以理解的是,智能设备可以定时采集当前环境的检测音频,通过对检测音频进行进一步分析,确定当前所处环境的状态。
可以理解的是,本申请并不限制与此,其它可以用于确定当前环境状态的方法也可以应用于本申请的实施方式中。
步骤S220、若当前环境状态信息符合预设条件,判断当前唤醒是否为误唤醒。
在本申请的实施方式中,预设条件是指当前环境符合嘈杂环境的条件。可以理解的是,当采用的当前环境状态信息不同时,预设条件需对应当前环境状态信息进行设置,下面将具体阐述。
在一些实施方式中,当当前环境状态信息为音频设备的工作状态时,预设条件为音频设备的工作状态为音频播放状态。可以理解的是,当音频设备在音频播放状态时会产生大量的噪音,例如音乐播放器播放音乐、电视在播放节目等。
在一些实施方式中,当当前环境状态信息为检测音频时,可以通过对检测音频进行进一步分析,确定当前环境状态信息是否符合预设条件。
可选地,检测音频可以是多个采样时间采样的音频。通过分别检测每个音频的参数,例如:音量、信噪比等。作为一种方式,若多个采用音频中预设比例的音频的参数大于预设值,则检测音频符合预设条件。例如:若采集4个采样音频,分别为第一音频、第二音频、第三音频和第四音频,若第一音频的音量为60、第二音频的音量为70、第三音频的音量为70以及第四音频的音频为80,若假定超过60%的音频音量超过65%,则当前环境状态信息符合预设条件。可以得出,在四个采样音频中有75%的音频音量超过65,即当前环境状态信息符合预设条件。可以理解的是,本申请并不限制于此,采样音频的数量、更新时间、音频的参数、预设条件等可以根据实际应用环境的需要进行设置,本申请对此不作限制。
可选地,可以通过检测音频确定当前环境是否存在固定方向的声源,若是,则检测音频符合预设条件。在一些实施方式中,可以获取多个检测音频中声音的方位,通过统计确认是否存在固定方向的声源。例如:若采集4个采样音频,分别为第五音频、第六音频、第七音频和第八音频,若第五音频的声源方位在第一角度范围,第六音频的声源方向在第一角度范围、第七音频的声源方位在第一角度范围,第八音频的声源方位在第一角度范围。若假定超过70%的音频的声源方向在相同的角度范围,则当前环境状态信息符合预设条件。可以得出,在四个采样音频中有100%的音频的声源方位在第一角度范围,当前环境中存在一固定方位的干扰声源,即当前环境状态信息符合预设条件。可以理解的是,本申请并不限制于此,采样音频的数量、更新时间、预设条件等可以根据实际应用环境的需要进行设置,在判断是否存在干扰声源时,也可以结合声源的音量进行判断,即除了有固定方位的声源,声源的音量要超过预设比例才满足预设条件,本申请对此不作限制。
在一些实施方式中,还可以将获取的检测音频输入环境状态分析模型,通过环境状态分析模块确定检测音频是否符合预设条件。
可选地,环境状态分析模型可以是通过神经网络模型并通过大量的训练数据预设进行训练获得。在一些实施方式中,训练数据可以是大量多人交谈的嘈杂音频,从而环境状态分析模块可以分析获取的检测音频是否属于多人嘈杂环境下的检测音频,若是,则检测音频符合预设条件。
在本申请的实施例中,当前环境状态信息符合预设条件时,判断当前环境为嘈杂环境,智能设备被频繁误唤醒的概率较高,因此再进一步判断当前唤醒是否为误唤醒,从而针对性地对嘈杂环境进行误唤醒抑制。
步骤S230、若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
其中,步骤S230的具体描述请参阅步骤S120,在此不再进行赘述。
本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进,主要改进之处在于:当智能设备被唤醒时,先获取当前环境状态信息,针对符合预设条件的当前环境,再判断当前唤醒是否为误唤醒,从而通过精确提高智能设备在嘈杂环境下的唤醒难度,有效抑制智能设备的误唤醒率。
请参阅图3,本申请另一实施例提供了一种语音唤醒的智能控制方法,可应用于电子设备,本实施例描述的是电子设备侧的步骤流程,该方法可以包括步骤S310至步骤S320。
步骤S310、当智能设备被唤醒时,若预设检测时间内未接收到用户的语音信号,则确定当前唤醒为误唤醒。
可以理解的是,用户正常唤醒智能设备后,会进一步下发语音指令以控制智能设备完成对应的指令。而如果是噪音引起的智能设备被唤醒,则智能设备不一定会接收到进一步的语音指令。
在本申请的实施例中,当智能设备被唤醒时,为了进一步判断当前唤醒是否为误唤醒,可以通过确认智能设备是否进一步接收到用户的语音信号。
在本申请的实施例中,可以在智能设备被唤醒时的预设检测时间内,若未接收到用户的语音信号,则确定智能设备被唤醒后,没有获得进一步交互的指令,可以判定当前唤醒为噪音引起的误唤醒。其中,预设检测时间可以根据实际应用场景进行调整。
步骤S320、若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
其中,步骤S320的具体描述请参阅步骤S120,在此不再进行赘述。
本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进,主要改进之处在于:当智能设备被唤醒时,通过预设检测时间内是否接受到用户的语音信号确定当前唤醒是否为误唤醒,通过提高智能设备在嘈杂环境下的唤醒难度,降低智能设备的误唤醒率。
请参阅图4,本申请另一实施例提供了一种语音唤醒的智能控制方法,可应用于电子设备,本实施例描述的是电子设备侧的步骤流程,该方法可以包括步骤S410至步骤S430。
可以理解的是,如果是噪音引起的智能设备被唤醒,除了上述实施例步骤S310提及的,智能设备不会接受到进一步的用户语音指令。在其他一些实施方式中,噪音引起的智能设备被唤醒后,智能设备可能会进一步接收到语音信号,但是接受到的语音信号与交互无关时,也可以认定当前唤醒为误唤醒。下面将进行具体阐述。
步骤S410、当智能设备被唤醒时,若预设检测时间内接收到用户的语音信号,则对所述语音信号进行意图识别。
步骤S420、根据意图识别结果判断当前唤醒是否为误唤醒。
在本申请的实施例中,当智能设备被唤醒时,若预设检测时间内接收到用户的语音信号,为了确定当前唤醒是否为误唤醒,可以对接收到的语音信号进行意图识别。
意图识别即判断用户的意图,即用户想要做什么。知道用户想做什么才可以对应执行用户的指令。在一些实施方式中,智能设备在接收到语音指令后,可以对语音信号进行识别并进行意图识别,以获取该语音信号对应的用户的意图。其中,该语音信号对应的用户的意图是用于反应用户所期望智能设备进行的操作,例如,意图可以包括“打开电视”、“播放音乐”、“查询天气”等,在此不做限定。例如,当语音信号为“播放晴天”时,可以确定该语音信号对应的意图为“播放音乐”。当语音信号为“今天天气”时,可以确定该语音信号对应的意图为“音乐播放”等,在此不做限定。
在一些实施方式中,可以将语音信号输入至意图分类模型进行意图分类,获取语音信号对应的意图。可以是提取语音信号中的实体输入至意图分类模型进行意图分类,获取语音信号对应的意图。也可以是提取语音信号中的实体,基于知识图谱获取实体的实体内容,将实体内容输入至意图分类模型进行意图分类,获取语音信号对应的意图等。其中,意图分类模型可以由SVM(Support Vector Machine,支持向量机)模型、神经网络模型或者随机森林模型等分类模型训练获得,通过机器学习实现用户意图识别,有效提高用户意图识别的准确度。
在本申请的实施例中,若识别出用户的语音信号包含的意图为目标意图时,智能设备可以执行对应的操作。目标意图是指智能设备可以进行处理的意图类型。当语音信号包含目标意图,即用户发出具有明确意图的语音信号时,说明用户存在与智能设备进行交互的意图,即当前唤醒为用户为了与智能设备进行交互而主动触发的唤醒。当语音信号不包含目标意图,说明当前唤醒不是用户主动触发的环境,而是环境中的噪音引起的误唤醒。
在一些实施方式中,智能设备的目标意图不包含闲聊意图。即用户的语音信号包含的意图需为具有明确控制要求且智能设备可以支持的意图。例如,播放音乐、查询天气、打开空调等。
在一些实施方式中,智能设备的目标意图也可以包含闲聊意图。如果无法识别出语音信号包含的意图,例如用户的语音信号为“吃饭了”、“哈哈哈”、“太重了”等。此时,智能设备可以开启闲聊模式,与用户进行闲聊。
可选地,若智能设备开启闲聊模式后,在预设时间内未接收到用户的反馈语音,则用户没有与智能设备进行闲聊的意图,则可以确认用户的语音信号不包含目标意图。
可选地,若智能设备开启闲聊模式后,在预设时间内接收到用户的反馈语音,则可以将语音信号包含的意图归类至闲聊意图。例如,接收到用户的语音“太重了”,智能设备开启闲聊模式“你是拿了什么东西呀”,用户的反馈语音为“我拿了好多吃的”。
进一步地,为了降低噪音对闲聊意图识别的干扰,在智能设备接收到反馈语音后,可以进一步判断反馈语音与智能设备的闲聊内容的相关程度,若相关程度大于预设值,则判断用户的语音信号包含目标意图。可选地,闲聊内容的相关程度的计算可以将反馈语音和智能设备的闲聊内容输入预先训练好的神经网络模型进行计算,预设值可以根据实际应用需要进行设置,本申请对此不作限制。
在一些实施方式中,若在预设检测时间内仅接收到一个语音信号,且该语音信号的意图识别结果为未识别到目标意图,则到预设检测时间后确定当前唤醒为误唤醒。可以理解的是,若接收到的语音信号的意图识别结果为识别到目标意图,则确定当前唤醒不是误唤醒,则根据语音信号包含的意图执行对应的操作。
在一些实施方式中,若在预设检测时间内接收到多个语音信号,且多个语音信号的意图识别结果均为未识别到目标意图,则确定当前唤醒为误唤醒。
在一些嘈杂环境下,智能设备被唤醒后会收到大量的噪音,为了进一步降低噪音对智能设备的影响,可以设置智能设备在接收到预设数量的不包含目标意图的语音信号后,即判定当前唤醒为误唤醒。例如,假设预设检测时间为10秒,预设数量为3个,若智能设备在第1秒接收到第一语音,第一语音的意图识别结果为未识别到目标意图;第3秒接收到第二语音,第二语音的意图识别结果为未识别到目标意图;第5秒接收到第三语音,第三语音的意图识别结果为未识别到目标意图,则在第5秒时即可判断当前唤醒为误唤醒。
步骤S430、若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
其中,步骤S430的具体描述请参阅步骤S120,在此不再赘述。
本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进,主要改进之处在于:当智能设备被唤醒时,若预设检测时间内接收到用户的语音信号,通过对语音信号进行意图识别,根据意图识别结果判断当前唤醒是否为误唤醒,通过提高智能设备在嘈杂环境下的唤醒难度,降低智能设备的误唤醒率。
请参阅图5,本申请另一实施例提供了一种语音唤醒的智能控制方法,可应用于电子设备,本实施例描述的是电子设备侧的步骤流程,该方法可以包括步骤S510至步骤S550。
步骤S510、当智能设备被唤醒时,判断当前唤醒是否为误唤醒。其中,当当前唤醒的置信度大于所述智能设备的置信度阈值时,智能设备被唤醒。
步骤S520、若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
其中,步骤S510至步骤S520的具体描述请参阅步骤S110至步骤S120,在此不再进行赘述。
步骤S530、若预设恢复时间内,接收到用户的语音信号,确定语音信号的置信度。
在执行步骤S520之后,智能设备处于休眠模式,智能设备的置信度阈值的数值调高,即智能设备的唤醒难度增加,从而可以有效隔绝一部分噪音对智能设备的误唤醒。可选地,预设恢复时间可以从执行对智能设备的休眠操作时开始计算。可选地,预设恢复时间还可以从调整智能设备的置信度阈值时开始计算。其中,预设恢复时间的长短可以根据实际应用场景进行调整。
在预设恢复时间内,若接收到用户的语音信号,则确定语音信号的置信度,以确定接收到的语音信号是否能唤醒智能设备,语音信号的置信度的计算可以参照前述实施例的描述,在此不再赘述。
步骤S540、若语音信号的置信度大于当前的置信度阈值,则基于语音信号执行对智能设备的唤醒操作。
可以理解的是,智能设备的置信度阈值的数值调高后,智能设备的唤醒难度增加,若此时接收到的语音信号的置信度大于当前的置信度阈值,则该语音信号为用户的正常唤醒,即用户存在控制智能设备的需求,则基于语音信号执行对智能设备的唤醒操作。
在一些实施方式中,若语音信号的置信度小于当前的置信度阈值,则该语音信号为噪音,智能设备仍为休眠模式,继续监听是否有其他语音信号输入。
步骤S550、将智能设备的置信度阈值的数值从第一阈值调整至第二阈值,其中第二阈值小于第一阈值。
在一些实施方式中,当智能设备在预设恢复时间内被唤醒时,将智能设备的置信度阈值的数值从第一阈值调整至第二阈值。其中第二阈值小于第一阈值,即在智能设备在预设恢复时间内被唤醒后,降低智能设备被唤醒的难度。优选地,第一阈值为智能设备正常工作状态下置信度阈值的默认值。
在一些实施方式中,当智能设备在预设恢复时间内被唤醒时,可以进一步判断唤醒是否为误唤醒。根据唤醒结果对智能设备的置信度阈值的数值进行调整。
可选地,当智能设备在预设恢复时间内被误唤醒时,可以将智能设备的置信度阈值的数值调高,例如将智能设备的置信度阈值的数值调整为第三阈值,其中第三阈值大于第一阈值。从而继续增加智能设备被唤醒的难度,降低智能设备的误唤醒率。
可以理解的是,智能设备的置信度阈值的数值调高后,智能设备的唤醒难度增加,可以阻挡部分噪音对智能设备的误唤醒,但同时也增加了用户唤醒智能设备的难度。但通常智能设备处于嘈杂环境的时间较短,例如,多人交谈场景多出现于早晨或者傍晚。而若一直让智能设备处于高唤醒难度的状态,也会影响用户的正常使用。因此,为了更贴近实际使用的需求,作为一种实施方式,若预设恢复时间内,智能设备未被唤醒,即,预设恢复时间内,未接收到用户的语音信号,则在预设恢复时间后,将智能设备的置信度阈值的数值进行调整,以使智能设备的置信度阈值的数值降低,从而降低智能设备被唤醒的难度。优选地,可以将智能设备的置信度阈值从第一阈值调整至第二阈值,或者,调整至初始置信度。
本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进,主要改进之处在于:在提高智能设备在嘈杂环境下的唤醒难度后,若预设恢复时间内,接受到用户的语音信号,且语音信号的置信度大于当前的置信度阈值,则将智能设备的置信度阈值的数值从第一阈值调整至第二阈值,从而在用户需要用到智能设备时,快速识别和恢复智能设备的置信度阈值,提高用户的使用体验。
请参阅图6,其示出了本发明一个实施例提供的语音唤醒的智能控制装置,该语音唤醒的智能控制装置600包括:误唤醒确认模块610和置信度阈值调整模块620。
具体地,误唤醒确认模块610用于当智能设备被唤醒时,判断当前唤醒是否为误唤醒。其中,当当前唤醒的置信度大于所述智能设备的置信度阈值时,智能设备被唤醒。
置信度阈值调整模块620用于若为误唤醒,则执行对智能设备的休眠操作,并将智能设备的置信度阈值的数值调整至第一阈值。其中,第一阈值大于当前唤醒的置信度。
进一步地,该语音唤醒的智能控制装置还包括当前环境状态信息获取模块和误唤醒判断模块。
其中,当前环境状态信息获取模块用于当智能设备被唤醒时,获取当前环境状态信息。其中,当前环境状态信息包括:音频播放设备的工作状态、当前环境的检测音频中的至少一种。
误唤醒判断模块用于若当前环境状态信息符合预设条件,判断当前唤醒为误唤醒。
进一步地,该语音唤醒的智能控制装置还包括第一语音信号确定模块,第二语音信号确定模块,误唤醒识别模块。
其中,第一语音信号确定模块用于当智能设备被唤醒时,若预设检测时间内未接收到用户的语音信号,则确定当前唤醒为误唤醒。
第二语音信号确定模块用于当智能设备被唤醒时,若预设检测时间内接收到用户的语音信号,则对所述语音信号进行意图识别。
误唤醒识别模块用于根据意图识别结果判断当前唤醒是否为误唤醒。
进一步地,该语义唤醒的智能控制装置还包括:语音确认模块、置信度确定模块以及置信度阈值恢复模块。
其中,语音确认模块用于若预设恢复时间内,接收到用户的语音信号,确定语音信号的置信度。
置信度确定模块用于若语音信号的置信度大于当前的置信度阈值,则基于语音信号执行对智能设备的唤醒操作。
置信度阈值恢复模块用于将智能设备的置信度阈值的数值从第一阈值调整至第二阈值,其中第二阈值小于所述第一阈值。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。对于方法实施例中的所描述的任意的处理方式,在装置实施例中均可以通过相应的处理模块实现,装置实施例中不再一一赘述。
请参阅图7,基于上述的语音唤醒的智能控制方法,本申请实施例还提供的另一种包括可以执行前述语音唤醒的智能控制方法的处理器的电子设备700,电子设备700还包括一个或多个处理器710、存储器720以一个或多个应用程序。其中,该存储器720中存储有可以执行前述实施例中内容的程序,而处理器710可以执行该存储器720中存储的程序。其中,电子设备700可以是智能控制面板、智能手机、智能穿戴设备、智能语音导航设备、智能机器人、平板电脑、个人计算机等。
其中,处理器710可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器710利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器720内的指令、程序、代码集或指令集,以及调用存储在存储器720内的数据,执行电子设备700的各种功能和处理数据。可选地,处理器710可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块通信芯片进行实现。
存储器720可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如接收语音等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如当前环境状态信息、置信度阈值、语音信号)等。
请参考图8,其示出了本申请实施例提供的一种计算机可读存储介质800的结构框图。该计算机可读存储介质800中存储有程序代码810,所述程序代码810可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码810可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种语音唤醒的智能控制方法,其特征在于,所述方法包括:
当智能设备被唤醒时,判断当前唤醒是否为误唤醒,其中,当所述当前唤醒的置信度大于所述智能设备的置信度阈值时,所述智能设备被唤醒;当前唤醒的置信度为当所述智能设备接收到语音信号时,所述接收到语音信号所对应的置信度;
若所述当前唤醒为误唤醒,则执行对所述智能设备的休眠操作,并将所述智能设备的置信度阈值的数据调整至第一阈值,其中,第一阈值大于当前唤醒的置信度;
若在确定所述当前唤醒为误唤醒之后的预设恢复时间内接收到用户的又一语音信号且所述又一语音信号的置信度大于当前的置信度阈值,基于所述又一语音信号执行对所述智能设备的唤醒操作,并将所述智能设备的当前的置信度阈值从所述第一阈值调整至第二阈值,其中所述第二阈值小于所述第一阈值;
若在确定所述当前唤醒为误唤醒之后的预设恢复时间内,未接收到用户的又一语音信号,则将所述智能设备的当前的置信度阈值的数值恢复至初始值。
2.根据权利要求1所述的方法,其特征在于,所述当智能设备被唤醒时,判断当前唤醒是否为误唤醒,包括:
当智能设备被唤醒时,获取当前环境状态信息;其中,所述当前环境状态信息包括:音频播放设备的工作状态、当前环境的检测音频中的至少一种;
若所述当前环境状态信息符合预设条件,判断当前唤醒是否为误唤醒。
3.根据权利要求1所述的方法,其特征在于,所述当智能设备被唤醒时,判断当前唤醒是否为误唤醒,包括:
当所述智能设备被唤醒时,若预设检测时间内未接收到用户的语音信号,则确定当前唤醒为误唤醒。
4.根据权利要求1所述的方法,其特征在于,所述当智能设备被唤醒时,判断当前唤醒是否为误唤醒,包括:
当智能设备被唤醒时,若预设检测时间内接收到用户的语音信号,则对所述语音信号进行意图识别;
根据意图识别结果判断当前唤醒是否为误唤醒。
5.根据权利要求4所述的方法,其特征在于,所述根据意图识别结果判断当前唤醒是否为误唤醒,包括:
若在预设检测时间内仅接收到一个语音信号或者在预设检测时间内接收到多个语音信号,且所述一个或多个语音信号的意图识别结果为未识别到目标意图,则确定当前唤醒为误唤醒。
6.一种语音唤醒的智能控制装置,其特征在于,包括:
误唤醒确认模块,用于当智能设备被唤醒时,判断当前唤醒是否为误唤醒;其中,当所述当前唤醒的置信度大于所述智能设备的置信度阈值时,所述智能设备被唤醒;当前唤醒的置信度为当智能设备接收到语音信号时,所述接收到语音信号所对应的置信度;
置信度阈值调整模块,用于若所述当前唤醒为误唤醒,则执行对所述智能设备的休眠操作,并将所述智能设备的置信度阈值的数值调整至第一阈值,其中,所述第一阈值大于所述当前唤醒的置信度;
所述置信度阈值调整模块,还用于若在确定所述当前唤醒为误唤醒之后的预设恢复时间内接收到用户的又一语音信号且所述又一语音信号的置信度大于当前的置信度阈值,基于所述又一语音信号执行对所述智能设备的唤醒操作,并将所述智能设备的当前的置信度阈值从所述第一阈值调整至第二阈值,其中所述第二阈值小于所述第一阈值;若在确定所述当前唤醒为误唤醒之后的预设恢复时间内,未接收到用户的又一语音信号,则将所述智能设备的当前的置信度阈值的数值恢复至初始值。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-5任一项所述的方法。
CN202110407187.7A 2021-04-15 2021-04-15 语音唤醒的智能控制方法、装置、设备及存储介质 Active CN113160815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110407187.7A CN113160815B (zh) 2021-04-15 2021-04-15 语音唤醒的智能控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110407187.7A CN113160815B (zh) 2021-04-15 2021-04-15 语音唤醒的智能控制方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113160815A CN113160815A (zh) 2021-07-23
CN113160815B true CN113160815B (zh) 2023-08-29

Family

ID=76867940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110407187.7A Active CN113160815B (zh) 2021-04-15 2021-04-15 语音唤醒的智能控制方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113160815B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171699A (zh) * 2022-05-31 2022-10-11 青岛海尔科技有限公司 唤醒参数的调整方法和装置、存储介质及电子装置
CN116259314A (zh) * 2022-09-09 2023-06-13 青岛海尔空调器有限总公司 用于控制语音控制设备的方法及装置、控制语音控制设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721671A (zh) * 2016-01-18 2016-06-29 广东小天才科技有限公司 一种误唤醒的便携式终端休眠方法及便携式终端
CN109256134A (zh) * 2018-11-22 2019-01-22 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN109672775A (zh) * 2017-10-16 2019-04-23 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
CN111816178A (zh) * 2020-07-07 2020-10-23 云知声智能科技股份有限公司 语音设备的控制方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2398288A3 (en) * 2010-06-16 2012-07-11 Essence Security International Ltd. Adaptive thresholding in a wake-on-radio system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721671A (zh) * 2016-01-18 2016-06-29 广东小天才科技有限公司 一种误唤醒的便携式终端休眠方法及便携式终端
CN109672775A (zh) * 2017-10-16 2019-04-23 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN109256134A (zh) * 2018-11-22 2019-01-22 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
CN111816178A (zh) * 2020-07-07 2020-10-23 云知声智能科技股份有限公司 语音设备的控制方法、装置和设备

Also Published As

Publication number Publication date
CN113160815A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
EP3910627B1 (en) Keyword detection method and related device
WO2020083110A1 (zh) 一种语音识别、及语音识别模型训练方法及装置
CN108735209B (zh) 唤醒词绑定方法、智能设备及存储介质
CN108711430B (zh) 语音识别方法、智能设备及存储介质
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN113160815B (zh) 语音唤醒的智能控制方法、装置、设备及存储介质
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN105556595A (zh) 用于调整用于激活话音辅助功能的检测阈值的方法及设备
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110349579B (zh) 语音唤醒处理方法及装置、电子设备及存储介质
CN112562742B (zh) 语音处理方法和装置
CN110910887B (zh) 语音唤醒方法和装置
CN111312222A (zh) 一种唤醒、语音识别模型训练方法及装置
CN112700782A (zh) 语音处理方法和电子设备
CN111968644A (zh) 智能设备唤醒方法、装置及电子设备
CN112233676A (zh) 智能设备唤醒方法、装置、电子设备及存储介质
CN113066488B (zh) 语音唤醒智能控制方法、装置、电子设备及存储介质
CN113963695A (zh) 一种智能设备的唤醒方法、装置、设备及存储介质
CN112634911B (zh) 人机对话方法、电子设备及计算机可读存储介质
CN113393838A (zh) 语音处理方法、装置、计算机可读存储介质及计算机设备
CN111526244A (zh) 一种闹钟处理方法以及电子设备
CN112669837B (zh) 智能终端的唤醒方法、装置及电子设备
CN112009395A (zh) 一种交互控制方法、车载终端及车辆
CN113808584A (zh) 语音唤醒方法、装置、电子设备及存储介质
CN112269322A (zh) 智能设备的唤醒方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant