CN110046045A - 语音唤醒的数据包处理方法和装置 - Google Patents

语音唤醒的数据包处理方法和装置 Download PDF

Info

Publication number
CN110046045A
CN110046045A CN201910268017.8A CN201910268017A CN110046045A CN 110046045 A CN110046045 A CN 110046045A CN 201910268017 A CN201910268017 A CN 201910268017A CN 110046045 A CN110046045 A CN 110046045A
Authority
CN
China
Prior art keywords
real
time
wake
processing
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910268017.8A
Other languages
English (en)
Other versions
CN110046045B (zh
Inventor
贺学焱
陈建哲
王兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910268017.8A priority Critical patent/CN110046045B/zh
Publication of CN110046045A publication Critical patent/CN110046045A/zh
Application granted granted Critical
Publication of CN110046045B publication Critical patent/CN110046045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提出一种语音唤醒的数据包处理方法和装置,其中,方法包括:通过获取当前语音数据包的音频时间长度和预计处理时间;根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率;检测唤醒实时率是否满足预设的数据包处理条件;若唤醒实时率满足预设的数据包处理条件,则将当前累加值增加唤醒实时率后作为新的当前累加值;判断新的当前累加值是否大于等于预设处理阈值;若新的当前累加值大于等于预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。由此,通过唤醒引擎根据唤醒实时率检测的机制,主动删除语音数据包,增加了CPU的利用率,预防了唤醒卡顿现象,提升了用户体验。

Description

语音唤醒的数据包处理方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种语音唤醒的数据包处理方法和装置。
背景技术
通常,在某些车载场景中,由于硬件限制,处理器的资源是及其有限的,由于语音唤醒功能长期在后台运行,所以无法避免与其他***程序同时争夺CPU(CentralProcessing Unit,中央处理器)资源的场景,比如在车载场景中,用户正在听音乐,并且打开地图导航到某个目的地,同时用户希望使用语音交互的功能,如果在硬件处理器有限的平台上运行耗费CPU资源的其他功能时,唤醒引擎无法申请到处理器资源,于是只能等待处理器资源空闲后分配,用户在说出唤醒词后,由于引擎并没有开始处理,所以***不会对用户进行反馈,此时用户往往会以为上次唤醒失败,会尝试再次或多次说出唤醒词,当等到CPU资源空闲时,唤醒引擎才会开始处理积累的语音数据,此时由于之前的数据积累会产生多个语音唤醒结果,所以语音交互***会在CPU空闲后给出多次反馈,产生了语音唤醒卡顿的问题。
申请内容
本申请旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语音唤醒的数据包处理方法,解决了现有技术中语音唤醒的数据包处理的方式会引起唤醒卡顿的的技术问题,通过唤醒引擎根据唤醒实时率检测的机制,主动删除语音数据包,增加了CPU的利用率,预防了唤醒卡顿现象,提升了用户体验。
本申请的第二个目的在于提出一种语音唤醒的数据包处理装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种语音唤醒的数据包处理方法,包括:获取当前语音数据包的音频时间长度和预计处理时间;根据所述音频时间长度和所述预计处理时间生成唤醒引擎的唤醒实时率;检测所述唤醒实时率是否满足预设的数据包处理条件;若所述唤醒实时率满足预设的数据包处理条件,则将当前累加值增加所述唤醒实时率后作为新的当前累加值;判断所述新的当前累加值是否大于等于预设处理阈值;若所述新的当前累加值大于等于所述预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
另外,本申请实施例的语音唤醒的数据包处理方法,还具有如下附加的技术特征:
可选地,所述检测所述唤醒实时率是否满足预设的数据包处理条件,包括:设置预设阈值;判断所述唤醒实时率是否大于所述预设阈值。
可选地,在所述检测所述唤醒实时率是否满足预设的数据包处理条件之后,还包括:若所述唤醒实时率不满足预设的数据包处理条件,则对接收到的语音数据包进行识别处理,并将当前累加值清零。
可选地,所述根据所述音频时间长度和所述预计处理时间生成唤醒引擎的唤醒实时率,包括:计算所述预计处理时间与所述音频时间长度的比值;根据所述预计处理时间与所述音频时间长度的比值生成所述唤醒实时率。
可选地,所述将当前***中的语音数据包从当前***中进行删除,包括:将所述当前***中的全部语音数据包从当前***中进行删除;或将全部语音数据包进行接收时间进行排序,将排序前的N个语音数据包进行删除。
为达上述目的,本申请第二方面实施例提出了一种语音唤醒的数据包处理装置,包括:获取模块,用于获取当前语音数据包的音频时间长度和预计处理时间;生成模块,用于根据所述音频时间长度和所述预计处理时间生成唤醒引擎的唤醒实时率;检测模块,用于检测所述唤醒实时率是否满足预设的数据包处理条件;统计模块,用于若所述唤醒实时率满足预设的数据包处理条件,则将当前累加值增加所述唤醒实时率后作为新的当前累加值;判断模块,用于判断所述新的当前累加值是否大于等于预设处理阈值;处理模块,用于若所述新的当前累加值大于等于预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
另外,本申请实施例的语音唤醒的数据包处理装置,还具有如下附加的技术特征:
可选地,所述检测模块,具体用于:设置预设阈值;判断所述唤醒实时率是否大于所述预设阈值。
可选地,所述的装置,还包括:识别模块,用于若所述唤醒实时率不满足预设的数据包处理条件,则对接收到的语音数据包进行识别处理,并将当前累加值清零。
可选地,所述生成模块,具体用于:计算所述预计处理时间与所述音频时间长度的比值;根据所述预计处理时间与所述音频时间长度的比值生成所述唤醒实时率。
可选地,所述处理模块,具体用于:将所述当前***中的全部语音数据包从当前***中进行删除;或将全部语音数据包进行接收时间进行排序,将排序前的N个语音数据包进行删除。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的语音唤醒的数据包处理方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的语音唤醒的数据包处理方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的语音唤醒的数据包处理方法。
本申请实施例提供的技术方案可以包含如下的有益效果:
通过获取当前语音数据包的音频时间长度和预计处理时间,并根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率,以及检测唤醒实时率是否满足预设的数据包处理条件,在唤醒实时率满足预设的数据包处理条件时将当前累加值增加唤醒实时率后作为新的当前累加值,并判断新的当前累加值是否大于等于预设处理阈值,在新的当前累加值大于等于预设处理阈值时将当前***中的语音数据包从当前***中进行删除。由此,通过唤醒引擎根据唤醒实时率检测的机制,主动删除语音数据包,增加了CPU的利用率,预防了唤醒卡顿现象,提升了用户体验。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请现有技术中的语音唤醒的数据包处理方法的流程图;
图2是根据本申请一个实施例的语音唤醒的数据包处理方法的流程图;
图3是根据本申请一个具体实施例的语音唤醒的数据包处理的示例图;
图4是根据本申请一个实施例的语音唤醒的数据包处理装置的结构示意图;
图5是根据本申请另一个实施例的语音唤醒的数据包处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音唤醒的数据包处理方法和装置。
针对背景技术中提到的,现有技术中在多个耗费CPU的应用程序使用CPU资源时,在同一个平台上处理器资源的总占用可能高达90%,唤醒引擎对语音数据包的处理需要CPU分配10%以上的资源,此时只能等待CPU空闲后再分配资源进行计算,往往用户在第一次唤醒失败时,会尝试再次唤醒,所以在CPU空闲后会出现了唤醒结果响应多次的技术问题。
如图1所示,用户说出“小度小度”,此时***处于高负荷状态,唤醒引擎等待CPU分配资源,也就是说唤醒引擎无法对用户说出“小度小度”进行处理,在***没有反馈的情况下,用户再次说出“小度小度”,CPU开始分配资源给唤醒引擎,唤醒引擎开始处理,从而识别到两次唤醒结果进行输出“我在呢”、“我在呢”。
针对上述问题,本申请提出了一种语音唤醒的数据包处理的方法,通过计算唤醒实时率,并检测唤醒实时率是否满足预设的数据包处理条件,若唤醒实时率满足预设的数据包处理条件,则将当前累加值增加唤醒实时率后作为新的当前累加值,判断新的当前累加值大于等于预设处理阈值,若新的当前累加值大于等于预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
具体而言,图2是根据本申请一个实施例的语音唤醒的数据包处理方法的流程图,如图2所示,该方法包括:
步骤101,获取当前语音数据包的音频时间长度和预计处理时间。
步骤102,根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率。
具体地,在本申请实施例中通过唤醒实时率来判断当前***是否处于CPU高负荷的状态,即当前唤醒引擎是否能申请到CPU资源,可以通过唤醒实时率来判断确定。其中,唤醒实时率是一个常用于度量自动语音识别***解码速度的值。
首先,获取当前语音数据包的音频时间长度和预计处理时间,其中,音频时间长度是当前语音数据包正常播放花费的时间,预计处理时间是处理当前语音数据包预计花费的时间。
进一步地,根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率,可以理解的是,可以直接计算预计处理时间与音频时间长度的比值、或者是计算音频时间长度与预计处理时间的比值、还可以是预计处理时间与音频时间长度的差值与音频时间长度的比值等等作为唤醒实时率。
比如处理一段音频时间长度为a的当前语音数据包预计花费时间b,唤醒实时率为b/a,举例而言,如果处理一段音频时间长度为2小时的当前语音数据包预计花了8个小时,则唤醒实时率为8/2=4。
步骤103,检测唤醒实时率是否满足预设的数据包处理条件。
步骤104,若唤醒实时率满足预设的数据包处理条件,则将当前累加值增加唤醒实时率后作为新的当前累加值。
具体地,根据上述不同的方式计算的唤醒实时率,检测唤醒实时率是否满足预设的数据包处理条件不同,作为一种可能实现方式,计算预计处理时间与音频时间长度的比值,根据预计处理时间与音频时间长度的比值生成唤醒实时率,设置预设阈值,判断唤醒实时率是否大于预设阈值。
比如当唤醒实时率等于或小于预设阈值1时说该处理是实时的;当唤醒实时率大于预设阈值1时认为当前唤醒引擎可能由于计算量过大或者无法申请到CPU资源处理,从而发生了数据阻塞,因此需要进行数据包处理,将当前累加值增加唤醒实时率后作为新的当前累加值。
其中,当前累加值可以为0也可以是一定的数值,将当前累加值增加唤醒实时率后作为新的当前累加值,可以理解的为,每接收到新的一个语音数据包则产生新的一个唤醒实时率,可以将当前累加值与新的唤醒实时率进行累加作为新的当前累加值,随着接收语音数据包个数的不断增加,新的当前累加值会不断增大。
需要说明的是,若唤醒实时率不满足预设的数据包处理条件,比如唤醒实时率小于等于预设阈值1时说该识别处理是实时的也就是说可以申请到足够的CPU资源来对语音数据包进行识别处理,因此对接收到的语音数据包进行识别处理,并将当前累加值清零。
步骤105,判断新的当前累加值是否大于等于预设处理阈值。
步骤106,若新的当前累加值大于等于预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
可以理解的是,当前***中的全部语音数据包数量随着时间推移,唤醒引擎一直申请不到CPU资源的情况,逐渐增加,也就是说新的当前累加值会不断增大,可以通过设置预设处理阈值来表示语音数据包已经堵塞到一定程度必须进行处理,进而判断新的当前累加值是否大于等于预设处理阈值,在新的当前累加值大于等于预设处理阈值时将当前***中的语音数据包从当前***中进行删除。
其中,将当前***中的语音数据包从当前***中进行删除的方式有很多种,作为一种可能实现方式,将当前***中的全部语音数据包从当前***中进行删除;作为另一种可能实现方式,将全部语音数据包进行接收时间进行排序,将排序前的N个语音数据包进行删除,也就是说可以删除预设数量比较早接收的语音数据包。
可以理解的是,将当前***中的全部语音数据包从当前***中进行删除后当前累加值为0。
具体地,在唤醒引擎等待CPU资源分配时间超过一定时长时,认为当前***CPU处于高负荷无响应的状态,此时如果唤醒引擎继续等待,那么语音数据包必然会阻塞,当唤醒引擎等来足够的CPU资源时,当前的语音数据包已经不是实时的语音数据包了,而是在上一次CPU高负荷情况下的前一段时间开始的语音数据包,此时唤醒引擎从前一段时间开始处理,用户却已经开始了新的一轮唤醒,所以必然会引起唤醒卡顿的现象发生。
因此,在唤醒引擎无法申请到处理器资源时,将语音数据包进行实时主动丢弃,以便于在唤醒引擎能够申请到CPU资源时,唤醒引擎能够从成功申请到CPU资源的那一时刻开始实时处理语音数据包,从而预防唤醒卡顿的现象发生,作为一种场景举例,如图3所示,步骤201,打开唤醒引擎,开始接收用户输入的语音数据包即大小为512字节的音频数据,步骤202,计算当前的唤醒实时率(RTF,real time factor),步骤203,当当前的唤醒实时率大于预设阈值1时,等待CPU分配资源,从当前累加值开始增加实时率值后作为新的当前累加值,步骤204,当新的当前累加值大于等于预设处理阈值如30,则将***中的全部语音数据包从当前***中进行删除,主动删除语音数据包,增加了CPU的利用率。
综上,本申请实施例的语音唤醒的数据包处理方法,通过获取当前语音数据包的音频时间长度和预计处理时间,并根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率,以及检测唤醒实时率是否满足预设的数据包处理条件,在唤醒实时率满足预设的数据包处理条件时将当前累加值增加唤醒实时率后作为新的当前累加值,并判断新的当前累加值是否大于等于预设处理阈值,在新的当前累加值大于等于预设处理阈值时将当前***中的语音数据包从当前***中进行删除。由此,通过唤醒引擎根据唤醒实时率检测的机制,主动删除语音数据包,增加了CPU的利用率,预防了唤醒卡顿现象,提升了用户体验。
为了实现上述实施例,本申请还提出了一种语音唤醒的数据包处理装置。图4是根据本申请一个实施例的语音唤醒的数据包处理装置的结构示意图,如图4所示,该语音唤醒的数据包处理装置包括:获取模块10、生成模块20、检测模块30、统计模块40、判断模块50和处理模块60,其中,
获取模块10,用于获取当前语音数据包的音频时间长度和预计处理时间。
生成模块20,用于根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率。
检测模块30,用于检测唤醒实时率是否满足预设的数据包处理条件。
统计模块40,用于若所述唤醒实时率满足预设的数据包处理条件,则将当前累加值增加所述唤醒实时率后作为新的当前累加值。
判断模块50,用于判断所述新的当前累加值是否大于等于预设处理阈值。
处理模块60,用于若所述新的当前累加值大于等于预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
在本申请的一个实施例中,检测模块30,具体用于:设置预设阈值;判断唤醒实时率是否大于预设阈值。
在本申请的一个实施例中,如图5所示,在如图4所示的基础上,还包括:识别模块70。
其中,识别模块70,用于若唤醒实时率不满足预设的数据包处理条件,则对接收到的语音数据包进行识别处理,并将当前累加值清零。
在本申请的一个实施例中,生成模块20,具体用于:计算预计处理时间与所述音频时间长度的比值;根据预计处理时间与音频时间长度的比值生成唤醒实时率。
在本申请的一个实施例中,处理模块60,具体用于:将当前***中的全部语音数据包从当前***中进行删除;或将全部语音数据包进行接收时间进行排序,将排序前的N个语音数据包进行删除。
需要说明的是,前述对语音唤醒的数据包处理方法实施例的解释说明也适用于该实施例的语音唤醒的数据包处理装置,此处不再赘述。
综上,本申请实施例的语音唤醒的数据包处理装置,通过获取当前语音数据包的音频时间长度和预计处理时间,并根据音频时间长度和预计处理时间生成唤醒引擎的唤醒实时率,以及检测唤醒实时率是否满足预设的数据包处理条件,在唤醒实时率满足预设的数据包处理条件时将当前累加值增加唤醒实时率后作为新的当前累加值,并判断新的当前累加值是否大于等于预设处理阈值,在新的当前累加值大于等于预设处理阈值时将当前***中的语音数据包从当前***中进行删除。由此,通过唤醒引擎根据唤醒实时率检测的机制,主动删除语音数据包,增加了CPU的利用率,预防了唤醒卡顿现象,提升了用户体验。
为了实现上述实施例,本申请还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如前述实施例所描述的语音唤醒的数据包处理方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所描述的语音唤醒的数据包处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音唤醒的数据包处理方法,其特征在于,包括以下步骤:
获取当前语音数据包的音频时间长度和预计处理时间;
根据所述音频时间长度和所述预计处理时间生成唤醒引擎的唤醒实时率;
检测所述唤醒实时率是否满足预设的数据包处理条件;
若所述唤醒实时率满足预设的数据包处理条件,则将当前累加值增加所述唤醒实时率后作为新的当前累加值;
判断所述新的当前累加值是否大于等于预设处理阈值;
若所述新的当前累加值大于等于所述预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
2.如权利要求1所述的方法,其特征在于,所述检测所述唤醒实时率是否满足预设的数据包处理条件,包括:
设置预设阈值;
判断所述唤醒实时率是否大于所述预设阈值。
3.如权利要求1所述的方法,其特征在于,在所述检测所述唤醒实时率是否满足预设的数据包处理条件之后,还包括:
若所述唤醒实时率不满足预设的数据包处理条件,则对接收到的语音数据包进行识别处理,并将当前累加值清零。
4.如权利要求1所述的方法,其特征在于,所述根据所述音频时间长度和所述预计处理时间生成唤醒引擎的唤醒实时率,包括:
计算所述预计处理时间与所述音频时间长度的比值;
根据所述预计处理时间与所述音频时间长度的比值生成所述唤醒实时率。
5.如权利要求1所述的方法,其特征在于,所述将当前***中的语音数据包从当前***中进行删除,包括:
将所述当前***中的全部语音数据包从当前***中进行删除;或
将全部语音数据包进行接收时间进行排序,将排序前的N个语音数据包进行删除。
6.一种语音唤醒的数据包处理装置,其特征在于,包括:
获取模块,用于获取当前语音数据包的音频时间长度和预计处理时间;
生成模块,用于根据所述音频时间长度和所述预计处理时间生成唤醒引擎的唤醒实时率;
检测模块,用于检测所述唤醒实时率是否满足预设的数据包处理条件;
统计模块,用于若所述唤醒实时率满足预设的数据包处理条件,则将当前累加值增加所述唤醒实时率后作为新的当前累加值;
判断模块,用于判断所述新的当前累加值是否大于等于预设处理阈值;
处理模块,用于若所述新的当前累加值大于等于预设处理阈值,则将当前***中的语音数据包从当前***中进行删除。
7.如权利要求6所述的装置,其特征在于,所述检测模块,具体用于:
设置预设阈值;
判断所述唤醒实时率是否大于所述预设阈值。
8.如权利要求6所述的装置,其特征在于,还包括:
识别模块,用于若所述唤醒实时率不满足预设的数据包处理条件,则对接收到的语音数据包进行识别处理,并将当前累加值清零。
9.如权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
计算所述预计处理时间与所述音频时间长度的比值;
根据所述预计处理时间与所述音频时间长度的比值生成所述唤醒实时率。
10.如权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
将所述当前***中的全部语音数据包从当前***中进行删除;或
将全部语音数据包进行接收时间进行排序,将排序前的N个语音数据包进行删除。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5任一所述的语音唤醒的数据包处理方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一所述的语音唤醒的数据包处理方法。
CN201910268017.8A 2019-04-03 2019-04-03 语音唤醒的数据包处理方法和装置 Active CN110046045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910268017.8A CN110046045B (zh) 2019-04-03 2019-04-03 语音唤醒的数据包处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910268017.8A CN110046045B (zh) 2019-04-03 2019-04-03 语音唤醒的数据包处理方法和装置

Publications (2)

Publication Number Publication Date
CN110046045A true CN110046045A (zh) 2019-07-23
CN110046045B CN110046045B (zh) 2021-07-30

Family

ID=67276089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910268017.8A Active CN110046045B (zh) 2019-04-03 2019-04-03 语音唤醒的数据包处理方法和装置

Country Status (1)

Country Link
CN (1) CN110046045B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259108A (zh) * 2020-09-27 2021-01-22 科大讯飞股份有限公司 一种引擎响应时间的分析方法及电子设备、存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287657A (zh) * 1998-08-17 2001-03-14 索尼株式会社 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置
EP2731349A1 (en) * 2012-11-09 2014-05-14 Samsung Electronics Co., Ltd Display apparatus, voice acquiring apparatus and voice recognition method thereof
CN104157287A (zh) * 2014-07-29 2014-11-19 广州视源电子科技股份有限公司 音频处理方法及装置
CN105183422A (zh) * 2015-08-31 2015-12-23 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置
CN105336330A (zh) * 2015-10-15 2016-02-17 上海易景信息科技有限公司 简单语音识别***
CN106205616A (zh) * 2014-11-05 2016-12-07 现代自动车株式会社 具有语音识别功能的车辆和音箱主机、及语音识别方法
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
WO2017032070A1 (zh) * 2015-08-21 2017-03-02 中兴通讯股份有限公司 语音识别方法、设备及计算机存储介质
CN106959899A (zh) * 2017-02-27 2017-07-18 阿里巴巴集团控股有限公司 一种消息阻塞检测方法、装置及计算机存储介质
CN107146605A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107492374A (zh) * 2017-10-11 2017-12-19 深圳市汉普电子技术开发有限公司 一种语音控制方法、智能设备及存储介质
CN107610695A (zh) * 2017-08-08 2018-01-19 问众智能信息科技(北京)有限公司 驾驶人语音唤醒指令词权重的动态调整方法
CN107680589A (zh) * 2017-09-05 2018-02-09 百度在线网络技术(北京)有限公司 语音信息交互方法、装置及其设备
EP3348042A1 (en) * 2015-09-11 2018-07-18 Amazon Technologies Inc. System, method and computer-readable storage medium for customizable event-triggered computation at edge locations
US10032455B2 (en) * 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
CN108566634A (zh) * 2018-03-30 2018-09-21 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
CN109346076A (zh) * 2018-10-25 2019-02-15 三星电子(中国)研发中心 语音交互、语音处理方法、装置和***
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287657A (zh) * 1998-08-17 2001-03-14 索尼株式会社 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置
US10032455B2 (en) * 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
EP2731349A1 (en) * 2012-11-09 2014-05-14 Samsung Electronics Co., Ltd Display apparatus, voice acquiring apparatus and voice recognition method thereof
CN104157287A (zh) * 2014-07-29 2014-11-19 广州视源电子科技股份有限公司 音频处理方法及装置
CN106205616A (zh) * 2014-11-05 2016-12-07 现代自动车株式会社 具有语音识别功能的车辆和音箱主机、及语音识别方法
WO2017032070A1 (zh) * 2015-08-21 2017-03-02 中兴通讯股份有限公司 语音识别方法、设备及计算机存储介质
CN105183422A (zh) * 2015-08-31 2015-12-23 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置
EP3348042A1 (en) * 2015-09-11 2018-07-18 Amazon Technologies Inc. System, method and computer-readable storage medium for customizable event-triggered computation at edge locations
CN105336330A (zh) * 2015-10-15 2016-02-17 上海易景信息科技有限公司 简单语音识别***
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN106959899A (zh) * 2017-02-27 2017-07-18 阿里巴巴集团控股有限公司 一种消息阻塞检测方法、装置及计算机存储介质
CN107146605A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107610695A (zh) * 2017-08-08 2018-01-19 问众智能信息科技(北京)有限公司 驾驶人语音唤醒指令词权重的动态调整方法
CN107680589A (zh) * 2017-09-05 2018-02-09 百度在线网络技术(北京)有限公司 语音信息交互方法、装置及其设备
CN107492374A (zh) * 2017-10-11 2017-12-19 深圳市汉普电子技术开发有限公司 一种语音控制方法、智能设备及存储介质
CN108566634A (zh) * 2018-03-30 2018-09-21 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
CN109346076A (zh) * 2018-10-25 2019-02-15 三星电子(中国)研发中心 语音交互、语音处理方法、装置和***
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FELIX SUTTON 等: ""Mitigating Erroneous Wake-ups"", 《PROCEEDINGS OF THE 15TH ACM CONFERENCE ON EMBEDDED NETWORK SENSOR SYSTEMS》 *
H. ABDALLA ET AL.: "A low-power acoustic periodicity detector chip for voice and engine detection", 《2003 46TH MIDWEST SYMPOSIUM ON CIRCUITS AND SYSTEMS》 *
喻国明;杨名宜: ""平台型智能媒介的机制构建与评估方法——以智能音箱为例"", 《新疆师范大学学报(哲学社会科学版)》 *
杨大力 等: "嵌入式Ad-Hoc网络下的实时语音通信", 《微型机与应用》 *
黄存东;陈秀忠: ""基于VoIP队列的主动丢包的调度算法"", 《电声技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259108A (zh) * 2020-09-27 2021-01-22 科大讯飞股份有限公司 一种引擎响应时间的分析方法及电子设备、存储介质
CN112259108B (zh) * 2020-09-27 2024-05-31 中国科学技术大学 一种引擎响应时间的分析方法及电子设备、存储介质

Also Published As

Publication number Publication date
CN110046045B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
EP3129880B1 (en) Method and device for augmenting and releasing capacity of computing resources in real-time stream computing system
CN105679319B (zh) 语音识别处理方法及装置
CN103714016B (zh) 缓存的清理方法、装置及客户端
CN104317649B (zh) 终端应用程序app的处理方法、装置及终端
CN107610702A (zh) 终端设备待机唤醒方法、装置及计算机设备
CN110491383A (zh) 一种语音交互方法、装置、***、存储介质及处理器
CN107590278A (zh) 一种基于ceph的文件预读方法及相关装置
JP2002372983A (ja) 音声ベース・インタフェース・システム
CN111068305B (zh) 云游戏加载控制方法、装置、电子设备及存储介质
CN109036393A (zh) 家电设备的唤醒词训练方法、装置及家电设备
CN106095832B (zh) 分布式并行数据处理方法以及装置
CN103218263A (zh) MapReduce参数的动态确定方法及装置
CN107273182A (zh) 一种虚拟机资源动态扩充方法及***
US20100031266A1 (en) System and method for determining a number of threads to maximize utilization of a system
CN110046045A (zh) 语音唤醒的数据包处理方法和装置
CN109471989A (zh) 一种页面请求处理方法及相关装置
CN109656684A (zh) 一种Kafka的分区方法、分区***及相关装置
CN108694083B (zh) 一种服务器的数据处理方法和装置
CN109522100A (zh) 实时计算任务调整方法和装置
CN107861878A (zh) Java应用程序性能问题定位的方法、装置和设备
CN111817972A (zh) 物流业务***流量接口的限流方法及相关设备
CN111290858A (zh) 输入输出资源管理方法、装置、计算机设备和存储介质
CN111580937B (zh) 一种面向飞腾多核/众核混合集群的虚拟机自动调度方法
CN106993147A (zh) 一种录像覆盖方法、装置及网络硬盘录像机
CN113032207A (zh) 应用进程的监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211013

Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Patentee after: Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.