CN113571069A - 一种信息处理的方法、装置和存储介质 - Google Patents
一种信息处理的方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113571069A CN113571069A CN202110885022.0A CN202110885022A CN113571069A CN 113571069 A CN113571069 A CN 113571069A CN 202110885022 A CN202110885022 A CN 202110885022A CN 113571069 A CN113571069 A CN 113571069A
- Authority
- CN
- China
- Prior art keywords
- voice data
- awakening
- processed
- character
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 31
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种信息处理的方法、装置和存储介质。基于本申请,针对实时采集的语音数据,判断语音数据中是否包含与预设字符的文本相似度高于相似度阈值的唤醒字符,且同时将该语音数据同步存入缓存队列;当该语音数据中包含唤醒字符时,从缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据,将该待处理语音数据上传服务器进行文本相似置信度比较,并在满足条件时将该待处理语音数据中的唤醒字符确定为误唤醒字符并记录,以最大化的收集到所有唤醒场景下的包含误唤醒字符的语音数据,并通过该误唤醒字符对智能语音设备进一步进行优化,提升对语音数据的识别准确率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种信息处理的方法、装置和存储介质。
背景技术
在智能家居交互式语音场景中,用户可以通过预设的唤醒词对智能语音设备进行唤醒。如用户可以通过语音输入预设的唤醒词,如针对某个智能语音设备的唤醒词“小海小海”对智能语音设备进行唤醒。当用户语音输入的唤醒词并不是预设的唤醒词而智能语音设备也被唤醒时,需要对误唤醒词进行收集以对该智能语音设备进行优化。而现有的误唤醒率是在一定时长的语音数据下统计错误唤醒率,是基于实验数据的统计,真实生产环境中产生的误唤醒词无法得到收集,采样范围有一定的局限性,无法准确衡量模型的真实指标,无法对唤醒模型做持续优化。另外,生产环境中通过持续全量采集上报用户数据的方式获取用户音频不仅侵犯用户隐私,增加带宽流量,同时后期数据分析工作量巨大。
发明内容
本申请的各实施例提供了一种信息处理的方法、装置和存储介质,有助于提高语音识别的准确率。
在一个实施例中,一种信息处理的方法,包括:
实时采集语音数据,并将该语音数据存储在缓存队列中;
当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据;
将该待处理语音数据上传至服务器,并由服务器对该待处理语音数据进行文本相似置信度判断,当该待处理语音数据的文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。
可选地,计算采集的语音数据与预先存储的预设字符之间的文本相似度,并在当前的语音数据与预设字符的文本相似度高于相似度阈值时,确定该语音数据中包含唤醒字符。
可选地,基于该唤醒字符和该待处理语音数据,计算得到该待处理语音数据的文本相似置信度。
可选地,设置缓存队列的容量,以使缓存队列的容量大于获取该待处理语音数据的预设时长与单位时间采集语音数据的数据量之间的乘积;
在采集到语音数据时,按照采集时序将语音数据包含的各个字节依次存入缓存队列的各个存储位,并为该语音数据的起始字节标记起始指针,以及每存入一个字节将计位指针后移一个存储位;
当计位指针移至缓存队列的末位并存入当前字节后,将该计位指针移至该缓存队列的初始位,并在各存储位依次覆盖存入采集到的语音数据的当前字节。
可选地,在确定获取的语音数据包括与预设字符的文本相似度高于相似度阈值的唤醒字符时,在缓存队列中按照存入时序获取以起始指针所标记的存储位中的起始字节为开始字节,以及以计位指针标记的存储位中的唤醒字符所对应的最后一个字节为结尾字节的待处理语音数据,其中,开始字节与结尾字节组成的待处理语音数据的时长为预设时长。
可选地,每记录一次当前待处理语音数据包含的误唤醒字符,为误唤醒次数加1,并基于误唤醒次数与总唤醒次数,计算误唤醒率。
在另一个实施例中,提供了一种信息处理的装置,该装置包括:
采集模块,用于实时采集语音数据,并将该语音数据存储在缓存队列中;
获取模块,用于当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据;
记录模块,用于将该待处理语音数据上传至服务器,并由服务器对该待处理语音数据进行文本相似置信度判断,当文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。
可选地,还包括确定模块:
计算采集的语音数据与预先存储的预设字符之间的文本相似度,并在当前的语音数据与预设字符的文本相似度高于相似度阈值时,确定该语音数据中包含唤醒字符。
可选地,所述确定模块进一步用于:基于该唤醒字符和该待处理语音数据,计算得到该待处理语音数据的文本相似置信度。
可选地,采集模块进一步用于:
设置缓存队列的容量,以使缓存队列的容量大于获取该待处理语音数据的预设时长与单位时间采集语音数据的数据量之间的乘积;
在采集到语音数据时,按照采集时序将语音数据包含的各个字节依次存入缓存队列的各个存储位,并为该语音数据的起始字节标记起始指针,以及每存入一个字节将计位指针后移一个存储位;
当计位指针移至缓存队列的末位并存入当前字节后,将该计位指针移至该缓存队列的初始位,并在各存储位依次覆盖存入采集到的语音数据的当前字节。
可选地,获取模块还用于:
在确定获取的语音数据包括与预设字符的文本相似度高于相似度阈值的唤醒字符时,在缓存队列中按照存入时序获取以起始指针所标记的存储位中的起始字节为开始字节,以及以计位指针标记的存储位中的唤醒字符所对应的最后一个字节为结尾字节的待处理语音数据,其中,开始字节与结尾字节组成的待处理语音数据的时长为预设时长。
可选地,包括分析模块:
每记录一次当前待处理语音数据包含的误唤醒字符,为误唤醒次数加1,并基于误唤醒次数与总唤醒次数,计算误唤醒率。
在本申请的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时引发所述处理器执行前述实施例中的信息处理的方法。
在本发明的另一个实施例中,提供了一种电子设备,包括处理器,所述处理器用于执行上述信息处理的方法中的各个步骤。
一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述中任一项所述的信息处理方法的步骤。
基于上述实施例,针对实时采集的语音数据,判断语音数据中是否包含与预设字符的文本相似度高于相似度阈值的唤醒字符,且同时将该语音数据同步存入缓存队列;当该语音数据中包含唤醒字符时,从缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据,将该待处理语音数据上传服务器进行文本相似置信度比较,并在满足条件时将该待处理语音数据中的唤醒字符确定为误唤醒字符并记录,以最大化的收集到所有唤醒场景下的包含误唤醒字符的语音数据,并通过该误唤醒字符对智能语音设备进一步进行优化,提升对语音数据的识别准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请的一个实施例中的一种信息处理的方法的数据流转示意图;
图2为本申请的一个实施例中的一种信息处理的方法的流程示意图;
图3为本申请的另一个实施例中的一种信息处理的方法的扩展流程示意图;
图4为本申请的一个实施例示出的缓存队列进行存储的示意图;
图5为本申请的另一个实施例中的一种信息处理的装置的示意图;
图6为本申请的另一个实施例所提供的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
基于现有技术中的问题,本申请实施例主要适用于智能家居交互式语音的场景下,用户与智能语音设备交互的情形。针对用户可能使用到的误唤醒词,在设备端进行筛选,并将筛选出的误唤醒词与该误唤醒词相关的预设时长的语音数据上传至服务端,由服务端进行进一步地筛选,以最大化的获取真实环境中的误唤醒词。
图1为本申请的一个实施例中的一种信息处理的方法的数据流转示意图。如图1所示,在设备端进行语音数据的采集,以及语音数据是否包含与预设字符的文本相似度高于相似度阈值的唤醒字符的判断。同时,将采集到的语音数据在预先设置的缓存队列中进行缓存。其中,设备端一般指智能语音设备。进一步地,在判断语音数据中包含符合条件的唤醒字符时,通知服务器端读取缓存队列中包含唤醒字符的预设时长的语音数据,将该语音数据作为待处理语音数据上传至服务器端,由服务器端对待处理语音数据进行进一步地筛选,并记录筛选出的误唤醒字符。
图2为本申请的一个实施例中的一种信息处理的方法的流程示意图。如图1所示,具体地的流程步骤如下:
S101,实时采集语音数据,并将该语音数据存储在缓存队列中。
本步骤中,本步骤主要是在设备端进行语音数据的实时采集。如用户与智能语音设备进行语音交互时,实时采集用户的语音数据,同时将采集的语音数据实时存储至设备端预先设置的缓存队列中。
S102,当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据。
本步骤中,在设备端进行语音数据与预设字符的文本相似度计算。其中,预设字符是预先设置的可以对该智能语音设备进行唤醒的字符,可以为用户预设,也可为制造商预设。设备端获取到实时采集的语音数据时,计算语音数据与预设字符的文本相似度,并在文本相似度高于相似度阈值时,将当前的缓存队列中以该唤醒字符为结尾字节的预设时长的语音数据作为待处理语音数据。
本步骤中,从缓存队列中获取的待处理语音数据为:缓存队列所缓存的在唤醒字符对应字节前缓存的语音数据,而缓存队列缓存的是实时采集的语音数据。因此,待处理语音数据实际上为:所采集的当前语音数据所包含的唤醒字符前的预设时长的语音数据片段,由于缓存队列实时存储所采集的当前语音数据,所以该语音数据片段是从缓存队列中获取的。
本步骤中,设备端在进行文本相似度的计算时,还可以计算得到该待处理语音数据的文本相似置信度,且将该待处理语音数据的文本相似置信度与对应的待处理语音数据在后续上传时同时进行上传。或者,也可以将该唤醒字符及该待处理语音数据上传给服务器,而由服务器根据上传的该唤醒字符和该待处理语音数据计算得到该待处理语音数据的文本相似置信度。
本步骤中,该待处理语音数据的文本相似置信度是基于该唤醒字符和该待处理语音数据计算得到的。
S103,将该待处理语音数据上传至服务器,并由服务器对该待处理语音数据进行文本相似置信度判断,当文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。
本步骤中,服务器端对上传的待处理语音数据进行进一步的筛选,判断该待处理语音数据的文本相似置信度是否满足预设阈值,当该待处理语音数据的文本相似置信度低于预设阈值时,确定此次对于设备端的唤醒为误唤醒,并将该唤醒字符确定为误唤醒字符进行记录。
基于上述实施例的信息处理的方法,针对实时采集的语音数据,判断语音数据中是否包含与预设字符的文本相似度高于相似度阈值的唤醒字符,且同时将该语音数据同步存入缓存队列;当该语音数据中包含唤醒字符时,从缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据,将该待处理语音数据上传服务器进行文本相似置信度比较,并在满足条件时将该待处理语音数据中的唤醒字符确定为误唤醒字符并记录,以最大化的收集到所有唤醒场景下的包含误唤醒字符的语音数据,并通过该误唤醒字符对智能语音设备进一步进行优化,提升对语音数据的识别准确率。
图3为如图1和图2所示的一种信息处理的方法的扩展流程示意图。请参见图3,主要包括如下步骤:
S201,设备端实时采集语音数据。
本步骤中,设备端主要为智能语音设备,如智能音箱等。在用户与智能语音设备进行语音交互时,智能语音设备开启音频收集装置如麦克风等对用户输入的语音数据进行实时采集。
S202,对语音数据进行唤醒字符的筛选。
本步骤中,设备端对采集到的语音数据进行文本相似度的判断,在满足预先设定的相似度阈值时,可以认为该语音数据中包含可以唤醒该智能语音设备的唤醒字符。其中,唤醒字符可以基于用户自主设定,或者由生产厂家设定。如设定预设字符为“小海小海”,若采集到的语音数据为“金海金海”,设备端对该语音数据与预设字符进行文本相似度的计算,在满足相似度阈值时,确定该语音数据包含于预设字符相近的唤醒字符。
S203,根据以该唤醒字符为结尾字节的预设时长的待处理语音数据,计算该待处理语音数据的文本相似置信度。
本步骤中,在当前的语音数据与预设字符的文本相似度高于相似度阈值时,确定该语音数据中包含唤醒字符,并根据唤醒字符从当前的缓存队列中获取待处理语音数据之后,计算该待处理语音数据的文本相似置信度,计算可以是设备端或服务器端完成。
本步骤中,计算该待处理语音数据的文本相似置信度,是基于该唤醒字符和该待处理语音数据得到。具体地说,就是基于将唤醒字符作为抽样值,将该待处理语音数据作为总体参数值,进行的置信度计算,得到该待处理语音数据的文本相似置信度。
S204,将该语音数据存储在缓存队列中。
这里,设备端设置缓存队列对实时采集的语音数据进行存储。其中,缓存队列的大小由后续获取的语音数据的预设时长确定。如需要存储的为预设时长为t的语音数据时,设计缓存队列的大小(存储位)size=frequency*format/8*channel*t,其中,frequency为采集的语音数据的采样频率,format为采样位深,channel为声道数,t为预设时长。
设备端在采集到语音数据时,按照采集时序将语音数据包含的各个字节依次存入缓存队列的各个存储位,并为该语音数据的起始字节标记起始指针,以及每存入一个字节将计位指针后移一个存储位;当计位指针移至缓存队列的末位并存入当前字节后,将该计位指针移至该缓存队列的初始位,并在各存储位依次覆盖存入采集到的语音数据的当前字节。如图4所示,为本申请一个实施例示出的缓存队列进行存储的示意图。其中,缓存队列在还未存储语音数据时,起始指针和计位指针均标记该缓存队列的初始位。语音数据在存入缓存队列时,为语音数据的起始字节标记起始指针,如采集的语音数据的起始字节存入初始位0时,为该存储位标记起始指针。
缓存队列每存储完成一个存储位后,向后偏移一位计位指针,当到达存储位size-1时即缓存队列的末位,则从初始位0开始覆盖写入。
也就是说,缓存队列的容量是与后续要获取的待处理语音数据的容量相关的,缓存队列的容量设置要大于待处理语音数据的容量。即:缓存队列的容量大于获取该待处理语音数据的预设时长与单位时间采集语音数据的数据量之间的乘积。在这里,单位时间采集语音数据的数据量与缓存队列缓存语音数据的数据量是相同的。
这样,即使缓存队列采用先进先出的原则缓存实时采集的语音数据,并覆盖先前已经缓存的采集到的语音数据,也不会导致当从缓存队列中获取待处理语音数据时,获取到以该唤醒字符为结尾字节前的覆盖后的采集的语音数据,而获取不到以该唤醒字符为结尾字节前的覆盖前的采集的语音数据。
步骤S202-S203与步骤S204可同时进行,在对语音数据进行唤醒字符筛选的同时,将其存入缓存队列。
S205,在确定该语音数据包含于预设字符相近的唤醒字符后,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据。
本步骤中,在确定获取的语音数据包括与预设字符的文本相似度高于相似度阈值的唤醒字符时,服务器端在缓存队列中按照存入时序获取以起始指针所标记的存储位中的起始字节为开始字节,以及以计位指针标记的存储位中的唤醒字符所对应的最后一个字节为结尾字节的待处理语音数据,其中,开始字节与结尾字节组成的待处理语音数据的时长为预设时长。
S206,将该待处理语音数据上传至服务器。
本步骤中,设备端实时采集的语音数据只有在符合前述包括与预设字符的文本相似度高于相似度阈值的唤醒字符的条件时,才将满足该条件的语音数据作为待处理语音数据上传至服务器端。同时,将该待处理语音数据的文本相似置信度一并上传至服务器。
在本步骤中,也可以将唤醒字符及待处理语音数据上传给服务器,而由服务器根据上传的唤醒字符和该待处理语音数据计算得到该待处理语音数据的文本相似置信度。
服务器端将待处理语音数据及相关内容写入消息队列里,消息队列使用基于kafka的高通吞吐量的的分布式发布订阅消息***实现。
S207,服务器端对该待处理语音数据进行文本相似置信度判断。
这里,预先设置预设阈值对待处理语音数据进一步筛选。在消息队列中获取的待处理语音数据,并得到该待处理语音数据的文本相似置信度。若该待处理语音数据的文本相似置信度高于预设阈值时,确定唤醒成功,结束当前流程。
S208,记录误唤醒字符。
本步骤中,当该待处理语音数据的文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。以及,每记录一次当前待处理语音数据包含的误唤醒字符,为误唤醒次数加1,每进行一次唤醒总误唤醒次数加1,并基于误唤醒次数与总唤醒次数,计算误唤醒率。
进一步地,分析误唤醒字符,持续优化智能语音设备中的唤醒模型,提升唤醒模块用户体验。
综上所述,本申请实施例通过前述方案,智能语音设备启动后,持续获取语音数据,并判断是否包含唤醒字符,同时持续缓存预设时长的语音数据。以及在包含唤醒字符时,则向服务端上传包含唤醒字符的预设时长的语音数据到服务器端,服务器端通过更高的预设阈值和人工鉴别方式判断是否为误唤醒,并记录误唤醒字符和误唤醒次数,获取生产环境准确的误唤醒率,并通过获取到的误唤醒字符来优化智能语音设备。
基于与前述信息处理的方法的同一发明构思,本申请实施例还提供一种信息处理的装置。
图5为本申请的另一个实施例中的一种信息处理的装置的示意图。其中,该信息处理的装置可以包括:
采集模块51,用于实时采集语音数据,并将该语音数据存储在缓存队列中;
获取模块52,用于当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据;
记录模块53,用于将该待处理语音数据上传至服务器,并由服务器对该待处理语音数据进行文本相似置信度判断,当该待处理语音数据的文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。
本实施例中,采集模块51、获取模块52和记录模块53的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
可选地,还包括确定模块54:
计算采集的语音数据与预先存储的预设字符之间的文本相似度,并在当前的语音数据与预设字符的文本相似度高于相似度阈值时,确定该语音数据中包含唤醒字符。
可选地,所述确定模块54进一步用于:
基于该唤醒字符和该待处理语音数据,计算得到该待处理语音数据的文本相似置信度。
可选地,采集模块51进一步用于:
设置缓存队列的容量,以使缓存队列的容量大于获取该待处理语音数据的预设时长与单位时间采集语音数据的数据量之间的乘积;
在采集到语音数据时,按照采集时序将语音数据包含的各个字节依次存入缓存队列的各个存储位,并为该语音数据的起始字节标记起始指针,以及每存入一个字节将计位指针后移一个存储位;
当计位指针移至缓存队列的末位并存入当前字节后,将该计位指针移至该缓存队列的初始位,并在各存储位依次覆盖存入采集到的语音数据的当前字节。
可选地,获取模块52还用于:
在确定获取的语音数据包括与预设字符的文本相似度高于相似度阈值的唤醒字符时,在缓存队列中按照存入时序获取以起始指针所标记的存储位中的起始字节为开始字节,以及以计位指针标记的存储位中的唤醒字符所对应的最后一个字节为结尾字节的待处理语音数据,其中,开始字节与结尾字节组成的待处理语音数据的时长为预设时长。
可选地,包括分析模块55:
每记录一次当前待处理语音数据包含的误唤醒字符,为误唤醒次数加1,并基于误唤醒次数与总唤醒次数,计算误唤醒率。
在本申请的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时引发所述处理器执行前述实施例中的信息处理的方法。图6为本申请的另一个实施例所提供的一种电子设备的示意图。如图6所示,本申请的又一实施例还提供一种电子设备,其可以包括处理器601,其中,处理器601用于执行上述一种信息处理的方法的步骤。从图6中还可以看出,上述实施例提供的电子设备还包括非瞬时计算机可读存储介质602,该非瞬时计算机可读存储介质602上存储有计算机程序,该计算机程序被处理器601运行时执行上述一种信息处理的方法的步骤。
具体地,该非瞬时计算机可读存储介质602能够为通用的存储介质,如移动磁盘、硬盘、FLASH、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、或便携式紧凑磁盘只读存储器(CD-ROM)等,该非瞬时计算机可读存储介质602上的计算机程序被处理器601运行时,能够引发处理器601执行上述的一种信息处理的方法中的各个步骤。
实际应用中,所述的非瞬时计算机可读存储介质602可以是上述实施例中描述的设备/装置/***中所包含的,也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,能够执行上述的一种对信息处理的方法中的各个步骤。
本申请的再一实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述的一种对信息处理的方法中的各个步骤。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些变更、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种信息处理的方法,其特征在于,包括:
实时采集语音数据,并将该语音数据存储在缓存队列中;
当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据;
将该待处理语音数据上传至服务器,并由服务器对该待处理语音数据进行文本相似置信度判断,当文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。
2.根据权利要求1所述的方法,其特征在于,在实时采集语音数据的步骤和当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据的步骤之间,进一步包括:
计算采集的语音数据与预先存储的预设字符之间的文本相似度,并在当前的语音数据与预设字符的文本相似度高于相似度阈值时,确定该语音数据中包含唤醒字符。
3.根据权利要求1或2所述的方法,其特征在于,所述由服务器对该待处理语音数据进行文本相似置信度判断之前,进一步包括:
基于该唤醒字符和该待处理语音数据,计算得到该待处理语音数据的文本相似置信度。
4.根据权利要求2所述的方法,其特征在于,并将该语音数据存储在缓存队列中的步骤包括:
设置缓存队列的容量,以使缓存队列的容量大于获取该待处理语音数据的预设时长与单位时间采集语音数据的数据量之间的乘积;
在采集到语音数据时,按照采集时序将语音数据包含的各个字节依次存入缓存队列的各个存储位,并为该语音数据的起始字节标记起始指针,以及每存入一个字节将计位指针后移一个存储位;
当计位指针移至缓存队列的末位并存入当前字节后,将该计位指针移至该缓存队列的初始位,并在各存储位依次覆盖存入采集到的语音数据的当前字节。
5.根据权利要求3所述的方法,其特征在于,当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据的步骤包括:
在确定获取的语音数据包括与预设字符的文本相似度高于相似度阈值的唤醒字符时,在缓存队列中按照存入时序获取以起始指针所标记的存储位中的起始字节为开始字节,以及以计位指针标记的存储位中的唤醒字符所对应的最后一个字节为结尾字节的待处理语音数据,其中,开始字节与结尾字节组成的待处理语音数据的时长为预设时长。
6.根据权利要求1所述的方法,其特征在于,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录的步骤之后,进一步包括:
每记录一次当前待处理语音数据包含的误唤醒字符,为误唤醒次数加1,并基于误唤醒次数与总唤醒次数,计算误唤醒率。
7.一种信息处理的装置,其特征在于,包括:
采集模块,用于实时采集语音数据,并将该语音数据存储在缓存队列中;
获取模块,用于当该语音数据中包含与预设字符的文本相似度高于相似度阈值的唤醒字符时,在当前的缓存队列中获取以该唤醒字符为结尾字节的预设时长的待处理语音数据;
记录模块,用于将该待处理语音数据上传至服务器,并由服务器对该待处理语音数据进行文本相似置信度判断,当文本相似置信度低于预设阈值时,将该待处理语音数据包含的唤醒字符确定为误唤醒字符并进行记录。
8.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如权利要求1至6任一项所述的一种信息处理的方法中的各个步骤。
9.一种终端设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1至6中任一项所述的一种信息处理的方法中的各个步骤。
10.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现如权利要求1至6中任一项所述的信息处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110885022.0A CN113571069A (zh) | 2021-08-03 | 2021-08-03 | 一种信息处理的方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110885022.0A CN113571069A (zh) | 2021-08-03 | 2021-08-03 | 一种信息处理的方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113571069A true CN113571069A (zh) | 2021-10-29 |
Family
ID=78170156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110885022.0A Pending CN113571069A (zh) | 2021-08-03 | 2021-08-03 | 一种信息处理的方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113571069A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030130844A1 (en) * | 2002-01-04 | 2003-07-10 | Ibm Corporation | Speaker identification employing a confidence measure that uses statistical properties of N-best lists |
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
CN103106900A (zh) * | 2013-02-28 | 2013-05-15 | 用友软件股份有限公司 | 语音识别装置和语音识别方法 |
CN103646646A (zh) * | 2013-11-27 | 2014-03-19 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
CN105654949A (zh) * | 2016-01-07 | 2016-06-08 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
CN110780956A (zh) * | 2019-09-16 | 2020-02-11 | 平安科技(深圳)有限公司 | 一种智能远程协助方法、装置、计算机设备及存储介质 |
CN111290677A (zh) * | 2018-12-07 | 2020-06-16 | 中电长城(长沙)信息技术有限公司 | 一种自助设备导航方法及其导航*** |
CN111489740A (zh) * | 2020-04-23 | 2020-08-04 | 北京声智科技有限公司 | 语音处理方法及装置、电梯控制方法及装置 |
CN112599127A (zh) * | 2020-12-04 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 一种语音指令处理方法、装置、设备及存储介质 |
-
2021
- 2021-08-03 CN CN202110885022.0A patent/CN113571069A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030130844A1 (en) * | 2002-01-04 | 2003-07-10 | Ibm Corporation | Speaker identification employing a confidence measure that uses statistical properties of N-best lists |
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
CN103106900A (zh) * | 2013-02-28 | 2013-05-15 | 用友软件股份有限公司 | 语音识别装置和语音识别方法 |
CN103646646A (zh) * | 2013-11-27 | 2014-03-19 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
CN105654949A (zh) * | 2016-01-07 | 2016-06-08 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
CN111290677A (zh) * | 2018-12-07 | 2020-06-16 | 中电长城(长沙)信息技术有限公司 | 一种自助设备导航方法及其导航*** |
CN110780956A (zh) * | 2019-09-16 | 2020-02-11 | 平安科技(深圳)有限公司 | 一种智能远程协助方法、装置、计算机设备及存储介质 |
CN111489740A (zh) * | 2020-04-23 | 2020-08-04 | 北京声智科技有限公司 | 语音处理方法及装置、电梯控制方法及装置 |
CN112599127A (zh) * | 2020-12-04 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 一种语音指令处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112860943A (zh) | 一种教学视频审核方法、装置、设备及介质 | |
CN109788345B (zh) | 直播控制方法、装置、直播设备及可读存储介质 | |
CN109669663B (zh) | 音区幅值获取方法、装置、电子设备及存储介质 | |
CN110277089B (zh) | 离线语音识别模型的更新方法、家用电器和服务器 | |
CN108231089B (zh) | 基于人工智能的语音处理方法及装置 | |
CN109388550B (zh) | 一种缓存命中率确定方法、装置、设备及可读存储介质 | |
CN111724781B (zh) | 音频数据的存储方法、装置、终端及存储介质 | |
CN112181919A (zh) | 一种压缩方法、***及电子设备和存储介质 | |
US20230209135A1 (en) | Method of montoring usage of at least one application executed within an operating system, corresponding apparatus, computer program product and computer-readable carrier medium | |
CN112397102B (zh) | 音频处理方法、装置及终端 | |
JP4521673B2 (ja) | 発話区間検出装置、コンピュータプログラム及びコンピュータ | |
CN113571069A (zh) | 一种信息处理的方法、装置和存储介质 | |
CN115670397B (zh) | 一种ppg伪迹识别方法、装置、存储介质及电子设备 | |
CN110780820A (zh) | 一种连续存储空间确定方法、装置及电子设备和存储介质 | |
CN110556099B (zh) | 一种命令词控制方法及设备 | |
CN112750458B (zh) | 一种触屏声音检测方法和装置 | |
CN112149833B (zh) | 基于机器学习的预测方法、装置、设备和存储介质 | |
US20220101871A1 (en) | Live streaming control method and apparatus, live streaming device, and storage medium | |
CN111857551B (zh) | 一种录像数据老化方法及装置 | |
CN113573096A (zh) | 视频处理方法、装置、电子设备及介质 | |
CN111563546A (zh) | 传感器数据匹配方法、装置、设备和存储介质 | |
CN108235137B (zh) | 一种通过声音波形判断切台动作的方法、装置及电视机 | |
CN105786550A (zh) | 一种内存应用处理方法及装置 | |
JP6257537B2 (ja) | 顕著度推定方法、顕著度推定装置、プログラム | |
CN113436641B (zh) | 一种音乐转场时间点检测方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211029 |
|
RJ01 | Rejection of invention patent application after publication |