CN115132198A - 数据处理方法、装置、电子设备、程序产品及介质 - Google Patents
数据处理方法、装置、电子设备、程序产品及介质 Download PDFInfo
- Publication number
- CN115132198A CN115132198A CN202210597464.XA CN202210597464A CN115132198A CN 115132198 A CN115132198 A CN 115132198A CN 202210597464 A CN202210597464 A CN 202210597464A CN 115132198 A CN115132198 A CN 115132198A
- Authority
- CN
- China
- Prior art keywords
- command word
- time window
- voice data
- voice
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 68
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 22
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000012795 verification Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 238000010438 heat treatment Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000977 initiatory effect Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了数据处理方法、装置、电子设备、程序产品及介质,可应用于数据处理技术领域。其中方法包括:根据目标时间窗内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词;基于第一命令词的命令词长度确定当前语音帧关联的特征时间窗,基于特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定特征时间窗的语音数据在命令词集中命中的第二命令词。采用本申请实施例,有助于提升对语音数据的命令词检测的准确度。本申请实施例还可应用于云技术、人工智能、智慧交通、辅助驾驶、智能家电等各种场景。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及数据处理方法、装置、电子设备、程序产品及介质。
背景技术
目前,语音检测技术得到了广泛的应用,许多智能设备(如车载***、智能音箱、智能家电等等)中设置有语音检测功能,智能设备可以接收通过语音的形式发布的指令,基于接收到的语音数据检测其中的指令,并执行对应的操作。然而,发明人在实践过程中发现,在检测语音数据中的指令时,对语音数据中的命令词的检测的准确度较低。
发明内容
本申请实施例提供了一种数据处理方法、装置、电子设备、程序产品及介质,有助于提升对语音数据的命令词检测的准确度。
一方面,本申请实施例公开了一种数据处理方法,所述方法包括:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
一方面,本申请实施例公开了一种数据处理装置,所述装置包括:
获取单元,用于确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
处理单元,用于根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
所述处理单元,还用于基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
所述处理单元,还用于基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
一方面,本申请实施例提供了一种电子设备,电子设备包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于执行如下步骤:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行如下步骤:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时可实现上述一方面提供的方法。
本申请实施例提出一种数据处理方案,能够根据目标时间窗内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词,相当于初步确定连续输入的语音数据中包含的命令词,进而基于第一命令词的特征信息比如命令词长度确定特征时间窗,从而特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定特征时间窗的语音数据在命令词集中命中的第二命令词,相当于确定一段新的特征时间窗,再次对连续输入的语音数据中是否包含命令词进行二次验证。可选的,在检测出第二命令词之后,可以执行第二命令词所指示的操作。由此可以通过基于目标时间窗初步确定语音数据命中命令词后,确定一个新的特征时间窗以对语音数据是否包含命令词进行二次验证,从而可以提升对语音数据的命令词检测的准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理***的结构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种目标时间窗的效果示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是申请实施例提供的一种一级检测网络的框架示意图;
图6是本申请实施例提供的一种数据处理方法的框架示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提出一种数据处理方案,能够根据目标时间窗内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词,相当于初步确定连续输入的语音数据中包含的命令词,进而基于第一命令词的特征信息比如命令词长度确定特征时间窗,从而特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定特征时间窗的语音数据在命令词集中命中的第二命令词,相当于确定一段新的特征时间窗,再次对连续输入的语音数据中是否包含命令词进行二次验证。可选的,在检测出第二命令词之后,可以执行第二命令词所指示的操作。由此可以通过基于目标时间窗初步确定语音数据命中命令词后,确定一个新的特征时间窗以对语音数据是否包含命令词进行二次验证,从而可以提升对语音数据的命令词检测的准确度。
在一种可能的实施方式中,本申请实施例可以应用于一种数据处理***中,请参见图1,图1是本申请实施例提供的一种数据处理***的结构示意图。如图1所示,该数据处理***可以包括语音发起对象和数据处理设备。其中,该语音发起对象可以用于向数据处理设备发送语音数据,该语音发起对象可以为需要请求数据处理设备进行响应的用户或设备等等,此处不做限制。该数据处理设备可以执行上述的数据处理方案,能够基于接收到的语音数据执行对应的操作,例如,该数据处理设备可以为车载***、智能音箱、智能家电等等。也就是说,语音发起对象在输出语音数据后,数据处理设备可以接收到该语音数据,进而数据处理设备可以基于上述数据处理方案检测到语音数据中的命令词,然后执行检测出的命令词所对应的操作。可以理解的是,在数据处理设备对语音数据进行检测前,可以预设一个命令词集,该命令词集中包括一个命令词或多个命令词,每个命令词可以关联有对应的操作,例如命令词“开启空调”关联有打开空调的操作,则数据处理设备在检测到包含该“开启空调”这一命令词的语音数据时,数据处理设备可以执行打开空调的操作。由于上述数据处理方案能够可以通过基于目标时间窗初步确定语音数据命中命令词后,确定一个新的特征时间窗以对语音数据是否包含命令词进行二次验证,从而可以提升该数据处理***中数据处理设备对语音数据的命令词检测的准确度,从而有助于用户更方便、准确地通过语音指示数据处理设备执行对应的操作。
需要进行说明的是,本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一种可能的实施方式中,本申请实施例可以应用于人工智能技术领域中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在一种可能的实施方式中,本申请实施例还可以应用于语音技术领域中,如上述检测语音数据命中的命令词。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
本申请的技术方案可运用在电子设备中,如上述的数据处理设备。该电子设备可以是终端,也可以是服务器,或者也可以是用于进行数据处理的其他设备,本申请不做限定。可选的。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、智能音箱、智能家电等。
可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述的描述,本申请实施例提出一种数据处理方法。请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由上述的电子设备执行。该数据处理方法可以包括以下步骤。
S201、确定当前语音帧对应的目标时间窗,并获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征。
其中,该当前语音帧可以为获取到的语音中的任一个语音帧。可以理解的是,该获取到的语音可以为实时语音,针对实时连续输入的语音数据,则该当前语音帧可以为该连续输入的语音数据中的最新的一个语音帧。该获取到的语音也可以为非实时语音,比如针对预先生成的一整段语音数据,则也可以依照语音数据中每个语音帧的先后顺序,依次将每个语音帧确定为当前语音帧。
其中,一个语音帧可以包括若干个采样点,也就是说,连续的若干个采样点的语音数据构成一个语音帧的语音数据。可以理解的是,相邻采样点之间的时间差相同。相邻两个语音帧中可以有部分重复的采样点,也可以包括完全不同的采样点,此处不做限制。例如,在输入的一段10s的语音数据中,每间隔10ms确定一个采样点,将连续的20个采样点确定为一个语音帧,如将该10s语音数据中,第1-20个采样点确定为一个语音帧,将第21-40个采样点确定为一个语音帧,以此类推得到多个语音帧。又如,为了避免相邻两个语音帧的音频数据变化过大,因此会让两相邻语音帧之间有一段重叠的采样点,如将该10s语音数据中,第1-20个采样点确定为一个语音帧,将第15-35个采样点确定为一个语音帧,第30-40个采样点确定为一个语音帧,以此类推得到多个语音帧。
当前语音帧对应的目标时间窗可以为以当前语音帧作为参考语音帧的时间窗,即该目标时间窗中包含该当前语音帧。其中,目标时间窗内可以包括多个语音帧,如该目标时间窗内可以包括K个语音帧,K为正整数,即K可以为目标时间窗内的所有语音帧的数目。可选的,该K个语音帧也可以为从目标时间窗内的所有语音帧的选取的部分语音帧,即K可以小于或等于目标时间窗内的所有语音帧的数目,例如,在确定目标时间窗后,计算目标时间窗中的每个语音帧的能量,进而将能量低于一定阈值的语音帧剔除,从而得到上述K个语音帧,从而可以过滤掉一些声音很小的语音帧,减少后续处理过程的计算量。一个目标时间窗的参考语音帧表示该时间窗是基于参考语音帧所划分的,例如,该参考语音帧可以为一个时间窗的第一个语音帧、最后一个语音帧或中心位置的语音帧,此处不做限制。此处第一个语音帧、最后一个语音帧的描述是按照时间顺序进行表征的,第一个语音帧即表示时间窗中输入时间最早的语音帧,最后一个语音帧即表示时间窗中输入时间最晚的语音帧。那么,当前语音帧对应的目标时间窗可以为以当前语音帧作为第一个语音帧的时间窗,或者可以为以当前语音帧作为最后一个语音帧时间窗,或者可以为以当前语音帧作为中心位置的语音帧的时间窗,此处不做限制。K可以预先设置得到,或者,可以基于获取到的语音的长度确定出,或者,可以基于命令词集中的命令词的长度如最大长度或平均长度等确定出,此处不做限制。
可选的,当前语音帧对应的目标时间窗也可以不包含当前语音帧。例如,当参考语音帧为一个时间窗的第一个语音帧时,可以将当前语音帧的后一个语音帧作为目标时间窗的参考语音帧,也即,目标时间窗的第一个语音帧为当前语音帧的后一个语音帧;又如,当参考语音帧为一个时间窗的最后一个语音帧时,可以将当前语音帧的前一个语音帧作为目标时间窗的参考语音帧,也即,目标时间窗的最后一个语音帧为当前语音帧的前一个语音帧,等等,此处不做赘述。
本申请中主要以当前语音帧作为对应的目标时间窗的最后一个语音帧(即参考语音帧)的情况为例,对后续目标时间窗以及特征时间窗的确定进行描述。例如,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第200个语音帧,参考语音帧为时间窗的最后一个语音帧,目标时间窗的大小为100个语音帧(即当前语音帧对应的目标时间窗内包含100个语音帧,即K为100),则可以将以第200个语音帧作为最后一个语音帧且大小为100的时间窗确定为第200个语音帧对应的目标时间窗,即将第200个语音帧之前的100个语音帧(第100-200个语音帧)确定为第200个语音帧对应的目标时间窗中的语音帧。
又如,此处以图示为例对目标时间窗进行介绍,请参见图3,图3是本申请实施例提供的一种目标时间窗的效果示意图。如图3中的(1)所示,在接收到的语音数据中,每个语音帧可以表示为其中的一个方块,若将如图3中的301所示的灰色方块确定为当前语音帧,预设目标时间窗的大小为8个语音帧,则可以将301之前(含301所指示的语音帧)的8个语音帧确定为301所对应的目标时间窗(如图3中的302所示);随着语音数据的连续输入,若基于302所示的时间窗中检测到未命中命令词,则可以基于滑动窗确定新的当前语音帧,比如滑动窗为1时,可以将301所示语音帧的后一个语音帧确定为新的当前语音帧(如图3的(2)中303所示),从而可以将303之前(含303所指示的语音帧)的8个语音帧确定为303所对应的目标时间窗(如图3中的304所示),以此类推,实现对连续输入的语音数据中的命令词的检测。
其中,获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征,可以为基于每个语音帧的语音数据确定对应的音频特征。在一种可能的实施方式中,该音频特征可以为FBank特征(一种语音数据的音频特征)。具体的,一个语音帧的语音数据为时域信号,则获取一个语音帧对应的FBank特征,可以先通过傅里叶变换将一个语音帧的语音数据时域信号转换为频域信号,进而基于计算得到的频域信号确定对应的FBank特征,此处不做赘述。可以理解的是,该音频特征还可以为基于其他方式确定的特征,如MFCC特征(一种语音数据的音频特征),此处不做限制。
S202、根据K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词。
其中,该第一命令词是指目标时间窗中的语音数据所命中的命令词,也称目标时间窗命中的命令词,该第一命令词属于上述的命令词集。可以理解的是,确定目标时间窗的语音数据在命令词集中命中的第一命令词的前提是,目标时间窗的语音数据在命令词集中存在命中的命令词,若目标时间窗的语音数据在命令词集中不存在命中的命令词,则不能确定出目标时间窗的语音数据在命令词集中命中的第一命令词。目标时间窗的语音数据是对目标时间窗中的K个语音帧的语音数据的简称,比如目标时间窗的语音数据在命令词集中命中的命令词可以是指目标时间窗的K个语音帧的语音数据在命令词集中命中的命令词;目标时间窗的语音数据在命令词集中命中的命令词,也可以简要描述为目标时间窗在命令词集中命中的命令词。
如上述,命令词集中包括至少一个命令词,命令词集中任一命令词可以具有多个音节。音节是指是听觉能感受到的最自然的语音单位,由一个或几个音素按一定规律组合而成。普通话里,除个别情况外,一个汉字就是一个音节,例如,命令词“打开空调”中包括4个音节。
在一种可能的实施方式中,确定目标时间窗的语音数据在命令词集中命中的第一命令词时,可以根据K个语音帧的语音数据分别对应的音频特征确定目标时间窗的语音数据与每个命令词对应的第一置信度,进而基于每个命令词对应的第一置信度确定所命中的第一命令词。其中,此处的每个命令词是指上述的命令词集中的每个命令词。该第一置信度可以表征目标时间窗的语音数据为每个命令词的可能性,每个命令词均可以有对应的第一置信度。
具体的,基于每个命令词对应的第一置信度确定所命中的第一命令词,可以为:若命令词集中存在第一置信度大于或等于第一阈值的命令词,则将第一置信度大于或等于第一阈值的命令词确定为目标时间窗的语音数据在命令词集中命中的第一命令词。该第一阈值可以为预先设置的阈值,为了提升命令词的检测准确率,可以设置一个合理的第一阈值来确定第一命令词。可选的,为了得到更好的性能,对于不同长度的命令词,可以设置不同的第一阈值,由此来平衡对不同命令长度的命令词的检出率和误检出率。可以理解的是,若存在多个第一置信度大于或等于第一阈值,则大于或等于第一阈值的每个第一置信度对应的命令词均可以确定为第一命令词,即第一命令词的数量可以为多个。
若命令词集中不存在第一置信度大于或等于第一阈值的命令词,则表示目标时间窗的语音数据不存在命中的命令词。
例如,命令词集中包括命令词1、命令词2、命令词3和命令词4,则根据目标时间窗内的K个语音帧的音频特征得到各个命令词对应的第一置信度,其中,命令词1对应的第一置信度为0.3,命令词2对应的第一置信度为0.75,命令词3对应的第一置信度为0.45,命令词4对应的第一置信度为0.66,若第一阈值为0.6,则命令词集中存在第一置信度大于或等于第一阈值的命令词,即命令词2和命令词4,则命令词2和命令词4目标时间窗的语音数据在命令词集中命中的第一命令词。
在一种可能的实施方式中,若目标时间窗的语音数据不存在命中的命令词,则可以不执行后续的操作,从而确定新的当前语音帧所对应的目标时间窗,进而检测新的目标时间窗的音频数据是否存在命中的命令词,以此类推,实现对各个语音帧对应的目标时间窗的音频数据是否命中命令词的检测。并且,由于在检测到目标时间窗不存在命中的命令词时,直接不执行后续的二次验证的步骤,提升了数据处理效率。
S203、基于第一命令词的命令词长度确定当前语音帧关联的特征时间窗,并获取特征时间窗内的多个语音帧的语音数据分别对应的音频特征。
其中,该特征时间窗可以为对命令词进行二次验证的时间窗,该特征时间窗中可以包括多个语音帧。该特征时间窗中与目标时间窗中可以包括重复的语音帧,但所包括的语音帧可以不完全相同,也可以完全相同,此处不做限制。特征时间窗内的多个语音帧的语音数据分别对应的音频特征,可以为基于每个语音帧的语音数据确定对应的音频特征,该音频特征可以为FBank特征,具体描述参照上述描述,此处不做赘述。
可以理解的是,执行步骤S203的前提是,检测到目标时间窗的语音数据存在命中的命令词,相当于在检测到目标时间窗的语音数据命中第一命令词后,再确定一个新的时间窗(即特征时间窗),以实现通过特征时间窗进行二次验证,提升对命令词的检测的准确度。
在一种可能的实施方式中,当前语音帧关联的特征时间窗的范围需要尽可能覆盖第一命令词在语音数据中语音帧,由此可以基于第一命令词的命令词长度(简称长度)确定当前语音帧前的语音帧的第一数量,从而根据当前语音帧前第一数量的语音帧的确定特征时间窗。其中,命令词长度是指命令词中的音节的数量。对于通常的中文命令词来说,一个字对应一个音节,例如,命令词“打开空调”这一命令词中包括四个字,对应的4个音节,即命令词长度为4。可以理解的是,若第一命令词的数量为多个时,可以基于长度为最大的第一命令词的命令词的长度确定特征时间窗所包含的语音帧的数量。
具体的,可以根据第一命令词的命令词长度与目标预设值确定特征时间窗。具体可以包括以下步骤:
①根据第一命令词的命令词长度与目标预设值确定第一数量。该目标预设值可以为预设的一个数值,因为通常来说,由于发音速度等原因一个字的发音(一个音节)可能会使得可以涉及到多个语音帧,一个命令词具有的多个音节可能涉及的到语音帧的数量大于或等于命令词的音节数量,因此可以通过确定目标预设值来确定第一数量,使得特征时间窗的大小尽可能覆盖第一命令词所涉及的语音帧。在一种可能的实施方式中,可以通过第一命令词的命令词长度与目标预设值相乘得到第一数量,从而使得得到的特征时间窗内包含语音帧的数量为第一数量。例如,第一命令词的长度为4,目标预设值为25,则第一数量可以为4*25=100,即特征时间窗内包括100个语音帧。
②根据在当前语音帧之前的第一数量的语音帧确定当前语音帧关联的特征时间窗。其中,当前语音帧之前的第一数量的语音帧中包括当前语音帧,根据在当前语音帧之前的第一数量的语音帧确定当前语音帧关联的特征时间窗,即将当前语音帧作为特征时间窗的最后一帧。例如,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第120个语音帧,第一数量为100个语音帧,则可以将以第120个语音帧作为最后一个语音帧的大小为100的时间窗确定为第120个语音帧关联的特征时间窗,即将第120个语音帧之前的100个语音帧(第20-120个语音帧)确定为第120个语音帧关联的特征时间窗中的语音帧。
在一种可能的实施方式中,命令词集中包括不同命令词长度的命令词,并且存在前缀相同或易混淆相似词等情况,例如,“打开制热”和“打开制热模式”是前缀相同但指示的操作不同的两个命令词,在实际处理过程中,由于语音数据是逐输入的,很有可能在当前语音帧为“打开制热”刚输入完成后的一个语音时,就基于当前语音帧对应的目标时间窗检测到命中“打开制热”这一命令词,但很可能实际要触发的命令词为“打开制热模式”,因此可以将“打开制热”后的一段语音帧也纳入特征时间窗内,也就是在确定当前语音帧关联的特征时间窗时,可以将当前语音帧之后的一段语音帧也确定为特征时间窗内的语音帧,从而进行更准确地命令词检测,即在确定特征时间窗时候引入了延时等待策略,当在通过目标时间窗确定命令词时出现提前误识别的情况,但是由于引入了延时等待策略,则确定的特征时间窗可以覆盖更大的时间窗,在基于特征时间窗进行二级验证时仍有很大的可能准确识别出正确的命令词,从而提升命令词识别准确率。
具体的,基于第一命令词的命令词长度确定当前语音帧关联的特征时间窗,可以包括以下步骤:①根据第一命令词的命令词长度与目标预设值确定第一数量。其中,此处步骤①可以参照上述相关描述,此处不做赘述。②根据在当前语音帧之前的第一数量的语音帧,以及在当前语音帧之后的第二数量的语音帧确定当前语音帧关联的特征时间窗。其中,当前语音帧之前的第一数量的语音帧中包括当前语音帧,当前语音帧之后第二数量的语音帧也包括当前语音帧,但特征时间窗中的多个语音帧仅包括一个当前语音帧。其中,第二数量可以为预设的一个数值,该第二数量可以为一个经验值,也可以根据命令词集中的最长命令词与第一命令词的命令词长度进行确定,具体可以通过最长命令词的命令词长度减第一命令词的的命令词长度得到长度差,进而将长度差乘以上述目标预设值得到第二数量。例如,最长命令词的命令词长度8,第一命令词度的命令词长度为5,则长度差为8-5=3,若目标预设值为25,则可以将3*25=75,则可以得到第二数量为75。此处以一个示例说明如何确定特征时间窗,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第120个语音帧,第一数量为100个语音帧,第二数量为75,则可以将第120个语音帧之前的100个语音帧(第20-120个语音帧)以及第120个语音帧之后的75个语音帧(第120-195)确定为第120个语音帧关联的特征时间窗中的语音帧,即特征时间窗中的语音帧包括第20-195个语音帧。
在一种可能的实施方式中,在电子设备接收到连续输入的语音数据时,可以对每个语音帧的音频特征进行提取并缓存至存储区域,则在确定特征时间窗后,可以直接从存储区域中提取到特征时间窗内的语音帧对应的音频特征,由此可以提升数据处理的效率,不用重复计算语音帧的音频特征。可以理解的是,缓存存储区域的音频特征的数量可以按照最大特征时间窗内的语音帧数量进行确定,从而可以保证基于任意的第一命令词确定的特征时间窗后,均可以从存储区域中快速获取该特征时间窗内的语音帧的音频特征。该最大特征时间窗即可以为基于命令词中长度最大的命令词的命令长度确定的特征时间窗。可以理解的是,为了避免缓存过多数据,随着语音数据的输入,每新输入一个语音帧,可以将缓存的输入时间最久的语音帧的音频特征删除,由此避免存储空间的浪费。
S204、基于特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定特征时间窗的语音数据在命令词集中命中的第二命令词。
其中,该第二命令词是指特征时间窗中的语音数据所命中的命令词,该第二命令词属于上述的命令词集。可选的,在确定出第二命令词之后,可执行第二命令词所指示的操作。特征时间窗的语音数据是对特征时间窗中的语音帧的语音数据的简称,比如特征时间窗的语音数据在命令词集中命中的命令词可以是指特征时间窗的多个语音帧的语音数据在命令词集中命中的命令词;特征时间窗的语音数据在命令词集中命中的第二命令词,也可以简要描述为特征时间窗在命令词集中命中的第二命令词。
可以理解的是,确定特征时间窗的语音数据在命令词集中命中的第二命令词的前提是,特征时间窗的语音数据在命令词集中存在命中的命令词,若特征时间窗的语音数据在命令词集中不存在命中的命令词,则不能确定出特征时间窗的语音数据在命令词集中命中的第二命令词。由此可以通过检测特征时间窗的语音数据是否命中命令词集中的命令词,相当于对连续输入的语音数据中是否命中命令词进行二次验证,从而将特征时间窗的语音数据的检测结果作为最终检测结果,若检测到在命令词集中命中的第二命令词,则执行第二命令词所指示的操作。例如,若检测到特征时间窗的语音数据命中的第二命令词“打开制热”,则可以执行打开制热的操作。
在一种可能的实施方式中,若特征时间窗的语音数据在命令词集中不存在命中的第二命令词,则可以不执行操作。进而可以确定新的当前语音帧的目标时间窗,重复上述步骤,直至基于新的当前语音帧关联的特征时间窗中的语音帧的音频特征确定特征时间窗的语音数据是否命中命令词集中的命令词,以此类推,实现对各个语音帧对应的时间窗的检测。
在一种可能的实施方式中,在检测到特征时间窗命中的第二命令词时,还可以包括将第二命令词用于其他用途,如通过提取到的命令词对其他模型进行训练,对提取到的命令词进行存储等等,此处不做限制。
在一种可能的实施方式中,命令词中还可以包括一些时间信息、地点信息等等,由此可以根据检测到的第二命令词的时间信息、地点信息在时间信息所指示的时间以及地点信息所指示的地点执行对应的操作。例如,在检测到目标命令词为“10点打开空调”时,其中的10点为命令词的时间信息,则可以在10点时执行打开空调的操作。
此处以一个示例来阐述如何实现对语音数据进行命令词检测的。首先可以接收语音数据,确定接收到语音数据中的当前语音帧对应的目标时间窗,进而确定目标时间窗是否命中命令词集中的命令词,具体可以通过目标时间窗中每个语音帧的语音数据的音频特征进行确定;若目标时间窗没有命中命令词集中的命令词,则可以不执行操作,并确定新的当前语音帧的目标时间窗;若目标时间窗命中命令词集中的命令词,则进行二次验证,具体可以为,确定当前语音帧关联的特征时间窗,进而确定特征时间窗是否命中命令词集中的命令词,若特征时间窗没有命中命令词集中的命令词,则不执行操作,并确定新的当前语音帧的目标时间窗,若特征时间窗命中命令词集中的命令词,则执行命中的命令词所指示的操作。由此可以通过确定特征时间窗来实现二次验证提升对语音数据中的命令词的检测的准确度。
在一种可能的场景中,本申请可以应用于电子设备已经被唤醒的情况下,检测接收到的语音数据是否命中命令词。即电子设备已经被语音发起对象通过唤醒词进行唤醒后,再基于接收的语音数据检测命中的命令词。
在一种可能的场景中,本申请还可以应用于不需要唤醒电子设备的场景,即电子设备在没有通过唤醒词进行唤醒的情况下,直接根据接收到的语音数据确定是否命中命令词,相当于在检测到接收到的语音数据命中命令词集中的命令词时,唤醒电子设备并执行命令词所指示的操作。这是由于本申请的命令词集中的命令词都是预设的,只有语音数据中包含命令词时才会触发电子设备执行对应的操作,且对命令词检测的准确度较高,由此可以使得语音发起对象可以更快速的通过语音指令指示电子设备执行对应的操作,不需要先唤醒设备再发布指令。可以理解的是,为了减少命令词的误识别率,在预先设置命令词集中的命令词,可以设置一些不是很常用的词语,或者在命令词中增加不常用的词组来减少命令词的误识别率,由此可以极大的地提高了交互体验。
本申请实施例提出一种数据处理方案,能够根据目标时间窗内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词,相当于初步确定连续输入的语音数据中包含的命令词,进而基于第一命令词的特征信息比如命令词长度确定特征时间窗,从而特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定特征时间窗的语音数据在命令词集中命中的第二命令词,相当于确定一段新的特征时间窗,再次对连续输入的语音数据中是否包含命令词进行二次验证。可选的,在检测出第二命令词之后,可以执行第二命令词所指示的操作。由此可以通过基于目标时间窗初步确定语音数据命中命令词后,确定一个新的特征时间窗以对语音数据是否包含命令词进行二次验证,从而可以提升对语音数据的命令词检测的准确度。
请参见图4,图4是本申请实施例提供的另一种数据处理方法的流程示意图。该方法可以由上述电子设备执行。该数据处理方法可以包括以下步骤。
S401、确定当前语音帧对应的目标时间窗,并获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征。
步骤S401的相关描述可以参照上述步骤S201的相关描述,此处不做赘述。
S402、根据K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词。
在一种可能的实施方式中,命令词集中的每个命令词具有对应的音节标识序列,该音节标识序列是指由命令词具有的音节的音节标识组成的序列,该音节标识可以用于表征音节。在一种可能的实施方式中,每个命令词具有的音节标识序列可以通过发音词典进行确定,该发音词典为一个预先处理得到的词典,可以包括命令词中的每个字与音节的音节标识的映射关系,从而可以根据发音字典确定出每个命令词所具有的音节的音节标识,也就相当于确定了命令词具有的音节。可以理解的是,不同的字可以有相同的音节,例如,命令词“播放歌曲”与“取消制热”中都包括“qu”这一音节。
在一种可能的实施方式中,如上述,命令词集中包括至少一个命令词,每个命令词具有多个音节,则步骤S402可以包括以下步骤:
①根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率;音节输出单元集是基于每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同。其中,该音节输出单元集是指能够对每个语音帧的语音数据所对应的音节进行分类的分类项的集合,该输出单元集中包括多个输出单元。例如,音节输出单元集中包括音节输出单元A、B、C,则表示每个语音帧的语音数据能够被分类为A、B或C,从而可以确定出K个语音帧分别与音节输出单元A、B、C相对应的概率。基于每个命令词具有的多个音节确定的音节输出单元集可以基于每个命令词具有的多个音节的音节标识确定的音节输出单元集,具体为,确定每个命令词具有的多个音节的音节标识的并集,该音节标识的并集中每个的每个音节标识对应一个音节输出单元。
在一种实施方式中,该音节输出单元集中还包括垃圾音节输出单元,使得在后续分类过程中,可以将不属于命令词集中的命令词具有的音节分类至该垃圾音节输出单元中。例如,命令词集中包含命令词1、命令词2、命令词3,命令词1具有的音节的音节标识分别为s1、s2、s3、s4,命令词2具有的音节的音节标识分别为s1、s4、s5、s6,命令词3具有的音节的音节标识分别为s7、s2、s3、s1,则在可以明确,命令词1-3中具有的音节的音节标识的并集为s1、s2、s3、s4、s5、s6、s7,由此可以得到s1、s2、s3、s4、s5、s6、s7分别对应的音节输出单元,并将该每个音节对应的音节输出单元以及垃圾音节输出单元确定为音节输出单元集。
②根据K个语音帧分别与每个音节输出单元相对应的概率,确定目标时间窗的语音数据与每个命令词对应的第一置信度。其中,确定任一命令词的第一置信度可以通过确定命令词具有的每个音节对应的概率之积的最大值得到,也就是相当于根据命令词具有的每个音节对应的最大概率之积确定第一置信度。
③若命令词集中存在第一置信度大于或等于第一阈值的命令词,则将第一置信度大于或等于第一阈值的命令词确定为目标时间窗的语音数据在命令词集中命中的第一命令词。此步骤可以参照上述描述,此处不做赘述。
在一种可能的实施方式中,命令集中的任一个命令词表示为目标命令词,则根据K个语音帧分别与每个音节输出单元相对应的概率,确定目标时间窗的语音数据与每个命令词对应的第一置信度,可以具体包括以下步骤:①将目标命令词具有的每个音节对应的音节输出单元确定为目标音节输出单元,得到目标命令词对应的多个目标音节输出单元。其中,该目标音节输出单元也就是指目标命令词具有的每个音节对应的音节输出单元,确定目标音节输出单元可以通过目标命令词的音节标识序列进行确定,这是由于每个音节输出单元均有对应的音节,则可以通过音节标识序列中的音节从多个音节输出单元中确定出目标音节输出单元。例如,目标命令词为“打开制热”,根据上述发音字典可以确定该目标命令词具有的音节的音节标识为s1、s2、s3、s4(也可称为目标命令词的音节标识序列),进而可以通过音节标识序列从音节输出单元集中确定出与s1、s2、s3、s4对应的音节输出单元作为目标音节输出单元。
②从K个语音帧分别与每个音节输出单元对应的概率中,确定K个语音帧分别与每个目标音节输出单元相对应的概率,得到每个目标音节输出单元分别对应的K个候选概率。其中,该候选概率即为目标音节输出单元与任一语音帧对应的概率。例如,目标音节输出单元有与s1、s2、s3、s4对应的音节输出单元(此处记为音节输出单元s1、s2、s3、s4),则可以确定出s1与K个语音帧分别对应的概率,s2与K个语音帧分别对应的概率,s3与K个语音帧分别对应的概率,以及s4与K个语音帧分别对应的概率,即得到的候选概率的总数量相当于有K*4个。
③从每个目标音节输出单元分别对应的K个候选概率中,确定每个目标音节输出单元分别对应的最大的候选概率,并根据每个目标音节输出单元分别对应的最大的候选概率确定目标时间窗的语音数据与目标命令词对应的第一置信度。其中,根据每个目标音节输出单元分别对应的最大的候选概率确定目标时间窗的语音数据与目标命令词对应的第一置信度,具体可以为根据每个目标音节输出单元分别对应的最大的候选概率的积,确定目标时间窗的语音数据与目标命令词对应的第一置信度,如可以直接将该多个候选概率之积确定为第一置信度,也可以通过其他数学计算得到第一置信度,此处不做限制。例如,s1与K个语音帧分别对应的概率为{G11、G12、G13......G1K},其中最大概率为目标时间窗中的第10个语音帧对应的概率G110;s2与K个语音帧分别对应的概率为{G21、G22、G23......G2K},其中最大概率为目标时间窗中的第25个语音帧对应的概率G225;s3与K个语音帧分别对应的概率为{G31、G32、G33......G3K},其中最大概率为目标时间窗中的第34个语音帧对应的概率G334;s4与K个语音帧分别对应的概率为{G41、G42、G43......G4K},其中最大概率为目标时间窗中的第39个语音帧对应的概率G439,进而可以根据G110、G225、G334以及G439之积确定目标时间窗的语音数据与目标命令词对应的第一置信度。可以理解的是,对命令词集中的每个命令词执行上述操作,可以确定出每个命令词所对应的第一置信度。
在一种可能的实施方式中,根据每个目标音节输出单元分别对应的最大的候选概率确定目标时间窗的语音数据与目标命令词对应的第一置信度,可以通过以下公式(公式1)进行计算:
其中,C可以表示目标时间窗的音频数据与目标命令词对应的第一置信度。n-1表示目标命令词对应的目标音节输出单元的数量,则n表示目标音节输出单元与垃圾音节输出单元的数量。i表示第i个目标音节输出单元,j表示目标时间窗的第j个语音帧,则pij表示第i个目标音节输出单元与第j个语音帧的概率,从而max pij表示第i个目标音节输出单元与各个语音帧对应的最大的候选概率,表示每个目标音节输出单元分别对应的最大的候选概率的积,从而可以基于公式1得到目标时间窗的音频数据与目标命令词对应的第一置信度。
在一种可能的实施方式中,该第一命令词是由训练好的一级检测网络确定的,一级检测网络具体如何确定第一命令词可以参照上述描述,此处不做赘述。在一种实现方式中,该训练好的一级检测网络可以分为声学模型以及置信度生成模块。该声学模型用于执行上述根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率的步骤。该声学模型通常采用深度神经网络,如DNN模型(一种神经网络模型)、CNN模型(一种神经网络模型)、LSTM模型(一种神经网络模型)等等,此处不做限制。该置信度生成模块可以用于执行上述基于根据K个语音帧分别与每个音节输出单元相对应的概率,确定目标时间窗的语音数据与每个命令词对应的第一置信度的步骤,具体描述此处不做赘述。可选的,该二级检测网络输出的结果的维度为命令词集中的命令词个数,每个维度对应一个命令词的第一置信度。
例如,请参见图5,图5是申请实施例提供的一种一级检测网络的框架示意图。如图5所示,首先可以获取目标时间窗内的K个语音帧的语音数据(如图5中的501所示),然后基于501确定出每个语音帧的音频特征(如图5中的502所示),进而将每个语音帧的音频特征输入训练好的一级检测网络中的声学模型(如图5中的503所示),然后基于声学模型得到的结果输入置信度生成模块(如图5中的504所示),从而置信度生成模块结合发音字典(如图5中的505所示)确定出每个命令词具有音节对应的目标音节输出单元,进而确定出每个命令词对应的第一置信度,如命令词1置信度、命令词2置信度、命令词m置信度等等,由此可以得到基于目标时间窗的音频数据所命中的第一命令词。可以理解的是,若每个命令词的第一置信度均不大于或等于第一阈值,则目标时间窗的音频数据不存在所命中的第一命令词。
在一种可能的实施方式中,在通过训练好的一级检测网络确定第一命令词之前,需要对一级检测网络进行训练,具体可以包括以下步骤:
①获取第一样本语音数据,第一样本语音数据携带音节输出单元标签。其中,该第一样本语音数据是指用于训练一级检测网络的语音数据,该第一样本语音数据可以为包含命令词的语音数据,即正样本数据,也可以为不包含命令词的语音数据,即负样本数据,由此可以通过正负样本数据的训练,使得训练效果更优。该音节输出单元标签也就是标注第一样本语音数据中的每个语音帧实际对应的音节输出单元。可以理解的是,若第一样本语音数据中的语音帧实际上对应的音节命令词集中每个命令词对应的音节,则该语音帧实际对应的音节输出单元为实际对应的音节所对应的音节输出单元,若语音帧实际上对应的音节命令词集中每个命令词对应的音节,则该语音帧实际对应的音节输出单元为垃圾音节输出单元。
②调用初始的一级检测网络,确定第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元。其中,该初始的一级检测网络中也包括声学模型,此处确定预测音节输出单元可以通过初始的一级检测网络中的声学模型进行确定,具体可以为,根据第一样本语音数据中每个语音帧的语音数据分别对应的音频特征,确定每个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率,进而基于每个语音帧分别与每个音节输出单元相对应的概率确定预测音节输出单元。其中,第一样本语音数据中每个语音帧的语音数据分别对应的音频特征与上述目标时间窗中的各个语音帧对应的音频的特征的计算方式相同,此处不做赘述。
③基于第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元与音节输出单元标签训练得到上述训练好的一级检测网络。其中,在训练过程中,应通过调整初始的一级检测网络的网络参数以使得每个语音帧分别对应的预测音节输出单元与音节输出单元标签所标注的实际音节输出单元逐渐相近,从而使得训练好的一级检测网络能够准确预测出每个语音帧与每个音节输出单元对应的概率。可以理解的是,此处预测音节输出单元是通过一级检测网络中的声学模型来确定的,也就是说,训练一级检测网络主要是调整一级检测网络中的声学模型的模型参数。
在一种可能的实施方式中,若通过Keyword/Filler HMM Model模型(一种命令词检测模型)来实现对是否命中命令词进行确定,即上述的一级检测网络可以为该Keyword/Filler HMM Model模型。则可以根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率,然后基于每个音节输出单元相对应的概率确定出最优解码路径,进而判断最优解码路径是否经过命令词的HMM路径(隐马尔柯夫路径),来确定是否命中命令词,或者可以确定基于每个音节输出单元相对应的概率确定出每个HMM路径对应的置信度,来确定是否命中命令词,此处不做限制。其中,可以理解的是,HMM路径可以为命令词HMM路径,也可以为填充HMM路径,每个命令词HMM路径可以由命令词所具有的多个音节对应的HMM状态串联组成,而填充HMM路径由一组精心设计的非命令词发音单元对应的HMM状态组成。由此可以基于每个音节输出单元相对应的概率确定与每个HMM状态的置信度,从而确定是否命中命令词,以及命中哪个命令词。
S403、基于第一命令词的命令词长度确定当前语音帧关联的特征时间窗,并获取特征时间窗内的多个语音帧的语音数据分别对应的音频特征。
步骤S403的相关描述可以参照上述步骤S203的相关描述,此处不做赘述。
可选的,上述第一数量还可以通过其他方式进行确定,如该第一数量可以为预设数量,该第一数量还可以根据第一命令词在目标时间窗命中最早出现时机进行确定,此处不做限制。进而基于该第一数量确定当前语音帧关联的特征时间窗。
在一种可能的实施方式中,如上述,该第一数量可以为预设数量,则该预设的数量应尽可能覆盖第一命令词,则可以基于命令词集中的最长的命令词长度设置预设数量。具体可以基于最长的命令词长度与上述目标预设值确定预设数量,进而将预设确定为第一数量,进而根据当前语音帧前第一数量的语音帧的确定特征时间窗。
在一种可能的实施方式中,该第一数量还可以根据第一命令词在目标时间窗命中最早出现时机进行确定,则确定特征时间窗具体可以包括以下步骤:①获取音节输出单元集,音节输出单元集是基于每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同。②根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率。其中,此处的①-②的相关描述参照上述描述,此处不做赘述。③将目标时间窗的语音数据命中的命令词具有的音节对应的音节输出单元确定为验证音节输出单元,并将K个语音帧中与验证音节输出单元相对应的概率最大的语音帧确定为目标语音帧。目标语音帧相当于第一命令词的任一音节在K个语音帧中被检测到的语音帧,即可以确定出第一命令词的出现时机。④根据目标语音帧与当前语音帧之间的语音帧确定当前语音帧关联的特征时间窗。其中,此处可以根据与当前语音帧之间的语音帧数量最多的目标语音帧确定当前语音帧关联的特征时间窗,即确定与当前语音帧间隔的语音帧数量最多的目标语音帧,该确定与当前语音帧间隔的语音帧数量最多的目标语音帧用于表征上述第一命令词在目标时间窗中的最早出现时机,则上述第一数量即为当前语音帧与该间隔语音帧数量最多的语音帧数量,进而将当前语音帧与该间隔语音帧数量最多的目标语音帧之间的语音帧确定为特征时间窗内的语音帧。可以理解的是,当前语音帧与该目标语音帧之间的语音帧包含当前语音帧与目标语音帧。通过这种方式可以确定的一个更准确的特征时间窗,进而在对特征时间窗内的语音数据进行命令词检测时,准确率更高。例如,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第120个语音帧,与当前语音帧之间的语音帧数量最多的目标语音帧为第20个语音帧,将第20-120个语音帧确定为第120个语音帧关联的特征时间窗中的语音帧。
S404、根据特征时间窗内的多个语音帧的语音数据分别对应的音频特征,确定特征时间窗的语音数据与每个命令词对应的第二置信度。
其中,此处的每个命令词是指上述的命令词集中的每个命令词。该第二置信度可以表征特征时间窗的语音数据为每个命令词的可能性,每个命令词均可以有对应的第二置信度。
在一种可能的实施方式中,在确定特征时间窗的语音数据与每个命令词对应的第二置信度时,还可以确定特征时间窗的语音数据与垃圾类对应的第二置信度,即通过与垃圾类的第二置信度表征特征时间窗的语音数据不为命令词的可能性。
S405、若命令词集中存在第二置信度大于或等于第二阈值的命令词,则将第二置信度大于或等于第二阈值且第二置信度最大的命令词确定为特征时间窗的语音数据在命令词集中命中的第二命令词,并执行第二命令词所指示的操作。
其中,该第二阈值可以为一个预先设置的阈值,为了提升命令词的检测准确率,可以设置一个合理的第二阈值来确定第二命令词。可以理解的是,若上述命令词集中不存在第二置信度大于或等于第二阈值的命令词,则确定特征时间窗的语音数据在命令词集中不存在命中的第二命令词。可选的,在确定出第二命令词之后,可执行第二命令词所指示的操作。
在一种可能的实施方式中,若在确定第二置信度时,还确定了特征时间窗的语音数据与垃圾类对应的第二置信度,则可以在除垃圾类对应的第二置信度外的第二置信度中确定最大的第二置信度,若该最大的第二置信度大于或等于第二阈值,则将该最大的第二置信度对应的命令词确定为命中的第二命令词,若该最大的第二置信度小于第二阈值,则将该特征时间窗的语音数据归类为垃圾类,即特征时间窗的语音数据在命令词集中不存在命中的第二命令词。
例如,命令词集中包括命令词1、命令词2、命令词3和命令词4,则基于特征时间窗口中的音频特征,得到各个命令词对应的第二置信度,其中,命令词1对应的第二置信度为0.3,命令词2对应的第二置信度为0.73,命令词3对应的第二置信度为0.42,命令词4对应的第二置信度为0.58,垃圾类对应的第二置信度为0.61;若预设的第二阈值为0.6,则命令词集中存在第二置信度大于或等于第一阈值的命令词,即命令词4,则命令词4为特征时间窗的语音数据在命令词集中命中的第二命令词,即输入的语音数据命中命令词4,进而可以执行命令词4所指示的操作。若预设的第二阈值为0.75,则命令词集中不存在第二置信度大于或等于第一阈值的命令词,确定特征时间窗的语音数据在命令词集中没有命中的命令词,即相当于特征时间窗的语音数据被分类为垃圾类,进而确定新的当前语音帧,以重复执行上述步骤,实现命令词的检测。
在一种可能的实施方式中,该第二命令词是由训练好的二级检测网络确定的,该二级检测网络可以为深度神经网络,如可以为CLDNN模型(一种神经网络模型)。二级检测网络具体如何确定第二命令词可以参照上述步骤S404-S405的相关描述,此处不做赘述。在一种实现方式中,在调用二级检测网络根据特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定命中的第二命令词时,可以将特征时间窗中的多个语音帧的语音数据依次输入,从而得到特征时间窗的语音数据与每个命令词对应的第二置信度。可选的,该二级检测网络输出的结果的维度为命令词集中的命令词个数加1,此处加上的1即为加上垃圾类对应的第二置信度的维度。
在一种可能的实施方式中,在通过训练好的二级检测网络确定第二命令词之前,需要对二级检测网络进行训练,具体可以包括以下步骤:
①获取第二样本语音数据,第二样本语音数据携带命令词标签。其中,该第二样本语音数是指用于训练二级检测网络的语音数据,该第二样本语音数据可以为正样本数据或负样本数据。该正样本数据可以为基于上述训练好的一级检测网络确定的一个特征时间窗中的音频数据。该负样本数据可以为包括各种非命令词的语音数据。该负样本数据中也可以为具有干扰噪声的音频数据,如加入音乐电视等噪声、各种远场环境下的合成或真实的音频数据,由此可以提升对远场环境或嘈杂环境下的命令词检测的准确性。可以理解的是,在对一级检测网络的训练过程中,所采用的负面数据中不包括具有各种干扰噪声的音频数据,这是因为通过这种具有各种干扰噪声的音频数据训练一级检测网络时,反而使得一级检测网络对音节输出单元的分类效果变差,从而通过在二级检测网络训练时通过入具有干扰噪声的音频数据对二级检测网络进行训练,提升了提升对干扰因素较多的情况下的命令词检测的准确性,有效弥补一级检测网络的缺陷,使得二级检测网络对一级检测网络具有很好的互补性。该音节输出单元标签也就是标注第二样本语音数据实际所对应的命令词,可以理解的是,若第二样本语音数据中实际上存在对应的命令词,则该音节输出单元标签标注该第二样本语音数据实际对应的命令词,若第二样本语音数据中实际上不存在对应的命令词,则该音节输出单元标签标注该第二样本语音数据实际属于垃圾类。
②调用二级检测网络确定第二样本语音数据对应的预测命令词。其中,此处确定预测命令词可以通过初始的二级检测网络中进行确定,具体可以为,根据第二样本语音数据中每个语音帧的语音数据分别对应的音频特征,确定第二样本语音数据与每个命令词对应的第二置信度,进而基于每个命令词对应的第二置信度确定第二样本语音数据对应的预测命令词。其中,第二样本语音数据中每个语音帧的语音数据分别对应的音频特征与上述目标时间窗中的各个语音帧对应的音频的特征的计算方式相同,此处不做赘述。
③基于预测命令词与命令词标签训练得到训练好的二级检测网络。其中,在训练过程中,应通过调整初始的二级检测网络的网络参数以使得第二样本语音数据对应的预测命令词与命令词标签标注的实际所对应命令词逐渐相近,从而使得训练好的二级检测网络能够准确预测出每个特征时间窗中的语音数据所对应的命令词。
可选的,本申请还可以基于每个命令词对应的第一置信度以及每个命令词分别对应的第二置信度确定特征时间窗的语音数据与每个命令词对应的第三置信度,进而可以基于第三置信度确定特征时间窗的语音数据命中的第二命令词。若命令词集中存在第二置信度大于或等于第二阈值的命令词,则将第二置信度大于或等于第二阈值且第二置信度最大的命令词确定为特征时间窗的语音数据在命令词集中命中的第二命令词。若命令词集中不存在第二置信度大于或等于第二阈值的命令词,则不执行操作,并确定新的当前语音帧的目标时间窗。由此可以通过对第一置信度与第二置信度进行结合来确定最终命中的命令词,可以提升命令词检测的准确度。
在一种可能的实施方式中,基于每个命令词对应的第一置信度以及每个命令词分别对应的第二置信度确定特征时间窗的语音数据与每个命令词对应的第三置信度,具体可以为:基于每个命令词对应的第一置信度、每个命令词分别对应的第二置信度进行拼接处理,得到验证特征,进而基于该验证特征确定特征时间窗的语音数据与每个命令词对应的第三置信度。基于该验证特征确定特征时间窗的语音数据与每个命令词对应的第三置信度可以基于一个训练好的神经网络进行确定,如一个简单的多层DNN网络(一种神经网络模型)。
在一种可能的实施方式中,基于每个命令词对应的第一置信度以及每个命令词分别对应的第二置信度确定特征时间窗的语音数据与每个命令词对应的第三置信度,还可以为,对每个命令词对应的第一置信度以及第二置信度进行数学计算得到特征时间窗的语音数据与每个命令词对应的第三置信度,如可以基于第一置信度与第二置信度的平均值或加权平均值确定命令词对应的第三置信度。可选的,由于特征时间窗所覆盖的语音帧可能更准确,则在确定第一置信度与第二置信度的加权平均值时,可以为第二置信度确定更高的权重。
可以理解的是,由于通常需要检测语音数据中的指令的电子设备所使用的CPU处理器(中央处理器)、内存、闪存等硬件配置较低,因此对每个功能的资源占用都有较为严格的额要求,本申请中对语音数据中的命令词检测主要是通过上述训练好的一级检测网络以及二级检测网络进行确定,网络结构较为简单,对电子设备的资源占用较小,并且可以有效提升命令词检测性能。相较于基于语音识别技术对接收到的语音数据进行内容的识别时,需要使用较大规模的声学模型和语言模型才能达到较好的识别效果,即需要占用较多设备资源才能达到好的识别效果,本申请实施例可以在资源占用较小的情况下准确检测出命中的命令词,由此可以适用于各种设备资源受限的场景,扩大了方案的应用场景,如可以适用于智能音箱、智能家电等资源受限的离线应用场景。
此处以一个示例来阐述如何通过二级验证来实现对语音数据的命令词检测,请参见图6,图6是本申请实施例提供的一种数据处理方法的框架示意图。如图6所示,本申请可以将整个数据处理方法的流程抽象为一级验证(如图6中的601所示)以及二级验证(如图6中的602所示),由此可以将语音数据输入以一级验证,具体可以包括基于当前语音帧对应的目标时间窗中语音数据的音频特征,从而基于训练好的一级检测网络确定每个命令词的第一置信度,进而进行阈值判断,确定出命中的第一命令词。从而基于第一命令词确定特征时间窗,进而获取当前语音帧关联的特征时间窗中的语音数据的音频特征,可以理解的是,该特征时间窗中的音频特征可以从缓存的各个语音帧的音频特征中获取。进而将特征时间窗对应的音频特征输入训练好的二级检测网络,得到每个命令词的第二置信度,从而通过阈值判断确定出特征时间窗所命中的第二命令词,由此可以通过对语音数据的二级验证提升命令词检测的准确度。
本申请实施例提出一种数据处理方案,能够根据目标时间窗内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据在命令词集中命中的第一命令词,相当于初步确定连续输入的语音数据中包含的命令词,进而基于第一命令词的特征信息比如命令词长度确定特征时间窗,从而特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定特征时间窗的语音数据在命令词集中命中的第二命令词,相当于确定一段新的特征时间窗,再次对连续输入的语音数据中是否包含命令词进行二次验证。可选的,在检测出第二命令词之后,可以执行第二命令词所指示的操作。由此可以通过基于目标时间窗初步确定语音数据命中命令词后,确定一个新的特征时间窗以对语音数据是否包含命令词进行二次验证,从而可以提升对语音数据的命令词检测的准确度。
请参见图7,图7是本申请实施例提供的一种数据处理装置的结构示意图。可选的,该数据处理装置可以设置于上述电子设备中。如图7所示,本实施例中所描述的数据处理装置可以包括:
获取单元701,用于确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
处理单元702,用于根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
所述处理单元702,还用于基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
所述处理单元702,还用于基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
在一种实现方式中,所述命令词集中包括至少一个命令词,每个命令词具有多个音节;所述处理单元702,具体用于:
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率;所述音节输出单元集是基于所述每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同;
根据所述K个语音帧分别与所述每个音节输出单元相对应的概率,确定所述目标时间窗的语音数据与所述每个命令词对应的第一置信度;
若所述命令词集中存在第一置信度大于或等于第一阈值的命令词,则将第一置信度大于或等于第一阈值的命令词确定为所述目标时间窗的语音数据在所述命令词集中命中的第一命令词。
在一种实现方式中,所述命令集中的任一个命令词表示为目标命令词;所述处理单元702,具体用于:
将所述目标命令词具有的每个音节对应的音节输出单元确定为目标音节输出单元,得到所述目标命令词对应的多个目标音节输出单元;
从所述K个语音帧分别与所述每个音节输出单元对应的概率中,确定所述K个语音帧分别与每个目标音节输出单元相对应的概率,得到所述每个目标音节输出单元分别对应的K个候选概率;
从所述每个目标音节输出单元分别对应的K个候选概率中,确定所述每个目标音节输出单元分别对应的最大的候选概率,并根据所述每个目标音节输出单元分别对应的最大的候选概率确定所述目标时间窗的语音数据与所述目标命令词对应的第一置信度。
在一种实现方式中,所述命令词集中包括至少一个命令词;所述处理单元702,具体用于:
根据所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述特征时间窗的语音数据与所述每个命令词对应的第二置信度;
若所述命令词集中存在第二置信度大于或等于第二阈值的命令词,则将第二置信度大于或等于第二阈值且第二置信度最大的命令词确定为所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
在一种实现方式中,所述处理单元702,具体用于:
根据所述第一命令词的命令词长度与目标预设值确定第一数量;
根据在所述当前语音帧之前的所述第一数量的语音帧,以及在所述当前语音帧之后的第二数量的语音帧确定所述当前语音帧关联的特征时间窗。
在一种实现方式中,所述第一命令词是由训练好的一级检测网络确定的,所述处理单元702,还用于:
获取第一样本语音数据,所述第一样本语音数据携带音节输出单元标签;
调用初始的一级检测网络,确定所述第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元;
基于所述第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元与所述音节输出单元标签训练得到所述训练好的一级检测网络。
在一种实现方式中,所述第二命令词是由训练好的二级检测网络确定的,所述处理单元702,还用于:
获取第二样本语音数据,所述第二样本语音数据携带命令词标签;
调用二级检测网络确定所述第二样本语音数据对应的预测命令词;
基于所述预测命令词与所述命令词标签训练得到所述训练好的二级检测网络。
请参见图8,图8是本申请实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备,包括:处理器801、存储器802。可选的,该电子设备还可包括网络接口或供电模块等结构。上述处理器801、存储器802之间可以交互数据。
上述处理器801可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述网络接口可以包括输入设备和/或输出设备,例如该输入设备是可以是控制面板、麦克风、接收器等,输出设备可以是显示屏、发送器等,此处不一一列举。
上述存储器802可以包括只读存储器和随机存取存储器,并向处理器801提供程序指令和数据。存储器802的一部分还可以包括非易失性随机存取存储器。其中,所述处理器801调用所述程序指令时用于执行:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
在一种实现方式中,所述命令词集中包括至少一个命令词,每个命令词具有多个音节;所述处理器801,具体用于:
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率;所述音节输出单元集是基于所述每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同;
根据所述K个语音帧分别与所述每个音节输出单元相对应的概率,确定所述目标时间窗的语音数据与所述每个命令词对应的第一置信度;
若所述命令词集中存在第一置信度大于或等于第一阈值的命令词,则将第一置信度大于或等于第一阈值的命令词确定为所述目标时间窗的语音数据在所述命令词集中命中的第一命令词。
在一种实现方式中,所述命令集中的任一个命令词表示为目标命令词;所述处理器801,具体用于:
将所述目标命令词具有的每个音节对应的音节输出单元确定为目标音节输出单元,得到所述目标命令词对应的多个目标音节输出单元;
从所述K个语音帧分别与所述每个音节输出单元对应的概率中,确定所述K个语音帧分别与每个目标音节输出单元相对应的概率,得到所述每个目标音节输出单元分别对应的K个候选概率;
从所述每个目标音节输出单元分别对应的K个候选概率中,确定所述每个目标音节输出单元分别对应的最大的候选概率,并根据所述每个目标音节输出单元分别对应的最大的候选概率确定所述目标时间窗的语音数据与所述目标命令词对应的第一置信度。
在一种实现方式中,所述命令词集中包括至少一个命令词;所述处理器801,具体用于:
根据所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述特征时间窗的语音数据与所述每个命令词对应的第二置信度;
若所述命令词集中存在第二置信度大于或等于第二阈值的命令词,则将第二置信度大于或等于第二阈值且第二置信度最大的命令词确定为所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
在一种实现方式中,所述处理器801,具体用于:
根据所述第一命令词的命令词长度与目标预设值确定第一数量;
根据在所述当前语音帧之前的所述第一数量的语音帧,以及在所述当前语音帧之后的第二数量的语音帧确定所述当前语音帧关联的特征时间窗。
在一种实现方式中,所述第一命令词是由训练好的一级检测网络确定的,所述处理器801,还用于:
获取第一样本语音数据,所述第一样本语音数据携带音节输出单元标签;
调用初始的一级检测网络,确定所述第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元;
基于所述第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元与所述音节输出单元标签训练得到所述训练好的一级检测网络。
在一种实现方式中,所述第二命令词是由训练好的二级检测网络确定的,所述处理器801,还用于:
获取第二样本语音数据,所述第二样本语音数据携带命令词标签;
调用二级检测网络确定所述第二样本语音数据对应的预测命令词;
基于所述预测命令词与所述命令词标签训练得到所述训练好的二级检测网络。
可选的,该程序指令被处理器执行时还可实现上述实施例中方法的其他步骤,这里不再赘述。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述方法,比如执行上述电子设备执行的方法,此处不赘述。
可选的,本申请涉及的存储介质如计算机可读存储介质可以是非易失性的,也可以是易失性的。
可选的,该计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。例如,该计算机指令存储在计算机可读存储介质中。计算机设备(即上述的电子设备)的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。例如,该计算机设备可以为终端,或者可以为服务器。
以上对本申请实施例所提供的一种数据查询方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
2.根据权利要求1所述方法,其特征在于,所述命令词集中包括至少一个命令词,每个命令词具有多个音节;
所述根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词,包括:
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率;所述音节输出单元集是基于所述每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同;
根据所述K个语音帧分别与所述每个音节输出单元相对应的概率,确定所述目标时间窗的语音数据与所述每个命令词对应的第一置信度;
若所述命令词集中存在第一置信度大于或等于第一阈值的命令词,则将第一置信度大于或等于第一阈值的命令词确定为所述目标时间窗的语音数据在所述命令词集中命中的第一命令词。
3.根据权利要求2所述方法,其特征在于,所述命令集中的任一个命令词表示为目标命令词;
所述根据所述K个语音帧分别与所述每个音节输出单元相对应的概率,确定所述目标时间窗的语音数据与所述每个命令词对应的第一置信度,包括:
将所述目标命令词具有的每个音节对应的音节输出单元确定为目标音节输出单元,得到所述目标命令词对应的多个目标音节输出单元;
从所述K个语音帧分别与所述每个音节输出单元对应的概率中,确定所述K个语音帧分别与每个目标音节输出单元相对应的概率,得到所述每个目标音节输出单元分别对应的K个候选概率;
从所述每个目标音节输出单元分别对应的K个候选概率中,确定所述每个目标音节输出单元分别对应的最大的候选概率,并根据所述每个目标音节输出单元分别对应的最大的候选概率确定所述目标时间窗的语音数据与所述目标命令词对应的第一置信度。
4.根据权利要求1所述方法,其特征在于,所述命令词集中包括至少一个命令词;所述基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词,包括:
根据所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述特征时间窗的语音数据与所述每个命令词对应的第二置信度;
若所述命令词集中存在第二置信度大于或等于第二阈值的命令词,则将第二置信度大于或等于第二阈值且第二置信度最大的命令词确定为所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
5.根据权利要求1所述方法,其特征在于,所述基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,包括:
根据所述第一命令词的命令词长度与目标预设值确定第一数量;
根据在所述当前语音帧之前的所述第一数量的语音帧,以及在所述当前语音帧之后的第二数量的语音帧确定所述当前语音帧关联的特征时间窗。
6.根据权利要求1所述方法,其特征在于,所述第一命令词是由训练好的一级检测网络确定的,所述方法还包括:
获取第一样本语音数据,所述第一样本语音数据携带音节输出单元标签;
调用初始的一级检测网络,确定所述第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元;
基于所述第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元与所述音节输出单元标签训练得到所述训练好的一级检测网络。
7.根据权利要求6所述方法,其特征在于,所述第二命令词是由训练好的二级检测网络确定的,所述方法还包括:
获取第二样本语音数据,所述第二样本语音数据携带命令词标签;
调用二级检测网络确定所述第二样本语音数据对应的预测命令词;
基于所述预测命令词与所述命令词标签训练得到所述训练好的二级检测网络。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
处理单元,用于根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据在命令词集中命中的第一命令词;
所述处理单元,还用于基于所述第一命令词的命令词长度确定所述当前语音帧关联的特征时间窗,并获取所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征;
所述处理单元,还用于基于所述特征时间窗内的多个语音帧的语音数据分别对应的音频特征确定所述特征时间窗的语音数据在所述命令词集中命中的第二命令词。
9.一种电子设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7任一项所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210597464.XA CN115132198B (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、电子设备、程序产品及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210597464.XA CN115132198B (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、电子设备、程序产品及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115132198A true CN115132198A (zh) | 2022-09-30 |
CN115132198B CN115132198B (zh) | 2024-03-15 |
Family
ID=83378679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210597464.XA Active CN115132198B (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、电子设备、程序产品及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115132198B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US5018201A (en) * | 1987-12-04 | 1991-05-21 | International Business Machines Corporation | Speech recognition dividing words into two portions for preliminary selection |
KR101122590B1 (ko) * | 2011-06-22 | 2012-03-16 | (주)지앤넷 | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 |
WO2014203328A1 (ja) * | 2013-06-18 | 2014-12-24 | 株式会社日立製作所 | 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体 |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110890093A (zh) * | 2019-11-22 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN111105794A (zh) * | 2019-12-13 | 2020-05-05 | 珠海格力电器股份有限公司 | 设备的语音识别方法和装置 |
CN111933112A (zh) * | 2020-09-21 | 2020-11-13 | 北京声智科技有限公司 | 唤醒语音确定方法、装置、设备及介质 |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
WO2021093449A1 (zh) * | 2019-11-14 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN114220418A (zh) * | 2021-12-17 | 2022-03-22 | 四川启睿克科技有限公司 | 目标说话人的唤醒词识别方法及装置 |
CN115132197A (zh) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
-
2022
- 2022-05-27 CN CN202210597464.XA patent/CN115132198B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US5018201A (en) * | 1987-12-04 | 1991-05-21 | International Business Machines Corporation | Speech recognition dividing words into two portions for preliminary selection |
KR101122590B1 (ko) * | 2011-06-22 | 2012-03-16 | (주)지앤넷 | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 |
WO2014203328A1 (ja) * | 2013-06-18 | 2014-12-24 | 株式会社日立製作所 | 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体 |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
WO2021093449A1 (zh) * | 2019-11-14 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN110890093A (zh) * | 2019-11-22 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN111105794A (zh) * | 2019-12-13 | 2020-05-05 | 珠海格力电器股份有限公司 | 设备的语音识别方法和装置 |
CN111933112A (zh) * | 2020-09-21 | 2020-11-13 | 北京声智科技有限公司 | 唤醒语音确定方法、装置、设备及介质 |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
US20220165258A1 (en) * | 2020-11-23 | 2022-05-26 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice processing method, electronic device, and storage medium |
CN114220418A (zh) * | 2021-12-17 | 2022-03-22 | 四川启睿克科技有限公司 | 目标说话人的唤醒词识别方法及装置 |
CN115132197A (zh) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
Non-Patent Citations (1)
Title |
---|
B SHI: "Whole-Word Segmental Speech Recognition with Acoustic Word Embedding", 《ARXIV:2007.00183》, 24 November 2020 (2020-11-24) * |
Also Published As
Publication number | Publication date |
---|---|
CN115132198B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN107316643B (zh) | 语音交互方法及装置 | |
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN107240398B (zh) | 智能语音交互方法及装置 | |
CN110660201B (zh) | 到站提醒方法、装置、终端及存储介质 | |
CN107767863A (zh) | 语音唤醒方法、***及智能终端 | |
CN111862942B (zh) | 普通话和四川话的混合语音识别模型的训练方法及*** | |
CN108694940A (zh) | 一种语音识别方法、装置及电子设备 | |
CN110428854B (zh) | 车载端的语音端点检测方法、装置和计算机设备 | |
CN112599127B (zh) | 一种语音指令处理方法、装置、设备及存储介质 | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
US11361764B1 (en) | Device naming-indicator generation | |
CN112420026A (zh) | 优化关键词检索*** | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN111710337A (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN114333768A (zh) | 语音检测方法、装置、设备和存储介质 | |
US11763806B1 (en) | Speaker recognition adaptation | |
CN115132195B (zh) | 语音唤醒方法、装置、设备、存储介质及程序产品 | |
CN116129942A (zh) | 语音交互设备和语音交互方法 | |
CN115132198B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN113744734A (zh) | 一种语音唤醒方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |