CN115132197B - 数据处理方法、装置、电子设备、程序产品及介质 - Google Patents
数据处理方法、装置、电子设备、程序产品及介质 Download PDFInfo
- Publication number
- CN115132197B CN115132197B CN202210597334.6A CN202210597334A CN115132197B CN 115132197 B CN115132197 B CN 115132197B CN 202210597334 A CN202210597334 A CN 202210597334A CN 115132197 B CN115132197 B CN 115132197B
- Authority
- CN
- China
- Prior art keywords
- time window
- command word
- voice
- voice data
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 25
- 238000012795 verification Methods 0.000 claims abstract description 342
- 238000012545 processing Methods 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 abstract description 110
- 238000005516 engineering process Methods 0.000 abstract description 24
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 14
- 238000005070 sampling Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 238000010438 heat treatment Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了数据处理方法、装置、电子设备、程序产品及介质,可应用于数据处理技术领域。其中方法包括:根据目标时间窗内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词;当目标时间窗的语音数据命中命令词时,确定与当前语音帧关联的验证时间窗;确定验证时间窗内的语音数据与每个命令词对应的第一置信度,并确定验证时间窗对应的关联特征;基于每个命令词对应的第一置信度以及关联特征确定命中的结果命令词。采用本申请实施例,有助于提升对语音数据的命令词检测的准确度。本申请实施例还可应用于云技术、人工智能、智慧交通、辅助驾驶、智能家电等各种场景。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备、程序产品及介质。
背景技术
目前,语音检测技术得到了广泛的应用,许多智能设备(如车载***、智能音箱、智能家电等等)中设置有语音检测功能,智能设备可以接收通过语音的形式发布的指令,基于接收到的语音数据检测其中的指令,并执行对应的操作。然而,发明人在实践过程中发现,在检测语音数据中的指令时,对语音数据中的命令词的检测的准确度较低。
发明内容
本申请实施例提供了一种数据处理方法、装置、电子设备、程序产品及介质,有助于提升对语音数据的命令词检测的准确度。
一方面,本申请实施例公开了一种数据处理方法,所述方法包括:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的多个语音帧的语音数据确定所述验证时间窗对应的关联特征;
基于所述每个命令词分别对应的第一置信度以及所述关联特征确定所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
一方面,本申请实施例公开了一种数据处理装置,所述装置包括:
获取单元,用于确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
处理单元,用于根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
所述处理单元,还用于当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
所述处理单元,还用于根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的语音数据确定所述验证时间窗对应的关联特征;
所述处理单元,还用于基于所述每个命令词分别对应的第一置信度以及所述关联特征确定所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
一方面,本申请实施例提供了一种电子设备,电子设备包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于执行如下步骤:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的语音数据确定所述验证时间窗对应的关联特征;
基于所述每个命令词分别对应的第一置信度以及所述关联特征确定所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行如下步骤:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的语音数据确定所述验证时间窗对应的关联特征;
基于所述每个命令词分别对应的第一置信度以及所述关联特征确定所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时可实现上述一方面提供的方法。
本申请实施例提出一种数据处理方案,能够基于一级检测(验证)和二级检测(验证)实现命令词检测。例如,可根据目标时间窗口内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词,当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗,从而确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并确定验证时间窗对应的关联特征,进而基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词。可选的,在确定出结果命令词之后,还可执行结果命令词所指示的操作。由此可以通过一级检测确定命令词即基于目标时间窗初步确定语音数据命中命令词后,进行二级检测,即确定一个新的验证时间窗以对语音数据是否包含命令词进行二次验证,并且在进行二次验证时加入关联特征,使得能够基于更多信息确定验证时间窗是否命中命令词,从而可以提升对语音数据的命令词检测的准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理***的结构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种目标时间窗的效果示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是本申请实施例提供的又一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种一级检测网络的框架示意图;
图7是本申请实施例提供的一种数据处理方法的框架示意图;
图8是本申请实施例提供的又一种数据处理方法的流程示意图;
图9是本申请实施例提供的另一种数据处理方法的框架示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提出一种数据处理方案,能够基于一级检测(验证)和二级检测(验证)实现命令词检测。例如,可根据目标时间窗口内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词,当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗,从而确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并确定验证时间窗对应的关联特征,进而基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词。可选的,在确定出结果命令词之后,还可执行结果命令词所指示的操作。由此可以通过一级检测确定命令词即基于目标时间窗初步确定语音数据命中命令词后,进行二级检测,即确定一个新的验证时间窗以对语音数据是否包含命令词进行二次验证,并且在进行二次验证时加入关联特征,使得能够基于更多信息确定验证时间窗是否命中命令词,从而可以提升对语音数据的命令词检测的准确度。
在一种可能的实施方式中,本申请实施例可以应用于一种数据处理***中,请参见图1,图1是本申请实施例提供的一种数据处理***的结构示意图。如图 1所示,该数据处理***可以包括语音发起对象和数据处理设备。其中,该语音发起对象可以用于向数据处理设备发送语音数据,该语音发起对象可以为需要请求数据处理设备进行响应的用户或设备等等,此处不做限制。该数据处理设备可以执行上述的数据处理方案,能够基于接收到的语音数据执行对应的操作,例如,该数据处理设备可以为车载***、智能音箱、智能家电等等。也就是说,语音发起对象在输出语音数据后,数据处理设备可以接收到该语音数据,进而数据处理设备可以基于上述数据处理方案检测到语音数据中的命令词,然后执行检测出的命令词所对应的操作。可以理解的是,在数据处理设备对语音数据进行检测前,可以预设一个命令词集,该命令词集中包括至少一个命令词,每个命令词可以关联有对应的操作,例如命令词“开启空调”关联有打开空调的操作,则数据处理设备在检测到包含该“开启空调”这一命令词的语音数据时,数据处理设备可以执行打开空调的操作。由于上述数据处理方案能够可以通过基于目标时间窗初步确定语音数据命中命令词后,确定一个新的验证时间窗以对语音数据是否包含命令词进行二次验证,从而可以提升该数据处理***中数据处理设备对语音数据的命令词检测的准确度,从而有助于用户更方便、准确地通过语音指示数据处理设备执行对应的操作。
需要进行说明的是,本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一种可能的实施方式中,本申请实施例可以应用于人工智能技术领域中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在一种可能的实施方式中,本申请实施例还可以应用于语音技术领域中,如上述检测语音数据命中的命令词。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
本申请的技术方案可运用在电子设备中,如上述的数据处理设备。该电子设备可以是终端,也可以是服务器,或者也可以是用于进行数据处理的其他设备,本申请不做限定。可选的。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、智能音箱、智能家电等。
可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述的描述,本申请实施例提出一种数据处理方法。请参见图2,图2 是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由上述的电子设备执行。该数据处理方法可以包括以下步骤。
S201、确定当前语音帧对应的目标时间窗,并获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征。
其中,该当前语音帧可以为获取到的语音数据中的任一个语音帧。可以理解的是,该获取到的语音数据可以为实时语音,针对实时连续输入的语音数据,则该当前语音帧可以为该连续输入的语音数据中的最新的一个语音帧。该获取到的语音数据也可以为非实时语音,比如针对预先生成的一整段语音数据,则也可以依照语音数据中每个语音帧的先后顺序,依次将每个语音帧确定为当前语音帧。
其中,一个语音帧可以包括若干个采样点,也就是说,连续的若干个采样点的语音数据构成一个语音帧的语音数据。可以理解的是,相邻采样点之间的时间差相同。相邻两个语音帧中可以有部分重复的采样点,也可以包括完全不同的采样点,此处不做限制。例如,在输入的一段10s的语音数据中,每间隔 10ms确定一个采样点,将连续的20个采样点确定为一个语音帧,如将该10s 语音数据中,第1-20个采样点确定为一个语音帧,将第21-40个采样点确定为一个语音帧,以此类推得到多个语音帧。又如,为了避免相邻两个语音帧的音频数据变化过大,因此会让两相邻语音帧之间有一段重叠的采样点,如将该10s 语音数据中,第1-20个采样点确定为一个语音帧,将第15-35个采样点确定为一个语音帧,第30-40个采样点确定为一个语音帧,以此类推得到多个语音帧。
当前语音帧对应的目标时间窗可以为以当前语音帧作为参考语音帧的时间窗。可选的,当前语音帧对应的目标时间窗可以包含当前语音帧。其中,目标时间窗内可以包括多个语音帧,如该目标时间窗内可以包括K个语音帧,K为正整数,即K可以为目标时间窗内的所有语音帧的数目。可选的,该K个语音帧也可以为从目标时间窗内的所有语音帧的选取的语音帧,即K可以小于或等于目标时间窗内的所有语音帧的数目,例如,在确定目标时间窗后,计算目标时间窗中的每个语音帧的能量,进而将能量低于一定阈值的语音帧剔除,从而得到上述K个语音帧,由此可以过滤掉一些声音很小的语音帧,减少后续处理过程的计算量。一个目标时间窗的参考语音帧表示该时间窗是基于参考语音帧所划分的,例如,该参考语音帧可以为一个时间窗的第一个语音帧、最后一个语音帧或中心位置的语音帧,此处不做限制。此处第一个语音帧、最后一个语音帧的描述是按照时间顺序进行表征的,第一个语音帧即表示时间窗中输入时间最早的语音帧,最后一个语音帧即表示时间窗中输入时间最晚的语音帧。那么,当前语音帧对应的目标时间窗可以为以当前语音帧作为第一个语音帧的时间窗,或者可以为以当前语音帧作为最后一个语音帧时间窗,或者可以为以当前语音帧作为中心位置的语音帧的时间窗,此处不做限制。K可以预先设置得到,或者,可以基于获取到的语音的长度确定出,或者,可以基于命令词集中的命令词的长度如最大长度或平均长度等确定出,此处不做限制。
可选的,当前语音帧对应的目标时间窗也可以不包含当前语音帧。例如,当参考语音帧为一个时间窗的第一个语音帧时,可以将当前语音帧的后一个语音帧作为目标时间窗的参考语音帧,也即,目标时间窗的第一个语音帧为当前语音帧的后一个语音帧;又如,当参考语音帧为一个时间窗的最后一个语音帧时,可以将当前语音帧的前一个语音帧作为目标时间窗的参考语音帧,也即,目标时间窗的最后一个语音帧为当前语音帧的前一个语音帧,等等,此处不做赘述。
本申请中主要以当前语音帧作为对应的目标时间窗的最后一个语音帧(即参考语音帧)的情况为例,对后续目标时间窗以及验证时间窗的确定进行描述。例如,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第200个语音帧,参考语音帧为时间窗的最后一个语音帧,目标时间窗的大小为100个语音帧(即当前语音帧对应的目标时间窗内包含100个语音帧,即K 为100),则可以将以第200个语音帧作为最后一个语音帧且大小为100的时间窗确定为第200个语音帧对应的目标时间窗,即将第200个语音帧之前的100 个语音帧(第100-200个语音帧)确定为第200个语音帧对应的目标时间窗中的语音帧。
又如,此处以图示为例对目标时间窗进行介绍,请参见图3,图3是本申请实施例提供的一种目标时间窗的效果示意图。如图3中的(1)所示,在接收到的语音数据中,每个语音帧可以表示为其中的一个方块,若将如图3中的301 所示的灰色方块确定为当前语音帧,预设目标时间窗的大小为8个语音帧,则可以将301之前(含301所指示的语音帧)的8个语音帧确定为301所对应的目标时间窗(如图3中的302所示);随着语音数据的连续输入,若基于302 所示的时间窗中检测到未命中命令词,则可以基于滑动窗确定新的当前语音帧,比如滑动窗为1时,可以将301所示语音帧的后一语音帧确定为新的当前语音帧(如图3的(2)中303所示),从而可以将303之前(含303所指示的语音帧)的8个语音帧确定为303所对应的目标时间窗(如图3中的304所示),以此类推,实现对连续输入的语音数据中的命令词的检测。
其中,获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征,可以为基于每个语音帧的语音数据确定对应的音频特征。在一种可能的实施方式中,该音频特征可以为FBank特征(一种语音数据的音频特征)。具体的,一个语音帧的语音数据为时域信号,则获取一个语音帧对应的FBank特征,可以先通过傅里叶变换将一个语音帧的语音数据时域信号转换为频域信号,进而基于计算得到的频域信号确定对应的FBank特征,此处不做赘述。可以理解的是,该音频特征还可以为基于其他方式确定的特征,如MFCC特征(一种语音数据的音频特征),此处不做限制。
S202、根据K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词。
其中,如上述,命令词集中包括至少一个(一个或多个)命令词。目标时间窗的语音数据是对目标时间窗中的K个语音帧的语音数据的简称,比如目标时间窗的语音数据在命令词集中命中的命令词可以是指目标时间窗的K个语音帧的语音数据在命令词集中命中的命令词;目标时间窗的语音数据在命令词集中命中的命令词,也可以简要描述为目标时间窗在命令词集中命中的命令词。
在一种可能的实施方式中,步骤S202可以包括以下步骤:①根据K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据与命令词集中每个命令词相对应的第二置信度。②若命令词集中存在第二置信度大于或等于第一阈值的命令词,则确定目标时间窗的语音数据命中命令词集中的命令词。③若命令词集中不存在第二置信度大于或等于第一阈值的命令词,则确定目标时间窗的语音数据没有命中命令词集中的命令词。其中,第二置信度可以表征目标时间窗的语音数据为每个命令词的可能性,每个命令词均可以有对应的第二置信度。其中,第一阈值可以为预先设置的阈值,为了提升命令词的检测准确率,可以设置一个合理的第一阈值来确定目标时间窗的语音数据是否命中命令词集中的命令词。可选的,为了得到更好的性能,对于不同长度的命令词,可以设置不同的第一阈值,由此来平衡对不同命令长度的命令词的检出率和误检出率。可以理解的是,可能存在多个大于或等于第一阈值的第二置信度,则每个大于或等于第一阈值的第二置信度对应的命令词均可以为目标时间窗的语音数据命中的命令词。为了便于描述,本申请将目标时间窗所命中的命令词称为一级命令词。
例如,命令词集中包括命令词1、命令词2、命令词3和命令词4,则根据目标时间窗内的K个语音帧的音频特征得到各个命令词对应的第二置信度,其中,命令词1对应的第二置信度为0.3,命令词2对应的第二置信度为0.75,命令词3对应的第二置信度为0.45,命令词4对应的第二置信度为0.66,若第一阈值为0.6,则命令词集中存在第二置信度大于或等于第一阈值的命令词,即命令词2和命令词4。
S203、当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗。
其中,该验证时间窗可以为对命令词进行二次验证的时间窗,该验证时间窗中可以包括多个语音帧。该验证时间窗中与目标时间窗中可以包括重复的语音帧,但所包括的语音帧可以不完全相同,也可以完全相同,此处不做限制。当前语音帧关联的验证时间窗的范围需要尽可能覆盖目标时间窗命中的命令词在语音数据中涉及的语音帧。
在一种可能的实施方式中,确定当前语音帧关联的验证时间窗口,可以确定当前语音帧前的语音帧的第一数量,然后根据当前语音帧前第一数量的语音帧的确定验证时间窗。该第一数量的大小可以通过多种方式进行确定。具体的,该第一数量可以为预设数量;该第一数量也可以根据目标时间窗命中的命令词长度(简称长度)进行确定;该第一数量还可以根据一级命令词在目标时间窗中的最早出现时机进行确定,此处不做限制。可以理解的是,本申请是以当前语音帧为目标时间窗口的最后一帧为示例,此处是根据当前语音帧前第一数量的语音帧的确定验证时间窗;若当前语音帧为目标时间窗口的第一个语音帧,则可以根据其他方式确定验证时间窗,如当前语音帧为目标时间窗口的第一个语音帧,则此处可以根据当前语音帧后第一数量的语音帧的确定验证时间窗,此处不做限制。
在一种可能的实施方式中,当目标时间窗的语音数据不存在命中的命令词时,则不执行后续的操作,从而确定新的当前语音帧所对应的目标时间窗,进而检测新的目标时间窗的音频数据是否存在命中的命令词,以此类推,实现对各个语音帧对应的目标时间窗的音频数据是否命中命令词的检测。并且,由于在检测到目标时间窗不存在命中的命令词时,直接不执行后续的二次验证的步骤,提升了数据处理效率。
S204、根据验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并基于验证时间窗中的语音数据确定验证时间窗对应的关联特征。
其中,此处的每个命令词是指上述的命令词集中的每个命令词。该第一置信度可以表征验证时间窗的语音数据为每个命令词的可能性,每个命令词均可以有对应的第一置信度。
验证时间窗内的多个语音帧的语音数据分别对应的音频特征,可以为基于每个语音帧的语音数据确定对应的音频特征,该音频特征可以为FBank特征,具体描述参照上述描述,此处不做赘述。
在一种可能的实施方式中,在电子设备接收到连续输入的语音数据时,可以对每个语音帧的音频特征进行提取并缓存至存储区域,则在确定验证时间窗后,可以直接从存储区域中提取到验证时间窗内的语音帧对应的音频特征,由此可以提升数据处理的效率,不用重复计算语音帧的音频特征。可以理解的是,缓存存储区域的音频特征的数量可以按照最大验证时间窗内的语音帧数量进行确定,从而可以保证基于任意的一级命令词确定的验证时间窗后,均可以从存储区域中快速获取该验证时间窗内的语音帧的音频特征。该最大验证时间窗即可以为基于命令词集中长度最大的命令词的命令长度确定的验证时间窗。可以理解的是,为了避免缓存过多数据,随着语音数据的输入,每新输入一个语音帧,可以将缓存的输入时间最久的语音帧的音频特征删除,由此避免存储空间的浪费。
该关联特征可以是指验证时间窗中的语音数据整体所具有的相关特征,该关联特征与上述的每个语音帧对应的音频特征不同。
在一种可能的实施方式中,该关联特征包括以下至少一种(一种或多种):验证时间窗中的语音数据的第一平均能量、验证时间窗中的语音数据的有效语音占比、验证时间窗中的语音数据的信噪比以及验证时间窗中语音帧的数量。可以理解的是,该关联特征中还可以包括其他特征,如目标时间窗口所命中的命令词的命令词长度等等,此处不做限制。
具体的,基于验证时间窗中的语音数据确定验证时间窗对应的关联特征,可以包括以下步骤:
①基于验证时间窗中的每个语音帧的语音数据的能量确定验证时间窗的语音数据的第一平均能量。此处可以先确定验证时间窗中的每个语音帧的语音数据的能量,然后基于每个语音帧的语音数据的能量确定第一平均能量,例如,验证时间窗的语音数据的第一平均能量可以通过以下公式(公式1以及公式2) 进行确定:
其中,p代表验证时间窗中任一个语音帧的语音数据的能量,N表示一个语音帧中的采样点的个数,X(n)表示一个语音帧中的第n个采样点的幅度值,从而可以根据公式1计算得到每个语音帧的语音数据的能量。
其中,P表示验证时间窗的语音数据的第一平均能量,T表示验证时间窗内的语音帧的数量。p(t)表示验证时间窗中第t个语音帧的能量,可以由上述的公式1计算得到。则表示验证时间窗中的每个语音帧的能量之和。由此可以通过公式2计算得到验证时间窗的语音数据的第一平均能量。
②根据验证时间窗中的有效语音帧的数量确定验证时间窗的语音数据的有效语音占比,有效语音帧为能量大于或等于第一平均能量的语音帧。其中,该有效语音占比用于也就是验证时间窗中的有效语音帧在整个验证时间窗中的占比。例如,该有效语音占比可以通过以下公式(公式3)进行确定:
其中,R表示验证时间窗的语音数据的有效语音占比,r表示验证时间窗中的有效语音帧的数量,T表示验证时间窗内的语音帧的数量,由此可以通过公式 3计算得到有效语音占比。
③根据验证时间窗中的有效语音帧的第二平均能量与第一平均能量确定验证时间窗的语音数据的信噪比。其中,该信噪比可以通过验证时间窗中的有效语音帧的第二平均能量除以第一平均能量得到,例如,具体可以通过以下公式 (公式4)进行确定:
其中,E-SNR表示验证时间窗的语音数据的信噪比,P表示验证时间窗的语音数据的第一平均能量,M表示验证时间窗中的有效语音帧的第二平均能量,由此可以通过公式4计算得到信噪比。
在一种可能的实施方式中,在确定验证时间窗的语音数据与每个命令词对应的第一置信度时,还可以确定验证时间窗的语音数据与垃圾类对应的第一置信度,即通该垃圾类的第一置信度表征验证时间窗的语音数据不为命令词的可能性。则相当于在对验证时间窗所命中的命令词进行确定时,可以进行分类的类别由每个命令词以及垃圾类。
S205、基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词。
其中,该结果命令词是指验证时间窗中的语音数据所命中的命令词,该结果命令词属于上述的命令词集。可以理解的是,确定验证时间窗的语音数据在命令词集中命中的结果命令词的前提是,验证时间窗的语音数据在命令词集中存在命中的命令词,若验证时间窗的语音数据在命令词集中不存在命中的命令词,则不能确定出验证时间窗的语音数据在命令词集中命中的结果命令词。可选的,在确定出结果命令词之后,可执行结果命令词所指示的操作。验证时间窗的语音数据是对验证时间窗中的语音帧的语音数据的简称,比如验证时间窗的语音数据在命令词集中命中的命令词可以是指验证时间窗的多个语音帧的语音数据在命令词集中命中的命令词;验证时间窗的语音数据在命令词集中命中的结果命令词,也可以简要描述为验证时间窗在命令词集中命中的结果命令词。可以理解的是,此处确定结果命令词不仅根据每个命令词分别对应的第一置信度确定,还引入了关联特征,由此在确定结果命令词时,引入了更多信息,作为第一置信度的一个有效补充,提升了命令词检测准确度,如通过验证时间窗的语音数据的信噪比的引入,能够更准确地确定出在不同信噪比情境下的语音数据命中的命令词;又如,如通过验证时间窗的语音数据的第一平均能量的引入,能够更准确地确定出在不同平均能量下的语音数据命中的命令词;又如,通过验证时间窗的语音数据的有效语音占比的引入,能够更准确地确定出在不同有效语音占比下的语音数据命中的命令词。并且,由于此处可以通过基于验证时间窗确定的第一置信度以及关联特征来确定结果命令词,相当于对连续输入的语音数据中是否命中命令词进行二次验证,从而将验证时间窗的语音数据的检测结果作为最终检测结果,若检测到在命令词集中命中的结果命令词,则执行结果命令词所指示的操作。例如,若检测到验证时间窗的语音数据命中的结果命令词“打开制热”,则可以执行打开制热的操作。
在一种可能的实施方式中,若验证时间窗的语音数据在命令词集中不存在命中的结果命令词,则可以不执行操作。进而可以确定新的当前语音帧的目标时间窗,重复上述步骤,直至基于新的当前语音帧关联的验证时间窗中的语音帧的音频特征确定验证时间窗的语音数据是否命中命令词集中的命令词,以此类推,实现对各个语音帧对应的时间窗的检测。
在一种可能的实施方式中,在检测到验证时间窗命中的结果命令词时,还可以包括将结果命令词用于其他用途,如通过提取到的命令词对其他模型进行训练,对提取到的命令词进行存储等等,此处不做限制。
在一种可能的实施方式中,命令词中还可以包括一些时间信息、地点信息等等,由此可以根据检测到的结果命令词的时间信息、地点信息在时间信息所指示的时间以及地点信息所指示的地点执行对应的操作。例如,在检测到结果命令词为“10点打开空调”时,其中的10点为命令词的时间信息,则可以在 10点时执行打开空调的操作。或者,在一种可能的实施方式中,还可获取语音中的时间信息、地点信息等等,由此可以根据检测到的时间信息、地点信息在时间信息所指示的时间以及地点信息所指示的地点执行结果命令词对应的操作。
此处以一个示例来阐述如何实现对语音数据进行命令词检测的,请参见图4,图4是本申请实施例提供的另一种数据处理方法的流程示意图。首先可以接收语音数据,确定接收到语音数据中的当前语音帧对应的目标时间窗(即步骤 S401),进而确定目标时间窗是否命中命令词集中的命令词(即步骤S402),具体可以通过目标时间窗中每个语音帧的语音数据的音频特征进行确定;若目标时间窗没有命中命令词集中的命令词,则可以不执行操作,并确定新的当前语音帧的目标时间窗(即步骤S403);若目标时间窗命中命令词集中的命令词,则进行二次验证,具体可以为,确定当前语音帧关联的验证时间窗(即步骤S404),进而确定验证时间窗是否命中命令词集中的命令词(即步骤S405),若验证时间窗没有命中命令词集中的命令词,则不执行操作,并确定新的当前语音帧的目标时间窗(即步骤S406),若验证时间窗命中命令词集中的命令词,则执行命中的命令词所指示的操作(即步骤S407)。由此可以通过确定验证时间窗来实现二次验证提升对语音数据中的命令词的检测的准确度。
在一种可能的场景中,本申请可以应用于电子设备已经被唤醒的情况下,检测接收到的语音数据是否命中命令词。即电子设备已经被语音发起对象通过唤醒词进行唤醒后,再基于接收的语音数据检测命中的命令词。
在一种可能的场景中,本申请还可以应用于不需要唤醒电子设备的场景,即电子设备在没有通过唤醒词进行唤醒的情况下,直接根据接收到的语音数据确定是否命中命令词,相当于在检测到接收到的语音数据命中命令词集中的命令词时,唤醒电子设备并执行命令词所指示的操作。这是由于本申请的命令词集中的命令词都是预设的,只有语音数据中包含命令词时才会触发电子设备执行对应的操作,且对命令词检测的准确度较高,由此可以使得语音发起对象可以更快速的通过语音指令指示电子设备执行对应的操作,不需要先唤醒设备再发布指令。可以理解的是,为了减少命令词的误识别率,在预先设置命令词集中的命令词,可以设置一些不是很常用的词语,或者在命令词中增加不常用的词组来减少命令词的误识别率,进而可以极大的地提高了交互体验。
本申请实施例提出一种数据处理方案,能够基于一级检测(验证)和二级检测(验证)实现命令词检测。例如,可根据目标时间窗口内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词,当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗,从而确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并确定验证时间窗对应的关联特征,进而基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词。可选的,在确定出结果命令词之后,还可执行结果命令词所指示的操作。由此可以通过一级检测确定命令词即基于目标时间窗初步确定语音数据命中命令词后,进行二级检测,即确定一个新的验证时间窗以对语音数据是否包含命令词进行二次验证,并且在进行二次验证时加入关联特征,使得能够基于更多信息确定验证时间窗是否命中命令词,从而可以提升对语音数据的命令词检测的准确度。
请参见图5,图5是本申请实施例提供的又一种数据处理方法的流程示意图。该方法可以由上述电子设备执行。该数据处理方法可以包括以下步骤。
S501、确定当前语音帧对应的目标时间窗,并获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征。
S502、根据K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词。
在一种可能的实施方式中,命令词集中任一命令词可以具有一个或多个音节。音节是指是听觉能感受到的最自然的语音单位,由一个或几个音素按一定规律组合而成。普通话里,除个别情况外,一个汉字就是一个音节,例如,命令词“打开空调”中包括4个音节。命令词集中的每个命令词具有对应的音节标识序列,该音节标识序列是指由命令词具有的音节的音节标识组成的序列,该音节标识可以用于表征音节。在一种可能的实施方式中,每个命令词具有的音节标识序列可以通过发音词典进行确定,该发音词典为一个预先处理得到的词典,可以包括命令词中的每个字与音节的音节标识的映射关系,从而可以根据发音字典确定出每个命令词所具有的音节的音节标识,也就相当于确定了命令词具有的音节。可以理解的是,不同的字可以有相同的音节,例如,命令词“播放歌曲”与“取消制热”中都包括“qu”这一音节。
在一种可能的实施方式中,此处确定目标时间窗的语音数据是否命中命令词集中的命令词,可以通过确定计算目标时间窗的每个语音帧的语音数据与音节对应的概率确定每个命令词的第二置信度来实现对是否命中命令词进行确定;也可以通过Keyword/FillerHMM Model模型(一种唤醒词检测模型)来实现对是否命中命令词进行确定;或者本申请还可以通过其他方法目标时间窗的语音数据是否命中命令词集中的命令词,此处不做限制。
在一种可能的实施方式中,如上述,命令词集中包括至少一个命令词,每个命令词具有多个音节,若通过确定计算目标时间窗的每个语音帧的语音数据与音节对应的概率确定每个命令词的第二置信度来实现对是否命中命令词进行确定,则步骤S502可以包括以下步骤:
①根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率;音节输出单元集是基于每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同。其中,该音节输出单元集是指能够对每个语音帧的语音数据所对应的音节进行分类的分类项的集合,该输出单元集中包括多个输出单元。例如,音节输出单元集中包括音节输出单元A、B、C,则表示每个语音帧的语音数据能够被分类为A、 B或C,从而可以确定出K个语音帧分别与音节输出单元A、B、C相对应的概率。基于每个命令词具有的多个音节确定的音节输出单元集可以基于每个命令词具有的多个音节的音节标识确定的音节输出单元集,具体为,确定每个命令词具有的多个音节的音节标识的并集,该音节标识的并集中每个的每个音节标识对应一个音节输出单元。在一种实施方式中,该音节输出单元集中还包括垃圾音节输出单元,使得在后续分类过程中,可以将不属于命令词集中的命令词具有的音节分类至该垃圾音节输出单元中。例如,命令词集中包含命令词1、命令词2、命令词3,命令词1具有的音节的音节标识分别为s1、s2、s3、s4,命令词2具有的音节的音节标识分别为s1、s4、s5、S5,命令词3具有的音节的音节标识分别为s7、s2、s3、s1,则在可以明确,命令词1-3中具有的音节的音节标识的并集为s1、s2、s3、s4、s5、S5、s7,由此可以得到s1、s2、s3、s4、 s5、S5、s7分别对应的音节输出单元,并将该每个音节对应的音节输出单元以及垃圾音节输出单元确定为音节输出单元集。
②根据K个语音帧分别与每个音节输出单元相对应的概率,确定目标时间窗的语音数据与每个命令词对应的第二置信度。其中,确定任一命令词的第二置信度可以通过确定命令词具有的每个音节对应的概率之积的最大值得到,也就是相当于根据命令词具有的每个音节对应的最大概率之积确定第二置信度。
③若命令词集中存在第二置信度大于或等于第一阈值的命令词,则将第二置信度大于或等于第一阈值的命令词确定为目标时间窗的语音数据在命令词集中是否命中的命令词。此步骤可以参照上述描述,此处不做赘述。
在一种可能的实施方式中,命令集中的任一个命令词表示为目标命令词,则根据K个语音帧分别与每个音节输出单元相对应的概率,确定目标时间窗的语音数据与每个命令词对应的第二置信度,可以具体包括以下步骤:
①将目标命令词具有的每个音节对应的音节输出单元确定为目标音节输出单元,得到目标命令词对应的多个目标音节输出单元。其中,该目标音节输出单元也就是指目标命令词具有的每个音节对应的音节输出单元,确定目标音节输出单元可以通过目标命令词的音节标识序列进行确定,这是由于每个音节输出单元均有对应的音节,则可以通过音节标识序列中的音节从多个音节输出单元中确定出目标音节输出单元。例如,目标命令词为“打开制热”,根据上述发音字典可以确定该目标命令词具有的音节的音节标识为s1、s2、s3、s4(也可称为目标命令词的音节标识序列),进而可以通过音节标识序列从音节输出单元集中确定出与s1、s2、s3、s4对应的音节输出单元,从而将s1、s2、s3、s4 对应的音节输出单元作为目标音节输出单元。
②从K个语音帧分别与每个音节输出单元对应的概率中,确定K个语音帧分别与每个目标音节输出单元相对应的概率,得到每个目标音节输出单元分别对应的K个候选概率。其中,该候选概率即为目标音节输出单元与任一语音帧对应的概率。例如,目标音节输出单元有与s1、s2、s3、s4对应的音节输出单元(此处记为音节输出单元s1、s2、s3、s4),则可以确定出s1与K个语音帧分别对应的概率,s2与K个语音帧分别对应的概率,s3与K个语音帧分别对应的概率,以及s4与K个语音帧分别对应的概率,即得到的候选概率的总数量相当于有K*4个。
③从每个目标音节输出单元分别对应的K个候选概率中,确定每个目标音节输出单元分别对应的最大的候选概率,并根据每个目标音节输出单元分别对应的最大的候选概率确定目标时间窗的语音数据与目标命令词对应的第二置信度。其中,根据每个目标音节输出单元分别对应的最大的候选概率确定目标时间窗的语音数据与目标命令词对应的第二置信度,具体可以为根据每个目标音节输出单元分别对应的最大的候选概率的积,确定目标时间窗的语音数据与目标命令词对应的第二置信度,如可以直接将该多个候选概率之积确定为第二置信度,也可以通过其他数学计算得到第二置信度,此处不做限制。例如,s1与 K个语音帧分别对应的概率为{G11、G12、G13......G1K},其中最大概率为目标时间窗中的第10个语音帧对应的概率G110;s2与K个语音帧分别对应的概率为 {G21、G22、G23......G2K},其中最大概率为目标时间窗中的第25个语音帧对应的概率G225;s3与K个语音帧分别对应的概率为{G31、G32、G33......G3K},其中最大概率为目标时间窗中的第34个语音帧对应的概率G334;s4与K个语音帧分别对应的概率为{G41、G42、G43......G4K},其中最大概率为目标时间窗中的第39个语音帧对应的概率G439,进而可以根据G110、G225、G334以及G439之积确定目标时间窗的语音数据与目标命令词对应的第二置信度。可以理解的是,对命令词集中的每个命令词执行上述操作,可以确定出每个命令词所对应的第二置信度。
在一种可能的实施方式中,根据每个目标音节输出单元分别对应的最大的候选概率确定目标时间窗的语音数据与目标命令词对应的第二置信度,可以通过以下公式(公式5)进行计算:
其中,C可以表示目标时间窗的音频数据与目标命令词对应的第二置信度。 n-1表示目标命令词对应的目标音节输出单元的数量,则n表示目标音节输出单元与垃圾音节输出单元的数量。i表示第i个目标音节输出单元,j表示目标时间窗的第j个语音帧,则pij表示第i个目标音节输出单元与第j个语音帧的概率,从而max pij表示第i个目标音节输出单元与各个语音帧对应的最大的候选概率,表示每个目标音节输出单元分别对应的最大的候选概率的积,从而可以基于公式5得到目标时间窗的音频数据与目标命令词对应的第二置信度。
在一种可能的实施方式中,确定目标时间窗是否命中命令词,是由训练好的一级检测网络确定的,一级检测网络具体如何确定目标时间窗是否命中命令词。在一种实现方式中,该训练好的一级检测网络可以分为声学模型以及置信度生成模块。该声学模型用于执行上述根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率的步骤。该声学模型通常采用深度神经网络,如DNN模型(一种神经网络模型)、CNN模型(一种神经网络模型)、LSTM模型(一种神经网络模型) 等等,此处不做限制。该置信度生成模块可以用于执行上述基于根据K个语音帧分别与每个音节输出单元相对应的概率,确定目标时间窗的语音数据与每个命令词对应的第二置信度的步骤,具体描述此处不做赘述。可选的,该二级检测网络输出的结果的维度为命令词集中的命令词个数,每个维度对应一个命令词的第二置信度。
例如,请参见图6,图6是本申请实施例提供的一种一级检测网络的框架示意图。如图6所示,首先可以获取目标时间窗内的K个语音帧的语音数据(如图6中的601所示),然后基于601确定出每个语音帧的音频特征(如图6中的602所示),进而将每个语音帧的音频特征输入训练好的一级检测网络中的声学模型(如图6中的603所示),然后基于声学模型得到的结果输入置信度生成模块(如图6中的604所示),从而置信度生成模块结合发音字典(如图6 中的605所示)确定出每个命令词具有音节对应的目标音节输出单元,进而确定出每个命令词对应的第二置信度,如命令词1置信度、命令词2置信度、命令词m置信度等等,由此可以确定目标时间窗的音频数据是否命中命令词,并且可以确定出所命中的一级命令词。可以理解的是,若每个命令词的第二置信度均不大于或等于第一阈值,则目标时间窗的音频数据不存在所命中的一级命令词。
在一种可能的实施方式中,在通过训练好的一级检测网络确定一级命令词之前,需要对一级检测网络进行训练,具体可以包括以下步骤:①获取第一样本语音数据,第一样本语音数据携带音节输出单元标签。其中,该第一样本语音数据是指用于训练一级检测网络的语音数据,该第一样本语音数据可以为包含命令词的语音数据,即正样本数据,也可以为不包含命令词的语音数据,即负样本数据,由此可以通过正负样本数据的训练,使得训练效果更优。该音节输出单元标签也就是标注第一样本语音数据中的每个语音帧实际对应的音节输出单元。可以理解的是,若第一样本语音数据中的语音帧实际上对应的音节命令词集中每个命令词对应的音节,则该语音帧实际对应的音节输出单元为实际对应的音节所对应的音节输出单元,若语音帧实际上对应的音节命令词集中每个命令词对应的音节,则该语音帧实际对应的音节输出单元为垃圾音节输出单元。
②调用初始的一级检测网络,确定第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元。其中,该初始的一级检测网络中也包括声学模型,此处确定预测音节输出单元可以通过初始的一级检测网络中的声学模型进行确定,具体可以为,根据第一样本语音数据中每个语音帧的语音数据分别对应的音频特征,确定每个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率,进而基于每个语音帧分别与每个音节输出单元相对应的概率确定预测音节输出单元。其中,第一样本语音数据中每个语音帧的语音数据分别对应的音频特征与上述目标时间窗中的各个语音帧对应的音频的特征的计算方式相同,此处不做赘述。
③基于第一样本语音数据中每个语音帧的语音数据分别对应的预测音节输出单元与音节输出单元标签训练得到上述训练好的一级检测网络。其中,在训练过程中,应通过调整初始的一级检测网络的网络参数以使得每个语音帧分别对应的预测音节输出单元与音节输出单元标签所标注的实际音节输出单元逐渐相近,从而使得训练好的一级检测网络能够准确预测出每个语音帧与每个音节输出单元对应的概率。可以理解的是,此处预测音节输出单元是通过一级检测网络中的声学模型来确定的,也就是说,训练一级检测网络主要是调整一级检测网络中的声学模型的模型参数。
在一种可能的实施方式中,若通过Keyword/Filler HMM Model模型来实现对是否命中命令词进行确定,即上述的一级检测网络可以为该Keyword/Filler HMM Model模型。则可以根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率,然后基于每个音节输出单元相对应的概率确定出最优解码路径,进而判断最优解码路径是否经过命令词的HMM路径(隐马尔柯夫路径),来确定是否命中命令词,或者可以确定基于每个音节输出单元相对应的概率确定出每个HMM路径对应的置信度,来确定是否命中命令词,此处不做限制。其中,可以理解的是, HMM路径可以为命令词HMM路径,也可以为填充HMM路径,每个命令词 HMM路径可以由命令词所具有的多个音节对应的HMM状态串联组成,而填充 HMM路径由一组精心设计的非命令词发音单元对应的HMM状态组成。由此可以基于每个音节输出单元相对应的概率确定与每个HMM状态的置信度,从而确定是否命中命令词,以及命中哪个命令词。
S503、当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗。
在一种可能的实施方式中,上述第一数量可以根据目标时间窗命中的命令词长度进行确定,如可以为基于命令词的长度与目标预设值确定第一数量,从而根据当前语音帧前第一数量的语音帧的确定验证时间窗。其中,命令词长度是指命令词中的音节的数量。对于通常的中文命令词来说,一个字对应一个音节,例如,命令词“打开空调”这一命令词中包括四个字,对应的4个音节,即命令词长度为4。具体的,可以根据一级命令词的命令词长度与目标预设值确定验证时间窗。具体可以包括以下步骤:
①根据一级命令词的命令词长度与目标预设值确定第一数量。该目标预设值可以为预设的一个数值,因为通常来说,由于发音速度等原因一个字的发音 (一个音节)可能会使得可以涉及到多个语音帧,一个命令词具有的多个音节可能涉及的到语音帧的数量大于或等于命令词的音节数量,因此可以通过确定目标预设值来确定第一数量,使得验证时间窗的大小尽可能覆盖一级命令词所涉及的语音帧。在一种可能的实施方式中,可以通过一级命令词的命令词长度与目标预设值相乘得到第一数量,从而使得得到的验证时间窗内包含语音帧的数量为第一数量。例如,一级命令词的长度为4,目标预设值为25,则第一数量可以为4*25=100,即验证时间窗内包括100个语音帧。
②根据在当前语音帧之前的第一数量的语音帧确定当前语音帧关联的验证时间窗。其中,当前语音帧之前的第一数量的语音帧中包括当前语音帧,根据在当前语音帧之前的第一数量的语音帧确定当前语音帧关联的验证时间窗,即将当前语音帧作为验证时间窗的最后一帧。例如,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第120个语音帧,第一数量为100 个语音帧,则可以将以第120个语音帧作为最后一个语音帧的大小为100的时间窗确定为第120个语音帧关联的验证时间窗,即将第120个语音帧之前的100 个语音帧(第20-120个语音帧)确定为第120个语音帧关联的验证时间窗中的语音帧。
在一种可能的实施方式中,如上述,该第一数量可以为预设数量,则该预设的数量应尽可能覆盖一级命令词,则可以基于命令词集中的最长的命令词长度设置预设数量。具体可以基于最长的命令词长度与上述目标预设值确定预设数量,进而将预设确定为第一数量,进而根据当前语音帧前第一数量的语音帧的确定验证时间窗。
在一种可能的实施方式中,该第一数量还可以根据一级命令词在目标时间窗命中最早出现时机进行确定,则确定验证时间窗具体可以包括以下步骤:①获取音节输出单元集,音节输出单元集是基于每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同。②根据K个语音帧的语音数据分别对应的音频特征,确定K个语音帧分别与音节输出单元集中每个音节输出单元相对应的概率。其中,此处的①-②的相关描述参照上述描述,此处不做赘述。③将目标时间窗的语音数据命中的命令词具有的音节对应的音节输出单元确定为验证音节输出单元,并将K个语音帧中与验证音节输出单元相对应的概率最大的语音帧确定为目标语音帧。目标语音帧相当于一级命令词的任一音节在K 个语音帧中被检测到的语音帧,即可以确定出一级命令词的出现时机。④根据目标语音帧与当前语音帧之间的语音帧确定当前语音帧关联的验证时间窗。其中,此处可以根据与当前语音帧之间的语音帧数量最多的目标语音帧确定当前语音帧关联的验证时间窗,即确定与当前语音帧间隔的语音帧数量最多的目标语音帧,该确定与当前语音帧间隔的语音帧数量最多的目标语音帧用于表征上述一级命令词在目标时间窗中的最早出现时机,则上述第一数量即为当前语音帧与该间隔语音帧数量最多的语音帧数量,进而将当前语音帧与该间隔语音帧数量最多的目标语音帧之间的语音帧确定为验证时间窗内的语音帧。可以理解的是,当前语音帧与该目标语音帧之间的语音帧包含当前语音帧与目标语音帧。通过这种方式可以确定的一个更准确的验证时间窗,进而在对验证时间窗内的语音数据进行命令词检测时,准确率更高。例如,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第120个语音帧,与当前语音帧之间的语音帧数量最多的目标语音帧为第20个语音帧,将第20-120个语音帧确定为第120个语音帧关联的验证时间窗中的语音帧。
在一种可能的实施方式中,命令词集中包括不同命令词长度的命令词,并且存在前缀相同或易混淆相似词等情况,例如,“打开制热”和“打开制热模式”是前缀相同但指示的操作不同的两个命令词,在实际处理过程中,由于语音数据是逐输入的,很有可能在当前语音帧为“打开制热”刚输入完成后的一个语音时,就基于当前语音帧对应的目标时间窗检测到命中“打开制热”这一命令词,但很可能实际要触发的命令词为“打开制热模式”,因此可以将“打开制热”后的一段语音帧也纳入验证时间窗内,从而进行更准确地命令词检测。此处以参考语音帧为目标时间窗的最后一帧这种方式为例,则在确定当前语音帧关联的验证时间窗时,可以将当前语音帧之后的一段语音帧也确定为验证时间窗内的语音帧,即在确定验证时间窗时候引入了延时等待策略,当在通过目标时间窗确定命令词时出现提前误识别的情况,但是由于引入了延时等待策略,则确定的验证时间窗可以覆盖更大的时间窗,在基于验证时间窗进行二级验证时仍有很大的可能准确识别出正确的命令词,从而提升命令词识别准确率。
具体的,确定当前语音帧关联的验证时间窗,可以包括以下步骤:根据在当前语音帧之前的第一数量的语音帧,以及在当前语音帧之后的第二数量的语音帧确定当前语音帧关联的验证时间窗。其中,当前语音帧之前的第一数量的语音帧中包括当前语音帧,当前语音帧之后第二数量的语音帧也包括当前语音帧,但验证时间窗中的多个语音帧仅包括一个当前语音帧。其中,第二数量可以为预设的一个数值,该第二数量可以为一个经验值,也可以根据命令词集中的最长命令词与一级命令词的命令词长度进行确定,具体可以通过最长命令词的命令词长度减一级命令词的的命令词长度得到长度差,进而将长度差乘以上述目标预设值得到第二数量。例如,最长命令词的命令词长度8,一级命令词度的命令词长度为5,则长度差为8-5=3,若目标预设值为25,则可以将3*25=75,则可以得到第二数量为75。此处以一个示例说明如何确定验证时间窗,连续输入的语音数据中包括第1、2、3.......n个语音帧,若当前语音帧为第120个语音帧,第一数量为100个语音帧,第二数量为75,则可以将第120个语音帧之前的100个语音帧(第20-120个语音帧)以及第120个语音帧之后的75个语音帧 (第120-195)确定为第120个语音帧关联的验证时间窗中的语音帧,即验证时间窗中的语音帧包括第20-195个语音帧。
S504、根据验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并基于验证时间窗中的语音数据确定验证时间窗对应的关联特征。
步骤S504的相关描述可以参照上述步骤S204的相关描述,此处不做赘述。
S505、基于每个命令词分别对应的第一置信度以及关联特征,确定验证时间窗的语音数据与每个命令词对应的第三置信度。
其中,该第三置信度可以为表征验证时间窗的语音数据为每个命令词的可能性,每个命令词均可以有对应的第三置信度。可以理解的是,该第三置信度相当于是对第一置信度进行校准的一种置信度,由于加入了关联特征,则得到的第三置信度可以更准确的表征验证时间窗的语音数据为每个命令词的可能性,相较于直接根据第一置信度确定命中的命令词,基于第三置信度确定命中的命令词的准确度更高。
其中,基于每个命令词分别对应的第一置信度以及关联特征,确定验证时间窗的语音数据与每个命令词对应的第三置信度,具体可以为,基于每个命令词分别对应的第一置信度以及关联特征进行拼接处理,得到验证特征,进而基于验证特征确定验证时间窗的语音数据与每个命令词对应的第三置信度。其中,该验证特征是指将每个命令词分别对应的第一置信度与其他信息特征进行拼接得到的特征,此处的其他信息特征可以为关联特征。
S506、若命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为验证时间窗的语音数据在命令词集中命中的结果命令词,并执行结果命令词所指示的操作。
其中,该第二阈值可以为一个预先设置的阈值,为了提升命令词的检测准确率,可以设置一个合理的第二阈值来确定结果命令词。可以理解的是,若上述命令词集中不存在第一置信度大于或等于第二阈值的命令词,则确定验证时间窗的语音数据在命令词集中不存在命中的结果命令词。可选的,在确定出结果命令词之后,可执行结果命令词所指示的操作。
在一种可能的实施方式中,若在确定第一置信度时,还确定了验证时间窗的语音数据与垃圾类对应的第一置信度,则在确定第三置信度时,也可以确定验证时间窗的语音数据与垃圾类对应的第三置信度,进而可以在除垃圾类对应的第三置信度外的第三置信度中确定最大的第三置信度,若该最大的第三置信度大于或等于第二阈值,则将该最大的第三置信度对应的命令词确定为命中的结果命令词,若该最大的第三置信度小于第二阈值,则将该验证时间窗的语音数据归类为垃圾类,即验证时间窗的语音数据在命令词集中不存在命中的结果命令词。
例如,命令词集中包括命令词1、命令词2、命令词3和命令词4,则基于每个命令词分别对应的第一置信度以及关联特征,得到各个命令词对应的第三置信度,其中,命令词1对应的第三置信度为0.3,命令词2对应的第三置信度为0.73,命令词3对应的第三置信度为0.42,命令词4对应的第三置信度为0.58,垃圾类对应的第三置信度为0.61;若预设的第二阈值为0.6,则命令词集中存在第三置信度大于或等于第一阈值的命令词,即命令词4,则命令词4为验证时间窗的语音数据在命令词集中命中的结果命令词,即输入的语音数据命中命令词4,进而可以执行命令词4所指示的操作。若预设的第二阈值为0.75,则命令词集中不存在第三置信度大于或等于第一阈值的命令词,确定验证时间窗的语音数据在命令词集中没有命中的命令词,进而确定新的当前语音帧,以重复执行上述步骤,实现命令词的检测。
在一种可能的实施方式中,该结果命令词是由训练好的二级检测网络确定的,该二级检测网络可以包括第一置信度生成网络以及置信度校准网络。该第一置信度生成网络用于执行上述根据验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度的步骤,该第一置信度生成网络可以为深度神经网络,如可以为CLDNN模型(一种神经网络模型)。可选的,该第一置信度生成网络输出的结果的维度为命令词集中的命令词个数加1,即加垃圾类对应的第一置信度的维度。该置信度校准网络用于执行上述基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词的步骤,该置信度校准网络可以为简单的多层神经网络,如多层DNN网络(一种神经网络模型)。二级检测网络具体如何确定结果命令词可以参照上述步骤 S504-S505的相关描述,此处不做赘述。在一种实现方式中,在调用二级检测网络根据验证时间窗内的多个语音帧的语音数据分别对应的音频特征确定命中的结果命令词时,可以将验证时间窗中的多个语音帧的语音数据依次输入,从而得到验证时间窗的语音数据与每个命令词对应的第一置信度,进而根据第一置信度与关联特征确定第三置信度,从而得到命中的结果命令词。可选的,该二级检测网络输出的结果的维度为命令词集中的命令词个数加1,此处加上的1即为加上垃圾类对应的第一置信度的维度。
在一种可能的实施方式中,在通过训练好的二级检测网络确定结果命令词之前,需要对二级检测网络进行训练,具体可以包括以下步骤:①获取第二样本语音数据,第二样本语音数据携带命令词标签。其中,该第二样本语音数是指用于训练二级检测网络的语音数据,该第二样本语音数据可以为正样本数据或负样本数据。该正样本数据可以为基于上述训练好的一级检测网络确定的一个验证时间窗中的音频数据。该负样本数据可以为包括各种非命令词的语音数据。该负样本数据中也可以为具有干扰噪声的音频数据,如加入音乐电视等噪声、各种远场环境下的合成或真实的音频数据,由此可以提升对远场环境或嘈杂环境下的命令词检测的准确性。可以理解的是,在对一级检测网络的训练过程中,所采用的负面数据中不包括具有各种干扰噪声的音频数据,这是因为通过这种具有各种干扰噪声的音频数据训练一级检测网络时,反而使得一级检测网络对音节输出单元的分类效果变差,从而通过在二级检测网络训练时通过入具有干扰噪声的音频数据对二级检测网络进行训练,提升了提升对干扰因素较多的情况下的命令词检测的准确性,有效弥补一级检测网络的缺陷,使得二级检测网络对一级检测网络具有很好的互补性。该音节输出单元标签也就是标注第二样本语音数据实际所对应的命令词,可以理解的是,若第二样本语音数据中实际上存在对应的命令词,则该音节输出单元标签标注该第二样本语音数据实际对应的命令词,若第二样本语音数据中实际上不存在对应的命令词,则该音节输出单元标签标注该第二样本语音数据实际属于垃圾类。
②调用二级检测网络确定第二样本语音数据对应的预测命令词。其中,此处确定预测命令词可以通过初始的二级检测网络中进行确定,具体可以为,根据第二样本语音数据中每个语音帧的语音数据分别对应的音频特征,确定第二样本语音数据与每个命令词对应的第一置信度,进而基于每个命令词对应的第一置信度以及关联特征确定第二样本语音数据对应的预测命令词。可以理解的是,若上述训练好的二级检测网络为基于每个命令词对应的第一置信度、关联特征以及每个命令词对应的第二置信度确定第二样本语音数据对应的预测命令词,则此处在训练二级检测网络时,需要通过基于二样本语音数据确定的每个命令词对应的第一置信度、关联特征以及每个命令词对应的第二置信度训练二级检测网络。其中,第二样本语音数据中每个语音帧的语音数据分别对应的音频特征与上述目标时间窗中的各个语音帧对应的音频特征的计算方式相同,此处不做赘述。
③基于预测命令词与命令词标签训练得到训练好的二级检测网络。其中,在训练过程中,应通过调整初始的二级检测网络的网络参数以使得第二样本语音数据对应的预测命令词与命令词标签标注的实际所对应命令词逐渐相近,从而使得训练好的二级检测网络能够准确预测出每个验证时间窗中的语音数据所对应的命令词。
可以理解的是,由于通常需要检测语音数据中的指令的电子设备所使用的 CPU处理器(中央处理器)、内存、闪存等硬件配置较低,因此对每个功能的资源占用都有较为严格的额要求,本申请中对语音数据中的命令词检测主要是通过上述训练好的一级检测网络以及二级检测网络进行确定,网络结构较为简单,对电子设备的资源占用较小,并且可以有效提升命令词检测性能。相较于基于语音识别技术对接收到的语音数据进行内容的识别时,需要使用较大规模的声学模型和语言模型才能达到较好的识别效果,即需要占用较多设备资源才能达到好的识别效果,本申请实施例可以在资源占用较小的情况下准确检测出命中的命令词,由此可以适用于各种设备资源受限的场景,扩大了方案的应用场景,如可以适用于智能音箱、智能家电等资源受限的离线应用场景。
此处以一个示例来阐述如何通过二级验证来实现对语音数据的命令词检测,请参见图7,图7是本申请实施例提供的一种数据处理方法的框架示意图。如图 7所示,本申请可以将整个数据处理方法的流程抽象为一级验证以及二级验证,由此可以将语音数据(如图7中的701所示)输入以一级验证,具体可以包括确定当前语音帧对应的目标时间窗中语音数据的音频特征(如图7中的702所示),从而基于训练好的一级检测网络(如图7中的703所示)确定每个命令词的第二置信度(如图7中的704所示),进而进行阈值判断,确定出目标时间窗是否命中目标命令词。若目标时间窗命中目标命令词,从而进入二级验证,具体可以包括,确定验证时间窗的语音数据(如图7中的705所示),进而获取当前语音帧关联的验证时间窗中的语音数据的音频特征,可以理解的是,该验证时间窗中的音频特征可以从缓存的各个语音帧的音频特征中获取。进而将验证时间窗对应的音频特征输入训练好的二级检测网络,在二级检测网络中,可以基于验证时间窗的语音数据的音频数据得到每个命令词的第一置信度(如图7中的707所示),并基于验证时间窗的语音数据确定的关联特征(如图7中的706所示),从而将每个命令词的第一置信度以及关联特征进行拼接,从而确定出每个命令词的第三置信度(如图7中的708所示),由此可以确定出最终的结果命令词(如图7中的709所示),由此可以通过对语音数据的二级验证,并且在进行二级验证时加入更多的特征信息,提升命令词检测的准确度。
本申请实施例提出一种数据处理方案,能够基于一级检测(验证)和二级检测(验证)实现命令词检测。例如,可根据目标时间窗口内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词,当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗,从而确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并确定验证时间窗的语音数据的关联特征,进而基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词。可选的,在确定出结果命令词之后,还可执行结果命令词所指示的操作。由此可以通过一级检测确定命令词即基于目标时间窗初步确定语音数据命中命令词后,进行二级检测,即确定一个新的验证时间窗以对语音数据是否包含命令词进行二次验证,并且在进行二次验证时加入关联特征,使得能够基于更多信息确定验证时间窗是否命中命令词,从而可以提升对语音数据的命令词检测的准确度。
请参见图8,图8是本申请实施例提供的又一种数据处理方法的流程示意图。该方法可以由上述电子设备执行。该数据处理方法可以包括以下步骤。
S801、确定当前语音帧对应的目标时间窗,并获取目标时间窗内的K个语音帧的语音数据分别对应的音频特征。
S802、根据K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词。
S803、当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗。
S804、根据验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并基于验证时间窗中的语音数据确定验证时间窗对应的关联特征。
步骤S801-S804的相关描述可以参照步骤S201-S204,此处不做赘述。
S805、基于每个命令词对应的第二置信度、每个命令词分别对应的第一置信度以及关联特征进行拼接处理,得到验证特征。
其中,该第二置信度可以为上述基于目标时间窗口的语音数据确定的置信度。如上述,该验证特征是指将每个命令词分别对应的第一置信度与其他信息特征进行拼接得到的特征,此处的其他信息特征可以为关联特征以及每个命令词对应的第二置信度。
S806、基于验证特征确定验证时间窗的语音数据与每个命令词对应的第三置信度。
其中,基于验证特征确定第三置信度可以参照上述基于关联特征以及每个命令词对应的第一置信度确定验证时间窗的语音数据与每个命令词对应的第三置信度的相关描述,此处不做赘述。
S807、若命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为验证时间窗的语音数据在命令词集中命中的结果命令词,并执行结果命令词所指示的操作。
步骤S807可以参照上述步骤S506的相关描述,此处不做赘述。
此处以一个示例来阐述如何通过二级验证来实现对语音数据的命令词检测,请参见图9,图9是本申请实施例提供的另一种数据处理方法的框架示意图。如图9所示,本申请可以将整个数据处理方法的流程抽象为一级验证以及二级验证,由此可以将语音数据(如图9中的901所示)输入以一级验证,具体可以包括确定当前语音帧对应的目标时间窗中语音数据的音频特征(如图9中的902 所示),从而基于训练好的一级检测网络(如图9中的903所示)确定每个命令词的第二置信度(如图9中的904所示),进而进行阈值判断,确定出目标时间窗是否命中目标命令词。若目标时间窗命中目标命令词,从而进入二级验证,具体可以包括,确定验证时间窗的语音数据(如图9中的905所示),进而获取当前语音帧关联的验证时间窗中的语音数据的音频特征,可以理解的是,该验证时间窗中的音频特征可以从缓存的各个语音帧的音频特征中获取。进而将验证时间窗对应的音频特征输入训练好的二级检测网络,在二级检测网络中,可以基于验证时间窗的语音数据的音频数据得到每个命令词的第一置信度(如图9中的907所示),并基于验证时间窗的语音数据确定的关联特征(如图9中的906所示),从而将每个命令词的第一置信度、关联特征以及每个命令词的第二置信度(如图9中的908所示)进行拼接,从而确定出每个命令词的第三置信度(如图9中的909所示),由此可以确定出最终的结果命令词(如图9 中的910所示),由此可以通过对语音数据的二级验证,并且在进行二级验证时加入更多的特征信息,提升命令词检测的准确度。
在一种可能的实施方式中,本申请还可以基于每个命令词对应的第二置信度、每个命令词分别对应的第一置信度进行拼接处理,得到验证特征,进而基于该验证特征确定验证时间窗的语音数据与每个命令词对应的第三置信度。可以理解的是,在确定验证特征时可以由每个命令词分别对应的第一置信度与每个命令词对应的第二置信度、关联特征中一个或多个进行拼接得到验证特征,可以理解的是,还可以由每个命令词分别对应的第一置信度与其他的相关特征进行拼接处理得到验证特征,由此可以在引入更多语音数据的特征信息来确定结果命令词,大大提升了命令词检测的准确度。
可选的,在确定出结果命令词之后,可执行结果命令词所指示的操作。
本申请实施例提出一种数据处理方案,能够基于一级检测(验证)和二级检测(验证)实现命令词检测。例如,可根据目标时间窗口内的K个语音帧的语音数据分别对应的音频特征,确定目标时间窗的语音数据是否命中命令词集中的命令词,当目标时间窗的语音数据命中命令词集中的命令词时,确定与当前语音帧关联的验证时间窗,从而确定验证时间窗内的语音数据与命令词集中每个命令词分别对应的第一置信度,并确定验证时间窗对应的关联特征,进而基于每个命令词分别对应的第一置信度以及关联特征确定验证时间窗的语音数据在命令词集中命中的结果命令词。可选的,在确定出结果命令词之后,还可执行结果命令词所指示的操作。由此可以通过一级检测确定命令词即基于目标时间窗初步确定语音数据命中命令词后,进行二级检测,即确定一个新的验证时间窗以对语音数据是否包含命令词进行二次验证,并且在进行二次验证时加入关联特征,使得能够基于更多信息确定验证时间窗是否命中命令词,从而可以提升对语音数据的命令词检测的准确度。
请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图。可选的,该数据处理装置可以设置于上述电子设备中。如图10所示,本实施例中所描述的数据处理装置可以包括:
获取单元1001,用于确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
处理单元1002,用于根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
所述处理单元1002,还用于当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
所述处理单元1002,还用于根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的语音数据确定所述验证时间窗对应的关联特征;
所述处理单元1002,还用于基于所述每个命令词分别对应的第一置信度以及所述关联特征确定所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
在一种实现方式中,所述处理单元1002,具体用于:
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据与所述命令词集中每个命令词相对应的第二置信度;
若所述命令词集中存在第二置信度大于或等于第一阈值的命令词,则确定所述目标时间窗的语音数据命中所述命令词集中的命令词;
若所述命令词集中不存在第二置信度大于或等于第一阈值的命令词,则确定所述目标时间窗的语音数据没有命中所述命令词集中的命令词。
在一种实现方式中,所述处理单元1002,具体用于:
基于所述每个命令词对应的第二置信度、所述每个命令词分别对应的第一置信度以及所述关联特征进行拼接处理,得到验证特征;
基于所述验证特征确定所述验证时间窗的语音数据与所述每个命令词对应的第三置信度;
若所述命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
在一种实现方式中,所述处理单元1002,具体用于:
基于所述每个命令词分别对应的第一置信度以及所述关联特征,确定所述验证时间窗的语音数据与所述每个命令词对应的第三置信度;
若所述命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
在一种实现方式中,所述命令词集中的所述每个命令词具有多个音节;所述处理单元1002,具体用于:
获取音节输出单元集,所述音节输出单元集是基于所述每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述K个语音帧分别与所述音节输出单元集中每个音节输出单元相对应的概率;
将所述目标时间窗的语音数据命中的命令词具有的音节对应的音节输出单元确定为验证音节输出单元,并将所述K个语音帧中与所述验证音节输出单元相对应的概率最大的语音帧确定为目标语音帧;
根据所述目标语音帧与所述当前语音帧之间的语音帧确定所述当前语音帧关联的验证时间窗。
在一种实现方式中,所述关联特征包括以下至少一种:所述验证时间窗中的语音数据的第一平均能量、所述验证时间窗中的语音数据的有效语音占比、所述验证时间窗中的语音数据的信噪比以及所述验证时间窗中语音帧的数量。
在一种实现方式中,所述处理单元1002,还用于:
基于所述验证时间窗中的每个语音帧的语音数据的能量确定所述验证时间窗的语音数据的第一平均能量;
根据所述验证时间窗中的有效语音帧的数量确定所述验证时间窗的语音数据的有效语音占比,所述有效语音帧为能量大于或等于所述第一平均能量的语音帧;
根据所述验证时间窗中的有效语音帧的第二平均能量与所述第一平均能量确定所述验证时间窗的语音数据的信噪比。
请参见图11,图11是本申请实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备,包括:处理器1101、存储器1102。可选的,该电子设备还可包括网络接口或供电模块等结构。上述处理器1101、存储器1102之间可以交互数据。
上述处理器1101可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述网络接口可以包括输入设备和/或输出设备,例如该输入设备是可以是控制面板、麦克风、接收器等,输出设备可以是显示屏、发送器等,此处不一一列举。
上述存储器1102可以包括只读存储器和随机存取存储器,并向处理器1101 提供程序指令和数据。存储器1102的一部分还可以包括非易失性随机存取存储器。其中,所述处理器1101调用所述程序指令时用于执行:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的语音数据确定所述验证时间窗对应的关联特征;
基于所述每个命令词分别对应的第一置信度以及所述关联特征确定所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
在一种实现方式中,所述处理器1101,具体用于:
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据与所述命令词集中每个命令词相对应的第二置信度;
若所述命令词集中存在第二置信度大于或等于第一阈值的命令词,则确定所述目标时间窗的语音数据命中所述命令词集中的命令词;
若所述命令词集中不存在第二置信度大于或等于第一阈值的命令词,则确定所述目标时间窗的语音数据没有命中所述命令词集中的命令词。
在一种实现方式中,所述处理器1101,具体用于:
基于所述每个命令词对应的第二置信度、所述每个命令词分别对应的第一置信度以及所述关联特征进行拼接处理,得到验证特征;
基于所述验证特征确定所述验证时间窗的语音数据与所述每个命令词对应的第三置信度;
若所述命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
在一种实现方式中,所述处理器1101,具体用于:
基于所述每个命令词分别对应的第一置信度以及所述关联特征,确定所述验证时间窗的语音数据与所述每个命令词对应的第三置信度;
若所述命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
在一种实现方式中,所述命令词集中的所述每个命令词具有多个音节;所述处理器1101,具体用于:
获取音节输出单元集,所述音节输出单元集是基于所述每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述K个语音帧分别与所述音节输出单元集中每个音节输出单元相对应的概率;
将所述目标时间窗的语音数据命中的命令词具有的音节对应的音节输出单元确定为验证音节输出单元,并将所述K个语音帧中与所述验证音节输出单元相对应的概率最大的语音帧确定为目标语音帧;
根据所述目标语音帧与所述当前语音帧之间的语音帧确定所述当前语音帧关联的验证时间窗。
在一种实现方式中,所述关联特征包括以下至少一种:所述验证时间窗中的语音数据的第一平均能量、所述验证时间窗中的语音数据的有效语音占比、所述验证时间窗中的语音数据的信噪比以及所述验证时间窗中语音帧的数量。
在一种实现方式中,所述处理器1101,还用于:
基于所述验证时间窗中的每个语音帧的语音数据的能量确定所述验证时间窗的语音数据的第一平均能量;
根据所述验证时间窗中的有效语音帧的数量确定所述验证时间窗的语音数据的有效语音占比,所述有效语音帧为能量大于或等于所述第一平均能量的语音帧;
根据所述验证时间窗中的有效语音帧的第二平均能量与所述第一平均能量确定所述验证时间窗的语音数据的信噪比。
可选的,该程序指令被处理器执行时还可实现上述实施例中方法的其他步骤,这里不再赘述。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述方法,比如执行上述电子设备执行的方法,此处不赘述。
可选的,本申请涉及的存储介质如计算机可读存储介质可以是非易失性的,也可以是易失性的。
可选的,该计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。例如,该计算机指令存储在计算机可读存储介质中。计算机设备(即上述的电子设备)的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。例如,该计算机设备可以为终端,或者可以为服务器。以上对本申请实施例所提供的一种数据处理方法、装置、电子设备、程序产品及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种数据处理方法,其特征在于,所述方法包括:
确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的语音数据确定所述验证时间窗对应的关联特征;
基于所述每个命令词分别对应的第一置信度以及所述关联特征进行拼接处理,得到验证特征,基于所述验证特征确定所述验证时间窗的语音数据与所述每个命令词对应的第三置信度;
若所述命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
2.根据权利要求1所述方法,其特征在于,所述根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,包括:
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据与所述命令词集中每个命令词相对应的第二置信度;
若所述命令词集中存在第二置信度大于或等于第一阈值的命令词,则确定所述目标时间窗的语音数据命中所述命令词集中的命令词;
若所述命令词集中不存在第二置信度大于或等于第一阈值的命令词,则确定所述目标时间窗的语音数据没有命中所述命令词集中的命令词。
3.根据权利要求2所述方法,其特征在于,所述基于所述每个命令词分别对应的第一置信度以及所述关联特征进行拼接处理,得到验证特征,包括:
基于所述每个命令词对应的第二置信度、所述每个命令词分别对应的第一置信度以及所述关联特征进行拼接处理,得到验证特征。
4.根据权利要求1所述方法,其特征在于,所述命令词集中的所述每个命令词具有多个音节;所述确定与所述当前语音帧关联的验证时间窗,包括:
获取音节输出单元集,所述音节输出单元集是基于所述每个命令词具有的多个音节确定的,不同音节输出单元对应的音节不同;
根据所述K个语音帧的语音数据分别对应的音频特征,确定所述K个语音帧分别与所述音节输出单元集中每个音节输出单元相对应的概率;
将所述目标时间窗的语音数据命中的命令词具有的音节对应的音节输出单元确定为验证音节输出单元,并将所述K个语音帧中与所述验证音节输出单元相对应的概率最大的语音帧确定为目标语音帧;
根据所述目标语音帧与所述当前语音帧之间的语音帧确定所述当前语音帧关联的验证时间窗。
5.根据权利要求1所述方法,其特征在于,所述关联特征包括以下至少一种:所述验证时间窗中的语音数据的第一平均能量、所述验证时间窗中的语音数据的有效语音占比、所述验证时间窗中的语音数据的信噪比以及所述验证时间窗中语音帧的数量。
6.根据权利要求5所述方法,其特征在于,所述方法还包括:
基于所述验证时间窗中的每个语音帧的语音数据的能量确定所述验证时间窗的语音数据的第一平均能量;
根据所述验证时间窗中的有效语音帧的数量确定所述验证时间窗的语音数据的有效语音占比,所述有效语音帧为能量大于或等于所述第一平均能量的语音帧;
根据所述验证时间窗中的有效语音帧的第二平均能量与所述第一平均能量确定所述验证时间窗的语音数据的信噪比。
7.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于确定当前语音帧对应的目标时间窗,并获取所述目标时间窗内的K个语音帧的语音数据分别对应的音频特征,K为正整数;
处理单元,用于根据所述K个语音帧的语音数据分别对应的音频特征,确定所述目标时间窗的语音数据是否命中命令词集中的命令词,所述命令词集中包括至少一个命令词;
所述处理单元,还用于当所述目标时间窗的语音数据命中所述命令词集中的命令词时,确定与所述当前语音帧关联的验证时间窗;
所述处理单元,还用于根据所述验证时间窗内的多个语音帧的语音数据分别对应的音频特征,确定所述验证时间窗内的语音数据与所述命令词集中每个命令词分别对应的第一置信度,并基于所述验证时间窗中的多个语音帧的语音数据确定所述验证时间窗对应的关联特征;
所述处理单元,还用于基于所述每个命令词分别对应的第一置信度以及所述关联特征进行拼接处理,得到验证特征,基于所述验证特征确定所述验证时间窗的语音数据与所述每个命令词对应的第三置信度;若所述命令词集中存在第三置信度大于或等于第二阈值的命令词,则将第三置信度大于或等于第二阈值且第三置信度最大的命令词确定为所述验证时间窗的语音数据在所述命令词集中命中的结果命令词。
8.一种电子设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210597334.6A CN115132197B (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、电子设备、程序产品及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210597334.6A CN115132197B (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、电子设备、程序产品及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115132197A CN115132197A (zh) | 2022-09-30 |
CN115132197B true CN115132197B (zh) | 2024-04-09 |
Family
ID=83378657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210597334.6A Active CN115132197B (zh) | 2022-05-27 | 2022-05-27 | 数据处理方法、装置、电子设备、程序产品及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115132197B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115132198B (zh) * | 2022-05-27 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6697782B1 (en) * | 1999-01-18 | 2004-02-24 | Nokia Mobile Phones, Ltd. | Method in the recognition of speech and a wireless communication device to be controlled by speech |
CN103065631A (zh) * | 2013-01-24 | 2013-04-24 | 华为终端有限公司 | 一种语音识别的方法、装置 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110570840A (zh) * | 2019-09-12 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN110706691A (zh) * | 2019-10-12 | 2020-01-17 | 出门问问信息科技有限公司 | 语音验证方法及装置、电子设备和计算机可读存储介质 |
CN110718212A (zh) * | 2019-10-12 | 2020-01-21 | 出门问问信息科技有限公司 | 语音唤醒方法、装置及***、终端和计算机可读存储介质 |
CN110890093A (zh) * | 2019-11-22 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN111128182A (zh) * | 2019-12-16 | 2020-05-08 | 中国银行股份有限公司 | 一种智能语音录入方法及装置 |
CN111369980A (zh) * | 2020-02-27 | 2020-07-03 | 网易有道信息技术(北京)有限公司江苏分公司 | 语音检测方法、装置、电子设备及存储介质 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN111933112A (zh) * | 2020-09-21 | 2020-11-13 | 北京声智科技有限公司 | 唤醒语音确定方法、装置、设备及介质 |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
CN112599127A (zh) * | 2020-12-04 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 一种语音指令处理方法、装置、设备及存储介质 |
US11024291B2 (en) * | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
CN113314099A (zh) * | 2021-07-28 | 2021-08-27 | 北京世纪好未来教育科技有限公司 | 语音识别置信度的确定方法和确定装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100655491B1 (ko) * | 2004-12-21 | 2006-12-11 | 한국전자통신연구원 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
US11443734B2 (en) * | 2019-08-26 | 2022-09-13 | Nice Ltd. | System and method for combining phonetic and automatic speech recognition search |
US11580959B2 (en) * | 2020-09-28 | 2023-02-14 | International Business Machines Corporation | Improving speech recognition transcriptions |
-
2022
- 2022-05-27 CN CN202210597334.6A patent/CN115132197B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6697782B1 (en) * | 1999-01-18 | 2004-02-24 | Nokia Mobile Phones, Ltd. | Method in the recognition of speech and a wireless communication device to be controlled by speech |
CN103065631A (zh) * | 2013-01-24 | 2013-04-24 | 华为终端有限公司 | 一种语音识别的方法、装置 |
US11024291B2 (en) * | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110570840A (zh) * | 2019-09-12 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN110706691A (zh) * | 2019-10-12 | 2020-01-17 | 出门问问信息科技有限公司 | 语音验证方法及装置、电子设备和计算机可读存储介质 |
CN110718212A (zh) * | 2019-10-12 | 2020-01-21 | 出门问问信息科技有限公司 | 语音唤醒方法、装置及***、终端和计算机可读存储介质 |
CN110890093A (zh) * | 2019-11-22 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN111128182A (zh) * | 2019-12-16 | 2020-05-08 | 中国银行股份有限公司 | 一种智能语音录入方法及装置 |
CN111369980A (zh) * | 2020-02-27 | 2020-07-03 | 网易有道信息技术(北京)有限公司江苏分公司 | 语音检测方法、装置、电子设备及存储介质 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN111933112A (zh) * | 2020-09-21 | 2020-11-13 | 北京声智科技有限公司 | 唤醒语音确定方法、装置、设备及介质 |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
CN112599127A (zh) * | 2020-12-04 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 一种语音指令处理方法、装置、设备及存储介质 |
CN113314099A (zh) * | 2021-07-28 | 2021-08-27 | 北京世纪好未来教育科技有限公司 | 语音识别置信度的确定方法和确定装置 |
Non-Patent Citations (1)
Title |
---|
基于汉语语音音位的非特定人命令词识别算法研究;张秋余;赵彦敏;李建海;;科学技术与工程;20080415(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115132197A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN107316643B (zh) | 语音交互方法及装置 | |
US20180158449A1 (en) | Method and device for waking up via speech based on artificial intelligence | |
US10861480B2 (en) | Method and device for generating far-field speech data, computer device and computer readable storage medium | |
CN110660201B (zh) | 到站提醒方法、装置、终端及存储介质 | |
US20060053009A1 (en) | Distributed speech recognition system and method | |
CN110706692A (zh) | 儿童语音识别模型的训练方法及*** | |
CN110428854B (zh) | 车载端的语音端点检测方法、装置和计算机设备 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN112599127B (zh) | 一种语音指令处理方法、装置、设备及存储介质 | |
CN111862942A (zh) | 普通话和四川话的混合语音识别模型的训练方法及*** | |
CN110880328B (zh) | 到站提醒方法、装置、终端及存储介质 | |
CN112259101B (zh) | 语音关键词识别方法、装置、计算机设备和存储介质 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN112233651A (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN111009261B (zh) | 到站提醒方法、装置、终端及存储介质 | |
CN112992191A (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN112185425A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN115132198B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN112735381B (zh) | 一种模型更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |