CN113782014A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN113782014A
CN113782014A CN202111128230.2A CN202111128230A CN113782014A CN 113782014 A CN113782014 A CN 113782014A CN 202111128230 A CN202111128230 A CN 202111128230A CN 113782014 A CN113782014 A CN 113782014A
Authority
CN
China
Prior art keywords
speech
recognized
voice
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111128230.2A
Other languages
English (en)
Other versions
CN113782014B (zh
Inventor
谢鲁源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111128230.2A priority Critical patent/CN113782014B/zh
Publication of CN113782014A publication Critical patent/CN113782014A/zh
Application granted granted Critical
Publication of CN113782014B publication Critical patent/CN113782014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提出了一种语音识别方法及装置,在唤醒词识别模型的训练阶段,训练了适用于不同语速类别的语音数据的唤醒词识别的模型参数,在用户需要语音唤醒待唤醒对象(如任一终端或其安装的任一应用等)的情况下,获取相应的待识别语音数据,先对其进行语速识别,得到其语速识别结果,选择与其相匹配的目标模型参数后,再将待识别语音数据输入采用该目标模型参数的唤醒词识别模型进行处理,相对于采用固定模型参数对各种语速的语音数据进行唤醒词识别处理,提高了待识别语音数据的唤醒词识别结果的精准度,从而提高了待唤醒对象的唤醒率。

Description

语音识别方法及装置
技术领域
本申请主要涉及语音处理领域,更具体地说是涉及一种语音识别方法及装置。
背景技术
随着人工智能技术的发展,语音唤醒技术作为人工智能中的语音识别领域的重要分支之一,被广泛应用于手机终端、智能家居、车载导航、医疗设备等语音交互***中,方便用户使用语音指令(即唤醒词)唤醒设备,触发该设备进入特定的工作状态,满足用户对设备的使用需求。
在唤醒词检测过程中,可以利用预设长度的滑动窗,对待识别语音信号进行特征提取,基于提取到的特征信息确定待识别语音信号是否包含预设唤醒词。然而,用户输出的待识别语音信号的语速往往是多变的,这种语音识别方法往往无法保证不同语速的待识别语音信号的检测准确性,降低了设备唤醒率。
发明内容
有鉴于此,本申请提出了一种语音识别方法,所述方法包括:
获取待识别语音数据;
对所述待识别语音数据进行语速识别,得到语速识别结果;
获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数;其中,所述唤醒词识别模型具有针对不同语速语音数据的模型参数;
将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果。
可选的,所述获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数,包括:
如果所述语速识别结果表示所述待识别语音数据属于第一语速,选择唤醒词识别模型包含的多个特征层中,与所述第一语速相匹配的目标特征层;其中,不同语速对应的目标特征层不同,和/或不同目标特征层的特征映射区域不同。
可选的,所述将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果,包括:
将所述待识别语音数据输入所述唤醒词识别模型,由所述目标特征层对所述待识别语音数据进行特征提取,得到所述待识别语音数据的目标语音特征向量;
对所述目标语音特征向量进行唤醒词识别,得到所述待识别语音数据的唤醒词识别结果。
可选的,所述获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数,将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果,包括:
如果所述语速识别结果表示所述待识别语音数据有第一概率属于第一语速,且有第二概率属于第二语速,确定与所述第一语速相匹配的第一特征提取网络,以及与所述第二语速相匹配的第二特征提取网络;其中,不同特征提取网络包含的特征层层数和/或特征映射区域不同;
将所述待识别语音数据分别输入所述第一特征提取网络和所述第二特征提取网络,输出相应的第一语音特征向量和第二语音特征向量;
获取所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量;
依据所述第一权重向量和所述第二权重向量,对所述第一语音特征向量和第二语音特征向量进行处理,得到所述待识别语音数据的唤醒词识别结果。
可选的,所述获取所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量,包括:
将所述第一语音特征向量与第二语音特征向量融合,得到融合语音特征向量;
对所述融合语音特征向量进行语速分类处理,得到所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量。
可选的,所述依据所述第一权重向量和所述第二权重向量,对所述第一语音特征向量和第二语音特征向量进行处理,得到所述待识别语音数据的唤醒词识别结果,包括:
对所述第一语音特征向量、所述第一权重向量、所述第二语音特征向量以及所述第二权重向量进行加权融合处理,得到所述待识别语音数据的目标语音特征向量;
对所述目标特征向量进行唤醒词识别,得到所述待识别语音数据的唤醒词识别结果。
可选的,所述语速越快的语音数据对应的特征层层数越少,和/或所述特征层的特征映射区域尺寸越小。
可选的,所述获取待识别语音数据,包括:
获取待识别语音信号;
对所述待识别语音信号进行分帧特征提取,得到相应语音帧特征向量;
由多个所述语音帧特征向量构成待识别语音数据。
可选的,所述对所述待识别语音数据进行语速识别,得到语速识别结果,包括:
将所述待识别语音数据输入语速分类模型,输出语速识别结果;
其中,所述语速识别结果包括所述待识别语音数据属于不同语速类别的预测概率。
又一方面,本申请还提出了一种语音识别装置,所述方法包括:
语音数据获取模块,用于获取待识别语音数据;
语速识别模块,用于对所述待识别语音数据进行语速识别,得到语速识别结果;
目标模型参数获取模块,用于获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数;
唤醒词识别模块,用于将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果。
由此可见,本申请提供了一种语音识别方法及装置,在唤醒词识别模型的训练阶段,训练了适用于不同语速类别的语音数据的唤醒词识别的模型参数,在用户需要语音唤醒待唤醒对象(如任一终端或其安装的任一应用等)的情况下,获取相应的待识别语音数据,先对其进行语速识别,得到其语速识别结果,选择与其相匹配的目标模型参数后,再将待识别语音数据输入采用该目标模型参数的唤醒词识别模型进行处理,相对于采用固定模型参数对各种语速的语音数据进行唤醒词识别处理,提高了待识别语音数据的唤醒词识别结果的精准度,从而提高了待唤醒对象的唤醒率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为适用于本申请提出的语音识别方法的一可选应用环境的***结构示意图;
图2为适用于本申请提出的语音识别方法的计算机设备的一可选示例的硬件结构示意图;
图3为适用于本申请提出的语音识别方法的计算机设备的又一可选示例的硬件结构示意图;
图4为本申请提出的语音识别方法的一可选示例的流程示意图;
图5为本申请提出的语音识别方法的又一可选示例的流程示意图;
图6为本申请提出的语音识别方法的又一可选示例的流程示意图;
图7为本申请提出的语音识别方法的又一可选示例的流程示意图;
图8为本申请提出的语音识别方法的又一可选示例的流程示意图;
图9为本申请提出的语音识别方法的又一可选示例的流程示意图;
图10为本申请提出的语音识别装置的一可选示例的结构示意图;
图11为本申请提出的语音识别装置的又一可选示例的结构示意图;
图12为本申请提出的语音识别装置的又一可选示例的结构示意图。
具体实施方式
针对背景技术部分描述的技术问题,本申请为了能够实现对不同语速的语音数据的识别,得到更加准确的语音识别结果,提出在模型训练阶段,通过数据增强的方式,模拟不同语速的训练样本语音数据,增加语速数据的泛化性,以提高基于多种语速的训练样本语音数据,训练得到的唤醒词识别模型的可靠性和准确性,即增加语音语音识别引擎的鲁棒性。
但这种训练方式需要非常多均衡的多种语速的训练样本语音数据,在实际应用中很难满足该要求,且与非激活词的语音数据匹配也会制约模型性能,这影响了实际应用中,利用预训练的唤醒词识别模型,对采集到的语音数据进行唤醒词识别的识别结果的可靠性和准确性,即降低了语音识别引擎的识别准确性。
为了改善上述问题,提高唤醒词识别精准度,本申请提出针对不同语音类别的语音数据,预先训练相适配的模型参数,在实际应用中,可以利用具有与采集到的语音数据的语速类别对应模型参数的唤醒词识别模型,对该语音数据进行唤醒词识别,得到更加准确的唤醒词识别结果,从而解决采用具有预训练的固定模型参数的唤醒词识别模型,对各种语速的语音数据进行唤醒词识别,无法保证各类语速的语音数据的唤醒词识别结果准确性的技术问题。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,为适用于本申请提出的语音识别方法的一可选应用环境的***结构示意图,在该应用环境下,如图1所示,其***可以包括终端11和服务器12,其中:
终端11可以是安装有语音识别引擎(如语音助手)的电子设备,用户可以根据个人喜好或习惯等方式,预先配置用于唤醒该终端设备或其某应用工作的唤醒词,这样,当用户需要使用该终端11的某应用时,可以说出包含相应唤醒词的语音数据,以使终端11的语音识别引擎对该语音数据进行唤醒词识别,确定该包含预先配置的唤醒词,唤醒该终端11。
其中,在语音识别引擎对采集到的语音数据进行唤醒词识别的过程中,可以利用预先训练的唤醒词识别模型实现,结合上文对本申请技术构思的描述,该唤醒词识别模型训练过程中,针对不同语速类别的训练样本语音数据,训练得到的对应的模型参数,这样,在语音识别引擎进行唤醒词识别过程中,可以先对采集到的语音数据进行语速识别,确定相匹配的目标模型参数,再将采集到的语音数据输入采用该目标模型参数的唤醒词识别模型进行处理,从而得到高精准度的唤醒词识别结果。关于模型训练实现过程,可以参照下文方法实施例相应部分的描述。
在一些实施例中,对于上述唤醒词识别过程,可以由终端11执行实现,也就是说,终端设备采集到用户输出的语音数据后,可以调用预训练的唤醒词识别模型,对该语音数据进行唤醒词识别;在又一些实施例中,终端11也可以通过有线通信网络或无线通信网络,将采集到的语音数据发送至服务器12,由服务器执行本申请提出的语音识别方法,得到该语音数据的唤醒词识别结果,再将其反馈至终端11,唤醒该终端。本申请对语音识别方法的执行主体不做限制,下文统称为计算机设备。
在实际应用中,上述终端11可以包括但并不局限于智能手机、平板电脑、可穿戴设备(如智能手表、智能手环等)、增强现实技术(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、车载设备、智能音箱、机器人、智能家居设备、智慧交通设备、智慧医疗设备等,本申请对该终端11的产品类型不做限制,可以依据应用场景需求确定。
服务器12可以是支持终端11的语音识别引擎的语音识别服务的服务设备,可以是独立的一个物理服务器,也可以是多个物理服务器构成的服务器集群,还可以是能够实现云计算服务的云服务器等,其可以通过互联网实现与各终端11的数据交互,具体交互过程可以结合语音识别应用场景确定,本申请实施例不做详述。
如上述分析,对于本申请提出的语音识别方法使用的唤醒词识别模型,,可以在服务器12进行预训练,供各终端11调用,或者在服务器12执行本申请提出的语音识别方法的场景下,由服务器直接调用预训练的唤醒词识别模型,实现对终端发送的待识别语音数据的唤醒词识别,实现过程本申请不做详述。
应该理解的是,图1所示的***结构并不构成适用于本申请提出的语音识别方法的应用环境的***架构的限定,在实际应用中,在不同应用环境下,其***可以包括更多设备,如数据库,其他应用服务器等,本申请不做一一列举。
参照图2,为适用于本申请提出的语音识别方法的计算机设备的一可选示例的硬件结构示意图,该计算机设备可以是上述终端或服务器,该计算机设备可以包括至少一个存储器21以及至少一个处理器22,其中:
存储器21可以用于存储实现如上述的语音识别方法的程序;处理器22可以用于加载并执行存储器21存储的程序,以实现上述任一方法实施例描述的语音识别方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不再赘述。
在本申请实施例中,存储器21可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器22,可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
应该理解的是,图2所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图2所示的更多的部件,或者组合某些部件,如各种通信接口等。且在计算机设备为终端的情况下,如图3所示,该计算机还可以包括如摄像头、拾音器等至少一个输入设备;如显示器、扬声器等至少一个输出设备;各种传感器组成的传感器模组;电源管理模组;天线等,本申请在此不做一一列举。
由此可见,用户唤醒终端的应用中,可以由终端自身的拾音器采集用户的语音数据,实现唤醒词识别,或发送至服务器实现唤醒词识别。当然,在一些实施例中,也可以由独立的语音采集设备采集语音数据发送至终端或服务器,实现针对终端的唤醒词识别,本申请对此不做限制,可依据语音识别应用场景的实际需求确定,本申请对各应用场景不做详述。
参照图4,为本申请提出的语音识别方法的一可选示例的流程示意图,该方法可以由计算机设备执行,即由服务器或终端执行,或者是由服务器与终端相互配合实现该语音识别方法,本申请对该语音识别方法的执行主体不做限制,可以依据应用场景的需求确定。如图4所示,该方法可以包括:
步骤S11,获取待识别语音数据;
在需要语音唤醒某终端或其包含的某应用的场景下,用户可以直接说出预设的唤醒词,由语音采集设备进行语音采集,得到相应的语音数据,本申请将需要检测是否包含预设唤醒词的语音数据记为待识别语音数据。
结合上述分析,该语音采集设备可以位于终端内,也可以是独立设备。在语音采集设备集成在终端内,对于采集到的待识别语音数据,可以由终端的处理器执行后续步骤;也可以通过终端的通信模块联网,将待识别语音数据发送至服务器,由服务器执行后续唤醒词识别步骤。
同理,对于独立的语音采集设备采集到的待识别语音数据,可以通过自身或终端设备的通信模块发送至服务器执行后续步骤;也可以发送至作为待唤醒对象的终端执行后续步骤等,本申请对待识别语音数据的采集方法及其发送至计算机设备的实现方法不做限制,可以依据语音识别场景的应用需求确定。
步骤S12,对待识别语音数据进行语速识别,得到语速识别结果;
结合上文对本申请技术构思的相关描述,为了提高唤醒词识别精准度,在唤醒词识别模型的训练阶段,是训练得到适用于不同语速类别的训练样本语音数据各自对应的模型参数,所以,对于待识别语音数据,在进行唤醒词识别之前,需要先对其进行语速检测,确定待识别语音数据的语速。
其中,用户说话的语速通常指示单位时间内说出的字节个数,由于不同行业对说话语速的标准不同,不同场景对说话人的语速要求也不同,本申请可以结合各领域语速要求,将用户说话语速分为快语速、正常语速、慢语速三大类,并确定每一类语速可以对应的语速范围。这样,在实际语速识别过程中,可以统计单位时间内用户说话字节个数,确定其所在语速范围,从而确定语音数据所属的语速类别。
然而,这种通过简单数学运算得到的语速识别结果,往往无法适用于不同行业用户在不同场景下的不同说话习惯,降低语速识别精准度。为了提高语速识别精准度,本申请可以获取待识别语音数据的音频帧特征序列,将其输入预训练的语速识别模型,来获得待识别语音数据的实时语速,通过与不同类别语速各自对应的语速范围,确定待识别语音识别数据所属语速类别。但并不局限于本申请提出的语速识别方法。
基于上述描述,可以理解,若待识别语音数据的实际语速,接近某一语速范围的边界值,可能会将其判断为该边界值关联的两个语速类别,也就是说,上述语速识别结果可以为:待识别语音数据有第一概率为第一类语速,且有第二概率为第二类语速。当然,在待识别语音数据的实际语速,位于某一语速范围中间位置的某一值,可以准确确定待识别语音数据为该语速范围对应的语速类别。
由上述分析可知,对于上述语速识别模型可以直接获得输入语音数据属于某语速类别的概率,若该概率达到概率阈值,如95%的概率为正常语速,可以确定输入的语音数据为正常语速;若预测结果为60%概率为正常语速,70%概率为快语速,那么,语速识别结果是这两类语速。需要说明,本申请对语速识别模型的训练方法,及如何识别待识别语音数据的语速的实现过程不做限制。
步骤S13,获取唤醒词识别模型中与语速识别结果相匹配的目标模型参数;
结合本申请技术构思的相关描述,本申请在训练唤醒词识别模型过程中,训练得到的针对不同语速类别一一对应的模型参数,从而使得唤醒词识别模型具有针对不同语速语音数据的模型参数,即训练得到的多组模型参数。这样,在实际唤醒词识别过程中,可以依据待识别语音数据的语速识别结果,来确定本次对该待识别语音数据进行唤醒词识别时,唤醒词识别模型应该采用哪组模型参数进行处理,以提高待识别语音数据的唤醒词识别精准度。
因此,在获得待识别语音数据的语速识别结果后,若确定待识别语音数据属于第一语速(即任一语速类别),可以从不同语速类别与不同组模型参数的映射关系中,获取该第一语速映射的模型参数为目标模型参数;若确定待识别语音数据可能属于第一语速,也可能属于第二语速,第一语速和第二语速属于语速范围相邻的两个语速类别,这种情况下,可以基于该映射关系,将第一语速映射的第一模型参数,以及第二语速映射的第二模型参数统称为目标模型参数。本申请对目标模型参数的内容不做限制,可视情况而定。
在本申请实际应用中,由于唤醒词识别模型是基于从待识别语音数据中提取到的语音特征信息,来确定待识别语音数据包含的相应词是否为唤醒词,可见,提取到的语音特征信息的精准度和粒度,直接影响了判断唤醒词的准确率,为了获取更全面更细化的语音特征信息,同时保证唤醒词识别效率,本申请可以采用长度较短的滑动窗口,实现对快语速的语音数据的特征提取;采用长度较长的滑动窗口,实现对慢语速的语音数据的特征提取;采用长度适中的滑动窗口,实现对正常语速的语音数据的特征提取。
因此,上述模型参数可以包括模型网络中确定该滑动窗口长度的网络参数,如基于卷积神经网络实现语音数据的特征提取方法中,模型参数可以包括进行语音特征提取采用的卷积层层数、各卷积层的卷积核尺寸、卷积步长等,本申请在此不做一一列举。
步骤S14,将待识别语音数据输入采用目标模型参数的唤醒词识别模型,输出待识别语音信号的唤醒词识别结果。
继上文描述,确定当前场景下采集到的待识别语音数据所属的语速类别(一类或多类),以及该语速类别对应的训练好的唤醒词识别模型的目标模型参数后,在对待识别语音数据进行唤醒词识别时,即将该待识别语音数据输入唤醒词识别模型后,该唤醒词识别模型将采用目标模型参数对输入的待识别语音数据进行处理,得到唤醒词识别结果,如预测该待识别语音数据包含预设唤醒词(针对待唤醒对象预先配置的一个或多个唤醒词)的概率,据此确定待识别语音数据是否包含预设唤醒词,也就是说,待识别语音数据能否唤醒待唤醒对象。本申请对唤醒词识别模型采用确定的模型参数,对待识别语音数据的唤醒词识别过程不做详述。
综上,在本申请实施例中,预先针对不同语速的语音数据,在唤醒词识别模型的训练阶段,训练了适用于相应语速类别的语音数据的唤醒词识别的模型参数,从而使训练得到的唤醒词识别模型能够采用不同的模型参数,适用于不同语速类别的语音数据的唤醒词识别。所以,在用户需要使用待唤醒对象(如任一终端或其安装的任一应用等),根据个人喜好或习惯等说出预设唤醒词的应用场景下,采集用户输出的语音数据作为待识别语音数据,由计算机设备先对其进行语速识别,得到其语速识别结果,确定与其相匹配的目标模型参数后,将待识别语音数据输入采用该目标模型参数的唤醒词识别模型进行处理,相对于传统唤醒词识别模型采用固定模型对各种语速的语音数据进行唤醒词识别处理,本申请极大提高了待识别语音数据的唤醒词识别结果的精准度,从而提高了待唤醒对象的唤醒率,提高了用户体验。
参照图5,为本申请提出的语音识别方法的又一可选示例的流程示意图,本申请实施例可以是对上文实施例描述的语音识别方法的一可选细化实现方法,但并不局限于本实施例描述的这种细化实现方法。且该细化实现方法仍可以由计算机设备执行,如图5所示,该方法可以包括:
步骤S21,获取待识别语音信号;
步骤S22,对待识别语音信号进行分帧特征提取,得到相应语音帧特征向量;
步骤S23,由多个语音帧特征向量构成待识别语音数据;
为了可靠得到待识别语音信号的语速识别结果,对于语音采集设备直接采集到的待识别语音信号,可以对待识别语音信号进行分帧特征提取,即提取各语音帧特征信息,如采用深度神经网络构成的特征提取网络(也可以称为编码网络encoder),将待识别语音信号从低维空间映射到高维空间,提取待识别语音信号包含的低维度文本特征、高维度语义特征等,得到待识别语音信号的不同维度的语音特征信息,本申请将其记为待识别语音数据。
需要说明,本申请对采集到的待识别语音信号的特征提取实现方法不做限制,包括但并不局限于上文列举的基于深度神经网络实现的特征提取方式。
步骤S24,将待识别语音数据输入语速分类模型,输出语速识别结果;
结合上文实施例相应部分的描述,将包含的不同维度语音特征的待识别语音数据输入训练好的语速分类模型,可以得到待识别语音数据属于不同语速类别的预测概率,之后,本申请可以通过将得到的一个或多个预测概率与概率阈值进行比较,来确定待识别语音数据所属的一个语速类别或多个语速类别,实现过程本申请不做详述。本申请对概率阈值的数值不做限制,可视情况而定,且能够根据场景需求进行灵活配置。
步骤S25,确定该语速识别结果表示待识别语音数据属于第一语速,选择唤醒词识别模型包含的多个特征层中与第一语速相匹配的目标特征层;
本申请实施例中,经过上文描述的语速识别后,所得语速识别结果表示待识别语音数据属于第一语速,该第一语速可以是上文列举的快语速、正常语速、慢语速等语速类别中的任一语速类别。示例性的,如语速识别结果为待识别语音数据属于快语速的预测概率(如95%)大于概率阈值(如85%等),可以认为待识别语音数据属于快语速,可以从训练好的唤醒词识别模型包含的多个特征层中,选择与快语速相匹配的一个或多个特征层为目标特征层。
可见,本申请可以通过对待识别语音数据的语速识别,从唤醒词识别模型包含的多个特征层中,确定出本次对待识别语音数据进行唤醒词识别时,应该采用哪几个特征层(记为目标特征层)对该待识别语音数据进行特征提取,保证能够可靠且全面提取到待识别语音数据包含的语音特征信息,且后续能够据此可靠识别出待识别语音数据是否包含预设唤醒词。
需要说明,本申请对不同类别语速的语音数据各自匹配的特征层的配置参数不做限制,由于唤醒词识别模型中多个特征层,是对输入语音数据进行逐层特征提取,由于不同特征层进行特征提取时所依据的特征映射区域尺寸、步长等配置参数可能不同,使得各特征层提取到的语音特征信息往往是不同的,本申请可以据此在唤醒词识别模型的训练阶段,确定适用于对于不同类别语速的语音数据相匹配的特征层的配置参数,训练实现过程本申请实施例在此不做详述。
可以理解,对于不同类别语速的语音数据相匹配的特征层的层数可能不同,不同特征层进行特征提取依据的特征映射区域等配置参数可能相同,也可能不同。也就是说,不同语速对应的目标特征层不同,和/或不同语速对应的不同目标特征层的特征映射区域不同。通常情况下,语速越快的语音数据对应的特征层层数越少,和/或该特征层的特征映射区域尺寸越小,关于不同类别语速的语音数据与目标特征层的配置参数之间的映射关系本申请不做限制,可视情况而定。
在一些实施例中,唤醒词识别模型的特征提取网络可以由卷积神经网络构成,这种情况下,上述特征层可以指卷积层,计算机设备依据语速识别结果,可以从卷积神经网络中,确定与第一语速相匹配的多个卷积层为目标卷积层,关于目标卷积层所表示的卷积神经网络中的卷积层层数、卷积核尺寸、卷积步长等配置参数,可以在唤醒词识别模型训练阶段确定,本申请对此不做限制。
步骤S26,将待识别语音数据输入唤醒词识别模型,由目标特征层对待识别语音数据进行特征提取,得到待识别语音数据的目标语音特征向量;
在本申请实施例中,唤醒词识别模型可以包括一个特征提取网络,适用于多种语速类别的语音数据的特征提取,但是,结合上文描述,对于不同类别语速的语音数据,其可以与该特征提取网络包含的不同特征层匹配,也就是说,将确定的第一语速的待识别语音数据输入该特征提取网络后,本申请是将该特征提取网络中目标特征层输出的语音特征向量确定为目标语音特征向量,可见,该目标语音特征向量并不一定是将特征提取网络最后一特征层输出的语音特征向量。
在一些实施例中,如图6所示的场景示意图,本申请可以唤醒词识别模型的训练阶段,确定不同类别语速的语音数据各自相匹配特征层,如图6所示,快语速类别的语音数据采用减少的特征层,所得特征向量(如特征提取网络的层数靠前的特征层输出的特征向量)即可准确实现唤醒词识别;慢语速类别的语音数据往往需要采用减多的特征层,才能够保证所得特征向量(如特征提取网络的层数靠后的特征层输出的特征向量)准确实现唤醒词识别;对于中间语速类别的正常语速的语音数据,需要层数适中的特征层输出的特征向量(如特征提取网络的中间特征层输出的特征向量),实现对这类语音数据的唤醒词精准识别。
因此,在第一语速为快语速类别的情况下,目标特征层可以是整个特征提取网络靠前的若干层特征层,直接将目标特征层中的最后一特征层输出的语音特征向量确定为待识别语音数据的目标语音特征向量,如图6所示的标号为①的特征提取子网络输出该目标语音特征向量。
同理,对于其他类别语速的待识别语音数据,可以将其他特征层输出的语音特征向量作为目标语音特征向量。如图6所示,对于正常语速的待识别语音数据,可以使用标号为②的特征提取子网络对其进行特征提取,输出正常语速待识别语音数据的目标语音特征向量;使用标号为③的特征提取子网络对慢语速的待识别语音数据进行特征提取,得到慢语速待识别语音数据的目标语音特征向量,但并不局限于图6所示的对应不同类别语速的特征提取子网络之间的关系。
示例性的,若唤醒词识别模型是时序卷积选择网络TC-SKnet(TemporalConvolutional-Selective Kernel Networks)结构,该类网络是通过对不同尺寸的卷积核执行注意力机制,从而让网络自己选择合适的卷积核,本申请对该类网络的工作原理不做详述。在本申请实施例中,该网络可以针对不同语速类别的语音数据,可以选择合适的卷积核和/或卷积层层数,以得到能够准确实现唤醒词识别的语音特征信息。
结合上文分析,经过模型训练得知,将具有第一语速的待识别语音数据输入训练好的TC-SKnet,对于快语速的语音数据可以采用较小尺寸(记为第一尺寸)的卷积核进行卷积处理,将较低层数(记为第一层数)的卷积层(如图6标号①对应若干卷积层)的输出结果确定为输入的快语速语音数据的语音特征向量;对于正常语速的语音数据可以采用中等尺寸(记为第二尺寸,且第二尺寸大于第一尺寸)的卷积核进行卷积处理,将中间层的卷积层输出结果确定为输入的正常语速语音数据的语音特征向量;对于慢语速的语音数据可以采用较大尺寸(记为第三尺寸,该第三尺寸大于第二尺寸)的卷积核进行卷积处理,将较高层数的卷积层的输出结果,确定为输入的慢语速的语音数据的语音特征向量。
需要说明,本申请对上述卷积核的第一尺寸、第二尺寸和第三尺寸的数值大小不做限制,可视情况而定;对于不同类别语速语音数据的特征提取的输出路径不同,但对相应语音特征向量的输出层(即相应特征提取子网络的最后一卷积层)所在层数不做限制;而且,在卷积处理过程中,针对不同类别语速的语音数据的卷积步长可以相同,如都选择1;也可以不同,如语速越快,卷积步长可以越小等,本申请对卷积处理过程中,涉及到的卷积层层数、各卷积层的卷积核尺寸以及卷积步长等配置参数的数值均不做限制,可以依据模型训练结果确定。
在又一些实施例中,在选择待识别语音数据的输出路径的过程中,可以依据待识别语音数据的语速识别结果,来确定针对该待识别语音数据,选择各输出路径(即对应上文描述的各特征提取子网络)的指导权重,据此从预训练得到的分别对应快语速、正常语速、慢语速的特征提取子网络中,确定本次用于对待识别语音数据处理的特征提取子网络,即第一语速对应的特征提取子网络,将该特征提取子网络的输出结果确定为待识别语音数据的目标语音特征向量。
示例性的,若待识别语音数据的语速识别结果为第一语速,由此得到的指导权重若为100,可以获得标号为①的特征提取子网络的输出结果;若指导权重为010,可以获得标号为②的特征提取子网络的输出结果;若指导权重为001,可以获得标号为③的特征提取子网络的输出结果。需要说明,关于上述用于确定目标语音特征向量的输出路径的选择实现方法,并不局限于本实施例描述的这种指导权重获取方式,且指导权重的内容也并不局限于二进制字符表示方式。
步骤S27,对目标语音特征向量进行唤醒词识别,得到待识别语音数据的唤醒词识别结果。
继上文描述,获取如图6中标号为①或②或③的特征提取子网络输出的目标语音特征向量,即通过卷积层将数据映射到隐层特征空间,得到待识别语音数据中多种维度的语音特征信息后,将特征空间通过线性变换映射样本标记空间,即将目标语音特征信息输入相当于是“分类器”的全连接层(Fully Connected layers,FC层),本实施例是指用于识别唤醒词类别和非唤醒词类别的二分类器,得到待识别语音信号的类别标签预测结果,如待识别语音信号包含的对象为预设唤醒词的预测概率,从而据此确定该对象是否为针对待唤醒对象的预设唤醒词,即待识别语音信号是否包含该预设唤醒词。
需要说明,本申请对步骤S27的实现方法不做限制,其包括但并不局限于上述FC层的处理过程,根据需要还可以利用激活层的激活函数对FC层输出结果进行归一化处理,映射到(0,1)内的预测结果,实现过程不做详述。
综上,本申请实施例中,在用户语音唤醒任一待唤醒对象的场景下,对采集到的待识别语音信号进行分帧特征提取,得到待识别语音数据,将先输入语音识别模型,利用得到的语速识别结果,选择出唤醒词识别模型中适用于该语速类别的待识别语音数据的目标特征层,相对于直接由标号③对应的特征提取网络对各种语速的语音数据进行特征提取,本申请这种选择预训练的针对性的特征提取网络实现特征提取的方式,所得到目标语音特征向量能够更加准确且相对完整表征该类语速的待识别语音特征,据此能够高精准度地得到该类语速的待识别语音信号的唤醒词识别结果,提高了待唤醒对象的唤醒率。
参照图7,为本申请提出的语音识别方法的又一可选示例的流程示意图,本申请实施例可以是对上文实施例描述的语音识别方法的又一可选细化实现方法,该方法可以由计算机设备执行,如图7所示,该方法可以包括:
步骤S31,获取待识别语音信号;
步骤S32,将待识别语音信号输入编码器进行分帧特征提取,得到待识别语音数据;
步骤S33,将待识别语音数据输入语速分类器,得到语速识别结果;
关于步骤S31~步骤S33的实现过程可以参照上文实施例相应部分的描述,本实施例不做赘述。其中,上述编码器可以是如深度神经网络等特征提取网络,用于实现对连续多帧语音信号(如待识别语音信号)的特征提取,从而将待识别语音信号包含的各帧特征编码抽象成高维语音抽象特征,便于后续模型继续对该高维语音抽象特征进行分析,本申请实施例将该高维语音抽象特征记为待识别语音数据,本申请对编码器对输入语音信号的处理过程不做详述。
在一些实施例中,结合上文分析,上述语速识别模型可以是语速分类器,如基于神经网络训练得到的语速分类器,结合上文对唤醒词分类器的相关描述,该语速分类器可以由全连接层和激活层构成,通过全连接层对编码网络输出的特征向量(即待识别语音数据)进行分类预测,得到待识别语音信号的语速分类标签预测值,调用如sigmoid函数等激活函数,将其映射到(0,1)的预测概率,输出待识别语音信号的语速类别的预测结果,关于快语速、正常语速和慢语速这三类语速的预测分类实现过程本申请不做详述。可以理解,上述编码器和语速分类器的网络参数可以一起进行迭代训练,训练实现过程本申请不做详述。
步骤S34,确定该语速识别结果表示待识别语音数据有第一概率属于第一语速,且有第二概率属于第二语速,获得与第一语速相匹配的第一特征提取网络,以及与第二语速相匹配的第二特征提取网络;
本申请实施例中,区别于上文实施例由一个具有不同模型参数的TC-SKnet实现对不同语速的待识别语音数据的特征提取,本申请预训练了用于实现不同语速语音信号的特征提取的多个特征提取网络,由于不同语速的语音信号的声学特征不同,这多个特征提取网络各自包含的特征层层数和/或特征映射区域可以不同,具体数值可以依据实际训练情况确定。
参照图8所示的流程示意图,以多个特征提取网络为多个时序卷积网络TCN(Temporal Convolutional Network)为例进行说明,为了适用于快语速、正常语速、慢语速这三种语速类别的特征提取,在设计并训练相应的TCN时,可以采用阈值方式来配置不同的TCN。示例性的,可以将小于0.6s的时序卷积感受野配置为快语速类别TCN;0.6s~1.2s内的时序卷积感受野配置为正常语速TCN;大于1.2s时序卷积感受野配置为慢语速TCN,但并不局限于该阈值大小。
由此可见,语音信号的语速越快,对应TCN的时序卷积感受野越小,该时序卷积感受野大小可以由TCN的卷积层层数、卷积核大小等网络参数确定,本申请对配置针对不同语速类别的语音数据的TCN的网络参数数值不做限制,可视情况而定。
结合上文语速识别过程的相关描述,在一些应用场景下,对待识别语音信号进行语音识别,所得到的其属于不同类别语速的预测概率中,可能存在两个相近预测概率,如对于0.63s时序卷积感受野的待识别语音信号,经过语速识别处理后,得到的语速识别结果可能为有68%的第一概率为快语速(记为第一语速),且有76%的第二概率为正常语速(记为第二语速),有0%的第三概率为慢语速(记为第三语速)。需要说明,在不同场景下,所得到的第一概率、第二概率、第三概率的数值可能不同,本申请对此不做限制。
在上文举例场景下,若采用图6所示的语音识别方法,从中选择快语速或正常语速对应的特征提取子网络的输出结果为目标语音特征向量,所得唤醒词识别结果的准确性较差。为了改善该问题,采用本申请实施例提出的方法,基于上文举例的语速识别结果,初步确定待识别语音信号可能属于第一语速,也可能属于第二语速,为了能够获得待识别语音信号更加精准的语音特征向量,本申请可以利用这两类语速各自对应的特征提取网络,对待识别语音数据进行处理,以确定这两个特征提取网络输出的语音特征向量,各自在待识别语音数据的目标语音特征向量中的权重,即获取预测得到的多类语速各自的语音特征对待识别语音数据的唤醒词识别的影响力,实现方法本申请不做限制。
为了方便描述,本申请可以将预训练得到的第一语速相匹配的特征提取网络记为第一特征提取网络,如图8所示快语速TCN;将第二语速相匹配的特征提取网络记为第二特征提取网络,如图8所示的正常语速TCN,不同语速对应的特征提取网络是多个相对独立的TCN,且如上述分析图8所示的三个TCN包含的卷积层数和/或卷积核尺寸可以不同,关于各TCN的网络参数可以依据训练结果确定,本申请对此不做限制。
步骤S35,将待识别语音数据分别输入第一特征提取网络和第二特征提取网络,输出相应的第一语音特征向量和第二语音特征向量;
步骤S36,将第一语音特征向量与第二语音特征向量融合,得到融合语音特征向量;
步骤S37,对融合语音特征向量进行语速分类处理,得到第一语音特征向量的第一权重向量,以及第二语音特征向量的第二权重向量;
继上文描述,在确定准确确定待识别语音信号属于哪类语速的情况下,按照上述,分别按照待识别语音信号属于预测出的语速类别语音信号,利用预训练的相应特征提取网络对其进行特征提取,得到待识别语音信号作为预测的不同类别语速语音的语音特征向量,如图8所示,可以利用具有不同卷积核的不同卷积层层数构成的TCN,对输入的待识别语音数据进行特征提取,实现过程本申请不做详述。
对于不同语速对应的TCN输出的针对同一待识别语音数据的不同语音特征向量,本申请可以采用拼接融合方式,将不同语音特征向量融合成一个特征向量,记为融合语音特征向量。可以理解,相对于待识别语音数据,该融合语音特征向量能够更加突出第一语速和第二语速相应的声学特征,所以,本申请继续对该融合语音特征向量进行语速分类处理,可以得到第一语音特征向量的第一权重向量,以及第二语音特征向量的第二权重向量。本申请对获得第一权重向量和第二权重向量的实现方法不作限制,可以包括但并不局限于本实施例描述的这种实现方式。
由上述分析可知,本申请可以基于融合语音特征向量,分析第一语速特征向量表征的第一语速特征对待识别语音数据的语速预测结果的影响力,可以表征该第一语速特征对后续唤醒词识别结果的影响力;同时分析第二语速特征向量表征的第二语速特征对待识别语音数据的语速预测结果的影响力,可以表征该第二语速特征对后续唤醒词识别结果的影响力。
在一种可能的实现方式中,对于上述选择出的与预测得到的多个语速类别各自对应的特征提取网络输出的语音特征向量,可以输入卷积核为1×1×1的卷积层对输入的多个语音特征向量进行压缩以及重新扩展处理,得到多个语音特征向量各自的权重向量,实现过程本申请不做详述。其中,为了方便后续处理,可以采用如softmax激活函数等对各特征维度进行归一化处理,将相应维度特征权重值映射到(0,1)之间,得到相应语音特征向量的权重向量。
步骤S38,对第一语音特征向量、第一权重向量、第二语音特征向量以及第二权重向量进行加权融合处理,得到待识别语音数据的目标语音特征向量;
步骤S39,对目标特征向量进行唤醒词识别,得到待识别语音数据的唤醒词识别结果。
按照上文处理方式,得到不同预测语速类别对应的语音特征向量的权重向量后,可以将该权重向量与相应的语音特征向量进行乘积运算,再对乘积运算得到的多个特征向量进行同维度融合处理,得到待识别语音数据的目标语音特征向量。可以理解,该目标语音特征向量突出了待识别语音数据的第一语速特征和第二语速特征,即预测待识别语音数据所属语速类别的特征信息,后续直接对该目标语音特征向量进行唤醒词识别,能够更加可靠且准确地确定待识别语音信号是否包含预设唤醒词,提高唤醒率。
示例性的,结合上图8所示的流程示意图,若对用户输出的待识别语音信号进行语速识别,得知待识别语音信号可能是快语速,也可能是正常语速,基于该语速识别结果得到的指导权重可以是110,计算机设备可以依据该指导权重,将待识别语音数据分别输入快语速TCN和正常语速TCN,得到待识别语音数据的快语速特征向量和正常匀速特征向量,之后,采用上文描述的融合处理方式,获得快语速特征和正常语速特征各自的权重向量,即W、W正常,经过加权融合处理后,得到待识别语音数据的目标语音特征向量,输入唤醒词分类器,确定待识别语音数据包含的各对象是否属于预设唤醒词,以及相应的预测概率,进而据此得到待识别语音数据的唤醒词识别结果。
由此可见,相对于直接对某一TCN输出的语音特征向量进行唤醒词识别处理,本申请对预测到的多种语速类别各自对应的TCN输出的语音特征向量进行加权融合,突出目标语音特征向量中这多种语速类别各自的语音特征,使得加权融合得到的目标语音特征向量,能够更加精准表征待识别语音数据的语音特征,提高了唤醒词识别准确性。
应该理解的是,基于如图8所示的唤醒词识别模型的网络结构,在语速分类器的输出为待识别语音数据属于第三语速(可以指预分类语速中的任一类语速),由此所得针对唤醒词识别模型的指导权重为100、010或001等,可以选择“1”对应的预训练的语速TCN对待识别语音数据进行特征提取,这种情况下,所得该语速下的语音特征向量作为目标语音特征向量,直接输入唤醒词分类器进行预测,得到唤醒词识别结果。
因此,在准确识别出待识别语音数据属于某一类语速的情况下,可以采用但并不局限于如上图6或图8等结构的唤醒词识别模型,实现对待识别语音数据的唤醒词识别处理。而在语速识别结果为待识别语音数据可能属于多类语速的情况下,通常是待识别语音数据预测属于相邻两类语速,可以采用但并不局限于图8所示的唤醒词识别模型,获得该待识别语音数据的唤醒词识别结果。
结合上文各实施例描述的语音识别方法,参照图9所示的流程示意图,在用户语音唤醒某一终端的场景下,采集该用户输出的可能包含唤醒词的待识别语音信号后,计算机设备可以将该待识别语音信号输入编码器,提取高维度抽象特征,得到待识别语音数据,将其输入语速分类器,依据得到的待识别语音信号的语速识别结果,得到针对唤醒词识别模型的指导权重,用于确定与该语速识别结果相匹配的目标模型参数,如选择预训练得到的适用于该语速识别结果的卷积核、卷积层数等模型参数,从而利用具有该目标模型参数的唤醒词识别模型对待识别语音数据进行唤醒词识别,提高唤醒词识别结果的精准度,进而提高设备唤醒率。
对于上文各实施例的语音识别方法涉及到的各模型,本申请对模型的训练实现过程不做详述,如对于如图6所示的唤醒词识别模型,可以获取不同语速的训练语音数据,将其输入初始的TC-SKnet网络,结合该类网络的工作原理,训练得到适用于不同类别语速的语音数据各自的卷积核尺寸、卷积层层数等模型参数,据此构建不同语速类别与训练得到的不同模型参数之间的映射关系,这样,在实际应用中,得到待识别语音数据的语速识别结果后,可以按照该映射关系,确定唤醒词识别模型对待识别语音数据进行处理时,采用什么尺寸卷积核、哪些卷积层构成的网络进行特征提取,处理过程可以参照上文实施例相应部分的描述,在此不做赘述。
同理,对于如图8所示的唤醒词识别模型,将不同语速的训练语音数据输入初始的唤醒词识别网络进行迭代训练,直至满足训练终止条件,如达到预设迭代次数、唤醒词识别结果损失稳定或损失值小于损失阈值等,将最终训练得到的模型记为唤醒词识别模型。可以理解,在该唤醒词识别模型的训练过程中,可以不断调整TCN中的网络参数、实现特征融合处理并得到权重向量的处理网络的参数、唤醒词分类器的网络参数等多种模型参数;根据需要,还可以结合语速分类器、编码器等模型的参数,以提高语速识别准确性的同时,也能够提高不同语速语音数据的唤醒词识别可靠性和精准度,本申请在此对模型训练实现过程不做详述,可以参照但并不局限于上文实施例描述唤醒词识别过程。
参照图10,为本申请提出的语音识别装置的一可选示例的结构示意图,该装置可以包括:
语音数据获取模块31,用于获取待识别语音数据;
可选的,该语音数据获取模块31可以包括:
语音信号获取单元,用于获取待识别语音信号;
分帧特征提取单元,用于对所述待识别语音信号进行分帧特征提取,得到相应语音帧特征向量;
待识别语音数据构成单元,用于由多个所述语音帧特征向量构成待识别语音数据。
语速识别模块32,用于对所述待识别语音数据进行语速识别,得到语速识别结果;
目标模型参数获取模块33,用于获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数;
唤醒词识别模块34,用于将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果。
在一些实施例中,如图11所示,上述目标模型参数获取模块33可以包括:
目标特征层选择单元331,用于在语速识别结果表示所述待识别语音数据属于第一语速的情况下,选择唤醒词识别模型包含的多个特征层中,与所述第一语速相匹配的目标特征层。
其中,不同语速对应的目标特征层不同,和/或不同目标特征层的特征映射区域不同。
基于此,上述唤醒词识别模块34可以包括:
第一特征提取单元341,用于将所述待识别语音数据输入所述唤醒词识别模型,由所述目标特征层对所述待识别语音数据进行特征提取,得到所述待识别语音数据的目标语音特征向量;
第一唤醒词识别单元342,用于对所述目标语音特征向量进行唤醒词识别,得到所述待识别语音数据的唤醒词识别结果。
在又一些实施例中,如图12所示,上述目标模型参数获取模块33可以包括:
特征提取网络确定单元332,用于在语速识别结果表示所述待识别语音数据有第一概率属于第一语速,且有第二概率属于第二语速的情况下,确定与所述第一语速相匹配的第一特征提取网络,以及与所述第二语速相匹配的第二特征提取网络;其中,不同特征提取网络包含的特征层层数和/或特征映射区域不同;
相应地,上述唤醒词识别模块34可以包括:
第二特征提取单元343,用于将所述待识别语音数据分别输入所述第一特征提取网络和所述第二特征提取网络,输出相应的第一语音特征向量和第二语音特征向量;
权重向量获取单元344,用于获取所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量;
第二唤醒词识别单元345,用于依据所述第一权重向量和所述第二权重向量,对所述第一语音特征向量和第二语音特征向量进行处理,得到所述待识别语音数据的唤醒词识别结果。
可选的,上述权重向量获取单元344可以包括:
特征融合单元,用于将所述第一语音特征向量与第二语音特征向量融合,得到融合语音特征向量;
权重获取单元,用于对所述融合语音特征向量进行语速分类处理,得到所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量。
可选的,上述第二唤醒词识别单元345可以包括:
加权融合单元,用于对所述第一语音特征向量、所述第一权重向量、所述第二语音特征向量以及所述第二权重向量进行加权融合处理,得到所述待识别语音数据的目标语音特征向量;
唤醒词分类单元,用于对所述目标特征向量进行唤醒词识别,得到所述待识别语音数据的唤醒词识别结果。
对于上文各实施例描述的方案,语速越快的语音数据对应的特征层(如卷积神经网络的卷积层)层数越少,和/或该特征层的特征映射区域(如卷积神经网络的卷积核)尺寸越小,也就是说,语速越快的语音数据对应的特征感受野尺寸越小,关于语速类别与特征层层数、特征映射区域尺寸的映射关系,可以利用不同语速的训练语音数据进行训练得到,本申请对此不做限制。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本申请还提供了一种计算机可读存储介质,其上可以存储计算机程序,该计算机程序可以被处理器调用并加载,以实现上述实施例描述的语音识别方法的各个步骤。
最后,需要说明的是,关于上述各实施例中,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
本申请涉及到的术语诸如“第一”、“第二”等仅用于描述目的,用来将一个操作、单元或模块与另一个操作、单元或模块区分开来,而不一定要求或者暗示这些单元、操作或模块之间存在任何这种实际的关系或者顺序。且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备、***而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音识别方法,所述方法包括:
获取待识别语音数据;
对所述待识别语音数据进行语速识别,得到语速识别结果;
获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数;其中,所述唤醒词识别模型具有针对不同语速语音数据的模型参数;
将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果。
2.根据权利要求1所述的方法,所述获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数,包括:
如果所述语速识别结果表示所述待识别语音数据属于第一语速,选择唤醒词识别模型包含的多个特征层中,与所述第一语速相匹配的目标特征层;其中,不同语速对应的目标特征层不同,和/或不同目标特征层的特征映射区域不同。
3.根据权利要求1所述的方法,所述将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果,包括:
将所述待识别语音数据输入所述唤醒词识别模型,由所述目标特征层对所述待识别语音数据进行特征提取,得到所述待识别语音数据的目标语音特征向量;
对所述目标语音特征向量进行唤醒词识别,得到所述待识别语音数据的唤醒词识别结果。
4.根据权利要求1所述的方法,所述获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数,将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果,包括:
如果所述语速识别结果表示所述待识别语音数据有第一概率属于第一语速,且有第二概率属于第二语速,确定与所述第一语速相匹配的第一特征提取网络,以及与所述第二语速相匹配的第二特征提取网络;其中,不同特征提取网络包含的特征层层数和/或特征映射区域不同;
将所述待识别语音数据分别输入所述第一特征提取网络和所述第二特征提取网络,输出相应的第一语音特征向量和第二语音特征向量;
获取所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量;
依据所述第一权重向量和所述第二权重向量,对所述第一语音特征向量和第二语音特征向量进行处理,得到所述待识别语音数据的唤醒词识别结果。
5.根据权利要求4所述的方法,所述获取所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量,包括:
将所述第一语音特征向量与第二语音特征向量融合,得到融合语音特征向量;
对所述融合语音特征向量进行语速分类处理,得到所述第一语音特征向量的第一权重向量,以及所述第二语音特征向量的第二权重向量。
6.根据权利要求4所述的方法,所述依据所述第一权重向量和所述第二权重向量,对所述第一语音特征向量和第二语音特征向量进行处理,得到所述待识别语音数据的唤醒词识别结果,包括:
对所述第一语音特征向量、所述第一权重向量、所述第二语音特征向量以及所述第二权重向量进行加权融合处理,得到所述待识别语音数据的目标语音特征向量;
对所述目标特征向量进行唤醒词识别,得到所述待识别语音数据的唤醒词识别结果。
7.根据权利要求2~6任一项所述的方法,所述语速越快的语音数据对应的特征层层数越少,和/或所述特征层的特征映射区域尺寸越小。
8.根据权利要求1~6任一项所述的方法,所述获取待识别语音数据,包括:
获取待识别语音信号;
对所述待识别语音信号进行分帧特征提取,得到相应语音帧特征向量;
由多个所述语音帧特征向量构成待识别语音数据。
9.根据权利要求1~6任一项所述的方法,所述对所述待识别语音数据进行语速识别,得到语速识别结果,包括:
将所述待识别语音数据输入语速分类模型,输出语速识别结果;
其中,所述语速识别结果包括所述待识别语音数据属于不同语速类别的预测概率。
10.一种语音识别装置,所述方法包括:
语音数据获取模块,用于获取待识别语音数据;
语速识别模块,用于对所述待识别语音数据进行语速识别,得到语速识别结果;
目标模型参数获取模块,用于获取唤醒词识别模型中与所述语速识别结果相匹配的目标模型参数;
唤醒词识别模块,用于将所述待识别语音数据输入采用所述目标模型参数的唤醒词识别模型,输出所述待识别语音信号的唤醒词识别结果。
CN202111128230.2A 2021-09-26 2021-09-26 语音识别方法及装置 Active CN113782014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111128230.2A CN113782014B (zh) 2021-09-26 2021-09-26 语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111128230.2A CN113782014B (zh) 2021-09-26 2021-09-26 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN113782014A true CN113782014A (zh) 2021-12-10
CN113782014B CN113782014B (zh) 2024-03-26

Family

ID=78853522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111128230.2A Active CN113782014B (zh) 2021-09-26 2021-09-26 语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN113782014B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223553A (zh) * 2022-03-11 2022-10-21 广州汽车集团股份有限公司 语音识别方法和驾驶辅助***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088054A (ko) * 2000-03-10 2001-09-26 윤종용 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
CN102013253A (zh) * 2009-09-07 2011-04-13 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别***
JP2015082087A (ja) * 2013-10-24 2015-04-27 富士通株式会社 情報処理装置、プログラム、及び方法
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110503944A (zh) * 2019-08-29 2019-11-26 苏州思必驰信息科技有限公司 语音唤醒模型的训练和使用方法及装置
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088054A (ko) * 2000-03-10 2001-09-26 윤종용 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
CN102013253A (zh) * 2009-09-07 2011-04-13 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别***
JP2015082087A (ja) * 2013-10-24 2015-04-27 富士通株式会社 情報処理装置、プログラム、及び方法
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110503944A (zh) * 2019-08-29 2019-11-26 苏州思必驰信息科技有限公司 语音唤醒模型的训练和使用方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223553A (zh) * 2022-03-11 2022-10-21 广州汽车集团股份有限公司 语音识别方法和驾驶辅助***
CN115223553B (zh) * 2022-03-11 2023-11-17 广州汽车集团股份有限公司 语音识别方法和驾驶辅助***

Also Published As

Publication number Publication date
CN113782014B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN110364144B (zh) 一种语音识别模型训练方法及装置
Shanthamallu et al. A brief survey of machine learning methods and their sensor and IoT applications
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN113228064A (zh) 用于个性化的机器学习模型的分布式训练
US11403510B2 (en) Processing sensor data
Xu et al. A multi-view CNN-based acoustic classification system for automatic animal species identification
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN112052333B (zh) 文本分类方法及装置、存储介质和电子设备
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
CN111357051B (zh) 语音情感识别方法、智能装置和计算机可读存储介质
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN112183107A (zh) 音频的处理方法和装置
KR20230175258A (ko) 반복적 화자 임베딩을 통한 종단간 화자 분리
CN111625649A (zh) 文本处理方法、装置、电子设备及介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN112995414A (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
JP2008204040A (ja) 携帯端末、プログラム及び携帯端末への表示画面制御方法
CN110097004B (zh) 面部表情识别方法和装置
CN113782014B (zh) 语音识别方法及装置
CN111310025A (zh) 模型训练方法、数据处理方法、装置以及相关设备
CN112910761B (zh) 即时通讯方法、装置、设备、存储介质以及程序产品
CN116913266B (zh) 一种语音检测方法、装置、设备及存储介质
CN111951790A (zh) 一种语音处理方法、装置、终端及存储介质
CN111816211B (zh) 情绪识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant