CN113838462B - 语音唤醒方法、装置、电子设备及计算机可读存储介质 - Google Patents
语音唤醒方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113838462B CN113838462B CN202111059055.6A CN202111059055A CN113838462B CN 113838462 B CN113838462 B CN 113838462B CN 202111059055 A CN202111059055 A CN 202111059055A CN 113838462 B CN113838462 B CN 113838462B
- Authority
- CN
- China
- Prior art keywords
- voice
- wake
- output branch
- model
- multitasking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002618 waking effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提出了一种语音唤醒方法、装置、电子设备及计算机可读存储介质,在本实施例中,利用标注有文本标签和是否为唤醒词语音的分类标签的语音样本,进行有监督训练得到多任务语音唤醒模型,从而本实施例中的多任务语音唤醒模型不仅仅可以输出语音的预测音素序列,还可以输出语音是否是唤醒词的概率(即唤醒概率)。利用预测音素序列和唤醒概率这两个因素共同判断是否唤醒,相较于传统的单因素(音素序列)判断方法,即使在噪音环境下可能无法得到准确的音素序列,也可以同时考虑唤醒概率,从而确定是否进行唤醒。从而可以提高在噪音环境下的唤醒准确率。
Description
技术领域
本发明实施例涉及语音处理领域,特别是涉及一种语音唤醒方法、装置、电子设备及计算机可读存储介质。
背景技术
语音唤醒技术是语音识别技术中的重要分支,目前在车载设备、语音导航、语音助手、智能家居等方面有着重要的应用,用于通过声音启动程序或者服务。在语音唤醒技术中,通常采用语音唤醒模型预测是否对相应程序或者服务进行唤醒。传统的语音唤醒方法使用单任务的音素序列预测模型,根据语音信号的声学特征得到语音的音素序列,在预测出的音素序列与唤醒词对应的音素序列匹配时进行唤醒,这种语音唤醒方法的准确率在干净环境下较高,但是在背景噪音较大时由于无法准确得到语音的音素序列,导致唤醒准确率较低。
因此,目前亟需一种可以提高准确率的语音唤醒方法。
发明内容
本发明提供一种语音唤醒方法、装置、电子设备及计算机可读存储介质,通过多任务语音唤醒模型同时输出预测音素序列和唤醒概率,以确定是否唤醒,从而提高语音唤醒准确率。
为了解决上述问题,第一方面,本发明实施例提供了一种语音唤醒方法,所述方法包括:
采集用户发出的语音,提取所述语音的声学特征;
将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率,所述多任务语音唤醒模型是利用预先标注有文本标签和分类标签的语音样本,经过训练得到的,所述文本标签为所述语音样本对应的文本,所述类别标签表征所述语音样本是否是唤醒词语音;
根据所述预测音素序列和所述唤醒概率,确定是否唤醒。
可选地,所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;
所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;
所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
可选地,所述多任务语音唤醒模型的训练步骤包括:
获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音;
提取所述语音样本的声学特征;
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练。
可选地,所述方法还包括:
对所述语音样本的声学特征进行加噪处理,得到带噪声学特征;
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练,包括:
将所述语音样本的声学特征及其对应的带噪声学特征、所述语音样本的文本标签和分类标签、输入具有第一输出分支和第二输出分支的多任务模型进行训练。
可选地,将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练,包括:
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型,得到所述第一输出分支输出的第一结果和所述第二输出分支输出的第二结果;
根据所述第一输出分支和所述第二输出分支各自的权重值,对所述第一结果和所述第二结果进行加权处理,得到所述多任务模型的损失函数值;
根据所述多任务模型的损失函数值、所述语音样本的文本标签和分类标签,对所述多任务模型的模型参数进行更新,得到所述多任务语音唤醒模型。
可选地,根据所述预测音素序列和所述唤醒概率,确定是否唤醒,包括:
根据所述预测音素序列对应的文本是否与唤醒词匹配,以及所述唤醒概率是否大于预设概率阈值,确定是否唤醒。
可选地,根据所述预测音素序列和所述唤醒概率,确定是否唤醒,包括:
确定所述预测音素序列与唤醒词对应的音素序列之间的匹配度;
根据所述第一输出分支和所述第二输出分支各自的权重值,对所述匹配度和所述唤醒概率进行加权处理;
根据加权处理的结果是否大于预设唤醒阈值,确定是否唤醒。
第二方面,本发明实施例提供了一种语音唤醒装置,所述装置包括:
采集模块,用于采集用户发出的语音,提取所述语音的声学特征;
预测模块,用于将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率,所述多任务语音唤醒模型是利用预先标注有文本标签和分类标签的语音样本,经过训练得到的,所述文本标签为所述语音样本对应的文本,所述类别标签表征所述语音样本是否是唤醒词语音;
确定模块,用于根据所述预测音素序列和所述唤醒概率,确定是否唤醒。
可选地,所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;
所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;
所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
可选地,所述多任务语音唤醒模型由以下训练装置训练得到的,所述训练装置包括:
样本获取模块,用于获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音;
特征提取模块,用于提取所述语音样本的声学特征;
训练模块,用于将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练。
可选地,所述训练装置还包括:
加噪处理模块,用于对所述语音样本的声学特征进行加噪处理,得到带噪声学特征;
所述训练模块,包括:
训练子模块,用于将所述语音样本的声学特征及其对应的带噪声学特征、所述语音样本的文本标签和分类标签、输入具有第一输出分支和第二输出分支的多任务模型进行训练。
可选地,所述训练模块包括:
输入子模块,用于将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型,得到所述第一输出分支输出的第一结果和所述第二输出分支输出的第二结果;
加权子模块,用于根据所述第一输出分支和所述第二输出分支各自的权重值,对所述第一结果和所述第二结果进行加权处理,得到所述多任务模型的损失函数值;
更新子模块,用于根据所述多任务模型的损失函数值、所述语音样本的文本标签和分类标签,对所述多任务模型的模型参数进行更新,得到所述多任务语音唤醒模型。
可选地,所述确定模块,包括:
第一确定子模块,用于根据所述预测音素序列对应的文本是否与唤醒词匹配,以及所述唤醒概率是否大于预设概率阈值,确定是否唤醒。
可选地,所述确定模块,包括:
第二确定子模块,用于确定所述预测音素序列与唤醒词对应的音素序列之间的匹配度;
加权处理子模块,用于根据所述第一输出分支和所述第二输出分支各自的权重值,对所述匹配度和所述唤醒概率进行加权处理;
第三确定子模块,用于根据加权处理的结果是否大于预设唤醒阈值,确定是否唤醒。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例所提出的语音唤醒方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本发明实施例提出的语音唤醒方法的步骤。
在本发明实施例提出的语音唤醒方法中,多任务语音唤醒模型的输出分为两个分支,第一输出分支输出预测音素序列,第二输出分支输出唤醒概率,通过预测音素序列和唤醒概率共同决定是否唤醒。在本实施例中,利用标注有文本标签和是否为唤醒词语音的分类标签的语音样本,进行有监督训练得到多任务语音唤醒模型,从而本实施例中的多任务语音唤醒模型不仅仅可以输出语音的预测音素序列,还可以输出语音是否是唤醒词的概率(即唤醒概率)。利用预测音素序列和唤醒概率这两个因素共同判断是否唤醒,相较于传统的单因素(音素序列)判断方法,即使在噪音环境下可能无法得到准确的音素序列,也可以同时考虑唤醒概率,从而确定是否进行唤醒。从而可以提高在噪音环境下的唤醒准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音唤醒方法的流程图;
图2是本发明实施例提供的一种多任务语音唤醒模型的训练方法的流程图;
图3是本发明实施例提供的一种语音唤醒装置结构的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出的一种语音唤醒方法流程图,如图1所示。本发明提供的语音唤醒方法可应用于车载设备、语音导航、语音助手、智能家居等利用语音进行唤醒的程序或服务中。所述语音唤醒方法包括:
步骤S110,采集用户发出的语音,提取所述语音的声学特征。
在实际应用中,在语音唤醒的程序或者服务处于待机状态时,用户可以通过说出预定的唤醒词启动对应的程序或者服务。在本实施例中,可以实时采集声音信号,并从中识别到用户发出的语音,进而提取采集到的语音的声学特征。
其中,提取所述语音的声学特征,具体可以为:提取语音的40维FBANK特征。
步骤S120,将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率,所述多任务语音唤醒模型是利用预先标注有文本标签和分类标签的语音样本,经过训练得到的,所述文本标签为所述语音样本对应的文本,所述类别标签表征所述语音样本是否是唤醒词语音。
在本实施例中,将提取到的声学特征输入到多任务语音唤醒模型可以得到预测音素序列和唤醒概率。
在本实施例中,多任务语音唤醒模型是预先训练得到的。具体的,可以首先对语音样本进行标注获得语音样本的训练标签(包括:文本标签和是否为唤醒词语音的分类标签),同时提取语音样本的声学特征;然后根据训练标签和声学特征对多任务模型训练得到多任务语音唤醒模型。
在本实施例中,唤醒词语音指的是用户或者技术人员提前预设的启动程序或者服务的语音。
在本实施例中,所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
在本实施例中,多任务语音唤醒模型的主体结构为TDNN,具体的层数和每一层的节点数可根据实际需要自由设置。
步骤S130,根据所述预测音素序列和所述唤醒概率,确定是否唤醒。
在本实施例中,第一输出分支输出用户发出的语音的预测音素序列,第二输出分支输出用户发出的语音的是否是唤醒词语音的概率。
其中,根据所述预测音素序列和所述唤醒概率,确定是否对对应的程序或服务进行唤醒。具体地,唤醒条件可以包括:第一输出分支输出的预测音素序列与唤醒词的音素序列的匹配度大于第一预设阈值;第二输出分支输出的唤醒概率大于第二预设阈值。在实际应用中,可以设置当两个条件同时满足时,确定唤醒,也可以设置两个条件任意一个满足时,即确定唤醒。
示例地,在实际应用中,在当前环境噪音较大时,采集到的用户语音混杂噪音,导致第一输出分支输出的预测音素序列与唤醒词的音素序列的匹配度不高,此时可以同时考虑第二输出分支输出的唤醒概率,若唤醒概率大于预设阈值(例如:0.8),则可以确定唤醒。
在一种可选的实施例中,步骤S130包括以下子步骤:
根据所述预测音素序列对应的文本是否与唤醒词匹配,以及所述唤醒概率是否大于预设概率阈值,确定是否唤醒。
在本实施中,可以在预测音素序列对应的文本与唤醒词匹配,且唤醒词大于预设概率阈值时,确定唤醒。
在另一种可选的实施例中,步骤S130包括以下子步骤:
步骤S131:确定所述预测音素序列与唤醒词对应的音素序列之间的匹配度。
在本实施例中,在得到预测音素序列之后,可以进一步计算预设音素序列与唤醒词对应的音素序列之间的匹配度。在本实施例中,匹配度的计算方法可以采用现有技术中任一可行的实现方法。例如:计算预设音素序列与定唤醒词的音素序列的编辑距离。
步骤S132:根据所述第一输出分支和所述第二输出分支各自的权重值,对所述匹配度和所述唤醒概率进行加权处理。
步骤S133:根据加权处理的结果是否大于预设唤醒阈值,确定是否唤醒。
在本实施例中,可以根据实际需要预先设定第一输出分支和第二输出分支各自的权重值,从而根据该权重值对匹配度和唤醒概率进行加权处理,从而得到加权处理结果。
在本实施例中,可以根据加权处理结果和预设唤醒阈值,确定是否唤醒。在加权处理的结果大于预设唤醒阈值,确定用户发出的语音可以唤醒对应的程序或服务。
在本发明实施例提出的语音唤醒方法中,多任务语音唤醒模型的输出分为两个分支,第一输出分支输出预测音素序列,第二输出分支输出唤醒概率,通过预测音素序列和唤醒概率共同决定是否唤醒。在本实施例中,利用标注有文本标签和是否为唤醒词语音的分类标签的语音样本,进行有监督训练得到多任务语音唤醒模型,从而本实施例中的多任务语音唤醒模型不仅仅可以输出语音的预测音素序列,还可以输出语音是否是唤醒词的概率(即唤醒概率)。利用预测音素序列和唤醒概率这两个因素共同判断是否唤醒,相较于传统的单因素(音素序列)判断方法,即使在噪音环境下可能无法得到准确的音素序列,也可以同时考虑唤醒概率,从而确定是否进行唤醒。从而可以提高在噪音环境下的唤醒准确率。
本发明实施例提出了一种多任务语音唤醒模型的训练方法,如图2所示。在本实施例中,所述多任务语音唤醒模型的训练方法包括:
步骤S210,获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音。
具体地,在本实施例中,可以预先获取一定量的语音训练数据,包括语音音频和对应的文本标签。语音训练数据由唤醒词和非唤醒词的语音音频组成,其中,唤醒词音频数据标注为对应的文本和类别1,非唤醒词音频数据标注为对应的文本和类别0。类别1表示唤醒,0表示不唤醒。从而,本实施例可以得到标注有文本标签和分类标签的语音样本对多任务模型进行有监督训练,得到多任务语音唤醒模型。
步骤S220,提取所述语音样本的声学特征。
在本实施例中,可以提取语音训练数据的40维FBANK特征作为多任务唤醒模型的输入。
步骤S230,将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练。
在本实施例中,可以将提取到的语音样本的声学特征和对应的标签(语音样本对应的文本标签和类别标签)作为多任务模型的输入,对多任务模型进行训练得到多任务语音唤醒模型。其中,多任务模型具有第一输出分支和第二输出分支。
在一种可选的实施例中,所述步骤S230包括以下子步骤:
步骤S231:将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型,得到所述第一输出分支输出的第一结果和所述第二输出分支输出的第二结果。
步骤S232:根据所述第一输出分支和所述第二输出分支各自的权重值,对所述第一结果和所述第二结果进行加权处理,得到所述多任务模型的损失函数值。
步骤S233:根据所述多任务模型的损失函数值、所述语音样本的文本标签和分类标签,对所述多任务模型的模型参数进行更新,得到所述多任务语音唤醒模型。
在本实施例中,多任务模型的两个输出分支共享网络的主体参数,根据两个输出分支各自的权重值,将两者的损失函数进行加权处理,得到整个多任务模型的总损失函数,利用总损失函数对多任务模型的模型参数进行更新,最终得到多任务语音唤醒模型。
在本实施例中,两个输出分支各自的权重值可以根据实际识别的结果进行调节,本发明对此不作特殊限制。
在本实施例中,利用标注有文本标签和是否为唤醒词语音的分类标签的语音样本,对多任务模型进行有监督训练,得到多任务语音唤醒模型。从而本实施例中的多任务语音唤醒模型不仅仅可以输出语音的预测音素序列,还可以输出语音是否是唤醒词的概率(即唤醒概率)。利用预测音素序列和唤醒概率这两个因素共同判断是否唤醒,相较于传统的单因素(音素序列)判断方法,即使在噪音环境可能无法得到准确的音素序列的情况下,也可以同时考虑唤醒概率,从而确定是否进行唤醒。从而可以提高在噪音环境下的唤醒准确率。
本发明实施例提出了另一种多任务语音唤醒模型的训练方法,在本实施例中,所述多任务语音唤醒模型的训练方法包括:
步骤S310:获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音,所述文本标签为所述语音样本对应的文本,所述类别标签表征所述语音样本是否是唤醒词语音。
该步骤与上述步骤S210类似,具体可参照上述步骤S210,在此不再赘述。
步骤S320:提取所述语音样本的声学特征。
该步骤与上述步骤S220类似,具体可参照上述步骤S220,在此不再赘述。
步骤S330:对所述语音样本的声学特征进行加噪处理,得到带噪声学特征。
在本实施例中,可以对语音训练数据进行数据增强,具体可以为:对语音训练数据的声学特征进行加噪处理,得到带噪声学特征。也可以为:在语音训练数据中增加噪音、混响等,从而提取带噪语音训练数据的带噪声学特征。
步骤S340:将所述语音样本的声学特征及其对应的带噪声学特征、所述语音样本的文本标签和分类标签、输入具有第一输出分支和第二输出分支的多任务模型进行训练。
在本实施例中,可以将所述语音样本的声学特征及其对应的带噪声学特征和对应的标签(语音样本对应的文本标签和类别标签)作为多任务模型的输入,对多任务模型进行训练得到多任务语音唤醒模型。
在本实施例中,对语音样本进行了数据增强,可以得到语音样本的带噪声学特征。从而,在本实施例中,利用语音样本的声学特征及其对应的带噪声学特征和对应的样本标签,进行训练得到的多任务语音唤醒模型,在预测音素序列和预测唤醒概率的过程中可以进一步排除噪声干扰,进而提高模型的鲁棒性,进一步提高多任务语音唤醒模型在噪声环境中的唤醒准确率。
参见图3,示出了本发明的一种语音唤醒装置300的结构框图,具体的,所述语音唤醒装置300可以包括如下模块:
采集模块301,用于采集用户发出的语音,提取所述语音的声学特征;
预测模块302,用于将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率,所述多任务语音唤醒模型是利用预先标注有文本标签和分类标签的语音样本,经过训练得到的,所述文本标签为所述语音样本对应的文本,所述类别标签表征所述语音样本是否是唤醒词语音;
确定模块303,用于根据所述预测音素序列和所述唤醒概率,确定是否唤醒。
可选地,所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;
所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;
所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
可选地,所述多任务语音唤醒模型由以下训练装置训练得到的,所述训练装置包括:
样本获取模块,用于获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音;
特征提取模块,用于提取所述语音样本的声学特征;
训练模块,用于将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练。
可选地,所述训练装置还包括:
加噪处理模块,用于对所述语音样本的声学特征进行加噪处理,得到带噪声学特征;
所述训练模块,包括:
训练子模块,用于将所述语音样本的声学特征及其对应的带噪声学特征、所述语音样本的文本标签和分类标签、输入具有第一输出分支和第二输出分支的多任务模型进行训练。
可选地,所述训练模块包括:
输入子模块,用于将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型,得到所述第一输出分支输出的第一结果和所述第二输出分支输出的第二结果;
加权子模块,用于根据所述第一输出分支和所述第二输出分支各自的权重值,对所述第一结果和所述第二结果进行加权处理,得到所述多任务模型的损失函数值;
更新子模块,用于根据所述多任务模型的损失函数值、所述语音样本的文本标签和分类标签,对所述多任务模型的模型参数进行更新,得到所述多任务语音唤醒模型。
可选地,所述确定模块303,包括:
第一确定子模块,用于根据所述预测音素序列对应的文本是否与唤醒词匹配,以及所述唤醒概率是否大于预设概率阈值,确定是否唤醒。
可选地,所述确定模块303,包括:
第二确定子模块,用于确定所述预测音素序列与唤醒词对应的音素序列之间的匹配度;
加权处理子模块,用于根据所述第一输出分支和所述第二输出分支各自的权重值,对所述匹配度和所述唤醒概率进行加权处理;
第三确定子模块,用于根据加权处理的结果是否大于预设唤醒阈值,确定是否唤醒。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
相应的,本发明还提出了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例所述的语音唤醒方法,且能达到相同的技术效果,为避免重复,这里不再赘述。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的语音唤醒方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明提供的语音唤醒方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (9)
1.一种语音唤醒方法,其特征在于,所述方法包括:
采集用户发出的语音,提取所述语音的声学特征;
将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率,所述多任务语音唤醒模型是利用预先标注有文本标签和分类标签的语音样本,经过训练得到的,所述文本标签为所述语音样本对应的文本,所述分类标签表征所述语音样本是否是唤醒词语音;
根据所述预测音素序列和所述唤醒概率,确定是否唤醒;所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;
所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;
所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
2.根据权利要求1所述的方法,其特征在于,所述多任务语音唤醒模型的训练步骤包括:
获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音;
提取所述语音样本的声学特征;
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述语音样本的声学特征进行加噪处理,得到带噪声学特征;
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练,包括:
将所述语音样本的声学特征及其对应的带噪声学特征、所述语音样本的文本标签和分类标签、输入具有第一输出分支和第二输出分支的多任务模型进行训练。
4.根据权利要求1-3任一所述的方法,其特征在于,将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练,包括:
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型,得到所述第一输出分支输出的第一结果和所述第二输出分支输出的第二结果;
根据所述第一输出分支和所述第二输出分支各自的权重值,对所述第一结果和所述第二结果进行加权处理,得到所述多任务模型的损失函数值;
根据所述多任务模型的损失函数值、所述语音样本的文本标签和分类标签,对所述多任务模型的模型参数进行更新,得到所述多任务语音唤醒模型。
5.根据权利要求1所述的方法,其特征在于,根据所述预测音素序列和所述唤醒概率,确定是否唤醒,包括:
根据所述预测音素序列对应的文本是否与唤醒词匹配,以及所述唤醒概率是否大于预设概率阈值,确定是否唤醒。
6.根据权利要求1所述的方法,其特征在于,根据所述预测音素序列和所述唤醒概率,确定是否唤醒,包括:
确定所述预测音素序列与唤醒词对应的音素序列之间的匹配度;
根据所述第一输出分支和所述第二输出分支各自的权重值,对所述匹配度和所述唤醒概率进行加权处理;
根据加权处理的结果是否大于预设唤醒阈值,确定是否唤醒。
7.一种语音唤醒装置,其特征在于,所述装置包括:
采集模块,用于采集用户发出的语音,提取所述语音的声学特征;
输入模块,用于将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率;
确定模块,用于根据所述预测音素序列和所述唤醒概率,确定是否唤醒;
所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;
所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;
所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的语音唤醒方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述的语音唤醒方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111059055.6A CN113838462B (zh) | 2021-09-09 | 2021-09-09 | 语音唤醒方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111059055.6A CN113838462B (zh) | 2021-09-09 | 2021-09-09 | 语音唤醒方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838462A CN113838462A (zh) | 2021-12-24 |
CN113838462B true CN113838462B (zh) | 2024-05-10 |
Family
ID=78958827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111059055.6A Active CN113838462B (zh) | 2021-09-09 | 2021-09-09 | 语音唤醒方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838462B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862604B (zh) * | 2022-11-24 | 2024-02-20 | 镁佳(北京)科技有限公司 | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
CN117198271A (zh) * | 2023-10-10 | 2023-12-08 | 美的集团(上海)有限公司 | 语音解析方法及装置、智能设备、介质和计算机程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007155833A (ja) * | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
CN111653274A (zh) * | 2020-04-17 | 2020-09-11 | 北京声智科技有限公司 | 唤醒词识别的方法、装置及存储介质 |
CN112669818A (zh) * | 2020-12-08 | 2021-04-16 | 北京地平线机器人技术研发有限公司 | 语音唤醒方法及装置、可读存储介质、电子设备 |
CN113096647A (zh) * | 2021-04-08 | 2021-07-09 | 北京声智科技有限公司 | 语音模型训练方法、装置和电子设备 |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
CN113205809A (zh) * | 2021-04-30 | 2021-08-03 | 思必驰科技股份有限公司 | 语音唤醒方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009139230A1 (ja) * | 2008-05-16 | 2009-11-19 | 日本電気株式会社 | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 |
WO2016039751A1 (en) * | 2014-09-11 | 2016-03-17 | Nuance Communications, Inc. | Method for scoring in an automatic speech recognition system |
US20180357998A1 (en) * | 2017-06-13 | 2018-12-13 | Intel IP Corporation | Wake-on-voice keyword detection with integrated language identification |
-
2021
- 2021-09-09 CN CN202111059055.6A patent/CN113838462B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007155833A (ja) * | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
CN111653274A (zh) * | 2020-04-17 | 2020-09-11 | 北京声智科技有限公司 | 唤醒词识别的方法、装置及存储介质 |
CN112669818A (zh) * | 2020-12-08 | 2021-04-16 | 北京地平线机器人技术研发有限公司 | 语音唤醒方法及装置、可读存储介质、电子设备 |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
CN113096647A (zh) * | 2021-04-08 | 2021-07-09 | 北京声智科技有限公司 | 语音模型训练方法、装置和电子设备 |
CN113205809A (zh) * | 2021-04-30 | 2021-08-03 | 思必驰科技股份有限公司 | 语音唤醒方法和装置 |
Non-Patent Citations (1)
Title |
---|
融合后验概率置信度的动态匹配词格检索;郑永军;张连海;陈斌;;模式识别与人工智能;20150215(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113838462A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108428447B (zh) | 一种语音意图识别方法及装置 | |
CN111933114B (zh) | 语音唤醒混合模型的训练方法、使用方法和相关设备 | |
CN113838462B (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN111653274A (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN114662601A (zh) | 基于正负样本的意图分类模型训练方法及装置 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN112910761B (zh) | 即时通讯方法、装置、设备、存储介质以及程序产品 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN110808050A (zh) | 语音识别方法及智能设备 | |
CN115862604B (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN111785256A (zh) | 声学模型训练方法、装置、电子设备及存储介质 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN116645956A (zh) | 语音合成方法、语音合成***、电子设备及存储介质 | |
CN111048068A (zh) | 语音唤醒方法、装置、***及电子设备 | |
CN114863915A (zh) | 一种基于语义保留的语音唤醒方法及*** | |
CN114299941A (zh) | 语音交互的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |