CN109753665B - 唤醒模型的更新方法及装置 - Google Patents

唤醒模型的更新方法及装置 Download PDF

Info

Publication number
CN109753665B
CN109753665B CN201910095182.8A CN201910095182A CN109753665B CN 109753665 B CN109753665 B CN 109753665B CN 201910095182 A CN201910095182 A CN 201910095182A CN 109753665 B CN109753665 B CN 109753665B
Authority
CN
China
Prior art keywords
awakening
word
words
probability
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910095182.8A
Other languages
English (en)
Other versions
CN109753665A (zh
Inventor
靳源
陈孝良
冯大航
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201910095182.8A priority Critical patent/CN109753665B/zh
Publication of CN109753665A publication Critical patent/CN109753665A/zh
Application granted granted Critical
Publication of CN109753665B publication Critical patent/CN109753665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种唤醒模型的更新方法,包括:分离原始语音数据中的命令词与唤醒词;根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中,得分低于一第二阈值的唤醒词。由此,对已构建的误唤醒概率较高的唤醒模型进行更新处理,分别对命令词和唤醒词筛选,通过剔除误唤醒数据或失真数据,使得唤醒词更接近预定唤醒词;同时还将命令词作为训练数据,保证了训练数据的数量,使得更新后的唤醒模型的误唤醒概率更低。

Description

唤醒模型的更新方法及装置
技术领域
本发明涉及语音唤醒领域,尤其涉及一种唤醒模型的更新方法及装置。
背景技术
目前,通过语音方式实现产品交互的应用越来越广泛,例如智能音箱、手机、平板等,但在对唤醒模型的训练过程中,一般只将唤醒词作为训练数据,存在训练数据的质量和数量不高的缺陷,因此,容易影响唤醒模型的唤醒率。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种唤醒模型的更新方法及装置,以解决上述的至少一项技术问题。
(二)技术方案
本发明实施例提供了一种唤醒模型的更新方法,包括:
分离原始语音数据中的命令词与唤醒词;
根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;
将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中,得分低于一第二阈值的唤醒词。
在本发明的一些实施例中,所述根据语言模型确定命令词的概率,具体包括步骤:
将所述命令词转化为对应的文本信息;
将所述文本信息输入至所述语言模型,确定所述命令词的概率。
在本发明的一些实施例中,将所述文本信息输入至所述语言模型,确定所述命令词的概率,具体包括步骤:
依照预定字典对所述命令词进行分词处理,按照顺序确定k个分词词语,k≥1;
根据句首标记、k个分词词语和句尾标记,按序确定一个集合{Wi},其中,句首标记包括<s1>和<s2>,句尾标记包括</s2>和</s1>,1≤i≤k+4;
将<s1>为第1个c个分词词语{W1~Wc}的开头,直至将</s1>作为第k+2个c个分词词语{Wk+2~Wk+c+1}的末尾,确定k+2个c个分词词语{Wt~Wt+c-1}的概率值P(Wt+c-1|Wt,...,Wt+c-2),1≤t≤k+2;
根据所述概率值确定所述命令词的概率:
Figure BDA0001963285420000021
在本发明的一些实施例中,将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,具体包括步骤:
将唤醒词进行分帧并提取其特征值,将分帧之后的各帧唤醒词的特征值输入至一唤醒模型;
根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素;
根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素,对所述各帧唤醒词进行以下处理:
若预定唤醒词的预定音素中不包括所述最大概率音素,将该帧唤醒词的各音素的概率都置零;若预定唤醒词的预定音素中包括所述最大概率的音素,则保留该最大概率音素,将该帧唤醒词的非最大概率音素的概率都置零;
对处理后的各帧唤醒词进行平滑处理;
根据平滑处理后的各帧唤醒词的概率,确定所述唤醒模型输出的得分。
在本发明的一些实施例中,所述平滑处理后的各帧唤醒词的概率pmn′满足公式:
Figure BDA0001963285420000022
其中,hsmooth=max{1,n-ωsmooth+1}表示在ωsmooth平滑窗中第一帧的索引,n表示该平滑窗的最后一帧,pme表示第m个音素第e帧的原始概率;
所述得分confidence满足公式:
Figure BDA0001963285420000031
其中,pme′为平滑处理后的第e帧唤醒词的概率;
hmax=max{1,n-ωmax+1}表示在ωmax计算窗中第一帧的索引,s指各帧中的非所述预定音素的音素数目。
在本发明的一些实施例中,所述第一阈值A的范围为0<A≤0.15;所述第二阈值B的范围为0.15<B≤0.35。
本发明还提供了一种唤醒模型的更新装置,包括:
分离模块,用于分离原始语音数据中的命令词与唤醒词;
命令词处理模块,用于根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;
唤醒词处理模块,用于将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中,得分低于一第二阈值的唤醒词。
在本发明的一些实施例中,命令词处理单元包括:
转化单元,用于将所述命令词转化为对应的文本信息;
概率确定单元,用于将所述文本信息输入至所述语言模型,确定所述命令词的概率。
在本发明的一些实施例中,所述概率确定单元包括:
分词确定子单元,用于依照预定字典对所述命令词进行分词处理,按照顺序确定k个分词词语,k≥1;
集合确定子单元,用于根据句首标记、k个分词词语和句尾标记,按序确定一个集合{Wi},其中,句首标记包括<s1>和<s2>,句尾标记包括</s2>和</s1>,1≤i≤k+4;
分词词语概率确定子单元,用于将<s1>为第1个c个分词词语{W1~Wc}的开头,直至将</s1>作为第k+2个c个分词词语{Wk+2~Wk+c+1}的末尾,确定k+2个c个分词词语{Wt~Wt+c-1}的概率值P(Wt+c-1|Wt,...,Wt+c-2),1≤t≤k+2:
命令词概率确定子单元,用于根据所述概率值确定所述命令词的概率:
Figure BDA0001963285420000041
在本发明的一些实施例中,所述唤醒词处理模块还包括:
特征值输入单元,用于将唤醒词进行分帧并提取其特征值,将分帧之后的各帧唤醒词的特征值输入至一唤醒模型;
最大概率音素确定单元,用于根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素;
处理单元,用于根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素,对所述各帧唤醒词进行以下处理:
若预定唤醒词的预定音素中不包括所述最大概率音素,将该帧唤醒词的各音素的概率都置零;若预定唤醒词的预定音素中包括所述最大概率的音素,则保留该最大概率音素,将该帧唤醒词的非最大概率音素的概率都置零;
平滑处理单元,用于对处理后的各帧唤醒词进行平滑处理;
得分确定单元,用于根据平滑处理后的各帧唤醒词的概率
Figure BDA0001963285420000042
确定所述唤醒模型输出的得分
Figure BDA0001963285420000043
其中hsmooth=max{1,n-ωsmooth+1}表示在ωsmooth平滑窗中第一帧的索引,n表示该平滑窗的最后一帧,pme表示第m个音素第e帧的原始概率,pme′为平滑处理后的第e帧唤醒词的概率,hmax=max{1,n-ωmax+1}表示在ωmax计算窗中第一帧的索引,s指各帧中的非所述预定音素的音素数目。
(三)有益效果
本发明的唤醒模型的更新方法及装置,相较于现有技术,至少具有以下优点:
1、对已构建的误唤醒率较高的唤醒模型进行更新处理,分别对训练数据(命令词和唤醒词)筛选,剔除误唤醒数据或失真数据,使得唤醒词更接近预定唤醒词,同时还将命令词作为训练数据,保证了训练数据的数量,从而实现对唤醒模块的更新,使得更新后的唤醒模型的误唤醒率更低;
2、对于命令词,先将其转化成文本信息,再通过语言模型确定命令词的概率,同时删除概率低于一第一阈值的命令词,避免了不符合语言逻辑的情况,保证了命令词的逻辑性,避免了训练数据的质量出现问题的情况,同时将命令词作为训练数据,保证了训练数据的数量;
3、对于唤醒词,先确定各帧唤醒词的最大概率音素,再判断最大概率音素是否属于预定唤醒词,能够降低误唤醒的概率;此外,还将所述唤醒模型输出的得分与第二阈值进行比较,删除得分低于第二阈值的唤醒词,即剔除误唤醒数据或失真数据,使得唤醒词更接近预定唤醒词,避免了训练数据的质量出现问题的情况,从而提高了唤醒模型的唤醒率。
附图说明
图1为本发明实施例的唤醒模型的更新方法的步骤示意图;
图2为本发明实施例的唤醒模型的更新装置的模块示意图。
具体实施方式
现有技术中,一般只将唤醒词作为训练数据,存在训练数据的质量和数量不高的缺陷,因此,容易影响唤醒模型的唤醒率,严重影响了用户的体验感,有鉴于此,本发明提供了一种唤醒模型的更新方法及装置,对误唤醒率较高的唤醒模型进行更新处理,分别对命令词和唤醒词筛选,剔除误唤醒数据或失真数据,使得唤醒词更接近于预定唤醒词,同时使得命令词更符合语言逻辑并将其作为训练数据,保证了训练数据的质量和数量,使得更新后的唤醒模型的误唤醒概率更低。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明第一实施例提供了一种唤醒模型的更新方法,包括以下步骤:
S1、分离原始语音数据中的命令词与唤醒词;
S2、根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;
S3、将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中,得分低于一第二阈值的唤醒词。
在本发明的一些实施例中,第一阈值A的范围可以为0<A≤0.15;所述第二阈值B的范围可以为0.15<B≤0.35。且用户可以根据实际情况选择A和B的范围,从而调整更新后的唤醒模型的正确唤醒率。
在步骤S1中,举例来说,原始语音数据中的命令词为“今天北京的天气怎么样”,唤醒词为“小花”。以下将以该原始语音数据为例进行详细说明。
在步骤S2中,根据语言模型确定命令词的概率,具体包括以下子步骤:
S21、将所述命令词转化为对应的文本信息;即,将语音形式的命令词转化成文本信息“今天北京的天气怎么样”;
S22、将所述文本信息输入至所述语言模型,确定所述命令词的概率。
步骤S22具体包括以下子步骤:
S221、依照预定字典对所述命令词进行分词处理,按照顺序确定k个分词词语,使得命令词更符合语言逻辑,保证命令词的质量,k≥1;
S222、根据句首标记、k个分词词语和句尾标记,按序确定一个集合{Wi},其中,句首标记包括<s1>和<s2>,句尾标记包括</s2>和</s1>,1≤i≤k+4;
S223、将<s1>为第1个c个分词词语{W1~Wc}的开头,直至将</s1>作为第k+2个c个分词词语{Wk+2~Wk+c+1}的末尾,确定k+2个c个分词词语{Wt~Wt+c-1}的概率值P(Wt+c-1|Wt,...,Wt+c-2),1≤t≤k+2;
S224、根据所述概率值确定所述命令词的概率:
Figure BDA0001963285420000071
对于“今天北京的天气怎么样”的文本信息,c=3时,i=8,k=4,{Wi}为{<s1>、<s2>、今天、北京的、天气、怎么样、</s2>和</s1>},分词词语包括{<s1>、<s2>、今天}、{<s2>、今天、北京的}、{今天、北京的、天气}、{北京的、天气、怎么样}、{天气、怎么样、</s2>}、{怎么样、</s2>和</s1>}。P(Wt+C-1|Wt,...,Wt+c-2)包括P(今天|<s1>,<s2>)、P(北京的|<s2>,今天)、P(天气|今天,北京的)、P(怎么样|北京的,天气)、P(</s2>|天气,怎么样)、P(</s1>|怎么样,</s2>)。
在步骤S3中,将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分具体包括以下步骤:
S31、将唤醒词进行分帧并提取其特征值,将分帧之后的各帧唤醒词的特征值输入至一唤醒模型;
S32、根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素;
S33、根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素,对所述各帧唤醒词进行以下处理:
若预定唤醒词的预定音素中不包括所述最大概率音素,将该帧唤醒词的各音素的概率都置零;若预定唤醒词的预定音素中包括所述最大概率的音素,则保留该最大概率音素,将该帧唤醒词的非最大概率音素的概率都置零;由此,通过剔除误唤醒数据或失真数据,使得唤醒词更接近预定唤醒词,以保证唤醒词的质量;
S34、对处理后的各帧唤醒词进行平滑处理;
S35、根据平滑处理后的各帧唤醒词的概率
Figure BDA0001963285420000072
确定所述唤醒模型输出的得分
Figure BDA0001963285420000073
其中hsmooth=max{1,n-ωsmooth+1}表示在ωsmooth平滑窗中第一帧的索引,n表示该平滑窗的最后一帧,pme表示第m个音素第e帧的原始概率,pme为平滑处理后的第e帧唤醒词的概率,hmax=max{1,n-ωmax+1}表示在ωmax计算窗中第一帧的索引,s指各帧中的非所述预定音素的音素数目。
对于唤醒词“小花”,其音素为“x”、“i”、“ao”、“h”、“u”、“a”;该唤醒模型对应的预定唤醒词为“小度”,其音素为“x”、“i”、“ao”、“d”、“u”。首先,确定该帧中唤醒词的最大概率音素,若为“x”,则其在预定唤醒词的因素中,则保留“x”的概率,并将“小花”中的其他音素的概率置零;若该帧中唤醒词的最大概率音素为“h”,则其不在预定唤醒词的因素中,则将“小花”中的所有音素的概率置零。
本发明实施例的另一方面,还提供了一种唤醒模型的更新装置,包括:
分离模块,用于分离原始语音数据中的命令词与唤醒词;
命令词处理模块,用于根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;
唤醒词处理模块,用于将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中,得分低于一第二阈值的唤醒词。
在本发明的一些实施例中,第一阈值A的范围可以为0<A≤0.15;所述第二阈值B的范围可以为0.15<B≤0.35。且用户可以根据实际情况选择A和B的范围,从而调整更新后的唤醒模型的正确唤醒率。
在本发明的一些实施例中,命令词处理单元包括:
转化单元,用于将所述命令词转化为对应的文本信息;
概率确定单元,用于将所述文本信息输入至所述语言模型,确定所述命令词的概率。
在本发明的一些实施例中,所述概率确定单元包括:
分词确定子单元,用于依照预定字典对所述命令词进行分词处理,按照顺序确定k个分词词语,使得命令词更符合语言逻辑,以保证命令词的质量,k≥1;
集合确定子单元,用于根据句首标记、k个分词词语和句尾标记,按序确定一个集合{Wi},其中,句首标记包括<s1>和<s2>,句尾标记包括</s2>和</s1>,1≤i≤k+4;
分词词语概率确定子单元,用于将<s1>为第1个c个分词词语{W1~Wc}的开头,直至将</s1>作为第k+2个c个分词词语{Wk+2~Wk+c+1}的末尾,确定k+2个c个分词词语{Wt~Wt+c-1}的概率值P(Wt+c-1|Wt,...,Wt+c-2),1≤t≤k+2;
命令词概率确定子单元,用于根据所述概率值确定所述命令词的概率:
Figure BDA0001963285420000091
在本发明的一些实施例中,所述唤醒词处理模块还包括:
特征值输入单元,用于将唤醒词进行分帧并提取其特征值,将分帧之后的各帧唤醒词的特征值输入至一唤醒模型;
最大概率音素确定单元,用于根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素;
处理单元,用于根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素,对所述各帧唤醒词进行以下处理:
若预定唤醒词的预定音素中不包括所述最大概率音素,将该帧唤醒词的各音素的概率都置零;若预定唤醒词的预定音素中包括所述最大概率的音素,则保留该最大概率音素,将该帧唤醒词的非最大概率音素的概率都置零;通过剔除误唤醒数据或失真数据,使得唤醒词更接近预定唤醒词,以保证唤醒词的质量;
平滑处理单元,用于对处理后的各帧唤醒词进行平滑处理;
得分确定单元,用于根据平滑处理后的各帧唤醒词的概率
Figure BDA0001963285420000092
确定所述唤醒模型输出的得分
Figure BDA0001963285420000101
其中hsmooth=max{1,n-ωsmooth+1}表示在ωsmooth平滑窗中第一帧的索引,n表示该平滑窗的最后一帧,pme表示第m个音素第e帧的原始概率,pme′为平滑处理后的第e帧唤醒词的概率,hmax=max{1,n-ωmax+1}表示在ωmax计算窗中第一帧的索引,s指各帧中的非所述预定音素的音素数目。
综上,本发明的唤醒模型的更新方法及装置,对已构建的唤醒率较低的唤醒模型进行更新处理,分别对命令词和唤醒词筛选,剔除误唤醒数据或失真数据,使得唤醒词更接近于预定唤醒词,同时使得命令词更符合语言逻辑,还将其作为训练数据,保证了训练数据的数量和质量,使得更新后的唤醒模型的误唤醒率更低。
除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本发明的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字,应理解为在所有情况中是受到“约”的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
再者,“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种唤醒模型的更新方法,包括:
分离原始语音数据中的命令词与唤醒词;
根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;
将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中得分低于一第二阈值的唤醒词;
其中,所述将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,具体包括步骤:
将唤醒词进行分帧并提取其特征值,将分帧之后的各帧唤醒词的特征值输入至一唤醒模型;
根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素;
根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素,对所述各帧唤醒词进行以下处理:
若预定唤醒词的预定音素中不包括所述最大概率音素,将该帧唤醒词的各音素的概率都置零;若预定唤醒词的预定音素中包括所述最大概率音素,则保留该最大概率音素,将该帧唤醒词的非最大概率音素的概率都置零;
对处理后的各帧唤醒词进行平滑处理;
根据平滑处理后的各帧唤醒词的概率,确定所述唤醒模型输出的得分。
2.根据权利要求1所述的唤醒模型的更新方法,其中,所述根据语言模型确定命令词的概率,具体包括步骤:
将所述命令词转化为对应的文本信息;
将所述文本信息输入至所述语言模型,确定所述命令词的概率。
3.根据权利要求2所述的唤醒模型的更新方法,其中,将所述文本信息输入至所述语言模型,确定所述命令词的概率,具体包括步骤:
依照预定字典对所述命令词进行分词处理,按照顺序确定k个分词词语,k≥1;
根据句首标记、k个分词词语和句尾标记,按序确定一个集合{Wi},其中,句首标记包括<s1>和<s2>,句尾标记包括</s2>和</s1>,1≤i≤k+4;
将<s1>作为第1组c个分词词语{W1~Wc}的开头,将</s1>作为第k+2组c个分词词语{Wk+2~Wk+c+1}的末尾,确定k+2组c个分词词语{Wt~Wt+c-1}的概率值P(Wt+c-1|Wt,...,Wt+c-2),1≤t≤k+2;
根据所述概率值确定所述命令词的概率:
Figure FDA0002635872920000021
4.根据权利要求1所述的唤醒模型的更新方法,其中,所述平滑处理后的各帧唤醒词的概率pmn′满足公式:
Figure FDA0002635872920000022
其中,hsmooth=max{1,n-ωsmooth+1}表示在ωsmooth平滑窗中第一帧的索引,n表示该平滑窗的最后一帧,pme表示第m个音素第e帧的原始概率;
所述得分confidence满足公式:
Figure FDA0002635872920000023
其中,pme′为平滑处理后的第e帧唤醒词的概率;
hmax=max{1,n-ωmax+1}表示在ωmax计算窗中第一帧的索引,s指各帧中的非所述预定音素的音素数目。
5.根据权利要求1所述的唤醒模型的更新方法,其中,所述第一阈值A的范围为0<A≤0.15;所述第二阈值B的范围为0.15<B≤0.35。
6.一种唤醒模型的更新装置,包括:
分离模块,用于分离原始语音数据中的命令词与唤醒词;
命令词处理模块,用于根据语言模型确定命令词的概率,删除所述命令词中概率低于一第一阈值的命令词;
唤醒词处理模块,用于将唤醒词输入一唤醒模型,确定所述唤醒模型输出的得分,删除所述唤醒词中得分低于一第二阈值的唤醒词;
其中,所述唤醒词处理模块还包括:
特征值输入单元,用于将唤醒词进行分帧并提取其特征值,将分帧之后的各帧唤醒词的特征值输入至一唤醒模型;
最大概率音素确定单元,用于根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素;
处理单元,用于根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素,对所述各帧唤醒词进行以下处理:
若预定唤醒词的预定音素中不包括所述最大概率音素,将该帧唤醒词的各音素的概率都置零;若预定唤醒词的预定音素中包括所述最大概率音素,则保留该最大概率音素,将该帧唤醒词的非最大概率音素的概率都置零;
平滑处理单元,用于对处理后的各帧唤醒词进行平滑处理;
得分确定单元,用于根据平滑处理后的各帧唤醒词的概率,确定所述唤醒模型输出的得分。
7.根据权利要求6所述的唤醒模型的更新装置,其中,命令词处理单元包括:
转化单元,用于将所述命令词转化为对应的文本信息;
概率确定单元,用于将所述文本信息输入至所述语言模型,确定所述命令词的概率。
8.根据权利要求7所述的唤醒模型的更新装置,其中,所述概率确定单元包括:
分词确定子单元,用于依照预定字典对所述命令词进行分词处理,按照顺序确定k个分词词语,k≥1;
集合确定子单元,用于根据句首标记、k个分词词语和句尾标记,按序确定一个集合{Wi},其中,句首标记包括<s1>和<s2>,句尾标记包括</s2>和</s1>,1≤i≤k+4;
分词词语概率确定子单元,用于将<s1>作为第1组c个分词词语{W1~Wc}的开头,将</s1>作为第k+2组c个分词词语{Wk+2~Wk+c+1}的末尾,确定k+2组c个分词词语{Wt~Wt+c-1}的概率值P(Wt+c-1|Wt,...,Wt+c-2),1≤t≤k+2;
命令词概率确定子单元,用于根据所述概率值确定所述命令词的概率:
Figure FDA0002635872920000041
9.根据权利要求6所述的唤醒模型的更新装置,其中,
所述得分确定单元,用于根据平滑处理后的各帧唤醒词的概率
Figure FDA0002635872920000042
确定所述唤醒模型输出的得分
Figure FDA0002635872920000043
其中hsmooth=max{1,n-ωsmooth+1}表示在ωsmooth平滑窗中第一帧的索引,n表示该平滑窗的最后一帧,pme表示第m个音素第e帧的原始概率,pme′为平滑处理后的第e帧唤醒词的概率,hmax=max{1,n-ωmax+1}表示在ωmax计算窗中第一帧的索引,s指各帧中的非所述预定音素的音素数目。
CN201910095182.8A 2019-01-30 2019-01-30 唤醒模型的更新方法及装置 Active CN109753665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910095182.8A CN109753665B (zh) 2019-01-30 2019-01-30 唤醒模型的更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910095182.8A CN109753665B (zh) 2019-01-30 2019-01-30 唤醒模型的更新方法及装置

Publications (2)

Publication Number Publication Date
CN109753665A CN109753665A (zh) 2019-05-14
CN109753665B true CN109753665B (zh) 2020-10-16

Family

ID=66406492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910095182.8A Active CN109753665B (zh) 2019-01-30 2019-01-30 唤醒模型的更新方法及装置

Country Status (1)

Country Link
CN (1) CN109753665B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428811B (zh) * 2019-09-17 2021-09-07 北京声智科技有限公司 一种数据处理方法、装置及电子设备
CN112071323B (zh) * 2020-09-18 2023-03-21 阿波罗智联(北京)科技有限公司 误唤醒样本数据的获取方法、装置和电子设备
CN113488050B (zh) * 2021-07-09 2024-03-26 北京有竹居网络技术有限公司 语音唤醒方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照***
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
KR102642666B1 (ko) * 2016-02-05 2024-03-05 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
KR102623272B1 (ko) * 2016-10-12 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN108122556B (zh) * 2017-08-08 2021-09-24 大众问问(北京)信息科技有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照***
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及***

Also Published As

Publication number Publication date
CN109753665A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753665B (zh) 唤醒模型的更新方法及装置
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN113811946A (zh) 数字序列的端到端自动语音识别
CN106534548B (zh) 语音纠错方法和装置
US8041566B2 (en) Topic specific models for text formatting and speech recognition
US7711560B2 (en) Speech recognition device and speech recognition method
CN110379407B (zh) 自适应语音合成方法、装置、可读存储介质及计算设备
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN112927679B (zh) 一种语音识别中添加标点符号的方法及语音识别装置
US7702145B2 (en) Adapting a neural network for individual style
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN110784662A (zh) 一种视频背景的更换方法、***、装置和存储介质
CN112509566B (zh) 一种语音识别方法、装置、设备、存储介质及程序产品
JP2001188558A (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和***
CN109493848A (zh) 语音识别方法、***及电子装置
CN107734123A (zh) 一种联系人排序方法和装置
CN115440238B (zh) 一种语音自动标注数据中的噪音筛选方法及***
CN112528628A (zh) 一种文本处理的方法、装置及电子设备
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
CN115688868A (zh) 一种模型训练方法及计算设备
US11538474B2 (en) Electronic device and method for controlling the electronic device thereof
CN112530421B (zh) 语音识别方法、电子设备及存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant