CN110070857A - 语音唤醒模型的模型参数调整方法及装置、语音设备 - Google Patents
语音唤醒模型的模型参数调整方法及装置、语音设备 Download PDFInfo
- Publication number
- CN110070857A CN110070857A CN201910341188.9A CN201910341188A CN110070857A CN 110070857 A CN110070857 A CN 110070857A CN 201910341188 A CN201910341188 A CN 201910341188A CN 110070857 A CN110070857 A CN 110070857A
- Authority
- CN
- China
- Prior art keywords
- wake
- rate
- model
- voice
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002618 waking effect Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
- Electric Clocks (AREA)
Abstract
本发明实施例公开了一种语音唤醒模型的模型参数调整方法及装置、语音设备。所述语音唤醒模型的模型参数调整方法,包括:基于包含唤醒词的第一类语料输入语音唤醒模型,获得语音唤醒模型被成功唤醒的唤醒率;基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
Description
技术领域
本发明涉及电子信息技术领域,尤其涉及一种语音唤醒模型的模型参数调整方法及装置、语音设备。
背景技术
随着电子技术的发展,很多电子设备引入了语音识别技术,可以通过语音唤醒电子设备,然后控制电子设备从非工作状态切换到工作状态,进行工作。但是相关技术中依然存在着较高的误唤醒或者唤醒失败率。
发明内容
有鉴于此,本发明实施例期望提供一种语音唤醒模型的模型参数调整方法及装置、语音设备。
本发明的技术方案是这样实现的:一种语音唤醒模型的模型参数调整方法,包括:
基于包含唤醒词的第一类语料输入语音唤醒模型,获得语音唤醒模型被成功唤醒的唤醒率;
基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;
结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
基于上述方案,所述结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数,包括:
结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
基于上述方案,所述结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重,包括:
若所述唤醒率和所述误唤醒率的至少其中之一不达标时,根据不达标的指标调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
基于上述方案,所述唤醒率和所述误唤醒率的至少其中之一不达标,包括:
若所述唤醒率低于唤醒阈值;
若所述误唤醒率高于误唤醒阈值。
基于上述方案,所述若所述唤醒率和所述误唤醒率的至少其中之一不达标时,根据不达标的指标调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重,包括:
若所述唤醒率达标且所述误唤醒率不达标,以第一调整步长降低所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;
若所述唤醒率不达标且所述误唤醒率达标,以第二调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;
若所述唤醒率且所述误唤醒率均不达标,以第三调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
基于上述方案,所述方法还包括:
若所述唤醒率高于所述唤醒阈值,且所述误唤醒率低于所述误唤醒阈值,停止所述语音唤醒模型的模型参数调整。
基于上述方案,所述方法还包括:
获取包含所述唤醒词的备选语料;
对所述备选语料进行加噪处理,获得所述第一类语料。
基于上述方案,所述方法还包括:
对所述备选语料进行变音处理,获得包含与所述唤醒词满足相似条件的非唤醒词的所述第二类语料。
一种语音唤醒模型的模型参数调整装置,包括:
唤醒率模块,用于基于包含唤醒词的第一类语料输入语音唤醒模型获得语音唤醒模型被成功唤醒的唤醒率;
误唤醒率模块,用于基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;
调整模块,用于结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
一种语音处理设备,包括:存储器;
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,能够实现前述任意实施例提供的语音唤醒模型的模型参数调整方法。
本发明实施例提供的实施例,在进行语音唤醒模型的模型参数的调整时,不再是单纯基于包含唤醒词第一类语料的唤醒率来进行模型参数的调优,而是会同时考虑包含唤醒词的第一类语料和不包含唤醒词第二类语料的误唤醒率这两个方面,来对模型参数进行调优,以减少单纯仅看包含有唤醒词的第一类语料所对应的唤醒率,从而导致的误唤醒率高的现象;或者,由于唤醒词的唤醒率为了减少误唤醒率使得以正确唤醒词输入时唤醒成功率低的现象。
附图说明
图1为本发明实施例提供的一种语音唤醒模型的模型参数调整方法的流程示意图;
图2为本发明实施例提供的三种调整唤醒权重的示意图;
图3为本发明实施例提供的一种语音唤醒模型的模型参数调整装置的结构示意图;
图4为本发明实施例提供的另一种语音唤醒模型的模型参数调整方法的流程示意图;
图5为本发明实施例提供的再一种语音唤醒模型的模型参数调整方法的流程示意图;
图6为本发明实施例提供的一种用于语音唤醒模型的模型参数调整的输入数据的示意图;
图7为本发明实施例提供的又一种语音唤醒模型的模型参数调整方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种语音唤醒模型的模型参数调整方法,包括:
步骤S110:基于包含唤醒词的第一类语料输入语音唤醒模型,获得语音唤醒模型被成功唤醒的唤醒率;
步骤S120:基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;
步骤S130:结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
在本实施例中用于所述语音唤醒模型的模型参数调优的语料被分为了两种,第一种是包含有唤醒词的第一类语料,另一类是不包含有唤醒词的第二类语料。
一个所述语音唤醒模型包括一个或多个唤醒词。例如,语音唤醒模型应用到语音唤醒设备后,该语音设备可能有自己的名称或昵称;此时,该语音设备的名称或昵称可以作为所述唤醒词。不同的用户使用同一个语音设备,也可以为该语音设备设置不同的唤醒词。例如,该语音设备为车载设备,在家庭用车或者公司用户等多人用车的情况下,该语音设备可能被不同的用户设置了不同的唤醒词。
在一些实施例中,为了方便语料的收集,所述第二类语料可为随机收集的不包含有所述唤醒词的任意语料。
在本实施例中,第一类语料用于测试语音唤醒模型的唤醒率;此处的唤醒率包括但不限于:电子设备被第一类语料唤醒的次数与总输入的第一类语料的条数之比。
在本实施例中,第二类语料用户测试语音唤醒模型的误唤醒率,此处的误唤醒率包括但不限于:电子设备被第二类语料唤醒的次数与总输入的第二类语料的条数之比。
本实施例中,所述唤醒率和所述误唤醒率是基于不同的语料产生的唤醒效果参数。在利用所述第一类语料和所述第二类语料对目标模型测量两个参数的过程中,可以相互独立,互不影响。
在具体的实现过程中,为了减少不必要的语音唤醒模型的训练,可以分为两个过程。
第一过程,利用第一语料优化所述语音唤醒模型的模型参数;减少直接交替输入不同类型语料导致的第二类语料不必要的训练。
第二过程,可以交替输入所述第一类语料和第二类语料,减少集中输入一种语料,该种语料对应的唤醒效果参数达标了,但是另一个指标却不达标;在模型参数调整的过程中导致之前达标的唤醒效果参数又达标,循环往复导致的大量训练。
在本申请的步骤S130中会结合唤醒率和误唤醒率同步对语音唤醒模型的模型参数进行调优,从而减少了依靠单一唤醒效果参数产生的误唤醒率高或者唤醒成功率低的现象,提升了唤醒成功率的同时,并降低了误唤醒率。
在本实施例中,所述语音唤醒模型的模型参数调优,包括两个阶段:
第一阶段,所述语音唤醒模型上线之前(即未应用到设备之前),进行语音唤醒模型的初始阶段的模型参数调优;
第二阶段,所述语音唤醒模型上线(应用到设备上由用户使用),进行所述语音唤醒模型的进阶阶段的模型参数调优。
本实施例提供的方法可以同时应用于这两个阶段。
在本实施例中,在第二阶段中,若语音设备被设置了多个唤醒词,且不同用户对应于不同唤醒词,则进行所述唤醒率统计时,区分不同的用户逐个唤醒词进行统计。为了区分用户;所述步骤S110可包括:从输入语料中提取声纹,将提取的声纹与预设的声纹进行匹配,确定当前输入语料的用户是否具有唤醒权限的特定用户,若是,再确定当前输入语料中是否存在语音识别的置信度高于置信度阈值的词,为该特定用户的唤醒词;若是,语音唤醒模型触发语音设备唤醒,否则语音唤醒模型不唤醒语音设备。如此,结合声纹特征识别用户及优化该用户的唤醒成功率和误唤醒率。
在另一些实施例中,若识别出该用户并非所述特定用户,则语音唤醒模型可以根据当前输入语料中是否包含通用用户的通用唤醒词来确定是否唤醒语音设备。
若语音设备是被通用唤醒词所唤醒,则对语音设备进行第一安全配置;若语音设备是被特定用户专用的唤醒词所唤醒,则对语音设备进行第二安全配置。第一安全配置的安全等级高于第二安全配置对应的安全等级。在第一安全配置下相比于在第二安全配置下,语音设备可执行的有一个或多功能被隐藏或被禁止,如此,提升了语音设备的安全性。例如,支付功能和/或特定账号的社交功能可能被隐藏或被禁止。
在第一阶段,所述第一类语料和第二类语料输入的过程中可以携带类型标签;或者,分语料类型进行训练,如此可以知道当前所接收的语料为哪一种类型及需要统计的唤醒效果参数。
在产品上线之后,在确定当前输入的第一类语料还是第二类语料,可以根据后续的用户操作,预测出当前输入的是第一类语料还是第二类语料。例如,若电子设备被唤醒后用户没有后续指令,可认为当前输入的是第二类语料,此时可以统计误唤醒率。若电子设备检测到一个语料认定为第二类语料但是没有唤醒电子设备,此时检测到用户手动唤醒指令,则认为当前输入的是第一类语料,并基于此统计唤醒率。
如此,在第二阶段语音唤醒模型上线后,还可以根据用户的个人发音特点进一步对语音唤醒模型进行双维度的模型参数进行调优。
在一些实施例中,所述结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数,包括:
结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
在一些实施例中,所述步骤S130可包括:若所述唤醒率和所述误唤醒率的至少其中之一不达标时,根据不达标的指标调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
在本实施例中,若唤醒率和误唤醒率任意一个不达标都需要继续调整模型参数,在本实施例中,所述模型参数为所述唤醒权重。
语音识别模型会识别语料中所包含的词,并且给出置信度;若该置信度大于或等于唤醒权重,则电子设备会被唤醒;若该置信度小于唤醒权重,则电子设备不会被唤醒。如此,所述唤醒权重与电子设备是否被唤醒息息相关。故在本实施例中,在进行语音唤醒模型的模型参数进行调整时,首先调整对应唤醒词的唤醒权重。
在一些实施例中,所述唤醒率和所述误唤醒率的至少其中之一不达标,包括:
若所述唤醒率低于唤醒阈值;
若所述误唤醒率高于误唤醒阈值。
在本实施例中,所述唤醒率和误唤醒是否达标,对应了各自的阈值;通过阈值的比较确定是否达标。
在还有一些实施例中,可以在模型参数的调整过程中,确定唤醒率和误唤醒率是否出现了局部最优值;若同时出现了局部最优值,可认为唤醒率和误唤醒率都达标了,否则可认为未达标。
在一些实施例中,如图2所示,所述步骤S130可包括:
步骤S131:若所述唤醒率达标且所述误唤醒率不达标,以第一调整步长降低所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;
步骤S132:若所述唤醒率不达标且所述误唤醒率达标,以第二调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;
步骤S133:若所述唤醒率且所述误唤醒率均不达标,以第三调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
在本实施例中,所述第一调整步长、第二调整步长及第三调整步长的任意两个可相等或不等。
可选地,第一调整步长小于所述第二调整步长,第三调整步长可大于所述第一调整步长,可以实现唤醒权重的迅速优化。
在一些实施例中,所若唤醒率和所述误唤醒率都不达标,所述方法还可包括:
确定所述唤醒词的语音识别正确率;
若所述语音识别正确率不达标,调整所述语音识别模型的模型参数;
基于模型参数调整后的语音识别模型对唤醒词识别的置信度,再次确定所述唤醒率和误唤醒率,并进行语音唤醒模型的模型参数。
在一些实施例中,所述方法还包括:
若所述唤醒率高于所述唤醒阈值,且所述误唤醒率低于所述误唤醒阈值,停止所述语音唤醒模型的模型参数调整。
若唤醒率高于唤醒阈值,且误唤醒率低于误唤醒阈值,可认为目前语音唤醒模型的模型参数足够优化,可以停止所述模型参数的调整了,例如,停止所述唤醒权重的调整。
在一些实施例中,所述方法还包括:
获取包含所述唤醒词的备选语料;
对所述备选语料进行加噪处理,获得所述第一类语料。
在本实施例中为了语音唤醒模型在不同环境下都可以唤醒电子设备,可以通过加噪处理等来优化所述语音唤醒模型。例如,根据语音唤醒模型所应用的电子设备,该电子设备可为车载设备。若为车载设备,车载语音环境噪声包括以下几种:
车窗打开的风声;
车载设备播放音频的音频噪声;
车载设备的空调等其他车载设备运行的设备噪声。
将这些噪声对包含有唤醒的备选语料添加噪声之后,和未添加噪声非常清晰的包含唤醒词的原始备选语料的平均唤醒率。
进一步地,所述方法还包括:
对所述备选语料进行变音处理,获得包含与所述唤醒词满足相似条件的非唤醒词的所述第二类语料。
此处的变音处理为:以唤醒词相近似的近似词替换所述唤醒词,来测试误唤醒率,减少第二类语料的输入次数,提升基于误唤醒率的模型参数优化的效率。
如图3所示,本实施例提供一种语音唤醒模型的模型参数调整装置,包括:
唤醒率模块110,用于基于包含唤醒词的第一类语料输入语音唤醒模型获得语音唤醒模型被成功唤醒的唤醒率;
误唤醒率模块120,用于基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;
调整模块130,用于结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
在一些实施例中,所述调整模块130,具体用于结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
在一些实施例中,所述调整模块130,具体用于若所述唤醒率和所述误唤醒率的至少其中之一不达标时,根据不达标的指标调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
在一些实施例中,所述唤醒率和所述误唤醒率的至少其中之一不达标,包括:
若所述唤醒率低于唤醒阈值;
若所述误唤醒率高于误唤醒阈值。
在一些实施例中,所述调整模块130,具体用于若所述唤醒率达标且所述误唤醒率不达标,以第一调整步长降低所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;若所述唤醒率不达标且所述误唤醒率达标,以第二调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;若所述唤醒率且所述误唤醒率均不达标,以第三调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
在一些实施例中,所述装置还包括:
停止模块,用于若所述唤醒率高于所述唤醒阈值,且所述误唤醒率低于所述误唤醒阈值,停止所述语音唤醒模型的模型参数调整。
在一些实施例中,所述装置还包括:
获取模块,用于获取包含所述唤醒词的备选语料;
加噪模块,用于对所述备选语料进行加噪处理,获得所述第一类语料。
在另一些实施例中,所述装置还包括:
变音模块,用于对所述备选语料进行变音处理,获得包含与所述唤醒词满足相似条件的非唤醒词的所述第二类语料。
以下结合上述任意实施例提供几个具体示例:
示例1:
语音可唤醒设备(该设备包括但不限于手机、玩具、家电等)在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令,即唤醒词),让处于休眠状态下的设备直接进入到等待指令状态,开启语音交互第一步。
唤醒率:指用户交互的成功率,专业术语为召回率。
误唤醒:语音没有输入特定唤醒词而引起的语音唤醒。
误唤醒率:一定时间内出现误唤醒的概率。
若单纯调整唤醒词的权重以提升唤醒率,但是对于误唤醒的指标并没有界定,本技术方案指在唤醒率达标的基础之上,动态调整唤醒词权重,以确定在误唤醒率也达标的基础上,获取可以使用的唤醒词权重列表,从而实现唤醒率和误唤醒率双重达标。
动态调整唤醒词权重,测试唤醒率,在唤醒率达标的基础上,继续动态调整唤醒词权重,进行误唤醒率的测试,以达到唤醒率和误唤醒率双重达标。
总之在本示例提供的方案中,动态调整唤醒权重,使唤醒率和误唤醒率同时达标;
唤醒率和误唤醒率可以实时调整,以适应不同场景需求。
获取的最终唤醒权重是一组数据,增加了使用可选择空间。语音唤醒过程中,当语音的唤醒词权重越大,表示越难唤醒,唤醒率越低,误唤醒率也越低,当唤醒词权重越小,表示,越容易唤醒,同时误唤醒率也越高。怎样平衡唤醒率和误唤醒率,是语音唤醒过程中的一个难题。本示例动态调整唤醒词的权重,实现唤醒率和误唤醒率双双达标。如图4所示,本示例提供一种语音唤醒模型的模型参数调整方法,包括:
设定唤醒词、设定唤醒率阈值、设定误唤醒率阈值;
进行动态调整唤醒权重测试;
形成达标唤醒词的唤醒权重列表。
图5所示为基于图4所示的方法的进一步详细描述,包括:
设定唤醒词;
设定唤醒率阈值、设定误唤醒率阈值;
确定唤醒权重,在首次进行一个唤醒词的处理时,该步骤对应为初始化该唤醒词的唤醒权重;非首次进行一个唤醒词的处理时,该步骤可为:调整唤醒词;
测试唤醒率;
确定唤醒率是否达标,例如,将唤醒率与唤醒率阈值进行比较,若唤醒率大于或等于唤醒率阈值,则达标;否则不达标;
若是,测试误唤醒率;先进行唤醒率测试,再进行误唤醒率测试,可以减少不必要的测试次数;当前也可以交叉测试;
若否,返回调整唤醒权重的步骤;
确定误唤醒率是否达标;此处的误唤醒率达标包括:误唤醒率小于无唤醒率阈值。
若唤醒率和误唤醒率同时达标,设定该唤醒词的唤醒权重;
形成唤醒词的唤醒权重列表。
示例2:
本示例的实现流程分为两个部分:
第一步,经过动态调整唤醒词测试得到唤醒率达标的唤醒权重:
第二步,使用第一步得到的唤醒权重测试误唤醒,误唤醒达标就记录该唤醒权重,不达标继续调整唤醒权重测试。
本示例提供的方法包括:
设定唤醒词;
根据用户可接受程度,设定唤醒率阈值并误唤醒率阈值;
唤醒词权重区间列表,唤醒词权重的上限和下限分别代表的最难唤醒和最易唤醒,同时也代表着误唤醒最低和误唤醒最高。
测试唤醒率,如果唤醒率达标,则继续下一步测试,如果不达标,则动态调整唤醒词的唤醒权重;
唤醒率达标后测试误唤醒率;
如果误唤醒率达标,则记录唤醒词权重,如果不达标,则动态调整唤醒词权重;
循环调整唤醒词权重,继续测试;在本示例中,若语音唤醒模型上线使用一段时间后,为了更新语音唤醒模型,使得语音唤醒模型长期维持高成功唤醒率和低误唤醒率;会定期或不定期的循环调整唤醒词。
最终得到唤醒率和误唤醒率都达标的唤醒词权重列表。
如图7所示,动态调整语音唤醒模型的唤醒权重的过程可如下:
输入数据
此测试方案输入数据部分分为三类,如图6所示分为:标准数据、可变参数数据和资源数据;
标准数据,即用户要设定的标准值数据,唤醒词的唤醒率阈值,误唤醒率阈值;
可变参数数据,可调整的唤醒权重,测唤醒率时音频文件的播放次数,测误唤醒时音频文件的播放时间。
资源数据,指的是包含一个或多个唤醒词的唤醒词列表,唤醒词对应的音频文件,用于误唤醒测试的随机音频文件,唤醒权重区间比如[0,9]和调整步长比如0.1。调整步长,唤醒词权重每次调整的0.1,即为权重步长;
读取输入数据,包括标准数据,可变数据和资源数据,唤醒率阈值p%,误唤醒率阈值q%;
此时假设唤醒权重设定为X;
设定播放次数记为M,唤醒次数记为N;
计算实际的唤醒率t%=N/M*100%;
如果t%>=目标值p%,说明X权重下的唤醒率超过或等于标准,此时要记录该唤醒权重,如果t%<目标值p%,说明X权重下的唤醒率不达标准,需要调整唤醒权重后继续测试,此时X+步长,进行重复3,4,5步骤测试
唤醒率达标时候继续测试,随机播放音频,时间记为H小时,唤醒次数记为G。
计算实际误唤醒率w%=G/H*100%。
如果w%<=目标值q%,说明此权重下的误唤醒率超过或等于标准,此时要记录该唤醒权重,如果w%>目标值q%,说明此权重下的误唤醒率不达标,需要调整唤醒权重后继续测试,此时X+步长,前述唤醒率达标的测试步骤。
误唤醒率达标时候,记录下该唤醒权重Y,同时调整唤醒权重后继续测试,此时X+步长,重复前述误唤醒率的达标步骤
最终得到权重列表S[Y1,Y2….],此权重情况下,唤醒率和误唤醒都是达标的。
本实施例还提供一种语音处理设备,包括:存储器;
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,能够实现前述任意一个技术方案提供的语音唤醒模型的模型参数调整方法;例如,如图1、图2、图4、图5及图7所示的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的设备实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语音唤醒模型的模型参数调整方法,其特征在于,包括:
基于包含唤醒词的第一类语料输入语音唤醒模型,获得语音唤醒模型被成功唤醒的唤醒率;
基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;
结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,
所述结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数,包括:
结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
3.根据权利要求2所述的方法,其特征在于,所述结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重,包括:
若所述唤醒率和所述误唤醒率的至少其中之一不达标时,根据不达标的指标调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
4.根据权利要求3所述的方法,其特征在于,所述唤醒率和所述误唤醒率的至少其中之一不达标,包括:
若所述唤醒率低于唤醒阈值;
若所述误唤醒率高于误唤醒阈值。
5.根据权利要求3所述的方法,其特征在于,所述若所述唤醒率和所述误唤醒率的至少其中之一不达标时,根据不达标的指标调整所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重,包括:
若所述唤醒率达标且所述误唤醒率不达标,以第一调整步长降低所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;
若所述唤醒率不达标且所述误唤醒率达标,以第二调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重;
若所述唤醒率且所述误唤醒率均不达标,以第三调整步长增加所述语音唤醒模型被对应唤醒词所唤醒的唤醒权重。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述方法还包括:
若所述唤醒率高于所述唤醒阈值,且所述误唤醒率低于所述误唤醒阈值,停止所述语音唤醒模型的模型参数调整。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取包含所述唤醒词的备选语料;
对所述备选语料进行加噪处理,获得所述第一类语料。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述备选语料进行变音处理,获得包含与所述唤醒词满足相似条件的非唤醒词的所述第二类语料。
9.一种语音唤醒模型的模型参数调整装置,其特征在于,包括:
唤醒率模块,用于基于包含唤醒词的第一类语料输入语音唤醒模型获得语音唤醒模型被成功唤醒的唤醒率;
误唤醒率模块,用于基于不包含唤醒词的第二类语料输入语音唤醒模型,获得语音唤醒模型被误唤醒的误唤醒率;
调整模块,用于结合所述唤醒率和所述误唤醒率,调整所述语音唤醒模型的模型参数。
10.一种语音设备,包括:存储器;
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,能够实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910341188.9A CN110070857B (zh) | 2019-04-25 | 2019-04-25 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910341188.9A CN110070857B (zh) | 2019-04-25 | 2019-04-25 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070857A true CN110070857A (zh) | 2019-07-30 |
CN110070857B CN110070857B (zh) | 2021-11-23 |
Family
ID=67368875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910341188.9A Active CN110070857B (zh) | 2019-04-25 | 2019-04-25 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070857B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634468A (zh) * | 2019-09-11 | 2019-12-31 | 中国联合网络通信集团有限公司 | 语音唤醒方法、装置、设备及计算机可读存储介质 |
CN110942768A (zh) * | 2019-11-20 | 2020-03-31 | Oppo广东移动通信有限公司 | 设备唤醒的测试方法、装置、移动终端和存储介质 |
CN111081241A (zh) * | 2019-11-20 | 2020-04-28 | Oppo广东移动通信有限公司 | 设备误唤醒的数据检测方法、装置、移动终端和存储介质 |
CN111091813A (zh) * | 2019-12-31 | 2020-05-01 | 北京猎户星空科技有限公司 | 语音唤醒模型更新方法、装置、设备及介质 |
CN111427293A (zh) * | 2020-03-26 | 2020-07-17 | 广州立功科技股份有限公司 | 多通道输入采样唤醒方法、装置和控制设备 |
CN111554289A (zh) * | 2020-04-27 | 2020-08-18 | 河北雄安中税盟科技股份有限公司 | 一种智能语音交互方法与存储介质 |
CN112233681A (zh) * | 2020-10-10 | 2021-01-15 | 北京百度网讯科技有限公司 | 一种误唤醒语料确定方法、装置、电子设备和存储介质 |
CN115171699A (zh) * | 2022-05-31 | 2022-10-11 | 青岛海尔科技有限公司 | 唤醒参数的调整方法和装置、存储介质及电子装置 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1452156A (zh) * | 2002-04-17 | 2003-10-29 | 日本先锋公司 | 语音识别设备和方法以及记录了语音识别程序的记录媒体 |
CN101334998A (zh) * | 2008-08-07 | 2008-12-31 | 上海交通大学 | 基于异类模型区分性融合的汉语语音识别*** |
CN101452702A (zh) * | 2007-12-05 | 2009-06-10 | 财团法人工业技术研究院 | 语音模型的调整方法及其调整模块 |
US20150154953A1 (en) * | 2013-12-02 | 2015-06-04 | Spansion Llc | Generation of wake-up words |
CN104935600A (zh) * | 2015-06-19 | 2015-09-23 | 中国电子科技集团公司第五十四研究所 | 一种基于深度学习的移动自组织网络入侵检测方法与设备 |
CN106297765A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及*** |
CN106611598A (zh) * | 2016-12-28 | 2017-05-03 | 上海智臻智能网络科技股份有限公司 | 一种vad动态参数调整方法和装置 |
US20170206895A1 (en) * | 2016-01-20 | 2017-07-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Wake-on-voice method and device |
CN107610695A (zh) * | 2017-08-08 | 2018-01-19 | 问众智能信息科技(北京)有限公司 | 驾驶人语音唤醒指令词权重的动态调整方法 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN107730364A (zh) * | 2017-10-31 | 2018-02-23 | 北京麒麟合盛网络技术有限公司 | 用户识别方法及装置 |
CN108920660A (zh) * | 2018-07-04 | 2018-11-30 | 中国银行股份有限公司 | 关键词权重获取方法、装置、电子设备及可读存储介质 |
CN108932944A (zh) * | 2017-10-23 | 2018-12-04 | 北京猎户星空科技有限公司 | 解码方法及装置 |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN109065027A (zh) * | 2018-06-04 | 2018-12-21 | 平安科技(深圳)有限公司 | 语音区分模型训练方法、装置、计算机设备及存储介质 |
CN109448719A (zh) * | 2018-12-11 | 2019-03-08 | 网易(杭州)网络有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109637537A (zh) * | 2018-12-28 | 2019-04-16 | 北京声智科技有限公司 | 一种自动获取标注数据优化自定义唤醒模型的方法 |
-
2019
- 2019-04-25 CN CN201910341188.9A patent/CN110070857B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1452156A (zh) * | 2002-04-17 | 2003-10-29 | 日本先锋公司 | 语音识别设备和方法以及记录了语音识别程序的记录媒体 |
CN101452702A (zh) * | 2007-12-05 | 2009-06-10 | 财团法人工业技术研究院 | 语音模型的调整方法及其调整模块 |
CN101334998A (zh) * | 2008-08-07 | 2008-12-31 | 上海交通大学 | 基于异类模型区分性融合的汉语语音识别*** |
US20150154953A1 (en) * | 2013-12-02 | 2015-06-04 | Spansion Llc | Generation of wake-up words |
CN106297765A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及*** |
CN104935600A (zh) * | 2015-06-19 | 2015-09-23 | 中国电子科技集团公司第五十四研究所 | 一种基于深度学习的移动自组织网络入侵检测方法与设备 |
US20170206895A1 (en) * | 2016-01-20 | 2017-07-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Wake-on-voice method and device |
CN106611598A (zh) * | 2016-12-28 | 2017-05-03 | 上海智臻智能网络科技股份有限公司 | 一种vad动态参数调整方法和装置 |
CN107610695A (zh) * | 2017-08-08 | 2018-01-19 | 问众智能信息科技(北京)有限公司 | 驾驶人语音唤醒指令词权重的动态调整方法 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN108932944A (zh) * | 2017-10-23 | 2018-12-04 | 北京猎户星空科技有限公司 | 解码方法及装置 |
CN107730364A (zh) * | 2017-10-31 | 2018-02-23 | 北京麒麟合盛网络技术有限公司 | 用户识别方法及装置 |
CN109065027A (zh) * | 2018-06-04 | 2018-12-21 | 平安科技(深圳)有限公司 | 语音区分模型训练方法、装置、计算机设备及存储介质 |
CN108920660A (zh) * | 2018-07-04 | 2018-11-30 | 中国银行股份有限公司 | 关键词权重获取方法、装置、电子设备及可读存储介质 |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN109448719A (zh) * | 2018-12-11 | 2019-03-08 | 网易(杭州)网络有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109637537A (zh) * | 2018-12-28 | 2019-04-16 | 北京声智科技有限公司 | 一种自动获取标注数据优化自定义唤醒模型的方法 |
Non-Patent Citations (1)
Title |
---|
田阳: ""无线终端设备低功耗唤醒方法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634468A (zh) * | 2019-09-11 | 2019-12-31 | 中国联合网络通信集团有限公司 | 语音唤醒方法、装置、设备及计算机可读存储介质 |
CN110634468B (zh) * | 2019-09-11 | 2022-04-15 | 中国联合网络通信集团有限公司 | 语音唤醒方法、装置、设备及计算机可读存储介质 |
CN110942768A (zh) * | 2019-11-20 | 2020-03-31 | Oppo广东移动通信有限公司 | 设备唤醒的测试方法、装置、移动终端和存储介质 |
CN111081241A (zh) * | 2019-11-20 | 2020-04-28 | Oppo广东移动通信有限公司 | 设备误唤醒的数据检测方法、装置、移动终端和存储介质 |
CN111091813A (zh) * | 2019-12-31 | 2020-05-01 | 北京猎户星空科技有限公司 | 语音唤醒模型更新方法、装置、设备及介质 |
CN111091813B (zh) * | 2019-12-31 | 2022-07-22 | 北京猎户星空科技有限公司 | 语音唤醒模型更新及唤醒方法、***、装置、设备及介质 |
CN111427293A (zh) * | 2020-03-26 | 2020-07-17 | 广州立功科技股份有限公司 | 多通道输入采样唤醒方法、装置和控制设备 |
CN111554289A (zh) * | 2020-04-27 | 2020-08-18 | 河北雄安中税盟科技股份有限公司 | 一种智能语音交互方法与存储介质 |
CN112233681A (zh) * | 2020-10-10 | 2021-01-15 | 北京百度网讯科技有限公司 | 一种误唤醒语料确定方法、装置、电子设备和存储介质 |
CN115171699A (zh) * | 2022-05-31 | 2022-10-11 | 青岛海尔科技有限公司 | 唤醒参数的调整方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110070857B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070857A (zh) | 语音唤醒模型的模型参数调整方法及装置、语音设备 | |
CN109087669B (zh) | 音频相似度检测方法、装置、存储介质及计算机设备 | |
CN104866274B (zh) | 信息处理方法及电子设备 | |
CN103823561B (zh) | 表情输入方法和装置 | |
CN107992587A (zh) | 一种浏览器的语音交互方法、装置、终端和存储介质 | |
CN106297777A (zh) | 一种唤醒语音服务的方法和装置 | |
EP3611724A1 (en) | Voice response method and device, and smart device | |
CN107134074A (zh) | 储物设备共享方法、储物设备及计算机可读存储介质 | |
CN108682414A (zh) | 语音控制方法、语音***、设备和存储介质 | |
CN107655154A (zh) | 终端控制方法、空调器及计算机可读存储介质 | |
CN104143097A (zh) | 分类函数获取方法、人脸年龄识别方法、装置和设备 | |
JP7308335B2 (ja) | 車載音声機器のテスト方法、装置、電子機器及び記憶媒体 | |
CN109686368A (zh) | 语音唤醒应答处理方法及装置、电子设备及存储介质 | |
CN109873813A (zh) | 文本输入异常监控方法、装置、计算机设备及存储介质 | |
CN202041916U (zh) | 一种声控鼠标 | |
CN110032734A (zh) | 近义词扩展及生成对抗网络模型训练方法和装置 | |
CN106471493A (zh) | 用于管理数据的方法和装置 | |
CN107145221A (zh) | 一种信息处理方法及电子设备 | |
CN106227498A (zh) | 一种语音控制的方法和装置 | |
CN106971715A (zh) | 一种应用于机器人的语音识别装置 | |
CN106650365A (zh) | 一种启用不同工作模式的方法及装置 | |
CN107135445A (zh) | 一种信息处理方法及电子设备 | |
CN110706691A (zh) | 语音验证方法及装置、电子设备和计算机可读存储介质 | |
CN106843882A (zh) | 一种信息处理方法、装置及信息处理*** | |
US20160163313A1 (en) | Information processing method and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |