CN106098059B - 可定制语音唤醒方法及*** - Google Patents

可定制语音唤醒方法及*** Download PDF

Info

Publication number
CN106098059B
CN106098059B CN201610462976.XA CN201610462976A CN106098059B CN 106098059 B CN106098059 B CN 106098059B CN 201610462976 A CN201610462976 A CN 201610462976A CN 106098059 B CN106098059 B CN 106098059B
Authority
CN
China
Prior art keywords
model
phoneme
module
phoneme sequence
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610462976.XA
Other languages
English (en)
Other versions
CN106098059A (zh
Inventor
俞凯
钱彦旻
庄毅萌
陈哲怀
常烜恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610462976.XA priority Critical patent/CN106098059B/zh
Publication of CN106098059A publication Critical patent/CN106098059A/zh
Application granted granted Critical
Publication of CN106098059B publication Critical patent/CN106098059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种可定制语音唤醒方法及***,通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练,采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性,即高准确率,低误唤醒,另一方面对应用***的计算资源消耗相对较少。

Description

可定制语音唤醒方法及***
技术领域
本发明涉及的是一种计算机辅助控制领域的技术,具体是一种基于长短时记忆网络(LSTM)和连接时序分类模型(CTC)的可定制语音唤醒方法及***。
背景技术
近年来,随着信息技术的发展,包括语音在内多媒体信息技术越来越成为研究的关注热点。语言唤醒技术是语音识别中的一个重要领域,并被广泛应用于语音命令控制***中。一个可定制的语音唤醒(Voice Wake-up)***的任务是从一段连续的语音中自动发现并定位一些事先指定的命令词(唤醒词)。可定制的特性体现在唤醒词检测模型不依赖于用户指定的唤醒词,从而实现无需修改模型即可方便更改用户唤醒词。相反,非可定制的唤醒技术与指定的唤醒词有关,唤醒词固定,无法轻易变更唤醒词。语音唤醒与连续语音识别关系密切,但语音唤醒技术并不要求将完整的语音句子全部识别出来,而是仅关心用户指定的关键信息。因此,唤醒技术降低了对识别***的要求。与传统的文本态文档比较,语音数据作为一种对声音的编码形式,使得语音信息成为一种对于计算机来说更加难以直接检索和提取有效信息的数据形态。此外由于多种潜在的因素(如背景噪声、说话人口音等),也使得开发出一套有效的语音唤醒***变得更加复杂和困难。主要的语音唤醒技术包括早期的动态时间规整法,如今的基于隐马尔科夫模型的方法,以及基于深度学习的方法。
发明内容
本发明针对现有技术中唤醒词无法定制且依赖预设语言模型的不足,提出一种可定制语音唤醒方法及***,利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性能(准确率、召回率),高准确率,低误唤醒,另一方面对应用***的计算资源消耗相对较少。
本发明是通过以下技术方案实现的:
本发明涉及一种可定制语音唤醒方法,包括以下步骤:
步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模;
步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征,模型将特征数据作为输入,将标注的音素信息作为输出,在海量数据下通过深度学习的方法完成模型各参数量的训练,得到可使用的长短时记忆网络和连接时序分类模型;
步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取,并输入模型,模型将输出每一帧所有建模单元,即音素可能出现的后验概率;
步骤4)唤醒词搜索:通过在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。
所述的最相似的可能音素序列Hmax,通过判断音素序列在语音中的出现概率,即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到,具体为:
其中:P(T)为目标音素序列T,T={t1,t2,···,tn}的观察概率,ti表示T中的第i个音素,i为1~n;
目标音素序列T位于CTC音素网格结构中的所有音素序列的概率为:
P(T|LH)∝P(LH|T)P(T)≈P(Hmax|T)P(T),其中:LH表示CTC音素网格结构中的所有音素序列,而可能音素序列Hmax即为T已知时LH中的最高概率。
P(H)为音素序列H,H={nij1,n(i+1)j2,···,n(i+m-1)jm}的观察概率,nij为lattice网格结构中第i栏第j列的音素,音素序列H也可以表示为H={h1,h2,···,hm},其中:hk=n(i+k-1)jk
P(H)通过unigram假设,即累积乘音素序列中每个音素的后验概率获得,具体为:
P(T/H)为目标音素序列T和音素序列H之间的相似程度,即目标音素序列和假设序列之间的每个编辑操作的概率之积作为衡量音素序列相似性的指标,MED(T,H)表示目标音素序列T和音素序列H的最少编辑操作次数,P(opi|R=T,E=H)表示当参考音素序列R为T时猜测音素序列E为H时,序列E和R之间的第i次编辑操作opi的概率。
所述的编辑操作是指:***、删除和替换操作,其概率,即P(insert(ei))、P(delete(ri))和P(ri/ei)直接由先验知识得出,ri和ei分别取自参考音素序列R和猜测音素序列E。
本发明涉及一种实现上述方法的可定制语音唤醒***,包括:声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块,其中:声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息,记忆网络模块与分类模型模块相连并传输音素后验信息,分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列,唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解,决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果。
所述的唤醒词搜索模块采用基于连接时序分类(Connectionist TemporalClassification,CTC)模型的Lattice网络结构,其中包含了所有可能的语音识别结果及其概率。技术效果
本发明相比较传统方法主要有以下不同:
附图说明
图1为本发明***结构示意图;
图2为神经网络结构示意图;
图2中给出了不同手机对应的后验概率,下半部分的网格中的实线表示潜在路径,虚线表示所有有效连接。
具体实施方式
本实施例包括:声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块,其中:声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息,记忆网络模块与分类模型模块相连并传输音素后验信息,分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列,唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解,决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果。
本实施例涉及上述***的语音唤醒方法,具体包括以下步骤:
步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模,具体步骤包括:
1.1)确定模型结构:根据应用场景设备的计算能力预估模型复杂度,由于计算复杂度与模型的参数量正相关,因此首先要设定参数量的上限,例如不超过5.5M大小。然后在此限定下指定网络结构,例如使用3隐层网络,每次256个节点,投影为96个节点。
1.2)初始化长短时记忆网络:使用随机初始化的参数,也可以通过modeltransferring方式初始化,由于随机初始化会造成之后CTC训练困难的问题,这里推荐使用cross entropy准则预训练一个标准的声学长短时记忆网络,然后通过复制参数的方式初始化模型。
步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征,模型将特征数据作为输入,将标注的音素信息作为输出,在海量数据下通过深度学习的方法完成模型各参数量的训练,得到可使用的长短时记忆网络和连接时序分类模型,具体步骤包括:
2.1)对训练数据提取fbank,即Filter-bank声学特征。
2.2)使用随机梯度下降方式完成模型的训练,训练参数需根据模型结构以及训练数据大小设定,例如对于上述例子中的模型,可采用0.00001的学习率,动量值为0.9,batch大小256等等。
步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取,并输入模型,模型将输出每一帧所有建模单元可能出现的后验概率,具体步骤包括:
3.1)对测试数据提取fbank声学特征,特征提取过程要求与训练数据特征提取一致。
3.2)将提取的特征逐帧输入训练得到的模型,直接计算出每一帧的后验概率。
步骤4)唤醒词搜索:通过在生成的lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据,具体步骤包括:
4.1)对每一句测试语音生成lattice网络结构,扫描每一帧“空白”的后验概率,当其后验低于预设值,例如0.8,那么认为这帧为一个尖峰。在找出一句话的所有尖峰后,将时间上连续的尖峰合并为一个尖峰,对于每个尖峰,选择出这一帧上后验概率较大的音素,例如后验概率大于0.005的音素,组成lattice网络结构中的一列;在构造出所有列后,两两连接lattice中相邻两列中的每个节点音素,得到所需lattice网络结构。
4.2)根据前面提到的搜索算法公式,在生成的lattice网络结构上执行搜索算法,找到与目标音素序列最相似的音素序列。
4.3)计算找到的音素序列的观察概率与相似程度的乘积,并与设置的阈值做比较,若大于阈值,则判断测试语音包含唤醒词,否则不唤醒。
本实施例与现有技术的对比结果如下表:
其中LSTM-CTC KWS为本发明提出的方法。表格中展示了本方法和目前处理可定制唤醒词的主流方法HMM的对比结果,性能指标EER为平均相等错误率,FOM是错误唤醒在0至10范围内唤醒率的平均值,EER越小越好,FOM越大越好。同时表格也说明了每个模型的参数量。实验中使用标准的WSJ0数据集,使用了50个唤醒词做测试。可以看到,本发明提出的方法明显优于传统的GMM-HMM、DNN-HMM方法,且参数量更少。
综上所述,与现有技术相比本发明基于唤醒词置信度与阈值的比较以判别是否唤醒。由于可定制唤醒***不限定唤醒词,对于不同唤醒词所使用的阈值也很难统一,所以这里提出了一种针对不同唤醒词自动估计阈值的方法,一定程度上解决阈值难以统一的问题,从而提升***唤醒的准确性;此外,本发明基于CTC的lattice网格规模更小,同时尽可能保留了有用信息。在此基础上提出的搜索算法,利用了音素序列的观察概率和与目标序列相似程度两方面信息,通过动态规划实现高效搜索唤醒词的目标,算法的时间和空间复杂度较低,但准确性很高。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种可定制语音唤醒方法,其特征在于,包括以下步骤:
步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模;
步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过信号处理方法做预处理并提取可供模型训练的声学特征,模型将特征数据作为输入,将标注的音素信息作为输出,在海量数据下通过深度学习的方法完成模型各参数量的训练,得到可使用的长短时记忆网络和连接时序分类模型;
步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取,并输入模型,模型将输出每一帧所有建模单元,即音素可能出现的后验概率;
步骤4)唤醒词搜索:通过在Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据,其中:最相似的可能音素序列Hmax,通过判断音素序列在语音中的出现概率,即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到,具体为:
其中:P(T)为目标音素序列T,T={t1,t2,…,ti,…,tn}的观察概率,ti表示T中的第i个音素,i为1~n;
目标音素序列T位于连接时序分类音素网格结构中的所有音素序列的概率为:
P(T|LH)∝P(LH|T)P(T)≈P(Hmax|T)P(T),其中:LH表示连接时序分类音素网格结构中的所有音素序列,而可能音素序列Hmax即为T已知时LH中的最高概率;
P(H)为音素序列H,H={nij1,n(i+1)j2,…,n(i+k-1)jk,…,n(i+m-1)jm}的观察概率,nij为lattice网格结构中第i栏第j列的音素,音素序列H表示为H={h1,h2,…,hk,…,hm},其中:hk=n(i+k-1)jk
P(H)通过unigram假设,即累积乘音素序列中每个音素的后验概率获得,具体为:
P(T/H)为目标音素序列T和音素序列H之间的相似程度,即目标音素序列和假设序列之间的每个编辑操作的概率之积作为衡量音素序列相似性的指标,MED(T,H)表示目标音素序列T和音素序列H的最少编辑操作次数,P(opi|R=T,E=H)表示当参考音素序列R为T时猜测音素序列E为H时,序列E和R之间的第i次编辑操作opi的概率。
2.根据权利要求1所述的可定制语音唤醒方法,其特征是,所述的编辑操作是指:***、删除和替换操作,其概率,即P(insert(ei))、P(delete(ri))和P(ri/ei)直接由先验知识得出,ri和ei分别取自参考音素序列R和猜测音素序列E。
3.根据权利要求1所述的可定制语音唤醒方法,其特征是,所述的步骤1)包括:
1.1)确定模型结构:根据应用场景设备的计算能力预估模型复杂度,首先设定参数量的上限,然后在此限定下指定网络结构;
1.2)初始化长短时记忆网络:使用随机初始化的参数或model transferring方式初始化。
4.根据权利要求3所述的可定制语音唤醒方法,其特征是,所述的初始化长短时记忆网络,使用cross entropy准则预训练一个标准的声学长短时记忆网络,然后通过复制参数的方式初始化模型。
5.根据权利要求1所述的可定制语音唤醒方法,其特征是,所述的步骤2)包括:
2.1)对训练数据提取fbank,即Filter-bank声学特征;
2.2)使用随机梯度下降方式完成模型的训练,训练参数需根据模型结构以及训练数据大小设定。
6.根据权利要求1所述的可定制语音唤醒方法,其特征是,所述的步骤3)包括:
3.1)对测试数据提取fbank声学特征,特征提取过程要求与训练数据特征提取一致;
3.2)将提取的特征逐帧输入训练得到的模型,直接计算出每一帧的后验概率。
7.根据权利要求1所述的可定制语音唤醒方法,其特征是,所述的步骤4)包括:
4.1)对每一句测试语音生成lattice网络结构,扫描每一帧空白的后验概率,当其后验低于预设值时判定该帧为一个尖峰,将一句话中时间上连续的尖峰合并为一个尖峰,对于每个合并后的尖峰,选择出这一帧上后验概率超过预设值的音素以组成lattice网络结构中的一列;在构造出所有列后,两两连接lattice中相邻两列中的每个节点音素,得到所需lattice网络结构;
4.2)在生成的lattice网络结构上执行搜索与定制,找到与目标音素序列最相似的音素序列;
4.3)计算找到的音素序列的观察概率与相似程度的乘积,并与设置的阈值做比较,当大于阈值,则判断测试语音包含唤醒词,否则不唤醒。
8.一种实现权利要求1~7中任一所述方法的可定制语音唤醒***,其特征在于,包括:声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块,其中:声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息,记忆网络模块与分类模型模块相连并传输音素后验信息,分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列,唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解,决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果;
所述的唤醒词搜索模块采用基于连接时序分类模型的Lattice网络结构,其中包含了所有可能的语音识别结果及其概率。
CN201610462976.XA 2016-06-23 2016-06-23 可定制语音唤醒方法及*** Active CN106098059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610462976.XA CN106098059B (zh) 2016-06-23 2016-06-23 可定制语音唤醒方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610462976.XA CN106098059B (zh) 2016-06-23 2016-06-23 可定制语音唤醒方法及***

Publications (2)

Publication Number Publication Date
CN106098059A CN106098059A (zh) 2016-11-09
CN106098059B true CN106098059B (zh) 2019-06-18

Family

ID=57253493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610462976.XA Active CN106098059B (zh) 2016-06-23 2016-06-23 可定制语音唤醒方法及***

Country Status (1)

Country Link
CN (1) CN106098059B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
EP3472831B8 (en) 2016-06-15 2020-07-01 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
US11545146B2 (en) 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
CN108461080A (zh) * 2017-02-21 2018-08-28 中兴通讯股份有限公司 一种基于hlstm模型的声学建模方法和装置
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting
CN107123417B (zh) * 2017-05-16 2020-06-09 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及***
CN107221326B (zh) * 2017-05-16 2021-05-28 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN107369439B (zh) * 2017-07-31 2021-04-27 北京捷通华声科技股份有限公司 一种语音唤醒方法和装置
CN108122556B (zh) * 2017-08-08 2021-09-24 大众问问(北京)信息科技有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN107704275B (zh) * 2017-09-04 2021-07-23 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
DE102017216571B4 (de) 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
CN109741735B (zh) * 2017-10-30 2023-09-01 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
CN109754789B (zh) * 2017-11-07 2021-06-08 北京国双科技有限公司 语音音素的识别方法及装置
CN107945796B (zh) * 2017-11-13 2021-05-25 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读介质
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及***
CN110782898B (zh) * 2018-07-12 2024-01-09 北京搜狗科技发展有限公司 端到端语音唤醒方法、装置及计算机设备
CN111128134B (zh) * 2018-10-11 2023-06-06 阿里巴巴集团控股有限公司 声学模型训练方法和语音唤醒方法、装置及电子设备
CN109767763B (zh) * 2018-12-25 2021-01-26 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN109545194A (zh) * 2018-12-26 2019-03-29 出门问问信息科技有限公司 唤醒词预训练方法、装置、设备及存储介质
CN111862963B (zh) * 2019-04-12 2024-05-10 阿里巴巴集团控股有限公司 语音唤醒方法、装置和设备
CN111916068A (zh) * 2019-05-07 2020-11-10 北京地平线机器人技术研发有限公司 音频检测方法和装置
CN110189748B (zh) * 2019-05-31 2021-06-11 百度在线网络技术(北京)有限公司 模型构建方法和装置
US20210050003A1 (en) * 2019-08-15 2021-02-18 Sameer Syed Zaheer Custom Wake Phrase Training
CN110838289B (zh) * 2019-11-14 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
CN111128172B (zh) * 2019-12-31 2022-12-16 达闼机器人股份有限公司 一种语音识别方法、电子设备和存储介质
CN111276127B (zh) * 2020-03-31 2023-02-24 北京字节跳动网络技术有限公司 语音唤醒方法、装置、存储介质及电子设备
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及***
CN111554288A (zh) * 2020-04-27 2020-08-18 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、电子设备及介质
CN111883121A (zh) * 2020-07-20 2020-11-03 北京声智科技有限公司 唤醒方法、装置及电子设备
CN112837694B (zh) * 2021-01-29 2022-12-06 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN113314104B (zh) * 2021-05-31 2023-06-20 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN115731927A (zh) * 2021-08-30 2023-03-03 华为技术有限公司 语音唤醒的方法、装置、设备、存储介质及程序产品
CN114038457B (zh) * 2021-11-04 2022-09-13 贝壳找房(北京)科技有限公司 用于语音唤醒的方法、电子设备、存储介质和程序
CN115223574B (zh) * 2022-07-15 2023-11-24 北京百度网讯科技有限公司 语音信息处理方法、模型的训练方法、唤醒方法及装置
CN115862604B (zh) * 2022-11-24 2024-02-20 镁佳(北京)科技有限公司 语音唤醒模型训练及语音唤醒方法、装置及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照***
CN103095911A (zh) * 2012-12-18 2013-05-08 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及***
CN103956164A (zh) * 2014-05-20 2014-07-30 苏州思必驰信息科技有限公司 一种声音唤醒方法及***
CN104538031A (zh) * 2014-12-15 2015-04-22 北京云知声信息技术有限公司 智能语音服务开发云平台及方法
CN104620314A (zh) * 2012-04-26 2015-05-13 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式***
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN105551483A (zh) * 2015-12-11 2016-05-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9728185B2 (en) * 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104620314A (zh) * 2012-04-26 2015-05-13 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式***
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照***
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN103095911A (zh) * 2012-12-18 2013-05-08 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及***
CN103956164A (zh) * 2014-05-20 2014-07-30 苏州思必驰信息科技有限公司 一种声音唤醒方法及***
CN104538031A (zh) * 2014-12-15 2015-04-22 北京云知声信息技术有限公司 智能语音服务开发云平台及方法
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105551483A (zh) * 2015-12-11 2016-05-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置

Also Published As

Publication number Publication date
CN106098059A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106098059B (zh) 可定制语音唤醒方法及***
US11335347B2 (en) Multiple classifications of audio data
CN108564941B (zh) 语音识别方法、装置、设备及存储介质
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN108305617B (zh) 语音关键词的识别方法和装置
CN110517664B (zh) 多方言识别方法、装置、设备及可读存储介质
JP7070894B2 (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
KR20180065759A (ko) 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템
CN106875936B (zh) 语音识别方法及装置
CN110648659B (zh) 基于多任务模型的语音识别与关键词检测装置和方法
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
CN103400577A (zh) 多语种语音识别的声学模型建立方法和装置
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN111653275B (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与***
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN112331207A (zh) 服务内容监控方法、装置、电子设备和存储介质
KR20190032868A (ko) 음성인식 방법 및 그 장치
Trabelsi et al. A multi level data fusion approach for speaker identification on telephone speech
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200617

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Ltd.