CN111429912A - 关键词检测方法、***、移动终端及存储介质 - Google Patents
关键词检测方法、***、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111429912A CN111429912A CN202010184549.6A CN202010184549A CN111429912A CN 111429912 A CN111429912 A CN 111429912A CN 202010184549 A CN202010184549 A CN 202010184549A CN 111429912 A CN111429912 A CN 111429912A
- Authority
- CN
- China
- Prior art keywords
- model
- keyword
- training
- acoustic
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000013518 transcription Methods 0.000 claims abstract description 19
- 230000035897 transcription Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种关键词检测方法、***、移动终端及存储介质,该方法包括:获取文本语料和转写文本对语言模型进行模型训练;根据训练集中的声学特征对链模型进行模型训练,将链模型和语言模型进行组合得到语音识别模型;将待检测语音片段输入语音识别模型进行分析得到词图,对词图进行倒排索引;将索引结果转换为因子转换器,将预设关键词输入因子转换器进行检索,得到关键词检索结果;根据关键词检索结果计算预设关键词的出现概率,当出现概率大于概率阈值时,判定预设关键词在待检测语音片段有出现。本发明通过控制语音识别模型对待检测语音片段进行解码生成词图,规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性。
Description
技术领域
本发明属于关键词检测技术领域,尤其涉及一种关键词检测方法、***、移动终端及存储介质。
背景技术
关键词检测是从感兴趣的连续语音中检测出关键词的技术,关键词检测在智能家居、***听、语音数据挖掘等领域有着重要应用。关键词检测已有超过40年的研究历史,但在低资源、低功耗、低计算复杂度环境下的关键词检测仍然是研究热点。关键词检测从应用场景上可分成两大类,一类是关键词数量较少且固定,从连续语音流中持续检测语音流中是否存在关键词列表中的关键词,典型应用是智能家居中的唤醒词识别;另一类是关键词数量较多且不固定,但是待检测语音是事先存在的,通过算法找出关键词所在的语音片段,典型应用是语音数据挖掘。
但现有的关键词检测过程中,主要通过提取大量针对性关键词数据的语音特征,进行归一化后放入神经网络中进行机器学习模型训练,其所得模型鲁棒性较差,在场景不一致的情况下对识别率影响较大,进而降低了关键词检测的准确性。
发明内容
本发明实施例的目的在于提供一种关键词检测方法、***、移动终端及存储介质,旨在解决现有的关键词检测方法检测准确性低的问题。
本发明实施例是这样实现的,一种关键词检测方法,所述方法包括:
获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
根据所述关键词检索结果分别计算每个所述预设关键词的出现概率,并当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现。
进一步的,所述根据所述训练集中的声学特征对链模型进行模型训练的步骤包括:
根据所述声学特征训练单音素声学模型,并对所述声学特征进行差分处理,以得到差分特征;
根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型,并根据三音素声学模型对音素进行对齐;
对所述声学特征进行向量变换,得到特征向量,并根据所述特征向量训练所述三音素声学模型;
根据所述三音素声学模型训练所述链模型。
进一步的,所述根据所述声学特征训练单音素声学模型的步骤之后,所述方法还包括:
根据所述文本语料和所述转写文本构建发音词典,并控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。
进一步的,所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为:
其中,s为待计算的所述预设关键词关键词,Ntrue(s)为所述预设关键词在所述待检测语音片段中实际出现次数,Ncorrect(s)为所述预设关键词在所述关键词检索结果中对应的计算出现次数,Nspurious(s)为所述预设关键词未在所述待检测语音片段中但判定为在的出现次数,即所述预设关键词的误检次数,T为所述待检测语音片段的总时长,β为调节误检率和漏检率的参数,ATWV为所述出现概率。
进一步的,所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率。
进一步的,所述将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果的步骤之后,所述方法还包括:
根据所述后验概率对所述预设关键词进行排序,并根据排序结果依序计算每个所述预设关键词的所述出现概率。
进一步的,所述根据所述声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
本发明实施例的另一目的在于提供一种关键词检测***,所述***包括:
语言模型训练模块,用于获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
模型组合模块,用于根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
词图索引模块,用于将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
关键词检索模块,用于将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
出现概率计算模块,用于根据所述关键词检索结果分别计算每个所述预设关键词的出现概率,并当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的关键词检测方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的关键词检测方法的步骤。
本发明实施例,通过控制语音识别模型对待检测语音片段进行解码生成词图,有效规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性,由于词图允许比词更小的声学建模单元,因此可以对集外词进行检测,且通过对待检测语音片段的词图进行倒排索引,并将索引转换成因子转换器的设计,有效的加快了关键词检测的检测速度和检测效率。
附图说明
图1是本发明第一实施例提供的关键词检测方法的流程图;
图2是本发明第二实施例提供的关键词检测方法的流程图;
图3是本发明第三实施例提供的关键词检测***的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例一
请参阅图1,是本发明第一实施例提供的关键词检测方法的流程图,包括步骤:
步骤S10,获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
其中,该文本语料为语音识别模型待识别的语种,该文本语料可以根据需求进行选择,例如该文本语料可以为粤语或闽南语等语种,该步骤中,该转写文本中采用普通话的表达方式,且该文本语料与转写文本之间采用一一对应的关系;
优选的,通过对本地预存储的数据集进行划分,以将数据划分为训练集、验证集和测试集,该训练集用于为语音识别模型中的语言模型和声学模型提供训练数据,该验证集和测试集用于该语言模型和声学模型的验证和测试,具体的,该步骤中,该训练集、验证集和测试集的数据占比为70%、10%和20%;
步骤S20,根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
其中,当完成该链模型的训练时,控制该链模型、语言模型以及发音词典对验证集和测试集进行解码,以判断该链模型和语言模型是否达到训练要求;
优选的,当判断到该链模型和语言模型的测试结果未达到训练要求时,对该链模型和语言模型进行参数调整,进而有效的保障了该语音识别模型中参数的准确性,提高了后续语音识别的准确性;
步骤S30,将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
其中,通过控制语音识别模型对待检测语音片段进行解码生成词图(lattice),有效规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性;
步骤S40,将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
其中,该预设关键词的数量和词汇均可以根据需求进行选择,且该步骤通过对待检测语音片段的词图进行倒排索引,并将索引转换成因子转换器的设计,有效的加快了关键词检测的检测速度和检测效率,具体的,该步骤中,可以通过采用WFST将该索引结果转换为因子转换器(factor transducer),该因子转换器为一个三维数据结构,包含预设关键词在语音片段中的起始时间、结束时间以及后验概率;
因此,该步骤中,通过将该关键词表中的预设关键词输入所述因子转换器进行检索得到关键词检索结果的设计,以使得到每一个预设关键词在待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间以及后验概率;
步骤S50,根据所述关键词检索结果分别计算每个所述预设关键词的出现概率;
其中,通过计算每个所述预设关键词的出现概率,以分析各个预设关键词在该待检测语音片段可能出现的概率值;优选的,可以采用预设函数或预设计算公式的方式计算所述预设关键词的出现概率;
步骤S60,当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现;
其中,该概率阈值可以根据需求进行数值设置,且出现概率与概率阈值之间可以采用比较器的方式进行大小值的判断,优选的,当判断到所述出现概率大于概率阈值时,则对对应预设关键词进行出现标记,以提示用户在该待检测语音片段中有出现对应预设关键词;
本实施例,通过控制语音识别模型对待检测语音片段进行解码生成词图,有效规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性,由于词图允许比词更小的声学建模单元,因此可以对集外词进行检测,且通过对待检测语音片段的词图进行倒排索引,并将索引转换成因子转换器的设计,有效的加快了关键词检测的检测速度和检测效率。
实施例二
请参阅图2,是本发明第二实施例提供的关键词检测方法的流程图,包括步骤:
步骤S11,获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
其中,获取到该文本语料之后,可以对该文本语料进行加噪和加混响处理,以使能有效的扩充数据,且提高了语言模型的鲁棒性,使得模型能适应更多复杂的环境;
优选的,通过对本地预存储的数据集进行划分,以将数据划分为训练集、验证集和测试集,该训练集用于为语音识别模型中的语言模型和声学模型提供训练数据,该验证集和测试集用于该语言模型和声学模型的验证和测试,具体的,该步骤中,该训练集、验证集和测试集的数据占比为70%、10%和20%;
步骤S21,根据所述声学特征训练单音素声学模型,并根据所述文本语料和所述转写文本构建发音词典;
该步骤中,所述根据所述声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练;
步骤S31,控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码,以得到验证解码结果,并根据所述验证解码结果查询模型调整参数;
步骤S41,根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新并对所述声学特征进行差分处理,以得到差分特征;
其中,通过根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的设计,有效的提高了所述音素声学模型和所述语言模型识别的准确性,进而保障了语音识别模型整体的识别效率;
具体的,该步骤中,通过对该声学特征进行一阶差分和二阶差分,以得到该差分特征;
步骤S51,根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型,并根据三音素声学模型对音素进行对齐;
其中,通过控制所述三音素声学模型对音素进行声韵母对齐的设计,有效的方便了后续链模型的训练;
步骤S61,对所述声学特征进行向量变换,得到特征向量,并根据所述特征向量训练所述三音素声学模型;
其中,该特性向量可以采用MFCC特性向量或FBank特性向量等,本实施例中采用的是MFCC特性向量,在语音识别和话者识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC);
具体的,该步骤中,通过该声学特征进行快速傅里叶变换,并将变换结构输入三角带通滤波器,计算每个滤波器组输出的对数能量,并将对数能量经离散余弦变换(DCT)得到MFCC系数特征;
由于标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述,因此,通过对该MFCC系数特征进行动态差分参数的提取,以得到该特征向量;
步骤S71,根据所述三音素声学模型训练所述链模型,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
步骤S81,将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
其中,通过控制语音识别模型对待检测语音片段进行解码生成词图(lattice),有效规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性;
步骤S91,将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
其中,该预设关键词的数量和词汇均可以根据需求进行选择,且该步骤通过对待检测语音片段的词图进行倒排索引,并将索引转换成因子转换器的设计,有效的加快了关键词检测的检测速度和检测效率;
优选的,该步骤中,所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率;
步骤S101,根据所述后验概率对所述预设关键词进行排序,并根据排序结果依序计算每个所述预设关键词的所述出现概率;
该步骤中,所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为:
其中,s为待计算的所述预设关键词关键词,Ntrue(s)为所述预设关键词在所述待检测语音片段中实际出现次数,Ncorrect(s)为所述预设关键词在所述关键词检索结果中对应的计算出现次数,Nspurious(s)为所述预设关键词未在所述待检测语音片段中但判定为在的出现次数,即所述预设关键词的误检次数,T为所述待检测语音片段的总时长,β为调节误检率和漏检率的参数,ATWV为所述出现概率;
步骤S111,当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现;
本实施例中,通过控制语音识别模型对待检测语音片段进行解码生成词图,有效规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性,由于词图允许比词更小的声学建模单元,因此可以对集外词进行检测,且通过对待检测语音片段的词图进行倒排索引,并将索引转换成因子转换器的设计,有效的加快了关键词检测的检测速度和检测效率。
实施例三
请参阅图3,是本发明第三实施例提供的关键词检测***100的结构示意图,包括:语言模型训练模块10、模型组合模块11、词图索引模块12、关键词检索模块13和出现概率计算模块14,其中:
语言模型训练模块10,用于获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
模型组合模块11,用于根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型。
其中,所述模型组合模块11还用于:根据所述声学特征训练单音素声学模型,并对所述声学特征进行差分处理,以得到差分特征;
根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型,并根据三音素声学模型对音素进行对齐;
对所述声学特征进行向量变换,得到特征向量,并根据所述特征向量训练所述三音素声学模型;
根据所述三音素声学模型训练所述链模型。
优选的,所述模组组合模块11还用于:根据所述文本语料和所述转写文本构建发音词典,并控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。
此外,本实施例中,所述模组组合模块11还用于:获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
词图索引模块12,用于将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引。
关键词检索模块13,用于将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
出现概率计算模块14,用于根据所述关键词检索结果分别计算每个所述预设关键词的出现概率,并当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现。
其中,所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为:
其中,s为待计算的所述预设关键词关键词,Nture(s)为所述预设关键词在所述待检测语音片段中实际出现次数,Ncorrect(s)为所述预设关键词在所述关键词检索结果中对应的计算出现次数,Nspurious(s)为所述预设关键词未在所述待检测语音片段中但判定为在的出现次数,即所述预设关键词的误检次数,T为所述待检测语音片段的总时长,β为调节误检率和漏检率的参数,ATWV为所述出现概率。
具体的,所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率。
进一步的,所述出现概率计算模块14还用于:根据所述后验概率对所述预设关键词进行排序,并根据排序结果依序计算每个所述预设关键词的所述出现概率。
本实施例,通过控制语音识别模型对待检测语音片段进行解码生成词图,有效规避了因语音识别错误而导致关键词检测错误的情况,提高了关键词检测的准确性,由于词图允许比词更小的声学建模单元,因此可以对集外词进行检测,且通过对待检测语音片段的词图进行倒排索引,并将索引转换成因子转换器的设计,有效的加快了关键词检测的检测速度和检测效率。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的关键词检测方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
根据所述关键词检索结果分别计算每个所述预设关键词的出现概率,并当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的关键词检测***的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的关键词检测方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标关键词检测***中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标关键词检测***的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种关键词检测方法,其特征在于,所述方法包括:
获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
根据所述关键词检索结果分别计算每个所述预设关键词的出现概率,并当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现。
2.如权利要求1所述的关键词检测方法,其特征在于,所述根据所述训练集中的声学特征对链模型进行模型训练的步骤包括:
根据所述声学特征训练单音素声学模型,并对所述声学特征进行差分处理,以得到差分特征;
根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型,并根据三音素声学模型对音素进行对齐;
对所述声学特征进行向量变换,得到特征向量,并根据所述特征向量训练所述三音素声学模型;
根据所述三音素声学模型训练所述链模型。
3.如权利要求2所述的关键词检测方法,其特征在于,所述根据所述声学特征训练单音素声学模型的步骤之后,所述方法还包括:
根据所述文本语料和所述转写文本构建发音词典,并控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。
5.如权利要求1所述的关键词检测方法,其特征在于,所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率。
6.如权利要求5所述的关键词检测方法,其特征在于,所述将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果的步骤之后,所述方法还包括:
根据所述后验概率对所述预设关键词进行排序,并根据排序结果依序计算每个所述预设关键词的所述出现概率。
7.如权利要求2所述的关键词检测方法,其特征在于,所述根据所述声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
8.一种关键词检测***,其特征在于,所述***包括:
语言模型训练模块,用于获取文本语料及训练集中所述文本语料对应的转写文本,并根据所述文本语料和所述转写文本对语言模型进行模型训练;
模型组合模块,用于根据所述训练集中的声学特征对链模型进行模型训练,并将所述链模型和所述语言模型进行组合,得到语音识别模型;
词图索引模块,用于将待检测语音片段输入所述语音识别模型进行分析,得到词图,并对所述词图进行倒排索引;
关键词检索模块,用于将索引结果转换为因子转换器,并将关键词表中的预设关键词输入所述因子转换器进行检索,得到关键词检索结果;
出现概率计算模块,用于根据所述关键词检索结果分别计算每个所述预设关键词的出现概率,并当所述出现概率大于概率阈值时,则判定对应所述预设关键词在所述待检测语音片段有出现。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的关键词检测方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的关键词检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184549.6A CN111429912B (zh) | 2020-03-17 | 2020-03-17 | 关键词检测方法、***、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184549.6A CN111429912B (zh) | 2020-03-17 | 2020-03-17 | 关键词检测方法、***、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429912A true CN111429912A (zh) | 2020-07-17 |
CN111429912B CN111429912B (zh) | 2023-02-10 |
Family
ID=71547970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010184549.6A Active CN111429912B (zh) | 2020-03-17 | 2020-03-17 | 关键词检测方法、***、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429912B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738808A (zh) * | 2020-07-24 | 2020-10-02 | 浙江口碑网络技术有限公司 | 数据处理方法、装置及设备 |
CN112331207A (zh) * | 2020-09-30 | 2021-02-05 | 音数汇元(上海)智能科技有限公司 | 服务内容监控方法、装置、电子设备和存储介质 |
CN112634870A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
CN112767921A (zh) * | 2021-01-07 | 2021-05-07 | 国网浙江省电力有限公司 | 一种基于缓存语言模型的语音识别自适应方法和*** |
CN112836039A (zh) * | 2021-01-27 | 2021-05-25 | 成都网安科技发展有限公司 | 基于深度学习的语音数据处理方法和装置 |
CN112926637A (zh) * | 2021-02-08 | 2021-06-08 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集的生成方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060195319A1 (en) * | 2005-02-28 | 2006-08-31 | Prous Institute For Biomedical Research S.A. | Method for converting phonemes to written text and corresponding computer system and computer program |
CN101281534A (zh) * | 2008-05-28 | 2008-10-08 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及*** |
US20150154955A1 (en) * | 2013-08-19 | 2015-06-04 | Tencent Technology (Shenzhen) Company Limited | Method and Apparatus For Performing Speech Keyword Retrieval |
CN105551485A (zh) * | 2015-11-30 | 2016-05-04 | 讯飞智元信息科技有限公司 | 语音文件检索方法及*** |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN107210045A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议搜索以及搜索结果的回放 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN108415900A (zh) * | 2018-02-05 | 2018-08-17 | 中国科学院信息工程研究所 | 一种基于多级共现关系词图的可视化文本信息发现方法及*** |
CN109119072A (zh) * | 2018-09-28 | 2019-01-01 | 中国民航大学 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
CN109599093A (zh) * | 2018-10-26 | 2019-04-09 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
-
2020
- 2020-03-17 CN CN202010184549.6A patent/CN111429912B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060195319A1 (en) * | 2005-02-28 | 2006-08-31 | Prous Institute For Biomedical Research S.A. | Method for converting phonemes to written text and corresponding computer system and computer program |
CN101281534A (zh) * | 2008-05-28 | 2008-10-08 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及*** |
US20150154955A1 (en) * | 2013-08-19 | 2015-06-04 | Tencent Technology (Shenzhen) Company Limited | Method and Apparatus For Performing Speech Keyword Retrieval |
CN107210045A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议搜索以及搜索结果的回放 |
CN105551485A (zh) * | 2015-11-30 | 2016-05-04 | 讯飞智元信息科技有限公司 | 语音文件检索方法及*** |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN108415900A (zh) * | 2018-02-05 | 2018-08-17 | 中国科学院信息工程研究所 | 一种基于多级共现关系词图的可视化文本信息发现方法及*** |
CN109119072A (zh) * | 2018-09-28 | 2019-01-01 | 中国民航大学 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
CN109599093A (zh) * | 2018-10-26 | 2019-04-09 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738808A (zh) * | 2020-07-24 | 2020-10-02 | 浙江口碑网络技术有限公司 | 数据处理方法、装置及设备 |
CN111738808B (zh) * | 2020-07-24 | 2021-04-13 | 浙江口碑网络技术有限公司 | 数据处理方法、装置及设备 |
CN112331207A (zh) * | 2020-09-30 | 2021-02-05 | 音数汇元(上海)智能科技有限公司 | 服务内容监控方法、装置、电子设备和存储介质 |
CN112634870A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
CN112634870B (zh) * | 2020-12-11 | 2023-05-30 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
CN112767921A (zh) * | 2021-01-07 | 2021-05-07 | 国网浙江省电力有限公司 | 一种基于缓存语言模型的语音识别自适应方法和*** |
CN112836039A (zh) * | 2021-01-27 | 2021-05-25 | 成都网安科技发展有限公司 | 基于深度学习的语音数据处理方法和装置 |
CN112926637A (zh) * | 2021-02-08 | 2021-06-08 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集的生成方法 |
CN112926637B (zh) * | 2021-02-08 | 2023-06-09 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集的生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111429912B (zh) | 2023-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429912B (zh) | 关键词检测方法、***、移动终端及存储介质 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
CN105723449B (zh) | 言语内容分析***和言语内容分析方法 | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
US8321218B2 (en) | Searching in audio speech | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
WO2017076222A1 (zh) | 语音识别方法及装置 | |
US9646603B2 (en) | Various apparatus and methods for a speech recognition system | |
US9495955B1 (en) | Acoustic model training | |
US11030999B1 (en) | Word embeddings for natural language processing | |
GB2468203A (en) | A speech recognition system using multiple resolution analysis | |
US20110218802A1 (en) | Continuous Speech Recognition | |
CN113112992A (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN112820281B (zh) | 一种语音识别方法、装置及设备 | |
US11011155B2 (en) | Multi-phrase difference confidence scoring | |
CN111933121A (zh) | 一种声学模型训练方法及装置 | |
Zhu et al. | Sensitive keyword spotting for voice alarm systems | |
Han et al. | Phone mismatch penalty matrices for two-stage keyword spotting via multi-pass phone recognizer. | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
Kalantari et al. | Topic dependent language modelling for spoken term detection | |
Koržinek et al. | Automatic transcription of Polish radio and television broadcast audio | |
KR20040100592A (ko) | 이동 기기에서의 실시간 화자독립가변어 음성인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |