CN106971734B - 一种可根据模型的提取频率训练识别模型的方法及*** - Google Patents

一种可根据模型的提取频率训练识别模型的方法及*** Download PDF

Info

Publication number
CN106971734B
CN106971734B CN201610025278.3A CN201610025278A CN106971734B CN 106971734 B CN106971734 B CN 106971734B CN 201610025278 A CN201610025278 A CN 201610025278A CN 106971734 B CN106971734 B CN 106971734B
Authority
CN
China
Prior art keywords
initial
model
signal stream
recognition
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610025278.3A
Other languages
English (en)
Other versions
CN106971734A (zh
Inventor
祝铭明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yutou Technology Hangzhou Co Ltd
Original Assignee
Yutou Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yutou Technology Hangzhou Co Ltd filed Critical Yutou Technology Hangzhou Co Ltd
Priority to CN201610025278.3A priority Critical patent/CN106971734B/zh
Publication of CN106971734A publication Critical patent/CN106971734A/zh
Application granted granted Critical
Publication of CN106971734B publication Critical patent/CN106971734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种可根据模型的提取频率训练识别模型的方法及***,属于语音识别技术领域;可根据模型的提取频率训练识别模型的方法,采用服务器与客户端远程连接的方式进行数据通信,可将客户端中不常用的通过比较初始识别模型的提取频率,删除不常用的初始识别模型,在服务器中采用语句训练样本对不常用的初始识别模型进行更新,减小了客户端的运行负担,同时提高了工作效率,能够同时兼顾应用于一般智能终端中形成识别模型所需的较好的实用性以及声纹识别所需的准确度。

Description

一种可根据模型的提取频率训练识别模型的方法及***
技术领域
本发明涉及语音识别技术领域,尤其涉及一种可根据模型的提取频率训练识别模型的方法及***。
背景技术
声纹识别是一种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,因此可以通过建立识别模型来表征不同的个体,进而利用该识别模型识别不同的个体。目前识别模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上。一般而言,声纹训练的语料越长,建立的特征模型越精确,识别准确率也就越高,但是这种模型建立的方式的实用性不强;相反地,声纹训练语料较短,能保证较好的实用性,但相对而言其训练生成的模型的识别准确率不高。而在实际应用中,例如应用到一些智能设备中进行语音操作的声纹识别时,既要求有较高的识别准确率,又要求训练语料不能太长,从而保证较好的实用性,则以现有技术中的声纹识别模型建立的技术方案难以实现上述目的。
同样地,现有技术中,需要由用户手动多次录入一定时长的训练语料来辅助建立识别模型,因此会给用户较差的体验,不具备较高的实用性;组合起来的训练语料的长度仍然有限,不能生成较精确的特征模型,识别准确率无法进一步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度;且声纹识别模型建立的***通常为独立的客户端,存储的语句训练样本有限,且训练速度慢,所以,如何在保证较高的实用性前提下,提高识别模型精确度,进而提高识别准确率是急需解决的问题。
发明内容
根据现有技术中存在的上述问题,现提供一种可根据模型的提取频率训练识别模型的方法及***的技术方案,具体包括:
一种可根据模型的提取频率训练识别模型的方法,提供复数个客户端和一服务器,所述服务器分别与复数个所述客户端远程连接,其中,所述方法包括:
所述客户端获取一说话人的初始语音信号流;
所述客户端根据预设的说话人分割算法和说话人聚类算法,获取所述初始语音信号流中的语音信号流;
所述客户端判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;
所述客户端将所述识别信号流与预先形成的复数个初始识别模型进行匹配,获取匹配成功的所述初始识别模型;
所述客户端所述识别信号流作为追加的识别信号流的语句训练样本,并获取所述初始识别模型的提取频率;
所述客户端判断所述提取频率是否大于预设提取阈值,将小于或等于所述提取阈值的所述初始识别模型从所述客户端中删除;
所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新;
所述服务器中存储有所有的所述初始识别模型,并依据所述语句训练样本对每个所述客户端中小于或等于所述提取阈值的所述初始识别模型进行更新,最终形成多个识别模型,每个所述识别模型对应于一个所述说话人。
优选的,所述客户端获取一说话人的初始语音信号流之前还包括:
所述客户端根据预设的复数个所述语句训练样本建立复数个所述初始识别模型。
优选的,所述客户端根据所述说话人分割算法与所述说话人聚类算法,分别获取所述初始语音信号流中的所述语音信号流的方法具体包括:
根据所述说话人分割算法,将所述初始语音信号流分割成多个语音分段;
根据所述说话人聚类算法,将所述语音分段进行聚类生成所述语音信号流。
优选的,所述客户端分别将所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述初始识别模型的方法具体包括:
将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
优选的,所述客户端分别将所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述初始识别模型的方法具体包括:
将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
优选的,所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型,预设的所述语句训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
优选的,所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型,预设的所述语句训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
优选的,所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型,预设的所述语句训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
一种可根据模型的提取频率训练识别模型的***,其中,包括:服务器和复数个客户端,所述服务器与复数个所述客户端远程连接,所述客户端包括获取单元、处理单元、判断单元、匹配单元、比较单元以及模型更新单元;
所述获取单元用于获取一说话人的初始语音信号流并发送给与所述获取单元连接的所述处理单元;
所述处理单元用于接收所述获取单元发送的所述初始语音信号流,并根据预设的说话人分割算法与说话人聚类算法,获取所述初始语音信号流中的语音信号流,并将所述语音信号流发送给与所述处理单元连接的所述判断单元;
所述判断单元用于判断所述处理单元发送的所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出至与所述判断单元连接的所述匹配单元;
所述匹配单元用于接收所述判断单元发送所述识别信号流,且将每所述识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取匹配成功的所述初始识别模型,并将所述识别信号流作为追加的所述识别信号流的语句训练样本,并获取所述初始识别模型的提取频率,并将所述提取频率发送给与所述匹配单元连接的所述比较单元;
所述比较单元用于接收所述匹配单元发送的匹配成功的所述提取频率,用于比较所述提取频率是否大于预设提取阈值,将小于或等于所述提取阈值的所述初始识别模型从所述客户端中删除,并将比较结果发送至与所述比较单元连接的所述模型更新单元,以及
所述模型更新单元用于接收所述比较单元发送的所述比较结果,并依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新;
所述服务器提供所有的所述初始识别模型,用于依据所述语句训练样本对每个所述客户端中小于或等于所述提取阈值的所述初始识别模型进行更新,最终形成多个识别模型,每个所述识别模型对应于一个所述说话人。
优选的,所述客户端还包括:
样本获取单元,用于获取预设的复数个所述语句训练样本并发送给与所述样本获取单元连接的模型建立单元;以及
所述模型建立单元用于接收所述样本获取单元发送的预设的复数个所述语句训练样本并根据预设的所述语句训练样本建立复数个所述初始识别模型。
优选的,所述处理单元具体包括:
分割模块,用于根据预设的所述说话人分割算法,将所述初始语音信号流分割成多个语音分段,将所有所述语音分段发送给与所述分割模块连接的聚类模块;以及
所述聚类模块用于接收所述分割模块发送的所述语音分段,并根据预设的所述说话人聚类算法,将所述语音分段进行聚类生成所述语音信号流。
优选的,所述匹配单元具体包括:
匹配度获取模块,用于将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
优选的,所述匹配单元具体包括:
匹配度获取模块,用于将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
优选的,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
优选的,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
优选的,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率可模型的提取频率上述技术方案的有益效果是:
1)提供一种可根据模型的提取频率训练识别模型的方法,采用服务器与客户端远程连接的方式进行数据通信,可将客户端中不常用的通过比较初始识别模型的提取频率,删除不常用的初始识别模型,在服务器中采用语句训练样本对不常用的初始识别模型进行更新,减小了客户端的运行负担,同时提高了工作效率,能够同时兼顾应用于一般智能终端中形成识别模型所需的较好的实用性以及声纹识别所需的准确度。
2)提供一种可根据模型的提取频率训练识别模型的***,能够支持实现上述可根据模型的提取频率训练识别模型的方法。
附图说明
图1是本发明的实施例一中,一种可根据模型的提取频率训练识别模型的方法的流程示意图;
图2是本发明的实施例二中,一种可根据模型的提取频率训练识别模型的方法的流程示意图;
图3是本发明的实施例三中,一种可根据模型的提取频率训练识别模型的***的结构示意图;
图4是本发明的实施例四中,可根据模型的提取频率训练识别模型的***中的处理单元的结构示意图;
图5是本发明的实施例五中,可根据模型的提取频率训练识别模型的***中的匹配单元的结构示意图;
图6是本发明的实施例六中,可根据模型的提取频率训练识别模型的***中的模型更新单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过获取至少一个说话人时的初始语音信号流,根据预设的说话人分割与聚类算法,获取该初始语音信号流中该至少一个说话人中每一个说话人的分别的语音信号流,进而获取与初始识别模型相匹配的语音信号流,并将该匹配的语音信号流作为生成该初始识别模型的追加语音信号流语句训练样本,以更新该初始识别模型,使得识别模型精确度得到提高,用户体验效果得到提升等。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明第一实施例提供的可根据模型的提取频率训练识别模型的方法的实现流程,提供复数个客户端和一服务器,服务器分别与复数个客户端远程连接,详述如下:
步骤S1,客户端获取一说话人的初始语音信号流。
该实施例中,该可根据模型的提取频率训练识别模型的方法可能用于一处于私人空间的智能终端例如智能机器人,因此该初始语音信号流可以为用户通过该智能终端进行语音聊天或者发出语音指令等产生的语音信号流,也可以为通过录音等方式获取的语音信号流等。具体地,上述可根据模型的提取频率训练识别模型的方法同样可以应用在一个较为开放的空间内,即初始语音信号流的来源可能为有限的多个,因此有可能会收录到包括多人的初始语音信号流。同样地,上述初始语音信号流可以为再智能终端中设置有是否自动在语音交互的过程中启用声纹学习功能的开关,用户根据需要自行设置;或者在智能终端中设置有声纹学习功能,用户可以自行录制语音信号流。上述初始语音信号流通常为音频流。
步骤S2,客户端根据预设的说话人分割算法和说话人聚类算法,获取初始语音信号流中的语音信号流。
具体地,由于该初始语音信号流中包含有至少一个说话人的语音信号流,则需要根据预设的说话人分割算法,将该初始语音信号流分割成多个语音分段,该多个语音分段中的每一语音分段仅包含其中同一个说话人的语音信息,再接着根据预设的说话人聚类算法,将仅包含同一个说话人的所有语音分段进行聚类,最终生成仅包含同一个说话人语音信息的语音信号流。
换言之,该实施例中,将获得的初始语音信号流首先经过说话人分割算法的处理得到多个语音分段,每个语音分段中仅包括同一个说话人相关的语音信息;
随后,将同属于同一个说话人相关的语音信息的语音分段进行说话人聚类算法的处理,以分别得到关联于每个说话人的语音信号流。
步骤S3,客户端判断所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出。
其中,分别判断每个语音信号流是否能够作为识别对象的语音信号流,其方法可以包括下文中的一种或几种的结合:
1)设定一个标准声音强度,并分别判断每个语音信号流对应的声音强度大于上述标准声音强度:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
2)设定一个标准音频时长,并分别判断每个语音信号流对应的连续时长是否大于上述标准音频时长:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
3)设定一个标准频段,并分别判断每个语音信号流对应的接收频率是否处于该标准频段内:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
4)预先通过声纹匹配设定一个或多个作为训练者的说话人,并根据预先的模糊声纹匹配的方式确定该一个或多个说话人的语音信号流,以作为识别对象的识别信号流。
上述步骤S3能够在进行识别模型的更新之前首先对获取的多个语音信号流进行筛选,排除一些原本就不需要用来作为语句训练样本的语音信号流,从而保证可根据模型的提取频率训练识别模型的的语句训练样本来源的精确性,进一步保证根据识别模型进行声纹识别的准确度。
步骤S4,客户端将识别信号流与预先形成的复数个初始识别模型进行匹配,获取匹配成功的初始识别模型。
其中,该初始识别模型为根据预设的语音信号流的语句训练样本预先建立的识别模型,即预先提供关联于预设的语音信号流的多个语句训练样本,并根据这些语句训练样本训练形成初始识别模型。该初始识别模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对训练语料或称语音信号流的语句训练样本的长短没有要求。此时,可以根据每一个说话人的识别信号流与该初始识别模型的匹配度,来选取匹配成功的识别信号流(下文中会详述)。
步骤S5,客户端识别信号流作为追加的识别信号流的语句训练样本,并获取初始识别模型的提取频率;
步骤S6,客户端判断提取频率是否大于预设提取阈值,将小于或等于提取阈值的初始识别模型从客户端中删除;
步骤S7,客户端依据语句训练样本对大于提取阈值的初始识别模型进行更新;
步骤S8,服务器中存储有所有的初始识别模型,并依据语句训练样本对每个客户端中小于或等于提取阈值的初始识别模型进行更新,最终形成多个识别模型,每个识别模型对应于一个说话人。
具体地,在获取该匹配成功的识别信号流后,根据该匹配成功的识别信号流以及预设的识别信号流的语句训练样本,调用声纹注册算法接口,生成修正识别模型。其中,该预设的语句训练样本也即为生成上述初始识别模型所使用的语句训练样本。上述修正识别模型则为更为精确的识别模型,利用该修正识别模型对上述初始识别模型进行更新(也就是将修正识别模型作为初始识别模型进行保存,以替换之前的初始识别模型),能够达到模型自适应与智能化的目的。
本发明的优选的实施例中,对于多个说话人中每个说话人的识别信号流都无法与初始识别模型进行匹配的情况,可以根据用户的预先设置新建识别模型并进行记录。例如,对于首次使用的智能终端,其初始识别模型为空值(null),因此任何新获取的识别信号流都不可能与其进行匹配。此时可以根据用户的设置,识别其中某一个说话人的识别信号流,调用声纹注册算法接口新建识别模型,并将其更新为初始识别模型。
本发明的优选实施例中,通过获取至少一个说话人的初始语音信号流,根据预设的说话人分割与聚类算法,并且经过判断分别获取该初始语音信号流中该每个说话人的识别信号流,进而获取与初始识别模型相匹配的识别信号流,并将该匹配的识别信号流作为生成该初始识别模型的追加的识别信号流的语句训练样本,对该初始识别模型进行更新,达到了可以不断地修正、更新识别模型,不断提高识别模型的精确度,用户体验效果得到提升等的目的。
可根据模型的提取频率训练识别模型的方法采用服务器与客户端远程连接的方式进行数据通信,可将客户端中不常用的通过比较初始识别模型的提取频率,删除不常用的初始识别模型,在服务器中采用语句训练样本对不常用的初始识别模型进行更新,减小了客户端的运行负担,同时提高了工作效率,能够同时兼顾应用于一般智能终端中形成识别模型所需的较好的实用性以及声纹识别所需的准确度。
实施例二:
图2示出了本发明第二实施例提供的可根据模型的提取频率训练识别模型的方法的实现流程,详述如下:
步骤S21,客户端根据预设的复数个语句训练样本建立复数个初始识别模型。
其中,该初始识别模型为通过调用声纹注册算法接口,根据预设的语音信号流的语句训练样本建立的识别模型,该初始识别模型为针对某一人或者多人完成的声纹注册过程后形成的识别模型,该注册过程对训练语料或称语音信号的流语句训练样本的长短没有要求。且因为本发明实施例提供的方法可以实现对修正后的模型继续动态修正等操作,因此该初始识别模型可以为利用现有方法获取的识别模型,也可以为利用本发明实施例的提供的方法进行修正后的识别模型。
步骤S22,客户端获取一说话人的初始语音信号流。
具体实施例中,由于用户在说话过程或者多人会话等过程中,一般会出现变化较大的语速、语调、情绪波动等,则通过不断收集通话过程中的语料能够尽量消除用户的各种语调、语速、情绪等因素对于识别模型精确度的偏移,将会大大减少语调、语速、情绪等因素对识别模型精确度的影响,也能够降低对声纹识别准确度的影响。
步骤S23,客户端根据说话人分割算法,将初始语音信号流分割成多个语音分段。
步骤S24,客户端根据说话人聚类算法,将语音分段进行聚类生成语音信号流。
具体地,假设当前的说话人分别包括A用户、B用户和C用户,在用户同意录音后,可以通过开启录音模块,并录下用户与智能终端进行语音交互时的初始语音信号流。则智能终端基于预设的说话人分割算法,能够将该初始语音信号流分割成多个语音分段,该每一语音分段仅包含其中一个说话人的语音信息。例如,将初始语音信号流分割后,分别获取的语音分段分别为语音分段A、语音分段B、语音分段A、语音分段C、语音分段A以及语音分段C,且语音分段A、语音分段B以及语音分段C分别为分别获取的用户A、B和C说话的不同片段,此后,利用预设的说话人聚类算法,将相同说话人的语音分段进行聚类,生成语音信号流A、语音信号流B、语音信号流C文件,比如语音信号流A包含了用户A所有的语音分段等,从而能够区分不同人的语音信号流,提取出属于同一人的有效语音信号流。其中,该说话人分割算法及说话人聚类算法可以分别为现有的任意一种说话人分割算法及说话人聚类算法,在此不做限定。
在执行上述步骤S24之后,首先判断每个语音信号流是否能够作为识别信号流,保留所有识别信号流并输出。
步骤S25,客户端将识别信号流与预先形成的复数个初始识别模型进行匹配,获取匹配成功的初始识别模型。
该步骤S25具体包括:
根据识别信号流以及复数个初始识别模型,分别获取每一个初始识别模型与识别信号流的匹配度;
选取符合预设条件的匹配度相关的初始识别模型作为匹配成功的初始识别模型。该预设条件包括:1)相关的匹配度大于一预设的匹配阈值;2)相关的匹配度在所有匹配度中的数值最高。
步骤S26,客户端识别信号流作为追加的识别信号流的语句训练样本,并获取初始识别模型的提取频率;
步骤S27,客户端判断提取频率是否大于预设提取阈值,将小于或等于提取阈值的初始识别模型从客户端中删除;
步骤S28,客户端依据语句训练样本对大于提取阈值的初始识别模型进行更新。
该步骤S28具体包括:
根据该匹配成功的初始识别模型以及预设的语音信号流的语句训练样本,生成修正识别模型;预设的语音信号流的语句训练样本为生成初始识别模型的语音信号流;
更新该初始识别模型为该修正识别模型。
具体地,将识别信号流作为追加的识别信号流的语句训练样本,也即根据该匹配成功的初始识别模型以及预设的语音信号流的语句训练样本,调用声纹注册算法接口,生成修正识别模型,该修正识别模型为更为精确的识别模型(如上文中),达到了模型自适应与智能化的目的。
进一步地,还可以将更新后的识别模型作为初始识别模型,重复上述步骤,不断地修正、更新识别模型,不断提高识别模型的精确度。
本发明的优选的实施例中,上述初始识别模型可以有多个,对于每个初始识别模型都可以执行上文中的步骤,即通过说话人分割算法及说话人聚类算法获得不同的识别信号流,并根据匹配度选择最匹配的识别信号流来生成关联于该初始识别模型的修正识别模型,并对该初始识别模型进行更新。上述多个初始识别模型分别对应于不同的说话人,即对应于不同的初始识别模型的匹配度最高的识别信号流可以来源于不同的说话人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,的程序可以存储于一计算机可读取存储介质中,的存储介质,如ROM/RAM、磁盘、光盘等。
实施例三:
图3示出了本发明第三实施例提供的可根据模型的提取频率训练识别模型的***的结构,本发明实施例三提供的终端可以用于实施本发明实施例一至二实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例一与实施例二。
该可根据模型的提取频率训练识别模型的***可以为应用于私人空间或者半开放空间中并支持语音操作的智能终端,例如智能机器人等,则该实施例中以可根据模型的提取频率训练识别模型的***应用于智能机器人中为例,图3示出的是与本发明实施例提供的可根据模型的提取频率训练识别模型的***相关的结构框图。
如图3所示,上述可根据模型的提取频率训练识别模型的***具体包括:服务器和复数个客户端,服务器与复数个客户端远程连接,客户端包括:
获取单元1,用于获取一说话人的初始语音信号流并发送给与获取单元1连接的处理单元2;
处理单元2用于接收获取单元1发送的初始语音信号流,并根据预设的说话人分割算法与说话人聚类算法,获取初始语音信号流中的语音信号流,并将语音信号流发送给与处理单元2连接的判断单元3;
判断单元3用于判断处理单元2发送的所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出至与判断单元3连接的匹配单元4;
匹配单元4用于接收判断单元3发送的识别信号流,且将识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取匹配成功的初始识别模型,并将识别信号流作为追加的识别信号流的语句训练样本,并获取初始识别模型的提取频率,并将提取频率发送给与匹配单元4连接的比较单元5;
比较单元5用于接收匹配单元发送的匹配成功的提取频率,用于比较提取频率是否大于预设提取阈值,将小于或等于提取阈值的初始识别模型从客户端中删除,并将比较结果发送至与比较单元5连接的模型更新单元8,以及
模型更新单元8用于接收比较单元5发送的比较结果,并依据语句训练样本对大于提取阈值的初始识别模型进行更新;
服务器提供所有的初始识别模型,用于依据语句训练样本对每个客户端中小于或等于提取阈值的初始识别模型进行更新,最终形成多个识别模型,每个识别模型对应于一个说话人。
该实施例中,上述可根据模型的提取频率训练识别模型的***进一步客户端还包括:
样本获取单元6,用于获取预设的复数个语句训练样本并发送给与样本获取单元连接的模型建立单元7;以及
模型建立单元7用于接收样本获取单元发送的预设的复数个语句训练样本并根据预设的语句训练样本建立复数个初始识别模型。
实施例四:
图4示出了本发明第四实施例提供的可根据模型的提取频率训练识别模型的***的结构。如图4所示,可根据模型的提取频率训练识别模型的***中的处理单元2具体包括:
分割模块21,用于根据预设的说话人分割算法,将初始语音信号流分割成多个语音分段,将所有语音分段发送给与分割模块连接的聚类模块21;以及
聚类模块22用于接收分割模块21发送的语音分段,并根据预设的说话人聚类算法,将语音分段进行聚类生成语音信号流。
实施例五:
图5示出了本发明第五实施例提供的可根据模型的提取频率训练识别模型的***的结构。如图5所示,可根据模型的提取频率训练识别模型的***中的匹配单元4具体包括:
匹配度获取模块41,用于将识别信号流分别与复数个初始识别模型进行匹配,获取每个初始识别模型与识别信号流的匹配度,并将所有匹配度发送至与匹配度获取模块连接的信号流获取模块42;以及
信号流获取模块42用于接收匹配度获取模块41发送的所有匹配度,并选取大于预设的匹配阈值的多个匹配度中最高的匹配度所对应的初始识别模型作为匹配成功的初始识别模型。
实施例六:
图6示出了本发明第六实施例提供的可根据模型的提取频率训练识别模型的***的结构。如图6所示,可根据模型的提取频率训练识别模型的***中的模型更新单元8具体包括:
修正模块81,用于根据匹配成功的初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与修正模块连接的更新模块82;以及
更新模块82用于接收修正模块81发送的修正识别模型,并以修正识别模型对初始识别模型进行更新。
需要说明的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种可根据模型的提取频率训练识别模型的方法,其特征在于,提供复数个客户端和一服务器,所述服务器分别与复数个所述客户端远程连接,所述方法包括:
所述客户端获取说话人的一初始语音信号流;
所述客户端根据预设的说话人分割算法和说话人聚类算法,获取所述初始语音信号流中的语音信号流;
所述客户端判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;
所述客户端将所述识别信号流与预先形成的复数个初始识别模型进行匹配,获取匹配成功的所述初始识别模型;
所述客户端所述识别信号流作为追加的识别信号流的语句训练样本,并获取所述初始识别模型的提取频率;
所述客户端判断所述提取频率是否大于预设提取阈值,将小于或等于所述提取阈值的所述初始识别模型从所述客户端中删除;
所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新;
所述服务器中存储有所有的所述初始识别模型,并依据所述语句训练样本对每个所述客户端中小于或等于所述提取阈值的所述初始识别模型进行更新,最终形成多个识别模型,每个所述识别模型对应于一个所述说话人。
2.如权利要求1所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端获取说话人的一初始语音信号流之前还包括:
所述客户端根据预设的复数个所述语句训练样本建立复数个所述初始识别模型。
3.如权利要求1或2所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端根据所述说话人分割算法与所述说话人聚类算法,分别获取所述初始语音信号流中的所述语音信号流的方法具体包括:
根据所述说话人分割算法,将所述初始语音信号流分割成多个语音分段;
根据所述说话人聚类算法,将所述语音分段进行聚类生成所述语音信号流。
4.如权利要求1或2所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端分别将所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述初始识别模型的方法具体包括:
将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
5.如权利要求3所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端分别将所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述初始识别模型的方法具体包括:
将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
6.如权利要求1,2和5中任意一项所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型,预设的所述语句训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
7.如权利要求3所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型,预设的所述语句训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
8.如权利要求4所述的可根据模型的提取频率训练识别模型的方法,其特征在于,所述客户端依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型,预设的所述语句训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
9.一种可根据模型的提取频率训练识别模型的***,其特征在于,包括:服务器和复数个客户端,所述服务器与复数个所述客户端远程连接,所述客户端包括获取单元、处理单元、判断单元、匹配单元、比较单元以及模型更新单元;
所述获取单元用于获取说话人的一初始语音信号流并发送给与所述获取单元连接的所述处理单元;
所述处理单元用于接收所述获取单元发送的所述初始语音信号流,并根据预设的说话人分割算法与说话人聚类算法,获取所述初始语音信号流中的语音信号流,并将所述语音信号流发送给与所述处理单元连接的所述判断单元;
所述判断单元用于判断所述处理单元发送的所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出至与所述判断单元连接的所述匹配单元;
所述匹配单元用于接收所述判断单元发送所述识别信号流,且将所述识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取匹配成功的所述初始识别模型,并将所述识别信号流作为追加的所述识别信号流的语句训练样本,并获取所述初始识别模型的提取频率,并将所述提取频率发送给与所述匹配单元连接的所述比较单元;
所述比较单元用于接收所述匹配单元发送的匹配成功的所述提取频率,用于比较所述提取频率是否大于预设提取阈值,将小于或等于所述提取阈值的所述初始识别模型从所述客户端中删除,并将比较结果发送至与所述比较单元连接的所述模型更新单元,以及
所述模型更新单元用于接收所述比较单元发送的所述比较结果,并依据所述语句训练样本对大于所述提取阈值的所述初始识别模型进行更新;
所述服务器提供所有的所述初始识别模型,用于依据所述语句训练样本对每个所述客户端中小于或等于所述提取阈值的所述初始识别模型进行更新,最终形成多个识别模型,每个所述识别模型对应于一个所述说话人。
10.如权利要求9所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述客户端还包括:
样本获取单元,用于获取预设的复数个所述语句训练样本并发送给与所述样本获取单元连接的模型建立单元;以及
所述模型建立单元用于接收所述样本获取单元发送的预设的复数个所述语句训练样本并根据预设的所述语句训练样本建立复数个所述初始识别模型。
11.如权利要求9或10所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述处理单元具体包括:
分割模块,用于根据预设的所述说话人分割算法,将所述初始语音信号流分割成多个语音分段,将所有所述语音分段发送给与所述分割模块连接的聚类模块;以及
所述聚类模块用于接收所述分割模块发送的所述语音分段,并根据预设的所述说话人聚类算法,将所述语音分段进行聚类生成所述语音信号流。
12.如权利要求9或10所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述匹配单元具体包括:
匹配度获取模块,用于将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
13.如权利要求11所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述匹配单元具体包括:
匹配度获取模块,用于将所述识别信号流分别与复数个所述初始识别模型进行匹配,获取所述每个所述初始识别模型与所述识别信号流的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型作为匹配成功的所述初始识别模型。
14.如权利要求9,10和13中任意一项所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
15.如权利要求11所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
16.如权利要求12所述的可根据模型的提取频率训练识别模型的***,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的语句训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
CN201610025278.3A 2016-01-14 2016-01-14 一种可根据模型的提取频率训练识别模型的方法及*** Active CN106971734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610025278.3A CN106971734B (zh) 2016-01-14 2016-01-14 一种可根据模型的提取频率训练识别模型的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610025278.3A CN106971734B (zh) 2016-01-14 2016-01-14 一种可根据模型的提取频率训练识别模型的方法及***

Publications (2)

Publication Number Publication Date
CN106971734A CN106971734A (zh) 2017-07-21
CN106971734B true CN106971734B (zh) 2020-10-23

Family

ID=59334924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610025278.3A Active CN106971734B (zh) 2016-01-14 2016-01-14 一种可根据模型的提取频率训练识别模型的方法及***

Country Status (1)

Country Link
CN (1) CN106971734B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065026B (zh) * 2018-09-14 2021-08-31 海信集团有限公司 一种录音控制方法及装置
CN111462761A (zh) * 2020-03-03 2020-07-28 深圳壹账通智能科技有限公司 声纹数据生成方法、装置、计算机装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0817170B1 (en) * 1996-07-01 2003-05-02 Telia Ab Method and apparatus for adaption of models of speaker verification
CN101546557A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
CN102237084A (zh) * 2010-04-22 2011-11-09 松下电器产业株式会社 声音空间基准模型的在线自适应调节方法及装置和设备
CN102282608A (zh) * 2008-12-09 2011-12-14 诺基亚公司 自动语音识别声学模型的调整
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音***的调节方法和***
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114449A (zh) * 2006-07-26 2008-01-30 大连三曦智能科技有限公司 非特定人孤立词的模型训练方法、识别***及识别方法
CN101458816B (zh) * 2008-12-19 2011-04-27 西安电子科技大学 数字视频目标跟踪中的目标匹配方法
CN102543063B (zh) * 2011-12-07 2013-07-24 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN104103272B (zh) * 2014-07-15 2017-10-10 无锡中感微电子股份有限公司 语音识别方法、装置和蓝牙耳机

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0817170B1 (en) * 1996-07-01 2003-05-02 Telia Ab Method and apparatus for adaption of models of speaker verification
CN101546557A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
CN102282608A (zh) * 2008-12-09 2011-12-14 诺基亚公司 自动语音识别声学模型的调整
CN102237084A (zh) * 2010-04-22 2011-11-09 松下电器产业株式会社 声音空间基准模型的在线自适应调节方法及装置和设备
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音***的调节方法和***
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法

Also Published As

Publication number Publication date
CN106971734A (zh) 2017-07-21

Similar Documents

Publication Publication Date Title
US9769296B2 (en) Techniques for voice controlling bluetooth headset
CN105161093B (zh) 一种判断说话人数目的方法及***
WO2017054122A1 (zh) 语音识别***及方法、客户端设备及云端服务器
WO2021159688A1 (zh) 声纹识别方法、装置、存储介质、电子装置
CN105765650B (zh) 带有多向解码的语音辨识器
JP4369132B2 (ja) 話者音声のバックグランド学習
AU2016277548A1 (en) A smart home control method based on emotion recognition and the system thereof
JP2018072650A (ja) 音声対話装置及び音声対話方法
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN110634472A (zh) 一种语音识别方法、服务器及计算机可读存储介质
US20230005480A1 (en) Voice Filtering Other Speakers From Calls And Audio Messages
CN112562681B (zh) 语音识别方法和装置、存储介质
CN106981289A (zh) 一种识别模型训练方法及***以及智能终端
JP2019040123A (ja) 変換モデルの学習方法および変換モデルの学習装置
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
CN106971734B (zh) 一种可根据模型的提取频率训练识别模型的方法及***
CN110931018A (zh) 智能语音交互的方法、装置及计算机可读存储介质
CN109065026B (zh) 一种录音控制方法及装置
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
CN108806691B (zh) 语音识别方法及***
CN112185422A (zh) 提示信息生成方法及其语音机器人
US11587554B2 (en) Control apparatus, voice interaction apparatus, voice recognition server, and program
CN109087651B (zh) 一种基于视频与语谱图的声纹鉴定方法、***及设备
CN106971731B (zh) 一种声纹识别的修正方法
US20200168221A1 (en) Voice recognition apparatus and method of voice recognition

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant