CN107799126B - 基于有监督机器学习的语音端点检测方法及装置 - Google Patents

基于有监督机器学习的语音端点检测方法及装置 Download PDF

Info

Publication number
CN107799126B
CN107799126B CN201710957669.3A CN201710957669A CN107799126B CN 107799126 B CN107799126 B CN 107799126B CN 201710957669 A CN201710957669 A CN 201710957669A CN 107799126 B CN107799126 B CN 107799126B
Authority
CN
China
Prior art keywords
voice
segment
speaker
audio
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710957669.3A
Other languages
English (en)
Other versions
CN107799126A (zh
Inventor
宋亚楠
邱楠
王昊奋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wage Intelligent Technology Co ltd
Shenzhen Gowild Robotics Co ltd
Original Assignee
Shanghai Wage Intelligent Technology Co ltd
Shenzhen Gowild Robotics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wage Intelligent Technology Co ltd, Shenzhen Gowild Robotics Co ltd filed Critical Shanghai Wage Intelligent Technology Co ltd
Priority to CN201710957669.3A priority Critical patent/CN107799126B/zh
Publication of CN107799126A publication Critical patent/CN107799126A/zh
Application granted granted Critical
Publication of CN107799126B publication Critical patent/CN107799126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于有监督机器学习的语音端点检测方法及装置,所述方法包括:从获取的音频中检测出静音段、过度段和结束段;将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景;将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频;将识别的所述当前场景和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。本发明提供的一种基于有监督机器学习的语音端点检测方法及装置,通过判断当前所处的场景,将场景作为RNN模型的输入参数之一,提升RNN模型的判断的准确性,提高了语音端点检测的准确性和效率。

Description

基于有监督机器学习的语音端点检测方法及装置
技术领域
本发明涉及语音识别技术领域,具体涉及基于有监督机器学习的语音端点检测方法及装置。
背景技术
语音端点检测(Voice Activity Detection,VAD)指是从连续的音频流中检测出有效的语音段,包括检测出有效语音的起始点即前端点和检测出有效语音的结束点即后端点两个方面。在语音应用中进行语音的端点检测是很必要的,首先,在存储或传输语音的场景下从连续的语音流中分离出有效语音,可以降低存储或传输的数据量。其次,在人机交互等具体应用场景中,使用端点检测可以起到简化作用,比如在录音的场景中,语音后端点检测可以省略结束录音的操作。因此,准确的语音端点检测将提高信道的利用率和减少语音处理的数据量。
如图5所示,给出了一段包含两个单词的语音,根据图5可以直观的看出,一段音频首尾的静音部分声波的振幅很小,而有效语音部分的振幅比较大,一个信号的振幅从直观上表示了信号能量的大小,静音部分能量值较小,有效语音部分的能量值较大。语音信号是一个以时间为自变量的一维连续函数,计算机处理的语音数据是语音信号按时间排序的采样值序列,这些采样值的大小同样表示了语音信号在采样点处的能量。
早期的端点检测算法有基于短时能量和过零率、倒谱距离、谱熵检测等。但是这些方法难以在识别性能和处理速度方面达到平衡。
其它的端点检测方法还有时域参数方法,变换域参数方法以及统计模型方法。时域参数方法仅适用于平稳噪声的检测,对不同噪声背景的鲁棒性较差。变换域参数方法只能支持SNR>0db的带噪声语音,对于噪音与语音信号有类似变换域特征的情况,该方法会失效。统计模型方法计算量太大,且对不同噪声背景可能需要建立不同的统计模型。
而随着智能机器人的不断发展和应用,亟需一种准确高效的语音端点检测方法。
发明内容
针对现有技术中的缺陷,本发明提供的一种基于有监督机器学习的语音端点检测方法及装置,通过判断当前所处的场景,将场景作为RNN模型的输入参数之一,提升RNN模型的判断的准确性,提高了语音端点检测的准确性和效率。
第一方面,本发明提供了一种基于有监督机器学习的语音端点检测方法,包括:
步骤S1,从获取的音频中检测出静音段、过度段和结束段;
步骤S2,将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景;
步骤S3,将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频;
步骤S4,将识别的所述当前场景和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
优选地,所述从获取的音频中检测出静音段、过度段和结束段,包括:采用短时能量和过零率方法进行过渡段、静音段和结束段检测。
优选地,所述背景噪声模型的构建方法包括:
分析每个特定场景下的音频,得到每个特定场景下的背景噪音的特点,对特定场景下的背景噪音进行建模,得到背景噪声模型。
优选地,所述RNN模型的构建方法包括:
收集大量的语音,标注每条所述语音的静音段、过渡段、有效语音段的起始点和终点、结束段,同时标记语音所处的场景;
对语音段进行分割采样,将分割得到的每个语音片段转化为相同维度的向量表示;
通过线性回归变换将所有的语音片段合成为一个向量,得到所述语音段的向量表示;
将所述语音段的向量表示、所述有效语音段的起始点和终点、语音所处的场景作为RNN的输入进行训练,获得可以根据输入语音输出语音起始点和终点的RNN模型。
优选地,在所述步骤S4之前还包括:将所述待识别语音段输入所述用户特征模型,得到讲话者的特征;
所述步骤S4包括:将识别的所述当前场景、所述讲话者的特征和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
优选地,在所述步骤S1之前还包括:
从获取的音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储;
获取新的音频输入用户特征模型得到多个人的特征,识别与存储的所述讲话者的特征最相似的音频,通过声源定位技术获取所述讲话者后续的音频。
优选地,在步骤S1之前还包括:
从获取的音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储;
通过摄像头获取实时图像,识别所述实时图像中多个人的面部特征,结合所述讲话者的特征,找出当前的讲话者,并记录下当前的讲话者的面部特征;
通过所述摄像头获取新的图像,从图像中识别出与记录的所述讲话者的面部特征最相似的人脸,定位最相似人脸所处的空间位置;
根据所述空间位置,结合声源定位技术获取所述讲话者的音频。
优选地,所述用户特征模型的构建方法包括:
收集大量有效语音段,标注每条所述有效语音段中讲话者的特征;其中,特征包括:用户的年龄和性别;
并按照标注的特征将所述有效语音段进行分类;
对每一类中的有效语音段进行频域、时域统计,获得不同特征的用户语音包含的语音特性,建立可以根据有效语音段判断讲话者特征的用户特征模型。
第二方面,本发明提供了一种基于有监督机器学习的语音端点检测装置,包括:
分段检测模块,用于从获取的音频中检测出静音段、过度段和结束段;
场景识别模块,用于将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景;
向量化模块,用于将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频;
语音端点识别模块,用于将识别的所述当前场景和向量化后的待识别音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
优选地,所述分段检测模块具体用于:采用短时能量和过零率方法进行过渡段和静音段和结束段。
优选地,所述背景噪声模型的构建方法包括:
分析每个特定场景下的音频,得到每个特定场景下的背景噪音的特点,对特定场景下的背景噪音进行建模,得到背景噪声模型。
优选地,所述RNN模型的构建方法包括:
收集大量的语音,标注每条所述语音的静音段、过渡段、有效语音段的起始点和终点、结束段,同时标记语音所处的场景;
对语音段进行分割采样,将分割得到的每个语音片段转化为相同维度的向量表示;
通过线性回归变换将所有的语音片段合成为一个向量,得到所述语音段的向量表示;
将所述语音段的向量表示、所述有效语音段的起始点和终点、语音所处的场景作为RNN的输入进行训练,获得可以根据输入语音输出语音起始点和终点的RNN模型。
优选地,还包括多人场景识别模块,用于:
从获取的多人音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征;
通过摄像头获取实时图像,结合所述讲话者的特征,判断当前的讲话者,并从所述多人音频中获取当前讲话者对应的音频。
优选地,所述用户特征模型的构建方法包括:
收集大量有效语音段,标注每条所述有效语音段中讲话者的特征;其中,特征包括:用户的年龄和性别;
并按照标注的特征将所述有效语音段进行分类;
对每一类中的有效语音段进行频域、时域统计,获得不同特征的用户语音包含的语音特性,建立可以根据有效语音段判断讲话者特征的用户特征模型。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一所述的方法。
附图说明
图1为本发明实施例一所提供的一种基于有监督机器学习的语音端点检测方法的流程图;
图2为本发明实施例一所提供的一种基于有监督机器学习的语音端点检测方法的优选流程图;
图3为本发明实施例四所提供的一种基于有监督机器学习的语音端点检测装置的结构框图;
图4为本发明实施例四所提供的一种基于有监督机器学习的语音端点检测装置的优选结构框图;
图5为一段包含两个单词的语音信号图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
实施例一
如图1所示,本实施例提供了一种基于有监督机器学习的语音端点检测方法,包括:
步骤S1,从获取的音频中检测出静音段、过度段和结束段;
步骤S2,将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景。
其中,场景可以基于具体产品的使用环境和使用场景确定,如:对于定位为智能家居服务的产品,其使用场景可以大致分为休息场景、阅读场景、观影场景、游戏场景、聚会场景等。
其中,所述背景噪声模型的构建方法包括:分析每个特定场景下的音频,得到每个特定场景下的背景噪音的特点,对特定场景下的背景噪音进行建模,得到背景噪声模型。由于静音段和结束段语音的波幅代表了背景噪音包含的能量,通过分析静音段、结束段可以获得特定场景下背景噪音的特点,对特定场景下的背景噪音进行建模。具体可以采用以下的方法进行建模:使用概率统计的方法建模、使用K-means聚类的方法建模、使用CNN的方法建模。其中,使用K-means方法聚类的时候,K值可以通过经验判断语音所处场景的数量而进行有效的预置。
通过上述方法构建的背景噪声模型,在实际进行语音端点检测的时候,通过将静音段和噪音段作为背景噪音模型的输入,即可获得当前语音所处的具体场景。
步骤S3,将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频。
其中,将待识别语音段用向量表示的方法具体包括:对语音进行分割采样,将每个语音片段转化为相同维度的向量表示,然后通过线性回归变换将这些语音片段合成为一个向量,这个合成后的向量就是语音的向量表示。
步骤S4,将识别的所述当前场景和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
其中,所述RNN(recurrent neural network,递归神经网络)模型的构建方法包括:
收集大量的语音,标注每条所述语音的静音段、过渡段、有效语音段的起始点和终点、结束段,同时标记语音所处的场景;
对语音段进行分割采样,将分割得到的每个语音片段转化为相同维度的向量表示;
通过线性回归变换将所有的语音片段合成为一个向量,得到所述语音段的向量表示;
将所述语音段的向量表示、所述有效语音段的起始点和终点、语音所处的场景作为RNN的输入进行训练,获得可以根据输入语音输出语音起始点和终点的RNN模型。
其中,步骤S1的优选实施方式包括:采用短时能量和过零率方法进行过渡段、静音段和结束段检测。
其中,短时能量和过零率方法包括:
步骤S101,分别对短时能量和过零率设置两个门限值energy_low,energy_high和zcr_low,zcr_high;其中,energy_high>energy_low,zcr_high>zcr_low。
步骤S102,计算一帧语音的短时能量enegry和过零率zcr,若enegry>energy_low且zcr>zcr_low,则表示语音开始进入过渡段;若enegry>energy_high且zcr>zcr_high,此时还不能断定语音开始,继续计算几帧短时能量和过零率,若enegry>energy_high且zcr>zcr_high,则可判定语音开始。
本实施例提供的基于有监督机器学习的语音端点检测方法,通过判断当前所处的场景,将场景作为RNN模型的输入参数之一,提升RNN模型的判断的准确性,提高了语音端点检测的准确性和效率。
为了提高语音端点的检测精度,本实施例还可以识别音频中讲话者的特征,将讲话者的特征作为RNN模型的输入参数之一,提升RNN模型的判断的准确性。其中,讲话者的特征可以是讲话者的音色、语调等声音特质,也可以是从声音中进一步推断出讲话者的性别、年龄等特征。
具体地,通过以下方法建立用户特征模型,包括:
收集大量有效语音段,标注每条所述有效语音段中讲话者的特征,其中,特征包括:音色、语调等声音特质,用户的年龄、性别等;
并按照标注的特征将所述有效语音段进行分类;
对每一类中的有效语音段进行频域、时域统计,获得不同特征的用户语音包含的语音特性,建立可以根据有效语音段判断讲话者特征的用户特征模型。
应用时,将自然采集到的语音输入用户特征模型,即可得到讲话者的特征。
在训练RNN模型时,将训练用的语音处理后输入用户特征模型,即可得到讲话者的特征,将其标注到训练语音中,作为RNN模型的输入参数之一,使得训练得到的RNN模型能够根据输入的语音段的向量表示、语音所处的场景以及讲话者的特征,输出语音起始点和终点。
如图2所示,在步骤S4之前还包括:步骤S5,将所述待识别语音段输入所述用户特征模型,得到讲话者的特征。
相应地,步骤S4包括:将识别的所述当前场景、所述讲话者的特征和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
通过将讲话者的特征作为RNN模型的输入参数之一,可以有效降低外界的干扰,识别真正的讲话者的语音段,提高了语音端点检测的准确性。还可以根据讲话者的声音特征,在多人场景中实现对讲话者的追踪和定位,提高了多人场景的语音识别精度。
实施例二
在人机交互时,在复杂的场景中,机器人会获取到多个讲话者的声音,为了实现在多人同时发声的情形下识别的讲话者,在实施例一的基础上,本实施例提供的另一种适用于多人场景的语音端点检测方法,包括:
步骤S10,从获取的音频中检测指令词。
其中,获取的音频中可能会包含有多个人的声音。
其中,指令词需要根据具体情况预设,比如,在智能家居场景下,指令词可能包含:打开空调、调小音量、关闭台灯、开始放映等。具体执行过程中,当从用户语音中识别到上述指令词,则通过分析讲话者的特征跟踪讲话者的回复和反馈。
步骤S20,将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储。
其中,所述用户特征模型的构建方法参见前实施例一。
步骤S30,通过摄像头获取实时图像,识别所述实时图像中多个人的面部特征,结合所述讲话者的特征,找出当前的讲话者,并记录下当前的讲话者的面部特征。
其中,讲话者的特征为用户的年龄和性别。面部特征识别采用通用的人脸识别技术实现,可实现用户年龄和性别的估计。
步骤S40,通过所述摄像头获取新的图像,从图像中识别出与记录的所述讲话者的面部特征最相似的人脸,定位最相似人脸所处的空间位置。
这样,根据记录的讲话者的面部特征可以实现对讲话者的跟踪和定位。
其中,通过图像定位空间位置属于现有技术,在此不再赘述。
步骤S50,根据所述空间位置,结合声源定位技术获取所述讲话者的音频。针对获取的音频即可进行语音端点识别。
其中,声源定位技术采用现有方法实现,分为单麦克风方法和多麦克风方法。多麦克风方法为采用多个分布于不同位置的声音接收设备接收声音,通过比较声音接收采集的声音信号的强弱、先后,可以对声源进行定位,即可以获得用户(讲话者)所处的位置,能够区分不同位置的用户发出的声音,进行分别的采集。单麦克风方法采用一个声音接收设备获取空间内的多个声音,通过后期的算法对声音进行处理,处理方法为现有技术,在此不再赘述。
步骤S60,从讲话者的音频中检测出静音段、过度段和结束段。
步骤S70,将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景。
其中,所述背景噪声模型的构建方法参见前实施例一。
步骤S80,将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频。
其中,将待识别语音段用向量表示的方法参见前实施例一。
步骤S90,将识别的所述当前场景和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
其中,RNN(recurrent neural network,递归神经网络)模型的构建方法参见前实施例一。
例如,在人机交互时,用户通过唤醒词唤醒机器人后,机器人可以通过对声源进行定位获得用户(讲话者)所处的位置,但当该位置有几个人在同时交谈时,机器人往往无法进行正确的拾音。基于本实施例的方法,机器人对唤醒词进行处理时可以获取到当前所处的场景,如果场景属于几个人同时交谈的时候,机器人通过将唤醒词对应的语音段输入模型可以估计出讲话者的年龄和性别,从而帮助机器人通过摄像头获取的图像判断讲话者(排除非讲话者)。经过上述处理后,机器人可以正确识别到当前的场景及讲话人,拾音后,将拾取的语音、当前场景作为RNN模型的输入,获得语音的端点,提高了多人发声的场景下,语音识别的准确性,并能够通过人脸识别技术对讲话者进行跟踪和定位,在多人环境下,实现人机之间的多轮次交互。
为了提高语音端点的检测精度,本实施例还可以识别音频中讲话者的特征,将讲话者的特征作为RNN模型的输入参数之一,提升RNN模型的判断的准确性。具体实施方法参考实施一相关部分。
实施例三
在人机交互时,在复杂的场景中,机器人会获取到多个讲话者的声音,为了实现在多人同时发声的情形下识别的讲话者,在实施例一的基础上,本实施例提供的另一种适用于多人场景的语音端点检测方法,包括:
步骤S100,从获取的音频中检测指令词。
其中,获取的音频中可能会包含有多个人的声音。
其中,指令词需要根据具体情况预设,比如,在智能家居场景下,指令词可能包含:打开空调、调小音量、关闭台灯、开始放映等。具体执行过程中,当从用户语音中识别到上述指令词,则通过分析讲话者的特征跟踪讲话者的回复和反馈。
步骤S200,将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储。
步骤S300,获取新的音频输入用户特征模型得到多个人的特征,识别与存储的所述讲话者的特征最相似的音频,通过声源定位技术获取所述讲话者后续的音频。
其中,所述用户特征模型的构建方法参见前实施例一。
其中,声源定位技术采用现有方法实现,分为单麦克风方法和多麦克风方法。多麦克风方法为采用多个分布于不同位置的声音接收设备接收声音,通过比较声音接收采集的声音信号的强弱、先后,可以对声源进行定位,即可以获得用户(讲话者)所处的位置,能够区分不同位置的用户发出的声音,进行分别的采集。单麦克风方法采用一个声音接收设备获取空间内的多个声音,通过后期的算法对声音进行处理,处理方法为现有技术,在此不再赘述。
步骤S400,从讲话者的音频中检测出静音段、过度段和结束段。
步骤S500,将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景。
其中,所述背景噪声模型的构建方法参见前实施例一。
步骤S600,将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频。
其中,将待识别语音段用向量表示的方法参见前实施例一。
步骤S700,将识别的所述当前场景和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
其中,RNN(recurrent neural network,递归神经网络)模型的构建方法参见前实施例一。
例如,在人机交互时,用户通过唤醒词唤醒机器人后,机器人可以通过对声源进行定位获得用户(讲话者)所处的位置,但当该位置有几个人在同时交谈时,机器人往往无法进行正确的拾音。基于本实施例的方法,机器人对唤醒词进行处理时可以获取到当前所处的场景,如果场景属于几个人同时交谈的时候,机器人通过将唤醒词对应的语音段输入模型可以估计出讲话者的年龄和性别,从而帮助机器人通过摄像头获取的图像判断讲话者(排除非讲话者)。经过上述处理后,机器人可以正确识别到当前的场景及讲话人,拾音后,将拾取的语音、当前场景作为RNN模型的输入,获得语音的端点,提高了多人发声的场景下,语音识别的准确性,并能够通过讲话者声音的特征对讲话者进行跟踪和定位,在多人环境下,实现人机之间的多轮次交互。
为了提高语音端点的检测精度,本实施例还可以识别音频中讲话者的特征,将讲话者的特征作为RNN模型的输入参数之一,提升RNN模型的判断的准确性。具体实施方法参考实施一相关部分。
实施例四
基于与上述实施例相同的发明构思,本实施例提供了一种基于有监督机器学习的语音端点检测装置,如图3所示,包括:
分段检测模块,用于从获取的音频中检测出静音段、过度段和结束段;
场景识别模块,用于将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景;
向量化模块,用于将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频;
语音端点识别模块,用于将识别的所述当前场景和向量化后的待识别音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
其中,所述分段检测模块具体用于:采用短时能量和过零率方法进行过渡段和静音段和结束段。
其中,所述背景噪声模型的构建方法包括:分析每个特定场景下的音频,得到每个特定场景下的背景噪音的特点,对特定场景下的背景噪音进行建模,得到背景噪声模型。
其中,所述RNN模型的构建方法包括:
收集大量的语音,标注每条所述语音的静音段、过渡段、有效语音段的起始点和终点、结束段,同时标记语音所处的场景;
对语音段进行分割采样,将分割得到的每个语音片段转化为相同维度的向量表示;
通过线性回归变换将所有的语音片段合成为一个向量,得到所述语音段的向量表示;
将所述语音段的向量表示、所述有效语音段的起始点和终点、语音所处的场景作为RNN的输入进行训练,获得可以根据输入语音输出语音起始点和终点的RNN模型。
优选地,如图4所示,还包括用户特征识别模块,用于:将所述待识别语音段输入所述用户特征模型,得到讲话者的特征。所述用户特征识别模块的输出端与所述语音端点识别模块的输入端连接。
相应的,所述语音端点识别模块用于:将识别的所述当前场景、所述讲话者的特征和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
优选地,还包括第一多人识别模块,用于:
从获取的音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储;
获取新的音频输入用户特征模型得到多个人的特征,识别与存储的所述讲话者的特征最相似的音频,通过声源定位技术获取所述讲话者后续的音频。
所述第一多人识别模块的输出端与所述分段检测模块的输入端连接。
优选地,还包括第二多人识别模块,用于:
从获取的音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储;
通过摄像头获取实时图像,识别所述实时图像中多个人的面部特征,结合所述讲话者的特征,找出当前的讲话者,并记录下当前的讲话者的面部特征;
通过所述摄像头获取新的图像,从图像中识别出与记录的所述讲话者的面部特征最相似的人脸,定位最相似人脸所处的空间位置;
根据所述空间位置,结合声源定位技术获取所述讲话者的音频。
所述第二多人识别模块的输出端与所述分段检测模块的输入端连接。
其中,所述用户特征模型的构建方法包括:
收集大量有效语音段,标注每条所述有效语音段中讲话者的特征;其中,特征包括:用户的年龄和性别;
并按照标注的特征将所述有效语音段进行分类;
对每一类中的有效语音段进行频域、时域统计,获得不同特征的用户语音包含的语音特性,建立可以根据有效语音段判断讲话者特征的用户特征模型。
本实施例提供的基于有监督机器学习的语音端点检测装置与上述基于有监督机器学习的语音端点检测方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。
实施例五
基于与上述实施例一、二相同的发明构思,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一、二中任一所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (9)

1.一种基于有监督机器学习的语音端点检测方法,其特征在于,包括:
步骤S1,采用短时能量和过零率方法从获取的音频中检测出静音段、过度段和结束段;
步骤S2,将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景;
步骤S3,将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频;
步骤S4,将识别的所述当前场景和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点;其中
所述RNN模型的构建方法包括:
收集大量的语音,标注每条所述语音的静音段、过渡段、有效语音段的起始点和终点、结束段,同时标记语音所处的场景;
对语音段进行分割采样,将分割得到的每个语音片段转化为相同维度的向量表示;
通过线性回归变换将所有的语音片段合成为一个向量,得到所述语音段的向量表示;
将所述语音段的向量表示、所述有效语音段的起始点和终点、语音所处的场景作为RNN的输入进行训练,获得可以根据输入语音输出语音起始点和终点的RNN模型。
2.根据权利要求1所述的方法,其特征在于,所述背景噪声模型的构建方法包括:
分析每个特定场景下的音频,得到每个特定场景下的背景噪音的特点,对特定场景下的背景噪音进行建模,得到背景噪声模型。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S4之前还包括:将所述待识别语音段输入用户特征模型,得到讲话者的特征;
所述步骤S4包括:将识别的所述当前场景、所述讲话者的特征和向量化后的待识别语音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S1之前还包括:
从获取的音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储;
获取新的音频输入用户特征模型得到多个人的特征,识别与存储的所述讲话者的特征最相似的音频,通过声源定位技术获取所述讲话者后续的音频。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S1之前还包括:
从获取的音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征并存储;
通过摄像头获取实时图像,识别所述实时图像中多个人的面部特征,结合所述讲话者的特征,找出当前的讲话者,并记录下当前的讲话者的面部特征;
通过所述摄像头获取新的图像,从图像中识别出与记录的所述讲话者的面部特征最相似的人脸,定位最相似人脸所处的空间位置;
根据所述空间位置,结合声源定位技术获取所述讲话者的音频。
6.根据权利要求3-5中任一项所述的方法,其特征在于,所述用户特征模型的构建方法包括:
收集大量有效语音段,标注每条所述有效语音段中讲话者的特征;其中,特征包括:用户的年龄和性别;
并按照标注的特征将所述有效语音段进行分类;
对每一类中的有效语音段进行频域、时域统计,获得不同特征的用户语音包含的语音特性,建立可以根据有效语音段判断讲话者特征的用户特征模型。
7.一种基于有监督机器学习的语音端点检测装置,其特征在于,包括:
分段检测模块,用于采用短时能量和过零率方法从获取的音频中检测出静音段、过度段和结束段;
场景识别模块,用于将静音段和结束段输入预先构建的背景噪声模型,识别所述音频所属的当前场景;
向量化模块,用于将待识别语音段用向量表示,其中,待识别语音段为除去所述静音段、所述过度段和所述结束段的音频;
语音端点识别模块,用于将识别的所述当前场景和向量化后的待识别音段输入预先构建的RNN模型,识别语音端点,其中,语音端点包括语音段的起始点、语音段的终点;其中
所述RNN模型的构建方法包括:
收集大量的语音,标注每条所述语音的静音段、过渡段、有效语音段的起始点和终点、结束段,同时标记语音所处的场景;
对语音段进行分割采样,将分割得到的每个语音片段转化为相同维度的向量表示;
通过线性回归变换将所有的语音片段合成为一个向量,得到所述语音段的向量表示;
将所述语音段的向量表示、所述有效语音段的起始点和终点、语音所处的场景作为RNN的输入进行训练,获得可以根据输入语音输出语音起始点和终点的RNN模型。
8.根据权利要求7所述的装置,其特征在于,还包括多人场景识别模块,用于:
从获取的多人音频中检测指令词;
将所述指令词对应的音频段输入用户特征模型,得到所述指令词对应的讲话者的特征;
通过摄像头获取实时图像,结合所述讲话者的特征,判断当前的讲话者,并从所述多人音频中获取当前讲话者对应的音频。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6之一所述的方法。
CN201710957669.3A 2017-10-16 2017-10-16 基于有监督机器学习的语音端点检测方法及装置 Active CN107799126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710957669.3A CN107799126B (zh) 2017-10-16 2017-10-16 基于有监督机器学习的语音端点检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710957669.3A CN107799126B (zh) 2017-10-16 2017-10-16 基于有监督机器学习的语音端点检测方法及装置

Publications (2)

Publication Number Publication Date
CN107799126A CN107799126A (zh) 2018-03-13
CN107799126B true CN107799126B (zh) 2020-10-16

Family

ID=61533110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710957669.3A Active CN107799126B (zh) 2017-10-16 2017-10-16 基于有监督机器学习的语音端点检测方法及装置

Country Status (1)

Country Link
CN (1) CN107799126B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764304B (zh) * 2018-05-11 2020-03-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN110503943B (zh) * 2018-05-17 2023-09-19 蔚来(安徽)控股有限公司 一种语音交互方法以及语音交互***
CN109065027B (zh) * 2018-06-04 2023-05-02 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN108922561A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108922513B (zh) * 2018-06-04 2023-03-17 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108920640B (zh) * 2018-07-02 2020-12-22 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN108920639B (zh) * 2018-07-02 2022-01-18 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN108962226B (zh) * 2018-07-18 2019-12-20 百度在线网络技术(北京)有限公司 用于检测语音的端点的方法和装置
CN109036371B (zh) * 2018-07-19 2020-12-18 北京光年无限科技有限公司 用于语音合成的音频数据生成方法及***
CN108986844B (zh) * 2018-08-06 2020-08-28 东北大学 一种基于说话人语音特征的语音端点检测方法
CN109448705B (zh) * 2018-10-17 2021-01-29 珠海格力电器股份有限公司 一种语音切分方法及装置、计算机装置和可读存储介质
CN109658920B (zh) * 2018-12-18 2020-10-09 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN110660385A (zh) * 2019-09-30 2020-01-07 出门问问信息科技有限公司 一种命令词检测方法及电子设备
CN111862951B (zh) * 2020-07-23 2024-01-26 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
CN112101046B (zh) * 2020-11-02 2022-04-29 北京淇瑀信息科技有限公司 一种基于通话行为的会话分析方法、装置和***
CN112487978B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频中说话人定位的方法、装置及计算机存储介质
CN112562727B (zh) * 2020-12-18 2024-04-26 科大讯飞股份有限公司 应用于音频监控的音频场景分类方法、装置以及设备
CN112786029B (zh) * 2020-12-25 2022-07-26 思必驰科技股份有限公司 使用弱监督数据训练vad的方法及装置
CN112927680B (zh) * 2021-02-10 2022-06-17 中国工商银行股份有限公司 一种基于电话信道的声纹有效语音的识别方法及装置
CN113179444B (zh) * 2021-04-20 2022-05-17 浙江工业大学 一种基于语音识别的音字同步方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794195A (en) * 1994-06-28 1998-08-11 Alcatel N.V. Start/end point detection for word recognition
US20020198704A1 (en) * 2001-06-07 2002-12-26 Canon Kabushiki Kaisha Speech processing system
CN1588535A (zh) * 2004-09-29 2005-03-02 上海交通大学 嵌入式语音识别***的自动语音识别处理方法
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US20120089393A1 (en) * 2009-06-04 2012-04-12 Naoya Tanaka Acoustic signal processing device and method
CN102982811A (zh) * 2012-11-24 2013-03-20 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
US20160180510A1 (en) * 2014-12-23 2016-06-23 Oliver Grau Method and system of geometric camera self-calibration quality assessment
CN105869658A (zh) * 2016-04-01 2016-08-17 金陵科技学院 一种采用非线性特征的语音端点检测方法
CN106462804A (zh) * 2016-06-29 2017-02-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、***及机器人
CN107039035A (zh) * 2017-01-10 2017-08-11 上海优同科技有限公司 一种语音起始点和终止点的检测方法
CN107240398A (zh) * 2017-07-04 2017-10-10 科大讯飞股份有限公司 智能语音交互方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794195A (en) * 1994-06-28 1998-08-11 Alcatel N.V. Start/end point detection for word recognition
US20020198704A1 (en) * 2001-06-07 2002-12-26 Canon Kabushiki Kaisha Speech processing system
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
CN1588535A (zh) * 2004-09-29 2005-03-02 上海交通大学 嵌入式语音识别***的自动语音识别处理方法
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US20120089393A1 (en) * 2009-06-04 2012-04-12 Naoya Tanaka Acoustic signal processing device and method
CN102982811A (zh) * 2012-11-24 2013-03-20 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
US20160180510A1 (en) * 2014-12-23 2016-06-23 Oliver Grau Method and system of geometric camera self-calibration quality assessment
CN105869658A (zh) * 2016-04-01 2016-08-17 金陵科技学院 一种采用非线性特征的语音端点检测方法
CN106462804A (zh) * 2016-06-29 2017-02-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、***及机器人
CN107039035A (zh) * 2017-01-10 2017-08-11 上海优同科技有限公司 一种语音起始点和终止点的检测方法
CN107240398A (zh) * 2017-07-04 2017-10-10 科大讯飞股份有限公司 智能语音交互方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Robust voice activity detection algorithm for estimating noise spectrum;Kyoung-Ho Woo等;《ELECTRONICS LETTERS》;20000120;第36卷(第2期);第180-181页 *
强背景噪声下语音端点检测的算法研究;吴边等;《计算机工程与应用》;20111121;第137-139页 *

Also Published As

Publication number Publication date
CN107799126A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
WO2019223457A1 (zh) 混合语音识别方法、装置及计算机可读存储介质
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
Fisher et al. Speaker association with signal-level audiovisual fusion
CN111292764A (zh) 辨识***及辨识方法
US20150325240A1 (en) Method and system for speech input
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN112088315A (zh) 多模式语音定位
Tao et al. End-to-end audiovisual speech activity detection with bimodal recurrent neural models
CN110930987B (zh) 音频处理方法、装置和存储介质
WO2021013255A1 (zh) 一种声纹识别方法及装置
CN111341350A (zh) 人机交互控制方法、***、智能机器人及存储介质
CN114141230A (zh) 电子设备及其语音识别方法和介质
CN111554279A (zh) 一种基于Kinect的多模态人机交互***
CN114556469A (zh) 数据处理方法、装置、电子设备和存储介质
CN111462732B (zh) 语音识别方法和装置
CN113921026A (zh) 语音增强方法和装置
CN110728993A (zh) 一种变声识别方法及电子设备
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
JP2020067562A (ja) ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 301, Building 39, 239 Renmin Road, Gusu District, Suzhou City, Jiangsu Province, 215000

Applicant after: Suzhou Dogweed Intelligent Technology Co., Ltd.

Applicant after: Shanghai Wage Intelligent Technology Co Ltd

Address before: 518000 Dongfang Science and Technology Building 1307-09, 16 Keyuan Road, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen green bristlegrass intelligence Science and Technology Ltd.

Applicant before: Shanghai Wage Intelligent Technology Co Ltd

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20220228

Granted publication date: 20201016

PP01 Preservation of patent right