CN105448303B - 语音信号的处理方法和装置 - Google Patents

语音信号的处理方法和装置 Download PDF

Info

Publication number
CN105448303B
CN105448303B CN201510866175.5A CN201510866175A CN105448303B CN 105448303 B CN105448303 B CN 105448303B CN 201510866175 A CN201510866175 A CN 201510866175A CN 105448303 B CN105448303 B CN 105448303B
Authority
CN
China
Prior art keywords
voice
noise
signal
sample signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510866175.5A
Other languages
English (en)
Other versions
CN105448303A (zh
Inventor
时雪煜
李先刚
邹赛赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510866175.5A priority Critical patent/CN105448303B/zh
Publication of CN105448303A publication Critical patent/CN105448303A/zh
Application granted granted Critical
Publication of CN105448303B publication Critical patent/CN105448303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出一种语音信号的处理方法和装置,其中所述方法包括以下步骤:采集噪声样本信号;根据噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号;根据噪声语音样本信号和纯净语音样本信号训练语音模型。本发明实施例的语音信号的处理方法,通过该语音模型可以大大提高在噪声环境下的语音识别的准确性,提升语音识别服务的鲁棒性和语音识别服务的体验。

Description

语音信号的处理方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音信号的处理方法以及一种语音信号的处理装置。
背景技术
语音识别是指通过机器将人的语音自动转换为相应的文本。近年来,语音识别技术发展较为迅速,特别是深度神经网络被应用到语音识别之后,识别***的性能得到了大幅度提高。
相关技术中,语音识别过程通过对大量纯净语音样本进行训练,得到声学模型和语言模型。训练样本越大,精确度越高,得到的声学模型效果越好,语音识别的准确率也就越高。
但随着移动互联网的发展,语音输入方式越来越普遍,语音使用人群也越来越广泛,而且每个用户使用的环境有很大差异,特别是在噪声环境下,比如汽车行驶过程中的车载噪声,在餐厅或者其他人群密集的地方产生的人群噪声等。而现有语音识别的训练缺乏噪声语音样本,同时噪声语音样本与纯净语音样本的声学特征差异很大,因此相关技术中的声学模型在安静环境下的语音识别的准确率很高,而在噪声环境下的语音识别的准确率将大大降低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音信号的处理方法,该方法大大提高了在噪声环境下的语音识别的准确性,提升语音识别服务的鲁棒性和语音识别服务的体验。
本发明的第二个目的在于提出一种语音信号的处理装置。
为达上述目的,本发明第一方面实施例提出了一种语音信号的处理方法,包括以下步骤:采集噪声样本信号;根据所述噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号;根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型。
本发明实施例的语音信号的处理方法,根据不同场景的噪声样本和纯净语音样本生成噪声语音样本,并根据噪声语音样本和纯净语音样本训练语音模型,从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号,从而大大提高了在噪声环境下的语音识别的准确性,提升语音识别服务的鲁棒性和语音识别服务的体验。
为达上述目的,本发明第二方面实施例提出了一种语音信号的处理装置,包括:第一采集模块,用于采集噪声样本信号;第一处理模块,用于根据所述噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号;第一训练模块,用于根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型。
本发明实施例的语音信号的处理装置,根据不同场景的噪声样本和纯净语音样本生成噪声语音样本,并根据噪声语音样本和纯净语音样本训练语音模型,从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号,从而大大提高了在噪声环境下的语音识别的准确性,提升语音识别服务的鲁棒性和语音识别服务的体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的语音信号的处理方法的流程图;
图2是本发明一个具体实施例的语音信号的处理方法的流程图;
图3是本发明另一个具体实施例的语音信号的处理方法的流程图;
图4是本发明一个实施例的语音信号的处理装置的结构示意图;
图5是本发明一个具体实施例的语音信号的处理装置的结构示意图;
图6是本发明另一个实施例的语音信号的处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考附图描述根据本发明实施例的语音信号的处理方法和装置。
一种语音信号的处理方法,包括以下步骤:a、采集噪声样本信号;b、根据噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号;c、根据噪声语音样本信号和纯净语音样本信号训练语音模型。
图1是本发明一个实施例的语音信号的处理方法的流程图。
如图1所示,语音信号的处理方法包括以下步骤:
S101,采集噪声样本信号。
具体地,采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号,其中,场景噪声可以是在多个不同场景下采集得到,例如,采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而,采集的噪声样本信号越多,在不同环境下对采集的语音信号进行处理的精确度就越高,语音识别的准确率就越高。
S102,根据噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号。
其中,纯净语音样本信号为安静环境下的语音样本信号,即不包含噪声信号的语音信号。也就是说,通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理,以得到噪声环境下的语音样本信号,即噪声语音样本信号。
应当理解的是,对纯净语音样本信号进行加噪处理可以采用现有的处理方法,为了避免冗余,此处不再复赘。
S103,根据噪声语音样本信号和纯净语音样本信号训练语音模型。
在本发明的一个实施例中,根据噪声语音样本信号和纯净语音信号训练语音模型还包括:提取噪声语音样本信号和纯净语音样本信号的声学特征,并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。
具体地,可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征,并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射,以得到语音模型。
在语音识别过程中,由于语音模型是基于噪声语音样本信号获得,因此能够将噪声环境下的语音信号映射成安静环境下的语音信号,从而准确识别出噪声环境下的语音信号,提高了语音识别的准确率。同时,由于回归神经网络具有较强的鲁棒性,对于未加入训练的场景噪声,同样能够很好的建立起噪声环境下的语音信号至安静环境下的语音信号的映射,从而准确识别出未加入训练的场景噪声下的语音信号,提高了语音识别的准确率。
本发明实施例的语音信号的处理方法,根据不同场景的噪声样本和纯净语音样本生成噪声语音样本,并根据噪声语音样本和纯净语音样本训练语音模型,从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号,从而大大提高了在噪声环境下的语音识别的准确性,提升语音识别服务的鲁棒性和语音识别服务的体验。
图2是本发明一个具体实施例的语音信号的处理方法的流程图。
如图2所示,语音信号的处理方法包括以下步骤:
S201,采集噪声样本信号。
具体地,采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号,其中,场景噪声可以是在多个不同场景下采集得到,例如,采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而,采集的噪声样本信号越多,在不同环境下对采集的语音信号进行处理的精确度就越高,语音识别的准确率就越高。
S202,根据噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号。
其中,纯净语音样本信号为安静环境下的语音样本信号,即不包含噪声信号的语音信号。也就是说,通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理,以得到噪声环境下的语音样本信号,即噪声语音样本信号。
应当理解的是,对纯净语音样本信号进行加噪处理可以采用现有的处理方法,为了避免冗余,此处不再复赘。
S203,根据噪声语音样本信号和纯净语音样本信号训练语音模型。
在本发明的一个实施例中,根据噪声语音样本信号和纯净语音信号训练语音模型还包括:提取噪声语音样本信号和纯净语音样本信号的声学特征,并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。
具体地,可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征,并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射,以得到语音模型。
在语音识别过程中,由于语音模型是基于噪声语音样本信号获得,因此能够将噪声环境下的语音信号映射成安静环境下的语音信号,从而准确识别出噪声环境下的语音信号,提高了语音识别的准确率。同时,由于回归神经网络具有较强的鲁棒性,对于未加入训练的场景噪声,同样能够很好的建立起噪声环境下的语音信号至安静环境下的语音信号的映射,从而准确识别出未加入训练的场景噪声下的语音信号,提高了语音识别的准确率。
S204,采集用户录入的语音信号。
具体地,可以通过语音输入设备如麦克风等采集用户的语音信号,然后将采集的语音信号发送至服务端进行语音识别。其中,可以将训练的语音模型存储到语音识别云端,将采集的语音信号发送至云端进行语音识别。
S205,判断语音信号是否包含噪声。
具体地,服务端在接收到用户录入的语音信号后,对用户录入的语音信号进行信噪比估计,以对用户录入的语音信号进行分类。例如,当用户录入的语音信号的信噪比小于一定值时,则判断语音信号包含噪声;当用户录入的语音信号的信噪比大于一定值时,则判断语音信号未包含噪声。
S206,如果语音信号包含噪声,则根据语音模型对语音信号进行去噪处理。
具体地,如果判断语音信号包含噪声,则可以确定语音信号是在噪声环境下录入,此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理,即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。
在本发明的一个实施例中,根据语音模型中保存的该噪声环境中噪声语音样本和纯净语音样本的映射关系,将采集的包含噪声的语音信号转换为不包含噪声的语音信号。
S207,根据声学模型对去噪处理后的语音信号进行语音识别。
具体地,在对用户输入的语音信号进行去噪处理后,通过服务端的解码器进行语音识别,即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码,将语音信号转换为文本信息,然后将识别结果反馈给用户。其中,声学模型是通过对大量纯净语音样本训练获得的。
S208,如果语音信号未包含噪声,则根据声学模型对语音信号进行语音识别。
具体地,如果判断语音信号未包含噪声,则可以确定语音信号是在安静环境下录入,此时无需通过语音模型对语音信号进行去噪处理,而是直接通过服务端的解码器根据声学模型对语音信号进行解码,将语音信号转换为文本信息,然后将识别结果反馈给用户。
本发明实施例的语音信号的处理方法,在语音识别过程中,对噪声环境下录入的语音信号进行预处理,将语音信号转换为安静环境下的语音信号再进行语音识别,而对安静坏境下录入的语音信号直接进行语音识别,由此,不仅能够保证安静环境下语音识别的准确率,而且能够大大提高噪音环境下语音识别的准确率,从而提高语音识别服务的准确率和鲁棒性和服务体验。
图3是本发明另一个具体实施例的语音信号的处理方法的流程图。
如图3所示,语音信号的处理方法包括以下步骤:
S301,采集噪声样本信号。
具体地,采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号,其中,场景噪声可以是在多个不同场景下采集得到,例如,采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而,采集的噪声样本信号越多,在不同环境下对采集的语音信号进行处理的精确度就越高,语音识别的准确率就越高。
S302,根据噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号。
其中,纯净语音样本信号为安静环境下的语音样本信号,即不包含噪声信号的语音信号。也就是说,通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理,以得到噪声环境下的语音样本信号,即噪声语音样本信号。
应当理解的是,对纯净语音样本信号进行加噪处理可以采用现有的处理方法,为了避免冗余,此处不再复赘。
S303,根据噪声语音样本信号和纯净语音样本信号训练语音模型。
在本发明的一个实施例中,根据噪声语音样本信号和纯净语音信号训练语音模型还包括:提取噪声语音样本信号和纯净语音样本信号的声学特征,并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。
具体地,可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征,并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射,以得到语音模型。
在语音识别过程中,由于语音模型是基于噪声语音样本信号获得,因此能够将噪声环境下的语音信号映射成安静环境下的语音信号,从而准确识别出噪声环境下的语音信号,提高了语音识别的准确率。同时,由于回归神经网络具有较强的鲁棒性,对于未加入训练的场景噪声,同样能够很好的建立起噪声环境下的语音信号至安静环境下的语音信号的映射,从而准确识别出未加入训练的场景噪声下的语音信号,提高了语音识别的准确率。
S304,获取语音训练样本信号。
具体地,在语音识别过程中,即使对噪声环境下采集的语音信号进行预处理,即根据语音模型对语音信号进行去噪处理,但是预处理后的语音信号也还有可能会包括噪声信号,因此,本实施例中根据回归神经网络对用于语音识别的声学模型进行再训练,由此可以使得再训练后的声学模型与预处理后的语音信号更加匹配,进一步提高语音识别的准确性。
其中,语音训练样本信号是用于对声学模型进行再训练时的语音训练数据,语音训练样本信号是噪声环境下的语音信号,既噪声语音训练数据。
S305,根据语音模型对语音训练样本信号进行去噪处理,并根据去噪处理后的语音训练样本信号训练声学模型。
具体地,首先提取语音训练样本的声学特征,然后通过回归神经网络根据语言模型对语音训练样本的声学特征进行映射,将处理后的声学特征对已有的声学模型进行再训练,从而训练出与语音模型处理后的声学特征更加匹配的声学模型。
S306,采集用户录入的语音信号。
具体地,可以通过语音输入设备如麦克风等采集用户的语音信号,然后将采集的语音信号发送至服务端进行语音识别。其中,可以将训练的语音模型存储到语音识别云端,将采集的语音信号发送至云端进行语音识别。
S307,判断语音信号是否包含噪声。
具体地,服务端在接收到用户录入的语音信号后,对用户录入的语音信号进行信噪比估计,以对用户录入的语音信号进行分类。例如,当用户录入的语音信号的信噪比小于一定值时,则判断语音信号包含噪声;当用户录入的语音信号的信噪比大于一定值时,则判断语音信号未包含噪声。
S308,如果语音信号包含噪声,则根据语音模型对语音信号进行去噪处理。
具体地,如果判断语音信号包含噪声,则可以确定语音信号是在噪声环境下录入,此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理,即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。
在本发明的一个实施例中,根据语音模型中保存的该噪声环境中噪声语音样本和纯净语音样本的映射关系,将采集的包含噪声的语音信号转换为不包含噪声的语音信号。
S309,根据声学模型对去噪处理后的语音信号进行语音识别。
具体地,在对用户输入的语音信号进行去噪处理后,通过服务端的解码器进行语音识别,即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码,将语音信号转换为文本信息,然后将识别结果反馈给用户。其中,声学模型是通过对大量纯净语音样本训练获得的。
本发明实施例的语音信号的处理方法,通过语音训练样本对已有的声学模型进行再训练,从而使得再训练后的声学模型与预处理后的语音信号更加匹配,进一步提高语音识别的准确性,提高了语音识别服务的体验。
为了实现上述实施例,本发明还提出一种语音信号的处理装置。
图4是本发明一个实施例的语音信号的处理装置的结构示意图。
如图4所示,语音信号的处理装置包括:第一采集模块10、第一处理模块20和第一训练模块30。
其中,第一采集模块10用于采集噪声样本信号。具体地,第一采集模块10采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号,其中,场景噪声可以是在多个不同场景下采集得到,例如,采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而,第一采集模块10采集的噪声样本信号越多,在不同环境下对采集的语音信号进行处理的精确度就越高,语音识别的准确率就越高。
第一处理模块20用于根据噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号。其中,纯净语音样本信号为安静环境下的语音样本信号,即不包含噪声信号的语音信号。也就是说,第一处理模块20通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理,以得到噪声环境下的语音样本信号,即噪声语音样本信号。
第一训练模块30用于根据噪声语音样本信号和纯净语音样本信号训练语音模型。其中,第一训练模块30提取噪声语音样本信号和纯净语音样本信号的声学特征,并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。具体地,第一训练模块30可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征,并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射,以得到语音模型。
本发明实施例的语音信号的处理装置,根据不同场景的噪声样本和纯净语音样本生成噪声语音样本,并根据噪声语音样本和纯净语音样本训练语音模型,从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号,从而大大提高了在噪声环境下的语音识别的准确性,提升语音识别服务的鲁棒性和语音识别服务的体验。
图5是本发明一个具体实施例的语音信号的处理装置的结构示意图。
如图5所示,语音信号的处理装置包括:第一采集模块10、第一处理模块20、第一训练模块30、第二采集模块40、第二处理模块50和语音识别模块60。
其中,第二采集模块40用于采集用户录入的语音信号。具体地,第二采集模块40可以通过语音输入设备如麦克风等采集用户的语音信号,然后将采集的语音信号发送至服务端进行语音识别。其中,第一训练模块30可以将训练的语音模型存储到语音识别云端,第二采集模块40将采集的语音信号发送至云端进行语音识别。
第二处理模块50用于当语音信号包含噪声时,根据语音模型对语音信号进行去噪处理。具体地,第二处理模块50在接收到第二采集模块40采集的语音信号后,对用户录入的语音信号进行信噪比估计,以对用户录入的语音信号进行分类。例如,当用户录入的语音信号的信噪比小于一定值时,则判断语音信号包含噪声;当用户录入的语音信号的信噪比大于一定值时,则判断语音信号未包含噪声。如果判断语音信号包含噪声,则第二处理模块50可以确定语音信号是在噪声环境下录入,此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理,即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。
语音识别模块60用于根据声学模型对去噪处理后的语音信号进行语音识别。其中,语音识别模块60还用于当语音信号未包含噪声时,根据声学模型对语音信号进行语音识别。具体地,在第二处理模块50对语音信号进行去噪处理后,语音识别模块60通过服务端的解码器进行语音识别,即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码,将语音信号转换为文本信息,然后将识别结果反馈给用户。其中,声学模型是通过对大量纯净语音样本训练获得的。
具体地,如果判断语音信号未包含噪声,则第二处理模块50可以确定语音信号是在安静环境下录入,此时无需第二处理模块50通过语音模型对语音信号进行去噪处理,而是语音识别模块60直接通过服务端的解码器根据声学模型对语音信号进行解码,将语音信号转换为文本信息,然后将识别结果反馈给用户。
本发明实施例的语音信号的处理装置,在语音识别过程中,对噪声环境下录入的语音信号进行预处理,将语音信号转换为安静环境下的语音信号再进行语音识别,而对安静坏境下录入的语音信号直接进行语音识别,由此,不仅能够保证安静环境下语音识别的准确率,而且能够大大提高噪音环境下语音识别的准确率,从而提高语音识别服务的准确率和鲁棒性和服务体验。
图6是本发明另一个具体实施例的语音信号的处理装置的结构示意图。
如图6所示,语音信号的处理装置包括:第一采集模块10、第一处理模块20、第一训练模块30、第二采集模块40、第二处理模块50、语音识别模块60、获取模块70、第三处理模块80和第二训练模块90。
其中,获取模块70用于获取语音训练样本信号。其中,语音训练样本信号是用于对声学模型进行再训练时的语音训练数据,语音训练样本信号是噪声环境下的语音信号,既噪声语音训练数据。
第三处理模块80用于根据语音模型对语音训练样本信号进行去噪处理。第二训练模块90用于根据去噪处理后的语音训练样本信号训练声学模型。具体地,首先第三处理模块80提取语音训练样本的声学特征,然后通过回归神经网络根据语言模型对语音训练样本的声学特征进行映射,第二训练模块90将处理后的声学特征对已有的声学模型进行再训练,从而训练出与语音模型处理后的声学特征更加匹配的声学模型。
本发明实施例的语音信号的处理装置,通过语音训练样本对已有的声学模型进行再训练,从而使得再训练后的声学模型与预处理后的语音信号更加匹配,进一步提高语音识别的准确性,提高了语音识别服务的体验。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种语音信号的处理方法,其特征在于,包括以下步骤:
采集噪声样本信号,其中所述噪声样本信号包括不同的场景噪声;
根据所述噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号;
根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型,所述语音模型包括通过回归神经网络建立的所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系;
采集用户录入的语音信号;
当所述语音信号包含噪声时,根据所述语音模型对所述语音信号进行去噪处理;
根据声学模型对去噪处理后的语音信号进行语音识别,所述声学模型是通过纯净语音样本训练获得的。
2.如权利要求1所述的语音信号的处理方法,其特征在于,根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型还包括:
提取所述噪声语音样本信号和所述纯净语音样本信号的声学特征,并建立所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系。
3.如权利要求1所述的语音信号的处理方法,其特征在于,还包括:
当所述语音信号未包含噪声时,根据所述声学模型对所述语音信号进行语音识别。
4.如权利要求3所述的语音信号的处理方法,其特征在于,还包括:
获取语音训练样本信号;
根据所述语音模型对所述语音训练样本信号进行去噪处理,并根据去噪处理后的所述语音训练样本信号训练所述声学模型。
5.一种语音信号的处理装置,其特征在于,包括:
第一采集模块,用于采集噪声样本信号,其中所述噪声样本信号包括不同的场景噪声;
第一处理模块,用于根据所述噪声样本信号对预存的纯净语音样本信号进行处理,得到具有噪声的噪声语音样本信号;
第一训练模块,用于根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型,所述语音模型包括通过回归神经网络建立的所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系;
第二采集模块,用于采集用户录入的语音信号;
第二处理模块,用于当所述语音信号包含噪声时,根据所述语音模型对所述语音信号进行去噪处理;
语音识别模块,用于根据声学模型对去噪处理后的语音信号进行语音识别,所述声学模型是通过纯净语音样本训练获得的。
6.如权利要求5所述的语音信号的处理装置,其特征在于,所述第一训练模块还用于:
提取所述噪声语音样本信号和所述纯净语音样本信号的声学特征,并建立所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系。
7.如权利要求5所述的语音信号的处理装置,其特征在于,所述语音识别模块还用于当所述语音信号未包含噪声时,根据所述声学模型对所述语音信号进行语音识别。
8.如权利要求7所述的语音信号的处理装置,其特征在于,还包括:
获取模块,用于获取语音训练样本信号;
第三处理模块,用于根据所述语音模型对所述语音训练样本信号进行去噪处理;
第二训练模块,用于根据去噪处理后的所述语音训练样本信号训练所述声学模型。
CN201510866175.5A 2015-11-27 2015-11-27 语音信号的处理方法和装置 Active CN105448303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510866175.5A CN105448303B (zh) 2015-11-27 2015-11-27 语音信号的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510866175.5A CN105448303B (zh) 2015-11-27 2015-11-27 语音信号的处理方法和装置

Publications (2)

Publication Number Publication Date
CN105448303A CN105448303A (zh) 2016-03-30
CN105448303B true CN105448303B (zh) 2020-02-04

Family

ID=55558409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510866175.5A Active CN105448303B (zh) 2015-11-27 2015-11-27 语音信号的处理方法和装置

Country Status (1)

Country Link
CN (1) CN105448303B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409289B (zh) * 2016-09-23 2019-06-28 合肥美的智能科技有限公司 语音识别的环境自适应方法、语音识别装置和家用电器
CN106328126B (zh) * 2016-10-20 2019-08-16 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106557164A (zh) * 2016-11-18 2017-04-05 北京光年无限科技有限公司 应用于智能机器人的多模态输出方法和装置
CN106888392A (zh) * 2017-02-14 2017-06-23 广东九联科技股份有限公司 一种机顶盒自动翻译***及方法
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
CN108022596A (zh) * 2017-11-28 2018-05-11 湖南海翼电子商务股份有限公司 语音信号处理方法及车载电子设备
CN108335694B (zh) 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
CN108428446B (zh) 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
CN110503967B (zh) * 2018-05-17 2021-11-19 ***通信有限公司研究院 一种语音增强方法、装置、介质和设备
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和***
CN109378010A (zh) * 2018-10-29 2019-02-22 珠海格力电器股份有限公司 神经网络模型的训练方法、语音去噪方法及装置
CN109616100B (zh) * 2019-01-03 2022-06-24 百度在线网络技术(北京)有限公司 语音识别模型的生成方法及其装置
CN111862945A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
CN111243573B (zh) * 2019-12-31 2022-11-01 深圳市瑞讯云技术有限公司 一种语音训练方法及装置
CN111081223B (zh) * 2019-12-31 2023-10-13 广州市百果园信息技术有限公司 一种语音识别方法、装置、设备和存储介质
CN110875050B (zh) * 2020-01-17 2020-05-08 深圳亿智时代科技有限公司 用于真实场景的语音数据收集方法、装置、设备及介质
CN111354374A (zh) * 2020-03-13 2020-06-30 北京声智科技有限公司 语音处理方法、模型训练方法及电子设备
CN112201227B (zh) * 2020-09-28 2024-06-28 海尔优家智能科技(北京)有限公司 语音样本生成方法及装置、存储介质、电子装置
CN113053404A (zh) * 2021-03-22 2021-06-29 三一重机有限公司 驾驶室内外交互方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
CN101154383B (zh) * 2006-09-29 2010-10-06 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
CN103000174B (zh) * 2012-11-26 2015-06-24 河海大学 语音识别***中基于快速噪声估计的特征补偿方法
CN104485103B (zh) * 2014-11-21 2017-09-01 东南大学 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Also Published As

Publication number Publication date
CN105448303A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN105448303B (zh) 语音信号的处理方法和装置
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN110415687B (zh) 语音处理方法、装置、介质、电子设备
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
KR102324776B1 (ko) 차량의 소음원인 진단방법
KR101734829B1 (ko) 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버
RU2407074C2 (ru) Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи
CN112509584A (zh) 声源位置确定方法、装置和电子设备
CN103229517A (zh) 包括多个音频传感器的设备及其操作方法
CN1949364A (zh) 检测输入语音信号可识别度的***与方法
JP2010197998A (ja) 音声信号処理システムおよび該システムを備えた自律ロボット
CN111447325A (zh) 通话辅助方法、装置、终端及存储介质
EP2745293B1 (en) Signal noise attenuation
CN110689901B (zh) 语音降噪的方法、装置、电子设备及可读存储介质
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
CN112420079A (zh) 语音端点检测方法和装置、存储介质及电子设备
CN109634554B (zh) 用于输出信息的方法和装置
CN108899041B (zh) 语音信号加噪方法、装置及存储介质
CN115910037A (zh) 语音信号的提取方法、装置、可读存储介质及电子设备
CN110322894B (zh) 一种基于声音的波形图生成及大熊猫检测方法
EP3309777A1 (en) Device and method for audio frame processing
KR101240588B1 (ko) 오디오-영상 융합 음성 인식 방법 및 장치
CN109155883A (zh) 噪声检测和噪声降低

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant