CN116597855A - 自适应降噪的方法、装置和计算机设备 - Google Patents

自适应降噪的方法、装置和计算机设备 Download PDF

Info

Publication number
CN116597855A
CN116597855A CN202310877853.2A CN202310877853A CN116597855A CN 116597855 A CN116597855 A CN 116597855A CN 202310877853 A CN202310877853 A CN 202310877853A CN 116597855 A CN116597855 A CN 116597855A
Authority
CN
China
Prior art keywords
model
noise reduction
classification
target
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310877853.2A
Other languages
English (en)
Other versions
CN116597855B (zh
Inventor
薛兴韩
林宗华
高桂冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zecheng Electronics Co ltd
Original Assignee
Shenzhen Zecheng Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zecheng Electronics Co ltd filed Critical Shenzhen Zecheng Electronics Co ltd
Priority to CN202310877853.2A priority Critical patent/CN116597855B/zh
Publication of CN116597855A publication Critical patent/CN116597855A/zh
Application granted granted Critical
Publication of CN116597855B publication Critical patent/CN116597855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供了一种自适应降噪的方法、装置和计算机设备,包括:获取语音数据;其中,所述语音数据中至少携带有背景声音信息;对所述语音数据进行解析,得到所述背景声音信息;将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;获取所述分类结果对应的标识信息;检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;基于所述目标降噪模型,对所述语音数据进行降噪处理。本发明基于语音数据中背景的不同,确定对应的目标降噪模型进行降噪处理,克服了目前的智能语音设备不能适应背景进行降噪处理的缺陷。

Description

自适应降噪的方法、装置和计算机设备
技术领域
本发明涉及语音降噪技术领域,特别涉及一种自适应降噪的方法、装置和计算机设备。
背景技术
目前,在智能语音设备中,具有语音采集功能;智能语音设备在进行语音采集的同时,会采集到多种噪声对用户的声音产生干扰;为了去除噪声,智能语音设备会进行一些降噪处理,目前的降噪处理方式较为固定,通常只能在部分背景下取得较好的降噪效果,但是在其他背景中则效果不佳;降噪效果不好的情况下,造成智能语音设备的语音采集效果较差。
发明内容
本发明的主要目的为提供一种自适应降噪的方法、装置和计算机设备,旨在解决目前的智能语音设备不能适应背景进行降噪处理的缺陷。
为实现上述目的,本发明提供了一种自适应降噪的方法,包括以下步骤:
获取语音数据;其中,所述语音数据中至少携带有背景声音信息;
对所述语音数据进行解析,得到所述背景声音信息;
将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;
获取所述分类结果对应的标识信息;
检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;
基于所述目标降噪模型,对所述语音数据进行降噪处理。
进一步地,所述根据所述目标标识字段确定对应的目标降噪模型的步骤,包括:
对所述目标标识字段进行解析,得到第一特征信息以及第二特征信息;其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,所述第二特征信息为所述目标标识字段中第二指定位置上的字符信息;
基于数据库中存储的特征信息与降噪模型的对应关系,确定所述第一特征信息对应的目标降噪模型;
向管理终端发送携带有所述第二特征信息的调用指令;其中,所述调用指令用于调用确定出的所述目标降噪模型。
进一步地,所述根据所述目标标识字段确定对应的目标降噪模型的步骤,包括:
基于数据库中存储的标识字段与模型参数集合的对应关系,匹配所述目标标识字段对应的目标模型参数集合;其中,所述目标模型参数集合中包括多个模型参数,所述模型参数至少包括平滑队列长度、平滑机制参数;
随机调用一个降噪模型,并将所述降噪模型中的模型参数对应更换为所述目标模型参数集合中的模型参数,得到所述目标降噪模型。
进一步地,所述分类模型的训练过程,包括:
获取初始的神经网络模型,以及获取训练数据;其中,所述训练数据为背景声音训练数据及其对应的标签;初始的神经网络模型包括特征提取层、编码层、解码层、分类层;
基于所述特征提取层对所述背景声音训练数据进行特征提取,得到第一声音特征;
将所述第一声音特征输入至所述编码层进行编码,得到第一编码特征;并将所述第一编码特征输入至所述解码层进行解码,得到第二声音特征;
将所述第二声音特征输入至所述编码层进行编码,得到第二编码特征;
将所述第一编码特征、第二编码特征以及所述背景声音训练数据对应的标签共同输入至所述分类层进行迭代训练,直至模型收敛得到所述分类模型。
进一步地,所述分类模型的训练过程,包括:
获取第一神经网络模型以及第二神经网络模型,以及获取训练数据;其中,所述训练数据为背景声音训练数据及其对应的标签;所述第一神经网络模型包括特征提取层、编码层、解码层、分类层,所述第二神经网络模型包括特征提取层、编码层、分类层;
基于所述第一神经网络模型的特征提取层对所述背景声音训练数据进行特征提取,得到第一声音特征;
将所述第一声音特征输入至所述第一神经网络模型的编码层进行编码,得到第一编码特征;并将所述第一编码特征输入至所述解码层进行解码,得到第二声音特征;
将所述第二声音特征输入至所述第二神经网络模型的编码层进行编码,得到第二编码特征;
将所述第一编码特征以及所述背景声音训练数据对应的标签输入至所述第一神经网络模型的分类层进行迭代训练,直至模型收敛得到第一分类模型;
将所述第二编码特征以及所述背景声音训练数据对应的标签输入至所述第二神经网络模型的分类层进行迭代训练,直至模型收敛得到第二分类模型;
将测试集分别输入至所述第一分类模型、第二分类模型中进行分类,得到第一分类结果以及第二分类结果;
判断所述第一分类结果以及第二分类结果是否均与所述测试集中的标签相同;若均相同,则将所述第一分类模型作为所述分类模型。
进一步地,所述基于所述目标降噪模型,对所述语音数据进行降噪处理的步骤之后,包括:
获取降噪后的语音数据;
对所述降噪后的语音数据进行文字识别,得到关键词;
在所述语音数据中,获取所述关键词对应的多帧语音数据;
将所述关键词输入至词嵌入模型中,提取所述关键词对应的词向量;依次将所述关键词对应的多帧语音数据输入至预设的神经网络中,提取每帧语音数据对应的向量;
将每帧语音数据对应的向量进行求和,得到和向量;
调整所述预设的神经网络的网络参数,并通过余弦函数对所述和向量与所述词向量进行拟合,以训练预设的神经网络;在所述和向量与所述词向量完成拟合时,得到关键词语音识别模型;其中,所述关键词语音识别模型用于对语音信息进行关键词识别。
本发明还提供了一种自适应降噪的装置,包括:
第一获取单元,用于获取语音数据;其中,所述语音数据中至少携带有背景声音信息;
解析单元,用于对所述语音数据进行解析,得到所述背景声音信息;
分类单元,用于将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;
第二获取单元,用于获取所述分类结果对应的标识信息;
确定单元,用于检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;
降噪单元,用于基于所述目标降噪模型,对所述语音数据进行降噪处理。
进一步地,所述确定单元包括:
解析子单元,用于对所述目标标识字段进行解析,得到第一特征信息以及第二特征信息;其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,所述第二特征信息为所述目标标识字段中第二指定位置上的字符信息;
确定子单元,用于基于数据库中存储的特征信息与降噪模型的对应关系,确定所述第一特征信息对应的目标降噪模型;
调用子单元,用于向管理终端发送携带有所述第二特征信息的调用指令;其中,所述调用指令用于调用确定出的所述目标降噪模型。
进一步地,所述确定单元包括:
匹配子单元,用于基于数据库中存储的标识字段与模型参数集合的对应关系,匹配所述目标标识字段对应的目标模型参数集合;其中,所述目标模型参数集合中包括多个模型参数,所述模型参数至少包括平滑队列长度、平滑机制参数;
更换子单元,用于随机调用一个降噪模型,并将所述降噪模型中的模型参数对应更换为所述目标模型参数集合中的模型参数,得到所述目标降噪模型。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明提供的自适应降噪的方法、装置和计算机设备,包括:获取语音数据;其中,所述语音数据中至少携带有背景声音信息;对所述语音数据进行解析,得到所述背景声音信息;将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;获取所述分类结果对应的标识信息;检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;基于所述目标降噪模型,对所述语音数据进行降噪处理。本发明基于语音数据中背景的不同,确定对应的目标降噪模型进行降噪处理,克服了目前的智能语音设备不能适应背景进行降噪处理的缺陷。
附图说明
图1 是本发明一实施例中自适应降噪的方法步骤示意图;
图2 是本发明一实施例中自适应降噪的装置结构框图;
图3 是本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明一实施例中提供了一种自适应降噪的方法,包括以下步骤:
步骤S1,获取语音数据;其中,所述语音数据中至少携带有背景声音信息;
步骤S2,对所述语音数据进行解析,得到所述背景声音信息;
步骤S3,将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;
步骤S4,获取所述分类结果对应的标识信息;
步骤S5,检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;
步骤S6,基于所述目标降噪模型,对所述语音数据进行降噪处理。
在本实施例中,上述方案应用于智能语音设备上根据语音数据的背景不同,自适应确定对应的降噪模型进行降噪处理。如上述步骤S1所述的,获取需要降噪处理的语音数据,上述语音数据是用户发出的声音,在上述语音数据中至少会携带有当前用户所处背景的背景声音信息,同时还可以携带用户的声音。根据上述背景声音信息可以确定当前用户所处的背景,如安静室内、大街上、公园等。如上述步骤S2-S3所述的,对所述语音数据进行解析,将语音数据进行分解,便可以得到所述背景声音信息以及用户声音。进而,本实施例中还预先训练一个神经网络模型得到分类模型,基于上述分类模型可以对上述背景声音信息进行分类,上述分类指的是背景的分类,即当前用户所处的背景具体为安静室内、大街上、公园中的哪一种。如上述步骤S4所述的,本实施例中,还预设有分类结果与标识信息的对应关系,根据该对应关系,可以获取到上述背景的分类结果所对应的标识信息,采用标识信息替代分类结果进行后续处理,可以适当降低数据处理量,而且便于识别。如上述步骤S5-S6所述的,数据库中预先存储有多个标识字段,检测数据库中是否存在与所述标识信息相同的目标标识字段;若不存在,在采用预先确定好的的一个通用降噪模型进行后续的降噪处理;若存在,则根据所述目标标识字段确定对应的目标降噪模型,进而基于目标降噪模型,对所述语音数据进行降噪处理。在本实施例中,基于上述方案,实现了基于语音数据中背景的不同,确定对应的目标降噪模型进行降噪处理,克服了目前的智能语音设备不能适应背景进行降噪处理的缺陷。
在一实施例中,所述根据所述目标标识字段确定对应的目标降噪模型的步骤S5,包括:
步骤S51,对所述目标标识字段进行解析,得到第一特征信息以及第二特征信息;其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,所述第二特征信息为所述目标标识字段中第二指定位置上的字符信息;
步骤S52,基于数据库中存储的特征信息与降噪模型的对应关系,确定所述第一特征信息对应的目标降噪模型;
步骤S53,向管理终端发送携带有所述第二特征信息的调用指令;其中,所述调用指令用于调用确定出的所述目标降噪模型。
在本实施例中,如上述步骤S51所述的,上述目标标识字段中包括多个字符,不同位置上的字符进行组合时,得到不同的特征信息。其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,上述第二特征信息为所述目标标识字段中第二指定位置上的字符信息。具体地,上述第一指定位置可以为首部三位,第二指定位置可以是首部两位与尾部两位的组合。如上述步骤S52、S53所述的,数据库中存储有特征信息与降噪模型的对应关系,根据上述对应关系,便可以确定出第一特征信息对应的目标降噪模型,上述目标降噪模型通常存储于管理终端或者数据库中,确定出上述目标降噪模型之后,需要发出相应的调用指令以调用上述目标降噪模型,而在调用时,需要同时发送上述第二特征信息,以便管理终端接收到上述调用指令中的上述第二特征信息之后,可以对此次的调用请求进行标记;由于上述第二特征信息是上述目标标识字段中的信息,对应于背景声音信息的分类结果所对应的标识信息,也就是说,可以将此背景声音信息与上述调用请求进行关联,便于后续进行稽查或者数据跟踪。进一步地,也便于将上述背景声音信息直接与上述目标降噪模型进行关联。
在另一实施例中,所述根据所述目标标识字段确定对应的目标降噪模型的步骤S5,包括:
步骤S501,基于数据库中存储的标识字段与模型参数集合的对应关系,匹配所述目标标识字段对应的目标模型参数集合;其中,所述目标模型参数集合中包括多个模型参数,所述模型参数至少包括平滑队列长度、平滑机制参数;在本实施例中,不同的标识字段对应不同的模型参数集合,根据上述目标标识字段,便可以匹配到对应的目标模型参数集合,其中,目标模型参数集合中至少包括平滑队列长度、平滑机制参数、阈值大小、损失函数等多个模型参数。
步骤S502,随机调用一个降噪模型,并将所述降噪模型中的模型参数对应更换为所述目标模型参数集合中的模型参数,得到所述目标降噪模型。在本实施例中,由于上述目标模型参数集合描述的是对应目标标识字段的模型参数,而上述目标标识字段与当前的背景所关联,因此,上述目标模型参数集合与上述背景所关联,也就是说,不同的背景下可以对应不同的目标模型参数集合,使得基于上述语音数据中背景的不同,自适应确定出上述目标降噪模型,克服了目前的智能语音设备不能适应背景进行降噪处理的缺陷。
在一实施例中,所述分类模型的训练过程,包括:
获取初始的神经网络模型,以及获取训练数据;其中,所述训练数据为背景声音训练数据及其对应的标签;初始的神经网络模型包括特征提取层、编码层、解码层、分类层;上述神经网络模型包括CNN、RNN模型。上述编码层以及解码层的工作是一个互逆的流程,分类层采用损失函数用于对特征进行分类。
基于所述特征提取层对所述背景声音训练数据进行特征提取,得到第一声音特征;上述特征提取层包括卷积层,其提取的是背景声音训练数据中的低维特征;
将所述第一声音特征输入至所述编码层进行编码,得到第一编码特征;并将所述第一编码特征输入至所述解码层进行解码,得到第二声音特征;上述编码层将低维特征转换为高维特征(即第一编码特征),而上述解码层可以将高维特征重新转换为低维特征。应当注意的是,上述编码层在进行编码时,只关注上述第一声音特征中与背景所关联的特征,而其它和背景无关的人声则不是上述编码层所关注的。也就是说,上述第一声音特征中包括有背景声音特征以及其它声音特征(噪声),而上述第一编码特征中包括背景声音特征;上述第二声音特征中也只包括背景声音特征,相对第一声音特征,上述第二声音特征更加纯净。
将所述第二声音特征输入至所述编码层进行编码,得到第二编码特征;
将所述第一编码特征、第二编码特征以及所述背景声音训练数据对应的标签共同输入至所述分类层进行迭代训练,直至模型收敛得到所述分类模型。
在本实施例中,由于第二声音特征更加纯净,将其输入至所述编码层进行编码,得到第二编码特征也相对更加优良,再将所述第一编码特征、第二编码特征以及所述背景声音训练数据对应的标签共同输入至所述分类层进行迭代训练,不仅提升了模型训练的数据量,同时还采用了更加纯净的特征进行训练,可以适当模型最终训练得到的效果更好。
在又一实施例中,所述分类模型的训练过程,包括:
获取第一神经网络模型以及第二神经网络模型,以及获取训练数据;其中,所述训练数据为背景声音训练数据及其对应的标签;所述第一神经网络模型包括特征提取层、编码层、解码层、分类层,所述第二神经网络模型包括特征提取层、编码层、分类层;上述神经网络模型包括CNN、RNN模型。上述编码层以及解码层的工作是一个互逆的流程。
基于所述第一神经网络模型的特征提取层对所述背景声音训练数据进行特征提取,得到第一声音特征;上述特征提取层包括卷积层,其提取的是背景声音训练数据中的低维特征;
将所述第一声音特征输入至所述第一神经网络模型的编码层进行编码,得到第一编码特征;并将所述第一编码特征输入至所述解码层进行解码,得到第二声音特征;上述编码层将低维特征转换为高维特征(即第一编码特征),而上述解码层可以将高维特征重新转换为低维特征。应当注意的是,上述编码层在进行编码时,只关注上述第一声音特征中与背景所关联的特征,而其它和背景无关的人声则不是上述编码层所关注的。也就是说,上述第一声音特征中包括有背景声音特征以及其它声音特征(噪声),而上述第一编码特征中包括背景声音特征;上述第二声音特征中也只包括背景声音特征,相对第一声音特征,上述第二声音特征更加纯净。
将所述第二声音特征输入至所述第二神经网络模型的编码层进行编码,得到第二编码特征;
将所述第一编码特征以及所述背景声音训练数据对应的标签输入至所述第一神经网络模型的分类层进行迭代训练,直至模型收敛得到第一分类模型;
将所述第二编码特征以及所述背景声音训练数据对应的标签输入至所述第二神经网络模型的分类层进行迭代训练,直至模型收敛得到第二分类模型;在本实施例中,由于第二声音特征更加纯净,将其输入至所述编码层进行编码,得到第二编码特征也相对更加优良,进而将其输入至第二神经网络模型的分类层进行迭代训练,相对采用第一编码特征进行训练而言,具有更好的训练效果。
将测试集分别输入至所述第一分类模型、第二分类模型中进行分类,得到第一分类结果以及第二分类结果;
判断所述第一分类结果以及第二分类结果是否均与所述测试集中的标签相同;若均相同,则将所述第一分类模型作为所述分类模型。
在本实施例中,为了测试上述第一分类模型、第二分类模型的有效性,将测试集输入第一分类模型、第二分类模型进行结果预测,若第一分类结果以及第二分类结果是否均与所述测试集中的标签相同,则表明第一分类模型、第二分类模型的置信度较高。此时,可以将所述第一分类模型作为所述分类模型。本实施例中选择将所述第一分类模型作为所述分类模型的原因在于,虽然上述第二分类模型的模型训练效果更好,但是其针对的是纯净的背景特征;而在实际处理过程中,通常很难有纯净的背景声音,因此,采用第一分类模型作为所述分类模型。上述第二分类模型的作用主要在于验证第一分类模型的置信度。
在一个实施例中,还提出了一种基于上述降噪后的语音数据进行关键词语音识别模型的训练方式,上述关键词语音识别模型用于对语音信息进行关键词识别。
具体地,所述基于所述目标降噪模型,对所述语音数据进行降噪处理的步骤S6之后,包括:
获取降噪后的语音数据;经过降噪之后,上述语音数据较为纯净,通常只包括用户的声音数据。
对所述降噪后的语音数据进行文字识别,得到关键词;上述语音数据中可能包括很多文字内容,本实施例中只关注一些特定的关键词。
在所述语音数据中,获取所述关键词对应的多帧语音数据;每个关键词对应的语音中具备一定的时长,在该时长内可以对应有多帧语音数据。
将所述关键词输入至词嵌入模型中,提取所述关键词对应的词向量;依次将所述关键词对应的多帧语音数据输入至预设的神经网络中,提取每帧语音数据对应的向量;在本实施例中,训练神经网络时,不仅需要考虑关键词对应的多帧语音数据的语音特征,同时还需要考虑到关键词的语义特征;即不仅要提取每帧语音数据对应的向量,还需要提取关键词对应的词向量。
将每帧语音数据对应的向量进行求和,得到和向量;由于多帧语音数据对应一个关键词,因此,需要将每帧语音数据对应的向量进行求和,得到和向量。
调整所述预设的神经网络的网络参数,并通过余弦函数对所述和向量与所述词向量进行拟合,以训练预设的神经网络;在所述和向量与所述词向量完成拟合时,得到关键词语音识别模型;其中,所述关键词语音识别模型用于对语音信息进行关键词识别。在本实施例中,在训练神经网络时,不断迭代调整神经网络的网络参数,使得和向量与所述词向量进行拟合,即使得和向量与词向量的近似度达到阈值,直至模型收敛之后,得到上述关键词语音识别模型。在本实施例中,充分利用上述降噪处理后的语音数据进行模型训练,拓展了数据的多场景应用,降低了获取训练数据的难度。
参照图2,本发明一实施例中还提供了一种自适应降噪的装置,包括:
第一获取单元,用于获取语音数据;其中,所述语音数据中至少携带有背景声音信息;
解析单元,用于对所述语音数据进行解析,得到所述背景声音信息;
分类单元,用于将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;
第二获取单元,用于获取所述分类结果对应的标识信息;
确定单元,用于检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;
降噪单元,用于基于所述目标降噪模型,对所述语音数据进行降噪处理。
在一实施例中,所述确定单元包括:
解析子单元,用于对所述目标标识字段进行解析,得到第一特征信息以及第二特征信息;其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,所述第二特征信息为所述目标标识字段中第二指定位置上的字符信息;
确定子单元,用于基于数据库中存储的特征信息与降噪模型的对应关系,确定所述第一特征信息对应的目标降噪模型;
调用子单元,用于向管理终端发送携带有所述第二特征信息的调用指令;其中,所述调用指令用于调用确定出的所述目标降噪模型。
在一实施例中,所述确定单元包括:
匹配子单元,用于基于数据库中存储的标识字段与模型参数集合的对应关系,匹配所述目标标识字段对应的目标模型参数集合;其中,所述目标模型参数集合中包括多个模型参数,所述模型参数至少包括平滑队列长度、平滑机制参数;
更换子单元,用于随机调用一个降噪模型,并将所述降噪模型中的模型参数对应更换为所述目标模型参数集合中的模型参数,得到所述目标降噪模型。
在本实施例中,上述装置实施例中的各个单元、子单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储降噪模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自适应降噪的方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种自适应降噪的方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本发明实施例中提供的自适应降噪的方法、装置和计算机设备,包括:获取语音数据;其中,所述语音数据中至少携带有背景声音信息;对所述语音数据进行解析,得到所述背景声音信息;将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;获取所述分类结果对应的标识信息;检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;基于所述目标降噪模型,对所述语音数据进行降噪处理。本发明基于语音数据中背景的不同,确定对应的目标降噪模型进行降噪处理,克服了目前的智能语音设备不能适应背景进行降噪处理的缺陷。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种自适应降噪的方法,其特征在于,包括以下步骤:
获取语音数据;其中,所述语音数据中至少携带有背景声音信息;
对所述语音数据进行解析,得到所述背景声音信息;
将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;
获取所述分类结果对应的标识信息;
检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;
基于所述目标降噪模型,对所述语音数据进行降噪处理。
2.根据权利要求1所述的自适应降噪的方法,其特征在于,所述根据所述目标标识字段确定对应的目标降噪模型的步骤,包括:
对所述目标标识字段进行解析,得到第一特征信息以及第二特征信息;其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,所述第二特征信息为所述目标标识字段中第二指定位置上的字符信息;
基于数据库中存储的特征信息与降噪模型的对应关系,确定所述第一特征信息对应的目标降噪模型;
向管理终端发送携带有所述第二特征信息的调用指令;其中,所述调用指令用于调用确定出的所述目标降噪模型。
3.根据权利要求1所述的自适应降噪的方法,其特征在于,所述根据所述目标标识字段确定对应的目标降噪模型的步骤,包括:
基于数据库中存储的标识字段与模型参数集合的对应关系,匹配所述目标标识字段对应的目标模型参数集合;其中,所述目标模型参数集合中包括多个模型参数,所述模型参数至少包括平滑队列长度、平滑机制参数;
随机调用一个降噪模型,并将所述降噪模型中的模型参数对应更换为所述目标模型参数集合中的模型参数,得到所述目标降噪模型。
4.根据权利要求1所述的自适应降噪的方法,其特征在于,所述分类模型的训练过程,包括:
获取初始的神经网络模型,以及获取训练数据;其中,所述训练数据为背景声音训练数据及其对应的标签;初始的神经网络模型包括特征提取层、编码层、解码层、分类层;
基于所述特征提取层对所述背景声音训练数据进行特征提取,得到第一声音特征;
将所述第一声音特征输入至所述编码层进行编码,得到第一编码特征;并将所述第一编码特征输入至所述解码层进行解码,得到第二声音特征;
将所述第二声音特征输入至所述编码层进行编码,得到第二编码特征;
将所述第一编码特征、第二编码特征以及所述背景声音训练数据对应的标签共同输入至所述分类层进行迭代训练,直至模型收敛得到所述分类模型。
5.根据权利要求1所述的自适应降噪的方法,其特征在于,所述分类模型的训练过程,包括:
获取第一神经网络模型以及第二神经网络模型,以及获取训练数据;其中,所述训练数据为背景声音训练数据及其对应的标签;所述第一神经网络模型包括特征提取层、编码层、解码层、分类层,所述第二神经网络模型包括特征提取层、编码层、分类层;
基于所述第一神经网络模型的特征提取层对所述背景声音训练数据进行特征提取,得到第一声音特征;
将所述第一声音特征输入至所述第一神经网络模型的编码层进行编码,得到第一编码特征;并将所述第一编码特征输入至所述解码层进行解码,得到第二声音特征;
将所述第二声音特征输入至所述第二神经网络模型的编码层进行编码,得到第二编码特征;
将所述第一编码特征以及所述背景声音训练数据对应的标签输入至所述第一神经网络模型的分类层进行迭代训练,直至模型收敛得到第一分类模型;
将所述第二编码特征以及所述背景声音训练数据对应的标签输入至所述第二神经网络模型的分类层进行迭代训练,直至模型收敛得到第二分类模型;
将测试集分别输入至所述第一分类模型、第二分类模型中进行分类,得到第一分类结果以及第二分类结果;
判断所述第一分类结果以及第二分类结果是否均与所述测试集中的标签相同;若均相同,则将所述第一分类模型作为所述分类模型。
6.根据权利要求1所述的自适应降噪的方法,其特征在于,所述基于所述目标降噪模型,对所述语音数据进行降噪处理的步骤之后,包括:
获取降噪后的语音数据;
对所述降噪后的语音数据进行文字识别,得到关键词;
在所述语音数据中,获取所述关键词对应的多帧语音数据;
将所述关键词输入至词嵌入模型中,提取所述关键词对应的词向量;依次将所述关键词对应的多帧语音数据输入至预设的神经网络中,提取每帧语音数据对应的向量;
将每帧语音数据对应的向量进行求和,得到和向量;
调整所述预设的神经网络的网络参数,并通过余弦函数对所述和向量与所述词向量进行拟合,以训练预设的神经网络;在所述和向量与所述词向量完成拟合时,得到关键词语音识别模型;其中,所述关键词语音识别模型用于对语音信息进行关键词识别。
7.一种自适应降噪的装置,其特征在于,包括:
第一获取单元,用于获取语音数据;其中,所述语音数据中至少携带有背景声音信息;
解析单元,用于对所述语音数据进行解析,得到所述背景声音信息;
分类单元,用于将所述背景声音信息,输入至分类模型中进行分类,得到对应的分类结果;其中,所述分类模型为预先训练完成的神经网络模型;
第二获取单元,用于获取所述分类结果对应的标识信息;
确定单元,用于检测数据库中是否存在与所述标识信息相同的目标标识字段;若存在,则根据所述目标标识字段确定对应的目标降噪模型;
降噪单元,用于基于所述目标降噪模型,对所述语音数据进行降噪处理。
8.根据权利要求7所述的自适应降噪的装置,其特征在于,所述确定单元包括:
解析子单元,用于对所述目标标识字段进行解析,得到第一特征信息以及第二特征信息;其中,所述第一特征信息为所述目标标识字段中第一指定位置上的字符信息,所述第二特征信息为所述目标标识字段中第二指定位置上的字符信息;
确定子单元,用于基于数据库中存储的特征信息与降噪模型的对应关系,确定所述第一特征信息对应的目标降噪模型;
调用子单元,用于向管理终端发送携带有所述第二特征信息的调用指令;其中,所述调用指令用于调用确定出的所述目标降噪模型。
9.根据权利要求7所述的自适应降噪的装置,其特征在于,所述确定单元包括:
匹配子单元,用于基于数据库中存储的标识字段与模型参数集合的对应关系,匹配所述目标标识字段对应的目标模型参数集合;其中,所述目标模型参数集合中包括多个模型参数,所述模型参数至少包括平滑队列长度、平滑机制参数;
更换子单元,用于随机调用一个降噪模型,并将所述降噪模型中的模型参数对应更换为所述目标模型参数集合中的模型参数,得到所述目标降噪模型。
10.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
CN202310877853.2A 2023-07-18 2023-07-18 自适应降噪的方法、装置和计算机设备 Active CN116597855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310877853.2A CN116597855B (zh) 2023-07-18 2023-07-18 自适应降噪的方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310877853.2A CN116597855B (zh) 2023-07-18 2023-07-18 自适应降噪的方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN116597855A true CN116597855A (zh) 2023-08-15
CN116597855B CN116597855B (zh) 2023-09-29

Family

ID=87590345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310877853.2A Active CN116597855B (zh) 2023-07-18 2023-07-18 自适应降噪的方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN116597855B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895011A (zh) * 2017-11-03 2018-04-10 携程旅游网络技术(上海)有限公司 会话信息的处理方法、***、存储介质和电子设备
CN111028841A (zh) * 2020-03-10 2020-04-17 深圳市友杰智新科技有限公司 唤醒***调节参数的方法、装置、计算机设备和存储介质
CN111223476A (zh) * 2020-04-23 2020-06-02 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN113160844A (zh) * 2021-04-27 2021-07-23 山东省计算中心(国家超级计算济南中心) 基于噪声背景分类的语音增强方法及***
CN113345460A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 音频信号处理方法、装置、设备及存储介质
CN114237937A (zh) * 2021-12-17 2022-03-25 威创集团股份有限公司 一种多线程的数据传输方法和装置
CN114373449A (zh) * 2022-01-18 2022-04-19 海信电子科技(武汉)有限公司 智能设备、服务器及语音交互方法
CN114999525A (zh) * 2022-02-28 2022-09-02 四川天中星航空科技有限公司 一种基于神经网络的轻量环境声音识别方法
KR102466061B1 (ko) * 2021-07-02 2022-11-10 가천대학교 산학협력단 계층적 생성 적대 네트워크를 이용한 노이즈 제거 장치 및 그 방법
CN115881126A (zh) * 2023-02-22 2023-03-31 广东浩博特科技股份有限公司 基于语音识别的开关控制方法、装置和开关设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895011A (zh) * 2017-11-03 2018-04-10 携程旅游网络技术(上海)有限公司 会话信息的处理方法、***、存储介质和电子设备
CN111028841A (zh) * 2020-03-10 2020-04-17 深圳市友杰智新科技有限公司 唤醒***调节参数的方法、装置、计算机设备和存储介质
CN111223476A (zh) * 2020-04-23 2020-06-02 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN113160844A (zh) * 2021-04-27 2021-07-23 山东省计算中心(国家超级计算济南中心) 基于噪声背景分类的语音增强方法及***
KR102466061B1 (ko) * 2021-07-02 2022-11-10 가천대학교 산학협력단 계층적 생성 적대 네트워크를 이용한 노이즈 제거 장치 및 그 방법
CN113345460A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 音频信号处理方法、装置、设备及存储介质
CN114237937A (zh) * 2021-12-17 2022-03-25 威创集团股份有限公司 一种多线程的数据传输方法和装置
CN114373449A (zh) * 2022-01-18 2022-04-19 海信电子科技(武汉)有限公司 智能设备、服务器及语音交互方法
CN114999525A (zh) * 2022-02-28 2022-09-02 四川天中星航空科技有限公司 一种基于神经网络的轻量环境声音识别方法
CN115881126A (zh) * 2023-02-22 2023-03-31 广东浩博特科技股份有限公司 基于语音识别的开关控制方法、装置和开关设备

Also Published As

Publication number Publication date
CN116597855B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
CN110472224B (zh) 服务质量的检测方法、装置、计算机设备和存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN111104495A (zh) 基于意图识别的信息交互方法、装置、设备和存储介质
CN114245203B (zh) 基于剧本的视频剪辑方法、装置、设备及介质
CN112037799B (zh) 语音中断处理方法、装置、计算机设备和存储介质
CN113192516B (zh) 语音角色分割方法、装置、计算机设备及存储介质
CN111243603B (zh) 声纹识别方法、***、移动终端及存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111191032A (zh) 语料扩充方法、装置、计算机设备和存储介质
CN110738061B (zh) 古诗词生成方法、装置、设备及存储介质
CN114120978A (zh) 情绪识别模型训练、语音交互方法、装置、设备及介质
CN113506575B (zh) 流式语音识别的处理方法、装置和计算机设备
CN113571096B (zh) 语音情绪分类模型训练方法、装置、计算机设备及介质
CN113569021B (zh) 用户分类的方法、计算机设备和可读存储介质
CN116597855B (zh) 自适应降噪的方法、装置和计算机设备
CN116110112B (zh) 基于人脸识别的智能开关的自适应调节方法以及装置
CN115881126B (zh) 基于语音识别的开关控制方法、装置和开关设备
CN115497484B (zh) 语音解码结果处理方法、装置、设备及存储介质
CN113792166B (zh) 信息获取方法、装置、电子设备及存储介质
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN113113001A (zh) 人声激活检测方法、装置、计算机设备和存储介质
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN112766052A (zh) 基于ctc的图像文字识别方法及装置
CN111916073B (zh) 机器人外呼控制方法和装置、服务器、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant