CN117037834A - 一种会议语音数据智能采集方法及*** - Google Patents
一种会议语音数据智能采集方法及*** Download PDFInfo
- Publication number
- CN117037834A CN117037834A CN202311287758.3A CN202311287758A CN117037834A CN 117037834 A CN117037834 A CN 117037834A CN 202311287758 A CN202311287758 A CN 202311287758A CN 117037834 A CN117037834 A CN 117037834A
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- target
- value
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 79
- 238000012937 correction Methods 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000013480 data collection Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 10
- 230000011218 segmentation Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音增强处理技术领域,具体涉及一种会议语音数据智能采集方法及***。本发明通过把会议语音数据转化为语谱图,进而提取会议语音数据的时域和频域特征;进一步通过频域局部极大值获取频率规律程度,并通过目标时刻变化周期内其他采样时刻的频率规律程度进行修正,获得结合时域和频域特征的修正规律程度;进一步结合时窗长度和修正规律程度,获得目标程度;进一步根据目标程度和采样时刻值对会议语音数据进行自适应分割,最后通过DFA算法去除会议语音数据的漂移噪声。本发明提升了采集到的会议语音数据的准确性和可靠性,使得语音信号更加清晰,质量更高。
Description
技术领域
本发明涉及语音增强处理技术领域,具体涉及一种会议语音数据智能采集方法及***。
背景技术
通过对会议语音数据采集可以记录会议中的语音内容,可以更方便地用于进行后续的分析和处理,消除了繁琐的手动记录过程,确保会议内容的准确性和完整性,并提供后续查阅的便利性。但对所采集到的数据进行分析时,数据的质量会对语音处理造成较大的影响。
针对采集到的音频数据中包含的长期漂移噪声,可以采用去趋势分析(DetrendedFluctuation Analysis,DFA)的方法进行音频数据的去噪,传统的DFA算法采用的是等距区间,进而对各区间内的趋势线进行拟合分析。但会议语音数据因为其自身的特点,在时域中局部峰值和局部平缓交替出现,采用等距区间进行分析,无法获得准确的趋势估计,去除漂移噪声效果不好,影响采集到的音频数据数据质量。
发明内容
为了解决传统DFA算法对会议语音数据去噪效果不理想的技术问题,本发明的目的在于提供一种会议语音数据智能采集方法及***,所采用的技术方案具体如下:
本发明提出了一种会议语音数据智能采集方法,方法包括:
获取会议语音数据,根据所述会议语音数据获得不同时窗长度的语谱图;获取所述语谱图的幅频曲线和幅时曲线,选择所述语谱图中任意时刻作为目标时刻;
在每个所述语谱图中,根据所述目标时刻对应的幅频曲线的变化趋势,获得频率规律程度;
在每个所述语谱图中,获取所述幅时曲线的变化周期;在所述目标时刻为中心的所述变化周期内,根据所有频率下所述目标时刻与其他采样时刻之间时域幅值的差异,获得整体幅值差异;根据所述整体幅值差异和变化周期内所有采样时刻的频率规律程度对所述目标时刻的所述频率规律程度进行修正,获得修正规律程度;
获取所述目标时刻在所有所述语谱图中对应的所述修正规律程度;根据所述时窗长度和所有所述修正规律程度获得所述目标时刻的目标程度;改变目标时刻,获得所有采样时刻对应的所述目标程度;根据每个采样时刻下的所述目标程度获取参考距离;根据所述参考距离对所述会议语音数据进行分割,获得时间子区间;
根据所有所述时间子区间利用去趋势波动分析算法去除所述会议语音数据中的漂移噪声,获得去噪后的会议语音数据。
进一步地,所述频率规律程度的获取方法包括:
若幅频曲线上的点的幅度值大于等于预设频率邻域内其余各点的幅度值,则作为一个频域局部极大值点;将频率从小到大对幅频曲线进行遍历,获取所有频域局部极大值;
将所述频域局部极大值与其后续两个频率相邻的频域局部极大值点作为一个频率组;所述频率组中,根据对应的频率由小到大分别为:第一频率值、第二频率值和第三频率值;
将所述第二频率值与所述第一频率值对应的频率的差值作为第一频率差值;将所述第三频率值与所述第二频率值对应的频率的差值作为第二频率差值;将所述第一频率差值与第二频率差值的差值绝对值作为分母参数;根据所述分母参数与所述第一频率值对应的幅度值获取子频率规律程度,其中所述分母参数与所述子频率规律程度呈负相关关系,所述第一频率值对应的幅度值与所述子频率规律程度呈正相关关系;
遍历所有所述频率组,将所有频率组的所述子频率规律程度求和,求和结果作为频率规律程度。
进一步地,所述变化周期的获取方法包括:
根据预设时间邻域长度以所述目标时刻为中心,截取所述幅时曲线,获得局部幅时曲线;
任选一个频率作为目标频率,若所述目标频率对应的局部幅时曲线上的点的幅度值大于等于预设时间跨度内其余各点的幅度值,则作为一个时域局部极大值点;改变目标频率,获得所有时域局部极大值点;
将所述目标频率对应的时域局部极大值点在幅时曲线的时间轴上间隔的均值作为变化周期参数;改变目标频率,获取所有所述变化周期参数;将所有所述变化周期参数的均值作为变化周期。
进一步地,所述整体幅值差异的获取方法包括:
获取相同频率下,所述变化周期内其他采样时刻的幅度值和所述目标时刻的幅度值的差异作为幅值差异参数;将所有不同频率下的所有所述幅值差异参数的均值作为采样时刻和目标时刻的整体幅值差异。
进一步地,所述修正规律程度的获取方法包括:
将所述整体幅值差异负相关映射并归一化,获得修正参数;获取所述变化周期内所有采样时刻的所述频率规律程度作为比对参数;将所述目标时刻的所述频率规律程度与所述比对参数的差乘以采样时刻对应的所述修正参数,乘积作为此采样时刻的修正因子;将所述变化周期内所有采样时刻的所述修正因子的均值作为时域修正因子;将所述目标时刻的所述频率规律程度与所述时域修正因子的差作为修正规律程度。
进一步地,所述目标程度的获取方法包括:
获取所有时窗长度的种类累加之和作为时窗权重参数;以所述修正规律程度对应的时窗长度与所述时窗权重参数的商作为时窗权重;将每个时窗长度的所述时窗权重与其对应的时窗长度的所述修正规律程度相乘,获得初始目标程度;将所有时窗长度对应的所述初始目标程度求和,获得目标时刻的目标程度。
进一步地,所述参考距离的获取方法包括:
将所有所述目标程度归一化处理,获得归一化目标程度;将采样时刻的所述归一化目标程度作为纵坐标、采样时刻的时间值作为横坐标,构建参考平面;将不同采样时刻在所述参考平面对应的点之间的欧氏距离作为参考距离。
进一步地,所述时间子区间的获取方法包括:
根据所有所述参考距离利用聚类算法对所有采样时刻进行聚类,获取聚类结果,将所述聚类结果投影到时间平面内,将时间点相连且属于同一类聚类结果的采样时刻划分到同一区间内,获得多个时间子区间。
进一步地,所述预设频率邻域长度为100Hz。
本发明还提出了一种会议语音数据智能采集***,所述***包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述方法的步骤。
本发明具有如下有益效果:
获取语谱图的幅频曲线和幅时曲线,可以根据语谱图分析会议语音数据的时域特征和频域特征,为后续提取频域和时域的特征奠定了基础;根据幅频曲线的变化趋势获得的频率规律程度,有助于从语音信号中提取有关频率分布和规律的信息,可以提升语音信号分析准确性;通过获取幅时曲线的变化周期,可以做到既不会损失数据特征,又可以减少计算量;进一步获取目标时刻与其他采样时刻之间的整体幅值差异,将整体幅值差异作为可信度参数,避免仅考虑其他采样时刻之间的频率规律程度对目标时刻的频率规律程度进行修正时,修正结果偏差过大;进一步通过整体幅值差异和变化周期内所有采样时刻的频率规律程度对目标时刻的频率规律程度进行修正,为频率规律程度补充时域特征,使修正规律程度兼具时域和频域特征,更加全面的表述会议语音数据的特性,增加方法的鲁棒性;进一步根据所有时窗长度和对应的修正规律程度获取目标程度,将频率规律性随时窗长度变化而变化的特点融入目标程度,使得目标程度更加准确;进一步根据由目标程度获取的参考距离对会议语音数据进行分割,实现根据数据本身变化特征的自适应分割,提升后续去趋势波动分析算法的去噪效果;最后根据分割得到的时间子区间利用去趋势波动分析算法,去除所述会议语音数据中的漂移噪声,提升采集到的会议语音数据的准确性,增强信号特征,便于后续利用更清晰和更高质量的会议语音数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种会议语音数据智能采集方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种会议语音数据智能采集方法及***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种会议语音数据智能采集方法及***的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种会议语音数据智能采集方法的流程图,具体包括:
步骤S1:获取会议语音数据,根据会议语音数据获得不同时窗长度的语谱图;获取语谱图的幅频曲线和幅时曲线,选择语谱图中任意时刻作为目标时刻。
语谱图将时域信息、频域信息、幅度值信息综合到一张图中,能够完整地反映会议语音数据的所有特征,所以根据会议语音数据获得不同时窗长度的语谱图。在本发明一个实施例中,所采用的时窗长度分别为。其中较长的时窗长度得到的语谱图为窄带语谱图,可以提供更高的频率分辨率,更好的区分频率成分;较短的时窗长度得到的语谱图为宽带语谱图,可以提供更高的时间分辨率,更好的捕捉时间上的变化。获取语谱图的幅频曲线和幅时曲线。需要说明的是,将语音数据转化为语谱图的操作,以及根据语谱图获取幅频曲线和幅时曲线的操作,已是本领域技术人员所熟知的,在此不再进行赘述。
进一步选择语谱图中任意时刻作为目标时刻,以便进行后续处理。需要说明的是,每个时刻均可作为目标时刻,对每个目标时刻的处理方法都是相同的,后续描述仅以某一个目标时刻进行举例说明。
步骤S2:在每个所述语谱图中,根据所述目标时刻对应的幅频曲线的变化趋势,获得频率规律程度。
根据幅频曲线变化趋势获得的频率规律程度代表了目标时刻的频域特征,频率规律程度越大,说明目标时刻的幅频曲线变化趋势更加明显和稳定,周期性越强,表示语音信号在频域上存在清晰和稳定的特征;频率规律程度越小,说明目标时刻的幅频曲线的变化趋势相对不明显,缺乏明确的周期性,表明信号在频域上的能量分布相对不稳定;所以可以通过获取频率规律程度分析语音信号频域上的音频特点,有利于分离噪声和语音信号。
优选地,在本发明一个实施例中,若幅频曲线上的点的幅度值大于等于预设频率邻域内其余各点的幅度值,则作为一个频域局部极大值点;将频率从小到大对幅频曲线进行遍历,获取所有频域局部极大值;将频域局部极大值与其后续两个频率相邻的频域局部极大值点作为一个频率组;频率组中,根据对应的频率由小到大分别为:第一频率值、第二频率值和第三频率值;将第二频率值与第一频率值对应的频率的差值作为第一频率差值;将第三频率值与第二频率值对应的频率的差值作为第二频率差值;将第一频率差值与第二频率差值的差值绝对值作为分母参数;根据分母参数与第一频率值对应的幅度值获取子频率规律程度,其中分母参数与子频率规律程度呈负相关关系,第一频率值对应的幅度值与子频率规律程度呈正相关关系;遍历所有频率组,将所有频率组的子频率规律程度求和,求和结果作为频率规律程度。获取频率规律程度的计算公式包括:
其中,表示目标时刻/>的频率规律程度;/>表示目标时刻/>的频域局部极大值的个数;/>表示第/>个频域局部极大值;/>表示第一频率值;/>表示第二频率值;/>表示第三频率值;/>表示分母参数;/>表示第/>个频域局部极大值对应的幅度值;/>是除零参数,避免分式的分母为零,在本发明一个实施例中取0.01;/>表示时窗长度为。
频率规律程度的计算公式中,当目标时刻的频率规律程度较高时,则会出现频域局部极大值以近似周期的方式出现,相邻的频域局部极大值点的间距变化越平稳,分母参数就越小,频率规律程度就越大;会议语音数据中发音的时刻与不发音的时刻的幅值差异较大,为了放大发音时刻的规律程度,用幅度值对分母参数进行加权,幅度值/>越大,频率规律程度就越大。
在本发明一个实施例中,预设频率邻域以待判断频率点为中心,预设频率邻域长度取100Hz。
对于频率规律程度来说,仅考虑了目标时刻的幅度值随着频率变化的周期特征,没有考虑相邻时刻的幅度值是否变化,仅依据频域上的规律性进行聚类,可能会导致聚类结果不准确,导致部分频率规律程度较高的时刻被独立出来,划分的时间区间不够准确,进而使得DFA去趋势处理结果不准确,影响去噪效果,所以还需要根据时域上的特征,进一步修正频率规律程度。
步骤S3:在每个语谱图中,获取幅时曲线的变化周期;在目标时刻为中心的变化周期内,根据所有频率下目标时刻与其他采样时刻之间时域幅值的差异,获得整体幅值差异;根据整体幅值差异和变化周期内所有采样时刻的频率规律程度对目标时刻的频率规律程度进行修正,获得修正规律程度。
考虑幅时曲线上的幅值变化具有周期性,获取周期进而对一个周期内的数据进行分析既不会损失数据特征,又可以减少计算量,所以根据幅时曲线的变化特征获取一个变化周期。时域特征可以帮助区分不同的音节,识别语音部分和静音或噪声部分,更好的捕捉语音信号中的时序模型;根据变化周期内其他采样时刻对应的整体幅值差异和频率规律程度对目标时刻的频率规律程度进行修正,获得修正规律程度结合了目标时刻的频域特征和时域特征,使得修正规律程度更准确。修正规律程度越大,说明目标时刻在频域和时域上的稳定性越强,语音信号质量越高,可靠性和准确性越强;反之,说明稳定性较差,受噪声干扰影响较大,语音信号的质量越低,可靠性和准确性越低。根据修正规律程度获取目标程度更加准确,后续获得的时间子区间更合理,最终去噪效果更理想,采集到的会议语音数据质量更高。
优选地,在本发明一个实施例中,根据预设时间邻域长度以目标时刻为中心,截取幅时曲线,获得局部幅时曲线;任选一个频率作为目标频率,若目标频率对应的局部幅时曲线上的点的幅度值大于等于预设时间跨度内其余各点的幅度值,则作为一个时域局部极大值点;改变目标频率,获得所有时域局部极大值点;将目标频率对应的时域局部极大值点在幅时曲线的时间轴上间隔的均值作为变化周期参数;改变目标频率,获取所有变化周期参数;将所有变化周期参数的均值作为变化周期。
根据时域局部极大值点间的距离获取变化周期,不需要提前知道信号的周期,而是依据信号本身的特征计算自适应周期,适用于随机变化的语音信号,并且受噪声影响小,具有较好的鲁棒性。
在本发明一个实施例中,预设时间邻域长度为0.06s、预设时间跨度为0.005s,在本发明其他实施例中,实施者可设置其他长度的预设时间邻域和预设时间跨度进行分析。
优选地,在本发明一个实施例中,获取相同频率下,变化周期内其他采样时刻的幅度值和目标时刻的幅度值的差异作为幅值差异参数;将所有不同频率下的所有幅值差异参数的均值作为采样时刻和目标时刻的整体幅值差异。
如果整体幅值差异较小,说明其他采样时刻的幅度值和目标时刻的幅度值的变化相似度高,对应采样时刻对目标时刻进行修正的可信度就越高;通过其他采样时刻的频域特征可以为目标时刻提供时域上的修正;所以通过其他采样时刻的频率规律程度并结合整体幅值差异对目标时刻的频率规律程度进行修正,可以使得获得的修正规律程度更准确,最终去噪效果更好。
优选地,在本发明一个实施例中,将整体幅值差异负相关映射并归一化,获得修正参数;获取变化周期内所有采样时刻的频率规律程度作为比对参数;将目标时刻的频率规律程度与比对参数的差乘以采样时刻对应的修正参数,乘积作为此采样时刻的修正因子;将变化周期内所有采样时刻的修正因子的均值作为时域修正因子;将目标时刻的频率规律程度与时域修正因子的差作为修正规律程度。修正规律程度的计算公式包括:
其中,表示时窗长度为/>下的目标时刻/>的修正规律程度;/>表示时窗长度为/>下的目标时刻/>的频率规律程度;/>表示变化周期内所有其他采样时刻的个数;/>表示变化周期内第/>个其他采样时刻;/>表示第/>个采样时刻与目标时刻的整体幅值差异,表示修正参数;/>表示比对参数,是第/>个采样时刻对应的频率规律程度;表示修正因子;/>表示时域修正因子。
修正规律程度的计算公式中,目标时刻的频率规律程度与其他采样时刻的频率规律程度差异越小,修正因子就越小,时域修正因子就越小,说明邻域内频域规律程度变化程度较小,需要对目标时刻的频率规律程度调整的幅度就小;采样时刻与目标时刻的整体幅值差异越大,采样时刻的参考性就越低,修正参数就越小,通过修正参数可以调整采样时刻与目标时刻的频率规律程度,使得修正规律程度更加合理可信,进而提升后续处理的准确性,最终采集到会议语音数据质量更高。
步骤S4:获取目标时刻在所有语谱图中对应的修正规律程度;根据时窗长度和所有修正规律程度获得目标时刻的目标程度;改变目标时刻,获得所有采样时刻对应的目标程度;根据每个采样时刻下的目标程度获取参考距离;根据参考距离对会议语音数据进行分割,获得时间子区间。
因为语谱图会随着时窗长度的增大,沿频率方向上的规律性会逐渐增大,时窗长度越大,对应的修正规律程度的重要性就越大,所以修正规律程度需要结合时窗长度,获得目标程度。目标程度结合了时域和频域特征,同时包含不同时窗长度的影响,代表对应采样时刻的数据特征,所以可以根据每个采样时刻下的目标程度获取参考距离,进而对对会议语音数据进行自适应分割。
优选地,在本发明一个实施例中,获取所有时窗长度的种类累加之和作为时窗权重参数;以修正规律程度对应的时窗长度与时窗权重参数的商作为时窗权重;将每个时窗长度的时窗权重与其对应的时窗长度的修正规律程度相乘,获得初始目标程度;将所有时窗长度对应的初始目标程度求和,获得目标时刻的目标程度。目标程度的计算公式包括:
其中,表示目标时刻/>的目标程度;/>表示所采用的不同时窗长度的个数,在本发明一个实施例中,/>;/>表示第/>种时窗长度;/>表示第/>种时窗长度的时窗长度值;表示目标时刻/>对应的第/>种时窗长度的修正规律程度;/>表示时窗权重参数,;/>表示第/>种时窗长度的时窗权重;/>表示第/>种时窗长度的初始目标程度。
较长的时窗长度能够提供更高的频率分辨率,时窗长度值越大,时窗权重就越大。目标程度的计算公式赋予了时窗长度更大的修正规律程度更大权重,获得的目标程度能更准确地反映会议语音数据的特征,使得后续处理结果更准确,去噪效果更好。
改变目标时刻,获得所有采样时刻对应的目标程度。
根据距离进行聚类灵活性高,易于调整,不需要设立监督组,并且简单容易实现,适用于会议语音数据,所以可以通过参考距离对会议语音数据进行聚类,进而进行自适应分割处理。
优选地,在本发明一个实施例中,将所有目标程度归一化处理,获得归一化目标程度;将采样时刻的归一化目标程度作为纵坐标、采样时刻的时间值作为横坐标,构建参考平面;将不同采样时刻在参考平面对应的点之间的欧氏距离作为参考距离。参考距离的计算公式包括:
其中,表示采样时刻/>和/>的参考距离;/>表示采样时刻/>的归一化目标程度;/>表示采样时刻/>的归一化目标程度;/>表示采样时刻/>的时间值;/>表示采样时刻/>的时间值。
两个采样时刻逐渐的归一化目标程度差异越大,说明两个采样时刻的时域特征和频域特征差异越大,对应的参考距离就越大;两个采样时刻的时间值差距越大,说明两个采样时刻在时间轴上距离越远,对应的参考距离就越大。获取参考距离便于进行聚类操作,进而划分不同的时间子区间,对会议语音数据进行自适应分割,提升最终去趋势去噪效果。
优选地,在本发明一个实施例中,根据所有参考距离利用聚类算法对所有采样时刻进行聚类,获取聚类结果,将聚类结果投影到时间平面内,将时间点相连且属于同一类聚类结果的采样时刻划分到同一区间内,获得多个时间子区间。
在本发明一个实施例中,采用DBSCAN聚类算法获取聚类结果,选取聚类半径为0.05,半径内点的个数为10,划分不同时间子区间。在本发明其他实施例中,实施者可选择K均值聚类算法、OPTICS算法等其他算法获取不同时间子区间。需要说明的是,DBSCAN聚类算法已是本领域技术人员所熟知的,在此不再进行赘述。
通过获取目标程度进而计算不同采样时刻的参考距离,利用DBSCAN聚类算法进行聚类,将时间点相连且属于同一类聚类结果的时刻划分到同一区间内,实现了音频数据的自适应划分,避免了将时间不连续的采样时刻划分到一类的情况,有利于后续DFA算法获取更准确的去噪结果。
步骤S5:根据所有时间子区间利用去趋势波动分析算法去除会议语音数据中的漂移噪声,获得去噪后的会议语音数据。
在本发明实施例中,根据去趋势波动分析算法,利用时间子区间可以将会议语音数据在时间轴上进行划分,将每个时间子区间内的数据点作为非重叠的子序列;对于每个子序列,使用线性拟合方法来进行趋势线的拟合,将每个子序列的原始数据与拟合的趋势线作差,即可去除会议语音数据中的漂移噪声,获得去噪后的会议语音数据。将去噪后的语音信号采用小波阈值算法进行进一步去噪,获得最终去噪的会议语音数据。其中小波分解的层数设置为5层,采用软阈值函数。需要说明的是,去趋势波动分析算法和小波阈值算法已是本领域技术人员所熟知的算法,在此只作简述,不再进行赘述。
通过DFA去除会议语音数据的漂移噪声,可以提高会议语音数据的采集质量,提升采集数据的准确性和可靠性;通过小波阈值算法进行进一步去噪,增强语音信号中的细节,进一步消除噪声干扰,提供可靠性更高,准确性更强的会议语音数据。
本发明一个实施例提供了一种会议语音数据智能采集***,该***包括存储器、处理器和计算机程序,其中存储器用于存储相应的计算机程序,处理器用于运行相应的计算机程序,计算机程序在处理器中运行时能够实现步骤S1~S5所描述的方法。
综上所述,本发明将采集到会议语音数据转化为语谱图;进一步获取语谱图的幅频曲线和幅时曲线,可以根据语谱图分析会议语音数据的时域特征和频域特征,为后续提取频域和时域的特征奠定了基础;根据幅频曲线的局部极大值和幅度值获得频率规律程度;进一步通过获取幅时曲线的变化周期,减少计算量;进一步获取目标时刻与其他采样时刻之间的整体幅值差异,避免仅考虑其他采样时刻之间的频率规律程度对目标时刻的频率规律程度进行修正时,修正结果偏差过大;进一步通过整体幅值差异和变化周期内所有采样时刻的频率规律程度对目标时刻的频率规律程度进行修正,为频率规律程度补充时域特征,增加方法的鲁棒性;进一步根据所有时窗长度和对应的修正规律程度获取目标程度,使得目标程度更加准确;进一步根据由目标程度获取的参考距离对会议语音数据进行分割,实现根据数据本身变化特征的自适应分割;最后根据分割得到的时间子区间利用去趋势波动分析算法,去除所述会议语音数据中的漂移噪声,并利用小波阈值算法进行进一步去噪,提升采集到的会议语音数据的准确性,增强信号特征,便于后续利用更清晰的会议语音数据。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (10)
1.一种会议语音数据智能采集方法,其特征在于,所述方法包括:
获取会议语音数据,根据所述会议语音数据获得不同时窗长度的语谱图;获取所述语谱图的幅频曲线和幅时曲线,选择所述语谱图中任意时刻作为目标时刻;
在每个所述语谱图中,根据所述目标时刻对应的幅频曲线的变化趋势,获得频率规律程度;
在每个所述语谱图中,获取所述幅时曲线的变化周期;在所述目标时刻为中心的所述变化周期内,根据所有频率下所述目标时刻与其他采样时刻之间时域幅值的差异,获得整体幅值差异;根据所述整体幅值差异和变化周期内所有采样时刻的频率规律程度对所述目标时刻的所述频率规律程度进行修正,获得修正规律程度;
获取所述目标时刻在所有所述语谱图中对应的所述修正规律程度;根据所述时窗长度和所有所述修正规律程度获得所述目标时刻的目标程度;改变目标时刻,获得所有采样时刻对应的所述目标程度;根据每个采样时刻下的所述目标程度获取参考距离;根据所述参考距离对所述会议语音数据进行分割,获得时间子区间;
根据所有所述时间子区间利用去趋势波动分析算法去除所述会议语音数据中的漂移噪声,获得去噪后的会议语音数据。
2.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述频率规律程度的获取方法包括:
若幅频曲线上的点的幅度值大于等于预设频率邻域内其余各点的幅度值,则作为一个频域局部极大值点;将频率从小到大对幅频曲线进行遍历,获取所有频域局部极大值;
将所述频域局部极大值与其后续两个频率相邻的频域局部极大值点作为一个频率组;所述频率组中,根据对应的频率由小到大分别为:第一频率值、第二频率值和第三频率值;
将所述第二频率值与所述第一频率值对应的频率的差值作为第一频率差值;将所述第三频率值与所述第二频率值对应的频率的差值作为第二频率差值;将所述第一频率差值与第二频率差值的差值绝对值作为分母参数;根据所述分母参数与所述第一频率值对应的幅度值获取子频率规律程度,其中所述分母参数与所述子频率规律程度呈负相关关系,所述第一频率值对应的幅度值与所述子频率规律程度呈正相关关系;
遍历所有所述频率组,将所有频率组的所述子频率规律程度求和,求和结果作为频率规律程度。
3.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述变化周期的获取方法包括:
根据预设时间邻域长度以所述目标时刻为中心,截取所述幅时曲线,获得局部幅时曲线;
任选一个频率作为目标频率,若所述目标频率对应的局部幅时曲线上的点的幅度值大于等于预设时间跨度内其余各点的幅度值,则作为一个时域局部极大值点;改变目标频率,获得所有时域局部极大值点;
将所述目标频率对应的时域局部极大值点在幅时曲线的时间轴上间隔的均值作为变化周期参数;改变目标频率,获取所有所述变化周期参数;将所有所述变化周期参数的均值作为变化周期。
4.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述整体幅值差异的获取方法包括:
获取相同频率下,所述变化周期内其他采样时刻的幅度值和所述目标时刻的幅度值的差异作为幅值差异参数;将所有不同频率下的所有所述幅值差异参数的均值作为采样时刻和目标时刻的整体幅值差异。
5.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述修正规律程度的获取方法包括:
将所述整体幅值差异负相关映射并归一化,获得修正参数;获取所述变化周期内所有采样时刻的所述频率规律程度作为比对参数;将所述目标时刻的所述频率规律程度与所述比对参数的差乘以采样时刻对应的所述修正参数,乘积作为此采样时刻的修正因子;将所述变化周期内所有采样时刻的所述修正因子的均值作为时域修正因子;将所述目标时刻的所述频率规律程度与所述时域修正因子的差作为修正规律程度。
6.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述目标程度的获取方法包括:
获取所有时窗长度的种类累加之和作为时窗权重参数;以所述修正规律程度对应的时窗长度与所述时窗权重参数的商作为时窗权重;将每个时窗长度的所述时窗权重与其对应的时窗长度的所述修正规律程度相乘,获得初始目标程度;将所有时窗长度对应的所述初始目标程度求和,获得目标时刻的目标程度。
7.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述参考距离的获取方法包括:
将所有所述目标程度归一化处理,获得归一化目标程度;将采样时刻的所述归一化目标程度作为纵坐标、采样时刻的时间值作为横坐标,构建参考平面;将不同采样时刻在所述参考平面对应的点之间的欧氏距离作为参考距离。
8.根据权利要求1中所述的一种会议语音数据智能采集方法,其特征在于,所述时间子区间的获取方法包括:
根据所有所述参考距离利用聚类算法对所有采样时刻进行聚类,获取聚类结果,将所述聚类结果投影到时间平面内,将时间点相连且属于同一类聚类结果的采样时刻划分到同一区间内,获得多个时间子区间。
9.根据权利要求2中所述的一种会议语音数据智能采集方法,其特征在于,所述预设频率邻域长度为100Hz。
10.一种会议语音数据智能采集***,所述***包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287758.3A CN117037834B (zh) | 2023-10-08 | 2023-10-08 | 一种会议语音数据智能采集方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287758.3A CN117037834B (zh) | 2023-10-08 | 2023-10-08 | 一种会议语音数据智能采集方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117037834A true CN117037834A (zh) | 2023-11-10 |
CN117037834B CN117037834B (zh) | 2023-12-19 |
Family
ID=88630306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311287758.3A Active CN117037834B (zh) | 2023-10-08 | 2023-10-08 | 一种会议语音数据智能采集方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037834B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118136028A (zh) * | 2024-04-30 | 2024-06-04 | 广州市艾索技术有限公司 | 一种分布式高集成综合协作传输管理*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150248895A1 (en) * | 2014-03-03 | 2015-09-03 | Fujitsu Limited | Voice processing device, noise suppression method, and computer-readable recording medium storing voice processing program |
CN107680584A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
CN110807169A (zh) * | 2020-01-08 | 2020-02-18 | 易兆微电子(杭州)有限公司 | 一种用于音频信号的快速处理方法 |
CN116129926A (zh) * | 2023-04-19 | 2023-05-16 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
-
2023
- 2023-10-08 CN CN202311287758.3A patent/CN117037834B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150248895A1 (en) * | 2014-03-03 | 2015-09-03 | Fujitsu Limited | Voice processing device, noise suppression method, and computer-readable recording medium storing voice processing program |
CN107680584A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
CN110807169A (zh) * | 2020-01-08 | 2020-02-18 | 易兆微电子(杭州)有限公司 | 一种用于音频信号的快速处理方法 |
CN116129926A (zh) * | 2023-04-19 | 2023-05-16 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
Non-Patent Citations (2)
Title |
---|
刘玉珍;连自锋;: "基于频谱方差的抗噪声语音端点检测算法", 计算机仿真, no. 09 * |
宫朝辉;刁麓弘;: "改进共振峰提取的语音端点检测", 计算机辅助设计与图形学学报, no. 08 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118136028A (zh) * | 2024-04-30 | 2024-06-04 | 广州市艾索技术有限公司 | 一种分布式高集成综合协作传输管理*** |
CN118136028B (zh) * | 2024-04-30 | 2024-07-23 | 广州市艾索技术有限公司 | 一种分布式高集成综合协作传输管理*** |
Also Published As
Publication number | Publication date |
---|---|
CN117037834B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN117037834B (zh) | 一种会议语音数据智能采集方法及*** | |
CN108701469B (zh) | 咳嗽声音识别方法、设备和存储介质 | |
US9390727B2 (en) | Detecting distorted audio signals based on audio fingerprinting | |
CN112259120B (zh) | 基于卷积循环神经网络的单通道人声与背景声分离方法 | |
CN103117067B (zh) | 一种低信噪比下语音端点检测方法 | |
CN107688553B (zh) | 基于小波变换和逻辑回归算法检测心电波形特征的方法 | |
CN109829515A (zh) | 一种音频指纹匹配方法以及音频指纹匹配装置 | |
CN107392123B (zh) | 一种基于相参积累消噪的射频指纹特征提取和识别方法 | |
CN108198558B (zh) | 一种基于csi数据的语音识别方法 | |
CN110890087A (zh) | 一种基于余弦相似度的语音识别方法和装置 | |
CN109102818B (zh) | 一种基于信号频率概率密度函数分布的去噪音频采样算法 | |
CN106772572B (zh) | 一种微地震监测初至的拾取方法 | |
CN110767248A (zh) | 一种抗变调干扰的音频指纹提取方法 | |
CN117423338A (zh) | 一种数字人交互对话方法和*** | |
CN110379438B (zh) | 一种语音信号基频检测与提取方法及*** | |
CN109919050B (zh) | 身份识别方法和装置 | |
CN111938691A (zh) | 一种基础心音识别方法及设备 | |
CN115762551A (zh) | 鼾声检测方法、装置、计算机设备及存储介质 | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 | |
CN117711419B (zh) | 用于数据中台的数据智能清洗方法 | |
CN116935880B (zh) | 基于人工智能的一体机人机交互***和方法 | |
CN114124161B (zh) | 一种高速电力线载波的通信信道窄带噪声分离方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |