CN103730129A - 一种用于数据库信息查询的语音查询*** - Google Patents

一种用于数据库信息查询的语音查询*** Download PDF

Info

Publication number
CN103730129A
CN103730129A CN201310578994.0A CN201310578994A CN103730129A CN 103730129 A CN103730129 A CN 103730129A CN 201310578994 A CN201310578994 A CN 201310578994A CN 103730129 A CN103730129 A CN 103730129A
Authority
CN
China
Prior art keywords
module
voice
signal
input
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310578994.0A
Other languages
English (en)
Inventor
储冬红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze University
Original Assignee
Yangtze University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze University filed Critical Yangtze University
Priority to CN201310578994.0A priority Critical patent/CN103730129A/zh
Publication of CN103730129A publication Critical patent/CN103730129A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于数据库信息查询的语音查询***,该***包括:语音输入模块、数据化模块、特征筛选模块、对比分析模块、数据分析立体化模块、对比相关度检验模块、结果输出模块、数据检索模块;其中,语音输入模块,用来保存输入的语音信息;数据化模块实现将将输入的语音信转换为数字化向量;特征筛选模块,用于将输入语音信号的数字化向量,对信号进行分割处理,数据分析立体化模块,将分割后的数字化向量进行立体化分析处理;对比相关度检验模块,用于计算各个对应分割时间域之间的相关度大小;结果输出模块,用于分析输入语音信号和对比语音信号的相似度大小,数据检索模块,用于完成最终的数据库检索过程。

Description

一种用于数据库信息查询的语音查询***
技术领域
本发明涉及信息查询的领域,尤其涉及一种用于数据库信息查询的语音查询***。
背景技术
传统的数据库查询方式,通常采用通过键盘输入相应的关键检索字符来实现,但是在一些特殊情况下,为了提高检索效率,可以采用语音输入的方式来进行数据库的信息检索,但是这样检索输入方式所遇到的困难也较多,比如:全世界有近百种官方语言,每种语言又有多达几十种方言,同种语言在不同方言的语音上相差悬殊,这样随着语言环境的改变,***性能会变差。
在强噪声干扰下,会导致语音信息的准确度降低。因为语音数据大部分是在接近理想条件下采集的,语音信息的编码方案在研制的时候,都要在高保真设备上录制,尤其要在无噪声环境下录音。然而当语言处理由实验室走向实际应用时,环境噪声的存在会造成很大的影响。
上述的这些问题,都给数据库的语音检索在实际中的应用和实现带来了很多困难,尤其是数据库信息查询,对检索词汇更是有较高的要求,才能实现快速准确地获取信息。
发明内容
本发明的目的在于提供一种用于数据库信息查询的语音查询***,改变传统的键盘输入信息的检索手段,通过语音传输检索命令,实现快速信息查询。这种检索方式不仅能避免传统输入方式的繁琐,而且能提高检索的速度和效率。
要解决上述通过语音输入来实现数据库检索所遇到的问题,需要设计一个适应性和处理能力都非常高的信息***。
一种用于数据库信息查询的语音查询***,包括:
语音输入模块,用来保存输入的语音信息;
数据化模块,用来将输入的语音信转换为数字化向量;通过对语音信号做离散函数变换和对数处理,将语音波形信号转换为具有时间和维数的向量形式,便于通过特征筛选模块提取和分析语音信号的特征;
特征筛选模块,用于将语音目标模型数据库中提取的语音特征模型数字化向量,通过特征筛选模块进行分割处理,得到按时间域划分的小段数字化向量,通过特征筛选模块,调用语音目标模型数据库中提取的语音特征模型数字化向量,进行等长度时间域的划分,保证两者的信号时长一致,确保后续对比分析模块调用的数据准确可靠;
在对比分析模块中,包含有数据分析立体化模块和对比相关度检验模块;
数据分析立体化模块,能够将分割成小段后的数字化向量进行立体化分析处理,得到信号的立体效果图,便于后续数据分析处理;
对比相关度检验模块,用于计算和比较各个对应分割时间域之间的相关度大小;
结果输出模块,用于综合分析输入语音信号和目标模型数据库对比语音信号的相似度大小,并结合设定的响应阀值大小进行判断,若大于设定的阀值,则输出检测信号。若小于阀值,则改变时间域的范围,进行下一轮分析;
数据检索模块,将结果输出模块的语音检测结果,输入到数据库中进行检索,完成最终的数据库检索过程,并将最终检索结果反馈给用户;
一种用于数据库信息查询的语音查询***,其中,
语音输入模块中包含有,三阶时域带通滤波装置,通过该装置来改变输入信号的归一化频带能量。
一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,频带分析装置,通过该装置,在不同信号频带上分别估计基频,然后将各个频带的估计结果融合形成最后的频带估计结果。
一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,信号噪声去除装置,该装置通过提高不规则音频信号的特征,将音频信号加汉明窗做傅里叶函数变换,将变换后的结果取对数后进行高通滤波,得到增加的频谱。
一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,语音信号向量化装置,通过该装置,将输入的语音分帧,计算每一个帧的对数能量,并采用自动阀值在能量曲线中寻找局部极大值点。确定了局部能量极大值点后,语音的时长就是相邻极值点的距离,输入的语音信号就可以用一个向量表示。
一种用于数据库信息查询的语音查询***,其中
特征筛选模块中包含有,数据信号归正化装置,该装置能够在数据进入对比分析模块之前,将输入的语音信号和目标模型数据库中的语音信号同时做归正处理。
一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,信号帧分析装置,该装置能够对获取的语音信息先作一次傅里叶变化,得到对应第一特征值;再作一次傅里叶变换,得到第二特征值,以此来分析语言帧之间的变化特征,提高语音识别的精确度。
在数据检索的过程中,通过对输入的检索语音信息进行数据化处理,从检索目标信号和检索数据输入信息提取特征向量,得到参考特征向量和输入特征向量。计算参考信号和输入信号间的相似度,如果超过阀值,则认为在输入数据的当前位置检测到了参考信号。最后,将输入信号上的直方窗向前移动,继续上述对比分析过程。
在分析过程中,将输入的语音信号通过三阶时域带通滤波器,设第J个带通滤波器的输出为yj(k),频带j的短时能量为
e j ( i ) = Σ k = i - M + 1 i y j 3 ( k ) , i = l × M ( l = 1,2 , · · · · · · )
其中,M表示短时帧长,i为帧序号。第i帧在频带j上的归一化频带能量为
ej′(i)=α(i)ej(i)
其中,α(i)是归一化常量,定义为
α ( i ) = 1 max ( e j ( i ) )
这样一帧信号的频带能量特征可以用向量
Figure BDA0000416649150000033
来表示,i表示帧序号,与采样时间对应,nsub是频带个数。
将每个频带能量的值域都分割成若干区间,每个区间和一个直方对应。统计频带能量数值落到各个桶的比率,最终生成直方图。
设频带能量分为nv个区间,每个直方图中将有B个直方。
B=nv×nsub
nv的数值如果太小,直方图的分辨能力不强,不能有效区分不同的语音数据。反之,如果太大,则直方图会对数值的微小扰动很敏感,不能分辨相同的语音数据。
关于直方图之间相似度的衡量,通过将输入模板I和参考模板R之间的第i个子窗对应的直方图交集相似度为
S ( h i R , h i I ) = 1 L Σ l = 1 L min ( h il R , h il I )
其中,
Figure BDA0000416649150000042
Figure BDA0000416649150000043
分别表示参考模板和输入模板的第i个直方图,L表示直方图包含的直方条数。
输入模板I和参考模板R之间的整体相似度S定义为
S ( h i R , h i I ) = min ( h i R , h i I )
如果输入模板I和参考模板R之间的整体相似度S超过阀值,则在输入数据的当前位置检测到了参考模。不同的参考模板,其直方图相似度具有不同的属性。检测阀值定义为
θ=μ+cσ
其中,μ是直方图相似度均值,σ是直方图相似度的标准差,C是经验常数。
如果超过阀值,则认为在输入数据的位置检测到了参考信号。
因此,一种用于数据库信息查询的语音查询的方法和***,包括:
通过语音采集装置,将用户的语音信息的输入;采用离散函数对采集的音频进行数据化处理;将数据化后的语音信息进行语音特征的筛选,以与语音目标模型库中的语音特性进行对比分析;将对比分析后的语音测试结果输出,得到数据库检索的关键词汇,输入到检索数据库中,从而得到最后的检索结果。
其中,将语音信号数据化的过程,采用的是先在不同频带上分别估计基频,然后将各个频带的估计结果融合形成最后的估计结果。为了去除噪声的影响,提高不规则音频信号的特征,将音频信号加汉明窗做傅里叶函数变换,将变换后的结果取对数后进行高通滤波,得到增加的频谱。
通过对频谱增强后的信号提取特征向量,得到参考特征向量和输入特征向量的值。通过采用直方窗的方式,从特征向量的序列中取出部分特征向量进行对比,来分析音频的时序关系,通过计算两者直方图的相似程度,并和设定的阀值进行比较,从而输出检测结果或者移动到下一个时间域继续搜索过程。
关于***特性向量的提取,采用的时间向量,向量中每一个元素表示一个语音信号的时长。为了提取每一个语音信号的时长,首先将输入的语音分帧,计算每一个帧的对数能量,并采用自动阀值在能量曲线中寻找局部极大值点。确定了局部能量极大值点后,语音的时长就是相邻极值点的距离,因此输入的语音信号就可以用一个向量表示。
提取特征向量之后,再将其与语音目标模型数据库进行对比。再进行对比分析之前,需要将输入特征向量和语音目标数据库中特征向量同时做归正处理,然后在归正的基础上做匹配计算。
在提取语音信息的特征向量时,需要考虑语音帧之间的关系。语音信号具有连续性,分析语言帧之间的变化特征,能够提高语音识别的精确度。
对获取的语音信息先作一次傅里叶变化,得到对应第一特征值;如果再作一次傅里叶变换,就能得到第二特征值。具体实现方法如下:
d t = Σ θ = 1 Θ θ ( c t + θ - c t - θ ) 2 Σ θ = 1 Θ θ 2
其中,dt表示第t帧特征的第一次特征值,Θ是考虑了第t帧时序变化的语音帧的数量。然后再对上述计算结果做同样的计算,就能得到第二特征值。通过这样的多次计算,有利于提供***的整体识别率。
为了降低输入的语音信号的噪声信号造成的干扰,对输入的信号需要进行相关变化处理,具体处理方法如下:
Y = N K T x
其中,
Figure BDA0000416649150000053
Figure BDA0000416649150000054
的特征向量,x是K维向量,
A m = Σ j = 1 c Σ i = 1 n j ( x i j - 1 n j Σ i = 1 n j x i j ) ( x i j - Σ i = 1 n j x i j ) T
A n = Σ j = 1 c ( 1 n Σ i = 1 n x i - m ) ( 1 n Σ i = 1 n x i - m ) T
输入语音信号的特征向量集合为Sin,语音输入的特征维数为K,根据上述计算公式得到语音信号转换后的矩阵NK×T,因此,输入的语音信号特征向量的集合能够通过公式
Figure BDA0000416649150000057
可以计算出来。选择T<K,能够降低输入的语音信号的维数和噪声。
通过语音输入设备得到用户的语音信息,再通过数据化模块将语音信号转换为数字模拟信号。通过对数字信号做相应的离散函数数学分析处理,通过特征筛选模块实现信号的特征筛选,结合已有的模型库模块中的语音函数,通过对比分析模块来比较阀值的大小,从而决定是否输出语音识别的结果。
符合条件的语音识别结果通过结果输出模块,得到检索所需的搜索关键词,将得到的关键词输入到数据检索模块,实现最终的语音识别检索过程。
附图说明
图1描述的是根据本发明实施的通过语音查询在数据库中实现信息查询检索的流程图;
图2描述的是通过数据化模块,将输入的语音转换为数字信号的原理示意图;
图3描述的是通过对比分析模块,将输入的语音信号和语音目标模型库进行对比分析的原理图;
其中,310-语音目标模型数据库中提取的语音特征模型数字化向量,
311-输入语音信号的数字化向量,
320,321,322---将目标模型数据库分割成小段后的数字化向量,
323,324,325---将输入信号的语音特征模型分割成小段后的数字化向量,
330,331,332---将目标模型分割后的数字化向量进行立体化处理后的效果图,
333,334,335---将输入语音信号分割后的数字化向量进行立体化处理后的效果图,
340,341,342---将分割后的目标模型数据和分割后的输入信号数据进行对比分析的相关度大小数值,
图4描述的是结果分析模块,通过分析比较阀值来判断是否输出语音分析结果的原理示意图;
图5描述的是一种用于数据库信息查询的语音查询***的模块组成示意图;
具体实施方式
图1描述的是根据本发明实施的通过语音查询在数据库中实现信息查询检索的流程图,下面结合附图1对本发明做进一步说明;
首先,将输入的语音信号进行保存,并通过相关的函数分析处理实现语音数据化过程。将数据化的语音筛选其特征,并与语音目标模型库中的语音模型进行对比分析,筛选出符合阀值的语音信号,作为语音识别筛选的结果输出,作为检索的关键词输入到数据库中,并将最终的检索结果输出给用户,完成数据库的整个查询检索过程。
图2描述的是通过数据化模块(520),将输入的语音信号(211)以及模型库模块(540)中的语音信号(210)分别转换为数字化向量(310,311)的原理示意图;通过对语音信号(210,211)做离散函数变换和对数处理,将语音波形信号转换为具有时间和维数的向量形式,这样便于提取和分析语音信号的特征。
图3描述的是通过对比分析模块(550),将输入的语音信号和语音目标模型库进行对比分析的原理图;首先,将输入语音信号的数字化向量(311)通过特征筛选模块(530)进行分割处理,得到按时间域划分的小段数字化向量(323,324,325),同样通过特征筛选模块(530),调用语音目标模型数据库中提取的语音特征模型数字化向量(310),进行等长度时间域的划分,保证两者的信号时长一致,确保后续分析对比分析模块调用的数据准确可靠。在对比分析模块(550)中,包含有数据分析立体化模块(551),通过该模块能够实现将分割成小段后的数字化向量(320,321,322,323,324,325)进行立体化分析处理,得到信号的立体效果图(330,331,332,333,334,335),对这些数据的对比分析,是通过对比分析模块(550)中的子模块:对比相关度检验模块(552),来实现。
图4描述的是结果分析模块,通过分析比较阀值来判断是否输出语音分析结果的原理示意图;
通过综合分析分割后,输入语音信号和目标模型数据库对比语音信号的相似度大小,并结合设定的响应阀值大小进行判断,若大于设定的阀值,则输出检测信号。若小于阀值,则改变时间域的范围,进行下一轮分析,401表示的是改变输入语音信号的分析时间域,移动到下一个对比范围。
图5描述的是一种用于数据库信息查询的语音查询***的模块组成示意图;
其中,语音输入模块(510)用来保持输入的语音信息,并通过数据化模块(520)实现将将输入的语音信转换为数字化向量;通过对语音信号做离散函数变换和对数处理,将语音波形信号转换为具有时间和维数的向量形式,便于通过特征筛选模块(530)提取和分析语音信号的特征。
通过特征筛选模块(530),将输入语音信号的数字化向量(311)通过特征筛选模块(530)进行分割处理,得到按时间域划分的小段数字化向量(323,324,325),同样通过特征筛选模块(530),调用语音目标模型数据库中提取的语音特征模型数字化向量(310),进行等长度时间域的划分,保证两者的信号时长一致,确保后续分析对比分析模块调用的数据准确可靠。
在对比分析模块(550)中,包含有数据分析立体化模块(551),通过该模块能够实现将分割成小段后的数字化向量进行立体化分析处理,得到信号的立体效果图,对这些数据的对比分析,是通过对比分析模块(550)中的子模块:对比相关度检验模块(552),来实现。
结果输出模块(560),通过分析分割后,输入语音信号和目标模型数据库对比语音信号的相似度大小,并结合设定的响应阀值大小进行判断,若大于设定的阀值,则输出检测信号。若小于阀值,则改变时间域的范围,进行下一轮分析。
数据检索模块(570),是将结果输出模块(560)输出的语音检测结果,作为输入数据库检索的词汇,完成最终的数据库检索过程。

Claims (7)

1.一种用于数据库信息查询的语音查询***,包括:
语音输入模块,用来保存输入的语音信息;
数据化模块,用来将输入的语音信转换为数字化向量;通过对语音信号做离散函数变换和对数处理,将语音波形信号转换为具有时间和维数的向量形式,便于通过特征筛选模块提取和分析语音信号的特征;
     特征筛选模块,用于将输入语音信号的数字化向量,通过特征筛选模块进行分割处理,得到按时间域划分的小段数字化向量,通过特征筛选模块,调用语音目标模型数据库中提取的语音特征模型数字化向量,进行等长度时间域的划分,保证两者的信号时长一致,确保后续分析对比分析模块调用的数据准确可靠;
在对比分析模块中,包含有数据分析立体化模块和对比相关度检验模块;
数据分析立体化模块,能够将分割成小段后的数字化向量进行立体化分析处理,得到信号的立体效果图,便于后续数据分析处理;
对比相关度检验模块,用于计算和比较各个对应分割时间域之间的相关度大小;
结果输出模块,用于综合分析输入语音信号和目标模型数据库对比语音信号的相似度大小,并结合设定的响应阀值大小进行判断,若大于设定的阀值,则输出检测信号;若小于阀值,则改变时间域的范围,进行下一轮分析;
数据检索模块,将结果输出模块的语音检测结果,输入到数据库中进行检索,完成最终的数据库检索过程,并将最终检索结果反馈给用户。
2.根据权利要求1 所述的一种用于数据库信息查询的语音查询***,其中,
   语音输入模块中包含有,三阶时域带通滤波装置,通过该装置来改变输入信号的归一化频带能量。
3. 根据权利要求1 所述的一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,频带分析装置,通过该装置,在不同信号频带上分别估计基频,然后将各个频带的估计结果融合形成最后的频带估计结果。
4.根据权利要求1 所述的一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,信号噪声去除装置,该装置通过提高不规则音频信号的特征,将音频信号加汉明窗做傅里叶函数变换,将变换后的结果取对数后进行高通滤波,得到增加的频谱。
5. 根据权利要求1 所述的一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,语音信号向量化装置,通过该装置,将输入的语音分帧,计算每一个帧的对数能量,并采用自动阀值在能量曲线中寻找局部极大值点;确定了局部能量极大值点后,语音的时长就是相邻极值点的距离,输入的语音信号就可以用一个向量表示。
6.根据权利要求1 所述的一种用于数据库信息查询的语音查询***,其中
特征筛选模块中包含有,数据信号归正化装置,该装置能够在数据进入对比分析模块之前,将输入的语音信号和目标模型数据库中的语音信号同时做归正处理 。
7.根据权利要求1 所述的一种用于数据库信息查询的语音查询***,其中
数据化模块中包含有,信号帧分析装置,该装置能够对获取的语音信息先作一次傅里叶变化,得到对应第一特征值;再作一次傅里叶变换,得到第二特征值,以此来分析语言帧之间的变化特征,提高语音识别的精确度。
CN201310578994.0A 2013-11-18 2013-11-18 一种用于数据库信息查询的语音查询*** Pending CN103730129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310578994.0A CN103730129A (zh) 2013-11-18 2013-11-18 一种用于数据库信息查询的语音查询***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310578994.0A CN103730129A (zh) 2013-11-18 2013-11-18 一种用于数据库信息查询的语音查询***

Publications (1)

Publication Number Publication Date
CN103730129A true CN103730129A (zh) 2014-04-16

Family

ID=50454175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310578994.0A Pending CN103730129A (zh) 2013-11-18 2013-11-18 一种用于数据库信息查询的语音查询***

Country Status (1)

Country Link
CN (1) CN103730129A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057211A (zh) * 2016-05-27 2016-10-26 广州多益网络股份有限公司 一种信号匹配方法及装置
WO2017166626A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 归一化方法、装置和电子设备
CN107633078A (zh) * 2017-09-25 2018-01-26 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
CN110134819A (zh) * 2019-04-25 2019-08-16 广州智伴人工智能科技有限公司 一种语音音频筛选***
CN110311943A (zh) * 2019-04-16 2019-10-08 南京华盾电力信息安全测评有限公司 一种电力企业大数据平台中数据的查询与展示方法
CN110415689A (zh) * 2018-04-26 2019-11-05 富泰华工业(深圳)有限公司 语音识别装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242880A (ja) * 2000-03-01 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号の検索方法及び認識方法並びに記録媒体
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN102436806A (zh) * 2011-09-29 2012-05-02 复旦大学 一种基于相似度的音频拷贝检测的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242880A (ja) * 2000-03-01 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号の検索方法及び認識方法並びに記録媒体
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN102436806A (zh) * 2011-09-29 2012-05-02 复旦大学 一种基于相似度的音频拷贝检测的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUNIO KASHINO, TAKAYUKI KUROZUMI, HIROSHI MURASE: "A Quick Search Method for Audio and Video Signals Based on Histogram Pruning", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
WEI LIANG, SHUWU ZHANG, BO XU: "A Histogram Algorithm for Fast Audio Retrieval", 《INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166626A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 归一化方法、装置和电子设备
CN106057211A (zh) * 2016-05-27 2016-10-26 广州多益网络股份有限公司 一种信号匹配方法及装置
CN107633078A (zh) * 2017-09-25 2018-01-26 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
CN110415689A (zh) * 2018-04-26 2019-11-05 富泰华工业(深圳)有限公司 语音识别装置及方法
CN110415689B (zh) * 2018-04-26 2022-02-15 富泰华工业(深圳)有限公司 语音识别装置及方法
CN110311943A (zh) * 2019-04-16 2019-10-08 南京华盾电力信息安全测评有限公司 一种电力企业大数据平台中数据的查询与展示方法
CN110134819A (zh) * 2019-04-25 2019-08-16 广州智伴人工智能科技有限公司 一种语音音频筛选***

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
Ullrich et al. Boundary Detection in Music Structure Analysis using Convolutional Neural Networks.
CN103730129A (zh) 一种用于数据库信息查询的语音查询***
CN101136199B (zh) 语音数据处理方法和设备
CN100461179C (zh) 基于内容的音频分析***
CN101404160B (zh) 一种基于音频识别的语音降噪方法
Hidayat et al. Convolutional neural networks for scops owl sound classification
US20180039859A1 (en) Joint acoustic and visual processing
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN104200804A (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN103310789A (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN110853648A (zh) 一种不良语音检测方法、装置、电子设备及存储介质
CN110019741B (zh) 问答***答案匹配方法、装置、设备及可读存储介质
CN110689906A (zh) 一种基于语音处理技术的执法检测方法及***
Dong et al. A novel representation of bioacoustic events for content-based search in field audio data
Anguera Information retrieval-based dynamic time warping.
Flamary et al. Spoken WordCloud: Clustering recurrent patterns in speech
CN112331220A (zh) 一种基于深度学习的鸟类实时识别方法
Hou et al. Polyphonic audio tagging with sequentially labelled data using crnn with learnable gated linear units
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和***
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN115985331B (zh) 一种用于野外观测的音频自动分析方法
Liang et al. Audio content classification method research based on two-step strategy
Yu Research on music emotion classification based on CNN-LSTM network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140416

RJ01 Rejection of invention patent application after publication