CN103730129A

CN103730129A - 一种用于数据库信息查询的语音查询***

Info

Publication number: CN103730129A
Application number: CN201310578994.0A
Authority: CN
Inventors: 储冬红
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2014-04-16

Abstract

一种用于数据库信息查询的语音查询***，该***包括：语音输入模块、数据化模块、特征筛选模块、对比分析模块、数据分析立体化模块、对比相关度检验模块、结果输出模块、数据检索模块；其中，语音输入模块，用来保存输入的语音信息；数据化模块实现将将输入的语音信转换为数字化向量；特征筛选模块，用于将输入语音信号的数字化向量，对信号进行分割处理，数据分析立体化模块，将分割后的数字化向量进行立体化分析处理；对比相关度检验模块，用于计算各个对应分割时间域之间的相关度大小；结果输出模块，用于分析输入语音信号和对比语音信号的相似度大小，数据检索模块，用于完成最终的数据库检索过程。

Description

一种用于数据库信息查询的语音查询***

技术领域

本发明涉及信息查询的领域，尤其涉及一种用于数据库信息查询的语音查询***。

背景技术

传统的数据库查询方式，通常采用通过键盘输入相应的关键检索字符来实现，但是在一些特殊情况下，为了提高检索效率，可以采用语音输入的方式来进行数据库的信息检索，但是这样检索输入方式所遇到的困难也较多，比如：全世界有近百种官方语言，每种语言又有多达几十种方言，同种语言在不同方言的语音上相差悬殊，这样随着语言环境的改变，***性能会变差。

在强噪声干扰下，会导致语音信息的准确度降低。因为语音数据大部分是在接近理想条件下采集的，语音信息的编码方案在研制的时候，都要在高保真设备上录制，尤其要在无噪声环境下录音。然而当语言处理由实验室走向实际应用时，环境噪声的存在会造成很大的影响。

上述的这些问题，都给数据库的语音检索在实际中的应用和实现带来了很多困难，尤其是数据库信息查询，对检索词汇更是有较高的要求，才能实现快速准确地获取信息。

发明内容

本发明的目的在于提供一种用于数据库信息查询的语音查询***，改变传统的键盘输入信息的检索手段，通过语音传输检索命令，实现快速信息查询。这种检索方式不仅能避免传统输入方式的繁琐，而且能提高检索的速度和效率。

要解决上述通过语音输入来实现数据库检索所遇到的问题，需要设计一个适应性和处理能力都非常高的信息***。

一种用于数据库信息查询的语音查询***，包括：

语音输入模块，用来保存输入的语音信息；

数据化模块，用来将输入的语音信转换为数字化向量；通过对语音信号做离散函数变换和对数处理，将语音波形信号转换为具有时间和维数的向量形式，便于通过特征筛选模块提取和分析语音信号的特征；

特征筛选模块，用于将语音目标模型数据库中提取的语音特征模型数字化向量，通过特征筛选模块进行分割处理，得到按时间域划分的小段数字化向量，通过特征筛选模块，调用语音目标模型数据库中提取的语音特征模型数字化向量，进行等长度时间域的划分，保证两者的信号时长一致，确保后续对比分析模块调用的数据准确可靠；

在对比分析模块中，包含有数据分析立体化模块和对比相关度检验模块；

数据分析立体化模块，能够将分割成小段后的数字化向量进行立体化分析处理，得到信号的立体效果图，便于后续数据分析处理；

对比相关度检验模块，用于计算和比较各个对应分割时间域之间的相关度大小；

结果输出模块，用于综合分析输入语音信号和目标模型数据库对比语音信号的相似度大小，并结合设定的响应阀值大小进行判断，若大于设定的阀值，则输出检测信号。若小于阀值，则改变时间域的范围，进行下一轮分析；

数据检索模块，将结果输出模块的语音检测结果，输入到数据库中进行检索，完成最终的数据库检索过程，并将最终检索结果反馈给用户；

一种用于数据库信息查询的语音查询***，其中，

语音输入模块中包含有，三阶时域带通滤波装置，通过该装置来改变输入信号的归一化频带能量。

一种用于数据库信息查询的语音查询***，其中

数据化模块中包含有，频带分析装置，通过该装置，在不同信号频带上分别估计基频，然后将各个频带的估计结果融合形成最后的频带估计结果。

一种用于数据库信息查询的语音查询***，其中

数据化模块中包含有，信号噪声去除装置，该装置通过提高不规则音频信号的特征，将音频信号加汉明窗做傅里叶函数变换，将变换后的结果取对数后进行高通滤波，得到增加的频谱。

一种用于数据库信息查询的语音查询***，其中

数据化模块中包含有，语音信号向量化装置，通过该装置，将输入的语音分帧，计算每一个帧的对数能量，并采用自动阀值在能量曲线中寻找局部极大值点。确定了局部能量极大值点后，语音的时长就是相邻极值点的距离，输入的语音信号就可以用一个向量表示。

一种用于数据库信息查询的语音查询***，其中

特征筛选模块中包含有，数据信号归正化装置，该装置能够在数据进入对比分析模块之前，将输入的语音信号和目标模型数据库中的语音信号同时做归正处理。

一种用于数据库信息查询的语音查询***，其中

数据化模块中包含有，信号帧分析装置，该装置能够对获取的语音信息先作一次傅里叶变化，得到对应第一特征值；再作一次傅里叶变换，得到第二特征值，以此来分析语言帧之间的变化特征，提高语音识别的精确度。

在数据检索的过程中，通过对输入的检索语音信息进行数据化处理，从检索目标信号和检索数据输入信息提取特征向量，得到参考特征向量和输入特征向量。计算参考信号和输入信号间的相似度，如果超过阀值，则认为在输入数据的当前位置检测到了参考信号。最后，将输入信号上的直方窗向前移动，继续上述对比分析过程。

在分析过程中，将输入的语音信号通过三阶时域带通滤波器，设第J个带通滤波器的输出为y_j(k),频带j的短时能量为

e_{j} (i) = Σ_{k = i - M + 1}^{i} y_{j}^{3} (k), i = l \times M (l = 1,2, \cdot \cdot \cdot \cdot \cdot \cdot)

其中，M表示短时帧长，i为帧序号。第i帧在频带j上的归一化频带能量为

e_j′(i)＝α(i)e_j(i)

其中，α(i)是归一化常量，定义为

α (i) = \frac{1}{\max (e_{j} (i))}

这样一帧信号的频带能量特征可以用向量

来表示，i表示帧序号，与采样时间对应，n_sub是频带个数。

将每个频带能量的值域都分割成若干区间，每个区间和一个直方对应。统计频带能量数值落到各个桶的比率，最终生成直方图。

设频带能量分为n_v个区间，每个直方图中将有B个直方。

B＝n_v×n_sub

n_v的数值如果太小，直方图的分辨能力不强，不能有效区分不同的语音数据。反之，如果太大，则直方图会对数值的微小扰动很敏感，不能分辨相同的语音数据。

关于直方图之间相似度的衡量，通过将输入模板I和参考模板R之间的第i个子窗对应的直方图交集相似度为

S (h_{i}^{R}, h_{i}^{I}) = \frac{1}{L} Σ_{l = 1}^{L} \min (h_{il}^{R}, h_{il}^{I})

其中，

和

分别表示参考模板和输入模板的第i个直方图，L表示直方图包含的直方条数。

输入模板I和参考模板R之间的整体相似度S定义为

S (h_{i}^{R}, h_{i}^{I}) = \min (h_{i}^{R}, h_{i}^{I})

如果输入模板I和参考模板R之间的整体相似度S超过阀值，则在输入数据的当前位置检测到了参考模。不同的参考模板，其直方图相似度具有不同的属性。检测阀值定义为

θ＝μ+cσ

其中，μ是直方图相似度均值，σ是直方图相似度的标准差，C是经验常数。

如果超过阀值，则认为在输入数据的位置检测到了参考信号。

因此，一种用于数据库信息查询的语音查询的方法和***，包括：

通过语音采集装置，将用户的语音信息的输入；采用离散函数对采集的音频进行数据化处理；将数据化后的语音信息进行语音特征的筛选，以与语音目标模型库中的语音特性进行对比分析；将对比分析后的语音测试结果输出，得到数据库检索的关键词汇，输入到检索数据库中，从而得到最后的检索结果。

其中，将语音信号数据化的过程，采用的是先在不同频带上分别估计基频，然后将各个频带的估计结果融合形成最后的估计结果。为了去除噪声的影响，提高不规则音频信号的特征，将音频信号加汉明窗做傅里叶函数变换，将变换后的结果取对数后进行高通滤波，得到增加的频谱。

通过对频谱增强后的信号提取特征向量，得到参考特征向量和输入特征向量的值。通过采用直方窗的方式，从特征向量的序列中取出部分特征向量进行对比，来分析音频的时序关系，通过计算两者直方图的相似程度，并和设定的阀值进行比较，从而输出检测结果或者移动到下一个时间域继续搜索过程。

关于***特性向量的提取，采用的时间向量，向量中每一个元素表示一个语音信号的时长。为了提取每一个语音信号的时长，首先将输入的语音分帧，计算每一个帧的对数能量，并采用自动阀值在能量曲线中寻找局部极大值点。确定了局部能量极大值点后，语音的时长就是相邻极值点的距离，因此输入的语音信号就可以用一个向量表示。

提取特征向量之后，再将其与语音目标模型数据库进行对比。再进行对比分析之前，需要将输入特征向量和语音目标数据库中特征向量同时做归正处理，然后在归正的基础上做匹配计算。

在提取语音信息的特征向量时，需要考虑语音帧之间的关系。语音信号具有连续性，分析语言帧之间的变化特征，能够提高语音识别的精确度。

对获取的语音信息先作一次傅里叶变化，得到对应第一特征值；如果再作一次傅里叶变换，就能得到第二特征值。具体实现方法如下：

d_{t} = \frac{Σ_{θ = 1}^{Θ} θ (c_{t + θ} - c_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

其中，d_t表示第t帧特征的第一次特征值，Θ是考虑了第t帧时序变化的语音帧的数量。然后再对上述计算结果做同样的计算，就能得到第二特征值。通过这样的多次计算，有利于提供***的整体识别率。

为了降低输入的语音信号的噪声信号造成的干扰，对输入的信号需要进行相关变化处理，具体处理方法如下：

Y = N_{K}^{T} x

其中，

是

的特征向量，x是K维向量，

A_{m} = Σ_{j = 1}^{c} Σ_{i = 1}^{n_{j}} (x_{i}^{j} - \frac{1}{n_{j}} Σ_{i = 1}^{n_{j}} x_{i}^{j}) {(x_{i}^{j} - Σ_{i = 1}^{n_{j}} x_{i}^{j})}^{T}

A_{n} = Σ_{j = 1}^{c} (\frac{1}{n} Σ_{i = 1}^{n} x_{i} - m) {(\frac{1}{n} Σ_{i = 1}^{n} x_{i} - m)}^{T}

输入语音信号的特征向量集合为S_in，语音输入的特征维数为K,根据上述计算公式得到语音信号转换后的矩阵N_K×T,因此，输入的语音信号特征向量的集合能够通过公式

可以计算出来。选择T＜K,能够降低输入的语音信号的维数和噪声。

通过语音输入设备得到用户的语音信息，再通过数据化模块将语音信号转换为数字模拟信号。通过对数字信号做相应的离散函数数学分析处理，通过特征筛选模块实现信号的特征筛选，结合已有的模型库模块中的语音函数，通过对比分析模块来比较阀值的大小，从而决定是否输出语音识别的结果。

符合条件的语音识别结果通过结果输出模块，得到检索所需的搜索关键词，将得到的关键词输入到数据检索模块，实现最终的语音识别检索过程。

附图说明

图1描述的是根据本发明实施的通过语音查询在数据库中实现信息查询检索的流程图；

图2描述的是通过数据化模块，将输入的语音转换为数字信号的原理示意图；

图3描述的是通过对比分析模块，将输入的语音信号和语音目标模型库进行对比分析的原理图；

其中，310-语音目标模型数据库中提取的语音特征模型数字化向量，

311-输入语音信号的数字化向量，

320,321,322---将目标模型数据库分割成小段后的数字化向量，

323,324,325---将输入信号的语音特征模型分割成小段后的数字化向量，

330，331，332---将目标模型分割后的数字化向量进行立体化处理后的效果图，

333,334,335---将输入语音信号分割后的数字化向量进行立体化处理后的效果图，

340,341,342---将分割后的目标模型数据和分割后的输入信号数据进行对比分析的相关度大小数值，

图4描述的是结果分析模块，通过分析比较阀值来判断是否输出语音分析结果的原理示意图；

图5描述的是一种用于数据库信息查询的语音查询***的模块组成示意图；

具体实施方式

图1描述的是根据本发明实施的通过语音查询在数据库中实现信息查询检索的流程图，下面结合附图1对本发明做进一步说明；

首先，将输入的语音信号进行保存，并通过相关的函数分析处理实现语音数据化过程。将数据化的语音筛选其特征，并与语音目标模型库中的语音模型进行对比分析，筛选出符合阀值的语音信号，作为语音识别筛选的结果输出，作为检索的关键词输入到数据库中，并将最终的检索结果输出给用户，完成数据库的整个查询检索过程。

图2描述的是通过数据化模块（520），将输入的语音信号（211）以及模型库模块（540）中的语音信号（210）分别转换为数字化向量（310,311）的原理示意图；通过对语音信号（210,211）做离散函数变换和对数处理，将语音波形信号转换为具有时间和维数的向量形式，这样便于提取和分析语音信号的特征。

图3描述的是通过对比分析模块(550)，将输入的语音信号和语音目标模型库进行对比分析的原理图；首先，将输入语音信号的数字化向量（311）通过特征筛选模块(530)进行分割处理，得到按时间域划分的小段数字化向量（323,324,325），同样通过特征筛选模块(530)，调用语音目标模型数据库中提取的语音特征模型数字化向量（310），进行等长度时间域的划分，保证两者的信号时长一致，确保后续分析对比分析模块调用的数据准确可靠。在对比分析模块(550)中，包含有数据分析立体化模块(551)，通过该模块能够实现将分割成小段后的数字化向量（320,321,322，323,324,325）进行立体化分析处理，得到信号的立体效果图（330，331,332,333,334,335），对这些数据的对比分析，是通过对比分析模块(550)中的子模块：对比相关度检验模块(552)，来实现。

通过综合分析分割后，输入语音信号和目标模型数据库对比语音信号的相似度大小，并结合设定的响应阀值大小进行判断，若大于设定的阀值，则输出检测信号。若小于阀值，则改变时间域的范围，进行下一轮分析，401表示的是改变输入语音信号的分析时间域，移动到下一个对比范围。

其中，语音输入模块（510）用来保持输入的语音信息，并通过数据化模块（520）实现将将输入的语音信转换为数字化向量；通过对语音信号做离散函数变换和对数处理，将语音波形信号转换为具有时间和维数的向量形式，便于通过特征筛选模块（530）提取和分析语音信号的特征。

通过特征筛选模块（530），将输入语音信号的数字化向量（311）通过特征筛选模块(530)进行分割处理，得到按时间域划分的小段数字化向量（323,324,325），同样通过特征筛选模块(530)，调用语音目标模型数据库中提取的语音特征模型数字化向量（310），进行等长度时间域的划分，保证两者的信号时长一致，确保后续分析对比分析模块调用的数据准确可靠。

在对比分析模块(550)中，包含有数据分析立体化模块(551)，通过该模块能够实现将分割成小段后的数字化向量进行立体化分析处理，得到信号的立体效果图，对这些数据的对比分析，是通过对比分析模块(550)中的子模块：对比相关度检验模块(552)，来实现。

结果输出模块（560），通过分析分割后，输入语音信号和目标模型数据库对比语音信号的相似度大小，并结合设定的响应阀值大小进行判断，若大于设定的阀值，则输出检测信号。若小于阀值，则改变时间域的范围，进行下一轮分析。

数据检索模块（570），是将结果输出模块（560）输出的语音检测结果，作为输入数据库检索的词汇，完成最终的数据库检索过程。

Claims

1.一种用于数据库信息查询的语音查询***，包括：

语音输入模块，用来保存输入的语音信息；

特征筛选模块，用于将输入语音信号的数字化向量，通过特征筛选模块进行分割处理，得到按时间域划分的小段数字化向量，通过特征筛选模块，调用语音目标模型数据库中提取的语音特征模型数字化向量，进行等长度时间域的划分，保证两者的信号时长一致，确保后续分析对比分析模块调用的数据准确可靠；

结果输出模块，用于综合分析输入语音信号和目标模型数据库对比语音信号的相似度大小，并结合设定的响应阀值大小进行判断，若大于设定的阀值，则输出检测信号;若小于阀值，则改变时间域的范围，进行下一轮分析；

数据检索模块，将结果输出模块的语音检测结果，输入到数据库中进行检索，完成最终的数据库检索过程，并将最终检索结果反馈给用户。

2.根据权利要求1 所述的一种用于数据库信息查询的语音查询***，其中，

3. 根据权利要求1 所述的一种用于数据库信息查询的语音查询***，其中

4.根据权利要求1 所述的一种用于数据库信息查询的语音查询***，其中

5. 根据权利要求1 所述的一种用于数据库信息查询的语音查询***，其中

数据化模块中包含有，语音信号向量化装置，通过该装置，将输入的语音分帧，计算每一个帧的对数能量，并采用自动阀值在能量曲线中寻找局部极大值点；确定了局部能量极大值点后，语音的时长就是相邻极值点的距离，输入的语音信号就可以用一个向量表示。

6.根据权利要求1 所述的一种用于数据库信息查询的语音查询***，其中

7.根据权利要求1 所述的一种用于数据库信息查询的语音查询***，其中