CN109471953A - 一种语音数据检索方法及终端设备 - Google Patents
一种语音数据检索方法及终端设备 Download PDFInfo
- Publication number
- CN109471953A CN109471953A CN201811182071.2A CN201811182071A CN109471953A CN 109471953 A CN109471953 A CN 109471953A CN 201811182071 A CN201811182071 A CN 201811182071A CN 109471953 A CN109471953 A CN 109471953A
- Authority
- CN
- China
- Prior art keywords
- text
- content
- voice data
- parameter
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013480 data collection Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 15
- 241000208340 Araliaceae Species 0.000 claims description 8
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 8
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 8
- 235000008434 ginseng Nutrition 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音数据检索方法及终端设备,适用于数据处理技术领域,该方法包括:对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别语音数据的文本内容;对时域特征参数、频域特征参数、倒谱参数以及文本内容进行随机组合,得到对应的多种特征组合;基于多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集;对多个语音数据集取交集数据,得到语音数据的检索结果。本发明实现了对语音数据的多维度特征参数的检索,保证了最终得到的检索结果是在各个维度均与目标语音数据相匹配的语音数据,极大地提升了对语音数据检索的准确性。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及语音数据检索方法及终端设备。
背景技术
语音数据的检索是当今互联网检索技术的发展方向之一,对语音数据的检索过程其实就是根据语音数据进行特征提取和特征匹配,以搜索出与目标语音数据相似的其他语音数据的过程。现有技术在进行语音数据检索时,都是简单的根据语音数据包含的文本内容进行语音数据的文本匹配检索,以确定出与语音数据文本内容相同的其他语音数据,这样虽然能实现对语音数据的检索,但由于文本内容所能体现的语音数据的特征非常有限,仅根据文本内容来进行检索匹配,难以保证最终得到的检索结果的准确性。
发明内容
有鉴于此,本发明实施例提供了一种语音数据检索方法及终端设备,以解决现有技术中仅根据语音数据的文本内容进行语音数据检索准确性低的问题。
本发明实施例的第一方面提供了一种语音数据检索方法,包括:
对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别所述语音数据的文本内容;
对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合;
基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集;
对所述多个语音数据集取交集数据,得到所述语音数据的检索结果。
本发明实施例的第二方面提供了一种终端设备,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤。
对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别所述语音数据的文本内容;
对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合;
基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集;
对所述多个语音数据集取交集数据,得到所述语音数据的检索结果。
本发明实施例的第三方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的语音数据检索方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:通过对语音数据从时域特征参数、频域特征参数、倒谱参数以及文本内容四个维度进行参数提取并组合,再基于不同的参数组合分别进行语音数据聚合匹配,从而实现了对语音数据的多维度特征参数的检索,保证了最终得到的检索结果是在各个维度均与目标语音数据相匹配的语音数据,极大地提升了对语音数据检索的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的语音数据检索方法的实现流程示意图;
图2是本发明实施例二提供的语音数据检索方法的实现流程示意图;
图3是本发明实施例三提供的语音数据检索方法的实现流程示意图;
图4是本发明实施例四提供的语音数据检索方法的实现流程示意图;
图5是本发明实施例五提供的语音数据检索装置的结构示意图;
图6是本发明实施例六提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
为了便于理解本发明,此处先对本发明实施例进行简要说明:考虑到一个语音数据中其实包含了非常多的特征,如时域特征和频域特征等,正是这些多维度的特征共同构成和限定了一个语音数据与其他语音数据的区别之处,而现有技术中仅仅只是根据语音数据的文本内容来进行匹配,虽然一定程度上能够实现语音数据的匹配检索,但由于参考的特征维度过少,从而使得匹配的精度过低无法实现对语音数据的精确检索匹配。因此,为了实现对语音数据的精确匹配检索,本发明实施例中会同时参考语音数据的时域特征、频率特征、倒谱特征以及文本内容来进行匹配,以实现对语音数据的多维度特征匹配。同时,考虑到实际情况中不同类型的特征的不同组合方式,可以实现对语音数据的不同属性的识别,例如对语音数据的语速、平均过零率、基音频率以及共振峰等特征的组合分析可以实现对语音数据情感的识别,因此本发明实施例还会对得到的多维度的特征参数进行组合匹配。以实现对语音数据的精确识别,详述如下:
图1示出了本发明实施例一提供的语音数据检索方法的实现流程图,详述如下:
S101,对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别语音数据的文本内容。
其中,时域特征参数是指语音数据在时域上的特征参数,频域特征参数是指语音数据在频域上的特征参数,即两者都是指语音数据的某一类特征参数,在本发明实施例中,两者具体包含的特征参数数量可由技术人员根据需求自行选定,此处不予限定,如时域特征参数既可以仅包含声音强度,也可以同时包含声音强度、平均过零率以及波峰阈值等,同样频域特征参数既可以仅包含基音频率,也可以同时包含基音频率、最高频率以及平均频率等。倒谱参数是指语音数据的梅尔倒谱系数。由于现有技术中已有较多对上述特征参数的提取方法以及对语音数据文本识别的方法,因此此处不予赘述,技术人员可自行选取。
本发明实施例中,为了实现对语音数据更加全面的特征比对匹配,会同时对语音数据进行时域特征、频率特征、倒谱特征以及文本内容共4个维度特征参数的提取,以为后续多维度特征的语音数据匹配提供基础。
S102,对时域特征参数、频域特征参数、倒谱参数以及文本内容进行随机组合,得到对应的多种特征组合。
设时域特征参数为A、频域特征参数为B、倒谱参数为C以及文本内容为D,对4种维度的特征进行随机数量的组合,可以得到最多:AB、AC、AD、BC、BD、CD、ABC、ABD、ACD、BCD和ABCD共11种特征组合,本发明实施例中并未对具体得到的特征组合的数量进行限定,技术人员可选定1种到11种中的任意数量,但应当说明地,由于本发明实施例中需要根据上述4个维度的特征进行语音数据的匹配,因此在进行特征组合选取的时候,需保证上述4种维度的特征均包含在最终选取的多种特征组合中,如若最终想选取2种特征组合,那最终选取的两种特征组合中必须包含4种维度的特征,如可以是AB+CD,但如AB+AC这种缺少一种或多种维度的特征的组合则不满足本发明实施例的要求。优选地,本发明实施例中可以同时选取上述11种特征组合来作为语音数据比对匹配的依据,以实现对语音数据更加全面精确的特征比对匹配。
S103,基于多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集。
在得到用于进行语音数据匹配的多种特征组合后,开始基于这些特征组合来进行数据匹配,将得到的这些特征组合与预设的语音数据库中的语音数据的对应特征数据进行比对判断是否相似,当对应的特征组合中的特征参数相似度较高时,判定两个语音数据是相似的数据。由于语音数据库中包含的语音数据较多,且实际在进行特征是否相似的判断时,设定的相似度阈值一般不会过高,因此,根据一个特征组合进行匹配得到的语音数据一般都不止一条,在本发明实施例中,会将利用每个特征组合匹配得到语音数据均提取为一个语音数据集,例如假设特征组合为:时域特征参数+频域特征参数,此时会根据这两个参数组合来进行语音数据的匹配,查找出语音数据库中两个参数相似的语音数据并提取为一个对应的语音数据集。因此,在本发明实施例中,每个语音数据集中包含的都是在一种特征组合上与用户语音数据相似的语音数据。
S104,对多个语音数据集取交集数据,得到语音数据的检索结果。
在得到提取出的多个语音数据集之后,为了实现对语音数据多维度特征的匹配,本发明实施例会将这些语音数据集取交集数据,由于每个语音数据集中包含的都是在一种特征组合上与用户语音数据相似的语音数据,因此它们的交集数据必定是在所有特征组合上均与用户语音数据相似的语音数据,从而保证了最终输出的检索结果是在各个维度均与目标语音数据相匹配的语音数据,极大地提升了对语音数据检索的准确性。
本发明实施例通过对语音数据从时域特征参数、频域特征参数、倒谱参数以及文本内容四个维度进行参数提取并组合,再基于不同的参数组合分别进行语音数据聚合匹配,从而实现了对语音数据的多维度特征参数的检索,保证了最终得到的检索结果是在各个维度均与目标语音数据相匹配的语音数据,极大地提升了对语音数据检索的准确性。
作为本发明实施例进行倒谱参数提取的一种具体实现方式,包括:
提取语音数据的梅尔倒谱系数,并对梅尔倒谱系数进行深度卷积得到倒谱参数。
考虑到直接对语音数据进行梅尔倒谱系数提取时得到的梅尔倒谱系数数据量较大运算负荷较大,因此,本发明实施例会在得到梅尔倒谱系数的基础上对其进行深度卷积,以减少最终倒谱参数的数据量。
卷积的过程可以如下:
a、输入具有时间序列的梅尔倒谱系数
b、卷积层:以1*2的尺寸大小,步长为1,进行卷积操作(浅层特征)。
c、池化层:选择最大池化的方法,尺寸为1*10,步长为10,进行降采样(深层次特征)。
d、全连接层:产生5个节点,向量维度为256维度,激活函数为relu函数,得到所需的倒谱参数。
作为本发明实施例一中利用特征组合进行语音数据匹配的一种具体实现方式,包括:
对特征组合中包含的特征参数进行分析,确定出语音数据对应的语音类别,并基于语音类别对语音数据库进行数据匹配。
由于时域特征参数和频域特征参数都是指语音数据的某一类特征参数,其中既可以包含一个特征参数也可以包含多个特征参数,因此实际情况中根据技术人员选取的两类特征参数分别包含的特征参数的具体数量的不同,得到的特征组合的情况也相差较大,例如假设时域特征参数仅包含声音强度,频域特征参数仅包含基音频率,此时得到特征组合:时域特征参数+频域特征参数=声音强度+基音频率,但当时域特征参数包含语速和平均过零率,频域特征参数包含基音频率和共振峰,此时时域特征参数+频域特征参数=语速+平均过零率+基音频率+共振峰,而实际应用中,由于特征参数本身就能反映出语音数据的一些属性,对于语音数据的一些高级属性如语音数据的情感类别,往往难以通过单项特征参数反映出来,而是需要对多个特征参数的组合分析才能确定,因此在对语音数据的特征参数进行比对匹配时,不仅仅只能进行特征参数与特征参数之间的直接比对,还可以对这些直接提取得到的特征参数进行进一步的深入分析,以得到语音数据更加高级的属性,再对这些高级属性进行比对匹配,可实现更为精准的语音数据匹配检索。
本发明实施例中为了实现对语音数据更为精准的匹配检索,会对特征组合中的多个特征参数进行进一步地分析,其中具体的分析方法,需由技术人员根据已有的语音数据高级属性情况以及高级属性分析方法来确定,如对于语音数据的情感属性而言,有多种特征组合都可以实现语音数据的情感分析,且不同的特征组合对应的情感分析方法也不尽相同,如可以基于语速+平均过零率+基音频率+共振峰,并利用已有的一些情感识别网络来进行语音数据的情感分析,因此此时可以设置为根据这些特征参数利用预设的情感识别模型来实现对语音数据的情感分类,再基于识别出的情感来查找出语音数据库中情感类别相同的语音数据,从而实现了对语音数据高级属性的识别匹配,相对直接对特征参数进行比对匹配而言,匹配的效果更好精确度更高。
作为本发明实施例一中利用特征组合进行语音数据匹配的一种具体实现方式,考虑到实际情况中语音聚类模型种类较多,而不同语音聚类模型在进行语音聚类的时候考量的方面有所差异,其包含的具体语音相似判断方法有所不同,因此,为了实现对语音数据特征的多角度聚类,以保证匹配到的语音数据在各个特征维度和各个聚类角度都是与用户语音数据相似的,保证语音数据检索的精确性,本发明实施例在进行特征组合的处理和语音数据匹配时,如图2所示,本发明实施例二,包括:
S1031,基于预设的多种语音聚类模型分别对多种特征组合进行处理,筛选出多种特征组合在预设语音数据库中对应的多个语音数据集。
在本发明实施例中为了实现对语音数据的多角度聚类,在对得到的多种特征组合进行处理时,采用了多种不同的语音聚类模型来分别进行处理。其中,既可以是每种语音聚类模型唯一对应一种特征组合,也可以是每一种语音聚类模型对应一种或多种特征组合进行处理,但无论是何种对应方式,都需要保证使用的语音聚类模型至少有两种,以实现对语音数据的多角度聚类。具体使用的语音聚类模型可由技术人员根据实际需求自行选定,包括但不限于如K-Means、DBSCAN、DPEAK、Spectral_Clustering、层次(***)聚类以及最大期望EM算法等。
作为本发明实施例三,考虑到实际情况中可能存在用户不是很明确自己所需检索的内容导致的语音数据内容不完整,或者是用户语音没有说完整所需检索的内容导致的语音数据内容不完整等情况,由于这些情况导致的最终结果都是语音数据不完整,如只说了一个关键词或者一句话只说了一半,此时语音识别得到的文本内容较少,在进行语音数据匹配的时候极有可能会导致筛选出的语音数据过多的,从而使得最终检索结果的准确性下降,因此为了保证最终检索结果的准确性,在上述本发明实施例对用户的语音数据进行处理并得到检索结果之后,本发明实施例三还会根据检索结果中包含的语音数据条数来进一步地对语音数据进行处理和检索,如图3所示,包括:
S301,判断检索结果中包含的语音数据条数是否大于预设阈值。
S302,若检索结果中包含的语音数据条数大于预设阈值,对文本内容进行语义分析,判断文本内容中是否存在文本缺失。
当检索结果中包含的语音数据条件过多时,用户往往难以从中确定出所需的数据,此时本发明实施例会对语音数据的文本内容进行分析和处理,完善文本内容,以实现对语音数据的精准检索。其中预设阈值的具体值大小可由技术人员自行设定,此处不予限定。
语义分析主要是为了判断出文本内容中是否存在语法结构缺失,如主谓宾结构是否完整,是否存在缩写用语等,以保证最终得到的文本内容的完整性。
S303,若文本内容中存在文本缺失,对文本内容进行文本补全,并基于补全后的文本内容,返回执行对时域特征参数、频域特征参数、倒谱参数以及文本内容进行随机组合,得到对应的多种特征组合的操作。
若文本内容中存在文本缺失,说明文本内容语法结构上不完整,此时本发明实施例会对文本内容进行文本补全,即会自动为文本内容填充其所缺失的内容,其中具体使用的文本补全方法此处不予限定,可由技术人员自行设定,包括但不限于如:根据语义分析结果对缩写用语进行展开,对缺失的内容进行对应词性的字词随机填充等。同时在补全后,再重新返回对4个维度的特征参数的随机组合的步骤,并重新进行后续的特征组合匹配等操作,以实现对语音数据的重新检索,由于重新检索时文本内容更加完整了,匹配时的标准更加严格,因此实现了更加精确的检索,保证了最终检索的精确性。
S304,若文本内容中不存在文本缺失,基于预设语料库对文本内容进行查询和更新,并基于更新后的文本内容,返回执行对时域特征参数、频域特征参数、倒谱参数以及文本内容进行随机组合,得到对应的多种特征组合的操作。
若文本内容不存在文本缺失,说明文本内容语法结构上没有问题,但也有可能是用户本身不明确自己检索需求,导致输入的语音数据内文本内容过少的情况,例如仅包含一个关键词而已,从而使得检索结果过多的情况,此时为提升检索精确度,本发明实施例会基于预先设置的语料库来对文本内容进行查询,查找出对应的语料,以实现对原文本内容的补充更新,再基于更新后的文本内容来重新返回至对4个维度的特征参数的随机组合的步骤,并重新进行后续的特征组合匹配等操作,以实现对语音数据的重新检索,由于重新检索时文本内容更加完整了,匹配时的标准更加严格,因此实现了更加精确的检索,保证了最终检索的精确性。
作为本发明实施例四,考虑到本发明实施例三在进行语料查询时,得到的与文本内容匹配的语料可能不止一条,此时需要从中选取出唯一的一条来更新文本内容,为了实现对语料的筛选,如图4所示,本发明实施例四,包括:
S401,基于文本内容对预设语料库进行语料查询,得到对应的多条语料查询结果。
S402,基于获取到的用户的用户信息对多条语料查询结果进行筛选,得到文本内容唯一对应的语料查询结果,并基于唯一对应的语料查询结果对文本内容进行更新,用户为输入语音数据的用户。
由于每个用户的需求有所不同,如用户职业不同导致对信息的需求不同,因此对于每个用户而言即使匹配得到相同的多条语料,最终其实际所需的唯一语料也不尽相同,例如假设文本内容为“图像”,匹配得到的语料有“图像转换”、“图像识别”、“图像分割”以及“图像处理器”,对于算法工程师而言,“图像识别”和“图像分割”的匹配度要高于其他语料,但对于硬件工程师而言,“图像处理器”的匹配度要高于其他语料。因此,为了实现对语料更为精准的选取,以保证后续匹配检索的精确性,本发明实施例中会根据用户的用户信息来进行语料的筛选,以确定出与用户最为匹配的语料结果。其中具体的筛选方法此处不予限定,包括但不限于如根据用户的职业信息来进行筛选,或者根据用户的历史检索记录来筛选等。
在本发明实施例中,为了提高对语音数据的检索精确度,一方面同时参考语音数据的时域特征、频率特征、倒谱特征以及文本内容来进行匹配,以实现对语音数据的多维度特征匹配,并利用不同的语音聚类模型来对这些多维度特征的组合进行处理,从而实现了对语音数据多维度特征和多角度聚类的分析匹配,极大地提升了对检索的精确度。同时由于不同类型的特征的不同组合方式,可以实现对语音数据的不同属性的识别,通过特征组合的方式进行匹配,可以实现对语音数据更为高级的属性的匹配,使得对语音数据的匹配更为精准。另一方面,为了防止检索结果过多导致用户无法获取到有效信息的情况,本发明实施例还会在检索结果过多的时候对语音数据的文本内容进行填充更新,以实现对检索结果的进一步精确筛选,保证了最终输出的检索结果的精确性。
对应于上文实施例的方法,图5示出了本发明实施例提供的语音数据检索装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图5示例的语音数据检索装置可以是前述实施例一提供的语音数据检索方法的执行主体。
参照图5,该语音数据检索装置包括:
特征提取模块51,用于对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别所述语音数据的文本内容。
特征组合模52,用于对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合。
语音匹配模块53,用于基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集。
数据提取模块54,用于对所述多个语音数据集取交集数据,得到所述语音数据的检索结果。
进一步地,特征提取模块51,包括:
提取所述语音数据的梅尔倒谱系数,并对所述梅尔倒谱系数进行深度卷积得到所述倒谱参数。
进一步地,语音匹配模块53,包括:
基于预设的多种语音聚类模型分别对所述多种特征组合进行处理,筛选出所述多种特征组合在所述预设语音数据库中对应的所述多个语音数据集。
进一步地,该语音数据检索装置,还包括:
数据量检测模块,用于判断所述检索结果中包含的语音数据条数是否大于预设阈值。
缺失检测模块,用于若所述检索结果中包含的语音数据条数大于所述预设阈值,对所述文本内容进行语义分析,判断所述文本内容中是否存在文本缺失。
文本补全模块,用于若所述文本内容中存在文本缺失,对所述文本内容进行文本补全,并基于补全后的所述文本内容,返回执行所述对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合的操作。
文本更新模块,用于若所述文本内容中不存在文本缺失,基于预设语料库对所述文本内容进行查询和更新,并基于更新后的所述文本内容,返回执行所述对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合的操作。
进一步地,文本更新模块,包括:
基于所述文本内容对所述预设语料库进行语料查询,得到对应的多条语料查询结果。
基于获取到的用户的用户信息对所述多条语料查询结果进行筛选,得到所述文本内容唯一对应的语料查询结果,并基于所述唯一对应的语料查询结果对所述文本内容进行更新,所述用户为输入所述语音数据的用户。
本发明实施例提供的语音数据检索装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一表格可以被命名为第二表格,并且类似地,第二表格可以被命名为第一表格,而不背离各种所描述的实施例的范围。第一表格和第二表格都是表格,但是它们不是同一表格。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61,所述存储器61中存储有可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个语音数据检索方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块51至54的功能。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音数据检索方法,其特征在于,包括:
对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别所述语音数据的文本内容;
对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合;
基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集;
对所述多个语音数据集取交集数据,得到所述语音数据的检索结果。
2.如权利要求1所述的语音数据检索方法,其特征在于,对语音数据进行特征参数提取得到对应的倒谱参数的过程,包括:
提取所述语音数据的梅尔倒谱系数,并对所述梅尔倒谱系数进行深度卷积得到所述倒谱参数。
3.如权利要求1所述的语音数据检索方法,其特征在于,所述基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集,包括:
基于预设的多种语音聚类模型分别对所述多种特征组合进行处理,筛选出所述多种特征组合在所述预设语音数据库中对应的所述多个语音数据集。
4.如权利要求1至3任意一项所述的语音数据检索方法,其特征在于,在所述得到所述语音数据的检索结果之后,还包括:
判断所述检索结果中包含的语音数据条数是否大于预设阈值;
若所述检索结果中包含的语音数据条数大于所述预设阈值,对所述文本内容进行语义分析,判断所述文本内容中是否存在文本缺失;
若所述文本内容中存在文本缺失,对所述文本内容进行文本补全,并基于补全后的所述文本内容,返回执行所述对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合的操作;
若所述文本内容中不存在文本缺失,基于预设语料库对所述文本内容进行查询和更新,并基于更新后的所述文本内容,返回执行所述对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合的操作。
5.如权利要求4所述的语音数据检索方法,其特征在于,所述基于预设语料库对所述文本内容进行查询更新,包括:
基于所述文本内容对所述预设语料库进行语料查询,得到对应的多条语料查询结果;
基于获取到的用户的用户信息对所述多条语料查询结果进行筛选,得到所述文本内容唯一对应的语料查询结果,并基于所述唯一对应的语料查询结果对所述文本内容进行更新,所述用户为输入所述语音数据的用户。
6.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对语音数据进行特征参数提取,得到对应的时域特征参数、频域特征参数以及倒谱参数,并识别所述语音数据的文本内容;
对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合;
基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集;
对所述多个语音数据集取交集数据,得到所述语音数据的检索结果。
7.如权利要求6所述的终端设备,其特征在于,所述基于所述多种特征组合分别对预设语音数据库进行数据匹配,得到对应的多个语音数据集,具体包括:
基于预设的多种语音聚类模型分别对所述多种特征组合进行处理,筛选出所述多种特征组合在所述预设语音数据库中对应的所述多个语音数据集。
8.如权利要求6或7所述的终端设备,其特征在于,所述处理器执行所述计算机程序时还实现如下步骤:
判断所述检索结果中包含的语音数据条数是否大于预设阈值;
若所述检索结果中包含的语音数据条数大于所述预设阈值,对所述文本内容进行语义分析,判断所述文本内容中是否存在文本缺失;
若所述文本内容中存在文本缺失,对所述文本内容进行文本补全,并基于补全后的所述文本内容,返回执行所述对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合的操作;
若所述文本内容中不存在文本缺失,基于预设语料库对所述文本内容进行查询和更新,并基于更新后的所述文本内容,返回执行所述对所述时域特征参数、所述频域特征参数、所述倒谱参数以及所述文本内容进行随机组合,得到对应的多种特征组合的操作。
9.如权利要求8所述的终端设备,其特征在于,所述基于预设语料库对所述文本内容进行查询更新,具体包括:
基于所述文本内容对所述预设语料库进行语料查询,得到对应的多条语料查询结果;
基于获取到的用户的用户信息对所述多条语料查询结果进行筛选,得到所述文本内容唯一对应的语料查询结果,并基于所述唯一对应的语料查询结果对所述文本内容进行更新,所述用户为输入所述语音数据的用户。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811182071.2A CN109471953A (zh) | 2018-10-11 | 2018-10-11 | 一种语音数据检索方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811182071.2A CN109471953A (zh) | 2018-10-11 | 2018-10-11 | 一种语音数据检索方法及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109471953A true CN109471953A (zh) | 2019-03-15 |
Family
ID=65663390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811182071.2A Pending CN109471953A (zh) | 2018-10-11 | 2018-10-11 | 一种语音数据检索方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471953A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选*** |
CN111833884A (zh) * | 2020-05-27 | 2020-10-27 | 北京三快在线科技有限公司 | 一种声纹特征提取方法、装置、电子设备及存储介质 |
CN112967717A (zh) * | 2021-03-01 | 2021-06-15 | 郑州铁路职业技术学院 | 一种高准确性的英语语音翻译的模糊匹配训练方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2418643A1 (en) * | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
CN103455642A (zh) * | 2013-10-10 | 2013-12-18 | 三星电子(中国)研发中心 | 一种多媒体文件检索的方法和装置 |
CN105094315A (zh) * | 2015-06-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机智能聊天的方法和装置 |
CN105260416A (zh) * | 2015-09-25 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的搜索方法及装置 |
CN105279259A (zh) * | 2015-10-21 | 2016-01-27 | 无锡天脉聚源传媒科技有限公司 | 一种搜索结果的确定方法及装置 |
CN105590626A (zh) * | 2015-12-29 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 持续语音人机交互方法和*** |
CN106095799A (zh) * | 2016-05-30 | 2016-11-09 | 广州多益网络股份有限公司 | 一种语音的存储、检索方法及装置 |
CN106357942A (zh) * | 2016-10-26 | 2017-01-25 | 广州佰聆数据股份有限公司 | 基于上下文对话语义识别的智能应答方法及*** |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析***及其方法 |
CN107451131A (zh) * | 2016-05-30 | 2017-12-08 | 贵阳朗玛信息技术股份有限公司 | 一种语音识别方法及装置 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN108536414A (zh) * | 2017-03-06 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置和***、移动终端 |
CN108597505A (zh) * | 2018-04-20 | 2018-09-28 | 北京元心科技有限公司 | 语音识别方法、装置及终端设备 |
-
2018
- 2018-10-11 CN CN201811182071.2A patent/CN109471953A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2418643A1 (en) * | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
CN103455642A (zh) * | 2013-10-10 | 2013-12-18 | 三星电子(中国)研发中心 | 一种多媒体文件检索的方法和装置 |
CN105094315A (zh) * | 2015-06-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机智能聊天的方法和装置 |
CN105260416A (zh) * | 2015-09-25 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的搜索方法及装置 |
CN105279259A (zh) * | 2015-10-21 | 2016-01-27 | 无锡天脉聚源传媒科技有限公司 | 一种搜索结果的确定方法及装置 |
CN105590626A (zh) * | 2015-12-29 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 持续语音人机交互方法和*** |
CN106095799A (zh) * | 2016-05-30 | 2016-11-09 | 广州多益网络股份有限公司 | 一种语音的存储、检索方法及装置 |
CN107451131A (zh) * | 2016-05-30 | 2017-12-08 | 贵阳朗玛信息技术股份有限公司 | 一种语音识别方法及装置 |
CN106357942A (zh) * | 2016-10-26 | 2017-01-25 | 广州佰聆数据股份有限公司 | 基于上下文对话语义识别的智能应答方法及*** |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析***及其方法 |
CN108536414A (zh) * | 2017-03-06 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置和***、移动终端 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN108597505A (zh) * | 2018-04-20 | 2018-09-28 | 北京元心科技有限公司 | 语音识别方法、装置及终端设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选*** |
CN111833884A (zh) * | 2020-05-27 | 2020-10-27 | 北京三快在线科技有限公司 | 一种声纹特征提取方法、装置、电子设备及存储介质 |
CN112967717A (zh) * | 2021-03-01 | 2021-06-15 | 郑州铁路职业技术学院 | 一种高准确性的英语语音翻译的模糊匹配训练方法 |
CN112967717B (zh) * | 2021-03-01 | 2023-08-22 | 郑州铁路职业技术学院 | 一种高准确性的英语语音翻译的模糊匹配训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN104462084B (zh) | 基于多个查询提供搜索细化建议 | |
CN110491383A (zh) | 一种语音交互方法、装置、***、存储介质及处理器 | |
CN110262273A (zh) | 一种家居设备控制方法、装置、存储介质及智能家居*** | |
CN103425727B (zh) | 上下文语音查询扩大方法和*** | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN110162780A (zh) | 用户意图的识别方法和装置 | |
CN104572631B (zh) | 一种语言模型的训练方法及*** | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN109471953A (zh) | 一种语音数据检索方法及终端设备 | |
CN110502632A (zh) | 基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质 | |
CN109598517A (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN112989235B (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN108664515A (zh) | 一种搜索方法及装置,电子设备 | |
CN110969172A (zh) | 一种文本的分类方法以及相关设备 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和*** | |
CN113033194B (zh) | 语义表示图模型的训练方法、装置、设备和存储介质 | |
CN109344232A (zh) | 一种舆情信息检索方法及终端设备 | |
CN106997340A (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 | |
CN116860963A (zh) | 一种文本分类方法、设备及存储介质 | |
US20210034704A1 (en) | Identifying Ambiguity in Semantic Resources | |
Bergmann et al. | Workflow clustering using semantic similarity measures | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |