CN110827806A - 一种语音关键词检测方法及*** - Google Patents

一种语音关键词检测方法及*** Download PDF

Info

Publication number
CN110827806A
CN110827806A CN201910990230.XA CN201910990230A CN110827806A CN 110827806 A CN110827806 A CN 110827806A CN 201910990230 A CN201910990230 A CN 201910990230A CN 110827806 A CN110827806 A CN 110827806A
Authority
CN
China
Prior art keywords
voice
speech
keyword
detected
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910990230.XA
Other languages
English (en)
Other versions
CN110827806B (zh
Inventor
吴志勇
张坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN201910990230.XA priority Critical patent/CN110827806B/zh
Publication of CN110827806A publication Critical patent/CN110827806A/zh
Application granted granted Critical
Publication of CN110827806B publication Critical patent/CN110827806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语音关键词检测方法及***,方法包括:关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列;使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵;对注意力矩阵按行取最大值、按列取最大值分别得到关键词语音实例和待检测语音的注意力权重向量,再用注意力权重向量对对应的隐状态向量序列进行加权求和得到最终的定长向量;利用相似度度量计算检测分数,对所有的待检测语音根据所述检测分数进行排序,将检测分数较高的待检测语音作为结果输出。通过在语音编码的过程中使两个定长向量相互影响,有效保留相互关联的语义信息,同时注意力机制的引入消除了信息编码的位置偏见。

Description

一种语音关键词检测方法及***
技术领域
本发明涉及语音关键词检测技术领域,尤其涉及一种语音关键词检测方法及***。
背景技术
在大数据时代,互联网服务时刻产生大量的语音数据,如何从这些数据中检索需要的语料成为一个迫切需要解决的难题。基于实例查询的语音关键词检测技术只需要输入关键词的语音实例和待检测语音,不需要使用语音识别技术就可以直接输出检测结果。现有的基于实例查询的语音关键词检测***由两部分组成:语音编码和相似度度量。语音编码部分由长短时记忆网络组成,目的是将语音编码成定长向量。相似度度量一般使用余弦相似度。首先语音编码部分将输入的关键词语音实例和待检测语音编码成两个定长向量,然后使用相似度度量部分计算两个向量之间的相似度,最后根据相似度高低对语料库中所有的待检测语音进行排序,输出相似度较高的语音。整个检测***的关键在于设计语音编码部分使得编码器能够有效提取语音中的语义信息,同时去除说话人、环境噪声以及情感等与任务无关的信息。基于长短时记忆网络的语音编码器将语音的声学特征序列转换成隐状态向量序列,然后将最后时刻的隐状态向量作为语音的定长向量。这种语音编码方式会使定长向量保留更多靠后时间段的语义信息同时丢失许多靠前时间段的语义信息,这种现象我们称为信息编码的位置偏见。而且关键词的语音实例和待检测语音的编码过程是相互独立的,无法有效提取两者之间相互关联的语义信息。
现有的技术方案使用长短时记忆网络作为语音编码器,将语音的声学特征序列转换成隐状态向量序列,然后将最后时刻的隐状态向量作为语音的定长向量。最后计算两个定长向量之间的相似度,根据相似度高低对语料库中所有的待检测语音进行排序,输出相似度较高的语音。
现有方案中,存在以下缺点:
(1)基于长短时记忆网络的语音编码器会使定长向量保留更多靠后时间段的语义信息同时丢失许多靠前时间段的语义信息,这种现象我们成为信息编码的位置偏见。
(2)关键词的语音实例和待检测语音的编码过程是相互独立的,无法有效提取两者之间相互关联的语义信息。
发明内容
本发明为了解决现有的问题,提供一种语音关键词检测方法及***。
为了解决上述问题,本发明采用的技术方案如下所述:
一种语音关键词的检测方法,包括如下步骤:S1:关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列;S2:使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵;S3:对所述注意力矩阵按行取最大值、按列取最大值分别得到所述关键词语音实例和所述待检测语音的注意力权重向量,再用所述注意力权重向量对对应的所述隐状态向量序列进行加权求和得到最终的定长向量;S4:利用相似度度量计算检测分数,对所有的所述待检测语音根据所述检测分数进行排序,将检测分数较高的所述待检测语音作为结果输出。
优选地,在步骤S3之后还包括如下步骤:由所述定长向量通过解码重建所述关键词语音实例和所述待检测语音的语音序列,将重建的语音序列同原语音序列比较得到重建损失;将所述重建损失加入最终的训练损失,并通过反向传播算法训练模型在定长向量中保留语音序列的重建信息。
优选地,所述定长向量使用余弦相似度作为相似度度量的方式。
优选地,采用卷积神经网络、双向循环神经网络、时延神经网络计算所述关键词语音实例和所述待检测语音的隐状态向量序列。
优选地,采用前馈神经网络计算检测分数。
优选地,所述长短时记忆网络和所述度量矩阵是同时训练得到的。
优选地,所述训练的训练数据是语音识别数据集,所述语音识别数据集包含了语音数据和对应的文本标注数据;通过强制对齐切分出特定语义关键词的语音段,相同语义的语音段作为正样本对,不同语义的语音段作为负样本对。
优选地,所述训练的目标函数的设计使得相同语义的语音定长向量之间的距离更远,不同语义的语音定长向量之间的距离更近,所述距离指的是余弦距离;所述距离越近,检测分数越大;所述距离越远,检测分数越小。
本发明还提供一种语音关键词的检测***,其特征在于,采用如上任一所述的方法进行语音关键词的检测。
本发明再提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种语音关键词检测方法及***,通过在语音编码的过程中使两个定长向量相互影响,有效保留相互关联的语义信息,同时注意力机制的引入消除了信息编码的位置偏见。
附图说明
图1是本发明实施例中一种语音关键词的检测方法的示意图。
图2是本发明实施例中基于双向注意力机制的语音编码结构的示意图。
图3是本发明实施例中又一种语音关键词的检测方法的示意图。
图4是本发明实施例中一种语音关键词的检测***的示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
如图1所示,本发明提供一种语音关键词的检测方法,包括如下步骤:
S1:关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列;
S2:使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵;
S3:对所述注意力矩阵按行取最大值、按列取最大值分别得到所述关键词语音实例和所述待检测语音的注意力权重向量,再用所述注意力权重向量对对应的所述隐状态向量序列进行加权求和得到最终的定长向量;
S4:利用相似度度量计算检测分数,对所有的所述待检测语音根据所述检测分数进行排序,将检测分数较高的所述待检测语音作为结果输出。
如图2所示,关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列HQ和HS,然后使用一个可训练的度量矩阵U计算两个隐状态向量序列之间的注意力矩阵G。对注意力矩阵按行取最大值以及按列取最大值可以分别得到关键词语音实例和待检测语音的注意力权重向量σQ和σS,再用注意力权重向量对各自的隐状态向量序列进行加权求和得到最终的定长向量VQ和VS。可训练的度量矩阵U可以使两段语音输入的编码过程相互影响,从而更有效的提取相互关联的语义信息。使用注意力权重对隐状态向量序列加权求和能够消除信息提取的位置偏见,防止丢失较多位置靠前的语义信息。
由双向注意力机制提取的定长向量使用余弦相似度作为相似度度量的方式。由于关键词实例和待检测语音的编码过程完全对称且共享参数,所以提取的定长向量处于同一向量空间。可训练的度量矩阵可以从数据中学习到特定的映射,能够将不同域(例如不同语言的语音)的输入映射到可比较相似度的向量空间。以上特性可以极大提升提取的定长向量之间的可比较性。对于更复杂的数据分布,可以改进相似度度量为前馈神经网络。
每一组训练数据由一个正样本对和一个负样本对组成,正样本对指的是两段包含相同语义的语音,负样本对指的是两段包含不同语义的语音。数据来源是语音识别数据集,包含了语音数据和对应的文本标注数据。通过强制对齐切分出特定语义(关键词)的语音段,然后相同语义的语音段作为正样本对,不同语义的语音段作为负样本对。
目标函数的设计可以使得相同语义的语音定长向量之间的距离更远,不同语义的语音定长向量之间的距离更近,距离指的是余弦距离。经过这种监督学习过程学习到的长短时记忆网络和度量矩阵参数能够将相同语义的语音输入映射到较近距离的两个向量,将不同语义的语音输入映射到较远距离的两个向量。距离越近检测分数越大,距离越远检测分数越小,最终用检测分数对语料库中所有的待检测语音排序就可以实现检测效果。
长短时记忆网络RNNs和度量矩阵U是同时训练得到的。先由训练集训练得到RNNs和U的参数值,然后用训练好的参数值进行关键词检测。训练过程使用反向传播算法,度量矩阵中所有的值都是待定参数,先初始化然后根据反向传播算法回传的目标函数梯度进行更新,最终收敛。RNNs的训练同理。
如图3所示,在本发明的一种实施例中,在步骤S3之后、步骤S4之前还包括:
由所述定长向量通过解码重建所述关键词语音实例和所述待检测语音的语音序列,将重建的语音序列同原语音序列比较得到重建损失;将所述重建损失加入最终的训练损失,并通过反向传播算法训练模型在定长向量中保留语音序列的重建信息。
即在本发明中加入自编码器结构,使语音的定长向量保留语音的重建信息。
在本发明的另一种实施例中,还可以采用卷积神经网络、双向循环神经网络、时延神经网络计算所述关键词语音实例和所述待检测语音的隐状态向量序列;采用前馈神经网络计算检测分数。
以关键词“Apple”为例,测试环境为在包含10000个待检测语音段的语料库中检索50个包含关键词“Apple”的语音段。将语料库中10000个语音段按照检测分数从高到低排序,在检测分数排名前20的返回结果中,现有技术有2个是包含“Apple”的语音段,而本发明有7个是包含“Apple”的语音段,命中率提升了两倍。
如图4所示,本发明还提供一种语音关键词的检测***,采用本发明所述的方法进行语音关键词的检测。在检测***中,由用户输入关键词语音实例,从语料库中取出一段待检测语音,通过语音编码器得到各自的定长向量,再用相似度度量部分计算检测分数。对语料库中所有的待检测语音根据检测分数进行排序,将检测分数较高的语音作为结果输出。
本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一种计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明技术方案带来的有益效果可以归纳为:
1)在语音编码的过程中使两个定长向量相互影响,有效保留相互关联的语义信息。对比只使用长短时记忆网络作为编码器的技术方案,本发明在英文语料中,总计200个关键词检测样例,检测分数排名前20的返回结果平均命中率均达到了30%以上的相对提升。
2)注意力机制的引入消除了信息编码的位置偏见,最终的定长向量由整个语音隐状态向量序列经注意力权重加权求和得出。对比只使用长短时记忆网络作为编码器的技术方案,本发明提取的语音段定长向量受音素后缀的影响较小,修改音素后缀带来的定长向量最小编辑距离变化降低了86%。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种语音关键词的检测方法,其特征在于,包括如下步骤:
S1:关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列;
S2:使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵;
S3:对所述注意力矩阵按行取最大值、按列取最大值分别得到所述关键词语音实例和所述待检测语音的注意力权重向量,再用所述注意力权重向量对对应的所述隐状态向量序列进行加权求和得到最终的定长向量;
S4:利用相似度度量计算检测分数,对所有的所述待检测语音根据所述检测分数进行排序,将检测分数较高的所述待检测语音作为结果输出。
2.如权利要求1所述的语音关键词的检测方法,其特征在于,在步骤S3之后还包括如下步骤:
由所述定长向量通过解码重建所述关键词语音实例和所述待检测语音的语音序列,将重建的语音序列同原语音序列比较得到重建损失;将所述重建损失加入最终的训练损失,并通过反向传播算法训练模型在定长向量中保留语音序列的重建信息。
3.如权利要求1所述的语音关键词的检测方法,其特征在于,所述定长向量使用余弦相似度作为相似度度量的方式。
4.如权利要求1所述的语音关键词的检测方法,其特征在于,采用卷积神经网络、双向循环神经网络、时延神经网络计算所述关键词语音实例和所述待检测语音的隐状态向量序列。
5.如权利要求1所述的语音关键词的检测方法,其特征在于,采用前馈神经网络计算检测分数。
6.如权利要求1所述的语音关键词的检测方法,其特征在于,所述长短时记忆网络和所述度量矩阵是同时训练得到的。
7.如权利要求6所述的语音关键词的检测方法,其特征在于,所述训练的训练数据是语音识别数据集,所述语音识别数据集包含了语音数据和对应的文本标注数据;通过强制对齐切分出特定语义关键词的语音段,相同语义的语音段作为正样本对,不同语义的语音段作为负样本对。
8.如权利要求6所述的语音关键词的检测方法,其特征在于,所述训练的目标函数的设计使得相同语义的语音定长向量之间的距离更远,不同语义的语音定长向量之间的距离更近,所述距离指的是余弦距离;所述距离越近,检测分数越大;所述距离越远,检测分数越小。
9.一种语音关键词的检测***,其特征在于,采用如权利要求1-8任一所述的方法进行语音关键词的检测。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
CN201910990230.XA 2019-10-17 2019-10-17 一种语音关键词检测方法及*** Active CN110827806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990230.XA CN110827806B (zh) 2019-10-17 2019-10-17 一种语音关键词检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990230.XA CN110827806B (zh) 2019-10-17 2019-10-17 一种语音关键词检测方法及***

Publications (2)

Publication Number Publication Date
CN110827806A true CN110827806A (zh) 2020-02-21
CN110827806B CN110827806B (zh) 2022-01-28

Family

ID=69549466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990230.XA Active CN110827806B (zh) 2019-10-17 2019-10-17 一种语音关键词检测方法及***

Country Status (1)

Country Link
CN (1) CN110827806B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259083A (zh) * 2020-10-16 2021-01-22 北京猿力未来科技有限公司 音频处理方法及装置
CN112685594A (zh) * 2020-12-24 2021-04-20 中国人民解放军战略支援部队信息工程大学 基于注意力的弱监督语音检索方法及***
CN113035231A (zh) * 2021-03-18 2021-06-25 三星(中国)半导体有限公司 关键词检测方法及装置
CN113823274A (zh) * 2021-08-16 2021-12-21 华南理工大学 基于检测错误加权编辑距离的语音关键词样本筛选方法
CN114051075A (zh) * 2021-10-28 2022-02-15 重庆川南环保科技有限公司 一种语音质检方法、装置及终端设备
CN116453514A (zh) * 2023-06-08 2023-07-18 四川大学 一种基于多视角的语音关键词检测与定位方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026358A (en) * 1994-12-22 2000-02-15 Justsystem Corporation Neural network, a method of learning of a neural network and phoneme recognition apparatus utilizing a neural network
EP2881939A1 (en) * 2013-12-09 2015-06-10 MediaTek, Inc System for speech keyword detection and associated method
US20170148429A1 (en) * 2015-11-24 2017-05-25 Fujitsu Limited Keyword detector and keyword detection method
US20170192956A1 (en) * 2015-12-31 2017-07-06 Google Inc. Generating parse trees of text segments using neural networks
CN107230475A (zh) * 2017-05-27 2017-10-03 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
EP3312777A1 (en) * 2015-02-06 2018-04-25 Google LLC Recurrent neural network system for data item generation
CN108388554A (zh) * 2018-01-04 2018-08-10 中国科学院自动化研究所 基于协同过滤注意力机制的文本情感识别***
CN109817233A (zh) * 2019-01-25 2019-05-28 清华大学 基于层次注意力网络模型的语音流隐写分析方法及***
CN110168575A (zh) * 2016-12-14 2019-08-23 微软技术许可有限责任公司 用于信息检索评分的动态张量注意力
US20190267023A1 (en) * 2018-02-28 2019-08-29 Microsoft Technology Licensing, Llc Speech recognition using connectionist temporal classification

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026358A (en) * 1994-12-22 2000-02-15 Justsystem Corporation Neural network, a method of learning of a neural network and phoneme recognition apparatus utilizing a neural network
EP2881939A1 (en) * 2013-12-09 2015-06-10 MediaTek, Inc System for speech keyword detection and associated method
EP3312777A1 (en) * 2015-02-06 2018-04-25 Google LLC Recurrent neural network system for data item generation
US20170148429A1 (en) * 2015-11-24 2017-05-25 Fujitsu Limited Keyword detector and keyword detection method
US20170192956A1 (en) * 2015-12-31 2017-07-06 Google Inc. Generating parse trees of text segments using neural networks
CN110168575A (zh) * 2016-12-14 2019-08-23 微软技术许可有限责任公司 用于信息检索评分的动态张量注意力
CN107230475A (zh) * 2017-05-27 2017-10-03 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN108388554A (zh) * 2018-01-04 2018-08-10 中国科学院自动化研究所 基于协同过滤注意力机制的文本情感识别***
US20190267023A1 (en) * 2018-02-28 2019-08-29 Microsoft Technology Licensing, Llc Speech recognition using connectionist temporal classification
CN109817233A (zh) * 2019-01-25 2019-05-28 清华大学 基于层次注意力网络模型的语音流隐写分析方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ETHAN R.DUNI,ET AL.: "High-Rate Optimized Recursive Vector Quantization Structures Using Hidden Markov Models", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
KARTIK AUDHKHASI,ET AL.: "End-to-End ASR-Free Keyword Search From Speech", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *
XIXIN WU,ET AL.: "Automatic speech data clustering with human perception based weighted distance", 《THE 9TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》 *
朱张莉: "注意力机制在深度学习中的研究进展", 《中文信息学报》 *
李业良等: "基于混合式注意力机制的语音识别研究", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259083A (zh) * 2020-10-16 2021-01-22 北京猿力未来科技有限公司 音频处理方法及装置
CN112259083B (zh) * 2020-10-16 2024-02-13 北京猿力未来科技有限公司 音频处理方法及装置
CN112685594A (zh) * 2020-12-24 2021-04-20 中国人民解放军战略支援部队信息工程大学 基于注意力的弱监督语音检索方法及***
CN112685594B (zh) * 2020-12-24 2022-10-04 中国人民解放军战略支援部队信息工程大学 基于注意力的弱监督语音检索方法及***
CN113035231A (zh) * 2021-03-18 2021-06-25 三星(中国)半导体有限公司 关键词检测方法及装置
CN113035231B (zh) * 2021-03-18 2024-01-09 三星(中国)半导体有限公司 关键词检测方法及装置
CN113823274A (zh) * 2021-08-16 2021-12-21 华南理工大学 基于检测错误加权编辑距离的语音关键词样本筛选方法
CN113823274B (zh) * 2021-08-16 2023-10-27 华南理工大学 基于检测错误加权编辑距离的语音关键词样本筛选方法
CN114051075A (zh) * 2021-10-28 2022-02-15 重庆川南环保科技有限公司 一种语音质检方法、装置及终端设备
CN116453514A (zh) * 2023-06-08 2023-07-18 四川大学 一种基于多视角的语音关键词检测与定位方法及装置
CN116453514B (zh) * 2023-06-08 2023-08-25 四川大学 一种基于多视角的语音关键词检测与定位方法及装置

Also Published As

Publication number Publication date
CN110827806B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN110827806B (zh) 一种语音关键词检测方法及***
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
CN111881260B (zh) 基于方面注意力和卷积记忆神经网络情感分析方法及装置
CN109597876B (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN109800434B (zh) 基于眼动注意力的抽象文本标题生成方法
Rana et al. Emotion based hate speech detection using multimodal learning
Ragni et al. Confidence estimation and deletion prediction using bidirectional recurrent neural networks
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
Wang et al. Dynamically disentangling social bias from task-oriented representations with adversarial attack
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN117094291B (zh) 基于智能写作的自动新闻生成***
Xie et al. Language-based audio retrieval task in DCASE 2022 challenge
Guo et al. A data fusion framework for multi-domain morality learning
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
Xu et al. A comprehensive survey of automated audio captioning
Hohenecker et al. Systematic comparison of neural architectures and training approaches for open information extraction
CN115905487A (zh) 文档问答方法、***、电子设备及存储介质
CN115114937A (zh) 文本获取方法、装置、计算机设备及存储介质
CN117056494B (zh) 开放域问答的方法、装置、电子设备和计算机存储介质
Mei et al. Towards generating diverse audio captions via adversarial training
Kongyoung et al. monoQA: Multi-task learning of reranking and answer extraction for open-retrieval conversational question answering
CN116821339A (zh) 滥用语言检测方法、装置及存储介质
CN114925808B (zh) 一种基于云网端资源中不完整时间序列的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant