CN114863915A - 一种基于语义保留的语音唤醒方法及*** - Google Patents

一种基于语义保留的语音唤醒方法及*** Download PDF

Info

Publication number
CN114863915A
CN114863915A CN202210780418.3A CN202210780418A CN114863915A CN 114863915 A CN114863915 A CN 114863915A CN 202210780418 A CN202210780418 A CN 202210780418A CN 114863915 A CN114863915 A CN 114863915A
Authority
CN
China
Prior art keywords
frame
voice
streaming
neural network
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210780418.3A
Other languages
English (en)
Inventor
李郡
付冠宇
王啸
尚德龙
周玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Nanjing Intelligent Technology Research Institute
Original Assignee
Zhongke Nanjing Intelligent Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Nanjing Intelligent Technology Research Institute filed Critical Zhongke Nanjing Intelligent Technology Research Institute
Priority to CN202210780418.3A priority Critical patent/CN114863915A/zh
Publication of CN114863915A publication Critical patent/CN114863915A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于语义保留的语音唤醒方法及***。该方法包括:获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。本发明能够提高语音唤醒的准确率和稳定性。

Description

一种基于语义保留的语音唤醒方法及***
技术领域
本发明涉及语音唤醒领域,特别是涉及一种基于语义保留的语音唤醒方法及***。
背景技术
随着智能设备的发展,语音交互被广泛应用,而语音唤醒***是启用语音交互的关键。语音唤醒***的目标,是在无手动操作的情况下,在连续语音输入中找到设定关键词。为达到一定的用户体验,语音唤醒***应满足高准确率和高稳定性的要求。
因此,为了提高语音唤醒的准确率和稳定性,亟需提供一种新的语音唤醒方法或***。
发明内容
本发明的目的是提供一种基于语义保留的语音唤醒方法及***,能够提高语音唤醒的准确率和稳定性。
为实现上述目的,本发明提供了如下方案:
一种基于语义保留的语音唤醒方法,包括:
获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;
利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;
根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;
利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。
可选地,所述利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签,具体包括:
对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签;保留语义的音素级别标签包括:关键词语义段和非关键词语义段;
将保留语义的音素级别标签转换为流式帧级别标签。
可选地,所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络,之前还包括:
判断连续声学特征帧是否满足设定帧数;所述设定帧数应涵盖语音样本数据中所有关键词长度;
若不满足,则在连续声学特征帧的前方进行补零,进而达到设定帧数;并且将补零相应的位置标记为非关键词语义帧标签。
可选地,所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络,之前还包括:
对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。
可选地,所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络,具体包括:
根据神经网络的识别结果进行反向传播,进而更新神经网络的参数,完成语音唤醒神经网络模型的训练。
一种基于语义保留的语音唤醒***,包括:
语音样本数据获取模块,用于获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;
流式帧级别标签确定模块,用于利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;
流式语音唤醒***神经网络确定模块,用于根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;
语音唤醒模块,用于利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。
可选地,所述流式帧级别标签确定模块具体包括:
音素级别标签确定单元,用于对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签;保留语义的音素级别标签包括:关键词语义段和非关键词语义段;
流式帧级别标签确定单元,用于将保留语义的音素级别标签转换为流式帧级别标签。
可选地,还包括:
判断模块,用于判断连续声学特征帧是否满足设定帧数;所述帧数应涵盖语音样本数据中所有关键词长度;
补零模块,用于若不满足,则在连续声学特征帧的前方进行补零,进而达到设定帧数;并且将补零相应的位置标记为非关键词语义帧标签。
可选地,还包括:
数据增强模块,用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。
可选地,所述流式语音唤醒***神经网络确定模块具体包括:
流式语音唤醒***神经网络训练单元,用于根据神经网络的识别结果进行反向传播,进而更新神经网络的参数,完成语音唤醒神经网络模型的训练。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种基于语义保留的语音唤醒方法及***,利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签,利用保留了标签语义的输出帧进行识别和训练流式语音唤醒***神经网络,进而,当关键词一旦出现,即可保留一定时间的稳定唤醒状态,能够有效减少误唤醒,提高了语音唤醒***整体的稳定性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于语义保留的语音唤醒方法流程示意图;
图2为本发明所提供的一种基于语义保留的语音唤醒***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于语义保留的语音唤醒方法及***,能够提高语音唤醒的准确率和稳定性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种基于语义保留的语音唤醒方法流程示意图,如图1所示,本发明所提供的一种基于语义保留的语音唤醒方法,包括:
S101,获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;
S102,利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;其中,将包含关键词的非关键词语音段相应的标记为非关键词语义帧标签。
S102具体包括:
对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签;保留语义的音素级别标签包括:关键词语义段和非关键词语义段;
将保留语义的音素级别标签转换为流式帧级别标签。
若数据集中未写明每条语音的包含多少音素,每个音素处于语音哪段时间,可使用Montreal Forced Aligner工具获取。对关键词数据,从最后一个音素开始时间和结束时间的2/3处开始,到最后一个音素往后延长时间的1/2段为止,这段时间标记为关键词语义段,其他时间标记为非关键词语义段。对非关键词语音,所有时间均标记为非关键词语义段。
S103,根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;神经网络的输入为二维特征,由连续声学特征帧按照时间顺序堆叠而成,时间帧总长度应能够覆盖训练数据集中的每个关键词样本。
所述神经网络是由若干卷积层和一层全连接层与softmax堆叠而成。
S103之前还包括:
判断连续声学特征帧是否满足设定帧数;所述设定帧数应涵盖语音样本数据中所有关键词长度;
若不满足,则在连续声学特征帧的前方进行补零,进而达到设定帧数;并且将补零相应的位置标记为非关键词语义帧标签。
对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理;数据增强处理包括:加噪。
训练时,为了保证该神经网络为流式输出,若一个批次中存在样本的声学特征帧长度不一致,取最长的声学特征帧帧数的若干倍作为整个批次的标准帧数Tn,在每个样本的声学特征帧后进行补零达到标准帧数;除S102中已确定的关键词的帧级别关键词语义标签,每个样本剩余的后补零帧对应的标签均标记为帧级别非关键词语义帧;同时,也在声学特征帧的前方补零T-1帧,这些前方补零帧也标记为帧级别非关键词语义标签。
训练时,每个样本的输入尺寸应为(Tn+T-1)×F,其中(Tn+T-1)为时间帧数,F为每帧的特征数,每个样本的流式帧级别标签长度为Tn+T-1。按照时间帧顺序,依次取T×F尺寸大小的特征作为特征提取模块的输入,最后得到Tn帧输出特征,每帧输出特征展平后数目为Fe,因此特征提取模块对每个样本的输出尺寸为Tn×Fe
神经网络在特征提取后的一层网络为全连接层与softmax的组合,它作为分类层,输出1+n类,包括1个非关键词类别和n个关键词类别。分类层的输入为神经网络的特征提取模块的输出,分类层的输出尺寸对每个样本为Tn×(1+n)。
S103具体包括:
根据神经网络的识别结果进行反向传播,进而更新神经网络的参数,完成语音唤醒神经网络模型的训练。
每个样本的流式帧级别标签长度为Tn+T-1,每个样本的神经网络分类层输出为Tn×(1+n),则流式帧级别标签后Tn个帧级别标签可用于反向传播。对关键词,选择帧级别标签中所有标记为关键词语义的帧,以及部分或所有标记为非关键词语义的帧进行反向传播;对非关键词,选择流式帧级别标签中的后Tn个非关键词语义帧用于反向传播。
S104,利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。
与已有方法相比,例如与用时间移动进行数据增强以识别不同时间段的语音相比,本发明提出的基于语义保留的流式语音唤醒模型训练方法,直接使用所有保留了标签语义的输出帧参与训练,这样在语音唤醒***进行实际部署时,关键词一旦出现,即可保留一定时间的稳定唤醒状态,提高了语音唤醒***整体的稳定性和准确性。
图2为本发明所提供的一种基于语义保留的语音唤醒***结构示意图,如图2所示,本发明所提供的一种基于语义保留的语音唤醒***,包括:
语音样本数据获取模块201,用于获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;
流式帧级别标签确定模块202,用于利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;
流式语音唤醒***神经网络确定模块203,用于根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;
语音唤醒模块204,用于利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。
所述流式帧级别标签确定模块202具体包括:
音素级别标签确定单元,用于对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签;保留语义的音素级别标签包括:关键词语义段和非关键词语义段;
流式帧级别标签确定单元,用于将保留语义的音素级别标签转换为流式帧级别标签。
本发明所提供的一种基于语义保留的语音唤醒***,还包括:
判断模块,用于判断连续声学特征帧是否满足设定帧数;所述帧数应涵盖语音样本数据中所有关键词长度;
补零模块,用于若不满足,则在连续声学特征帧的前方进行补零,进而达到设定帧数;并且将补零相应的位置标记为非关键词语义帧标签。
本发明所提供的一种基于语义保留的语音唤醒***,还包括:
数据增强模块,用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。
所述流式语音唤醒***神经网络确定模块203具体包括:
流式语音唤醒***神经网络训练单元,用于根据神经网络的识别结果进行反向传播,进而更新神经网络的参数,完成语音唤醒神经网络模型的训练。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于语义保留的语音唤醒方法,其特征在于,包括:
获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;
利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;
根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;
利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。
2.根据权利要求1所述的一种基于语义保留的语音唤醒方法,其特征在于,所述利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签,具体包括:
对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签;保留语义的音素级别标签包括:关键词语义段和非关键词语义段;
将保留语义的音素级别标签转换为流式帧级别标签。
3.根据权利要求1所述的一种基于语义保留的语音唤醒方法,其特征在于,所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络,之前还包括:
判断连续声学特征帧是否满足设定帧数;所述设定帧数应涵盖语音样本数据中所有关键词长度;
若不满足,则在连续声学特征帧的前方进行补零,进而达到设定帧数;并且将补零相应的位置标记为非关键词语义帧标签。
4.根据权利要求1所述的一种基于语义保留的语音唤醒方法,其特征在于,所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络,之前还包括:
对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。
5.根据权利要求1所述的一种基于语义保留的语音唤醒方法,其特征在于,所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络,具体包括:
根据神经网络的识别结果进行反向传播,进而更新神经网络的参数,完成语音唤醒神经网络模型的训练。
6.一种基于语义保留的语音唤醒***,其特征在于,包括:
语音样本数据获取模块,用于获取语音样本数据,并对所述语音样本数据进行特征提取,确定连续声学特征帧相关信息;所述连续声学特征帧相关信息包括:梅尔频率倒谱系数、帧移和单帧帧长;
流式帧级别标签确定模块,用于利用关键词对所述连续声学特征帧进行标记,确定流式帧级别标签;所述流式帧级别标签包括:关键词语义帧标签和非关键词语义帧标签;
流式语音唤醒***神经网络确定模块,用于根据连续声学特征帧以及对应的流式帧级别标签训练神经网络,确定流式语音唤醒***神经网络;
语音唤醒模块,用于利用流式语音唤醒***神经网络进行语音数据的识别,并根据识别结果相应的进行语音唤醒。
7.根据权利要求6所述的一种基于语义保留的语音唤醒***,其特征在于,所述流式帧级别标签确定模块具体包括:
音素级别标签确定单元,用于对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签;保留语义的音素级别标签包括:关键词语义段和非关键词语义段;
流式帧级别标签确定单元,用于将保留语义的音素级别标签转换为流式帧级别标签。
8.根据权利要求6所述的一种基于语义保留的语音唤醒***,其特征在于,还包括:
判断模块,用于判断连续声学特征帧是否满足设定帧数;所述设定帧数应涵盖语音样本数据中所有关键词长度;
补零模块,用于若不满足,则在连续声学特征帧的前方进行补零,进而达到设定帧数;并且将补零相应的位置标记为非关键词语义帧标签。
9.根据权利要求6所述的一种基于语义保留的语音唤醒***,其特征在于,还包括:
数据增强模块,用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。
10.根据权利要求6所述的一种基于语义保留的语音唤醒***,其特征在于,所述流式语音唤醒***神经网络确定模块具体包括:
流式语音唤醒***神经网络训练单元,用于根据神经网络的识别结果进行反向传播,进而更新神经网络的参数,完成语音唤醒神经网络模型的训练。
CN202210780418.3A 2022-07-05 2022-07-05 一种基于语义保留的语音唤醒方法及*** Pending CN114863915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210780418.3A CN114863915A (zh) 2022-07-05 2022-07-05 一种基于语义保留的语音唤醒方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210780418.3A CN114863915A (zh) 2022-07-05 2022-07-05 一种基于语义保留的语音唤醒方法及***

Publications (1)

Publication Number Publication Date
CN114863915A true CN114863915A (zh) 2022-08-05

Family

ID=82627042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210780418.3A Pending CN114863915A (zh) 2022-07-05 2022-07-05 一种基于语义保留的语音唤醒方法及***

Country Status (1)

Country Link
CN (1) CN114863915A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012206A (zh) * 2023-10-07 2023-11-07 山东省智能机器人应用技术研究院 一种人机语音交互***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180151199A1 (en) * 2016-11-29 2018-05-31 Beijing Xiaomi Mobile Software Co., Ltd. Method, Device and Computer-Readable Medium for Adjusting Video Playing Progress
CN109862408A (zh) * 2018-12-29 2019-06-07 江苏爱仕达电子有限公司 一种用于智能电视语音遥控器的用户语音识别控制方法
US20200020322A1 (en) * 2018-07-13 2020-01-16 Google Llc End-to-End Streaming Keyword Spotting
CN111429887A (zh) * 2020-04-20 2020-07-17 合肥讯飞数码科技有限公司 基于端到端的语音关键词识别方法、装置以及设备
CN113035231A (zh) * 2021-03-18 2021-06-25 三星(中国)半导体有限公司 关键词检测方法及装置
CN113782009A (zh) * 2021-11-10 2021-12-10 中科南京智能技术研究院 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒***
CN114566156A (zh) * 2022-02-28 2022-05-31 恒玄科技(上海)股份有限公司 一种关键词的语音识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180151199A1 (en) * 2016-11-29 2018-05-31 Beijing Xiaomi Mobile Software Co., Ltd. Method, Device and Computer-Readable Medium for Adjusting Video Playing Progress
US20200020322A1 (en) * 2018-07-13 2020-01-16 Google Llc End-to-End Streaming Keyword Spotting
CN109862408A (zh) * 2018-12-29 2019-06-07 江苏爱仕达电子有限公司 一种用于智能电视语音遥控器的用户语音识别控制方法
CN111429887A (zh) * 2020-04-20 2020-07-17 合肥讯飞数码科技有限公司 基于端到端的语音关键词识别方法、装置以及设备
CN113035231A (zh) * 2021-03-18 2021-06-25 三星(中国)半导体有限公司 关键词检测方法及装置
CN113782009A (zh) * 2021-11-10 2021-12-10 中科南京智能技术研究院 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒***
CN114566156A (zh) * 2022-02-28 2022-05-31 恒玄科技(上海)股份有限公司 一种关键词的语音识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
勒蕃: "《神经网络理论与应用研究》", 30 October 1996 *
黄德双: "《现代信息技术理论与应用》", 30 August 2002 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012206A (zh) * 2023-10-07 2023-11-07 山东省智能机器人应用技术研究院 一种人机语音交互***
CN117012206B (zh) * 2023-10-07 2024-01-16 山东省智能机器人应用技术研究院 一种人机语音交互***

Similar Documents

Publication Publication Date Title
CN109523986B (zh) 语音合成方法、装置、设备以及存储介质
CN108305634B (zh) 解码方法、解码器及存储介质
CN106683677B (zh) 语音识别方法及装置
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN108922521B (zh) 一种语音关键词检索方法、装置、设备及存储介质
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN109036471B (zh) 语音端点检测方法及设备
CN111341305A (zh) 一种音频数据标注方法、装置及***
JPH0772839B2 (ja) 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置
CN113035231B (zh) 关键词检测方法及装置
CN108062954A (zh) 语音识别方法和装置
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN111724766B (zh) 语种识别方法、相关设备及可读存储介质
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN111192572A (zh) 语义识别的方法、装置及***
CN112614514A (zh) 有效语音片段检测方法、相关设备及可读存储介质
CN114863915A (zh) 一种基于语义保留的语音唤醒方法及***
CN113838462B (zh) 语音唤醒方法、装置、电子设备及计算机可读存储介质
CN113850291A (zh) 文本处理及模型训练方法、装置、设备和存储介质
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN114141271B (zh) 心理状态检测方法及***
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN114121018A (zh) 语音文档分类方法、***、设备及存储介质
CN113990286A (zh) 语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220805

RJ01 Rejection of invention patent application after publication