CN108932944A - 解码方法及装置 - Google Patents
解码方法及装置 Download PDFInfo
- Publication number
- CN108932944A CN108932944A CN201710993273.4A CN201710993273A CN108932944A CN 108932944 A CN108932944 A CN 108932944A CN 201710993273 A CN201710993273 A CN 201710993273A CN 108932944 A CN108932944 A CN 108932944A
- Authority
- CN
- China
- Prior art keywords
- current
- decoding
- voice signal
- identified
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000007613 environmental effect Effects 0.000 claims description 70
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出一种解码方法及装置,其中方法包括:通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种解码方法及装置。
背景技术
目前,智能设备例如智能音箱与用户进行交互的方式为,在智能设备处于待机状态时,智能设备中的语音唤醒***始终处于运行状态,不停地监听周围的语音信号并进行识别,在识别到唤醒指令时,智能设备转换到唤醒状态,与用户进行交互,根据用户的指令进行相应操作。
然而,现有技术中,当智能设备处于大音量工作状态时,由于智能设备自身声音存在的回声噪音等,导致智能设备难以识别到用户的唤醒指令,或者将智能设备发出的声音等误识别为用户的唤醒指令,降低了智能设备识别唤醒指令的准确度,降低了用户使用智能设备的体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种解码方法,用于解决现有技术中智能设备识别唤醒指令的准确度低,影响用户使用智能设备体验的问题。
本发明的第二个目的在于提出一种解码装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种解码方法,包括:
基于声学模型,确定待识别语音信号对应的建模单元序列;
基于当前解码网络,对所述建模单元序列进行解码;其中,所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
进一步的,所述多个解码网络的垃圾词路径数量不同。
进一步的,所述当前语音环境包括:智能设备的播放音量、环境噪音中的至少一种。
进一步的,所述环境噪音采用如下方式确定:
对所述待识别语音信号进行识别,确定环境噪音;或者,
根据待识别语音信号发出前的声音信号,确定环境噪音。
进一步的,在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个解码网络中选取与所述当前语音环境匹配的解码网络作为当前解码网络:
若所述播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个解码网络中选取第一解码网络作为当前解码网络;
若所述播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个解码网络中选取第二解码网络作为当前解码网络;
所述第一解码网络中垃圾词路径数量小于所述第二解码网络中垃圾词路径数量。
进一步的,基于声学模型,确定待识别语音信号对应的建模单元序列,包括:
基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。
进一步的,所述多个声学模型根据不同语音环境下的训练数据生成。
进一步的,在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个声学模型中选取与所述当前语音环境匹配的声学模型作为当前声学模型:
若所述播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个声学模型中选取第一声学模型作为当前声学模型;
若所述播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个声学模型中选取第二声学模型作为当前声学模型;
所述第一声学模型根据播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成;
所述第二声学模型根据播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境下的训练数据生成。
进一步的,所述的方法还包括:
若根据解码结果确定所述待识别语音信号中存在关键词,则将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型,得到所述待识别语音信号对应的置信度;
在所述待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备。
本实施例提供的解码方法,通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
为达上述目的,本发明第二方面实施例提出了一种解码装置,包括:
确定模块,用于基于声学模型,确定待识别语音信号对应的建模单元序列;
解码模块,用于基于当前解码网络,对所述建模单元序列进行解码;其中,所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
进一步的,所述多个解码网络的垃圾词路径数量不同。
进一步的,所述当前语音环境包括:智能设备的播放音量、环境噪音中的至少一种。
进一步的,所述环境噪音采用如下方式确定:
对所述待识别语音信号进行识别,确定环境噪音;或者,
根据待识别语音信号发出前的声音信号,确定环境噪音。
进一步的,在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个解码网络中选取与所述当前语音环境匹配的解码网络作为当前解码网络:
若所述播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个解码网络中选取第一解码网络作为当前解码网络;
若所述播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个解码网络中选取第二解码网络作为当前解码网络;
所述第一解码网络中垃圾词路径数量小于所述第二解码网络中垃圾词路径数量。
进一步的,所述确定模块,具体用于基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。
进一步的,所述多个声学模型根据不同语音环境下的训练数据生成。
进一步的,在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个声学模型中选取与所述当前语音环境匹配的声学模型作为当前声学模型:
若所述播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个声学模型中选取第一声学模型作为当前声学模型;
若所述播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个声学模型中选取第二声学模型作为当前声学模型;
所述第一声学模型根据播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成;
所述第二声学模型根据播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境下的训练数据生成。
进一步的,所述的装置还包括:
唤醒模块,用于在根据解码结果确定所述待识别语音信号中存在关键词时,将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型,得到所述待识别语音信号对应的置信度;
在所述待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备。
本实施例提供的解码装置,通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
为达上述目的,本发明第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的解码方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的解码方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种解码方法,所述方法包括:
基于声学模型,确定待识别语音信号对应的建模单元序列;
基于当前解码网络,对所述建模单元序列进行解码;其中,所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种解码方法的流程示意图;
图2为解码网络的示意图;
图3为第二解码网络的示意图;
图4为第一解码网络的示意图;
图5为本发明实施例提供的另一种解码方法的流程示意图;
图6为本发明实施例提供的另一种解码方法的流程示意图;
图7为本发明实施例提供的一种解码装置的结构示意图;
图8为本发明实施例提供的另一种解码装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的解码方法及装置。
图1为本发明实施例提供的一种解码方法的流程示意图。如图1所示,该解码方法包括以下步骤:
S101、基于声学模型,确定待识别语音信号对应的建模单元序列。
本发明提供的解码方法的执行主体为解码装置,解码装置可以为安装在智能设备上的硬件或者软件,例如语音唤醒***。智能设备例如可以为,智能音箱、智能空调、智能洗衣机、智能电视等可以与用户进行交互,根据用户的指令进行相应操作的设备。
本实施例中,解码装置执行步骤101的过程具体可以为,获取待识别语音信号;对待识别语音信号进行特征提取,获取待识别语音信号中的特征向量序列;将特征向量序列输入声学模型,得到待识别语音信号对应的建模单元序列。其中,解码装置可以先对待识别语音信号进行分帧处理得到帧序列,进而对帧序列中的各帧进行特征提取,得到特征向量序列。
本实施例中,声学模型可以为基于建模单元构建的神经网络模型。神经网络模型的构建可以基于深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Networks,RNN)等,此处不做具体限定。建模单元的语音元素可以为:音素、声韵母、音节、词等等。本实施例中,可以通过获取智能设备的唤醒词语料和非唤醒词语料;对唤醒词语料和非唤醒词语料进行拆分,获取语音元素,根据语音元素构建关键词建模单元和垃圾词建模单元,进而生成初始声学模型,根据训练数据对初始声学模型进行训练,得到声学模型。例如,本实施例中的声学模型可以包括:N1数量的关键词建模单元和N2数量的垃圾词建模单元。
S102、基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
本实施例中,解码网络包括:关键词路径、伪关键词路径、垃圾词路径和空路径;上述各种路径为根据各种建模单元构建的路径。例如,关键词路径为根据关键词建模单元构建的路径;伪关键词路径为根据部分关键词建模单元以及部分垃圾词建模单元构建的路径;垃圾词路径为根据垃圾词建模单元构建的路径。其中,伪关键词路径、垃圾词路径和空路径均属于没识别到关键词的路径。如图2所示,为解码网络的示意图,在图2中,“xiao-bao-xiao-bao”为关键词路径,“xiao-bao-others”和“xiao-others”为伪关键词路径,其他路径为垃圾词路径。
本实施例中,当前语音环境可以包括:智能设备的播放音量、环境噪音中的至少一种。智能设备的播放音量和环境噪音为影响解码效果的主要因素。其中,智能设备的播放音量可以从智能设备的播放器中采集,或者从智能设备的控制器中获取,或者对待识别语音信号进行识别获取,或者根据待识别语音信号发出前采集的智能设备的声音信号进行识别获取,可以根据需要进行设置,此处不做具体限定。而环境噪音采用如下方式确定:对待识别语音信号进行识别,确定环境噪音;或者,根据待识别语音信号发出前的声音信号,确定环境噪音。
本实施例中,由于在智能设备大音量和/或环境噪音较大的情况下,待识别语音信号中掺杂了大量噪音,即使待识别语音信号中包含关键词,由于声学模型是使用关键词语料以及非关键词语料的混合语料进行训练得到的,对于包含了大量噪音的待识别语音信号,难以提取到有效的建模单元序列,导致解码网络输出的解码结果中关键词路径的得分概率会变低很多,而伪关键词路径和垃圾词路径的得分概率降低有限,此时如果非关键词路径的得分高于关键词路径的得分,则将包含关键词的待识别语音信号,识别为未包含关键词,唤醒失败,降低了智能设备识别唤醒指令的准确度,影响用户使用智能设备的体验,因此,需要构建具备不同垃圾词路径数量的多个解码网络,分别用于不同的语音环境。
针对播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境,可以采用垃圾词路径数量未经调整的第二解码网络,在第二解码网络中,关键词路径可以和垃圾词路径进行公平竞争,充分发挥声学模型的作用,对关键词进行精准检测。如图3所示,为第二解码网络的示意图。其中,静音标准可以为环境噪音分贝值小于预设分贝值等。
针对播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境,可以剔除第二解码网络中的一定数量的垃圾词路径数量,得到第一解码网络,使得垃圾词路径不能和关键词路径公平竞争,以保证在噪声干扰下关键词也可以正常被检出。一定数量的垃圾词路径的剔除,相当于对垃圾词解码得分进行惩罚,具体删除的垃圾词路径的数量可以根据实际情况进行调整。如图4所示,为第一解码网络的示意图。图4中第一解码网络的垃圾词路径数量小于图3中第二解码网络的垃圾词路径数量。
进而,本实施例中,在当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个解码网络中选取与当前语音环境匹配的解码网络作为当前解码网络:若播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个解码网络中选取第一解码网络作为当前解码网络;若播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个解码网络中选取第二解码网络作为当前解码网络;其中,第一解码网络中垃圾词路径数量小于第二解码网络中垃圾词路径数量。
本实施例提供的解码方法,通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
图5为本发明实施例提供的另一种解码方法的流程示意图,如图5所示,该解码方法包括以下步骤:
S501、基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。
本实施例中,为了使得声学模型能够在智能设备大音量和/或环境噪音较大的情况下,提取到有效的建模单元序列,进一步提高智能设备识别唤醒指令的准确度,在对初始声学模型进行训练的过程中,可以采用不同语音环境下的训练数据对初始声学模型进行训练,得到不同语音环境下的声学模型。
在当前语音环境包括智能设备的播放音量和环境噪音的情况下,针对播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境,可以获取该语音环境下的训练数据,对初始声学模型进行训练,得到第二声学模型。针对播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境,可以获取该语音环境下的训练数据,对初始声学模型进行训练,得到第一声学模型。进而,在当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个声学模型中选取与当前语音环境匹配的声学模型作为当前声学模型:若播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个声学模型中选取第一声学模型作为当前声学模型;若播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个声学模型中选取第二声学模型作为当前声学模型。
其中,第一声学模型根据播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成;第二声学模型根据播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境下的训练数据生成。
S502、基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
对于步骤502的详细说明,可以参考图1所示实施例中步骤102的详细说明,此处不再进行重复描述。
本实施例提供的解码方法,通过基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,当前声学模型为多个声学模型中与当前语音环境匹配的声学模型;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的声学模型和解码网络,结合与当前语音环境匹配的声学模型和解码网络,获取待识别语音信号的解码结果,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
图6为本发明实施例提供的另一种解码方法的流程示意图,如图6所示,在图1或图5所示实施例的基础上,由于声学模型是一个概率模型,存在不确定性,也就是说,根据解码结果确定待识别语音信号中存在关键词时,待识别语音信号中不一定真的存在关键词,因此,为了进一步提高智能设备识别唤醒指令的准确度,所述的解码方法还可以包括以下步骤:
S103、若根据解码结果确定待识别语音信号中存在关键词,则将待识别语音信号中包含的关键词对应的语音信号输入预设的置信度模型,得到待识别语音信号对应的置信度。
本实施例中,当前解码网络输出的解码结果具体可以为,当前解码网络中评分最高的路径,解码装置可以通过判断所述评分最高的路径是否为关键词路径,来确定待识别语音信号中是否存在关键词。若评分最高的路径为关键词路径,则确定待识别语音信号中存在关键词;若评分最高的路径为伪关键词路径或者垃圾词路径等,则确定待识别语音信号中不存在关键词。
本实施例中,置信度模型可以为神经网络模型,神经网络模型具体可以为深度神经网络模型、卷积神经网络模型、循环神经网络模型等,此处不做具体限定。对置信度模型进行训练时,可以采用正样本和负样本作为训练数据,训练正样本、负样本和置信度阈值之间的对应关系,通过调整模型参数,使正样本、负样本的置信度值尽量分布于置信度阈值的两端,且对识别结果的接受度尽量高;其中,所述正样本中包括:包括关键词的语音信号;所述负样本中包括:不包括关键词的语音信号。
S104、在待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备。
本实施例提供的解码方法,通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;若根据解码结果确定待识别语音信号中存在关键词,则将待识别语音信号中包含的关键词对应的语音信号输入预设的置信度模型,得到待识别语音信号对应的置信度;在待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备,从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
图7为本发明实施例提供的一种解码装置的结构示意图。如图7所示,包括:确定模块71和解码模块72。
其中,确定模块71,用于基于声学模型,确定待识别语音信号对应的建模单元序列;
解码模块72,用于基于当前解码网络,对所述建模单元序列进行解码;其中,所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
本发明提供的解码装置可以为安装在智能设备上的硬件或者软件,例如语音唤醒***。智能设备例如可以为,智能音箱、智能空调、智能洗衣机、智能电视等可以与用户进行交互,根据用户的指令进行相应操作的设备。
其中,确定模块71具体可以用于,获取待识别语音信号;对待识别语音信号进行特征提取,获取待识别语音信号中的特征向量序列;将特征向量序列输入声学模型,得到待识别语音信号对应的建模单元序列。其中,解码装置可以先对待识别语音信号进行分帧处理得到帧序列,进而对帧序列中的各帧进行特征提取,得到特征向量序列。
本实施例中,解码网络包括:关键词路径、伪关键词路径、垃圾词路径和空路径;上述各种路径为根据各种建模单元构建的路径。例如,关键词路径为根据关键词建模单元构建的路径;伪关键词路径为根据部分关键词建模单元以及部分垃圾词建模单元构建的路径;垃圾词路径为根据垃圾词建模单元构建的路径。其中,伪关键词路径、垃圾词路径和空路径均属于没识别到关键词的路径。如图2所示,为解码网络的示意图,在图2中,“xiao-bao-xiao-bao”为关键词路径,“xiao-bao-others”和“xiao-others”为伪关键词路径,其他路径为垃圾词路径。
本实施例中,当前语音环境可以包括:智能设备的播放音量、环境噪音中的至少一种。智能设备的播放音量和环境噪音为影响解码效果的主要因素。其中,智能设备的播放音量可以从智能设备的播放器中采集,或者从智能设备的控制器中获取,或者对待识别语音信号进行识别获取,或者根据待识别语音信号发出前采集的智能设备的声音信号进行识别获取,可以根据需要进行设置,此处不做具体限定。而环境噪音采用如下方式确定:对待识别语音信号进行识别,确定环境噪音;或者,根据待识别语音信号发出前的声音信号,确定环境噪音。
本实施例中,在当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个解码网络中选取与当前语音环境匹配的解码网络作为当前解码网络:若播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个解码网络中选取第一解码网络作为当前解码网络;若播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个解码网络中选取第二解码网络作为当前解码网络;其中,第一解码网络中垃圾词路径数量小于第二解码网络中垃圾词路径数量。
其中,针对播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境,采用垃圾词路径数量未经调整的第二解码网络,可以使得关键词路径可以和垃圾词路径进行公平竞争,充分发挥声学模型的作用,对关键词进行精准检测。针对播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境,剔除第二解码网络中的一定数量的垃圾词路径数量,得到第一解码网络,使得垃圾词路径不能和关键词路径公平竞争,以保证在噪声干扰下关键词也可以正常被检出。
本实施例提供的解码装置,通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
进一步的,在图7所示实施例的基础上,所述确定模块,具体用于基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。
本实施例中,为了使得声学模型能够在智能设备大音量和/或环境噪音较大的情况下,提取到有效的建模单元序列,进一步提高智能设备识别唤醒指令的准确度,在对初始声学模型进行训练的过程中,可以采用不同语音环境下的训练数据对初始声学模型进行训练,得到不同语音环境下的声学模型。
在当前语音环境包括智能设备的播放音量和环境噪音的情况下,针对播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境,可以获取该语音环境下的训练数据,对初始声学模型进行训练,得到第二声学模型。针对播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境,可以获取该语音环境下的训练数据,对初始声学模型进行训练,得到第一声学模型。进而,在当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个声学模型中选取与当前语音环境匹配的声学模型作为当前声学模型:若播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个声学模型中选取第一声学模型作为当前声学模型;若播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个声学模型中选取第二声学模型作为当前声学模型。
其中,第一声学模型根据播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成;第二声学模型根据播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境下的训练数据生成。
本实施例提供的解码装置,通过基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,当前声学模型为多个声学模型中与当前语音环境匹配的声学模型;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;从而能够根据当前语音环境,获取与当前语音环境匹配的声学模型和解码网络,结合与当前语音环境匹配的声学模型和解码网络,获取待识别语音信号的解码结果,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
进一步的,结合参考图8,在图7所示实施例的基础上,由于声学模型是一个概率模型,存在不确定性,也就是说,根据解码结果确定待识别语音信号中存在关键词时,待识别语音信号中不一定真的存在关键词,因此,为了进一步提高智能设备识别唤醒指令的准确度,所述的装置还可以包括:唤醒模块73,用于在根据解码结果确定所述待识别语音信号中存在关键词时,将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型,得到所述待识别语音信号对应的置信度;
在所述待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备。
本实施例中,当前解码网络输出的解码结果具体可以为,当前解码网络中评分最高的路径,解码装置可以通过判断所述评分最高的路径是否为关键词路径,来确定待识别语音信号中是否存在关键词。若评分最高的路径为关键词路径,则确定待识别语音信号中存在关键词;若评分最高的路径为伪关键词路径或者垃圾词路径等,则确定待识别语音信号中不存在关键词。
本实施例中,置信度模型可以为神经网络模型,神经网络模型具体可以为深度神经网络模型、卷积神经网络模型、循环神经网络模型等,此处不做具体限定。对置信度模型进行训练时,可以采用正样本和负样本作为训练数据,训练正样本、负样本和置信度阈值之间的对应关系,通过调整模型参数,使正样本、负样本的置信度值尽量分布于置信度阈值的两端,且对识别结果的接受度尽量高;其中,所述正样本中包括:包括关键词的语音信号;所述负样本中包括:不包括关键词的语音信号。
本实施例提供的解码装置,通过基于声学模型,确定待识别语音信号对应的建模单元序列;基于当前解码网络,对建模单元序列进行解码;其中,当前解码网络为多个解码网络中与当前语音环境匹配的解码网络;若根据解码结果确定待识别语音信号中存在关键词,则将待识别语音信号中包含的关键词对应的语音信号输入预设的置信度模型,得到待识别语音信号对应的置信度;在待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备,从而能够根据当前语音环境,获取与当前语音环境匹配的解码网络,对待识别语音信号对应的建模单元序列进行解码,从而提高了当前语音环境下智能设备识别唤醒指令的准确度,提高了用户使用智能设备的体验。
图9为本发明实施例提供的一种电子设备的结构示意图。该电子设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的解码方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的解码方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的解码方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种解码方法,其特征在于,包括:
基于声学模型,确定待识别语音信号对应的建模单元序列;
基于当前解码网络,对所述建模单元序列进行解码;其中,所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
2.根据权利要求1所述的方法,其特征在于,所述多个解码网络的垃圾词路径数量不同。
3.根据权利要求1所述的方法,其特征在于,所述当前语音环境包括:智能设备的播放音量、环境噪音中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述环境噪音采用如下方式确定:
对所述待识别语音信号进行识别,确定环境噪音;或者,
根据待识别语音信号发出前的声音信号,确定环境噪音。
5.根据权利要求1所述的方法,其特征在于,在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个解码网络中选取与所述当前语音环境匹配的解码网络作为当前解码网络:
若所述播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个解码网络中选取第一解码网络作为当前解码网络;
若所述播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个解码网络中选取第二解码网络作为当前解码网络;
所述第一解码网络中垃圾词路径数量小于所述第二解码网络中垃圾词路径数量。
6.根据权利要求1所述的方法,其特征在于,基于声学模型,确定待识别语音信号对应的建模单元序列,包括:
基于当前声学模型,确定待识别语音信号对应的建模单元序列;其中,所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。
7.根据权利要求6所述的方法,其特征在于,所述多个声学模型根据不同语音环境下的训练数据生成。
8.根据权利要求6所述的方法,其特征在于,在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下,具体采用如下方式从多个声学模型中选取与所述当前语音环境匹配的声学模型作为当前声学模型:
若所述播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准,则从多个声学模型中选取第一声学模型作为当前声学模型;
若所述播放音量小于预设值,且环境噪音符合预设的静音标准,则从多个声学模型中选取第二声学模型作为当前声学模型;
所述第一声学模型根据播放音量大于等于预设值,和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成;
所述第二声学模型根据播放音量小于预设值,且环境噪音符合预设的静音标准的语音环境下的训练数据生成。
9.根据权利要求1-8任一所述的方法,其特征在于,还包括:
若根据解码结果确定所述待识别语音信号中存在关键词,则将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型,得到所述待识别语音信号对应的置信度;
在所述待识别语音信号对应的置信度大于置信度阈值时,唤醒智能设备。
10.一种解码装置,其特征在于,包括:
确定模块,用于基于声学模型,确定待识别语音信号对应的建模单元序列;
解码模块,用于基于当前解码网络,对所述建模单元序列进行解码;其中,所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710993273.4A CN108932944B (zh) | 2017-10-23 | 2017-10-23 | 解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710993273.4A CN108932944B (zh) | 2017-10-23 | 2017-10-23 | 解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108932944A true CN108932944A (zh) | 2018-12-04 |
CN108932944B CN108932944B (zh) | 2021-07-30 |
Family
ID=64448011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710993273.4A Active CN108932944B (zh) | 2017-10-23 | 2017-10-23 | 解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932944B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070857A (zh) * | 2019-04-25 | 2019-07-30 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110544468A (zh) * | 2019-08-23 | 2019-12-06 | Oppo广东移动通信有限公司 | 应用唤醒方法、装置、存储介质及电子设备 |
CN110610700A (zh) * | 2019-10-16 | 2019-12-24 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN111192590A (zh) * | 2020-01-21 | 2020-05-22 | 苏州思必驰信息科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
CN111933130A (zh) * | 2019-04-24 | 2020-11-13 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及*** |
CN113436629A (zh) * | 2021-08-27 | 2021-09-24 | 中国科学院自动化研究所 | 语音控制方法、装置、电子设备及存储介质 |
CN113643693A (zh) * | 2020-04-27 | 2021-11-12 | 声音猎手公司 | 以声音特征为条件的声学模型 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128594A (en) * | 1996-01-26 | 2000-10-03 | Sextant Avionique | Process of voice recognition in a harsh environment, and device for implementation |
CN1331826A (zh) * | 1998-12-21 | 2002-01-16 | 高通股份有限公司 | 可变速率语音编码 |
CN102959873A (zh) * | 2010-07-05 | 2013-03-06 | 日本电信电话株式会社 | 编码方法、解码方法、装置、程序及记录介质 |
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及*** |
CN106653022A (zh) * | 2016-12-29 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN107123417A (zh) * | 2017-05-16 | 2017-09-01 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及*** |
-
2017
- 2017-10-23 CN CN201710993273.4A patent/CN108932944B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128594A (en) * | 1996-01-26 | 2000-10-03 | Sextant Avionique | Process of voice recognition in a harsh environment, and device for implementation |
CN1331826A (zh) * | 1998-12-21 | 2002-01-16 | 高通股份有限公司 | 可变速率语音编码 |
CN102959873A (zh) * | 2010-07-05 | 2013-03-06 | 日本电信电话株式会社 | 编码方法、解码方法、装置、程序及记录介质 |
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及*** |
CN106653022A (zh) * | 2016-12-29 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN107123417A (zh) * | 2017-05-16 | 2017-09-01 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933130A (zh) * | 2019-04-24 | 2020-11-13 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及*** |
CN110070857B (zh) * | 2019-04-25 | 2021-11-23 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110070857A (zh) * | 2019-04-25 | 2019-07-30 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110544468A (zh) * | 2019-08-23 | 2019-12-06 | Oppo广东移动通信有限公司 | 应用唤醒方法、装置、存储介质及电子设备 |
CN110610700A (zh) * | 2019-10-16 | 2019-12-24 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
WO2021072955A1 (zh) * | 2019-10-16 | 2021-04-22 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN111192590A (zh) * | 2020-01-21 | 2020-05-22 | 苏州思必驰信息科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
CN113643693A (zh) * | 2020-04-27 | 2021-11-12 | 声音猎手公司 | 以声音特征为条件的声学模型 |
US11741943B2 (en) | 2020-04-27 | 2023-08-29 | SoundHound, Inc | Method and system for acoustic model conditioning on non-phoneme information features |
CN113643693B (zh) * | 2020-04-27 | 2024-02-09 | 声音猎手公司 | 以声音特征为条件的声学模型 |
CN113436629A (zh) * | 2021-08-27 | 2021-09-24 | 中国科学院自动化研究所 | 语音控制方法、装置、电子设备及存储介质 |
CN113436629B (zh) * | 2021-08-27 | 2024-06-04 | 中国科学院自动化研究所 | 语音控制方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108932944B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932944A (zh) | 解码方法及装置 | |
CN108877778B (zh) | 语音端点检测方法及设备 | |
CN108010515B (zh) | 一种语音端点检测和唤醒方法及装置 | |
CN107195295A (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN107301860A (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN109461446B (zh) | 一种识别用户目标请求的方法、装置、***及存储介质 | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN107123417A (zh) | 基于鉴别性训练的定制语音唤醒优化方法及*** | |
CN106940998A (zh) | 一种设定操作的执行方法及装置 | |
CN107767863A (zh) | 语音唤醒方法、***及智能终端 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN113990300B (zh) | 语音交互方法、车辆、服务器和计算机可读存储介质 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
JP7158217B2 (ja) | 音声認識方法、装置及びサーバ | |
CN108932941A (zh) | 语音识别方法、装置及计算机设备、存储介质及程序产品 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN109036471A (zh) | 语音端点检测方法及设备 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
CN109710087A (zh) | 输入法模型生成方法及装置 | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN109543165A (zh) | 基于循环卷积注意力模型的文本生成方法及装置 | |
CN107122492A (zh) | 基于图片内容的歌词生成方法和装置 | |
CN111627423A (zh) | Vad尾点检测方法、装置、服务器和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |