CN113643692B - 基于机器学习的plc语音识别方法 - Google Patents
基于机器学习的plc语音识别方法 Download PDFInfo
- Publication number
- CN113643692B CN113643692B CN202110319744.XA CN202110319744A CN113643692B CN 113643692 B CN113643692 B CN 113643692B CN 202110319744 A CN202110319744 A CN 202110319744A CN 113643692 B CN113643692 B CN 113643692B
- Authority
- CN
- China
- Prior art keywords
- voice
- plc
- model
- voice signal
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000007704 transition Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 abstract description 7
- 238000012986 modification Methods 0.000 abstract description 7
- 239000000203 mixture Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明一种基于机器学习的PLC语音识别方法,步骤如下,a,采集语音信号样本;b,语音信号端点检测、特征提取;c,训练HMM‑GMM模型;d,建立语音指令与PLC寄存器数据的映射关系;e,采集语音指令;f,对语音指令进行端点检测、特征提取;g,将语音指令的特征与模型进行匹配;h,匹配结果通过与PLC寄存器数据的映射关系修改寄存器数据。能实现信号的输出和参数的修改,能够准确的识别操作员发出的语音指令,也即实现了将按钮、按键等工业控制手段替换成对操作人员更为友好的语音指令,使操作人员不必面对复杂的操作界面,同时也可以实现远程操作设备,为工业控制模式增加了新的方式和思路。
Description
技术领域
本发明涉及机器学习技术领域,特别是一种基于机器学习的PLC语音识别方法。
背景技术
在传统的工业控制中,操作员通过使用按钮、触摸屏、鼠标、键盘等设备对PLC进行信号的输入或参数的修改,经由PLC进行逻辑处理后输出指令到外部,从而对设备进行控制,当面对复杂的生产工艺时,设备为满足工艺要求,操作逻辑会越来越繁琐,按钮、触摸屏按键等输入装置的数量会随之增多,传统的人机交互方式的复杂程度也会随之增加,操作人员需要从众多的按钮和界面中找到正确的输入装置进行输入操作,不仅浪费时间,对操作人员的专业素质要求也高,没有***的培训和长时间的操作经验的操作员很难在短时间胜任工作。
基于上述前提,提供一种自然且方便的人机交互方式就显得尤为重要。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明提供一种基于机器学习的PLC语音识别方法,通过获取设备所需指令的语音数据,对语音数据处理后建立训练模型,使用时将采集到的指令语音处理后与模型进行匹配,将匹配结果写入PLC内部寄存器,实现信号的输出和参数的修改,能够准确的识别操作员发出的语音指令,根据指令设备进行相应的作业。
本发明的一种基于机器学习的PLC语音识别方法,具体实现步骤如下,
a,采集语音信号样本;
b,语音信号端点检测、特征提取;
c,训练HMM-GMM模型;
d,建立语音指令与PLC寄存器数据的映射关系;
e,采集语音指令;
f,对语音指令进行端点检测、特征提取;
g,将语音指令的特征与模型进行匹配;
h,匹配结果通过与PLC寄存器数据的映射关系修改寄存器数据。
本发明的有益效果是:基于机器学习,首先采集语音信号样本,并进行语音信号端点检测、特征提取,之后训练出HMM-GMM模型,其次建立语音指令与PLC寄存器数据的映射关系,最后采集语音指令,并对语音指令进行端点检测、特征提取,将语音指令的特征与模型进行匹配将匹配结果写入PLC内部寄存器,实现信号的输出和参数的修改,能够准确的识别操作员发出的语音指令,也即实现了将按钮、按键等工业控制手段替换成对操作人员更为友好的语音指令,使操作人员不必面对复杂的操作界面,同时也可以实现远程操作设备,为工业控制模式增加了新的方式和思路。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的总体步骤流程图。
图2为本发明的步骤a流程图。
图3为本发明的步骤b中语音信号端点检测的波形图。
图4为本发明的步骤d中 D1的对应图。
图5为本发明的步骤h流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一,一种基于机器学习的PLC语音识别方法,具体实现步骤如下,
a,采集语音信号样本;
b,语音信号端点检测、特征提取;
c,训练HMM-GMM模型;
d,建立语音指令与PLC寄存器数据的映射关系;
e,采集语音指令;
f,对语音指令进行端点检测、特征提取(语音指令的采集、端点检测和特征提取方式同语音信号样本的采集、端点检测和特征提取);
g,将语音指令的特征与模型进行匹配;
h,匹配结果通过与PLC寄存器数据的映射关系修改寄存器数据,结合映射关系和语音指令预测结果,使用Sanp7连接目标PLC,完成对应地址的寄存器数据修改。
实施例二,在实施例一的基础上,所述步骤a中采集语音信号样本的步骤如下,
A1,设置每个语音信号样本采集次数;
A2,设置语音信号样本的保存路径;
A3,设置格式为pyaudio.paInt16,声道数为1,采样率16000,单个语音信号录音时长为2.5s;
A4,使用pyaudio模块进行语音的采集;
A5,使用wave模块对采集的语音信号样本进行保存;
A6,使用谱减法对语音信号样本进行去噪;
A7,循环执行直至达到设置的采集次数。
实施例三,在实施例一的基础上,所述步骤b中语音信号端点检测,端点检测就是在一段包含语音的信号中,准确地确定语音的起始点和终止点,将语音段和非语音段区分开,本发明采用双门限法进行语音的端点检测。双门限法有三个阈值,前两个是语音能量的阈值,最后一个是语音过零率的阈值。浊音的能量高于清音,清音的过零率高于无声部分,先利用能量,将浊音部分区分出来,再利用过零率,将清音也提取出来,完成端点检测,具体的步骤如下,
Bj1,取一个较高的短时能量作为阈值MH,利用这个阈值,先分出语音中的浊音部分,A1到A2区间;
Bj2,取一个较低的能量阈值ML,利用这个阈值,从A1,A2,向两端进行搜索,将较低能量段的语音部分也加入到语音段,进一步扩大语音段范围,B1-B2之间还是语音段;
Bj3,利用短时过零率区分辅音、静音,短时过零率的阈值为Zs,将利用短时能量区分完的语音段继续向两端进行搜索,短时过零率大于3倍Zs的部分,则认为是语音的清音部分,将该部分加入语言段,就是求得的语音段,C1-C2之间是语音段。
实施例四,在实施例一的基础上,所述步骤b中语音信号特征提取的步骤如下,
Bt1,先对语音进行预加重、分帧和加窗;
Bt2,对每一个短时分析窗,通过FFT得到对应的频谱;
Bt3,将上面的频谱通过Mel滤波器组得到Mel频谱(人的听觉***是一个特殊的非线性***,它响应不同频率信号的灵敏度是不同的。在语音特征的提取上,人类听觉***做得非常好,它不仅能提取出语义信息, 而且能提取出说话人的个人特征,这些都是现有的语音识别***所望尘莫及的。如果在语音识别***中能模拟人类听觉感知处理特点,就有可能提高语音的识别率,梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上);
Bt4,在Mel频谱上面进行倒谱分析,取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
实施例五,在实施例一的基础上,所述步骤c训练HMM-GMM模型的步骤如下,
C1,对语音信号的音素分别使用HMM-GMM(Hidden Markov Model:一个有隐节点unobservable和可见节点visible的马尔科夫过程,GaussianMixture Model: 高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量Hidden variable,一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能,语音识别就分为三步:第一步,把帧识别成状态,由GMM完成;第二步,把状态组合成音素,由HMM完成;第三步,把音素组合成单词,由HMM完成;可以理解为整个HMM-GMM网络其实主要是为了HMM网络服务的,对于语音识别需要解决的问题,就是把MFCC特征正确的识别成对应HMM 状态,这个过程涉及两个概率需要计算,一是把当前帧的特征识别为这个状态的概率,也就是通常HMM中说的Likelihood ,也是GMM中的均值向量和协方差矩阵,即GMM网络是为了获得当前状态概率的;二是上个状态转化为当前状态的概率也就是状态转移概率,这个过程是HMM中说的Decoding,一个序列转化为另一个序列理论上有指数级种转化方式,所以每一个帧只取概率最高的那个状态,这样的路线选择方法被称为维特比算法)建模,使用3状态建模,其中HMM的发射概率使用高斯分布函数建模;
C2,初始化对齐,将语音信号的帧平均对应到每个状态;
C3,更新模型参数,统计获得每个状态的转移的次数,除以总转移次数,获得每种状态的转移概率,计算状态的MFCC特征的均值向量和协方差矩阵,即发射概率;
C4,使用维特比算法,根据上一步得到的转移概率和发射概率,重新对语音信号进行状态级别的对齐;
C5,重复步骤C2,步骤C3,直至收敛;
C6,保存训练完成的模型。
实施例六,在实施例一的基础上,所述步骤d中建立语音指令与PLC寄存器数据的映射关系的步骤如下,
D1,PLC的数据存储通过Tag的形式与存储区间关联,分为输入(I)、输出(O)、位存储(M)和数据块(DB),程序在访问对应(I/O)Tag时,是通过访问CPU的Process Image Out对相应地址进行操作的,具体对应关系如下图4所示;
D2,使用snap7建立PC与PLC寄存器的链接,Snap7 是一个基于以太网与S7系列的西门子PLC通讯的开源库,支持包括S7系列的S7-200、S7-200 Smart、S7-300、S7-400、S7-1200以及S7-1500的以太网通信,通信步骤为:1,实例化snap7;设置链接端口号,2,调用snap7的API:connect,3,参数需要目标PLC的IP地址,机架号和插槽号,4,在操作完成后调用API:disconnect断开链接;
D3,语音指令与PLC数据寄存器数据的映射, PLC所执行命令操作的原理是修改对应寄存器地址中的数据,通过snap7的API:client.write_area和client.read_area可以实现对PLC寄存器数据的写入和读取。参数需要操作类型地址,寄存器地址,起始位和数据,此项操作可以完成I/O点的输入输出;
对于V区和M区,则需要调用API:client.db_write和client.db_read对V和M变量进行读写操作,参数需要寄存器地址,起始位和读取数据的字节数(其中字节数据为1,字和整数为2,双整形和浮点为4),此项操作可以完成对变量数据的写入和读取;
语音信号代替实体按钮或触摸屏上的按键,对指定的寄存器地址写入能够实现功能的数据,完成语音信号和PLC寄存器数据的映射,例如语音信号为“1号电机启动”,假设输出点Q0.1置位时1号电机启动,则在程序中对应client.write_area(0X82,0,0,struck.unpack('B',2))语句。
实施例七,在实施例一的基础上,所述步骤g中将语音指令的特征与模型进行匹配,导入由HMM-GMM语音信号样本的每个音素建立的模型组,将语音指令的特征与模型组的每个模型进行匹配,取得最高匹配率的语音样本,具体步骤如下,
G1,导入训练完成的模型组;
G2,创建预测分数列表;
G3,将输入的语音和模型组的每个模型进行匹配;
G4,计算匹配得分,并存入预测分数列表;
G5,筛选出的分最高的模型;
G6,输出该模型对应的语音信号标志。
本发明具体使用时,基于机器学习,训练语音指令模型,通过PC端程序连接PLC,将按钮、按键等工业控制手段替换成对操作人员更为友好的语音指令,使操作人员不必面对复杂的操作界面,同时也可以实现远程操作设备,为工业控制模式增加了新的方式和思路,具体实现步骤如下,
a,采集语音信号样本;
b,语音信号端点检测、特征提取;
c,训练HMM-GMM模型;
d,建立语音指令与PLC寄存器数据的映射关系;
e,采集语音指令;
f,对语音指令进行端点检测、特征提取(语音指令的采集、端点检测和特征提取方式同语音信号样本的采集、端点检测和特征提取);
g,将语音指令的特征与模型进行匹配;
h,匹配结果通过与PLC寄存器数据的映射关系修改寄存器数据,结合映射关系和语音指令预测结果,使用Sanp7连接目标PLC,完成对应地址的寄存器数据修改。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于机器学习的PLC语音识别方法,其特征在于,具体实现步骤如下,
a,采集语音信号样本;
b,语音信号端点检测、特征提取;
c,训练HMM-GMM模型;
d,建立语音指令与PLC寄存器数据的映射关系;建立所述映射关系的步骤包括:D1,PLC的数据存储通过Tag的形式与存储区间关联,分为输入(I)、输出(O)、位存储(M)和数据块(DB);D2,使用snap7建立PC与PLC寄存器的链接;D3,基于链接建立语音指令与PLC数据寄存器数据的映射;
e,采集语音指令;
f,对语音指令进行端点检测、特征提取;
g,将语音指令的特征与模型进行匹配;
h,匹配结果通过与PLC寄存器数据的映射关系修改寄存器数据。
2.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤a中采集语音信号样本的步骤如下,
A1,设置每个语音信号样本采集次数;
A2,设置语音信号样本的保存路径;
A3,设置格式为pyaudio.paInt16,声道数为1,采样率16000,单个语音信号录音时长为2.5s;
A4,使用pyaudio模块进行语音的采集;
A5,使用wave模块对采集的语音信号样本进行保存;
A6,使用谱减法对语音信号样本进行去噪;
A7,循环执行直至达到设置的采集次数。
3.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤b中语音信号端点检测的步骤如下,
Bj1,取一个较高的短时能量作为阈值MH,利用这个阈值,先分出语音中的浊音部分,A1到A2区间;
Bj2,取一个较低的能量阈值ML,利用这个阈值,从A1,A2,向两端进行搜索,将较低能量段的语音部分也加入到语音段,进一步扩大语音段范围,B1-B2之间还是语音段;
Bj3,利用短时过零率区分辅音、静音,短时过零率的阈值为Zs,将利用短时能量区分完的语音段继续向两端进行搜索,短时过零率大于3倍Zs的部分,则认为是语音的清音部分,将该部分加入语言段,就是求得的语音段,C1-C2之间是语音段。
4.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤b中语音信号特征提取的步骤如下,
Bt1,先对语音进行预加重、分帧和加窗;
Bt2,对每一个短时分析窗,通过FFT得到对应的频谱;
Bt3,将上面的频谱通过Mel滤波器组得到Mel频谱;
Bt4,在Mel频谱上面进行倒谱分析,取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
5.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤c训练HMM-GMM模型的步骤如下,
C1,对语音信号的音素分别使用HMM-GMM建模,使用3状态建模,其中HMM的发射概率使用高斯分布函数建模;
C2,初始化对齐,将语音信号的帧平均对应到每个状态;
C3,更新模型参数,统计获得每个状态的转移的次数,除以总转移次数,获得每种状态的转移概率,计算状态的MFCC特征的均值向量和协方差矩阵,即发射概率;
C4,使用维特比算法,根据上一步得到的转移概率和发射概率,重新对语音信号进行状态级别的对齐;
C5,重复步骤C2,步骤C3,直至收敛;
C6,保存训练完成的模型。
6.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤g中将语音指令的特征与模型进行匹配的步骤如下,
G1,导入训练完成的模型组;
G2,创建预测分数列表;
G3,将输入的语音和模型组的每个模型进行匹配;
G4,计算匹配得分,并存入预测分数列表;
G5,筛选出的分最高的模型;
G6,输出该模型对应的语音信号标志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110319744.XA CN113643692B (zh) | 2021-03-25 | 2021-03-25 | 基于机器学习的plc语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110319744.XA CN113643692B (zh) | 2021-03-25 | 2021-03-25 | 基于机器学习的plc语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113643692A CN113643692A (zh) | 2021-11-12 |
CN113643692B true CN113643692B (zh) | 2024-03-26 |
Family
ID=78415711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110319744.XA Active CN113643692B (zh) | 2021-03-25 | 2021-03-25 | 基于机器学习的plc语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643692B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及*** |
CN104078039A (zh) * | 2013-03-27 | 2014-10-01 | 广东工业大学 | 基于隐马尔科夫模型的家用服务机器人语音识别*** |
CN106395516A (zh) * | 2016-10-13 | 2017-02-15 | 东华大学 | 一种基于语音识别的乘客电梯智能控制*** |
CN106601230A (zh) * | 2016-12-19 | 2017-04-26 | 苏州金峰物联网技术有限公司 | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、***及物流分拣*** |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109243428A (zh) * | 2018-10-15 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及*** |
CN109448726A (zh) * | 2019-01-14 | 2019-03-08 | 李庆湧 | 一种语音控制准确率的调整方法及*** |
CN209433234U (zh) * | 2019-03-15 | 2019-09-24 | 陕西中烟工业有限责任公司 | 基于Raspberry Pi具有语音报警功能的制丝工艺参数监测装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-03-25 CN CN202110319744.XA patent/CN113643692B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及*** |
CN104078039A (zh) * | 2013-03-27 | 2014-10-01 | 广东工业大学 | 基于隐马尔科夫模型的家用服务机器人语音识别*** |
CN106395516A (zh) * | 2016-10-13 | 2017-02-15 | 东华大学 | 一种基于语音识别的乘客电梯智能控制*** |
CN106601230A (zh) * | 2016-12-19 | 2017-04-26 | 苏州金峰物联网技术有限公司 | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、***及物流分拣*** |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109243428A (zh) * | 2018-10-15 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及*** |
CN109448726A (zh) * | 2019-01-14 | 2019-03-08 | 李庆湧 | 一种语音控制准确率的调整方法及*** |
CN209433234U (zh) * | 2019-03-15 | 2019-09-24 | 陕西中烟工业有限责任公司 | 基于Raspberry Pi具有语音报警功能的制丝工艺参数监测装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113643692A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018227780A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
WO2021051544A1 (zh) | 语音识别方法及其装置 | |
CN103065620B (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN110648691B (zh) | 基于语音的能量值的情绪识别方法、装置和*** | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
JPS58100195A (ja) | 連続音声認識装置 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN114360557B (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN108091340B (zh) | 声纹识别方法、声纹识别***和计算机可读存储介质 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN111369981A (zh) | 一种方言地域识别方法、装置、电子设备及存储介质 | |
CN111554279A (zh) | 一种基于Kinect的多模态人机交互*** | |
JPH09319392A (ja) | 音声認識装置 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
CN113643692B (zh) | 基于机器学习的plc语音识别方法 | |
CN115331658B (zh) | 一种语音识别方法 | |
Dua et al. | Noise robust automatic speech recognition: review and analysis | |
CN107785012B (zh) | 一种声控司钻显示器的控制方法 | |
CN113611285B (zh) | 基于层叠双向时序池化的语种识别方法 | |
Islam et al. | Improvement of text dependent speaker identification system using neuro-genetic hybrid algorithm in office environmental conditions | |
Gupta | Speech recognition for Hindi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |