CN109637524A - 一种人工智能交互方法及人工智能交互装置 - Google Patents
一种人工智能交互方法及人工智能交互装置 Download PDFInfo
- Publication number
- CN109637524A CN109637524A CN201910049253.0A CN201910049253A CN109637524A CN 109637524 A CN109637524 A CN 109637524A CN 201910049253 A CN201910049253 A CN 201910049253A CN 109637524 A CN109637524 A CN 109637524A
- Authority
- CN
- China
- Prior art keywords
- artificial intelligence
- sequence
- voice data
- arry
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 9
- KHMVXSQLPUNRCF-UHFFFAOYSA-N DL-Adalin Natural products C1CCC2CC(=O)CC1(CCCCC)N2 KHMVXSQLPUNRCF-UHFFFAOYSA-N 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种人工智能交互方法及人工智能交互装置,涉及人工智能技术领域,该人工智能交互方法包括接收语音信号:将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块;将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U};显示所述U个单词序列{Arry(q},1≤q≤U}。通过本发明的方法可将语音识别为文字,为交互提供了趣味性,从而能够增加交互装置的用户粘性。
Description
技术领域
本发明涉及人工智能技术领域,更具体的涉及一种人工智能交互方法及人工智能交互装置。
背景技术
现有技术中,人工智能基本局限于聊天机器人的范畴,是指计算机软件来模拟具有一定语言功能的程序单元,实现与人进行简单的交流。
目前现存的聊天机器人都受限于人工智能领域的研究和实现尚不成熟,本身尚未具有智能功能,只能接收用户的文本输入,同样给出简单的文本回复,无法接收用户的语音输入,并将所述语音输入转换为文本输出。
发明内容
本发明实施例提供一种人工智能交互方法及人工智能交互装置,用以解决现有技术中无法接收用户的语音输入,并将所述语音输入转换为文本输出的问题。
本发明实施例提供一种人工智能交互方法,包括:
接收语音信号:
将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块;
将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U};
显示所述U个单词序列{Arry(q},1≤q≤U}。
较佳地,所述语音识别算法包括:
将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SFm(i),1≤i≤Nf},且每一个短帧的长度均为Nf;其中,m=1,···M;SFm(i)=S(i+m*Nsf),1≤i≤Nf;式中Nsf为滑动窗长,且Nf≥Nsf;
分别将M个音频短帧{SFm(i)=S(i+m*Nsf)1≤i≤Nf}一一采用特征提取算法提出特征向量;其中,M个特征向量组成特征向量组
将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}。
较佳地,所述特征提取算法包括:
对M个所述音频短帧{SFm(i),1≤i≤Nf}依次做加窗处理,加窗后形成其中,加窗操作为1≤i≤Nf,且
对所述做DFT变换形成
采用功率谱公式求解出所述的功率谱其中
采用NT个特征滤波器{Hj(k),1≤k≤Nf;j=1,···NT}对功率谱一一对应进行提取NT个特征参数pmj,j=1,···NT;
对特征参数pmj进行对数操作,获得对数特征参数Cmj=log(pmj),j=1,···NT;
对所述Cmj=log(pmj)做间隔为L的差分操作,得到NT-L个差分序列其中,所述的dms为采用特征提取算法提出得到的特征向量
较佳地,所述pmj,j=1,···NT的提取操作为采用提取公式其中,j=1,···NT。
较佳地,所述将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}时,采用的转换算法包括:|
学习模型采用ADALINE学习算法,假设每一个特征向量对应的所有可能的状态集合为{S1,S2…SR},其中,R为元素个数;
依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列
将所述状态序列连续每3个一组译为第一音素序列{B1,B2…BG};
将所述第一音素序列{B1,B2…BG}中重复的音素消除;
将消除重复的第一音素序列确定为第二音素序列{D1,D2…DV};
调用音素映射到单词的查找表,采用音素映射到单词的查找表将所述第二音素序列{D1,D2…DV}映射为单词序列{{Arry(q},1≤q≤U}}。
本发明实施例提供一种人工智能交互装置,所述装置包括:音频采集模块、存储模块、数字处理模块以及显示模块;
所述音频采集模块,用于接收语音信号:将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块;
所述存储模块,用于存储语音数据{S(n),1≤n≤N},并存储音素映射到单词的查找表;
所述数字处理模块,用于将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U};
所述显示模块,用于显示所述U个单词序列{Arry(q},1≤q≤U}。
较佳地,所述数字处理模块还用于:
将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SFm(i),1≤i≤Nf},且每一个短帧的长度均为Nf;其中,m=1,···M;SFm(i)=S(i+m*Nsf),1≤i≤Nf;式中Nsf为滑动窗长,且Nf≥Nsf;
分别将M个音频短帧{SFm(i)=S(i+m*Nsf)1≤i≤Nf}一一采用特征提取算法提出特征向量;其中,M个特征向量组成特征向量组
将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}。
较佳地,所述数字处理模块还用于:
对M个所述音频短帧{SFm(i),1≤i≤Nf}依次做加窗处理,加窗后形成其中,加窗操作为1≤i≤Nf,且
对所述做DFT变换形成
采用功率谱公式求解出所述的功率谱其中
采用NT个特征滤波器{Hj(k),1≤k≤Nf;j=1,···NT}对功率谱一一对应进行提取NT个特征参数pmj,j=1,···NT;
对特征参数pmj进行对数操作,获得对数特征参数Cmj=log(pmj),j=1,···NT;
对所述Cmj=log(pmj)做间隔为L的差分操作,得到NT-L个差分序列其中,所述的dms为采用特征提取算法提出得到的特征向量
较佳地,所述数字处理模块还用于:|
学习模型采用ADALINE学习算法,假设每一个特征向量对应的所有可能的状态集合为{S1,S2…SR},其中,R为元素个数;
依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列
将所述状态序列连续每3个一组译为第一音素序列{B1,B2…BG};
将所述第一音素序列{B1,B2…BG}中重复的音素消除;
将消除重复的第一音素序列确定为第二音素序列{D1,D2…DV};
调用音素映射到单词的查找表,采用音素映射到单词的查找表将所述第二音素序列{D1,D2…DV}映射为单词序列{{Arry(q},1≤q≤U}}。
本发明实施例中,通过接收语音信号,将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N};将该语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U},从而保证将用户的语音数据转化为对应的文本数据进行输出,保证了交互的方式更加多样,而且增加了交互的趣味性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人工智能交互方法的流程示意图;
图2为本发明实施例提供的一种人工智能交互方法的装置的框图。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
图1示例性的示出了本发明实施例提供的一种人工智能交互方法及人工智能交互装置的流程示意图,该人工智能交互方法包括:
S1、接收语音数据。
S2、音频采集模块将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块。
S3、将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U};
S4、显示所述U个单词序列{Arry(q},1≤q≤U}。
其中,该语音识别算法为:
S31、将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SFm(i),1≤i≤Nf},且每一个短帧的长度均为Nf。
其中,m=1,···M;SFm(i)=S(i+m*Nsf),1≤i≤Nf;式中Nsf为滑动窗长,且Nf≥Nsf。
S32、分别将M个音频短帧{SFm(i)=S(i+m*Nsf)1≤i≤Nf}一一采用特征提取算法提出特征向量;其中M个特征向量组成特征向量组
S33、将所述特征向量组采用转换算法转换为相应的单词序列。
需要说明的是,所述特征提取算法包括:
S32-1、对M个所述音频短帧{SFm(i),1≤i≤Nf}依次做加窗处理,加窗后形成其中,加窗操作为1≤i≤Nf,且
需要说明的是,加窗的目的是为了用于平滑信号,减少DFT以后的旁瓣大小以及频谱泄露。
S32-2、对做DFT变换形成
S32-3、采用功率谱公式求解出所述的功率谱,其中
S32-4、采用NT个特征滤波器{Hj(k),1≤k≤Nf;j=1,···NT}对功率谱一一对应进行提取NT个特征参数pmj,j=1,···NT。
其中,pmj,j=1,···NT的提取操作为采用提取公式其中,j=1,···NT。
S32-5、对特征参数pmj进行对数操作,获得对数特征参数Cmj=log(pmj),j=1,···NT。
S32-6、对所述Cmj=log(pmj)做间隔为L的差分操作,得到NT-L个差分序列
其中,所述的dms为采用特征提取算法提出得到的特征向量
步骤S33中,将所述特征向量组采用转换算法转换为相应的单词序列时,采用的转换算法包括:|
S33-1、学习模型采用ADALINE学习算法,假设每一个特征向量对应的所有可能的状态集合为{S1,S2…SR},其中,R为元素个数,存储模块中预先存储大量的特征向量训练数据,并对所述学习模型做过充分的训练。
S33-2、依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列
S33-3、将所述状态序列连续每3个一组译为第一音素序列{B1,B2…BG}。
其中,单词的发音由音素构成。汉语直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态是比音素更细致的语音单位,通常一个音素划分为3个状态。音素和状态的关系参见图2,图2中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词,只要知道每帧语音对应哪个状态,语音识别的结果就出来了。
S33-4、将所述第一音素序列{B1,B2…BG}中重复的音素消除,且所述第一音素序列变为第二音素序列{D1,D2…DV}。
S33-5、调用音素映射到单词的查找表,采用音素映射到单词的查找表将所述第二音素序列映射为单词序列{{Arry(q},1≤q≤U}}。
其中,查找表是预先建立的。
本发明实施例中,接收语音信号,将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N};将该语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U},从而保证将用户的语音数据转化为对应的文本数据进行输出,保证了交互的方式更加多样,而且增加了交互的趣味性。
本发明通过以上方法可将语音识别为文字输出,为交互提供了一种新的方式,当一些用户不便于用文字输入时,可通过输入语音,方便聊天机器人及时对用户做出反馈,不仅可保证聊天机器人的互动比较顺畅,且能增加聊天机器人的趣味性,从而能增加聊天机器人的用户粘性。
本发明实施例提供一种人工智能交互装置,如图2所示,该人工智能交互装置包括:音频采集模块1、存储模块2、数字处理模块3以及显示模块4。
所述音频采集模块1,用于接收语音信号:将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块。
所述存储模块2,用于存储语音数据{S(n),1≤n≤N},并存储音素映射到单词的查找表。
所述数字处理模块3,用于将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}。
所述显示模块4,用于显示所述U个单词序列{Arry(q},1≤q≤U}。
较佳地,所述数字处理模块3还用于:
将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SFm(i),1≤i≤Nf},且每一个短帧的长度均为Nf。其中,m=1,···M。SFm(i)=S(i+m*Nsf),1≤i≤Nf。式中Nsf为滑动窗长,且Nf≥Nsf。
分别将M个音频短帧{SFm(i)=S(i+m*Nsf)1≤i≤Nf}一一采用特征提取算法提出特征向量。其中,M个特征向量组成特征向量组
将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}。
较佳地,所述数字处理模块3还用于:
对M个所述音频短帧{SFm(i),1≤i≤Nf}依次做加窗处理,加窗后形成其中,加窗操作为1≤i≤Nf,且
对所述做DFT变换形成
采用功率谱公式求解出所述的功率谱其中
采用NT个特征滤波器{Hj(k),1≤k≤Nf;j=1,···NT}对功率谱一一对应进行提取NT个特征参数pmj,j=1,···NT。
对特征参数pmj进行对数操作,获得对数特征参数Cmj=log(pmj),j=1,···NT。
对所述Cmj=log(pmj)做间隔为L的差分操作,得到NT-L个差分序列s=1,…NT-L。其中,所述的dms为采用特征提取算法提出得到的特征向量
较佳地,所述数字处理模块3还用于:|
学习模型采用ADALINE学习算法,假设每一个特征向量对应的所有可能的状态集合为{S1,S2…SR},其中,R为元素个数。
依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列
将所述状态序列连续每3个一组译为第一音素序列{B1,B2…BG}。
将所述第一音素序列{B1,B2…BG}中重复的音素消除。
将消除重复的第一音素序列确定为第二音素序列{D1,D2…DV}。
调用音素映射到单词的查找表,采用音素映射到单词的查找表将所述第二音素序列{D1,D2…DV}映射为单词序列{{Arry(q},1≤q≤U}}。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种人工智能交互方法,其特征在于,包括:
接收语音信号:
将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块;
将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U};
显示所述U个单词序列{Arry(q},1≤q≤U}。
2.根据权利要求1所述的人工智能交互方法,其特征在于,所述语音识别算法包括:
将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SFm(i),1≤i≤Nf},且每一个短帧的长度均为Nf;其中,m=1,···M;SFm(i)=S(i+m*Nsf),1≤i≤Nf;式中Nsf为滑动窗长,且Nf≥Nsf;
分别将M个音频短帧{SFm(i)=S(i+m*Nsf)1≤i≤Nf}一一采用特征提取算法提出特征向量;其中,M个特征向量组成特征向量组
将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}。
3.根据权利要求2所述的人工智能交互方法,其特征在于,所述特征提取算法包括:
对M个所述音频短帧{SFm(i),1≤i≤Nf}依次做加窗处理,加窗后形成其中,加窗操作为1≤i≤Nf,且
对所述做DFT变换形成
采用功率谱公式求解出所述的功率谱其中
采用NT个特征滤波器{Hj(k),1≤k≤Nf;j=1,···NT}对功率谱一一对应进行提取NT个特征参数pmj,j=1,···NT;
对特征参数pmj进行对数操作,获得对数特征参数Cmj=log(pmj),j=1,···NT;
对所述Cmj=log(pmj)做间隔为L的差分操作,得到NT-L个差分序列s=1,…NT-L;其中,所述的dms为采用特征提取算法提出得到的特征向量
4.根据权利要求3所述的人工智能交互方法,其特征在于,所述pmj,j=1,···NT的提取操作为采用提取公式其中,j=1,···NT。
5.根据权利要求2所述的人工智能交互方法,其特征在于,所述将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}时,采用的转换算法包括:
学习模型采用ADALINE学习算法,假设每一个特征向量对应的所有可能的状态集合为{S1,S2…SR},其中,R为元素个数;
依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列
将所述状态序列连续每3个一组译为第一音素序列{B1,B2…BG};
将所述第一音素序列{B1,B2…BG}中重复的音素消除;
将消除重复的第一音素序列确定为第二音素序列{D1,D2…DV};
调用音素映射到单词的查找表,采用音素映射到单词的查找表将所述第二音素序列{D1,D2…DV}映射为单词序列{{Arry(q},1≤q≤U}}。
6.一种人工智能交互装置,其特征在于,所述人工智能交互装置包括:音频采集模块、存储模块、数字处理模块以及显示模块;
所述音频采集模块,用于接收语音信号:将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N},并将语音数据{S(n),1≤n≤N}存储至存储模块;
所述存储模块,用于存储语音数据{S(n),1≤n≤N},并存储音素映射到单词的查找表;
所述数字处理模块,用于将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U};
所述显示模块,用于显示所述U个单词序列{Arry(q},1≤q≤U}。
7.根据权利要求6所述的人工智能交互装置,其特征在于,所述数字处理模块还用于:
将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SFm(i),1≤i≤Nf},且每一个短帧的长度均为Nf;其中,m=1,···M;SFm(i)=S(i+m*Nsf),1≤i≤Nf;式中Nsf为滑动窗长,且Nf≥Nsf;
分别将M个音频短帧{SFm(i)=S(i+m*Nsf)1≤i≤Nf}一一采用特征提取算法提出特征向量;其中,M个特征向量组成特征向量组
将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}。
8.根据权利要求7所述的人工智能交互装置,其特征在于,所述数字处理模块还用于:
对M个所述音频短帧{SFm(i),1≤i≤Nf}依次做加窗处理,加窗后形成其中,加窗操作为1≤i≤Nf,且
对所述做DFT变换形成
采用功率谱公式求解出所述的功率谱其中
采用NT个特征滤波器{Hj(k),1≤k≤Nf;j=1,···NT}对功率谱一一对应进行提取NT个特征参数pmj,j=1,···NT;
对特征参数pmj进行对数操作,获得对数特征参数Cmj=log(pmj),j=1,···NT;
对所述Cmj=log(pmj)做间隔为L的差分操作,得到NT-L个差分序列s=1,…NT-L;其中,所述的dms为采用特征提取算法提出得到的特征向量
9.根据权利要求7所述的人工智能交互装置,其特征在于,所述数字处理模块还用于:|
学习模型采用ADALINE学习算法,假设每一个特征向量对应的所有可能的状态集合为{S1,S2…SR},其中,R为元素个数;
依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列
将所述状态序列连续每3个一组译为第一音素序列{B1,B2…BG};
将所述第一音素序列{B1,B2…BG}中重复的音素消除;
将消除重复的第一音素序列确定为第二音素序列{D1,D2…DV};
调用音素映射到单词的查找表,采用音素映射到单词的查找表将所述第二音素序列{D1,D2…DV}映射为单词序列{{Arry(q},1≤q≤U}}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049253.0A CN109637524A (zh) | 2019-01-18 | 2019-01-18 | 一种人工智能交互方法及人工智能交互装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049253.0A CN109637524A (zh) | 2019-01-18 | 2019-01-18 | 一种人工智能交互方法及人工智能交互装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109637524A true CN109637524A (zh) | 2019-04-16 |
Family
ID=66061314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910049253.0A Pending CN109637524A (zh) | 2019-01-18 | 2019-01-18 | 一种人工智能交互方法及人工智能交互装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109637524A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030369A (zh) * | 2007-03-30 | 2007-09-05 | 清华大学 | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 |
CN102982803A (zh) * | 2012-12-11 | 2013-03-20 | 华南师范大学 | 基于hrsf及改进dtw算法的孤立词语音识别方法 |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN105845126A (zh) * | 2016-05-23 | 2016-08-10 | 渤海大学 | 一种英语有声影像资料自动加注英语字幕的方法 |
CN106782499A (zh) * | 2016-12-19 | 2017-05-31 | 苏州金峰物流设备有限公司 | 地名语音信号的特征提取方法 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107481718A (zh) * | 2017-09-20 | 2017-12-15 | 广东欧珀移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN108198545A (zh) * | 2017-12-19 | 2018-06-22 | 安徽建筑大学 | 一种基于小波变换的语音识别方法 |
-
2019
- 2019-01-18 CN CN201910049253.0A patent/CN109637524A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030369A (zh) * | 2007-03-30 | 2007-09-05 | 清华大学 | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 |
CN102982803A (zh) * | 2012-12-11 | 2013-03-20 | 华南师范大学 | 基于hrsf及改进dtw算法的孤立词语音识别方法 |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN105845126A (zh) * | 2016-05-23 | 2016-08-10 | 渤海大学 | 一种英语有声影像资料自动加注英语字幕的方法 |
CN106782499A (zh) * | 2016-12-19 | 2017-05-31 | 苏州金峰物流设备有限公司 | 地名语音信号的特征提取方法 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107481718A (zh) * | 2017-09-20 | 2017-12-15 | 广东欧珀移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN108198545A (zh) * | 2017-12-19 | 2018-06-22 | 安徽建筑大学 | 一种基于小波变换的语音识别方法 |
Non-Patent Citations (1)
Title |
---|
姜干新: "《硕士学位论文》", 30 June 2011, 浙江大学 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767755A (zh) | 一种语音合成方法和*** | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN1327406C (zh) | 开放式词汇表语音识别的方法 | |
CN108806667A (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
WO2022078146A1 (zh) | 语音识别方法、装置、设备以及存储介质 | |
Wheatley et al. | An evaluation of cross-language adaptation for rapid HMM development in a new language | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
MXPA06003431A (es) | Metodo para sintetizar voz. | |
CN110675853A (zh) | 一种基于深度学习的情感语音合成方法及装置 | |
WO2021051765A1 (zh) | 一种语音合成方法及装置、存储介质 | |
KR20170081883A (ko) | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 | |
CN108304121A (zh) | 演示文稿的控制方法及装置 | |
CN108597493B (zh) | 语言语义的音频交换方法和音频交换*** | |
CN110428841A (zh) | 一种基于不定长均值的声纹动态特征提取方法 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN109637524A (zh) | 一种人工智能交互方法及人工智能交互装置 | |
CN108255798A (zh) | 一种拉泰赫格式公式的输入方法及其装置 | |
US20230005466A1 (en) | Speech synthesis method, and electronic device | |
CN116110370A (zh) | 基于人机语音交互的语音合成***及相关设备 | |
CN114663920A (zh) | 手势识别的方法、装置、服务器和计算机可读存储介质 | |
CN109979435A (zh) | 数据处理方法和装置、用于数据处理的装置 | |
Jadhav et al. | Speech to ISL (Indian sign language) translator | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN114121010A (zh) | 模型训练、语音生成、语音交互方法、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |
|
RJ01 | Rejection of invention patent application after publication |