CN109637524A

CN109637524A - 一种人工智能交互方法及人工智能交互装置

Info

Publication number: CN109637524A
Application number: CN201910049253.0A
Authority: CN
Inventors: 张敬斋; 栗秀娟
Original assignee: Xuzhou College of Industrial Technology
Current assignee: Xuzhou College of Industrial Technology
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-04-16

Abstract

本发明公开了一种人工智能交互方法及人工智能交互装置，涉及人工智能技术领域，该人工智能交互方法包括接收语音信号：将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}，并将语音数据{S(n),1≤n≤N}存储至存储模块；将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}；显示所述U个单词序列{Arry(q},1≤q≤U}。通过本发明的方法可将语音识别为文字，为交互提供了趣味性，从而能够增加交互装置的用户粘性。

Description

一种人工智能交互方法及人工智能交互装置

技术领域

本发明涉及人工智能技术领域，更具体的涉及一种人工智能交互方法及人工智能交互装置。

背景技术

现有技术中，人工智能基本局限于聊天机器人的范畴，是指计算机软件来模拟具有一定语言功能的程序单元，实现与人进行简单的交流。

目前现存的聊天机器人都受限于人工智能领域的研究和实现尚不成熟，本身尚未具有智能功能，只能接收用户的文本输入，同样给出简单的文本回复，无法接收用户的语音输入，并将所述语音输入转换为文本输出。

发明内容

本发明实施例提供一种人工智能交互方法及人工智能交互装置，用以解决现有技术中无法接收用户的语音输入，并将所述语音输入转换为文本输出的问题。

本发明实施例提供一种人工智能交互方法，包括：

接收语音信号：

将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}，并将语音数据{S(n),1≤n≤N}存储至存储模块；

将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}；

显示所述U个单词序列{Arry(q},1≤q≤U}。

较佳地，所述语音识别算法包括：

将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SF_m(i),1≤i≤N_f}，且每一个短帧的长度均为N_f；其中，m＝1，···M；SF_m(i)＝S(i+m*N_sf),1≤i≤N_f；式中N_sf为滑动窗长，且N_f≥N_sf；

分别将M个音频短帧{SF_m(i)＝S(i+m*N_sf)1≤i≤N_f}一一采用特征提取算法提出特征向量；其中，M个特征向量组成特征向量组

将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}。

较佳地，所述特征提取算法包括：

对M个所述音频短帧{SF_m(i),1≤i≤N_f}依次做加窗处理，加窗后形成其中，加窗操作为1≤i≤N_f，且

对所述做DFT变换形成

采用功率谱公式求解出所述的功率谱其中

采用N_T个特征滤波器{H_j(k),1≤k≤N_f；j＝1,···N_T}对功率谱一一对应进行提取N_T个特征参数p_mj,j＝1,···N_T；

对特征参数p_mj进行对数操作，获得对数特征参数C_mj＝log(p_mj)，j＝1,···N_T；

对所述C_mj＝log(p_mj)做间隔为L的差分操作，得到N_T-L个差分序列其中，所述的d_ms为采用特征提取算法提出得到的特征向量

较佳地，所述p_mj,j＝1,···N_T的提取操作为采用提取公式其中，j＝1,···N_T。

较佳地，所述将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}时，采用的转换算法包括：|

学习模型采用ADALINE学习算法，假设每一个特征向量对应的所有可能的状态集合为{S₁,S₂…S_R}，其中，R为元素个数；

依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列

将所述状态序列连续每3个一组译为第一音素序列{B₁,B₂…B_G}；

将所述第一音素序列{B₁,B₂…B_G}中重复的音素消除；

将消除重复的第一音素序列确定为第二音素序列{D₁,D₂…D_V}；

调用音素映射到单词的查找表，采用音素映射到单词的查找表将所述第二音素序列{D₁,D₂…D_V}映射为单词序列{{Arry(q},1≤q≤U}}。

本发明实施例提供一种人工智能交互装置，所述装置包括：音频采集模块、存储模块、数字处理模块以及显示模块；

所述音频采集模块，用于接收语音信号：将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}，并将语音数据{S(n),1≤n≤N}存储至存储模块；

所述存储模块，用于存储语音数据{S(n),1≤n≤N}，并存储音素映射到单词的查找表；

所述数字处理模块，用于将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}；

所述显示模块，用于显示所述U个单词序列{Arry(q},1≤q≤U}。

较佳地，所述数字处理模块还用于：

对所述做DFT变换形成

采用功率谱公式求解出所述的功率谱其中

较佳地，所述数字处理模块还用于：|

将所述第一音素序列{B₁,B₂…B_G}中重复的音素消除；

本发明实施例中，通过接收语音信号，将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}；将该语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}，从而保证将用户的语音数据转化为对应的文本数据进行输出，保证了交互的方式更加多样，而且增加了交互的趣味性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人工智能交互方法的流程示意图；

图2为本发明实施例提供的一种人工智能交互方法的装置的框图。

具体实施方式

下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

图1示例性的示出了本发明实施例提供的一种人工智能交互方法及人工智能交互装置的流程示意图，该人工智能交互方法包括：

S1、接收语音数据。

S2、音频采集模块将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}，并将语音数据{S(n),1≤n≤N}存储至存储模块。

S3、将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}；

S4、显示所述U个单词序列{Arry(q},1≤q≤U}。

其中，该语音识别算法为：

S31、将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SF_m(i),1≤i≤N_f}，且每一个短帧的长度均为N_f。

其中，m＝1，···M；SF_m(i)＝S(i+m*N_sf),1≤i≤N_f；式中N_sf为滑动窗长，且N_f≥N_sf。

S32、分别将M个音频短帧{SF_m(i)＝S(i+m*N_sf)1≤i≤N_f}一一采用特征提取算法提出特征向量；其中M个特征向量组成特征向量组

S33、将所述特征向量组采用转换算法转换为相应的单词序列。

需要说明的是，所述特征提取算法包括：

S32-1、对M个所述音频短帧{SF_m(i),1≤i≤N_f}依次做加窗处理，加窗后形成其中，加窗操作为1≤i≤N_f，且

需要说明的是，加窗的目的是为了用于平滑信号，减少DFT以后的旁瓣大小以及频谱泄露。

S32-2、对做DFT变换形成

S32-3、采用功率谱公式求解出所述的功率谱，其中

S32-4、采用N_T个特征滤波器{H_j(k),1≤k≤N_f；j＝1,···N_T}对功率谱一一对应进行提取N_T个特征参数p_mj,j＝1,···N_T。

其中，p_mj,j＝1,···N_T的提取操作为采用提取公式其中，j＝1,···N_T。

S32-5、对特征参数p_mj进行对数操作，获得对数特征参数C_mj＝log(p_mj)，j＝1,···N_T。

S32-6、对所述C_mj＝log(p_mj)做间隔为L的差分操作，得到N_T-L个差分序列

其中，所述的d_ms为采用特征提取算法提出得到的特征向量

步骤S33中，将所述特征向量组采用转换算法转换为相应的单词序列时，采用的转换算法包括：|

S33-1、学习模型采用ADALINE学习算法，假设每一个特征向量对应的所有可能的状态集合为{S₁,S₂…S_R}，其中，R为元素个数，存储模块中预先存储大量的特征向量训练数据，并对所述学习模型做过充分的训练。

S33-2、依次将每一个所述特征向量经学习模型进行训练输出每一个向量对应的状态序列

S33-3、将所述状态序列连续每3个一组译为第一音素序列{B₁,B₂…B_G}。

其中，单词的发音由音素构成。汉语直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调。状态是比音素更细致的语音单位，通常一个音素划分为3个状态。音素和状态的关系参见图2，图2中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词，只要知道每帧语音对应哪个状态，语音识别的结果就出来了。

S33-4、将所述第一音素序列{B₁,B₂…B_G}中重复的音素消除，且所述第一音素序列变为第二音素序列{D₁,D₂…D_V}。

S33-5、调用音素映射到单词的查找表，采用音素映射到单词的查找表将所述第二音素序列映射为单词序列{{Arry(q},1≤q≤U}}。

其中，查找表是预先建立的。

本发明实施例中，接收语音信号，将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}；将该语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}，从而保证将用户的语音数据转化为对应的文本数据进行输出，保证了交互的方式更加多样，而且增加了交互的趣味性。

本发明通过以上方法可将语音识别为文字输出，为交互提供了一种新的方式，当一些用户不便于用文字输入时，可通过输入语音，方便聊天机器人及时对用户做出反馈，不仅可保证聊天机器人的互动比较顺畅，且能增加聊天机器人的趣味性，从而能增加聊天机器人的用户粘性。

本发明实施例提供一种人工智能交互装置，如图2所示，该人工智能交互装置包括：音频采集模块1、存储模块2、数字处理模块3以及显示模块4。

所述音频采集模块1，用于接收语音信号：将长度为T的语音信号{S(t),0≤t≤T}按采样间隔等间隔采样形成语音数据{S(n),1≤n≤N}，并将语音数据{S(n),1≤n≤N}存储至存储模块。

所述存储模块2，用于存储语音数据{S(n),1≤n≤N}，并存储音素映射到单词的查找表。

所述数字处理模块3，用于将所述语音数据{S(n),1≤n≤N}按语音识别算法识别为U个单词序列{Arry(q},1≤q≤U}。

所述显示模块4，用于显示所述U个单词序列{Arry(q},1≤q≤U}。

较佳地，所述数字处理模块3还用于：

将所述语音数据{S(n),1≤n≤N}分为M个音频短帧{SF_m(i),1≤i≤N_f}，且每一个短帧的长度均为N_f。其中，m＝1，···M。SF_m(i)＝S(i+m*N_sf),1≤i≤N_f。式中N_sf为滑动窗长，且N_f≥N_sf。

分别将M个音频短帧{SF_m(i)＝S(i+m*N_sf)1≤i≤N_f}一一采用特征提取算法提出特征向量。其中，M个特征向量组成特征向量组

较佳地，所述数字处理模块3还用于：

对所述做DFT变换形成

采用功率谱公式求解出所述的功率谱其中

采用N_T个特征滤波器{H_j(k),1≤k≤N_f；j＝1,···N_T}对功率谱一一对应进行提取N_T个特征参数p_mj,j＝1,···N_T。

对特征参数p_mj进行对数操作，获得对数特征参数C_mj＝log(p_mj)，j＝1,···N_T。

对所述C_mj＝log(p_mj)做间隔为L的差分操作，得到N_T-L个差分序列s＝1,…N_T-L。其中，所述的d_ms为采用特征提取算法提出得到的特征向量

较佳地，所述数字处理模块3还用于：|

学习模型采用ADALINE学习算法，假设每一个特征向量对应的所有可能的状态集合为{S₁,S₂…S_R}，其中，R为元素个数。

将所述状态序列连续每3个一组译为第一音素序列{B₁,B₂…B_G}。

将所述第一音素序列{B₁,B₂…B_G}中重复的音素消除。

将消除重复的第一音素序列确定为第二音素序列{D₁,D₂…D_V}。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种人工智能交互方法，其特征在于，包括：

接收语音信号：

显示所述U个单词序列{Arry(q},1≤q≤U}。

2.根据权利要求1所述的人工智能交互方法，其特征在于，所述语音识别算法包括：

3.根据权利要求2所述的人工智能交互方法，其特征在于，所述特征提取算法包括：

对所述做DFT变换形成

采用功率谱公式求解出所述的功率谱其中

对所述C_mj＝log(p_mj)做间隔为L的差分操作，得到N_T-L个差分序列s＝1,…N_T-L；其中，所述的d_ms为采用特征提取算法提出得到的特征向量

4.根据权利要求3所述的人工智能交互方法，其特征在于，所述p_mj,j＝1,···N_T的提取操作为采用提取公式其中，j＝1,···N_T。

5.根据权利要求2所述的人工智能交互方法，其特征在于，所述将所述特征向量组采用转换算法转换为U个单词序列{Arry(q},1≤q≤U}时，采用的转换算法包括：

将所述第一音素序列{B₁,B₂…B_G}中重复的音素消除；

6.一种人工智能交互装置，其特征在于，所述人工智能交互装置包括：音频采集模块、存储模块、数字处理模块以及显示模块；

所述显示模块，用于显示所述U个单词序列{Arry(q},1≤q≤U}。

7.根据权利要求6所述的人工智能交互装置，其特征在于，所述数字处理模块还用于：

8.根据权利要求7所述的人工智能交互装置，其特征在于，所述数字处理模块还用于：

对所述做DFT变换形成

采用功率谱公式求解出所述的功率谱其中

9.根据权利要求7所述的人工智能交互装置，其特征在于，所述数字处理模块还用于：|

将所述第一音素序列{B₁,B₂…B_G}中重复的音素消除；