CN107919126A

CN107919126A - 一种智能语音交互***

Info

Publication number: CN107919126A
Application number: CN201711194068.8A
Authority: CN
Inventors: 钱波; 张震; 姚庆锋; 鲁群
Original assignee: Spark Intelligence Science And Technology Ltd Is Won In Hefei
Current assignee: Spark Intelligence Science And Technology Ltd Is Won In Hefei
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-17

Abstract

本发明公开了一种智能语音交互***。涉及语音交互技术领域。包括声音采集模块、PFGA预处理模块、智能交互中心；PFGA预处理模块包括端点检测单元；端点检测单元分别与声音预处理单元、特征提取单元电性连接；智能交互中心包括控制单元；控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接；声学模型库包括HMM模型数据库和ANN模型数据库；语言模型库包括N‑Gram模型数据库和Rule‑based模型数据库。本发明利用反馈模块对识别信息的反馈，并通过控制单元向客户展示识别信息，同时控制改变声音匹配模型和语言模型库，提高交互***的交互识别正确率。

Description

一种智能语音交互***

技术领域

本发明属于语音交互技术领域，特别是涉及一种智能语音交互***。

背景技术

随着人工智能走进日常生活中，人们对于语音交互的认识也越来越深，同时对人工智能中语音交互***的要求也越来越高。

语音交互***目前存在的问题有当客户跟***交互出现答非所问或者有明显的不能识别或者不理解客户的语音信息的时候，往往顾客无计可施，大大降低了人机交互的性能。

发明内容

本发明的目的在于提供一种智能语音交互***，通过识别控制单元向客户展示识别信息，同时控制改变声音匹配模型和语言模型，实现了语音交互的自适应，解决了语音交互时语音识别错误无法处理的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种智能语音交互***，包括声音采集模块、PFGA预处理模块、智能交互中心；所述PFGA预处理模块包括端点检测单元；所述端点检测单元分别与声音预处理单元、特征提取单元电性连接；所述声音预处理单元与声音采集模块电性连接；所述智能交互中心包括控制单元；所述控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接；所述存储单元分别与语音识别模块、语义理解模块、交互处理模块电性连接；语音合成模块分别与语义理解模块、交互处理模块电性连接；所述存储单元内设有语言模型库、声音模型库、语义词典数据库、应答信息库；所述声学模型库包括HMM模型数据库和ANN模型数据库；所述语言模型库包括N-Gram模型数据库和Rule-based模型数据库。

优选地，所述声音采集模块为麦克风；所述麦克风采集声音信号；所述声音预处理单元对声音信号做防混叠滤波器处理、A/D转换器转和分帧加窗处理。

优选地，所述端点检测模块为基于频带方差的端点检测模块。

优选地，所述控制单元包括ARM单片机；所述控制单元上集成了声音模型选择电路；所述控制单元上集成了语言模型库选择电路。

优选地，所述应答信息库内存储情景对话的应答映射；所述语义词典数据库内存储语句语义映射。

优选地，所述特征提取单元内采用MFCC参数特征提取。

优选地，所述反馈模块内设有存储器；所述存储器存储交互处理模块传递过来的文本信息、语音合成模块传递过来的语音信息和反馈指令。

优选地，所述语音识别模块进行语音识别时，获取语言模型库内的语言模型、声音模型库内的声音模型；所述语音理解模块进行语义理解时，获取语义词典数据库的语义映射；所述交互处理模块进行交互处理时，获取应答信息库内的应答映射。

本发明具有以下有益效果：

1、本发明利用反馈模块对识别信息的反馈，并通过控制单元向客户展示识别信息，同时控制改变声音匹配模型和语言模型库，提高交互***的交互识别正确率。

2、本发明在声音预处理模块采用PFGA模块，解放了智能交互中心的并行处理负载，提高了语音交互效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种智能语音交互***，包括声音采集模块、PFGA预处理模块、智能交互中心；PFGA预处理模块包括端点检测单元；端点检测单元分别与声音预处理单元、特征提取单元电性连接；声音预处理单元与声音采集模块电性连接；智能交互中心包括控制单元；控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接；存储单元分别与语音识别模块、语义理解模块、交互处理模块电性连接；语音合成模块分别与语义理解模块、交互处理模块电性连接；存储单元内设有语言模型库、声音模型库、语义词典数据库、应答信息库；声学模型库包括HMM模型数据库和ANN模型数据库；语言模型库包括N-Gram模型数据库和Rule-based模型数据库。

其中，声音采集模块为麦克风；麦克风采集声音信号；声音预处理单元对声音信号做防混叠滤波器处理、A/D转换器转和分帧加窗处理。

其中，端点检测模块为基于频带方差的端点检测模块。

其中，控制单元包括ARM单片机；控制单元上集成了声音模型选择电路；控制单元上集成了语言模型库选择电路。

其中，应答信息库内存储情景对话的应答映射；语义词典数据库内存储语句语义映射。

其中，特征提取单元内采用MFCC参数特征提取。

其中，反馈模块内设有存储器；存储器存储交互处理模块传递过来的文本信息、语音合成模块传递过来的语音信息和反馈指令。

其中，语音识别模块进行语音识别时，获取语言模型库内的语言模型、声音模型库内的声音模型；语音理解模块进行语义理解时，获取语义词典数据库的语义映射；交互处理模块进行交互处理时，获取应答信息库内的应答映射。

值得注意的是，上述***实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种智能语音交互***，其特征在于，包括声音采集模块、PFGA预处理模块、智能交互中心；

所述PFGA预处理模块包括端点检测单元；所述端点检测单元分别与声音预处理单元、特征提取单元电性连接；所述声音预处理单元与声音采集模块电性连接；

所述智能交互中心包括控制单元；所述控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接；所述存储单元分别与语音识别模块、语义理解模块、交互处理模块电性连接；语音合成模块分别与语义理解模块、交互处理模块电性连接；所述存储单元内设有语言模型库、声音模型库、语义词典数据库、应答信息库；

所述声学模型库包括HMM模型数据库和ANN模型数据库；所述语言模型库包括N-Gram模型数据库和Rule-based模型数据库。

2.根据权利要求1所述的一种智能语音交互***，其特征在于，所述声音采集模块为麦克风；所述麦克风采集声音信号；所述声音预处理单元对声音信号做防混叠滤波器处理、A/D转换器转和分帧加窗处理。

3.根据权利要求1所述的一种智能语音交互***，其特征在于，所述端点检测模块为基于频带方差的端点检测模块。

4.根据权利要求1所述的一种智能语音交互***，其特征在于，所述控制单元包括ARM单片机；所述控制单元上集成了声音模型选择电路；所述控制单元上集成了语言模型库选择电路。

5.根据权利要求1所述的一种智能语音交互***，其特征在于，所述应答信息库内存储情景对话的应答映射；所述语义词典数据库内存储语句语义映射。

6.根据权利要求1所述的一种智能语音交互***，其特征在于，所述特征提取单元内采用MFCC参数特征提取。

7.根据权利要求1所述的一种智能语音交互***，其特征在于，所述反馈模块内设有存储器；所述存储器存储交互处理模块传递过来的文本信息、语音合成模块传递过来的语音信息和反馈指令。

8.根据权利要求1所述的一种智能语音交互***，其特征在于，所述语音识别模块进行语音识别时，获取语言模型库内的语言模型、声音模型库内的声音模型；所述语音理解模块进行语义理解时，获取语义词典数据库的语义映射；所述交互处理模块进行交互处理时，获取应答信息库内的应答映射。