CN107919126A - 一种智能语音交互*** - Google Patents

一种智能语音交互*** Download PDF

Info

Publication number
CN107919126A
CN107919126A CN201711194068.8A CN201711194068A CN107919126A CN 107919126 A CN107919126 A CN 107919126A CN 201711194068 A CN201711194068 A CN 201711194068A CN 107919126 A CN107919126 A CN 107919126A
Authority
CN
China
Prior art keywords
module
sound
model
interactive system
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711194068.8A
Other languages
English (en)
Inventor
钱波
张震
姚庆锋
鲁群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spark Intelligence Science And Technology Ltd Is Won In Hefei
Original Assignee
Spark Intelligence Science And Technology Ltd Is Won In Hefei
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spark Intelligence Science And Technology Ltd Is Won In Hefei filed Critical Spark Intelligence Science And Technology Ltd Is Won In Hefei
Priority to CN201711194068.8A priority Critical patent/CN107919126A/zh
Publication of CN107919126A publication Critical patent/CN107919126A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种智能语音交互***。涉及语音交互技术领域。包括声音采集模块、PFGA预处理模块、智能交互中心;PFGA预处理模块包括端点检测单元;端点检测单元分别与声音预处理单元、特征提取单元电性连接;智能交互中心包括控制单元;控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接;声学模型库包括HMM模型数据库和ANN模型数据库;语言模型库包括N‑Gram模型数据库和Rule‑based模型数据库。本发明利用反馈模块对识别信息的反馈,并通过控制单元向客户展示识别信息,同时控制改变声音匹配模型和语言模型库,提高交互***的交互识别正确率。

Description

一种智能语音交互***
技术领域
本发明属于语音交互技术领域,特别是涉及一种智能语音交互***。
背景技术
随着人工智能走进日常生活中,人们对于语音交互的认识也越来越深,同时对人工智能中语音交互***的要求也越来越高。
语音交互***目前存在的问题有当客户跟***交互出现答非所问或者有明显的不能识别或者不理解客户的语音信息的时候,往往顾客无计可施,大大降低了人机交互的性能。
发明内容
本发明的目的在于提供一种智能语音交互***,通过识别控制单元向客户展示识别信息,同时控制改变声音匹配模型和语言模型,实现了语音交互的自适应,解决了语音交互时语音识别错误无法处理的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种智能语音交互***,包括声音采集模块、PFGA预处理模块、智能交互中心;所述PFGA预处理模块包括端点检测单元;所述端点检测单元分别与声音预处理单元、特征提取单元电性连接;所述声音预处理单元与声音采集模块电性连接;所述智能交互中心包括控制单元;所述控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接;所述存储单元分别与语音识别模块、语义理解模块、交互处理模块电性连接;语音合成模块分别与语义理解模块、交互处理模块电性连接;所述存储单元内设有语言模型库、声音模型库、语义词典数据库、应答信息库;所述声学模型库包括HMM模型数据库和ANN模型数据库;所述语言模型库包括N-Gram模型数据库和Rule-based模型数据库。
优选地,所述声音采集模块为麦克风;所述麦克风采集声音信号;所述声音预处理单元对声音信号做防混叠滤波器处理、A/D转换器转和分帧加窗处理。
优选地,所述端点检测模块为基于频带方差的端点检测模块。
优选地,所述控制单元包括ARM单片机;所述控制单元上集成了声音模型选择电路;所述控制单元上集成了语言模型库选择电路。
优选地,所述应答信息库内存储情景对话的应答映射;所述语义词典数据库内存储语句语义映射。
优选地,所述特征提取单元内采用MFCC参数特征提取。
优选地,所述反馈模块内设有存储器;所述存储器存储交互处理模块传递过来的文本信息、语音合成模块传递过来的语音信息和反馈指令。
优选地,所述语音识别模块进行语音识别时,获取语言模型库内的语言模型、声音模型库内的声音模型;所述语音理解模块进行语义理解时,获取语义词典数据库的语义映射;所述交互处理模块进行交互处理时,获取应答信息库内的应答映射。
本发明具有以下有益效果:
1、本发明利用反馈模块对识别信息的反馈,并通过控制单元向客户展示识别信息,同时控制改变声音匹配模型和语言模型库,提高交互***的交互识别正确率。
2、本发明在声音预处理模块采用PFGA模块,解放了智能交互中心的并行处理负载,提高了语音交互效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种智能语音交互***,包括声音采集模块、PFGA预处理模块、智能交互中心;PFGA预处理模块包括端点检测单元;端点检测单元分别与声音预处理单元、特征提取单元电性连接;声音预处理单元与声音采集模块电性连接;智能交互中心包括控制单元;控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接;存储单元分别与语音识别模块、语义理解模块、交互处理模块电性连接;语音合成模块分别与语义理解模块、交互处理模块电性连接;存储单元内设有语言模型库、声音模型库、语义词典数据库、应答信息库;声学模型库包括HMM模型数据库和ANN模型数据库;语言模型库包括N-Gram模型数据库和Rule-based模型数据库。
其中,声音采集模块为麦克风;麦克风采集声音信号;声音预处理单元对声音信号做防混叠滤波器处理、A/D转换器转和分帧加窗处理。
其中,端点检测模块为基于频带方差的端点检测模块。
其中,控制单元包括ARM单片机;控制单元上集成了声音模型选择电路;控制单元上集成了语言模型库选择电路。
其中,应答信息库内存储情景对话的应答映射;语义词典数据库内存储语句语义映射。
其中,特征提取单元内采用MFCC参数特征提取。
其中,反馈模块内设有存储器;存储器存储交互处理模块传递过来的文本信息、语音合成模块传递过来的语音信息和反馈指令。
其中,语音识别模块进行语音识别时,获取语言模型库内的语言模型、声音模型库内的声音模型;语音理解模块进行语义理解时,获取语义词典数据库的语义映射;交互处理模块进行交互处理时,获取应答信息库内的应答映射。
值得注意的是,上述***实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种智能语音交互***,其特征在于,包括声音采集模块、PFGA预处理模块、智能交互中心;
所述PFGA预处理模块包括端点检测单元;所述端点检测单元分别与声音预处理单元、特征提取单元电性连接;所述声音预处理单元与声音采集模块电性连接;
所述智能交互中心包括控制单元;所述控制单元分别与存储单元、语音识别模块、语义理解模块、交互处理模块、语音合成模块、反馈模块、扬声器电性连接;所述存储单元分别与语音识别模块、语义理解模块、交互处理模块电性连接;语音合成模块分别与语义理解模块、交互处理模块电性连接;所述存储单元内设有语言模型库、声音模型库、语义词典数据库、应答信息库;
所述声学模型库包括HMM模型数据库和ANN模型数据库;所述语言模型库包括N-Gram模型数据库和Rule-based模型数据库。
2.根据权利要求1所述的一种智能语音交互***,其特征在于,所述声音采集模块为麦克风;所述麦克风采集声音信号;所述声音预处理单元对声音信号做防混叠滤波器处理、A/D转换器转和分帧加窗处理。
3.根据权利要求1所述的一种智能语音交互***,其特征在于,所述端点检测模块为基于频带方差的端点检测模块。
4.根据权利要求1所述的一种智能语音交互***,其特征在于,所述控制单元包括ARM单片机;所述控制单元上集成了声音模型选择电路;所述控制单元上集成了语言模型库选择电路。
5.根据权利要求1所述的一种智能语音交互***,其特征在于,所述应答信息库内存储情景对话的应答映射;所述语义词典数据库内存储语句语义映射。
6.根据权利要求1所述的一种智能语音交互***,其特征在于,所述特征提取单元内采用MFCC参数特征提取。
7.根据权利要求1所述的一种智能语音交互***,其特征在于,所述反馈模块内设有存储器;所述存储器存储交互处理模块传递过来的文本信息、语音合成模块传递过来的语音信息和反馈指令。
8.根据权利要求1所述的一种智能语音交互***,其特征在于,所述语音识别模块进行语音识别时,获取语言模型库内的语言模型、声音模型库内的声音模型;所述语音理解模块进行语义理解时,获取语义词典数据库的语义映射;所述交互处理模块进行交互处理时,获取应答信息库内的应答映射。
CN201711194068.8A 2017-11-24 2017-11-24 一种智能语音交互*** Pending CN107919126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711194068.8A CN107919126A (zh) 2017-11-24 2017-11-24 一种智能语音交互***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711194068.8A CN107919126A (zh) 2017-11-24 2017-11-24 一种智能语音交互***

Publications (1)

Publication Number Publication Date
CN107919126A true CN107919126A (zh) 2018-04-17

Family

ID=61896908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711194068.8A Pending CN107919126A (zh) 2017-11-24 2017-11-24 一种智能语音交互***

Country Status (1)

Country Link
CN (1) CN107919126A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109018778A (zh) * 2018-08-31 2018-12-18 深圳市研本品牌设计有限公司 基于语音识别的垃圾投放方法及***
CN109147768A (zh) * 2018-09-13 2019-01-04 云南电网有限责任公司 一种基于深度学习的语音识别方法及***
CN109388792A (zh) * 2018-09-30 2019-02-26 珠海格力电器股份有限公司 文本处理方法、装置、设备、计算机设备和存储介质
CN109616095A (zh) * 2018-12-12 2019-04-12 安徽讯呼信息科技有限公司 一种ai智能语音***
CN110459203A (zh) * 2018-05-03 2019-11-15 百度在线网络技术(北京)有限公司 一种智能语音导游方法、装置、设备及存储介质
CN111326141A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 一种处理获取人声数据的方法
CN112397067A (zh) * 2020-11-13 2021-02-23 重庆长安工业(集团)有限责任公司 一种武器装备的语音操控终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091429A1 (en) * 2006-10-12 2008-04-17 International Business Machines Corporation Enhancement to viterbi speech processing algorithm for hybrid speech models that conserves memory
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的***及其方法
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091429A1 (en) * 2006-10-12 2008-04-17 International Business Machines Corporation Enhancement to viterbi speech processing algorithm for hybrid speech models that conserves memory
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的***及其方法
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459203A (zh) * 2018-05-03 2019-11-15 百度在线网络技术(北京)有限公司 一种智能语音导游方法、装置、设备及存储介质
CN109018778A (zh) * 2018-08-31 2018-12-18 深圳市研本品牌设计有限公司 基于语音识别的垃圾投放方法及***
CN109147768A (zh) * 2018-09-13 2019-01-04 云南电网有限责任公司 一种基于深度学习的语音识别方法及***
CN109388792A (zh) * 2018-09-30 2019-02-26 珠海格力电器股份有限公司 文本处理方法、装置、设备、计算机设备和存储介质
CN109616095A (zh) * 2018-12-12 2019-04-12 安徽讯呼信息科技有限公司 一种ai智能语音***
CN111326141A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 一种处理获取人声数据的方法
CN112397067A (zh) * 2020-11-13 2021-02-23 重庆长安工业(集团)有限责任公司 一种武器装备的语音操控终端

Similar Documents

Publication Publication Date Title
CN107919126A (zh) 一种智能语音交互***
CN107767863B (zh) 语音唤醒方法、***及智能终端
CN105590626B (zh) 持续语音人机交互方法和***
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
CA2151371A1 (en) Recursive finite state grammar
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
CN105469789A (zh) 一种语音信息的处理方法及终端
CN107146611A (zh) 一种语音响应方法、装置及智能设备
CN107767861A (zh) 语音唤醒方法、***及智能终端
CN101847405A (zh) 语音识别装置和方法、语言模型产生装置和方法及程序
CN108039175B (zh) 语音识别方法、装置及服务器
CN110211589B (zh) 车载***的唤醒方法、装置以及车辆、机器可读介质
CN110444210A (zh) 一种语音识别的方法、唤醒词检测的方法及装置
CN110047481A (zh) 用于语音识别的方法和装置
US20200265843A1 (en) Speech broadcast method, device and terminal
WO2023222089A1 (zh) 基于深度学习的物品分类方法和装置
CN111081254B (zh) 一种语音识别方法和装置
CN111930912A (zh) 对话管理方法及***、设备和存储介质
CN109935230A (zh) 一种基于语音驱动的测发口令监测***和方法
CN111128175B (zh) 口语对话管理方法及***
CN109065076B (zh) 音频标签的设置方法、装置、设备和存储介质
CN113593565A (zh) 一种智能家庭设备管控方法和***
CN108231074A (zh) 一种数据处理方法、语音助手设备及计算机可读存储介质
WO2023222090A1 (zh) 基于深度学习的信息推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180417

RJ01 Rejection of invention patent application after publication