CN116189681A - 一种智能语音交互***及方法 - Google Patents
一种智能语音交互***及方法 Download PDFInfo
- Publication number
- CN116189681A CN116189681A CN202310486481.0A CN202310486481A CN116189681A CN 116189681 A CN116189681 A CN 116189681A CN 202310486481 A CN202310486481 A CN 202310486481A CN 116189681 A CN116189681 A CN 116189681A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- user
- digital sound
- question
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000007405 data analysis Methods 0.000 claims abstract description 28
- 230000005236 sound signal Effects 0.000 claims description 207
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000009795 derivation Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种智能语音交互***及方法,涉及语音交互领域,包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心,本发明通过将采集的模拟声音信号模数转换为数字声音信号,提取数字声音信号特征获得特征参数,对特征参数进行标记及计算得到第一判定参数,设定标准判定参数,对第一判定参数和标准判定参数分别一阶求导,计算二者差值绝对值,将结果与设定的差值阈值比较判断是否符合控制标准以实现噪音过滤,再对符合控制标准的数字声音信号进行音色匹配,以识别不同用户,解析用户自然语言并结合用户以往问答记录相关性消除信息差异,本发明可有效识别有效发声并对发声用户辨识并访问历史记录,优化人机交互体验。
Description
技术领域
本发明涉及智能语音控制技术领域,具体的是一种智能语音交互***及方法。
背景技术
语音是人类最常用的交流方式,也是人类和计算机交流最渴望的方式。因此用语音同计算机交流也成为了最近研究的热点,随着科技的发展,智能语音***被越来越多的应用到各行各业,目前用于展览的智能语音导览,是通过对室内展览物件进行语音播报讲解,以便于参观者对展览物品进行深入了解的装置,其在语音导览的领域中得到了广泛的使用。
智能语音导览具备人机交互功能,能够在一定范围内收录人声,分析语音语义,并进行交流;但目前常见的智能语音导览不具备复杂环境下的语音准确识别能力,容易受到外界干扰导致分不清人声与干扰音,尤其涉及展览领域的智能语音导览,因其工作环境声音嘈杂且多样,极易受到干扰导致影响其语音交互功能。
此外,在展览特殊场景下,智能语音导览也很难做到根据不同用户的语音特征识别不同用户,无法提供用户个性化交流服务,从而导致展览场景下用户的交互体验不佳。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种智能语音交互***及方法。
本发明的目的可以通过以下技术方案实现:第一方面,本发明提供了一种智能语音交互***,包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心;所述数据中心包含音色数据库、噪音数据库、通用问答库及用户问答库;所述数据采集模块:采集模拟声音信号,并且将采集到的所述模拟声音信号发送至所述数据处理模块进行数据处理;所述数据处理模块:利用模数转换将所述模拟声音信号转换为数字声音信号,将转换后的数字声音信号进行特征提取,得到数字声音信号的特征参数,其中,所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色,对所述数字声音信号的特征参数进行标记,并发送至所述数据分析模块进行分析;所述数据分析模块:利用所述数字声音信号的特征参数中数字声音信号的分贝、速度和音调进行计算得到第一判定参数,并设定标准判定参数,对所述第一判定参数和所述标准判定参数进行一阶求导,求一阶求导后的所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差,得到判定差值;将所述判定差值与预设的差值阈值进行比较,若所述判定差值大于或等于所述差值阈值,判断采集声音的数字声音信号不符合控制标准,所述噪音数据库收录所述数字声音信号;若所述判定差值小于所述差值阈值,判断采集声音的数字声音信号符合控制标准,所述控制中心过滤所述噪音数据库收录的数字声音信号,并分析过滤后的所述数字声音信号的音色;将所述数字声音信号的音色与所述音色数据库中存储的用户音色参数集内的用户音色进行匹配:若匹配成功,根据所述数字声音信号解析用户NLP自然语言,所述控制中心遍历所述用户问答库的历史问答记录,根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据所述最终语言处理结果生成解答内容进行交互,所述执行模块执行交互指令;若匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问所述通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
优选地,所述数据处理模块进行数据处理的过程包括以下步骤:利用模数转换将所述模拟声音信号转换为数字声音信号,将转换后的所述数字声音信号进行特征提取,得出所述数字声音信号的特征参数,其中,所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色,对所述数字声音信号的特征参数进行标记,将所述数字声音信号的分贝标记为Fby,将所述数字声音信号的速度标记为Sdy,将所述数字声音信号的音调标记为Gdy,将所述数字声音信号的音色标记为Ysy,其中,y为采集次数标号,且y=1、2、3、...、n,n为采集次数总数;将所述数字声音信号的分贝Fby、所述数字声音信号的速度Sdy、所述数字声音信号的音调Gdy和所述数字声音信号的音色Ysy发送至所述数据分析模块进行数据分析。
优选地,所述数据分析模块进行数据分析的过程包括以下步骤:利用公式计算得出第一判定参数Pdy,式中,Fb0为标准声音分贝参数,Sd0为标准声音速度参数,Gd0为标准声音音调参数,α为声音分贝影响参数,β为声音速度影响参数,γ为声音音调影响参数,/>为预设比例系数;利用计算得出的第一判定参数Pdy获取判定参数的一阶导数Pdy1,并设定标准判定参数Pdb,并对所述标准判定参数Pdb进行一阶求导,得出所述标准判定参数的一阶导数Pdb1;计算所述第一判定参数的一阶导数Pdy1和所述标准判定参数的一阶导数Pdb1的绝对值之差,公式为:,得出差值Cz,并且与预设的所述差值阈值Cz0进行比较,若Cz≥Cz0,则说明采集声音的数字声音信号不符合控制标准,所述噪音数据库收录所述数字声音信号;若Cz<Cz0,则说明采集的声音符合控制标准,所述控制中心过滤所述噪音数据库收录的数字声音信号,并分析过滤后的所述数字声音信号的音色;通过所述数据分析模块内的数据采集单元获取所述音色数据库中存储的用户音色参数集Ysbp,并将所述数字声音信号的音色Ysy与所述用户音色参数集Ysbp内的用户音色参数进行参数匹配,若所述数字声音信号的音色Ysy匹配成功,根据所述数字声音信号解析用户NLP自然语言,所述控制中心遍历所述用户问答库的历史问答记录,根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据所述最终语言处理结果生成解答内容进行交互,所述执行模块执行交互指令;若数字声音信号的音色Ysy匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问所述通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
优选地,所述用户音色参数集Ysbp={Ysb1、Ysb2、Ysb3、...、Ysbt},其中p为用户标号,t为用户人数总数。
优选地,所述用户音色参数集Ysbp的获取过程如下:通过所述控制中心内的数据采集终端来对用户的声音信息进行录入,其中,用户的声音信息包括声音分贝、声音速度、声音音调;将声音信息与音色映射模型相结合,获取并存储用户音色参数后,将所有获取得到的用户音色参数进行整合形成用户音色参数集,所述音色映射模型为基于人工智能模型进行训练。
优选地,基于所述人工智能模型来对音色映射模型进行训练,过程为:通过服务器整合并获取标准训练数据,其中,所述标准训练数据包括声音信息和用户音色参数;通过所述标准训练数据对所述人工智能模型进行训练,获取并存储所述音色映射模型;其中,所述人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。
优选地,所述数据采集模块为利用拾音器对模拟声音信号进行采集。
优选地,所述拾音器为模拟拾音器,由麦克风和音频放大电路组成。
第二方面,本发明还提供了一种智能语音交互方法,方法包括以下步骤:获取模拟声音信号,并对所述模拟声音信号进行模数转换得到数字声音信号;将所述数字声音信号进行特征提取,得出所述数字声音信号的特征参数,并对所述数字声音信号的特征参数进行标记;利用标记后的数字声音信号的特征参数进行计算得到第一判定参数,并且设定标准判定参数,然后将所述第一判定参数和所述标准判定参数分别进行一阶求导,计算所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差,得到判定差值;将所述判定差值与设定的差值阈值进行比较,若所述判定差值大于等于所述差值阈值,判断采集声音的数字声音信号不符合控制标准,噪音数据库收录所述数字声音信号;若所述判定差值小于所述差值阈值,判断采集声音的数字声音信号符合控制标准,控制中心过滤所述噪音数据库收录的数字声音信号,并分析过滤后的所述数字声音信号的音色;将所述数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配:若匹配成功,根据所述数字声音信号解析用户NLP自然语言,所述控制中心遍历所述用户问答库的历史问答记录,根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据所述最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;若匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
本发明具有以下有益效果:本发明提供的一种智能语音交互***,在使用过程中,需要通过采集模拟声音信号,并对模拟声音信号进行模数转换为数字声音信号,将转换后的数字声音信号进行特征提取,得出数字声音信号的特征参数,并对数字声音信号的特征参数进行标记;利用标记后的数字声音信号的特征参数进行计算得出第一判定参数,并且设定标准判定参数,然后将第一判定参数和标准判定参数分别进行一阶求导,计算第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差,得出差值;将该差值与设定的差值阈值进行比较:若差值大于等于差值阈值,判断采集声音的数字声音信号不符合控制标准,噪音数据库收录该数字声音信号;若差值小于差值阈值,则判断采集声音的数字声音信号符合控制标准,控制中心过滤噪音数据库收录的数字声音信号,分析过滤后的数字声音信号的音色;将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配:若匹配成功,根据数字声音信号解析用户NLP自然语言,控制中心遍历用户问答库的历史问答记录,根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;若匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问所述通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
通过本发明可实现利用智能语音设备辨识有效发声或环境嘈杂音,如判断为有效发声,可屏蔽掉其他环境干扰音,增加语音识别的精准度;本发明还可根据音色数据库比对结果识别发声用户身份,访问该用户数据库的历史问答记录的内容的相关性消除信息差异,避免由于语音识别不清导致用户交互体验不佳,如无问答历史,可创建该用户数据库,解析NLP自然语言并访问通用数据库进行解答,本发明提供的一种智能语音交互***,能够有效识别是否有效发声以及对发声用户进行辨识及历史记录,优化人机交互体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的智能语音交互***的***架构图。
图2是本发明实施例二提供的智能语音交互方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
如图1所示的一种智能语音交互***,包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心,数据中心包含音色数据库、噪音数据库、通用问答库及用户问答库。
数据采集模块:采集模拟声音信号,并且将采集到的模拟声音信号发送至数据处理模块进行数据处理。
数据处理模块:利用模数转换将模拟声音信号转换为数字声音信号,将转换后的数字声音信号进行特征提取,得到数字声音信号的特征参数,其中,数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色,对数字声音信号的特征参数进行标记,并发送至数据分析模块进行分析。
数据分析模块:利用数字声音信号的特征参数中数字声音信号的分贝、速度和音调进行计算得到第一判定参数,并设定标准判定参数,对第一判定参数和标准判定参数进行一阶求导,求一阶求导后的第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差,得到判定差值。
将判定差值与预设的差值阈值进行比较,若判定差值大于或等于差值阈值,判断采集声音的数字声音信号不符合控制标准,噪音数据库收录数字声音信号。
若判定差值小于差值阈值,判断采集声音的数字声音信号符合控制标准,控制中心过滤噪音数据库收录的数字声音信号,并分析过滤后的数字声音信号的音色。
将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配:若匹配成功,根据数字声音信号解析用户NLP(Natural Language Processing,自然语言处理)自然语言,控制中心遍历用户问答库的历史问答记录,根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;若匹配失败,根据数字声音信号解析用户NLP自然语言,控制中心访问通用问答库,调用通用问答库的数据进行解答,执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入用户问答库。
本在本发明实施例一提供的一种智能语音交互***,在使用过程中,需要通过采集模拟声音信号,并对模拟声音信号进行模数转换为数字声音信号,将转换后的数字声音信号进行特征提取,得出数字声音信号的特征参数,并对数字声音信号的特征参数进行标记;利用标记后的数字声音信号的特征参数进行计算得出第一判定参数,并且设定标准判定参数,然后将第一判定参数和标准判定参数分别进行一阶求导,计算第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差,得出差值;将该差值与设定的差值阈值进行比较:若差值大于等于差值阈值,判断采集声音的数字声音信号不符合控制标准,噪音数据库收录该数字声音信号;若差值小于差值阈值,则判断采集声音的数字声音信号符合控制标准,控制中心过滤噪音数据库收录的数字声音信号,分析过滤后的数字声音信号的音色。
将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配:若匹配成功,根据数字声音信号解析用户NLP自然语言,控制中心遍历用户问答库的历史问答记录,根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;若匹配失败,根据数字声音信号解析用户NLP自然语言,控制中心访问通用问答库,调用通用问答库的数据进行解答,执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入用户问答库。
通过在本发明实施例一提供的一种智能语音交互***可实现利用智能语音设备辨识有效发声或环境嘈杂音,如判断为有效发声,可屏蔽掉其他环境干扰音,增加语音识别的精准度;在本发明实施例一提供的一种智能语音交互***中还可根据音色数据库比对结果识别发声用户身份,访问该用户数据库的历史问答记录的内容的相关性消除信息差异,避免由于语音识别不清导致用户交互体验不佳,如无问答历史,可创建该用户数据库,解析NLP自然语言并访问通用数据库进行解答,本发明实施例一提供的一种智能语音交互***,能够有效识别是否有效发声以及对发声用户进行辨识及历史记录,优化人机交互体验。
需要进一步进行说明的是,在本发明实施例一提供的一种智能语音交互***中,数据采集模块为利用拾音器对模拟声音信号进行采集,拾音器为模拟拾音器,由麦克风和音频放大电路组成。
其中,拾音器分为数字拾音器和模拟拾音器,数字拾音器就是通过数字信号处理***将模拟的音频信号转换成数字信号并进行相应的数字信号处理的声音传感设备。模拟拾音器是用一般的模拟电路放大咪头采集到的声音。拾音器有三线制和四线制之分;三线制拾音器一般红色代表电源正极,白色代表音频正极,黑色代表信号及电源的负极。四线制拾音器一般红色代表电源正极,白色代表音频正极,音频负极和电源负极是分开来。
数据处理模块在接收到数据采集模块发送的模拟声音信号后,进行数据处理,具体的,数据处理模块进行数据处理的过程包括以下步骤:利用模数转换将模拟声音信号转换为数字声音信号,将转换后的数字声音信号进行特征提取,得出数字声音信号的特征参数,其中,数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色;对数字声音信号的特征参数进行标记,将数字声音信号的分贝标记为Fby,将数字声音信号的速度标记为Sdy,将数字声音信号的音调标记为Gdy,将数字声音信号的音色标记为Ysy,其中,y为采集次数标号,且y=1、2、3、...、n,n为采集次数总数。
需要进一步进行说明的是,在本发明实施例一提供的一种智能语音交互***中,将数字声音信号的分贝Fby、数字声音信号的速度Sdy、数字声音信号的音调Gdy和数字声音信号的音色Ysy发送至数据分析模块进行数据分析。
数字声音信号的特征参数中,分贝代表声音的响度,声音信号的音色代表不同声音表现在波形方面不同的特性,用于区分不同人声,数字声音信号的音调代表声音频率的高低;数字声音信号的速度表示发声的间隔长短。
然后将数字声音信号的分贝Fby、数字声音信号的音色Ysy、数字声音信号的音调Gdy和数字声音信号的速度Sdy发送至数据分析模块进行数据分析,数据分析模块在接收到数据处理模块发送的数字声音信号的分贝Fby,数字声音信号的音色Ysy、数字声音信号的音调Gdy和数字声音信号的速度Sdy后,进行数据分析,具体的,数据分析模块的分析过程包括以下步骤:利用公式计算得出第一判定参数Pdy,式中,Fb0为标准声音分贝参数,Sd0为标准声音速度参数,Gd0为标准声音音调参数,α为声音分贝影响参数,β为声音速度影响参数,γ为声音音调影响参数,/>为预设比例系数。
利用计算得出的第一判定参数Pdy获取第一判定参数的一阶导数Pdy1,并设定标准判定参数Pdb,并对标准判定参数Pdb进行一阶求导,得出标准判定参数的一阶导数Pdb1;计算第一判定参数的一阶导数Pdy1和标准判定参数的一阶导数Pdb1的绝对值之差,公式为:,得出差值Cz,并且与预设的差值阈值Cz0进行比较,若Cz≥Cz0,则说明采集声音的数字声音信号不符合控制标准,噪音数据库收录数字声音信号;若Cz<Cz0,则说明采集的声音符合控制标准,控制中心过滤噪音数据库收录的数字声音信号,并分析过滤后的数字声音信号的音色;通过数据分析模块内的数据采集单元获取音色数据库中存储的用户音色参数集Ysbp,并将数字声音信号的音色Ysy与用户音色参数集Ysbp内的用户音色参数进行参数匹配,若数字声音信号的音色Ysy匹配成功,根据数字声音信号解析用户NLP自然语言,控制中心遍历用户问答库的历史问答记录,根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;若数字声音信号的音色Ysy匹配失败,根据数字声音信号解析用户NLP自然语言,控制中心访问通用问答库,调用通用问答库的数据进行解答,执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入用户问答库。
需要进行说明的是,标准声音分贝参数、标准声音音调参数和标准声音速度参数为整个控制***内的最优分贝值、最优音高值和最优速度值,声音分贝影响参数、声音音调影响参数和声音速度影响参数为影响声音分贝、音高和速度的三个参数值。
需要进一步进行说明的是,在本发明实施例一提供的一种智能语音交互***中,用户音色参数集Ysbp={Ysb1、Ysb2、Ysb3、...、Ysbt},其中p为用户标号,t为用户人数总数。
用户音色参数集Ysbp的获取过程如下:通过控制中心内的数据采集终端来对用户的声音信息进行录入,其中,用户的声音信息包括声音分贝、声音速度、声音音调。
将声音信息与音色映射模型相结合,获取并存储用户音色参数后,将所有获取得到的用户音色参数进行整合形成用户音色参数集,音色映射模型为基于人工智能模型进行训练。
需要进一步进行说明的是,基于人工智能模型来对音色映射模型进行训练,具体过程为:通过服务器整合并获取标准训练数据,其中,标准训练数据包括声音信息和音用户色参数;通过标准训练数据对人工智能模型进行训练,获取并存储音色映射模型;其中,人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。
可以理解的是,标准训练数据中身体特征参数对应的范围应该足够大,如性别应包括男和女,年龄范围应该在1-120岁之内均匀分布。
需要进一步进行说明的是,深度卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学***移不变分类,卷积是一种线性运算,需要将一组权重与输入相乘,以生成称为滤波器的二维权重数组。如果调整滤波器以检测输入中的特定特征类型,则在整个输入图像中重复使用该滤波器可以发现图像中任意位置的特征,结构包括:输入层:卷积神经网络的输入层可以处理多维数据,常见地,一维卷积神经网络的输入层接收一维或二维数组,其中一维数组通常为时间或频谱采样;二维数组可能包含多个通道;二维卷积神经网络的输入层接收二维或三维数组;三维卷积神经网络的输入层接收四维数组。由于卷积神经网络在计算机视觉领域应用较广,因此许多研究在介绍其结构时预先假设了三维输入数据,即平面上的二维像素点和RGB通道。与其它神经网络算法类似,由于使用梯度下降算法进行学习,卷积神经网络的输入特征需要进行标准化处理。具体地,在将学习数据输入卷积神经网络前,需在通道或时间/频率维对输入数据进行归一化。
隐含层:卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑,在一些更为现代的算法中可能有Inception模块、残差块(residual block)等复杂构筑。在常见构筑中,卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数,而池化层不包含权重系数,因此在文献中,池化层可能不被认为是独立的层。以LeNet-5为例,3类常见构筑在隐含层中的顺序通常为:输入-卷积层-池化层-全连接层-输出。
RBF(Radial Basis Function,径向基函数)神经网络模型又称为径向基神经网络模型,是一种三层前向网络,第一层为由信号源节点组成的输入层,第二层为隐层,隐单元数视问题需要而定,隐单元的变换函数为非负非线性的函数RBF,第三层为输出层,输出层是对隐层神经元输出的线性组合,RBF神经网络模型的基本思想是:用RBF作为隐单元的基构成隐含层空间,这样就可以将输入矢量直接映射到隐空间,而不需要通过权连接。当RBF的中心点确定以后,这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的,即网络的输出是隐单元输出的线性加权和,此处的权即为网络可调参数。其中,隐含层的作用是把向量从低维度的映射到高维度的,这样低维度线性不可分的情况到高维度就可以变得线性可分了,主要就是核函数的思想。这样,网络由输入到输出的映射是非线性的,而网络输出对可调参数而言却又是线性的,网络的权就可由线性方程组直接解出,从而大大加快学习速度并避免局部极小问题。
实施例二
本发明实施例二提供的一种智能语音交互方法,如图2所示,包括以下步骤:获取模拟声音信号,并对模拟声音信号进行模数转换得到数字声音信号;将数字声音信号进行特征提取,得出数字声音信号的特征参数,并对数字声音信号的特征参数进行标记;利用标记后的数字声音信号的特征参数进行计算得到第一判定参数,并且设定标准判定参数,然后将第一判定参数和标准判定参数分别进行一阶求导,计算第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差,得到判定差值;将判定差值与设定的差值阈值进行比较,若判定差值大于等于差值阈值,判断采集声音的数字声音信号不符合控制标准,噪音数据库收录数字声音信号;若判定差值小于差值阈值,判断采集声音的数字声音信号符合控制标准,控制中心过滤噪音数据库收录的数字声音信号,并分析过滤后的数字声音信号的音色;将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配:若匹配成功,根据数字声音信号解析用户NLP自然语言,控制中心遍历用户问答库的历史问答记录,根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;若匹配失败,根据数字声音信号解析用户NLP自然语言,控制中心访问通用问答库,调用通用问答库的数据进行解答,执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入用户问答库。
通过本发明实施例二提供的一种智能语音交互方法,可实现利用智能语音设备辨识有效发声或环境嘈杂音,如判断为有效发声,可屏蔽掉其他环境干扰音,增加语音识别的精准度;本发明实施例二提供的一种智能语音交互方法还可根据音色数据库比对结果识别发声用户身份,访问该用户数据库的历史问答记录的内容的相关性消除信息差异,避免由于语音识别不清导致用户交互体验不佳,如无问答历史,可创建该用户数据库,解析NLP自然语言并访问通用数据库进行解答;通过本发明实施例二提供的一种智能语音交互方法,能够有效识别是否有效发声以及对发声用户进行辨识及历史记录,优化人机交互体验。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种智能语音交互***,其特征在于,包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心;
所述数据中心包含音色数据库、噪音数据库、通用问答库及用户问答库;
所述数据采集模块:采集模拟声音信号,并且将采集到的所述模拟声音信号发送至所述数据处理模块进行数据处理;
所述数据处理模块:利用模数转换将所述模拟声音信号转换为数字声音信号,将转换后的数字声音信号进行特征提取,得到数字声音信号的特征参数,其中,所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色,对所述数字声音信号的特征参数进行标记,并发送至所述数据分析模块进行分析;
所述数据分析模块:利用所述数字声音信号的特征参数中数字声音信号的分贝、速度和音调进行计算得到第一判定参数,并设定标准判定参数,对所述第一判定参数和所述标准判定参数进行一阶求导,求一阶求导后的所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差,得到判定差值;
将所述判定差值与预设的差值阈值进行比较,若所述判定差值大于或等于所述差值阈值,判断采集声音的数字声音信号不符合控制标准,所述噪音数据库收录所述数字声音信号;
若所述判定差值小于所述差值阈值,判断采集声音的数字声音信号符合控制标准,所述控制中心过滤所述噪音数据库收录的数字声音信号,并分析过滤后的所述数字声音信号的音色;
将所述数字声音信号的音色与所述音色数据库中存储的用户音色参数集内的用户音色进行匹配:
若匹配成功,根据所述数字声音信号解析用户NLP自然语言,所述控制中心遍历所述用户问答库的历史问答记录,根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据所述最终语言处理结果生成解答内容进行交互,所述执行模块执行交互指令;
若匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问所述通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
2.根据权利要求1所述的一种智能语音交互***,其特征在于,所述数据处理模块进行数据处理的过程包括以下步骤:
利用模数转换将所述模拟声音信号转换为数字声音信号,将转换后的所述数字声音信号进行特征提取,得出所述数字声音信号的特征参数,其中,所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色;
对所述数字声音信号的特征参数进行标记,将所述数字声音信号的分贝标记为Fby,将所述数字声音信号的速度标记为Sdy,将所述数字声音信号的音调标记为Gdy,将所述数字声音信号的音色标记为Ysy,其中,y为采集次数标号,且y=1、2、3、...、n,n为采集次数总数;
将所述数字声音信号的分贝Fby、所述数字声音信号的速度Sdy、所述数字声音信号的音调Gdy和所述数字声音信号的音色Ysy发送至所述数据分析模块进行数据分析。
3.根据权利要求2所述的一种智能语音交互***,其特征在于,所述数据分析模块进行数据分析的过程包括以下步骤:
利用公式计算得出第一判定参数Pdy,式中,Fb0为标准声音分贝参数,Sd0为标准声音速度参数,Gd0为标准声音音调参数,α为声音分贝影响参数,β为声音速度影响参数,γ为声音音调影响参数,/>为预设比例系数;
利用计算得出的第一判定参数Pdy获取第一判定参数的一阶导数Pdy1,并设定标准判定参数Pdb,并对所述标准判定参数Pdb进行一阶求导,得出所述标准判定参数的一阶导数Pdb1;
计算所述第一判定参数的一阶导数Pdy1和所述标准判定参数的一阶导数Pdb1的绝对值之差,公式为:,得出差值Cz,并且与预设的所述差值阈值Cz0进行比较,若Cz≥Cz0,则说明采集声音的数字声音信号不符合控制标准,所述噪音数据库收录所述数字声音信号;
若Cz<Cz0,则说明采集的声音符合控制标准,所述控制中心过滤所述噪音数据库收录的数字声音信号,并分析过滤后的所述数字声音信号的音色;
通过所述数据分析模块内的数据采集单元获取所述音色数据库中存储的用户音色参数集Ysbp,并将所述数字声音信号的音色Ysy与所述用户音色参数集Ysbp内的用户音色参数进行参数匹配,若所述数字声音信号的音色Ysy匹配成功,根据所述数字声音信号解析用户NLP自然语言,所述控制中心遍历所述用户问答库的历史问答记录,根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据所述最终语言处理结果生成解答内容进行交互,所述执行模块执行交互指令;
若数字声音信号的音色Ysy匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问所述通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
4.根据权利要求3所述的一种智能语音交互***,其特征在于,所述用户音色参数集Ysbp={Ysb1、Ysb2、Ysb3、...、Ysbt},其中p为用户标号,t为用户人数总数。
5.根据权利要求4所述的一种智能语音交互***,其特征在于,所述用户音色参数集Ysbp的获取过程如下:
通过所述控制中心内的数据采集终端来对用户的声音信息进行录入,其中,用户的声音信息包括声音分贝、声音速度、声音音调;
将声音信息与音色映射模型相结合,获取并存储用户音色参数后,将所有获取得到的用户音色参数进行整合形成用户音色参数集,所述音色映射模型为基于人工智能模型进行训练。
6.根据权利要求5所述的一种智能语音交互***,其特征在于,基于所述人工智能模型来对音色映射模型进行训练,过程为:
通过服务器整合并获取标准训练数据,其中,所述标准训练数据包括声音信息和用户音色参数;
通过所述标准训练数据对所述人工智能模型进行训练,获取并存储所述音色映射模型;其中,所述人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。
7.根据权利要求1所述的一种智能语音交互***,其特征在于,所述数据采集模块为利用拾音器对模拟声音信号进行采集。
8.根据权利要求7所述的一种智能语音交互***,其特征在于,所述拾音器为模拟拾音器,由麦克风和音频放大电路组成。
9.一种智能语音交互方法,其特征在于,方法包括以下步骤:
获取模拟声音信号,并对所述模拟声音信号进行模数转换得到数字声音信号;
将所述数字声音信号进行特征提取,得出所述数字声音信号的特征参数,并对所述数字声音信号的特征参数进行标记;
利用标记后的数字声音信号的特征参数进行计算得到第一判定参数,并且设定标准判定参数,然后将所述第一判定参数和所述标准判定参数分别进行一阶求导,计算所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差,得到判定差值;
将所述判定差值与设定的差值阈值进行比较,若所述判定差值大于等于所述差值阈值,判断采集声音的数字声音信号不符合控制标准,噪音数据库收录所述数字声音信号;
若所述判定差值小于所述差值阈值,判断采集声音的数字声音信号符合控制标准,控制中心过滤所述噪音数据库收录的数字声音信号,并分析过滤后的所述数字声音信号的音色;
将所述数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配:
若匹配成功,根据所述数字声音信号解析用户NLP自然语言,所述控制中心遍历所述用户问答库的历史问答记录,根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异,获得最终语言处理结果,并根据所述最终语言处理结果生成解答内容进行交互,执行模块执行交互指令;
若匹配失败,根据所述数字声音信号解析用户NLP自然语言,所述控制中心访问通用问答库,调用所述通用问答库的数据进行解答,所述执行模块执行交互指令,同时生成该用户的用户问答库的历史问答记录,将本次问答内容收录入所述用户问答库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486481.0A CN116189681B (zh) | 2023-05-04 | 2023-05-04 | 一种智能语音交互***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486481.0A CN116189681B (zh) | 2023-05-04 | 2023-05-04 | 一种智能语音交互***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116189681A true CN116189681A (zh) | 2023-05-30 |
CN116189681B CN116189681B (zh) | 2023-09-26 |
Family
ID=86442665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310486481.0A Active CN116189681B (zh) | 2023-05-04 | 2023-05-04 | 一种智能语音交互***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189681B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913277A (zh) * | 2023-09-06 | 2023-10-20 | 北京惠朗时代科技有限公司 | 基于人工智能的语音交互服务*** |
CN117251095A (zh) * | 2023-09-12 | 2023-12-19 | 深圳市驿格科技有限公司 | 用于pda的数据输入方法及*** |
CN118093835A (zh) * | 2024-04-23 | 2024-05-28 | 国网山东省电力公司滨州市滨城区供电公司 | 基于大语言模型云服务的供电服务问答方法、***及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030040761A (ko) * | 2001-11-16 | 2003-05-23 | 인벤텍 코오포레이션 | 사용자의 외국어의 말하기 및 듣기 능력 향상을 위한무작위 질문 대답 문장 생성 시스템 및 방법 |
JP2003152860A (ja) * | 2001-11-08 | 2003-05-23 | Nec Saitama Ltd | 音声検出回路及び電話機 |
CN1511312A (zh) * | 2001-04-13 | 2004-07-07 | 多尔拜实验特许公司 | 音频信号的高质量时间标度和音调标度 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
WO2019174072A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 智能机器人培训方法、装置、计算机设备及存储介质 |
CN111400469A (zh) * | 2020-03-12 | 2020-07-10 | 法雨科技(北京)有限责任公司 | 针对语音问答的智能生成***及其方法 |
US20220093089A1 (en) * | 2020-09-21 | 2022-03-24 | Askey Computer Corp. | Model constructing method for audio recognition |
-
2023
- 2023-05-04 CN CN202310486481.0A patent/CN116189681B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1511312A (zh) * | 2001-04-13 | 2004-07-07 | 多尔拜实验特许公司 | 音频信号的高质量时间标度和音调标度 |
JP2003152860A (ja) * | 2001-11-08 | 2003-05-23 | Nec Saitama Ltd | 音声検出回路及び電話機 |
KR20030040761A (ko) * | 2001-11-16 | 2003-05-23 | 인벤텍 코오포레이션 | 사용자의 외국어의 말하기 및 듣기 능력 향상을 위한무작위 질문 대답 문장 생성 시스템 및 방법 |
WO2019174072A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 智能机器人培训方法、装置、计算机设备及存储介质 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN111400469A (zh) * | 2020-03-12 | 2020-07-10 | 法雨科技(北京)有限责任公司 | 针对语音问答的智能生成***及其方法 |
US20220093089A1 (en) * | 2020-09-21 | 2022-03-24 | Askey Computer Corp. | Model constructing method for audio recognition |
Non-Patent Citations (5)
Title |
---|
A. N. YAKHNEV等: "Noise-robust algorithm of speech features extraction for automatic speech recognition system", 2016 XIX IEEE INTERNATIONAL CONFERENCE ON SOFT COMPUTING AND MEASUREMENTS (SCM) * |
L. MA等: "Security Control for Multi-Time-Scale CPSs Under DoS Attacks: An Improved Dynamic Event-Triggered Mechanism", IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING, vol. 2022 * |
柳革命;孙超;刘兵;: "基于线性预测倒谱的被动声纳目标特征提取技术", 应用声学, no. 05 * |
蔡静平;: "语音信号数字处理技术及其军事应用", 国防科技, no. 09 * |
陈国良等: "改进的快速独立分量分析在语音分离***中的应用", 计算机应用 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913277A (zh) * | 2023-09-06 | 2023-10-20 | 北京惠朗时代科技有限公司 | 基于人工智能的语音交互服务*** |
CN116913277B (zh) * | 2023-09-06 | 2023-11-21 | 北京惠朗时代科技有限公司 | 基于人工智能的语音交互服务*** |
CN117251095A (zh) * | 2023-09-12 | 2023-12-19 | 深圳市驿格科技有限公司 | 用于pda的数据输入方法及*** |
CN117251095B (zh) * | 2023-09-12 | 2024-05-17 | 深圳市驿格科技有限公司 | 用于pda的数据输入方法及*** |
CN118093835A (zh) * | 2024-04-23 | 2024-05-28 | 国网山东省电力公司滨州市滨城区供电公司 | 基于大语言模型云服务的供电服务问答方法、***及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116189681B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116189681B (zh) | 一种智能语音交互***及方法 | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及*** | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN104036776A (zh) | 一种应用于移动终端的语音情感识别方法 | |
CN110047510A (zh) | 音频识别方法、装置、计算机设备及存储介质 | |
CN101023469A (zh) | 数字滤波方法和装置 | |
Gurbuz et al. | Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition | |
CN111326178A (zh) | 基于卷积神经网络的多模态语音情感识别***及方法 | |
Wei et al. | A method of underwater acoustic signal classification based on deep neural network | |
CN112183107A (zh) | 音频的处理方法和装置 | |
CN112581980B (zh) | 时频通道注意力权重计算和向量化的方法和网络 | |
CN112767927A (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN113707158A (zh) | 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法 | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN112382302A (zh) | 婴儿哭声识别方法及终端设备 | |
CN115884032A (zh) | 一种后馈式耳机的智慧通话降噪方法及*** | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN116705059B (zh) | 一种音频半监督自动聚类方法、装置、设备及介质 | |
CN113990303A (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN111863035A (zh) | 一种用于心音数据识别的方法、***与设备 | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及*** | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN113763978B (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
CN110322894B (zh) | 一种基于声音的波形图生成及大熊猫检测方法 | |
CN113823291A (zh) | 一种应用于电力作业中的声纹识别的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |