CN114708869A - 语音交互方法、装置及电器 - Google Patents
语音交互方法、装置及电器 Download PDFInfo
- Publication number
- CN114708869A CN114708869A CN202210324200.7A CN202210324200A CN114708869A CN 114708869 A CN114708869 A CN 114708869A CN 202210324200 A CN202210324200 A CN 202210324200A CN 114708869 A CN114708869 A CN 114708869A
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- information
- voiceprint feature
- age
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002996 emotional effect Effects 0.000 claims abstract description 58
- 230000004044 response Effects 0.000 claims abstract description 51
- 230000008451 emotion Effects 0.000 claims description 92
- 230000008909 emotion recognition Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 description 8
- 230000036651 mood Effects 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种语音交互方法、装置及电器,所述方法包括接收目标用户的语音输入,确定目标语音信息;对所述目标语音信息进行语音识别,得到语音识别结果;所述语音识别结果包括所述目标用户的年龄信息和所述目标语音信息的目标情感特征中的至少一个;输出应答语音,所述应答语音为基于所述语音识别结果设置的。本发明提供的语音交互方法通过对目标用户的目标语音信息进行语音识别,得到目标用户的年龄或者目标语音信息的目标情感特征,进而能根据语音识别结果针对年龄和情感特征做出相应的人性化应答,从而提高了用户体验。
Description
技术领域
本发明涉及智能电器技术领域,尤其涉及一种语音交互方法、装置及电器。
背景技术
随着科技的发展,语音交互技术的应用场景也越来越丰富,通过利用人工智能以及TTS(Text To Speech,从文本到语音)等技术,能够实现与用户群体的语音交流。
相关技术中,语音交互设备的语音应答较为生硬,无法针对不同用户进行人性化的应答,给用户造成了不好的使用体验。
发明内容
本发明提供一种语音交互方法、装置及电器,用以解决现有技术中语音交互装置应答生硬的缺陷,实现了能针对不同用户来进行有感情地应答的效果。
本发明提供一种语音交互方法,包括:
接收目标用户的语音输入,确定目标语音信息;
对所述目标语音信息进行语音识别,得到语音识别结果;所述语音识别结果包括所述目标用户的年龄信息和所述目标语音信息的目标情感特征中的至少一个;
输出应答语音,所述应答语音为基于所述语音识别结果设置的。
根据本发明提供的一种语音交互方法,所述对所述目标语音信息进行语音识别,得到语音识别结果,包括:
获取所述目标语音信息相关的声纹特征识别结果;
基于所述声纹特征识别结果,确定所述目标用户的年龄信息;
基于所述年龄信息,设置所述应答语音的第一情感特征。
根据本发明提供的一种语音交互方法,所述获取所述目标语音信息相关的声纹特征识别结果,包括:
基于所述目标语音信息,确定目标声纹特征;
在声纹特征库中查找与所述目标声纹特征相匹配的声纹特征样本,在所述声纹特征库中预先存储有声纹特征样本集;
在查找到与所述目标声纹特征相匹配的声纹特征样本的情况下,确定所述声纹特征样本对应的年龄信息。
根据本发明提供的一种语音交互方法,所述在声纹特征库中查找与所述目标声纹特征相匹配的声纹特征样本之后,所述方法还包括:
在未查找到与所述目标声纹特征相匹配的声纹特征样本的情况下,将所述目标声纹特征输入至年龄预测模型,得到所述年龄预测模型输出的年龄信息,所述年龄预测模型为以年龄样本声纹特征为样本,以年龄样本声纹特征中发声者的年龄信息为标签训练得到的。
根据本发明提供的一种语音交互方法,在所述获取所述目标语音信息相关的声纹特征识别结果之后,所述方法还包括:
在基于所述声纹特征识别结果,未确定出所述目标用户的年龄信息的情况下,对所述目标语音信息进行语音情感识别,得到所述目标语音信息的目标情感特征;
基于所述目标情感特征,设置所述应答语音的第二情感特征。
根据本发明提供的一种语音交互方法,所述对所述目标语音信息进行语音情感识别,得到所述目标语音信息的目标情感特征,包括:
基于所述目标语音信息,生成目标文本信息;
提取所述目标文本信息中的目标语料;
在情感词典库中查找到所述目标语料的情况下,确定所述目标语料对应的所述语料情感特征;
基于所述语料情感特征,确定所述目标情感特征;
所述情感词典库包括多个语料以及与所述语料对应的情感特征。
本发明还提供一种语音交互装置,包括:
接收模块,用于接收目标用户的语音输入,确定目标语音信息;
处理模块,用于对所述目标语音信息进行语音识别,得到语音识别结果;所述语音识别结果包括所述目标用户的年龄信息和所述目标语音信息的目标情感特征中的至少一个;
输出模块,用于输出应答语音,所述应答语音为基于所述语音识别结果设置的。
本发明还提供一种电器,包括如上述的语音交互装置。
本发明还提供一种空调,包括室内机、室外机和设置在所述室内机或室外机中的处理器和存储器;还包括存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时执行如上述任一种所述语音交互方法。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音交互方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音交互方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音交互方法。
本发明提供的语音交互方法、装置及电器,通过对目标用户的目标语音信息进行语音识别,得到目标用户的年龄或者目标语音信息的目标情感特征,进而能根据语音识别结果针对年龄和情感特征做出相应的人性化应答,从而提高了用户体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音交互方法的流程示意图之一;
图2是本发明提供的语音交互方法的流程示意图之二;
图3是本发明提供的语音交互装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的语音交互方法、装置及电器。
本发明实施例的语音交互方法的执行主体可以是处理器,当然,在一些实施例中,本发明实施例的语音交互方法的执行主体还可以是服务器,此处不作限制。下面以执行主体为处理器为例来对本发明实施例的语音交互方法进行说明。
如图1所示,本发明实施例的语音交互方法主要包括步骤110、步骤120和步骤130。
步骤110,接收目标用户的语音输入,确定目标语音信息。
需要说明的是,在目标用户发出语音后,可以通过采集目标用户的语音来实现对语音输入的接收。
在一些实施例中,可以通过拾音器或者麦克风等装置来实现对目标用户语音的采集,当然,在其他实施例中,也可以通过其他语音采集装置来实现对目标用户的语音采集。
在家庭场景下,在通过拾音器来对目标用户的语音进行采集的情况下,拾音器可以与电器设备进行集成。例如,拾音器可以安装于空调的室内机外壳上。在此种情况下,可以通过空调来实现与目标用户的语音交互。
或者,在通过麦克风来对目标用户的语音进行采集的情况下,麦克风可以是目标用户的智能手机上所配置的麦克风。在此种情况下,可以通过手机来实现与目标用户的语音交互。
当然,在其他一些场景下,拾音器或者麦克风还可以安装于其他位置,此处对语音交互的介质不作限制,此处对拾音器或者麦克风的安装位置以及安装方式也不作限制。
在一些实施例中,可以通过特殊的唤醒语音来实现语音接收的唤醒,即在接收到唤醒语音的情况下,开始采集目标用户的语音,并确定目标语音信息。
例如,在采集到的语音为“小优小优,打开空调!”的情况下,可以识别到“小优”为唤醒语音。在此种情况下,识别到唤醒语音后再开始采集目标用户的语音,从而实现对目标用户语音输入的接收。
当然,在其他一些实施例中,也可以不间断地对环境声音进行采集,在识别到目标用户的语音后,确定目标语音信息。
可以理解的是,在采集到目标用户的语音后,可以对采集到的语音进行简单的预处理,例如人声分离以及降噪等处理,得到有效的语音信息流,进而得到有效的目标语音信息。
步骤120,对目标语音信息进行语音识别,得到语音识别结果。
可以理解的是,语音识别结果至少包括目标语音信息中的文本信息。
需要说明的是,语音识别结果还包括目标用户的年龄信息和目标语音信息的目标情感特征中的至少一个。
可以理解的是,通过对目标语音信息进行语音识别,可以确定出目标语音信息对应的目标用户的年龄信息。
年龄信息可以是具体的年龄值,还可以是一定的年龄大小区间。在本实施方式中,可以根据年龄信息来判断目标用户为儿童、中年人或者老年人等。
例如,在确定的年龄信息的值处于区间0-14之间,可以将目标用户确定为儿童,在确定的年龄信息的值大于55,则可以将目标用户确定为老年人。
在一些实施例中,可以通过提取目标语音信息的声纹特征来确定目标语音信息对应的目标用户的年龄信息。
在另一些实施例中,可以通过将目标语音信息与预设的用户库中的用户语音进行匹配来确定目标用户的年龄信息。
当然,在其他实施方式中,还可以通过其他方式来确定目标语音信息对应的目标用户的年龄信息,此处不作限制。
可以理解的是,通过对目标语音信息进行语音识别,可以确定出目标语音信息的目标情感特征。
目标情感特征用于表示目标对象的目标语音信息所带有的情感色彩,按照不同的分类标准,可以将目标情感特征分成不同的类型。
在一些实施例中,可以按照积极或者消极因素将目标情感特征划分为正面情感、中性情感以及负面情感。
正面情感中可以包括愉快、开心以及放松等情绪,负面情绪中可以包括痛苦、沮丧、伤心以及愤怒等情绪,中性情绪中可以包括严肃、坚定以及疑惑等情绪。
可以理解的是,可以根据正面情感、中性情感以及负面情感所对应的语气信息以及文本信息构建数据库,数据库包含不同的语气信息以及文本信息所分别对应的情感特征。
在本实施方式中,可以根据目标语音信息中的语气信息、文本信息以及数据库来确定目标语音信息的目标情感特征。
例如,当目标语音信息的内容为“小优,小优,我好烦!”,该语音消息中含有消极的信息“烦”,因此可以将该目标语音信息的目标情感特征确定为负面情感。
在一些实施例中,可以通过将目标语音信息输入至语音情感识别模型,通过对目标语音信息进行综合识别与分析,进而得到目标语音信息的目标情感特征。
在另一些实施例中,可以通过提取目标语音信息中的相关语料来对情感词进行匹配,进而得到目标语音信息的目标情感特征。
当然,在其他实施方式中,还可以通过其他方式来确定目标语音信息的目标情感特征,此处不作限制。
步骤130,输出应答语音,应答语音为基于语音识别结果设置的。
在得到目标语音信息的识别结果后,可以针对目标语音信息得到应答语音。
需要说明的是,应答语音包括对目标语音信息中的文本信息进行回复的语音播报内容,播报语音可以基于TTS技术来进行生成。
由于语音识别结果包括目标用户的年龄信息和目标语音信息的目标情感特征,因此,应答语音在进行播报时可以针对目标用户的年龄和语音交互的目标情感特征做出适应性地设置,进而实现了对不同类型的目标用户进行个性化的语音交互的效果。
根据本发明实施例的语音交互方法,通过对目标用户的目标语音信息进行语音识别,得到目标用户的年龄或者目标语音信息的目标情感特征,进而能根据语音识别结果针对年龄和情感特征做出相应的人性化应答,从而提高了用户体验。
如图2所示,在一些实施例中,步骤120:对目标语音信息进行语音识别,得到语音识别结果,主要包括步骤1201、步骤1202和步骤1203。
步骤1201,获取目标语音信息相关的声纹特征识别结果。
可以理解的是,可以理解的是,对目标语音信息进行声纹特征识别可以包括识别目标语音信息相应的目标用户的身份、年龄或者性别等信息。
步骤1202,基于声纹特征识别结果,确定目标用户的年龄信息。
在一些实施例中,可以根据识别出的目标用户的身份信息来确定出目标用户的年龄信息。
在另一些实施例中,可以直接通过声纹特征识别结果确定出目标用户的年龄信息。
在此种情况下,步骤1201:获取目标语音信息相关的声纹特征识别结果具体可以包括基于目标语音信息,确定目标声纹特征。
可以理解的是,在对目标语音信息进行声纹特征识别之前,需要对目标语音信息进行声纹特征的提取。
在一些实施例中,可以通过预先训练好的声纹特征提取神经网络模型来对目标语音信息提取声纹特征。
可以理解的是,预先训练的神经网络模型可以以样本语音信息为样本,以样本语音信息中发声者的声纹特征为标签训练而成。
具体训练过程可以为,将样本语音信息输入至声纹特征提取神经网络模型中,输出识别出的发生者的声纹特征,将识别出的声纹特征与标签间的相似度作为损失,根据损失调整声纹特征提取神经网络模型中需要更新的量,直至损失小于预设阈值或者训练测试的数量达到预设数目。
在提取出目标语音信息中的目标声纹特征后,在声纹特征库中查找与目标声纹特征相匹配的声纹特征样本。
可以理解的是,在声纹特征库中预先存储有声纹特征样本集,声纹特征样本集包括各个声纹特征样本以及各个声纹特征样本所对应的年龄信息。
在进行查找的过程中,可以计算目标声纹特征与各声纹特征样本之间的匹配度。
在进行匹配度的计算时,可以通过线性判别模型对目标声纹特征与各声纹特征样本之间的匹配度进行计算,在匹配度大于预设值的情况下,将该声纹特征样本所对应的年龄信息作为目标声纹特征所对应的年龄信息。
当然,在一些实施例中,当目标声纹特征与多个声纹特征样本的匹配度均大于预设值时,可以将满足要求的多个声纹特征样本中匹配度最大的声纹特征样本对应的年龄信息作为目标声纹特征所对应的年龄信息。
换言之,在查找到与目标声纹特征相匹配的声纹特征样本的情况下,可以确定声纹特征样本对应的年龄信息,进而再将声纹特征样本对应的年龄信息作为目标声纹特征所对应的年龄信息。
根据本发明实施例的语音交互方法,通过在声纹特征库中查找目标声纹特征,能快速而又准确地确认出目标声纹特征所对应的年龄信息,提高了语音交互应答内容的准确性,进而提升了用户的体验。
在一些实施例中,在声纹特征库中查找与目标声纹特征相匹配的声纹特征样本之后,本发明实施例的语音交互方法还包括:
在未查找到与目标声纹特征相匹配的声纹特征样本的情况下,将目标声纹特征输入至年龄预测模型,得到年龄预测模型输出的年龄信息。
可以理解的是,年龄预测模型为以年龄样本声纹特征为样本,以年龄样本声纹特征中发声者的年龄信息为标签训练得到的。
可以理解的是,年龄预测模型可以是卷积神经网络模型、隐马尔科夫模型或者高斯混合模型等,此处对年龄预测模型的类型不作限制。
在本实施方式中,在声纹特征库中查找不到与目标声纹特征相匹配的声纹特征样本之后,通过年龄预测模型能得到目标语音信息对应的目标信息的年龄预测值,能准确地确认出目标声纹特征所对应的年龄信息,提高了语音交互应答内容的准确性,进而提升了用户的体验。
步骤1203,基于年龄信息,设置应答语音的第一情感特征。
可以理解的是,针对目标用户的不同年龄信息,可以设置应答语音的第一情感特征以实现更加人性化的语音交互。
在一些实施例中,在确定的年龄信息的值处于区间0-14之间,可以将目标用户确定为儿童;在确定的年龄信息的值大于55,则可以将目标用户确定为老年人;在确定的年龄信息的值处于区间14-55之间,可以将目标用户确定为中年人。
根据确定的年龄信息,在确定出目标语音信息对应的目标用户为儿童的情况下,应答语音的第一情感特征可以为正面情感特征。正面情感中可以包括愉快、开心、活泼以及放松等情绪。
在此种情况下,应答语音可以设置为更加愉快、活泼以及放松的语气,应答语音的内容中可以增添更多愉快、轻松的词汇,进而能够更加贴合儿童的使用需求。
根据确定的年龄信息,在确定出目标语音信息对应的目标用户为老年人的情况下,应答语音的第一情感特征可以为中性情感特征。中性情感中可以包括严肃以及坚定等情绪。
在此种情况下,应答语音可以设置为更加严肃以及坚定的语气,应答语音的内容中可以增添更多正式以及肯定的词汇,进而能够更加贴合老年人的使用需求。
根据确定的年龄信息,在确定出目标语音信息对应的目标用户为中年人的情况下,应答语音的第一情感特征可以为中性情感特征或者正面情感特征。
在此种情况下,应答语音可以设置为更加严肃或者愉快的语气,应答语音的内容中可以增添更多正式以及愉快的词汇,进而能够更加贴合中年人的使用需求。
当然,在其他实施例中,还可以对不同年龄阶段的目标用户设置其他类型的情感特征,不同年龄阶段的目标用户可以对应其他不同类型的情感特征,可以根据实际情况进行设置,此处对不同年龄阶段的目标用户对应的情感特征的类型不作限制。
根据本发明实施例的语音交互方法,通过确定出目标语音信息对应的目标用户的年龄信息,再根据年龄信息来设置输出的应答语音的情感特征,能够针对不同年龄的目标用户对应答语音在情感上进行设置,使得应答语音更加人性化,满足了不同用户的不同个性化使用需求,提升了用户体验。
在一些实施例中,在步骤1201:在获取目标语音信息相关的声纹特征识别结果之后,本发明实施例的语音交互方法还包括:
在基于声纹特征识别结果,未确定出目标用户的年龄信息的情况下,对目标语音信息进行语音情感识别,得到目标语音信息的目标情感特征。
可以理解的是,在对目标声纹特征识别时,若无法从声纹特征识别结果中确定出目标用户的年龄信息,可以通过对目标语音信息进行语音情感识别,得到目标语音信息的目标情感特征。
在一些实施例中,在声纹特征库中查找不到与目标声纹特征的匹配度满足预设条件的声纹特征样本,且年龄预测模型无法输出目标声纹特征对应的年龄信息的情况下,可以通过对目标语音信息进行语音情感识别。
在一些实施例中,可以通过语音情感识别神经网络模型来对目标语音信息进行语音情感识别。
可以理解的是,语音情感识别神经网络模型为以带有情感特征的语音信息为样本,以带有情感特征的语音信息的情感特征为标签训练得到的。
在另一些实施例中,对目标语音信息进行语音情感识别,得到目标语音信息的目标情感特征具体包括基于目标语音信息,生成目标文本信息。
可以理解的是,在进行语音情感识别的过程中,先将目标语音信息转化为文本信息,得到目标文本信息。
在得到目标文本信息后,提取目标文本信息中的目标语料。可以理解的是,目标语料为目标文本信息中带有情感倾向的字或者词。
例如,当目标语音信息的目标文本信息为“小优,小优,我好烦!”,目标语料可以是“烦”和“好”。“烦”为情绪化词语,可以表示目标用户的负面情绪,“好”为程度副词,可以用于表示目标用户的负面情绪的程度很大。
在情感词典库中查找到目标语料的情况下,确定目标语料对应的语料情感特征。
可以理解的是,情感词典库包括多个语料以及与语料对应的情感特征。
在确定出目标语料对应的语料情感特征后,可以基于语料情感特征,确定目标情感特征。
在本实施方式中,可以针对目标语料在情感词典库查找对应的情感特征。在目标文本信息中只具有单个目标语料的情况下,可以直接将在情感词典库中查询到的该目标语料的情感特征作为目标情感特征。
在目标文本信息中具有多个目标语料的情况下,则对多个目标语料所对应的情感特征进行相应的权重处理。
例如可以针对不同的目标语料所对应的不同情感特征设置不同的权重分值。在一些实施例中,针对不同的语料,可以将不同的语料分为正面词、负面词、否定词以及程度副词等。
在此种情况下,可以将正面词权重分值做加法,将负面词权重分值做减法,将否定词权重取相反数,将程度副词权重和它修饰的词语权重相乘,得出最终的权重分值。
根据最终的权重分值,可以确定情感特征为正面情感、中性情感以及负面情感中的某一类型。
根据本发明实施例的语音交互方法,通过得到目标语音信息的目标文本信息,再对目标文本信息中的目标语料进行分析,得到目标语料的语料情感特征,进而确定出目标语音信息的目标情感特征,能够较为准确地确定出目标语音信息的目标情感特征,进而方便针对具有不同情感特征的目标用户来设置相应的应答语音。
可以理解的是,在确定出目标语音信息的目标情感特征后,可以基于目标情感特征,设置应答语音的第二情感特征。
在一些实施例中,在确定出目标情感特征为正面情感特征的情况下,应答语音的第二情感特征可以为正面情感特征。正面情感中可以包括愉快、开心、活泼以及放松等情绪。
例如,目标情感特征包括开心以及放松的情绪,应答语音可以设置为更加愉快、活泼以及放松的语气,应答语音的内容中可以增添更多愉快、轻松的词汇,进而能够更加贴合目标用户当前的心情。
在一些实施例中,在确定出目标情感特征为负面情感特征的情况下,应答语音的第二情感特征可以为中性情感特征。负面情感中可以包括愤怒以及没有耐心等情绪。
例如,目标情感特征包括愤怒的情绪,应答语音可以设置为更加严肃和肯定的语气,应答语音的内容中可以增添更多正式、肯定的词汇,进而能够更加贴合目标用户当前的心情。
当然,在其他实施例中,还可以对不同目标情感特征设置其他类型的第二情感特征,第二情感特征可以根据实际情况进行设置,此处对第二情感特征的类型不作限制。
根据本发明实施例的语音交互方法,通过确定出目标语音信息对应的目标情感特征,再根据目标情感特征设置不同的第二情感特征来设置应答语音,能够针对不同目标用户的情感特征在情感上进行设置应答语音,使得应答语音更加人性化,更加贴合不同用户的不同个性化使用需求,提升了用户体验。
如图3所示,下面对本发明提供的与交互装置进行描述,下文描述的语音交互装置与上文描述的语音交互方法可相互对应参照。
本发明实施例的语音交互装置包括接收模块310、处理模块320以及输出模块330。
接收模块310用于接收目标用户的语音输入,确定目标语音信息;
处理模块320用于对目标语音信息进行语音识别,得到语音识别结果;语音识别结果包括目标用户的年龄信息和目标语音信息的目标情感特征中的至少一个;
输出模块330用于输出应答语音,应答语音为基于语音识别结果设置的。
根据本发明实施例提供的语音交互装置,通过对目标用户的目标语音信息进行语音识别,得到目标用户的年龄或者目标语音信息的目标情感特征,进而能根据识别语音识别结果针对年龄和情感特征做出相应的人性化应答,从而提高了用户体验。
在一些实施例中,处理模块320还用于获取目标语音信息相关的声纹特征识别结果;基于声纹特征识别结果,确定目标用户的年龄信息;基于年龄信息,设置应答语音的第一情感特征。
在一些实施例中,处理模块320还用于基于目标语音信息,确定目标声纹特征;在声纹特征库中查找与目标声纹特征相匹配的声纹特征样本,在声纹特征库中预先存储有声纹特征样本集;在查找到与目标声纹特征相匹配的声纹特征样本的情况下,确定声纹特征样本对应的年龄信息。
在一些实施例中,处理模块320还用于在未查找到与目标声纹特征相匹配的声纹特征样本的情况下,将目标声纹特征输入至年龄预测模型,得到年龄预测模型输出的年龄信息,年龄预测模型为以年龄样本声纹特征为样本,以年龄样本声纹特征中发声者的年龄信息为标签训练得到的。
在一些实施例中,处理模块320还用于在基于声纹特征识别结果,未确定出目标用户的年龄信息的情况下,对目标语音信息进行语音情感识别,得到目标语音信息的目标情感特征;基于目标情感特征,设置应答语音的第二情感特征。
在一些实施例中,处理模块320还用于基于目标语音信息,生成目标文本信息;提取目标文本信息中的目标语料;在情感词典库中查找到目标语料的情况下,确定目标语料对应的语料情感特征;基于语料情感特征,确定目标情感特征;情感词典库包括多个语料以及与语料对应的情感特征。
本发明实施例还提供一种电器,电器包括上述的语音交互装置,能与用户进行语音交互。电器可以是空调、电视机、洗衣机、冰箱以及***等,此处对电器的类型不作限制。
本发明实施例还提供一种空调,包括室内机、室外机和设置在室内机或室外机中的处理器和处理器;还包括存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时执行如上述的语音交互方法。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行语音交互方法,该方法包括:接收目标用户的语音输入,确定目标语音信息;对目标语音信息进行语音识别,得到语音识别结果;语音识别结果包括目标用户的年龄信息和目标语音信息的目标情感特征中的至少一个;输出应答语音,应答语音为基于语音识别结果设置的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音交互方法,该方法包括:接收目标用户的语音输入,确定目标语音信息;对目标语音信息进行语音识别,得到语音识别结果;语音识别结果包括目标用户的年龄信息和目标语音信息的目标情感特征中的至少一个;输出应答语音,应答语音为基于语音识别结果设置的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音交互方法,该方法包括:接收目标用户的语音输入,确定目标语音信息;对目标语音信息进行语音识别,得到语音识别结果;语音识别结果包括目标用户的年龄信息和目标语音信息的目标情感特征中的至少一个;输出应答语音,应答语音为基于语音识别结果设置的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音交互方法,其特征在于,包括:
接收目标用户的语音输入,确定目标语音信息;
对所述目标语音信息进行语音识别,得到语音识别结果;所述语音识别结果包括所述目标用户的年龄信息和所述目标语音信息的目标情感特征中的至少一个;
输出应答语音,所述应答语音为基于所述语音识别结果设置的。
2.根据权利要求1所述的语音交互方法,其特征在于,所述对所述目标语音信息进行语音识别,得到语音识别结果,包括:
获取所述目标语音信息相关的声纹特征识别结果;
基于所述声纹特征识别结果,确定所述目标用户的年龄信息;
基于所述年龄信息,设置所述应答语音的第一情感特征。
3.根据权利要求2所述的语音交互方法,其特征在于,所述获取所述目标语音信息相关的声纹特征识别结果,包括:
基于所述目标语音信息,确定目标声纹特征;
在声纹特征库中查找与所述目标声纹特征相匹配的声纹特征样本,在所述声纹特征库中预先存储有声纹特征样本集;
在查找到与所述目标声纹特征相匹配的声纹特征样本的情况下,确定所述声纹特征样本对应的年龄信息。
4.根据权利要求3所述的语音交互方法,其特征在于,所述在声纹特征库中查找与所述目标声纹特征相匹配的声纹特征样本之后,所述方法还包括:
在未查找到与所述目标声纹特征相匹配的声纹特征样本的情况下,将所述目标声纹特征输入至年龄预测模型,得到所述年龄预测模型输出的年龄信息,所述年龄预测模型为以年龄样本声纹特征为样本,以年龄样本声纹特征中发声者的年龄信息为标签训练得到的。
5.根据权利要求2-4中任一项所述的语音交互方法,其特征在于,在所述获取所述目标语音信息相关的声纹特征识别结果之后,所述方法还包括:
在基于所述声纹特征识别结果,未确定出所述目标用户的年龄信息的情况下,对所述目标语音信息进行语音情感识别,得到所述目标语音信息的目标情感特征;
基于所述目标情感特征,设置所述应答语音的第二情感特征。
6.根据权利要求5所述的语音交互方法,其特征在于,所述对所述目标语音信息进行语音情感识别,得到所述目标语音信息的目标情感特征,包括:
基于所述目标语音信息,生成目标文本信息;
提取所述目标文本信息中的目标语料;
在情感词典库中查找到所述目标语料的情况下,确定所述目标语料对应的所述语料情感特征;
基于所述语料情感特征,确定所述目标情感特征;
所述情感词典库包括多个语料以及与所述语料对应的情感特征。
7.一种语音交互装置,其特征在于,包括:
接收模块,用于接收目标用户的语音输入,确定目标语音信息;
处理模块,用于对所述目标语音信息进行语音识别,得到语音识别结果;所述语音识别结果包括所述目标用户的年龄信息和所述目标语音信息的目标情感特征中的至少一个;
输出模块,用于输出应答语音,所述应答语音为基于所述语音识别结果设置的。
8.一种电器,其特征在于,包括如权利要求7所述的语音交互装置。
9.一种空调,其特征在于,包括室内机、室外机和设置在所述室内机或室外机中的处理器和存储器;还包括存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时执行如权利要求1至6任一项所述语音交互方法。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6任一项所述语音交互方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210324200.7A CN114708869A (zh) | 2022-03-29 | 2022-03-29 | 语音交互方法、装置及电器 |
PCT/CN2022/126640 WO2023184942A1 (zh) | 2022-03-29 | 2022-10-21 | 语音交互方法、装置及电器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210324200.7A CN114708869A (zh) | 2022-03-29 | 2022-03-29 | 语音交互方法、装置及电器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708869A true CN114708869A (zh) | 2022-07-05 |
Family
ID=82170666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210324200.7A Pending CN114708869A (zh) | 2022-03-29 | 2022-03-29 | 语音交互方法、装置及电器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114708869A (zh) |
WO (1) | WO2023184942A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023184942A1 (zh) * | 2022-03-29 | 2023-10-05 | 青岛海尔空调器有限总公司 | 语音交互方法、装置及电器 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690416B (zh) * | 2024-02-02 | 2024-04-12 | 江西科技学院 | 一种人工智能交互方法及人工智能交互*** |
CN117975971A (zh) * | 2024-04-02 | 2024-05-03 | 暨南大学 | 一种基于隐私保护的声纹年龄段估计方法及*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10162844B1 (en) * | 2017-06-22 | 2018-12-25 | NewVoiceMedia Ltd. | System and methods for using conversational similarity for dimension reduction in deep analytics |
CN110189754A (zh) * | 2019-05-29 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置、电子设备及存储介质 |
CN111899717A (zh) * | 2020-07-29 | 2020-11-06 | 北京如影智能科技有限公司 | 一种语音回复方法及装置 |
CN113643684B (zh) * | 2021-07-21 | 2024-02-27 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN114708869A (zh) * | 2022-03-29 | 2022-07-05 | 青岛海尔空调器有限总公司 | 语音交互方法、装置及电器 |
-
2022
- 2022-03-29 CN CN202210324200.7A patent/CN114708869A/zh active Pending
- 2022-10-21 WO PCT/CN2022/126640 patent/WO2023184942A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023184942A1 (zh) * | 2022-03-29 | 2023-10-05 | 青岛海尔空调器有限总公司 | 语音交互方法、装置及电器 |
Also Published As
Publication number | Publication date |
---|---|
WO2023184942A1 (zh) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
CN105096940B (zh) | 用于进行语音识别的方法和装置 | |
Zhang et al. | Unsupervised learning in cross-corpus acoustic emotion recognition | |
CN108288467B (zh) | 一种语音识别方法、装置及语音识别引擎 | |
US9230547B2 (en) | Metadata extraction of non-transcribed video and audio streams | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
CN114708869A (zh) | 语音交互方法、装置及电器 | |
CN104598644B (zh) | 喜好标签挖掘方法和装置 | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
US10504512B1 (en) | Natural language speech processing application selection | |
JP6915637B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN115171731A (zh) | 一种情绪类别确定方法、装置、设备及可读存储介质 | |
CN111179903A (zh) | 一种语音识别方法、装置、存储介质及电器 | |
CN114125506B (zh) | 语音审核方法及装置 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN112329431A (zh) | 音视频数据处理方法、设备及存储介质 | |
CN110570838A (zh) | 语音流处理方法和装置 | |
CN113763920B (zh) | 空调器及其语音生成方法、语音生成装置和可读存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 | |
CN110808050A (zh) | 语音识别方法及智能设备 | |
CN110795581B (zh) | 图像搜索方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |