CN109448735B

CN109448735B - 基于声纹识别的视频参数调整方法、装置及读存储介质

Info

Publication number: CN109448735B
Application number: CN201811586465.4A
Authority: CN
Inventors: 付华东
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2022-05-20
Anticipated expiration: 2038-12-21
Also published as: US20210136441A1; WO2020124845A1; EP3779974A1; CN109448735A; EP3779974A4; US11330321B2

Abstract

本发明公开了一种基于声纹识别的视频参数调整方法，包括：在智能终端播放视频节目时，接收声纹数据采集模块采集的音频信息；在声纹特征库中存在音频信息对应的目标预设音频信息时，基于目标预设音频信息，确定音频信息对应的用户身份信息以及用户心情信息；获取用户心情信息对应的参数调整模式的调整参数，以及基于用户身份信息获取参数调整模式对应的调整比例；基于调整参数以及调整比例调整智能终端的视频播放参数。本发明还公开了一种基于声纹识别的视频参数调整装置及可读存储介质。本发明能够根据音频信息对应的用户身份信息以及用户心情信息自动调节智能终端的视频播放参数，进而实现智能终端的视频播放参数的智能调节，提高了用户体验。

Description

基于声纹识别的视频参数调整方法、装置及读存储介质

技术领域

本发明涉及是数据处理技术领域，尤其涉及一种基于声纹识别的视频参数调整方法、装置及可读存储介质。

背景技术

随着智能技术的飞速发展，智能电视等智能终端已经进入千家万户。由于每个用户的喜好不一样，而且每个用户在不同时刻心情也可能不一样，不同心情对应的喜好也不一样，所以人们对智能终端的个性化需求越来越强烈。

目前，智能终端的图像模式和声音模式等播放参数的调整大都还是通过用户手动调整。当用户心情愉悦时，用户可能将智能终端的画面调整的比较亮，声音也比较大；当用户心情低落的时候，用户可能将智能终端的画面调整的比较暗，声音也可能比较小。并且，对于老人、大人、小孩子等不同年龄的用户，在相同心情下，对图像模式和声音模式等播放参数的需求也不一样。

但是，在用户的心情不同时，智能终端的播放参数只能通过用户进行手动调整，而不能根据用户的身份以及心情进行自动调节，导致播放参数的调整过程不够智能，缺乏人性化，影响用户体验。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于声纹识别的视频参数调整方法、装置及可读存储介质，旨在解决智能终端的播放参数不能根据用户的身份以及心情进行自动调节的技术问题。

为实现上述目的，本发明提供一种基于声纹识别的视频参数调整方法，所述基于声纹识别的视频参数调整方法包括以下步骤：

在智能终端播放视频节目时，接收声纹数据采集模块采集的音频信息；

在声纹特征库中存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息；

获取所述用户心情信息对应的参数调整模式的调整参数，以及基于所述用户身份信息获取所述参数调整模式对应的调整比例；

基于所述调整参数以及调整比例调整所述智能终端的视频播放参数。

进一步地，所述在声纹特征库中存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息的步骤包括：

确定所述音频信息对应的声纹特征向量；

确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量；

若存在，则基于目标特征向量对应的目标预设音频信息，确定所述音频信息对应的用户心情信息。

进一步地，所述确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

计算所述声纹特征库中各个预设音频信息对应的预设特征向量，与所述声纹特征向量之间的第一相似度；

确定所述第一相似度中的最大相似度是否大于第一预设相似度，其中，在所述第一相似度中的最大相似度大于第一预设相似度时，确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量，所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量。

进一步地，所述确定所述音频信息对应的声纹特征向量的步骤包括：

基于预设时间窗，按照预设频率对所述音频信息进行采样，以获得采样数据；

根据所述采样数据生成所述声纹特征向量。

进一步地，所述声纹特征向量包括音调特征向量、响度特征向量和音色特征向量，所述确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

计算各个所述预设特征向量中的预设音色特征向量，与所述音色特征向量之间的第二相似度；

在所述第二相似度中的最大相似度大于第二预设相似度时，确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息，并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量，其中，所述参数调整模式包括增强模式、中间模式以及减弱模式；

计算所述音调特征向量与所述预设音调特征向量之间的第三相似度，以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度；

基于所述第三相似度以及所述第四相似度，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量。

进一步地，所述基于所述第三相似度以及所述第四相似度，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

基于所述第三相似度以及所述第四相似度，计算各个所述参数调整模式对应的第五相似度；

确定所述第五相似度中的最大相似度是否大于第三预设相似度，其中，在所述第五相似度中的最大相似度大于第三预设相似度时，确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量，所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。

进一步地，所述在存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户心情信息的步骤包括：

发送所述音频信息至云服务器，以供所述云服务器确定所述音频信息对应的声纹特征信息，查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户身份信息以及用户心情信息；

接收所述云服务器反馈的所述用户身份信息以及用户心情信息。

进一步地，所述接收声纹数据采集模块采集的音频信息步骤之后，所述基于声纹识别的视频参数调整方法还包括：

在声纹特征库中不存在所述音频信息对应的目标预设音频信息时，对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息；

将所述音频信息作为预设音频信息，并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。

此外，为实现上述目的，本发明还提供一种基于声纹识别的视频参数调整装置，所述基于声纹识别的视频参数调整装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹识别的视频参数调整程序，所述基于声纹识别的视频参数调整程序被所述处理器执行时实现前述的基于声纹识别的视频参数调整方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有基于声纹识别的视频参数调整程序，所述基于声纹识别的视频参数调整程序被处理器执行时实现前述的基于声纹识别的视频参数调整方法的步骤。

本发明通过在智能终端播放视频节目时，接收声纹数据采集模块采集的音频信息，接着在声纹特征库中存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息，而后获取所述用户心情信息对应的参数调整模式的调整参数，以及基于所述用户身份信息获取所述参数调整模式对应的调整比例，然后基于所述调整参数以及调整比例调整所述智能终端的视频播放参数，能够根据音频信息对应的用户身份信息以及用户心情信息自动调节智能终端的视频播放参数，进而实现智能终端的视频播放参数的智能调节，提高了用户体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中基于声纹识别的视频参数调整装置的结构示意图；

图2为本发明基于声纹识别的视频参数调整方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中基于声纹识别的视频参数调整装置的结构示意图。

本发明实施例基于声纹识别的视频参数调整装置可以是智能电视，也可以是PC、智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该基于声纹识别的视频参数调整装置可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，基于声纹识别的视频参数调整装置还可以包括摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度；当然，基于声纹识别的视频参数调整装置还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的基于声纹识别的视频参数调整装置结构并不构成对基于声纹识别的视频参数调整装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于声纹识别的视频参数调整程序。

在图1所示的基于声纹识别的视频参数调整装置中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于声纹识别的视频参数调整程序。

在本实施例中，基于声纹识别的视频参数调整装置包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的基于声纹识别的视频参数调整程序，其中，处理器1001调用存储器1005中存储的基于声纹识别的视频参数调整程序时，并执行以下基于声纹识别的视频参数调整方法的各个实施例中的操作。

本发明还提供一种基于声纹识别的视频参数调整方法，参照图2，图2为本发明基于声纹识别的视频参数调整方法第一实施例的流程示意图。

该基于声纹识别的视频参数调整方法包括：

步骤S100，在智能终端播放视频节目时，接收声纹数据采集模块采集的音频信息；

在本实施例中，声纹数据采集模块可设置在智能终端、或者该声纹数据采集模块可以为麦克风等单独的声音采集设备，即声纹数据采集模块基于远场语音的当时采集音频信息，以使该音频信息仅包括用户的语音信息。

在智能终端播放视频节目时，当声纹数据采集模块采集到音频信息时，将预设时长内采集的音频信息发送至智能终端，该智能终端接收声纹数据采集模块采集的音频信息。若该声纹数据采集模块设置在智能终端中，则该声纹数据采集模块采集的音频信息中混合有智能终端所输出的音频信号，此时，基于该预设时长所对应的智能终端所输出的音频信号，对接收到的音频信息进行过滤，并确定是否存在所述音频信息对应的目标预设音频信息。

步骤S200，在声纹特征库中存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息；

在本实施例中，在接收到该音频信息时，确定是否存在该音频信息对应的目标预设音频信息，即判断是否存在与该音频信息匹配的预设音频信息，并在声纹特征库中存在该音频信息对应的目标预设音频信息时，基于该目标预设音频信息，确定该音频信息对应的用户身份信息以及用户心情信息，其中，该用户身份信息包括该音频信息所对应的用户的年龄、性别信息。

具体地，该智能终端设有声纹特征库，该声纹特征库中存储有该智能终端所属家庭中的各个成员所对应的各种心情的预设音频信息，声纹特征库中存储有预设音频信息，以及该预设音频信息对应的用户身份信息与用户心情信息，在获取到音频信息时，可确定声纹特征库中是否存在与该音频信息匹配的预设音频信息即目标预设音频信息，若存在，该目标预设音频信息所对应的用户身份信息与用户心情信息，即为音频信息对应的用户身份信息以及用户心情信息。

步骤S300，获取所述用户心情信息对应的参数调整模式的调整参数，以及基于所述用户身份信息获取所述参数调整模式对应的调整比例；

在本实施例中，该智能终端存储有各种用户心情信息对应的参数调整模式，参数调整模式包括视频播放参数的调整参数，对于不同的用户，该智能终端还存储有各种用户身份信息对应的调整比例，在确定用户身份信息以及用户心情信息时，获取该用户心情信息对应的参数调整模式的调整参数，并根据用户身份信息获取调整比例。

参数调整模式包括增强模式、中间模式以及减弱模式。

其中，增强模式包括图像增强模式和声音增强模式，增强模式的调整参数包括图像增强模式的调整参数和声音增强模式的调整参数，图像增强模式的调整参数包括按照第一比例增大对比度和亮度、调整色调为暖色调、按照第二比例增加饱和度、或按照第三比例提高清晰度，声音增强模式的调整参数包括按照第四比例提高音量、按照第五比例加大重低音、按照第六比例提升高低音或开启环绕声。

中间模式包括图像中间模式和声音中间模式，中间模式的调整参数包括图像中间模式的调整参数和声音中间模式的调整参数，图像中间模式的调整参数包括分别调整对比度预设中间对比度和亮度至预设中间亮度、调整色调为正常色调、调整饱和度至正常色彩饱和度、或调整清晰度至预设中间清晰度，声音中间模式的调整参数包括调整音量至预设中间音量、调整重低音至预设中间重低音、调整高低音至预设中间高低音、或开启环绕声。

减弱模式包括图像减弱模式和声音减弱模式，减弱模式的调整参数包括图像减弱模式的调整参数和声音减弱模式的调整参数，图像减弱模式的调整参数包括按照第七比例降低对比度和亮度、调整色调为冷色调、按照第把比例降低饱和度、或按照第九比例降低清晰度，声音减弱模式的调整参数包括按照第十比例降低音量、按照第十一比例降低重低音、按照第十二比例降低高低音或关闭环绕声。

其中，上述第一比例至第十二比例可以进行合理设置，当然也可以相同。

用户身份信息包括大人、小孩子以及老人，由于老人的听力和视力比大人弱，小孩的听力和视力比大人强，因此对于不同的用户身份信息设置不同的调整比例。

步骤S400，基于所述调整参数以及调整比例调整所述智能终端的视频播放参数。

在本实施例中，在获取到调整参数以及调整比例时，基于该调整参数以及调整比例调整智能电视的视频播放参数。

具体地，若该参数调整模式为增强模式，若该用户身份信息为大人，则该调整比例为100％，进而直接根据调整参数调整视频播放参数，若该用户身份信息为小孩子，则该调整比例可以为80％，若该用户身份信息为老人，则该调整比例可以为120％，例如，调整参数按照第一比例(20％)增大对比度和亮度，若该用户身份信息为大人，则将该智能终端的对比度和亮度增大20％，若该用户身份信息为小孩子，则将该智能终端的对比度和亮度增大16％(20％*80％*100％)，若该用户身份信息为老人，则将该智能终端的对比度和亮度增大24％(20％*120％*100％)。

若该参数调整模式为减弱模式，若该用户身份信息为大人，则该调整比例为100％，若该用户身份信息为小孩子，则该调整比例可以为120％，若该用户身份信息为老人，则该调整比例可以为80％，例如，调整参数按照第七比例(20％)降低对比度和亮度，若该用户身份信息为大人，则将该智能终端的对比度和亮度降低20％(20％*100％)，若该用户身份信息为小孩子，则将该智能终端的对比度和亮度降低24％(20％*120％*100％)，若该用户身份信息为老人，则将该智能终端的对比度和亮度降低16％(20％*80％*100％)。

由于老人的听力和视力比大人弱，小孩的听力和视力比大人强，通过上述调整能够保证调整后的视频播放参数对于大小依次为老人大于大人大于小孩子。

本实施例提出的基于声纹识别的视频参数调整方法，通过在智能终端播放视频节目时，接收声纹数据采集模块采集的音频信息，接着在声纹特征库中存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息，而后获取所述用户心情信息对应的参数调整模式的调整参数，以及基于所述用户身份信息获取所述参数调整模式对应的调整比例，然后基于所述调整参数以及调整比例调整所述智能终端的视频播放参数，能够根据音频信息对应的用户身份信息以及用户心情信息自动调节智能终端的视频播放参数，进而实现智能终端的视频播放参数的智能调节，提高了用户体验。

基于第一实施例，提出本发明基于声纹识别的视频参数调整方法的第二实施例，在本实施例中，步骤S200包括：

步骤S210，确定所述音频信息对应的声纹特征向量；

步骤S220，确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量；

步骤S230，若存在，则基于目标特征向量对应的目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息。

在本实施例中，该智能终端设有声纹特征库，该声纹特征库中存储有该智能终端所属家庭中的各个成员所对应的各种心情的预设音频信息，声纹特征库中存储有预设音频信息对应的预设特征向量，以及该预设音频信息对应的用户心情信息与用户身份信息。

由于语音信号是一种短时平稳信号和长时非平稳信号，其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。但是，发声器官的运动又存在一定的惯性，所以在短时间内，语音信号类似于一个平稳信号，短时间一般范围在10到30毫秒之间，因此，预设时间窗可以设置为15-20毫秒的时间窗。

在接收到音频信息时，该智能终端确定该音频信息对应的声纹特征向量，具体地，该智能终端基于预设时间窗，按照预设频率对音频信息进行采样，并根据采样数据生成声纹特征向量，具体地，首先按照预设时间窗对该语音信息进行加窗处理，得到预设时间窗内的语音信息，并按照预设频率(例如8KHz)对该预设时间窗内的语音信息进行采样，得到多个采样点数据，基于该采样点数据生成声纹特征向量，即将每一个采样点数据作为一个向量的元素得到该声纹特征向量。

在确定声纹特征向量时，并确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与该声纹特征向量匹配的目标特征向量。具体地，计算该声纹特征向量与各个预设特征向量之间的第一相似度，该相似度为声纹特征向量与各个预设特征向量之间的余弦值，基于第一相似度确定目标特征向量。

若存在目标特征向量，则基于目标特征向量对应的目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息，具体地，将该目标预设音频信息所对应的用户身份信息以及用户心情信息，作为该音频信息对应的用户身份信息以及用户心情信息。

本实施例提出的基于声纹识别的视频参数调整方法，通过确定所述音频信息对应的声纹特征向量；接着确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量，而后若存在，则基于目标特征向量对应的目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息，进而根据目标特征向量准确获得用户身份信息以及用户心情信息，提高了根据音频信息调节智能终端的视频播放参数的准确性，进一步提高了用户体验。

基于第二实施例，提出本发明基于声纹识别的视频参数调整方法的第三实施例，在本实施例中，步骤S220包括：

步骤S221，计算所述声纹特征库中各个预设音频信息对应的预设特征向量，与所述声纹特征向量之间的第一相似度；

步骤S222，确定所述第一相似度中的最大相似度是否大于第一预设相似度，其中，在所述第一相似度中的最大相似度大于第一预设相似度时，确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量，所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量。

在本实施例中，在获取到音频信息对应的声纹特征向量时，计算预设特征向量与该声纹特征向量之间的第一相似度，即依次计算每一个预设特征向量与该声纹特征向量之间的相似度，得到第一相似度，其中，该第一相似度为声纹特征向量与各个预设特征向量之间的余弦值。

在得到第一相似度时，对第一相似度中的各个相似度进行比较，以得到第一相似度中的最大相似度，判断该第一相似度中的最大相似度是否大于第一预设相似度，其中，若第一相似度中的最大相似度大于第一预设相似度，则确定声纹特征库中存在与声纹特征向量匹配的目标特征向量，该第一相似度中的最大相似度所对应的预设声纹特征向量为目标特征向量。

其中，第一预设相似度可进行合理设置，例如该第一预设相似度为80％。

在本实施例中，若第一相似度中的最大相似度小于或等于第一预设相似度，确定声纹特征库中不存在与声纹特征向量匹配的目标特征向量，进而确定声纹特征库中不存在所述音频信息对应的目标预设音频信息。

本实施例提出的基于声纹识别的视频参数调整方法，通过计算所述声纹特征库中各个预设音频信息对应的预设特征向量，与所述声纹特征向量之间的第一相似度，接着确定所述第一相似度中的最大相似度是否大于第一预设相似度，其中，在所述第一相似度中的最大相似度大于第一预设相似度时，确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量，所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量，进而能够根据第一相似度准确获得用户身份信息以及用户心情信息，提高了根据音频信息调节智能终端的视频播放参数的准确性，进一步提高了用户体验。

基于第二实施例，提出本发明基于声纹识别的视频参数调整方法的第四实施例，在本实施例中，步骤S210包括：

步骤S211，基于预设时间窗，按照预设频率对所述音频信息进行采样，以获得采样数据；

步骤S212，根据所述采样数据生成所述声纹特征向量。

在本实施例中，在接收到音频信息时，该智能终端基于预设时间窗，按照预设频率对音频信息进行采样，并根据采样数据生成声纹特征向量，具体地，首先按照预设时间窗对该语音信息进行加窗处理，得到预设时间窗内的语音信息，并按照预设频率(例如8KHz)对该预设时间窗内的语音信息进行采样，得到多个采样点数据，基于该采样点数据生成声纹特征向量，即将每一个采样点数据作为一个向量的元素得到该声纹特征向量。

本实施例提出的基于声纹识别的视频参数调整方法，通过基于预设时间窗，按照预设频率对所述音频信息进行采样，以获得采样数据，接着根据所述采样数据生成所述声纹特征向量，进而能够根据预设时间窗以及预设频率准确得到声纹特征向量，提高了根据音频信息调节智能终端的视频播放参数的准确性，进一步提高了用户体验。

基于第二实施例，提出本发明基于声纹识别的视频参数调整方法的第五实施例，在本实施例中，声纹特征向量包括音调特征向量、响度特征向量和音色特征向量，步骤S220包括：

步骤S223，计算各个所述预设特征向量中的预设音色特征向量，与所述音色特征向量之间的第二相似度；

步骤S224，在所述第二相似度中的最大相似度大于第二预设相似度时，确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息，并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量，其中，所述参数调整模式包括增强模式、中间模式以及减弱模式；

步骤S225，计算所述音调特征向量与所述预设音调特征向量之间的第三相似度，以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度；

步骤S226，基于所述第三相似度以及所述第四相似度，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量。

在本实施例中，该声纹特征库的预设特征向量包括预设音调特征向量、预设响度特征向量和预设音色特征向量。在音频信息对应得到多个采样点数据时，基于该采样点数据生成音调特征向量、响度特征向量和音色特征向量，或者，预设时间窗内的语音信息进行处理得到音调信息、响度信息以及音色信息，并分别进行采样，而后得到音调特征向量、响度特征向量和音色特征向量。

由于，音色是最能反映一个人身份信息的属性，同心情平和时相比，心情低落时，语音信息的响度和音调会明显下降，心情愉悦时，语音信息的响度和音调会明显上升，而不同心情时语音信息的音色不会有明显的变化。

因此，在本实施例中，计算各个所述预设特征向量中的预设音色特征向量，与所述音色特征向量之间的第二相似度，该第二相似度的计算方式与第一相似度的计算方式类似，即该第二相似度为音色特征向量与各个预设音色特征向量之间的余弦值；而后对比第二相似度中的各个相似度，确定第二相似度中的最大相似度，若该第二相似度中的最大相似度大于第二预设相似度，则确定第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息，并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量，其中，所述参数调整模式包括增强模式、中间模式以及减弱模式，参数调整模式分别对应不同的用户心情信息。

而后，计算音调特征向量与所述预设音调特征向量之间的第三相似度，以及计算响度特征向量与所述预设响度特征向量之间的第四相似度，其中，该第三相似度为音调特征向量与各个预设音调特征向量之间的余弦值，该第四相似度为响度特征向量与各个预设响度特征向量之间的余弦值；而后基于所述第三相似度以及所述第四相似度，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量。

进一步地，在一实施例中，在第二相似度中的最大相似度小于或等于第二预设相似度时，确定声纹特征库中不存在与声纹特征向量匹配的目标特征向量，进而确定声纹特征库中不存在所述音频信息对应的目标预设音频信息。本实施例提出的基于声纹识别的视频参数调整方法，通过计算各个所述预设特征向量中的预设音色特征向量，与所述音色特征向量之间的第二相似度；接着在所述第二相似度中的最大相似度大于第二预设相似度时，确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息，并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量，其中，所述参数调整模式包括增强模式、中间模式以及减弱模式；而后计算所述音调特征向量与所述预设音调特征向量之间的第三相似度，以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度；然后基于所述第三相似度以及所述第四相似度，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量，实现了根据音色特征向量、音调特征向量和响度特征向量准确确定目标特征向量，进一步提高了根据音频信息调节智能终端的视频播放参数的准确性，进一步提高了用户体验。

基于第五实施例，提出本发明基于声纹识别的视频参数调整方法的第六实施例，在本实施例中，步骤S226包括：

步骤S2261，基于所述第三相似度以及所述第四相似度，计算各个所述参数调整模式对应的第五相似度；

步骤S2262，确定所述第五相似度中的最大相似度是否大于第三预设相似度，其中，在所述第五相似度中的最大相似度大于第三预设相似度时，确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量，所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。

在本实施例中，在获得第三相似度以及第四相似度时，计算各个所述参数调整模式对应的第五相似度，具体地，根据第三相似度对应的第一权值以及第四相似度第二权值计算第五相似度，例如，对于每一个参数调整模式，该第五相似度＝第三相似度*第一权值+第四相似度*第二权值，其中，该第一权值与第二权值之和为1，该第一权值可以为0.5、0.6、0.8等。

在得到第五相似度时，确定该第五相似度中的最大相似度，并判断该第五相似度中的最大相似度是否大于第三预设相似度，若第五相似度中的最大相似度大于第三预设相似度，则确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量，该第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。

进一步地，在一实施例中，在第五相似度中的最大相似度小于或等于第三预设相似度时，确定声纹特征库中不存在与声纹特征向量匹配的目标特征向量，进而确定声纹特征库中不存在所述音频信息对应的目标预设音频信息。

本实施例提出的基于声纹识别的视频参数调整方法，通过基于所述第三相似度以及所述第四相似度，计算各个所述参数调整模式对应的第五相似度，接着确定所述第五相似度中的最大相似度是否大于第三预设相似度，其中，在所述第五相似度中的最大相似度大于第三预设相似度时，确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量，所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量，实现了根据第五相似度准确确定目标特征向量，进一步提高了根据音频信息调节智能终端的视频播放参数的准确性，进一步提高了用户体验。

基于第一实施例，提出本发明基于声纹识别的视频参数调整方法的第七实施例，在本实施例中，步骤S200包括：

步骤S240，发送所述音频信息至云服务器，以供所述云服务器确定所述音频信息对应的声纹特征信息，查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户身份信息以及用户心情信息；

步骤S250，接收所述云服务器反馈的所述用户身份信息以及用户心情信息。

在本实施例中，还可以将音频信息发送至云服务器，以使云服务器根据该音频信息反馈用户身份信息以及用户心情信息，其中，云服务器根据音频信息得到用户身份信息以及用户心情信息的流程与上述实施例中的流程类似，在此不在赘述。

本实施例提出的基于声纹识别的视频参数调整方法，通过发送所述音频信息至云服务器，以供所述云服务器确定所述音频信息对应的声纹特征信息，查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户心情信息，接着接收所述云服务器反馈的所述用户心情信息，能够通过云服务器准确获得用户身份信息以及用户心情信息，提高了根据音频信息调节智能终端的视频播放参数的准确性，进一步提高了用户体验。

基于上述实施例，提出本发明基于声纹识别的视频参数调整方法的第八实施例，在本实施例中，在步骤S100之后，该基于声纹识别的视频参数调整方法还包括：

步骤S500，在声纹特征库中不存在所述音频信息对应的目标预设音频信息时，对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息；

步骤S600，将所述音频信息作为预设音频信息，并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。

在本实施例中，还可以根据音频信息得到声纹特征向量，或者得到音调特征向量、响度特征向量和音色特征向量，并与音频信息关联存储，其中，声纹特征向量的获取流程与上述实施例类似，在此不在赘述。

在获取到用户身份信息以及用户心情信息，该智能终端还可以输出该用户身份信息以及用户心情信息，以供用户确认，并在接收到用户的确认指令时，将所述音频信息作为预设音频信息，并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。

需要说明的是，在关联存储之后，还可以输出用户其他心情信息的设置信息，以使用户按照其他心情信息说话，并根据当前获得的音频信息执行步骤S500。

本实施例提出的基于声纹识别的视频参数调整方法，通过在声纹特征库中不存在所述音频信息对应的目标预设音频信息时，对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息，将所述音频信息作为预设音频信息，并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库，实现了根据音频信息在声纹特征库更新预设音频信息，进而能够完善声纹特征库，进一步提高了用户体验。

此外，本发明实施例还提出一种可读存储介质，所述可读存储介质上存储有基于声纹识别的视频参数调整程序，所述基于声纹识别的视频参数调整程序被处理器执行时实现如上述中任一项所述的基于声纹识别的视频参数调整方法的步骤。

本发明可读存储介质具体实施例与上述基于声纹识别的视频参数调整方法的各实施例基本相同，在此不再详细赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于声纹识别的视频参数调整方法，其特征在于，所述基于声纹识别的视频参数调整方法包括以下步骤：

基于所述调整参数以及调整比例调整所述智能终端的视频播放参数；

其中，所述在声纹特征库中存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息的步骤包括：

确定所述音频信息对应的声纹特征向量；

若存在，则基于目标特征向量对应的目标预设音频信息，确定所述音频信息对应的用户身份信息以及用户心情信息；

所述声纹特征向量包括音调特征向量、响度特征向量和音色特征向量，所述确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

在所述第二相似度中的最大相似度大于第二预设相似度时，基于所述最大相似度获取参数调整模式对应的预设音调特征向量以及预设响度特征向量，并基于所述响度特征向量、音色特征向量、预设音调特征向量以及预设响度特征向量，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量。

2.如权利要求1所述的基于声纹识别的视频参数调整方法，其特征在于，所述确定声纹特征库的预设音频信息对应的预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

3.如权利要求1所述的基于声纹识别的视频参数调整方法，其特征在于，所述确定所述音频信息对应的声纹特征向量的步骤包括：

根据所述采样数据生成所述声纹特征向量。

4.如权利要求1所述的基于声纹识别的视频参数调整方法，其特征在于，所述在所述第二相似度中的最大相似度大于第二预设相似度时，基于所述最大相似度获取参数调整模式对应的预设音调特征向量以及预设响度特征向量，并基于所述响度特征向量、音色特征向量、预设音调特征向量以及预设响度特征向量，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

5.如权利要求4所述的基于声纹识别的视频参数调整方法，其特征在于，所述基于所述第三相似度以及所述第四相似度，确定预设特征向量中，是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括：

6.如权利要求1所述的基于声纹识别的视频参数调整方法，其特征在于，所述在存在所述音频信息对应的目标预设音频信息时，基于所述目标预设音频信息，确定所述音频信息对应的用户心情信息的步骤包括：

7.如权利要求1至6任一项所述的基于声纹识别的视频参数调整方法，其特征在于，所述接收声纹数据采集模块采集的音频信息步骤之后，所述基于声纹识别的视频参数调整方法还包括：

8.一种基于声纹识别的视频参数调整装置，其特征在于，所述基于声纹识别的视频参数调整装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹识别的视频参数调整程序，所述基于声纹识别的视频参数调整程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于声纹识别的视频参数调整方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有基于声纹识别的视频参数调整程序，所述基于声纹识别的视频参数调整程序被处理器执行时实现如权利要求1至7中任一项所述的基于声纹识别的视频参数调整方法的步骤。