CN115243104A

CN115243104A - 一种自动调节车载多媒体音量的方法及***

Info

Publication number: CN115243104A
Application number: CN202111438420.4A
Authority: CN
Inventors: 庞健宇; 李太华; 刘涵昱; 张亚; 陈俊伊; 于成龙
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-10-25

Abstract

本发明公开一种自动调节车载多媒体音量的方法及***，其中，方法包括：步骤S1，乘员监控***监控到乘员嘴部开合时，根据实时嘴型获取对应的特征音频，并将所述特征音频随监控信号发送至车载语音识别***；步骤S2，车载语音识别***接收所述乘员监控***发送的监控信号，将车内实时音频与所述特征音频进行重合度比对；步骤S3，在所述车内实时音频与所述特征音频的重合度达到预设阈值时，车载语音识别***触发降低车载多媒体设备播放音频的音量。本发明无需识别具体嘴型组合可能输出的句子，仅需要根据实时嘴型输出特征音频，用以与车内实时音频进行重合度比对，可以快速地、自动响应音量调节的需求，提高乘车体验。

Description

一种自动调节车载多媒体音量的方法及***

技术领域

本发明属于智能网联汽车技术领域，具体涉及一种自动调节车载多媒体音量的方法及***。

背景技术

当前的智能车舱技术中，OMS(Occupancy Monitoring System，乘员监控***)已经逐步普及，但是相关的功能相对较少，仅有抽烟自动开窗、车内遗留物品提醒、乘客情绪监控、以及基础手势识别等功能，丰富度相对不足。不少车厂配置OMS属于硬件预留，尚未有丰富的相关功能与完善的发展规划。

在乘车过程中，如果在车内播放音乐时乘客与驾驶员发生对话，往往会出现第一句话无法听清，需要手动调整降低音乐/多媒体音量以完成对话的场景，对话结束后也往往不会再手动调高音量；整体会对乘客间对话与听音乐的体验产生影响。虽然车内语音识别已经开始应用，但当前的车内语音识别技术无法正确识别出车内环境中发出的声音是否属于乘客交流产生的声音，且未用唤醒词进行唤醒前，不会实时监控语音内容。因此，仅依靠车内语音识别技术无法实现自动降低升高背景音乐媒体音量的功能。

发明内容

本发明实施例所要解决的技术问题在于，提供一种自动调节车载多媒体音量的方法及***，以提高乘车体验。

为解决上述技术问题，本发明提供一种自动调节车载多媒体音量的方法，包括：

步骤S1，乘员监控***监控到乘员嘴部开合时，根据实时嘴型获取对应的特征音频，并将所述特征音频随监控信号发送至车载语音识别***；

步骤S2，车载语音识别***接收所述乘员监控***发送的监控信号，将车内实时音频与所述特征音频进行重合度比对；

步骤S3，在所述车内实时音频与所述特征音频的重合度达到预设阈值时，车载语音识别***触发降低车载多媒体设备播放音频的音量。

进一步地，所述步骤S1中，根据实时嘴型获取对应的特征音频具体是将实时嘴型输入到训练好的神经网络，输出与所述实时嘴型对应的特征音频，所述神经网络通过将标准发音视频处理得到的嘴型特征数据集、从标准发音视频中提取出的语音特征作为输入进行训练。

进一步地，所述步骤S2中，车载语音识别***将车内实时音频与所述特征音频进行重合度比对具体是将所述车内实时音频的波形与所述特征音频的波形进行重合度对比，包括对特征音频的波形进行拉伸与收缩，与车内实时音频的波形进行匹配；所述步骤S3中，在波峰的重合度达到预设阈值时，车载语音识别***识别为车内乘员正在说话，并触发降低车载多媒体设备播放音频的音量。

进一步地，所述步骤S2还包括：车载语音识别***将车载多媒体设备播放的音频与所述特征音频进行重合度比对；所述步骤S3还包括：在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时，车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量。

进一步地，如果所述步骤S1未监控到乘员嘴部开合，或者在所述步骤S2将车内实时音频与所述特征音频进行重合度比对时，所述车内实时音频与所述特征音频的重合度未达到预设阈值，所述步骤S3还包括：车载语音识别***比较车内噪音能量与车载多媒体设备播放的音频能量大小，并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。

进一步地，所述步骤S1中，如果多个乘员监控***均监控到对应的乘员嘴部开合，则所述步骤S2中，车载语音识别***将各乘员监控***发送的特征音频进行叠加，然后将车内实时音频与叠加后的特征音频进行重合度比对。

进一步地，所述步骤S3之后还包括：乘员监控***没有监控到乘员嘴部开合，车载语音识别***触发提高车载多媒体设备播放音频的音量到初始音量。

本发明还提供一种自动调节车载多媒体音量的***，包括乘员监控***和车载语音识别***，

所述乘员监控***用于在监控到乘员嘴部开合时，根据实时嘴型获取对应的特征音频，并将所述特征音频随监控信号发送至所述车载语音识别***；

所述车载语音识别***用于接收所述乘员监控***发送的监控信号，将车内实时音频与所述特征音频进行重合度比对；并在所述车内实时音频与所述特征音频的重合度达到预设阈值时，触发降低车载多媒体设备播放音频的音量。

进一步地，所述车载语音识别***还用于将车载多媒体设备播放的音频与所述特征音频进行重合度比对，并在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时，触发降低车载多媒体设备播放的音频中人声的音量。

进一步地，如果所述乘员监控***未监控到乘员嘴部开合，或者在将车内实时音频与所述特征音频进行重合度比对时，所述车内实时音频与所述特征音频的重合度未达到预设阈值，所述车载语音识别***还用于比较车内噪音能量与车载多媒体设备播放的音频能量大小，并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。

实施本发明具有如下有益效果：本发明无需识别具体嘴型组合可能输出的句子，仅需要根据实时嘴型输出特征音频，用以与车内实时音频进行重合度比对，降低了对算力的要求，可以快速地、自动响应音频音量调节的需求，提高乘车体验；还能根据车内噪音水平自适应调节音频音量，减少噪音对乘员间沟通交流的影响；在乘员语音沟通完成后恢复车载多媒体设备播放音频的音量，不影响乘车时继续收听车载多媒体设备播放音频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一一种自动调节车载多媒体音量的方法的流程示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例一提供一种自动调节车载多媒体音量的方法，包括：

具体地，步骤S1中，乘员监控***OMS实时监控乘员嘴型，乘员出现嘴部开合即根据实时嘴型获取可能的特征音频。可以理解的是，根据实时嘴型获取特征音频需要前期预学习(机器学习)，属于图像识别领域，具体来说，一种预学习方式是：将标准发音视频处理，使其帧率相等，例如均为30f/s，跟踪视频中的人脸并提取嘴部区域，将所有嘴部区域都调整为相同的大小，并拼接起来以15帧作为样本(sample)单位形成嘴型特征数据集，将这些嘴型特征数据集输入到一耦合3D卷积神经网络；同时，使用例如FFmpeg框架从标准发音视频中提取出语音特征，并使语音特征与嘴型特征在所需的持续时间内相对应，将语音特征输入至前述耦合3D卷积神经网络，通过训练最终得到训练好的神经网络。在具体应用时，乘员监控***监控到乘员嘴部开合，将实时嘴型输入到训练好的神经网络，则将输出与该实时嘴型对应的特征音频，作为后续步骤的比对对象。需要说明的是，现有的唇语识别模型通常是将连续嘴唇图片帧转换为汉字语句的汉字序列(中间可以先将连续嘴唇图片帧映射为拼音语句的拼音序列，再从拼音语句的拼音序列翻译为汉字语句的汉字序列)，因此，可以对唇语识别模型的输入数据做出改变，以语音特征替代汉字序列，从而应用于本实施例中。当然，本发明实施例无需根据嘴型输出语句，降低了对算力的要求。

步骤S2中，车载语音识别***接收到OMS的信号即开始监控车内声音，获得车内实时音频。车载语音识别***将车内实时音频与所述特征音频进行重合度比对，具体是对比车内实时音频的波形与OMS给出的特征音频的波形的重合度。对特征音频的波形进行拉伸与收缩，对车内实时音频的波形进行匹配，找出最高重合度；若波峰的重合度达到预设阈值(例如70％)，则识别为车内乘员正在说话，车载语音识别***触发调整车载多媒体音量下降。

进一步地，步骤S2还包括：车载语音识别***将车载多媒体设备播放的音频与特征音频进行重合度比对；所述步骤S3还包括：在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时，车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量。在乘车过程中，车载多媒体设备可能正在播放音乐，此时乘员如果开口跟唱，乘员监控***将根据监控到的乘员实时嘴型获取对应的特征音频，并将该特征音频发送至车载语音识别***，车载语音识别***将车载多媒体设备播放的音频与该特征音频进行重合度比对；在车载多媒体设备播放的音频与特征音频的重合度达到预设阈值时，车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量，从而营造出伴唱场景，给乘员带来伴唱体验。

在步骤S2将车内实时音频与所述特征音频进行重合度比对时，如果步骤S1未监控到乘员嘴部开合，或者车内实时音频与OMS发送的特征音频的重合度未达到预设阈值，步骤S3中，车载语音识别***会根据车内噪音能量与车载多媒体设备播放的音频能量大小关系调整车载多媒体设备播放的音频音量，具体方式是：车载语音识别***比较车内噪音能量与车载多媒体设备播放的音频能量大小，并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。也就是说，在前述场景下，本实施例的语音识别***会根据车内噪音水平对应调整车内车载多媒体设备播放的音频(例如音乐、歌曲等)音量，减少噪声的影响。

此外，由于乘员监控***针对车内每一乘员单独监控，如果存在多个乘员均被对应的乘员监控***监控到嘴部开合，则步骤S2中，车载语音识别***将各乘员监控***发送的特征音频进行叠加，然后将车内实时音频与叠加后的特征音频进行重合度比对。这样处理的好处在于，如果多个乘员小声聊天，根据单个乘员嘴型获取的特征音频，可能与车内实时音频的重合度达不到预设阈值(此时无法触发降低车载多媒体设备播放音频的音量)，经过对根据多个乘员嘴型分别获取的特征音频进行叠加后，叠加后的特征音频再与车内实时音频进行重合度比对，由此更易达到预设阈值，从而降低车载多媒体设备播放音频的音量，减少对乘员间沟通交流的影响。

可以理解的是，当乘员沟通交流完成后，乘员监控***没有监控到乘员嘴部开合，还包括：车载语音识别***触发提高车载多媒体设备播放音频的音量到初始音量。由于在所述车内实时音频与所述特征音频的重合度达到预设阈值时，车载语音识别***触发降低了车载多媒体设备播放音频的音量，因此，后续会将降低了的车载多媒体设备播放音频的音量提高到调整前的水平，这样整个音量调节过程均是自动化完成，在需要不打扰乘员语音沟通时调低车载多媒体设备播放音频的音量，语音沟通完成后恢复车载多媒体设备播放音频的音量，不影响乘车时继续收听车载多媒体设备播放音频。

相应于本发明实施例一所述一种自动调节车载多媒体音量的方法，本发明实施例二提供一种自动调节车载多媒体音量的***，包括乘员监控***和车载语音识别***，

有关本实施例的工作原理及过程，请参照前述本发明实施例一的说明，此处不再赘述。

通过上述说明可知，与现有技术相比，本发明的有益效果在于：本发明无需识别具体嘴型组合可能输出的句子，仅需要根据实时嘴型输出特征音频，用以与车内实时音频进行重合度比对，降低了对算力的要求，可以快速地、自动响应音频音量调节的需求，提高乘车体验；还能根据车内噪音水平自适应调节音频音量，减少噪音对乘员间沟通交流的影响；在乘员语音沟通完成后恢复车载多媒体设备播放音频的音量，不影响乘车时继续收听车载多媒体设备播放音频。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明的权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种自动调节车载多媒体音量的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，根据实时嘴型获取对应的特征音频具体是将实时嘴型输入到训练好的神经网络，输出与所述实时嘴型对应的特征音频，所述神经网络通过将标准发音视频处理得到的嘴型特征数据集、从标准发音视频中提取出的语音特征作为输入进行训练。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中，车载语音识别***将车内实时音频与所述特征音频进行重合度比对具体是将所述车内实时音频的波形与所述特征音频的波形进行重合度对比，包括对特征音频的波形进行拉伸与收缩，与车内实时音频的波形进行匹配；所述步骤S3中，在波峰的重合度达到预设阈值时，车载语音识别***识别为车内乘员正在说话，并触发降低车载多媒体设备播放音频的音量。

4.根据权利要求3所述的方法，其特征在于，所述步骤S2还包括：车载语音识别***将车载多媒体设备播放的音频与所述特征音频进行重合度比对；所述步骤S3还包括：在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时，车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量。

5.根据权利要求3所述的方法，其特征在于，如果所述步骤S1未监控到乘员嘴部开合，或者在所述步骤S2将车内实时音频与所述特征音频进行重合度比对时，所述车内实时音频与所述特征音频的重合度未达到预设阈值，所述步骤S3还包括：车载语音识别***比较车内噪音能量与车载多媒体设备播放的音频能量大小，并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。

6.根据权利要求1所述的方法，其特征在于，所述步骤S1中，如果多个乘员监控***均监控到对应的乘员嘴部开合，则所述步骤S2中，车载语音识别***将各乘员监控***发送的特征音频进行叠加，然后将车内实时音频与叠加后的特征音频进行重合度比对。

7.根据权利要求1所述的方法，其特征在于，所述步骤S3之后还包括：乘员监控***没有监控到乘员嘴部开合，车载语音识别***触发提高车载多媒体设备播放音频的音量到初始音量。

8.一种自动调节车载多媒体音量的***，其特征在于，包括乘员监控***和车载语音识别***，

9.根据权利要求8所述的***，其特征在于，所述车载语音识别***还用于将车载多媒体设备播放的音频与所述特征音频进行重合度比对，并在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时，触发降低车载多媒体设备播放的音频中人声的音量。

10.根据权利要求8所述的***，其特征在于，如果所述乘员监控***未监控到乘员嘴部开合，或者在将车内实时音频与所述特征音频进行重合度比对时，所述车内实时音频与所述特征音频的重合度未达到预设阈值，所述车载语音识别***还用于比较车内噪音能量与车载多媒体设备播放的音频能量大小，并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。