CN115243104A - 一种自动调节车载多媒体音量的方法及*** - Google Patents
一种自动调节车载多媒体音量的方法及*** Download PDFInfo
- Publication number
- CN115243104A CN115243104A CN202111438420.4A CN202111438420A CN115243104A CN 115243104 A CN115243104 A CN 115243104A CN 202111438420 A CN202111438420 A CN 202111438420A CN 115243104 A CN115243104 A CN 115243104A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- audio
- real
- characteristic
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012544 monitoring process Methods 0.000 claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种自动调节车载多媒体音量的方法及***,其中,方法包括:步骤S1,乘员监控***监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至车载语音识别***;步骤S2,车载语音识别***接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;步骤S3,在所述车内实时音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放音频的音量。本发明无需识别具体嘴型组合可能输出的句子,仅需要根据实时嘴型输出特征音频,用以与车内实时音频进行重合度比对,可以快速地、自动响应音量调节的需求,提高乘车体验。
Description
技术领域
本发明属于智能网联汽车技术领域,具体涉及一种自动调节车载多媒体音量的方法及***。
背景技术
当前的智能车舱技术中,OMS(Occupancy Monitoring System,乘员监控***)已经逐步普及,但是相关的功能相对较少,仅有抽烟自动开窗、车内遗留物品提醒、乘客情绪监控、以及基础手势识别等功能,丰富度相对不足。不少车厂配置OMS属于硬件预留,尚未有丰富的相关功能与完善的发展规划。
在乘车过程中,如果在车内播放音乐时乘客与驾驶员发生对话,往往会出现第一句话无法听清,需要手动调整降低音乐/多媒体音量以完成对话的场景,对话结束后也往往不会再手动调高音量;整体会对乘客间对话与听音乐的体验产生影响。虽然车内语音识别已经开始应用,但当前的车内语音识别技术无法正确识别出车内环境中发出的声音是否属于乘客交流产生的声音,且未用唤醒词进行唤醒前,不会实时监控语音内容。因此,仅依靠车内语音识别技术无法实现自动降低升高背景音乐媒体音量的功能。
发明内容
本发明实施例所要解决的技术问题在于,提供一种自动调节车载多媒体音量的方法及***,以提高乘车体验。
为解决上述技术问题,本发明提供一种自动调节车载多媒体音量的方法,包括:
步骤S1,乘员监控***监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至车载语音识别***;
步骤S2,车载语音识别***接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;
步骤S3,在所述车内实时音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放音频的音量。
进一步地,所述步骤S1中,根据实时嘴型获取对应的特征音频具体是将实时嘴型输入到训练好的神经网络,输出与所述实时嘴型对应的特征音频,所述神经网络通过将标准发音视频处理得到的嘴型特征数据集、从标准发音视频中提取出的语音特征作为输入进行训练。
进一步地,所述步骤S2中,车载语音识别***将车内实时音频与所述特征音频进行重合度比对具体是将所述车内实时音频的波形与所述特征音频的波形进行重合度对比,包括对特征音频的波形进行拉伸与收缩,与车内实时音频的波形进行匹配;所述步骤S3中,在波峰的重合度达到预设阈值时,车载语音识别***识别为车内乘员正在说话,并触发降低车载多媒体设备播放音频的音量。
进一步地,所述步骤S2还包括:车载语音识别***将车载多媒体设备播放的音频与所述特征音频进行重合度比对;所述步骤S3还包括:在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量。
进一步地,如果所述步骤S1未监控到乘员嘴部开合,或者在所述步骤S2将车内实时音频与所述特征音频进行重合度比对时,所述车内实时音频与所述特征音频的重合度未达到预设阈值,所述步骤S3还包括:车载语音识别***比较车内噪音能量与车载多媒体设备播放的音频能量大小,并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。
进一步地,所述步骤S1中,如果多个乘员监控***均监控到对应的乘员嘴部开合,则所述步骤S2中,车载语音识别***将各乘员监控***发送的特征音频进行叠加,然后将车内实时音频与叠加后的特征音频进行重合度比对。
进一步地,所述步骤S3之后还包括:乘员监控***没有监控到乘员嘴部开合,车载语音识别***触发提高车载多媒体设备播放音频的音量到初始音量。
本发明还提供一种自动调节车载多媒体音量的***,包括乘员监控***和车载语音识别***,
所述乘员监控***用于在监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至所述车载语音识别***;
所述车载语音识别***用于接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;并在所述车内实时音频与所述特征音频的重合度达到预设阈值时,触发降低车载多媒体设备播放音频的音量。
进一步地,所述车载语音识别***还用于将车载多媒体设备播放的音频与所述特征音频进行重合度比对,并在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时,触发降低车载多媒体设备播放的音频中人声的音量。
进一步地,如果所述乘员监控***未监控到乘员嘴部开合,或者在将车内实时音频与所述特征音频进行重合度比对时,所述车内实时音频与所述特征音频的重合度未达到预设阈值,所述车载语音识别***还用于比较车内噪音能量与车载多媒体设备播放的音频能量大小,并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。
实施本发明具有如下有益效果:本发明无需识别具体嘴型组合可能输出的句子,仅需要根据实时嘴型输出特征音频,用以与车内实时音频进行重合度比对,降低了对算力的要求,可以快速地、自动响应音频音量调节的需求,提高乘车体验;还能根据车内噪音水平自适应调节音频音量,减少噪音对乘员间沟通交流的影响;在乘员语音沟通完成后恢复车载多媒体设备播放音频的音量,不影响乘车时继续收听车载多媒体设备播放音频。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一一种自动调节车载多媒体音量的方法的流程示意图。
具体实施方式
以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。
请参照图1所示,本发明实施例一提供一种自动调节车载多媒体音量的方法,包括:
步骤S1,乘员监控***监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至车载语音识别***;
步骤S2,车载语音识别***接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;
步骤S3,在所述车内实时音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放音频的音量。
具体地,步骤S1中,乘员监控***OMS实时监控乘员嘴型,乘员出现嘴部开合即根据实时嘴型获取可能的特征音频。可以理解的是,根据实时嘴型获取特征音频需要前期预学习(机器学习),属于图像识别领域,具体来说,一种预学习方式是:将标准发音视频处理,使其帧率相等,例如均为30f/s,跟踪视频中的人脸并提取嘴部区域,将所有嘴部区域都调整为相同的大小,并拼接起来以15帧作为样本(sample)单位形成嘴型特征数据集,将这些嘴型特征数据集输入到一耦合3D卷积神经网络;同时,使用例如FFmpeg框架从标准发音视频中提取出语音特征,并使语音特征与嘴型特征在所需的持续时间内相对应,将语音特征输入至前述耦合3D卷积神经网络,通过训练最终得到训练好的神经网络。在具体应用时,乘员监控***监控到乘员嘴部开合,将实时嘴型输入到训练好的神经网络,则将输出与该实时嘴型对应的特征音频,作为后续步骤的比对对象。需要说明的是,现有的唇语识别模型通常是将连续嘴唇图片帧转换为汉字语句的汉字序列(中间可以先将连续嘴唇图片帧映射为拼音语句的拼音序列,再从拼音语句的拼音序列翻译为汉字语句的汉字序列),因此,可以对唇语识别模型的输入数据做出改变,以语音特征替代汉字序列,从而应用于本实施例中。当然,本发明实施例无需根据嘴型输出语句,降低了对算力的要求。
步骤S2中,车载语音识别***接收到OMS的信号即开始监控车内声音,获得车内实时音频。车载语音识别***将车内实时音频与所述特征音频进行重合度比对,具体是对比车内实时音频的波形与OMS给出的特征音频的波形的重合度。对特征音频的波形进行拉伸与收缩,对车内实时音频的波形进行匹配,找出最高重合度;若波峰的重合度达到预设阈值(例如70%),则识别为车内乘员正在说话,车载语音识别***触发调整车载多媒体音量下降。
进一步地,步骤S2还包括:车载语音识别***将车载多媒体设备播放的音频与特征音频进行重合度比对;所述步骤S3还包括:在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量。在乘车过程中,车载多媒体设备可能正在播放音乐,此时乘员如果开口跟唱,乘员监控***将根据监控到的乘员实时嘴型获取对应的特征音频,并将该特征音频发送至车载语音识别***,车载语音识别***将车载多媒体设备播放的音频与该特征音频进行重合度比对;在车载多媒体设备播放的音频与特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量,从而营造出伴唱场景,给乘员带来伴唱体验。
在步骤S2将车内实时音频与所述特征音频进行重合度比对时,如果步骤S1未监控到乘员嘴部开合,或者车内实时音频与OMS发送的特征音频的重合度未达到预设阈值,步骤S3中,车载语音识别***会根据车内噪音能量与车载多媒体设备播放的音频能量大小关系调整车载多媒体设备播放的音频音量,具体方式是:车载语音识别***比较车内噪音能量与车载多媒体设备播放的音频能量大小,并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。也就是说,在前述场景下,本实施例的语音识别***会根据车内噪音水平对应调整车内车载多媒体设备播放的音频(例如音乐、歌曲等)音量,减少噪声的影响。
此外,由于乘员监控***针对车内每一乘员单独监控,如果存在多个乘员均被对应的乘员监控***监控到嘴部开合,则步骤S2中,车载语音识别***将各乘员监控***发送的特征音频进行叠加,然后将车内实时音频与叠加后的特征音频进行重合度比对。这样处理的好处在于,如果多个乘员小声聊天,根据单个乘员嘴型获取的特征音频,可能与车内实时音频的重合度达不到预设阈值(此时无法触发降低车载多媒体设备播放音频的音量),经过对根据多个乘员嘴型分别获取的特征音频进行叠加后,叠加后的特征音频再与车内实时音频进行重合度比对,由此更易达到预设阈值,从而降低车载多媒体设备播放音频的音量,减少对乘员间沟通交流的影响。
可以理解的是,当乘员沟通交流完成后,乘员监控***没有监控到乘员嘴部开合,还包括:车载语音识别***触发提高车载多媒体设备播放音频的音量到初始音量。由于在所述车内实时音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低了车载多媒体设备播放音频的音量,因此,后续会将降低了的车载多媒体设备播放音频的音量提高到调整前的水平,这样整个音量调节过程均是自动化完成,在需要不打扰乘员语音沟通时调低车载多媒体设备播放音频的音量,语音沟通完成后恢复车载多媒体设备播放音频的音量,不影响乘车时继续收听车载多媒体设备播放音频。
相应于本发明实施例一所述一种自动调节车载多媒体音量的方法,本发明实施例二提供一种自动调节车载多媒体音量的***,包括乘员监控***和车载语音识别***,
所述乘员监控***用于在监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至所述车载语音识别***;
所述车载语音识别***用于接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;并在所述车内实时音频与所述特征音频的重合度达到预设阈值时,触发降低车载多媒体设备播放音频的音量。
进一步地,所述车载语音识别***还用于将车载多媒体设备播放的音频与所述特征音频进行重合度比对,并在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时,触发降低车载多媒体设备播放的音频中人声的音量。
进一步地,如果所述乘员监控***未监控到乘员嘴部开合,或者在将车内实时音频与所述特征音频进行重合度比对时,所述车内实时音频与所述特征音频的重合度未达到预设阈值,所述车载语音识别***还用于比较车内噪音能量与车载多媒体设备播放的音频能量大小,并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。
有关本实施例的工作原理及过程,请参照前述本发明实施例一的说明,此处不再赘述。
通过上述说明可知,与现有技术相比,本发明的有益效果在于:本发明无需识别具体嘴型组合可能输出的句子,仅需要根据实时嘴型输出特征音频,用以与车内实时音频进行重合度比对,降低了对算力的要求,可以快速地、自动响应音频音量调节的需求,提高乘车体验;还能根据车内噪音水平自适应调节音频音量,减少噪音对乘员间沟通交流的影响;在乘员语音沟通完成后恢复车载多媒体设备播放音频的音量,不影响乘车时继续收听车载多媒体设备播放音频。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明的权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种自动调节车载多媒体音量的方法,其特征在于,包括:
步骤S1,乘员监控***监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至车载语音识别***;
步骤S2,车载语音识别***接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;
步骤S3,在所述车内实时音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放音频的音量。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,根据实时嘴型获取对应的特征音频具体是将实时嘴型输入到训练好的神经网络,输出与所述实时嘴型对应的特征音频,所述神经网络通过将标准发音视频处理得到的嘴型特征数据集、从标准发音视频中提取出的语音特征作为输入进行训练。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中,车载语音识别***将车内实时音频与所述特征音频进行重合度比对具体是将所述车内实时音频的波形与所述特征音频的波形进行重合度对比,包括对特征音频的波形进行拉伸与收缩,与车内实时音频的波形进行匹配;所述步骤S3中,在波峰的重合度达到预设阈值时,车载语音识别***识别为车内乘员正在说话,并触发降低车载多媒体设备播放音频的音量。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2还包括:车载语音识别***将车载多媒体设备播放的音频与所述特征音频进行重合度比对;所述步骤S3还包括:在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时,车载语音识别***触发降低车载多媒体设备播放的音频中人声的音量。
5.根据权利要求3所述的方法,其特征在于,如果所述步骤S1未监控到乘员嘴部开合,或者在所述步骤S2将车内实时音频与所述特征音频进行重合度比对时,所述车内实时音频与所述特征音频的重合度未达到预设阈值,所述步骤S3还包括:车载语音识别***比较车内噪音能量与车载多媒体设备播放的音频能量大小,并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。
6.根据权利要求1所述的方法,其特征在于,所述步骤S1中,如果多个乘员监控***均监控到对应的乘员嘴部开合,则所述步骤S2中,车载语音识别***将各乘员监控***发送的特征音频进行叠加,然后将车内实时音频与叠加后的特征音频进行重合度比对。
7.根据权利要求1所述的方法,其特征在于,所述步骤S3之后还包括:乘员监控***没有监控到乘员嘴部开合,车载语音识别***触发提高车载多媒体设备播放音频的音量到初始音量。
8.一种自动调节车载多媒体音量的***,其特征在于,包括乘员监控***和车载语音识别***,
所述乘员监控***用于在监控到乘员嘴部开合时,根据实时嘴型获取对应的特征音频,并将所述特征音频随监控信号发送至所述车载语音识别***;
所述车载语音识别***用于接收所述乘员监控***发送的监控信号,将车内实时音频与所述特征音频进行重合度比对;并在所述车内实时音频与所述特征音频的重合度达到预设阈值时,触发降低车载多媒体设备播放音频的音量。
9.根据权利要求8所述的***,其特征在于,所述车载语音识别***还用于将车载多媒体设备播放的音频与所述特征音频进行重合度比对,并在所述车载多媒体设备播放的音频与所述特征音频的重合度达到预设阈值时,触发降低车载多媒体设备播放的音频中人声的音量。
10.根据权利要求8所述的***,其特征在于,如果所述乘员监控***未监控到乘员嘴部开合,或者在将车内实时音频与所述特征音频进行重合度比对时,所述车内实时音频与所述特征音频的重合度未达到预设阈值,所述车载语音识别***还用于比较车内噪音能量与车载多媒体设备播放的音频能量大小,并在车内噪音能量大于车载多媒体设备播放的音频能量时触发提高车载多媒体设备播放的音频音量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111438420.4A CN115243104A (zh) | 2021-11-30 | 2021-11-30 | 一种自动调节车载多媒体音量的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111438420.4A CN115243104A (zh) | 2021-11-30 | 2021-11-30 | 一种自动调节车载多媒体音量的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115243104A true CN115243104A (zh) | 2022-10-25 |
Family
ID=83665934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111438420.4A Pending CN115243104A (zh) | 2021-11-30 | 2021-11-30 | 一种自动调节车载多媒体音量的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115243104A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324035A (zh) * | 2011-08-19 | 2012-01-18 | 广东好帮手电子科技股份有限公司 | 口型辅助语音识别术在车载导航中应用的方法及*** |
CN107516534A (zh) * | 2017-08-31 | 2017-12-26 | 广东小天才科技有限公司 | 一种语音信息的比对方法、装置及终端设备 |
CN108146360A (zh) * | 2017-12-25 | 2018-06-12 | 出门问问信息科技有限公司 | 车辆控制的方法、装置、车载设备和可读存储介质 |
CN109147820A (zh) * | 2018-08-30 | 2019-01-04 | 深圳市元征科技股份有限公司 | 车载音响控制方法、装置、电子设备及存储介质 |
CN109743461A (zh) * | 2019-01-29 | 2019-05-10 | 广州酷狗计算机科技有限公司 | 音频数据处理方法、装置、终端及存储介质 |
CN112163547A (zh) * | 2020-10-13 | 2021-01-01 | 霍雨佳 | 一种基于深度学习的口语评测方法 |
CN112397084A (zh) * | 2020-11-04 | 2021-02-23 | 佛吉亚歌乐电子(丰城)有限公司 | 自适应调整多媒体音量方法、车载终端及计算机存储介质 |
CN113157080A (zh) * | 2020-01-07 | 2021-07-23 | 宝马股份公司 | 用于车辆的指令输入方法、存储介质、***及车辆 |
-
2021
- 2021-11-30 CN CN202111438420.4A patent/CN115243104A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324035A (zh) * | 2011-08-19 | 2012-01-18 | 广东好帮手电子科技股份有限公司 | 口型辅助语音识别术在车载导航中应用的方法及*** |
CN107516534A (zh) * | 2017-08-31 | 2017-12-26 | 广东小天才科技有限公司 | 一种语音信息的比对方法、装置及终端设备 |
CN108146360A (zh) * | 2017-12-25 | 2018-06-12 | 出门问问信息科技有限公司 | 车辆控制的方法、装置、车载设备和可读存储介质 |
CN109147820A (zh) * | 2018-08-30 | 2019-01-04 | 深圳市元征科技股份有限公司 | 车载音响控制方法、装置、电子设备及存储介质 |
CN109743461A (zh) * | 2019-01-29 | 2019-05-10 | 广州酷狗计算机科技有限公司 | 音频数据处理方法、装置、终端及存储介质 |
CN113157080A (zh) * | 2020-01-07 | 2021-07-23 | 宝马股份公司 | 用于车辆的指令输入方法、存储介质、***及车辆 |
CN112163547A (zh) * | 2020-10-13 | 2021-01-01 | 霍雨佳 | 一种基于深度学习的口语评测方法 |
CN112397084A (zh) * | 2020-11-04 | 2021-02-23 | 佛吉亚歌乐电子(丰城)有限公司 | 自适应调整多媒体音量方法、车载终端及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及*** | |
CN105161093B (zh) | 一种判断说话人数目的方法及*** | |
CN101354887B (zh) | 用在语音识别中的环境噪声注入方法 | |
CN108146360A (zh) | 车辆控制的方法、装置、车载设备和可读存储介质 | |
CN113035227B (zh) | 一种多模态语音分离方法及*** | |
US6411927B1 (en) | Robust preprocessing signal equalization system and method for normalizing to a target environment | |
US10255913B2 (en) | Automatic speech recognition for disfluent speech | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
CN102097096B (zh) | 在语音识别后处理过程中使用音调来改进识别精度 | |
US20120197637A1 (en) | Speech processing responsive to a determined active communication zone in a vehicle | |
DE102008062542A1 (de) | Fahrzeuginterne die Umstände berücksichtigende Spracherkennung | |
US20210272573A1 (en) | System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks | |
DE102017121059A1 (de) | Identifikation und erzeugung von bevorzugten emoji | |
US8438030B2 (en) | Automated distortion classification | |
DE102019107624A1 (de) | System und Verfahren zur Erfüllung einer Sprachanforderung | |
CN113345433A (zh) | 一种车外语音交互*** | |
CN111261145B (zh) | 语音处理装置、设备及其训练方法 | |
CN110696756A (zh) | 一种车辆的音量控制方法及装置、汽车、存储介质 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN112382310A (zh) | 一种人声音频录制方法和装置 | |
CN113593601A (zh) | 基于深度学习的视听多模态语音分离方法 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
CN115243104A (zh) | 一种自动调节车载多媒体音量的方法及*** | |
CN112927688A (zh) | 用于车辆的语音交互方法及*** | |
US11715457B1 (en) | Real time correction of accent in speech audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |