CN114863898A - 一种车辆卡拉ok音频处理方法及***、存储介质 - Google Patents
一种车辆卡拉ok音频处理方法及***、存储介质 Download PDFInfo
- Publication number
- CN114863898A CN114863898A CN202110153880.6A CN202110153880A CN114863898A CN 114863898 A CN114863898 A CN 114863898A CN 202110153880 A CN202110153880 A CN 202110153880A CN 114863898 A CN114863898 A CN 114863898A
- Authority
- CN
- China
- Prior art keywords
- mouth
- parameter
- vehicle
- audio signal
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000001755 vocal effect Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明涉及一种车辆卡拉OK音频处理方法及***、存储介质,包括:获取车载采音设备所采集的歌唱者的声纹参数;获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并对所述嘴型连续帧图像进行识别获得嘴型声学参数;根据所述嘴型声学参数获得对应的歌唱内容参数;根据所述声纹参数和所述歌唱内容参数生成第一音频信号;获取当前歌曲伴奏音乐所对应的第二音频信号;将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。本发明能够实现在歌唱者出现忘词、唱错的情况下,歌唱者也能唱好歌的目的,提高车内卡拉OK的用户体验效果。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种车辆卡拉OK音频处理方法及***、计算机可读存储介质。
背景技术
目前车内卡拉OK主要是将歌唱者输入的人声信号和伴唱音频信号进行混音,然后播放混音得到的音频信号。但实际应用过程中,歌唱者可能会出现歌唱声音小、忘词或唱错的情况,在该情况下,车内卡拉OK的用户体验效果不佳。
发明内容
本发明的目的在于提出一种车辆卡拉OK音频处理方法及***、计算机可读存储介质,以实现在歌唱者出现歌唱声音小、忘词或唱错的情况下,歌唱者也能唱好歌的目的,提高车内卡拉OK的用户体验效果。
本发明第一方面提出一种车辆卡拉OK音频处理方法,包括:
获取车载采音设备所采集的歌唱者的声纹参数;
获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数;
根据所述嘴型声学参数获得对应的歌唱内容参数;
根据所述声纹参数和所述歌唱内容参数生成第一音频信号;
获取当前歌曲伴奏音乐所对应的第二音频信号;
将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
可选地,所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数;
其中,多帧连续图像的一个嘴型动作对应一个歌词内容,每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
可选地,所述根据所述嘴型声学参数获得对应的歌唱内容参数,包括:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容,或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
可选地,所述根据所述嘴型声学参数获得对应的歌唱内容参数,包括:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容,或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
可选地,所述嘴型连续帧图像与所述声纹参数的采集时间相同。
可选地,所述声纹参数包括基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数。
本发明第二方面提出一种车辆卡拉OK音频处理***,包括:
声纹获取单元,用于获取车载采音设备所采集的歌唱者的声纹参数;
声学参数获取单元,获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数;
歌唱内容获取单元,用于根据所述嘴型声学参数获得对应的歌唱内容参数;
第一音频获取单元,用于根据所述声纹参数和所述歌唱内容参数生成第一音频信号;
第一音频获取单元,用于获取当前歌曲伴奏音乐所对应的第二音频信号;以及
第三音频获取单元,用于将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
可选地,所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数;
其中,多帧连续图像的一个嘴型动作对应一个歌词内容,每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
可选地,所述声学参数获取单元,具体用于:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容,或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
或者,根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容,或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
本发明第三方面提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述车辆卡拉OK音频处理方法的步骤。
本发明的多个方面分别提出一种车辆卡拉OK音频处理方法及***、计算机可读存储介质,在实施时,至少具有如下有益效果:
创新性地提出了根据歌唱者的嘴型连续帧图像进行智能识别获得要播放的歌唱内容,该歌唱内容可以是对歌唱者歌唱内容的修正或调整,再结合属于歌唱者的独特声纹特征,可以获得在理想状态下由歌唱者所唱出的歌唱内容,最后再与伴奏混音处理输出并播放,从而实现在歌唱者出现歌唱声音小、忘词或唱错的情况下,歌唱者也能唱好歌的目的,提高车内卡拉OK的用户体验效果。
本发明的其它特征和优点将在随后的说明书中阐述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中一种车辆卡拉OK音频处理方法的流程示意图。
图2为本发明另一实施例中一种车辆卡拉OK音频处理***的框架示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外,为了更好的说明本发明,在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
参阅图1,本发明一实施例提出一种车辆卡拉OK音频处理方法,包括如下步骤S1~S6:
步骤S1、获取车载采音设备所采集的歌唱者的声纹参数;
具体而言,所述声纹参数是表征歌唱者的声音特征的参数,在一具体例子中,所述声纹参数包括歌唱者声音的基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数;
步骤S2、获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数;
具体而言,所述嘴型声学参数为与歌唱者的嘴型记录所要表达语音内容;
在一具体例子中,所述嘴型声学参数包括但不限于嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数;其中,多帧连续图像的一个嘴型动作对应一个歌词内容,每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数;
可以理解的是,歌唱者完成一个嘴型动作需要一定时间,在该时间内车主摄像设备会拍摄到多帧连续图像,因此,一个嘴型动作与多帧连续图像对应,一个嘴型动作实际上对应的是一个歌词内容,例如“我”,“你”,“他”;
其中,所述嘴型可信度参数表示嘴型动作是否可信,例如嘴型动作不明显,那么此时的可信度就相对较低,又例如嘴型动作明显,那么此时的可信度就相对较高;具体地,所述嘴型可信度参数采用0~100%的值进行表示,数值越高则可信度越高;
其中,所述嘴型与当前歌曲歌词的吻合度参数,可以将嘴型所对应的歌词,根据嘴型所对应的图像帧时间戳确定音乐播放的歌词,然后将2个歌词进行匹配,来确定嘴型与当前歌曲歌词的吻合度参数;具体地,所述吻合度参数采用0~100%的值进行表示,数值越高则吻合度越高;
需说明的是,深度学习网络模型是一种可以用于进行图像帧识别的智能工具,其可以通过训练来达到识别目的;只需要对基于现有的深度学习网络模型的输入层和输出层进行调整,使得深度学习网络模型的输入层与本实施例中的嘴型连续帧图像对应,输出层与本实施例中的嘴型声学参数对应,给定训练样本,深度学习网络模型可以自行学习训练来达到本实施例想要的识别目的;
步骤S3、根据所述嘴型声学参数获得对应的歌唱内容参数;
在一个具体例子中,所述根据所述嘴型声学参数获得对应的歌唱内容参数,包括:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正;其中,所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容,或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值;
具体地,根据所述嘴型可信度参数与吻合度参数与预设阈值的比较结果来确定是否对嘴型动作所对应的歌词内容进行保留或修正,例如,嘴型动作所对应的嘴型可信度参数大于可信度阈值,且吻合度参数大于吻合度阈值,则确定对嘴型动作所对应的一个歌词内容进行保留,否则,则进行修正;
更具体地,歌词的相似度计算可以采用文本距离的计算方式,使得2个词之间的距离小于预设阈值,距离可以是欧氏距离、曼哈顿距离等;
在另一个具体例子中,所述根据所述嘴型声学参数获得对应的歌唱内容参数,包括:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正;其中,所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容,或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值;
具体地,根据所述嘴型可信度参数与吻合度参数与预设阈值的比较结果来确定是否对嘴型动作所对应的一句歌词内容进行保留或修正,例如,嘴型动作所对应的嘴型可信度参数大于可信度阈值,且吻合度参数大于吻合度阈值,则确定对嘴型动作所对应的一句歌词内容进行保留,否则,则进行修正;
更具体地,歌词的相似度计算可以采用文本距离的计算方式,使得2个句子之间的距离小于预设阈值,距离可以是欧氏距离、曼哈顿距离等。
步骤S4、根据所述声纹参数和所述歌唱内容参数生成第一音频信号;
具体而言,所述第一音频信号可以理解为在理想状态下由歌唱者所唱出的歌唱内容,从而提高车内卡拉OK的用户体验效果;
步骤S5、获取当前歌曲伴奏音乐所对应的第二音频信号;
步骤S6、将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
具体而言,所述步骤S5~S6为常规的卡拉OK混音处理,本实施例方法主要是对歌唱者的人声音频信号的获取方面进行了改进,实现在歌唱者出现歌唱声音小、忘词或唱错的情况下,歌唱者也能唱好歌的目的,提高车内卡拉OK的用户体验效果。
在一具体例子中,所述嘴型连续帧图像与所述声纹参数的采集时间相同,使得歌唱者的声纹与歌唱内容对应上。
进一步地,当歌唱者仅是嘴巴动作,未发出声音时,此时仅获取到嘴型记录,无法获取到歌唱者的声纹参数,则表明歌唱者可能是唱歌声音太小或可能是忘词了,此时,则以之前识别的声纹参数作为当前歌唱者的声纹参数,进行后续的音频信号处理。
参阅图2,本发明另一实施例提出一种车辆卡拉OK音频处理***,包括:
声纹获取单元1,用于获取车载采音设备所采集的歌唱者的声纹参数;
声学参数获取单元2,获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数;
歌唱内容获取单元3,用于根据所述嘴型声学参数获得对应的歌唱内容参数;
第一音频获取单元4,用于根据所述声纹参数和所述歌唱内容参数生成第一音频信号;
第一音频获取单元5,用于获取当前歌曲伴奏音乐所对应的第二音频信号;以及
第三音频获取单元6,用于将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
在一具体例子中,所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数;
其中,多帧连续图像的一个嘴型动作对应一个歌词内容,每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
在一具体例子中,所述声学参数获取单元2,具体用于:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容,或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
或者,根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容,或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
在一具体例子中,所述嘴型连续帧图像与所述声纹参数的采集时间相同。
在一具体例子中,所述声纹参数包括基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
需说明的是,上述实施例所述***与上述实施例所述方法对应,因此,上述实施例所述***未详述部分可以参阅上述实施例所述方法的内容得到,即上述实施例方法的具体步骤内容可以理解为本实施例***的所能够实现的功能,此处不再赘述。
并且,上述实施例所述车辆卡拉OK音频处理***若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
本发明另一实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例所述车辆卡拉OK音频处理方法的步骤。
具体而言,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种车辆卡拉OK音频处理方法,其特征在于,包括:
获取车载采音设备所采集的歌唱者的声纹参数;
获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数;
根据所述嘴型声学参数获得对应的歌唱内容参数;
根据所述声纹参数和所述歌唱内容参数生成第一音频信号;
获取当前歌曲伴奏音乐所对应的第二音频信号;
将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
2.根据权利要求1所述的车辆卡拉OK音频处理方法,其特征在于,所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数;
其中,多帧连续图像的一个嘴型动作对应一个歌词内容,每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
3.根据权利要求2所述的车辆卡拉OK音频处理方法,其特征在于,所述根据所述嘴型声学参数获得对应的歌唱内容参数,包括:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容,或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
4.根据权利要求2所述的车辆卡拉OK音频处理方法,其特征在于,所述根据所述嘴型声学参数获得对应的歌唱内容参数,包括:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容,或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
5.根据权利要求2所述的车辆卡拉OK音频处理方法,其特征在于,所述嘴型连续帧图像与所述声纹参数的采集时间相同。
6.根据权利要求2所述的车辆卡拉OK音频处理方法,其特征在于,所述声纹参数包括基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数。
7.一种车辆卡拉OK音频处理***,其特征在于,包括:
声纹获取单元,用于获取车载采音设备所采集的歌唱者的声纹参数;
声学参数获取单元,获取车载摄像设备所采集的歌唱者的嘴型连续帧图像,并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数;
歌唱内容获取单元,用于根据所述嘴型声学参数获得对应的歌唱内容参数;
第一音频获取单元,用于根据所述声纹参数和所述歌唱内容参数生成第一音频信号;
第一音频获取单元,用于获取当前歌曲伴奏音乐所对应的第二音频信号;以及
第三音频获取单元,用于将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号,并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
8.根据权利要求7所述的车辆卡拉OK音频处理***,其特征在于,所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数;
其中,多帧连续图像的一个嘴型动作对应一个歌词内容,每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
9.根据权利要求8所述的车辆卡拉OK音频处理***,其特征在于,所述声学参数获取单元,具体用于:
根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容,或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值;
或者,根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正,所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容,或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述车辆卡拉OK音频处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153880.6A CN114863898A (zh) | 2021-02-04 | 2021-02-04 | 一种车辆卡拉ok音频处理方法及***、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153880.6A CN114863898A (zh) | 2021-02-04 | 2021-02-04 | 一种车辆卡拉ok音频处理方法及***、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114863898A true CN114863898A (zh) | 2022-08-05 |
Family
ID=82623104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110153880.6A Pending CN114863898A (zh) | 2021-02-04 | 2021-02-04 | 一种车辆卡拉ok音频处理方法及***、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863898A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008180794A (ja) * | 2007-01-23 | 2008-08-07 | Yamaha Corp | データ再生装置 |
US9853758B1 (en) * | 2016-06-24 | 2017-12-26 | Harman International Industries, Incorporated | Systems and methods for signal mixing |
CN109741723A (zh) * | 2018-12-29 | 2019-05-10 | 广州小鹏汽车科技有限公司 | 一种卡拉ok音效优化方法及卡拉ok装置 |
CN109949783A (zh) * | 2019-01-18 | 2019-06-28 | 苏州思必驰信息科技有限公司 | 歌曲合成方法及*** |
US20200176017A1 (en) * | 2018-12-04 | 2020-06-04 | Samsung Electronics Co., Ltd. | Electronic device for outputting sound and operating method thereof |
-
2021
- 2021-02-04 CN CN202110153880.6A patent/CN114863898A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008180794A (ja) * | 2007-01-23 | 2008-08-07 | Yamaha Corp | データ再生装置 |
US9853758B1 (en) * | 2016-06-24 | 2017-12-26 | Harman International Industries, Incorporated | Systems and methods for signal mixing |
US20200176017A1 (en) * | 2018-12-04 | 2020-06-04 | Samsung Electronics Co., Ltd. | Electronic device for outputting sound and operating method thereof |
CN109741723A (zh) * | 2018-12-29 | 2019-05-10 | 广州小鹏汽车科技有限公司 | 一种卡拉ok音效优化方法及卡拉ok装置 |
CN109949783A (zh) * | 2019-01-18 | 2019-06-28 | 苏州思必驰信息科技有限公司 | 歌曲合成方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108074557B (zh) | 音调调整方法、装置及存储介质 | |
EP1679694A1 (en) | Improving error prediction in spoken dialog systems | |
CN105304080A (zh) | 语音合成装置及方法 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112992109B (zh) | 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
CN106898339B (zh) | 一种歌曲的合唱方法及终端 | |
CN109346043B (zh) | 一种基于生成对抗网络的音乐生成方法及装置 | |
JP5598516B2 (ja) | カラオケ用音声合成システム,及びパラメータ抽出装置 | |
JP6721365B2 (ja) | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム | |
CN112289300A (zh) | 音频处理方法、装置及电子设备和计算机可读存储介质 | |
CN112908302B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN105895079A (zh) | 语音数据的处理方法和装置 | |
CN114863898A (zh) | 一种车辆卡拉ok音频处理方法及***、存储介质 | |
JP6406273B2 (ja) | カラオケ装置,及びプログラム | |
JP6589521B2 (ja) | 歌唱基準データ修正装置、カラオケシステム、プログラム | |
CN110931020B (zh) | 一种语音检测方法及装置 | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JP6003352B2 (ja) | データ生成装置、及びデータ生成方法 | |
CN112562668A (zh) | 一种语义信息纠偏方法和装置 | |
CN111429878A (zh) | 一种自适应语音合成方法及装置 | |
CN112489607A (zh) | 录制歌曲的方法、装置、电子设备及可读存储介质 | |
JP6365483B2 (ja) | カラオケ装置,カラオケシステム,及びプログラム | |
JP6773840B1 (ja) | カラオケシステム | |
CN114464151B (zh) | 修音方法及装置 | |
CN118245011A (zh) | 基于多层级音乐信息的车载方法、***及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |