CN108231091B - 一种检测音频的左右声道是否一致的方法和装置 - Google Patents
一种检测音频的左右声道是否一致的方法和装置 Download PDFInfo
- Publication number
- CN108231091B CN108231091B CN201810068823.6A CN201810068823A CN108231091B CN 108231091 B CN108231091 B CN 108231091B CN 201810068823 A CN201810068823 A CN 201810068823A CN 108231091 B CN108231091 B CN 108231091B
- Authority
- CN
- China
- Prior art keywords
- channel audio
- audio
- value
- left channel
- right channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 21
- 230000001133 acceleration Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种检测音频的左右声道是否一致的方法和装置,属于网络技术领域。所述方法包括:在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。采用本发明,可以实现检测左声道音频与右声道音频是否一致。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种检测音频的左右声道是否一致的方法和装置。
背景技术
随着人们生活水平日益提高,对娱乐的追求也越来越多样化,歌曲、音乐直播等娱乐形式广泛受到人们的喜爱,因此,一些音乐公司、直播公司的数据库中积累了越来越多的多媒体文件,而在海量的多媒体文件中,可能存在一些左右声道音频不一致的音频。左右声道音频不一致的音频主要是指音频的左声道是人声和伴奏、右声道是伴奏,或左声道是伴奏、右声道是伴奏和人声,即左声道音频和右声道音频中有一个音频中没有人声。当用户通过耳机收听这种音频时,用户就会听到只有一个耳机有人声,影响用户的收听体验,因此,目前亟需一种检测左声道音频与右声道音频是否一致的方法。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种检测音频的左右声道是否一致的方法和装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种检测音频的左右声道是否一致的方法,所述方法包括:
在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;
分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;
基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。
可选地,所述分别确定每个左声道音频段和右声道音频段对应的可能性值,包括:
根据LeftRight算法以及M个有人声基准音频特征和M个无人声基准音频特征,分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,M为预设正整数。
可选地,所述根据LeftRight算法以及M个有人声基准音频特征和M个无人声基准音频特征,分别确定每个左声道音频段和右声道音频段对应的可能性值,包括:
基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征;
对于所述每个左声道音频段和右声道音频段的音频特征,确定所述音频特征与M个有人声基准音频特征中每个有人声基准音频特征的第一相似度,并确定所述音频特征与M个无人声基准音频特征中每个无人声基准音频特征的第二相似度,在所述第一相似度与所述第二相似度中,确定最大的O个相似度,在所述O个相似度中,将与无人声基准特征对应的相似度的数目,确定为所述音频特征对应的左声道音频段或右声道音频段所对应的可能性值,其中,O为预设正整数。
可选地,所述基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致,包括:
确定相同位置截取的左声道音频段与右声道音频段对应的可能性值的差值;
在确定出的各差值中,选取最大差值;
如果所述最大差值大于或等于预设的第一阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于或等于预设的第二阈值,则确定所述左声道音频与所述右声道音频一致。
可选地,所述方法还包括:
在确定出的各差值中,选取最小差值;
如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值大于预设的第三阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值小于或等于预设的第三阈值,则确定所述左声道音频的第一能量值和所述右声道音频的第二能量值,确定所述第一能量值与所述第二能量值中的最大能量值,计算所述第一能量值与所述第二能量值的差值绝对值,计算所述差值绝对值与所述最大能量值的比值,如果所述比值大于预设的第四阈值,则确定所述左声道音频与所述右声道音频不一致,否则,确定所述左声道音频与所述右声道音频一致。
根据本发明实施例的第二方面,提供一种检测音频的左右声道是否一致的装置,所述装置包括:
截取模块,用于在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;
第一确定模块,用于分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;
第二确定模块,用于基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。
可选地,所述第一确定模块用于:
根据LeftRight算法以及M个有人声基准音频特征和M个无人声基准音频特征,分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,M为预设正整数。
可选地,所述第一确定模块用于:
基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征;
对于所述每个左声道音频段和右声道音频段的音频特征,确定所述音频特征与M个有人声基准音频特征中每个有人声基准音频特征的第一相似度,并确定所述音频特征与M个无人声基准音频特征中每个无人声基准音频特征的第二相似度,在所述第一相似度与所述第二相似度中,确定最大的O个相似度,在所述O个相似度中,将与无人声基准特征对应的相似度的数目,确定为所述音频特征对应的左声道音频段或右声道音频段所对应的可能性值,其中,O为预设正整数。
可选地,所述第二确定模块用于:
确定相同位置截取的左声道音频段与右声道音频段对应的可能性值的差值;
在确定出的各差值中,选取最大差值;
如果所述最大差值大于或等于预设的第一阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于或等于预设的第二阈值,则确定所述左声道音频与所述右声道音频一致。
可选地,所述装置还包括:
选取模块,用于在确定出的各差值中,选取最小差值;
第三确定模块,用于如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值大于预设的第三阈值,则确定所述左声道音频与所述右声道音频不一致;
第四确定模块,用于如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值小于或等于预设的第三阈值,则确定所述左声道音频的第一能量值和所述右声道音频的第二能量值,确定所述第一能量值与所述第二能量值中的最大能量值,计算所述第一能量值与所述第二能量值的差值绝对值,计算所述差值绝对值与所述最大能量值的比值,如果所述比值大于预设的第四阈值,则确定所述左声道音频与所述右声道音频不一致,否则,确定所述左声道音频与所述右声道音频一致。
根据本发明实施例的第三方面,提供一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的检测音频的左右声道是否一致的方法。
根据本发明实施例的第四方面,提供一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的检测音频的左右声道是否一致的方法。
根据本发明实施例的第五方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的检测音频的左右声道是否一致的方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。这样,就可以实现方便快速的检测左声道音频与右声道音频是否一致。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种检测音频的左右声道是否一致的方法的流程图;
图2是本发明实施例提供的一种检测音频的左右声道是否一致的方法的流程框图;
图3是本发明实施例提供的一种检测音频的左右声道是否一致的方法的流程图;
图4是本发明实施例提供的一种检测音频的左右声道是否一致的装置的结构示意图;
图5是本发明实施例提供的一种检测音频的左右声道是否一致的装置的结构示意图;
图6是本发明实施例提供的一种终端结构示意图;
图7是本发明实施例提供的一种服务器结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种检测音频的左右声道是否一致的方法,该方法可以由服务器或终端实现。
服务器可以包括处理器、存储器等部件。处理器,可以为CPU(Central ProcessingUnit,中央处理单元)等,可以用于提取左声道音频和右声道音频、截取左声道音频段和右声道音频段、确定每个左声道音频段和右声道音频端对应的可能性值、将可能性值与预设的阈值进行比较等处理。存储器,可以为RAM(Random Access Memory,随机存取存储器),Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如左声道音频和右声道音频、左声道音频段和右声道音频段、每个左声道音频段和右声道音频端对应的可能性值、预设的第一阈值、预设的第二阈值、预设的第三阈值、预设的第四阈值等。
终端可以包括处理器、存储器等部件。处理器,可以为CPU(Central ProcessingUnit,中央处理单元)等,可以用于提取左声道音频和右声道音频、截取左声道音频段和右声道音频段、确定每个左声道音频段和右声道音频端对应的可能性值、将可能性值与预设的阈值进行比较等处理。存储器,可以为RAM(Random Access Memory,随机存取存储器),Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如左声道音频和右声道音频、左声道音频段和右声道音频段、每个左声道音频段和右声道音频端对应的可能性值、预设的第一阈值、预设的第二阈值、预设的第三阈值、预设的第四阈值等。终端还可以包括收发器、图像检测部件、屏幕、音频输出部件和音频输入部件等。收发器,可以用于与其它设备进行数据传输,例如,向其它设备发送左声道音频与右声道音频是否一致的结果等,可以包括天线、匹配电路、调制解调器等。图像检测部件可以是摄像头等。屏幕可以是触控屏,可以用于显示左声道音频与右声道音频是否一致的结果等。音频输出部件可以是音箱、耳机等。音频输入部件可以是麦克风等。
如图1所示,该方法的处理流程可以包括如下的步骤:
在步骤101中,在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段。
其中,N为预设正整数。
在实施中,首先,获取想要检测的音频。该音频可以是从一部MV(Music Video,音乐短片)中提取到的一段音频,也可以是从一首歌曲中截取全部或部分音频,本发明对此不做限制。
当用户想要检测一段音频(即目标音频)的左右声道音频是否一致时,电子设备分别提取目标音频的左声道音频和右声道音频,如图2所示,然后在左声道音频中的N个预设位置处,分别截取相同时长的音频段,可以得到N个左声道音频段;对右声道音频也进行上述同样的处理,得到N个右声道音频段。通过技术人员的多次试验可以得知,N的优选取值可以是3,每个音频段的时长的取值范围最好是30s-40s。
在步骤102中,分别确定每个左声道音频段和右声道音频段对应的可能性值。
其中,可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性。
可选地,可以根据LeftRight(一种音频识别算法的名称)算法确定每个左声道音频段和右声道音频段对应的可能性值,上述步骤102的处理可以如下:根据LeftRight算法以及M个有人声基准音频特征和M个无人声基准音频特征,分别确定每个左声道音频段和右声道音频段对应的可能性值。其中,M为预设正整数。
在实施中,电子设备将所有左声道音频段和右声道音频段输入LeftRight算法中,如图2所示,通过左声道音频段与预先存储的M个有人声基准音频特征和M个无人声基准音频特征的计算,确定每个左声道音频段对应的可能性值;通过右声道音频段与预先存储的M个有人声基准音频特征和M个无人声基准音频特征的计算,确定每个右声道音频段对应的可能性值。
需要说明的是,技术人员预先确定M段无人声基准音频和M段有人声基准音频,将这M段无人声基准音频和M段有人声基准音频输入LeftRight算法中,通过这M段无人声基准音频和M段有人声基准音频对LeftRight算法中的特征提取算法模块的训练,对这2M段音频的特征进行提取,得到M个无人声基准音频特征以及M个有人声基准音频特征,将这M个无人声基准音频特征以及M个有人声基准音频特征与LeftRight算法一同进行存储。当电子设备使用LeftRight算法对其它音频段进行特征提取后,LeftRight算法中的相似度计算算法模块自动调用这M个无人声基准音频特征以及M个有人声基准音频特征,并计算这M个无人声基准音频特征以及M个有人声基准音频特征与特征提取得到的音频特征的相似度。
可选地,上述步骤具体的处理过程可以如下:基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征;对于每个左声道音频段和右声道音频段的音频特征,确定音频特征与M个有人声基准音频特征中每个有人声基准音频特征的第一相似度,并确定音频特征与M个无人声基准音频特征中每个无人声基准音频特征的第二相似度,在第一相似度与第二相似度中,确定最大的O个相似度,在O个相似度中,将与无人声基准特征对应的相似度的数目,确定为音频特征对应的左声道音频段或右声道音频段所对应的可能性值,其中,O为预设正整数。
在实施中,得到N个左声道音频段和N个右声道音频段后,电子设备将N个左声道音频段和N个右声道音频段输入到LeftRight算法中,LeftRight算法中的特征提取算法模块基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征。
得到的每个左声道音频段和右声道音频段的音频特征输入到LeftRight算法中的相似度计算算法模块中,以其中一个左声道音频为例,通过计算该左声道音频段的音频特征和M个有人声基准音频特征中每个有人声基准音频特征的相似度,得到该左声道音频段与这M个有人声基准音频特征的相似度,即为第一相似度,该第一相似度的个数为M;通过计算该左声道音频段的音频特征和M个无人声基准音频特征中每个无人声基准音频特征的相似度,得到该左声道音频段与这M个无人声基准音频特征的相似度,即为第二相似度,该第二相似度的个数为M。将与有人声基准音频特征的相似度以及与无人声基准音频特征的相似度合并在一起,一共有2M个相似度。将这2M个相似度按照相似度值从大到小进行排序,确定排在前O个的相似度,即最大的O个相似度,并确定在这O个相似度中与无人声基准特征对应的相似度的数目,将该数目确定为该左声道音频段对应的可能性值,该可能性值可以表示该左声道音频段不存在人声音频的可能性,该可能性值越大,表示该左声道音频段不存在人声音频的可能性越大。
举例来说,假设M的值为20,O的值为10,则上述过程可以是:通过LeftRight算法,将1个左声道音频段的音频特征与20个有人声基准音频特征计算相似度,得到20个与有人声基准音频特征的相似度(即第一相似度);将该左声道音频段的音频特征与20个无人声基准音频特征计算相似度,得到20个与无人声基准音频特征的相似度(即第二相似度)。将20个第一相似度以及20个第二相似度合并,得到40个相似度。将这40个相似度按照从大到小进行排序,取排在前10的10个相似度,这10个相似度为40个相似度中最大的10个相似度。确定在这10个相似度中第一相似度的个数,即确定该左声道音频段的音频特征与无人声基准音频特征的相似度的个数,将该数目确定为该左声道音频段对应的可能性值。
将每个左声道音频段与每个右声道音频段均按照上述步骤进行处理,最终可以确定每个左声道音频段与每个右声道音频段的可能性值。
在步骤103中,基于每个左声道音频段和右声道音频段对应的可能性值,确定左声道音频与右声道音频是否一致。
在实施中,上述步骤确定N个左声道音频段所对应的可能性值以及N个右声道音频段所对应的可能性值后,如图2所示,基于每个左声道音频段和右声道音频段对应的可能性值,确定左声道音频与右声道音频是否一致。可以直接将左声道音频段以及右声道音频端的可能性值与预设的阈值进行比较,以确定左声道音频与右声道音频是否一致。
举例来说,假设左声道音频与右声道音频均截取3个音频段,即3个左声道音频段对应3个可能性值,分别为x1、x2、x3,3个右声道音频段对应3个可能性值,分别为y1、y2、y3,当x1、x2、x3中至少有两个大于预设的可能性值阈值,或y1、y2、y3中至少有两个大于预设的可能性值阈值时,说明左声道音频或右声道音频没有人声的可能性更大,可以确定左声道音频或右声道音频是无人声的;当x1、x2、x3中至少有两个小于或等于预设的可能性值阈值,或y1、y2、y3中至少有两个小于或等于预设的可能性值阈值时,说明左声道音频或右声道音频没有人声的可能性很小,可以确定左声道音频或右声道音频是有人声的。分别判断左声道音频以及右声道音频有无人声后,判断左声道音频与右声道音频是否一致,如果左声道音频与右声道音频均为有人声或均为无人声,则左声道音频与右声道音频一致;如果左声道音频与右声道音频中,一个有人声而一个无人声,则左声道音频与右声道音频不一致。
除了上述处理方式外,还可以将左声道音频段的可能性值与右声道音频端的可能性值进行处理,通过处理后的数值与预设的阈值进行比较,本发明对此不做限定。
可选地,可以将左声道音频段与右声道音频段对应的可能性值的差值与预设的阈值进行比较,进而确定左声道音频与右声道音频是否一致,相应的处理可以如下:确定相同位置截取的左声道音频段与右声道音频段对应的可能性值的差值;在确定出的各差值中,选取最大差值;如果最大差值大于或等于预设的第一阈值,则确定左声道音频与右声道音频不一致;如果最大差值小于或等于预设的第二阈值,则确定左声道音频与右声道音频一致。
在实施中,确定在目标音频的相同位置截取的左声道音频段与右声道音频段对应的可能性值,计算该两个可能性值的差值绝对值,得到N个差值绝对值。举例来说,假设左声道音频与右声道音频均截取3个音频段,即3个左声道音频段对应3个可能性值,分别为x1、x2、x3,3个右声道音频段对应3个可能性值,分别为y1、y2、y3,则分别计算d1=abs(x1-y1),d2=abs(x2-y2),d3=abs(x3-y3),d1、d2、d3即为绝对值差值。
在这N个差值绝对值中,选取其中的最大差值,将该最大差值与预设的第一阈值进行比较,如图3所示,如果最大差值大于或等于第一阈值,说明相同位置截取的左声道音频段的可能性值与右声道音频段的可能性值之间的差别很大,因此,可以确定左声道音频与右声道音频不一致。
如果最大差值小于第一阈值,则继续将最大差值与预设的第二阈值进行比较。如果最大差值小于第二阈值,说明相同位置截取的左声道音频段的可能性值与右声道音频段的可能性值之间的差别较小,因此,可以确定左声道音频与右声道音频一致。
需要说明的是,上述过程中先将最大差值与第一阈值进行比较,当最大差值小于第一阈值时,再将最大差值与第二阈值进行比较,除了上述过程的顺序,还可以是,先将最大差值与第二阈值进行比较,当最大差值大于第二阈值时,再将最大差值与第一阈值进行比较,本发明对此不作限定。
可选地,当上述得到的最大差值小于第一阈值且大于第二阈值时,确定各差值绝对值中的最小差值,通过最小差值与预设的阈值的比较,确定左声道音频与右声道音频是否一致,相应的处理可以如下:在确定出的各差值中,选取最小差值;如果最大差值小于第一阈值、大于第二阈值,且最小差值大于预设的第三阈值,则确定左声道音频与右声道音频不一致;如果最大差值小于第一阈值、大于第二阈值,且最小差值小于或等于预设的第三阈值,则确定左声道音频的第一能量值和右声道音频的第二能量值,确定第一能量值与第二能量值中的最大能量值,计算第一能量值与第二能量值的差值绝对值,计算差值绝对值与最大能量值的比值,如果比值大于预设的第四阈值,则确定左声道音频与右声道音频不一致,否则,确定左声道音频与右声道音频一致。
在实施中,如图3所示,通过上述步骤将最大差值与第一阈值以及第二阈值进行比较后,当最大差值小于第一阈值且大于第二阈值时,在得到的N个差值绝对值中,选取最小差值,将最小差值与预设的第三阈值进行比较,如果最小差值大于第三阈值,说明相同位置截取的左声道音频段的可能性值与右声道音频段的可能性值之间的差别很大,因此,可以确定左声道音频与右声道音频不一致。
如果最小差值小于或等于预设的第三阈值,则根据左声道音频的时长、采样率以及振幅值,根据下述公式(1),计算左声道音频的能量值(即第一能量值),根据右声道音频的时长、采样率以及振幅值,根据下述公式(1),计算右声道音频的能量值(即第二能量值)。
其中,E表示能量值,t表示音频的时长,Hz表示音频的采样率,An表示音频的第n个采样点的振幅值。
参照下述公式(2),将第一能量值与第二能量值进行比较,确定两者中的最大能量值,然后计算第一能量值与第二能量值的差值绝对值,并计算得到该差值绝对值除以最大能量值得到的比值(可称作能量差比值)。
其中,D表示能量差比值,abs表示求绝对值运算,Eleft表示左声道音频的能量值,Eright表示右声道音频的能量值。
将该能量差比值与预设的第四阈值进行比较,如果能量差比值大于预设的第四阈值,说明左声道音频与右声道音频的差别很大,则可以确定左声道音频与右声道音频不一致,如果能量差比值小于或等于预设的第四阈值,说明左声道音频与右声道音频的差别较小,则可以确定左声道音频与右声道音频一致。
本发明实施例中,在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。这样,就可以实现方便快速的检测左声道音频与右声道音频是否一致。
基于相同的技术构思,本发明实施例还提供了一种检测音频的左右声道是否一致的装置,该装置可以为上述实施例中的电子设备,如图4所示,该装置包括:截取模块410,第一确定模块420和第二确定模块430。
该截取模块410被配置为在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;
该第一确定模块420被配置为分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;
该第二确定模块430被配置为用于基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。
可选地,所述第一确定模块420被配置为:
根据LeftRight算法以及M个有人声基准音频特征和M个无人声基准音频特征,分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,M为预设正整数。
可选地,所述第一确定模块420被配置为:
基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征;
对于所述每个左声道音频段和右声道音频段的音频特征,确定所述音频特征与M个有人声基准音频特征中每个有人声基准音频特征的第一相似度,并确定所述音频特征与M个无人声基准音频特征中每个无人声基准音频特征的第二相似度,在所述第一相似度与所述第二相似度中,确定最大的O个相似度,在所述O个相似度中,将与无人声基准特征对应的相似度的数目,确定为所述音频特征对应的左声道音频段或右声道音频段所对应的可能性值,其中,O为预设正整数。
可选地,所述第二确定模块430被配置为:
确定相同位置截取的左声道音频段与右声道音频段对应的可能性值的差值;
在确定出的各差值中,选取最大差值;
如果所述最大差值大于或等于预设的第一阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于或等于预设的第二阈值,则确定所述左声道音频与所述右声道音频一致。
可选地,如图5所示,所述装置还包括:
选取模块510,被配置为在确定出的各差值中,选取最小差值;
第三确定模块520,被配置为如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值大于预设的第三阈值,则确定所述左声道音频与所述右声道音频不一致;
第四确定模块530,被配置为如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值小于或等于预设的第三阈值,则确定所述左声道音频的第一能量值和所述右声道音频的第二能量值,确定所述第一能量值与所述第二能量值中的最大能量值,计算所述第一能量值与所述第二能量值的差值绝对值,计算所述差值绝对值与所述最大能量值的比值,如果所述比值大于预设的第四阈值,则确定所述左声道音频与所述右声道音频不一致,否则,确定所述左声道音频与所述右声道音频一致。
本发明实施例中,在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。这样,就可以实现方便快速的检测左声道音频与右声道音频是否一致。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是:上述实施例提供的检测音频的左右声道是否一致的装置在检测音频的左右声道是否一致时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将点电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检测音频的左右声道是否一致的装置与检测音频的左右声道是否一致的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器。终端600还可能被称为用户设备、便携式终端等其他名称。
通常,终端600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中提供的检测音频的左右声道是否一致的方法。
在一些实施例中,终端600还可选包括有:***设备接口603和至少一个***设备。具体地,***设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
***设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
触摸显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏605还具有采集在触摸显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。触摸显示屏605用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,触摸显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,触摸显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,触摸显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,触摸显示屏605还可以设置成非矩形的不规则图形,也即异形屏。触摸显示屏605可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头用于实现视频通话或自拍,后置摄像头用于实现照片或视频的拍摄。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能,主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607用于提供用户和终端600之间的音频接口。音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,根据该握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,可以根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的正面。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是本发明实施例提供的服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作***741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器700可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行此一个或者一个以上程序来执行上述各个实施例所述的检测音频的左右声道是否一致的方法。
本发明实施例中,在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致。这样,就可以实现方便快速的检测左声道音频与右声道音频是否一致。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述检测音频的左右声道是否一致的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种检测音频的左右声道是否一致的方法,其特征在于,所述方法包括:
在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;
分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;
基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致;
所述分别确定每个左声道音频段和右声道音频段对应的可能性值,包括:
基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征;
对于所述每个左声道音频段和右声道音频段的音频特征,确定所述音频特征与M个有人声基准音频特征中每个有人声基准音频特征的第一相似度,并确定所述音频特征与M个无人声基准音频特征中每个无人声基准音频特征的第二相似度,在所述第一相似度与所述第二相似度中,确定最大的O个相似度,在所述O个相似度中,将与无人声基准特征对应的相似度的数目,确定为所述音频特征对应的左声道音频段或右声道音频段所对应的可能性值,其中,O为预设正整数。
2.根据权利要求1所述的方法,其特征在于,所述基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致,包括:
确定相同位置截取的左声道音频段与右声道音频段对应的可能性值的差值;
在确定出的各差值中,选取最大差值;
如果所述最大差值大于或等于预设的第一阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于或等于预设的第二阈值,则确定所述左声道音频与所述右声道音频一致。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在确定出的各差值中,选取最小差值;
如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值大于预设的第三阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值小于或等于预设的第三阈值,则确定所述左声道音频的第一能量值和所述右声道音频的第二能量值,确定所述第一能量值与所述第二能量值中的最大能量值,计算所述第一能量值与所述第二能量值的差值绝对值,计算所述差值绝对值与所述最大能量值的比值,如果所述比值大于预设的第四阈值,则确定所述左声道音频与所述右声道音频不一致,否则,确定所述左声道音频与所述右声道音频一致。
4.一种检测音频的左右声道是否一致的装置,其特征在于,所述装置包括:
截取模块,用于在目标音频的左声道音频和右声道音频中N个预设位置处,分别截取音频段,得到N个左声道音频段和N个右声道音频段,其中,N为预设正整数;
第一确定模块,用于分别确定每个左声道音频段和右声道音频段对应的可能性值,其中,所述可能性值用于指示对应的音频段不存在人声音频的可能性或存在人声音频的可能性;
第二确定模块,用于基于所述每个左声道音频段和右声道音频段对应的可能性值,确定所述左声道音频与所述右声道音频是否一致;
所述第一确定模块,用于基于预设的特征提取方式,提取每个左声道音频段和右声道音频段的音频特征;对于所述每个左声道音频段和右声道音频段的音频特征,确定所述音频特征与M个有人声基准音频特征中每个有人声基准音频特征的第一相似度,并确定所述音频特征与M个无人声基准音频特征中每个无人声基准音频特征的第二相似度,在所述第一相似度与所述第二相似度中,确定最大的O个相似度,在所述O个相似度中,将与无人声基准特征对应的相似度的数目,确定为所述音频特征对应的左声道音频段或右声道音频段所对应的可能性值,其中,O为预设正整数。
5.根据权利要求4所述的装置,其特征在于,所述第二确定模块用于:
确定相同位置截取的左声道音频段与右声道音频段对应的可能性值的差值;
在确定出的各差值中,选取最大差值;
如果所述最大差值大于或等于预设的第一阈值,则确定所述左声道音频与所述右声道音频不一致;
如果所述最大差值小于或等于预设的第二阈值,则确定所述左声道音频与所述右声道音频一致。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
选取模块,用于在确定出的各差值中,选取最小差值;
第三确定模块,用于如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值大于预设的第三阈值,则确定所述左声道音频与所述右声道音频不一致;
第四确定模块,用于如果所述最大差值小于所述第一阈值、大于所述第二阈值,且所述最小差值小于或等于预设的第三阈值,则确定所述左声道音频的第一能量值和所述右声道音频的第二能量值,确定所述第一能量值与所述第二能量值中的最大能量值,计算所述第一能量值与所述第二能量值的差值绝对值,计算所述差值绝对值与所述最大能量值的比值,如果所述比值大于预设的第四阈值,则确定所述左声道音频与所述右声道音频不一致,否则,确定所述左声道音频与所述右声道音频一致。
7.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一所述的检测音频的左右声道是否一致的方法。
8.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一所述的检测音频的左右声道是否一致的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至3任一所述的检测音频的左右声道是否一致的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810068823.6A CN108231091B (zh) | 2018-01-24 | 2018-01-24 | 一种检测音频的左右声道是否一致的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810068823.6A CN108231091B (zh) | 2018-01-24 | 2018-01-24 | 一种检测音频的左右声道是否一致的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108231091A CN108231091A (zh) | 2018-06-29 |
CN108231091B true CN108231091B (zh) | 2021-05-25 |
Family
ID=62668789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810068823.6A Active CN108231091B (zh) | 2018-01-24 | 2018-01-24 | 一种检测音频的左右声道是否一致的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108231091B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615534A (zh) * | 2022-01-27 | 2022-06-10 | 海信视像科技股份有限公司 | 显示设备及音频处理方法 |
CN118155654A (zh) * | 2024-05-10 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 模型训练方法、音频成分缺失识别方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020031653A (ko) * | 2000-10-23 | 2002-05-03 | 황준성 | 다채널 디지털 음악을 위한 워터마크 삽입 및 추출 방법및 장치 |
US20060153392A1 (en) * | 2005-01-13 | 2006-07-13 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding multi-channel signals |
US7444289B2 (en) * | 2002-11-29 | 2008-10-28 | Samsung Electronics Co., Ltd. | Audio decoding method and apparatus for reconstructing high frequency components with less computation |
CN102402977A (zh) * | 2010-09-14 | 2012-04-04 | 无锡中星微电子有限公司 | 从立体声音乐中提取伴奏、人声的方法及其装置 |
WO2014170530A1 (en) * | 2013-04-15 | 2014-10-23 | Nokia Corporation | Multiple channel audio signal encoder mode determiner |
CN105139865A (zh) * | 2015-06-19 | 2015-12-09 | 中央电视台 | 一种确定左右声道音频相关系数的方法及装置 |
CN105741835A (zh) * | 2016-03-18 | 2016-07-06 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法及终端 |
CN107274911A (zh) * | 2017-05-03 | 2017-10-20 | 昆明理工大学 | 一种基于声音特征的相似度分析方法 |
CN107610715A (zh) * | 2017-10-10 | 2018-01-19 | 昆明理工大学 | 一种基于多种声音特征的相似度计算方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080055467A1 (en) * | 2006-09-03 | 2008-03-06 | Wei-Hung Huang | Method for detecting a program deviation period during a television broadcast |
CN101751928B (zh) * | 2008-12-08 | 2012-06-13 | 扬智科技股份有限公司 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
CN102737647A (zh) * | 2012-07-23 | 2012-10-17 | 武汉大学 | 双声道音频音质增强编解码方法及装置 |
CN103915086A (zh) * | 2013-01-07 | 2014-07-09 | 华为技术有限公司 | 信息处理的方法、装置和*** |
CN104053120B (zh) * | 2014-06-13 | 2016-03-02 | 福建星网视易信息***有限公司 | 一种立体声音频的处理方法和装置 |
CN104462537A (zh) * | 2014-12-24 | 2015-03-25 | 北京奇艺世纪科技有限公司 | 一种音频数据分类方法及装置 |
CN105808719B (zh) * | 2016-03-07 | 2019-09-27 | 广州酷狗计算机科技有限公司 | 音频信息推荐方法及装置 |
CN106303896A (zh) * | 2016-09-30 | 2017-01-04 | 北京小米移动软件有限公司 | 播放音频的方法和装置 |
-
2018
- 2018-01-24 CN CN201810068823.6A patent/CN108231091B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020031653A (ko) * | 2000-10-23 | 2002-05-03 | 황준성 | 다채널 디지털 음악을 위한 워터마크 삽입 및 추출 방법및 장치 |
US7444289B2 (en) * | 2002-11-29 | 2008-10-28 | Samsung Electronics Co., Ltd. | Audio decoding method and apparatus for reconstructing high frequency components with less computation |
US20060153392A1 (en) * | 2005-01-13 | 2006-07-13 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding multi-channel signals |
CN102402977A (zh) * | 2010-09-14 | 2012-04-04 | 无锡中星微电子有限公司 | 从立体声音乐中提取伴奏、人声的方法及其装置 |
WO2014170530A1 (en) * | 2013-04-15 | 2014-10-23 | Nokia Corporation | Multiple channel audio signal encoder mode determiner |
CN105139865A (zh) * | 2015-06-19 | 2015-12-09 | 中央电视台 | 一种确定左右声道音频相关系数的方法及装置 |
CN105741835A (zh) * | 2016-03-18 | 2016-07-06 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法及终端 |
CN107274911A (zh) * | 2017-05-03 | 2017-10-20 | 昆明理工大学 | 一种基于声音特征的相似度分析方法 |
CN107610715A (zh) * | 2017-10-10 | 2018-01-19 | 昆明理工大学 | 一种基于多种声音特征的相似度计算方法 |
Non-Patent Citations (2)
Title |
---|
"Similar Segment Detection for Music Structure Analysis via Viterbi Algorithm";Y. Shiu 等;《2006 IEEE International Conference on Multimedia and Expo》;20061226;全文 * |
"基于内容的音频检索特征提取技术研究";王薇;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20140115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108231091A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109379643B (zh) | 视频合成方法、装置、终端及存储介质 | |
CN108320756B (zh) | 一种检测音频是否是纯音乐音频的方法和装置 | |
CN109994127B (zh) | 音频检测方法、装置、电子设备及存储介质 | |
CN111048111B (zh) | 检测音频的节奏点的方法、装置、设备及可读存储介质 | |
CN110688082B (zh) | 确定音量的调节比例信息的方法、装置、设备及存储介质 | |
CN110933468A (zh) | 播放方法、装置、电子设备及介质 | |
CN109065068B (zh) | 音频处理方法、装置及存储介质 | |
CN112084811A (zh) | 身份信息的确定方法、装置及存储介质 | |
CN109102811B (zh) | 音频指纹的生成方法、装置及存储介质 | |
CN111613213B (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN111092991B (zh) | 歌词显示方法及装置、计算机存储介质 | |
CN112667844A (zh) | 检索音频的方法、装置、设备和存储介质 | |
CN115497082A (zh) | 判断视频中字幕的方法、设备和存储介质 | |
CN109961802B (zh) | 音质比较方法、装置、电子设备及存储介质 | |
CN111368136A (zh) | 歌曲识别方法、装置、电子设备及存储介质 | |
CN111327819A (zh) | 选择图像的方法、装置、电子设备及介质 | |
CN107944024B (zh) | 一种确定音频文件的方法和装置 | |
CN108231091B (zh) | 一种检测音频的左右声道是否一致的方法和装置 | |
CN108495183B (zh) | 显示专辑信息的方法和装置 | |
CN112738606B (zh) | 音频文件的处理方法、装置、终端及存储介质 | |
CN113963707A (zh) | 音频处理方法、装置、设备和存储介质 | |
CN110136752B (zh) | 音频处理的方法、装置、终端及计算机可读存储介质 | |
CN111860064B (zh) | 基于视频的目标检测方法、装置、设备及存储介质 | |
CN110263695B (zh) | 人脸部位的位置获取方法、装置、电子设备及存储介质 | |
CN109788308B (zh) | 音视频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |