CN108962268B - 确定单声道的音频的方法和装置 - Google Patents

确定单声道的音频的方法和装置 Download PDF

Info

Publication number
CN108962268B
CN108962268B CN201810838031.2A CN201810838031A CN108962268B CN 108962268 B CN108962268 B CN 108962268B CN 201810838031 A CN201810838031 A CN 201810838031A CN 108962268 B CN108962268 B CN 108962268B
Authority
CN
China
Prior art keywords
audio data
channel audio
hartley transform
determining
left channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810838031.2A
Other languages
English (en)
Other versions
CN108962268A (zh
Inventor
张超钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201810838031.2A priority Critical patent/CN108962268B/zh
Publication of CN108962268A publication Critical patent/CN108962268A/zh
Application granted granted Critical
Publication of CN108962268B publication Critical patent/CN108962268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本申请提供了一种确定单声道的音频的方法和装置,属于计算机技术领域。所述方法包括:在确定目标音频是不是单声道的音频的过程中,可以获取目标音频的左声道音频数据和右声道音频数据,然后确定左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱,然后确定左声道音频数据和右声道音频数据的误差总分量,在误差总分量小于预设数值时,可以确定目标音频为单声道的音频,在误差总分量大于或等于预设数值时,可以确定目标音频为双声道的音频。采用本申请,可以提高确定单声道的音频的准确率。

Description

确定单声道的音频的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种确定单声道的音频的方法和装置。
背景技术
随着计算机技术的发展,音频应用程序越来越多,每个音频应用程序都对应有音频数据库,音频数据库一般设置在服务器中,在音频数据库中包括多个音频的音频数据,每个音频的音频数据有可能有多个。一般情况,在接收到音频数据的下载请求时,服务器会优先推荐双声道音频。但由于音频制作的多样性,部分音频虽然是双声道的音频,但是两个声道的音频数据几乎是完全相同的,属于“伪双声道”,即“单声道”。因此,很有必要将这部分“伪双声道”的音频识别出来。
相关技术中,判断音频是否属于双声道的音频的方案,一般是将同一时刻,左声道音频数据的波形的幅值与右声道音频数据的波形的幅值相减,如果相减之后的差值均小于预设数值,则确定该音频数据为单声道的音频数据,反之则为双声道的音频数据。
这样,由于部分音频数据的左声道音频数据和右声道音频数据有可能有时延或相位差异,仅使用波形的幅值的差值作为评价标准,有可能会导致某些伪双声道的音频数据没有被确定出来。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种确定单声道的音频的方法和装置。所述技术方案如下:
第一方面,提供了一种确定单声道的音频的方法,所述方法包括:
获取目标音频的左声道音频数据和右声道音频数据;
确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
可选的,所述确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
可选的,所述根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量,包括:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
可选的,所述确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
可选的,所述方法还包括:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
第二方面,提供了一种确定单声道的音频的装置,所述装置包括:
获取模块,用于获取目标音频的左声道音频数据和右声道音频数据;
第一确定模块,用于确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
第二确定模块,用于根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
第二确定模块,用于如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
可选的,所述第一确定模块,用于:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
可选的,所述第二确定模块,用于:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
可选的,所述第一确定模块,用于:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
可选的,所述第一确定模块,还用于:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,使用了Hartley transform变换谱分解方法,来确定左声道音频数据和右声道音频数据的总误差分量,然后使用该总误差分量,确定是否为伪双声道的音频,相对比左右声道相减法准确,所以可以尽可能的确定出伪双声道的音频,可以提高确定单声道的音频的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定单声道的音频的方法流程示意图;
图2是本发明实施例提供的一种确定单声道的音频的装置的结构示意图;
图3是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种确定单声道的音频的方法,该方法的执行主体可以为服务器,服务器中存储有音频数据库,服务器中可以设置有处理器、存储器和收发器等,处理器可以用于确定单声道的音频的过程的处理,存储器可以用于存储确定单声道的音频的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送数据。
在进行实施前,首先介绍一下本发明实施例的应用场景:
服务器中的音频数据库中,存储某个音频的音频数据时,一般是存储多份不同的音频数据,不同的音频数据的音质不相同,例如,对于歌曲《冰雨》,存储有三份双声道的音频数据,但是实际上有一份双声道的音频数据为“伪双声道的音频数据”(伪双声道的音频数据指音频数据虽然有两个声道的音频数据,但是两个声道的音频数据几乎完全相同)。在终端请求某个音频的音频数据时,为了使用户听到的音频数据效果比较好,一般是为终端推送双声道的音频数据,所以就需要提供一种排除伪双声道的音频数据的方法,也即需要提供一种确定单声道的音频的方法。
上述双声道的音频数据指音频的音频数据中包括左声道音频数据和右声道音频数据,这样,在终端播放这类型的音频时,左声道播放左声道音频数据,右声道播放右声道音频数据,立体感比较强。
上述单声道的音频数据指音频数据中仅包括一个声道的音频数据,终端的左声道和右声道播放相同的音频数据,立体感比较差。
如图1所示,本发明实施例提供了一种确定单声道的音频数据的方法,该方法的处理流程可以如下:
步骤101,获取目标音频的左声道音频数据和右声道音频数据。
其中,目标音频为服务器中的任一音频,对于同一音频,一般左声道音频数据和右声道音频数据会存储在同一个音频文件中。
在实施中,服务器在可以从音频数据库中,获取目标音频的音频文件,从音频文件中获取的左声道音频数据和右声道音频数据。
可选的,在本发明实施例中,为了使确定单声道的音频更准确,还提供了补偿左右声道时延的方式,相应的处理可以如下:
确定左声道音频数据和右声道音频数据的时延;根据时延,通过移位或者补零的方式,对左声道音频数据和右声道音频数据进行对齐处理。
在实施中,假设左声道音频数据的波形的时间序列为x(n),右声道音频数据的波形的时间序列为y(n),两者存在时延为τ,两者的相关函数为c(τ),如下式(1)所示:
Figure BDA0001744914740000051
在式(1)中,N为时间序列的采样点数,相关函数c(τ)在t=τ处有一个明显的峰值,检测左声道音频数据和右声道音频数据的峰值的位置,即可得到时延的位置。如果时延值τ不为零,则通过移位或者补零,对左声道音频数据和右声道音频数据进行对齐处理(即补齐处理),保证两者相位不存在偏差。
这样,可以避免时延引起的相位偏差,使左声道音频数据和右声道音频数据对齐。
步骤102,确定左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱。
在实施中,服务器在获取到目标音频的左声道音频数据和右声道音频数据后,可以确定左声道音频数据的Hartley transform变换谱,并且确定右声道音频数据的Hartleytransform变换谱。
可选的,可以使用以下方式来确定Hartley transform变换谱:
确定左声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将各频点的Hartley transform变换谱进行组合,得到左声道音频数据的Hartleytransform变换谱;确定右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将各频点的Hartley transform变换谱进行组合,得到右声道音频数据的Hartley transform变换谱。
在实施中,服务器中存储有预设采样率,如44.0KHz等,对于左声道音频数据,如果采样率不是预设采样率,则首先将左声道音频数据的采样率变换到预设采样率,如果采样率是预设采样率,则不需要进行调整。然后将左声道音频数据,进行分音频帧处理,得到多个音频帧,假设每个音频帧包括N个频点,连续两个音频帧有M个重叠的频点,M小于N。
对于左声道音频数据中第i个音频帧,可以表示为Xi=[x0,x1,x2,...,xN-1],其中,x0表示第0个时间点的音频波形数据,N表示频点的数目,然后将当前音频帧Xi采用如下公式(1)进行处理,得到Hartley transform变换谱。
Figure BDA0001744914740000061
在式(2)中Hk表示是当前音频帧Xi的Hartley transform变换谱的第k个频点。
这样,将左声道音频数据中每个音频帧的Hartley transform变换谱组合起来,得到左声道音频数据的Hartley transform变换谱为HL=[HL1HL2...HLn],n表示左声道包括的音频帧的数目。
同理,对于右声道音频数据,如果采样率不是预设采样率,则首先将右声道音频数据的采样率变换到预设采样率,如果采样率是预设采样率,则不需要进行调整,然后将右声道音频数据,进行分音频帧处理,得到多个音频帧,假设每个音频帧包括N个频点,连续两个音频帧有M个重叠的频点,M小于N。
对于右声道音频数据中第i个音频帧,可以表示为Xi=[x0,x1,x2,...,xN-1],其中,x0表示第0个时间点的音频波形数据,然后将当前音频Xi采用上述公式(2)进行处理,得到Hartley transform变换谱。
这样,将右声道音频数据中每个音频帧的Hartley transform变换谱组合起来,得到右声道音频数据的Hartley transform变换谱为HR=[HR1HR2...HRn],n表示右声道包括的音频帧的数目。
需要说明的是,考虑到频谱分辨率的影响,需要将每个音频帧的频点数目N设置在一个较为合理的范围内。
还需要说明的是,在一个音频帧中包括多个时间点,经过转换后包括的就是多个频点。
可选的,为了降低音频帧之间频谱泄露现象的出现,可以对每个音频帧进行加窗处理,相应的处理可以如下:
基于预设的窗,对左声道音频数据和右声道音频数据进行加窗处理;确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
其中,预设的窗为汉明窗或海宁窗,窗的长度等于每个音频帧的频点的数目。
在实施中,服务器可以获取预设的窗,然后使用预设的窗,对左声道音频数据进行加窗处理,得到加窗处理后的左声道音频数据,然后确定加窗处理后的左声道音频数据的Hartley transform变换谱。并且对右声道音频数据进行加窗处理,得到加窗处理后的右声道音频数据,然后确定加窗处理后的右声道音频数据的Hartley transform变换谱。
步骤103,根据左声道音频数据的Hartley transform变换谱和右声道音频数据的Hartley transform变换谱,确定左声道音频数据和右声道音频数据的误差总分量。
在实施中,服务器可以使用左声道音频数据的Hartley transform变换谱和右声道音频数据的Hartley transform变换谱,确定出左声道音频数据和右声道音频数据的总误差分量。
可选的,确定总误差分量的方法可以如下:
确定同一时间段中的同一频点,左声道音频数据中的音频帧的Hartleytransform变换谱与右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;将目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
其中,不管是左声道音频数据,还是左声道音频数据,其中的每个音频帧的时长都是固定的,也就是对应一个时间段,如30ms等。
在实施中,服务器可以获取同一时间段中的同一频点,左声道音频数据中的音频帧的Hartley transform变换谱与右声道音频数据中的音频帧的Hartley transform变换谱,使用这两个音频帧的Hartley transform,确定出左声道音频数据中的音频帧的Hartley transform变换谱与右声道音频数据中的音频帧的Hartley transform变换谱的误差分量。
将目标音频中不同时间段的每个频点对应的误差分量相加,就可以得到左声道音频数据和右声道音频数据的误差总分量。
可选的,可以使用如下方式计算误差总分量:
sumR=HLk,m+HRk,m
sumI=HLk,m+1+HRk,m+1
diffR=HLk,m-HRk,m
diffI=HLk,m+1-HRk,m+1
sumRI=sumR*sumR+sumI*sumI
diffRI=diffR*diffR+diffI*diffI
在上述几个公式中,HLk,m表示左声道音频数据中第k个音频帧的第m个频点的Hartley transform变换谱,HRk,m表示右声道音频数据中第k个音频帧的第m个频点的Hartley transform变换谱,HLk,m+1表示左声道音频数据中第k个音频帧的第m+1个频点的Hartley transform变换谱,HRk,m+1表示右声道音频数据中第k个音频帧的第m+1个频点的Hartley transform变换谱。
然后计算系数Ch=0.5-0.5*sqrt(diffRI/sumRI),其中sqrt为开平方根运算。
接着计算第k个音频帧的第m个频点上,左声道音频数据和右声道音频数据的误差分量ERRORk,m=(HLk,m-sumR*Ch)*(HRk,m-sumI*Ch)。
然后计算左声道音频数据和右声道音频数据的误差总分量为
Figure BDA0001744914740000091
需要说明的是,对于每个音频帧都是有一定时长的,也就是对应上述提到的时间段的概念。
步骤104,如果误差总分量小于预设数值,则目标音频为单声道的音频,如果误差总分量大于或等于预设数值,则目标音频为双声道的音频。
其中,预设数值可以预设,并且存储至服务器中。
在实施中,服务器在确定出左声道音频数据和右声道音频数据的误差总分量之后,然后判断误差总分量与预设数值的大小,如果误差总分量小于预设数值,则可以确定目标音频为单声道的音频,如果误差总分量大于或等于预设数值,可以确定目标音频为双声道的音频。
本发明实施例中,使用了Hartley transform变换谱分解方法,来确定左声道音频数据和右声道音频数据的总误差分量,然后使用该总误差分量,确定是否为伪双声道的音频,相对比左右声道相减法准确,所以可以尽可能的确定出伪双声道的音频,可以提高确定单声道的音频的准确率。
基于相同的技术构思,本发明实施例还提供了一种确定单声道的音频的装置,如图2所示,该装置包括:
获取模块210,用于获取目标音频的左声道音频数据和右声道音频数据;
第一确定模块220,用于确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
第二确定模块230,用于根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
第二确定模块240,用于如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
可选的,所述第一确定模块220,用于:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
可选的,所述第二确定模块230,用于:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
可选的,所述第一确定模块220,用于:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
可选的,所述第一确定模块220,还用于:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
本发明实施例中,使用了Hartley transform变换谱分解方法,来确定左声道音频数据和右声道音频数据的总误差分量,然后使用该总误差分量,确定是否为伪双声道的音频,相对比左右声道相减法准确,所以可以尽可能的确定出伪双声道的音频,可以提高确定单声道的音频的准确率。
需要说明的是:上述实施例提供的确定单声道的音频的装置在确定单声道的音频时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定单声道的音频的装置与确定单声道的音频的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3是本发明实施例提供的一种服务器的结构示意图,该计服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现上述确定单声道的音频的处理。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种确定单声道的音频的方法,其特征在于,所述方法包括:
获取目标音频的左声道音频数据和右声道音频数据;
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理;
确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
2.根据权利要求1所述的方法,其特征在于,所述确定所述左声道音频数据的Hartleytransform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量,包括:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
4.根据权利要求1所述的方法,其特征在于,所述确定所述左声道音频数据的Hartleytransform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
5.一种确定单声道的音频的装置,其特征在于,所述装置包括:
获取模块,用于获取目标音频的左声道音频数据和右声道音频数据;
第一确定模块,用于确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
第二确定模块,用于根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
第二确定模块,用于如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频;
所述第一确定模块,还用于:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
6.根据权利要求5所述的装置,其特征在于,所述第一确定模块,用于:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
7.根据权利要求5或6所述的装置,其特征在于,所述第二确定模块,用于:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
8.根据权利要求5所述的装置,其特征在于,所述第一确定模块,用于:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
CN201810838031.2A 2018-07-26 2018-07-26 确定单声道的音频的方法和装置 Active CN108962268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810838031.2A CN108962268B (zh) 2018-07-26 2018-07-26 确定单声道的音频的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810838031.2A CN108962268B (zh) 2018-07-26 2018-07-26 确定单声道的音频的方法和装置

Publications (2)

Publication Number Publication Date
CN108962268A CN108962268A (zh) 2018-12-07
CN108962268B true CN108962268B (zh) 2020-11-03

Family

ID=64465010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810838031.2A Active CN108962268B (zh) 2018-07-26 2018-07-26 确定单声道的音频的方法和装置

Country Status (1)

Country Link
CN (1) CN108962268B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4257066A (en) * 1978-05-17 1981-03-17 Sony Corporation Channel selecting apparatus for use with signal receiver and signal recorder
CN1747608A (zh) * 2004-09-08 2006-03-15 索尼株式会社 音频信号处理装置和方法
CN101150890A (zh) * 2006-09-22 2008-03-26 索尼株式会社 声音再现***和声音再现方法
CN101996633A (zh) * 2009-08-18 2011-03-30 富士通株式会社 用于在音频信号中嵌入水印的方法和装置
US7920708B2 (en) * 2006-11-16 2011-04-05 Texas Instruments Incorporated Low computation mono to stereo conversion using intra-aural differences
CN104053120A (zh) * 2014-06-13 2014-09-17 福建星网视易信息***有限公司 一种立体声音频的处理方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
US8085941B2 (en) * 2008-05-02 2011-12-27 Dolby Laboratories Licensing Corporation System and method for dynamic sound delivery
EP2345026A1 (en) * 2008-10-03 2011-07-20 Nokia Corporation Apparatus for binaural audio coding
WO2010087627A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
SG178081A1 (en) * 2009-07-22 2012-03-29 Stormingswiss Gmbh Device and method for improving stereophonic or pseudo-stereophonic audio signals
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置
CN106328168B (zh) * 2016-08-30 2019-10-18 成都普创通信技术股份有限公司 一种语音信号相似度检测方法
CN107659888A (zh) * 2017-08-21 2018-02-02 广州酷狗计算机科技有限公司 识别伪立体声音频的方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4257066A (en) * 1978-05-17 1981-03-17 Sony Corporation Channel selecting apparatus for use with signal receiver and signal recorder
CN1747608A (zh) * 2004-09-08 2006-03-15 索尼株式会社 音频信号处理装置和方法
CN101150890A (zh) * 2006-09-22 2008-03-26 索尼株式会社 声音再现***和声音再现方法
US7920708B2 (en) * 2006-11-16 2011-04-05 Texas Instruments Incorporated Low computation mono to stereo conversion using intra-aural differences
CN101996633A (zh) * 2009-08-18 2011-03-30 富士通株式会社 用于在音频信号中嵌入水印的方法和装置
CN104053120A (zh) * 2014-06-13 2014-09-17 福建星网视易信息***有限公司 一种立体声音频的处理方法和装置

Also Published As

Publication number Publication date
CN108962268A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN100356445C (zh) 分离声源信号的方法和装置及用来检测间距的方法和装置
US9729991B2 (en) Apparatus and method for generating an output signal employing a decomposer
CN111863015B (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN103137136B (zh) 声音处理装置
EP1303855A2 (en) Continuously variable time scale modification of digital audio signals
CN103875197A (zh) 直接-发散分解
US9913036B2 (en) Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
CN111613241A (zh) 一种高精度高稳定度的弦乐器基波频率检测方法
CN114726727A (zh) 一种时延调整方法、装置、存储介质及电子装置
KR20120095971A (ko) 복수의 마이크로폰들을 갖는 사운드 레코딩의 마이크로폰 신호들을 더빙하기 위한 방법
WO2017055485A1 (en) Method and apparatus for generating 3d audio content from two-channel stereo content
CN108962268B (zh) 确定单声道的音频的方法和装置
CN113891152A (zh) 音频播放控制方法及其装置、设备、介质、产品
US11611839B2 (en) Optimization of convolution reverberation
CN104424971B (zh) 一种音频文件播放方法及装置
US20070183602A1 (en) Method and synthesizing impulse response and method for creating reverberation
CN115696176A (zh) 一种基于音频对象的声重放方法、装置、设备及存储介质
CN109378012B (zh) 用于单通道语音设备录制音频的降噪方法及***
US10904690B1 (en) Energy and phase correlated audio channels mixer
EP3860148B1 (en) Acoustic object extraction device and acoustic object extraction method
EP2149876B1 (en) Reverberation applying device and corresponding program
Bagchi et al. Extending instantaneous de-mixing algorithms to anechoic mixtures
CN105869614A (zh) 音频文件导出方法和装置
RU2353004C1 (ru) Способ воспроизведения аудиозаписи с моделированным воссозданием параметров акустических характеристик окружающего пространства условий проведения аудиозаписи
CN117849509B (zh) 变频器的通道间频率一致性等级的确定方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant