CN101604526B - 基于权重的音频关注度计算***和方法 - Google Patents

基于权重的音频关注度计算***和方法 Download PDF

Info

Publication number
CN101604526B
CN101604526B CN2009100630452A CN200910063045A CN101604526B CN 101604526 B CN101604526 B CN 101604526B CN 2009100630452 A CN2009100630452 A CN 2009100630452A CN 200910063045 A CN200910063045 A CN 200910063045A CN 101604526 B CN101604526 B CN 101604526B
Authority
CN
China
Prior art keywords
sound
attention rate
interested
weight
interference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100630452A
Other languages
English (en)
Other versions
CN101604526A (zh
Inventor
胡瑞敏
杭波
马晔
高戈
杨玉红
周成
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN2009100630452A priority Critical patent/CN101604526B/zh
Publication of CN101604526A publication Critical patent/CN101604526A/zh
Application granted granted Critical
Publication of CN101604526B publication Critical patent/CN101604526B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及音频信号处理技术领域,尤其涉及一种基于权重的音频关注度计算***和方法。本发明包括初始化模块、感兴趣声音关注度计算模块、开关模块、干扰声音关注度计算模块、关注度融合模块,关注度融合模块对上述模块的中间结果进行计算得到感兴趣声音的基于权重的关注度M与干扰声音的基于权重的关注度N,最终计算得到进行关注度融合后所得的融合关注度Ma,并输出融合关注度。本发明具备音频关注度在感兴趣声音类型总数不同的情况下容易设定合适的关注度判定阈值,降低了音频关注度的判定难度,并提高了音频关注度的计算与判定准确度的特点。

Description

基于权重的音频关注度计算***和方法
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种基于权重的音频关注度计算***和方法。
背景技术
关注度是人类对对象的关注程度,而音频关注度是针对音频对象及特征的关注度。目前,现有的音频关注度计算方法包括自顶向下方法和自底向上方法。自顶向下音频关注度计算方法是根据人们对特定类别对象具有不同的关注度,比如对音频中的***声、语音等不同类型声音的关注度不同,进一步通过将对象进行分类判别来确定对象是否是所关注的对象;自底向上音频关注度计算方法是根据人类对对象的特征的关注,比如对能量、频率这些特征的关注,通过将对象的这些特征进行分析来确定对象是否属于被关注的对象。
下面详细描述现有技术常用的一种音频关注度计算方法,即一种音频关注度计算方法的技术方案。
在一段音频中包含多种类型声音时,通常基于音频分类,首先求得描述该段音频中各种感兴趣声音类型的关注度(M1,M2……),然后进一步计算音频文件在某一时刻的音频关注度Ma
M a = Σ i = 1 n λ i M i , Σ i = 1 n λ i = 1 .
其中Mi为一段音频中第i类感兴趣声音所得的关注度,λi为该段音频中所包含的第i类感兴趣声音在计算音频关注度Ma时的权重,n为该段音频中所包含的感兴趣声音类型总数。且Mi计算方法如下:
Mi=E·Pi
其中,E=Eavr/Max_Eavr,Eavr为该段音频中第i类感兴趣声音的平均能量,Max_Eavr为该段音频所在的整个音频文件中Eavr的最大值。
且Pi=exp(si-Max_si),si为该段音频第i类感兴趣声音的对数似然评分(log-likelihood score),Max_si为该段音频所在的整个音频文件中si的最大值。
若该段音频中包含的需纳入音频关注度计算的感兴趣声音类型较少,例如只有2~3种的情况,该音频关注度计算方法可以较好的对感兴趣的声音进行判别,然而当用户关注的声音类型较多时,不同类型感兴趣声音被赋予的权重λi会呈倒数曲线下降,即随着n不断增大,Ma会远小于1,甚至接近0;与此同时,在不同情况下,感兴趣声音类型数也不同,因此现有技术中的音频关注度计算方法在对音频关注度进行判定时,不便于对不同情况下音频序列选取合适的关注度判定阈值,从而导致音频关注度的判定复杂且不准确。
考虑到音频中存在这样一些类型的声音,这些类型的声音不是感兴趣声音,但与需要纳入音频关注度计算的感兴趣声音具有一些相似特征,有可能会被误判为感兴趣声音,我们称之为干扰声音。若在音频关注度计算中不排除这些类型的声音的影响,音频关注度的准确率会受到影响。
发明内容
本发明的目的是提供一种基于权重的音频关注度计算***和方法,使得音频关注度在感兴趣声音类型总数不同的情况下容易设定合适的关注度判定阈值,并在计算音频关注度时排除与音频中感兴趣声音类型相似的干扰声音类型的影响。
为达到上述目的,本发明采用如下的技术方案:
基于权重的音频关注度计算***,包括:
初始化模块,用于设置感兴趣声音类型的总数i和每种感兴趣声音的权值λi,如果有需要排除的干扰声音,则设置干扰声音类型的总数j,并设置每种干扰声音的权值ωj
感兴趣声音关注度计算模块,用于接收来自初始化模块输出的感兴趣声音类型的总数i,对i类感兴趣声音进行检测,并分别计算第i类感兴趣声音的关注度Mi
开关模块,用于接收来自初始化模块输出的干扰声音类型的总数j,并判断是否需要输出干扰声音类型的总数j给干扰声音关注度计算模块;
干扰声音关注度计算模块,用于接收来开关模块输出的干扰声音类型的总数j,对j类干扰声音进行检测,并分别计算第j类干扰声音的关注度Nj
关注度融合模块,用于接收来自初始化模块输出的每种感兴趣声音的权值λi和每种干扰声音的权值ωj,接收来自感兴趣声音关注度计算模块输出的第i类感兴趣声音的关注度Mi,接收来自干扰声音关注度计算模块输出的第j类干扰声音的关注度Nj;并对以上输入的中间结果进行计算得到感兴趣声音的基于权重的关注度M与干扰声音的基于权重的关注度N,最终计算得到进行关注度融合后所得的融合关注度Ma,并输出融合关注度,
其中,感兴趣声音类型的总数i大于0,干扰声音类型的总数j大于或等于0。
所述感兴趣声音关注度计算模块在计算感兴趣声音的关注度时,采用当前已有的任一类型音频关注度计算方法得到。
所述感兴趣声音关注度计算模块中,各类感兴趣声音的权重的选择范围是从0到1,包括0和1。
所述干扰声音关注度计算模块中,各类干扰声音的权重的选择范围是从0到1,包括0和1。
基于权重的音频关注度计算方法,包括如下步骤:
步骤1:输入待计算的音频信号,并对感兴趣声音类型的总数i与干扰声音类型的总数j进行初始化;
步骤2:检测该音频信号中的i类感兴趣声音,并计算各类感兴趣声音的关注度Mi
步骤3:设置该音频信号中的各类感兴趣声音的权值λi,并对感兴趣声音的基于权重的音频关注度进行计算,即,
M = 1 - Π i = 1 n ( 1 - λ i M i ) , λi∈[0,1]
步骤4:根据步骤1初始化后的干扰声音类型的总数j,判断j是否为0;如果j=0,则干扰声音的基于权重的音频关注度N=0,并执行步骤7;否则,执行步骤5;
步骤5:检测该音频信号中的j类干扰声音,并计算各类干扰声音的关注度Nj
步骤6:设置该音频信号中的各类干扰声音的权值ωj,并对各类干扰声音的基于权重的音频关注度计算,即,
N = 1 - Π j = 0 m ( 1 - ω j N j ) , ωj∈[0,1]
步骤7:根据上述步骤获得的感兴趣声音的基于权重的音频关注度M与干扰声音的基于权重的关注度N,计算融合关注度Ma,即,
Ma=M(1-N)。
本发明具有以下优点和积极效果:
1)音频关注度在感兴趣声音类型总数不同的情况下容易设定合适的关注度判定阈值;
2)排除了与音频中感兴趣声音类型相似的干扰声音类型的影响;
3)降低了音频关注度的判定难度,并提高了音频关注度的计算与判定准确度。
附图说明
图1是本发明提供的基于权重的音频关注度计算***模块结构图。
图2是本发明提供的基于权重的音频关注度计算方法流程图。
图3是本发明实施例中10种感兴趣声音的音频关注度计算结果图。
图4是本发明实施例中10种感兴趣声音与1种需排除的干扰声音的音频关注度计算结果图。
图5是本发明实施例中基于权重的音频关注度计算结果图。
图6是本发明实施例中不考虑待排除声音的基于权重的音频关注度计算结果图。
图7是本发明实施例中采用现有音频关注度计算方法的音频关注度计算结果图。
其中,
1-初始化模块,2-感兴趣声音关注度计算模块,3-开关模块,4-干扰声音关注度计算模块,5-关注度融合模块。
具体实施方式
下面以具体实施例结合附图对本发明作进一步说明:
本发明提供的基于权重的音频关注度计算***,具体采用如下的技术方案,参见图1,该基于权重的音频关注度计算***包括初始化模块1、感兴趣声音关注度计算模块2、开关模块3、干扰声音关注度计算模块4、关注度融合模块5。
初始化模块1,用于设置感兴趣声音类型的总数i和每种感兴趣声音的权值λi,如果有需要排除的干扰声音,则设置干扰声音类型的总数j,并设置每种干扰声音的权值ωj
感兴趣声音关注度计算模块2,用于接收来自初始化模块1输出的感兴趣声音类型的总数i,对i类感兴趣声音进行检测,并分别计算第i类感兴趣声音的关注度Mi
开关模块3,用于接收来自初始化模块1输出的干扰声音类型的总数j,并判断是否需要输出干扰声音类型的总数j给干扰声音关注度计算模块4;
干扰声音关注度计算模块4,用于接收来开关模块3输出的干扰声音类型的总数j,对j类干扰声音进行检测,并分别计算第j类干扰声音的关注度Nj
关注度融合模块5,用于接收来自初始化模块1输出的每种感兴趣声音的权值λi和每种干扰声音的权值ωj,接收来自感兴趣声音关注度计算模块2输出的第i类感兴趣声音的关注度Mi,接收来自干扰声音关注度计算模块4输出的第j类干扰声音的关注度Nj;并对以上输入的中间结果进行计算得到感兴趣声音的基于权重的关注度M与干扰声音的基于权重的关注度N,最终计算得到进行关注度融合后所得的融合关注度Ma,并输出融合关注度Ma
在本发明的一个实施例下,可以设定各类感兴趣声音具有相同的关注程度,各类感兴趣声音在计算关注度时具有相同的权重,可取λi=ωj=1。
本发明提供的基于权重的音频关注度计算方法,具体采用如下的技术方案,参见图2,该基于权重的音频关注度计算方法包括如下步骤:
步骤1:输入待计算的音频信号,并对感兴趣声音类型的总数i与干扰声音类型的总数j进行初始化;
步骤2:检测该音频信号中的i类感兴趣声音,并计算各类感兴趣声音的关注度Mi
步骤3:设置该音频信号中的各类感兴趣声音的权值λi,并对感兴趣声音的基于权重的音频关注度进行计算,即,
M = 1 - Π i = 1 n ( 1 - λ i M i ) , λi∈[0,1]
步骤4:根据步骤1初始化后的干扰声音类型的总数j,判断j是否为0;如果j=0,则干扰声音的基于权重的音频关注度N=0,并执行步骤7;否则,执行步骤5;
步骤5:检测该音频信号中的j类干扰声音,并计算各类干扰声音的关注度Nj
步骤6:设置该音频信号中的各类干扰声音的权值ωj,并对各类干扰声音的基于权重的音频关注度计算,即,
N = 1 - Π j = 0 m ( 1 - ω j N j ) , ωj∈[0,1]
步骤7:根据上述步骤获得的感兴趣声音的基于权重的音频关注度M与干扰声音的基于权重的关注度N,计算融合关注度Ma,即,
Ma=M(1-N)
本发明的基于权重的音频关注度计算方法的一个实施例描述如下:
某一音频信号包括11种不同声音类型,其中前10种声音类型为感兴趣声音类型,且第6种声音类型为语音,第11种声音类型为需排除的干扰声音类型,其声音类型为广播语音。
输入待计算的音频信号,即包含11种不同声音类型的音频信号,并设置感兴趣声音类型的总数i=10与干扰声音类型的总数j=1;
计算该音频信号中的各类感兴趣声音的关注度,即10种感兴趣声音的关注度依次为M1,M2,...M10(参见图3所示的);
计算该音频信号中的各类待排除声音的关注度,即M11(参见图4所示的);
设置该音频信号中的各类感兴趣声音的权重,即10种感兴趣声音的权重依次为λ1=λ2...=λ10=1;
设置该音频信号中的各类干扰声音的权重,即第11种需排除的干扰声音即广播语音的权重为ω1=1;
对上述10种感兴趣声音的关注度和权重进行感兴趣声音的基于权重的音频关注度计算,即,
M = 1 - Π i = 1 10 ( 1 - λ i M i ) , λ1=λ2=...=λ10=1
对上述1种干扰声音的关注度和权重进行干扰声音的基于权重的音频关注度计算,即,
N=1-(1-ω1N1),ω1=1
计算融合关注度Ma3,即Ma3=M(1-N);
输出基于权重的音频关注度,即包含枪声、警报声、语音、汽车鸣笛声等10种声音,并排除广播语音的音频信号的基于权重的音频关注度为Ma3(参见图5所示);
在上述步骤中,如果设定该音频信号中的各类干扰声音的权重为0,即第11种声音广播语音的权重为ω1=0,即在不考虑待干扰声音对关注度影响的情况下,可得(参见图6所示),
M a 2 = 1 - Π i = 1 10 ( 1 - M i )
在上述步骤中,如果按照背景技术中所述的现有的音频关注度计算方法进行计算,即
M a 1 = Σ i = 1 10 λ i M i , 且λi=1/10=0.1
则Ma1为现有音频关注度计算方法计算所得的音频关注度(参见图7所示)。
由图5与图6比较可得根据本发明所述基于权重的音频关注度计算方法计算所得的音频关注度排除了音频中干扰声音类型——广播语音对音频关注度计算的影响。
由图6与图7比较可得根据本发明所述基于权重的音频关注度计算方法计算所得的音频关注度数值的最大值始终接近1,而现有关注度计算方法计算所得的音频关注度数值随音频中感兴趣声音类型总数的增加而不断减小。因此本发明所述音频关注度计算方法较现有音频关注度计算方法更便于在感兴趣声音类型总数不同的情况下设定合适的关注度判定阈值,使得关注度的计算与判定更加简单与准确。

Claims (4)

1.一种基于权重的音频关注度计算***,其特征在于,包括:
初始化模块(1),用于设置感兴趣声音类型的总数i和每种感兴趣声音的权值λi,如果有需要排除的干扰声音,则设置干扰声音类型的总数j,并设置每种干扰声音的权值ωj
感兴趣声音关注度计算模块(2),用于接收来自初始化模块(1)输出的感兴趣声音类型的总数i,对i类感兴趣声音进行检测,并分别计算第i类感兴趣声音的关注度Mi
开关模块(3),用于接收来自初始化模块(1)输出的干扰声音类型的总数j,并判断是否需要输出干扰声音类型的总数j给干扰声音关注度计算模块(4);
干扰声音关注度计算模块(4),用于接收来开关模块(3)输出的干扰声音类型的总数j,对j类干扰声音进行检测,并分别计算第j类干扰声音的关注度Nj
关注度融合模块(5),用于接收来自初始化模块(1)输出的每种感兴趣声音的权值λi和每种干扰声音的权值ωj,接收来自感兴趣声音关注度计算模块(2)输出的第i类感兴趣声音的关注度Mi,接收来自干扰声音关注度计算模块(4)输出的第j类干扰声音的关注度Nj;并对所述关注度融合模块输入的中间结果进行计算得到感兴趣声音的基于权重的关注度M与干扰声音的基于权重的关注度N,最终计算得到进行关注度融合后所得的融合关注度Ma,并输出融合关注度Ma,其中:
Ma=M(1-N),
M = 1 - Π i = 1 n ( 1 - λ i M i ) , λi∈[0,1];
N = 1 - Π j = 0 m ( 1 - ω j N j ) , ωj∈[0,1];m、n为正整数
其中,感兴趣声音类型的总数i大于0,干扰声音类型的总数j大于或等于0。
2.根据权利要求1所述的基于权重的音频关注度计算***,其特征在于:
所述感兴趣声音关注度计算模块中,各类感兴趣声音的权重的选择范围是从0到1,包括0和1。
3.根据权利要求1所述的基于权重的音频关注度计算***,其特征在于:
所述干扰声音关注度计算模块中,各类干扰声音的权重的选择范围是从0到1,包括0和1。
4.一种基于权重的音频关注度计算方法,其特征在于,包括如下步骤:
步骤1:输入待计算的音频信号,并对感兴趣声音类型的总数i与干扰声音类型的总数j进行初始化;
步骤2:检测该音频信号中的i类感兴趣声音,并计算各类感兴趣声音的关注度Mi
步骤3:设置该音频信号中的各类感兴趣声音的权值λi,并对感兴趣声音的基于权重的音频关注度进行计算,即,
M = 1 - Π i = 1 n ( 1 - λ i M i ) , λi∈[0,1],n为正整数
步骤4:根据步骤1初始化后的干扰声音类型的总数j,判断j是否为0;如果j=0,则干扰声音的基于权重的音频关注度N=0,并执行步骤7;否则,执行步骤5;
步骤5:检测该音频信号中的j类干扰声音,并计算各类干扰声音的关注度Nj
步骤6:设置该音频信号中的各类干扰声音的权值ωj,并对各类干扰声音的基于权重的音频关注度计算,即,
N = 1 - Π j = 0 m ( 1 - ω j N j ) , ωj∈[0,1],m为正整数
步骤7:根据上述步骤获得的感兴趣声音的基于权重的音频关注度M与干扰声音的基于权重的关注度N,计算融合关注度Ma,即,
Ma=M(1-N)。
CN2009100630452A 2009-07-07 2009-07-07 基于权重的音频关注度计算***和方法 Expired - Fee Related CN101604526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100630452A CN101604526B (zh) 2009-07-07 2009-07-07 基于权重的音频关注度计算***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100630452A CN101604526B (zh) 2009-07-07 2009-07-07 基于权重的音频关注度计算***和方法

Publications (2)

Publication Number Publication Date
CN101604526A CN101604526A (zh) 2009-12-16
CN101604526B true CN101604526B (zh) 2011-11-16

Family

ID=41470232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100630452A Expired - Fee Related CN101604526B (zh) 2009-07-07 2009-07-07 基于权重的音频关注度计算***和方法

Country Status (1)

Country Link
CN (1) CN101604526B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109040778B (zh) * 2018-09-12 2021-01-22 武汉轻工大学 视频封面的确定方法、用户设备、存储介质及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1282114A1 (en) * 2001-01-25 2003-02-05 Sony Corporation Data processing apparatus
CN1459093A (zh) * 2001-01-25 2003-11-26 索尼公司 数据处理装置
CN101419801A (zh) * 2008-12-03 2009-04-29 武汉大学 分频带测量耳间相关度感知特性的方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1282114A1 (en) * 2001-01-25 2003-02-05 Sony Corporation Data processing apparatus
CN1459093A (zh) * 2001-01-25 2003-11-26 索尼公司 数据处理装置
CN101419801A (zh) * 2008-12-03 2009-04-29 武汉大学 分频带测量耳间相关度感知特性的方法及其装置

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
.基于用户关注空间与注意力分析的视频精彩摘要与排序.《计算机学报》.2008,
Hu Ruimin
Ruan Ruolin
Ruan Ruolin;Xiao Xuqing.A rate control scheme based on MAD weighted model for H.264/AVC.《2007 3rd International Conference on Wireless Communications, Networking, and Mobile Computing- WiCOM 07》.2007, *
Xiao Xuqing.A rate control scheme based on MAD weighted model for H.264/AVC.《2007 3rd International Conference on Wireless Communications, Networking, and Mobile Computing - WiCOM 07》.2007,
Yang Yuhong
Yang Yuhong;Hu Ruimin;Zhang Yong;Zhang Wei.Analysis and application of perceptual weighting for AVS-M audio coder.《2007 3rd International Conference on Wireless Communications, Networking, and Mobile Computing- WiCOM 07》.2007, *
Zhang Wei.Analysis and application of perceptual weighting for AVS-M audio coder.《2007 3rd International Conference on Wireless Communications, Networking, and Mobile Computing - WiCOM 07》.2007,
Zhang Yong
蒋树强
郑轶佳
高文
黄庆明
黄庆明;郑轶佳;蒋树强;高文;.基于用户关注空间与注意力分析的视频精彩摘要与排序.《计算机学报》.2008, *

Also Published As

Publication number Publication date
CN101604526A (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN109767769B (zh) 一种语音识别方法、装置、存储介质及空调
CN103077708B (zh) 一种语音识别***中拒识能力提升方法
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN103076593B (zh) 一种声源定位方法及装置
CN106601230B (zh) 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、***及物流分拣***
CN110265020B (zh) 语音唤醒方法、装置及电子设备、存储介质
CN104036774A (zh) 藏语方言识别方法及***
CN105096939A (zh) 语音唤醒方法和装置
JP2011527030A5 (zh)
CN105405448A (zh) 一种音效处理方法及装置
WO2010003109A3 (en) Speech recognition with parallel recognition tasks
CN105872910A (zh) 一种音频信号啸叫检测方法
CN108922553A (zh) 用于音箱设备的波达方向估计方法及***
CN103811001A (zh) 词语验证的方法及装置
CN101226742A (zh) 基于情感补偿的声纹识别方法
CN102655002B (zh) 音频处理方法和音频处理设备
US20220122592A1 (en) Energy efficient custom deep learning circuits for always-on embedded applications
CN103559289B (zh) 语种无关的关键词检索方法及***
CN109697981A (zh) 一种语音交互方法、装置、设备及存储介质
CN106205637A (zh) 音频信号的噪声检测方法与装置
CN101604526B (zh) 基于权重的音频关注度计算***和方法
CN103578480B (zh) 负面情绪检测中的基于上下文修正的语音情感识别方法
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
CN102237089B (zh) 一种减少文本无关说话人识别***误识率的方法
CN103994820A (zh) 一种基于微孔径麦克风阵列的运动目标识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111116