CN102682761A - 个性化的声音处理***和设备 - Google Patents

个性化的声音处理***和设备 Download PDF

Info

Publication number
CN102682761A
CN102682761A CN2011100589972A CN201110058997A CN102682761A CN 102682761 A CN102682761 A CN 102682761A CN 2011100589972 A CN2011100589972 A CN 2011100589972A CN 201110058997 A CN201110058997 A CN 201110058997A CN 102682761 A CN102682761 A CN 102682761A
Authority
CN
China
Prior art keywords
music
user
sound
hearing
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100589972A
Other languages
English (en)
Inventor
谢津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2011100589972A priority Critical patent/CN102682761A/zh
Publication of CN102682761A publication Critical patent/CN102682761A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种面向个人听觉的声音处理***;本***通过测试个人的听力,结合多年的人耳听觉以及心理学的研究数据,分析出个人听觉特征,建立个人听力模型,从而评估用户的听力健康状况;根据所评估的听力健康状况,本***可以完成对各类音乐、歌曲的个性化处理,以达到有利于用户听力健康的,提高听觉体验的效果;本***还可以对各类音乐、歌曲进行声学特征分析,基于用户听觉与心理特征,为用户搜索歌曲,向用户推荐音乐,达到个性化营销的目的;本***不仅可以通过互动式语音应答或在网络上实现,还可以在终端设备上进行集成;本***广泛适用于互联网行业和电子产品行业。

Description

个性化的声音处理***和设备
技术领域
本发明涉及信号处理、心理声学和听觉生理学,更具体的说,本发明涉及一种个性化的声音处理***,用于测试用户听力特征,报告用户的听力健康状况,并基于该用户的听力特征,将普通的音乐文件,加工成更加好听的、有利于该用户听力健康的、适于长期聆听的音乐文件。 
背景技术
一些本发明中使用的词汇,其涵义分别列出如下。 
人耳解剖结构——包括外耳、中耳、内耳、听神经、脑干和听神经中枢等。声音在外耳得到增强,中耳将空气振动转换成机械震动,内耳将机械震动转换成神经脉冲,神经脉冲经过听通路,最终到达听神经中枢,使人感觉到声音。 
声学测试——本发明所述的声学测试包括两种:心理声学测试和听觉生理学测试。心理声学是研究声音和听觉之间关系的学科,而心理声学测试是测试一个人的听觉特征的实验。在物理学中,一个声音可以从频率、幅度和相位来描述;而心理声学的描述则不同,它从人类心理的角度把一个声音的属性描述为音高、响度和音色。 
听觉生理学测试——发出声音给人听,然后记录下在听到声音之后这个人的物理特征的变化,如脑电和脑磁场的变化,这称为听觉生理学测试。常见的听觉生理学测试,包括听觉脑干响应(Auditory Brainstem Response,ABR),畸变产物耳声发射(Distortion Product Oto-Acoustic Emissions,DPOAE),复合动作电位(Compound Action Potential,CAP)和脑电图(Electroencephalography,EEG)。 
声压强——是一种声音强度的度量单位,通常缩写为SPL (Sound Pressure Level),也称为声压级、声音强度或强度。它的单位是 dBSPL(Decibel Sound Pressure Level)。它是一个客观的描述音量大小的物理量。0 dBSPL是人类大约能听到的最小声音,痛苦的门限值为135 dBSPL。安静的背景音乐,通常在50 dBSPL,交响乐通常达到110 dBSPL或者更高,而很响的摇滚乐可以达到120 dBSPL。 
纯音——只含有一个单一频率的声音。例如,1000Hz的正弦声波发出的声音,是一个1000赫兹的纯音。 
谐波——由一个纯音,以及它的整数倍的频率,叠加共同组成的复合声音。 
基音——谐波中最小的那个频率称为基音,也称为基频。 
泛音——谐波中,除了基音,所有其它更高的整数倍的频率成分都称为泛音。 
残余音——对于纯音, 它的音高主要决定于频率;而对于由基音和泛音组成的复合音,其音高较为复杂。自亥姆霍兹以来,普遍认为复合声的音高决定于基音的频率,因为基音的振幅在频谱中占优势。但是测试表明,若复合声的基频很弱,甚至完全被滤掉,它的音高仍维持基频的音高不变。这种失去基频仍保持音高不变的复合音,被称为残余音[1]。 
单轨录音——用单一轨道,将所有现场的声音一起录下来的技术。 
多轨录音——在音乐的制作过程中,使用许多轨将乐器和人声分别录进电脑;在后期处理中,经过合成后混为一个成品。多轨录音的作用和优势明显,它避免了“单轨录音”的两个缺点:缺点一,如果一个演奏者出了偏差,全部演奏者都要重来;缺点二,所有的乐器都录在一起,后期制作的时候,无法针对每件乐器做精细的调整。 
耳蜗群延迟效应——当声音传播到了人耳的耳蜗,对不同的频率,耳蜗会产生不同的延迟时间。也就是说,进过耳蜗之后,高频的声音到达听觉神经较快,而低频的声音到达的较慢。这种效应,称为耳蜗群延迟效应。可以看出,耳蜗群延迟扭曲了声音的相位。对于耳蜗对相位的扭曲,研究者已经确定了其特性[2,3]。德波尔(De Boer)推导出了一种调频脉冲信号,该信号能够恰好补偿人类耳蜗带来的相位扭曲[2]。 
临界频带——当两个声音的频率靠的很近时,人耳不能够区分出来。这个最小的频率差值,就称为临界频带。临界频带的宽度,一般认为1/3-1/6音程。人耳会倾向于合并在临界频带内的声音。不仅如此,不同的频带给人的感觉差异巨大, 16~60赫兹频段能给音乐以力度;提升60~250赫兹能够使音乐丰满;250~2000赫兹能赋予音色号角般的色彩;2000~4000赫兹人耳的灵敏度最好;4000~6000赫兹为清晰、明亮和主观感受的频段;5000赫兹稍加衰减定会使声音产生距离感和透明感;6000~20000赫兹则控制着声音的明亮与清晰,若稍加调整即可产生轻松、清脆和光泽感。 
响度——响度是主观感受到的声音强度,它表示的是一个声音听来有多响的程度。根据美国国家标准学会(American National Standards Institute, ANSI)的定义,响度是听觉感知的一种属性,该属性按照从安静到响亮的顺序排布。响度与声压强不同,后者是客观的声音强度。通过A加权曲线,过滤声压强,可以近似获得典型人耳的响度。响度的单位是宋(Sone)和方(Phon)。现代心理声学进行了响度的定量判断测试,并建立了响度量表。1宋的定义为1000赫兹、40 dBSPL纯音所引起的响度,大致相当于轻声说话的声级。宋量表证明,响度正比于 1000赫兹等响声压的0.6次幂,就是说,1000赫兹等响声的声压级提高10dB,响度加倍。响度和听力损伤的关系如下:如果发生听力损伤,响度的感觉就会发生变化;较低的声音就听不见了,但是很响的声音还是感觉和原来差不多,这被称为响度重振[4]。 
等响曲线——人耳对于不同的声音敏感程度不同,其中,人耳对2000-5000赫兹的频率最为敏感。这说明响度的变化不是单纯地决定于声音强度,也与频率有关。两个不同频率的纯音,虽强度相同,引起的响度却不同。总的来说,由于人耳的特点,中频纯音听来比低频和高频纯音响一些。以1000赫兹、80 dBSPL的纯音为参照声,通过响度平衡测试,可以得到一条等响线,如图1所示。在这条等响线上,纵轴是声压强,横轴是频率,各频率的纯音尽管声压级不同,但都与该曲线上的1000赫兹纯音等响。所以,此曲线上各纯音的响度级,都是80方(phon)[1]。类似的,还有100方,60方,40方,20方,0方的曲线。这一簇曲线,统称为等响曲线。等响曲线的特点:响度从0方增大到100方,等响曲线逐渐变平。这说明响度增长率,随着频率的不同而不同。最小的等响曲线,代表人类能听到的最轻的声音,被称为阈值、听力门限或绝对听力门限(Absolute Hearing Threshold)。等响曲线,由贝尔实验室的Fletcher和Munson在1933用纯音测量,并在多个人上平均得到。该等响曲线在1986年被写入了标准化文件ISO 226中。 
听力门限——声音不够一定强度不能引起听觉,人类最低能听到的声音强度称为听力门限,也称为阈值。听力门限有个体差异,因而所谓正常听力门限,只能是一些听力正常的年轻人的听力门限的统计平均值。听力门限随频率而变化:500~4000赫兹之间阈值最低;在它们之上和之下的高频声和低频声的阈值都较高,如20赫兹纯音的阈值,比1000赫兹的高约70dB,而10000赫兹纯音的阈值也比 1000赫兹的高约10dB。最敏感的频率是3000赫兹左右,空气分子振动的振幅达到10-11米,人类就可以听到[1]。 
音长——音长是声音长短的感觉,人类感觉到的音长和声音的物理时间长短是不相等的[1]。 
音程——一个频率与它的两倍频率之间的距离,称为一个音程。 
音高——声音调子高低的程度。音高主要取决于声音的频率,它随频率的升降而升降。但是,它也不是单纯地由频率决定,与声音强度也有关系。低频纯音的音高随强度增加而下降;反之,高频纯音的音高却随强度增加而上升。音高定量判断测试是让人听一系列纯音,使它们在音高上听来间隔相等。这样取得的平均判断构成了音高量表,其单位称为美。在此量表上,1000赫兹纯音的音高被定为1000美(mel)[1]。 
音色——音色是对声音音质的感觉。纯音不存在音色问题。而复合声的音色具有很多变化。例如,不同乐器所发出的声音,音色不同。小提琴和钢琴发出的中央C音,尽管它们响度和音高相同,听起来还是不一样,原因在于它们音色的差异。声音的音色取决于它们的频谱。复合声这种多量纲的特点,使得音色也具有多量纲性,不同于只有单个量纲的响度和音高。所以,音色只能用多维空间上相应的点来确定。语言的多维量表测试证明,音色的知觉空间上的点与频谱的物理空间上的点是非常吻合的[1]。 
声音设备的校准——对声音播放设备的校准,需要根据美国国家标准学会(American National Standards Institute,ANSI)的标准,或者国际标准化组织(International Standard Organization, ISO)的标准来进行。 
音乐欣赏的个人差异化——人的听觉特征参数差异显著,使用人类平均的曲线,或者任何一定固定的曲线,无法给个人带来最大化的音乐享受。 
失真——音乐设备在播放音乐的时候会带来失真。失真包括三种:群延迟失真,谐波失真和互调失真。群延迟失真,是指音乐设备对不同频率的分量,产生不同延迟,引起音色扭曲。谐波失真是指,如果播放1000赫兹的声音,由于失真会产生2000赫兹,3000赫兹,…一系列的声音;互调失真是指,播放1000赫兹的和100赫兹的声音,产生了900赫兹和1100赫兹的声音。 
双耳效应——声源定位的主要因素为两耳的时间差和强度差,也称为双耳效应。由于头部、耳廓、外耳道等的共振、反射作用,使听到的声音频谱受到调制。来自右边的声音先到达右耳,强度也比左耳收到的强。复合声的定位比纯音容易,纯音,尤其是2000~3000赫兹的纯音, 定位特别困难。在可听声范围内,耳廓的指向性不显著,但对定位仍有作用。在低频率,两耳强度差别不大, 定位主要靠相位因素或时间差因素。在高频率, 相位变化复杂,强度差更为重要。在中频,定位更依赖时间和强度的综合作用[1]。人耳对声源定位,对于横向角度的定位精度为5度左右,甚至可以高达1-2度。如果耳廓的边缘被逐渐填满,定位的能力就逐渐消失了,消失的程度正比于填充的面积;显然,大脑利用了耳廓的反射,来确定声源。对声音中所包含的延迟时间的信息,双耳比较敏感,能够从中获取很多信息:耳廓反射所引发的延迟,在0.1毫秒的量级;左右耳的时间差非常重要,它在0.5毫秒的量级;对于1-50毫秒的延迟信号,大脑会合并到直达信号,所以大脑并不会认为这是回声;大于50毫秒的延迟,听起来会觉得是回声;50-100毫秒的延迟,给人的感觉像一个洞穴般的回声;大于400毫秒的回声,大脑可以把它和原信号区别出来,更有回声的感觉。 
最小可区别的强度差——人类最小可区别的强度差别,为1-3dB。所以,高质量的播放设备,其幅谱相应的波动,应被控制在2dB之内。但是,因为房间效应的存在,一个上下波动2dB的频率响应,在现实世界的自由空间播放是很难达到的。因此,比较现实的要求是:高质量的音乐播放设备,200-20000赫兹上下波动5dB,20-200赫兹上下波动10dB。听力门限的概念还包括差别门限,即两个(能够引起听觉差别的)声音的最小差值。就频率说,在63赫兹左右有经验的人耳能区别相差0.5赫兹的两个纯音的差别,但这种阈值在1000赫兹要增加到1.4赫兹,频率越高差别门限越大。在整个听觉范围内,可辨别的声音约34万个[1]。 
最小可区别的频率差——对一个年轻人,最小可区别的频率差,在1-5赫兹之内,都是正常的[5]。在1000—2000赫兹, 最小可区别的频率差是3.6 赫兹。也就是说,音高的变化超过3.6 赫兹,即能被感知到。 
冲激响应——对一个音乐处理***,当输入信号为冲激的时候,***的输出信号被定义为冲激响应。也即,若输入是狄拉克冲激 
Figure 2011100589972100002DEST_PATH_IMAGE001
,则***输出被称为冲激响应。如果冲激响应的傅里叶变换为
Figure 2011100589972100002DEST_PATH_IMAGE003
,则频谱响应的定义为
Figure 2011100589972100002DEST_PATH_IMAGE004
,幅度谱响应定义为
Figure 2011100589972100002DEST_PATH_IMAGE005
。 
均衡器——在音乐欣赏中,均衡器是一个常用的组件。它的作用就是对不同的频率增强强度或者衰减强度。通常来说,均衡器被划分成多个频率范围,低音范围(bass)从 20赫兹起;中低音范围(mid-bass),从100到500赫兹(如低音鼓,低音吉他, 话语的低频段);中频范围(midrange),从500赫兹到4000赫兹(如吉他,话语);高频范围(tweeters),从4000赫兹到20000赫兹。 
滤波——使用特定冲激响应的***,对输入信号进行处理,称为滤波。 
录音设备——本发明中录音设备是可以记录下外界声音的电子设备,例如普通动圈话筒、高灵敏度的专业电容麦克等。 
数字水印技术——本发明测量出的心理声学参数,可以通过数字水印的方法,嵌入到歌曲当中去。数字水印技术,对于本领域技术人员是显而易见的。 
用户终端——在本发明中,用户终端是指用户可以控制的、能够播放声音的电子设备,例如消费电子设备、掌上设备、手机、电脑等。 
本发明所提到的群延迟有两个方面涵义: 
第一,群延迟失真:如果声音播放设备产生了群延迟,就能够被人类听到失真的感觉。500赫兹人类可以听出的最小失真是3.2毫秒的延迟;1000赫兹是2毫秒;2000赫兹是1毫秒;4000赫兹是1.5毫秒;8000赫兹是2毫秒[6]。另外,群延迟会导致声音相位谱的失真。相位谱的失真,会带来音色的改变,使听者感觉到失真和扭曲。施瓦德(Schroeder)发现了这一现象,具体来说,他发现一个泛音信号,即使幅度谱保持水平,仅仅相位谱改变,就能够为人们带来音色和音质的改变[7]。
第二,当声音通过人的内耳,会产生群延迟。实际上,人的内耳的解剖结构,导致了人类对高频信号反应比低频信号快。为了描述这一个物理现象,德波尔(doBoer)建立了一个内耳的群延迟数学模型[2]。如果把人耳看作近似为一个线性时不变(Linear Time-Invariant, LTI)***,那么它可以用频率响应
Figure 2011100589972100002DEST_PATH_IMAGE006
来描述。假定外界的声音是,那么人类感觉到的声音是: 
  
Figure 2011100589972100002DEST_PATH_IMAGE008
                                   (公式 
Figure 608715DEST_PATH_IMAGE009
在(公式1)中,
Figure 2011100589972100002DEST_PATH_IMAGE010
是群延迟,是相位延迟。 
推广开来,内耳、听神经末梢、以及听力***的各个处理节点,都会对不同频率,产生不同的延迟。例如,听力脑干响应(Auditory Brainstem Response, ABR)检测,是一种临床广泛应用的,筛查新生儿听力缺陷,检测成年人听力障碍的检查手段;如果播放不同的纯音,则可以观察到听力脑干响应的延迟是不同的。 
对于个人电脑、掌上设备和便携式电子产品,由于尺寸的限制,低于125赫兹的声音,通过这些设备播放的效果,会严重下降,远远无法达到家庭影院的音响效果。即使高端的耳机,其频谱响应,在低于125赫兹的范围通常也会有10dB/音程的下降(在高频端4000赫兹以上,20dB的波动都是常见的)。 
即使很好的播放设备,其频谱响应曲线仍然不能保持平坦。而且,每个人的听力门限的曲线差异巨大。这两种效果叠加在一起,导致每个人听同一首歌,听到的感觉都不是最佳的。 
对个人来讲,叠加后的曲线有尖峰,有低谷。在低谷的地方,这个人就无法听到音乐的细节。这种情况下,音乐欣赏者倾向于调大音量。大量研究结果表明,音量与听力永久性损伤有直接的关系,如果音量超过85 dBSPL,则音量越大,收听时间越长,听力受到永久性损伤的越快。 
在不增加音量的情况下,如何给听者带来个性化的音乐、更清晰的音乐、更好听的感觉,从而保护听力健康,是本领域亟待解决的问题。 
这个问题,均衡器或者均衡设备无法解决。首先,在不了解个人听力特征的情况下,仅凭感觉调节均衡器,有可能会将音乐调的更加不健康。其次,从一个人到另一个人的听力都不一样,任何一条或者几条均衡器曲线,无法匹配个人的听力。 
音乐和人类健康之间的关系,包括四方面:第一,不适当的音乐,不适当的音乐设备,或者不适当的播放方式,能够直接损伤人类听力***,永久性地导致听力下降,所以人类应当聆听适合自己的、有利于自己听力健康的音乐。 
第二,每个人的听力不同,如果一个人的听力在某些频率低于平均水平,这个人就无法听到音乐某些的细节。这种情况下,音乐欣赏者倾向于调大音量。大量研究结果表明,音量越大,听力永久性损伤越多。这个问题,需要个性化的音乐才能解决。 
第三,音乐能够直接影响人的生理状态,如血压和心率等,多个研究都证实了音乐疗法能够治疗疾病[8,9]。但是,不恰当的播放强度,或者不恰当的频率成分,不仅不能治疗疾病,反而会危害人体健康。例如,人类暴露在400赫兹、109 dBSPL、500毫秒下,其反应如下:4-11秒之后,动脉和静脉血压显著上升[10]。让人感觉刺激性的音乐,还会增加精神疾病的长期风险,影响心率和诱发紧张的荷尔蒙[11,12]。所以,选择适合于自己的健康的音乐,并欣赏这些音乐,能够获得音乐疗法的益处,也能够直接多方面提升健康状态。 
第四,在长期实践中,音乐工作者和音乐爱好者均发现,平坦频率响应的音乐为平淡无味和没有活力的。而且,音乐欣赏的个人差异化是显著的。所以,为每一个人提供个性化的音乐,能够最大化音乐享受。但是,现有技术和产品,无法满足这个需求。 
以上所描述的群延迟失真、低音效果不足、非平坦的频谱响应、忽视听力健康、无法获得个性化的音乐,成为本领域亟待解决的问题。 
参考文献
[1].  Békésy, G.v., Experiments in Hearing. 1960: McGraw-Hill, New York.
[2].  deBoer, E., Auditory physics. Physical principles in hearing theory. Phys. Rep. , 1980. 62: p. 87–174.
[3].  Shore, S.E. and A.L. Nuttall, High-synchrony cochlear compound action potentials evoked by rising frequency-swept tone bursts. J. Acoust. Soc. Am. , 1985. 78: p. 1286-1295.
[4].  ANSI, "American national psychoacoustical terminology" S3.20 American Standards Association. American National Standards Institute, 1973.
[5].  Jourdain, R., Music, the Brain and Ecstasy. 1997: Avon Books, New York.
[6].  Blauert, J. and P. Laws, Group Delay Distortions in Electroacoustical Systems. Journal of the Acoustical Society of America, 1978. 63(5): p. 1478-1483.
[7].  Schroeder, M.R. and H.W. Strube, Flat-Spectrum Speech. J. Acoust. Soc. Am, 1986. 79(5).
[8].  Besson, M., et al., Singing in the brain: independence of lyrics and tunes. Psychol Sci., 1998. 9(494-498).
[9].  Platel, H., Neuropsychology of musical perception: new perspectives. Editorial Oxford, 2002.
[10]. Steele, K.M., J.D. Brown, and J.A. Stoeker, Failure to confirm the Rauscher and Shaw description of recovery of the Mozart effect. Percept Mot Skills, 1999. 88(843-848).
[11]. Carstens, C.B., E. Huskins, and G.W. Hounshell, Listening to Mozart may not enhance performance on the revised Minnesota Paper form Board Test. . Psychol Rep, 1995. 77(111-114).
[12]. Hughes, J.R., et al., The "Mozart effect" on epileptiform activity. Clin Electroencephalogr, 1998. 29(109-119)。
发明内容
本发明利用声学测试,获得用户个人的听力特征,分析得出用户的听力健康状况,再根据所述用户的听力特征,修改音乐文件,以使所述用户获得针对性、健康的、清晰的、好听的音乐。为实现以上目的,本发明的特征是:一组声学测试,包括心理声学测试或听觉生理学测试;用户的一组听力特征,通过所述的声学测试获得;一组声音处理器,根据所述用户的听力特征,处理、提供个性化的音乐。 
如前所述,每个人的听力差异巨大;如果一个人的听力在某些频率低于平均水平,那么这个人就无法听到音乐在所述频率的细节;这时,音乐欣赏者倾向于调大音量;大量的研究表明,音量过大,是导致听力永久性损伤的重要因素。这个矛盾,可以被本发明很好的加以解决。例如,如果用户在3000赫兹的听力低于平均水平,而1000赫兹的听力较好,则本发明自动把音乐中1000赫兹的能量,移动一些到3000赫兹,而不改变总能量;这样用个性化的能量分配,不仅更健康,而且提高了音乐的细节感和清晰度。从而,本发明使用户不必增大总音量,即可获得健康、适合自己的清晰音乐。 
本发明设计新颖巧妙、处理效果好、易于实施。 
附图说明
附图1是等响曲线,曲线上的任何一点所发出的声音,人类听到的响度都相同,这条曲线的响度为80方(Phon)。 
附图2是本发明的一个具体实施例的结构示意图,它增强了个性化重低音。 
附图3是本发明的一个具体实施例的结构示意图,它实现了个性化的最佳均衡曲线。 
附图4是本发明的一个具体实施例的结构示意图,它实现了音乐的个性化空间感。 
附图5是本发明的一个具体实施例的结构示意图,它实现了心理声学空间感的测试。 
附图6是本发明的一个具体实施例的结构示意图,它实现了音乐的空间感随时间而变化的功能。 
附图7是本发明的一个具体实施例的结构示意图,它实现了心理声学群延迟的测试。 
附图8是本发明的一个具体实施例的结构示意图,它在音乐信号处理同时采用了个性化幅谱曲线和个性化群延迟。 
附图9是本发明的一个具体的时变频率信号的波形。 
具体实施方式
在本发明的描述中,“或”具有包含性的意义,包含任何组合,所以“A、B或C”,包括下面的各种组合{“A” ,“B” ,“C” ,“A和B” ,“A和C” ,“B和C”,“A、B和C”}。本发明所提到“一个具体实施例”,意味着本发明一个特定的结构或特别的实现。而本发明各段落所提到的“一个具体实施例”,不一定指代同一个实施例。同时,本发明所提到的特定结构和特征,可以在一个或多个实施例上不受限制的以合适的方式组合。本发明可以运行在网页服务器上,也可以独立运行在用户终端上,或者通过打电话的方式进行,或者部分运行在网页服务器、部分运行在用户终端上、部分通过打电话的方式进行。本发明不仅包括***和方法,还包括计算机程序和设备。本发明所提到所有具体实施例,均不对本发明的权利要求产生任何限定。 
在本发明的一个具体实施例中,一个心理声学测试包括多步;每一步有一个声音从用户设备中播放出来,如果用户听到了声音,则选“是”,否则选“否”;所述的心理声学测试,对左耳和右耳分别进行;最终左耳的结果和右耳的结果,分别进行比较,得出听力健康的报告。 
在本发明的一个具体实施例中,一个心理声学测试包括多步;每一步有2个或2个以上的声音从用户设备中播放出来;根据测试的要求,用户必须在多个声音中选择一个;所述的心理声学测试,对左耳和右耳分别进行;最终左耳的结果和右耳的结果,分别进行比较,得出听力健康的报告。 
在本发明的另一个具体实施例中,在心理声学测试的每一步中,用户可以多选一(即N选1,N>1);也可以每一步随机播放一个刺激,而后采用用户打分的方法,统计出直方图,判断出用户的测试结果。 
在本发明的一个具体实施中,心理声学测试有多个(n>1)子测试组成;每个子测试,测量一个用户的听力特征;全部的所述子测试的特征,组成一个特征矢量
Figure 2011100589972100002DEST_PATH_IMAGE011
;其中。,…,
Figure 2011100589972100002DEST_PATH_IMAGE013
是描述第1个子测试特征的数组,
Figure 2011100589972100002DEST_PATH_IMAGE014
,…,
Figure 2011100589972100002DEST_PATH_IMAGE015
是描述第2个子测试特征的数组,…,,…,
Figure 2011100589972100002DEST_PATH_IMAGE016
是第n个子测试特征的数组。 
在本发明的一个具体实施中,心理声学测试由多个测试环节组成,每个环节的播放时间;一个测试环节结束之后,用户做出回答所需的时间为,然后再经过一段等待时间
Figure 2011100589972100002DEST_PATH_IMAGE017
,另一个测试环节才开始进行;所述的等待时间
Figure 160743DEST_PATH_IMAGE017
,可以因人而异的选择,实现个性化;这个选择过程,可以是用户定制的,也可以由测试程序自动监测,动态配置。 
在本发明的一个具体实施中,心理声学测试由多个测试环节组成,每个环节的播放时间
Figure 2011100589972100002DEST_PATH_IMAGE018
;一个测试环节结束之后,用户做出回答所需的时间为
Figure 2011100589972100002DEST_PATH_IMAGE019
;如果在规定的等待时间
Figure 471639DEST_PATH_IMAGE017
内,用户仍然未做出回答,则自动使用缺省回答,并进入下一个测试环节。 
在本发明的一个具体实施例中,心理声学测试的目标是获得响度增长曲线,检测用户的听力好坏;所述的响度增长曲线的获得,测试了多步;每一步中,用户对目前的声音的响度,进行主观打分;最后,测试的结果是一条客观音量到主观响度的映射曲线;所述的映射曲线,其斜率能够被用于检查听力好坏,如果斜率高于平均水平,则有听力受损发生;如果斜率低于平均水平过多,也是异常情况;所述的映射曲线;第二种用途如下,在多首歌曲播放的时候,或者多个音频节目播放的时候,实施自动音量控制,保证不同节目播放的音量能够自适应的个性化的调整。 
在本发明的一个具体实施例中,用户的听力门限,被加以测量;所述的测量中,有M个频率,被依次测量;第n个频率的听力门限的测量结果,作为第n+1个测量的初值;这样的做法,能够提高测试效率,加速收敛,减小测试时间。 
在本发明的另一个具体实施例中,用户使用所述的***,检查自己的听力健康;所述的***包括多步;每一步中,用户听到N个(N>2)声音;在这N个声音中,N-1个声音是同样的(称为参考声),只有一个特殊的声音与其它声音听起来不同;所述的N个声音被顺序播放;而特殊声音随机出现在其中一个位置;所有的声音播放结束之后,用户被要求在N个声音中找出那个听起来不一样的声音;根据用户的回答正确或错误,测试的难度自动的加大或减小;当难度增加的时候,特殊的声音和参考声越来越相似,反之,难度减小的时候,特殊的声音和参考声差异越来越大;如果用户连续M步(M为整数)回答都是正确的,则增大测试的难度,否则,降低测试的难度;所述的测试,跟踪了用户的听力能力;对跟踪曲线进行分段平均,就能够得到测试结果;所述的测试结果,代表了用户的听力状态和听力健康水平。 
在本发明的一个具体实施例中,用户使用心理声学测试,测试听力,建立个人听力的模型;所述的心理声学测试有2*L个子测试组成;所述的测试,一半对左耳,一半对右耳,使用的声音可以是纯音、噪音、带通噪音、带阻噪声、噪音中的纯音、带通噪音中的纯音或带阻噪声中的纯音。 
在本发明的一个具体实施例中,一个心理声学测试实施在用户上,并最终获得双耳的测试结果,该测试结果被用于一个分类算法,最终诊断和筛查听力的健康状况。 
在本发明的另一个具体实施例中,心理声学测试的结果,被用于声音疗法,提升记忆力及集中力,缓解自闭症或抑制癫痫。 
在本发明的另一个具体实施例中,心理声学的测试结果,被用于配置一个专业的声音治疗设备,为用户实施相应的治疗。 
在本发明的一个具体实施例中,用户拨打一个电话做声学测试,定制个性化的音乐;接通之后,用户做声学测试;所述的声学测试由很多步组成;在每一步中,用户听到一个或多个声音,根据测试的要求,用户通过N选一的方式做选择,或者通过打分的方式做出响应;所述的用户响应,可以是按下一个键,也可以是口头回答;在测试结束之后,所述的用户响应,被用来计算用户的听力特征;所述的听力特征,被用来为用户提供个人定制的音乐;一旦提取了用户特征,用户就可以获得多首定制过的、个性化的音乐。 
在本发明的另一个具体实施例中,用户通过拨打电话的方式进行声学测试,测试结果可以用不同的平台给用户反馈;所述的反馈,可以用语音的方式告知用户,也可以用短信的方式、网络的方式、或者纸面的方式;所述的反馈的内容,包含向用户推荐的一组歌曲,输出用户在所有人听力中的排名,提供用户听力健康的状态,对用户听力保健做出建议,对用户聆听的音乐的建议或者对用户日常听力保健习惯的建议。 
在本发明的一个具体实施例中,用户可以拨打电话或者上网的方式,定制个性化铃音;用户进入“歌曲库”,选取一首想用来做彩铃或炫铃的歌曲;所选的歌曲,其幅度谱和相位谱被处理成多种音乐效果,播放给用户听;所述的每一种音乐效果,用户加以打分;最高分的音乐效果,被记录下来,应用到所选音乐上;用户可以反复试听、选择,直到满意为止。 
在本发明的一个具体实施例中,用户在网络上进行声学测试,以获得推荐的音乐;所述的声学测试结果,与用户偏好、用户打分、用户选择歌曲的历史、用户个人信息、文字、年龄或性别,进行联合搜索,推荐适合个人的音乐。 
结合图2,详细说明本发明的一个具体实施例,但不对本发明的权利要求作任何限定。如图2,用户的听力学特征,被用于个性化重低音;输入音乐201,通过带通滤波器202,带通滤波器203,带通滤波器204被分成N个频段;所述的带通滤波器输出带通信号,到谐波发生器205,谐波发生器206,谐波发生器207;所述的谐波发生器的输出,进入到个性化相位器208;所述的个性化相位器208,包括相位谱调整器209,相位谱调整器210,相位谱调整器211;所述的相位谱调整器,其输出到个性化幅度器215;所述的个性化幅度器包括幅度谱调整器216,幅度谱调整器217,幅度谱调整器218;所述的幅度谱调整器的输出,被加法器219相加,成为输出音乐220。 
结合图3,详细说明本发明的另一个具体实施例。如图3,本发明被用来输出一个用户的最佳均衡曲线。图中所述的均衡器库是一个二维的矩阵,矩阵的第l行、第m列的元素,是一组均衡曲线,其中,l表示第l个类型的歌曲,m表示第m种用户需求,n表示第n条均衡曲线,f是频率。如图3,用户自己的歌曲301,或者歌曲库302中的歌曲,被选择成为所选歌曲203;所述的用户对此进行聆听,根据听觉感受,从列表中选择一个需要改进的选项304;所述的选项304,表明了用户对自己需求的主管描述;所述的描述,被用于从均衡器库305(由所有的
Figure 398007DEST_PATH_IMAGE020
构成)读取所需的均衡曲线;所选歌曲303,经过歌曲分析和分类器306,输出分类信息到所述的均衡器库305;所述的均衡器库305,输出N个具有不同音乐效果的歌曲307;所述的用户对N个歌曲307进行打分,获得分数308;最高分数的歌曲就是最佳的个性化音乐309,并同时输出的最佳均衡曲线310。 
所述的构成为: 
m=1,用户需求为增加背景声效如雷声、火车声等;所述的均衡曲线是增强20-40赫兹的频率;所述的均衡曲线
Figure 2011100589972100002DEST_PATH_IMAGE021
是减弱20-40赫兹的频率。
m=2,用户需求为增强架子鼓的嘭嘭声、增强低音感觉;所述的均衡曲线是增强60赫兹-200赫兹,减弱100-4000赫兹,增加5000赫兹;所述的均衡曲线是增加泛音。 
m=3,用户需求为增强大鼓的声音;所述的均衡曲线
Figure 833033DEST_PATH_IMAGE022
是轻微增强80赫兹,所述的均衡曲线
Figure 563092DEST_PATH_IMAGE021
是降低多轨录音中其它乐器的音量、包括降低电声吉他的音量。 
m=4,用户需求为增强低音,增强吉他、歌声与号的热烈感觉,或者增强这些乐器的充实感;所述的均衡曲线
Figure 231970DEST_PATH_IMAGE022
是增强80-200赫兹;所述的均衡曲线
Figure 225334DEST_PATH_IMAGE021
,为了增强低音,可以减小350赫兹左右,提高800赫兹。 
m=5,用户需求为增强低音同时增强高音;所述的均衡曲线
Figure 979664DEST_PATH_IMAGE022
是轻微降低100-4000赫兹。 
m=6,用户需求为增强音乐的热烈感觉;所述的均衡曲线
Figure 749299DEST_PATH_IMAGE022
是增强120赫兹以下的频率,增强程度适中,避免出现浑浊感。 
m=7,用户需求为增强音乐的隆隆声、增强电影音乐的***声或者动作声、增加原声吉他和钢琴的音质;所述的均衡曲线
Figure 272684DEST_PATH_IMAGE022
是轻微增强120-125赫兹,这是低音喇叭的上限,也是大鼓和低音吉他的下限,同时是原声吉他和钢琴的下限,而原声吉他的主体在240赫兹,清晰度在2500-5000赫兹;所述的
Figure 702528DEST_PATH_IMAGE021
轻微减弱120-125赫兹。 
m=8,用户需求为增加音乐深度、增加歌声和乐器的呈现感;所述的均衡曲线
Figure 475312DEST_PATH_IMAGE022
是增强120-600赫兹的频率;所述的均衡曲线
Figure 750436DEST_PATH_IMAGE021
是减弱120-600赫兹的频率。 
m=9,用户需求为增强音乐中钹的感觉、减少音乐中的浑浊感觉;所述的均衡曲线
Figure 393907DEST_PATH_IMAGE022
是增强200赫兹; 所述的均衡曲线是减弱200赫兹。 
m=10,用户需求为充实小鼓的感觉、增强原声吉他的充实感、减弱歌声以减小;所述的均衡曲线
Figure 260232DEST_PATH_IMAGE022
是增强240赫兹; 所述的均衡曲线是减弱240赫兹。 
m=11,用户需求为减弱鼓声中的“纸板”声、减弱低音吉他;所述的均衡曲线
Figure 599126DEST_PATH_IMAGE022
是减弱350-400赫兹频率; 所述的均衡曲线是增强350-400赫兹。 
m=12,用户需求为增强呈现感、增强音乐的硬度;所述的均衡曲线
Figure 97104DEST_PATH_IMAGE022
是增强600-3000赫兹频率,尤其是摇滚乐; 所述的均衡曲线
Figure 868750DEST_PATH_IMAGE021
是减弱600-3000赫兹。 
m=13,用户需求为增强低音吉他的打击感、减弱电声吉他的劣质声音;所述的均衡曲线
Figure 350547DEST_PATH_IMAGE022
是增强800赫兹的频率;所述的均衡曲线
Figure 233053DEST_PATH_IMAGE021
是减弱800赫兹的频率。 
m=14,用户需求为增强大鼓的鼓槌的敲打感;所述的均衡曲线
Figure 585537DEST_PATH_IMAGE022
是增强2000-4000赫兹频率;所述的均衡曲线是减弱2000-4000赫兹频率。 
m=15,用户需求为增强吉他真实的丝丝声、增强低音吉他的感觉;所述的均衡曲线
Figure 497178DEST_PATH_IMAGE022
是增强2500赫兹频率,尤其是弹弦/击弦弹奏风格;所述的均衡曲线
Figure 917795DEST_PATH_IMAGE021
是减弱2500赫兹频率。 
m=16,用户需求为增强原声吉他和钢琴的清晰度;所述的均衡曲线是增强2500-5000赫兹频率;所述的均衡曲线
Figure 921523DEST_PATH_IMAGE021
是减弱2500-5000赫兹频率。 
m=17,用户需求为增强摇滚乐的响度、增加热烈感觉;所述的均衡曲线是增强3000-7000赫兹频率;所述的均衡曲线
Figure 34973DEST_PATH_IMAGE021
是减弱3000-7000赫兹频率。 
m=18,用户需求为增强音乐的歌声;所述的均衡曲线
Figure 960203DEST_PATH_IMAGE022
是增强4000赫兹频率所述的均衡曲线
Figure 715670DEST_PATH_IMAGE021
是减弱4000赫兹频率。 
m=19,用户需求为增强架子鼓的打击感、为小鼓增加的清晰尖利感、减小背景声;所述的均衡曲线是增强5000赫兹频率;所述的均衡曲线
Figure 61517DEST_PATH_IMAGE021
是减弱5000赫兹频率。 
m=20,用户需求为增强钹的质量和准确性、增加歌曲的精确度、减小歌声中的咝声;所述的均衡曲线
Figure 503738DEST_PATH_IMAGE022
是增强7000赫兹以上的频率;所述的均衡曲线是减弱7000赫兹以上的频率。 
m=21,用户需求为增强钹、高帽钹音乐的亮度;所述的均衡曲线
Figure 713319DEST_PATH_IMAGE022
是增强8000-12000赫兹频率;所述的均衡曲线
Figure 434151DEST_PATH_IMAGE021
是减弱8000-12000赫兹频率。 
m=22,用户需求为增强钢琴、风琴的清晰度;所述的均衡曲线
Figure 333973DEST_PATH_IMAGE022
是增强10000赫兹频率;所述的均衡曲线
Figure 900084DEST_PATH_IMAGE021
是增强10000赫兹频率。 
在本发明的另一个具体实施例,一个多轨录音的个性化混音如图3所示;所述的混音器的目的,是为了个人获得最大的音乐享受;所述的混音器,除了包含图3所述的均衡曲线
Figure 201752DEST_PATH_IMAGE020
,还增加了一个维度,就是乐器类型;所述的乐器类型是指吉他,钢琴,钹,高帽钹,大鼓,小鼓,架子鼓,风琴,歌曲等;根据不同的乐器类型,多轨录音在混音以前,可以对每一轨的乐器进行单独的均衡,均衡的方式如图3所示;最后,均衡后的单轨声再叠加在一起。 
在本发明的一个具体实施例中,心理声学测试结果,被结合于双耳效应,使人产生虚拟的空间感,把多轨录音中的歌声和多个乐器,在空间中排布开来,给人身临其境的感觉;如果在单轨录音的情况下,则单轨录音先被提取出歌声和多个乐器的声音,然后在空间排布;如图4所示,输入音乐401,通过音乐分析器,被分成N个空间信号,即空间信号403,空间信号404,空间信号405;所述的空间信号,分别进入个性化幅度均衡器406,个性化幅度均衡器407,个性化幅度均衡器408;所述的个性化幅度均衡器的输出,被个性化相位器409,个性化相位器411,个性化相位器412分别加以处理,在加法器412相加,成为个性化的音乐。 
在本发明的另一个具体实施例中,心理声学测试包含多步;每一步中,N个空间信号被播放出来,用户做出一个选择;根据所述的选择,在下一步中N个空间信号被播放出来;最终,测试结果可以显示用户的空间分辨能力;所述的空间分辨能力,可以用来个性化用户的歌曲,以产生个性化的、虚拟三维空间的感觉; 所述的具体实施例,如图5所示,空间心理声学测试501包含多步,在每一步,发射N个信号,即空间信号502, 空间信号503和空间信号504。 
在本发明的一个具体实施例中,音乐的个性化空间感,由图6的结构实现;音乐分析器分析出多个独立成分;所述的独立成分,是歌曲和多个乐器;然后随着节拍的提取,歌曲的声源可以指向虚拟空间中某一点;所述的指向性,随着时间的变化而变化,以重现歌手在舞台上的走动;这种移动,结合个性化幅度均衡器,以及个性化相位均衡器,给人以个性化的现场感;如图6所示,输入的音乐601,进入音乐分析器602,被分成N个空间信号;所述的N个空间信号,是空间信号604,空间信号605,…,空间信号606;所述的音乐分析器602的第二个输出是音乐节拍603;所述的音乐节拍603,经过空间轨迹器613,产生随时间变化的空间轨迹,控制空间信号605,使用户的歌声随着时间变化位置,产生歌手走动的,歌声来自不同方向的感觉;所述的N个空间信号的输出,分别连在个性化幅度均衡器607,个性化幅度均衡器608,…,个性化幅度均衡器609上;所述的个性化幅度均衡器,输出到个性化相位均衡器610,个性化相位均衡器611,…,个性化相位均衡器612上,由加法器614对信号进行相加,得到个性化的音乐615。 
用户通过用户设备,连接网络进行测试,获得测试结果;所述的测试结果,能够结合用户其它个人信息,为用户提供多种不同的个性化服务,包括听力健康咨询,网络音乐定制,音乐预处理,音乐疗法等。 
用户的声学测试,分为开放声场型和耳机型。前者是直接通过空气,播放给用户听;后者通过耳机,直接***耳朵,覆盖在外耳,或者戴在头上收听。 
在本发明的一个具体实施例中,实验方式为开放声场型,播放激励音时,用户捂住一只耳朵,用另一只耳朵听取声音;测试一只耳朵结束后,换成另一只耳朵,重复测试。用户也可以使用耳塞或者声音隔绝工具,阻塞一只耳朵。对于本领域技术人员,选择使用耳塞的方法,是显而易见的,可以挑选噪声降低评级 (Noise Reduction Rating, NRR)高的耳塞。 
在本发明的另一个具体实施例中,声学测试使用开放声场型,对于双耳听力不平衡的用户,有一只耳朵A不好,另一只耳朵B明显较好;有可能这种情况,当测试耳朵A的听力、阻塞耳朵B时,因为需要的音量较大,导致耳朵B通过头部骨骼的漏音,听到一部分声音,这影响了对耳朵A的单耳测试效果。为求更好的测试效果,可以用一只耳机,对耳朵B播放掩蔽的噪音,同时对耳朵A进行测试。 
在本发明的另一个具体实施例中,快速测试的用户,可以在自由声场或者佩戴耳机时同时测量两个耳朵的联合听力,将测试时间减小一半。 
在本发明的一个具体实施例中,心理声学测试需要测量背景噪声的强度;在所述的测量中,用户的一只耳朵外露,另一只耳朵聆听耳机的声音。不限定性的举例,右耳外露,左耳通过耳机收听声音;耳机中的声音会逐渐增大音量,直到双耳感觉声音平衡时,用户停止测试;另一种测试方法是,耳机中声音的音量也可以从响亮到微弱,直到感觉双耳响度平衡,用户停止测试;又一种测试方法,耳机中的声音的音量,也可以从响亮到微弱,从微弱到响亮,反复多次,直到最后取算数平均值或几何平均值,即为背景噪声的强度。然后,左右耳交换位置,重复以上步骤,即可测得另一只耳朵的背景噪声强度。除非特殊的环境,左右耳的噪声强度是相同的;一旦两者有差异,则其中的一只耳朵有听力损伤。播放的声音,可以是噪音;也可以是滤波噪音,滤波噪音谱的形状,由用户个人的响应曲线决定,也可以由ANSI平均的响应曲线确定。 
在本发明的一个具体实施例中,声卡的影响在声学测试之前能够被消除掉;用户登录一个网站,用音频线把耳机输出口接在录音输入口上,点击开始,则网站播放一个或多个声音,同时录下声音;所述的录下的声音,被上传到网站,并加以分析,得到声卡的频谱响应曲线;根据所述的频率响应曲线,存在网站上,用于精准的校准该用户的心理声学测试结果;网站所播放的声音,可以是白噪声,滤波噪声,纯音,或者特定的声音文件如格雷码(Golay Code)。 
在本发明的另一个具体实施例中,声卡的影响,能够使用离线法来消除;用户下载一个或者多个声音文件,用音频线连接音频输出口到音频输入口;所述的声音文件,使用用户设备自带的播放软件播放,并同时用录音软件进行录音;最后,将录音文件用分析软件进行分析,即可获得声卡的频谱响应曲线,以校准而获得精准的心理声学测试结果。 
在本发明的一个具体实施例中,音乐设备被提前校准,以获得极为精确的心理声学测试结果;所述的音乐设备,可以从网上或者本机软件,依次播放一个特定的声音,可以是白噪声,滤波噪声,纯音;使用电压表,电流表,或者声强仪,调节音量,直到电压,电流,或者声压,达到耳机手册的标称值。 
在本发明的一个具体实施例中,用户的心理声学测试结果,通过数字水印技术,写在歌曲文件中,如写入mp3文件中;在歌曲播放的时候,需要具有解码功能的播放器;所述的播放器,解码数字水印,在播放的过程中调整歌曲的幅谱响应和相位谱响应,使用户获得实时的个性化享受。 
在本发明的另一个具体实施例中,用户的心理声学测试结果,被用数字水印技术,写在歌曲文件中,作为头信息;所述的头信息,具有防盗版功能,用户甲的播放器,无法播放用户乙的音乐文件。 
在本发明的一个具体实施例中,个性化幅谱曲线被提供给单个用户,处理输入的音乐流;所述的用户的双耳听力门限为
Figure 2011100589972100002DEST_PATH_IMAGE024
,其中i=1表示左耳,i=2表示右耳,f 表示频率;所述的个性化幅谱曲线,使用
Figure 2011100589972100002DEST_PATH_IMAGE025
来均衡音乐,其中nm均为整数;不加限制的举例,
Figure 2011100589972100002DEST_PATH_IMAGE026
的时候,均衡后的个性化音乐,给人的感觉清晰而且柔和。 
本发明的一个具体实施例中,可以随着响度的大小,自动调整均衡曲线的方法;将频带分割成符合人耳临界频带的方式,测量每个频带的能量,计算其响度,然后叠加起来。 
在本发明的一个具体实施例中,用户使用噪声中的纯音,获得自身的听力检测门限;利用此门限,获得一条幅度随着频率变化的曲线;所述的曲线,加入了掩蔽的效应,更加符合收听音乐时,用户个人对每个频段的感知能力;所述的曲线,可以被用于均衡,获得更加健康的歌曲和音乐。 
在本发明的一个具体实施例中,音乐信号处理采用了激励相位对齐技术,滤波输入的音乐流,获得个性化群延迟,从而使用户的音乐体验达到巅峰;所述的激励相位对齐技术,保证了每一个频率分量,到达耳蜗的时间,都是严格对齐的;对齐的相位,随频率变化而变化,其规律符合一个调频脉冲信号;不限定的举例,调频脉冲信号表达如下 
Figure 2011100589972100002DEST_PATH_IMAGE027
                                                                       (公式2)
其中,
Figure 2011100589972100002DEST_PATH_IMAGE028
是群延迟时间,f是频率,k=4.78,a=165.4,d=1.1。根据群延迟时间,可以计算出相位延迟时间
Figure 2011100589972100002DEST_PATH_IMAGE029
,方法如下
Figure 2011100589972100002DEST_PATH_IMAGE030
                                                                       (公式3)
在本发明的另一个具体实施中,音乐信号处理采用了激励相位对齐技术,针对如下两个问题进行精细的修正;第一个问题是,个人的相位特性,与(公式2)的平均相位特性不完全吻合,这会破坏相位补偿关系;第二个问题是耳机带来附加的扭曲,则此补偿关系进一步遭到了破坏;所述的两种破坏有可能叠加在一起,或者单独存在,需要进一步适配,得到个性化的补偿;所述的激励相位对齐技术,利用降频的调频信号,根据图7所示的群延迟心理声学测试,搜索出用户最小可区别的降频速率;所述的最小可区别的降频速率,于公式(2)相比较,根据两者的差值,就能够计算出进一步相位补偿的程度;如图7所示,在群延迟心理声学测试中,时变频率信号702,时变频率信号703,…,时变频率信号704,共N个信号发送给用户,用户聆听之后,被要求选择其中一个。
在本发明的另一个具体实施中,音乐信号处理采用了激励相位对齐技术,采用如下方法做进一步的修正;用户采用听觉生理实验的方法,记录在播放纯音或带通噪声的条件下,测量出来的听觉脑干响应(Auditory Brainstem Response,ABR),畸变产物耳声发射(Distortion Product Oto-Acoustic Emissions,DPOAE),复合动作电位(Compound Action Potential,CAP)或脑电图(Electroencephalography,EEG),然后计算出个人的群延迟曲线;所述的群延迟曲线和公式(2)相比较;两者的差值,被用于得出个性化群延迟。 
在本发明的一个具体实施例中,音乐信号处理同时采用了个性化幅谱曲线和个性化群延迟,以使音乐满足用户独特的音乐欣赏要求,其步骤如图8,输入音乐801,通过个性化幅度谱均衡803;所述的个性化幅度谱均衡803,由一个心理声学测试802的结果控制;所述的输入音乐801,通过响度分析模型805,得到响度估计值804;所述的响度估计值804,控制了个性化幅度谱均衡803;所述的个性化幅度谱均衡803的输出,通过相位均衡806,得到输出音乐807。 
在本发明的一个具体实施例中,个性化群延迟信号可以被加以简化如下 
Figure 2011100589972100002DEST_PATH_IMAGE031
                                     (公式4)。

Claims (21)

1.声音处理***,包括心理声学测试和声学处理器;其特征在于:所述的心理声学测试,驱动一个播放设备,将测试所需的多个声音发给一个用户;所述的用户,针对所述的声音做出相应回答;所述的回答,被收集起来,得出心理声学测试的结果;所述的测试结果,作为参数被配置到所述的声学处理器中;所述的声学处理器,分析所述的测试结果,得出用户的听力特征和听力健康状态;根据所述的听力特征,所述的声学处理器,把普通音乐处理成个性化的、专门为所述用户定制的音乐,以达到有利于用户听力健康的,提高听觉体验的效果。
2.根据权利要求1的声音处理***,其特征在于:所述的心理声学测试被听觉生理学测试所代替。
3.根据权利要求1或2的声音处理***,其特征在于:所述的处理,包括对输入音乐的幅度谱的个性化调整,以及对输入音乐的相位谱的调整,为所述用户提供最优化的听觉体验;所述的最优化的听觉体验,有利于所述用户的听觉***健康,同时带来更加个性化的,更加震撼的音乐效果和更加增强的音乐感受。
4.根据权利要求2的声音处理***,其特征在于:所述的听觉生理学测试,通过发送纯音、带通噪音,测量用户的听觉脑干响应,计算出听觉处理的群延迟,利用群延迟和相位延迟之间的关系,得到相位延迟;所述的相位延迟,被用于调整输入音乐的相位,以使所述的用户获得个人最优的听觉体验。
5.根据权利要求3的声音处理***,其特征在于:所述的对输入音乐的相位谱的调整,是个性化的,是针对每个用户听力特征单独定制的。
6.根据权利要求1或2的声音处理***,其特征在于:所述的处理,目的是进行个性化低音增强。
7.根据权利要求1或2的声音处理***,其特征在于:所述的处理,目的是对音乐进行个性化的空间感增强,使音乐更加有立体感。
8.根据权利要求1或2的声音处理***,其特征在于:多轨录音的每一轨,都被单独的个性化,然后合成为一个音乐作品。
9.根据权利要求1或2的声音处理***,其特征在于:多轨录音的每一轨,作为一个声源;利用双耳效应,让人感觉所述声源来自声场空间的某一个点,进行个性化空间感增强;最后,所有轨处理后的信号合成为一个作品。
10.根据权利要求1或2的声音处理***,其特征在于:所述的声学处理器被个性化音乐搜索和个性化音乐分类所代替;所述的声学测试结果,被用于音乐搜索和分类;所述的音乐搜索和分类,为单个用户搜索出个性化的音乐,推荐个性化的音乐。
11.根据权利要求1或2的声音处理***,其特征在于:所述的处理,根据一首歌曲的信号特征,相应地补偿,把最适合用户个性听力特性的幅度谱和相位谱,应用到所述歌曲上去。
12.根据权利要求1或2的声音处理***,其特征在于:所述的声学处理器,为每一类风格的音乐,做个性化的幅谱调整和相位谱调整;从而,对于一个用户,所述的声学处理器根据用户选择的音乐类型不同,做出不同的处理。
13.根据权利要求1或2的声音处理***,其特征在于:所述的声学处理器,针对双耳的互掩蔽、互时间差和互强度差的特性,个性化地提供立体声双通道的最佳播放效果。
14.根据权利要求1或2的声音处理***,其特征在于:所述的声学处理器,根据个人的幅度响应特征和相位响应特征,推导最适合个人的空间滤波器,该滤波器能够使用户产生空间感觉;所述的空间滤波器为多个,分别并行处理音乐中的多个组成部分,使用户听到每一个组成部分来自空间的某一个点。
15.根据权利要求14的声音处理***,其特征在于:所述的空间滤波器是随着音乐的播放而时变的;这种随着时间的变化,使用户感觉到音乐的来源在空间中随着时间的变化而移动,带来更多的身临现场的动态效果。
16.根据权利要求1或2的声音处理***,其特征在于:所述的用户的声学测试结果,被加上密码,写入音乐文件中,形成一个包含了用户个人信息的新音乐文件;在被播放的时候,所述的新音乐文件中的个人信息,被解码得到个人声学测量结果,在播放的过程中最优化听觉体验。
17.根据权利要求1或2的声音处理***,其特征在于:所述的一个用户的心理声学测试结果,提供了声学的曲线;所述的声学的曲线,可以用于把大的音乐文件压缩成小的音乐文件;所述这种压缩是个性化的,在被播放的时候,所述的用户不会察觉到音质的受损。
18.听力检查***,其特征在于:通过心理声学测试,获得用户的左右耳听力曲线;左右耳听力曲线做差,得到第一条曲线;在左耳听力曲线上,每个频率点的值,与相邻频率点的值做差,得到第二条曲线;在右耳的听力曲线上,每个频率点的值,与相邻的频率点做差,得到第三条曲线;所述的三条曲线,被联合加以分析,获得用户听力特征,报告听力健康的状态。
19.根据权利要求18的听力检查***,其特征在于:所述的左右耳听力曲线,使用纯音、噪声、噪声中的纯音、带通噪音、带阻噪声、带通噪音中的纯音和带阻噪声中的纯音这些声音中的一种以上,分别测量左右耳得出,从而获得用户听力特征,最优化音乐,增强个性化的音乐体验。
20.根据权利要求1或2的声音处理***,其特征在于:所述的声学测试,利用时变频率信号,来测试个人听觉对音乐的群延迟;所述的测试结果,被用来增强各个频率之间的同步到达性,使用户感受最优的音色。
21.根据权利要求1或2的声音处理***,其特征在于:所述的声学处理器,基于输入的音乐信号,产生谐波信号,谐波信号的相位谱由一个声学测试来确定,谐波的幅度谱由第二个声学测试来决定;所述的第一个声学测试,测试个人听觉的群延迟;所述的第二个声学测试,测试个人的等响曲线。
CN2011100589972A 2011-03-12 2011-03-12 个性化的声音处理***和设备 Pending CN102682761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100589972A CN102682761A (zh) 2011-03-12 2011-03-12 个性化的声音处理***和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100589972A CN102682761A (zh) 2011-03-12 2011-03-12 个性化的声音处理***和设备

Publications (1)

Publication Number Publication Date
CN102682761A true CN102682761A (zh) 2012-09-19

Family

ID=46814578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100589972A Pending CN102682761A (zh) 2011-03-12 2011-03-12 个性化的声音处理***和设备

Country Status (1)

Country Link
CN (1) CN102682761A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880693A (zh) * 2012-09-20 2013-01-16 浙江大学 一种基于个体发声能力的音乐推荐方法
CN104134000A (zh) * 2014-07-29 2014-11-05 陈宏乔 基于儿童的现状并以音乐为基础优化儿童能力的方法
CN104575520A (zh) * 2014-12-16 2015-04-29 中国农业大学 一种结合心理声学评价的声波监测装置及方法
CN105118519A (zh) * 2015-07-10 2015-12-02 中山大学孙逸仙纪念医院 一种听力评估***
CN106909620A (zh) * 2017-01-17 2017-06-30 广东小天才科技有限公司 一种用于早教的功能性音乐分类方法及***
CN108062692A (zh) * 2017-12-28 2018-05-22 平安科技(深圳)有限公司 一种录音推荐方法、装置、设备及计算机可读存储介质
CN108682413A (zh) * 2018-04-24 2018-10-19 上海师范大学 一种基于语音转换的情感疏导***
CN108769799A (zh) * 2018-05-31 2018-11-06 联想(北京)有限公司 一种信息处理方法及电子设备
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及***
CN110074780A (zh) * 2019-04-25 2019-08-02 内蒙古农业大学 一种基于erp技术的音乐模式调节方法
CN110459212A (zh) * 2019-06-05 2019-11-15 西安易朴通讯技术有限公司 音量控制方法及设备
CN113782058A (zh) * 2021-09-15 2021-12-10 深圳市豪恩声学股份有限公司 动态音频感知追踪***和方法、存储介质、耳机
CN114007166A (zh) * 2021-09-18 2022-02-01 北京车和家信息技术有限公司 定制声音的方法及装置、电子设备和存储介质
CN114089899A (zh) * 2021-11-24 2022-02-25 杭州网易云音乐科技有限公司 定制音效的方法、介质、装置和计算设备

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880693A (zh) * 2012-09-20 2013-01-16 浙江大学 一种基于个体发声能力的音乐推荐方法
CN104134000A (zh) * 2014-07-29 2014-11-05 陈宏乔 基于儿童的现状并以音乐为基础优化儿童能力的方法
CN104134000B (zh) * 2014-07-29 2017-04-12 陈宏乔 基于儿童的现状并以音乐为基础优化儿童能力的方法
CN104575520A (zh) * 2014-12-16 2015-04-29 中国农业大学 一种结合心理声学评价的声波监测装置及方法
CN105118519A (zh) * 2015-07-10 2015-12-02 中山大学孙逸仙纪念医院 一种听力评估***
CN106909620B (zh) * 2017-01-17 2020-07-28 广东小天才科技有限公司 一种用于早教的功能性音乐分类方法及***
CN106909620A (zh) * 2017-01-17 2017-06-30 广东小天才科技有限公司 一种用于早教的功能性音乐分类方法及***
CN108062692A (zh) * 2017-12-28 2018-05-22 平安科技(深圳)有限公司 一种录音推荐方法、装置、设备及计算机可读存储介质
CN108682413A (zh) * 2018-04-24 2018-10-19 上海师范大学 一种基于语音转换的情感疏导***
CN108769799A (zh) * 2018-05-31 2018-11-06 联想(北京)有限公司 一种信息处理方法及电子设备
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及***
US11790934B2 (en) 2018-06-05 2023-10-17 Anker Innovations Technology Co., Ltd. Deep learning based method and system for processing sound quality characteristics
CN110074780A (zh) * 2019-04-25 2019-08-02 内蒙古农业大学 一种基于erp技术的音乐模式调节方法
CN110459212A (zh) * 2019-06-05 2019-11-15 西安易朴通讯技术有限公司 音量控制方法及设备
CN113782058A (zh) * 2021-09-15 2021-12-10 深圳市豪恩声学股份有限公司 动态音频感知追踪***和方法、存储介质、耳机
CN113782058B (zh) * 2021-09-15 2023-07-18 深圳市豪恩声学股份有限公司 动态音频感知追踪***和方法、存储介质、耳机
CN114007166A (zh) * 2021-09-18 2022-02-01 北京车和家信息技术有限公司 定制声音的方法及装置、电子设备和存储介质
CN114007166B (zh) * 2021-09-18 2024-02-27 北京车和家信息技术有限公司 定制声音的方法及装置、电子设备和存储介质
CN114089899A (zh) * 2021-11-24 2022-02-25 杭州网易云音乐科技有限公司 定制音效的方法、介质、装置和计算设备

Similar Documents

Publication Publication Date Title
CN102682761A (zh) 个性化的声音处理***和设备
Gabrielsson et al. The effects of different frequency responses on sound quality judgments and speech intelligibility
Chasin et al. Hearing aids and music
US10356535B2 (en) Method and system for self-managed sound enhancement
US9782131B2 (en) Method and system for self-managed sound enhancement
CN1913828B (zh) 耳鸣康复设备和方法
Pulkki et al. Communication acoustics: an introduction to speech, audio and psychoacoustics
US6369312B1 (en) Method for expressing vibratory music and apparatus therefor
Humes et al. Speech identification difficulties of hearing-impaired elderly persons: The contributions of auditory processing deficits
CN105877914B (zh) 耳鸣治疗***和方法
Hove et al. Feel the bass: Music presented to tactile and auditory modalities increases aesthetic appreciation and body movement.
Holden et al. Effects of stimulation rate with the Nucleus 24 ACE speech coding strategy
CN105409243B (zh) 通道化音乐信号的预处理
TW201216255A (en) Method and system for self-managed sound enhancement
US20150005661A1 (en) Method and process for reducing tinnitus
CN105999509A (zh) 一种耳鸣治疗音乐的生成方法及耳鸣治疗***
Meehan et al. The impact of single-sided deafness upon music appreciation
James et al. An investigation of input level range for the nucleus 24 cochlear implant system: speech perception performance, program preference, and loudness comfort ratings
Okazaki et al. Judged consonance of tactile and auditory frequencies
Nudelman et al. Voice biofeedback via bone conduction headphones: effects on acoustic voice parameters and self-reported vocal effort in individuals with voice disorders
Zhang Psychoacoustics
Simoes et al. Musical perception assessment of people with hearing impairment: a systematic review and meta-analysis
Keidser et al. The National Acoustic Laboratories (NAL) CDs of speech and noise for hearing aid evaluation: Normative data and potential applications
Arehart et al. Effects of age on melody and timbre perception in simulations of electro-acoustic and cochlear-implant hearing
Kramer et al. Audiology workbook

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120919