CN102870156A - 音频通信设备、输出音频信号的方法和通信*** - Google Patents

音频通信设备、输出音频信号的方法和通信*** Download PDF

Info

Publication number
CN102870156A
CN102870156A CN201080066558XA CN201080066558A CN102870156A CN 102870156 A CN102870156 A CN 102870156A CN 201080066558X A CN201080066558X A CN 201080066558XA CN 201080066558 A CN201080066558 A CN 201080066558A CN 102870156 A CN102870156 A CN 102870156A
Authority
CN
China
Prior art keywords
signal
parameter
audio signal
communication device
narrowband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201080066558XA
Other languages
English (en)
Other versions
CN102870156B (zh
Inventor
罗伯特·克鲁奇
拉杜·D·普拉莱亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP USA Inc
Original Assignee
Freescale Semiconductor Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Freescale Semiconductor Inc filed Critical Freescale Semiconductor Inc
Publication of CN102870156A publication Critical patent/CN102870156A/zh
Application granted granted Critical
Publication of CN102870156B publication Critical patent/CN102870156B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种音频通信设备(10)包括输入(12),可连接到窄带音频信号源(14)。输入12可以接收具有第一带宽的窄带音频信号(16)。提取单元(18)连接到输入,并且被布置成从窄带音频信号提取多个窄带参数(20,22)。外推单元(24)被连接以接收多个窄带参数,并且被布置成从多个窄带参数来生成多个宽带参数(26)。外推单元包括一个或多个自适应神经模糊推理***(ANFIS)模块(28)。设备(10)还包括合成单元(30),连接以接收多个宽带参数,并且被布置成使用宽带参数来生成合成宽带音频信号(32),合成宽带音频信号(32)具有宽于第一带宽的第二带宽。并且该设备包括输出(43),输出(43)可连接到声换能器(47),被布置成输出人类可感知声学信号,用于将所述合成宽带音频信号提供到声换能器。

Description

音频通信设备、输出音频信号的方法和通信***
技术领域
本发明涉及音频通信设备、用于输出音频信号的方法、通信***和计算机程序。
背景技术
例如,通信***可以用于在发送器和接收器之间进行音频信号通信。通常,信号是任何随时间变化的量,例如,可以随时间变化的电流或电压电平。应该注意,随时间变化的量可以包括随时间零变化。音频信号对人类来说表示可听声学信号,例如,音乐或语音,例如,作为电或光信号。
通信信道允许信号的通信,这些信号具有不大于可用信道带宽的最大带宽。诸如语音信号的信号包括各种频率。通过其最低频率和最高频率之间的信号的频谱的范围或宽度给出信号的带宽。通过人体解剖学来确定语音信号的带宽。然而,可用信道带宽可能窄,并且可能不允许传输包含语音信号完整频谱的宽带语音信号。例如,电话网络***音频质量差的一个原因是提供有限带宽。语音具有85-8000Hz(赫兹)范围内的感知有效能量。3400Hz以上的频率分量对于语音可懂度非常重要。然而,当语音信号经过电话信道时,频带被限制为大约300-3400Hz。这种限制导致语音质量和可懂度降低,例如,可能很难通过电话区分相似的声音。
带宽扩展包括根据可用窄带信号的宽带信号的估计,并且通常基于根据统计数据将有限频带的参数集合外推到较宽频带进行带宽扩展。例如,这可以使用隐马尔可夫模型(HMM)、神经网络或码本来实现,其需要很多计算步骤。
在EP 1350243A2中,示出语音带宽扩展,其中,分析窄带语音信号,并且将从提取的参数生成的合成低频带信号与从窄带语音信号经由上采样得到的信号组合。使用码本和基于能量度量的最小化来提取参数。
在US 2009/0201983A1中,示出了一种在带宽扩展***中估计高频带能量的装置。分析窄带信号,并且在上频带提取和复制滤波器系数,以仅引入少量失真。
发明内容
本发明提供一种如所附权利要求所述的音频通信设备、用于输出音频信号的方法、通信***和计算机程序产品。
在从属权利要求中阐述了本发明的具体实施例。
根据并且参照下文中描述的实施例所阐述的,本发明的这些和其他方面将显而易见。
附图说明
参照附图,将仅通过示例的方式来描述本发明的进一步的细节、方面和实施例。在附图中,使用相同附图标记来表示相同或功能相似的元件。附图中的元素为了简明和清楚而被图示,并且不一定按照比例绘制。
图1示意性示出音频通信设备的实施例的示例的框图。
图2示意性示出钟形隶属函数的示例的图。
图3示意性示出自适应神经模糊推理***模块的现有技术示例的图。
图4示意性示出自适应神经模糊推理***模块集合的示例的框图。
图5示意性示出声音分类模块的示例的框图。
图6示意性示出组合的激励信号和频谱包络提取的示例的框图。
图7示意性示出用于输出音频信号的方法的示例的示图。
图8示意性示出根据音频通信设备的实施例的示例句子的语音信号谱图。
图9示意性示出通信***的实施例的示例的框图。
具体实施方式
因为对于大部分,可使用本领域技术人员已知的电子组件和电路来实现本发明的所图示的实施例,为了本发明基本概念的了解和认识,并且为了不混淆或转移本发明的教导,对超出有必要图示程度的细节将不作解释。
参照图1,示意性示出音频通信设备10的实施例的示例的框图。音频通信设备10可以包括输入12,在此示例中,输入12连接到窄带音频信号源14。输入12可以从源14接收具有第一带宽的窄带音频信号16。提取单元18连接到输入12,并且被布置成从窄带音频信号16提取多个窄带参数20、22。外推单元24被连接以接收多个窄带参数20、22,并且外推单元24被布置成根据多个窄带参数来生成多个宽带参数26。应该注意,窄带参数20、22是表征窄带音频信号16的参数。
提取多个参数可以是指:对于信号或信号帧,确定与当前分析的信号或信号帧相对应的参数值。
在此示例中,外推单元包括一个或多个自适应神经模糊推理***(ANFIS)模块28。设备10还包括合成单元30,合成单元30被连接以接收多个宽带参数26,并且被布置成使用宽带参数来生成具有第二带宽的合成宽带音频信号32,第二带宽比第一带宽宽。
设备包括输出43,在此示例中,输出43被连接到声换能器47,声换能器47被布置成输出人类可感知声学信号,输出43用于向声换能器47提供所述合成宽带音频信号。
应该注意,合成宽带音频信号可以直接提供给声换能器47或者经由例如滤波设备或混合单元44的中间设备提供给声换能器47,用于提供合成宽带音频信号,作为包括附加信号分量的混合器输出信号的一部分。
如下详细解释的,呈现的设备10可以允许通过使用窄带音频信号16中包含的信息来生成宽带音频信号。特别地,允许基于300-3400Hz频带中的信息来估计高频谱部分,即,可以允许在不修改现有通信架构的情况下向用户或订户提供高质量语音。
例如,音频通信设备10可以被实现为集成电路。例如,可以使用电气或电子电路来实现设备10,所述电气或电子电路诸如互连以执行专用逻辑功能和/或其他专用电路的逻辑门,或者可以在可编程逻辑器件中实现设备10,或者设备10可以包括由一个或多个处理设备执行的程序指令。
窄带音频信号源14可以是任何音频信号源,通过该音频信号源,仅向原始宽带音频信号提供通过音频信号表示的声学信号的原始(宽带)频谱的一部分。窄带信号的带宽小于原始声学信号的带宽。例如,窄带音频信号源14可以是仅提供有限信道带宽的电话线或任何其他通信信道。另外,例如,通过使用诸如带宽子限制麦克风的带宽限制设备来在发送侧引入带宽限制。
窄带音频信号16可以设置为信号帧的序列,每个信号帧在时间上具有特定持续时间或长度。然后,对于信号帧中的一些或每一个,可以执行参数提取、外推和合成。持续时间可以是任何持续时间,例如,10毫秒(ms)、20ms或30ms。例如,由于语音信号的有限变化,帧持续时间20ms的语音信号可以提供可靠的提取参数值,并且可以允许输入信号的追踪变化。
仍参照图1,窄带音频信号16被提供给提取单元18。提取单元18可以从窄带音频信号16提取任何适合的参数,诸如音频的类型(例如,浊音、清音)、信号包络、激励或任何其他适当参数。在示出的示例中,例如,提取单元18包括激励信号提取模块38、包络提取模块34和声音分类模块36。
参照图5,声音分类模块36的框图被配置为确定至少一个声音分类参数22。声音分类参数可以是例如浊音/清音标识符。
为此,声音分类模块可以包括特征提取块70,特征提取块70连接到判决逻辑块72,判决逻辑块72例如包括诸如用于确定浊音/清音标识符的逻辑电路的装置。特征提取块70可以接收窄带(NB)语音信号或帧,并且可以配置为确定例如自相关比R和/或频谱平坦度Sf或频谱平坦度的导数dSf,其中,例如,高R或低Sf可以指示浊音信号帧。
R = Σ i = 1 N x i 2 N / Σ i = 1 N - 1 x i x i + 1 N - 1
N=帧中的样本数
xi是数字输入窄带音频信号的输入样本。
Sf = Π i = 1 N / 2 ( | FFT ( x , N ) | ) 2 N / ( Σ i = 1 N / 2 ( | FFT ( x , N ) | ) / ( N / 2 ) )
其中,FFT是快速傅里叶变换。
在对例如不同国家的多种说话者的语音信号进行一系列测试之后,可以基于选择的阈值从特征的多维空间界定浊音和清音簇。
声音分类模块36可以适于提供浊音/清音标识符。在另一实施例中,例如,声音分类模块36还可以提供例如分类为摩擦音和元音的音素类型。
音频通信设备10的提取单元18可以包括激励信号提取模块38,激励信号提取模块38被布置成接收窄带语音信号16并且提供窄带激励信号。例如,对于浊音语音,声源或激励信号通常可以被建模为周期脉冲序列,对于清音语音,被建模为白噪声。
现参照图6,示意性示出组合激励信号和频谱包络提取的示例的框图。为了从窄带语音信号提取激励信号和例如LSF系数,例如,可以使用Levinson或Levinson-Durbin递归74来确定LPC系数。然后,预测滤波器76可以提供窄带语音信号的激励信号和递归块74的输出。为了提供LSF系数,可以使用LPC至LSF转换块78。
返回参照图1,提取单元18可以包括包络提取模块34,包络提取模块34被布置成接收窄带音频信号16,并且被布置成从所述窄带音频信号16提取多个包络参数20。包络可以是频谱包络。例如,提取单元18可以直接连接到音频通信设备10的输入12。例如,包络提取模块可以被布置成使用线性预测模型的信息来提供用于表示接收到的语音信号的频谱包络的线性预测编码(LPC)系数。
在音频通信设备10的实施例中,可以计算线谱频率(LSF),以表示线性预测系数(LPC)。多个包络参数20可以包括用于窄带音频信号的多个线谱频率系数。还可以包括信号增益。因此,例如,可以改善对量化噪声的敏感性。
相反或另外,可以提取窄带音频信号16的其他特征,例如,倒谱系数或梅尔频率倒谱系数(MFCC)。多个窄带参数20、22可以包括多个包络参数20和其他特征信号参数,诸如浊音/清音标识符。
仍参照图1,所提取的窄带参数20、22、48输入到外推单元24。外推单元24可以按照适合特定实现的任何方式来外推窄带参数20、22、48,以获得任何适当类型的宽带参数。在示出的示例中,除了ANFIS模块28之外,外推单元24包括例如激励信号外推模块40,以生成宽带激励信号49。可以将窄带参数20、22的至少一些提供给外推单元24的ANFIS模块28中的一个或ANFIS模块28集合。
自适应神经模糊推理***或基于自适应网络的模糊推理***(ANFIS)可以是指自适应网络框架下实现的模糊推理***,例如,Jang,"ANFIS:Adaptive-Network-Based Fuzzy Inference System",IEEETransactions on Systems,Man,and Cybernetics,Vol.23,No.3,May/June1993中,或者Jang,Sun,"Neuro-Fuzzy Modeling and Control",Theproceedings of the IEEE,Vol.83,No.3,pp.378-406,March 1995中所描述的。ANFIS***可以基于人类知识(模糊if-then规则的形式)和规定输入-输出数据对来提供输入-输出映射。例如,当不易获得设备的数学模型时,这种非线性映射已经被优化用于控制高度复杂***,诸如发电设备控制。此处的这样的ANFIS结构可以应用于完全不同环境的音频通信设备10中,并且可用于在仅窄带参数20、22可用的情况下并且在没有准确数学模型可用的情况下确定例如人类语音的宽带音频信号参数26。在所示出的音频通信设备10中实现的ANFIS模块28可以例如是第一阶Sugeno型和隶属函数,μA1、μA2、μB1和μB2可以是任何连续和分段可微函数,并且例如,可以是钟形:
μ A i ( x ) = exp ( - [ ( x - c i a i ) 2 ] b i )
{ai,bi,ci}=用于形成隶属函数的参数。
现参照图2,作为示例,示出具有两个规则的两个输入x和y第一阶Sugeno类型模糊模型的钟形隶属函数的示例的示图:如果x是A1,并且y是B1,则f1=p1·x+q1·y+r1;如果x是A2,并且y是B2,则f2=p2·x+q1·y+r2
如图2所指示,可以通过f=(w1·f1+w2·f1)/(w1+w2)给出输出函数f,其中,启动(firing)强度w1和w2
还参照图3,示出自适应神经模糊推理***(ANFIS)模块的现有技术示例的示图,实现如上所述具有两个规则的两个输入x和y第一阶Sugeno类型模糊模型。尽管示出的示例基于两个规则的集合来实现,但是用于参数外推的规则集合可以包括多于两个规则,例如,10或60或80个规则,通常从20至80个规则,取决于从窄带外推到宽带的参数的重要性。然后,可以通过应用减法聚类来获得推理模型的结构,以避免模型复杂性的指数增长。
对于窄带线谱频率(LSF)输入值,当构建ANFIS模块时,可以利用例如进一步的条件:生成的带宽LSF必须处于[0π]范围内,且必须被排序。
如此示例中所示,ANFIS模块可以接收输入窄带参数值x和y。第一层50中的每个节点可以是自适应节点,具有节点输出μA1、μA2、μB1和μB2,并且A1、A2、B1和B2是与此节点相关联的模糊集。第二层52中的每个节点是标记为π的固定节点,用于与来自第一层的输入信号相乘,并且可以输出启动强度w1和w2。第三层54中的每个节点是标记为N的固定节点。示出的节点可以计算归一化的启动强度作为该规则的启动强度与所有规则的启动强度之和的比率。在第四层56中,可以计算节点函数
Figure BDA00002243994300084
而在第五层58中,ANFIS模块的全部输出可以被计算为来自第四层的所有输入信号之和。ANFIS模块的实现可以不同,并且可以例如包括少于5层或多于5层。
例如,ANFIS模块可以优化用于与高频带估计相关的宽带参数26的外推,高频带估计对人类感知更重要,但是也可以执行低频带(即,例如,300Hz以下)估计。
参照图4,示出自适应神经模糊推理***(ANFIS)模块的集合60的示例的框图。一个或多个自适应神经模糊推理***模块可以被布置成接收一个或多个窄带参数62、64,并且从一个或多个窄带参数62、64生成一个或多个宽带参数66、68。
如果使用不止一个ANFIS模块,则例如,可以并行向ANFIS模块的集合提供窄带参数62、64。如所示,例如,10个窄带(NB)LSF62和提取的窄带信号增益64可以应用于ANFIS模块的集合60,并且例如可以确定20个带宽(WB)LSF 66和宽带增益68。可以使用例如混合训练方法来训练ANFIS模块,诸如最小二乘法和反向传播的组合。作为示例,可以基于诸如限制语言的多语种语音数据库2002的语音数据库来自动执行训练。
再参照图1,外推单元24可以包括激励外推模块40,激励外推模块40被连接以接收所述窄带激励信号48,并且被布置成从所述窄带激励信号48生成宽带激励信号49。在示出的外推单元24中,例如可以使用清音帧的频谱混叠和浊音帧的单边带调制来实现窄带激励信号48到宽带激励信号49的外推。在其他实施例中,可以使用码本或者带通调制的白噪声激励。
所生成的宽带激励信号可以直接应用于合成单元30,或者所生成的宽带激励信号49的频谱可以在应用于合成单元30之前使用低通滤波器42进行平滑。
例如语音信号的音频信号的合成包括不直接从输入音频信号生成新音频信号,而是基于表示音频信号特征的参数,诸如所示的示例中的外推宽带参数26和宽带激励信号49来生成新音频信号。新音频信号可以是分析的输入音频信号的(重新)合成版本,或者如在此所示,在提供附加属性(例如,与输入信号相比,扩展的带宽)的同时具有原始(窄带)输入音频信号的信号共享特征的(重新)合成版本。
仍参照图1,合成单元30可以被布置成接收宽带激励信号49。可以通过激励信号外推模块40直接提供所接收到的宽带激励信号49,或者提供宽带激励信号49的已处理版本,例如,通过低通42滤波的版本。然后,基于外推宽带参数26的宽带激励信号与合成滤波器30的滤波器响应的卷积可以帮助生成高质量合成宽带信号32。
一个或多个自适应神经模糊推理***模块28中的至少一个可以被布置成使所述一个或多个自适应神经模糊推理***模块28的至少一个判决规则和至少一个参数适应合成宽带音频信号32的人类感知。
为了生成带宽扩展的高质量宽带音频信号46,音频通信设备10可以包括混合单元44,混合单元44被布置成接收窄带音频信号16和合成宽带音频信号32,并且被布置成从窄带音频信号16和合成宽带音频信号32生成宽带音频信号46。混合器可以是任何信号混合设备。例如,混合窄带信号和合成宽带音频信号可以包括信号求和。在将合成宽带音频信号32应用于混合单元44之前,可以应用高通滤波器45,以便将合成信号的影响仅限制到估计的高频带,在估计的高频带中,没有窄带信号分量可用。
在包括用于将合成宽带音频信号与输入窄带音频信号混合的混合单元的音频通信设备的实施例中,至少一个ANFIS模块28可以被布置成使至少一个自适应神经模糊推理***模块28的至少一个判决规则和至少一个参数适应通过混合生成的宽带音频信号(包括合成宽带音频信号)的人类感知。
现参照图7,示意性示出用于输出音频信号的方法的示例的示图。所图示的方法作为用于输出音频信号的方法的一部分实现了所描述的音频通信设备的优点和特征。
所述方法可以包括接收80窄带音频信号;提取82窄带信号的多个窄带参数;通过将窄带参数应用到至少一个自适应神经模糊推理***从窄带参数外推84宽带信号的多个宽带参数;使用宽带参数来生成86合成宽带音频信号,其中,合成宽带音频信号具有宽于第一带宽的第二带宽;以及输出89合成宽带音频信号。
外推84可以包括通过将窄带音频信号的一个或多个特征参数应用于至少一个自适应神经模糊推理***(ANFIS)模块来生成宽带音频信号的一个或多个特征参数中的至少一个。
此外,所示出的用于输出音频信号的方法可以包括将窄带音频信号与合成的宽带音频信号混合88,并且从窄带音频信号和合成的宽带音频信号来生成宽带音频信号。在所述方法的实施例中,这可以包括在与窄带音频信号混合之前对合成的宽带音频信号进行高通滤波。
提取82可以包括例如通过确定至少一个声音分类参数来对窄带音频信号进行分类。并且其还可以包括提取窄带激励信号。外推84可以包括从窄带激励信号来生成宽带激励信号。
在实施例中,用于输出音频信号的方法可以包括使至少一个自适应神经模糊推理***的至少一个判决规则和至少一个参数适应90合成宽带音频信号的人类感知。如果所述方法包括将合成的宽带音频信号与输入窄带音频信号混合88的步骤,则使至少一个自适应神经模糊推理***的至少一个判决规则和至少一个参数适应合成宽带音频信号的人类感知可以是指通过混合生成的宽带音频信号(包括合成信号)的人类感知。
参照图8,示出根据音频通信设备的实施例的用于示例句子的语音信号频谱图92、94、96。频谱图是示出信号的谱密度如何随时间变化的图像,即,在图像平面中按时间显示频率,并且通过不同灰度级来指示谱密度。图像92示出0-8000Hz范围内原始宽带语音信号的频谱图,而图像94示出由通过电话信道的传输限制的语音信号带宽的窄带版(0-4000Hz)。图像96示出根据呈现的带宽扩展从图像94中所示的窄带信号生成的宽带信号。可以估计出外推的频谱非常接近原始宽带音频信号频谱。
现还参照图9,示意性示出通信***100的实施例的示例的框图。通信***100可以包括音频通信设备10,或者可以适于执行如上所述的方法。通信***可以包括通信网络102,通信网络102具有仅允许从发送器110到接收器108的音频或语音信号的有限带宽传输的传输功能104、106。例如,通信***100可以是电话***。例如,示出的音频通信设备10(BWE:宽带扩展)可以被实现为电话网络架构的一部分,或者可以被实现为电话设备的一部分。由于电话网络处于世界各地最广泛的网络内,所以不需要网络硬件巨大变化的用于扩展有限带宽的方案是有益的,特别是从成本角度来看。作为另一示例,示出的通信***100可以是窄带无线电通信***或者包括窄带发送侧通信设备的***。
还可以在用于在计算机***上运行的计算机程序中实现本发明,至少包括当在诸如计算机***的可编程装置上运行时用于执行根据本发明的方法的步骤的代码部分,或者启用可编程装置以执行根据本发明的设备或***的功能的代码部分。
计算机程序是一系列指令,诸如特定应用程序和/或操作***。例如,计算机程序可以包括下面的一个或多个:子例程、功能、过程、对象方法、对象实现、可执行应用、小程序、servlet、源代码、对象代码、共享库/动态加载库和/或为在计算机***上执行而设计的其他指令序列。
计算机程序可以存储在计算机可读存储介质内部,或者经由计算机可读传输介质传送到计算机***。可以在永久地、可移动地或远程地耦合到信息处理***的计算机可读介质上提供全部或一些计算机程序。例如,计算可读介质可以包括,例如但不是限制,下述的任何多个:磁存储介质,包括磁盘和磁带存储介质;光学存储介质,诸如光盘介质(例如,CD-ROM、CD-R等等),以及数字视频盘存储介质;非易失性存储介质,包括基于半导体的存储单元,诸如闪速存储器、EEPROM、EPROM、ROM;铁磁数字存储器;MRAM;易失性存储介质,包括寄存器、缓冲器或高速缓存,主存储器,RAM等等;以及数据传输介质,包括计算机网络、点对点电信设备,以及载波传输介质,仅举几个例子。
计算机处理通常包括执行(运行)程序或程序的一部分、当前程序值和状态信息,以及由操作***管理处理的执行所使用的资源。操作***(OS)是管理计算机资源的共享并且向编程者提供用于访问那些资源的接口的软件。操作***处理***数据和用户输入,并且通过分配和管理任务和内部***资源进行响应,作为对用户和***程序的服务。
例如,计算机***可以包括至少一个处理单元,关联的存储器和多个输入/输出(I/O)设备。当执行计算机程序时,计算机***根据计算机程序来处理信息并且经由I/O设备来生成得到的输出信息。
在前述说明书中,参照本发明的实施例的特定示例描述了本发明。然而,将明显的是,在不脱离如所附权利要求中阐述的本发明的较宽精神和范围的情况下,可以在其中进行各种修改和改变。
在此讨论的连接可以是适合例如经由中间设备从相应节点、单元或设备传输信号,或者向相应节点、单元或设备传输信号的任何类型的连接。因此,除非暗示或另外说明,否则连接可以是直接连接或间接连接。参照单个连接、多个连接、单向连接或双向连接来图示或描述连接。然而,不同实施例可以改变连接的实现。例如,可以使用单独的单向连接,而不是双向连接,并且反之亦然。另外,可以使用连续或者以时间复用方式传输多个信号的单个连接代替多个连接。类似地,携带多个信号的单个连接可以被分为携带这些信号的子集的多个不同连接。因此,对于传输信号,存在很多选项。
本领域的技术人员将认识到逻辑块间的边界仅是说明性的,并且替代实施例可以合并逻辑块或电路元件或者在各种逻辑块或电路元件上实行替代的功能分解。因此,应当理解,在此描述的架构仅是示例性的,并且事实上,可以实现达到相同功能的许多其他架构。例如,可以使用更多或更少层不同地实现所示出的ANFIS模块结构。并且只要可以达到相同功能,则可以合并或进一步拆分音频通信设备10的单元和模块。
有效地“关联”实现相同功能的部件的任何排列,使得实现所期望的功能。因此,在此组合以实现特定功能的任何两个部件能够看作彼此“关联”,使得实现所期望的功能,而与架构或内部组件无关。同样地,如此关联的任何两个部件也能看作彼此“可操作地连接”、或“可操作地耦合”以实现所期望的功能。
此外,本领域的技术人员将认识到上述操作之间的边界仅是说明性的。可以将多个操作组合成单个操作,可以将单个操作分布在另外的操作中,并且可以在时间上至少部分重叠地执行操作。此外,替代实施例可以包括特定操作的多个实例,以及在不同的其他实施例中,可以更改操作的顺序。
而且,例如,在一个实施例中,所图示的示例可以被实现为位于单集成电路上或相同设备内的电路。例如,音频通信设备10可以被实现为单集成电路。替代地,示例可以被实现为任何数目的单独集成电路或者以适当的方式实现为彼此互连的单独设备。例如,分析或提取单元18和外推单元24和合成单元30可以被实现为单独的集成电路。
另外,例如,示例或其一部分可以被实现为物理电路的或可转换成物理电路的逻辑表示的软件或代码表示,诸如任何适当类型的硬件描述语言。
另外,本发明不限于在非可编程硬件中实现的物理设备或单元,而也可以应用于能够通过根据适当的程序代码来操作从而执行所期望的设备功能的可编程设备或单元中,诸如主机、微型计算机、服务器、工作站、个人计算机、笔记本、个人数字助理、电子游戏、汽车和其他嵌入式***、手机和各种其他无线设备,在本申请中通常表示为“计算机***”。
然而,其他修改、变型和替代也是可能的。相应地,说明书和附图应当被认为是说明性而非限制性含义。
在权利要求中,括号之间放置的任何参考符号不应该被解释为限制权利要求。词语“包括”不排除除了在权利要求中列出的之外存在其他元件或者步骤。此外,在此使用的术语“一”被定义为一个或多于一个。另外,权利要求中使用诸如“至少一个”和“一个或多个”的引用短语不应该被解释为暗指由不定冠词“一”引入的另一权利要求要素将包含这样引入的权利要求元素的任何特定权利要求限制到仅包含一个这样要素的发明,即使当相同的权利要求包含引入短语“一个或多个”或“至少一个”以及诸如“一”的不定冠词。这对使用定冠词同样成立。除非另有说明,在此使用的诸如“第一”和“第二”的术语任意地区分这样的术语描述的元素。因此,这些术语不一定意在指示这样的要素在时间上或其他上的优先级。在相互不同的权利要求中记载特定测量的事实不指示这些测量的组合不能加以利用。
尽管已经结合具体设备描述了本发明的原理,但是应当清楚地理解,通过示例方式作出该描述,而不作为对本发明的范围的限制。

Claims (19)

1.一种音频通信设备(10),包括:
输入(12),所述输入(12)能够连接到窄带音频信号源(14),所述输入被布置成接收具有第一带宽的窄带音频信号(16);
提取单元(18),所述提取单元(18)连接到所述输入,并且被布置成从所述窄带音频信号提取多个窄带参数(20,22);
外推单元(24),所述外推单元(24)被连接以接收所述多个窄带参数,并且被布置成从所述多个窄带参数来生成多个宽带参数(26),所述外推单元包括一个或多个自适应神经模糊推理***模块(28);
合成单元(30),所述合成单元(30)被连接以接收所述多个宽带参数,并且被布置成使用所述宽带参数来生成合成宽带音频信号(32),所述合成宽带音频信号(32)具有宽于所述第一带宽的第二带宽;以及
输出(43),所述输出(43)能够连接到被布置成用于输出人类可感知声学信号的声换能器(47),用于将所述合成宽带音频信号提供到所述声换能器。
2.如权利要求1所述的音频通信设备,其中,所述提取单元包括包络提取模块(34),所述包络提取模块(34)被布置成接收所述窄带音频信号,并且被布置成从所述窄带音频信号提取多个包络参数(20)。
3.如权利要求2所述的音频通信设备,其中,所述多个包络参数包括用于所述窄带音频信号的多个线谱频率系数。
4.如前述权利要求中的任何一个所述的音频通信设备,其中,所述一个或多个自适应神经模糊推理***模块被布置成接收一个或多个所述窄带参数,并且从所述一个或多个窄带参数来生成一个或多个宽带参数。
5.如前述权利要求中的任何一个所述的音频通信设备,其中,所述提取单元包括声音分类模块(36),所述声音分类模块(36)被布置成接收所述窄带音频信号和确定至少一个声音分类参数(22)。
6.如前述权利要求中的任何一个所述的音频通信设备,其中,所述提取单元包括激励信号提取模块(38),所述激励信号提取模块(38)被布置成接收所述窄带音频信号和提供窄带激励信号(48)。
7.如权利要求6所述的音频通信设备,其中,所述外推单元包括激励外推模块(40),所述激励外推模块(40)被连接以接收所述窄带激励信号,并且被布置成从所述窄带激励信号来生成宽带激励信号(49)。
8.如权利要求7所述的音频通信设备,其中,所述合成单元被布置成接收所述宽带激励信号。
9.如前述权利要求中的任何一个所述的音频通信设备,包括混合单元(44),所述混合单元(44)被布置成接收所述窄带音频信号和所述合成宽带音频信号,并且被布置成从所述窄带音频信号和所述合成宽带音频信号来生成宽带音频信号(46)。
10.如前述权利要求中的任何一个所述的音频通信设备,其中,所述一个或多个自适应神经模糊推理***模块中的至少一个被布置成使所述一个或多个自适应神经模糊推理***模块的至少一个判决规则和至少一个参数适应所述合成宽带音频信号的人类感知。
11.如前述权利要求中的任何一个所述的音频通信设备,其中,所述音频通信设备被实现为集成电路。
12.一种用于输出音频信号的方法,包括:
接收(80)具有第一带宽的窄带音频信号;
提取(82)所述窄带音频信号的多个窄带参数;
通过将所述窄带参数应用到至少一个自适应神经模糊推理***来从所述窄带参数外推(84)宽带信号的多个宽带参数;
使用所述宽带参数来生成(86)合成宽带音频信号,所述合成宽带音频信号具有宽于所述第一带宽的第二带宽;以及
输出(89)所述合成宽带音频信号。
13.如权利要求12所述的方法,包括混合(88)所述窄带音频信号和所述合成宽带音频信号,以及从所述窄带音频信号和所述合成宽带音频信号来生成宽带音频信号。
14.如权利要求12或权利要求13所述的方法,其中,所述提取包括确定至少一个声音分类参数。
15.如权利要求12至14中的任何一个所述的方法,其中,所述提取包括提取窄带激励信号。
16.如权利要求15所述的方法,其中,所述外推包括从所述窄带激励信号来生成宽带激励信号。
17.如权利要求12至16中的任何一个所述的方法,包括使所述至少一个自适应神经模糊推理***的至少一个判决规则和至少一个参数适应(90)所述合成宽带音频信号的人类感知。
18.一种通信***(100),包括如权利要求1至11的任何一个中所述的音频通信设备(10)或者适于执行如权利要求12至17的任何一个所述的方法。
19.一种计算机程序产品,包括当在可编程装置上运行时用于执行如权利要求12至17的任何一个中所述的方法的步骤的代码部分。
CN201080066558.XA 2010-04-12 2010-04-12 音频通信设备、输出音频信号的方法和通信*** Expired - Fee Related CN102870156B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2010/051569 WO2011128723A1 (en) 2010-04-12 2010-04-12 Audio communication device, method for outputting an audio signal, and communication system

Publications (2)

Publication Number Publication Date
CN102870156A true CN102870156A (zh) 2013-01-09
CN102870156B CN102870156B (zh) 2015-07-22

Family

ID=44798308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080066558.XA Expired - Fee Related CN102870156B (zh) 2010-04-12 2010-04-12 音频通信设备、输出音频信号的方法和通信***

Country Status (4)

Country Link
US (1) US20130024191A1 (zh)
EP (1) EP2559026A1 (zh)
CN (1) CN102870156B (zh)
WO (1) WO2011128723A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043151A1 (zh) * 2013-09-26 2015-04-02 华为技术有限公司 一种高频激励信号预测方法及装置
CN106133834A (zh) * 2014-03-28 2016-11-16 崇实大学校产学协力团 用于使用差分频率能量判断饮酒的方法、用于执行该方法的记录介质和装置
CN109994127A (zh) * 2019-04-16 2019-07-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
CN110800050A (zh) * 2017-06-27 2020-02-14 美商楼氏电子有限公司 使用跟踪信号的后线性化***和方法
WO2021000597A1 (zh) * 2019-07-03 2021-01-07 南方科技大学 语音信号的处理方法以及装置、终端及存储介质
CN113240121A (zh) * 2021-05-08 2021-08-10 云南中烟工业有限责任公司 一种非破坏性爆珠破碎声音的预测方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9294060B2 (en) * 2010-05-25 2016-03-22 Nokia Technologies Oy Bandwidth extender
WO2013098885A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 音声信号復元装置および音声信号復元方法
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
TWI553566B (zh) * 2015-10-13 2016-10-11 Univ Yuan Ze 干擾環境中建構於分時多工接取之室內小細胞自我優化佈署串接控 制方法與裝置
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB2567503A (en) * 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009327A1 (en) * 2001-04-23 2003-01-09 Mattias Nilsson Bandwidth extension of acoustic signals
CN1416563A (zh) * 2000-11-09 2003-05-07 皇家菲利浦电子有限公司 用于更高感觉质量的电话语音的宽带扩展
CN1589469A (zh) * 2001-11-23 2005-03-02 皇家飞利浦电子股份有限公司 音频信号带宽扩展
CN1750124A (zh) * 2004-09-17 2006-03-22 哈曼贝克自动***股份有限公司 带限音频信号的带宽扩展
CN101076853A (zh) * 2004-12-10 2007-11-21 松下电器产业株式会社 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
CN101141533A (zh) * 2006-08-22 2008-03-12 哈曼贝克自动***股份有限公司 用于提供具有扩展带宽的声音信号的方法和***
EP1970900A1 (en) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
CN101496099A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
CN101620854A (zh) * 2008-06-30 2010-01-06 华为技术有限公司 频带扩展的方法、***和设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
WO2006030865A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、スケーラブル復号化方法、通信端末装置および基地局装置
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100708121B1 (ko) * 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
AU2006232364B2 (en) * 2005-04-01 2010-11-25 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
KR20080032348A (ko) * 2006-10-09 2008-04-15 삼성전자주식회사 음성 대역폭을 확장하기 위한 히든 마코프 모델 파라미터생성 장치 및 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1416563A (zh) * 2000-11-09 2003-05-07 皇家菲利浦电子有限公司 用于更高感觉质量的电话语音的宽带扩展
US20030009327A1 (en) * 2001-04-23 2003-01-09 Mattias Nilsson Bandwidth extension of acoustic signals
CN1589469A (zh) * 2001-11-23 2005-03-02 皇家飞利浦电子股份有限公司 音频信号带宽扩展
CN1750124A (zh) * 2004-09-17 2006-03-22 哈曼贝克自动***股份有限公司 带限音频信号的带宽扩展
CN101076853A (zh) * 2004-12-10 2007-11-21 松下电器产业株式会社 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
CN101496099A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
CN101141533A (zh) * 2006-08-22 2008-03-12 哈曼贝克自动***股份有限公司 用于提供具有扩展带宽的声音信号的方法和***
EP1970900A1 (en) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal
CN101620854A (zh) * 2008-06-30 2010-01-06 华为技术有限公司 频带扩展的方法、***和设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043151A1 (zh) * 2013-09-26 2015-04-02 华为技术有限公司 一种高频激励信号预测方法及装置
US9685165B2 (en) 2013-09-26 2017-06-20 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
RU2637885C2 (ru) * 2013-09-26 2017-12-07 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство предсказания сигнала возбуждения верхней полосы
US10339944B2 (en) 2013-09-26 2019-07-02 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
US10607620B2 (en) 2013-09-26 2020-03-31 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
CN106133834A (zh) * 2014-03-28 2016-11-16 崇实大学校产学协力团 用于使用差分频率能量判断饮酒的方法、用于执行该方法的记录介质和装置
CN110800050A (zh) * 2017-06-27 2020-02-14 美商楼氏电子有限公司 使用跟踪信号的后线性化***和方法
CN109994127A (zh) * 2019-04-16 2019-07-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
CN109994127B (zh) * 2019-04-16 2021-11-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
WO2021000597A1 (zh) * 2019-07-03 2021-01-07 南方科技大学 语音信号的处理方法以及装置、终端及存储介质
CN113240121A (zh) * 2021-05-08 2021-08-10 云南中烟工业有限责任公司 一种非破坏性爆珠破碎声音的预测方法
CN113240121B (zh) * 2021-05-08 2022-10-25 云南中烟工业有限责任公司 一种非破坏性爆珠破碎声音的预测方法

Also Published As

Publication number Publication date
WO2011128723A1 (en) 2011-10-20
EP2559026A1 (en) 2013-02-20
US20130024191A1 (en) 2013-01-24
CN102870156B (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN102870156B (zh) 音频通信设备、输出音频信号的方法和通信***
Braun et al. Data augmentation and loss normalization for deep noise suppression
Xing et al. Sound quality recognition using optimal wavelet-packet transform and artificial neural network methods
CN110459241B (zh) 一种用于语音特征的提取方法和***
CN106104674A (zh) 混合语音识别
CN108564963A (zh) 用于增强语音的方法和装置
Faundez-Zanuy et al. Nonlinear speech processing: overview and applications
CN103377651B (zh) 语音自动合成装置及方法
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
KR20230109630A (ko) 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기
AU2009295251B2 (en) Method of analysing an audio signal
CN109308903A (zh) 语音模仿方法、终端设备及计算机可读存储介质
Dwijayanti et al. Enhancement of speech dynamics for voice activity detection using DNN
Dubey et al. Non‐intrusive speech quality assessment using multi‐resolution auditory model features for degraded narrowband speech
Dash et al. Multi-objective approach to speech enhancement using tunable Q-factor-based wavelet transform and ANN techniques
Korvel et al. Evaluation of Lombard speech models in the context of speech in noise enhancement
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Gadasin et al. Using Formants for Human Speech Recognition by Artificial Intelligence
Anees Speech coding techniques and challenges: A comprehensive literature survey
Albuquerque et al. Automatic no-reference speech quality assessment with convolutional neural networks
Djeffal et al. Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches
Sheferaw et al. Waveform based speech coding using nonlinear predictive techniques: a systematic review
George et al. A review on speech emotion recognition: a survey, recent advances, challenges, and the influence of noise
Srinivas et al. Detection of vowel-like speech: an efficient hardware architecture and it's FPGA prototype
Ananthabhotla et al. Using a neural network codec approximation loss to improve source separation performance in limited capacity networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Texas in the United States

Patentee after: NXP America Co Ltd

Address before: Texas in the United States

Patentee before: Fisical Semiconductor Inc.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20190412