CN103226952A

CN103226952A - 语音处理装置、方法和程序

Info

Publication number: CN103226952A
Application number: CN201310018393.4A
Authority: CN
Inventors: 本间弘幸; 知念彻
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-01-25
Filing date: 2013-01-18
Publication date: 2013-07-31
Also published as: JP2013153307A; US20130191124A1

Abstract

本发明提供了一种语音处理装置、方法和程序。该语音处理装置包括：特征量计算部分，从输入语音信号的目标帧中提取特征量；声压估计候选点更新部分，使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；声压估计部分，基于声压估计候选点的特征量，计算输入语音信号的估计声压；增益计算部分，基于估计声压，计算应用于输入语音信号的增益；以及增益应用部分，基于增益，执行输入语音信号的增益调节。

Description

语音处理装置、方法和程序

技术领域

本发明涉及语音处理装置、方法和程序，并且更具体地，涉及可以更容易得到合适水平的语音的语音处理装置、方法和程序。

背景技术

在通过使用诸如IC（集成电路）记录器的记录装置来记录对话、音乐演奏等的情况下，重要的是正确地设置记录灵敏度，使得以合适等级的水平记录所采集语音的输入语音信号。

例如，在相对大的会议室中进行的会议中记录对话的情况下，如果记录装置的记录灵敏度被设置得低，则将存在以下情况：语音将被以低水平记录，以致于远处发言者的谈话将很难能够被听到。

另一方面，在麦克风靠近某人的嘴部并且他们的口述被保留作为备忘录的情况下，如果记录装置的记录灵敏度被设置得高，则将输入超过可以被记录的上限水平的信号。在这种情况下，将在被记录的语音中出现声音的失真，并且这种失真将变成刺耳的噪声。

这样，为了避免以不合适的水平记录语音，通常，记录装置中设置的记录灵敏度被粗略分成3级水平，并且使用自动地将信号水平保持在恒定水平的信号处理技术。这种信号处理技术被称为ALC（自动水平控制）和AGC（自动增益控制）。

例如，如图1中所示，记录装置中的记录灵敏度被分成高、中和低三级，并且针对这各个记录灵敏度，将+30dB、+15dB和0dB的值分配作为放大器的放大因子。

另外，如图2中所示，例如，总体记录装置的输入***包括主控制装置11、放大器12、ADC（模数转换器）12和ALC处理部分14。

对于这种记录装置，当用户指定记录装置的记录灵敏度的设置时，主控制装置11将已经通过用户所指定的记录灵敏度确定的放大比例设置为放大器12中的放大因子。

然后，采集的语音信号被按照放大器12中设置的放大因子放大，被ADC13数字化，此后通过ALC处理部分14控制信号水平。然后，从ALC处理部分14输出具有受控信号水平的信号作为输出语音信号，并且输出语音信号被编码并且在此后被记录。

例如，图3的折线IC11示出的信号被输入到ALC处理部分14，并且对这个信号的信号水平执行控制。然后，从ALC处理部分14输出作为这个步骤结果得到的折线OC11所示的信号作为最终输出语音信号。注意的是，在图3中，水平轴表示时间并且垂直轴表示信号水平。另外，图3中的虚线示出最大输入水平，即被获取作为信号水平的值中的最大值。

折线IC11表示的信号是输入到记录装置的麦克风、被放大器12放大并且此后被ADC13数字化的信号。因为所记录信号之中的大于最大输入水平（用虚线表示）的水平的一部分被记录于消波状态，所以在再现期间在信号的这个部分中将出现声音失真噪声。

因此，针对输入折线IC11表示的信号，在记录装置中执行增益调节，并且作为这个步骤的结果得到的并且由折线OC11表示的信号被作为输出信号输出。由折线OC11表示的这个信号的水平变得总是小于最大的输入水平，并且理解的是，执行增益调节，使得输出语音信号将是合适水平的信号。

在增益调节期间，通过ALC处理部分14实时测量信号水平，并且在信号水平接近最大输入水平的情况下，降低增益，使得信号的水平不超过最大输入水平。然后，在信号没有超过最大输入水平的情况下，增益返回到1.0。

如上所述，执行设置记录灵敏度的步骤和由ALC处理部分14进行的增益调节，以避免出现声音失真并且防止所记录的语音太小，以致听不到。然而，存在以下情况：由于记录灵敏度还没被合适设置，以及由于通过ALC（增益调节）得到的声音因外部噪声等的影响是不稳定的声音，导致所记录的语音将在再现期间难以听到。

另一方面，在日本专利No.3367592中提出了一种技术，例如，该技术涉及一种自动增益调节装置，该装置用于尽可能减少外部噪声的影响并且用于以合适水平记录语音。

在这种技术中，在一定时间帧内计算功率谱的自动校正和倾斜，以正确地区分语音部分，并且在功率谱的自动校正或倾斜小于阈值的情况下，这个时间帧被视为是不稳定的。通过在计算输入信号的水平时排除这种不稳定的时间帧，也就是说，假设这个时间帧不是语音部分，将语音控制在合适水平。

发明内容

然而，在上述技术中，在容易辨别语音和噪声的同时麦克风靠近声源如电话的情况下，在记录装置被置于大房间中并且相当距离处的扬声器发声的情况下，输入语音信号的SN比（信噪比）将是差的，并且不能够准确地检测到语音部分。因此，存在不能够得到合适水平的语音信号作为所记录的语音信号的情况。

另外，对于每个时间帧正常计算自动校正等，并且辨别语音和不稳定噪声导致小型记录装置（如，通过电池驱动的记录装置）中的电池消耗加速。

鉴于这种情形做出本发明，并且本发明可以更容易地得到合适水平的语音。

根据本发明的实施方式，提供了一种语音处理装置，包括：特征量计算部分，从输入语音信号的目标帧中提取特征量；声压估计候选点更新部分，使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；声压估计部分，基于声压估计候选点的特征量，计算输入语音信号的估计声压；增益计算部分，基于估计声压，计算应用于输入语音信号的增益；以及增益应用部分，基于增益，执行输入语音信号的增益调节。

特征量计算部分计算至少目标帧中的输入语音信号的声压水平作为特征量。当目标帧的声压水平大于作为声压估计候选点的特征量的声压水平的最小值时，声压估计候选点更新部分丢弃具有最小值的声压估计候选点并且使目标帧成为新的声压估计候选点。

特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息作为特征量。当基于突发噪声信息目标帧是包括突发噪声的部分时，声压估计候选点更新部分不使目标帧成为声压估计候选点。

当相邻声压估计候选点之间的帧间隔的最短帧间隔小于预定阈值时，声压估计候选点更新部分丢弃具有最短帧间隔的相邻声压估计候选点中的具有小声压水平的声压估计候选点，并且使目标帧成为新的声压估计候选点。

以使预定阈值随着时间的过去而增大的方式，确定预定阈值。

特征量计算部分计算至少从声压估计候选点直至目标帧的过去的帧的数量作为特征量。当声压估计候选点的过去的帧的数量的最大值大于预定的帧的数量时，声压估计候选点更新部分丢弃具有最大值的声压估计候选点，并且使目标帧成为新的声压估计候选点。

输入语音信号被输入到语音处理装置，输入语音信号是由放大部分进行增益调节并且从模拟信号转换成数字信号来得到的。基于计算得到的增益，增益计算部分计算增益应用部分用于进行增益调节的增益和放大部分用于进行增益调节的增益。

根据本发明的实施方式，提供了一种使计算机执行以下处理的程序：从输入语音信号的目标帧中提取特征量；使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；基于声压估计候选点的特征量，计算输入语音信号的估计声压；基于估计声压，计算应用于输入语音信号的增益；以及基于增益，执行输入语音信号的增益调节。

根据本发明的实施方式，从输入语音信号的目标帧中提取特征量。使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点。基于声压估计候选点的特征量，计算输入语音信号的估计声压。基于估计声压，计算应用于输入语音信号的增益。基于增益，执行输入语音信号的增益调节。

根据本发明的实施方式，可以更容易地得到合适水平的语音。

附图说明

图1是描述记录灵敏度设置的图；

图2是示出相关技术中的记录装置的输入***的构造的图；

图3是用于描述ALC处理部分的操作的图；

图4是示出可应用于本发明的语音处理***的示例构造的图；

图5是描述增益调节处理的流程图；

图6是描述声压估计候选点更新处理的流程图；

图7是示出更新声压估计候选点并且计算估计声压的例子的图；

图8是示出更新声压估计候选点并且计算估计声压的例子的图；

图9是用于描述突发噪声对估计声压的影响的图；

图10是示出在包括突发噪声的情况下更新声压估计候选点并且计算估计声压的例子的图；

图11是示出计算机的示例构造的图；

图12是示出基于本发明的声压水平直方图的例子的图；

图13是示出基于本发明的声压水平直方图的例子的图；

图14是示出突发噪声信息和声压水平的值的例子的图；以及

图15是示出突发噪声信息的加权的例子的图。

具体实施方式

下文中，将参照附图详细描述本发明的优选实施例。注意的是，在这个说明书和附图中，用相同的附图标记表示具有基本相同功能和结构的结构元件，并且省略对这些结构元件的重复说明。

下文中，将参照图描述可应用于本发明的实施方式。

<第一实施方式>

[语音处理***的示例构造]

接着，将描述可应用于本发明的特定实施方式。

图4是示出可应用于本发明的语音处理***的实施方式的示例构造的图。

这个语音处理***例如被布置在诸如IC记录器的记录装置中，并且包括放大器41、ADC42、记录水平自动设置装置43和主控制器44。

例如经过诸如麦克风的采集语音部分采集的语音的信号（下文中，称为输入语音信号）被输入到放大器41。放大器41按主控制器44指定的记录灵敏度（也就是说，放大因子）放大输入语音信号，并且将放大后的输入语音信号供应到ADC42。

ADC42将放大器41供应的输入语音信号从模拟信号转换成数字信号，并且将数字信号供应到记录水平自动设置装置43。注意的是，可以假设放大器41和ADC42是单个模块。也就是说，单个模块可以包括放大器41和ADC42的功能。

记录水平自动设置装置43通过对ADC42供应的输入语音信号执行增益调节，产生并输出输出语音信号。记录水平自动设置装置43包括特征量计算部分51、声压估计候选点更新部分52、声压估计部分53、增益计算部分54和增益应用部分55。

特征量计算部分51从ADC42供应的输入语音信号中提取一个或多个特征量，并且将提取的特征量供应到声压估计候选点更新部分52。声压估计候选点更新部分52基于特征量计算部分51供应的特征量和多个声压估计候选点中的特征量，更新用于估计输入语音信号的声压的声压估计候选点，并且将与声压估计候选点相关的信息供应到声压估计部分53。

声压估计部分53基于与声压估计候选点更新部分52供应的声压估计候选点相关的信息，估计输入语音信号的声压，并且将作为这个步骤的结果得到的估计声压供应到增益计算部分54。

增益计算部分54通过将声压估计部分53供应的估计声压与作为输入语音信号目标的声压（下文中，称为目标声压）进行比较，计算目标增益，该目标增益表示放大输入语音信号的量。另外，增益计算部分54将计算得到的目标增益划分为放大器41中的放大因子和增益应用部分应用的增益（下文中，称为应用增益），并且将放大因子和应用增益供应到主控制器44和增益应用部分55。

增益应用部分55通过将增益计算部分54供应的增益应用到ADC42供应的输入语音信号，执行输入语音信号的增益调节，并且输出作为这个步骤的结果得到的输出语音信号。从增益应用部分55输出的输出语音信号被合适地编码并记录到记录介质，并且通过诸如网络的通信网络发送到另一个装置。

另外，主控制器44将增益计算部分54供应的方法因子供应到放大器41，并且按所供应的放大因子放大输入语音信号。

[对增益调节处理的描述]

附带地，当指定为了语音处理***记录语音时，语音处理***调节输入语音信号的增益，使得已经经过语音采集被输入到放大器41的输入语音信号变成合适水平的信号，并且使这个信号成为输出语音信号。

在这种情况下，放大器41通过主控制器44按增益计算部分54供应的放大因子放大所供应的输入语音信号，并且将放大后的输入语音信号供应到ADC42。另外，ADC42将放大器41供应的输入语音信号数字化，并且将数字化的输入语音信号供应到记录水平自动设置装置43的特征量计算部分51和增益应用部分55。

另外，记录水平自动设置装置43通过执行增益调节处理，将ADC42供应的输入语音信号转换成输出语音信号，并且将输出语音信号输出。

下文中，将参照图5的流程图描述记录水平自动设置装置43进行的增益调节处理。注意的是，对输入语音信号的每个帧，执行这个增益调节处理。

在步骤S11中，特征量计算部分51基于ADC42供应的输入语音信号，计算作为输入语音信号的处理目标的时间帧（下文中，称为当前帧）中的放大率峰值Pk(n)。

例如，在当前帧是输入语音信号的第n个帧（假设n≥0）时，并且假设每个帧构成L个样本，特征量计算部分51通过计算以下的等式（1）来计算峰值Pk(n)。

Pk (n) = \max_{0 \leq i \leq L - 1} | sig (L \cdot n + i) | \cdot \cdot \cdot (1)

注意的是，在等式（1）中，sig(L×n+i)是构成输入语音信号的样本之中的从第0个帧的第一个样本起开始计数的第(L×n+i)个样本的样本值（输入语音信号的值）。因此，得到从构成输入语音信号的当前帧的样本的样本值的绝对值的最大值作为峰值Pk(n)。

在步骤S12中，特征量计算部分51基于ADC42供应的输入语音信号，计算在当前帧中具有最大幅度的样本附近的每个样本的样本值的均方根rms(n)。

例如，特征量计算部分51通过形成在当前帧（帧n）具有峰值Pk(n)的样本，也就是说，具有最大幅度的样本，样本i_max(n)，并且通过计算以下的等式（2），计算均方根rms(n)。

rms (n) = \sqrt{\frac{1}{2 \cdot L} Σ_{i = i_\max (n) - L 1}^{i_\max (n) + L 2 - 1} sig {(i)}^{2}}, 2 \cdot L = L 1 + L 2 \cdot \cdot \cdot (2)

在等式（2）中，i_max(n)代表样本i_max(n)的位置，也就是说，样本i_max(n)所处的数字位置。因此，均方根rms(n)是构成总共2L个样本的部分中的每个样本的样本值的均方根，这2L个样本包括样本i_max(n)的过去一边的L1样本和样本i_max(n)的后一边的L2-1样本。

注意的是，在等式（2）中，虽然作为均方根rms(n)的计算目标的输入语音信号的范围是由样本i_max(n)的位置确定的，但作为计算目标的输入语音信号的范围可能不取决于样本i_max(n)的位置。

对于这种情况，特征量计算部分51通过计算以下的等式（3），计算均方根rms(n)。

rms (n) = \sqrt{\frac{1}{L} Σ_{i = 0}^{L - 1} sig {(L \cdot n + i)}^{2}} \cdot \cdot \cdot (3)

在等式（3）的计算中，构成当前帧的每个样本的样本值的均方根被计算作为均方根rms(n)。以此方式，在比如输入语音信号的缓冲量存在限制的情况下，均方根rms(n)的计算方法是特别有效的，该计算方法使用不取决于样本i_max(n)的位置的输入语音信号的范围中的样本。

在步骤S13中，针对声压估计候选点更新部分52中保持的目前的每个声压估计候选点，特征量计算部分51计算从成为这些声压估计候选点的帧直至当前帧的帧数作为过去的帧的数量。在这种情况下，特征量计算部分51必要时参考与声压估计候选点更新部分52中包含的声压估计候选点相关的信息，并且得到过去的帧的数量。

在步骤S14中，特征量计算部分51基于从ADC42供应的输入语音信号，计算突发噪声信息Atk(n)，突发噪声信息Atk(n)表示当前帧中出现突发噪声的可能性。这里，例如，不同于要被采集的初始声音的突发噪声（如键盘的击键声音或当物体掉地时产生的声音）是突然产生的噪声。

例如，特征量计算部分51通过计算以下的等式（4）计算突发噪声信息Atk(n)。

Atk (n) = \frac{\max_{n - N 1 \leq m \leq n + N 2} Pk (m)}{\min_{n - N 1 \leq m \leq n + N 2} Pk (m)} \cdot \cdot \cdot (4)

也就是说，在等式（4）的计算中，首先，使总共(N1+N2+1)个帧成为待处理部分，这(N1+N2+1)个帧包括作为当前帧的帧n、从帧n起算的上一帧N1和从帧n起算的下一帧N2。然后，使待处理部分中的每个帧的峰值Pk(m)之中的最小值与最大值之比，也就是说，使通过将峰值Pk(m)的最大值除以峰值Pk(m)的最小值而得到的值，成为突发噪声信息Atk(n)。

注意的是，如果突发噪声信息Atk(n)是可以检测输入语音信号的锐变的信息，其不限于等式（4）中示出的例子，并且可以是任何类型。例如，特征量计算部分51可以通过计算以下的等式（5）计算突发噪声信息Atk(n)。

Atk (n) = \max_{n - N 1 \leq m \leq n + N 2 - 1} \frac{Pk (m + 1)}{Pk (m)} \cdot \cdot \cdot (5)

在等式（5）中，对于待处理的包括帧n、帧n的前一帧N1和帧n的后一帧N2的总共(N1+N2+1)个帧的部分，得到待处理的部分中的两个连续帧的峰值Pk(m)之比。也就是说，将针对帧(m+1)得到的峰值Pk(m+1)除以针对帧m得到的峰值Pk(m)。然后，使针对待处理部分中的两个连续帧的各组得到的峰值Pk(m)之比之中的最大值成为突发噪声信息Atk(n)。

另外，通过用低阻滤波器对输入语音信号进行过滤处理，可以在减少输入语音信号的直流分量附近的波动之后，得到当得到突发噪声信息Atk(n)时使用的峰值Pk(m)。

如上所述，当得到峰值Pk(n)、均方根rms(n)、过去的帧的数量和突发噪声信息Atk(n)时，特征量计算部分51形成特征量的集合，并且将这些特征量供应到声压估计候选点更新部分52，这些特征量是从当前帧的输入语音信号中提取的那四个值。

在步骤S15中，声压估计候选点更新部分52通过执行声压估计候选点更新处理，更新声压估计候选点，并且在更新之后将每个声压估计候选点的均方根rms(n)供应到声压估计部分53。

注意的是，虽然随后将描述声压估计候选点更新处理的细节，但在这个声压估计候选点更新处理中，基于当前帧的特征量和声压估计候选点更新部分52中保持的P声压估计候选点中的特征量，对声压估计候选点执行更新。

具体地，在目前的P声压候选点中存在已经变得不适合作为声压估计候选点的候选点的情况下，排除这个声压估计候选点，并且使当前帧成为新的声压估计候选点。因此，P声压估计候选点和这些声压估计候选点的特征量被正常保持在声压估计候选点更新部分52中

注意的是，在下文中，成为声压估计候选点的帧将合适地被称为帧n_p（假设1≤p≤P）

在步骤S16中，声压估计部分53基于声压估计候选点更新部分52供应的P声压候选点的rms(n_p)，计算输入语音信号的估计声压，并且将估计声压供应到增益计算部分54。

例如，声压估计部分53通过计算以下的等式（6），计算估计声压est_rms(n)。

est_rms (n) = \sqrt{\frac{1}{P} Σ_{p = 1}^{P} rms {(n_{p})}^{2}} \cdot \cdot \cdot (6)

也就是说，在等式（6）中，通过得到已成为声压估计候选点的帧n₁直至帧n_p的P均方根rms(n_p)的均方根，计算估计声压est_rms(n)。

注意的是，估计声压est_rms(n)不限于等式（6）的计算，并且如果使用每个声压估计候选点的特征量进行计算，则可以按任何方式进行计算。例如，声压估计部分53可以通过计算以下的等式（7），计算估计声压est_rms(n)。

est_rms (n) = \sqrt{\frac{1}{W_all} Σ_{p = 1}^{P} w (n_{p}) \cdot rms {(n_{p})}^{2}} \cdot \cdot \cdot (7)

在等式（7）中，通过应用对于每个声压估计候选点不同的加权w(n_p)并且得到加权平均值，针对P均方根rms(n_p)计算估计声压est_rms(n)。

注意的是，在等式（7）中，加权w(n_p)是根据从帧n_p直至当前帧的过去的帧的数量而减小的函数，并且W_all是通过以下的等式（8）得到的值。也就是说，W_all是每个帧n_p的加权w(n_p)的总和。

W_all = Σ_{p = 1}^{P} w (n_{p}) \cdot \cdot \cdot (8)

在步骤S17中，增益计算部分54通过将声压估计部分53供应的估计声压est_rms(n)与预定的目标声压进行比较，计算当前帧的目标增益。

例如，增益计算部分54通过计算以下的等式（9）并且得到目标声压tgt_rms和估计声压est_rms(n)之间的差异，计算目标增益tgt_gain(n)。

tgt_gain(n)=tgt_rms-est_rms(n) ···(9)

在步骤S18中，增益计算部分54将目标增益tat_gain(n)划分成放大器41中的放大因子和增益应用部分55应用的应用增益。

例如，在放大器41中，可以按照高、中和低三级控制放大因子，如图1中所示。也就是说，放大器41的放大因子可以按15dB为单元在0dB至+30dB之间增大和减小。

现在，放大器41中设置的放大因子是0dB，并且目标增益tgt_gain(n)是18dB。对于这种情况，增益计算部分54将作为目标增益tat_gain(n)的18dB划分为成为放大器41的放大因子的+15dB和成为应用增益的3dB。

这里，使放大因子是+15dB的原因在于，当放大器41的放大因子在能够被设置的范围内增大和减小时，在被得到作为增大和减小部分的放大因子的值之中，不超过18dB（即目标增益）的值的最大值是15dB。因此，增益计算部分54将目标增益内的15dB分配到放大器41的放大因子，并且将剩余的3dB分配到增益应用部分55的应用增益。

当增益计算部分54以此方式将目标增益划分为放大因子和应用增益时，放大因子被供应到主控制器44，并且应用增益被供应到增益应用部分55。

主控制器44将增益计算部分54供应的放大因子供应到放大器41，并且改变放大器41的放大因子。在这种情况下，主控制器44例如通过将改变放大器41的放大因子的步骤与将增益应用于增益应用部分55的输入语音信号同步，对放大器因子的改变执行控制。当以此方式改变放大器41的放大因子时，放大器41在改变之后将供应的输入语音信号按放大因子放大。也就是说，通过改变的增益（放大因子），对输入语音信号执行增益调节（放大）。

注意的是，通过使用启动时间和释放时间的时间常数，可以计算实际目标增益，使得增益不快速改变。通过使用启动时间和释放时间的时间常数计算增益的处理通常被用在ALC（自动水平控制）技术中。

在步骤S19中，增益应用部分55通过将增益计算部分54供应的应用增益应用到ADC42供应的输入语音信号，对输入语音信号执行增益调节，并且输出作为这个步骤的结果得到的输出语音信号。

这里，供应到增益应用部分55的输入语音信号是sig(L·n+i)，并且当被从增益计算部分54供应到增益应用部分55的应用增益是sig_gain(n,i)的时候，增益应用部分55通过计算以下的等式（10），产生输出语音信号。

0ut_sig(L·n+i)=Sig_gain(n，i)·sig(L·n+i) ···(10)

也就是说，增益应用部分55通过将应用增益sig_gain(n,i)乘以输入语音信号sig(L·n+i)，形成输出语音信号out_sig(L·n+i)。更详细地，输入语音信号的第(L·n+i)个样本的应用增益sig_gain(n,i)被乘以输入语音信号的第(L·n+i)个样本的样本值(L·n+i)，并且成为输出语音信号out_sig(L·n+i)的第(L·n+i)个样本的样本值。

注意的是，在增益仅应用到输入语音信号的情况下，存在通过在0dBFS下饱和对输出语音信号out_sig(i)进行限幅的情况。因此，在增益应用期间，可以执行用于防止这种限幅的处理。例如，通常用ALC、压缩器等执行的处理可以被用作防止限幅的处理。

当对输入语音信号执行增益调节并且产生输出语音信号时，从增益应用部分55输出产生的输出语音信号，并且增益调节处理结束。

如上所述，记录水平自动设置装置43通过根据供应的输入语音信号计算特征量来更新声压估计候选点，并且根据每个声压估计候选点的特征量计算估计声压。然后，记录水平自动设置装置43根据估计声压得到目标增益，基于目标增益调节输入语音信号的增益，并且形成输出语音信号。

以此方式，基于特征量，选择合适的声压估计候选点来估计声压，并且可以通过更简单的处理，通过得到估计声压来得到具有更高精度的目标增益。以此方式，可以得到合适水平的输出语音信号。

根据本发明的实施方式，因为在记录水平自动设置装置43中通过简单处理不仅计算应用增益而且计算放大器41中的合适放大因子，所以可以通过足够可行的方法自动地设置记录灵敏度，甚至是对于小型记录装置。也就是说，对于用户，只是通过按下记录按钮来记录合适水平的语音。

[对声压估计候选点更新处理的描述]

接着，将参照图6的流程图描述与图5的步骤S15的处理对应的声压估计候选点更新处理。

在这个声压估计候选点更新处理开始时，峰值Pk(n)、均方根rms(n)、过去的帧的数量和突发噪声信息Atk(n)被从特征量计算部分51供应到声压估计候选点更新部分52作为当前帧的特征量的集合。

另外，之前从特征量计算部分51供应的每个P声压估计候选点的特征量的集合被保持在声压估计候选点更新部分52中。另外，当记录操作开始时，合适的初始值被设置为P声压估计候选点和这些声压估计候选点的特征量。

在步骤S41中，声压估计候选点更新部分52基于作为特征量计算部分51供应的当前帧的特征量的过去的帧的数量，判断所保持的声压估计候选点是否超过预定的最大保持时间。

例如，声压估计候选点更新部分52从目前成为声压估计候选点的P帧n_p（假设1≤p≤P）的每个的过去的帧的数量之中，也就是说，从满足以下的等式（11）的过去的帧的数量之中，指定最大值。

n_\max = \max_{1 \leq p \leq P} n_{p} \cdot \cdot \cdot (11)

注意的是，在等式（11）中，n_p表示帧n_p的过去的帧的数量，并且使P个过去的帧n_p之中的最大值成为过去的帧的最大数量n_max。

声压估计候选点更新部分52判断所得到的过去的帧的最大数量n_max是否大于预定阈值th_max，并且在过去的帧的最大数量n_max大于阈值th_max的情况下，假设存在被保持超过了最大保持时间的声压估计候选点。这里，阈值th_max是表示最大保持值的值（帧数）。

在步骤S41中，在判断存在被保持超过了最大保持时间的声压估计候选点的情况下，声压估计候选点更新部分52选择已成为过去的帧的最大数量n_max的帧n_p作为要被丢弃的帧，并且处理前进到步骤S42。

当与当前帧分开很远的前一帧被用作声压估计候选点以计算当前帧中的估计声压时，可能的是，可能不能够得到正确估计声压。因此，在存在被保持超过了最大保持时间的声压估计候选点的情况下，使声压估计候选点之中被保持最长的帧成为要被丢弃的帧。也就是说，使声压估计候选点成为不合适的帧。

在步骤S42中，声压估计候选点更新部分52丢弃被选择作为要被丢弃帧的帧和这个帧的特征量，并且使当前帧成为新的声压估计候选点。

也就是说，声压估计候选点更新部分52排除要被从声压估计候选点中丢弃的帧，并且保持指定当前帧、当前帧的特征量和新的声压估计候选点的信息作为这些声压估计候选点的特征量的集合。

当执行步骤S42的处理时，处理此后前进至步骤S49。

另外，在步骤S41中，在判断没有被保持超过了最大保持时间的声压估计候选点的情况下，也就是说，在过去的帧的最大数量n_max等于或小于阈值th_max的情况下，处理前进至步骤S43。

在步骤S43中，声压估计候选点更新部分52判断当前帧是否是突发噪声的一部分。

例如，在被特征量计算部分51作为当前帧的特征量供应的突发噪声信息Atk(n)大于预定阈值th_atk的情况下，声压估计候选点更新部分52判断当前帧是突发噪声的一部分。

在步骤S43中当前帧被判断是突发噪声的一部分的情况下，对声压估计候选点不执行更新，并且处理前进至步骤S49。

例如，在包括突发噪声的帧被选定为声压估计候选点的情况下，如果通过使用这个帧得到估计声压，则将存在要被采集的原始声音的声压不能作为估计声压被正确得到的情形。因此，在当前帧是包括突发噪声的帧的情况下，使这个帧成为计算估计声压时的不合适帧，并且声压估计候选点更新部分52从声压估计候选点排除这个帧。

另一方面，在步骤S43中判断当前帧不是突发噪声的一部分的情况下，也就是说，在突发噪声信息Atk(n)等于或小于阈值th_atk的情况下，处理前进至步骤S44。

注意的是，在判断当前帧是否是突发噪声的一部分的情况下，可以不仅通过简单比较突发噪声信息Atk(n)和阈值th_atk，而且通过考虑到P个声压估计候选点的特征量，来执行判断。

例如，当P个声压估计候选点的均方根rms(n_p)的平均值低时，阈值th_atk可以被设置得较低，相反地，当均方根rms(n_p)的平均值高时，阈值th_atk可以被设置得较高。以此方式，可以根据输入语音信号的之前帧的声压，按合适灵敏度检测突发噪声。也就是说，可以合适地改变突发噪声检测的灵敏度。

在步骤S44中，声压估计候选点更新部分52基于特征量计算部分51供应的过去的帧n_p的数量，计算最小时间间隔，该最小时间间隔是在时间方向上相邻的声压估计候选点之中的时间间隔的最小值。

具体地，声压估计候选点更新部分52通过计算以下的等式（12）计算最小时间间隔ndiff_min。

ndiff_\min = \min_{2 \leq p \leq P} | n_{p} - n_{p - 1} | \cdot \cdot \cdot (12)

也就是说，在等式（12）中，针对p的每个值，得到帧n_p-1的过去的帧n_p-1的数量和相邻帧n_p的过去的帧n_p（假设2≤p≤P）的数量之间的差的绝对值，并且使这些差的绝对值的最小值是最小时间间隔ndiff_min。

在步骤S45中，声压估计候选点更新部分52基于所保持的声压估计候选点Pk(n_p)的每个中的峰值，通过计算以下的等式（13）来计算最小峰值Pk_min。

Pk_\min = \min_{1 \leq p \leq P} Pk (n_{p}) \cdot \cdot \cdot (13)

在等式（13）中，使P个（假设1≤p≤P）声压估计候选点Pk(n_p)的每个中的峰值之中的最小值成为最小峰值Pk_min。

在步骤S46中，声压估计候选点更新部分52判断步骤S44中得到的最小时间间隔ndiff_min是否小于预定阈值th_ndiff。

在步骤S46中，在判断最小时间间隔ndiff_min小于阈值th_ndiff的情况下，处理前进至步骤S47。

在步骤S47中，声压估计候选点更新部分52选择在用于得到最小时间间隔ndiff_min的声压估计候选点之中的具有最小峰值Pk(n_p)的声压估计候选点作为要被丢弃的帧。也就是说，使以最小时间间隔ndiff_min布置的两个声压估计候选点之间的具有最小峰值的帧成为要被丢弃的帧。

这样，通过使以短时间间隔布置的声压估计候选点之一成为要被丢弃的帧，并且从这些声压估计候选点之中排除这个帧，可以防止声压估计候选点以高声压集中在特定时隙。以此方式，可以得到更合适的估计声压。

具体地，如果选择以最小时间间隔ndiff_min布置的声压估计候选点之中的具有最小峰值Pk(n_p)的声压估计候选点作为要被丢弃的帧，则具有最大峰值的帧被用于声压估计。以此方式，可以控制所记录语音的限幅。

注意的是，与最小时间间隔ndiff_min相比，阈值th_ndiff随着处理时间的过去而有所增大。在这种情况下，通过随着时间增大相邻声压估计候选点之间的时间间隔，并且通过分配声压估计候选点，可以得到更合适的估计声压。

当以此方式选择要被丢弃的帧时，此后的处理从步骤S47前进至步骤S42，丢弃要被丢弃的选定帧，并且使当前帧成为新的声压估计候选点。

另外，在步骤S46中判断最小时间间隔ndiff_min等于或大于阈值th_ndiff的情况下，在步骤S48中，声压估计候选点更新部分52判断当前帧的峰值Pk(n)是否等于或大于最小峰值Pk_min。

在步骤S48中，在判断当前帧的峰值Pk(n)等于或大于最小峰值Pk_min的情况下，声压估计候选点更新部分52选择具有最小峰值Pk_min的声压估计候选点作为要被丢弃的帧，并且处理前进至步骤S42。

在记录水平自动设置装置43中，使具有尽可能大峰值的帧成为声压估计候选点，使得所记录的语音没有被限幅。因此，在当前帧的峰值Pk(n)等于或大于最小峰值Pk_min的情况下，具有最小峰值Pk_min的声压估计候选点被丢弃，使得具有较大峰值的当前帧成为新的声压估计候选点。

当以此方式选择要被丢弃的帧时，在步骤S42中，丢弃要被丢弃的选定帧，并且使当前帧成为新的声压估计候选点。

另一方面，在步骤S48中，在判断当前帧的峰值Pk(n)小于最小峰值Pk_min的情况下，处理前进至步骤S49。在这种情况下，不使当前帧成为声压估计候选点。

当在步骤S48中判断峰值Pk(n)小于最小峰值Pk_min、或者在步骤S42中使当前帧成为新的声压估计候选点、或者在步骤S43中判断当前帧是突发噪声的一部分时，执行步骤S49的处理。

也就是说，在步骤S49中，声压估计候选点更新部分52更新每个声压估计候选点的帧数。

例如，声压估计候选点更新部分52重新应用帧数来识别对于每个帧成为声压估计候选点的每个声压估计候选点。具体地，针对已经成为声压估计候选点的每个帧，形成从时间方面最老开始的次序的帧n₁至n_p。也就是说，在时间方面最老的声压估计候选点成为帧n₁。

这样，当合适地更新声压估计候选点时，声压估计候选点更新部分52在更新到声压估计部分53之后，供应已经被保持作为每个声压估计候选点的特征量的均方根rms(n_p)，并且声压估计候选点更新处理结束。当声压估计候选点更新处理结束时，处理此后前进至图5的步骤S16。

如上所述，记录水平自动设置装置43基于当前帧的特征量和所保持的P个声压估计候选点的特征量，更新声压估计候选点。以此方式，可以通过合适地更新声压估计候选点，得到更多合适的估计声压。

在上述实施方式中，虽然已经描述了保持具有大峰值的帧的特征量的方法作为声压估计候选点的更新处理，但从保持具有大声压水平的帧的特征量的角度看，其它实施方式还可以使用保持具有大均方根rms(n)的帧的特征量的方法。

[关于对输入语音信号的增益调节]

接着，将参照图7至图10描述以上已描述的对输入语音信号的增益调节的具体例子。

注意的是，在图7至图10中，水平轴表示时间帧，也就是说，输入语音信号的帧数，并且垂直轴表示输入语音信号的绝对声压水平（dB SPL（声压水平））。

另外，在图7至图10中，水平轴下方的带阴影矩形表示要被记录的语音的部分，也就是说，不存在噪声的那些部分。

在图7中示出输入语音信号、声压估计候选点和估计声压之间的关系。

也就是说，实线折线IPS11代表输入到记录水平自动设置装置43的输入语音信号的每个帧中的绝对声压水平的最大值，并且带有附连到端部的圆形的虚线直线CA11-1至CA-11-10的每个代表声压估计候选点。另外，虚线折线ETM11代表每个帧中的估计声压，并且虚线直线TGT11代表目标声压。

注意的是，图中的位置和代表直线CA11-1至CA11-10D圆形垂直方向上的位置没有任何特别意义，并且仅仅水平方向上的位置，也就是说，时间轴上的位置具有意义，并且在以下描述的图8至图10中可以假定这是类似的。也就是说，垂直方向上的附连到代表声压估计候选点的圆形的位置没有任何意义。下文中，在不必特别区分直线CA11-1至CA11-10的情况下，它们将简单地被称为直线CA11。

在图7的例子中，直线CA11表示的位置是当400个帧的数据被作为输入语音信号输入时每个声压估计候选点的位置。另外，折线ETM11示出通过声压估计候选点不停地改变，得到的多达400个帧的每个帧的估计声压的历史。

在这个例子中，每个帧中的直线TFT11表示的目标声压和折线ETM11表示的估计声压之间的差异成为目标增益。然后，使目标增益的一部分成为当前帧可应用的增益，并且剩余部分成为放大器41中的下一帧的放大因子。

因此，按通过前一帧得到的放大因子，放大被数字化之前的输入语音信号，并且放大之后的输入语音信号被进一步数字化以及输入到记录水平自动设置装置43。然后，在记录水平自动设置装置43中，按当前帧的放大增益，放大输入当前帧的输入语音信号，并且作为这个步骤的结果得到的信号被作为输出语音信号输出。

这里，为了清晰地示出声压估计候选点的更新，针对折线IPS11表示的输入语音信号，在图8中示出对多达1200个帧执行处理时的状态。

注意的是，在图8中，实线折线IPS12代表输入到记录水平自动设置装置43的输入语音信号的每个帧中的绝对声压水平的最大值，并且带有附连到端部的圆形的虚线直线CA12-1至CA12-10的每个代表声压估计候选点。另外，虚线折线ETM12代表每个帧中的估计声压，并且虚线直线TGT12代表目标声压。

下文中，在不必特别区分直线CA12-1至CA12-10的情况下，它们将简单地被称为直线CA12。

图7中示出的折线IPS11、折线ETM11和直线TGT11分别代表图8的折线IPS12、折线ETM12和直线TFT12的一部分，也就是说，直至第400帧的一部分。

如图7中所示，直到输入语音信号的第400帧被输入到记录水平自动设置装置43时，通过直线CA11的每个表示的声压估计候选点集中在从第0帧直至第400帧的部分中。

当输入语音信号的帧被输入时，从这种状况顺序地，声压估计候选点从图7中示出的状况变到图8中示出的状况。也就是说，变成其在宽部分内以水平的间隔散布的声压估计候选点的状况。

这样，通过采集大的输入语音信号的幅度的多个峰值，形成声压估计候选点，并且可以设置记录水平，使得通过一直对声压估计候选点执行更新，输出语音信号被以合适信号水平记录，同时尽可能地抑制限幅等。然而，在通过选择性使用具有大峰值的这类帧对声压执行估计的情况下，存在由于大噪声的突发导致可能无法得到合适的估计声压的情况。

例如，如图9中所示，在输入语音信号中包括突发噪声。

注意的是，在图9中，实线折线IPS13代表输入到记录水平自动设置装置43的输入语音信号的每个帧中的绝对声压水平的最大值，并且虚线直线CA13-1至CA13-10的每个代表声压估计候选点。另外，虚线折线ETM13代表每个帧中的估计声压，并且虚线直线TGT13代表目标声压。

下文中，在不必特别区分直线CA13-1至CA13-10的情况下，它们将简单地被称为直线CA13。

在图9中，用箭头NZ11和NZ12示出的部分是包括由于下落物体导致出现的突发噪声的部分（帧），并且用箭头NZ13示出的部分是包括键盘的击键声的部分。

在这个例子中，当确定每个声压估计候选点时，执行处理，使得突发噪声信息没有被用作特征量。首先，为了使作为特征量的峰值根据由于下落物体导致的噪声而增大，在接近用箭头NZ11表示的第125帧的帧中，也就是说，在用直线CA13-2示出的位置的帧中，使这个帧成为声压估计候选点。作为这个步骤的结果，在用直线CA13-2示出的位置的帧中，估计声压从大致50dBSPL快速变化直至大致65dBSPL，如虚线折线ETM13所表示的。

与箭头NZ11表示的位置类似地，根据突发噪声如由于掉落物体或键盘的击键声导致的噪声，也可以使箭头NZ12和NZ13表示的位置的帧成为声压估计候选点。

也就是说，箭头NZ12表示的位置变成已成为声压估计候选点的直线CA13-3示出的位置，并且箭头NZ13表示的位置变成已成为声压估计候选点的直线CA13-6示出的位置。

这样，当使突发噪声的帧成为声压估计候选点时，估计声压增大，并且可能无法得到合适的估计声压。

这里，为了避免由于这种突发噪声导致的不利影响，在记录水平自动设置装置43中，在特征量计算部分51中得到突发噪声信息，并且通过使用声压估计候选点更新部分52中的突发噪声信息对声压估计候选点执行更新。

具体地，基于突发噪声信息，判断当前帧是否是突发噪声的一部分，并且在当前帧是突发噪声的一部分的情况下，在当前帧中不更新声压估计候选点。也就是说，不使作为突发噪声的一部分的当前帧成为声压估计候选点。以此方式，可以得到输入语音信号的合适的估计声压。

例如，如图10中所示，因为从记录水平自动设置装置43中的声压估计候选点中排除了突发噪声的一部分，所以可以针对输入语音信号，得到合适的估计声压，如折线ETM14所示的。

注意的是，图10示出当与图9中示出的输入语音信号类似的信号被输入到记录水平自动设置装置43时的每个声压估计候选点和估计声压，并且因为图10中相同的附图标记表示与图9的情况对应的部件，所以将适当省略对它们的描述。另外，在图10中，直线CA14-1至CA14-12的每个代表声压估计候选点，并且折线ETM14代表每个帧中的估计声压。

在这个例子中，箭头NZ11至NZ13表示的位置的帧，也就是说，包括突发噪声的帧不被选择作为声压估计候选点，并且使附图底部的带阴影矩形表示的语音的一些部分的帧成为声压估计候选点。作为这个步骤的结果，折线ETM14表示的估计声压变成对于语音的这些部分是适当较大的。

这样，在记录水平自动设置装置43中，因为对于每个帧更新声压估计候选点，使得通过声压估计候选点更新处理将合适的帧选择作为声压估计候选点，所以可以得到合适的估计声压。因此，可以得到具有较高精度的目标增益，并且可以得到具有合适水平的输出语音信号。

<第二实施方式>

接着，将描述可应用于本发明的另一个特定实施方式。

可应用于本发明的语音处理***的第二实施方式的示例构造与图4中示出的第一实施方式的示例构造相同，并且下文中将详细描述与第一实施方式的部件不同的部件。

在上述的第一实施方式中，在尽管存在突发噪声但对突发噪声的判断没有正确起效的情况和在已经使帧成为声压估计候选点之一的情况下，将对声压估计部分中计算的估计声压est_rms(n)产生显著效果，因为从突发噪声的特性来看，这个帧具有高声压水平。具体地，计算出的估计声压est_rms(n)大于实际声压，并且作为这个步骤的结果的增益计算部分中计算出的增益变小。另外，因为具有高声压水平的帧的特征量被保持在声压估计候选点更新部分中，所以在最长保持时间过去之前，在声压估计候选点中将存在包括突发噪声的帧的特征量，也就是说，将保持增益小的状态。

为了避免这种效果，当在声压估计部分中得到估计声压est_rms(n)时，基于本发明的第二实施方式不包括高给定比率，该比率根据估计声压est_rms(n)的结果以从最大声压水平开始的次序整理声压估计候选点，并且从其它声压估计候选点中得到估计声压est_rms(n)。

图12是基于本发明的声压水平柱状图的典型例子，因为根据在处理时保持的所有声压估计候选点得到声压水平的柱状图。

图13示出在检测突发噪声的处理中出现了遗漏并且在声压估计候选点中包括含有突发噪声的帧的情况下的声压水平柱状图的例子。灰色箱体表示突发噪声的成因。如图13中所示，为了从声压估计中排除高声压水平的突发噪声，比如那些影响声压估计的突发噪声，本实施方式以声压水平的次序整理声压估计部分中的声压估计候选点，并且计算估计声压est_rms(n)，同时从计算中排除高给定比率的多个声压估计候选点。这里，优选地，在考虑到比如当在声压估计候选点更新部分中判断突发噪声时的检测性能和当在不存在突发噪声的情况下执行计算的同时排除高给定比率时的估计声压est_rms(n)的改变这类事情的同时，确定如何设置从这个估计声压的计算中排除的比率。

这里，因为必须考虑到如上所述以声压水平的次序整理每个帧中的声压估计候选点时的计算成本，所以基于本实施方式的另一个实施方式可以采用以下方法：该方法包括排列在所保持的声压候选点的一个特征量中的所有声压估计候选点之中的声压水平的信息，并且当新的声压估计候选点被并入声压估计候选点更新部分中时对排列信息的更新。

<第三实施方式>

接着，将描述可应用于本发明的另一个特定实施方式。

可应用于本发明的语音处理***的第三实施方式的示例构造与图4中示出的第一实施方式的示例构造相同，并且下文中将详细描述与第一实施方式的部件不同的部件。

在上述的第一实施方式中，以下方法是可能的：针对声压估计部分中的声压估计，使用在特征量计算部分中计算的并且被保持作为声压估计候选点的特征量之一的突发噪声信息，作为对抗突发噪声的检测遗漏的另一个对策。

图14示出在图9所示的每个声压估计候选点的例子中的突发噪声信息和声压水平的值的例子。根据对上述第一实施方式的描述，用于判断当前帧是否是突发噪声的一部分的预定阈值th_atk在这里具有0.9的初步值。在这种情况下，判断图14中示出的所有声压估计候选点CA13-1至CA13-5和CA13-12没有突发噪声。

对于这种情况，为了避免由于对突发噪声的检测遗漏导致计算出比实际声压大的估计声压est_ram(n)，第三实施方式中的声压估计部分通过使用加权w_atk(Atk(n_p))计算估计声压est_ram(n)，使得随着突发噪声信息变大，值变小。

图15是示出突发噪声信息Atk(n_p)的加权w_atk(Atk(n_p))的例子的图。水平轴表示突发噪声信息Atk(n_p)，并且垂直轴表示加权w_atk(Atk(n_p))。可以通过使用等式（7）和（8）计算使用这个加权的估计声压est_ram(n)的计算结果，如以上在第一实施方式中描述的。

顺带地，上述一系列的处理可以由硬件来执行，或者可以由软件来执行。在这一系列的处理由软件来执行的情况下，将构成这个软件的程序安装在计算机中。这里，被装配到专用硬件的计算机和能够通过安装各种程序执行各种功能的通用个人计算机被包括在计算机中。

图11是示出通过程序执行上述一系列处理的计算机的硬件的示例构造的框图。

在计算机中，用总线304将CPU（中央处理单元）301、ROM（只读存储器）302和RAM（随进存取存储器）303相互连接。

输入/输出接口305还连接到总线304。输入部分306、输出部分307、记录部分308、通信部分309和驱动器310连接到输入/输出接口305。

输入部分306包括键盘、鼠标、麦克风等。输出部分307包括显示器、扬声器等。记录部分308包括硬盘、非易失性存储器等。通信部分309包括网络接口等。驱动器310驱动可移动介质311，如，磁盘、光盘、磁光盘或半导体存储器。

在如上构造的计算机中，例如，通过CPU301执行上述一系列的处理，CPU301将记录部分308中记录的程序加载在RAM303中，并且通过输入/输出接口305和总线304执行程序。

例如，计算机（CPU301）执行的程序可以被记录并且设置在作为封装介质的可移动介质311等中。另外，可以通过有线或无线通信介质如局域网、因特网或数字卫星广播来提供程序。

在计算机中，通过将可移动介质311安装在驱动器310中，可以通过输入/输出接口305将程序安装在记录部分308中。另外，可以由通信部分309通过有线或无线传输介质来接收程序，并且可以将程序安装在记录部分308中。另外，可以预先将程序安装在ROM302或记录部分308中。

注意的是，计算机执行的程序可以是根据本发明中描述的次序执行时序处理的程序，或者可以是比如当并行执行调用时以必要定时执行这些处理的程序。

本领域的技术人员应该理解，可以根据设计要求和其它因素出现各种修改、组合、子组合和更改，只要它们在所附权利要求书或其等价物的范围内。

例如，本发明可以采用云计算的构造，云计算是通过多个装置经由网络分配和连接一个功能进行处理的。

另外，上述流程图描述的每个步骤可以由一个装置来执行或者通过分配多个装置来执行。

另外，在一个步骤中包括多个处理的情况下，这一个步骤中包括的多个处理可以由一个装置来执行或者通过分配多个装置来执行。

另外，还可以如下地构造本技术。

（1）一种语音处理装置，包括：

特征量计算部分，从输入语音信号的目标帧中提取特征量；

声压估计候选点更新部分，使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；

声压估计部分，基于声压估计候选点的特征量，计算输入语音信号的估计声压；

增益计算部分，基于估计声压，计算应用于输入语音信号的增益；以及

增益应用部分，基于增益，执行输入语音信号的增益调节。

（2）根据（1）所述的语音处理装置，

其中，特征量计算部分计算至少目标帧中的输入语音信号的声压水平作为特征量，并且

其中，当目标帧的声压水平大于作为声压估计候选点的特征量的声压水平的最小值时，声压估计候选点更新部分丢弃具有最小值的声压估计候选点并且使目标帧成为新的声压估计候选点。

（3）根据（1）或（2）所述的语音处理装置，

其中，特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息作为特征量，并且

其中，当基于突发噪声信息目标帧是包括突发噪声的部分时，声压估计候选点更新部分不使目标帧成为声压估计候选点。

（4）根据（2）所述的语音处理装置，

其中，当相邻声压估计候选点之间的帧间隔的最短帧间隔小于预定阈值时，声压估计候选点更新部分丢弃具有最短帧间隔的相邻声压估计候选点中的具有小声压水平的声压估计候选点，并且使目标帧成为新的声压估计候选点。

（5）根据（4）所述的语音处理装置，

其中，以使预定阈值随着时间的过去而增大的方式，确定预定阈值。

（6）根据（1）至（5）中的任一项所述的语音处理装置，

其中，特征量计算部分计算至少从声压估计候选点直至目标帧的过去的帧的数量作为特征量，并且

其中，当声压估计候选点的过去的帧的数量的最大值大于预定的帧的数量时，声压估计候选点更新部分丢弃具有最大值的声压估计候选点，并且使目标帧成为新的声压估计候选点。

（7）根据（1）至（6）中的任一项所述的语音处理装置，

其中，输入语音信号被输入到语音处理装置，输入语音信号是由放大部分进行增益调节并且从模拟信号转换成数字信号来得到的，并且

其中，基于计算得到的增益，增益计算部分计算增益应用部分用于进行增益调节的增益和放大部分用于进行增益调节的增益。

本发明包含与2012年1月25日在日本专利局提交的日本优选权专利申请JP2012-012864中公开的主题相关的主题，该专利申请的全部内容以引用方式并入本文。

Claims

1.一种语音处理装置，包括：

特征量计算部分，从输入语音信号的目标帧中提取特征量；

增益应用部分，基于增益，执行输入语音信号的增益调节。

2.根据权利要求1所述的语音处理装置，

3.根据权利要求2所述的语音处理装置，

4.根据权利要求2所述的语音处理装置，

5.根据权利要求4所述的语音处理装置，

6.根据权利要求2所述的语音处理装置，

7.根据权利要求2所述的语音处理装置，

8.根据权利要求1所述的语音处理装置，

其中，声压估计部分通过以从最大声压水平开始的次序从声压估计候选点中排除给定比率数量的声压估计候选点，执行对声压的估计。

9.根据权利要求1所述的语音处理装置，

其中，特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息，并且

其中，基于声压估计候选点保持的突发噪声信息和声压水平，声压估计部分执行对声压的估计。

10.一种语音处理方法，包括：

从输入语音信号的目标帧中提取特征量；

使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；

基于声压估计候选点的特征量，计算输入语音信号的估计声压；

基于估计声压，计算应用于输入语音信号的增益；以及

基于增益，执行输入语音信号的增益调节。

11.一种使计算机执行以下处理的程序：

从输入语音信号的目标帧中提取特征量；

基于估计声压，计算应用于输入语音信号的增益；以及

基于增益，执行输入语音信号的增益调节。