JP2018010207A - Speech signal processing device and speech signal processing program - Google Patents

Speech signal processing device and speech signal processing program Download PDF

Info

Publication number
JP2018010207A
JP2018010207A JP2016139753A JP2016139753A JP2018010207A JP 2018010207 A JP2018010207 A JP 2018010207A JP 2016139753 A JP2016139753 A JP 2016139753A JP 2016139753 A JP2016139753 A JP 2016139753A JP 2018010207 A JP2018010207 A JP 2018010207A
Authority
JP
Japan
Prior art keywords
audio signal
frequency region
high frequency
bands
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016139753A
Other languages
Japanese (ja)
Other versions
JP6677110B2 (en
Inventor
遠藤 香緒里
Kaori Endo
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016139753A priority Critical patent/JP6677110B2/en
Publication of JP2018010207A publication Critical patent/JP2018010207A/en
Application granted granted Critical
Publication of JP6677110B2 publication Critical patent/JP6677110B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To not deteriorate sound quality and to reduce a load due to speech signal processing in wideband speech signal processing.SOLUTION: A first band division unit (23) divides a low frequency region of a speech signal converted from time domain representation to frequency domain representation into a plurality of first bands using a first bandwidth. A bandwidth determination unit (24) determines a second bandwidth more than or equal to the first bandwidth for dividing a high frequency region based on height of importance of the high frequency region having a higher frequency than the frequency of the low frequency region of the speech signal. A second band division unit (25) divides the high frequency region of the speech signal into a plurality of second bands using the second bandwidth determined by the bandwidth determination unit. A speech signal adjustment unit (26) performs speech signal adjustment processing to each of the plurality of first bands and each of the plurality of second bands.SELECTED DRAWING: Figure 1

Description

本発明は、音声信号処理装置及び音声信号処理プログラムに関する。   The present invention relates to an audio signal processing device and an audio signal processing program.

高音質化を実現するためには広帯域の音声信号処理に対応する必要があるが、広帯域の音声信号処理では情報量が増大するため、音声信号処理の負担が増大する。例えば、入力音声信号を低域周波数雑音成分が含まれる低域音声信号と高域周波数雑音成分が含まれる高域音声信号とに分割し、入力音声信号のパワーが大きい低域音声信号をダウンサンプリングして入力音声信号から間引く技術が存在する。これにより、低域音声信号に対して、少ない演算量でより高度な雑音抑圧処理を行うことができる。また、入力音声信号のパワーが小さい高域音声信号に対しては、低域音声信号への雑音抑制処理よりも簡単な雑音抑制処理を行うことで、より少ない演算量で音声歪みを低減し、かつ、雑音を除去することで音質を劣化させない。したがって、音声信号処理の負担を低減することができる。   In order to achieve high sound quality, it is necessary to support wideband audio signal processing. However, since the amount of information increases in wideband audio signal processing, the burden of audio signal processing increases. For example, the input audio signal is divided into a low frequency audio signal including a low frequency noise component and a high frequency audio signal including a high frequency noise component, and the low frequency audio signal having a high power is downsampled. Thus, there is a technique for thinning out an input audio signal. As a result, it is possible to perform more advanced noise suppression processing with a small amount of computation on the low-frequency audio signal. In addition, for high-frequency audio signals with low power of the input audio signal, by performing noise suppression processing that is simpler than noise suppression processing for low-frequency audio signals, audio distortion can be reduced with less computation, In addition, sound quality is not deteriorated by removing noise. Therefore, the burden of audio signal processing can be reduced.

しかしながら、騒音を含む音声の音声信号は、状況によりその周波数特性が変化する。例えば、子音区域など、高域音声信号に音声特徴の情報が多く含まれる場合、または、騒音の高域周波数成分の定常性が低い場合などに、高域音声信号に簡単な雑音抑制処理を実行すると、音声歪みが多くなり、雑音を十分に除去できない場合がある。   However, the frequency characteristics of an audio signal including noise change depending on the situation. For example, simple noise suppression processing is performed on a high-frequency audio signal when the high-frequency audio signal contains a lot of audio feature information, such as consonant zones, or when the high-frequency component of the noise is low Then, the voice distortion increases, and noise may not be sufficiently removed.

また、音声信号処理の負担を低減するために、入力音声信号を所定の周波数帯域に分割された帯域分割信号に変換し、周波数帯域毎の特徴量に応じて雑音、環境音、及び楽音等の音響信号をフィルタリングする技術が存在する。フィルタリングされた帯域分割信号の明瞭度に応じて、フィルタリングされた帯域分割信号と入力音声信号との配分を調整して、出力信号を合成することで、ユーザが不快にならない程度に音質が劣化せず、かつ、第三者には聞き難い音声を生成する。   In addition, in order to reduce the burden of audio signal processing, the input audio signal is converted into a band-divided signal divided into a predetermined frequency band, and noise, environmental sounds, musical sounds, etc. are converted according to the feature amount for each frequency band. There are techniques for filtering acoustic signals. According to the clarity of the filtered band-divided signal, the distribution of the filtered band-divided signal and the input audio signal is adjusted, and the output signal is synthesized, so that the sound quality is degraded to the extent that the user is not uncomfortable. In addition, it generates sounds that are difficult for third parties to hear.

特開2006−201622号公報JP 2006-201622 A 特開2009−75160号公報JP 2009-75160 A 特許第3309895号公報Japanese Patent No. 3309895 特許第4533427号公報Japanese Patent No. 4533427 特許第5453740号公報Japanese Patent No. 5453740

しかしながら、音声及び周囲騒音の周波数特性などは経時的に変化する。所定の周波数帯域に分割している関連技術では、経時的な変化に応じた適切な帯域幅で音声信号処理を行うことが困難である。   However, the frequency characteristics of voice and ambient noise change over time. With the related technology that divides the signal into predetermined frequency bands, it is difficult to perform audio signal processing with an appropriate bandwidth according to changes over time.

本発明は、1つの側面として、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを目的とする。   An object of the present invention is to reduce the burden of audio signal processing without degrading sound quality in wideband audio signal processing.

1つの実施形態では、第1帯域分割部は、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部は、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部は、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部は、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。   In one embodiment, the first band dividing unit divides the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with a first bandwidth. The bandwidth determination unit determines a second bandwidth that is equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region that is higher than the frequency of the low frequency region of the audio signal. decide. The second band dividing unit divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit. The audio signal adjustment unit executes audio signal adjustment processing for each of the plurality of first bands and each of the plurality of second bands.

本発明は、1つの側面として、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。   As one aspect, the present invention makes it possible to reduce the burden of audio signal processing without degrading sound quality in wideband audio signal processing.

第1〜第5実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。It is a block diagram which shows an example of the principal part function of the audio | voice signal processing apparatus which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the audio | voice signal processing apparatus which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る音声信号処理の概要を説明するための概念図である。It is a conceptual diagram for demonstrating the outline | summary of the audio | voice signal process which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る音声信号処理の概要を説明するための概念図である。It is a conceptual diagram for demonstrating the outline | summary of the audio | voice signal process which concerns on 1st-5th embodiment. 第1〜第4実施形態に係る音声信号処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice signal process which concerns on 1st-4th embodiment. 第1実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice signal analysis process which concerns on 1st Embodiment. 第1実施形態に係る高周波数領域の帯域数算出を説明するための線図である。It is a diagram for demonstrating the band number calculation of the high frequency area | region which concerns on 1st Embodiment. 第1〜第5実施形態に係る高周波数領域の帯域数を説明するための概念図である。It is a conceptual diagram for demonstrating the number of bands of the high frequency area | region which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る高周波数領域の帯域併合を説明するための概念図である。It is a conceptual diagram for demonstrating the band merge of the high frequency area | region which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る高周波数領域の帯域併合を説明するための概念図である。It is a conceptual diagram for demonstrating the band merge of the high frequency area | region which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る帯域併合処理の一例を示すフローチャートである。It is a flowchart which shows an example of the band merge process which concerns on 1st-5th embodiment. 第1〜第5実施形態に係る音声信号調整処理の一例を示すフローチャートである。It is a flowchart which shows an example of the audio | voice signal adjustment process which concerns on 1st-5th embodiment. 第1〜第5実施形態に係るゲイン分配の一例を示すフローチャートである。It is a flowchart which shows an example of the gain distribution which concerns on 1st-5th embodiment. 第1〜第5実施形態に係るゲイン分配の一例を示すフローチャートである。It is a flowchart which shows an example of the gain distribution which concerns on 1st-5th embodiment. 第1〜第5実施形態の原理を説明するための概念図である。It is a conceptual diagram for demonstrating the principle of 1st-5th embodiment. 第1〜第5実施形態の原理を説明するための概念図である。It is a conceptual diagram for demonstrating the principle of 1st-5th embodiment. 第1〜第5実施形態の原理を説明するための概念図である。It is a conceptual diagram for demonstrating the principle of 1st-5th embodiment. 第2実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice signal analysis process which concerns on 2nd Embodiment. 第2実施形態に係る高周波数領域の帯域数算出を説明するための線図である。It is a diagram for demonstrating the band number calculation of the high frequency area | region which concerns on 2nd Embodiment. 第3実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice signal analysis process which concerns on 3rd Embodiment. 第3および第4実施形態に係る音声有無判定処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice presence / absence determination processing which concerns on 3rd and 4th embodiment. 第3および第4実施形態に係る基本周波数算出処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the fundamental frequency calculation process which concerns on 3rd and 4th embodiment. 第3実施形態に係る高周波数領域の帯域数算出を説明するための線図である。It is a diagram for demonstrating the band number calculation of the high frequency area | region which concerns on 3rd Embodiment. 第4実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice signal analysis process which concerns on 4th Embodiment. 第5実施形態に係る音声信号処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the audio | voice signal process which concerns on 5th Embodiment. 第5実施形態に係る音声信号処理の概要を説明するための概念図である。It is a conceptual diagram for demonstrating the outline | summary of the audio | voice signal processing which concerns on 5th Embodiment. 第5実施形態に係る音声信号処理の概要を説明するための概念図である。It is a conceptual diagram for demonstrating the outline | summary of the audio | voice signal processing which concerns on 5th Embodiment. 第5実施形態に係る音声信号処理の概要を説明するための概念図である。It is a conceptual diagram for demonstrating the outline | summary of the audio | voice signal processing which concerns on 5th Embodiment. 第5実施形態に係る音声信号処理の概要を説明するための概念図である。It is a conceptual diagram for demonstrating the outline | summary of the audio | voice signal processing which concerns on 5th Embodiment. 第5実施形態に係る高周波数領域下減変更処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the high frequency area | region lowering change process which concerns on 5th Embodiment.

[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
[First Embodiment]
Hereinafter, an example of the first embodiment will be described in detail with reference to the drawings.

図1に示す音声信号処理装置10は、音声入力部21、周波数領域変換部22、第1帯域分割部23、帯域幅決定部24、第2帯域幅分割部25、音声信号調整部26、時間領域変換部27及び音声出力部28を含む。音声入力部21は音声を検出し、検出した音声を音声信号に変換する。   The audio signal processing apparatus 10 shown in FIG. 1 includes an audio input unit 21, a frequency domain conversion unit 22, a first band division unit 23, a bandwidth determination unit 24, a second bandwidth division unit 25, an audio signal adjustment unit 26, a time An area conversion unit 27 and an audio output unit 28 are included. The voice input unit 21 detects voice and converts the detected voice into a voice signal.

周波数領域変換部22は、音声信号を時間領域表現から周波数領域表現に変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する音声信号に変換する。第1帯域分割部23は、周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域幅に分割する。帯域幅決定部24は、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。   The frequency domain conversion unit 22 converts the audio signal from the time domain representation to the frequency domain representation. For example, using a Fourier transform, an audio signal whose level changes with time is converted into an audio signal whose level changes with frequency. The first band dividing unit 23 divides the low frequency region of the audio signal converted into the frequency region expression into a plurality of first bandwidths by the first bandwidth. The bandwidth determination unit 24 has a second bandwidth equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region whose frequency is higher than the frequency of the low frequency region of the audio signal. To decide.

低周波数領域は、一般に重要度が高い領域である。一方、高周波数領域は、一般に低周波数領域と比較して重要度が低い領域であるが、高周波数領域に含まれる音声信号の特徴によっては重要度が高い場合もある。高周波数領域の重要度が高い場合には、音質を劣化させないようにするため、重要度が高くなるにしたがって、高周波数領域を分割する際の帯域幅を狭くし、帯域数を多くして、高周波数領域の音声信号処理の精度を高くすることで、音質を劣化させない。   The low frequency region is generally a region with high importance. On the other hand, the high frequency region is generally a region that is less important than the low frequency region, but may be more important depending on the characteristics of the audio signal included in the high frequency region. If the importance of the high frequency region is high, in order not to deteriorate the sound quality, as the importance increases, the bandwidth when dividing the high frequency region is narrowed, the number of bands is increased, The sound quality is not deteriorated by increasing the accuracy of the sound signal processing in the high frequency region.

帯域幅決定部24は係数決定部29を含むことができ、係数決定部29は、高周波数領域の重要度の高さに基づいて係数を決定する。この場合、帯域幅決定部24は、決定された係数を第1帯域幅に乗じることで第2帯域幅を決定する。帯域幅決定部24は、決定された係数に対応する個数の第1帯域幅を加算することで第2帯域幅を決定してもよい。   The bandwidth determination unit 24 can include a coefficient determination unit 29. The coefficient determination unit 29 determines a coefficient based on the importance of the high frequency region. In this case, the bandwidth determination unit 24 determines the second bandwidth by multiplying the first bandwidth by the determined coefficient. The bandwidth determination unit 24 may determine the second bandwidth by adding the number of first bandwidths corresponding to the determined coefficient.

第2帯域分割部25は、帯域幅決定部24で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部26は、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。時間領域変換部27は、音声信号を周波数領域表現から時間領域表現に変換する。音声出力部28は、音声信号を音声に変換して出力する。   The second band dividing unit 25 divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit 24. The audio signal adjustment unit 26 performs an audio signal adjustment process on each of the plurality of first bands and each of the plurality of second bands. The time domain conversion unit 27 converts the audio signal from the frequency domain expression to the time domain expression. The sound output unit 28 converts the sound signal into sound and outputs the sound.

音声信号処理装置10は、一例として、図2に示すように、プロセッサの一例であるCPU(Central Processing Unit)31、一次記憶部32、二次記憶部33、外部インターフェイス34、マイク35、スピーカ36及び通信部37を含む。CPU31、一次記憶部32、二次記憶部33、外部インターフェイス34、マイク35、スピーカ36、及び通信部37は、バス39を介して相互に接続されている。   As an example, as shown in FIG. 2, the audio signal processing apparatus 10 includes a CPU (Central Processing Unit) 31 that is an example of a processor, a primary storage unit 32, a secondary storage unit 33, an external interface 34, a microphone 35, and a speaker 36. And a communication unit 37. The CPU 31, primary storage unit 32, secondary storage unit 33, external interface 34, microphone 35, speaker 36, and communication unit 37 are connected to each other via a bus 39.

一次記憶部32は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部33は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。   The primary storage unit 32 is, for example, a volatile memory such as a RAM (Random Access Memory). The secondary storage unit 33 is a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).

二次記憶部33は、プログラム格納領域33A及びデータ格納領域33Bを含む。プログラム格納領域33Aは、一例として、音声信号処理プログラムなどのプログラムを記憶している。データ格納領域33Bは、一例として、音声信号および音声信号処理プログラムを実行している間に生成される中間データなどを記憶する。   The secondary storage unit 33 includes a program storage area 33A and a data storage area 33B. As an example, the program storage area 33A stores a program such as an audio signal processing program. As an example, the data storage area 33B stores an audio signal and intermediate data generated while the audio signal processing program is being executed.

CPU31は、プログラム格納領域33Aから音声信号処理プログラムを読み出して一次記憶部32に展開する。CPU31は、音声信号処理プログラムを実行することで、図1の周波数領域変換部22、第1帯域分割部23、帯域幅決定部24、第2帯域分割部25、音声信号調整部26、時間領域変換部27、及び係数決定部29として動作する。   The CPU 31 reads out the audio signal processing program from the program storage area 33 </ b> A and develops it in the primary storage unit 32. The CPU 31 executes the audio signal processing program, so that the frequency domain converting unit 22, the first band dividing unit 23, the bandwidth determining unit 24, the second band dividing unit 25, the audio signal adjusting unit 26, and the time domain shown in FIG. It operates as a conversion unit 27 and a coefficient determination unit 29.

なお、音声信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部32に展開されてもよい。また、音声信号処理プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部32に展開されてもよい。   Note that a program such as an audio signal processing program may be stored in an external server and expanded in the primary storage unit 32 via a network. Further, a program such as an audio signal processing program may be stored in a non-temporary recording medium such as a DVD (Digital Versatile Disc) and expanded in the primary storage unit 32 via a recording medium reading device.

マイク35は、音声入力部21の一例であり、ユーザが発話した音声及び背景雑音などを検出し、音声信号に変換する。スピーカ36は、音声出力部28の一例であり、音声信号を音声に変換して出力する。通信部37は、音声入力部21及び音声出力部28の一例であり、有線または無線の通信回線を介して音声信号を送受信する。   The microphone 35 is an example of the voice input unit 21 and detects voice uttered by the user, background noise, and the like, and converts them into voice signals. The speaker 36 is an example of the audio output unit 28 and converts an audio signal into audio and outputs the audio. The communication unit 37 is an example of the audio input unit 21 and the audio output unit 28, and transmits and receives audio signals via a wired or wireless communication line.

外部インターフェイス34には外部装置が接続され、外部インターフェイス34は、外部装置とCPU31との間の各種情報の送受信を司る。マイク35、スピーカ36及び通信部37が音声信号処理装置10に含まれている例について説明した。しかしながら、マイク35、スピーカ36及び通信部37の全部または一部は、外部インターフェイス34を介して接続される外部装置であってもよい。   An external device is connected to the external interface 34, and the external interface 34 controls transmission / reception of various information between the external device and the CPU 31. The example in which the microphone 35, the speaker 36, and the communication unit 37 are included in the audio signal processing device 10 has been described. However, all or part of the microphone 35, the speaker 36, and the communication unit 37 may be an external device connected via the external interface 34.

なお、音声信号処理装置10は、例えば、スマートフォンであってよいが、本実施形態は、これに限定されない。例えば、音声信号処理装置10は、携帯電話、タブレット、パーソナルコンピュータなどの音声通信に利用可能な装置であってよい。また、音声信号処理装置10の一部または全部は、マイク35、スピーカ36及び通信部37などと物理的に離隔して、例えば、ネットワークを介して配置されたコンピュータであってよい。   In addition, although the audio | voice signal processing apparatus 10 may be a smart phone, for example, this embodiment is not limited to this. For example, the audio signal processing device 10 may be a device that can be used for audio communication, such as a mobile phone, a tablet, and a personal computer. Moreover, a part or all of the audio signal processing apparatus 10 may be a computer that is physically separated from the microphone 35, the speaker 36, the communication unit 37, and the like, and is disposed, for example, via a network.

ネットワークを介して配置されたコンピュータを音声信号処理装置10とする場合、ネットワークを介して配置されたコンピュータとしてのサーバに音声信号処理プログラムを格納する。マイク35、スピーカ36及び通信部37などを備えたユーザの情報端末で音声信号を取得する。   When the computer arranged via the network is the audio signal processing apparatus 10, the audio signal processing program is stored in a server as a computer arranged via the network. A voice signal is acquired by a user information terminal including a microphone 35, a speaker 36, a communication unit 37, and the like.

情報端末から送信された音声信号を用いてサーバで音声信号処理を行い、音声信号処理の結果などをサーバから通話相手の情報端末に送信する。または、マイク35、スピーカ36及び通信部37などを備えた通話相手の情報端末で音声信号を取得する。情報端末から送信された音声信号を用いてサーバで音声信号処理を行い、音声信号処理の結果などをサーバからユーザの情報端末に送信する。   The audio signal processing is performed by the server using the audio signal transmitted from the information terminal, and the result of the audio signal processing is transmitted from the server to the information terminal of the other party. Alternatively, the voice signal is acquired by the information terminal of the other party having the microphone 35, the speaker 36, the communication unit 37, and the like. The voice signal transmitted from the information terminal is used by the server to perform voice signal processing, and the result of the voice signal processing is transmitted from the server to the user information terminal.

次に、音声信号処理の原理について説明する。図3Aに例示するように、帯域幅WBA2の広帯域音声信号を、所定の第1帯域幅WB1で分割すると、帯域数が多くなり、音声信号処理による負担が増加する。第1帯域幅WB1は、例えば、音声信号を時間領域表現から周波数領域表現に変換する際の周波数分解能であってよい。本実施形態では、図3Bに例示するように、音声信号の低周波数領域を分割する第1帯域幅WB1は変更せず、音声信号の高周波数領域を分割する第2帯域幅WB2を第1帯域幅WB1より広く決定する。これにより、全体として帯域数を低減することで、音声信号処理による負担を低減する。   Next, the principle of audio signal processing will be described. As illustrated in FIG. 3A, when a wideband audio signal having the bandwidth WBA2 is divided by the predetermined first bandwidth WB1, the number of bands increases, and the burden due to the audio signal processing increases. The first bandwidth WB1 may be, for example, a frequency resolution when converting an audio signal from a time domain representation to a frequency domain representation. In this embodiment, as illustrated in FIG. 3B, the first bandwidth WB1 for dividing the low frequency region of the audio signal is not changed, and the second bandwidth WB2 for dividing the high frequency region of the audio signal is changed to the first band. It is determined wider than the width WB1. Thereby, the burden by audio | voice signal processing is reduced by reducing the number of bands as a whole.

音声信号の高周波数領域の重要度は、音声信号の低周波数領域の重要度よりも低い。一般的に、音声の基本周波数などの特徴は、音声信号の低周波数領域に含まれることが多いためである。しかしながら、高周波数領域の重要度によっては、高周波数領域を分割する第2帯域幅WB2を広くして帯域数を低減することで、音声信号処理後の音質が劣化する虞もある。この問題に対処するため、音声信号の高周波数領域の重要度の高さに基づいて、高周波数領域を分割する第2帯域幅WB2を決定する。これにより、音声信号処理後の音質が劣化しないようにすることができる。   The importance of the high frequency region of the audio signal is lower than the importance of the low frequency region of the audio signal. This is because, in general, features such as the fundamental frequency of speech are often included in the low frequency region of the speech signal. However, depending on the importance of the high frequency region, there is a possibility that the sound quality after the audio signal processing is deteriorated by widening the second bandwidth WB2 that divides the high frequency region to reduce the number of bands. In order to cope with this problem, the second bandwidth WB2 for dividing the high frequency region is determined based on the importance of the high frequency region of the audio signal. Thereby, it is possible to prevent the sound quality after the sound signal processing from being deteriorated.

音声信号の高周波数領域の重要度の高さは、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率、高周波数領域のパワーの非定常性、及び、音声信号の基本周波数に基づいて決定される。また、音声信号の高周波数領域の重要度の高さは、音声信号が子音に対応するか否か、に基づいて決定される。音声信号の高周波数領域の重要度の高さは、これらの少なくとも2つの組み合わせに基づいて決定されてもよい。   The importance of the high frequency region of the audio signal is the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region, the unsteadiness of the power in the high frequency region, and the basics of the audio signal. Determined based on frequency. Further, the level of importance of the high frequency region of the audio signal is determined based on whether or not the audio signal corresponds to a consonant. The importance of the high frequency region of the audio signal may be determined based on a combination of at least two of these.

音声信号の高周波数領域の重要度の高さは、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、高くされ、高周波数領域のパワーの非定常性が高くなるにしたがって、高くされる。または、音声信号の高周波数領域の重要度の高さは、音声信号の基本周波数が高くなるにしたがって、高くされ、音声信号が子音に対応する場合に子音に対応しない場合より、高くされる。   The importance of the high frequency region of the audio signal is increased as the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region is increased, and the power in the high frequency region is unsteady. It gets higher as the sex gets higher. Alternatively, the importance of the high frequency region of the audio signal is increased as the fundamental frequency of the audio signal is increased, and is higher when the audio signal corresponds to the consonant than when it does not correspond to the consonant.

本実施形態では、高周波数領域の重要度の高さが、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、高くされる例について説明する。   In the present embodiment, an example will be described in which the importance of the high frequency region is increased as the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region is increased.

次に、音声信号処理装置10の作用について説明する。図4に音声信号処理の一例を示す。例えば、ユーザが音声信号処理装置10の電源をオンすると、CPU31は、ステップ101で、音声信号を1フレーム分読み込む。1フレームは、例えば、20m秒分の音声信号であってよい。音声信号は、マイク35で検出された音声に基づいて変換された音声信号であってもよいし、通信部37で通話相手の情報端末から有線または無線の通信回線を介して受信した音声信号であってもよい。   Next, the operation of the audio signal processing apparatus 10 will be described. FIG. 4 shows an example of audio signal processing. For example, when the user turns on the power of the audio signal processing apparatus 10, the CPU 31 reads an audio signal for one frame in step 101. One frame may be an audio signal for 20 milliseconds, for example. The audio signal may be an audio signal converted based on the audio detected by the microphone 35 or may be an audio signal received by the communication unit 37 from a communication partner information terminal via a wired or wireless communication line. There may be.

CPU31は、ステップ102で、音声信号を時間領域表現から周波数領域表現に変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する音声信号に変換する。以下、ステップ107で、音声信号を周波数領域表現から時間領域表現に変換するまで、周波数領域表現に変換された音声信号を、音声信号と呼ぶ。   In step 102, the CPU 31 converts the audio signal from the time domain representation to the frequency domain representation. For example, using a Fourier transform, an audio signal whose level changes with time is converted into an audio signal whose level changes with frequency. Hereinafter, the audio signal converted into the frequency domain expression until the audio signal is converted from the frequency domain expression to the time domain expression in step 107 is referred to as an audio signal.

CPU31は、ステップ103で、後述する音声信号分析処理を行う。音声信号分析処理で、高周波数領域の重要度の高さが算出される。CPU31は、ステップ104で、後述するように、高周波数領域の重要度の高さが低くなるにしたがって、高周波数領域の帯域数が少なくなり、高周波数領域の重要度の高さが高くなるにしたがって、高周波数領域の帯域数が多くなるように、帯域数を算出する。   In step 103, the CPU 31 performs an audio signal analysis process to be described later. In the audio signal analysis processing, the importance level in the high frequency region is calculated. As described later, the CPU 31 decreases the number of bands in the high frequency region and increases the importance in the high frequency region as the importance level in the high frequency region decreases, as described later. Therefore, the number of bands is calculated so that the number of bands in the high frequency region is increased.

CPU31は、ステップ105で、後述するように、ステップ104で算出された高周波数領域の帯域数で、高周波数領域全体の帯域幅を除算することで、第2帯域幅WB2を算出する。また、CPU31は、後述するように、高周波数領域の第1帯域幅WB1の帯域を併合して第2帯域幅WB2の帯域を生成する。即ち、第2帯域幅WB2の帯域の各々に対応する第1帯域幅の複数の帯域の音声信号の平均値を、当該第2帯域幅WB2の帯域の各々の音声信号とすることで、高周波数領域は、第2帯域幅WB2の帯域に分割される。   In step 105, as will be described later, the CPU 31 calculates the second bandwidth WB2 by dividing the bandwidth of the entire high frequency region by the number of bands of the high frequency region calculated in step 104. Further, as will be described later, the CPU 31 merges the bands of the first bandwidth WB1 in the high frequency region to generate the band of the second bandwidth WB2. That is, the average value of the audio signals of the plurality of bands of the first bandwidth corresponding to each of the bands of the second bandwidth WB2 is set as the audio signal of each of the bands of the second bandwidth WB2, so that the high frequency The region is divided into bands of the second bandwidth WB2.

CPU31は、ステップ106で、後述するように、低周波数領域の第1帯域幅WB1で分割された帯域及び高周波数領域の第2帯域幅WB2で分割された帯域の各々に音声信号調整処理を実行する。CPU31は、ステップ107で、例えば、逆フーリエ変換を使用して、音声信号を周波数領域表現から時間領域表現に変換する。CPU31は、ステップ108で、音声信号を出力する。音声信号は、音声に変換されてスピーカ36から出力されてもよいし、通信部37に出力され、有線または無線の通信回線を介して通話相手の情報端末に送信されてもよい。   In step 106, the CPU 31 executes an audio signal adjustment process in each of the band divided by the first bandwidth WB1 in the low frequency region and the band divided by the second bandwidth WB2 in the high frequency region, as will be described later. To do. In step 107, the CPU 31 converts the audio signal from the frequency domain representation to the time domain representation using, for example, inverse Fourier transform. In step 108, the CPU 31 outputs an audio signal. The voice signal may be converted into voice and output from the speaker 36, or may be output to the communication unit 37 and transmitted to the information terminal of the call partner via a wired or wireless communication line.

CPU31は、ステップ109で、未処理の音声信号が存在するか否か判定する。例えば、ユーザが音声信号処理装置10の電源をオフし、未処理の音声信号が存在しないと判定した場合、CPU31は、音声信号処理を終了する。一方、ステップ109で、未処理の音声信号が存在すると判定した場合、CPU31は、ステップ101に戻る。   In step 109, the CPU 31 determines whether there is an unprocessed audio signal. For example, when the user turns off the power of the audio signal processing apparatus 10 and determines that there is no unprocessed audio signal, the CPU 31 ends the audio signal processing. On the other hand, if it is determined in step 109 that there is an unprocessed audio signal, the CPU 31 returns to step 101.

ステップ103の音声信号分析処理の詳細を図5に例示する。本実施形態では、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、音声信号の高周波数領域の重要度が高くされる例について説明する。   Details of the audio signal analysis processing in step 103 are illustrated in FIG. In the present embodiment, an example will be described in which the importance of the high frequency region of the audio signal is increased as the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region is increased.

CPU31は、ステップ121で、低周波数領域の音声信号のパワーを算出する。まず、図4のステップ102で、音声信号を時間領域表現から周波数領域表現に変換した際の周波数の分解能に対応する第1帯域幅WB1で音声信号全体が帯域に分割されているものとし、帯域の各々にインデックスiを付ける。例えば、音声信号の最大周波数が32000Hzであり、第1帯域幅WB1が31.25Hzである場合、インデックスは、0〜1023(=1024=32000Hz/31.25Hz)である。   In step 121, the CPU 31 calculates the power of the audio signal in the low frequency region. First, in step 102 of FIG. 4, it is assumed that the entire audio signal is divided into bands with a first bandwidth WB1 corresponding to the frequency resolution when the audio signal is converted from the time domain representation to the frequency domain representation. Index i. For example, when the maximum frequency of the audio signal is 32000 Hz and the first bandwidth WB1 is 31.25 Hz, the index is 0 to 1023 (= 1024 = 32000 Hz / 31.25 Hz).

次に、高周波数領域の下限周波数である境界周波数に対応する帯域のインデックスである高周波数領域の下限インデックスHSを定める。例えば、境界周波数を8031.25Hzに設定する場合、高周波数領域の下限インデックスHSは、257(=8031.25Hz/31.25Hz)である。   Next, a lower limit index HS of the high frequency region that is an index of a band corresponding to the boundary frequency that is the lower limit frequency of the high frequency region is determined. For example, when the boundary frequency is set to 8031.25 Hz, the lower limit index HS in the high frequency region is 257 (= 8031.25 Hz / 31.25 Hz).

CPU31は、式(1)に例示するように、低周波数領域の下限インデックスLSから上限インデックスLE(=HS−1)までの帯域の各々の音声信号のパワーP[i]を加算することで、低周波数領域の音声信号のパワーLPを算出する。
As illustrated in Expression (1), the CPU 31 adds the power P [i] of each audio signal in the band from the lower limit index LS to the upper limit index LE (= HS-1) in the low frequency region, The power LP of the audio signal in the low frequency region is calculated.

インデックスiに対応する帯域の音声信号のパワーP[i]は、式(2)に例示するように、インデックスiに対応する帯域の音声信号の実部R[i]の二乗と虚部I[i]の二乗を加算することで算出される。
P[i]=R[i]+I[i] …(2)
例えば、低周波数領域の下限インデックスLSは3(93.75Hz=31.25Hz×3)、上限インデックスLEは256(8000Hz=31.25Hz×256)であってよい。
The power P [i] of the audio signal in the band corresponding to the index i is equal to the square of the real part R [i] of the audio signal in the band corresponding to the index i and the imaginary part I [ i] squared.
P [i] = R [i] 2 + I [i] 2 (2)
For example, the lower limit index LS in the low frequency region may be 3 (93.75 Hz = 31.25 Hz × 3), and the upper limit index LE may be 256 (8000 Hz = 31.25 Hz × 256).

CPU31は、ステップ122で、高周波数領域の音声信号のパワーHPを算出する。高周波数領域の音声信号のパワーHPは、式(3)に例示するように、高周波数領域の下限インデックスHSから高周波数領域の上限インデックスHEまでの帯域の各々の高周波数領域の音声信号のパワーP[i]を加算することで算出される。

例えば、高周波数領域の下限インデックスHSは257(8031.25Hz=31.25Hz×257)、高周波数領域の上限インデックスHEは1023(31968.75Hz=31.25Hz×1023)であってよい。
In step 122, the CPU 31 calculates the power HP of the audio signal in the high frequency region. The power HP of the audio signal in the high frequency region is the power of the audio signal in each high frequency region in the band from the lower limit index HS in the high frequency region to the upper limit index HE in the high frequency region, as illustrated in Expression (3). Calculated by adding P [i].

For example, the lower limit index HS in the high frequency region may be 257 (8031.25 Hz = 31.25 Hz × 257), and the upper limit index HE in the high frequency region may be 1023 (31968.75 Hz = 31.25 Hz × 1023).

CPU31は、ステップ123で、低周波数領域の音声信号のパワーLPに対する高周波数領域の音声信号のパワーHPの比率Hrtを算出する。比率Hrtは、式(4)に例示するように、高周波数領域の音声信号のパワーHPの対数から低周波数領域の音声信号のパワーLPの対数を減算することで算出することができる。
Hrt=10log10HP−10log10LP …(4)
In step 123, the CPU 31 calculates a ratio Hrt of the power HP of the audio signal in the high frequency region to the power LP of the audio signal in the low frequency region. The ratio Hrt can be calculated by subtracting the logarithm of the power LP of the audio signal in the low frequency region from the logarithm of the power HP of the audio signal in the high frequency region, as illustrated in Expression (4).
Hrt = 10 log 10 HP- 10 log 10 LP (4)

次に、図4のステップ104の詳細について説明する。ステップ104では、ステップ103で算出した低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率Hrtに基づいて、図7に例示する高周波数領域の帯域数Hnmを算出する。比率Hrtが大きくなるにしたがって、高周波数領域の重要度は高くなる。したがって、比率Hrtが大きくなるにしたがって、帯域数Hnmが大きくなるように設定する。即ち、比率Hrtが大きくなるにしたがって、高周波数領域の帯域の各々の帯域幅である第2帯域幅WB2は狭くなり、第1帯域幅WB1に近付く。第2帯域幅WB2については後述する。   Next, details of step 104 in FIG. 4 will be described. In step 104, the number of bands Hnm in the high frequency region illustrated in FIG. 7 is calculated based on the ratio Hrt of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region calculated in step 103. As the ratio Hrt increases, the importance of the high frequency region increases. Therefore, the band number Hnm is set to increase as the ratio Hrt increases. That is, as the ratio Hrt increases, the second bandwidth WB2 that is the bandwidth of each band in the high frequency region becomes narrower and approaches the first bandwidth WB1. The second bandwidth WB2 will be described later.

詳細には、例えば、式(5)〜式(7)を使用して、比率Hrtに基づいて、高周波数領域の帯域数Hnmを取得する。式(5)〜式(7)の比率Hrtと高周波数領域の帯域数Hnmとの関係を図6に例示する。図6では、横軸に比率Hrt、縦軸に高周波数領域の帯域数Hnmが示されている。
Hnm=Hnmn Hrt<HrtLの場合 …(5)
Hnm=Hnmn+
((Hnmx−Hnmn)/(HrtH−HrtL))×(Hrt−HrtL)
HrtL≦Hrt<HrtHの場合 …(6)
Hnm=Hnmx Hrt≧HrtHの場合 …(7)
Specifically, for example, the number of bands Hnm in the high frequency region is acquired based on the ratio Hrt using Equations (5) to (7). FIG. 6 illustrates the relationship between the ratio Hrt of Expressions (5) to (7) and the number of bands Hnm in the high frequency region. In FIG. 6, the horizontal axis represents the ratio Hrt, and the vertical axis represents the number of bands Hnm in the high frequency region.
When Hnm = Hnmn Hrt <HrtL (5)
Hnm = Hnmn +
((Hnmx−Hnmn) / (HrtH−HrtL)) × (Hrt−HrtL)
When HrtL ≦ Hrt <HrtH (6)
When Hnm = HnmxHrt ≧ HrtH (7)

例えば、併合前の高周波数領域の帯域数が256(=HE−HS+1)である場合、Hnmx=256、Hnmn=1、HrtH=−10[dB]、HrtL=−50[dB]であってよい。   For example, when the number of bands in the high frequency region before merging is 256 (= HE−HS + 1), Hnmx = 256, Hnmn = 1, HrtH = −10 [dB], and HrtL = −50 [dB]. .

次に、図4のステップ105の帯域併合処理の詳細について説明する。ステップ105の帯域併合処理では、図8A及び図8Bに例示するように、高周波数領域の音声信号を、ステップ104で算出した高周波数領域の帯域数Hnmの帯域に分割するため、第1帯域幅WB1で分割された帯域を併合帯域数N毎に併合する。併合帯域数Nは、高周波数領域の重要度の高さに基づいて決定される係数の一例である。   Next, details of the band merging process in step 105 of FIG. 4 will be described. In the band merging process in step 105, as illustrated in FIG. 8A and FIG. 8B, the first bandwidth is used to divide the audio signal in the high frequency region into the band of the number of high frequency regions Hnm calculated in step 104. The bands divided by WB1 are merged every merged band number N. The number N of merged bands is an example of a coefficient that is determined based on the importance of the high frequency region.

詳細には、CPU31は、図9のステップ131で、併合帯域数Nを算出する。併合帯域数Nは、高周波数領域の重要度の高さが高くなるに従って小さくなり、最も小さい場合1となるように決定される。詳細には、式(8)に例示するように、高周波数領域の上限インデックスから下限インデックスを減算し1加算した値、即ち、高周波数領域のインデックス数を、帯域数Hnmで除算することで、併合帯域数Nを算出する。
N=(HE−HS+1)/Hnm …(8)
Nは、四捨五入、切り上げ、または、切り下げで、整数の値とする。
Specifically, the CPU 31 calculates the number N of merged bands in step 131 of FIG. The number N of merged bands is determined so as to decrease as the importance of the high frequency region increases, and to be 1 when the importance is the lowest. Specifically, as illustrated in Equation (8), a value obtained by subtracting the lower limit index from the upper limit index in the high frequency region and adding one, that is, the index number in the high frequency region is divided by the number of bands Hnm. The number N of merged bands is calculated.
N = (HE−HS + 1) / Hnm (8)
N is rounded up, rounded up, or rounded down to an integer value.

即ち、高周波数領域は、第2帯域幅WB2(=第1帯域幅WB1×併合帯域数N)で、帯域数Hnmの帯域に分割される。次に、併合前のN個の帯域の音声信号の平均値を対応する併合後の帯域の音声信号として設定する。   That is, the high frequency region is divided into bands of the number of bands Hnm by the second bandwidth WB2 (= first bandwidth WB1 × number of merged bands N). Next, the average value of the audio signals in N bands before merging is set as the corresponding audio signal in the band after merging.

CPU31は、ステップ132で、併合後の帯域数をカウントする変数jに0を設定する。CPU31は、ステップ133で、変数jに1を加算する。CPU31は、ステップ134で、併合される帯域数をカウントする変数kに0を設定する。CPU31は、ステップ135で、併合される帯域の先頭帯域のインデックスmを算出する。インデックスmは、式(9)に例示するように、高周波数領域の下限インデックスと、変数jから1を減算した値に、併合帯域数Nを乗算した値と、を加算することで、算出される。
m=HS+(j−1)×N …(9)
In step 132, the CPU 31 sets 0 to a variable j for counting the number of bands after merging. In step 133, the CPU 31 adds 1 to the variable j. In step 134, the CPU 31 sets 0 to a variable k that counts the number of bands to be merged. In step 135, the CPU 31 calculates the index m of the head band of the bands to be merged. The index m is calculated by adding the lower limit index in the high frequency region and the value obtained by subtracting 1 from the variable j and the value obtained by multiplying the number of merge bands N, as illustrated in Expression (9). The
m = HS + (j−1) × N (9)

CPU31は、ステップ136で、N個分の併合前の帯域の音声信号の実部の累積を記憶する変数tR及びN個分の併合前の帯域の音声信号の虚部の累積を記憶する変数tIに0を設定する。CPU31は、ステップ137で、変数kに1を加算する。CPU31は、ステップ138で、インデックスm+k−1に対応する帯域の音声信号の実部R[m+k−1]を変数tRに加算し、インデックスm+k−1に対応する帯域の音声信号の虚部I[m+k−1]を変数tIに加算する。   In step 136, the CPU 31 stores a variable tR that stores the accumulation of the real part of the audio signal in the band before N merges and a variable tI that stores the accumulation of the imaginary part of the audio signal in the band before N merges. Set to 0. In step 137, the CPU 31 adds 1 to the variable k. In step 138, the CPU 31 adds the real part R [m + k−1] of the audio signal in the band corresponding to the index m + k−1 to the variable tR, and the imaginary part I [ m + k−1] is added to the variable tI.

CPU31は、ステップ139で、変数kが併合帯域数Nより小さく、かつ、インデックスmに変数kを加算した値が高周波数領域の上限インデックスより小さいか否か判定する。判定が肯定された場合、即ち、併合帯域数分の帯域がまだ併合されておらず、かつ、未処理のインデックスに対応する帯域がまだ存在する場合、CPU31は、ステップ137に戻る。一方、ステップ139の判定が否定された場合、即ち、併合帯域数分の帯域が併合されたか、または、未処理のインデックスに対応する帯域が存在しなくなった場合、CPU31はステップ140に進む。   In step 139, the CPU 31 determines whether or not the variable k is smaller than the merged band number N and the value obtained by adding the variable k to the index m is smaller than the upper limit index in the high frequency region. If the determination is affirmative, that is, if the bands corresponding to the number of merged bands have not yet been merged and there is still a band corresponding to an unprocessed index, the CPU 31 returns to step 137. On the other hand, if the determination in step 139 is negative, that is, if the bands corresponding to the number of merged bands have been merged, or if there is no band corresponding to the unprocessed index, the CPU 31 proceeds to step 140.

CPU31は、ステップ140で、式(10}に例示するように、変数tRに累積された音声信号の実部の値を併合帯域数Nで除算して、累積された音声信号の実部の値の平均値を算出し、算出した平均値をmR[LE+j]に記憶する。
mR[LE+j]=tR/N …(10)
In step 140, the CPU 31 divides the value of the real part of the audio signal accumulated in the variable tR by the number N of merge bands as illustrated in the equation (10), and the value of the real part of the accumulated audio signal. Is calculated, and the calculated average value is stored in mR [LE + j].
mR [LE + j] = tR / N (10)

また、CPU31は、式(11)に例示するように、変数tIに累積された音声信号の虚部の値を併合帯域数Nで除算して、累積された音声信号の虚部の値の平均値を算出し、算出した平均値をmI[LE+j]に記憶する。
mI[LE+j]=tI/N …(11)
Further, as illustrated in the equation (11), the CPU 31 divides the value of the imaginary part of the audio signal accumulated in the variable tI by the merged band number N, and averages the value of the imaginary part of the accumulated audio signal. The value is calculated, and the calculated average value is stored in mI [LE + j].
mI [LE + j] = tI / N (11)

CPU31は、ステップ141で、変数jが高周波数領域の帯域数Hnmを越えたか否か判定し、判定が否定された場合、即ち、まだ併合されていない帯域が高周波数領域に存在する場合、CPU31は、ステップ133に戻る。一方、判定が肯定された場合、即ち、併合されていない帯域が高周波数領域に存在しない場合、CPU31は、帯域併合処理を終了する。   In step 141, the CPU 31 determines whether or not the variable j has exceeded the number of bands Hnm in the high frequency region. If the determination is negative, that is, if a band that has not yet been merged exists in the high frequency region, the CPU 31. Returns to step 133. On the other hand, if the determination is affirmative, that is, if a band that has not been merged does not exist in the high frequency region, the CPU 31 ends the band merge process.

なお、高周波数領域の併合帯域数Nが1である場合については、図9のステップ132〜ステップ141の処理を行う代わりに、式(12)及び式(13)に例示するように、mR[p]に音声信号の実部R[p]を記憶し、mI[p]に虚部I[p]を記憶すればよい。pは併合後の帯域のインデックスに相当するが、併合帯域数Nが1である場合、pは高周波数領域の下限インデックスHS〜上限インデックスHEまで1ずつ増加する。
mR[p]=R[p] …(12)
mI[p]=I[p] …(13)
帯域併合を行わない低周波数領域でも、上記と同様に、mR[p]に音声信号の実部R[p]を記憶し、mI[p]に虚部I[p]を記憶する。低周波数領域では、pは低周波数領域の下限インデックスLS〜上限インデックスLEまで1ずつ増加する。
In the case where the number N of merged bands in the high frequency region is 1, instead of performing the processing from step 132 to step 141 in FIG. 9, as illustrated in equations (12) and (13), mR [ The real part R [p] of the audio signal may be stored in p], and the imaginary part I [p] may be stored in mI [p]. p corresponds to the index of the band after merging, but when the number N of merging bands is 1, p increases by 1 from the lower limit index HS to the upper limit index HE in the high frequency region.
mR [p] = R [p] (12)
mI [p] = I [p] (13)
Even in the low-frequency region where band merging is not performed, the real part R [p] of the audio signal is stored in mR [p] and the imaginary part I [p] is stored in mI [p], as described above. In the low frequency region, p increases by 1 from the lower limit index LS to the upper limit index LE in the low frequency region.

次に、図4のステップ106の音声信号調整処理について説明する。図10にステップ106の音声信号調整処理の詳細を例示する。音声信号調整処理では、高周波数領域の帯域を併合した後の帯域毎にゲインを算出し、併合前の帯域にゲインを配分し、併合前の帯域毎にゲインを適用することで、調整された音声信号を取得する。CPU31は、ステップ151で、変数pに0を設定する。   Next, the audio signal adjustment process in step 106 of FIG. 4 will be described. FIG. 10 illustrates details of the audio signal adjustment processing in step 106. In the audio signal adjustment processing, the gain is calculated for each band after merging the bands in the high frequency region, the gain is distributed to the band before merging, and the gain is applied to each band before merging. Acquire an audio signal. In step 151, the CPU 31 sets 0 to the variable p.

CPU31は、ステップ152で、変数pに1を加算し、ステップ153で、併合後の帯域の音声信号mR[p]及びmI[p]に、既知の手法を適用して、併合後の帯域毎の騒音抑圧ゲインGを算出する。CPU31は、ステップ154で、併合後の帯域毎の騒音抑圧ゲインGを対応する併合前のN個の帯域の各々に分配する。   In step 152, the CPU 31 adds 1 to the variable p. In step 153, the CPU 31 applies a known technique to the audio signals mR [p] and mI [p] of the merged bands, and sets each band after the merge. The noise suppression gain G is calculated. In step 154, the CPU 31 distributes the noise suppression gain G for each band after merging to each of the corresponding N bands before merging.

図11Aに例示するように、併合後の帯域の騒音抑圧ゲインGがgである場合、図11Bに例示するように、対応する併合前のN個の帯域の騒音抑圧ゲインGはgに設定される。CPU31は、ステップ155で、併合前の帯域毎の音声信号に騒音抑圧ゲインGを適用することで、騒音を抑圧した音声信号を算出する。CPU31は、ステップ156で、pが低域周波数領域の帯域数Lnm(=LE−LS+1)と高域周波数領域の併合後の帯域数Hnmとの和、即ち、併合後の全帯域数より小さいか否か判定する。ステップ156の判定が肯定された場合、即ち、併合後の帯域の全てについて処理が終了していない場合、CPU31は、ステップ152に戻る。一方、ステップ156の判定が否定された場合、即ち、併合後の帯域の全てについて処理が終了した場合、CPU31は、音声信号調整処理を終了する。   As illustrated in FIG. 11A, when the noise suppression gain G in the band after merging is g, as shown in FIG. 11B, the corresponding noise suppression gains G in the N bands before merging are set to g. The In step 155, the CPU 31 calculates a sound signal in which noise is suppressed by applying the noise suppression gain G to the sound signal for each band before merging. In step 156, the CPU 31 determines whether p is less than the sum of the number of bands Lnm (= LE-LS + 1) in the low frequency range and the number of bands Hnm after merging in the high frequency range, ie, the total number of bands after merging. Judge whether or not. If the determination in step 156 is affirmative, that is, if the processing has not been completed for all the bands after merging, the CPU 31 returns to step 152. On the other hand, when the determination in step 156 is negative, that is, when the processing is completed for all the bands after merging, the CPU 31 ends the audio signal adjustment processing.

なお、音声信号調整処理の一例として、騒音抑圧処理を行う例を使用したが、本実施形態はこれに限定されない。例えば、エコー抑圧処理、または音声強調処理などが行われてもよい。   In addition, although the example which performs a noise suppression process was used as an example of an audio | voice signal adjustment process, this embodiment is not limited to this. For example, echo suppression processing or speech enhancement processing may be performed.

図12Aに例示する帯域幅WBA1の音声信号を第1帯域幅WB1で分割すると帯域数はWBA1/WB1となる。一方、図12Bに例示する帯域幅WBA2の音声信号を第1帯域幅WB1で分割すると帯域数はWBA2/WB1となる。即ち、帯域幅WBA2の音声信号の帯域数はWBA2/WBA1となり、音声信号の帯域幅が広くなるにしたがって、帯域数も増大する。   When the audio signal having the bandwidth WBA1 illustrated in FIG. 12A is divided by the first bandwidth WB1, the number of bands becomes WBA1 / WB1. On the other hand, when the audio signal having the bandwidth WBA2 illustrated in FIG. 12B is divided by the first bandwidth WB1, the number of bands becomes WBA2 / WB1. That is, the number of bands of the audio signal with the bandwidth WBA2 is WBA2 / WBA1, and the number of bands increases as the bandwidth of the audio signal becomes wider.

音声信号の帯域幅、即ち、サンプリング周波数を増大することで、高音質化を実現することができる。しかしながら、上記したように、帯域数も増大し、騒音抑圧処理などの音声信号調整処理の負担が増大する。音声信号調整処理による負担を低減するためには、音声信号を分割する帯域幅を広くして、帯域数を低減すればよい。   Higher sound quality can be achieved by increasing the bandwidth of the audio signal, that is, the sampling frequency. However, as described above, the number of bands also increases, and the burden of audio signal adjustment processing such as noise suppression processing increases. In order to reduce the burden caused by the audio signal adjustment processing, the bandwidth for dividing the audio signal may be widened to reduce the number of bands.

しかしながら、一般的に、音声信号の低周波数領域は、音声の基本周波数などの特徴を含むため、分割する帯域幅を広くして帯域数を低減することは、音声信号処理後の音質を劣化させる原因となり得る。したがって、本実施形態では、図12Cに例示するように、音声信号の高周波数領域を分割する第2帯域幅WB2を、低周波数領域を分割する第1帯域幅WB1より広くして、高周波数領域の帯域数を低減することで、音声信号全体として帯域数を低減する。   However, in general, since the low frequency region of an audio signal includes features such as the fundamental frequency of the audio, reducing the number of bands by widening the divided bandwidth deteriorates the sound quality after the audio signal processing. It can be a cause. Therefore, in this embodiment, as illustrated in FIG. 12C, the second bandwidth WB2 for dividing the high frequency region of the audio signal is made wider than the first bandwidth WB1 for dividing the low frequency region, so that the high frequency region is divided. By reducing the number of bands, the number of bands as a whole audio signal is reduced.

しかしながら、高周波数領域の重要度によっては、高周波数領域を分割する第2帯域幅WB2を広くして帯域数を低減することで、音声信号処理後の音質が劣化する虞もある。この問題に対処するため、音声信号の高周波数領域の重要度の高さに基づいて、高周波数領域を分割する第2帯域幅WB2を決定する。即ち、高周波数領域の重要度の高さが高くなるにしたがって狭くなるように、第1帯域幅WB1以上の帯域幅である第2帯域幅WB2を決定する。これにより、音声信号処理後の音質が劣化しないようにすることができる。   However, depending on the importance of the high frequency region, there is a possibility that the sound quality after the audio signal processing is deteriorated by widening the second bandwidth WB2 that divides the high frequency region to reduce the number of bands. In order to cope with this problem, the second bandwidth WB2 for dividing the high frequency region is determined based on the importance of the high frequency region of the audio signal. That is, the second bandwidth WB2 that is a bandwidth equal to or larger than the first bandwidth WB1 is determined so as to become narrower as the importance of the high frequency region becomes higher. Thereby, it is possible to prevent the sound quality after the sound signal processing from being deteriorated.

本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。   In the present embodiment, the first band dividing unit divides the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with the first bandwidth. The bandwidth determination unit determines a second bandwidth equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. decide. The second band dividing unit divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit. The audio signal adjustment unit executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands.

本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。   In the present embodiment, it is possible to reduce the burden due to the audio signal processing without deteriorating the sound quality in the wideband audio signal processing.

[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。第2実施形態は、図4のステップ103の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くされる点で第1実施形態と異なる。また、第2実施形態は、ステップ104で高周波数領域の帯域数を算出する際に、音声信号のパワーの非定常性に基づいて高周波数領域の帯域数を算出する点で、第1実施形態と異なる。
[Second Embodiment]
Next, an example of the second embodiment will be described. The description of the same configuration and operation as in the first embodiment will be omitted. In the second embodiment, in the audio signal analysis processing in step 103 of FIG. 4, the importance of the high frequency region of the audio signal increases as the power nonstationarity of the audio signal in the high frequency region increases. This is different from the first embodiment. In the second embodiment, when the number of bands in the high frequency region is calculated in step 104, the number of bands in the high frequency region is calculated based on the unsteadiness of the power of the audio signal. And different.

図4のステップ103の第2実施形態における詳細を図13に例示する。CPU31は、ステップ161で、第1帯域幅WB1で分割された帯域毎の高周波数領域のパワーP[hi](hi=HS,…,HE)を算出する。パワーP[hi]の算出については、上述したパワーP[i]の算出と同様であるため、説明を省略する。CPU31は、ステップ162で、帯域毎の高周波数領域の平均パワーPav[hi]を更新する。   Details of the second embodiment of step 103 in FIG. 4 are illustrated in FIG. In step 161, the CPU 31 calculates the power P [hi] (hi = HS,..., HE) in the high frequency region for each band divided by the first bandwidth WB1. Since the calculation of the power P [hi] is the same as the calculation of the power P [i] described above, the description thereof is omitted. In step 162, the CPU 31 updates the average power Pav [hi] in the high frequency region for each band.

平均パワーPav[hi]は、式(14)に例示するように、インデックスhiに対応する帯域の音声信号の1つ前のフレームまでの平均パワーPavB[hi]に1から現フレームの寄与係数c1を減算した値を乗算した値と、インデックスhiに対応する帯域の音声信号のパワーP[hi]に現フレームの寄与係数c1を乗算した値と、を加算することで取得することができる。
Pav[hi]=(1−c1)*PavB[hi]+c1×P[hi] …(14)
The average power Pav [hi] is calculated from 1 to the contribution coefficient c1 of the current frame from 1 to the average power PavB [hi] up to the previous frame of the audio signal in the band corresponding to the index hi, as illustrated in Expression (14). Can be obtained by adding the value obtained by multiplying the value obtained by subtracting the value and the value obtained by multiplying the power P [hi] of the audio signal in the band corresponding to the index hi by the contribution coefficient c1 of the current frame.
Pav [hi] = (1-c1) * PavB [hi] + c1 × P [hi] (14)

寄与係数c1は、0〜1の値であり、例えば、0.01であってよい。また、最初のフレームについて平均パワーPav[hi]を計算する場合の、1つ前のフレームの平均パワーPavB[hi]は0[dB]としてもよい。   The contribution coefficient c1 is a value between 0 and 1, for example, 0.01. Further, when the average power Pav [hi] is calculated for the first frame, the average power PavB [hi] of the previous frame may be set to 0 [dB].

CPU31は、ステップ163で、高周波数領域のパワーの非定常性Hstを算出する。高周波数領域のパワーの非定常性Hstは、式(15)に例示するように算出することができる。式(15)では、まず、パワーP[hi]から平均パワーPav[hi]を減算した値の絶対値を、高周波数領域の下限インデックスHSから上限インデックスHEまで加算する。加算した値を、上限インデックスHEから下限インデックスHSを減算し1を加算した値、即ち、高周波数領域のインデックス数で除算した値の対数が非定常性Hstである。
In step 163, the CPU 31 calculates the power non-stationarity Hst in the high frequency region. The unsteadiness Hst of the power in the high frequency region can be calculated as illustrated in the equation (15). In equation (15), first, the absolute value of the value obtained by subtracting the average power Pav [hi] from the power P [hi] is added from the lower limit index HS to the upper limit index HE in the high frequency region. The logarithm of the value obtained by subtracting the lower limit index HS from the upper limit index HE and adding 1 to the added value, that is, the value obtained by dividing the added value by the number of indexes in the high frequency region is the nonstationary Hst.

次に、図4のステップ104の詳細について説明する。本実施形態のステップ104では、ステップ103で算出した高周波数領域のパワーの非定常性Hstに基づいて、図14に例示する高周波数領域の帯域数Hnmを算出する。非定常性Hstが高くなるにしたがって、高周波数領域の重要度は高くなる。したがって、非定常性Hstが高くなるにしたがって、帯域数Hnmが大きくなるように設定する。即ち、非定常性Hstが高くなるにしたがって、高周波数領域の帯域の各々の帯域幅である第2帯域幅WB2は狭くなる。   Next, details of step 104 in FIG. 4 will be described. In step 104 of the present embodiment, the number of bands Hnm in the high frequency region illustrated in FIG. 14 is calculated based on the power nonstationarity Hst in the high frequency region calculated in step 103. As the nonstationary Hst increases, the importance of the high frequency region increases. Therefore, the band number Hnm is set to increase as the non-stationary property Hst increases. That is, as the non-stationary property Hst increases, the second bandwidth WB2 that is the bandwidth of each band in the high frequency region becomes narrower.

ステップ104では、ステップ103で算出した高周波数領域のパワーの非定常性Hstに基づいて、高周波数領域の帯域数Hnmを算出する。詳細には、例えば、式(16)〜式(18)を使用して、高周波数領域の帯域数Hnmを取得する。式(16)〜式(18)の高周波数領域の音声信号のパワーの非定常性Hstと高周波数領域の帯域数Hnmの関係を図14に例示する。   In step 104, the number of bands Hnm in the high frequency region is calculated based on the non-stationarity Hst of the power in the high frequency region calculated in step 103. Specifically, for example, the number of bands Hnm in the high frequency region is acquired using Expressions (16) to (18). FIG. 14 illustrates the relationship between the non-stationary power Hst of the audio signal in the high frequency region and the number of bands Hnm in the high frequency region in Expression (16) to Expression (18).

図14では、横軸に高周波数領域の音声信号のパワーの非定常性Hst、縦軸に高周波数領域の帯域数Hnmが示されている。
Hnm=Hnmn Hst<HstLの場合 …(16)
Hnm=Hnmn+
((Hnmx−Hnmn)/(HstH−HstL))×(Hst−HstL)
HstL≦Hst<HstHの場合 …(17)
Hnm=Hnmx Hst≧HstHの場合 …(18)
In FIG. 14, the horizontal axis represents the unsteadiness Hst of the power of the audio signal in the high frequency region, and the vertical axis represents the number of bands Hnm in the high frequency region.
When Hnm = Hnmn Hst <HstL (16)
Hnm = Hnmn +
((Hnmx−Hnmn) / (HstH−HstL)) × (Hst−HstL)
When HstL ≦ Hst <HstH (17)
When Hnm = HnmxHst ≧ HstH (18)

例えば、併合前の高周波数領域の帯域数が256(=HE−HS+1)である場合、Hnmx=256、Hnmn=1、HstH=6[dB]、HstL=1[dB]であってよい。   For example, when the number of bands in the high frequency region before merging is 256 (= HE−HS + 1), Hnmx = 256, Hnmn = 1, HstH = 6 [dB], and HstL = 1 [dB].

本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。   In the present embodiment, the first band dividing unit divides the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with the first bandwidth. The bandwidth determination unit determines a second bandwidth equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. decide. The second band dividing unit divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit. The audio signal adjustment unit executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands.

本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。   In the present embodiment, it is possible to reduce the burden due to the audio signal processing without deteriorating the sound quality in the wideband audio signal processing.

[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態または第2実施形態と同様の構成及び作用については、説明を省略する。第3実施形態は、図4のステップ103の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、音声信号の基本周波数が高くなるにしたがって高くされる点で、第1実施形態または第2実施形態と異なる。また、第3実施形態は、ステップ104で高周波数領域の帯域数を算出する際に、音声信号の基本周波数の高さに基づいて高周波数領域の帯域数を算出する点で、第1実施形態または第2実施形態と異なる。
[Third Embodiment]
Next, an example of the third embodiment will be described. The description of the same configuration and operation as those in the first embodiment or the second embodiment is omitted. The third embodiment is the first embodiment in that the importance of the high frequency region of the audio signal is increased as the fundamental frequency of the audio signal is increased in the audio signal analysis processing of step 103 in FIG. It differs from the form or the second embodiment. Further, in the third embodiment, when the number of bands in the high frequency region is calculated in step 104, the number of bands in the high frequency region is calculated based on the height of the fundamental frequency of the audio signal. Or, it is different from the second embodiment.

図4のステップ103の本実施形態における詳細を図15に例示する。CPU31は、ステップ171で後述する音声有無判定処理を実行する。ステップ172で、ステップ171の音声有無判定処理の結果に基づいて、音声の有無を判定する。ステップ172の判定が否定された場合、即ち、音声信号がユーザの発話による音声を含まないと判定された場合、音声信号分析処理を終了する。音声信号がユーザの発話による音声を含まない、即ち、雑音であれば、基本周波数を算出する必要はないためである。   Details of step 103 of FIG. 4 in this embodiment are illustrated in FIG. In step 171, the CPU 31 executes a voice presence / absence determination process described later. In step 172, the presence or absence of sound is determined based on the result of the sound presence / absence determination process in step 171. If the determination in step 172 is negative, that is, if it is determined that the voice signal does not include the voice of the user's utterance, the voice signal analysis process ends. This is because it is not necessary to calculate the fundamental frequency if the voice signal does not include the voice of the user's speech, that is, if it is noise.

一方、ステップ172の判定が肯定された場合、即ち、音声信号がユーザの発話による音声を含むと判定された場合、CPU31は、ステップ173で、後述する基本周波数算出処理を実行することで、基本周波数Bを算出する。CPU31は、ステップ174で、基本周波数の平均Bavを更新する。基本周波数の平均Bavは、式(19)に例示するように、1から寄与係数c2を減算した値に1つ前のフレームまでの基本周波数の平均Bavを乗算した値と、寄与係数c2に現フレームの基本周波数Bを乗算した値と、を加算した値で、更新することができる。
Bav=(1−c2)*BavB+c2*B …(19)
On the other hand, if the determination in step 172 is affirmative, that is, if it is determined that the audio signal includes the voice of the user's utterance, the CPU 31 executes the basic frequency calculation process described later in step 173, thereby The frequency B is calculated. In step 174, the CPU 31 updates the average Bav of the fundamental frequency. The average Bav of the fundamental frequency is calculated by multiplying the value obtained by subtracting the contribution coefficient c2 from 1 and the average Bav of the fundamental frequency up to the previous frame, and the contribution coefficient c2, as illustrated in Expression (19). It can be updated with a value obtained by adding the value obtained by multiplying the basic frequency B of the frame.
Bav = (1-c2) * BavB + c2 * B (19)

基本周波数の平均Bavを最初に更新する際の1つ前のフレームまでの基本周波数の平均BavBは、300[Hz]であってよい。寄与係数c2は、現フレームの基本周波数の基本周波数の平均Bavへの寄与係数であり、寄与係数c2は、0〜1であってよく、例えば、0.01であってよい。   The average BavB of the fundamental frequency up to the previous frame when the average Bav of the fundamental frequency is updated for the first time may be 300 [Hz]. The contribution coefficient c2 is a contribution coefficient to the average Bav of the fundamental frequencies of the current frame, and the contribution coefficient c2 may be 0 to 1, for example, 0.01.

図16に、図15のステップ171の音声有無判定処理の詳細を例示する。CPU31は、ステップ181で、音声信号のパワーPAを算出する。音声信号のパワーPAは、式(20)に例示するように、インデックスiに対応する帯域の音声信号のパワーP[i]をインデックス0からインデックスHE、即ち、高周波数領域の上限インデックスまで加算した値である。
FIG. 16 illustrates details of the voice presence / absence determination processing in step 171 of FIG. In step 181, the CPU 31 calculates the power PA of the audio signal. The power PA of the audio signal is obtained by adding the power P [i] of the audio signal in the band corresponding to the index i from the index 0 to the index HE, that is, the upper limit index in the high frequency region, as illustrated in Expression (20). Value.

CPU31は、ステップ182で、ノイズのパワー仮平均tNavを算出する。ノイズのパワー仮平均tNavは、式(21)に例示するように、1から寄与係数c3を減算した値に1つ前のフレームまでのノイズの平均NavBを乗算した値と、寄与係数c3に音声信号のパワーPAを乗算した値と、を加算して算出することができる。
tNav=(1−c3)×NavB+c3×PA …(21)
寄与係数c3は、現在のフレームの音声信号のノイズのパワー仮平均tNavへの寄与を表す寄与係数であり、寄与係数c3は、0〜1であってよく、例えば、0.01であってよい。音声信号がユーザの発話による音声を含まないと判定されるフレームが出現するまで、tNavを算出する場合、NavBは40[dB]であってよい。
In step 182, the CPU 31 calculates the noise power temporary average tNav. As illustrated in Expression (21), the noise power temporary average tNav is obtained by multiplying the value obtained by subtracting the contribution coefficient c3 from 1 and the noise average NavB up to the previous frame, and the contribution coefficient c3 to the voice. It can be calculated by adding the value obtained by multiplying the signal power PA.
tNav = (1-c3) × NavB + c3 × PA (21)
The contribution coefficient c3 is a contribution coefficient representing the contribution of noise of the audio signal of the current frame to the power temporary average tNav, and the contribution coefficient c3 may be 0 to 1, for example, 0.01. . When calculating tNav until a frame in which it is determined that the audio signal does not include the voice of the user's speech appears, NavB may be 40 [dB].

CPU31は、ステップ183で、音声信号のパワーPAとノイズのパワー仮平均tNavとの差が閾値Th1を越えるか否か判定する。Th1は、例えば、6[dB]であってよい。ステップ183の判定が肯定された場合、CPU31は、ステップ184で、フラグVFに音声信号が発話による音声を含むことを表す値1を設定し、音声有無判定処理を終了する。ステップ183の判定は、音声信号のパワーPAとノイズのパワー仮平均tNavとの差が閾値Th1を越えて、音声信号がユーザの発話による音声を含むと判定された場合、肯定される。   In step 183, the CPU 31 determines whether or not the difference between the audio signal power PA and the noise power temporary average tNav exceeds a threshold Th1. Th1 may be 6 [dB], for example. When the determination in step 183 is affirmed, in step 184, the CPU 31 sets the flag VF to a value 1 indicating that the voice signal includes voice due to speech, and ends the voice presence / absence determination process. The determination in step 183 is affirmed when the difference between the power PA of the audio signal and the temporary power average tNav of the noise exceeds the threshold value Th1 and it is determined that the audio signal includes the voice of the user's utterance.

ステップ183の判定が否定された場合、CPU31は、ステップ185でフラグVFに音声信号がユーザの発話による音声を含まないことを表す値0を設定する。ステップ183の判定は、音声信号のパワーPAとノイズのパワー仮平均tNavとの差が閾値Th1以下である場合、音声信号はユーザの発話による音声を含まないと判定し、否定される。CPU31は、ステップ186で、ノイズのパワー平均Navにステップ182で算出したノイズのパワー仮平均tNavを設定し、音声有無判定処理を終了する。現フレームはユーザの発話による音声を含まないノイズを表す音声信号のフレームであるためである。   When the determination in step 183 is negative, the CPU 31 sets a value 0 indicating that the voice signal does not include the voice of the user's utterance in the flag VF in step 185. If the difference between the power PA of the audio signal and the noise power temporary average tNav is equal to or less than the threshold value Th1, the determination in step 183 determines that the audio signal does not include the audio from the user's speech, and is denied. In step 186, the CPU 31 sets the noise power temporary average tNav calculated in step 182 to the noise power average Nav, and ends the voice presence / absence determination process. This is because the current frame is a frame of a voice signal that represents noise that does not include voice generated by the user's speech.

なお、図15のステップ172では、フラグVFに値1が設定されている場合に、音声信号がユーザの発話による音声を含むと判定し、フラグVFに値0が設定されている場合に、音声信号がユーザの発話による音声を含まないと判定する。   In step 172 of FIG. 15, when the value 1 is set in the flag VF, it is determined that the audio signal includes the voice of the user's utterance, and when the value 0 is set in the flag VF, It is determined that the signal does not include the voice of the user's utterance.

図17に、図15のステップ173の基本周波数算出処理の詳細を例示する。CPU31は、ステップ191で、音声信号のパワーP[i]を算出する。音声信号のパワーP[i]の算出については、上述したため、説明を省略する。CPU31は、ステップ192で、自己相関SRを算出する。自己相関SRは、パワーP[i]のスペクトルに逆フーリエ変換を実行することで、算出することができる。   FIG. 17 illustrates details of the fundamental frequency calculation process in step 173 of FIG. In step 191, the CPU 31 calculates the power P [i] of the audio signal. Since the calculation of the power P [i] of the audio signal has been described above, the description thereof is omitted. In step 192, the CPU 31 calculates an autocorrelation SR. Autocorrelation SR can be calculated by performing inverse Fourier transform on the spectrum of power P [i].

CPU31は、ステップ193で基本周波数Bを算出する。詳細には、音声信号の自己相関SRにおいて、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期τとする。サンプリング周波数Fsを基本周期τで除算することで、基本周波数Bを算出することができる。
B=Fs/τ …(22)
In step 193, the CPU 31 calculates a fundamental frequency B. Specifically, in the autocorrelation SR of the audio signal, the time when the shift time is positive and the autocorrelation value is maximized at the minimum position is defined as a basic period τ. The fundamental frequency B can be calculated by dividing the sampling frequency Fs by the fundamental period τ.
B = Fs / τ (22)

次に、図4のステップ104の詳細について説明する。本実施形態のステップ104では、ステップ103で算出した平均基本周波数Bavに基づいて、図18に例示する高周波数領域の帯域数Hnmを算出する。平均基本周波数Bavが高くなるにしたがって、高周波数領域の重要度は高くなる。したがって、平均基本周波数Bavが高くなるにしたがって、帯域数Hnmが大きくなるように設定する。即ち、平均基本周波数Bavが高くなるにしたがって、高周波数領域の帯域の各々の帯域幅である第2帯域幅WB2は狭くなる。   Next, details of step 104 in FIG. 4 will be described. In step 104 of the present embodiment, the number of bands Hnm in the high frequency region illustrated in FIG. 18 is calculated based on the average basic frequency Bav calculated in step 103. As the average fundamental frequency Bav increases, the importance of the high frequency region increases. Therefore, the band number Hnm is set to increase as the average fundamental frequency Bav increases. That is, as the average basic frequency Bav increases, the second bandwidth WB2 that is the bandwidth of each band in the high frequency region becomes narrower.

ステップ104では、ステップ103で算出した平均基本周波数Bavに基づいて、高周波数領域の帯域数Hnmを算出する。詳細には、例えば、式(23)〜式(25)を使用して、高周波数領域の帯域数Hnmを取得する。式(23)〜式(25)の平均基本周波数Bavと高周波数領域の帯域数Hnmの関係を図18に例示する。   In step 104, the number of bands Hnm in the high frequency region is calculated based on the average fundamental frequency Bav calculated in step 103. Specifically, for example, the number of bands Hnm in the high frequency region is acquired using Expressions (23) to (25). FIG. 18 illustrates the relationship between the average fundamental frequency Bav in the equations (23) to (25) and the number of bands Hnm in the high frequency region.

図18では、横軸に平均基本周波数Bav、縦軸に高周波数領域の帯域数Hnmが示されている。
Hnm=Hnmn Bav<BavLの場合 …(23)
Hnm=Hnmn+
((Hnmx−Hnmn)/(BavH−BavL))×(Bav−BavL)
BavL≦Bav<BavHの場合 …(24)
Hnm=Hnmx Bav≧BavHの場合 …(25)
In FIG. 18, the horizontal axis represents the average fundamental frequency Bav, and the vertical axis represents the number of bands Hnm in the high frequency region.
When Hnm = Hnmn Bav <BavL (23)
Hnm = Hnmn +
((Hnmx−Hnmn) / (BavH−BavL)) × (Bav−BavL)
When BavL ≦ Bav <BavH (24)
When Hnm = Hnmx Bav ≧ BavH (25)

例えば、併合前の高周波数領域の帯域数が256(=HE−HS+1)である場合、Hnmx=256、Hnmn=1、BavH=400[Hz]、BavL=70[Hz]であってよい。なお、図15のステップ172で、音声信号がユーザの発話による音声を含まないと判定された場合、即ち、音声信号がノイズを含むと判定された場合、Hnmは1に設定されてもよいし、1つ前のフレームの帯域数Hnmと同じ帯域数に設定されてもよい。本実施形態において、ユーザの発話による音声を含まない音声信号の高周波数領域の重要度の高さは、低いためである。   For example, when the number of bands in the high frequency region before merging is 256 (= HE−HS + 1), Hnmx = 256, Hnmn = 1, BavH = 400 [Hz], and BavL = 70 [Hz] may be used. Note that if it is determined in step 172 of FIG. 15 that the audio signal does not include the voice of the user's utterance, that is, if it is determined that the audio signal includes noise, Hnm may be set to 1. It may be set to the same number of bands as the number of bands Hnm of the previous frame. This is because, in the present embodiment, the importance of the high frequency region of the audio signal that does not include the voice generated by the user's utterance is low.

本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。   In the present embodiment, the first band dividing unit divides the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with the first bandwidth. The bandwidth determination unit determines a second bandwidth equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. decide. The second band dividing unit divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit. The audio signal adjustment unit executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands.

本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。   In the present embodiment, it is possible to reduce the burden due to the audio signal processing without deteriorating the sound quality in the wideband audio signal processing.

[第4実施形態]
次に、第4実施形態の一例を説明する。第1〜第3実施形態と同様の構成及び作用については、説明を省略する。第4実施形態は、図4のステップ103の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、音声信号が子音に対応する場合に子音に対応しない場合より高くされる点で、第1〜第3実施形態と異なる。また、第4実施形態は、ステップ104で高周波数領域の帯域数を算出する際に、音声信号が子音に対応するか否かに基づいて高周波数領域の帯域数を算出する点で、第1〜第3実施形態と異なる。
[Fourth Embodiment]
Next, an example of the fourth embodiment will be described. The description of the same configurations and operations as those of the first to third embodiments is omitted. In the fourth embodiment, in the audio signal analysis processing in step 103 of FIG. 4, the importance of the high frequency region of the audio signal is made higher when the audio signal corresponds to the consonant than when it does not correspond to the consonant. Thus, it is different from the first to third embodiments. In the fourth embodiment, when calculating the number of bands in the high frequency region in step 104, the number of bands in the high frequency region is calculated based on whether or not the audio signal corresponds to a consonant. -Different from the third embodiment.

本実施形態における図4のステップ103の詳細を図19に例示する。CPU31は、ステップ201で、音声有無判定処理を実行し、ステップ202で、音声の有無を判定する。ステップ201及びステップ202は、図15のステップ171及びステップ172と同様であるため、説明を省略する。ステップ202の判定が否定された場合、即ち、音声信号がユーザの発話による音声を含まないと判定された場合には、CPU31は、フラグCFに子音ではないことを示す値0を設定して、音声信号分析処理を終了する。   FIG. 19 illustrates details of step 103 in FIG. 4 in the present embodiment. In step 201, the CPU 31 executes a voice presence / absence determination process, and in step 202, determines the presence / absence of voice. Step 201 and step 202 are the same as step 171 and step 172 of FIG. When the determination in step 202 is negative, that is, when it is determined that the voice signal does not include the voice of the user's utterance, the CPU 31 sets a value 0 indicating that it is not a consonant to the flag CF, The audio signal analysis process is terminated.

ステップ202の判定が肯定された場合、即ち、音声信号がユーザの発話による音声を含むと判定された場合、CPU31は、ステップ203で基本周波数算出処理を実行する。ステップ203は、図15のステップ173と同様であるため、説明を省略する。CPU31は、ステップ204で、基本周波数が所定の閾値Th2を越えるか否か判定する。ステップ204の判定が否定された場合、即ち、基本周波数が閾値Th2を越えない場合、CPU31は、ステップ210で、フラグCFに子音ではないことを示す値0を設定して、音声信号分析処理を終了する。閾値Th2は、例えば、1000[Hz]であってよい。   If the determination in step 202 is affirmative, that is, if it is determined that the audio signal includes the voice of the user's utterance, the CPU 31 executes a fundamental frequency calculation process in step 203. Step 203 is the same as step 173 in FIG. In step 204, the CPU 31 determines whether or not the fundamental frequency exceeds a predetermined threshold Th2. If the determination in step 204 is negative, that is, if the fundamental frequency does not exceed the threshold Th2, the CPU 31 sets the flag CF to a value 0 indicating that it is not a consonant in step 210, and performs the audio signal analysis process. finish. The threshold Th2 may be 1000 [Hz], for example.

ステップ204の判定が肯定された場合、即ち、基本周波数が閾値Th2を越えた場合、CPU31は、ステップ205〜ステップ207で、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率を算出する。ステップ205〜ステップ207は、図5のステップ121〜ステップ123と同様であるため、説明を省略する。CPU31は、ステップ208で、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が所定の閾値Th3を越えるか否か判定する。ステップ208の判定が否定された場合、即ち、低周波数領域のパワーに対する高周波数領域のパワーの比率が所定の閾値Th3を越えない場合、CPU31は、ステップ210でフラグCFに子音でないことを示す値0を設定して、音声信号分析処理を終了する。   If the determination in step 204 is affirmative, that is, if the fundamental frequency exceeds the threshold Th2, the CPU 31 determines in step 205 to step 207 that the power of the audio signal in the high frequency region relative to the power of the audio signal in the low frequency region. Calculate the ratio. Steps 205 to 207 are the same as steps 121 to 123 in FIG. In step 208, the CPU 31 determines whether or not the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region exceeds a predetermined threshold Th3. If the determination in step 208 is negative, that is, if the ratio of the power in the high frequency region to the power in the low frequency region does not exceed the predetermined threshold Th3, the CPU 31 indicates in step 210 that the flag CF is not a consonant. 0 is set and the audio signal analysis process is terminated.

ステップ208の判定が肯定された場合、CPU31は、ステップ209でフラグCFに子音であることを示す値1を設定して、音声信号分析処理を終了する。ステップ209の判定は、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が所定の値Th3を越えた場合に肯定される。   If the determination in step 208 is affirmed, the CPU 31 sets a value 1 indicating that it is a consonant in the flag CF in step 209, and ends the sound signal analysis process. The determination in step 209 is affirmed when the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region exceeds a predetermined value Th3.

次に、図4のステップ104の詳細について説明する。ステップ104では、併合後の高周波数領域の帯域数Hnmを算出する。CPU31は、ステップ103(詳細には、図9のステップ209及びステップ210)で設定したフラグCFの値に基づいて、高周波数領域の帯域数Hnmを算出する。   Next, details of step 104 in FIG. 4 will be described. In step 104, the number of bands Hnm in the high frequency region after merging is calculated. The CPU 31 calculates the number of bands Hnm in the high frequency region based on the value of the flag CF set in step 103 (specifically, step 209 and step 210 in FIG. 9).

例えば、フラグCFに値0が設定されている場合、即ち、音声信号が子音に対応しない場合、帯域数Hnmに1に近い小さい値を設定する。また、フラグCFに値1が設定されている場合、即ち、音声信号が子音に対応する場合、帯域数Hnmに併合前の高周波数領域の帯域数HE−HS+1に近い値を設定する。   For example, when the value 0 is set in the flag CF, that is, when the audio signal does not correspond to the consonant, a small value close to 1 is set to the band number Hnm. Further, when the value 1 is set in the flag CF, that is, when the audio signal corresponds to a consonant, a value close to the band number HE-HS + 1 in the high frequency region before merging is set to the band number Hnm.

詳細には、フラグCFに値0が設定されている場合、即ち、音声信号が子音に対応しない場合、例えば、帯域数Hnmに8を設定し、フラグCFに値1が設定されている場合、即ち、音声信号が子音に対応する場合、例えば、帯域数Hnmに256を設定する。併合前の高周波数領域の帯域数は256(=HE−HS+1)であるとする。   Specifically, when the value 0 is set in the flag CF, that is, when the audio signal does not correspond to a consonant, for example, when the number of bands Hnm is set to 8 and the value 1 is set in the flag CF, That is, when the audio signal corresponds to a consonant, for example, 256 is set to the band number Hnm. It is assumed that the number of bands in the high frequency region before merging is 256 (= HE−HS + 1).

本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。   In the present embodiment, the first band dividing unit divides the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with the first bandwidth. The bandwidth determination unit determines a second bandwidth equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. decide. The second band dividing unit divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit. The audio signal adjustment unit executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands.

本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。   In the present embodiment, it is possible to reduce the burden due to the audio signal processing without deteriorating the sound quality in the wideband audio signal processing.

なお、第1〜第4実施形態の何れか2つ以上を組み合わせて、高周波数領域の帯域数Hnmを算出するようにしてもよい。第1及び第2実施形態、第1及び第3実施形態、第1及び第4実施形態、第2及び第3実施形態、第2及び第4実施形態、第3及び第4実施形態、第1、第2、及び第3実施形態、及び、第1、第2及び第4実施形態、の組み合わせが可能である。また、第2、第3及び第4実施形態、及び第1〜第4実施形態の組み合わせも可能である。   Note that the number of bands Hnm in the high frequency region may be calculated by combining any two or more of the first to fourth embodiments. 1st and 2nd embodiment, 1st and 3rd embodiment, 1st and 4th embodiment, 2nd and 3rd embodiment, 2nd and 4th embodiment, 3rd and 4th embodiment, 1st Combinations of the first, second, and third embodiments and the first, second, and fourth embodiments are possible. Also, combinations of the second, third, and fourth embodiments and the first to fourth embodiments are possible.

例えば、第1〜第4の実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する。第1実施形態で低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率に基づいて算出した帯域数をHnm1とし、第2実施形態で高周波数領域の非定常性に基づいて算出した帯域数をHnm2とする。第3実施形態で平均基本周波数に基づいて算出した帯域数をHnm3とし、第4実施形態で音声信号が子音に対応するか否かに基づいて算出した帯域数をHnm4とする。   For example, the number of bands Hnm in the high frequency region is calculated by combining the first to fourth embodiments. The number of bands calculated based on the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region in the first embodiment is Hnm1, and based on the non-stationarity in the high frequency region in the second embodiment. The calculated number of bands is Hnm2. The number of bands calculated based on the average fundamental frequency in the third embodiment is Hnm3, and the number of bands calculated based on whether the audio signal corresponds to a consonant in the fourth embodiment is Hnm4.

この場合、帯域数Hnmは、式(26)で例示するように算出することができる。
Hnm=d1×Hnm1+d2×Hnm2+
d3×Hnm3+d4×Hnm4 …(26)
d1〜d4は、0〜1の値を有する寄与係数であり、d1+d2+d3+d4=1である。例えば、d1=0.25、d2=0.2、d3=0.25、d4=0.3であってよい。
In this case, the number of bands Hnm can be calculated as exemplified by Equation (26).
Hnm = d1 × Hnm1 + d2 × Hnm2 +
d3 × Hnm3 + d4 × Hnm4 (26)
d1 to d4 are contribution coefficients having values of 0 to 1, and d1 + d2 + d3 + d4 = 1. For example, d1 = 0.25, d2 = 0.2, d3 = 0.25, and d4 = 0.3.

第1及び第2実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d3=d4=0とする。第1及び第3実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d2=d4=0とする。第1及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d2=d3=0とする。   When the number of bands Hnm in the high frequency region is calculated by combining the first and second embodiments, d3 = d4 = 0. When the number of bands Hnm in the high frequency region is calculated by combining the first and third embodiments, d2 = d4 = 0. When the number of bands Hnm in the high frequency region is calculated by combining the first and fourth embodiments, d2 = d3 = 0.

第2及び第3実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=d4=0とする。第2及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=d3=0とする。第3及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=d2=0とする。   When the number of bands Hnm in the high frequency region is calculated by combining the second and third embodiments, d1 = d4 = 0. When the number of bands Hnm in the high frequency region is calculated by combining the second and fourth embodiments, d1 = d3 = 0. When the number of bands Hnm in the high frequency region is calculated by combining the third and fourth embodiments, d1 = d2 = 0.

第1、第2及び第3実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d4=0とする。第1、第2及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d3=0とする。第2、第3及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=0とする。
[第5実施形態]
When the number of bands Hnm in the high frequency region is calculated by combining the first, second, and third embodiments, d4 = 0. When the number of bands Hnm in the high frequency region is calculated by combining the first, second, and fourth embodiments, d3 = 0. When the second, third, and fourth embodiments are combined to calculate the number of bands Hnm in the high frequency region, d1 = 0 is set.
[Fifth Embodiment]

次に、第5実施形態の一例を説明する。第5実施形態の一例を図20に示す。第5実施形態は、ステップ225で、高周波数領域の下限インデックス、即ち、高周波数領域の下限周波数である境界周波数を変更する点で、第1実施形態〜第4実施形態と異なる。   Next, an example of the fifth embodiment will be described. An example of the fifth embodiment is shown in FIG. The fifth embodiment is different from the first to fourth embodiments in that, in step 225, the lower limit index of the high frequency region, that is, the boundary frequency that is the lower limit frequency of the high frequency region is changed.

高周波数領域の下限インデックスHS1が図21Aに示す帯域に対応している場合、帯域併合は、図21A及び図21Bに示される高周波数領域Harea1に対して行われる。高周波数領域Harea1は、下限インデックスHS1〜上限インデックスHEの帯域を含む。   When the lower limit index HS1 of the high frequency region corresponds to the band shown in FIG. 21A, the band merging is performed on the high frequency region Area1 shown in FIGS. 21A and 21B. The high frequency region Area1 includes a band of lower limit index HS1 to upper limit index HE.

本実施形態では、図21Bに例示される併合後の全帯域数が所定の最大帯域数を越える場合、高周波数領域の下限インデックスをHS2に変更する。即ち、高周波数領域の下限周波数である境界周波数を低減する。これにより、帯域併合は図21Cに示される、高周波数領域Harea1よりも広い高周波数領域Harea2に対して行われ、併合後の全帯域数が低減される。即ち、併合後の高周波数領域の第2帯域幅WB2を広くすることで、高周波数領域の帯域数Hnmは変わらず、低周波数領域でHS1−HS2個の帯域数が低減する。   In the present embodiment, when the total number of bands after merging exemplified in FIG. 21B exceeds a predetermined maximum number of bands, the lower limit index of the high frequency region is changed to HS2. That is, the boundary frequency that is the lower limit frequency in the high frequency region is reduced. As a result, band merging is performed on the high frequency region Area2 wider than the high frequency region Area1 shown in FIG. 21C, and the total number of bands after merging is reduced. That is, by widening the second bandwidth WB2 in the high frequency region after merging, the number of bands Hnm in the high frequency region does not change, and the number of HS1-HS2 bands in the low frequency region is reduced.

図20のステップ221〜224は、図4のステップ101〜ステップ104と同様であり、図20のステップ226〜ステップ230は、図4のステップ105〜ステップ109と同様であるため、説明を省略する。   20 are the same as steps 101 to 104 in FIG. 4, and steps 226 to 230 in FIG. 20 are the same as steps 105 to 109 in FIG. .

図22に、図20のステップ225の詳細を例示する。CPU31は、ステップ231で、高周波数領域の下限インデックスHSとステップ224で算出した高周波数領域の帯域数Hnmとを加算した値が、所定の最大帯域数Amxを越えるか否か判定する。ステップ231の判定が否定された場合、即ち、併合後の全帯域数が所定の最大帯域数Amxを越えない場合、CPU31は、高周波数領域下限変更処理を終了する。   FIG. 22 illustrates details of step 225 of FIG. In step 231, the CPU 31 determines whether or not the value obtained by adding the lower limit index HS of the high frequency region and the number of bands Hnm of the high frequency region calculated in step 224 exceeds a predetermined maximum number of bands Amx. If the determination in step 231 is negative, that is, if the total number of bands after merging does not exceed the predetermined maximum number of bands Amx, the CPU 31 ends the high frequency region lower limit changing process.

ステップ231の判定が肯定された場合、即ち、併合後の全帯域数が所定の最大帯域数Amxを越えた場合、CPU31は、ステップ232で、下限インデックスHSを低減する。詳細には、式(27)に例示するように、高周波数領域の下限インデックスHSに最大帯域数Amxから高周波数領域の帯域数Hnmを減算した値を設定する。
HS=Amx−Hnm …(27)
即ち、低周波数領域の帯域数HS(=LE+1)をHS1からAmx−Hnm(=HS2)に低減することで、図21Cに例示するように、低周波数領域でHS1−HS2個の帯域数が低減し、高周波数領域の帯域数はHnmのままであるため、全体として帯域数をHS1−HS2個分低減することができる。
If the determination in step 231 is affirmative, that is, if the total number of bands after merging exceeds a predetermined maximum number of bands Amx, the CPU 31 reduces the lower limit index HS in step 232. Specifically, as exemplified in Expression (27), a value obtained by subtracting the number of bands Hnm in the high frequency region from the maximum number of bands Amx is set to the lower limit index HS in the high frequency region.
HS = Amx−Hnm (27)
That is, by reducing the number of bands HS (= LE + 1) in the low frequency region from HS1 to Amx-Hnm (= HS2), the number of HS1-HS2 bands in the low frequency region is reduced as illustrated in FIG. 21C. However, since the number of bands in the high frequency region remains Hnm, the number of bands as a whole can be reduced by two HS1-HS.

なお、上記では、図4のステップ104で算出した高周波数領域の帯域数Hnmの値を変更しない例、即ち、図21Cに例示されるように、併合後の第2帯域幅WB2を広くする、即ち、併合帯域数Nを増大する例について説明した。しかしながら、本実施形態は、これに限定されない。例えば、ステップ104で算出した高周波数領域の帯域数Hnmから算出される併合帯域数Nを変更しないように、帯域数Hnmの値をステップ104で算出した帯域数Hnmよりも増大するようにしてもよい。   In the above, an example in which the value of the number of high frequency bands Hnm calculated in step 104 of FIG. 4 is not changed, that is, as illustrated in FIG. 21C, the second bandwidth WB2 after merging is widened. That is, the example in which the number N of merged bands is increased has been described. However, the present embodiment is not limited to this. For example, the value of the band number Hnm may be made larger than the band number Hnm calculated in step 104 so as not to change the merged band number N calculated from the band number Hnm calculated in step 104. Good.

詳細には、式(28)に例示するように、低周波数領域の帯域数HS(=LE+1)と高周波数領域の帯域数Hnmとを加算した値が所定の最大帯域数Amx以下の値となるように、高周波数領域の下限インデックスHSを調整する。
HS+Hnm≦Amx …(28)
Specifically, as illustrated in Expression (28), a value obtained by adding the number of bands HS (= LE + 1) in the low frequency region and the number of bands Hnm in the high frequency region is a value equal to or less than the predetermined maximum number of bands Amx. Thus, the lower limit index HS in the high frequency region is adjusted.
HS + Hnm ≦ Amx (28)

即ち、式(29)に例示するように、最大帯域数Amxに併合帯域数Nを乗算した値から、高周波数領域の上限インデックスに1を加算した値を減算した値を、併合帯域数Nから1を減算した値で除算した値以下となるように、下限インデックスHSを設定する。
HS≦(Amx×N−(HE+1))/(N−1) …(29)
下限インデックスHSは、切り下げで、整数の値とする。
That is, as exemplified in the equation (29), a value obtained by subtracting a value obtained by adding 1 to the upper limit index of the high frequency region from a value obtained by multiplying the maximum band number Amx by the merged band number N is obtained from the merged band number N. The lower limit index HS is set so as to be equal to or less than the value obtained by dividing 1 by the value obtained by subtracting 1.
HS ≦ (Amx × N− (HE + 1)) / (N−1) (29)
The lower limit index HS is rounded down to an integer value.

式(29)は、以下のように導かれる。式(28)において、高周波数領域の帯域数Hnmを、式(30)に例示するように置き替えると、式(31)となる。式(30)は、高周波数領域の上限インデックスHEから低減後の下限インデックスHSを減算し、1を加算した値を、併合帯域数Nで除算した値が、下限インデックスHSを低減した後の高周波数領域の帯域数Hnmであることを表している。高周波数領域の上限インデックスHEから低減後の下限インデックスHSを減算し、1を加算した値は、下限インデックスHSを低減した後であって、併合前の高周波数領域の帯域数である。   Equation (29) is derived as follows. In Expression (28), when the number of bands Hnm in the high frequency region is replaced as illustrated in Expression (30), Expression (31) is obtained. Equation (30) is obtained by subtracting the lower limit index HS after reduction from the upper limit index HE in the high frequency region and adding 1 to the value obtained by dividing the number N of merged bands by reducing the lower limit index HS. This indicates that the number of bands in the frequency domain is Hnm. The value obtained by subtracting the lower limit index HS after reduction from the upper limit index HE in the high frequency region and adding 1 is the number of bands in the high frequency region after the lower limit index HS is reduced and before merging.

Hnm=(HE−HS+1)/N …(30)
なお、高周波数領域の併合帯域数Nを算出する方法については、図9のステップ131と同様であるため、説明を省略する。
HS+(HE−HS+1)/N≦Amx …(31)
式(31)の左辺にHSが現れるように変形すると、式(29)となる。
Hnm = (HE−HS + 1) / N (30)
The method for calculating the number N of merged bands in the high frequency region is the same as that in step 131 in FIG.
HS + (HE−HS + 1) / N ≦ Amx (31)
When transforming so that HS appears on the left side of Expression (31), Expression (29) is obtained.

この場合、調整前は低周波数領域であった調整後の高周波数領域の下限インデックスHS(HS2)〜調整前の下限インデックスHS−1(HS1−1)に対応する帯域が、調整後には高周波数領域となり、図21Dに例示されるように、併合帯域数Nで併合される。即ち、HS2〜HS1−1に対応する帯域の併合後の帯域数は、下限インデックスHSを調整する前の1/Nとなるため、下限インデックスHS調整後の帯域数は全体として低減される。   In this case, the band corresponding to the lower limit index HS (HS2) of the high frequency region after adjustment, which was the low frequency region before the adjustment, to the lower limit index HS-1 (HS1-1) before adjustment, is the high frequency after the adjustment. As shown in FIG. 21D, it is merged with the number N of merged bands. That is, since the number of bands after merging the bands corresponding to HS2 to HS1-1 is 1 / N before adjusting the lower limit index HS, the number of bands after adjusting the lower limit index HS is reduced as a whole.

本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。   In the present embodiment, the first band dividing unit divides the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with the first bandwidth. The bandwidth determination unit determines a second bandwidth equal to or higher than the first bandwidth for dividing the high frequency region based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. decide. The second band dividing unit divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit. The audio signal adjustment unit executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands.

本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。   In the present embodiment, it is possible to reduce the burden due to the audio signal processing without deteriorating the sound quality in the wideband audio signal processing.

また、本実施形態では、低周波数領域の帯域数と高周波数領域の帯域数との和が最大帯域数を越えないように、境界周波数を低減する。   In the present embodiment, the boundary frequency is reduced so that the sum of the number of bands in the low frequency region and the number of bands in the high frequency region does not exceed the maximum number of bands.

本実施形態では、音声信号処理による負担を所定量以下に低減することを可能とする。   In the present embodiment, it is possible to reduce the burden due to the audio signal processing to a predetermined amount or less.

なお、本実施形態は、第1〜第4の実施形態の何れか、または、第1〜第4実施形態の何れか少なくとも2つの組み合わせに適用されてもよい。   In addition, this embodiment may be applied to any one of the first to fourth embodiments or any combination of at least two of the first to fourth embodiments.

なお、第1〜第5実施形態では、低周波数領域が音声信号を周波数領域表現に変換する際の周波数分解能で分割されているものとして説明したが、第1〜第5実施形態はこれに限定されない。例えば、音声信号処理による負担をさらに低減することが期待される場合、低周波数領域は、周波数分解能のM倍(Mは2以上の自然数)の第1帯域幅に分割されてもよい。   In the first to fifth embodiments, the low frequency region has been described as being divided by the frequency resolution when the audio signal is converted into the frequency domain representation. However, the first to fifth embodiments are limited to this. Not. For example, when it is expected to further reduce the burden due to the audio signal processing, the low frequency region may be divided into a first bandwidth that is M times the frequency resolution (M is a natural number of 2 or more).

なお、第1〜第5実施形態では、フレーム毎に、高周波数領域の併合後の帯域数Hnmを算出する例について説明したが、第1〜第5実施形態はこれに限定されない。Lフレーム毎に帯域数Hnmを算出し、その後のL−1フレームについては、同じ帯域数Hnmで、高周波数領域を分割するようにしてもよい。Lは、例えば、50〜100であってよい。音声信号は、ある程度継続的に類似した特徴を示す傾向があるためである。   In the first to fifth embodiments, the example in which the number of bands Hnm after merging the high frequency regions is calculated for each frame has been described, but the first to fifth embodiments are not limited to this. The number of bands Hnm may be calculated for each L frame, and for the subsequent L-1 frames, the high frequency region may be divided with the same number of bands Hnm. L may be, for example, 50-100. This is because audio signals tend to show similar characteristics to some extent continuously.

なお、図6、14、18及び式(1)〜(31)は一例であり、第1〜第5の実施形態はこれらに限定されない。また、図4、5、9、10、13、15、16、17、19、20、22のフローチャートのステップの順序は一例であり、第1〜第5実施形態は当該順序に限定されない。また、第1〜第5実施形態は、音声通話などの音声データのリアルタイム処理に適用されてもよいし、予め記憶装置に記憶されている音声データに適用されてもよい。   In addition, FIG.6,14,18 and Formula (1)-(31) are examples, and 1st-5th embodiment is not limited to these. Moreover, the order of the steps in the flowcharts of FIGS. 4, 5, 9, 10, 13, 15, 16, 17, 19, 20, and 22 is an example, and the first to fifth embodiments are not limited to the order. The first to fifth embodiments may be applied to real-time processing of voice data such as a voice call, or may be applied to voice data stored in advance in a storage device.

以上の各実施形態に関し、更に以下の付記を開示する。   Regarding the above embodiments, the following additional notes are disclosed.

(付記1)
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する第1帯域分割部と、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定する帯域幅決定部と、
前記帯域幅決定部で決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割する第2帯域分割部と、
前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する音声信号調整部と、
を含む、音声信号処理装置。
(付記2)
前記帯域幅決定部は、
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記帯域幅を決定する、
付記1の音声信号処理装置。
(付記3)
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも1つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
付記1または付記2に記載の音声信号処理装置。
(付記4)
前記帯域幅決定部は、
前記高周波数領域の重要度の高さに基づいて係数を決定する係数決定部、
を含み、
前記第1帯域幅に前記係数決定部で決定された前記係数を乗じることで、前記第2帯域幅を決定する、
付記1〜付記3の何れかの音声信号処理装置。
(付記5)
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は1となるように決定される、
付記4の音声信号処理装置。
(付記6)
前記係数は自然数である、
付記4または付記5の音声信号処理装置。
(付記7)
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
前記第1帯域分割部で分割される前記第1帯域の数と前記第2帯域分割部で分割される前記第2帯域の数との和が最大帯域数を越えないように前記境界周波数を低減する、
付記1〜付記6の何れかの音声信号処理装置。
(付記8)
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割し、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定し、
決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割し、
前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する、
音声信号処理をコンピュータに実行させるためのプログラム。
(付記9)
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記帯域幅を決定する、
付記8のプログラム。
(付記10)
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも1つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
付記8または付記9のプログラム。
(付記11)
前記音声信号処理は、
前記高周波数領域の重要度の高さに基づいて係数を決定する、
ことをさらに含み、
前記第1帯域幅に、決定された前記係数を乗じることで、前記第2帯域幅を決定する、
付記8〜付記10の何れかのプログラム。
(付記12)
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は1となるように決定される、
付記11のプログラム。
(付記13)
前記係数は自然数である、
付記11または付記12のプログラム。
(付記14)
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
分割される前記第1帯域の数と、分割される前記第2帯域の数と、の和が最大帯域数を越えないように前記境界周波数を低減する、
付記8〜付記13の何れかのプログラム。
(Appendix 1)
A first band dividing unit that divides a low frequency region of an audio signal converted from a time domain representation into a frequency domain representation into a plurality of first bands with a first bandwidth;
A second bandwidth equal to or greater than the first bandwidth for dividing the high frequency region is determined based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. A bandwidth determination unit;
A second band dividing unit that divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit;
An audio signal adjustment unit that executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands;
An audio signal processing apparatus.
(Appendix 2)
The bandwidth determination unit
Determining the bandwidth to become narrower as the importance of the high frequency region becomes higher;
The audio signal processing device according to attachment 1.
(Appendix 3)
The importance of the high frequency region of the audio signal is
The ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region, the unsteadiness of the power of the audio signal in the high frequency region, the fundamental frequency of the audio signal, and the audio signal corresponding to the consonant Based on at least one of whether or not
As the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region increases,
As the non-stationarity of the power of the audio signal in the high frequency region becomes higher,
Increases as the fundamental frequency of the audio signal increases;
If the audio signal corresponds to a consonant, it will be higher than if it does not correspond to a consonant,
It is determined,
The audio signal processing device according to appendix 1 or appendix 2.
(Appendix 4)
The bandwidth determination unit
A coefficient determination unit that determines a coefficient based on the importance of the high frequency region;
Including
Determining the second bandwidth by multiplying the first bandwidth by the coefficient determined by the coefficient determination unit;
The audio signal processing device according to any one of supplementary notes 1 to 3.
(Appendix 5)
The coefficient becomes smaller as the importance of the high frequency region becomes higher, and when it is the smallest, the coefficient is determined to be 1.
The audio signal processing device according to attachment 4.
(Appendix 6)
The coefficient is a natural number,
The audio signal processing device according to appendix 4 or appendix 5.
(Appendix 7)
The high frequency region is a frequency region whose frequency is equal to or higher than a predetermined boundary frequency,
The low frequency region is a frequency region whose frequency is lower than the boundary frequency;
The boundary frequency is reduced so that the sum of the number of the first bands divided by the first band dividing unit and the number of the second bands divided by the second band dividing unit does not exceed the maximum number of bands. To
The audio signal processing device according to any one of supplementary notes 1 to 6.
(Appendix 8)
Dividing the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with a first bandwidth;
A second bandwidth that is equal to or higher than the first bandwidth for dividing the high frequency region is determined based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. ,
Dividing the high-frequency region of the audio signal into a plurality of second bands with the determined second bandwidth;
Performing an audio signal adjustment process on each of the plurality of first bands and each of the plurality of second bands;
A program for causing a computer to execute audio signal processing.
(Appendix 9)
Determining the bandwidth to become narrower as the importance of the high frequency region becomes higher;
Appendix 8 program.
(Appendix 10)
The importance of the high frequency region of the audio signal is
The ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region, the unsteadiness of the power of the audio signal in the high frequency region, the fundamental frequency of the audio signal, and the audio signal corresponding to the consonant Based on at least one of whether or not
As the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region increases,
As the non-stationarity of the power of the audio signal in the high frequency region becomes higher,
Increases as the fundamental frequency of the audio signal increases;
If the audio signal corresponds to a consonant, it will be higher than if it does not correspond to a consonant,
It is determined,
Appendix 8 or 9 program.
(Appendix 11)
The audio signal processing is
Determining a coefficient based on the importance of the high frequency region;
Further including
Determining the second bandwidth by multiplying the first bandwidth by the determined coefficient;
The program according to any one of appendix 8 to appendix 10.
(Appendix 12)
The coefficient becomes smaller as the importance of the high frequency region becomes higher, and when it is the smallest, the coefficient is determined to be 1.
Appendix 11 program.
(Appendix 13)
The coefficient is a natural number,
The program of Supplementary Note 11 or Supplementary Note 12.
(Appendix 14)
The high frequency region is a frequency region whose frequency is equal to or higher than a predetermined boundary frequency,
The low frequency region is a frequency region whose frequency is lower than the boundary frequency;
Reducing the boundary frequency so that the sum of the number of the first bands to be divided and the number of the second bands to be divided does not exceed the maximum number of bands;
The program according to any one of appendix 8 to appendix 13.

10 音声信号処理装置
23 第1帯域分割部
24 帯域幅決定部
25 第2帯域分割部
31 CPU
32 一次記憶部
33 二次記憶部
10 audio signal processing device 23 first band dividing unit 24 bandwidth determining unit 25 second band dividing unit 31 CPU
32 Primary storage unit 33 Secondary storage unit

Claims (8)

時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する第1帯域分割部と、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定する帯域幅決定部と、
前記帯域幅決定部で決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割する第2帯域分割部と、
前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する音声信号調整部と、
を含む、音声信号処理装置。
A first band dividing unit that divides a low frequency region of an audio signal converted from a time domain representation into a frequency domain representation into a plurality of first bands with a first bandwidth;
A second bandwidth equal to or greater than the first bandwidth for dividing the high frequency region is determined based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. A bandwidth determination unit;
A second band dividing unit that divides the high frequency region of the audio signal into a plurality of second bands with the second bandwidth determined by the bandwidth determining unit;
An audio signal adjustment unit that executes an audio signal adjustment process for each of the plurality of first bands and each of the plurality of second bands;
An audio signal processing apparatus.
前記帯域幅決定部は、
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記第2帯域幅を決定する、
請求項1に記載の音声信号処理装置。
The bandwidth determination unit
Determining the second bandwidth to become narrower as the importance of the high frequency region becomes higher;
The audio signal processing apparatus according to claim 1.
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも1つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
請求項1または請求項2に記載の音声信号処理装置。
The importance of the high frequency region of the audio signal is
The ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region, the unsteadiness of the power of the audio signal in the high frequency region, the fundamental frequency of the audio signal, and the audio signal corresponding to the consonant Based on at least one of whether or not
As the ratio of the power of the audio signal in the high frequency region to the power of the audio signal in the low frequency region increases,
As the unsteadiness of the power in the high frequency region increases,
Increases as the fundamental frequency of the audio signal increases;
If the audio signal corresponds to a consonant, it will be higher than if it does not correspond to a consonant,
It is determined,
The audio signal processing device according to claim 1.
前記帯域幅決定部は、
前記高周波数領域の重要度の高さに基づいて係数を決定する係数決定部、
を含み、
前記第1帯域幅に前記係数決定部で決定された前記係数を乗じることで、前記第2帯域幅を決定する、
請求項1〜請求項3の何れか1項に記載の音声信号処理装置。
The bandwidth determination unit
A coefficient determination unit that determines a coefficient based on the importance of the high frequency region;
Including
Determining the second bandwidth by multiplying the first bandwidth by the coefficient determined by the coefficient determination unit;
The audio signal processing apparatus according to any one of claims 1 to 3.
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は1となるように決定される、
請求項4に記載の音声信号処理装置。
The coefficient becomes smaller as the importance of the high frequency region becomes higher, and when it is the smallest, the coefficient is determined to be 1.
The audio signal processing device according to claim 4.
前記係数は自然数である、
請求項4または請求項5に記載の音声信号処理装置。
The coefficient is a natural number,
The audio signal processing device according to claim 4 or 5.
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
前記第1帯域分割部で分割される前記第1帯域の数と前記第2帯域分割部で分割される前記第2帯域の数との和が最大帯域数を越えないように前記境界周波数を低減する、
請求項1〜請求項6の何れか1項に記載の音声信号処理装置。
The high frequency region is a frequency region whose frequency is equal to or higher than a predetermined boundary frequency,
The low frequency region is a frequency region whose frequency is lower than the boundary frequency;
The boundary frequency is reduced so that the sum of the number of the first bands divided by the first band dividing unit and the number of the second bands divided by the second band dividing unit does not exceed the maximum number of bands. To
The audio signal processing apparatus according to any one of claims 1 to 6.
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割し、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定し、
決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割し、
前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する、
音声信号処理をコンピュータに実行させるためのプログラム。
Dividing the low frequency region of the audio signal converted from the time domain representation into the frequency domain representation into a plurality of first bands with a first bandwidth;
A second bandwidth that is equal to or higher than the first bandwidth for dividing the high frequency region is determined based on the importance of the high frequency region having a frequency higher than the frequency of the low frequency region of the audio signal. ,
Dividing the high-frequency region of the audio signal into a plurality of second bands with the determined second bandwidth;
Performing an audio signal adjustment process on each of the plurality of first bands and each of the plurality of second bands;
A program for causing a computer to execute audio signal processing.
JP2016139753A 2016-07-14 2016-07-14 Audio signal processing device and audio signal processing program Active JP6677110B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016139753A JP6677110B2 (en) 2016-07-14 2016-07-14 Audio signal processing device and audio signal processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016139753A JP6677110B2 (en) 2016-07-14 2016-07-14 Audio signal processing device and audio signal processing program

Publications (2)

Publication Number Publication Date
JP2018010207A true JP2018010207A (en) 2018-01-18
JP6677110B2 JP6677110B2 (en) 2020-04-08

Family

ID=60994342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016139753A Active JP6677110B2 (en) 2016-07-14 2016-07-14 Audio signal processing device and audio signal processing program

Country Status (1)

Country Link
JP (1) JP6677110B2 (en)

Also Published As

Publication number Publication date
JP6677110B2 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
TW594676B (en) Noise reduction device
JP5127754B2 (en) Signal processing device
CN104067339B (en) Noise-suppressing device
JP4423300B2 (en) Noise suppressor
JP4836720B2 (en) Noise suppressor
CN101853666B (en) Speech enhancement method and device
US20110081026A1 (en) Suppressing noise in an audio signal
KR101837331B1 (en) Method of operating a hearing aid system and a hearing aid system
US8694311B2 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
JP2001134287A (en) Noise suppressing device
JP6135106B2 (en) Speech enhancement device, speech enhancement method, and computer program for speech enhancement
JP2015050685A (en) Audio signal processor and method and program
KR20130141478A (en) Encoding device and method, decoding device and method, and program
JP6339896B2 (en) Noise suppression device and noise suppression method
US8744845B2 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
JP6162254B2 (en) Apparatus and method for improving speech intelligibility in background noise by amplification and compression
JP2004341339A (en) Noise restriction device
US20160042746A1 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
CN106941006B (en) Method, apparatus and system for separation and bass enhancement of audio signals
JP5443547B2 (en) Signal processing device
JP2009296298A (en) Sound signal processing device and method
JP6677110B2 (en) Audio signal processing device and audio signal processing program
JP6707914B2 (en) Gain processing device and program, and acoustic signal processing device and program
JP6282925B2 (en) Speech enhancement device, speech enhancement method, and program
JP5056654B2 (en) Noise suppression device and noise suppression method

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180405

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180411

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181019

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200225

R150 Certificate of patent or registration of utility model

Ref document number: 6677110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533