JP6621709B2 - 音声処理装置、音声処理方法及びコンピュータプログラム - Google Patents
音声処理装置、音声処理方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6621709B2 JP6621709B2 JP2016105691A JP2016105691A JP6621709B2 JP 6621709 B2 JP6621709 B2 JP 6621709B2 JP 2016105691 A JP2016105691 A JP 2016105691A JP 2016105691 A JP2016105691 A JP 2016105691A JP 6621709 B2 JP6621709 B2 JP 6621709B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- upper limit
- sampling rate
- frequency band
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims 7
- 238000003672 processing method Methods 0.000 title claims 7
- 238000005070 sampling Methods 0.000 claims description 80
- 238000001514 detection method Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 description 37
- 238000000034 method Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H17/00—Networks using digital techniques
- H03H17/02—Frequency selective networks
- H03H17/0248—Filters characterised by a particular frequency response or filtering method
- H03H17/028—Polynomial filters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H17/00—Networks using digital techniques
- H03H17/02—Frequency selective networks
- H03H17/06—Non-recursive filters
- H03H17/0621—Non-recursive filters with input-sampling frequency and output-delivery frequency which differ, e.g. extrapolation; Anti-aliasing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
ここで、FIFは、図6に示すように、所定間隔のサンプルの時間位置Xiを分割点としてオーディオデータの時間区間Tを複数に分割した時間区間である補間区間ti の信号として、時間区間Tの信号Sの縮小写像ωi(S)を補間することにより、オーディオデータをアップサンプリングして音声の高域成分を補間する技術である。
図1に、本実施形態に係る音声処理装置の構成を示す。
図示するように、音声処理装置は、オーディオソース1、入力処理部2、デジタルサウンドプロセッサ3、アンプ4、スピーカ5、以上各部を制御する制御部6を備えている。
このような構成において、オーディオソース1は、オーディオファイルを記録した記録メディアや、オーディオデータを受信する放送受信装置などのオーディオデータを出力する装置である。
また、入力処理部2は制御部6の制御に従ってオーディオソース1からのオーディオデータの取り込みを行い、必要に応じて取り込んだオーディオデータの復号などの前処理を行って、前処理を行ったオーディオデータを入力オーディオデータとしてデジタルサウンドプロセッサ3に出力する。
次に、デジタルサウンドプロセッサ3は、予め設定されたプログラムに従った音声処理を行うプロセッサであり、制御部6の制御に従って、入力処理部2から入力する入力オーディオデータに対して高域補間などの音声処理を施し出力オーディオデータとしてアンプ4に出力する。
次に、図2に、デジタルサウンドプロセッサ3の高域補間を行う機能構成を示す。
図示するように、デジタルサウンドプロセッサ3は、代表点抽出部31、写像関数算出部32、補間処理部33とを備えている。ここで、これらの、代表点抽出部31、写像関数算出部32、補間処理部33の動作については後述する。
図3に、この高域補間動作制御処理の手順を示す。
図示するように、高域補間動作制御処理において制御部6は、入力処理部2からの入力オーディオデータのサンプリングレートと入力オーディオデータが表す音声の周波数帯域の上限の通知の発生を監視する(ステップ302)。
さて、以上のようにして、代表点オーディオデータを受け取った写像関数算出部32は、単位処理区間Tの各補間区間ti毎に、入力オーディオデータの単位処理区間Tの信号を、補間区間tiに縮小写像する写像関数ωiを、当該補間区間tiの写像関数ωiとして算出し補間処理部33に設定する。
すなわち、 xiを代表点オーディオデータの単位時間区間T内のi番目のサンプルの時間位置、yiを単位時間区間T内のi番目のサンプルのサンプル値(大きさ)として、ai、ei、ci、fiを下式(1)-(4)によって定義する。なお、x0は代表点オーディオデータの単位時間区間Tの始点となるサンプルの時間位置、y0は単位時間区間Tの始点となるサンプルのサンプル値(大きさ)、xMは代表点オーディオデータの単位時間区間Tの終点となるサンプルの時間位置、yMは単位時間区間Tの終点となるサンプルのサンプル値(大きさ)を表している。
下式(5)を最小とする値を用いる。
なお、式(5)は、αn、βnを式(7)、(8)のように定義すると、式(9)のように変形することができる。
さて、図3に戻り、代表点オーディオデータのサンプリングレートを代表点抽出部31に設定したならば(ステップ304)、制御部6は、高域補間後オーディオデータのサンプリングレートと代表点オーディオデータのサンプリングレートとの比に応じて写像元サンプル位置を算定して補間処理部33に設定し(ステップ306)、ステップ302からの処理に戻る。なお、高域補間後オーディオデータのサンプリングレートとは、デジタルサウンドプロセッサ3において高域補間したオーディオデータである高域補間後オーディオデータのサンプリングレートとして予め設定されているサンプリングレートである。
ただし、本実施形態では、高域補間後オーディオデータのサンプリングレートと入力オーディオデータのサンプリングレートとは、高域補間後オーディオデータのサンプリングレートが、入力オーディオデータのサンプリングレートと等しいか、入力オーディオデータのサンプリングレート2のべき乗倍となる関係にあり、高域補間後オーディオデータのサンプリングレートは、代表点オーディオデータのサンプリングレートの2のべき乗倍となるものとする。
すなわち、高域補間後オーディオデータのサンプリングレートが、代表点オーディオデータのサンプリングレートの2のn乗倍であれば、単位処理区間Tを2n個の等時間長の時間区間に分割したときの、分割位置となる時間位置を写像元サンプル位置として算定する。なお、単位処理区間Tの始点と終点は、写像元サンプル位置として算定されない。ただし、単位処理区間Tの終点も写像元サンプル位置として算定するようにしてもよい。
図7bは、オーディオデータのサンプリングレートが96kHz、オーディオデータが表す音声の周波数帯域の上限が20kHz、ダウンサンプリング後の代表点オーディオデータのサンプリングレートが48kHz、高域補間後オーディオデータのサンプリングレートが96kHzである場合について表しており、図中、SIがオーディオデータの周波数特性を、SOがFIFによって高域を補間したオーディオデータの周波数特性を表している。
Claims (9)
- オーディオデータの高域補間を行う音声処理装置であって、
前記高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出部と、
前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリング部と、
前記ダウンサンプリング部が生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部とを有することを特徴とする音声処理装置。 - 請求項1記載の音声処理装置であって、
前記ダウンサンプリング部は、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、
前記アップサンプリング部は、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成することを特徴とする音声処理装置。 - 請求項1または2記載の音声処理装置であって、
前記入力オーディオデータは、圧縮符号化されたオーディオデータを復号したオーディオデータであり、
前記周波数帯域上限検出部は、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出することを特徴とする音声処理装置。 - 音声処理を行う音声処理装置において、オーディオデータの高域補間を行う音声処理方法であって、
前記音声処置装置が、前記高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出ステップと、
前記音声処置装置が、前記周波数帯域上限検出ステップで検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリングステップと、
前記音声処置装置が、前記ダウンサンプリングステップで生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部とを有することを特徴とする音声処理方法。 - 請求項4記載の音声処理方法であって、
前記ダウンサンプリングステップにおいて、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出ステップで検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、
前記アップサンプリングステップにおいて、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成することを特徴とする音声処理方法。 - 請求項4または5記載の音声処理方法であって、
前記入力オーディオデータは、圧縮符号化されたオーディオデータを復号したオーディオデータであり、
前記周波数帯域上限検出ステップにおいて、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出することを特徴とする音声処理方法。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出部と、
前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリング部と、
前記ダウンサンプリング部が生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部として機能させることを特徴とするコンピュータプログラム。 - 請求項7記載のコンピュータプログラムであって、
前記ダウンサンプリング部は、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、
前記アップサンプリング部は、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成することを特徴とするコンピュータプログラム。 - 請求項7または8記載のコンピュータプログラムであって、
前記入力オーディオデータは、圧縮符号化されたオーディオデータを復号したオーディオデータであり、
前記周波数帯域上限検出部は、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出することを特徴とするコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016105691A JP6621709B2 (ja) | 2016-05-26 | 2016-05-26 | 音声処理装置、音声処理方法及びコンピュータプログラム |
US15/468,572 US10109295B2 (en) | 2016-05-26 | 2017-03-24 | Audio processing apparatus and audio processing method |
EP17172658.1A EP3249649B1 (en) | 2016-05-26 | 2017-05-24 | Audio processing apparatus and audio processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016105691A JP6621709B2 (ja) | 2016-05-26 | 2016-05-26 | 音声処理装置、音声処理方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017211558A JP2017211558A (ja) | 2017-11-30 |
JP6621709B2 true JP6621709B2 (ja) | 2019-12-18 |
Family
ID=58772505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016105691A Active JP6621709B2 (ja) | 2016-05-26 | 2016-05-26 | 音声処理装置、音声処理方法及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10109295B2 (ja) |
EP (1) | EP3249649B1 (ja) |
JP (1) | JP6621709B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023130644A (ja) * | 2022-03-08 | 2023-09-21 | アルプスアルパイン株式会社 | 音響信号処理装置、音響システム及び低音感の増強方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
JP2005084370A (ja) | 2003-09-09 | 2005-03-31 | Alpine Electronics Inc | Fifを用いたサンプリングレート変換方法 |
JP4567412B2 (ja) | 2004-10-25 | 2010-10-20 | アルパイン株式会社 | 音声再生機および音声再生方法 |
JP4593364B2 (ja) | 2005-05-24 | 2010-12-08 | アルパイン株式会社 | オーディオデータの補間方法および補間装置 |
US8144762B2 (en) | 2006-07-31 | 2012-03-27 | Pioneer Corporation | Band extending apparatus and method |
US8554349B2 (en) | 2007-10-23 | 2013-10-08 | Clarion Co., Ltd. | High-frequency interpolation device and high-frequency interpolation method |
JP5008596B2 (ja) | 2008-03-19 | 2012-08-22 | アルパイン株式会社 | サンプリングレート変換装置およびその変換方法 |
-
2016
- 2016-05-26 JP JP2016105691A patent/JP6621709B2/ja active Active
-
2017
- 2017-03-24 US US15/468,572 patent/US10109295B2/en active Active
- 2017-05-24 EP EP17172658.1A patent/EP3249649B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10109295B2 (en) | 2018-10-23 |
US20170345442A1 (en) | 2017-11-30 |
JP2017211558A (ja) | 2017-11-30 |
EP3249649A1 (en) | 2017-11-29 |
EP3249649B1 (en) | 2018-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106463106B (zh) | 用于音频接收的风噪声降低 | |
JP5439586B2 (ja) | 低複雑度の聴覚イベント境界検出 | |
JP6401521B2 (ja) | 信号処理装置及び信号処理方法 | |
JP2005287041A (ja) | サンプリングレート変換システム、サンプリングレート変換方法及びサンプリングレート変換装置 | |
JP2008052117A (ja) | 雑音除去装置、方法及びプログラム | |
JP6621709B2 (ja) | 音声処理装置、音声処理方法及びコンピュータプログラム | |
JP2008102206A (ja) | 高域信号補間方法及び高域信号補間装置 | |
JP2010145426A (ja) | オーディオ帯域拡張装置 | |
JP6547451B2 (ja) | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム | |
CN113035225A (zh) | 视觉声纹辅助的语音分离方法及装置 | |
JP2014032364A (ja) | 音処理装置、音処理方法及びプログラム | |
JP6730580B2 (ja) | 帯域拡張装置および帯域拡張方法 | |
GB2454470A (en) | Controlling an audio signal by analysing samples between zero crossings of the signal | |
JP2007036710A (ja) | アタック信号増幅デジタル信号処理装置 | |
JP2009265422A (ja) | 情報処理装置及び情報処理方法 | |
EP3618312B1 (en) | Signal processing device, signal processing method and program | |
JP2000099097A (ja) | 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法 | |
JP5470574B2 (ja) | ピークレベル検出装置 | |
JP2007282089A (ja) | オーディオ信号処理装置,オーディオ信号処理方法,プログラムおよび記憶媒体 | |
JP6371376B2 (ja) | 音響装置及び信号処理方法 | |
US8462026B2 (en) | Pulse code modulation conversion circuit and method | |
JP7056340B2 (ja) | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 | |
JP6506424B2 (ja) | 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置 | |
JP2011044909A (ja) | 音声処理装置およびその動作方法 | |
JP2008216469A (ja) | 音声信号処理装置および音声信号処理方法ならびにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6621709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |