JP2009063928A - 補間方法、情報処理装置 - Google Patents

補間方法、情報処理装置 Download PDF

Info

Publication number
JP2009063928A
JP2009063928A JP2007233273A JP2007233273A JP2009063928A JP 2009063928 A JP2009063928 A JP 2009063928A JP 2007233273 A JP2007233273 A JP 2007233273A JP 2007233273 A JP2007233273 A JP 2007233273A JP 2009063928 A JP2009063928 A JP 2009063928A
Authority
JP
Japan
Prior art keywords
pseudo
sound
noise
interpolation method
output signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007233273A
Other languages
English (en)
Inventor
Kaori Endou
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007233273A priority Critical patent/JP2009063928A/ja
Priority to US12/230,873 priority patent/US20090070117A1/en
Publication of JP2009063928A publication Critical patent/JP2009063928A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract


【課題】 本発明に係る補間方法は、パケットロス直前の信号が子音や背景雑音などの周期性が小さいものであっても、不自然な周期発生による異音などによる音質劣化を低減すること、パケットロスが長い時間継続した際でも無音化による音質劣化を低減するパケットロスを補間することを目的とする。
【解決手段】 本実施例における補間方法は、伝送で損失した音声のデジタル信号を補間する補間方法において、該デジタル信号の特徴量を算出する分析手順と、該特徴量に応じて、擬似音声を生成する擬似音声生成手順と、該特徴量に応じて、擬似雑音を生成する擬似雑音生成手順と、該擬似音声と該擬似雑音を組み合わせて補間信号を生成する出力信号生成手順とからなることを特徴とする。
【選択図】 図1

Description

本発明はパケット交換網における音声伝送の補間方法に関する。
VoIP(Voice over Internet Protocol)の音声信号の伝送において、しばしばパケットロスが発生する。パケット損失が発生すると、音が途切れて音声品質が著しく劣化する。このような音声品質の劣化を防ぐために、損失したパケットを補間し、音声信号の消失を隠蔽する隠蔽処理が行われている。具体的には損失したパケットの補間処理は、ITU―Tの勧告に基づくG.711 Appendix 1である。G.711 Appendix 1の補間処理は、損失したパケット直前の信号の周期を算出し、振幅を徐々に小さくしながら、算出した周期で繰り返してパケットロスを補間する処理である。
しかしながら、G.711 Appendix 1など従来におけるパケットロスの補間処理においては、パケットロス直前の信号が子音や背景雑音などの周期性が小さいものである場合、不自然な周期が発生して異音が発生するといった問題があった。
国際公開第2004/068098号パンフレット
本発明に係る補間方法は、パケットロス直前の信号が子音や背景雑音などの周期性が小さいものであっても、不自然な周期発生による異音などによる音質劣化を低減すること、パケットロスが長い時間継続した際でも無音化による音質劣化を低減するパケットロスを補間することを目的とする。
本実施例における補間方法は、伝送で損失した音声のデジタル信号を補間する補間方法において、該デジタル信号の特徴量を算出する分析手順と、該特徴量に応じて、擬似音声を生成する擬似音声生成手順と、該特徴量に応じて、擬似雑音を生成する擬似雑音生成手順と、該擬似音声と該擬似雑音を組み合わせて補間信号を生成する出力信号生成手順とからなることを特徴とする。
また本実施例に係る補間方法は、該分析手順において該背景雑音の周波数特性を算出することを特徴とする。
また本実施例に係る補間方法は、該擬似雑音生成手順において該背景雑音の周波数特性を持つ信号を生成することを特徴とすることを特徴とする。
また本実施例に係る補間方法は、該擬似雑音生成手順において白色雑音に該分析手順で算出した背景雑音の周波数特性を適用して擬似雑音を生成することを特徴とする。
また本実施例に係る補間方法は、該分析手順において該背景雑音のパワースペクトルを算出することを特徴とする。
また本実施例に係る補間方法は、該擬似雑音生成手順において背景雑音のパワースペクトルにランダムな位相を適用して擬似雑音を生成することを特徴とする。
また本実施例に係る補間方法は、該分析手順において該デジタル信号の周期性を算出することを特徴とする。
また本実施例に係る補間方法は、該擬似音声生成手順において該デジタル信号を該デジタル信号の周期の整数倍の長さで繰り返して擬似音声を生成することを特徴とする。
また本実施例に係る補間方法は、該分析手順において該デジタル信号の音声の包絡と該音声の音源と該音声の周期を算出することを特徴とする。
また本実施例に係る情報処理装置は、伝送で損失した音声のデジタル信号を補間する情報処理装置において、該デジタル信号の特徴量を算出する分析手段と、該特徴量に応じて、擬似音声を生成する擬似音声生成手段と、該特徴量に応じて、擬似雑音を生成する擬似雑音生成手段と、該擬似音声と該擬似雑音を組み合わせて補間信号を生成する出力信号生成手段とからなることを特徴とする。
本発明に係る補間方法は、入力信号に含まれる音声の特徴量と雑音の特徴量から擬似音声と擬似雑音をそれぞれ独立に生成することにより、パケットロス直前の信号が子音や背景雑音などの周期性が小さいものであっても、不自然な周期発生の異音などによる音質劣化を低減してパケットロスを補間することができる。
また、パケットロスが長い時間継続した際でも擬似雑音を出力しつづけることにより無音化による音質劣化を低減できる。
本実施例では、情報処理装置100〜700がVoIPなどの伝送エラーで失われた音声信号を補間する。情報処理装置100〜700の機能構成については、図1〜図7に示す。
情報処理装置100〜700は、入力信号に含まれる音声の擬似音声と、入力信号に含まれる背景雑音を模倣する擬似雑音を算出する。情報処理装置100〜700は、擬似音声と擬似雑音を混合した補間信号によって、パケット損失を補間する。また情報処理装置100〜700は、擬似音声と擬似雑音を独立して制御することが可能である。これより情報処理装置100〜700は、高音質の補間信号を生成することができる。本実施例の情報処理装置100〜700が補間する信号損失は、ネットワークの輻輳によるパケット損失、ネットワーク回線のエラー、音声信号の符号化エラーなどである。
以下、図1〜図7により、情報処理装置100〜700の機能の概要について説明する。
[情報処理装置100の構成図]
図1は本実施例に係る情報処理装置100の構成図である。
情報処理装置100は、分析手段101、擬似音声生成手段102、擬似雑音生成手段103、出力信号生成手段104から構成されている。
分析手段101は、情報処理装置100の外部より入力されたエラー情報と正常区間の入力信号とから音声の特徴量と雑音の特徴量を算出する。ここでエラー情報は、音声伝送においてパケット損失があった区間を示す情報である。音声の特徴量は、音声信号の音声成分、音声成分の包絡、音声成分の包絡の変化パターンなどである。また背景雑音の特徴量は、背景雑音の周波数特性などである。これら音声の特徴量、背景雑音の特徴量の具体例については、図2〜図7に示す情報処理装置200〜700に説明において説明する。
そして分析手段101は、擬似音声生成手段102に対して、音声の特徴量を入力する。擬似音声生成手段102は、音声の特徴量に基づいて、擬似音声を生成する。
また分析手段101は、擬似雑音生成手段103に対して、雑音の特徴量を入力する。擬似雑音生成手段103は、雑音の特徴量に基づいて、擬似雑音を生成する。
擬似音声生成手段102は擬似音声を出力信号生成手段104に入力する。擬似雑音生成手段103は擬似雑音を出力信号生成手段104に入力する。また分析手段101は音声の特徴量と雑音の特徴量を出力信号生成手段104に入力する。出力信号生成手段104はエラー情報と入力信号を情報処理装置100の外部から取得する。そして出力信号生成手段104は出力信号を生成する。
[情報処理装置200の構成図]
図2は本実施例に係る情報処理装置200の構成図である。
情報処理装置200は、分析手段201、擬似音声生成手段202、擬似雑音生成手段203、出力信号生成手段204から構成されている。
分析手段201は、情報処理装置200の外部より入力されたエラー情報と正常区間の入力信号とから音声の特徴量と雑音の特徴量を算出する。
そして分析手段201は、擬似音声生成手段202に対して、音声の特徴量を入力する。擬似音声生成手段202は、音声の特徴量に基づいて、擬似音声を生成する。
また分析手段201は、擬似雑音生成手段203に対して、背景雑音の周波数特性を入力する。背景雑音の周波数特性は、例えば背景雑音のパワースペクトル、インパルス応答、フィルタ係数などである。ここで分析手段201は図9に示す処理手順に従い、背景雑音の周波数特性を算出する。擬似雑音生成手段203は、背景雑音の周波数特性に基づいて、擬似雑音を生成する。例えば擬似雑音生成手段203は白色雑音を生成する。そして擬似雑音生成手段203は、白色雑音に背景雑音の周波数特性を適用して擬似雑音を生成する。擬似雑音生成手段203は、白色雑音を予め保持する構成でもよい。ここで擬似雑音生成手段は図17に示す処理手順に従い擬似雑音を生成する。
擬似音声生成手段202は擬似音声を出力信号生成手段204に入力する。擬似雑音生成手段203は擬似雑音を出力信号生成手段204に入力する。また分析手段201は音声の特徴量と雑音の特徴量を出力信号生成手段204に入力する。出力信号生成手段204はエラー情報と入力信号を情報処理装置200の外部から取得する。そして出力信号生成手段204は出力信号を生成する。
[情報処理装置300の構成図]
図3は本実施例に係る情報処理装置300の構成図である。
情報処理装置300は、分析手段301が雑音の特徴量として具体的に背景雑音のパワースペクトルを算出する。
情報処理装置300は、分析手段301、擬似音声生成手段302、擬似雑音生成手段303、出力信号生成手段304から構成されている。
分析手段301は、情報処理装置300の外部より入力されたエラー情報と正常区間の入力信号とから音声の特徴量と背景雑音のパワースペクトルを算出する。分析手段301は図9に示す処理手順に従い、背景雑音のパワースペクトルを算出する。
そして分析手段301は、擬似音声生成手段302に対して、音声の特徴量を入力する。擬似音声生成手段302は、音声の特徴量に基づいて、擬似音声を生成する。
また分析手段301は、擬似雑音生成手段303に対して、背景雑音のパワースペクトルを入力する。擬似雑音生成手段303は、背景雑音のパワースペクトルにランダムな位相を与えて周波数時間変換により時間領域の信号を算出して、擬似雑音を生成する。具体的には擬似雑音生成手段303は図18に示す処理手順に従い、擬似雑音を生成する。
擬似音声生成手段302は擬似音声を出力信号生成手段304に入力する。擬似雑音生成手段303は擬似雑音を出力信号生成手段104に入力する。また分析手段101は音声の特徴量と雑音の特徴量を出力信号生成手段304に入力する。出力信号生成手段304はエラー情報と入力信号を情報処理装置300の外部から取得する。そして出力信号生成手段304は出力信号を生成する。
[情報処理装置400の構成図]
図4は本実施例に係る情報処理装置400の構成図である。
本実施例に係る情報処理装置400において、分析手段401が入力信号の周期性を算出する。
情報処理装置400は、分析手段401、擬似音声生成手段402、擬似雑音生成手段403、出力信号生成手段404から構成されている。情報処理装置400は、入力信号を入力信号の周期の整数倍の長さで繰り返して擬似音声を生成する。
分析手段401は、情報処理装置400の外部より入力されたエラー情報と正常区間の入力信号とから入力信号の周期性と雑音の特徴量を算出する。
そして分析手段401は、擬似音声生成手段402に対して、入力信号と入力信号の周期性を入力する。分析手段401は入力信号の自己相関係数を式(F3)により算出する。分析手段401は自己相関係数が最大となる信号のずらし位置の長さを周期として算出する。周期性の算出手順については後述する。
擬似音声生成手段402は、入力信号と入力信号の周期性に基づいて、入力信号を周期の整数倍の長さで繰り返して擬似音声を生成する。また分析手段401は、擬似雑音生成手段403に対して、雑音の特徴量を入力する。擬似雑音生成手段403は、雑音の特徴量に基づいて、擬似雑音を生成する。
擬似音声生成手段402は擬似音声を出力信号生成手段404に入力する。擬似雑音生成手段403は擬似雑音を出力信号生成手段404に入力する。また分析手段401は入力信号の周期性と雑音の特徴量を出力信号生成手段104に入力する。出力信号生成手段404はエラー情報と入力信号を情報処理装置400の外部から取得する。そして出力信号生成手段404は出力信号を生成する。
[情報処理装置500の構成図]
図5は本実施例に係る情報処理装置500の構成図である。
情報処理装置500は、分析手段501、擬似音声生成手段502、擬似雑音生成手段503、出力信号生成手段504から構成されている。
情報処理装置500は、入力信号に含まれる音声成分を音声成分の周期の整数倍の長さで繰り返すことによって、擬似音声を生成する。
分析手段501は、情報処理装置500の外部より入力されたエラー情報と正常区間の入力信号とから入力信号に含まれる音声成分と音声成分の周期性と雑音の特徴量を算出する。
そして分析手段501は、擬似音声生成手段502に対して、音声成分と音声成分の周期性を入力する。擬似音声生成手段502は、音声成分を周期の整数倍の長さで繰り返すことによって擬似音声を生成する。分析手段501は図10に示す音声成分の算出手順に従い、音声成分を算出する。さらに分析手段501は音声成分の自己相関係数を式(F3)により算出する。分析手段501は自己相関係数が最大となる信号のずらし位置の長さを音声成分の周期として算出する。
また分析手段501は、擬似雑音生成手段503に対して、雑音の特徴量を入力する。擬似雑音生成手段503は、雑音の特徴量に基づいて、擬似雑音を生成する。
擬似音声生成手段502は擬似音声を出力信号生成手段504に入力する。擬似雑音生成手段503は擬似雑音を出力信号生成手段504に入力する。また分析手段501は音声成分の周期性と雑音の特徴量を出力信号生成手段504に入力する。出力信号生成手段504はエラー情報と入力信号を情報処理装置500の外部から取得する。そして出力信号生成手段504は出力信号を生成する。
[情報処理装置600の構成図]
図6は本実施例に係る情報処理装置600の構成図である。
情報処理装置600は、分析手段601、擬似音声生成手段602、擬似雑音生成手段603、出力信号生成手段604から構成されている。
情報処理装置600は、入力信号に含まれる音声音源を音声の音源の周期の整数倍の長さで繰り返し、音声の包絡を適用することによって、擬似音声を生成する。分析手段601は、図11に示す音声の包絡、音声の音源の算出手順に従い、音声の包絡、音声の音源を算出する。
分析手段601は、情報処理装置600の外部より入力されたエラー情報と正常区間の入力信号とから入力信号に含まれる音声の包絡と音声の音源と音声の音源の周期性と雑音の特徴量を算出する。
そして分析手段601は、擬似音声生成手段602に対して、音声の包絡と音声の音源と音声の音源の周期性を入力する。擬似音声生成手段602は、入力信号に含まれる音声音源を音声の音源の周期の整数倍の長さで繰り返し、音声の包絡を適用することによって、擬似音声を生成する。また分析手段601は、擬似雑音生成手段603に対して、雑音の特徴量を入力する。擬似雑音生成手段603は、雑音の特徴量に基づいて、擬似雑音を生成する。
擬似音声生成手段602は擬似音声を出力信号生成手段604に入力する。擬似雑音生成手段603は擬似雑音を出力信号生成手段604に入力する。また分析手段601は音声の音源の周期性と雑音の特徴量を出力信号生成手段604に入力する。出力信号生成手段604はエラー情報と入力信号を情報処理装置600の外部から取得する。そして出力信号生成手段604は出力信号を生成する。
[情報処理装置700の構成図]
図7は本実施例に係る情報処理装置700の構成図である。
情報処理装置700は、分析手段701、擬似音声生成手段702、擬似雑音生成手段703、出力信号生成手段704から構成されている。
情報処理装置700は、入力信号に含まれる音声音源を音声の音源の周期の整数倍の長さで繰り返し、音声の包絡の変化パターンを適用することによって、擬似音声を生成する。
分析手段701は、情報処理装置700の外部より入力されたエラー情報と正常区間の入力信号とから入力信号に含まれる音声の包絡の変化パターンと音声の音源と音声の音源の周期性と雑音の特徴量を算出する。分析手段701は、図11に示す音声の包絡、音声の音源の算出手順に従い、音声の包絡、音声の音源を算出する。また分析手段701は図12に示す音声の包絡の変化パターンの処理手順に従い、音声の包絡の変化パターンを算出する。
そして分析手段701は、擬似音声生成手段702に対して、音声の包絡の変化パターンと音声の音源と音声の音源の周期性を入力する。擬似音声生成手段702は、入力信号に含まれる音声音源を音声の音源の周期の整数倍の長さで繰り返し、音声の包絡の変化パターンを適用することによって、擬似音声を生成する。また分析手段701は、擬似雑音生成手段703に対して、雑音の特徴量を入力する。擬似雑音生成手段703は、雑音の特徴量に基づいて、擬似雑音を生成する。
擬似音声生成手段702は擬似音声を出力信号生成手段704に入力する。擬似雑音生成手段703は擬似雑音を出力信号生成手段704に入力する。また分析手段601は音声の音源の周期性と雑音の特徴量を出力信号生成手段704に入力する。出力信号生成手段704はエラー情報と入力信号を情報処理装置700の外部から取得する。そして出力信号生成手段704は出力信号を生成する。
[情報処理装置100〜700における補間処理手順]
図8は図1〜図7に示す情報処理装置100〜700における補間処理のフローチャートである。この補間処理のフローチャートは情報処理装置100〜700実行する概要となる処理ステップを示している。
情報処理装置100〜700はデジタル信号による音声伝送で発生する信号損失を補間する装置である。特に本実施例に係る情報処理装置100〜700はパケット交換網における音声伝送で発生するパケットロスを補間する装置である。また情報処理装置100〜700は、フレーム単位で入力信号を受信する。
情報処理装置100〜700は、情報処理装置100〜700に入力される現フレームのエラー情報と入力信号を受信する(ステップS801)。入力信号はフレーム単位のデジタル信号であって、音声および背景雑音を示す信号であある。
情報処理装置100〜700は、エラー情報より現フレームにおけるエラーの有無を判別する(ステップS802)。エラー情報は、パケット損失した区間を示す情報である。エラーがある場合、入力信号はパケットロスしているので、「無い」状態である。
情報処理装置100〜700が現フレームにエラーがないと判別する場合(ステップS802 NO)、情報処理装置100〜700は入力信号を分析する(ステップS803)。より詳細には情報処理装置100〜700が有する分析手段101〜701は入力信号を分析し、音声の特徴量、背景雑音の特徴量を算出する。情報処理装置100〜700は、擬似音声、擬似雑音を生成する(ステップ804、805)。そして情報処理装置100〜700は擬似音声と擬似雑音を組み合わせて出力信号を生成する(ステップS806)。
情報処理装置100〜700が現フレームにエラーがないと判別する場合(ステップS802 NO)、情報処理装置100〜700は擬似音声を生成する(ステップS804)。そして情報処理装置100〜700は擬似雑音を生成する(ステップS805)。情報処理装置100〜700は擬似音声と擬似雑音を組み合わせて(重畳して)出力信号を生成する(ステップS806)。
情報処理装置100〜700はパケット消失の有無(エラーの有無)に関わらず擬似音声、擬似雑音を生成する。そしてパケット消失がなければ、情報処理装置100〜700は、入力信号を出力信号として出力する(図19 ステップS1905参照)。
[背景雑音の周波数特性]
図9は本実施例に係る分析手段101〜701における背景雑音の周波数特性の算出の処理手順を示すフローチャートである。
分析手段101〜701は、入力信号における音声検出を行う(ステップS901)。具体的には分析手段101〜701はフレームのパワーを雑音の平均パワーを比較して入力信号における音声検出を行う。
そして分析手段101〜701は、音声を検出した否かを判別する(ステップS902)。分析手段101〜701が音声を検出した場合(ステップS902 YES)、分析手段101〜701は背景雑音のパワースペクトルの算出を行う(ステップS905)。背景雑音のパワースペクトルの算出は、また分析手段101〜701が音声を検出しない場合(ステップS902 NO)、分析手段101〜701は入力信号を時間周波数変換する(ステップS903)。具体的には分析手段101〜701は高速フーリエ変換などを行う。時間周波数変換は、入力信号を周波数ごとに分解し、時間領域から周波数領域へ変換する変換である。同様にして後述する周波数時間変換は、入力信号を周波数領域から時間領域へ変換する変換である。分析手段101〜701は式(F1)より入力信号(現フレーム)のパワースペクトルを算出する(ステップS904)。ここでPはi番目の帯域のパワースペクトル(dB)、reはi番目の帯域のスペクトルの実部(dB)、imはi番目の帯域のスペクトルの虚部(dB)である。
そして分析手段101〜701は背景雑音のパワースペクトルを算出する(S905)。分析手段101は現フレームのパワースペクトルと前フレームの背景雑音のパワースペクトルを重み付けて平均することによって現フレームの背景雑音のパワースペクトルを算出する。なお分析手段101〜701が音声を検出した場合は(ステップ902 NO)、現フレームの背景スペクトルは前フレームの背景雑音のパワースペクトルと等しいものとして算出する。nはi番目の帯域の背景雑音のパワースペクトル(dB)、prev_nは前フレームのi番目の帯域の背景雑音のパワースペクトル(dB)、coefは現フレームの重み係数である。
また分析手段101〜701は、学習同定法などの適応アルゴリズムを用いて背景雑音の周波数特性を決定してもよい。つまり分析手段101〜701が、フィルタを適用した白色雑音と、背景雑音との誤差を最小化するように学習したフィルタ係数として背景雑音の周波数特性を算出する。
[周期性の算出手順]
分析手段101〜701が算出する周期性は、入力信号、音声成分の信号または音声の音源の周期性である。本実施例において周期性は対象信号(入力信号、音声成分の信号、音声の音源)の周期と周期性の強さを意味する。本実施例において周期性の強さは最大の自己相関係数の値である。分析手段101〜701は対象信号の自己相関係数を式(F3)により算出する。そして分析手段101〜701は、自己相関係数が最大となる信号のずらし位置の長さを周期として算出する。ここで周期=a_max、周期性=MAX(corr(a))、xは周期性算出の対象の信号、Mは相関係数を算出する区間の長さ(サンプル)、aは相関係数を算出する信号の開始位置、corr(a)はずらし位置がaの場合の相関係数、a_maxは最大相関係数に対応するaの値(自己相関係数が最大となる位置)、iは信号のインデックス(サンプル)である。
[音声成分の算出手順]
図5に示す分析手段501は入力信号の音声成分を算出する。図10は本実施例に係る分析手段501が実行する音声成分の算出手順のフローチャートである。以下、分析手段501が実行する入力信号の音声成分の算出手順について説明する。
分析手段501は、情報処理装置500に入力される入力信号を受信し、音声検出、背景雑音のパワースペクトルを算出する(ステップS1001)。音声検出、背景雑音のパワースペクトルの算出は図9に示す背景雑音の周波数特性の算出の処理手順に従う。
そして分析手段501は現フレームに音声を検出したか否かを判別する(ステップS1002)。分析手段501は現フレームに音声を検出した場合(ステップS1002 YES)、分析手段501は入力信号の時間周波数変換を行う(ステップS1003)。分析手段501は入力信号のパワースペクトルを算出する(ステップS1004)。入力信号のパワースペクトルは式(F1)を用いて算出する。分析手段501は、音声のパワースペクトルを算出する(S1005)。分析手段501は、ステップS1004で算出した入力信号のパワースペクトルからステップS1001で算出した背景雑音のパワースペクトルを減算して音声のパワースペクトルを算出する。分析手段501は、入力信号のパワースペクトルと背景雑音のパワースペクトルの比率からSNR(信号雑音比)を算出し、SNRに応じて入力信号中の音声成分の比率を決定して音声成分のパワースペクトルを算出する構成でもよい。
分析手段501は、音声のパワースペクトルの周波数時間変換を行う。本実施例では周波数時間変換は逆フーリエ変換である。これより分析手段501は、時間領域に変換した信号を音声成分として得る。
また分析手段501が現フレームに音声を検出しない場合(ステップS1002 NO)、分析手段501は入力信号の音声成分の算出処理を終了する。
[音声の包絡、音声の音源の算出手順]
図6及び図7に示す分析手段601、701は入力信号の音声の包絡、音声の音源を算出する。図11は本実施例に係る分析手段601、701が実行する音声の包絡、音声の音源の算出手順のフローチャートである。
分析手段601、701は、情報処理装置600、700に入力される入力信号を受信する(ステップS1101)。分析手段601、701は、入力信号を時間周波数変換する(ステップS1102)。そして分析手段601、701は、入力信号の対数パワースペクトルを算出する(ステップS1103)。
分析手段601、701は入力信号の対数パワースペクトルを周波数時間変換する(ステップS1104)。分析手段601、701は入力信号の対数パワースペクトルを周波数時間変換した信号から高ケフレンシー成分と低ケフレンシー成分を抽出する(ステップS1105)。なおケフレンシーの次元は時間である。
そして分析手段601、701は、高ケフレンシー成分を時間周波数変換して音声の包絡を算出する(ステップS1106)。 また分析手段601、701は、低ケフレンシー成分を時間周波数変換して音声の音源を算出する(ステップS1107)。
[音声の包絡パターンの算出手順]
図7に示す分析手段701は入力信号の音声の包絡パターンを算出する。図12は本実施例に係る分析手段701が実行する音声の包絡パターンの算出手順のフローチャートである。
分析手段701は入力信号の包絡スペクトルを算出し、また音声検出を行う(ステップS1201)。
分析手段701はフォルマントとアンチフォルマントを算出する(ステップS1202)。フォルマントは包絡スペクトルの極大点であり、アンチフォルマントは包絡スペクトルの極小点である。
分析手段701は、現フレームが包絡パターンの記録を行う対象区間であるか否かを判別する(ステップS1203)。分析手段701は、現フレームにおけるフォルマントとアンチフォルマントの総数が閾値以下または音声が検出されない区間は記録対象区間でないと判別する。換言すれば分析手段701は、現フレームにおけるフォルマントとアンチフォルマントの総数が閾値よりも大きい区間を記録対象区間と判別する。
分析手段701が現フレームを記録対象区間と判別する場合(ステップS1203 YES)、分析手段701はフォルマントとアンチフォルマントをメモリに保存する(ステップS1204)。ここで分析手段701は、フォルマントとアンチフォルマントを保存するメモリを有している。
また分析手段701が現フレームを記録対象区間でないと判別する場合(ステップS1203 NO)、分析手段701はフォルマントとアンチフォルマントの記憶をメモリからクリアする(ステップS1205)。
[擬似音声の生成手順1]
図13は本実施例に係る擬似音声生成手段102〜502が実行する擬似音声の生成手順のフローチャートである。また図14は本実施例に係る繰り替えしの信号片の接続関係を示す模式図である。Mは相関係数を算出する区間の長さ(サンプル)であり、Lはオーバラップ長である。
擬似音声生成手段102〜502はそれぞれ、分析手段101〜501から繰り返しの対象信号を受信する(ステップS1301)。繰り返しの対象信号は、正常区間の入力信号または正常区間の音声成分の信号である。正常区間はエラーの発生していない区間、つまりパケットロスしていない区間である。
擬似音声生成手段102〜502は、式(F3)を用いて、繰り返しの対象信号の自己相関係数を算出する(ステップS1302)。擬似音声の周期性(擬似音声の周期と周期性の強さ)を算出するために、擬似音声生成手段102〜502は繰り返しの対象信号の自己相関係数を算出する。
そして擬似音声生成手段102〜502は、算出した自己相関係数の最大位置を算出する(ステップS1303)。自己相関係数の最大位置は、a_maxのことであり、周期に対応するものである。
擬似音声生成手段102〜502は、繰り返しを行う信号片を算出する(ステップS1304)。ここで繰り返しを行う信号片は、自己相関係数開始位置よりa_max+Lサンプル前から対象信号の最後とする。
擬似音声生成手段102〜502は、繰り返し信号片を接続して繰り返す(ステップS1305)。ここで擬似音声生成手段102〜502はLサンプルをオーバラップして連続的に繰り返し信号片を接続する。繰り返し接続片をオーバラップして接続することにより、異音の発生を防ぐ擬似音声を生成することができる。擬似音声生成手段102〜502は、式(F4)を用いて、接続信号片のオーバラップ結果の信号OLを算出する。SL(j)は接続対象の信号であって、時系列で古い(左側)の信号である。Sr(j)は接続対象の信号であって、時系列で新しい(右側)の信号である。jはサンプルを示す番号であり、J=0、・・・L−1である。
擬似音声生成手段102〜502は、繰り返し信号片の繰り返しの結果(接続の結果)の信号長を算出して、信号長が所定の閾値を越えたか否かを判別する(ステップS1306)。
擬似音声生成手段102〜502が繰り返し結果の信号長が所定の閾値を越えたと判別する場合(ステップS1306 YES)、擬似音声生成手段102〜502は擬似音声の生成処理を終了する。また擬似音声生成手段102〜502が繰り返し結果の信号長が所定の閾値を越えていないと判別する場合(ステップS1306 NO)、さらに擬似音声生成手段102〜502は繰り返し信号片を接続する(ステップS1305)。
[擬似音声の生成手順2]
図15は本実施例に係る擬似音声生成手段601が実行する擬似音声の生成手順のフローチャートである。
擬似音声生成手段601は、音声の包絡を受信する。また擬似音声生成手段601は音声の音源、音源の周期性を受信する(ステップS1501)。
擬似音声生成手段601は、音源を繰り返し、1フレーム分の音源を生成する(ステップS1502)。擬似音声生成手段601は、音源の繰り返しを図13に示す処理フローによって行い、1フレーム分の音源を生成する。擬似音声生成手段601は、繰り返した音源に包絡を適用して、擬似音声を生成する(ステップS1503)。ここで擬似音声生成手段601は、繰り返した音源に包絡を適用する方法を以下の方法による。擬似音声生成手段601は繰り返した音源を時間周波数変換して振幅スペクトルO(k)を算出する。そして擬似音声生成手段601は、算出した振幅スペクトルO(k)に包絡の振幅スペクトルE(k)をかけて、擬似音声の振幅スペクトルS(k)を算出する(式(F5)参照))。S(k)はk番目の帯域の擬似音声の振幅スペクトル、O(k)はk番目の帯域の繰り返し音源の振幅スペクトル、E(k)はk番目の帯域の包絡の振幅スペクトルである。擬似音声生成手段601は、S(k)を周波数時間変換で時間領域に戻す。
[擬似音声の生成手順3]
図16は本実施例に係る擬似音声生成手段701が実行する擬似音声の生成手順のフローチャートである。
擬似音声生成手段701は、分析手段701から音声の包絡、音声の包絡の変化パターンを受信する。また擬似音声生成手段701は音声の音源、音源の周期性を受信する(ステップS1601)。
擬似音声生成手段701は、音源の繰り返しを図13に示す処理フローによって行い、1フレーム分の音源を生成する(ステップS1602)。
擬似音声生成手段701は、音声の包絡の変化パターンから包絡の変化情報を算出する(ステップS1603)。擬似音声生成手段701は、変化情報を以下の方法により算出する。擬似音声生成手段701は、時間t、時間t+1の包絡情報から時間tと時間t+1間の包絡の変化情報を算出する。ここで包絡情報はフォルマント、アンチフォルマントの周波数(Hz)、大きさ(dB)である。時間tの第1フォルマントの周波数をF1x、時間tの第1フォルマントの大きさをF1yとする。また時間t+1の第1フォルマントの周波数を(F1x+Δx)、時間t+1の第1フォルマントの大きさを(F1y+Δy)とする。これより第1フォルマントの変化情報(px、py)はpx=Δx/x、py=Δy/yとなる。同様に他のフォルマント、アンチフォルマントの変化情報を算出する。そしてすべてのフォルマント、アンチフォルマントの変化情報をまとめて包絡の変化情報とする。
擬似音声生成手段701は、包絡の変化情報を用いて音声の包絡を更新する(ステップS1604)。擬似音声生成手段701は、音声の包絡のフォルマント、アンチフォルマントを算出する。擬似音声生成手段701は、それぞれのフォルマント、アンチフォルマントに対応する変化情報を適用して、フォルマント、アンチフォルマントを更新する。そして擬似音声生成手段701は、フォルマント、アンチフォルマントに対応する幅を算出する。フォルマントの幅は、フォルマントを挟んで最初にフォルマントより所定値だけパワースペクトルが小さくなった左右の周波数の差とする。ここで所定値はたとえば3dBである。同様にアンチフォルマントの幅は、アンチフォルマントを挟んで最初にアンチフォルマントより所定値だけパワースペクトルが大きくなった左右の周波数の差である。具体的には第1フォルマントの周波数がF1_cur_x、第1フォルマントの大きさがF1_cur_yであるとき、更新した第1フォルマントの周波数F1_cur_x’、更新した第1フォルマントの大きさF1_cur_y’はそれぞれF1_cur_x’ = F1_cur_x×px、F1_cur_y’ = F1_cur_y×pyと表すことができる。同様にして他のフォルマント、アンチフォルマントも更新することが可能である。擬似音声生成手段701は、二次曲線を当てはめて音声の包絡を算出する。擬似音声生成手段701がフォルマントに当てはめる二次曲線は、(fx、fy)を極大とし、(fx+0.5WF、fy−3)を通る二次曲線とする。このときフォルマント位置が(fx、fy)であって、フォルマント幅がWF(Hz)である。またx軸は周波数(Hz)、y軸はパワー(dB)である。同様にして擬似音声生成手段701がアンチフォルマントに当てはめる二次曲線は、(ux、uy)を極小とし、(ux+0.5WF、uy+3)を通る二次曲線とする。このときアンチフォルマント位置が(ux、uy)であって、アンチフォルマント幅がUF(Hz)である。また擬似音声生成手段701は、フォルマントに対応する二次曲線とアンチフォルマントに対応する二次曲線を補間してフォルマントとアンチフォルマントの境界の包絡を算出する。
擬似音声生成手段701は、繰り返した音源に更新した包絡を適用して擬似音声を生成する(ステップS1605)。擬似音声生成手段701は、擬似音声生成手段601と同様の方法を用いて擬似音声を生成する。つまり擬似音声生成手段701は繰り返した音源を時間周波数変換して振幅スペクトルO(k)を算出する。擬似音声生成手段701は、算出した振幅スペクトルO(k)に包絡の振幅スペクトルE(k)をかけて、擬似音声の振幅スペクトルS(k)を算出する(式(F5)参照))。そして擬似音声生成手段701は、S(k)を周波数時間変換で時間領域に戻して擬似音声を生成する。
[擬似雑音の生成手順1]
図17は本実施例に係る擬似雑音生成手段203が実行する擬似雑音の生成手順を示すフローチャートである。
擬似雑音生成手段203は白色雑音を生成する(ステップS1701)。
擬似雑音生成手段203は、式(F6)を用いて、白色雑音に背景雑音の周波数特性を表すフィルタ係数を適用して擬似雑音を生成する(ステップS1702)。y(n)が擬似雑音、w(n)は白色雑音、h(m)はフィルタ係数、nはサンプル数、mは0〜p−1のフィルタ次数である。
[擬似雑音の生成手順2]
図18は本実施例に係る背景雑音生成手段303が実行する背景雑音の生成手順のフローチャートである。
擬似雑音生成手段303は、分析手段301から背景雑音のパワースペクトルを受信する(ステップS1801)。
擬似雑音生成手段303は、背景雑音のスペクトルの位相をランダム化する(ステップS1802)。具体的には擬似雑音生成手段303は、背景雑音の振幅スペクトルの大きさを保ったまま、背景雑音の位相をランダム化する。振幅スペクトルがs(i)、各帯域のスペクトルの実部、虚部がそれぞれre(i)、im(i)とする。擬似雑音生成手段303は、re(i)、im(i)をランダムな数字re’(i)、im’(i)で置き換え、振幅スペクトルの大きさを保存するように係数を掛けて、位相をランダム化した背景雑音のスペクトル(αre’(i)、αim’(i))を算出する。これより擬似振幅スペクトルは式(F7)を用いて算出することができる。
そして擬似雑音生成手段303は、位相をランダム化した背景雑音のスペクトル(αre’(i)、 αim’(i))を周波数時間変換で時間領域に戻して擬似雑音を生成する(ステップS1803)。
[出力信号の生成手順]
図19は本実施例に係る出力信号生成手段104〜704が実行する出力信号の生成手順のフローチャートである。
出力信号生成手段104〜704は、エラー情報と入力信号と擬似音声と擬似雑音と音声の特徴量と雑音の特徴量を受信する(ステップS1901)。
出力信号生成手段104〜704は、ステップS1901で受信した情報よりエラーの有無を判別する(ステップS1902)。
出力信号生成手段104〜704が現フレームにエラーがあると判別する場合(ステップS1902 YES)、出力信号生成手段104〜704は擬似音声と擬似雑音の振幅係数を算出する(ステップS1903)。出力信号生成手段104〜704は擬似音声と擬似雑音を重畳して出力信号を生成する(ステップS1904)。
出力信号生成手段104〜704が現フレームにエラーがないと判別する場合(ステップS1902 NO)、出力信号生成手段104〜704は入力信号を出力信号とする(ステップS1905)。
[振幅係数の算出手順1]
図20は本実施例に係る出力信号生成手段104〜704の振幅係数の第1の算出手順を示すフローチャートである。
出力信号生成手段104〜704は、現フレームがエラー開始フレームであるか否かを判別する(ステップS2001)。エラー開始フレームは、フレームが消失した区間においてフレーム消失(パケット消失)が最初に発生したフレームである。出力信号生成手段104〜704が、現フレームはエラー開始フレームであると判別する場合(ステップS2001 YES)、出力信号生成手段104〜704は入力信号の音声検出処理を行う(ステップS2002)。音声検出処理は入力信号のパワーが閾値を越えたか否かにより音声を判別する処理である。また出力信号生成手段104〜704が、現フレームはエラー開始フレームでないと判別する場合(ステップS2001 NO)、出力信号生成手段104〜704は現フレームにおける音声の有無を判別する(ステップS2003)。
ステップS2003で、出力信号生成手段104〜704は音声を検出したか否かを判別する(ステップS2003)。出力信号生成手段104〜704が音声を検出した場合(ステップS2003 YES)、出力信号生成手段104〜704は擬似音声の振幅係数を1−i/R、擬似雑音の振幅係数をi/Rとして算出する(ステップS2004)。ここでRは擬似音声の振幅を0にするまでのサンプル数、iはエラー開始以降のサンプル数である。Rは予め定めた既定値である。出力信号生成手段104〜704が音声を検出しない場合(ステップS2003 NO)、出力信号生成手段104〜704は擬似音声の振幅係数を0、擬似雑音の振幅係数を1として算出する(ステップS2005)。
出力信号生成手段104〜704は振幅係数を掛けた擬似音声と振幅係数を掛けた擬似雑音を足し合わせて出力信号を生成する(ステップS2006)。ここで出力信号生成手段104〜704は、振幅係数を掛けた擬似音声と振幅係数を掛けた擬似雑音を足し合わせた出力信号のフレーム平均振幅がエラー直前の入力信号のフレーム平均振幅と等しくなるように調節する。
[振幅係数の算出手順2]
図21は本実施例に係る出力信号生成手段104〜704の振幅係数の第2の算出手順を示すフローチャートである。
出力信号生成手段104〜704は、現フレームがエラー開始フレームであるか否かを判別する(ステップS2101)。出力信号生成手段104〜704が、現フレームはエラー開始フレームであると判別する場合(ステップS2101 YES)、出力信号生成手段104〜704は入力信号の音声検出処理を行う(ステップS2102)。本実施例における音声検出処理も入力信号のパワーが閾値を越えたか否かにより音声を判別する処理である。また出力信号生成手段104〜704が、現フレームはエラー開始フレームでないと判別する場合(ステップS2101 NO)、出力信号生成手段104〜704は現フレームにおける音声の有無を判別する。
出力信号生成手段104〜704は音声を検出したか否かを判別する(ステップS2103)。出力信号生成手段104〜704が音声を検出した場合(ステップS2103 YES)、出力信号生成手段104〜704は擬似音声の劣化判定処理を行う(ステップS2104)。
出力信号生成手段104〜704が擬似音声の劣化を判別する(ステップS2105)。出力信号生成手段104〜704が、擬似音声は劣化していないと判別する場合(ステップS2105 NO)、出力信号生成手段104〜704は擬似音声の振幅係数を0.5、擬似雑音の振幅係数を0.5として算出する(ステップS2106)。出力信号生成手段104〜704が、擬似音声は劣化していると判別する場合(ステップS2105 YES)、出力信号生成手段104〜704は擬似音声の振幅係数を1−i/Q、擬似雑音の振幅係数をi/Qとして算出する(ステップS2107)。ここでQは擬似音声が劣化と判定されてから擬似音声の振幅を0にするまでのサンプル数、iは擬似音声が劣化と判定されてからのサンプル数である。また擬似音声の振幅係数は、入力信号の周期性または音声成分の周期性または音源の周期性によって次のように重み付けても良い。たとえば擬似音声の振幅係数=(1−i/Q)×MAX(corr(a))と重み付けする。
ステップS2103において、出力信号生成手段104〜704が音声を検出しない場合(ステップS2103 NO)、出力信号生成手段104〜704は擬似音声の振幅係数を0、擬似雑音の振幅係数を1として算出する(ステップS2108)。
出力信号生成手段104〜704は、振幅係数を掛けた擬似音声と振幅係数を掛けた擬似雑音を足し合わせて出力信号を生成する(ステップS2109)。ここで出力信号生成手段104〜704は、振幅係数を掛けた擬似音声と振幅係数を掛けた擬似雑音を足し合わせて出力信号のフレーム平均振幅がエラー直前の入力信号のフレーム平均振幅と等しくなるように調節する。
[擬似音声の劣化判定手順]
図22は本実施例に係る出力信号生成手段104〜704が実行する擬似音声の劣化判定の処理を示すフローチャートである。
出力信号生成手段104〜704は、入力信号の繰り返し周期成分の大きさP1(dB)を算出する(ステップS2201)。出力信号生成手段104〜704は、入力信号を時間周波数変換して入力信号のパワースペクトルを求める。そして出力信号生成手段104〜704は、入力信号のパワースペクトルより入力信号の繰り返し周期成分の大きさ(パワー)P1を算出する。
出力信号生成手段104〜704は、擬似音声の繰り返し周期成分の大きさP2(dB)を算出する(ステップS2202)。出力信号生成手段104〜704は、擬似音声を時間周波数変換して擬似音声のパワースペクトルを求める。そして出力信号生成手段104〜704は、擬似音声のパワースペクトルより擬似雑音の繰り返し周期成分の大きさ(パワー)P1を算出する。
出力信号生成手段104〜704は、擬似雑音の繰り返し周期成分の大きさP2から入力信号の繰り返し周期成分の大きさP1を減算し、P2−P1を算出する。そして出力信号生成手段104〜704は、P2−P1が予め定めた所定の閾値を越えたか否か判別する(ステップS2203)。出力信号生成手段104〜704が、P2−P1が予め定めた所定の閾値を越えていないと判別する場合(ステップS2203 NO)、出力信号生成手段104〜704は擬似音声に劣化がないと判定する(ステップS2204)。また出力信号生成手段104〜704が、P2−P1が予め定めた所定の閾値を越えていると判別する場合(ステップS2203 YES)、出力信号生成手段104〜704は擬似音声に劣化があると判定する(ステップS2205)。
[情報処理装置100〜700の作用]
本発明に係る情報処理装置100〜700は、入力信号に含まれる音声の特徴量と雑音の特徴量から擬似音声と擬似雑音をそれぞれ独立に生成することにより、パケットロス直前の信号が子音や背景雑音などの周期性が小さいものであっても、不自然な周期発生の異音などによる音質劣化を低減してパケットロスを補間することができる。
以上より本実施例に係る情報処理装置100〜700は、入力信号を分析して入力信号に含まれる音声の特徴量と入力信号に含まれる背景雑音の特徴量を算出する。情報処理装置100〜700は音声の特徴量、背景雑音の特徴量を用いて擬似音声と擬似雑音をそれぞれ独立に生成する。そして情報処理装置100〜700は入力信号の性質に応じて擬似音声と擬似雑音とを配分して出力信号を生成するため、劣化の少ない高音質の補間を実現することができる。
また本実施例に係る情報処理装置200は、背景雑音の周波数特性を用いて擬似雑音を生成するので、入力信号に重畳している背景雑音との音質やパワーの不連続なしに擬似雑音を生成できる。
また情報処理装置400は、入力信号の周期性を算出するため、入力信号の周期性によって擬似音声の配分を決めることができる。これより特に入力信号の周期性が小さい場合に、情報処理装置400は対象信号を繰り返すことによる異音を抑制できる。
また本実施例に係る情報処理装置500は、入力信号の音声成分の周期性を算出するため、入力信号の音声成分の周期性によって擬似音声の配分を決めることができる。これより特に入力信号の音声成分の周期性が小さい場合に、情報処理装置500は対象信号(入力信号の音声成分)を繰り返すことによる異音を抑制できる。また情報処理装置500は入力信号の音声成分のみを繰り返すために、重畳した雑音を周期的に繰り返すことに起因する異音を抑制できる。
また情報処理装置600、700は音声の音源の周期性を算出するため、音声の音源の周期性によって擬似音声の配分を決めることができる。これより音声の音源の周期性が小さい場合に、情報処理装置600、700は対象信号を繰り返すことによる異音を抑制することができる。
また情報処理装置700は、音声の包絡の変化パターンを算出するため、音声の包絡の変化パターンを用いて擬似音声を生成できる。これにより情報処理装置700は、より自然な擬似音声を生成でき、高品質の補間を実現することができる。
次に、以上述べた補間方法の実施形態から抽出される技術的思想を請求項の記載形式に準じて付記として列挙する。本発明に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本発明が限定されるものではない。
(付記1) 伝送で損失した音声のデジタル信号を補間する補間方法において、
該デジタル信号の特徴量を算出する分析手順と、
該特徴量に応じて、擬似音声を生成する擬似音声生成手順と、
該特徴量に応じて、擬似雑音を生成する擬似雑音生成手順と、
該擬似音声と該擬似雑音を組み合わせて補間信号を生成する出力信号生成手順と、
からなることを特徴とする補間方法。
(付記2) 付記1に記載の補間方法において、
該分析手順は、該背景雑音の周波数特性を算出することを特徴とする補間方法。
(付記3) 付記1に記載の補間方法において、
該擬似雑音生成手順は、該背景雑音の周波数特性を持つ信号を生成することを特徴とすることを特徴とする補間方法。
(付記4) 付記2に記載の補間方法において、
該擬似雑音生成手段は、白色雑音に該分析手順で算出した背景雑音の周波数特性を適用して擬似雑音を生成することを特徴とする補間方法。
(付記5) 付記1に記載の補間方法において、
該分析手順は、該背景雑音のパワースペクトルを算出することを特徴とする補間方法。
(付記6) 付記5に記載の補間方法において、
該擬似雑音生成手順は、該分析手順において算出した背景雑音のパワースペクトルにランダムな位相を適用して擬似雑音を生成することを特徴とする補間方法。
(付記7) 付記1に記載の補間方法において、
該分析手順は、該デジタル信号の周期性を算出することを特徴とする補間方法。
(付記8) 付記1に記載の補間方法において、
該擬似音声生成手順は、該デジタル信号を該デジタル信号の周期の整数倍の長さで繰り返して擬似音声を生成することを特徴とする補間方法。
(付記9) 付記1に記載の補間方法において、
該分析手順は、該デジタル信号の音声の包絡と該音声の音源と該音声の周期を算出することを特徴とする補間方法。
(付記10) 付記9に記載の補間方法において、
該擬似音声生成手段は、該音声の包絡と、該音声の音源から擬似音声を生成することを特徴とする補間方法。
(付記11) 付記1に記載の補間方法において、
該分析手順は、該デジタル信号の音声の包絡の変化パターンと該音声の音源と該音源の周期性を算出することを特徴とする補間方法。
(付記12) 付記11に記載の補間方法において、
該擬似音声生成手順は、該音声の包絡の変化パターンと該音声の音源と該音源の周期性を用いて擬似音声を生成することを特徴とする補間方法。
(付記13) 伝送で損失した音声のデジタル信号を補間する情報処理装置において、
該デジタル信号を受信し、該デジタル信号の特徴量を算出する分析手段と、
該デジタル信号に含まれる音声を模倣した擬似音声を生成する擬似音声生成手段と、
該デジタル信号に含まれる背景雑音を模倣した擬似雑音を生成する擬似雑音生成手段と、
該擬似音声と該擬似雑音を重畳して補間信号を生成する出力信号生成手段と、
からなることを特徴とする情報処理装置。
(付記14) 付記1に記載の補間方法は、
該分析手順において信号損失発生前のデジタル信号の特徴量を算出することを特徴とする補間方法。
本実施例に係る情報処理装置100の構成図である。 本実施例に係る情報処理装置200の構成図である。 本実施例に係る情報処理装置300の構成図である。 本実施例に係る情報処理装置400の構成図である。 本実施例に係る情報処理装置500の構成図である。 本実施例に係る情報処理装置600の構成図である。 本実施例に係る情報処理装置700の構成図である。 本実施例に係る情報処理装置100〜700における補間処理のフローチャートである。 本実施例に係る分析手段101〜701における背景雑音の周波数特性の算出の処理手順を示すフローチャートである。 本実施例に係る分析手段501が実行する音声成分の算出手順のフローチャートである。 本実施例に係る分析手段601、701が実行する音声の包絡、音声の音源の算出手順のフローチャートである。 本実施例に係る分析手段701が実行する音声の包絡パターンの算出手順のフローチャートである。 本実施例に係る擬似音声生成手段102〜502が実行する擬似音声の生成手順のフローチャートである。 本実施例に係る繰り替えしの信号片の接続関係を示す模式図である。 本実施例に係る擬似音声生成手段601が実行する擬似音声の生成手順のフローチャートである。 本実施例に係る擬似音声生成手段701が実行する擬似音声の生成手順のフローチャートである。 本実施例に係る擬似雑音生成手段203が実行する擬似雑音の生成手順を示すフローチャートである。 本実施例に係る背景雑音生成手段303が実行する背景雑音の生成手順のフローチャートである。 本実施例に係る出力信号生成手段104〜704が実行する出力信号の生成手順のフローチャートである。 本実施例に係る出力信号生成手段104〜704の振幅係数の第1の算出手順を示すフローチャートである。 本実施例に係る出力信号生成手段104〜704の振幅係数の第2の算出手順を示すフローチャートである。 本実施例に係る出力信号生成手段104〜704が実行する擬似音声の劣化判定の処理を示すフローチャートである。
符号の説明
100…情報処理装置
101…分析手段
102…擬似音声生成手段
103…擬似雑音生成手段
104…出力信号生成手段
200…情報処理装置
201…分析手段
202…擬似音声生成手段
203…擬似雑音生成手段
204…出力信号生成手段
300…情報処理装置
301…分析手段
302…擬似音声生成手段
303…擬似雑音生成手段
304…出力信号生成手段
400…情報処理装置
401…分析手段
402…擬似音声生成手段
403…擬似雑音生成手段
404…出力信号生成手段
500…情報処理装置
501…分析手段
502…擬似音声生成手段
503…擬似雑音生成手段
504…出力信号生成手段
600…情報処理装置
601…分析手段
602…擬似音声生成手段
603…擬似雑音生成手段
604…出力信号生成手段
700…情報処理装置
701…分析手段
702…擬似音声生成手段
703…擬似雑音生成手段
704…出力信号生成手段

Claims (10)

  1. 伝送で損失した音声のデジタル信号を補間する補間方法において、
    該デジタル信号の特徴量を算出する分析手順と、
    該特徴量に応じて、擬似音声を生成する擬似音声生成手順と、
    該特徴量に応じて、擬似雑音を生成する擬似雑音生成手順と、
    該擬似音声と該擬似雑音を組み合わせて補間信号を生成する出力信号生成手順と、
    からなることを特徴とする補間方法。
  2. 請求項1に記載の補間方法において、
    該分析手順は、該背景雑音の周波数特性を算出することを特徴とする補間方法。
  3. 請求項1に記載の補間方法において、
    該擬似雑音生成手順は、該背景雑音の周波数特性を持つ信号を生成することを特徴とすることを特徴とする補間方法。
  4. 請求項2に記載の補間方法において、
    該擬似雑音生成手段は、白色雑音に該分析手順で算出した背景雑音の周波数特性を適用して擬似雑音を生成することを特徴とする補間方法。
  5. 請求項1に記載の補間方法において、
    該分析手順は、該背景雑音のパワースペクトルを算出することを特徴とする補間方法。
  6. 請求項5に記載の補間方法において、
    該擬似雑音生成手順は、該分析手順において算出した背景雑音のパワースペクトルにランダムな位相を適用して擬似雑音を生成することを特徴とする補間方法。
  7. 請求項1に記載の補間方法において、
    該分析手順は、該デジタル信号の周期性を算出することを特徴とする補間方法。
  8. 請求項1に記載の補間方法において、
    該擬似音声生成手順は、該デジタル信号を該デジタル信号の周期の整数倍の長さで繰り返して擬似音声を生成することを特徴とする補間方法。
  9. 請求項1に記載の補間方法において、
    該分析手順は、該デジタル信号の音声の包絡と該音声の音源と該音声の周期を算出することを特徴とする補間方法。
  10. 伝送で損失した音声のデジタル信号を補間する情報処理装置において、
    該デジタル信号の特徴量を算出する分析手段と、
    該特徴量に応じて、擬似音声を生成する擬似音声生成手段と、
    該特徴量に応じて、擬似雑音を生成する擬似雑音生成手段と、
    該擬似音声と該擬似雑音を組み合わせて補間信号を生成する出力信号生成手段と、
    からなることを特徴とする情報処理装置。
JP2007233273A 2007-09-07 2007-09-07 補間方法、情報処理装置 Pending JP2009063928A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007233273A JP2009063928A (ja) 2007-09-07 2007-09-07 補間方法、情報処理装置
US12/230,873 US20090070117A1 (en) 2007-09-07 2008-09-05 Interpolation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007233273A JP2009063928A (ja) 2007-09-07 2007-09-07 補間方法、情報処理装置

Publications (1)

Publication Number Publication Date
JP2009063928A true JP2009063928A (ja) 2009-03-26

Family

ID=40432834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007233273A Pending JP2009063928A (ja) 2007-09-07 2007-09-07 補間方法、情報処理装置

Country Status (2)

Country Link
US (1) US20090070117A1 (ja)
JP (1) JP2009063928A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
JP5477357B2 (ja) * 2010-11-09 2014-04-23 株式会社デンソー 音場可視化システム
PT3664086T (pt) * 2014-06-13 2021-11-02 Ericsson Telefon Ab L M Gestão de erros de tramas em rajada
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
CN110430316B (zh) * 2019-06-25 2021-05-14 努比亚技术有限公司 一种语音降噪方法、移动终端及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588697A (ja) * 1991-09-26 1993-04-09 Kokusai Denshin Denwa Co Ltd <Kdd> 欠落音声補間方式
JP2004077961A (ja) * 2002-08-21 2004-03-11 Oki Electric Ind Co Ltd 音声復号装置
JP2005107283A (ja) * 2003-09-30 2005-04-21 Tadashi Aoki VoIP音声通信におけるパケット損失隠蔽方法、装置およびプログラム
JP2006235643A (ja) * 2001-08-23 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号復号化方法、装置、プログラム及び記録媒体
WO2006130236A2 (en) * 2005-05-31 2006-12-07 Microsoft Corporation Robust decoder

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE60327371D1 (de) * 2003-01-30 2009-06-04 Fujitsu Ltd EINRICHTUNG UND VERFAHREN ZUM VERBERGEN DES VERSCHWINDENS VON AUDIOPAKETEN, EMPFANGSENDGERuT UND AUDIOKOMMUNIKAITONSSYSTEM
PL1897085T3 (pl) * 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、***和装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588697A (ja) * 1991-09-26 1993-04-09 Kokusai Denshin Denwa Co Ltd <Kdd> 欠落音声補間方式
JP2006235643A (ja) * 2001-08-23 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号復号化方法、装置、プログラム及び記録媒体
JP2004077961A (ja) * 2002-08-21 2004-03-11 Oki Electric Ind Co Ltd 音声復号装置
JP2005107283A (ja) * 2003-09-30 2005-04-21 Tadashi Aoki VoIP音声通信におけるパケット損失隠蔽方法、装置およびプログラム
WO2006130236A2 (en) * 2005-05-31 2006-12-07 Microsoft Corporation Robust decoder

Also Published As

Publication number Publication date
US20090070117A1 (en) 2009-03-12

Similar Documents

Publication Publication Date Title
KR101978671B1 (ko) 오디오 프로세서 및 수평 위상 보정을 사용하여 오디오 신호를 처리하기 위한 방법
TWI493541B (zh) 用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式
JP4162604B2 (ja) 雑音抑圧装置及び雑音抑圧方法
RU2526745C2 (ru) Низведение параметров последовательности битов sbr
JP4423300B2 (ja) 雑音抑圧装置
JP5435204B2 (ja) 雑音抑圧の方法、装置、及びプログラム
EP1918910A1 (en) Model-based enhancement of speech signals
EP1772855A1 (en) Method for extending the spectral bandwidth of a speech signal
JP2007316254A (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JP2009063928A (ja) 補間方法、情報処理装置
US6694018B1 (en) Echo canceling apparatus and method, and voice reproducing apparatus
US9454956B2 (en) Sound processing device
EP1342230A1 (en) Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
JP2010055000A (ja) 信号帯域拡張装置
US20090326950A1 (en) Voice waveform interpolating apparatus and method
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
US11622208B2 (en) Apparatus and method for own voice suppression
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
JP2007310298A (ja) 帯域外信号生成装置及び周波数帯域拡張装置
Dorran et al. Time-scale modification of music using a synchronized subband/time-domain approach
Fingscheidt et al. Towards objective quality assessment of speech enhancement systems in a black box approach
KR20130014515A (ko) 재생 속도 또는 피치를 변경할 때 오디오 신호에서 과도 사운드 이벤트를 처리하기 위한 장치 및 방법
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP4447546B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770901B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130514