JP2023548707A - 音声強調方法、装置、機器及びコンピュータプログラム - Google Patents

音声強調方法、装置、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2023548707A
JP2023548707A JP2023527431A JP2023527431A JP2023548707A JP 2023548707 A JP2023548707 A JP 2023548707A JP 2023527431 A JP2023527431 A JP 2023527431A JP 2023527431 A JP2023527431 A JP 2023527431A JP 2023548707 A JP2023548707 A JP 2023548707A
Authority
JP
Japan
Prior art keywords
glottal
target
frame
spectrum
complex spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023527431A
Other languages
English (en)
Inventor
▲ウェイ▼ 肖
裕▲鵬▼ 史
蒙 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023548707A publication Critical patent/JP2023548707A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本願は音声処理の技術分野に関し、具体的には、音声強調方法、装置、機器及び記憶媒体を提供しており、該方法は、目標音声フレームの対応する複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得るステップと、前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得るステップと、前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得るステップとを含む。本解決手段は音声に対して強調を効果的に行うことができ、クラウド会議に適用できる。

Description

本願は音声処理の技術分野に関し、具体的に言えば、音声強調方法、装置、機器及び記憶媒体に関する。
本願は2021年2月8日に中国特許庁に提出された、出願番号が第202110181389.4号、発明の名称が「音声強調方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、その全内容は引用により本願に組み込まれている。
音声通信の便利性及び適時性により、音声通信の応用はますます幅広くなっており、たとえば、クラウド会議の会議参加者の間で音声信号が伝送される。ただし、音声通信においては、音声信号中にはノイズが混入される可能性があり、音声信号中に混入されるノイズが通信品質の劣化を招き、ユーザーの聴覚的体験に極めて大きな影響を与えることがある。従って、如何に音声に対して強調処理を行うことでノイズを除去するかは従来技術において早急に解決する技術的課題である。
本願の実施例は音声強調方法、装置、機器及び記憶媒体を提供することで、音声強調を実現し、音声信号の品質を向上させる。
本願のその他特性及び利点は以下の詳細な記述により明らかになるか、又は部分的に本願の実践により把握されて得られる。
本願の実施例の一態様によれば、音声強調方法を提供し、目標音声フレームの対応する複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得るステップと、前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得るステップと、前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得るステップとを含む。
本願の実施例の別の一態様によれば、音声強調装置を提供し、目標音声フレームの複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得ることに用いられるプリエンファシスモジュールと、前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得ることに用いられる音声分解モジュールと、前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得ることに用いられる合成処理モジュールとを含む。
本願の実施例の別の一態様によれば、電子機器を提供し、プロセッサと、メモリであって、前記メモリ上にコンピュータ可読指令が記憶され、前記コンピュータ可読指令が前記プロセッサによって実行されるときに、上記に記載の音声強調方法を実現するメモリとを含む。
本願の実施例の別の一態様によれば、コンピュータ可読記憶媒体を提供し、その上にコンピュータ可読指令が記憶され、前記コンピュータ可読指令がプロセッサによって実行されるときに、上記に記載の音声強調方法を実現する。
本願の解決手段においては、まず目標音声フレームに対してプリエンファシスを行って第1複素スペクトルを得て、次に第1複素スペクトルを基礎として目標音声フレームに対して音声分解と合成を行い、2段階に分けて目標音声フレームに対して強調を行うことを実現するため、音声強調効果を効果的に保証することができる。そして、目標音声フレームに対してプリエンファシスを行って得られた第1複素スペクトルを基礎として、目標音声フレームに対して音声分解を行い、プリエンファシス前の目標音声フレームに比べて、第1複素スペクトルにおけるノイズの情報がより少なくなる。一方、音声分解過程において、ノイズが音声分解の正確性に影響を与えることがあり、従って、第1複素スペクトルを音声分解の基礎とすることで、音声分解の難度を低減させ、音声分解で得られた声門パラメータ、励起信号及びゲインの正確性を向上させ、さらに後続で取得された強調音声信号の正確性を保証することができる。そして、プリエンファシスで得られた第1複素スペクトル中には位相情報と振幅情報とが含まれ、該第1複素スペクトルにおける位相情報と振幅情報とを基礎として音声分解及び音声合成を行うことで、得られた目標音声フレームに対応する強調音声信号の振幅と位相の精度が保証されている。
理解すべきことは、以上の一般的な記述と後述の細部の記述は例示的で解釈的なものに過ぎず、本願を限定し得るものではないことである。
ここでの図面は、明細書に組み込まれ、且つ本明細書の一部を構成しており、本願にマッチングする実施例を示し、且つ明細書とともに本願の原理を解釈することに用いられる。明らかなように、以下の記述における図面は本願のいくつかの実施例に過ぎず、当業者にとって、創造的な労働を必要としない前提において、これらの図面に基づいてその他の図面を取得することもできる。図面において以下のとおりである。
1つの具体的な実施例に基づいて示されるVoIPシステムにおける音声通信リンクの模式図である。 音声信号が生じているデジタルモデルの模式図を示す。 1つの元の音声信号に基づいて励起信号と声門フィルターを分解する周波数応答の模式図を示す。 本願の一実施例に基づいて示される音声強調方法のフローチャートである。 1つの具体的な実施例に基づいて示される複素畳み込み層が複素数に対して畳み込み処理を行う模式図である。 1つの具体的な実施例に基づいて示される第1ニューラルネットワークの構造模式図である。 1つの具体的な実施例に基づいて示される第2ニューラルネットワークの模式図である。 別の一実施例に基づいて示される第2ニューラルネットワークの入力と出力の模式図である。 1つの具体的な実施例に基づいて示される第3ニューラルネットワークの模式図である。 1つの具体的な実施例に基づいて示される第4ニューラルネットワークの模式図である。 一実施例に基づいて示されるステップ430のフローチャートである。 1つの具体的な実施例に基づいて示される音声強調方法のフローチャートである。 一実施例に基づいて示されるステップ420のフローチャートである。 別の一実施例に基づいて示されるステップ430のフローチャートである。 別の1つの具体的な実施例に基づいて示される音声強調方法のフローチャートである。 1つの具体的な実施例に基づいて示される短時間フーリエ変換における窓掛け・オーバーラップの模式図である。 一実施例に基づいて示される音声強調装置のブロック図である。 本願の実施例を実現するための電子機器に適するコンピュータシステムの構造模式図を示す。
これより、図面を参照しながら例示的な実施形態をより全面的に記述する。しかしながら、例示的な実施形態は複数種の形式で実施でき、且つここで述べられた例に限定されると理解すべきでない。逆に、これらの実施形態の提供により、本願はより全面的で完全になり、且つ例示的な実施形態の発想は当業者に全面的に伝達される。
この他、記述される特徴、構造又は特性は、任意の適切な方式で1つ又はより多くの実施例に組み込まれてもよい。以下の記述において、多くの具体的な細部を提供することで本願の実施例に対する十分な理解を与える。しかしながら、当業者は、特定の細部のうちの1つ又はより多くがなかったとしても、又はその他の方法、エレメント、装置、ステップ等を採用したとしても本願の技術的手段を実践できることを認識することができる。その他の状況においては、公知の方法、装置、実現又は操作を詳細に示さない、又は記述しないことによって、本願の各態様を不明瞭にすることを回避する。
図面において示されるブロック図は、単なる機能エンティティであり、必ずしも物理的に独立したエンティティに対応するわけではない。すなわち、ソフトウェアの形式を採用することでこれらの機能エンティティを実現する、又は1つ又は複数のハードウェアモジュール又は集積回路においてこれらの機能エンティティを実現する、又は異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロ制御器装置においてこれらの機能エンティティを実現することができる。
図面において示されるフローチャートは例示的な説明に過ぎず、必ずしもあらゆる内容と操作/ステップを含むわけではなく、必ずしも記述された順序で実行されるわけでもない。たとえば、ある操作/ステップはさらに分解でき、一方、ある操作/ステップは併せることができ、又は部分的に併せることができ、従って、実際に実行される順序は実際の状況に応じて変化する可能性がある。
説明する必要がある点として、本明細書中に言及される「複数」は2つ又は2つ以上を指す。「及び/又は」は関連対象の関連関係を記述し、3種の関係が存在できることを表し、たとえば、A及び/又はBは、Aが単独で存在すること、AとBが同時に存在すること、Bが単独で存在することの3種の状況を表すことができる。文字「/」は一般的に前後の関連対象が「又は」の関係であることを表す。
音声信号におけるノイズが、音声品質を極めて大きく低減させ、ユーザーの聴覚的体験に影響を与えることがあり、従って、音声信号の品質を向上させるために、音声信号に対して強調処理を行うことで、ノイズを最大限に除去し、信号における元の音声信号(すなわち、ノイズを含まない純粋な信号)を保留する必要がある。音声に対して強調処理を行うことを実現するために、本願の解決手段が提案されている。
本願の解決手段は、音声通話の応用シーンにおいて適用でき、たとえば、インスタントメッセージングアプリケーションを介して行われる音声通信、ゲームアプリケーションにおける音声通話である。具体的には、音声の送信端、音声の受信端、又は音声通信サービスを提供するサーバ端末で本願の解決手段に従って音声強調を行うことができる。
クラウド会議はオンライン業務実行における1つの重要な過程であり、クラウド会議において、クラウド会議の参加者の音収集装置が発言者の音声信号を収集した後に、収集された音声信号をその他の会議参加者に送信する必要がある。該過程に関わる音声信号は複数の参加者の間で伝送されて再生され、音声信号中に混入されたノイズ信号に対して処理を行われなければ、会議参加者の聴覚的体験に極めて大きな影響を与えることがある。このようなシーンにおいて、本願の解決手段を応用してクラウド会議中の音声信号に対して強調を行うことができ、これにより、会議参加者が聞き取っる音声信号は強調された後の音声信号とすることができ、音声信号の品質を向上させることができる。
クラウド会議は、クラウドコンピューティング技術に基づく高効率で、便利な、低コストの会議形式である。ユーザーはインターネットインターフェースを介して、簡単で使いやすい操作を行うだけで、迅速且つ高効率に世界的なチーム及び顧客と音声、データファイル及びビデオを同期して共有することができ、一方、会議中のデータの伝送、処理等の複雑な技術はクラウド会議サービス提供者がユーザーを補助することにより操作され得る。
現在、中国国内のクラウド会議は主にSaaS (Software as a Service、ソフトウェア・アズ・ア・サービス)モードを主体とするサービス内容に焦点を当てて、電話、ネットワーク、ビデオ等のサービス形式を含み、クラウドコンピューティングに基づくビデオ会議はクラウド会議と呼ばれる。クラウド会議の時代においては、データの伝送、処理、記憶はすべてビデオ会議提供者のコンピュータリソースにより処理され、ユーザーはさらに高価なハードウェアを購入したり煩雑なソフトウェアをインストールしたりする必要が全くなく、クライアント端末を開いて対応するインターフェースにアクセスするだけで、高効率な遠隔会議を行うことができる。
クラウド会議システムは、マルチサーバの動的クラスター配置をサポートし、且つ複数台の高性能サーバを提供し、会議の安定性、安全性、可用性を大幅に高める。近年、ビデオ会議はコミュニケーション効率を大幅に向上させ、コミュニケーションコストを連続的に低減させ、内部管理レベルのアップグレードをもたらすことができるため、多くのユーザーに人気があり、すでに政府、軍隊、交通、輸送、金融、オペレータ、教育、企業等の各分野に幅広く応用されている。
図1は、1つの具体的な実施例に基づいて示されるVoIP(Voice over Internet Protocol、ネットワーク電話)システムにおける音声通信リンクの模式図である。図1に示すように、送信端110と受信端120のネットワーク接続に基づき、送信端110と受信端120は音声伝送を行うことができる。
図1に示すように、送信端110は収集モジュール111、前強調処理モジュール112及び符号化モジュール113を含み、ここで、収集モジュール111は、音声信号を収集することに用いられ、それは収集した音響信号をデジタル信号に変換することができ、前強調処理モジュール112は、収集された音声信号に対して強調を行うことで、収集された音声信号中のノイズを除去し、音声信号の品質を向上させることに用いられる。符号化モジュール113は、強調された後の音声信号に対して符号化を行うことで、音声信号の伝送過程中の干渉抵抗性を向上させることに用いられる。前強調処理モジュール112は、本願の方法に従って音声強調を行い、音声に対して強調を行った後、さらに符号化圧縮及び伝送を行うことができ、このように、受信端が受信した信号がノイズに影響されなくなることを保証できる。
受信端120は復号モジュール121、後強調モジュール122及び再生モジュール123を含む。復号モジュール121は受信した符号化音声信号に対して復号を行い、復号後の音声信号を得ることに用いられ、後強調モジュール122は復号後の音声信号に対して強調処理を行うことに用いられ、再生モジュール123は強調処理後の音声信号を再生することに用いられる。後強調モジュール122は本願の方法に従って音声強調を行うこともできる。いくつかの実施例では、受信端120はさらに音響効果調節モジュールを含んでもよく、該音響効果調節モジュールは強調された後の音声信号に対して音響効果調節を行うことに用いられる。
具体的な実施例において、受信端120のみ、又は送信端110のみで本願の方法に従って音声強調を行うことができ、もちろん、さらに送信端110と受信端120の両方で本願の方法に従って音声強調を行うこともできる。
いくつかの応用シーンにおいて、VoIPシステムにおける端末機器はVoIP通信をサポートできる以外に、さらにその他のサードパーティプロトコル、たとえば従来のPSTN(Public Switched Telephone Network、公共交換電話網)回路ドメイン電話をサポートすることもできる。一方、従来のPSTNサービスは音声強調を行うことができず、このようなシーンにおいては、受信端としての端末において本願の方法に従って音声強調を行うことができる。
本願の解決手段に対して具体的な説明を行う前に、音声信号が生じるということについて説明を行う必要がある。音声信号は、人体の発音器官の脳制御における生理的運動によって生じるものであり、すなわち、気管のところで一定のエネルギーのノイズのような衝撃信号(励起信号に相当)が生じ、衝撃信号が人間の声帯(声帯が声門フィルターに相当)に衝撃を与え、略周期的な開閉が生じ、口腔を通じて増幅した後に、音を発する(音声信号を出力)。
図2は、音声信号が生じているデジタルモデルの模式図を示しており、該デジタルモデルにより音声信号が生じる過程を記述することができる。図2に示すように、励起信号は声門フィルターに衝撃を与えた後、さらにゲイン制御を行って、その後音声信号を出力し、ここで、声門フィルターは声門パラメータにより限定される。該過程は下式で表すことができる。
x(n)=G・r(n)・ar(n)(式1)
ここで、x(n)は入力された音声信号を表し、Gはゲインを表し、線形予測ゲインと呼ばれることもでき、r(n)は励起信号を表し、ar(n)は声門フィルターを表す。
図3は、1つの元の音声信号に基づいて励起信号と声門フィルターを分解する周波数応答の模式図を示す。図3aは該元の音声信号の周波数応答の模式図を示し、図3bは該元の音声信号に基づいて分解された声門フィルターの周波数応答の模式図を示し、図3cは該元の音声信号に基づいて分解された励起信号の周波数応答の模式図を示す。図3に示すように、該元の音声信号の周波数応答の模式図における波形部分は声門フィルターの周波数応答の模式図におけるピーク位置に対応し、励起信号は該元の音声信号に対してLP(Linear Prediction、線形予測)分析を行った後の残差信号に相当し、従って、その対応する周波数応答が比較的緩やかである。
上記からわかるように、1つの元の音声信号(すなわち、ノイズを含まない音声信号)に基づいて励起信号、声門フィルター及びゲインを分解することができ、分解された励起信号、声門フィルター及びゲインは該元の音声信号を表現することに用いられてもよく、ここで、声門フィルターは声門パラメータにより表現できる。逆に、1つの元の音声信号の対応する励起信号、声門フィルターを決定することに用いられる声門パラメータ及びゲインが知られていれば、対応する励起信号、声門フィルター及びゲインに基づいて該元の音声信号を再構成することができる。
本願の解決手段は、該原理に基づき、音声フレームの対応する声門パラメータ、励起信号及びゲインに基づいて該音声フレームにおける元の音声信号を再構成し、音声強調を実現することである。
以下、本願の実施例の技術的手段を詳細に述べる。
図4は、本願の一実施例に基づいて示される音声強調方法のフローチャートであり、該方法は処理能力を備えるコンピュータ機器により実行されてもよく、たとえば、端末、サーバ等であり、ここで具体的な限定を行わない。図4に示されるものを参照すると、該方法は少なくともステップ410~430を含み、以下のように詳細に説明される。
ステップ410:目標音声フレームの対応する複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得る。
音声信号は緩やかでランダムに変化するのではなく経時的に変化するものであるが、短時間内で音声信号が強い相関を有する、すなわち、音声信号が短時間相関性を有する。従って、本願の解決手段において、音声フレームを単位として音声強調を行う。目標音声フレームとは現在の強調処理対象の音声フレームを指す。
目標音声フレームの対応する複素スペクトルは該目標音声フレームの時間領域信号に対して時間周波数変換を行うことにより取得することができ、時間周波数変換はたとえば短時間フーリエ変換(Short-term Fourier transform、STFT)であってもよい。目標音声フレームの対応する複素スペクトルにおける実部の係数は該目標音声フレームの振幅情報を指示することに用いられ、虚部の係数は目標音声フレームの位相情報を指示することに用いられる。
目標音声フレームに対してプリエンファシスを行うことにより、目標音声フレームにおける一部のノイズを除去することができ、従って、目標音声フレームの対応する複素スペクトルに比べて、プリエンファシスで得られた第1複素スペクトルにおけるノイズ含有量がより少ない。
本願のいくつかの実施例では、深層学習の方式を採用して目標音声フレームに対してプリエンファシスを行うことができる。1つのニューラルネットワークモデルをトレーニングすることにより、音声フレームの対応する複素スペクトルに基づいて音声フレームにおけるノイズの複素スペクトルを予測し、次に音声フレームの複素スペクトルと予測されたノイズの複素スペクトルとを減算し、第1複素スペクトルを得る。記述の便宜のために、音声フレームにおけるノイズの複素スペクトルを予測することに用いられる該ニューラルネットワークモデルをノイズ予測モデルと呼ぶ。トレーニング終了後に、該ノイズ予測モデルは入力された音声フレームの複素スペクトルに基づいて予測されたノイズの複素スペクトルを出力することができ、次に音声フレームの複素スペクトルとノイズの複素スペクトルとを減算すると、第1複素スペクトルを得られる。
本願のいくつかの実施例では、さらに1つのニューラルネットワークモデルをトレーニングすることで、音声フレームの複素スペクトルに基づいて強調された後の該音声フレームの第1複素スペクトルを予測することができる。記述の便宜のために、強調された後の複素スペクトルを予測することに用いられる該ニューラルネットワークモデルを強調複素スペクトル予測モデルと呼ぶ。トレーニング過程において、サンプル音声フレームの複素スペクトルを該強調複素スペクトル予測モデル中に入力し、該強調複素スペクトル予測モデルによって強調された後の複素スペクトルを予測し、且つ予測された強調された後の複素スペクトルと該サンプル音声フレームのラベル情報とに基づいて強調複素スペクトル予測モデルのパラメータを調整し、予測された強調された後の複素スペクトルとラベル情報が指示した複素スペクトルとの間の差異が所定の要件を満たすまで続ける。サンプル音声フレームのラベル情報はサンプル音声フレームにおける元の音声信号の複素スペクトルを指示することに用いられる。トレーニング終了後に、該強調複素スペクトル予測モデルは目標音声フレームの複素スペクトルに基づいて第1複素スペクトルを出力することができる。
ステップ420:前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得る。
音声分解で得られた目標音声フレームの対応する声門パラメータ、対応するゲイン及び対応する励起信号は、図2に示される過程に従って目標音声フレームにおける元の音声信号を再構成することに用いられる。
上記の記述のように、1つの元の音声信号は、励起信号が声門フィルターに衝撃を与えてからゲイン制御を行うことにより得られるものである。該第1複素スペクトル中には目標音声フレームの元の音声信号の情報が含まれており、従って、該第1複素スペクトルに基づき線形予測分析を行い、目標音声フレームにおける元の音声信号を再構成することに用いられる声門パラメータ、励起信号及びゲインを逆方向に決定する。
声門パラメータとは、声門フィルターを構築することに用いられるパラメータを指し、声門パラメータが決定されると、声門フィルターが対応して決定され、声門フィルターはデジタルフィルターである。声門パラメータは線形予測符号化(Linear Prediction Coefficients、LPC)係数であってもよく、さらに線スペクトル周波数(Line Spectral Frequency、LSF)パラメータであってもよい。目標音声フレームに対応する声門パラメータの数量は声門フィルターの次数に関連しており、前記声門フィルターがK次フィルターである場合、前記声門パラメータはK次LSFパラメータ又はK次LPC係数を含み、ここで、LSFパラメータとLPC係数との間が相互に転換することができる。
1つのp次の声門フィルターは、
(z)=1+a-1+a-2+…+a-p (式2)として表されてもよい。
ここで、a、a、…、aはLPC係数であり、pは声門フィルターの次数であり、zは声門フィルターの入力信号である。
式2を基礎として、
P(z)=A(z)-z-(p+1)(z-1) (式3)
Q(z)=A(z)+z-(p+1)(z-1) (式4)のように設定する場合、
以下[数1] (式5)を得ることができる。
Figure 2023548707000002
物理的には、P(z)とQ(z)は、それぞれ声門開放と声門閉鎖の周期的な変化規律を代表する。多項式P(z)とQ(z)の根は複素平面上で交互に出現し、それは複素平面単位円上に分布する一連の角周波数であり、LSFパラメータはすなわちP(z)とQ(z)の根の複素平面単位円上の対応する角周波数であり、第nフレームの音声フレームの対応するLSFパラメータLSF(n)はωnとして表されてもよい。もちろん、第nフレームの音声フレームの対応するLSFパラメータLSF(n)はさらに該第nフレームの音声フレームに対応するP(z)の根と対応するQ(z)根で直接的に示されることができる。
第nフレームの音声フレームに対応するP(z)とQ(z)の複素平面での根をθとして定義すると、第nフレームの音声フレームの対応するLSFパラメータは、
以下[数2] (式6)として表される。
Figure 2023548707000003
ここで、Rel{θ}は複素数θの実部を表し、Imag{θ}は複素数θの虚部を表す。
本願のいくつかの実施例では、深層学習の方式を採用して音声分解を行うことができる。まず、それぞれ声門パラメータ予測を行うこと、励起信号予測を行うこと、及びゲイン予測を行うことに用いられるニューラルネットワークモデルをトレーニングすることができ、該3つのニューラルネットワークモデルが第1複素スペクトルに基づき目標音声フレームの対応する声門パラメータ、励起信号及びゲインをそれぞれ予測できるようにする。
本願のいくつかの実施例では、さらに線形予測分析の原理に従って、第1複素スペクトルに基づいて信号処理を行い、且つ目標音声フレームの対応する声門パラメータ、励起信号及びゲインを計算することができ、具体的な過程は下記の記述を参照する。
ステップ430:前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得る。
目標音声フレームの対応する声門パラメータが決定される場合に、その対応する声門フィルターは対応して決定される。それを基に、図2に示される元の音声信号の生成過程に基づいて、目標音声フレームの対応する励起信号が決定される声門フィルターに衝撃を与え、且つ目標音声フレームの対応するゲインに応じてフィルタリングで得られた信号に対してゲイン制御を行うことにより、元の音声信号の再構成を実現することができ、再構成で取得された信号はすなわち目標音声フレームの対応する強調音声信号である。
本願の解決手段において、まず、目標音声フレームに対してプリエンファシスを行って第1複素スペクトルを得て、次に第1複素スペクトルを基礎として目標音声フレームに対して音声分解と合成を行い、2段階に分けて目標音声フレームに対して強調を行うことを実現し、音声強調効果を効果的に保証することができる。そして、目標音声フレームに対してプリエンファシスを行って得られた第1複素スペクトルを基礎として、目標音声フレームに対して音声分解を行い、目標音声フレームがプリエンファシスされる前のスペクトルに比べて、第1複素スペクトルにおけるノイズの情報がより少なくなる。音声分解過程においては、ノイズが音声分解の正確性に影響を与えることがあり、従って、第1複素スペクトルを音声分解の基礎とすることで、音声分解の難度を低減させ、音声分解で得られた声門パラメータ、励起信号及びゲインの正確性を向上させ、さらに後続で取得された強調音声信号の正確性を保証することができる。プリエンファシスで得られた第1複素スペクトル中には位相情報と振幅情報が含まれ、該第1複素スペクトルにおける位相情報と振幅情報を基礎として音声分解及び音声合成を行うことで、得られた目標音声フレームに対応する強調音声信号の振幅と位相の精度が保証されている。
本願のいくつかの実施例では、ステップ410は、前記目標音声フレームの対応する複素スペクトルを第1ニューラルネットワークに入力するステップであって、前記第1ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームにおける元の音声信号の対応する複素スペクトルとに基づいてトレーニングを行って得られるものである、ステップと、前記第1ニューラルネットワークによって、前記目標音声フレームの対応する複素スペクトルに基づいて前記第1複素スペクトルを出力するステップとを含む。
第1ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、全結合ニューラルネットワーク、ゲート付き回帰型ユニット等により構築されたモデルであってもよく、ここで具体的な限定を行わない。
本願のいくつかの実施例では、サンプル音声信号に対してフレーム分割を行うことにより、複数のサンプル音声フレームを得ることができる。ここで、サンプル音声信号は、知られている元の音声信号と知られているノイズ信号とを組み合わせることにより得ることができ、このように、元の音声信号が知られている場合に、対応してサンプル音声フレームにおける元の音声信号に対して時間周波数変換を行って、サンプル音声フレームにおける元の音声信号の対応する複素スペクトルを得ることができる。サンプル音声フレームの対応する複素スペクトルは、該サンプル音声フレームの時間領域信号に対して時間周波数変換を行うことにより得ることができる。
トレーニング過程において、サンプル音声フレームの対応する複素スペクトルを第1ニューラルネットワークに入力し、第1ニューラルネットワークによって、サンプル音声フレームの対応する複素スペクトルに基づいて予測を行い、予測された第1複素スペクトルを出力し、次に予測された第1複素スペクトルと該サンプル音声フレームにおける元の音声信号の対応する複素スペクトルとを比較し、両方の間の類似度が所定の要件を満たさなければ、第1ニューラルネットワークのパラメータを調整し、第1ニューラルネットワークが出力した予測された第1複素スペクトルと該サンプル音声フレームにおける元の音声信号の対応する複素スペクトルとの間の類似度が所定の要件を満たすまで続ける。ここで、該所定の要件は、予測された第1複素スペクトルと該サンプル音声フレームにおける元の音声信号の対応する複素スペクトルとの間の類似度が類似度閾値以上であることであってもよく、該類似度閾値はニーズに応じて設定を行うことができ、たとえば、100%、98%等である。上記のようなトレーニング過程により、該第1ニューラルネットワークは入力された複素スペクトルに基づいて第1複素スペクトルを予測する能力を学習することができる。
本願のいくつかの実施例では、前記第1ニューラルネットワークは複素畳み込み層、ゲート付き回帰型ユニット層及び全結合層を含む。上記した前記第1ニューラルネットワークによって、前記目標音声フレームの複素スペクトルに基づいて前記第1複素スペクトルを出力するステップは、さらに、前記複素畳み込み層によって前記目標音声フレームに対応する複素スペクトルにおける実部及び虚部に基づいて複素畳み込み処理を行うステップと、前記ゲート付き回帰型ユニット層によって前記複素畳み込み層の出力に対して変換処理を行うステップと、前記全結合層によって前記ゲート付き回帰型ユニットの出力に対して全結合処理を行い、前記第1複素スペクトルを出力するステップとを含む。
具体的な実施例において、第1ニューラルネットワークは1層又は複数層の複素畳み込み層を含んでもよく、同様に、ゲート付き回帰型ユニット層と全結合層も1層又は複数層であってもよく、具体的には、複素畳み込み層、ゲート付き回帰型ユニット層及び全結合層の数量は実際のニーズに応じて設定を行うことができる。
図5は、1つの具体的な実施例に基づいて示される複素畳み込み層が複素数に対して畳み込み処理を行う模式図であり、複素畳み込み層の入力複素数がE+jFであり、複素畳み込み層の加重がA+jBであると仮定する。図5に示すように、複素畳み込み層は2次元畳み込み層(Real_conv、Imag_conv)、結合層(Concat)及び活性化層(Leaky_Relu)を含む。入力複素数中の実部Eと虚部Fとを2次元畳み込み層に入力した後に、該2次元畳み込み層は複素畳み込み層の加重に応じて畳み込みを行い、それが畳み込み演算を行う過程は下式で示される。
(E+jF)*(A+jB)=(E*A-F*B)+j(E*B+F*A) (式7)
C=E*A-F*B、D=E*B+F*Aに設定する場合、上式7はさらに、
(E+jF)*(A+jB)=C+jD (式8)に転換する。
図5に示すように、2次元畳み込み層が畳み込まれた後の実部と虚部を出力した後に、結合層によって実部と虚部とを結合し、結合結果を得て、次に、活性化層によって結合結果に対して活性化を行う。図5において、活性化層に使用された活性化関数がLeaky_Relu活性化関数である。Leaky_Relu活性化関数の表現式は、
f(x)=max(ax,x)(aが定数である) (式9)である。
その他の実施例において、活性化層に使用された活性化関数はさらにその他の関数、たとえばzRelu関数等であってもよく、ここで具体的な限定を行わない。
図6は、1つの具体的な実施例に基づいて示される第1ニューラルネットワークの構造模式図であり、図6に示すように、該第1ニューラルネットワークは、順にカスケード接続された6層の複素畳み込み層(Conv)、1層のゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)層及び2層の全結合(Full Connected、FC)層を含む。目標音声フレームに対応する複素スペクトルS(n)を該第1ニューラルネットワークに入力した後に、まず6層の複素畳み込み層によって順に複素畳み込み処理を行い、次にGRU層によって変換を行い、さらに2層のFC層によって順次に全結合を行い、且つ最後の1層のFC層によって第1複素スペクトルを出力する。ここで、各層の括弧内の数字は該層が出力した変数の次元を表す。図6に示される第1ニューラルネットワークにおいて、最後の1層のFC層が出力した次元は322次元であり、161個のSTFT係数中の実部と虚部を示すことに用いられる。
本願のいくつかの実施例では、ステップ420は、前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得るステップと、前記第1複素スペクトルに基づいて前記目標音声フレームに対して励起信号予測を行い、前記目標音声フレームの対応する励起信号を得るステップと、前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームに対してゲイン予測を行い、前記目標音声フレームの対応するゲインを得るステップとを含む。
本願のいくつかの実施例では、声門パラメータ予測を行うことに用いられるニューラルネットワークモデル(第2ニューラルネットワークとして仮定)、ゲイン予測を行うニューラルネットワークモデル(第3ニューラルネットワークとして仮定)、及び励起信号予測を行うニューラルネットワークモデル(第4ニューラルネットワークとして仮定)をそれぞれトレーニングすることができる。ここで、該3種のニューラルネットワークモデルは長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、全結合ニューラルネットワーク等により構築されたモデルであってもよく、ここで具体的な限定を行わない。
本願のいくつかの実施例では、上記した前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得るステップは、さらに、前記第1複素スペクトルを第2ニューラルネットワークに入力するステップであって、前記第2ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームの対応する声門パラメータとに基づいてトレーニングを行って得られるものである、ステップと、前記第2ニューラルネットワークによって、前記第1複素スペクトルに基づいて前記目標音声フレームの対応する声門パラメータを出力するステップとを含む。
サンプル音声フレームの対応する複素スペクトルは、サンプル音声フレームの時間領域信号に対して時間周波数変換を行うことにより得られるものである。本願のいくつかの実施例では、サンプル音声信号に対してフレーム分割を行い、複数のサンプル音声フレームを得ることができる。サンプル音声信号は知られている元の音声信号と知られているノイズ信号とを組み合わせることにより得ることができる。このように、元の音声信号が知られている場合に、元の音声信号に対して線形予測分析を行うことによりサンプル音声フレームの対応する声門パラメータを得ることができ、換言すれば、サンプル音声フレームの対応する声門パラメータとはサンプル音声フレームにおける元の音声信号を再構成することに用いられる声門パラメータを指す。
トレーニング過程においては、サンプル音声フレームの複素スペクトルを第2ニューラルネットワークに入力した後に、第2ニューラルネットワークによって、サンプル音声フレームの複素スペクトルに基づいて声門パラメータ予測を行い、予測声門パラメータを出力し、次に、予測声門パラメータと該サンプル音声フレームの対応する声門パラメータとを比較し、両方が一致しなければ、第2ニューラルネットワークのパラメータを調整し、第2ニューラルネットワークがサンプル音声フレームの複素スペクトルに基づいて出力した予測声門パラメータが該サンプル音声フレームの対応する声門パラメータと一致するまで続ける。トレーニング終了後に、該第2ニューラルネットワークは、入力された音声フレームの複素スペクトルに基づいて該音声フレームにおける元の音声信号を再構成することに用いられる声門パラメータを正確に予測する能力を学習している。
図7は、1つの具体的な実施例に基づいて示される第2ニューラルネットワークの模式図である。図7に示すように、該第2ニューラルネットワークは、1層のLSTM(Long-Short Term Memory、長・短期記憶ネットワーク)層と3層のカスケード接続されたFC(Full Connected、全結合)層とを含む。ここで、LSTM層は1つの隠れ層であり、それは256個のユニットを含み、LSTM層の入力は第nフレームの音声フレームの対応する第1複素スペクトルS’(n)である。本実施例において、LSTM層の入力は321次元である。3層のカスケード接続されたFC層において、前の2層のFC層中には活性化関数σ()が設定され、設定された活性化関数は第2ニューラルネットワークの非線形発現能力を増加することに用いられ、最後の1層のFC層中には活性化関数が設定されず、該最後の1層のFC層は分類器として分類出力を行う。図7に示すように、入力から出力への方向に沿って、3層のFC層中にはそれぞれ512、512、16個のユニットが含まれ、最後の1層のFC層の出力は該第nフレームの音声フレームに対応する16次元の線スペクトル周波数係数LSF(n)、すなわち16次線スペクトル周波数パラメータである。
本願のいくつかの実施例では、音声フレームの間に相関性があり、隣接する2つの音声フレームの間の周波数領域特徴の類似性が比較的高く、従って、目標音声フレームの前の履歴音声フレームの対応する声門パラメータと組み合わせて目標音声フレームの対応する声門パラメータを予測することができる。一実施例において、上記した前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得るステップは、さらに、前記第1複素スペクトルと前記目標音声フレームの前の履歴音声フレームの対応する声門パラメータとを第2ニューラルネットワークに入力するステップであって、前記第2ニューラルネットワークはサンプル音声フレームの対応する複素スペクトル、サンプル音声フレームの前の履歴音声フレームの対応する声門パラメータ及びサンプル音声フレームの対応する声門パラメータに基づいてトレーニングを行って得られるものである、ステップと、前記第1ニューラルネットワークによって、前記第1複素スペクトルと前記目標音声フレームの前の履歴音声フレームの対応する声門パラメータとに基づいて前記目標音声フレームの対応する声門パラメータを出力するステップとを含む。
履歴音声フレームと目標音声フレームとの間に相関性があり、目標音声フレームの履歴音声フレームに対応する声門パラメータと目標音声フレームの対応する声門パラメータとの間に類似性があるため、目標音声フレームの履歴音声フレームの対応する声門パラメータを参照として、目標音声フレームの声門パラメータの予測過程に対して監視を行うことで、声門パラメータ予測の正確率を向上させることができる。
本願のいくつかの実施例では、音声フレームが時間的により近いほど声門パラメータの類似性がより高いため、目標音声フレームに比較的近い履歴音声フレームの対応する声門パラメータを参照とすることで、予測正確率をさらに保証することができ、たとえば、目標音声フレームの直前音声フレームの対応する声門パラメータを参照とすることができる。具体的な実施例において、参照としての履歴音声フレームの数量は1フレームであってもよく、又はマルチフレームであってもよく、具体的には、実際のニーズに応じて選択して用いることができる。
目標音声フレームの履歴音声フレームに対応する声門パラメータは該履歴音声フレームに対して声門パラメータ予測を行うことにより得られた声門パラメータであってもよい。換言すれば、声門パラメータの予測過程において、履歴音声フレームについて予測された声門パラメータを現在の音声フレームの声門パラメータ予測過程の参照として多重化する。
本実施例における第2ニューラルネットワークのトレーニング過程は、前の一実施例における第2ニューラルネットワークのトレーニング過程に類似しており、ここではトレーニングの過程を繰り返し説明しない。
図8は、別の一実施例に基づいて示される第2ニューラルネットワークの入力と出力の模式図である。ここで、図8における第2ニューラルネットワークの構造は図7におけるものと同じであり、図7と比べて、図8における第2ニューラルネットワークの入力は、さらに該第nフレームの音声フレームの直前音声フレーム(すなわち第n-1フレーム)の線スペクトル周波数パラメータLSF(n-1)を含む。図8に示すように、第2層のFC層中に第nフレームの音声フレームの直前音声フレームの線スペクトル周波数パラメータLSF(n-1)を埋め込んで参照情報とする。隣接する2つの音声フレームのLSFパラメータの類似性が非常に高く、従って、第nフレームの音声フレームの履歴音声フレームの対応するLSFパラメータを参照情報とすれば、LSFパラメータの予測正確率を高めることができる。
本願のいくつかの実施例では、上記した前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームに対してゲイン予測を行い、前記目標音声フレームの対応するゲインを得るステップは、さらに、前記目標音声フレームの前の履歴音声フレームの対応するゲインを第3ニューラルネットワークに入力するステップであって、前記第3ニューラルネットワークはサンプル音声フレームの前の履歴音声フレームの対応するゲインと前記サンプル音声フレームの対応するゲインとに基づいてトレーニングを行って得られるものである、ステップと、前記第3ニューラルネットワークによって、前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームの対応するゲインを出力するステップとを含むことができる。
目標音声フレームの履歴音声フレームの対応するゲインは、該第3ニューラルネットワークが該履歴音声フレームのゲイン予測を行うことにより得られるものであってもよく、換言すれば、履歴音声フレームについて予測されたゲインを目標音声フレームに対してゲイン予測を行う過程における第3ニューラルネットワークモデルの入力として多重化する。
サンプル音声フレームはサンプル音声信号に対してフレーム分割を行うことにより得られてもよく、サンプル音声信号は知られている元の音声信号と知られているノイズ信号とを組み合わせることにより得ることができる。このようにして、サンプル音声中の元の音声信号が知られている場合に、該元の音声信号に対して線形予測分析を行って、該元の音声信号を再構成することに用いられる声門パラメータ、すなわちサンプル音声フレームの対応する声門パラメータを得ることができる。
図9は、1つの具体的な実施例に基づいて示される第3ニューラルネットワークの模式図である。図9に示すように、第3ニューラルネットワークは1層のLSTM層と1層のFC層とを含み、ここで、LSTM層は1つの隠れ層であり、それは128個のユニットを含み、FC層の入力の次元が512であり、出力が1次元のゲインである。1つの具体的な実施例において、第nフレームの音声フレームの履歴音声フレームの対応するゲインG_pre(n)は第nフレームの音声フレームの最初の4つ音声フレームに対応するゲインとして定義することができ、すなわち、
G_pre(n)={G(n-1)、G(n-2)、G(n-3)、G(n-4)}である。
もちろん、ゲイン予測に用いられるものとして選択された履歴音声フレームの数量は上記のような例に限定されず、具体的には、実際のニーズに応じて選択して用いることができる。
上記のように示される第2ニューラルネットワークと第3ニューラルネットワークは全体的にM-to-Nのマッピング関係(N<<M)を呈し、すなわち、ニューラルネットワークモデルの入力情報の次元がMであり、出力情報の次元がNであり、ニューラルネットワークモデルの構造を極めて大きく簡略化して、ニューラルネットワークモデルの複雑さを低減させている。
本願のいくつかの実施例では、上記した前記第1複素スペクトルに基づいて前記目標音声フレームに対して励起信号予測を行い、前記目標音声フレームの対応する励起信号を得るステップは、さらに、前記第1複素スペクトルを第4ニューラルネットワークに入力するステップであって、前記第4ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームに対応する励起信号の周波数領域表現とに基づいてトレーニングを行って得られるものである、ステップと、前記第4ニューラルネットワークによって、前記第1複素スペクトルに基づいて前記目標音声フレームに対応する励起信号の周波数領域表現を出力するステップとを含むことができる。
サンプル音声フレームの対応する励起信号は、サンプル音声フレームにおける知られている元の音声信号に対して線形予測分析を行うことにより得られるものであってもよい。周波数領域表現は振幅スペクトルであってもよく、又は複素スペクトルであってもよく、ここで具体的な限定を行わない。
第4ニューラルネットワークをトレーニングする過程において、サンプル音声フレームの複素スペクトルを第4ニューラルネットワークモデル中に入力し、次に第4ニューラルネットワークによって、入力されたサンプル音声フレームの複素スペクトルに基づいて励起信号予測を行い、予測励起信号の周波数領域表現を出力し、次に予測励起信号の周波数領域表現と該サンプル音声フレームに対応する励起信号の周波数領域表現とに基づいて第4ニューラルネットワークのパラメータを調整する。すなわち、予測励起信号の周波数領域表現と該サンプル音声フレームに対応する励起信号の周波数領域表現との類似度が所定の要件を満たさなければ、第4ニューラルネットワークのパラメータを調整し、第4ニューラルネットワークがサンプル音声フレームについて出力された予測励起信号の周波数領域表現と該サンプル音声フレームに対応する励起信号の周波数領域表現との間の類似度が所定の要件を満たすまで続ける。上記のようなトレーニング過程により、第4ニューラルネットワークに、音声フレームの振幅スペクトルに基づいて該音声フレームの対応する励起信号の周波数領域表現を予測する能力を学習させることができ、それにより励起信号の予測を正確に行う。
図10は、1つの具体的な実施例に基づいて示される第4ニューラルネットワークの模式図である。図10に示すように、該第4ニューラルネットワークは、1層のLSTM層と3層のFC層を含み、ここで、LSTM層は1つの隠れ層であり、256個のユニットを含み、LSTMの入力は第nフレームの音声フレームの対応する第1複素スペクトルS’(n)であり、その次元が321次元であってもよい。3層のFC層中に含まれるユニットの数量はそれぞれ512、512及び321であり、最後の1層のFC層は321次元の第nフレームの音声フレームに対応する励起信号の周波数領域表現R(n)を出力する。入力から出力への方向に沿って、3層のFC層のうちの最初の2層のFC層中に活性化関数が設定され、モデルの非線形発現能力を高めることに用いられ、最後の1層のFC層中に活性化関数がなく、分類出力を行うことに用いられる。
上記に示される第1ニューラルネットワーク、第2ニューラルネットワーク、第3ニューラルネットワーク及び第4ニューラルネットワークの構造は単に例示的なものであり、その他の実施例において、深層学習のオープンソースプラットフォーム中に相応な構造のニューラルネットワークモデルを設置し、且つ対応してトレーニングを行うこともできる。
本願のいくつかの実施例では、図11に示すように、ステップ430は、ステップ1110とステップ1120を含み、
ステップ1110:声門フィルターにより前記目標音声フレームの対応する励起信号に対してフィルタリングを行い、フィルタリング出力信号を得る。前記声門フィルターは前記目標音声フレームの対応する声門パラメータに基づいて構築されるものである。
ステップ1120:前記目標音声フレームの対応するゲインに応じて前記フィルタリング出力信号に対して増幅処理を行い、前記目標音声フレームの対応する強調音声信号を得る。
声門パラメータがLPC係数であれば、直接的に上式(2)にしたがって声門フィルターの構築を行うことができる。声門フィルターがp次フィルターであれば、目標音声フレームの対応する声門パラメータはp次LPC係数、すなわち上式(2)におけるa、a、…、aを含み、その他の実施例において、上式(2)における定数1はLPC係数としてもよい。
声門パラメータがLSFパラメータであれば、LSFパラメータをLPC係数に変換し、次に対応して上式(2)にしたがって声門フィルターを構築することができる。
フィルタリング処理は、すなわち時間領域上の畳み込みであり、従って、上記のように声門フィルターにより励起信号に対してフィルタリングを行う過程は時間領域に変換して行うことができる。目標音声フレームに対応する励起信号の周波数領域表現を予測して得ることに加えて、励起信号の周波数領域表現を時間領域に変換し、目標音声フレームに対応する励起信号の時間領域信号を得る。
本願の解決手段において、目標音声フレーム中には複数のサンプル点を含む。声門フィルターにより励起信号に対してフィルタリングを行い、すなわち1つのサンプル点の前の履歴サンプル点と該声門フィルターにより畳み込みを行い、該サンプル点の対応する目標信号値を得る。
本願のいくつかの実施例では、前記目標音声フレームは複数のサンプル点を含み、前記声門フィルターはp次フィルターであり、pが正の整数であり、前記励起信号は前記目標音声フレームにおける複数のサンプル点のそれぞれの対応する励起信号値を含む。上記のようなフィルタリング過程に従って、ステップ1120は、さらに、前記目標音声フレームにおける各サンプル点の前のp個のサンプル点に対応する励起信号値と前記p次フィルターを畳み込み、前記目標音声フレームにおける各サンプル点の目標信号値を得るステップと、時間順序に応じて前記目標音声フレームにおける全部サンプル点の対応する目標信号値を組み合わせ、前記第1音声信号を得るステップとを含む。ここで、p次フィルターの表現式は上式(1)を参照することができる。つまり、目標音声フレームにおける各サンプル点に対しては、その前のp個のサンプル点に対応する励起信号値を利用してp次フィルターと畳み込みを行い、各サンプル点の対応する目標信号値を得る。
理解できることとして、目標音声フレームにおける最初のサンプル点に対しては、該目標音声フレームの直前音声フレームにおける最後のp個のサンプル点の励起信号値を借りて該最初のサンプル点の対応する目標信号値を計算する必要があり、同様に、該目標音声フレームにおける2番目のサンプル点は、目標音声フレームの直前音声フレームにおける最後の(p-1)個のサンプル点の励起信号値及び目標音声フレームにおける最初のサンプル点の励起信号値とp次フィルターを借りて畳み込みを行って、目標音声フレームにおける2番目のサンプル点に対応する目標信号値を得る必要がある。
要約すると、ステップ1120はさらに目標音声フレームの履歴音声フレームに対応する励起信号値の参加を必要とする。所要の履歴音声フレームにおけるサンプル点の数量は声門フィルターの次数に関連し、すなわち、声門フィルターがp次であれば、目標音声フレームの直前音声フレームにおける最後のp個のサンプル点に対応する励起信号値の参加を必要とする。
関連する技術において、スペクトル推定とスペクトル回帰予測の方式で音声強調を行うことが存在する。スペクトル推定の音声強調方式は一段の混合音声に音声部分とノイズ部分が含まれると考えるため、統計モデル等によりノイズを推定することができるものであり、混合音声の対応するスペクトルからノイズの対応するスペクトルを減算すれば、残るのは音声スペクトルであり、これにより、混合音声の対応するスペクトルに基づいてノイズの対応するスペクトルを減算して得られたスペクトルはクリーンな音声信号を復元することになる。スペクトル回帰予測の音声強調方式は、ニューラルネットワークにより音声フレームの対応するマスキング閾値を予測し、該マスキング閾値は該音声フレームにおける各々の周波数点における音声成分とノイズ成分の割合を反映し、次に該マスキング閾値に基づいて混合信号スペクトルに対してゲイン制御を行い、強調された後のスペクトルを取得するということである。
上記のスペクトル推定とスペクトル回帰予測による音声強調方式は、ノイズスペクトル事後確率に基づく推定であり、推定されるノイズが不正確である。たとえば、キーボード叩き等の過渡ノイズが存在する可能性があり、瞬時に発生するため、推定されるノイズスペクトルは非常に不正確であり、ノイズ抑制の効果が良くないことを引き起こす。ノイズスペクトル予測が不正確である場合に、推定されるノイズスペクトルに応じて元の混合音声信号に対して処理を行えば、混合音声信号における音声の歪みを引き起こす、又はノイズ抑制効果の劣化を引き起こす可能性があり、従って、このような状況においては、音声忠実度とノイズ抑制との間で妥協を行う必要がある。
声門パラメータ、励起信号及びゲイン予測に基づき音声強調を実現する上記実施例において、声門パラメータが音声生成の物理的過程における声門特徴と強い相関を有するため、予測された声門パラメータが目標音声フレームにおける元の音声信号の音声構造を効果的に保証し、従って、音声分解で得られた声門パラメータ、励起信号及びゲインに対して合成を行うことにより目標音声フレームの強調音声信号を得ることは、元の音声が削減されることを効果的に回避することができ、音声構造を効果的に保護し、且つ、目標音声フレームの対応する声門パラメータ、励起信号及びゲインを得た後、元のノイズ付きの音声に対して処理を行うことがなくなるため、音声忠実度とノイズ抑制との両方の間に妥協を行う必要がなくなる。
図12は、別の1つの具体的な実施例に基づいて示される音声強調方法のフローチャートである。図12に示される実施例においては、上記第2ニューラルネットワーク、第3ニューラルネットワーク及び第4ニューラルネットワークを結合して音声分解を行う。第nフレームの音声フレームを目標音声フレームとすると仮定すると、該第nフレームの音声フレームの時間領域信号はs(n)である。図12に示すように、該音声強調方法はステップ1210~1270を含む。
ステップ1210:時間周波数変換であって、第nフレームの音声フレームの時間領域信号s(n)を第nフレームの音声フレームの対応する複素スペクトルS(n)に変換する。
ステップ1220:プリエンファシスであって、複素スペクトルS(n)に基づいて第nフレームの音声フレームに対してプリエンファシスを行い、第1複素スペクトルS’(n)を得る。
ステップ1230:第2ニューラルネットワークにより声門パラメータを予測する。該ステップにおいて、第2ニューラルネットワークの入力は第1複素スペクトルS’(n)のみを有してもよく、第1複素スペクトルS’(n)と該第nフレームの音声フレームの履歴音声フレームの対応する声門パラメータP_pre(n)とを含んでもよく、該第2ニューラルネットワークは該第nフレームの音声フレームの対応する声門パラメータar(n)を出力し、該声門パラメータはLPC係数であってもよく、LSFパラメータであってもよい。
ステップ1240:第3ニューラルネットワークにより励起信号を予測する。第3ニューラルネットワークの入力は第1複素スペクトルS’(n)であり、出力は該第nフレームの音声フレームに対応する励起信号の周波数領域表現R(n)である。次にステップ1250によってR(n)に対して周波数時間変換を行い、第nフレームの音声フレームに対応する励起信号の時間領域信号r(n)を得ることができる。
ステップ1260:第4ニューラルネットワークによりゲインを予測する。第4ニューラルネットワークの入力は第nフレームの音声フレームの履歴音声フレームに対応するゲインG_pre(n)であり、出力は第nフレームの音声フレームの対応するゲインG(n)である。
第nフレームの音声フレームの対応する声門パラメータar(n)、対応する励起信号r(n)及び対応するゲインG_(n)を取得した後に、該3種のパラメータに基づきステップ1270で合成フィルタリングを行い、該第nフレームの音声フレームに対応する強調音声信号の時間領域信号s_e(n)を得る。ステップ1270の合成フィルタリングの過程は、図11に示される過程を参照して行うことができる。
本願の別のいくつかの実施例において、図13に示すように、ステップ420は、ステップ1310~ステップ1350を含む。
ステップ1310:前記第1複素スペクトルに基づいてパワースペクトルを計算して取得する。
第1複素スペクトルがS’(n)であれば、ステップ1310において得られたパワースペクトルPa(n)は、
Pa(n)=Real(S′(n))2+Imag(S′(n))2 (式10)である。
ここで、Real(S′(n))は第1複素スペクトルS’(n)の実部を表し、Imag(S′(n))は第1複素スペクトルS’(n)の虚部を表す。ステップ1310において計算されて取得されたパワースペクトルは、すなわち目標音声フレームに対してプリエンファシスを行った後の信号のパワースペクトルである。
ステップ1320:前記パワースペクトルに基づいて自己相関係数を計算して取得する。
ウィナーヒンチンの定理に従う:定常なランダム過程のパワースペクトルとその自己相関関数とは一対のフーリエ変換関係である。本解決方法において、1フレームの音声フレームは定常なランダム信号と見なされる。従って、目標音声フレームに対応するプリエンファシスされた後のパワースペクトルを得たことに加えて、目標音声フレームに対応するプリエンファシスされた後のパワースペクトルに対して逆フーリエ変換を行い、該プリエンファシスされた後のパワースペクトルの対応する自己相関係数を得ることができる。
具体的には、ステップ1320は、前記パワースペクトルに対して逆フーリエ変換を行い、逆変換結果を得て、前記逆変換結果中の実部を抽出し、前記自己相関係数を得ることを含む。すなわち、
AC(n)=Real(iFFT(Pa(n))) (式11)
AC(n)は第nフレームの音声フレームの対応する自己相関係数を表し、iFFT(Inverse Fast Fourier Transform、逆高速フーリエ変換)とはFFT(Fast Fourier Transform、高速フーリエ変換)の逆変換を指し、Realは逆高速フーリエ変換で得られた結果の実部を表す。AC(n)はp個のパラメータを含み、pが声門フィルターの次数であり、AC(n)中の係数はさらにAC(n)として表されてもよく、1≦j≦pである。
ステップ1330:前記自己相関係数に基づいて前記声門パラメータを計算して取得する。
Yule-Walker(ユール-ウォーカー)方程式にしたがって、第nフレームの音声フレームに対して、その対応する自己相関係数と対応する声門パラメータとの間に以下の関係が存在する
k-KA=0 (式12)
ここで、kは自己相関ベクトルであり、Kは自己相関行列であり、AはLPC係数行列である。具体的には、[数3]である。
Figure 2023548707000004
ここで、AC(n)=E[s(n)s(n-j)],0≦j≦p (式13)
pは声門フィルターの次数であり、a(n)、a(n)、…、a(n)はいずれも第nフレームの音声フレームに対応するLPC係数であり、それぞれ上式2におけるa、a、…、aであり、a(n)が定数1であるため、a(n)を第nフレームの音声フレームに対応する1つのLPC係数として見なすこともできる。
自己相関係数を得たことに加えて、自己相関ベクトルと自己相関行列は対応して決定することができ、次に式12を求めることにより、LPC係数を得ることができる。具体的な実施例において、Levinson-Durbinアルゴリズムを採用して式12を求めることができ、Levinson-Durbinアルゴリズムは自己相関行列の対称性を利用し、反復の方式を利用して、自己相関係数を計算して取得する。
LSFパラメータとLPC係数との間は相互に変換することができ、従って、LPC係数を計算して取得する時に、LSFパラメータを対応して決定することができる。換言すれば、声門パラメータがLPC係数であるかLSFパラメータであるかにかかわらず、いずれも上記のような過程によって決定することができる。
ステップ1340:前記声門パラメータと前記自己相関パラメータ集合とに基づいて前記ゲインを計算して取得する。
以下の式[数4]にしたがって第nフレームの音声フレームの対応するゲインを計算することができる。
[数4] (式14)
Figure 2023548707000005
式14にしたがって計算して取得したG(n)は時間領域表示上の目標音声フレームに対応するゲインの二乗である。
ステップ1350:前記ゲインと声門フィルターのパワースペクトルとに基づいて前記励起信号のパワースペクトルを計算して取得する。前記声門フィルターは前記声門パラメータに基づいて構築されるフィルターである。
目標音声フレームの対応する複素スペクトルがm(mが正の整数)個のサンプル点に対してはフーリエ変換を行って得られるものと仮定すると、声門フィルターのパワースペクトルを計算するためには、まず第nフレームの音声フレームのために次元がmの全0の配列s_AR(n)を構造し、次に、(p+1)次元のa(n)を該全0の配列の最初の(p+1)次元に代入し、ここでj=0、1、2、…pであり、m個のサンプル点の高速フーリエ変換(Fast Fourier Transform、FFT)を呼び出すことにより、FFT係数を取得する。
S_AR(n)=FFT(s_AR(n)) (式15)
FFT係数S_AR(n)を得たことに加えて、下式16にしたがって1つずつのサンプルについて第nフレームの音声フレームに対応する声門フィルターのパワースペクトルを取得することができ、
AR_LPS(n,k)=(Real(S_AR(n,k)))+(Imag(S_AR(n,k))) (式16)
ここで、Real(S_AR(n,k))はS_AR(n,k)の実部を表し、Imag(S_AR(n,k))はS_AR(n,k)の虚部を表し、kはFFT係数の数列を表し、0≦k≦m、kは正の整数である。
第nフレームの音声フレームに対応する声門フィルターの周波数応答AR_LPS(n)を得た後に、計算を便利にするために、式17にしたがって声門フィルターのパワースペクトルAR_LPS(n)を自然数領域から対数領域に変換し、
AR_LPS(n)=log10(AR_LPS(n)) (式17)
上記AR_LPS(n)を下式18にしたがって反転し、すなわち、声門フィルターの逆対応するパワースペクトルAR_LPS(n)を得て、
AR_LPS(n)=-1*AR_LPS(n) (式18)
次に下式19にしたがって目標音声フレームに対応する励起信号のパワースペクトルR(n)を計算して取得することができる。
R(n)=Pa(n)*(G1(n))*AR_LPS(n) (式19)
ここで、[数5] (式20)
[数6] (式21)
Figure 2023548707000006
Figure 2023548707000007
上記のような過程により、目標音声フレームに対応する声門パラメータ、ゲイン及び励起信号の周波数応答、及び声門パラメータにより限定される声門フィルターの周波数応答を計算して取得する。
目標音声フレームに対応するゲイン、対応する励起信号のパワースペクトル、及び声門パラメータに限定される声門フィルターのパワースペクトルを得た後に、図14に示される過程に基づいて合成処理を行うことができる。図14に示すように、ステップ430は、ステップ1410~ステップ1430を含む。
ステップ1410:前記声門フィルターのパワースペクトルと前記励起信号のパワースペクトルとに基づいて第1振幅スペクトルを生成する。
以下の式22にしたがって第1振幅スペクトルS_filt(n)を計算して取得することができる。
[数7] (式22)
Figure 2023548707000008
ここで、R(n)=10*log10(R(n)) (式23)
ステップ1420:前記ゲインに応じて前記第1振幅スペクトルに対して増幅処理を行い、第2振幅スペクトルを得る。
下式にしたがって第2振幅スペクトルS_e(n)を得ることができる。
S_e(n)=G(n)*S_filt(n) (式24)
ここで、[数8] (式25)
Figure 2023548707000009
ステップ1430:前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとに基づいて、前記目標音声フレームの対応する強調音声信号を決定する。
本願のいくつかの実施例では、ステップ1430は、さらに、前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとを組み合わせ、第2複素スペクトルを得るステップ、換言すれば、第2振幅スペクトルを第2複素スペクトルの実部とし、第1複素スペクトル中から抽出された位相スペクトルを第2複素スペクトルの虚部とし、前記第2複素スペクトルを時間領域に変換し、前記目標音声フレームに対応する強調音声信号の時間領域信号を得るステップを含む。
図15は、1つの具体的な実施例に基づいて示される音声強調方法のフローチャートであり、第nフレームの音声フレームを目標音声フレームとし、第nフレームの音声フレームの時間領域信号がs(n)である。図15に示すように、具体的には、ステップ1510~1560を含む。
ステップ1510:時間周波数変換であって、ステップ1510により第nフレームの音声フレームの時間領域信号s(n)を変換して第nフレームの音声フレームの対応する複素スペクトルS(n)を得る。
ステップ1520:プリエンファシスであって、第nフレームの音声フレームの対応する複素スペクトルS(n)に基づき該第nフレームの音声フレームに対してプリエンファシス処理を行い、第nフレームの音声フレームの第1複素スペクトルS′(n)を得る。
ステップ1530:スペクトル分解であって、第1複素スペクトルS′(n)に対してスペクトル分解を行うことにより、第1複素スペクトルS′(n)の対応するパワースペクトルPa(n)と対応する位相スペクトルPh(n)とを得る。
ステップ1540:音声分解であって、第nフレームの音声フレームのパワースペクトルPa(n)に基づき音声分解を行い、第nフレームの音声フレームの対応する声門パラメータ集合P(n)と第nフレームの音声フレームに対応する励起信号の周波数領域表現R(n)とを決定する。声門パラメータ集合P(n)は声門パラメータar(n)とゲインG(n)を含む。具体的な音声分解の過程は図13に示されてもよく、声門パラメータを取得し、且つ声門フィルターのパワースペクトルAR_LPS(n)、励起信号のパワースペクトルR(n)、及びゲインG(n)を対応して取得する。
ステップ1550:音声合成する。具体的な音声合成の過程は図14に示されてもよく、第nフレームの音声フレームに対応する声門フィルターの周波数応答AR_LPS(n)、励起信号の周波数応答R(n)、及びゲインG(n)に対して合成を行って第2振幅スペクトルS_e(n)を得る。
ステップ1560:周波数時間変換する。第1複素スペクトルS′(n)から抽出された位相スペクトルPh(n)を多重化し、位相スペクトルPh(n)と第2振幅スペクトルS_e(n)を組み合わせて第nフレームの音声フレームに対応する強調された後の複素スペクトルを得る。得られた強調された後の複素スペクトルを時間領域に変換すると、第nフレームの音声フレームに対応する強調音声信号の時間領域信号s_e(n)を得る。
本実施例の解決手段において、目標音声フレームに対してプリエンファシスを行うことにより得られた第1複素スペクトルに基づいて音声分解を行い、プリエンファシスする過程において、一部のノイズの情報が除外され、従って、第1複素スペクトルにおけるノイズ情報がより少なくなる。従って、第1複素スペクトルに基づいて音声分解を行うことで、ノイズによる音声分解への影響を減少し、音声分解の難度を低減させ、音声分解で得られた声門パラメータ、励起信号及びゲインの正確性を向上させ、さらに後続で取得された強調音声信号の正確性を保証することができる。また、本解決方法において、音声合成過程において、振幅スペクトルのみに注目することができ、位相情報に注目する必要がなく、第1複素スペクトル中から抽出された位相スペクトルを直接的に多重化することにより、音声合成過程における計算量を減少させる。第1複素スペクトルはプリエンファシスを行って得られるものであり、そのノイズ含有量がより少なく、従って、ある程度で位相情報の精度を保証する。
図15に示される実施例においては、ステップ1510において、第1ニューラルネットワークによってプリエンファシスを実現することができる。ステップ1540は図13に示される過程にしたがって実現でき、ステップ1550は図14に示される過程にしたがって実現でき、それにより、従来信号処理と深層学習とを深く組み合わせ、且つ目標音声フレームに対して二次強調を行うことが実現される。従って、本願の実施例は目標音声フレームに対して複数段階の強調を行うことを実現する。すなわち、第1段階では、深層学習の方式を採用して目標音声フレームの振幅スペクトルに基づいてプリエンファシスを行い、第2段階における音声分解して声門パラメータ、励起信号及びゲインを取得する難しさを低減させることができ、第2段階では、信号処理の方式により元の音声信号を再構成することに用いられる声門パラメータ、励起信号及びゲインを取得する。そして、第2段階において、音声が生じているデジタルモデルにしたがって音声合成を行い、目標音声フレームの信号に対して処理を直接的に行わず、従って、第2段階における音声削減状況の出現を回避することができる。
本願のいくつかの実施例では、ステップ410の前に、該方法は、さらに、前記目標音声フレームの時間領域信号を取得するステップと、前記目標音声フレームの時間領域信号に対して時間周波数変換を行い、前記目標音声フレームの複素スペクトルを得るステップとを含む。
時間周波数変換は短時間フーリエ変換(short-term Fourier transform、STFT)であってもよい。短時間フーリエ変換において窓掛け・オーバーラップの操作を採用してフレームの間の不平滑化を解消する。図16は1つの具体的な実施例に基づいて示される短時間フーリエ変換における窓掛け・オーバーラップの模式図であり、図16において、50%窓掛け・オーバーラップの操作を採用し、短時間フーリエ変換が640個のサンプル点に対するものであれば、該窓関数の重なったサンプル数(hop-size)は320である。窓掛けに使用される窓関数はハニング(Hanning)窓、ハミング窓等であってもよく、もちろん、その他の窓関数を採用してもよく、ここで具体的な限定を行わない。
その他の実施例において、50%ではない窓掛け・オーバーラップの操作を採用してもよい。たとえば、短時間フーリエ変換が512個のサンプル点に対するものであれば、この場合には、1つの音声フレーム中に320個のサンプル点が含まれれば、直前音声フレームの192個のサンプル点をオーバーラップするだけでよい。
本願のいくつかの実施例では、目標音声フレームの時間領域信号を取得するステップは、さらに、処理対象の音声信号を取得するステップであって、前記処理対象の音声信号は収集された音声信号又は符号化音声に対して復号を行って得られた音声信号である、ステップと、前記処理対象の音声信号に対してフレーム分割を行い、前記目標音声フレームの時間領域信号を得るステップとを含む。
いくつかの実例において、設定されたフレーム長さに応じて処理対象の音声信号に対してフレーム分割を行うことができ、該フレーム長さは実際のニーズに応じて設定を行うことができ、たとえば、フレーム長さが20msに設定される。フレーム分割を行うことにより、複数の音声フレームを得ることができ、各音声フレームはいずれも本願における目標音声フレームとすることができる。
上記の記述のように、本願の解決手段は送信端に適用され音声強調を行うことができ、受信端に適用され音声強調を行うこともできる。本願の解決手段が送信端に適用される場合に、該処理対象の音声信号は送信端が収集した音声信号であり、その場合、処理対象の音声信号に対してフレーム分割を行い、複数の音声フレームを得る。フレーム分割の後、処理対象の音声信号は複数の音声フレームに分割され、次に各音声フレームを目標音声フレームとし且つ上記ステップ410~430の過程にしたがって目標音声フレームに対して強調を行うことができる。さらには、目標音声フレームの対応する強調音声信号を得た後に、さらに該強調音声信号に対して符号化を行うこともでき、それにより、得られた符号化に基づき音声伝送を行う。
一実施例において、直接収集された音声信号はアナログ信号であるため、信号処理を便利に行うために、フレーム分割を行う前に、音声信号をさらにデジタル化し、時間的に連続する音声信号を時間的に離散する音声信号に変換する必要もある。デジタル化を行う過程において、設定されたサンプリングレートに応じて収集された音声信号に対してサンプリングを行うことができ、設定されたサンプリングレートは16000Hz、8000Hz、32000Hz、48000Hz等であってもよく、具体的には、実際のニーズに応じて設定を行うことができる。
本願の解決手段が受信端に適用される場合に、該処理対象の音声信号は受信された符号化音声に対して復号を行って得られた音声信号である。このような場合に、送信端が、伝送する必要がある音声信号に対して強調を行っていない可能性があり、従って、信号品質を向上させるためには、受信端で音声信号に対して強調を行う必要がある。処理対象の音声信号に対してフレーム分割を行って複数の音声フレームを得た後に、それを目標音声フレームとし、且つ上記のようなステップ410~430の過程にしたがって目標音声フレームに対して強調を行い、目標音声フレームの強調音声信号を得る。さらに、目標音声フレームの対応する強調音声信号に対して再生を行うこともでき、得られた強調音声信号は目標音声フレームの強調前の信号に比べて、ノイズが既に除去されているため、音声信号の品質がより高く、従って、ユーザーにとって、聴覚的体験がより高い。
以下、本願の上記実施例における方法を実行することに用いることができる本願の装置の実施例を説明する。本願の装置実施例において披露されない細部に対しては、本願の上記方法実施例を参照されたい。
図17は、一実施例に基づいて示される音声強調装置のブロック図である。図17に示すように、該音声強調装置は、目標音声フレームの複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得ることに用いられるプリエンファシスモジュール1710と、前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得ることに用いられる音声分解モジュール1720と、前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得ることに用いられる合成処理モジュール1730とを含む。
本願のいくつかの実施例では、プリエンファシスモジュール1710は、前記目標音声フレームの対応する複素スペクトルを第1ニューラルネットワークに入力することに用いられる第1入力ユニットであって、前記第1ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームにおける元の音声信号の対応する複素スペクトルとに基づいてトレーニングを行って得られるものである、第1入力ユニットと、前記第1ニューラルネットワークによって、前記目標音声フレームの対応する複素スペクトルに基づいて前記第1複素スペクトルを出力することに用いられる第1出力ユニットとを含む。
本願のいくつかの実施例では、前記第1ニューラルネットワークは複素畳み込み層、ゲート付き回帰型ユニット層及び全結合層を含み、第1出力ユニットは、前記複素畳み込み層によって前記目標音声フレームに対応する複素スペクトルにおける実部及び虚部に基づいて複素畳み込み処理を行うことに用いられる複素畳み込みユニットと、前記ゲート付き回帰型ユニット層によって前記複素畳み込み層の出力に対して変換処理を行うことに用いられる変換ユニットと、前記全結合層によって前記ゲート付き回帰型ユニットの出力に対して全結合処理を行い、前記第1複素スペクトルを出力することに用いられる全結合ユニットとを含む。
本願のいくつかの実施例では、音声分解モジュール1720は、前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得ることに用いられる声門パラメータ予測ユニットに用いられる第1振幅スペクトル取得ユニットと、前記第1複素スペクトルに基づいて前記目標音声フレームに対して励起信号予測を行い、前記目標音声フレームの対応する励起信号を得ることに用いられる励起信号予測ユニットと、前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームに対してゲイン予測を行い、前記目標音声フレームの対応するゲインを得ることに用いられるゲイン予測ユニットとを含む。
本願のいくつかの実施例では、声門パラメータ予測ユニットは、前記第1複素スペクトルを第2ニューラルネットワークに入力することに用いられる第2入力ユニットであって、前記第2ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームの対応する声門パラメータとに基づいてトレーニングを行って得られるものである、第2入力ユニットと、前記第2ニューラルネットワークによって、前記第1複素スペクトルに基づいて前記目標音声フレームの対応する声門パラメータを出力することに用いられる第2出力ユニットとを含む。
本願の別のいくつかの実施例において、声門パラメータ予測ユニットは、前記第1複素スペクトルと前記目標音声フレームの前の履歴音声フレームの対応する声門パラメータとを第2ニューラルネットワークに入力することに用いられる第3入力ユニットであって、前記第2ニューラルネットワークはサンプル音声フレームの対応する複素スペクトル、サンプル音声フレームの前の履歴音声フレームの対応する声門パラメータ及びサンプル音声フレームの対応する声門パラメータに基づいてトレーニングを行って得られるものである、第3入力ユニットと、前記第1ニューラルネットワークによって、前記第1複素スペクトルと前記目標音声フレームの前の履歴音声フレームの対応する声門パラメータとに基づいて前記目標音声フレームの対応する声門パラメータを出力することに用いられる第3出力ユニットとを含む。
本願のいくつかの実施例では、ゲイン予測ユニットは、前記目標音声フレームの前の履歴音声フレームの対応するゲインを第3ニューラルネットワークに入力することに用いられる第4入力ユニットであって、前記第3ニューラルネットワークはサンプル音声フレームの前の履歴音声フレームの対応するゲインと前記サンプル音声フレームの対応するゲインとに基づいてトレーニングを行って得られるものである、第4入力ユニットと、前記第3ニューラルネットワークによって、前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームの対応するゲインを出力することに用いられる第4出力ユニットとを含む。
本願のいくつかの実施例では、励起信号予測ユニットは、前記第1複素スペクトルを第4ニューラルネットワークに入力することに用いられる第5入力ユニットであって、前記第4ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームに対応する励起信号の周波数領域表現とに基づいてトレーニングを行って得られるものである、第5入力ユニットと、前記第4ニューラルネットワークによって、前記第1複素スペクトルに基づいて前記目標音声フレームに対応する励起信号の周波数領域表現を出力することに用いられる第5出力ユニットとを含む。
本願のいくつかの実施例では、合成処理モジュール1730は、声門フィルターにより前記目標音声フレームの対応する励起信号に対してフィルタリングを行い、フィルタリング出力信号を得ることに用いられるフィルタリングユニットであって、前記声門フィルターは前記目標音声フレームの対応する声門パラメータに基づいて構築されるものである、フィルタリングユニットと、前記目標音声フレームの対応するゲインに応じて前記フィルタリング出力信号に対して増幅処理を行い、前記目標音声フレームの対応する強調音声信号を得ることに用いられる増幅処理ユニットとを含む。
本願のいくつかの実施例では、音声分解モジュール1720は、前記第1複素スペクトルに基づいてパワースペクトルを計算して取得することに用いられるパワースペクトル計算ユニットと、前記パワースペクトルに基づいて自己相関係数を計算して取得することに用いられる自己相関係数計算ユニットと、前記自己相関係数に基づいて前記声門パラメータを計算して取得することに用いられる声門パラメータ計算ユニットと、前記声門パラメータと前記自己相関パラメータ集合とに基づいて前記ゲインを計算して取得することに用いられるゲイン計算ユニットと、前記ゲインと声門フィルターのパワースペクトルとに基づいて前記励起信号のパワースペクトルを計算して取得することに用いられる励起信号決定ユニットであって、前記声門フィルターは前記声門パラメータに基づいて構築されるフィルターである、励起信号決定ユニットとを含む。
本願のいくつかの実施例では、合成処理モジュール1730は、前記声門フィルターのパワースペクトルと前記励起信号のパワースペクトルとに基づいて第1振幅スペクトルを生成することに用いられる第2振幅スペクトル生成ユニットと、前記ゲインに応じて前記第1振幅スペクトルに対して増幅処理を行い、第2振幅スペクトルを得ることに用いられる第3振幅スペクトル決定ユニットと、前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとに基づいて、前記目標音声フレームの対応する強調音声信号を決定することに用いられる強調音声信号決定ユニットとを含む。
本願のいくつかの実施例では、強調音声信号決定ユニットは、前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとを組み合わせ、第2複素スペクトルを得ることに用いられる第2複素スペクトル計算ユニットと、前記第2複素スペクトルを時間領域に変換し、前記目標音声フレームに対応する強調音声信号の時間領域信号を得ることに用いられる時間領域変換ユニットとを含む。
図18は、本願の実施例を実現するための電子機器に適するコンピュータシステムの構造模式図を示す。
説明する必要があることとして、図18に示される電子機器のコンピュータシステム1800は一例に過ぎず、本願の実施例の機能及び使用範囲に対して何ら制限をもたらすべきではない。
図18に示すように、コンピュータシステム1800は中央処理ユニット(Central Processing Unit、CPU)1801を含み、それは読み出し専用メモリ(Read-Only Memory、ROM)1802において記憶されたプログラム又は記憶部分1808からランダムアクセスメモリ(Random Access Memory、RAM)1803中にアップロードされたプログラムに基づいて各種の適当な動作と処理を実行することができ、たとえば、上記実施例における方法を実行する。RAM 1803において、システム操作に必要な各種のプログラムとデータも記憶されている。CPU1801、ROM1802及びRAM 1803はバス1804を介して互いに連結される。入力/出力(Input/Output、I/O)インターフェース1805もバス1804に接続される。
以下の部材がI/Oインターフェース1805に接続される。キーボード、マウス等を含む入力部分1806、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)等のようなもの及びスピーカ等を含む出力部分1807、ハードディスク等を含む記憶部分1808、及びLAN(Local Area Network、ローカルエリアネットワーク)カード、モデム等のようなネットワークインタフェースカードを含む通信部分1809である。通信部分1809は、インターネットのようなネットワークを介して通信処理を実行する。ドライバ1810もニーズに応じてI/Oインターフェース1805に接続される。着脱可能な媒体1811、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等は、ニーズに応じてドライバ1810上に装着され、それにより、その上から読み出されたコンピュータプログラムがニーズに応じて記憶部分1808にインストールされる。
特に、本願の実施例に基づき、上記のフローチャートを参照して記述される過程はコンピュータソフトウェアプログラムとして実現できる。たとえば、本願の実施例は、1種のコンピュータプログラム製品を含み、それはコンピュータ可読媒体上に担持されるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示された方法を実行することに用いられるプログラムコードを含む。このような実施例において、該コンピュータプログラムは通信部分1809によりネットワーク上からダウンロードされインストールすることができ、且つ/又は着脱可能な媒体1811からインストールされる。該コンピュータプログラムが中央処理ユニット(CPU)1801によって実行されるときに、本願のシステム中に限定される各種の機能を実行する。
説明する必要があることとして、本願の実施例に示されるコンピュータ可読媒体はコンピュータ可読信号媒体、又はコンピュータ可読記憶媒体又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、たとえば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read Only Memory、EPROM)、フラッシュメモリ、光ファイバー、ポータブルコンパクト磁気ディスク読み出し専用メモリ(Compact Disc Read-Only Memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよいがこれらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、該プログラムは指令実行システム、装置又はデバイスに使用され又はそれと組み合わせて使用することができる。本願において、コンピュータ可読の信号媒体は、ベースバンド中における又は搬送波の一部として伝播されるデータ信号を含んでもよく、その中でコンピュータ可読のプログラムコードが担持されている。このような伝播されるデータ信号は複数種の形式を採用することができ、電磁信号、光信号又は上記任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ可読の信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、指令実行システム、装置又はデバイスに使用され又はそれと組み合わせて使用されることに用いられるプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体上に含まれるプログラムコードは任意の適当な媒体で伝送でき、無線、有線等、又は上記の任意の適切な組み合わせを含むがこれらに限定されない。
図面におけるフローチャートとブロック図は、本願の各種の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能な体系アーキテクチャ、機能及び操作を図示する。ここで、フローチャート又はブロック図における各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を代表することができ、上記モジュール、プログラムセグメント、又はコードの一部は規定されるロジック機能を実現することに用いられる1つ又は複数の実行可能な指示を含む。また、注意すべきことは、代替としてのいくつかの実現形式において、ブロック中にマークされる機能は図面中にマークされる順序と異なるものとして生じさせることができる点である。たとえば、連続的に示される2つのブロックは実際には基本的に並行して実行することができ、場合によって、それらは逆の順序で実行することもでき、これは関連する機能によって定められる。また注意する必要があるのは、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、規定される機能又は操作を実行する専用のハードウェアに基づくシステムで実現することができ、又は専用ハードウェアとコンピュータ指令の組み合わせで実現することもできる。
本願の実施例においてに記述されて言及されるユニットはソフトウェアの方式で実現されても、又はハードウェアの方式で実現されてもよく、記述されるユニットはプロセッサ中に設置されてもよい。ここで、これらのユニットの名称がある場合には、該ユニット自体に対する限定を構成しない。
別の態様として、本願はコンピュータ可読記憶媒体をさらに提供し、該コンピュータ可読媒体は上記実施例に記述される電子機器に含まれてもよく、単独で存在し、該電子機器中に組み立てられなくてもよい。上記コンピュータ可読記憶媒体はコンピュータ可読指令を担持し、該コンピュータ可読記憶指令がプロセッサによって実行されるときに、上記いずれかの実施例における方法を実現する。
本願の一態様によれば、電子機器をさらに提供し、それは、プロセッサと、メモリであって、メモリ上にコンピュータ可読指令が記憶され、コンピュータ可読指令がプロセッサによって実行されるときに、上記いずれかの実施例における方法を実現するメモリとを含む。
本願の実施例の一態様によれば、コンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ指令を含み、該コンピュータ指令がコンピュータ可読記憶媒体中に記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ指令を読み取り、プロセッサは該コンピュータ指令を実行し、該コンピュータ機器に上記いずれかの実施例における方法を実行させる。
注意すべきことは、上記詳細な記述において動作実行用の機器の複数のモジュール又はユニットが言及されているが、このような分割は強制的ではないことである。実際には、本願の実施形態によれば、上記で記述された2つ又はより多くのモジュール又はユニットの特徴と機能は1つのモジュール又はユニットにおいて具現化され得る。逆に、上記で記述された1つのモジュール又はユニットの特徴と機能はさらに複数のモジュール又はユニットにより具現化されるように分割されてもよい。
以上の実施形態の記述により、当業者が容易に理解できることは、ここで記述される例示的な実施形態はソフトウェアで実現されてもよく、ソフトウェアと必要なハードウェアを組み合わせた方式で実現されてもよい。従って、本願の実施形態に係る技術的手段は、ソフトウェア製品の形式で体現されてもよく、該ソフトウェア製品は1つの不揮発性記憶媒体(CD-ROM、Uディスク、モバイルディスク等であってもよい)中に又はネットワーク上に記憶されてもよく、幾つかの指令を含むことで一台の計算機器(パソコンコンピュータ、サーバ、タッチ端末、又はネットワーク機器等であってもよい)に本願の実施形態に係る方法を実行させる。
当業者は明細書を考慮し、且つここで開示される実施形態を実践した後に、本願のその他の実施形態を容易に想到することができる。本願は本願の任意の変形、用途又は適応的な変化をカバーすることを目的としており、これらの変形、用途又は適応的な変化は本願の一般原理に従い、且つ本願に開示されていない本技術分野における公知の知識又は一般的な技術手段を含む。
理解すべきことは、本願は上記において記述され、且つ図面中に示される正確な構造には限定されず、且つその範囲を逸脱することなく、各種の修正や変更を行うことができる。本願の範囲は添付の請求項の記載のみによって制限される。
110 送信端
111 収集モジュール
112 前強調処理モジュール
113 符号化モジュール
120 受信端
121 復号モジュール
122 後強調モジュール
123 再生モジュール
1710 プリエンファシスモジュール
1720 音声分解モジュール
1730 合成処理モジュール
1800 コンピュータシステム
1801 中央処理ユニット(CPU)
1804 バス
1805 I/Oインターフェース
1805 出力(Input/Output、I/O)インターフェース
1806 入力部分
1807 出力部分
1808 記憶部分
1809 通信部分
1810 ドライバ
1811 媒体

Claims (15)

  1. コンピュータ機器によって実行される、音声強調方法であって、
    目標音声フレームの対応する複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得るステップと、
    前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得るステップと、
    前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得るステップとを含む音声強調方法。
  2. 目標音声フレームの対応する複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得る前記ステップは、
    前記目標音声フレームの対応する複素スペクトルを第1ニューラルネットワークに入力するステップであって、前記第1ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームにおける元の音声信号の対応する複素スペクトルとに基づいてトレーニングを行って得られるものである、ステップと、
    前記第1ニューラルネットワークによって、前記目標音声フレームの対応する複素スペクトルに基づいて前記第1複素スペクトルを出力するステップとを含む、請求項1に記載の方法。
  3. 前記第1ニューラルネットワークは複素畳み込み層、ゲート付き回帰型ユニット層及び全結合層を含み、
    前記第1ニューラルネットワークによって、前記目標音声フレームの複素スペクトルに基づいて前記第1複素スペクトルを出力する前記ステップは、
    前記複素畳み込み層によって前記目標音声フレームに対応する複素スペクトルにおける実部及び虚部に基づいて複素畳み込み処理を行うステップと、
    前記ゲート付き回帰型ユニット層によって前記複素畳み込み層の出力に対して変換処理を行うステップと、
    前記全結合層によって前記ゲート付き回帰型ユニットの出力に対して全結合処理を行い、前記第1複素スペクトルを出力するステップとを含む、請求項2に記載の方法。
  4. 前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得る前記ステップは、
    前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得るステップと、
    前記第1複素スペクトルに基づいて前記目標音声フレームに対して励起信号予測を行い、前記目標音声フレームの対応する励起信号を得るステップと、
    前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームに対してゲイン予測を行い、前記目標音声フレームの対応するゲインを得るステップとを含む、請求項1に記載の方法。
  5. 前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得る前記ステップは、
    前記第1複素スペクトルを第2ニューラルネットワークに入力するステップであって、前記第2ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームの対応する声門パラメータとに基づいてトレーニングを行って得られるものである、ステップと、
    前記第2ニューラルネットワークによって、前記第1複素スペクトルに基づいて前記目標音声フレームの対応する声門パラメータを出力するステップとを含む、請求項4に記載の方法。
  6. 前記第1複素スペクトルに基づいて前記目標音声フレームに対して声門パラメータ予測を行い、前記目標音声フレームの対応する声門パラメータを得る前記ステップは、
    前記第1複素スペクトルと前記目標音声フレームの前の履歴音声フレームの対応する声門パラメータとを第2ニューラルネットワークに入力するステップであって、前記第2ニューラルネットワークはサンプル音声フレームの対応する複素スペクトル、サンプル音声フレームの前の履歴音声フレームの対応する声門パラメータ及びサンプル音声フレームの対応する声門パラメータに基づいてトレーニングを行って得られるものである、ステップと、
    前記第1ニューラルネットワークによって、前記第1複素スペクトルと前記目標音声フレームの前の履歴音声フレームの対応する声門パラメータとに基づいて前記目標音声フレームの対応する声門パラメータを出力するステップとを含む、請求項4に記載の方法。
  7. 前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームに対してゲイン予測を行い、前記目標音声フレームの対応するゲインを得る前記ステップは、
    前記目標音声フレームの前の履歴音声フレームの対応するゲインを第3ニューラルネットワークに入力するステップであって、前記第3ニューラルネットワークはサンプル音声フレームの前の履歴音声フレームの対応するゲインと前記サンプル音声フレームの対応するゲインとに基づいてトレーニングを行って得られるものである、ステップと、
    前記第3ニューラルネットワークによって、前記目標音声フレームの前の履歴音声フレームの対応するゲインに基づいて前記目標音声フレームの対応するゲインを出力するステップとを含む、請求項4に記載の方法。
  8. 前記第1複素スペクトルに基づいて前記目標音声フレームに対して励起信号予測を行い、前記目標音声フレームの対応する励起信号を得る前記ステップは、
    前記第1複素スペクトルを第4ニューラルネットワークに入力するステップであって、前記第4ニューラルネットワークはサンプル音声フレームの対応する複素スペクトルと前記サンプル音声フレームに対応する励起信号の周波数領域表現とに基づいてトレーニングを行って得られるものである、ステップと、
    前記第4ニューラルネットワークによって、前記第1複素スペクトルに基づいて前記目標音声フレームに対応する励起信号の周波数領域表現を出力するステップとを含む、請求項4に記載の方法。
  9. 前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得る前記ステップは、
    声門フィルターにより前記目標音声フレームの対応する励起信号に対してフィルタリングを行い、フィルタリング出力信号を得るステップであって、前記声門フィルターは前記目標音声フレームの対応する声門パラメータに基づいて構築されるものである、ステップと、
    前記目標音声フレームの対応するゲインに応じて前記フィルタリング出力信号に対して増幅処理を行い、前記目標音声フレームの対応する強調音声信号を得るステップとを含む、請求項4に記載の方法。
  10. 前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得る前記ステップは、
    前記第1複素スペクトルに基づいてパワースペクトルを計算して取得するステップと、
    前記パワースペクトルに基づいて自己相関係数を計算して取得するステップと、
    前記自己相関係数に基づいて前記声門パラメータを計算して取得するステップと、
    前記声門パラメータと前記自己相関パラメータ集合とに基づいて前記ゲインを計算して取得するステップと、
    前記ゲインと声門フィルターのパワースペクトルとに基づいて前記励起信号のパワースペクトルを計算して取得するステップであって、前記声門フィルターは前記声門パラメータに基づいて構築されるフィルターである、ステップとを含む、請求項1に記載の方法。
  11. 前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得る前記ステップは、
    前記声門フィルターのパワースペクトルと前記励起信号のパワースペクトルとに基づいて第1振幅スペクトルを生成するステップと、
    前記ゲインに応じて前記第1振幅スペクトルに対して増幅処理を行い、第2振幅スペクトルを得るステップと、
    前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとに基づいて、前記目標音声フレームの対応する強調音声信号を決定するステップとを含む、請求項10に記載の方法。
  12. 前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとに基づいて、前記目標音声フレームの対応する強調音声信号を決定する前記ステップは、
    前記第2振幅スペクトルと前記第1複素スペクトル中から抽出された位相スペクトルとを組み合わせ、第2複素スペクトルを得るステップと、
    前記第2複素スペクトルを時間領域に変換し、前記目標音声フレームに対応する強調音声信号の時間領域信号を得るステップとを含む、請求項11に記載の方法。
  13. 音声強調装置であって、
    目標音声フレームの複素スペクトルに基づいて前記目標音声フレームに対してプリエンファシス処理を行い、第1複素スペクトルを得ることに用いられるプリエンファシスモジュールと、
    前記第1複素スペクトルに基づいて前記目標音声フレームに対して音声分解を行い、前記目標音声フレームの対応する声門パラメータ、ゲイン及び励起信号を得ることに用いられる音声分解モジュールと、
    前記声門パラメータ、前記ゲイン及び前記励起信号に基づいて合成処理を行い、前記目標音声フレームの対応する強調音声信号を得ることに用いられる合成処理モジュールとを含む、音声強調装置。
  14. 電子機器であって、
    プロセッサと、
    メモリであって、前記メモリ上にコンピュータ可読指令が記憶され、前記コンピュータ可読指令が前記プロセッサによって実行されるときに、請求項1~12のいずれか一項に記載の方法を実現するメモリとを含む、電子機器。
  15. コンピュータ可読記憶媒体であって、その上にコンピュータ可読指令が記憶され、前記コンピュータ可読指令がプロセッサによって実行されるときに、請求項1~12のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
JP2023527431A 2021-02-08 2022-01-26 音声強調方法、装置、機器及びコンピュータプログラム Pending JP2023548707A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110181389.4A CN113571080A (zh) 2021-02-08 2021-02-08 语音增强方法、装置、设备及存储介质
CN202110181389.4 2021-02-08
PCT/CN2022/074003 WO2022166710A1 (zh) 2021-02-08 2022-01-26 语音增强方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2023548707A true JP2023548707A (ja) 2023-11-20

Family

ID=78161113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023527431A Pending JP2023548707A (ja) 2021-02-08 2022-01-26 音声強調方法、装置、機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20230097520A1 (ja)
EP (1) EP4261825A4 (ja)
JP (1) JP2023548707A (ja)
CN (1) CN113571080A (ja)
WO (1) WO2022166710A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571079A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113571080A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN115862581A (zh) * 2023-02-10 2023-03-28 杭州兆华电子股份有限公司 一种重复模式噪声的二次消除方法及***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
CN108735213B (zh) * 2018-05-29 2020-06-16 太原理工大学 一种基于相位补偿的语音增强方法及***
CN110808063A (zh) * 2019-11-29 2020-02-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于处理语音的装置
CN111554322A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN111653288B (zh) * 2020-06-18 2023-05-09 南京大学 基于条件变分自编码器的目标人语音增强方法
CN112242147B (zh) * 2020-10-14 2023-12-19 福建星网智慧科技有限公司 一种语音增益控制方法及计算机存储介质
CN113571080A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113571080A (zh) 2021-10-29
WO2022166710A1 (zh) 2022-08-11
EP4261825A4 (en) 2024-05-15
EP4261825A1 (en) 2023-10-18
US20230097520A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
Pandey et al. A new framework for CNN-based speech enhancement in the time domain
Li et al. On the importance of power compression and phase estimation in monaural speech dereverberation
CN112289333B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
WO2019008580A1 (en) METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
EP3992964B1 (en) Voice signal processing method and apparatus, and electronic device and storage medium
Zhang et al. Sensing to hear: Speech enhancement for mobile devices using acoustic signals
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN114338623B (zh) 音频的处理方法、装置、设备及介质
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
CN114267372A (zh) 语音降噪方法、***、电子设备和存储介质
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN113053400A (zh) 音频信号降噪模型的训练方法、音频信号降噪方法及设备
US20230050519A1 (en) Speech enhancement method and apparatus, device, and storage medium
Iser et al. Bandwidth extension of telephony speech
Schröter et al. CLC: complex linear coding for the DNS 2020 challenge
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
CN113571081A (zh) 语音增强方法、装置、设备及存储介质
Vanambathina et al. Real time speech enhancement using densely connected neural networks and Squeezed temporal convolutional modules
WO2024055751A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
Čubrilović et al. Audio Denoising using Encoder-Decoder Deep Neural Network in the Case of HF Radio

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240531