JP2022133447A - 音声処理方法、装置、電子機器及び記憶媒体 - Google Patents

音声処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022133447A
JP2022133447A JP2022110128A JP2022110128A JP2022133447A JP 2022133447 A JP2022133447 A JP 2022133447A JP 2022110128 A JP2022110128 A JP 2022110128A JP 2022110128 A JP2022110128 A JP 2022110128A JP 2022133447 A JP2022133447 A JP 2022133447A
Authority
JP
Japan
Prior art keywords
speech
sample
model
generate
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022110128A
Other languages
English (en)
Other versions
JP7412483B2 (ja
Inventor
ジャンカン ホウ,
Jiankang Hou
タオ サン,
Tao Sun
ツィペン ニエ,
Zhipeng Nie
リキャン チャン,
Liqiang Zhang
レイ ジア,
Lei Jia
ハイフェン ワン,
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022133447A publication Critical patent/JP2022133447A/ja
Application granted granted Critical
Publication of JP7412483B2 publication Critical patent/JP7412483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ない音声処理方法を提供する。【解決手段】方法は、オリジナル音声を取得し、オリジナル音声からスペクトルマップを抽出し、第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得し、第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。【選択図】図1

Description

本開示は、コンピュータ技術の分野に関し、具体的には、音声技術及び深層学習などの人工知能技術の分野に関し、特に、音声処理方法、装置、電子機器及び記憶媒体に関する。
ボコーダ技術とは、音響的特徴を音声信号に変換する技術である。ボコーダは、音声合成リンク内の重要な構成部分であり、合成オーディオの安定性、音質及び表現力を直接決定する。
音声合成技術は、今まで発展してきて多種多様なボコーダ技術が形成されており、特に、近年、深層学習技術の成熟につれて、合成品質の良いニューラルボコーダが多く登場している。これらのボコーダは、深層学習技術を採用しているか否かによって、従来のボコーダとニューラルネットワークボコーダに分けられるが、ここで、深層学習技術が適用されていないボコーダを従来のボコーダと総称し、深層学習技術が採用されている別の種類のボコーダをニューラルネットワークボコーダと呼ぶ。
本開示は、音声処理方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、音声処理方法を提供し、音声処理方法は、オリジナル音声を取得するステップと、前記オリジナル音声からスペクトルマップを抽出するステップと、第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得するステップと、前記第1の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するステップと、前記第2の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するステップと、を含む。
本開示の他の態様によれば、音声処理装置を提供し、音声処理装置は、オリジナル音声を取得するように構成される第1の取得モジュールと、前記オリジナル音声からスペクトルマップを抽出するように構成される抽出モジュールと、第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得するように構成される第2の取得モジュールと、前記第1の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するように構成される第1の生成モジュールと、前記第2の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するように構成される第2の生成モジュールと、を備える。
本開示の他の態様によれば、電子機器を提供し、電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記の一態様の実施例に記載の音声処理方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の他の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の一態様の実施例に記載の音声処理方法を実行させる。
本開示の他の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の一態様の実施例に記載の音声処理方法のステップが実現される。
なお、本部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例によって提供される音声処理方法の概略フローチャートである。 本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。 本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。 本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。 本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。 本開示の実施例によって提供される音声処理装置の概略構成図である。 本開示の実施例の音声処理方法の電子機器のブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下に、図面を参照して本開示の実施例の音声処理方法、装置、電子機器及び記憶媒体を説明する。
人工知能は、コンピュータを利用して人間のある思考過程と知能行為(例えば、学習、推理、思考、計画など)をシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
音声技術とは、コンピュータ技術分野における重要な技術として、自動音声認識技術(Automatic Speech Recognition、「ASR」と略す)及び音声合成技術(Text to Speech、「TTS」と略す)がある。ここで、コンピュータが聞くこと、見ること、話すこと、感じることができるようにすることは、将来のヒューマンコンピュータインタラクションの発展方向であり、ここで、音声は、将来の最も有望なヒューマンコンピュータインタラクション方式となっており、音声は、他のインタラクション方式よりも多くの利点があり、最初の音声技術は、「自動翻訳電話」という計画に由来し、音声認識、自然言語理解及び音声合成の3つの非常に主要な技術を含む。音声認識の研究活動は、20世紀50年代のAT&Tベル実験室のAudryシステムに遡ることができ、その後研究者たちは、大きな語彙量、連続した音声及び不特定の人間という3つの障害を徐々に突破し、コンピュータに発話させるには音声合成技術が必要であるが、そのコアは、テキスト変換技術(Text to Speech)であり、音声合成は、自動車の情報システムにまで適用され、車の所有者は、システムのコンピュータにダウンロードされたテキストファイル、電子メール、ネットワークニュース又は小説を音声に変換して車内で聞くことができる。
深層学習は、機械学習分野における新たな研究方向である。深層学習は、サンプルデータの内在法則や表現階層を学習することであり、これらの学習過程において得られた情報は、文字、画像及び音響などのデータの解釈に大きく役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像及び音響などのデータを認識できるようにすることである。深層学習は、複雑な機械学習アルゴリズムであり、音声及び画像認識面で得られた効果は、従来の関連技術をはるかに上回る。
本開示の実施例に係る音声処理方法は、電子機器によって実行されてもよく、当該電子機器は、PC(Personal Computer、パーソナルコンピュータ)パソコン、タブレット、ハンドヘルド、携帯電話又はサーバなどであってもよく、ここでは限定されない。
本開示の実施例において、電子機器には、処理コンポーネント、記憶コンポーネント及び駆動コンポーネントが設けられてもよい。選択的に、当該駆動コンポーネント及び処理コンポーネントは、統合して設けることができ、当該記憶コンポーネントは、オペレーティングシステム、アプリケーションプログラム又は他のプログラムモジュールを記憶することができ、当該処理コンポーネントは、記憶コンポーネントに記憶されているアプリケーションプログラムを実行することにより、本開示の実施例に係る音声処理方法を実現する。
図1は、本開示の実施例によって提供される音声処理方法の概略フローチャートである。
本開示の実施例の音声処理方法は、本開示の実施例によって提供される音声処理装置によって実行されてもよく、当該装置は、電子機器に配置されてもよく、取得されたオリジナル音声からスペクトルマップを抽出し、音声合成モデル内の第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、音声合成モデル内の第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成することにより、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。
可能な場合として、本開示の実施例の音声処理方法は、サーバで実行されてもよく、サーバは、クラウドサーバであってもよく、クラウドで当該音声処理方法を実行してもよい。
本開示の実施例において、本開示の当該実施例の音声処理方法は、音声アナウンス(例えば、地図ナビゲーション音声、コネクテッドカー音声インタラクション、辞書ペンアナウンスなど)を必要とするいくつかのAPP(Application、アプリケーション)に適用することができ、当該APPは、PCコンピュータ、タブレット、ハンドヘルド、携帯電話などの電子機器にインストールすることができる。
図1に示すように、当該音声処理方法は、以下のステップを含むことができる。
ステップ101において、オリジナル音声を取得する。ここで、オリジナル音声は複数であってもよく、当該オリジナル音声は、さまざまな言語で表現された音声であってもよく、例えば、中国語音声、英語音声、ロシア語音声、マレー語音声、中国語と英語の混用音声などであってもよく、ここでは限定されない。オリジナル音声は、文、段落又は章、例えば、ニュース原稿などを含むことができる。
本開示の実施例において、上記のオリジナル音声は、ユーザが音声認識によって入力した音声情報、ユーザがネットワークからダウンロードしたいくつかの映画、音楽、ドラマなどのオーディオ情報(音声情報)、及びユーザが音声提供装置から取得した音声情報を含むことができる。ここで、音声提供装置は、MP3(音楽ファイルを再生できるプレーヤー)、ビデオシーディープレーヤー、サーバ、モバイル端末及びスマートハードディスクなどを備えることができる。ここでは限定されない。
なお、ユーザは、収集(取得)された音声情報を電子機器の記憶空間に入力することにより、後続の使用のために保存することができる。ここで、当該記憶空間は、エンティティに基づく記憶空間、例えば、ハードディスクに限定されず、当該記憶空間は、電子機器に接続されているネットワークハードディスクの記憶空間(クラウド記憶空間)であってもよい。
具体的には、電子機器(例えば、携帯電話)は、自身の記憶空間からオリジナル音声を取得するか、又は自身の音声機能で録音してオリジナル音声を取得するか、又は音声提供装置からオリジナル音声を取得することができる。
ステップ102において、オリジナル音声からスペクトルマップを抽出する。ここで、当該スペクトルマップは、Mel(メル)スペクトルマップであってもよい。
本開示の実施例において、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。ここで、予め設定された抽出アルゴリズムは、実際の状況に応じてキャリブレーションすることができる。
具体的には、電子機器は、オリジナル音声を取得した後、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。
可能な場合として、オリジナル音声からスペクトルマップを抽出するように、抽出モデルに基づいてオリジナル音声を処理することもできる。なお、当該実施例において説明される抽出モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に予め記憶されていてもよい。
ここで、当該抽出モデルのトレーニング及び生成は、いずれも関連のトレーニングサーバによって実行されてもよく、当該トレーニングサーバは、クラウドサーバであってもよく、パソコンのホストであってもよく、当該トレーニングサーバと本開示の実施例に係る音声処理方法を実行可能な電子機器との間に、通信接続が確立されており、当該通信接続は、無線ネットワーク接続と有線ネットワーク接続との少なくとも1つであってもよい。当該トレーニングサーバは、当該電子機器が必要な時に呼び出すように、トレーニングされた抽出モデルを当該電子機器に送信することができ、これにより当該電子機器の計算ストレスを大幅に低減することができる。
具体的には、電子機器は、オリジナル音声を取得した後、自体の記憶空間から抽出モデルを呼び出し、当該オリジナル音声を当該抽出モデルに入力することにより、当該抽出モデルによって当該オリジナル音声からスペクトルマップを抽出し、当該抽出モデルによって出力されたスペクトルマップを取得することができる。
他の可能な場合として、電子機器は、抽出ツール(例えば、プラグイン)を利用してオリジナル音声からスペクトルマップを抽出することもできる。
ステップ103において、第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得する。
本開示の実施例において、上記の音声合成モデルは、ボコーダであってもよい。
なお、当該実施例において説明される音声合成モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に記憶されていてもよい。ここで、当該音声合成モデルは、純粋な畳み込み構造であってもよく、これによってネットワークのトレーニング及び予測速度をある程度高速化することができる。
ステップ104において、第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成する。
なお、当該実施例において説明される高調波構造は周期信号を含むことができる。
ステップ105において、第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。
具体的には、電子機器は、オリジナル音声から抽出されたスペクトルマップを取得した後、先ず自体の記憶空間から音声合成モデルを呼び出し(取得し)、当該スペクトルマップを当該音声合成モデルに入力することにより、当該音声合成モデルによって当該スペクトルマップを処理して、ターゲット音声を生成することができる。ここで、当該音声合成モデルは、当該スペクトルマップを取得した後、先ず内蔵された第1の生成サブモデルによってスペクトルマップを処理して、当該第1の生成サブモデルによって出力された当該スペクトルマップの高調波構造を取得し、そして内蔵された第2の生成サブモデルによって当該高調波構造及び当該スペクトルマップを処理して、当該第2の生成サブモデルによって出力されたターゲット音声、すなわち、当該音声合成モデルによって出力されたターゲット音声を取得することができる。これにより、ジッタや無音が発生することなく、音質及び音色がオリジナル音声により近いターゲット音声を生成することができる。
本開示の実施例において、先ずオリジナル音声を取得し、オリジナル音声からスペクトルマップを抽出し、第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得し、その後、第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。これにより、当該方法は、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。
前の実施例を明確に説明するために、本開示の一実施例において、図2に示すように、第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成するステップは、以下のステップを含むことができる。
ステップ201において、スペクトルマップを処理して、複数組の正弦波パラメータを生成し、ここで、各組の正弦波パラメータが振幅及び周波数を含む。なお、当該実施例における複数組の正弦波パラメータのうちの各組の正弦波パラメータはいずれも高調波関係にあり得る。
本開示の実施例において、上記の第1の生成サブモデルには、アップサンプリング畳み込みと残差ネットワークから構成され得る第1の純粋な畳み込みネットワークが含まれていてもよい。
ステップ202において、複数組の正弦波パラメータの正弦波をそれぞれ生成する。
本開示の実施例において、正弦波生成ポリシーに基づいて、複数組の正弦波パラメータの正弦波をそれぞれ生成することができ、ここで、正弦波生成ポリシーは、実際の状況に応じてキャリブレーションすることができる。
可能な場合として、正弦波生成モデルに基づいて、複数組の正弦波パラメータの正弦波をそれぞれ生成することもできる。ここで、複数組の正弦波パラメータ中の各組の正弦波パラメータを順に正弦波生成モデルに入力することにより、当該正弦波生成モデルによって各組の正弦波パラメータ中の振幅及び周波数を処理して、複数組の正弦波パラメータの正弦波をそれぞれ生成することができる。
ステップ203において、複数組の正弦波パラメータの正弦波を重ね合わせて、高調波構造を生成する。
具体的には、第1の生成サブモデルは、上記のスペクトルマップを受信した後、内蔵された第1の純粋な畳み込みネットワークによって当該スペクトルマップを処理して、複数組の正弦波パラメータを生成(予測)することができ、その後、各組の正弦波パラメータ中の振幅及び周波数に基づいて、複数組の正弦波パラメータの正弦波を生成してから、当該複数組の正弦波パラメータの正弦波を重ね合わせて、高調波構造を生成することができる。
さらに、第1の生成サブモデルは、内蔵された第1の純粋な畳み込みネットワークによって当該高調波構造を条件情報として上記の第2の生成サブモデルに入力して、第2の生成サブモデルの生成過程を指導する。
これにより、第1の純粋な畳み込みネットワークによって極小な計算量で比較的明確でオリジナルオーディオに近い高調波構造を得ることができ、この高調波構造は、1つの強い条件情報として第2の生成サブモデルの学習を指導することもでき、第2の生成サブモデルのモデリングの難しさを大幅に低減させ、また、当該高調波構造によって第2の生成サブモデルの生成過程を指導することにより、生成されたターゲット音声に音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないという優れた特徴を持たせることができる。
さらに、本開示の一実施例において、図3に示すように、第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成するステップは、以下のステップを含むことができる。
ステップ301において、高調波構造及びスペクトルマップに基づいて、複数のサブバンド音声を生成する。
本開示の実施例において、上記の第2の生成サブモデルには、第2の純粋な畳み込みネットワーク及びマルチサブバンド合成器が含まれてもよく、ここで、当該第2の純粋な畳み込みネットワークは、アップサンプリング畳み込み及び残差ネットワークから構成され得る。
ステップ302において、複数のサブバンド音声を合成して、ターゲット音声を生成する。
具体的には、第2の生成サブモデルは、上記のスペクトルマップ及び高調波構造を受信した後、先ず内蔵された第2の純粋な畳み込みネットワークによって当該高調波構造に基づいて当該スペクトルマップに対してサブバンド音声長のアップサンプリングを行い、当該高調波構造に基づいて当該アップサンプリングの結果に対して残差処理を行って、複数のサブバンド音声を取得することができる。ここで、当該第2の純粋な畳み込みネットワークは、転置畳み込みアルゴリズムを利用して当該スペクトルマップに対してサブバンド音声長のアップサンプリングを行い、深さ分離可能な畳み込みアルゴリズム及び一次元畳み込みアルゴリズムを利用して当該アップサンプリングの結果に対して複数回の残差処理を行うことができる。そして、当該第2の生成サブモデルは、内蔵されたマルチサブバンド合成器によって複数のサブバンド音声を合成して、ターゲット音声を生成することができる。ここで、転置畳み込みアルゴリズム、深さ分離可能な畳み込みアルゴリズム及び一次元畳み込みアルゴリズムは、実際の状況に応じてキャリブレーションすることができる。
これにより、ターゲット音声を生成する時に高調波構造の条件情報を加え、第2の生成サブモデルの計算量を大幅に低減させるとともに、生成されたオーディオの発音の安定性を確保し、これによって音声合成モデルに合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少なく、全ての端側シナリオに応用できるなどの優れた特徴を持たせることができる。
本開示の一実施例において、図4に示すように、上記の第1の生成サブモデルは、以下の方式によって生成することができる。
ステップ401において、サンプル音声を取得し、サンプル音声からサンプルスペクトルマップを抽出する。ここで、サンプル音声は、複数であってもよく、当該サンプル音声は、中国語音声、英語音声又はドイツ語音声などであってもよく、ここでは限定されない。
本開示の実施例において、サンプル音声を取得する方法は複数あり得て、ここで、同時通訳装置が同時通訳する時の音声を収集することにより、サンプル音声を取得することができ、サンプル音声を人為的に能動的に作成し、例えば、関係者のニーズに応じて、関連する録音装置によってサンプル音声を録音することもでき、いくつかの通行人の発話を能動的に収集することにより、サンプル音声を取得することもでき、音声提供装置からサンプル音声を取得することもでき、ここでは限定されない。
具体的には、サンプル音声が取得された後、上記の予め設定された抽出アルゴリズムに基づいて当該サンプル音声からサンプルスペクトルマップを抽出することができる。
ステップ402において、サンプルスペクトルマップを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成する。
なお、当該実施例において説明されるフィルタバンクは、一組の非周期信号のフィルタバンクであってもよい。
ステップ403において、フィルタバンクによってホワイトノイズをフィルタリングして、サンプルスペクトルマップの非周期信号を生成する。なお、当該実施例において説明されるホワイトノイズは、呼び出し及び応用を容易にするために、電子機器の記憶空間に予め記憶されてもよいし、ホワイトノイズ生成器によって直接生成されてもよい。
本開示の実施例において、上記の非周期信号は、ホワイトノイズのセグメントによって取得されてもよく、周期信号は、一連の正弦波を重ね合わせることによって取得されてもよい。周期信号のセグメントにおいて、基本波信号と高調波信号を含み、当該周期信号の周期と等しい正弦波成分を基本波成分と呼び、この基本波成分の周波数を基本周波数と呼び、周波数が基本周波数の整数倍と等しい正弦波成分を高調波と呼び、基本周波数と高調波とを加算して1つの周期信号を得ることができ、この周期信号は、上記の実施例における高調波構造である。
ステップ404において、複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成する。
ステップ405において、複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、サンプルスペクトルマップのサンプル高調波構造を生成する。
具体的には、トレーニング時に第1の生成サブモデル中の第1の純粋な畳み込みネットワークは、当該サンプルスペクトルマップの入力に基づいて、先ず一組の非周期信号のフィルタバンクを予測し、当該フィルタバンクによってホワイトノイズをフィルタリングして、サンプルスペクトルマップの非周期信号を得ることができ、同時に当該第1の純粋な畳み込みネットワークは、高調波関係にある多組の正弦波パラメータを予測し、高調波関係にある複数組の正弦波パラメータの正弦波を生成することもできる。そして、これらの高調波関係にある正弦波を重ねあわせることにより、サンプル音声のサンプル高調波構造を得ることができる。
ステップ406において、サンプル高調波構造と非周期信号を重ね合わせて、予測された第1の合成音声を取得する。
ステップ407において、第1の合成音声及びサンプル音声に基づいて、第1の損失値を生成し、第1の損失値に基づいて、第1の生成サブモデルをトレーニングする。
本開示の実施例において、第1の合成音声とサンプル音声とを比較(判別)して、当該第1の合成音声と当該サンプル音声との間の違いを取得することができ、当該違いを第1の損失値とすることができる。ここで、判別器によって第1の合成音声とサンプル音声を判別して第1の損失値を生成したり、予め設定された判別アルゴリズムによって第1の合成音声とサンプル音声を判別して第1の損失値を生成したりすることができ、ここでは限定されない。ここで、当該判別器は、純粋な畳み込み構造であってもよく、当該判別器は、呼び出し及び応用を容易にするために、電子機器の記憶空間に予め記憶されてもよい。なお、当該実施例において説明される予め設定された判別アルゴリズムは、実際の状況に応じてキャリブレーションすることができる。
具体的には、トレーニング時に第1の生成サブモデル中の第1の純粋な畳み込みネットワークは、サンプル音声のサンプル高調波構造を取得した後、サンプル高調波構造(すなわち、周期信号)と非周期信号を重ね合わせて予測された第1の合成音声を取得し、そして当該第1の合成音声と当該サンプル音声とを比較(判別)して、当該第1の合成音声と当該サンプル音声との間の違いを取得し、当該違いを第1の損失値とすることができる。最後に当該第1の損失値に基づいて、第1の生成サブモデルをトレーニングすることにより、第1の生成サブモデルを最適化させ、生成の精度を向上させる。
本開示の一実施例において、図5に示すように、上記の第2の生成サブモデルは、以下の方式によって生成することができる。
ステップ501において、サンプルスペクトルマップとサンプル高調波構造とを第2の生成サブモデルに入力して、予測された第2の合成音声を生成する。
具体的には、トレーニング時に第2の生成サブモデル中の第2の純粋な畳み込みネットワークは、上記のサンプル高調波構造を受信した後、当該サンプル高調波構造に基づいて当該サンプルスペクトルマップに対してサブバンド音声長のアップサンプリングを行い、当該サンプル高調波構造に基づいてアップリングの結果に対して残差処理を行って、複数のサンプルサブバンド音声を取得することができる。そして、当該第2の生成サブモデル中のマルチサブバンド合成器は、複数のサブバンド音声を合成して予測された第2の合成音声を取得することができる。
ステップ502において、判別器によってサンプル音声と第2の合成音声とを判別して、第2の損失値を生成する。
ステップ503において、第2の損失値に基づいて、第2の生成サブモデルをトレーニングする。
具体的には、トレーニング時に上記のマルチサブバンド合成器によって予測された第2の合成音声及び上記のサンプル音声を判別器に入力することにより、当該判別器によって当該サンプル音声と当該第2の合成音声を判別し、当該判別器によって出力された第2の損失値を取得することができる。そして、当該第2の損失値に基づいて、第2の生成サブモデルをトレーニングすることにより、第2の生成サブモデルを最適化させ、生成の精度をさらに向上させる。
可能な場合として、上記予め設定された判別アルゴリズムによってサンプル音声と第2の合成音声を判別して、第2の損失値を生成することもできる。
本開示の実施例において、上記の音声合成モデルの合成音声の音質及び音色はいずれもオリジナルオーディオに非常に近く、ジッタや無音の問題がなく、さらに重要なことは、当該音声合成モデルの合成リアルタイム率は、従来のボコーダに匹敵し、その合成音声の品質は、一般的なニューラルボコーダに匹敵することができる。
図6は、本開示の実施例に係る音声処理装置の概略構成図である。
本開示の実施例の音声処理装置は、電子機器に配置されてもよく、取得されたオリジナル音声からスペクトルマップを抽出し、音声合成モデル内の第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、音声合成モデル内の第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成することにより、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。
本開示の実施例において、本開示の当該実施例の音声処理装置は、音声アナウンス(例えば、地図ナビゲーション音声、コネクテッドカー音声インタラクション、辞書ペンアナウンスなど)を必要とするいくつかのAPP(Application、アプリケーション)に設ける(インストールする)ことができ、当該APPは、PCコンピュータ、タブレット、ハンドヘルド、携帯電話などの電子機器にインストールすることができる。
図6に示すように、当該音声処理装置600は、第1の取得モジュール610、抽出モジュール620、第2の取得モジュール630、第1の生成モジュール640及び第2の生成モジュール650を備えることができる。
ここで、第1の取得モジュール610は、オリジナル音声を取得するように構成される。ここで、オリジナル音声は複数であってもよく、当該オリジナル音声は、さまざまな言語で表現された音声であってもよく、例えば、中国語音声、英語音声、ロシア語音声、マレー語音声、中国語と英語の混用音声などであってもよく、ここでは限定されない。オリジナル音声は、文、段落又は章、例えば、ニュース原稿を含むことができる。
本開示の実施例において、上記のオリジナル音声は、ユーザが音声認識によって入力した音声情報、ユーザがネットワークからダウンロードしたいくつかの映画、音楽、ドラマなどのオーディオ情報(音声情報)、及びユーザが音声提供装置から取得した音声情報を含むことができる。ここで、音声提供装置は、MP3、ビデオシーディープレーヤー、サーバ、モバイル端末及びスマートハードディスクなどを備えることができる。ここでは限定されない。
なお、ユーザは、収集(取得)された音声情報を電子機器の記憶空間に入力することにより、後続の使用のために保存することができる。ここで、当該記憶空間は、エンティティに基づく記憶空間、例えば、ハードディスクに限定されず、当該記憶空間は、電子機器に接続されているネットワークハードディスクの記憶空間(クラウド記憶空間)であってもよい。
具体的には、第1の取得モジュール610は、電子機器の記憶空間からオリジナル音声を取得するか、又は自体の音声機能で録音してオリジナル音声を取得するか、又は音声提供装置からオリジナル音声を取得することができる。
抽出モジュール620は、オリジナル音声からスペクトルマップを抽出するように構成される。ここで、当該スペクトルマップは、Mel(メル)スペクトルマップであってもよい。
本開示の実施例において、抽出モジュール620は、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。ここで、予め設定された抽出アルゴリズムは、実際の状況に応じてキャリブレーションすることができる。
具体的には、抽出モジュール620は、第1の取得モジュール610がオリジナル音声を取得した後、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。
可能な場合として、抽出モジュール620は、オリジナル音声からスペクトルマップを抽出するように、抽出モデルによってオリジナル音声を処理することもできる。なお、当該実施例において説明される抽出モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に記憶されていてもよい。
ここで、当該抽出モデルのトレーニング及び生成は、いずれも関連のトレーニングサーバによって実行されてもよく、当該トレーニングサーバは、クラウドサーバであってもよく、パソコンのホストであってもよく、当該トレーニングサーバと本開示の実施例に係る音声処理装置を配置できる電子機器との間に、通信接続が確立されており、当該通信接続は、無線ネットワーク接続と有線ネットワーク接続との少なくとも1つであってもよい。当該トレーニングサーバは、当該電子機器が必要な時に呼び出すように、トレーニングされた抽出モデルを当該電子機器に送信することができ、これにより当該電子機器の計算ストレスを大幅に低減することができる。
具体的には、抽出モジュール620は、第1の取得モジュール610がオリジナル音声を取得した後、電子機器の記憶空間から抽出モデルを呼び出し、当該オリジナル音声を当該抽出モデルに入力することにより、当該抽出モデルによって当該オリジナル音声からスペクトルマップを抽出し、当該抽出モデルによって出力されたスペクトルマップを取得することができる。
他の可能な場合として、抽出モジュール620は、抽出ツール(例えば、プラグイン)を利用してオリジナル音声からスペクトルマップを抽出することもできる。
第2の取得モジュール630は、第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得するように構成される。
本開示の実施例において、上記の音声合成モデルは、ボコーダであってもよい。
なお、当該実施例において説明される音声合成モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に記憶されていてもよい。ここで、当該音声合成モデルは、純粋な畳み込み構造であってもよく、これによってネットワークのトレーニング及び予測速度をある程度高速化することができる。
第1の生成モジュール640は、第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成するように構成される。
なお、当該実施例において説明される高調波構造は、周期信号を含むことができる。
第2の生成モジュール650は、第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成するように構成される。
本開示の実施例において、先ず第1の取得モジュールによってオリジナル音声を取得し、抽出モジュールによってオリジナル音声からスペクトルマップを抽出し、第2の取得モジュールによって第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得し、そして、第1の生成サブモジュールによって第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第2の生成モジュールによって第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。これにより、当該装置は、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。
本開示の一実施例において、第1の生成モジュール640は、具体的には、スペクトルマップを処理して、複数組の正弦波パラメータを生成し、ここで、各組の正弦波パラメータが振幅及び周波数を含み、複数組の正弦波パラメータの正弦波をそれぞれ生成し、複数組の正弦波パラメータの正弦波を重ね合わせて、高調波構造を生成するように構成される。
本開示の一実施例において、第2の生成モジュール650は、具体的には、高調波構造及びスペクトルマップに基づいて、複数のサブバンド音声を生成し、複数のサブバンド音声を合成して、ターゲット音声を生成するように構成される。
本開示の一実施例において、図6に示すように、当該音声処理装置600は、第1のトレーニングモジュール660をさらに備えることができ、第1のトレーニングモジュール660は、サンプル音声を取得し、サンプル音声からサンプルスペクトルマップを抽出することと、サンプルスペクトルマップを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成することと、フィルタバンクによってホワイトノイズをフィルタリングして、サンプルスペクトルマップの非周期信号を生成することと、複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成することと、複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、サンプルスペクトルマップのサンプル高調波構造を生成することと、サンプル高調波構造と非周期信号を重ね合わせて、予測された第1の合成音声を取得することと、第1の合成音声及びサンプル音声に基づいて、第1の損失値を生成し、第1の損失値に基づいて、第1の生成サブモデルをトレーニングすることとによって、第1の生成サブモデルを生成するように構成される。
本開示の一実施例において、図6に示すように、当該音声処理装置600は、第2のトレーニングモジュール670をさらに備えることができ、第2のトレーニングモジュール670は、サンプルスペクトルマップとサンプル高調波構造とを第2の生成サブモデルに入力して、予測された第2の合成音声を生成することと、判別器によってサンプル音声と第2の合成音声とを判別して、第2の損失値を生成することと、第2の損失値に基づいて、第2の生成サブモデルをトレーニングすることとによってする方式によって、第2の生成サブモデルを生成するように構成される。
なお、前述した音声処理方法の実施例に対する解釈説明も当該実施例の音声処理装置に適用され、ここでは詳しく説明しない。
本開示の実施例の音声処理装置は、先ず第1の取得モジュールによってオリジナル音声を取得し、抽出モジュールによってオリジナル音声からスペクトルマップを抽出し、第2の取得モジュールによって第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得し、そして、第1の生成サブモジュールによって第1の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第2の生成モジュールによって第2の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。これにより、当該装置は、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。
本開示の技術案において、係るユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び公開などの処理は、いずれも関連法律・法規の規定に合致し、公序良俗に反していない。
本開示の実施例によれば、本開示は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供される音声処理方法が実現される。
図7は、本開示の実施例を実施するために使用され得る例示的な電子機器700の例示的な概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限するものではない。
図7に示すように、デバイス700は、リードオンリーメモリ(ROM)702に記憶されているコンピュータプログラム、又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット701を備える。RAM703には、デバイス700の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット701、ROM702及びRAM703は、バス704を介して互いに接続されている。入出力(I/O)インターフェース705もバス704に接続されている。
デバイス700における複数のコンポーネントは、入出力(I/O)インターフェース705に接続され、キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカなどの出力ユニット707と、磁気ディスク、光ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を備える。通信ユニット709は、デバイス700がインタネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット701は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット701のいくつかの例は、セントラルプロセッシングユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上述したそれぞれの方法及び処理、例えば、音声処理方法を実行する。例えば、いくつかの実施例で、音声処理方法は、記憶ユニット708のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信ユニット709を介してデバイス700にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM703にロッドされて計算ユニット701によって実行される場合、上述した音声処理方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット701は、音声処理方法を実行するように他の任意の適切な形態で(例えば、ファーとウェアにより)構成されてもよい。
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組合せで実現されてもよい。これらの様々な実施形態は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈することができる1つ又は複数のコンピュータプログラムで実現されてもよく、当該プログラマブルプロセッサは、専用及び/又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を伝送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行されるか、又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM)又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つである。サーバも分散式システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (13)

  1. オリジナル音声を取得するステップと、
    前記オリジナル音声からスペクトルマップを抽出するステップと、
    第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得するステップと、
    前記第1の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するステップと、
    前記第2の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するステップと、
    を含む音声処理方法。
  2. 前記第1の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するステップが、
    前記スペクトルマップを処理して、複数組の正弦波パラメータを生成するステップであって、前記各組の正弦波が振幅及び周波数を含むステップと、
    前記複数組の正弦波パラメータの正弦波をそれぞれ生成するステップと、
    前記複数組の正弦波パラメータの正弦波を重ね合わせて、前記高調波構造を生成するステップと、
    を含む請求項1に記載の方法。
  3. 前記第2の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するステップが、
    前記高調波構造及び前記スペクトルマップに基づいて、複数のサブバンド音声を生成するステップと、
    前記複数のサブバンド音声を合成して、ターゲット音声を生成するステップと、
    を含む請求項1に記載の方法。
  4. サンプル音声を取得し、前記サンプル音声からサンプルスペクトルマップを抽出することと、
    前記サンプルスペクトルマップを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成することと、
    前記フィルタバンクによってホワイトノイズをフィルタリングして、前記サンプルスペクトルマップの非周期信号を生成することと、
    前記複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成することと、
    前記複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、前記サンプルスペクトルマップのサンプル高調波構造を生成することと、
    前記サンプル高調波構造と前記非周期信号を重ね合わせて、予測された第1の合成音声を取得することと、
    前記第1の合成音声及び前記サンプル音声に基づいて、第1の損失値を生成し、前記第1の損失値に基づいて、前記第1の生成サブモデルをトレーニングすることと、
    によって、前記第1の生成サブモデルが生成される請求項1に記載の方法。
  5. 前記サンプルスペクトルマップと前記サンプル高調波構造とを前記第2の生成サブモデルに入力して、予測された第2の合成音声を生成することと、
    判別器によって前記サンプル音声と前記第2の合成音声とを判別して、第2の損失値を生成することと、
    前記第2の損失値に基づいて、前記第2の生成サブモデルをトレーニングすることと、
    によって、前記第2の生成サブモデルが生成される請求項4に記載の方法。
  6. オリジナル音声を取得するように構成される第1の取得モジュールと、
    前記オリジナル音声からスペクトルマップを抽出するように構成される抽出モジュールと、
    第1の生成サブモデル及び第2の生成サブモデルを含む音声合成モデルを取得するように構成される第2の取得モジュールと、
    前記第1の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するように構成される第1の生成モジュールと、
    前記第2の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するように構成される第2の生成モジュールと、
    を備える音声処理装置。
  7. 前記第1の生成モジュールが、
    前記スペクトルマップを処理して、複数組の正弦波パラメータを生成し、前記各組の正弦波パラメータが振幅及び周波数を含み、
    前記複数組の正弦波パラメータの正弦波をそれぞれ生成し、
    前記複数組の正弦波パラメータの正弦波を重ね合わせて、前記高調波構造を生成するように構成される請求項6に記載の装置。
  8. 前記第2の生成モジュールが、
    前記高調波構造及び前記スペクトルマップに基づいて、複数のサブバンド音声を生成し、
    前記複数のサブバンド音声を合成して、ターゲット音声を生成するように構成される請求項6に記載の装置。
  9. 第1のトレーニングモジュールを備え、
    該第1のトレーニングモジュールが、
    サンプル音声を取得し、前記サンプル音声からサンプルスペクトルマップを抽出することと、
    前記サンプルスペクトルマップを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成することと、
    前記フィルタバンクによってホワイトノイズをフィルタリングして、前記サンプルスペクトルマップの非周期信号を生成することと、
    前記複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成することと、
    前記複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、前記サンプルスペクトルマップのサンプル高調波構造を生成することと、
    前記サンプル高調波構造と前記非周期信号を重ね合わせて、予測された第1の合成音声を取得することと、
    前記第1の合成音声及び前記サンプル音声に基づいて、第1の損失値を生成し、前記第1の損失値に基づいて、前記第1の生成サブモデルをトレーニングすることと、
    によって、前記第1の生成サブモデルを生成するように構成される請求項6に記載の装置。
  10. 第2のトレーニングモジュールを備え、
    該第2のトレーニングモジュールが、
    前記サンプルスペクトルマップと前記サンプル高調波構造とを前記第2の生成サブモデルに入力して、予測された第2の合成音声を生成することと、
    判別器によって前記サンプル音声と前記第2の合成音声とを判別して、第2の損失値を生成することと、
    前記第2の損失値に基づいて、前記第2の生成サブモデルをトレーニングすることと、
    によって、前記第2の生成サブモデルを生成するように構成される請求項9に記載の装置。
  11. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサに通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から5のいずれか一項に記載の音声処理方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から5のいずれか一項に記載の音声処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  13. プロセッサによって実行される場合、請求項1から5のいずれか一項に記載の音声処理方法のステップが実現されるコンピュータプログラム。
JP2022110128A 2021-09-27 2022-07-08 音声処理方法、装置、電子機器及び記憶媒体 Active JP7412483B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111138464.5 2021-09-27
CN202111138464.5A CN113889073B (zh) 2021-09-27 2021-09-27 语音处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022133447A true JP2022133447A (ja) 2022-09-13
JP7412483B2 JP7412483B2 (ja) 2024-01-12

Family

ID=79007116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022110128A Active JP7412483B2 (ja) 2021-09-27 2022-07-08 音声処理方法、装置、電子機器及び記憶媒体

Country Status (4)

Country Link
US (1) US20230015112A1 (ja)
JP (1) JP7412483B2 (ja)
KR (1) KR20220127190A (ja)
CN (1) CN113889073B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115686195A (zh) * 2022-09-13 2023-02-03 瑞声开泰声学科技(上海)有限公司 一种触觉反馈信号的生成方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182099A (ja) * 2017-07-04 2017-10-05 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム
WO2021006117A1 (ja) * 2019-07-05 2021-01-14 国立研究開発法人情報通信研究機構 音声合成処理装置、音声合成処理方法、および、プログラム
CN113066472A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
US20210366461A1 (en) * 2020-05-20 2021-11-25 Resemble.ai Generating speech signals using both neural network-based vocoding and generative adversarial training

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1505570B1 (en) * 2003-08-06 2017-10-11 Yamaha Corporation Singing voice synthesizing method
JP2007114355A (ja) * 2005-10-19 2007-05-10 Univ Of Tokyo 音声合成方法及び装置
JP6733644B2 (ja) * 2017-11-29 2020-08-05 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN109147758B (zh) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN111833843B (zh) * 2020-07-21 2022-05-10 思必驰科技股份有限公司 语音合成方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182099A (ja) * 2017-07-04 2017-10-05 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム
WO2021006117A1 (ja) * 2019-07-05 2021-01-14 国立研究開発法人情報通信研究機構 音声合成処理装置、音声合成処理方法、および、プログラム
CN113066472A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
US20210366461A1 (en) * 2020-05-20 2021-11-25 Resemble.ai Generating speech signals using both neural network-based vocoding and generative adversarial training

Also Published As

Publication number Publication date
CN113889073B (zh) 2022-10-18
US20230015112A1 (en) 2023-01-19
JP7412483B2 (ja) 2024-01-12
CN113889073A (zh) 2022-01-04
KR20220127190A (ko) 2022-09-19

Similar Documents

Publication Publication Date Title
US11361751B2 (en) Speech synthesis method and device
CN111754976B (zh) 一种韵律控制语音合成方法、***及电子装置
KR102484967B1 (ko) 음성 전환 방법, 장치 및 전자 기기
CN111369971A (zh) 语音合成方法、装置、存储介质和电子设备
US20220383876A1 (en) Method of converting speech, electronic device, and readable storage medium
CN111354343B (zh) 语音唤醒模型的生成方法、装置和电子设备
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
JP2023059937A (ja) データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム
JP7412483B2 (ja) 音声処理方法、装置、電子機器及び記憶媒体
JP2023027748A (ja) 音声合成方法、装置、機器、及びコンピュータ記憶媒体
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
Mukherjee et al. A Bengali speech synthesizer on Android OS
CN115798455A (zh) 语音合成方法、***、电子设备及存储介质
CN113781996B (zh) 一种语音合成模型训练方法、装置及电子设备
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN113948062A (zh) 数据转换方法及计算机存储介质
CN113539239A (zh) 语音转换方法、装置、存储介质及电子设备
CN113160849B (zh) 歌声合成方法、装置及电子设备和计算机可读存储介质
US20230081543A1 (en) Method for synthetizing speech and electronic device
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
de Abreu Pinna et al. A brazilian portuguese real-time voice recognition to deal with sensitive data
CN115132168A (zh) 音频合成方法、装置、设备、计算机可读存储介质及产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231226

R150 Certificate of patent or registration of utility model

Ref document number: 7412483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150