JP7274184B2 - 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 - Google Patents

話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 Download PDF

Info

Publication number
JP7274184B2
JP7274184B2 JP2021540067A JP2021540067A JP7274184B2 JP 7274184 B2 JP7274184 B2 JP 7274184B2 JP 2021540067 A JP2021540067 A JP 2021540067A JP 2021540067 A JP2021540067 A JP 2021540067A JP 7274184 B2 JP7274184 B2 JP 7274184B2
Authority
JP
Japan
Prior art keywords
excitation
signal
speech
training
vocoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021540067A
Other languages
English (en)
Other versions
JP2022516784A (ja
Inventor
ソン,ウンウー
キム,ジンソプ
ビョン,キョングン
カン,ホング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190004084A external-priority patent/KR102198597B1/ko
Priority claimed from KR1020190004085A external-priority patent/KR102198598B1/ko
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022516784A publication Critical patent/JP2022516784A/ja
Priority to JP2023069781A priority Critical patent/JP2023089256A/ja
Application granted granted Critical
Publication of JP7274184B2 publication Critical patent/JP7274184B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

特許法第30条第2項適用 2018年8月16日に大韓民国ソウル市の延世大学校で開催された2018年度韓国音響学会第35回音声通信及び信号処理学術大会にて「DEEP LEARNING-BASED SPEECH SYNTHESIS SYSTEM」として公開。
特許法第30条第2項適用 2018年11月8日にウェブサイト(https://arxiv.org/abs/1811.03311)上にて「SPEAKER-ADAPTIVE NEURAL VODODERS FOR STATISTICAL PARAMETRIC SPEECH SYNTHESIS SYSTEMS」として公開。
以下の説明は、ニューラルボコーダを使用する合成音声信号生成方法とニューラルボコーダ、およびニューラルボコーダの訓練方法に関する。
また、以下の説明は、話者適応型モデルを利用してターゲット話者の合成音声信号を生成するニューラルボコーダ、および話者適応型モデルを実現するためのニューラルボコーダの訓練方法に関する。
音声合成技術とは、入力されたデータに基づいて人間の音声と類似の合成音を作り出す技術である。一例として、TTS(Text to speech)は、入力されたテキストを人間の音声に変換して提供する。
このような合成音声は、入力された音響パラメータに基づいて音声信号を生成するボコーダによって生成される。近年は、人工知能およびディープラーニング技術の発展に伴い、合成音声の生成にニューラルネットワークを活用するニューラルボコーダが提案されるようになった。ニューラルボコーダは、話者からの音声データによって話者独立的または話者従属的に訓練され、訓練の結果を使用することにより、入力された音響パラメータに対する合成音声信号を生成する。
ニューラルボコーダが特定のターゲット話者に対応する合成音声信号を生成するためには、該当のターゲット話者の音声データを利用してニューラルボコーダを訓練しなければならない。一定以上の品質をもつ合成音声信号を生成するためには、一般的には、ターゲット話者の音声録音を含んだ、数時間以上の音声データが必要となる。音声データが足りない場合には、生成される合成音声信号の品質が低下したり歪曲が発生したりするようになる。ターゲット話者が一般人ではなく、芸能人や有名人などのようなセレブリティ(celebrity)の場合には、数時間以上の音声録音を訓練データとして確保するのが困難なことが多い。したがって、訓練に使用するためのターゲット話者の音声データの量を最小に抑えながらも合成音声信号の品質を高めることができるニューラルボコーダシステムが求められている。
一方、音声信号に基づく合成音声信号の生成において、音声信号はダイナミックな特性を有するため、ニューラルネットワーク(例えば、CNN)がこのような特性を完全に捕捉するには困難がある。特に、音声信号の高周波数領域ではスペクトル歪曲が発生しやすく、これは合成音声信号の品質の低下にも繋がりかねない。したがって、高周波数領域のスペクトル歪曲を低めて合成音声信号の品質を高めることができ、さらに音声データを訓練する過程を簡略化することのできるニューラルボコーダシステムも求められている。
特許文献1(韓国特許出願公開第10-2018-0113325号公報(公開日2018年10月16日))は、音声合成装置が音声波形を合成するにあたり、開発者や利用者の意図したとおりに合成音の音声が変調されるように音声合成器の音声モデルを符号化し、音声モデルコードを変換し、音声モデルを復号化することにより、変調された音声波形を合成する機能を提供する音声合成装置および方法について説明している。
上述した情報は、本発明の理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示することのできる内容を含まないこともある。
韓国特許出願公開第10-2018-0113325号
スペクトル関連パラメータおよび励起関連パラメータを含む複数の音響パラメータを取得し、複数の音響パラメータに基づいて励起信号を推定し、推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する、ニューラルボコーダによる音声信号生成方法を提供することを目的とする。
複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値を初期値として設定し、該当の初期値に対してターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する、ニューラルボコーダの訓練方法を提供することを他の目的とする。
一側面において、コンピュータによって実現されるニューラルボコーダ(neural vocoder)が実行する音声信号生成方法であって、スペクトル関連パラメータ(spectral parameter)および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する段階、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階を含む、音声信号生成方法を提供する。
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含んでよい。
前記第1励起パラメータは、前記励起の高調波スペクトル(harmonic spectrum)を示し、前記第2励起パラメータは、前記励起のその他の部分を示してよい。
前記スペクトル関連パラメータは、音声信号のピッチを示す周波数パラメータ、音声信号のエネルギーを示すエネルギーパラメータ、音声信号が有声音(voice)であるか無声音(unvoice)であるかを示すパラメータ、および音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを含んでよい。
前記ターゲット音声信号を生成する段階は、前記LSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する段階を含んでよい。
前記複数の音響パラメータは、入力されたテキストまたは入力された音声信号に基づいて音響モデル(acoustic model)によって生成されたものであってよい。
前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、前記訓練は、前記入力された音声信号に対して線形予測分析フィルタ(Linear predictionanalysis filter)を適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含み、前記励起信号を推定する段階は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。
前記励起信号を分離する段階は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階を含んでよい。
前記分離された励起信号は、前記入力された音声信号の残渣成分(residual component)であってよい。
他の側面において、コンピュータによって実現されるニューラルボコーダの訓練方法であって、音声信号の入力を受ける段階、前記入力された音声信号から、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出する段階、前記入力された音声信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形予測分析フィルタを適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含む、ニューラルボコーダの訓練方法を提供する。
前記励起信号を分離する段階は、前記スペクトル関連パラメータのうちで前記入力された音声信号のLSFを示すパラメータをLPCに変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階を含んでよい。
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含んでよい。
また他の側面において、ニューラルボコーダであって、スペクトル関連パラメータ(spectral parameter)、および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する励起信号推定部、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部を含む、ニューラルボコーダを提供する。
前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用してよい。
前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、前記ニューラルボコーダは、前記入力された音声信号に対して線形予測分析フィルタ(linear prediction analysis filter)を適用することによって前記入力された音声信号から励起信号を分離する励起信号分離部、および前記分離した励起信号の確率分布をモデリングするモデリング部をさらに含んでよく、前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。
前記励起信号分離部は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用してよい。
また他の側面において、コンピュータによって実現されるニューラルボコーダの訓練方法であって、複数の話者からの音声データセットに対して訓練されたソースモデルからの加重値(weight)を初期値として設定する段階、および前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する段階を含み、前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声信号を生成するために使用される、ニューラルボコーダの訓練方法が提供される。
前記ソースモデルからの加重値(weight)は、前記音声データセットに含まれた話者ごとに区分されないグローバル特性を示す値であり、前記アップデートされた加重値を生成する段階は、前記ソースモデルからの加重値を、前記ターゲット話者からの音声データセットが含む前記ターゲット話者の固有の特性が反映されるように調整することによって前記アップデートされた加重値を生成してよい。
前記複数の話者からの音声データセットのそれぞれの大きさは、前記ターゲット話者からの音声データセットよりも大きくてよい。
前記ニューラルボコーダの訓練方法は、前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築する段階、および前記ソースモデルから前記加重値を取得する段階をさらに含み、前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子(initializer)として使用されてよい。
前記訓練方法によって訓練されたニューラルボコーダが実行する音声信号生成方法であって、入力されたテキストまたは入力された音声信号に基づき、音響モデル(acoustic model)によって生成されたスペクトル関連パラメータ(spectral parameter)および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する段階、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階を含み、前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声である、音声信号生成方法が提供される。
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含んでよい。
前記ターゲット音声信号を生成する段階は、前記スペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する段階を含んでよい。
前記励起信号を推定する段階は、モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定し、前記励起信号の確率分布のモデリングは、訓練のために入力された音声信号に対して線形予測分析フィルタ(Linear prediction analysis filter)を適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含む方法によって実行されてよい。
前記励起信号を分離する段階は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階を含んでよい。
また他の側面において、ニューラルボコーダであって、複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値(weight)を初期値として設定し、前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する話者適応型モデルを構築する話者適応型モデル構築部を含み、前記話者適応型モデルによって生成された、前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声を生成するために使用される、ニューラルボコーダを提供する。
前記ニューラルボコーダは、前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築するソースモデル構築部をさらに含み、前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子(initializer)として動作してよい。
前記ニューラルボコーダは、入力されたテキストまたは入力された音声信号に基づき、音響モデル(acoustic model)によって生成されたスペクトル関連パラメータ(spectral parameter)および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する励起信号推定部、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部をさらに含み、前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声であってよい。
前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用してよい。
前記ニューラルボコーダは、訓練のために入力された音声信号に対して線形予測分析フィルタ(linear prediction analysis filter)を適用することによって前記入力された音声信号から励起信号を分離する励起信号分離部、および前記分離された励起信号の確率分布をモデリングするモデリング部をさらに含み、前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。
前記励起信号分離部は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用してよい。
ニューラルボコーダが励起信号をターゲットにして推定を実行し、推定された励起信号に対して線形予測フィルタを適用することによってターゲット音声信号が生成されることにより、生成されたターゲット音声信号の品質を高めることができ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。
ランダム値ではない話者独立的に訓練されたソースモデルからの加重値を初期値として使用してターゲット話者からの音声データセットを訓練することにより、相対的に小さい(すなわち、短時間の)音声データセットを訓練するだけでも高品質のターゲット話者の合成音声(合成音声信号)を生成することができる。
一実施形態における、入力されたテキストまたは音声信号に基づいて合成音声信号を生成する方法を示した図である。 一実施形態における、ニューラルボコーダシステムの構造を示したブロック図である。 一実施形態における、ニューラルボコーダシステムのプロセッサの構造を示したブロック図である。 一実施形態における、音声信号生成方法を示したフローチャートである。 一実施形態における、ニューラルボコーダを訓練させる方法を示したフローチャートである。 一実施形態における、話者適応型モデルを構築してターゲット話者の合成音声を生成する方法を示した図である。 一実施形態における、ニューラルボコーダのプロセッサの構造を示したブロック図である。 一実施形態における、話者適応型モデルを構築するためのニューラルボコーダの訓練方法を示したフローチャートである。 一例における、音声信号および励起信号とその関係を示した図である。 それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。 それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。 それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。 一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。 一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。 一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。 一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。 一例における、訓練過程/合成音声信号の生成過程で取得した負の対数尤度(Negative Log-Likelihood:NLL)の音響パラメータとして励起の周期性によって区分されるパラメータの使用の可否による差を示したグラフである。 一例における、複数の話者からの音声信号に対し、音声信号の話者従属的な特徴と話者独立的な特徴を示した図式である。 一例における、複数の話者からの音声データセットを訓練させることによって構築されたソースモデルと、ターゲット話者からの音声データセットを訓練させることによって構築された話者適応型モデルを使用してターゲット話者の合成音声を生成する方法を示した図である。 一例における、話者適応(speaker adaptation)アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。 一例における、話者適応(speaker adaptation)アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。 一例における、ExcitNetボコーダと他のボコーダとのMOS(Mean Opinion Score)評価の結果を示した図である。 一例における、F0スケーリングファクタ(scaling factor)を相違させる場合において、話者適応型モデルを構築するニューラルボコーダの性能の変化を示した図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
図1は、一実施形態における、入力されたテキストまたは音声信号に基づいて合成音声信号を生成する方法を示した図である。
音声信号とは音声を示すものであるが、以下の詳細な説明では、説明の便宜上、「音声信号」と「音声」が混用されることもある。
音響モデル(acoustic model)110は、合成音声信号の生成のために入力されたテキストまたは音声信号から音響パラメータ(複数可)を生成してよい。音響モデル110は、ディープラーニングに基づく統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムで設計されたものであってよい。音響モデル110は、言語入力と音響出力パラメータとの間の非線形マッピング関数を示すために訓練された、マルチフィードフォワードおよび長短期記憶層で構成されてよい。音響モデル110は、例えば、DNN TTSモジュールであってよい。音響パラメータは、合成音声信号を生成するために使用されるフィーチャーであるか、フィーチャーを構成するために使用されるパラメータであってよい。
ボコーダ120は、音響モデル110で生成された音響パラメータを音声信号に変換することによって合成音声信号を生成してよい。ボコーダ120は、ニューラルボコーダであってよい。ニューラルボコーダは、ディープラーニングモデルによって訓練されたものであってよい。ニューラルボコーダは、例えば、WaveNet、SampleRNN、またはWaveRNNであってよい。また、ニューラルボコーダは、これらに制限されない、一般的な生成モデル(generative model)であってもよい。
「ニューラルボコーダ」は、(合成)音声信号の生成のために訓練されたモデル(例えば、WaveNet、SampleRNN、WaveRNN、または一般的なモデル)、および各種フィルタを含む装置を示すために使用されてよい。
ボコーダ120は、音響モデル110から取得した音響パラメータに基づいて音声信号の励起(excitation)信号を推定してよい。すなわち、音声信号の励起信号がボコーダ120のターゲットとなってよい。
励起信号は、音声信号のうちで音声の震えを示す成分であって、発話者の口の形状によって変化する音声信号の変化を示す成分(スペクトル成分(spectral component))とは区分されてよい。励起信号の変化は、発話者の声帯の動き(vocal cord movement)によってのみ制限されてよい。励起信号は、音声信号の残渣信号(residual signal)であってよい。
ボコーダ120によって推定された励起信号に対し、音声信号のスペクトル成分を示す音響パラメータに基づいて生成された線形予測(Linear Prediction)フィルタが適用されることにより、ターゲット音声信号(すなわち、合成音声信号)が生成されてよい。
ボコーダ120が音声信号ではない励起信号をターゲットとし、推定された励起信号に対して線形予測フィルタを適用することによってターゲット音声信号が生成されることにより、生成されたターゲット音声信号の品質を高めることができ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。
励起信号を推定することによってターゲット音声信号を生成するより具体的な方法と、励起信号を推定するためにニューラルボコーダを訓練させるより具体的な方法については、図2~5を参照しながらさらに詳しく説明する。
図2は、一実施形態における、ニューラルボコーダシステムの構造を示したブロック図である。
図2を参照しながら、ニューラルボコーダシステム200のより詳細な構成について説明する。図に示したニューラルボコーダシステム200は、ニューラルボコーダを含んで構成されるコンピュータ(コンピュータシステム)を示してよい。
ニューラルボコーダシステム200は、コンピュータシステムによって実現される固定端末や移動端末であってよい。例えば、ニューラルボコーダシステム200は、AIスピーカ、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(Internet of Things)デバイス、VR(Virtual Reality)デバイス、AR(Augmented Reality)デバイスなどによって実現されてよい。また、ニューラルボコーダシステム200は、上述したような端末とネットワークを介して通信するサーバまたはその他のコンピューティング装置によって実現されてよい。
ニューラルボコーダシステム200は、メモリ210、プロセッサ220、通信モジュール230、および入力/出力インタフェースを含んでよい。メモリ210は、非一時的なコンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永続的大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてニューラルボコーダシステム200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、ニューラルボコーダシステム200においてインストールされて実行されるブラウザや、特定のサービスの提供のためにニューラルボコーダシステム200にインストールされたアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール230を通じてメモリ210にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、外部サーバ)を経て提供するファイルによってインストールされるコンピュータプログラムに基づいてメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信モジュール230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール230は、ネットワークを介してニューラルボコーダシステム200が他の電子機器または他のサーバと互いに通信するための機能を提供してよい。通信モジュール230は、ニューラルボコーダシステム200のネットワークインタフェースカード、ネットワークインタフェースチップ、およびネットワーキングインタフェースポートなどのようなハードウェアモジュール、またはネットワークデバイスドライバまたはネットワーキングプログラムのようなソフトウェアモジュールであってよい。
入力/出力インタフェース240は、入力/出力装置(図示せず)とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、話者、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、ニューラルボコーダシステム200の構成であってよい。ニューラルボコーダシステム200がサーバとして実現される場合、ニューラルボコーダシステム200は、入力/出力装置および入力/出力インタフェースを含まなくてもよい。
また、他の実施形態において、ニューラルボコーダシステム200は、図に示した構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はないため、これについては省略する。
図3を参照しながら、プロセッサ220のより詳細な構成を中心に、励起信号を推定することによってターゲット音声信号を生成する方法と、励起信号を推定するためにニューラルボコーダを訓練させる方法について説明する。
以上、図1を参照しながら説明した技術的特徴についての説明は、図2に対してもそのまま適用可能であるため、重複する説明は省略する。
図3は、一実施形態における、ニューラルボコーダシステムのプロセッサの構造を示したブロック図である。
以下で説明するプロセッサ220の構成310~340のそれぞれは、1つ以上のソフトウェアモジュールおよび/またはハードウェアモジュールによって実現されてよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
プロセッサ220の構成要素は、ニューラルボコーダシステム200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、プロセッサ220の互いに異なる機能(different functions)の表現であってよい。
プロセッサ220のパラメータ取得部310は、スペクトル関連パラメータ(spectral parameter)、および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得してよい。パラメータ取得部310が取得する複数の音響パラメータは、利用者から入力されたテキスト、または話者から入力された音声信号に基づいて音響モデル(acoustic model)によって生成されたものであってよい。
プロセッサ220の励起信号推定部320は、複数の音響パラメータに基づいて励起信号(excitationsignal)を推定してよい。励起信号推定部320(ニューラルボコーダ)は、訓練のために入力された音声信号に基づいて訓練されたものであってよい。励起信号推定部320は、訓練によってモデリングされた励起信号の確率分布を使用して複数の音響パラメータに対する励起信号を推定してよい。
プロセッサ220は、ニューラルボコーダの訓練を実行するための構成340を含んでよい。プロセッサ220の励起信号分離部342は、訓練のために入力された音声信号に対して線形予測分析フィルタ(linear prediction analysis filter)を適用することにより、訓練のために入力された音声信号から励起信号を分離してよい。励起信号分離部342は、訓練のために入力された音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部343を含んでよい。前記線形予測分析フィルタは、LSFを示すパラメータに基づくものであり、前記変換されたLPCに基づいて生成されるものであってよい。プロセッサ220のモデリング部344は、分離した励起信号の確率分布をモデリングしてよい。
プロセッサ220の音声信号生成部330は、励起信号推定部320によって推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形(予測)合成フィルタを適用することによってターゲット音声信号を生成してよい。ターゲット音声信号は、合成された音声信号であってよい。
音声信号生成部330は、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部332を含んでよい。前記線形予測合成フィルタは、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータに基づくものであり、前記変換されたLPCに基づいて生成されるものであってよい。言い換えれば、音声信号生成部330は、推定された励起信号に対して変換されたLPCに基づく線形予測合成フィルタを適用することによってターゲット音声信号を生成してよい。
励起信号を推定することによってターゲット音声信号を生成するより具体的な方法については、図4を参照しながらさらに詳しく説明するし、励起信号を推定するためにニューラルボコーダを訓練させるより具体的な方法については、図5を参照しながらさらに詳しく説明する。
以上、図1および図2を参照しながら説明した技術的特徴ついての説明は、図3に対してもそのまま適用可能であるため、重複する説明は省略する。
図4は、一実施形態における、音声信号生成方法を示したフローチャートである。
段階410で、パラメータ取得部310は、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得してよい。パラメータ取得部310が取得する複数の音響パラメータは、利用者が入力したテキストまたは話者が入力した音声信号に基づいて音響モデルによって生成されたものであってよい。すなわち、パラメータ取得部310は、音響モデルから前記複数の音響パラメータを受信してよい。
スペクトル関連パラメータは、音声信号を構成するスペクトル成分(spectral component)を示すパラメータであってよい。励起関連パラメータは、音声信号からスペクトル成分を除いた残渣信号(励起信号)に該当する成分を示すパラメータであってよい。スペクトル成分の信号は、発話者の口の形状に応じて変化する音声信号の部分を示してよい。励起信号は、音声信号のうちで音声の震えを示す音声信号の部分を示してよい。励起信号の変化は、発話者の声帯の動きによってのみ制限されてよい。
スペクトル関連パラメータは、例えば、音声信号のピッチを示す周波数パラメータ(F0)、音声信号のエネルギーを示すエネルギーパラメータ(一例として、利得(gain)を示すパラメータ)、音声信号が有声音(voice)であるか無声音(unvoice)であるかを示すパラメータ(v/uv)、および音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを含んでよい。
励起関連パラメータは、励起の周期性によって区分されるパラメータを含んでよい。励起関連パラメータは、例えば、TFTE(Time-Frequency Trajectory Excitation)パラメータであってよい。TFTEは、周波数軸に沿った励起のスペクトル形状と時間軸に沿ったこのような形状の展開(evolution)を示してよい。励起関連パラメータは、励起信号のうちで時間-周波数軸でよりゆっくり変化する成分を示す第1励起パラメータ(SEW(Slowly Evolving Waveform)パラメータ)、および励起信号のうちで時間-周波数軸でより迅速に変化する成分を示す第2励起パラメータ(REW(Rapidly Evolving Waveform)パラメータ)を含んでよい。
第1励起パラメータは、所定のカットオフ周波数以下の励起を示してよく、第2励起パラメータは、カットオフ周波数を超過する励起を示してよい。第1励起パラメータは、励起の高調波スペクトル(harmonic spectrum)を示してよく、第2励起パラメータは、励起のその他の部分を示してよい。例えば、高調波励起スペクトル(harmonic excitation spectrum)に該当する第1励起パラメータ(SEWパラメータ)は、TFTEの各周波数成分を時間領域軸に沿って(所定のカットオフ周波数で)ローパスフィルタリングすることによって取得されてよい。所定のカットオフ周波数を超過する残留雑音スペクトルは、第2励起パラメータ(REWパラメータ)として、TFTEからSEWを減算することによって取得されてよい。第1励起パラメータ(SEWパラメータ)および第2励起パラメータが使用されることにより、励起の周期性がより効果的に表現されるようになる。第1励起パラメータおよび第2励起パラメータは、ITFTE(Improved Time-Frequency Trajectory Excitation)パラメータに該当してよい。
段階420で、励起信号推定部320は、複数の音響パラメータに基づいて励起信号(excitationsignal)を推定してよい。すなわち、励起信号推定部320は、スペクトル関連パラメータおよび励起関連パラメータを入力として励起信号を推定してよい。推定される励起信号は、励起信号の時間シーケンス(time sequence)であってよい。
励起信号推定部320は、訓練のために入力された音声信号に基づいて訓練されたものであって、励起信号推定部320は、訓練によってモデリングされた励起信号の確率分布を使用することで、取得した複数の音響パラメータに対する励起信号を推定してよい。励起信号推定部320を含むニューラルボコーダの訓練方法については、図5を参照しながらより詳しく説明する。
励起信号推定部320は、例えば、WaveNet、SampleRNN、またはWaveRNNによって実現されてよい。また、励起信号推定部320は、これらに制限されない、一般的な生成モデル(generative model)によって実現されてもよい。
段階430で、音声信号生成部330は、励起信号推定部320によって推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形(予測)合成フィルタを適用することによってターゲット音声信号を生成してよい。ターゲット音声信号は、合成された音声信号であってよい。段階432および434を参照しながら、段階430についてより詳しく説明する。
段階432で、変換部332は、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換してよい。線形予測合成フィルタは、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータに基づくものであり、変換されたLPCに基づいて生成されてよい。
段階434で、音声信号生成部330は、推定された励起信号に対して段階432で変換されたLPCに基づく線形予測合成フィルタを適用することによってターゲット音声信号を生成してよい。
段階410~430によって生成されたターゲット音声信号は、励起信号をターゲットとして推定せず、音声信号を直ぐに推定して生成された音声信号に比べて品質が優れ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。
以上、図1~3を参照しながら説明した技術的特徴についての説明は、図4に対してもそのまま適用可能であるため、重複する説明は省略する。
図5は、一実施形態における、ニューラルボコーダを訓練させる方法を示したフローチャートである。
図5を参照しながら、取得した音響パラメータに基づいて励起信号を推定することができる励起信号の確率分布をモデリングする方法について詳しく説明する。
段階510で、ニューラルボコーダシステム200は、訓練のための音声信号を受信してよい。訓練のための音声信号は、話者からニューラルボコーダシステム200に直接に入力されるか、音声信号を含むデータが音声信号を受信した電子機器から送信されることによってニューラルボコーダシステム200に入力されてよい。
段階520で、ニューラルボコーダシステム200は、入力された音声信号から、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出してよい。ニューラルボコーダシステム200は、音声分析(speech analysis)によって音声信号から複数の音響パラメータを抽出してよい。例えば、ニューラルボコーダシステム200は、その内部または外部に存在するパラメトリックボコーダを使用して音声信号から複数の音響パラメータを抽出してよい。
スペクトル関連パラメータは、例えば、音声信号のピッチを示す周波数パラメータ(F0)、音声信号のエネルギーを示すエネルギーパラメータ(一例として、利得(gain)を示すパラメータ)、音声信号が有声音(voice)であるか無声音(unvoice)であるかを示すパラメータ(v/uv)、および音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを含んでよい。励起関連パラメータは、励起の周期性によって区分されるパラメータを含んでよい。励起関連パラメータは、例えば、TFTE(Time-Frequency Trajectory Excitation)パラメータであってよい。TFTEは、周波数軸に沿った励起のスペクトル形状と時間軸に沿ったこのような形状の展開(evolution)を示してよい。励起関連パラメータは、励起信号のうちで時間-周波数軸でよりゆっくり変化する成分を示すSEWパラメータ、および励起信号のうちで時間-周波数軸でより迅速に変化する成分を示すREWパラメータを含んでよい。SEWパラメータは、所定のカットオフ周波数以下の励起を示してよく、REWパラメータは、カットオフ周波数を超過する励起を示してよい。SEWパラメータは、励起の高調波スペクトル(harmonic spectrum)を示してよく、REWパラメータは、励起のその他の部分を示してよい。例えば、高調波励起スペクトル(harmonic excitation spectrum)に該当するSEWパラメータは、TFTEの各周波数成分を時間領域軸に沿って(所定のカットオフ周波数で)ローパスフィルタリングすることによって取得されてよい。所定のカットオフ周波数を超過する残留雑音スペクトルは、REWパラメータとして、TFTEからSEWを減算することによって取得されてよい。
上述した段階510および520は、以下で説明する段階530および540と同じように、ニューラルボコーダシステム200のプロセッサ220によって実行されてよい。
段階530で、励起信号分離部342は、入力された音声信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形予測分析フィルタ(linear prediction analysis filter)を適用することにより、入力された音声信号から励起信号を分離してよい。線形予測分析フィルタは、音声信号からスペクトルフォルマント(spectral formant)構造を分離するフィルタであってよい。分離した励起信号は、入力された音声信号の残渣成分(residual component)(すなわち、残渣信号)であってよい。励起信号は、情報量を減らすために残渣信号をパルスまたは雑音(PoN)、帯域非周期性(BAP)、声門励起(glottal excitation)、および時間-周波数軌跡励起(TFTE)モデルなどのような多様な類型の励起モデルのうちの少なくとも1つによって近似化したものであってよい。
段階532および534を参照しながら、音声信号から励起信号を分離する方法についてより詳しく説明する。
段階532で、励起信号分離部342の変換部343は、スペクトル関連パラメータのうちで入力された音声信号のLSFを示すパラメータをLPCに変換してよい。線形予測分析フィルタは、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータに基づくものであり、変換されたLPCに基づいて生成されてよい。
段階534で、励起信号分離部342は、入力された音声信号に対して前記LPCに基づく線形予測分析フィルタを適用することにより、音声信号から励起信号を分離してよい。
段階540で、モデリング部344は、分離した励起信号の確率分布をモデリングしてよい。モデリング部344は、例えば、WaveNet、SampleRNN、またはWaveRNNによって実現されてよい。また、モデリング部344は、これらに制限されない、一般的な生成モデル(generative model)によって実現されてもよい。
励起信号推定部320は、モデリング部344によってモデリングされた励起信号の確率分布を使用することで、上述した段階420の励起信号の推定を実行してよい。
図1~4を参照しながら説明した実施形態のニューラルボコーダは、励起信号を訓練し、励起信号を推定して合成音声信号を生成するという点において、ExcitNetボコーダと命名されてよい。
励起信号の変化は、発話者の声帯の動きによってのみ制限されるようになるため、励起信号を訓練する過程は、(音声信号を訓練することに比べて)遥かに簡単に実行することができる。また、励起信号の周期性の程度を効果的に示す条件付き特徴としてITFTEパラメータが使用されることにより、励起信号の確率分布モデリングの正確度を大きく向上させることができる。
以上、図1~4を参照しながら説明した技術的特徴についての説明は、図5に対してもそのまま適用可能であるため、重複する説明は省略する。
以下では、図6~8を参照しながら、ターゲット話者からの少量の(すなわち、短時間の)音声データだけで高品質のターゲット話者の合成音声を生成する話者適応型モデルを構築してターゲット話者の合成音声を生成する方法について説明する。
図6は、一実施形態における、話者適応型モデルを構築してターゲット話者の合成音声を生成する方法を示した図である。
以下の詳細な説明において、音声データセットは、音声信号または音声信号を含むデータを示してよい。例えば、音声データセットは、話者から一定の時間にわたって録音された音声信号を示してよい。
ソースモデル610は、複数の話者からの音声データセットに対して訓練された音響モデルであってよい。ソースモデル610は、複数の話者に対して話者独立的に訓練された音響モデルであってよい。例えば、ソースモデル610は、10人の話者それぞれからの1時間の音声データセットを使用して話者独立的に訓練された音響モデルであってよい。ソースモデル610は、ディープラーニングに基づく統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムで設計されたものであってよい。音響モデル110は、例えば、DNN TTSモジュールであってよい。
複数の話者からの音声データセットによって話者独立的に訓練されたソースモデル610は、話者適応型モデル620の初期化子(initializer)として使用されてよい。言い換えれば、ソースモデル610からの加重値(weight)は、話者適応型モデル620のターゲット話者からの音声データセットに対する訓練において初期値として設定されてよい。ソースモデル610からの加重値は、例えば、上述した音響パラメータに対応してよい。
話者適応型モデル620は、ニューラルボコーダによって実現されてよい。ニューラルボコーダは、ディープラーニングモデルに基づいて訓練されたものであってよい。ニューラルボコーダは、例えば、WaveNet、SampleRNN、ExcitNet、またはWaveRNNであってよい。また、ニューラルボコーダは、これらに制限されない、一般的な生成モデル(generative model)であってもよい。
話者適応型モデル620は、話者適応(speaker adaptation)アルゴリズムを適用することにより、特定の話者に対して従属的に(speaker-dependent)訓練されてよい。例えば、話者適応型モデル620は、特定のターゲット話者(例えば、芸能人や有名人などのようなセレブリティ)に対して話者従属的に訓練されてよい。話者適応型モデル620は、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値(複数可)を生成してよい。
話者適応型モデル620は、ランダム値でない、話者独立的に訓練されたソースモデル610からの加重値を初期値として使用してターゲット話者からの音声データセットを訓練することにより、相対的に小さい(すなわち、短時間)音声データセットを訓練するだけでも高品質のターゲット話者の合成音声(合成音声信号)を生成することができる。例えば、話者適応型モデル620は、10分前後のターゲット話者の音声データセットを訓練するだけでも高品質のターゲット話者の合成音声を生成することができる。
実施形態によっては、数時間~数十時間以上の音声データセットの確保が困難なセレブリティに対して10分前後の音声データセットを確保し、これを訓練データとして使用するだけでも、高品質のターゲット話者の合成音声を生成する話者適応型モデル620を構築することができる。
以上、図1~5を参照しながら説明した技術的特徴の説明は、図6に対してもそのまま適用可能であるため、重複する説明は省略する。
図7は、一実施形態における、ニューラルボコーダのプロセッサの構造を示したブロック図である。
図7を参照しながら説明するプロセッサ220は、図3を参照しながら説明したプロセッサ220に対応してよい。以下で説明するプロセッサ220の構成710~720のそれぞれは、1つ以上のソフトウェアモジュールおよび/またはハードウェアモジュールによって実現されてよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。構成710~720は、ニューラルボコーダシステム200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、プロセッサ220の互いに異なる機能(different functions)の表現であってよい。
プロセッサ220は、話者適応型モデル構築部720を含んでよい。話者適応型モデル構築部720は、複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデル610からの加重値(weight)を初期値として設定してよく、設定された初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する話者適応型モデル620を構築してよい。話者適応型モデル620によって生成されたアップデートされた加重値は、ターゲット話者に対応する合成音声を生成するために使用されてよい。
プロセッサ220は、ソースモデル構築部710をさらに含んでよい。ソースモデル構築部710は、複数の話者からの音声データセットを話者独立的に訓練するソースモデル610を構築してよい。構築されたソースモデル610は、ターゲット話者からの音声データセットを訓練するためのモデルの初期化子(initializer)として動作してよい。
ソースモデル構築部710は、プロセッサ220に含まれず、ニューラルボコーダシステム200とは個別の装置内に実現されてもよい。話者適応型モデル構築部720は、このような個別の装置内に実現されたソースモデル構築部710によって構築されたソースモデル610から加重値を取得し、話者適応型モデル620を構築するためのターゲット話者の音声データセットを訓練してよい。
以上、図1~6を参照しながら説明した技術的特徴についての説明は、図7に対してもそのまま適用可能であるため、重複する説明は省略する。
図8は、一実施形態における、話者適応型モデルを構築するためのニューラルボコーダの訓練方法を示したフローチャートである。
段階810で、ソースモデル構築部710は、複数の話者からの音声データセットを話者独立的に訓練するソースモデル610を構築してよい。複数の話者は、ソースモデル610を訓練させるための音声データセットを提供する任意の利用者であってよい。
段階820で、話者適応型モデル構築部720は、ソースモデル610から加重値を取得してよい。ソースモデル610からの加重値は、複数の話者からの音声データセットに含まれた、話者ごとに区分されないグローバル特性を示す値を示してよい。グローバル特性とは、例えば、特定の発音(一例として、「あ(ah)」または「い(ee)」など)に対するフォルマント(formant)特性、または振幅-周波数特性(パターン)を示してよい。言い換えれば、ソースモデル610は、複数の話者からの音声データセットを使用してこのような音声の話者独立的なグローバル特性を訓練してよい。
段階830で、話者適応型モデル構築部720は、ソースモデル610から取得された加重値を初期値として設定してよい。言い換えれば、ソースモデル610は、話者適応型モデル構築部720によって構築される話者適応型モデル620の初期化子として使用されてよい。
段階840で、話者適応型モデル構築部720は、取得された初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成してよい。言い換えれば、話者適応型モデル構築部720は、ソースモデル610からの初期値に対してターゲット話者からの音声データセットを訓練することにより、ターゲット話者に適応する(すなわち、ターゲット話者に従属的な)話者適応型モデル620を構築してよい。
話者適応型モデル構築部720は、ソースモデル610からの加重値を、ターゲット話者からの音声データセットが含むターゲット話者の固有の特性が反映されるように調整することによってアップデートされた加重値を生成してよい。例えば、話者適応型モデル構築部720は、ターゲット話者からの音声データセットを訓練することにより、ソースモデル610からの話者ごとに区分されないグローバル特性を示す値をターゲット話者の固有の特性を含むように微調整することによってアップデートされた加重値を生成してよい。
生成された、アップデートされた加重値は、ターゲット話者に対応する合成音声信号を生成するために使用されてよい。ターゲット話者に対応する合成音声信号は、例えば、ターゲット話者に対応するセレブリティの合成音声であってよい。
ソースモデル610を訓練させるための複数の話者からの音声データセットのそれぞれの大きさ(すなわち、録音された音声信号の長さ、例えば、1時間以上)は、ターゲット話者からの音声データセットの大きさ(すなわち、録音された音声信号の長さ、例えば、10分)よりも大きくてよい。
段階830で説明したような適応プロセスの微調整(fine-tuning)メカニズムによっては、ターゲット話者からの音声データセットからターゲット話者の固有の特性がキャプチャされてよい。したがって、説明した実施形態の方法によっては、ターゲット話者からの訓練のための音声データセットが不十分であっても、ボコーディング性能を向上させることができる。
図6~8を参照しながら説明したニューラルボコーダの訓練方法は、図1~4を参照しながら説明した実施形態のニューラルボコーダの訓練方法と合成音声信号の生成方法と組み合わされてよい。例えば、上述したExcitNetボコーダは、図6~8を参照しながら説明した実施形態と組み合わされてよい。
一例として、段階810~840を実行することによって訓練されたニューラルボコーダは、図1~4を参照しながら説明したニューラルボコーダシステム200に対応してよい。段階430で生成されたターゲット音声信号は、話者適応型モデル620が訓練したターゲット話者に対応する合成音声信号であってよい。
図6~8を参照しながら説明したニューラルボコーダの訓練方法と図1~4を参照しながら説明したExcitNetモデルの技術的特徴とを組み合わせることにより、ターゲット話者に対応する合成音声の品質を高めることができる。
以上、図1~7を参照しながら説明した技術的特徴についての説明は、図8に対してもそのまま適用可能であるため、重複する説明は省略する。
図9は、一例における、音声信号および励起信号とその関係を示した図である。
図に示すように、音声信号をS(n)と仮定し、S(n)が含む励起信号をe(n)と仮定するとき、S(n)とe(n)との関係は、以下の数式(1)のように表現されてよい。
Figure 0007274184000001
h(n)は、線形予測合成フィルタを示してよい。h(n)は、S(n)のe(n)成分を除いた残りの成分(すなわち、スペクトル成分)を示してよい。h(n)は、S(n)のLSFを示すパラメータに基づいて生成されてよい。
数式(1)の関係により、図4の段階420によって推定された励起信号(すなわち、e(n))に対して線形予測合成フィルタ(すなわち、h(n))を適用することによってターゲット音声信号(S(n))が生成されてよい。線形予測合成フィルタの具体的な例については、図14を参照しながらさらに詳しく説明する。
数式(1)の関係は、図5の段階530の励起信号(すなわち、e(n))の分離に対しても類似に適用されてよい。言い換えれば、訓練のために入力された音声信号(S(n))に対して線形予測分析フィルタが適用されることにより、音声信号(S(n))から励起信号(e(n))が分離されてよい。線形予測分析フィルタの具体的な例については、図13を参照しながらさらに詳しく説明する。
以上、図1~8を参照しながら説明した技術的特徴についての説明は、図9に対してもそのまま適用可能であるため、重複する説明は省略する。
図10a~10cは、それぞれ異なる種類のボコーダを使用する合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。
図10aは、音響モデル1010と音響モデル1010からの音響フィーチャー(音響パラメータ)をLPC(Linear Predictive Coding)合成することによって音声信号を生成する、LPC合成モジュール1020を含む音声合成のためのフレームワークを示している。LPC合成モジュール1020は、LPCボコーダであり、例えば、上述した線形予測合成フィルタに対応してよい。
図10bは、音響モデル1010と音響モデル1010からの音響フィーチャー(音響パラメータ)に基づいて音声信号を推定するニューラルボコーダであり、WaveNetボコーダ1022を含む音声合成のためのフレームワークを示した図である。
図10cは、図1~5で説明したような、ExcitNetボコーダ1024を使用する音声合成のためのフレームワークを示している。図10cに示した構造は、図10aのLPCコーダ1020と図10bのWaveNetボコーダ1022が組み合わされたものであってよい。
図10cの構造において、ExcitNetボコーダ1024は、音響モデル1010からの音響フィーチャー(音響パラメータ)に基づいて励起信号を推定してよい。推定された励起信号は、線形予測合成フィルタ1030によるLPC(Linear Predictive Coding)合成によってターゲット音声信号に変換されてよい。
図10cの構造のより詳細な例については、図12および図14を参照しながらさらに詳しく説明する。
以上、図1~9を参照しながら説明した技術的特徴についての説明は、図10a~図10cに対してもそのまま適用可能であるため、重複する説明は省略する。
図11および図13は、一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。
図11に示すように、訓練のために入力された音声信号に対し、パラメトリックボコーダ1110は、音響パラメータを抽出してよい。入力された音声信号に対しては、抽出された音響パラメータのうちでスペクトル関連パラメータに基づいて生成された線形予測分析フィルタ1140が適用されることにより、入力された音声信号から励起信号が分離されてよい。
WaveNetボコーダ1130は、抽出された音響パラメータを補助
フィーチャー(auxiliary feature)として構成1120して受信してよい。補助フィーチャーは、上述したスペクトル関連パラメータおよび励起関連パラメータを含んでよい。WaveNetボコーダ1130は、補助フィーチャーおよび分離した励起信号に基づいて励起信号の確率分布をモデリングしてよい。WaveNetボコーダ1130は、ExcitNetボコーダまたはその他の一般的な生成モデル(generative model)のニューラルボコーダによって実現されてよい。
図13を参照しながら、図11の構造についてより詳しく説明する。訓練のために入力された音声信号は、音声分析1310によって音響フィーチャー(音響パラメータ)が抽出されてよい。音響パラメータのうちでLSFを示すパラメータは、LPCに変換1320されてよい。変換されたLPCに基づき、線形予測分析フィルタ1340が実現されてよい。入力された音声信号に対して線形予測分析フィルタ1340が適用されることにより、入力された音声信号から励起信号が分離されてよい。分離した励起信号は、ExcitNetモデル(すなわち、ExcitNetボコーダ)1350に入力されてよい。一方、音響パラメータは補助フィーチャー(auxiliary feature)として構成1330されてよく、補助フィーチャーはExcitNetモデル1350に入力されてよい。ExcitNetモデル1350は、入力された補助フィーチャー(すなわち、音響パラメータ)と分離した励起信号に基づいて励起信号の確率分布をモデリングしてよい。図に示した例において、eは、分離した励起信号に対応してよい。
図12および図14は、一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。
図12に示すように、音響モデル1150は、受信した言語パラメータに基づいて音響パラメータを生成してよい。WaveNetボコーダ1170は、音響パラメータを補助フィーチャーとして構成1160して受信してよい。補助フィーチャーは、上述したスペクトル関連パラメータおよび励起関連パラメータを含んでよい。WaveNetボコーダ1170は、音響パラメータに基づいて励起信号を推定してよい。WaveNetボコーダ1170は、ExcitNetボコーダまたはその他の一般的な生成モデル(generative model)のニューラルボコーダによって実現されてよい。推定された励起信号に対しては、抽出された音響パラメータのうちでスペクトル関連パラメータに基づいて生成された線形予測合成フィルタ1180が適用されることにより、ターゲット合成音声が生成されてよい。
図14を参照しながら、図12の構造についてより詳しく説明する。合成音声信号の生成のために入力されたテキストに対してテキスト分析1410を実行することにより、(上述した言語パラメータに対応する)言語フィーチャーが抽出されてよい。言語フィーチャーの抽出においては、図に示すように、音素デュレーション(phoneme duration)を推定するデュレーションモデル1420がさらに使用されてよい。音響モデル1430は、抽出された言語フィーチャーから音響フィーチャー(音響パラメータ)を生成してよい。音響パラメータのうちでLSFを示すパラメータは、LPCに変換1440されてよい。変換されたLPCに基づいて線形予測合成フィルタ1470が実現されてよい。音響パラメータは補助フィーチャー(auxiliary feature)として構成1450されてよく、補助フィーチャーはExcitNetモデル(すなわち、ExcitNetボコーダ)1460に入力されてよい。ExcitNetモデル1460は、入力された補助フィーチャー(すなわち、音響パラメータ)に基づいて励起信号を推定してよい。推定された励起信号に対して変換されたLPCに基づく線形予測合成フィルタ1470が適用されることにより、ターゲット音声信号が生成されてよい。図に示した例において、
Figure 0007274184000002
は生成されたターゲット音声信号に対応してよく、
Figure 0007274184000003
は推定された励起信号に対応してよい。
以上、図1~10cを参照しながら説明した技術的特徴についての説明は、図11~14に対してもそのまま適用可能であるため、重複する説明は省略する。
図15は、一例における、訓練過程/合成音声信号の生成過程で取得した負の対数尤度(Negative Log-Likelihood:NLL)の音響パラメータとして、励起の周期性によって区分されるパラメータの使用の可否による差を示したグラフである。
訓練(training)過程において、NLLが低いほどモデリングの正確度が高いと見ることができる。図に示したグラフでは、上述したSEWパラメータおよびREWパラメータのようなITFTEパラメータを使用した場合のNLLは、そうでない場合よりも低くなることを確認することができる。
また、合成音声信号の検証(validation)過程においても、NLLが低いほど生成される合成音声の品質が優れると見なすことができる。図に示したグラフでは、SEWパラメータおよびREWパラメータのようなITFTEパラメータを使用した場合のNLLが、そうでない場合よりも低くなることを確認することができる。
言い換えれば、図に示したグラフから、ニューラルボコーダの訓練においてITFTEパラメータを使用することによって励起信号の確率分布のモデリングのエラーを大きく減らすことができ、合成音声の生成のための励起信号の推定でITFTEパラメータを使用することによって合成音声信号の生成におけるエラーを大きく減らすことができるという事実を確認することができる。
以上、図1~14を参照しながら説明した技術的特徴についての説明は、図15に対してもそのまま適用可能であるため、重複する説明は省略する。
図16は、一例における、複数の話者からの音声信号に対し、音声信号の話者従属的な特徴と話者独立的な特徴を示した図である。図17は、一例における、複数の話者からの音声データセットを訓練させることによって構築されたソースモデルと、ターゲット話者からの音声データセットを訓練させることによって構築された話者適応型モデルを使用してターゲット話者の合成音声を生成する方法を示している。
図16に示すように、話者独立的な特徴は、話者(話者1~3)の音声で共通する特徴であってよい。言い換えれば、話者独立的な特徴は、話者ごとに区分されない、グローバル特性を示してよい。話者従属的な特徴は、話者ごとの固有の特性を示してよい。
図17に示すように、複数の話者からの音声データセットを話者独立的に訓練することによってソースモデル610が構築されてよく、このようなソースモデル610からの加重値に基づいてターゲット話者からの音声データセットを訓練することにより、ターゲット話者に従属的な話者適応型モデル620が構築されてよい。ソースモデル610からの加重値は、話者適応型モデル620でターゲット話者からの音声データセットが訓練されるにより、ターゲット話者の固有の特性を反映するように微調整されてよい。図に示すように、ソースモデル610および話者適応型モデル620は、ExcitNetモデルを使用して実現されてよい。図に示すように、実施形態によっては、ニューラルボコーダに対して話者適応(speaker adaptation)アルゴリズムを適用してよい。図には示してはいないが、ソースモデル610に対応する音響モデル(例えば、DNNTTS)に対しても同じように話者適応アルゴリズムが適用されてよい。
以上、図1~15を参照しながら説明した技術的特徴についての説明は、図16および図17に対してもそのまま適用可能であるため、重複する説明は省略する。
図18および図19は、一例における、話者適応(speaker adaptation)アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。
図18および図19のScoreは、評価者が音声信号を聞き取って評価したスコアの平均を示している。ここで、RAWは、原本音声信号に該当してよい。
図18を参照すると、WaveNetモデルおよびExcitNetモデルの両方で話者適応アルゴリズムを適用した場合の合成音声信号の品質が高く評価されたことを確認することができる。言い換えれば、図6~8を参照しながら説明したように、話者適応型モデル620を構築して合成音声信号を生成する場合(w/ speaker adaptation)が、そうでない場合(w/o speaker adaptation)に比べて優れた性能を示すことを確認することができる。
図19は、合成音声信号の品質を比較評価した、より詳細な結果を示した図である。図19については、以下でさらに詳しく説明する。
以上、図1~17を参照しながら説明した技術的特徴についての説明は、図18および図19に対してもそのまま適用可能であるため、重複する説明は省略する。
以下では、図1~5を参照しながら説明したExcitNetモデルについてより詳しく説明し、他のモデルとの比較実験結果についてさらに説明する。
ExcitNetモデル(ExcitNetボコーダ)は、統計的パラメトリック音声合成(SPSS)システムのためのWaveNetに基づくニューラル励起モデルであってよい。WaveNetに基づくニューラルボコーダシステムは、合成音声信号の認識品質を大きく向上させるが、音声信号の複雑な時変特性を捕捉できない場合があるためノイズを出力する場合がある。ExcitNetに基づくニューラルボコーダシステムは、音声信号からスペクトル成分を分離する適応的エンボスフィルタを使用して(例えば、WaveNetフレームワーク内で)残渣成分(すなわち、励起信号)を分離して訓練することができ、合成音声信号を生成するにあたり励起信号をターゲットとして推定することができる。このような方式により、ディープラーニングフレームワークによって音声信号のスペクトル成分がより適切に表現されるようになり、残渣成分はWaveNetフレームワークによって効率的に生成されるため、合成された音声信号の品質を向上することができる。
以下の実験でも、(話者従属的および話者独立的に訓練された)ExcitNetに基づくニューラルボコーダシステムが、従来の線形予測ボコーダおよびWaveNetボコーダよりも優れた性能を発揮するという結果を示した。
試験のためには、音響モデルと話者従属的(SD)ExcitNetボコーダを訓練させるために音声的に韻律的に豊かな3つのスピーチコーパスを利用した。各コーパスは、専門の韓国人女性(KRF)と韓国人男性(KRM)が録音したものである。音声信号は24kHzでサンプリングされ、各サンプルは16ビットで量子化された。以下の表1は、各集合の発話数を示したものである。話者独立的(SI)ExcitNetボコーダを訓練させるために、韓国人女性5人と韓国人男性5人が録音した音声コーパスを使用した。合計6,422件(10時間)および1,080件(1.7時間)の発話がそれぞれ訓練および検証(validation)に使用された。SIデータセットに含まれない、同じKRFおよびKRM話者によって録音された音声サンプルが試験のために使用された。
Figure 0007274184000004
以下の表2および表3は、客観的な試験の結果であって、原本音声と生成された音声との間の歪曲をLSD(Log-Spectral Distance)(dB)とF0 RMSE(Root Mean Square Error)(Hz)によってそれぞれ示したものである。WNはWaveNetボコーダを示し、WN-NSはWaveNetボコーダにノイズシェーピング方法を適用したものを示し、ExcitNetはExcitNetボコーダを示す。最も低いエラーが現れた部分は太字で表示した。表2および表3は、有声音に対して測定された結果であってよい。
Figure 0007274184000005
Figure 0007274184000006
表2および表3に表示したように、SDおよびSIの殆どの場合において、ExcitNetボコーダの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。
以下の表4は、無声音およびトランジション領域(transition regions)に対して測定されたLSD(dB)を示している。
Figure 0007274184000007
表4に表示したように、SDおよびSIのすべての場合において、ExcitNetボコーダの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。
以下の表5および表6は、主観的な試験の結果であって、選好度テストの結果(%)を示している。聞き取り者から高い選好度が示された部分は太字で表示した。残りのものに比べ、ExcitNetボコーダの場合、合成音声の認識品質が著しく優れることを確認することができる。評価者は12人の韓国語を母国語として使用する聞き取り者であり、20件のランダムに選択された発話に対して試験が行われた。
Figure 0007274184000008
Figure 0007274184000009
図20は、一例における、ExcitNetボコーダと他のボコーダとの間のMOS(Mean Opinion Score)(MOS)の評価結果を示している。
録音された音声から音響フィーチャーが抽出される場合である分析/合成(A/S)の結果に対する評価、および音響モデルから音響フィーチャーが生成される場合であるSPSSにおける結果が評価された。
S/Aにおいて、SI-ExcitNetボコーダは、ITFTEボコーダと類似の性能を示したが、WORLDシステムよりも遥かに優れたものとして現われた。すべての場合において、SD-ExcitNetボコーダは、最高の認識品質(KRFおよびKRM話者に対してそれぞれ4.35および4.47MOS)を示した。高音の女性の音声を表現するのは難しいため、KRF話者に対するMOS結果は、SIボコーダ(WORLD、ITFTE、およびSI-ExcitNet)においてKRM話者の場合よりも良くない結果が出た。この反面、SD-ExcitNetのKRF話者に対する結果は、KRM話者に対する結果と類似するという点において、高音の声を効果的に表現するためには各話者の特性がモデリングされなければならないことを示す。SPSSの側面では、SDもSI-ExcitNetボコーダも、パラメトリックITFTEボコーダよりも遥かに優れた認識品質を示した。音響モデルが過度に平坦な音声媒介変数を生成したが、ExcitNetボコーダは時間領域励起信号を直接に推定することによって平滑化効果を緩和することができた。結果的に、SD-ExcitNetボコーダを使用するSPSSシステムは、それぞれKRFおよびKRM話者に対して3.78および3.85MOSを達成した。SI-ExcitNetボコーダは、KRFおよびKRM話者に対してそれぞれ2.91および2.89MOSを達成した。
以下では、図6~8を参照しながら説明した話者適応型モデル620を構築するニューラルボコーダについてより詳細に説明し、他のモデルとの比較試験結果についてさらに説明する。実施形態のニューラルボコーダは、たった10分の音声データセットのようにターゲット話者からの訓練データが不十分な場合であっても、高品質の音声合成システムを構築することができる。
実施形態のニューラルボコーダは、ターゲット話者に対する制限された訓練データによって発生するターゲット話者関連情報の不足問題を解決するために、複数の話者に対して普遍的な特性を抽出する、話者独立的に訓練されたソースモデル610からの加重値を活用する。このようなソースモデル610からの加重値は、話者適応型モデル620の訓練を初期化するために使用され、ターゲット話者の固有の特性を示すために微調整されてよい。このような適応過程によってディープニューラルネットワークがターゲット話者の特性を捕捉することができるため、話者独立的なモデルで発生する不連続性の問題を減らすことができる。以下で説明する実験結果も、実施形態のニューラルボコーダが、従来の方法に比べて合成された音声の認識品質を著しく向上させることを示す。
SDは(ソースモデル610からの加重値を初期値にせず)話者従属的に訓練されたモデルを示し、SIは話者独立的に訓練されたモデルを示し、SAは図6~8を参照しながら説明したような話者適応型に訓練されたモデル(すなわち、ソースモデル610からの加重値を初期値にして話者従属的に訓練されたモデル)を示す。
SDおよびSAモデルにおいて、韓国人女性の話者が録音した音声コーパスが使用された。音声信号は24kHzでサンプリングされ、各サンプルは16ビットで量子化された。訓練、検証、および試験には合計90件(10分)、40件(5分)、130件(15分)の発話が使用された。SIモデルを訓練させるために、SDとSAモデル訓練には含まれない5人の韓国人男性の話者および5人の韓国人女性の話者が録音した音声データが使用された。このために、訓練および検証にそれぞれ6,422件(10時間)および1,080件(1.7時間)の発話が使用された。SDおよびSAモデルのテストセットは、SIモデルを評価するためにも使用された。
以下の表7および表8は、客観的な試験の結果であって、原本音声と生成された音声の間の歪曲をLSD(Log-Spectral Distance)(dB)とF0 RMSE(Root Mean Square Error)(Hz)によってそれぞれ示したものである。表7は、録音された音声から抽出された音響フィーチャーが補助フィーチャーを構成するために直接的に使用される場合の分析/合成の結果に対する評価(A/S)を示している。表8は、SPSSにおける結果の評価を示している。最も低いエラーが現れた部分は太字で表示した。
Figure 0007274184000010
Figure 0007274184000011
表7および表8において、WaveNetボコーダおよびExcitNetボコーダの両方において、SAの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。
図21は、一例における、F0スケーリングファクタ(scaling factor)を相違させる場合において、話者適応型モデルを構築するニューラルボコーダの性能変化を示した図である。
実施形態のSAを適用した訓練方法の有効性を検証するために、F0を手動で変更したときのニューラルボコーダの性能変化を調査した。SIモデルは、ピッチを修正した合成音声の生成に効果的であることが明らかになっている。SAモデルもSIモデルを活用するものであるため、SD接近法に比べて高い性能を示すことが期待される。
試験において、F0軌跡は、SPSSフレームワークによって生成された後、補助フィーチャーベクトルを修正するためにスケーリングファクタ(0:6、0:8、1:0、および1:2)が乗算された。音声信号は、ニューラルボコーダシステムによって合成された。
図21は、相違するF0スケーリングファクタに対するF0 RMSE(Hz)試験結果を示している。図21により、SAモデルが、従来のSDモデルに比べて遥かに低い修正エラー(modification error)を含んでいることを確認することができる。SIモデルに比べ、SA-ExcitNetボコーダは、すべての加重値がターゲット話者の特性に合うように最適化されているにも関わらず、同等な品質が維持されていることを確認することができる。
また、ExcitNetボコーダは、WaveNetボコーダよりも遥かに優れた性能を発揮することを確認することができる。ExcitNetボコーダは、声帯の動きの変化(励起信号の変化)を訓練するため、WaveNetに基づく接近方式よりも柔軟にF0修正された音声セグメントを再構成できるものと見なされる。
図19は、主観的な試験結果であって、SD、SI、およびSAのボコーダ間のMOS評価結果を示した図である。録音された音声から音響フィーチャーが抽出される場合である分析/合成(A/S)の結果に対する評価、および音響モデルから音響フィーチャーが生成される場合であるSPSSにおける結果の評価がなされた。
A/Sの結果において、SD-WaveNetボコーダは、制限的な訓練データではターゲット話者の特性を訓練することが不可能であるため、最も良くない結果が現れた。SI-WaveNetボコーダは、ITFTEボコーダと類似の性能を示し、WORLDシステムよりは優れた性能を示した。すべてのWaveNetボコーダにおけるSAの活用は、優れた性能を示すということが確認された。ExcitNetボコーダに対する結果は、WaveNetボコーダの場合と類似の傾向を示したが、ExcitNetボコーダは、LPインバスフィルタによって音声信号のフォルマント構成要素を分離することによって残りの信号のモデリング正確度を向上させるため、全体的に遥かに優れた性能を示した。結果的に、SA-ExcitNetボコーダは、A/S結果において4.40MOSを達成した。
SPSSの結果において、SI-WaveNetボコーダとSI-ExcitNetボコーダは、パラメトリックITFTEボコーダよりも優れた認識品質を提供した。結果的に、実施形態のSA訓練モデルは、従来の話者依存的な方法と話者独立的な方法に比べ、合成音声信号の品質を大きく向上させることを確認することができた。A/S結果と同じように、ExcitNetボコーダは、SPSS結果においてWaveNetボコーダよりも優れた性能を示した。音響モデルが過度に平坦な音声媒介変数を生成したが、ExcitNetボコーダは、時間領域励起信号を直接に推定することによって平滑化効果を緩和することができた。結果的に、SA-ExcitNetボコーダがあるSPSSシステムは3.77MOSを達成した。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims (13)

  1. コンピュータによって実現されるニューラルボコーダが実行する音声信号生成方法であって、
    入力されたテキストまたは音声信号に基づいて、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、
    前記複数の音響パラメータに基づいて励起信号を推定する段階、および
    前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階
    を含み、
    前記ニューラルボコーダは、前記ニューラルボコーダの訓練のための訓練用音声信号を利用して励起信号を推定するようにあらかじめ訓練されたものであり、
    前記励起信号を推定する段階は、あらかじめ訓練された前記ニューラルボコーダを利用して前記複数の音響パラメータに基づいて励起信号を推定し、
    前記ニューラルボコーダは、
    前記訓練用音声信号に対して線形予測分析フィルタを適用することにより、前記訓練用音声信号から前記励起信号を分離する段階、および
    前記分離された励起信号の確率分布をモデリングする段階
    を含む段階によって訓練されたものであり
    前記励起信号を推定する段階は、
    前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定する
    音声信号生成方法。
  2. 前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含む、
    請求項1に記載の音声信号生成方法。
  3. 前記第1励起パラメータは、前記励起の高調波スペクトルを示し、前記第2励起パラメータは、前記励起のその他の部分を示す、
    請求項2に記載の音声信号生成方法。
  4. 前記スペクトル関連パラメータは、
    音声信号のピッチを示す周波数パラメータ、音声信号のエネルギーを示すエネルギーパラメータ、音声信号が有声音であるか無声音であるかを示すパラメータ、および音声信号の線スペクトル周波数(LSF)を示すパラメータを含む、
    請求項1に記載の音声信号生成方法。
  5. 前記ターゲット音声信号を生成する段階は、
    前記LSFを示すパラメータを線形予測符号(LPC)に変換する段階、および
    前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する段階
    を含む、
    請求項4に記載の音声信号生成方法。
  6. 前記複数の音響パラメータは、入力されたテキストまたは入力された音声信号に基づいて音響モデルによって生成されたものである、
    請求項1に記載の音声信号生成方法。
  7. 前記励起信号を分離する段階は、
    前記入力された音声信号の線スペクトル周波数(LSF)を示すパラメータを線形予測符号(LPC)に変換する段階、および
    前記入力された音声信号に対して前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階
    を含む、
    請求項1に記載の音声信号生成方法。
  8. 前記分離された励起信号は、前記入力された音声信号の残渣成分である、
    請求項1に記載の音声信号生成方法。
  9. コンピュータによって実現されるニューラルボコーダの訓練方法であって、
    前記ニューラルボコーダの訓練のための訓練用音声信号の入力を受ける段階、
    前記訓練用音声信号から、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出する段階、
    前記訓練用音声信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形予測分析フィルタを適用することにより、前記訓練用音声信号から励起信号を分離する段階、および
    前記分離された励起信号の確率分布をモデリングする段階
    を含み、
    前記ニューラルボコーダは、前記段階によって訓練されることによって、入力されたテキストまたは音声信号に基づいて取得される、他のスペクトル関連パラメータ及び他の励起関連パラメータを含む他の音響パラメータに基づいて励起信号を推定し、
    前記ニューラルボコーダは、前記モデリングされた励起信号の確率分布を利用して前記他の音響パラメータに対する励起信号を推定する、
    ニューラルボコーダの訓練方法。
  10. 前記励起信号を分離する段階は、
    前記スペクトル関連パラメータのうちで前記入力された音声信号の線スペクトル周波数(LSF)を示すパラメータを線形予測符号(LPC)に変換する段階、および
    前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階
    を含む、
    請求項9に記載のニューラルボコーダの訓練方法。
  11. 前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含む、
    請求項9に記載のニューラルボコーダの訓練方法。
  12. ニューラルボコーダであって、
    入力されたテキストまたは音声信号に基づいて、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、
    前記複数の音響パラメータに基づいて励起信号を推定する励起信号推定部、および
    前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部
    を含み、
    前記ニューラルボコーダは、前記ニューラルボコーダの訓練のための訓練用音声信号を利用して励起信号を推定するようにあらかじめ訓練されたものであり、
    あらかじめ訓練された前記ニューラルボコーダの励起信号分離部が、前記複数の音響パラメータに基づいて励起信号を推定し、
    前記ニューラルボコーダは、
    前記訓練用音声信号に対して線形予測分析フィルタを適用することにより、前記訓練用音声信号から励起信号を分離する前記励起信号分離部、および
    前記分離された励起信号の確率分布をモデリングするモデリング部
    をさらに含み、
    前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定する、
    ニューラルボコーダ。
  13. 前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号の線スペクトル周波数(LSF)を示すパラメータを線形予測符号(LPC)に変換する変換部を含み、
    前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する、
    請求項12に記載のニューラルボコーダ。
JP2021540067A 2019-01-11 2019-08-16 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 Active JP7274184B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023069781A JP2023089256A (ja) 2019-01-11 2023-04-21 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2019-0004085 2019-01-11
KR1020190004084A KR102198597B1 (ko) 2019-01-11 2019-01-11 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
KR10-2019-0004084 2019-01-11
KR1020190004085A KR102198598B1 (ko) 2019-01-11 2019-01-11 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
PCT/KR2019/010428 WO2020145472A1 (ko) 2019-01-11 2019-08-16 화자 적응형 모델을 구현하고 합성 음성 신호를 생성하는 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023069781A Division JP2023089256A (ja) 2019-01-11 2023-04-21 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Publications (2)

Publication Number Publication Date
JP2022516784A JP2022516784A (ja) 2022-03-02
JP7274184B2 true JP7274184B2 (ja) 2023-05-16

Family

ID=71520538

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021540067A Active JP7274184B2 (ja) 2019-01-11 2019-08-16 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
JP2023069781A Pending JP2023089256A (ja) 2019-01-11 2023-04-21 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023069781A Pending JP2023089256A (ja) 2019-01-11 2023-04-21 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Country Status (2)

Country Link
JP (2) JP7274184B2 (ja)
WO (1) WO2020145472A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634856B (zh) * 2020-12-10 2022-09-02 思必驰科技股份有限公司 语音合成模型训练方法和语音合成方法
KR20220120214A (ko) * 2021-02-23 2022-08-30 삼성전자주식회사 전자 장치 및 그 제어 방법
JPWO2023281555A1 (ja) * 2021-07-05 2023-01-12
CN113539237A (zh) * 2021-07-15 2021-10-22 思必驰科技股份有限公司 语音合成方法、电子设备及存储介质
WO2023064735A1 (en) * 2021-10-14 2023-04-20 Qualcomm Incorporated Audio coding using machine learning based linear filters and non-linear neural sources
KR20240088788A (ko) * 2021-10-14 2024-06-20 퀄컴 인코포레이티드 머신 러닝 기반 시변 필터와 선형 예측 코딩 필터의 조합을 이용한 오디오 코딩
CN116994553A (zh) * 2022-09-15 2023-11-03 腾讯科技(深圳)有限公司 语音合成模型的训练方法、语音合成方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010104040A1 (ja) 2009-03-09 2010-09-16 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2018141915A (ja) 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法
JP7234697B2 (ja) 2019-02-28 2023-03-08 カシオ計算機株式会社 電子機器及び印刷装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02304493A (ja) * 1989-05-19 1990-12-18 Hitachi Ltd 音声合成システム
JPH0317700A (ja) * 1989-06-14 1991-01-25 Nec Corp 音声符号化復号化方式
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
JP2001296900A (ja) * 2000-04-13 2001-10-26 Hitachi Kokusai Electric Inc 音声信号符号復号化システム
JP6649210B2 (ja) * 2016-08-30 2020-02-19 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム
KR101862982B1 (ko) * 2017-02-17 2018-05-30 국방과학연구소 LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010104040A1 (ja) 2009-03-09 2010-09-16 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2018141915A (ja) 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法
JP7234697B2 (ja) 2019-02-28 2023-03-08 カシオ計算機株式会社 電子機器及び印刷装置

Also Published As

Publication number Publication date
JP2023089256A (ja) 2023-06-27
WO2020145472A1 (ko) 2020-07-16
JP2022516784A (ja) 2022-03-02

Similar Documents

Publication Publication Date Title
JP7274184B2 (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
Kaneko et al. Generative adversarial network-based postfilter for STFT spectrograms
CN111161702B (zh) 个性化语音合成方法、装置、电子设备、存储介质
US10741192B2 (en) Split-domain speech signal enhancement
Wali et al. Generative adversarial networks for speech processing: A review
Wang et al. A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures
CN111833843B (zh) 语音合成方法及***
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Chaudhary et al. Feature extraction methods for speaker recognition: A review
Gu et al. Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension.
Li et al. Speech Audio Super-Resolution for Speech Recognition.
Yılmaz et al. Articulatory features for asr of pathological speech
JP7356005B2 (ja) 音声変換装置、音声変換学習装置、音声変換方法、音声変換学習方法及びコンピュータプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
Dua et al. Spectral warping and data augmentation for low resource language ASR system under mismatched conditions
Tan Neural text-to-speech synthesis
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
Kannan et al. Voice conversion using spectral mapping and TD-PSOLA
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
Georges et al. Learning robust speech representation with an articulatory-regularized variational autoencoder

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210708

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210708

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210730

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20210708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230421

R150 Certificate of patent or registration of utility model

Ref document number: 7274184

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150