JP6737320B2 - 音響処理方法、音響処理システムおよびプログラム - Google Patents

音響処理方法、音響処理システムおよびプログラム Download PDF

Info

Publication number
JP6737320B2
JP6737320B2 JP2018209289A JP2018209289A JP6737320B2 JP 6737320 B2 JP6737320 B2 JP 6737320B2 JP 2018209289 A JP2018209289 A JP 2018209289A JP 2018209289 A JP2018209289 A JP 2018209289A JP 6737320 B2 JP6737320 B2 JP 6737320B2
Authority
JP
Japan
Prior art keywords
condition
sound
learning
data
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018209289A
Other languages
English (en)
Other versions
JP2020076844A5 (ja
JP2020076844A (ja
Inventor
竜之介 大道
竜之介 大道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018209289A priority Critical patent/JP6737320B2/ja
Priority to EP19882740.4A priority patent/EP3879521A4/en
Priority to CN201980072998.7A priority patent/CN113016028A/zh
Priority to PCT/JP2019/043511 priority patent/WO2020095951A1/ja
Publication of JP2020076844A publication Critical patent/JP2020076844A/ja
Publication of JP2020076844A5 publication Critical patent/JP2020076844A5/ja
Application granted granted Critical
Publication of JP6737320B2 publication Critical patent/JP6737320B2/ja
Priority to US17/306,123 priority patent/US11842720B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/14Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour during execution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音響信号を処理する技術に関する。
歌唱音または演奏音等の各種の音響を表す音響信号を利用者からの指示に応じて編集する技術が従来から提案されている。例えば非特許文献1には、音響信号の音高および振幅を音符毎に解析して表示することで、利用者による音響信号の編集を受付ける技術が開示されている。
'What is Melodyne ?'[平成30年10月21日検索],インターネット<https://www.celemony.com/en/melodyne/what-is-melodyne>
しかし、従来の技術のもとでは、例えば音高等の発音条件の変更により音響信号の音質が低下するという問題がある。以上の事情を背景として、本発明は、音響信号に関する発音条件の変更による音質の劣化を抑制することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音響処理方法は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルについて、音響信号から特定される条件データと当該音響信号から特定される特徴データとを利用した追加学習を実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す条件データを前記追加学習後の合成モデルに入力することで特徴データを生成する。
本発明の好適な態様に係る音響処理装置は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルについて、音響信号から特定される条件データと当該音響信号から特定される特徴データとを利用した追加学習を実行する学習処理部と、前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、前記変更後の発音条件を表す条件データを前記追加学習後の合成モデルに入力することで特徴データを生成する合成処理部とを具備する。
本発明の第1実施形態に係る音響処理装置の構成を例示するブロック図である。 音響処理装置の機能的な構成を例示するブロック図である。 編集画面の模式図である。 事前学習の説明図である。 事前学習の具体的な手順を例示するフローチャートである。 音響処理装置の動作の具体的な手順を例示するフローチャートである。 変形例における音響処理装置の機能的な構成を例示するブロック図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100の構成を例示するブロック図である。図1に例示される通り、第1実施形態の音響処理装置100は、制御装置11と記憶装置12と表示装置13と入力装置14と放音装置15とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音響処理装置100として好適に利用される。
制御装置11は、例えばCPU(Central Processing Unit)等の単数または複数の処理回路で構成され、音響処理装置100の各要素を統括的に制御する。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音響処理装置100に対して着脱可能な可搬型の記録媒体、または音響処理装置100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
第1実施形態の記憶装置12は、特定の楽曲に関する音響を表す音響信号V1を記憶する。以下の説明では、特定の歌唱者(以下「追加歌唱者」という)が楽曲の歌唱により発音する歌唱音を表す音響信号V1を想定する。例えば、音楽CD等の記録媒体に記憶された音響信号V1、または、通信網を介して受信された音響信号V1が、記憶装置12に記憶される。音響信号V1のファイル形式は任意である。第1実施形態の制御装置11は、記憶装置12に記憶された音響信号V1に関する各種の条件(以下「歌唱条件」という)を利用者からの指示に応じて変更した音響信号V2を生成する。歌唱条件は、例えば音高と音量と音韻とを含む。
表示装置13は、制御装置11から指示された画像を表示する。例えば液晶表示パネルが表示装置13として好適に利用される。入力装置14は、利用者による操作を受付ける。例えば利用者が操作する操作子、または、表示装置13の表示面に対する接触を検知するタッチパネルが、入力装置14として好適に利用される。放音装置15は、例えばスピーカまたはヘッドホンであり、制御装置11が生成する音響信号V2に応じた音響を放音する。
図2は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される機能を例示するブロック図である。図2に例示される通り、第1実施形態の制御装置11は、信号解析部21と表示制御部22と指示受付部23と合成処理部24と信号生成部25と学習処理部26とを実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
信号解析部21は、記憶装置12に記憶された音響信号V1を解析する。具体的には、信号解析部21は、音響信号V1が表す歌唱音の歌唱条件を表す条件データXbと、当該歌唱音の特徴を表す特徴データQとを音響信号V1から生成する。第1実施形態の条件データXbは、楽曲を構成する複数の音符の各々について音高と音韻(発音文字)と発音期間とを歌唱条件として指定する時系列データである。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式の条件データXbが生成される。信号解析部21による条件データXbの生成には公知の解析技術(例えば自動採譜技術)が任意に採用される。なお、条件データXbは、音響信号V1から生成されたデータに限定されない。例えば、追加歌唱者が歌唱した楽譜のデータを条件データXbとして利用してもよい。
特徴データQは、音響信号V1が表す音響の特徴を表すデータである。第1実施形態の特徴データQは、基本周波数(ピッチ)Qaとスペクトル包絡Qbとを含む。スペクトル包絡Qbは、音響信号V1の周波数スペクトルの概形である。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の信号解析部21は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。信号解析部21による特徴データQの生成には、離散フーリエ変換等の公知の周波数解析技術が任意に採用される。
図2の表示制御部22は、表示装置13に画像を表示させる。第1実施形態の表示制御部22は、図3に例示された編集画面Gを表示装置13に表示させる。編集画面Gは、音響信号V1に関する歌唱条件を変更するために利用者が視認する画像である。
図3に例示される通り、編集画面Gには、相互に直交する時間軸(横軸)と音高軸(縦軸)とが設定される。編集画面Gには、音符画像Gaとピッチ画像Gbと波形画像Gcとが配置される。
音符画像Gaは、音響信号V1が表す楽曲の音符を表す画像である。表示制御部22は、信号解析部21が生成した条件データXbに応じて音符画像Gaの時系列を編集画面Gに配置する。具体的には、音高軸の方向における各音符画像Gaの位置は、当該音符画像Gaの音符について条件データXbが指定する音高に応じて設定される。また、時間軸の方向における各音符画像Gaの位置は、当該音符画像Gaの音符について条件データXbが指定する発音期間の端点(始点または終点)に応じて設定される。時間軸の方向における各音符画像Gaの表示長は、当該音符画像Gaの音符について条件データXbが指定する発音期間の継続長に応じて設定される。すなわち、複数の音符画像Gaの時系列により音響信号V1の音符の時系列がピアノロール表示される。また、各音符画像Gaには、当該音符画像Gaの音符について条件データXbが指定する音韻Gdが配置される。なお、音韻Gdは、1個以上の文字で表現されてもよいし、複数の音素の組合せで表現されてもよい。
ピッチ画像Gbは、音響信号V1の基本周波数Qaの時系列である。表示制御部22は、信号解析部21が生成した特徴データQの基本周波数Qa応じてピッチ画像Gbの時系列を編集画面Gに配置する。波形画像Gcは、音響信号V1の波形を表す画像である。なお、図3においては音高軸の方向における特定の位置に音響信号V1の波形画像Gcを配置したが、音響信号V1を音符毎に区分し、各音符に対応する波形を当該音符の音符画像Gaに重ねて表示してもよい。すなわち、音響信号V1を区分した各音符の波形を、音高軸の方向において当該音符の音高に応じた位置に配置してもよい。
利用者は、表示装置13に表示された編集画面Gを視認しながら入力装置14を適宜に操作することで、音響信号V1の歌唱条件を適宜に変更することが可能である。例えば、利用者は、音符画像Gaを音高軸の方向に移動することで、当該音符画像Gaが表す音符の音高の変更を指示する。また、利用者は、音符画像Gaを時間軸の方向に移動または伸縮することで、当該音符画像Gaが表す音符の発音期間(始点または終点)の変更を指示する。利用者は、音符画像Gaに付加された音韻Gdの変更を指示することも可能である。
図2の指示受付部23は、音響信号V1に関する歌唱条件の変更の指示を受付ける。第1実施形態の指示受付部23は、信号解析部21が生成した条件データXbを、利用者から受付けた指示に応じて変更する。すなわち、楽曲内の任意の音符について利用者からの指示に応じて変更された歌唱条件(音高、音韻または発音期間)を表す条件データXbが指示受付部23により生成される。
合成処理部24は、音響信号V1の歌唱条件を利用者からの指示に応じて変更した音響信号V2の音響的な特徴を表す特徴データQの時系列を生成する。特徴データQは、音響信号V2の基本周波数Qaとスペクトル包絡Qbとを含む。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の合成処理部24は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。
信号生成部25は、合成処理部24が生成した特徴データQの時系列から音響信号V2を生成する。特徴データQの時系列を利用した音響信号Vの生成には、例えば公知のボコーダ技術が利用される。具体的には、信号生成部25は、基本周波数Qaに対応する周波数スペクトルにおける周波数毎の強度をスペクトル包絡Qbに応じて調整し、調整後の周波数スペクトルを時間領域に変換することで音響信号V2を生成する。信号生成部25が生成した音響信号V2が放音装置15に供給されることで、当該音響信号V2が表す音響が放音装置15から再生される。すなわち、音響信号V1が表す歌唱音の歌唱条件を利用者からの指示に応じて変更した歌唱音が放音装置15から再生される。なお、音響信号V2をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
図2に例示される通り、第1実施形態では、合成処理部24による特徴データQの生成に合成モデルMが利用される。具体的には、合成処理部24は、歌唱者データXaと条件データXbとを含む入力データZを合成モデルMに入力することで特徴データQの時系列を生成する。
歌唱者データXaは、歌唱者が発音する歌唱音の音響的な特徴(例えば声質)を表すデータである。第1実施形態の歌唱者データXaは、多次元の空間(以下「歌唱者空間」という)における埋込ベクトル(embedding vector)である。歌唱者空間は、音響の特徴に応じて空間内における各歌唱者の位置が決定される連続空間である。歌唱者間で音響の特徴が類似するほど、歌唱者空間内における当該歌唱者間の距離は小さい数値となる。以上の説明から理解される通り、歌唱者空間は、音響の特徴に関する歌唱者間の関係を表す空間と表現される。なお、歌唱者データXaの生成については後述する。
合成モデルMは、入力データZと特徴データQとの関係を学習した統計的予測モデルである。第1実施形態の合成モデルMは、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。具体的には、合成モデルMは、入力データZから特徴データQを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。合成モデルMを規定する複数の係数は、複数の学習データを利用した機械学習(特に深層学習)により設定されて記憶装置12に保持される。
図2の学習処理部26は、機械学習により合成モデルMを訓練する。学習処理部26による機械学習は、事前学習と追加学習とに区分される。事前学習は、記憶装置12に記憶された多数の学習データL1を利用して合成モデルMを生成する基本的な学習処理である。他方、追加学習は、事前学習時の学習データL1と比較して少数の学習データL2を利用して事前学習後に追加的に実行される学習処理である。
図4は、学習処理部26による事前学習を説明するためのブロック図である。記憶装置12に記憶された複数の学習データL1が事前学習に利用される。複数の学習データL1の各々は、既知の歌唱者に対応する識別情報Fと条件データXbと音響信号Vとを含む。既知の歌唱者は、基本的には、追加歌唱者とは別個の歌唱者である。また、機械学習の終了判定に利用される評価用の学習データ(以下「評価用データ」という)L1も記憶装置12に記憶される。
識別情報Fは、音響信号Vが表す歌唱音を歌唱した複数の歌唱者の各々を識別するための数値列である。例えば、相異なる歌唱者に対応する複数の要素のうち特定の歌唱者に対応する要素が数値1に設定され、残余の要素が数値0に設定されたone-hot表現の数値列が、当該特定の歌唱者の識別情報Fとして好適に利用される。なお、識別情報Fについては、one-hot表現における数値1と数値0とを置換したone-cold表現を採用してもよい。識別情報Fと条件データXbとの組合せは学習データL1毎に相違する。
任意の1個の学習データL1に含まれる音響信号Vは、識別情報Fが表す既知の歌唱者が、当該学習データL1の条件データXbが表す楽曲を歌唱した場合における歌唱音の波形を表す信号である。例えば条件データXbが表す楽曲を歌唱者が実際に歌唱した場合の歌唱音を収録することで音響信号Vが事前に用意される。追加歌唱者の歌唱音に特性が類似する複数の既知の歌唱者の歌唱音を表す音響信号Vが複数の学習データL1にそれぞれ含まれる。すなわち、追加学習の対象となる発音源と同種の発音源(すなわち既知の歌唱者)の音響を表す音響信号Vが、事前学習に利用される。
図4に例示される通り、第1実施形態の学習処理部26は、機械学習の本来的な目的である合成モデルMとともに符号化モデルEを一括的に訓練する。符号化モデルEは、歌唱者の識別情報Fを当該歌唱者の歌唱者データXaに変換するエンコーダである。符号化モデルEは、例えば深層ニューラルネットワークで構成される。事前学習では、符号化モデルEが学習データL1の識別情報Fから生成した歌唱者データXaと当該学習データL1の条件データXbとが合成モデルMに供給される。前述の通り、合成モデルMは、歌唱者データXaと条件データXbとに応じた特徴データQの時系列を出力する。なお、符号化モデルEを変換テーブルで構成してもよい。
信号解析部21は、各学習データL1の音響信号Vから特徴データQを生成する。信号解析部21が生成する特徴データQは、合成モデルMが生成する特徴データQと同種の特徴量(すなわち基本周波数Qaおよびスペクトル包絡Qb)を表す。特徴データQの生成は、所定長(例えば5ミリ秒)の単位期間毎に反復される。信号解析部21が生成する特徴データQは、合成モデルMの出力に関する既知の正解値に相当する。なお、音響信号Vから生成された特徴データQを音響信号Vに代えて学習データL1に含ませてもよい。したがって、事前学習では、信号解析部21による音響信号Vの解析は省略される。
学習処理部26は、事前学習において、合成モデルMと符号化モデルEとの各々を規定する複数の係数を反復的に更新する。図5は、学習処理部26が実行する事前学習の具体的な手順を例示するフローチャートである。例えば入力装置14に対する利用者からの指示を契機として事前学習が開始される。なお、事前学習の実行後の追加学習については後述する。
事前学習を開始すると、学習処理部26は、記憶装置12に記憶された複数の学習データL1の何れかを選択する(Sa1)。事前学習の開始の直後には最初の学習データL1が選択される。学習処理部26は、記憶装置12から選択した学習データL1の識別情報Fを暫定的な符号化モデルEに入力する(Sa2)。符号化モデルEは、識別情報Fに対応する歌唱者データXaを生成する。事前学習が開始される時点の初期的な符号化モデルEは、例えば乱数等により各係数が初期化されている。
学習処理部26は、符号化モデルEが生成した歌唱者データXaと学習データL1の条件データXbとを含む入力データZを、暫定的な合成モデルMに入力する(Sa3)。合成モデルMは、入力データZに応じた特徴データQを生成する。事前学習が開始される時点の初期的な合成モデルMは、例えば乱数等により各係数が初期化されている。
学習処理部26は、合成モデルMが学習データL1から生成した特徴データQと、当該学習データL1の音響信号Vから信号解析部21が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sa4)。学習処理部26は、評価関数が所定値(典型的にはゼロ)に近付くように、合成モデルMおよび符号化モデルEの各々の複数の係数を更新する(Sa5)。評価関数に応じた複数の係数の更新には、例えば誤差逆伝播法が好適に利用される。
学習処理部26は、以上に説明した更新処理(Sa2〜Sa5)を所定の回数にわたり反復したか否かを判定する(Sa61)。更新処理の反復の回数が所定値を下回る場合(Sa61:NO)、学習処理部23は、記憶装置12から次の学習データLを選択(Sa1)したうえで、当該学習データLについて更新処理(Sa2〜Sa5)を実行する。すなわち、複数の学習データLの各々について更新処理が反復される。
更新処理(Sa2〜Sa5)の回数が所定値に到達した場合(Sa61:YES)、学習処理部23は、更新処理後の合成モデルMにより生成される特徴データQが所定の品質に到達したか否かを判定する(Sa62)。特徴データQの品質の評価には、記憶装置12に記憶された前述の評価用データLが利用される。具体的には、学習処理部23は、合成モデルMが評価用データLから生成した特徴データQと評価用データLの音響信号Vから特徴解析部24が生成した特徴データQ(正解値)との誤差を算定する。学習処理部23は、特徴データQ間の誤差が所定の閾値を下回るか否かに応じて、特徴データQが所定の品質に到達したか否かを判定する。
特徴データQが所定の品質に到達していない場合(Sa62:NO)、学習処理部23は、所定の回数にわたる更新処理(Sa2〜Sa5)の反復を開始する。以上の説明から理解される通り、所定の回数にわたる更新処理の反復毎に特徴データQの品質が評価される。特徴データQが所定の品質に到達した場合(Sa62:YES)、学習処理部23は、当該時点における合成モデルMを最終的な合成モデルMとして確定する(Sa7)。すなわち、最新の更新後の複数の係数が記憶装置12に記憶される。以上の手順で確定された学習済の合成モデルMが、合成処理部24による特徴データQの生成に利用される。また、学習処理部26は、以上の手順で確定された学習済の符号化モデルEに各歌唱者の識別情報Fを入力することで歌唱者データXaを生成する(Sa8)。歌唱者データXaの確定後に符号化モデルEは破棄される。なお、歌唱者空間は、事前学習された符号化モデルEにより構築された空間である。
以上の説明から理解される通り、学習済の合成モデルMは、各学習データL1に対応する入力データZと当該学習データL1の音響信号Vに対応する特徴データQとの間に潜在する傾向のもとで、未知の入力データZに対して統計的に妥当な特徴データQを生成することが可能である。すなわち、合成モデルMは、入力データZと特徴データQとの関係を学習する。また、符号化モデルEは、合成モデルMが統計的に妥当な特徴データQを入力データZから生成できるように識別情報Fと歌唱者データXaとの関係を学習する。事前学習が完了すると複数の学習データL1は記憶装置12から破棄される。
図6は、学習処理部26による追加学習を含む音響処理装置100の全体的な動作の具体的な手順を例示するフローチャートである。前述の事前学習による合成モデルMの訓練後に、例えば入力装置14に対する利用者からの指示を契機として図6の処理が開始される。
図6の処理を開始すると、信号解析部21は、記憶装置12に記憶された追加歌唱者の音響信号V1を解析することで条件データXbと特徴データQとを生成する(Sb1)。学習処理部26は、信号解析部21が音響信号V1から生成した条件データXbと特徴データQとを含む学習データL2を利用した追加学習により合成モデルMを訓練する(Sb2−Sb4)。
具体的には、学習処理部26は、乱数等により初期化された追加歌唱者の歌唱者データXaと、当該追加歌唱者の音響信号V1から生成された条件データXbとを含む入力データZを、事前学習済の合成モデルMに入力する(Sb2)。合成モデルMは、歌唱者データXaと条件データXbとに応じた特徴データQの時系列を生成する。学習処理部26は、合成モデルMが生成した特徴データQと、学習データL2の音響信号V1から信号解析部21が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sb3)。学習処理部26は、評価関数が所定値(典型的にはゼロ)に近付くように、歌唱者データXaと合成モデルMの複数の係数とを更新する(Sb4)。評価関数に応じた複数の係数の更新には、事前学習での係数の更新と同様に、例えば誤差逆伝播法が好適に利用される。歌唱者データXaおよび複数の係数の更新(Sb4)は、合成モデルMが充分な品質の特徴データQを生成できるようになるまで反復される。以上の追加学習により、歌唱者データXaと合成モデルMの複数の係数とが確定する。
以上に説明した追加学習を実行すると、表示制御部22は、図3の編集画面Gを表示装置13に表示させる(Sb5)。編集画面Gには、信号解析部21が音響信号V1から生成した条件データXbが表す音符画像Gaの時系列と、信号解析部21が音響信号V1から生成した基本周波数Qaの時系列を表すピッチ画像Gbと、音響信号V1の波形を表す波形画像Gcとが配置される。
利用者は、編集画面Gを視認しながら、音響信号V1の歌唱条件の変更を指示することが可能である。指示受付部23は、歌唱条件の変更が利用者から指示されたか否かを判定する(Sb6)。歌唱条件の変更の指示を受付けると(Sb6:YES)、指示受付部23は、信号解析部21が生成した初期的な条件データXbを利用者からの指示に応じて変更する(Sb7)。
合成処理部24は、指示受付部23による変更後の条件データXbと追加歌唱者の歌唱者データXaとを含む入力データZを追加学習後の合成モデルMに入力する(Sb8)。合成モデルMは、追加歌唱者の歌唱者データXaと条件データXbとに応じた特徴データQの時系列を生成する。信号生成部25は、合成モデルMが生成した特徴データQの時系列から音響信号V2を生成する(Sb9)。表示制御部22は、利用者からの変更の指示と追加学習後の合成モデルMを利用した音響信号V2とを反映した内容に編集画面Gを更新する(Sb10)。具体的には、表示制御部22は、音符画像Gaの時系列を、利用者が指示した変更後の歌唱条件を表す内容に更新する。また、表示制御部22は、表示装置13が表示するピッチ画像Gbを、信号生成部25が生成した音響信号V2の基本周波数Qaの時系列を表す画像に更新し、波形画像Gcを当該音響信号V2の波形に更新する。
制御装置11は、歌唱音の再生が利用者から指示されたか否かを判定する(Sb11)。歌唱音の再生が指示されると(Sb11:YES)。制御装置11は、以上の手順で生成された音響信号V2を放音装置15に供給することで歌唱音を再生する(Sb12)。すなわち、利用者による変更後の歌唱条件に対応する歌唱音が放音装置15から再生される。なお、歌唱条件の変更が指示されない場合(Sb6:NO)、条件データXbの変更(Sb7)と音響信号V2の生成(Sb8,Sb9)と編集画面Gの更新(Sb10)とは実行されない。したがって、利用者から歌唱音の再生が指示されると(Sb11:YES)、記憶装置12に記憶された音響信号V1が放音装置15に供給されることで歌唱音が再生される(Sb12)。歌唱音の再生が指示されない場合(Sb11:NO)には、放音装置15に対して音響信号V(V1,V2)は供給されない。
制御装置11は、処理の終了が利用者から指示されたか否かを判定する(Sb13)。処理の終了が指示されていない場合(Sb13:NO)、制御装置11は処理をステップSb6に移行し、歌唱条件の変更の指示を利用者から受付ける。以上の説明から理解される通り、歌唱条件の変更の指示毎に、条件データXbの変更(Sb7)と追加学習後の合成モデルMを利用した音響信号V2の生成(Sb8,Sb9)と編集画面Gの更新(Sb10)とが実行される。
以上に説明した通り、第1実施形態では、追加歌唱者の音響信号V1から特定される条件データXbと特徴データQとを利用した追加学習が事前学習済の合成モデルMについて実行され、変更後の歌唱条件を表す条件データXbを追加学習後の合成モデルMに入力することで、変更後の歌唱条件で追加歌唱者により発音された歌唱音の特徴データQが生成される。したがって、利用者による変更の指示に応じて音響信号を直接的に調整する従来の構成と比較して、歌唱条件の変更による音質の劣化を抑制することが可能である。
また、第1実施形態では、音響信号V2が表す歌唱音の歌唱者(すなわち追加歌唱者)と同種の発音源の歌唱音を表す音響信号Vを利用して事前学習済の合成モデルMが生成される。したがって、追加歌唱者の音響信号V1が少ない場合でも、変更後の歌唱条件で発音された歌唱音の特徴データQを高精度に生成できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、事前学習により訓練された符号化モデルEを利用して追加歌唱者の歌唱者データXaを生成した。歌唱者データXaの生成後に符号化モデルEを破棄した場合、追加学習の段階で歌唱者空間を再構築することができない。第2実施形態では、図5のステップSa8において符号化モデルEを破棄せず、歌唱者空間を再構築できるようにする。この場合の追加学習は、例えば、合成モデルMが対応できる条件データXbの範囲を拡張する等の目的で実行される。以下では、合成モデルMを利用して追加歌唱者の追加学習を行う場合を説明する。図5の処理に先立ち、追加歌唱者に他の歌唱者と区別できるように、ユニークな識別情報Fが割り当て、さらに、図6のSb1の処理により、追加歌唱者の歌唱音を表す音響信号V1から条件データXbおよび特徴データQを生成し、記憶装置12に、学習データL1の一部として追加記憶する。
図5のステップSa1〜Sa6の処理により、当該条件データXbおよび特徴データQを含む学習データL1を利用した追加学習を実行し、合成モデルMおよび符号化モデルEの各々の複数の係数を更新する手順は、第1実施形態と同様である。すなわち、追加学習においては、追加歌唱者の歌唱音の特徴が反映されるように合成モデルMが訓練されるとともに歌唱者空間が再構築される。学習処理部26は、追加歌唱者の学習データL1を利用して事前学習済の合成モデルMを再訓練する処理により、合成モデルMが追加歌唱者の歌唱音を合成できるようにする。
第2実施形態によれば、ある歌唱者の音響信号V1を追加することにより、合成モデルMで生成される複数の歌唱者の歌唱の品質を高めることができる。また、追加歌唱者の音響信号V1が少ない場合でも、追加歌唱者の歌唱音を合成モデルMから高精度に生成できるという利点がある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、合成モデルMを利用して音響信号V2を生成したが、合成モデルMを利用した音響信号V2の生成と音響信号V1の直接的な調整とを併用してもよい。例えば図7に例示される通り、制御装置11は、前述の各形態と同様の要素に加えて調整処理部31および信号合成部32として機能する。調整処理部31は、記憶装置12に記憶された音響信号V1を利用者による歌唱条件の変更の指示に応じて調整することで音響信号V3を生成する。例えば特定の音符の音高の変化を利用者が指示した場合、調整処理部31は、音響信号V1のうち当該音符に対応する区間内の音高を指示に応じて変更することで音響信号V3を生成する。また、特定の音符の発音期間の変更を利用者が指示した場合、調整処理部31は、音響信号V1のうち当該音符に対応する区間を時間軸上で伸縮することで音響信号V3を生成する。音響信号V1の音高の変更または時間的な伸縮には公知の技術が任意に採用される。信号合成部32は、合成モデルMが生成した特徴データQから信号生成部25が生成した音響信号V2と、図7の調整処理部31が生成した音響信号V3とを合成することで、音響信号V4を生成する。信号合成部32が生成した音響信号V4が放音装置15に供給される。
信号合成部32は、信号生成部25が生成した音響信号V2または調整処理部31が生成した音響信号V3の音質を評価し、信号合成部32による音響信号V2と音響信号V3との混合比を評価の結果に応じて調整する。音響信号V2または音響信号V3の音質は、例えばSN(Signal-to-Noise)比またはSD(Signal-to-Distortion)比等の指標値を利用して評価される。信号合成部32は、例えば、音響信号V2の音質が高いほど、音響信号V3に対する音響信号V2の混合比を高い数値に設定する。したがって、音響信号V2の音質が高い場合には、当該音響信号V2が優勢に反映された音響信号V4が生成され、音響信号V2の音質が低い場合には、音響信号V3が優勢に反映された音響信号V4が生成される。また、音響信号V2または音響信号V3の音質に応じて音響信号V2および音響信号V3の何れかを選択してもよい。例えば、音響信号V2の音質の指標が閾値を上回る場合には当該音響信号V2が放音装置15に供給され、当該指標が閾値を下回る場合には音響信号V3が放音装置15に供給される。
(2)前述の各形態では、楽曲の全体にわたる音響信号V2を生成したが、楽曲のうち利用者が歌唱条件の変更を指示した区間について音響信号V2を生成し、当該音響信号V2を音響信号V1に合成してもよい。合成後の音響信号において音響信号V2の始点または終点が聴覚的に明確に知覚されないように、音響信号V1に対して音響信号V2をクロスフェードしてもよい。
(3)前述の各形態では、学習処理部26が事前学習および追加学習の双方を実行したが、事前学習と追加学習とを別個の要素が実行してもよい。例えば、外部装置による事前学習で生成された合成モデルMについて学習処理部26が追加学習を実行する構成では、学習処理部26による事前学習は不要である。例えば、端末装置と通信可能な機械学習装置(例えばサーバ装置)が事前学習により合成モデルMを生成し、当該合成モデルMを端末装置に配信する。端末装置は、機械学習装置から配信された合成モデルMについて追加学習を実行する学習処理部26を具備する。
(4)前述の各形態では、歌唱者が発音した歌唱音を合成したが、歌唱音以外の音響の合成にも本発明は適用される。例えば、音楽を要件としない会話音等の一般的な発話音の合成、または楽器の演奏音の合成にも、本発明は適用される。歌唱者データXaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。また、条件データXbは、歌唱条件のほかに発話条件(例えば音韻)または演奏条件(例えば音高および音量)を含む発音条件を表すデータとして包括的に表現される。
(5)前述の各形態では、特徴データQが基本周波数Qaとスペクトル包絡Qbとを含む構成を例示したが、特徴データQの内容は以上の例示に限定されない。周波数スペクトルの特徴(以下「スペクトル特徴」という)を表す各種のデータが特徴データQとして好適である。特徴データQとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Qbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Qaを特定可能なスペクトル特徴を特徴データQとして利用する構成では、特徴データQから基本周波数Qaを省略してもよい。
(6)前述の各形態に係る音響処理装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
(7)合成モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る音響処理方法は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルについて、音響信号から特定される条件データと当該音響信号から特定される特徴データとを利用した追加学習を実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す条件データを前記追加学習後の合成モデルに入力することで特徴データを生成する。以上の態様では、音響信号から特定される条件データと特徴データとを利用した追加学習が合成モデルについて実行され、変更後の発音条件を表す条件データを追加学習後の合成モデルに入力することで、変更後の発音条件で発音された音響の特徴データが生成される。したがって、変更の指示に応じて音響信号を直接的に調整する従来の構成と比較して、発音条件の変更による音質の劣化を抑制することが可能である。
第1態様の好適例(第2態様)において、前記事前学習済の合成モデルは、前記音響信号が表す音響の発音源と同種の発音源の音響を表す音響信号を利用した機械学習により生成されたモデルである。以上の態様では、音響信号が表す音響の発音源と同種の発音源の音響を表す音響信号を利用して事前学習済の合成モデルが生成されるから、変更後の発音条件で発音された音響の特徴データを高精度に生成できる。
第1態様または第2態様の好適例(第3態様)において、前記特徴データの生成では、前記変更後の発音条件を表す条件データと、音響の特徴に関する発音源間の関係を表す空間における発音源の位置を表す発音源データとを、前記追加学習後の合成モデルに入力する。
以上に例示した各態様の音響処理方法を実行する音響処理装置、または、以上に例示した各態様の音響処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。
100…音響処理装置、11…制御装置、12…記憶装置、13…表示装置、14…入力装置、15…放音装置、21…信号解析部、22…表示制御部、23…支持受付部、24…合成処理部、25…信号生成部、26…学習処理部、M…合成モデル、Xa…歌唱者データ、Xb…条件データ、Z…入力データ、Q…特徴データ、V1,V2…音響信号、F…識別情報、E…符号化モデル、L1,L2…学習データ。

Claims (9)

  1. 発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用し実行し、
    前記音響信号に関する発音条件の変更の指示を受付け、
    前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する
    コンピュータにより実現される音響処理方法。
  2. 前記事前学習済の合成モデルは、前記音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用した機械学習により生成されたモデルである
    請求項1の音響処理方法。
  3. 前記第2特徴データの生成においては、前記変更後の発音条件を表す前記第2条件データと、音響の特徴に関する発音源間の関係を表す空間における発音源の位置を表す発音源データとを、前記追加学習後の合成モデルに入力する
    請求項1または請求項2の音響処理方法。
  4. 前記発音条件は、音高を含み、
    前記発音条件の変更の指示は、前記音高の変更の指示である
    請求項1から請求項3の何れかの音響処理方法。
  5. 前記発音条件は、発音期間を含み、
    前記発音条件の変更の指示は、前記発音期間の変更の指示である
    請求項1から請求項4の何れかの音響処理方法。
  6. 前記発音条件は、音韻を含み、
    前記発音条件の変更の指示は、前記音韻の変更の指示である
    請求項1から請求項5の何れかの音響処理方法。
  7. 前記音響処理方法は、さらに、
    前記生成した第2特徴データに応じて音響信号を生成する
    請求項1から請求項6の何れかの音響処理方法。
  8. 発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用し実行する学習処理部と、
    前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、
    前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する合成処理部と
    を具備する音響処理システム。
  9. 発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行する学習処理部、および、
    前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、
    前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する合成処理部
    としてコンピュータを機能させるプログラム。
JP2018209289A 2018-11-06 2018-11-06 音響処理方法、音響処理システムおよびプログラム Active JP6737320B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018209289A JP6737320B2 (ja) 2018-11-06 2018-11-06 音響処理方法、音響処理システムおよびプログラム
EP19882740.4A EP3879521A4 (en) 2018-11-06 2019-11-06 ACOUSTIC TREATMENT METHOD AND ACOUSTIC TREATMENT SYSTEM
CN201980072998.7A CN113016028A (zh) 2018-11-06 2019-11-06 音响处理方法及音响处理***
PCT/JP2019/043511 WO2020095951A1 (ja) 2018-11-06 2019-11-06 音響処理方法および音響処理システム
US17/306,123 US11842720B2 (en) 2018-11-06 2021-05-03 Audio processing method and audio processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018209289A JP6737320B2 (ja) 2018-11-06 2018-11-06 音響処理方法、音響処理システムおよびプログラム

Publications (3)

Publication Number Publication Date
JP2020076844A JP2020076844A (ja) 2020-05-21
JP2020076844A5 JP2020076844A5 (ja) 2020-07-02
JP6737320B2 true JP6737320B2 (ja) 2020-08-05

Family

ID=70611505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018209289A Active JP6737320B2 (ja) 2018-11-06 2018-11-06 音響処理方法、音響処理システムおよびプログラム

Country Status (5)

Country Link
US (1) US11842720B2 (ja)
EP (1) EP3879521A4 (ja)
JP (1) JP6737320B2 (ja)
CN (1) CN113016028A (ja)
WO (1) WO2020095951A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
EP4163912A1 (en) * 2020-06-09 2023-04-12 Yamaha Corporation Acoustic processing method, acoustic processing system, and program
CN118101632B (zh) * 2024-04-22 2024-06-21 安徽声讯信息技术有限公司 一种基于人工智能的语音低延时信号传输方法及***

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895588A (ja) * 1994-09-27 1996-04-12 Victor Co Of Japan Ltd 音声合成装置
US6304846B1 (en) 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
JP4839891B2 (ja) 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
JP5293460B2 (ja) 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
GB2500471B (en) 2010-07-20 2018-06-13 Aist System and method for singing synthesis capable of reflecting voice timbre changes
GB2501067B (en) 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
JP5949607B2 (ja) * 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
JP6261924B2 (ja) 2013-09-17 2018-01-17 株式会社東芝 韻律編集装置、方法およびプログラム
US8751236B1 (en) 2013-10-23 2014-06-10 Google Inc. Devices and methods for speech unit reduction in text-to-speech synthesis systems
CN104766603B (zh) * 2014-01-06 2019-03-19 科大讯飞股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN105023570B (zh) * 2014-04-30 2018-11-27 科大讯飞股份有限公司 一种实现声音转换的方法及***
JP6392012B2 (ja) 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
JP6000326B2 (ja) 2014-12-15 2016-09-28 日本電信電話株式会社 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP6390690B2 (ja) 2016-12-05 2018-09-19 ヤマハ株式会社 音声合成方法および音声合成装置
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法
JP6846237B2 (ja) 2017-03-06 2021-03-24 日本放送協会 音声合成装置及びプログラム
JP6729539B2 (ja) * 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
EP3739477A4 (en) 2018-01-11 2021-10-27 Neosapience, Inc. PROCESS AND SYSTEM FOR SPEECH TRANSLATION USING A MULTILINGUAL TEXT-SPEECH SYNTHESIS MODEL
WO2019139431A1 (ko) 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
US11302329B1 (en) * 2020-06-29 2022-04-12 Amazon Technologies, Inc. Acoustic event detection
US11551663B1 (en) * 2020-12-10 2023-01-10 Amazon Technologies, Inc. Dynamic system response configuration

Also Published As

Publication number Publication date
WO2020095951A1 (ja) 2020-05-14
EP3879521A1 (en) 2021-09-15
EP3879521A4 (en) 2022-08-03
JP2020076844A (ja) 2020-05-21
US20210256959A1 (en) 2021-08-19
US11842720B2 (en) 2023-12-12
CN113016028A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110634460B (zh) 电子乐器、电子乐器的控制方法以及存储介质
JP6747489B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
US11842720B2 (en) Audio processing method and audio processing system
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
JP2016161919A (ja) 音声合成装置
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP7147211B2 (ja) 情報処理方法および情報処理装置
WO2021060493A1 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置
JP2020166299A (ja) 音声合成方法
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP4433734B2 (ja) 音声分析合成装置、音声分析装置、及びプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP7107427B2 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP2009237590A (ja) 音声効果付与装置
JP2020166298A (ja) 音声合成方法
JP5659501B2 (ja) 電子音楽装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200325

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R151 Written notification of patent or utility model registration

Ref document number: 6737320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151