JP2024057180A - プログラム、音響処理方法および音響処理システム - Google Patents

プログラム、音響処理方法および音響処理システム Download PDF

Info

Publication number
JP2024057180A
JP2024057180A JP2022163721A JP2022163721A JP2024057180A JP 2024057180 A JP2024057180 A JP 2024057180A JP 2022163721 A JP2022163721 A JP 2022163721A JP 2022163721 A JP2022163721 A JP 2022163721A JP 2024057180 A JP2024057180 A JP 2024057180A
Authority
JP
Japan
Prior art keywords
data
user
acoustic
style
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022163721A
Other languages
English (en)
Inventor
誠 橘
Makoto Tachibana
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2022163721A priority Critical patent/JP2024057180A/ja
Priority to US18/483,570 priority patent/US20240135916A1/en
Priority to CN202311318311.8A priority patent/CN117877459A/zh
Publication of JP2024057180A publication Critical patent/JP2024057180A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Figure 2024057180000001
【課題】利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成する。
【解決手段】音響処理システムは、合成されるべき目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データのうちの第1部分を、利用者からの指示に応じて変更する特性編集部33と、目標音について第1発音スタイルとは異なる第2発音スタイルが指定された場合に、第1部分について利用者からの指示に応じた変更後の音響特性を表し、かつ、第1部分以外の第2部分について第2発音スタイルに対応する音響特性を表す第2時系列データを生成する音響処理部40とを具備する。
【選択図】図2

Description

本開示は、音を合成する技術に関する。
例えば歌唱音等の所望の音(以下「目標音」という)を合成する音合成技術が従来から提案されている。例えば特許文献1には、相異なる複数の発音スタイルのうち利用者が選択した発音スタイルのもとで発音されるべき目標音を合成する技術が開示されている。
特許第6747489号公報
ところで、目標音の編集の場面においては、例えば発音スタイルまたは合成条件(例えば目標音の音高)等の各種の事項が、利用者からの指示に応じて随時に変更される。例えば、利用者が、発音スタイルを試行錯誤的に変更しながら、目標音の音響特性の変更を指示する状況が想定される。以上の状況において、発音スタイルの変更毎に、利用者が目標音の音響特性の変更を指示する必要がある形態では、利用者による指示の負荷が大きいという課題がある。以上の事情を考慮して、本開示のひとつの態様は、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成することを目的とする。
以上の課題を解決するために、本開示のひとつの態様に係るプログラムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、前記時系列データを利用者からの指示に応じて変更する特性編集部、としてコンピュータシステムを機能させるプログラムであって、前記音響処理部は、前記目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データを生成し、前記特性編集部は、前記第1時系列データのうちの第1部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する。
本開示のひとつの態様に係る音響処理方法は、合成されるべき目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データのうちの第1部分を、利用者からの指示に応じて変更し、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する。
本開示のひとつの態様に係る音響処理システムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、前記音響処理部は、前記目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データを生成し、前記特性編集部は、前記第1時系列データのうちの第1部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する。
第1実施形態における音響処理システムの構成を例示するブロック図である。 音響処理システムの機能的な構成を例示するブロック図である。 編集画面の模式図である。 編集画面のうち操作領域の模式図である。 編集画面の模式図である。 編集領域の部分的な模式図である。 音声合成処理のフローチャートである。 第1実施形態における音素列データの更新に関する説明図である。 第2音素列データを生成する処理のフローチャートである。 第1音素列データおよび第2音素列データの具体例である。 第2実施形態における編集画面の模式図である。 第3実施形態におけるピッチデータの更新に関する説明図である。 第2ピッチデータを生成する処理のフローチャートである。 第4実施形態における音響信号の更新に関する説明図である。 第2音響信号を生成する処理のフローチャートである。 変形例における編集画面の模式図である。 変形例において第2音響信号を生成する処理のフローチャートである。 変形例における編集データの模式図である。
A:第1実施形態
図1は、第1実施形態に係る音響処理システム100の構成を例示するブロック図である。音響処理システム100は、利用者の所望の音(以下「目標音」という)を合成するためのコンピュータシステムである。目標音は、音響処理システム100により合成されるべき音である。第1実施形態の目標音は、歌唱者が特定の楽曲(以下「目標楽曲」という)を特定の発音スタイルで仮想的に歌唱したときに発音されるべき歌唱音である。音響処理システム100は、目標音の波形を表す音響信号Zを生成する。
発音スタイルは、目標音の音色または調子等、目標音の聴感的な印象に影響する性質である。例えば、歌唱時の癖または歌い回し等、発音の特徴的な傾向が発音スタイルとして例示される。歌唱時の癖は、例えば、歌詞を構成する各音素の始点が音符の始点に対して先行または遅延する傾向、または、各音素の終点が音符の終点に対して先行または遅延する傾向である。
音響処理システム100は、制御装置11と記憶装置12と表示装置13と操作装置14と放音装置15とを具備する。音響処理システム100は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。なお、音響処理システム100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
制御装置11は、音響処理システム100の各要素を制御する単数または複数のプロセッサである。具体的には、制御装置11は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として利用される。なお、例えば、音響処理システム100に対して着脱される可搬型の記録媒体、または、制御装置11が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。
第1実施形態の記憶装置12は、相異なる発音スタイルに対応する複数のスタイルデータQを記憶する。各発音スタイルのスタイルデータQは、当該発音スタイルで発音される歌唱音の音響的な特徴を表すデータである。第1実施形態のスタイルデータQは、多次元の仮想空間における埋込ベクトル(embedding vector)である。仮想空間は、歌唱音の音響的な特徴に応じて空間内における各発音スタイルの位置が決定される連続空間である。発音スタイル間で歌唱音の音響的な特徴が類似するほど、仮想空間内において各発音スタイルを表すベクトルの距離は小さい数値になる。以上の説明から理解される通り、仮想空間は、歌唱音の特徴に関する発音スタイル間の関係を表す空間と表現される。スタイルデータQは、発音スタイルを識別するための符号列とも表現される。
また、記憶装置12は、目標楽曲の制御データCを記憶する。制御データCは、目標音の合成条件を指定する。より詳細には、制御データCは、目標楽曲の複数の音符の各々について音高C1と発音期間C2と発音文字C3とを指定する楽曲データである。音高C1は、複数の音階音の何れかに割当てられた番号である。発音期間C2は、例えば音符の始点の時刻と継続長とにより指定される。なお、発音期間C2は、例えば音符の始点の時刻と終点の時刻とにより指定されてもよい。発音文字C3は、目標楽曲の歌詞を表す書記素である。目標楽曲の1個の音符には、1個の音節を構成する1個以上の発音文字C3が設定される。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した音楽ファイルが、制御データCとして利用される。制御データCは、例えば配信装置(図示略)から通信網を介して音響処理システム100に提供される。
表示装置13は、制御装置11による制御のもとで画像を表示する。表示装置13は、例えば、液晶表示パネルまたは有機EL(Electroluminescence)パネル等の表示パネルである。操作装置14は、利用者からの指示を受付ける入力機器である。操作装置14は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、音響処理システム100とは別体の表示装置13または操作装置14が、音響処理システム100に有線または無線により接続されてもよい。
放音装置15は、制御装置11による制御のもとで音響を再生する。具体的には、放音装置15は、音響信号Zが表す目標音を再生する。例えばスピーカまたはヘッドホンが放音装置15として利用される。なお、音響信号Zをデジタルからアナログに変換するD/A変換器、および、音響信号Zを増幅する増幅器については、図示が便宜的に省略されている。音響処理システム100とは別体の放音装置15が、音響処理システム100に有線または無線により接続されてもよい。
図2は、音響処理システム100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、目標音の音響信号Zを生成するための複数の機能(表示制御部20,編集制御部30、音響処理部40)を実現する。制御装置11が実行するプログラムは、音声合成用のソフトウェアであり、目標音を編集するためのエディタを含む。
表示制御部20は、表示装置13に画像を表示する。第1実施形態の表示制御部20は、目標楽曲の編集のための画像(以下「編集画面」という)Eを表示装置13に表示する。図3は、編集画面Eの模式図である。編集画面Eは、編集領域E1と操作領域E2とを含む。
編集領域E1は、目標楽曲が表示される領域である。編集領域E1には、時間軸(横軸)と音高軸(縦軸)とで規定される座標平面が設定される。編集領域E1には、音符画像Gaとピッチ遷移Gbとが表示される。ピッチ遷移Gbは、目標音におけるピッチの時系列である。
制御データCが指定する音符毎に音符画像Gaが表示される。時間軸の方向における音符画像Gaの位置および表示長は音符の発音期間C2に応じて設定され、音高軸の方向における音符画像Gaの位置は音符の音高C1に応じて設定される。各音符の音符画像Gaには、当該音符の発音文字C3と音素記号C4とが付加される。発音文字C3は、制御データCにより指定された文字である。音素記号C4は、発音文字C3に対応する1以上の音素の記号である。すなわち、第1実施形態の目標音は、時間軸上の複数の音素で構成される音声である。なお、音素は「音単位」の一例である。
利用者は、操作装置14を操作することで目標楽曲の編集を指示できる。例えば、編集領域E1に対する操作により、音符に関する各種の変更が利用者から指示される。例えば、音符の追加または削除、時間軸または音高軸の方向における移動、発音期間C2の伸長または短縮、各音符の発音文字C3の指定または変更等の編集が、利用者により指示される。
操作領域E2は、利用者からの指示を受付ける領域である。操作領域E2には、操作画像E21と操作画像E22と操作画像E23とが表示される。
操作画像E21は、利用者が発音スタイルを選択するための画像である。操作画像E21が操作されると、表示制御部20は、図4に例示される通り、複数の発音スタイル(Style #1,Style #2,…)のリストE24を表示装置13に表示する。利用者は、操作装置14を操作することで、複数の発音スタイルから所望の発音スタイル(以下「選択スタイル」という)を選択可能である。
図3の操作画像E23は、目標音の再生を指示するための画像である。操作画像E23が操作された場合、音響信号Zが放音装置15に供給されることで目標音が再生される。利用者は、操作画像E23の操作により再生される目標音を試聴しながら、編集画面Eに対する操作で目標音を編集することが可能である。
操作画像E22は、目標音における各音素の端点(始点または終点)の位置を利用者が編集するための画像である。操作画像E22が操作された場合、表示制御部20は、図5に例示される通り、端点画像Gcおよび信号波形Gdを、音符画像Gaおよびピッチ遷移Gbとともに表示装置13に表示する。すなわち、端点画像Gcおよび信号波形Gdの表示/非表示が、操作画像E22の操作毎に切替わる。信号波形Gdは、目標音の音響信号Zの波形である。
図6は、操作画像E22が操作された状態における編集領域E1の部分的な模式図である。端点画像Gcは、目標音を構成する各音素の端点(始点および終点)を表す画像である。時間軸上における各音素の端点の位置に端点画像Gcが配置される。時間軸上で相互に隣合う2個の端点画像Gcの間隔は、1個の音素が継続する期間(以下「音素期間C5」という)を意味する。利用者は、操作装置14を操作することで所望の端点画像Gcを時間軸の方向に移動可能である。すなわち、利用者は、各音素の端点(始点または終点)の移動を指示できる。各端点画像Gcの移動は、音素期間C5の時間長の変更を意味する。
操作画像E22が操作された状態では、音符画像Gaの下方に発音文字C3が表示され、音符画像Gaの上方に音素記号C4が表示される。また、利用者は、操作装置14を適宜に操作することで1個の音素期間C5を選択できる。例えばマウスポインタが位置する音素期間C5が選択状態に設定される。表示制御部20は、選択状態にある音素の音素記号C4と音素期間C5とを強調表示する。図6においては、音素記号/i/と当該音素記号C4に対応する音素期間C5とが強調表示されている。すなわち、選択状態にある音素の音素記号C4および音素期間C5と、非選択の状態にある音素の音素記号C4および音素期間C5とは、相異なる態様で表示される。例えば、選択状態の音素の音素記号C4は網掛で表示され、音素期間C5は表示色が変更される。したがって、利用者は、所望の音素について音素記号C4と音素期間C5との関係を視覚的および直観的に把握できる。
図2の編集制御部30は、利用者からの指示に応じて目標音を編集する。第1実施形態の編集制御部30は、発音スタイル選択部31と楽譜編集部32と特性編集部33とを具備する。
発音スタイル選択部31は、複数の発音スタイルの何れか(選択スタイル)を選択する指示を利用者から受付ける。発音スタイル選択部31は、複数のスタイルデータQのうち選択スタイルに対応するスタイルデータQを記憶装置12から取得する。
楽譜編集部32は、編集領域E1に対する利用者からの指示に応じて制御データCを更新する。すなわち、音符の変更(追加,削除,移動,伸縮等)の指示が、制御データCに反映される。特性編集部33は、端点画像Gcに対する利用者からの指示に応じて目標音の1以上の音素の端点(音素期間C5)を変更する。なお、特性編集部33による具体的な処理については後述する。
音響処理部40は、目標音の音響特性を時系列に指定する時系列データを生成する。具体的には、音響処理部40は、音素列データXとピッチデータYと音響信号Zとを時系列データとして生成する。音素列データXは、目標音を構成する各音素の端点(始点および終点)の位置を表す時系列データである。すなわち、音素列データXは、時間軸上における各音素の端点の位置(例えば時刻)を目標音の音響特性として指定する。他方、ピッチデータYは、目標音のピッチ遷移Gbを表す時系列データである。すなわち、ピッチデータYは、目標音のピッチを音響特性として指定する。音響信号Zは、目標音の波形を表す時系列データである。すなわち、音響信号Zは、目標音の振幅および音色を音響特性として指定する。
表示制御部20は、音響処理部40が生成する時系列データを表示装置13に表示する。例えば、表示制御部20は、音素列データXを利用して編集画面Eの各端点画像Gcを表示する。すなわち、表示制御部20は、音素列データXが音素毎に指定する各端点の位置に端点画像Gcを表示する。所望の音素の端点の位置を変更する指示が利用者から付与された場合、表示制御部20は、当該音素に対応する端点画像Gcの位置を指示に応じて変更する。また、表示制御部20は、ピッチデータYが表すピッチ遷移Gbを編集領域E1に表示する。表示制御部20は、音響信号Zが表す信号波形Gdを編集領域E1に表示する。
第1実施形態の音響処理部40は、第1生成部41と第2生成部42と第3生成部43とを含む。音響処理部40の各要素について以下に詳述する。
[第1生成部41]
第1生成部41は、音素列データXを生成する。具体的には、第1生成部41は、第1入力データD1を処理することで音素列データXを生成する。第1入力データD1は、目標楽曲の制御データCと選択スタイルのスタイルデータQとを含む。例えば、第1生成部41は、時間軸上の単位期間毎に第1入力データD1を処理することで、音素列データXのうち単位期間に対応する部分を生成する。第1入力データD1は、制御データCのうち単位期間に対応する部分と選択スタイルのスタイルデータQとを含む。第1生成部41は、音素列データXの各部分を複数の単位期間について連結することで音素列データXを生成する。
第1生成部41による音素列データXの生成には第1推定モデルM1が利用される。第1推定モデルM1は、第1入力データD1と音素列データXとの関係を機械学習により学習した統計モデルである。第1推定モデルM1は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、第1推定モデルM1として利用される。複数種の深層ニューラルネットワークの組合せにより第1推定モデルM1が構成されてもよい。また、長短期記憶(LSTM)またはAttention等の付加的な要素が第1推定モデルM1に搭載されてもよい。
第1推定モデルM1は、第1入力データD1から音素列データXを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(具体的には加重値およびバイアス)との組合せで実現される。第1推定モデルM1を規定する複数の変数は、機械学習により事前に設定されて記憶装置12に記憶される。
第1推定モデルM1の機械学習には複数の第1訓練データが使用される。各第1訓練データは、学習用の第1入力データD1と学習用の音素列データXとを含む。各第1訓練データの音素列データXは、第1入力データD1の制御データCが指定する合成条件と、第1入力データD1のスタイルデータQが指定する発音スタイルとのもとで歌唱されるべき、各音素の端点の位置を指定する正解データである。
第1推定モデルM1の機械学習においては、各第1訓練データの第1入力データD1に応じて暫定的な第1推定モデルM1が出力する音素列データXと、当該第1訓練データの音素列データXとの誤差が低減されるように、第1推定モデルM1の複数の変数が反復的に更新される。したがって、第1推定モデルM1は、複数の第1訓練データにおいて第1入力データD1と音素列データXとの間に潜在する関係のもとで、未知の第1入力データD1に対して統計的に妥当な音素列データXを出力する。具体的には、音素列データXは、制御データCが指定する目標楽曲を選択スタイルのもとで歌唱した場合における、各音素の端点の適切な位置を指定する。すなわち、音素列データXは選択スタイルに依存する。したがって、選択スタイルが変更された場合には、音素列データXが指定する各音素の端点の位置も変化する。
以上の通り、第1実施形態においては、目標音の合成条件を指定する制御データCと、発音スタイルを示すスタイルデータQとを含む第1入力データD1を第1推定モデルM1により処理することで音素列データXが生成される。したがって、機械学習に利用された複数の第1訓練データにおける第1入力データD1と音素列データXとの間に存在する関係のもとで、統計的に妥当な音素列データXを生成できる。
編集画面Eにおける端点画像Gcは、第1生成部41が生成した音素列データXを利用して音素毎に表示装置13に表示される。利用者は、操作装置14を操作することで、複数の端点画像Gcのうち所望の音素に対応する端点画像Gcを選択し、選択状態の端点画像Gcを時間軸上で移動することが可能である。端点画像Gcの移動の指示は、音素の端点を時間軸上で移動させる指示に相当する。すなわち、利用者は、所望の音素について端点の移動を指示することが可能である。
特性編集部33は、目標音の複数の音素のうち1以上の音素の端点を利用者からの指示に応じて変更する。すなわち、特性編集部33は、音素列データXのうちの利用者が選択した音素の端点の位置を、利用者からの指示に応じて変更する。具体的には、特性編集部33は、利用者からの指示に応じた変更後の各音素の端点の位置を表すように音素列データXを更新する。音素列データXが指定する複数の音素の端点のうち利用者が位置を変更した端点は、「第1部分」の一例である。
[第2生成部42]
第2生成部42は、ピッチデータYを生成する。具体的には、第2生成部42は、第2入力データD2を処理することでピッチデータYを生成する。第2入力データD2は、目標楽曲の制御データCと第1生成部41が生成した音素列データXとを含む。特性編集部33により音素列データXが変更された場合には、変更後の音素列データXが第2入力データD2に含まれる。したがって、各音素の端点の位置を変更する利用者からの指示が反映されたピッチデータYが生成される。
例えば、第2生成部42は、時間軸上の単位期間毎に第2入力データD2を処理することで、ピッチデータYのうち単位期間に対応する部分を生成する。第2入力データD2は、制御データCのうち単位期間に対応する部分と、音素列データXのうち単位期間に対応する部分とを含む。第2生成部42は、ピッチデータYの各部分を複数の単位期間について連結することでピッチデータYを生成する。
第2生成部42によるピッチデータYの生成には第2推定モデルM2が利用される。第2推定モデルM2は、第2入力データD2とピッチデータYとの関係を機械学習により学習した統計モデルである。第2推定モデルM2は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、第2推定モデルM2として利用される。複数種の深層ニューラルネットワークの組合せにより第2推定モデルM2が構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が第2推定モデルM2に搭載されてもよい。
第2推定モデルM2は、第2入力データD2からピッチデータYを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(具体的には加重値およびバイアス)との組合せで実現される。第2推定モデルM2を規定する複数の変数は、機械学習により事前に設定されて記憶装置12に記憶される。
第2推定モデルM2の機械学習には複数の第2訓練データが使用される。各第2訓練データは、学習用の第2入力データD2と学習用のピッチデータYとを含む。各第2訓練データのピッチデータYは、制御データCが指定する楽曲を音素列データXが指定する音素期間C5のもとで歌唱したときのピッチ遷移Gbを表す正解データである。
第2推定モデルM2の機械学習においては、各第2訓練データの第2入力データD2に応じて暫定的な第2推定モデルM2が出力するピッチデータYと、当該第2訓練データのピッチデータYとの誤差が低減されるように、第2推定モデルM2の複数の変数が反復的に更新される。したがって、第2推定モデルM2は、複数の第2訓練データにおいて第2入力データD2とピッチデータYとの間に潜在する関係のもとで、未知の第2入力データD2に対して統計的に妥当なピッチデータYを出力する。具体的には、ピッチデータYは、制御データCが指定する目標楽曲を音素列データXが指定する音素期間C5のもとで歌唱した場合における、ピッチの適切な遷移を表す。前述の通り音素列データXは選択スタイルに依存するから、ピッチデータYは、音素列データXを介して間接的に選択スタイルに依存する。したがって、選択スタイルが変更された場合には、ピッチデータYが指定するピッチ遷移Gbも変化する。
以上の通り、第1実施形態においては、制御データCと音素列データXとを含む第2入力データD2を第2推定モデルM2により処理することでピッチデータYが生成される。したがって、機械学習に利用された複数の第2訓練データにおける第2入力データD2とピッチデータYとの間に存在する関係のもとで、統計的に妥当なピッチデータYを生成できる。
[第3生成部43]
第3生成部43は、音響信号Zを生成する。具体的には、第3生成部43は、第3入力データD3を処理することで音響信号Zを生成する。第3入力データD3は、第1生成部41が生成した音素列データXと第2生成部42が生成したピッチデータYとを含む。前述の通り、ピッチデータYには、各音素の端点の位置を変更する利用者からの指示が反映される。したがって、音響信号Zにも、各音素の端点の位置を変更する利用者からの指示が反映される。
例えば、第3生成部43は、時間軸上の単位期間毎に第3入力データD3を処理することで、音響信号Zのうち単位期間に対応する部分を生成する。第3入力データD3は、音素列データXのうち単位期間に対応する部分と、ピッチデータYのうち単位期間に対応する部分とを含む。第3生成部43は、音響信号Zの各部分を複数の単位期間について連結することで音響信号Zを生成する。
第3生成部43による音響信号Zの生成には第3推定モデルM3が利用される。第3推定モデルM3は、第3入力データD3と音響信号Zとの関係を機械学習により学習した統計モデルである。第3推定モデルM3は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、第3推定モデルM3として利用される。複数種の深層ニューラルネットワークの組合せにより第3推定モデルM3が構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が第3推定モデルM3に搭載されてもよい。
第3推定モデルM3は、第3入力データD3から音響信号Zを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(具体的には加重値およびバイアス)との組合せで実現される。第3推定モデルM3を規定する複数の変数は、機械学習により事前に設定されて記憶装置12に記憶される。
第3推定モデルM3の機械学習には複数の第3訓練データが使用される。各第3訓練データは、学習用の第3入力データD3と学習用の音響信号Zとを含む。各第3訓練データの音響信号Zは、制御データCが指定する楽曲を音素列データXが指定する音素期間C5のもとで歌唱したときの音声の波形を表す正解データである。
第3推定モデルM3の機械学習においては、各第3訓練データの第3入力データD3に応じて暫定的な第3推定モデルM3が出力する音響信号Zと、当該第3訓練データの音響信号Zとの誤差が低減されるように、第3推定モデルM3の複数の変数が反復的に更新される。したがって、第3推定モデルM3は、複数の第3訓練データにおいて第3入力データD3と音響信号Zとの間に潜在する関係のもとで、未知の第3入力データD3に対して統計的に妥当な音響信号Zを出力する。具体的には、音響信号Zは、制御データCが指定する目標楽曲を音素列データXが指定する音素期間C5のもとで歌唱した場合における音声の波形を表す。前述の通り音素列データXは選択スタイルに依存するから、音響信号Zは、音素列データXを介して間接的に選択スタイルに依存する。したがって、選択スタイルが変更された場合には、音響信号Zが指定する波形も変化する。
以上の通り、第1実施形態においては、音素列データXとピッチデータYとを含む第3入力データD3を第3推定モデルM3により処理することで音響信号Zが生成される。したがって、機械学習に利用された複数の第3訓練データにおける第3入力データD3と音響信号Zとの間に存在する関係のもとで、統計的に妥当な音響信号Zを生成できる。
図7は、音響処理システム100の制御装置11が実行する処理(以下「音声合成処理」という)のフローチャートである。操作装置14に対する利用者からの指示を契機として音声合成処理が開始される。
音声合成処理が開始されると、制御装置11(楽譜編集部32)は、音符に関する編集の指示を利用者から受付けたか否かを判定する(S1)。例えば、音符の追加または削除、時間軸または音高軸の方向における移動、発音期間C2の伸長または短縮、各音符の発音文字C3の指定または変更等の各種の編集が指示される。音符の編集の指示を利用者から受付けた場合(S1:YES)、制御装置11(楽譜編集部32)は、利用者からの指示に応じて制御データCを更新する(S2)。
制御装置11(音響処理部40)は、更新後の制御データCを適用した合成処理により音響信号Zを生成する(S3)。合成処理は、第1生成部41による音素列データXの生成と、第2生成部42によるピッチデータYの生成と、第3生成部43による音響信号Zの生成とを含む。制御装置11(表示制御部20)は、合成処理の結果を表示装置13に表示する(S4)。具体的には、制御装置11は、制御データCに対応する複数の音符画像GaとピッチデータYに対応するピッチ遷移Gbとを編集領域E1に表示する。また、操作画像E22が操作された場合、制御装置11は、音素列データXに対応する複数の端点画像Gcと音響信号Zに対応する信号波形Gdとを編集領域E1に表示する。以上の処理を実行すると、制御装置11は処理をステップS11に移行する。
音符に関する編集の指示を受付けていない場合(S1:NO)、制御装置11(特性編集部33)は、音素の端点を変更する指示を利用者から受付けたか否かを判定する(S5)。具体的には、制御装置11は、端点画像Gcを移動する指示を受付けたか否かを判定する。音素の端点を変更する指示を利用者から受付けた場合(S5:YES)、制御装置11(特性編集部33)は、利用者からの指示が適正であるか否かを判定する(S6)。例えば、制御装置11は、利用者からの指示に応じた移動後の端点の位置が、移動前の端点を含む所定の範囲内にある場合には指示を適正と判定し、当該範囲外にある場合には指示を不適正と判定する。また、音素の端点を前方に移動する指示が、移動前の端点の直前の端点よりも前方に移動する指示である場合、制御装置11は、利用者からの指示を不適正と判定する。同様に、端点を後方に移動する指示が、移動前の端点の直後の端点よりも後方に移動する指示である場合、制御装置11は、利用者からの指示を不適正と判定する。すなわち、各音素の端点を過度に移動させる指示は不適正と判定される。
利用者からの指示が適正である場合(S6:YES)、制御装置11(特性編集部33)は、利用者からの指示に応じて音素列データXを更新する(S7)。制御装置11(音響処理部40)は、更新後の音素列データXを適用した合成処理により音響信号Zを生成し(S3)、合成処理の結果を表示装置13に表示する(S4)。すなわち、音素の端点の変更が反映された目標音の音響信号Zが生成される。他方、利用者からの指示が適正でない場合(S6:NO)、制御装置11(特性編集部33)は、音素列データXの編集部分P1を変更することなく処理をステップS8に移行する。すなわち、不適正な利用者からの指示は無効化され、音響信号Zの生成には反映されない。したがって、不適正な音素列データXが生成される可能性を低減できる。なお、利用者からの指示が適正でない場合(S6:NO)、制御装置11(表示制御部20)は、利用者からの指示が不適正であり無効化される旨の警告を、表示装置13に表示してもよい。
音素の端点を変更する指示を受付けていない場合(S5:NO)、または利用者からの指示が不適正である場合(S6:NO)、制御装置11(発音スタイル選択部31)は、発音スタイルを変更する指示を利用者から受付けたか否かを判定する(S8)。発音スタイルの変更の指示を受付けた場合(S8:YES)、制御装置11(音響処理部40)は、変更後の発音スタイルに対応するスタイルデータQを適用した合成処理により音響信号Zを生成し(S3)、合成処理の結果を表示装置13に表示する(S4)。したがって、変更後の発音スタイルに対応する目標音の音響信号Zが生成される。
発音スタイルの変更の指示を受付けていない場合(S8:NO)、制御装置11は、目標音の再生指示を利用者から受付けたか否かを判定する(S9)。再生指示を受付けた場合(S9:YES)、現時点で最新の音響信号Zを放音装置15に供給することで目標音を再生する(S10)。目標音の再生を実行した場合、または、利用者から再生指示を受付けていない場合(S9:NO)、制御装置11は処理をステップS11に移行する。
ステップS11において、制御装置11は、音声合成処理の終了の指示を利用者から受付けたか否かを判定する。終了指示を受付けていない場合(S11:NO)、制御装置11は処理をステップS1に移行する。すなわち、利用者からの指示に応じた音響信号Zの生成および再生が反復される。他方、終了指示を受付けた場合(S11:YES)、制御装置11は音声合成処理を終了する。
図8は、音素列データXの更新に関する説明図である。図8には、特定の発音スタイル(以下「第1発音スタイル」という)に対応する音素列データX(以下「第1音素列データX1」という)が例示されている。すなわち、第1生成部41は、制御データCと第1発音スタイルを示すスタイルデータQ1とを含む第1入力データD1を第1推定モデルM1により処理することで、第1音素列データX1を生成する。第1音素列データX1が表す1個以上の音素の端点(以下「編集部分」という)P1について利用者から移動が指示されると、制御装置11(特性編集部33)は、編集部分P1の位置が移動後の位置となるように第1音素列データX1を更新する(S7)。
以上の状態において、第1発音スタイルから第2発音スタイルへの変更が利用者から指示された場合を想定する(S8:YES)。第2発音スタイルは、第1発音スタイルとは異なる発音スタイルである。第1発音スタイルおよび第2発音スタイルの各々は、相異なる複数の発音スタイルのうち利用者からの指示に応じて選択された発音スタイルである。変更後の第2発音スタイルのスタイルデータQ2を適用した合成処理(S3)により、第1生成部41は、第2発音スタイルに対応する音素列データX(以下「第2音素列データX2」という)を生成する。
図8に例示される通り、第2発音スタイルが指定された場合、第1生成部41は、目標音の複数の音素の各々について端点の位置を表す第2音素列データX2を生成する。第2音素列データX2が表す複数の端点は、編集部分P1と初期部分P2とに区分される。すなわち、第1生成部41は、編集部分P1と初期部分P2とについて位置を指定する第2音素列データX2を生成する。初期部分P2は、複数の端点のうち編集部分P1以外の端点である。
第2音素列データX2は、各編集部分P1について、第1音素列データX1に対する利用者からの指示に応じた移動後の位置を指定する。すなわち、第1音素列データX1に対する編集(すなわち音素の端点の移動)が第2音素列データX2にも適用される。具体的には、第2音素列データX2の各編集部分P1については第1音素列データX1の編集部分P1が流用され、第2発音スタイルは反映されない。他方、第2音素列データX2は、各初期部分P2について、第2発音スタイルに対応する位置を指定する。なお、編集部分P1は「第1部分」の一例であり、初期部分P2は「第2部分」の一例である。
図9は、第1生成部41が第2音素列データX2を生成する処理のフローチャートである。発音スタイルが変更された場合(S8:YES)の合成処理(S3)において図9の処理が実行される。
まず、制御装置11(第1生成部41)は、目標楽曲の制御データCと第2発音スタイルのスタイルデータQ2とを含む第1入力データD1を第1推定モデルM1により処理することで、目標楽曲の全体にわたる初期的な音素列データX0を生成する(Sa1)。すなわち、音素列データX0が指定する各音素の端点の位置には第2発音スタイルが反映される。他方、第1音素列データX1に対する利用者からの指示に応じた端点の移動は、音素列データX0には反映されていない。
制御装置11(第1生成部41)は、変更前の第1発音スタイルの第1音素列データX1が編集されているか否かを判定する(Sa2)。第1音素列データX1が編集されていない場合(Sa2:NO)、制御装置11(第1生成部41)は、音素列データX0を第2音素列データX2として記憶装置12に記憶する(Sa3)。
他方、第1音素列データX1が編集されている場合(Sa2:YES)、制御装置11(第1生成部41)は、音素列データX0が表す複数の音素のうち各編集部分P1の位置を、第1音素列データX1の各編集部分P1の移動後の位置に変更することで、第2音素列データX2を生成する(Sa4)。他方、音素列データX0が表す複数の音素のうち各初期部分P2の位置は、第2音素列データX2においても維持される。すなわち、第1生成部41は、第2発音スタイルを示すスタイルデータQ2を含む第1入力データD1を第1推定モデルM1により処理することで、第2音素列データX2の初期部分P2を生成する。以上の説明から理解される通り、第1生成部41は、第2発音スタイルが指定された場合に、各編集部分P1について利用者からの指示に応じた変更後の位置を表し、かつ、各初期部分P2について第2発音スタイルに対応する位置を表す第2音素列データX2を生成する。
以上の通り、第1実施形態においては、第1推定モデルM1により生成された音素列データX0が表す複数の音素のうちの一部の位置を、編集部分P1の変更後の位置に変更することで、第2音素列データX2が生成される。すなわち、第1推定モデルM1により音素列データXを生成する処理自体は、各音素の端点の移動の有無(すなわちステップSa2の判定の結果)に関わらず共通する。したがって、音素列データXの生成のための処理を簡素化できる。
図10は、第1音素列データX1および第2音素列データX2の具体例である。第1音素列データX1および第2音素列データX2の各々に対応する編集領域E1が、図10に併記されている。図10における符号αは、第1音素列データX1に対する利用者からの指示に応じて移動された各音素の端点(端点画像Gc)である。
図10から理解される通り、利用者からの指示に応じて移動された各音素の端点(編集部分P1)の位置は、第1音素列データX1と第2音素列データX2との間で共通する。すなわち、図10において符号αが付加された端点が編集部分P1である。
他方、第1音素列データX1が表す複数の音素のうち編集部分P1以外の各音素の端点は第1発音スタイルに応じた位置にあり、第2音素列データX2が表す複数の音素のうちの各初期部分P2は、第2発音スタイルに応じた位置にある。すなわち、編集部分P1以外の各音素の端点(初期部分P2)は、第1音素列データX1と第2音素列データX2との間で相互に独立に設定される。具体的には、初期部分P2に相当する複数の音素のなかには、第1音素列データX1と第2音素列データX2との間で位置が相違する音素のほか、第1音素列データX1と第2音素列データX2との間で位置が共通する音素もある。
以上に説明した通り、第1実施形態においては、第1発音スタイルに対応する第1音素列データX1と、第2発音スタイルに対応する第2音素列データX2とが生成される。したがって、発音スタイルが相違する多様な目標音を合成できる。また、各編集部分P1については、第1音素列データX1に対する利用者からの指示に応じた変更後の位置が、第2音素列データX2においても維持される。したがって、第1発音スタイルから第2発音スタイルへの変更にあたり、利用者は、編集部分P1の位置の変更を改めて指示する必要がない。具体的には、利用者からの指示に応じて変更された端点の位置は、発音スタイルの変更の前後にわたり維持される。したがって、発音スタイルの変更毎に利用者が特定の音素の端点を同様に変更する必要はない。
以上の通り、第1実施形態によれば、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成できる。例えば、利用者からの指示による各音素の位置の変更を維持しながら、相異なる複数の発音スタイルに対応する目標音を再生できる。したがって、利用者は、各音素の位置を自身の意向に応じて調整した状態で、目標音を複数の発音スタイルの間で比較しながら聴取できる。すなわち、複数の発音スタイルの目標音を比較する場合の利用者の負荷を軽減できる。
第1実施形態においては特に、各音素の端点の位置が音響特性として音素列データXにより表されるから、各音素の端点の位置が発音スタイルに応じて変化する多様な目標音を生成できる。例えば、各音素の始点または終点が早目および遅目の何れであるかが、発音スタイルに応じて多様に変化する。
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用したのと同様の符号を流用して各々の詳細な説明を適宜に省略する。
図11は、第2実施形態における編集画面Eの模式図である。第2実施形態においては、編集領域E1に表示される複数の端点画像Gcが、端点画像Gc1と端点画像Gc2とに区別される。端点画像Gc1は、複数の端点画像Gcのうち編集部分P1に対応する端点画像Gcである。すなわち、端点画像Gc1は、目標音を構成する複数の音素のうち、利用者からの指示に応じて移動された音素に対応する。他方、端点画像Gc2は、複数の端点画像Gcのうち初期部分P2に対応する端点画像Gcである。すなわち、端点画像Gc2は、目標音を構成する複数の音素のうち初期的な位置から移動していない音素に対応する。
第2実施形態の表示制御部20は、端点画像Gc1と端点画像Gc2とを相異なる表示態様で表示する。具体的には、端点画像Gc1と端点画像Gc2とは、相異なる表示色で表示される。すなわち、表示制御部20は、初期的な位置から移動していない状態の端点画像Gc(Gc2)を第1態様で表示し、端点画像Gcが移動された場合に、当該端点画像Gc(Gc1)の表示態様を第1態様から第2態様に変更する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、移動済の端点画像Gc1と未移動の端点画像Gc2とが相異なる表示態様で表示されるから、各音素の端点について移動済/未移動を利用者が視覚的および直観的に把握できるという利点がある。
なお、端点画像Gcの表示態様は、観察者が視覚的に弁別可能な画像の特性を意味する。例えば、画像の表示色、模様(図柄)、サイズまたは形状が、「表示態様」の概念には包含される。なお、「表示色」は、色相(色調),彩度または明度(階調)により規定される。
C:第3実施形態
第1実施形態においては、音素列データXの編集に着目したが、編集部分P1を維持しながら発音スタイルを変更する処理は、音素列データX以外の時系列データにも同様に適用される。第3実施形態は、時系列データの一例であるピッチデータYに、編集部分P1を維持しながら発音スタイルを変更する処理を適用した形態である。
図12は、第3実施形態におけるピッチデータYの更新に関する説明図である。図12には、第1発音スタイルに対応する第1ピッチデータY1が例示されている。前述の通り、第2生成部42は、制御データCと音素列データXとを含む第2入力データD2を第2推定モデルM2により処理することで、第1ピッチデータY1を生成する。音素列データXは、第1発音スタイルのスタイルデータQ1を含む第1入力データD1から生成される。したがって、音素列データXには第1発音スタイルが反映され、結果的に第1ピッチデータY1にも第1発音スタイルが反映される。
利用者は、操作装置14を操作することで、第1ピッチデータY1が表すピッチ遷移Gbの変更を指示できる。具体的には、利用者は、第1ピッチデータY1が表すピッチ遷移Gbのうち所望の部分を編集部分P1として選択し、編集部分P1におけるピッチの時系列の変更を指示する。特性編集部33は、編集部分P1が利用者からの指示に応じた変更後のピッチ遷移Gbを表すように第1ピッチデータY1を更新する。1個以上の編集部分P1についてピッチ遷移Gbが変更される。以上の通り、第3実施形態の編集部分P1は、第1ピッチデータY1が表すピッチ遷移Gbのうち利用者が変更を指示した部分である。
図12に例示される通り、第1発音スタイルから第2発音スタイルへの変更が指示された場合、第2生成部42は、第2発音スタイルに対応する第2ピッチデータY2を生成する。第2ピッチデータY2が表すピッチ遷移Gbは、時間軸上において編集部分P1と初期部分P2とに区分される。
第2ピッチデータY2は、各編集部分P1について、第1ピッチデータY1に対する利用者からの指示に応じた変更後のピッチ遷移Gbを表す。すなわち、第1ピッチデータY1に対する編集(すなわちピッチ遷移Gbの変更)が第2ピッチデータY2にも適用される。具体的には、第2ピッチデータY2の各編集部分P1については第1ピッチデータY1の編集部分P1が流用され、第2発音スタイルは反映されない。他方、第2ピッチデータY2は、各初期部分P2について、第2発音スタイルに対応するピッチ遷移Gbを表す。
図13は、第2生成部42が第2ピッチデータY2を生成する処理のフローチャートである。発音スタイルが変更された場合(S8:YES)の合成処理(S3)において図13の処理が実行される。
まず、制御装置11(第2生成部42)は、目標楽曲の制御データCと第1生成部41が生成した音素列データXとを含む第2入力データD2を第2推定モデルM2により処理することで、目標楽曲の全体にわたる初期的なピッチデータY0を生成する(Sb1)。音素列データXは、第2発音スタイルのスタイルデータQ2を含む第1入力データD1から生成される。したがって、音素列データXには第2発音スタイルが反映され、結果的にピッチデータY0にも第2発音スタイルが反映される。第1ピッチデータY1に対する利用者からの指示に応じたピッチ遷移Gbの変更は、ピッチデータY0には反映されていない。
制御装置11(第2生成部42)は、変更前の第1発音スタイルの第1ピッチデータY1が編集されているか否かを判定する(Sb2)。第1ピッチデータY1が編集されていない場合(Sb2:NO)、制御装置11(第2生成部42)は、ピッチデータY0を第2ピッチデータY2として記憶装置12に記憶する(Sb3)。
他方、第1ピッチデータY1が編集されている場合(Sb2:YES)、制御装置11(第2生成部42)は、ピッチデータY0の編集部分P1におけるピッチ遷移Gbを、第1ピッチデータY1の編集部分P1におけるピッチ遷移Gbに変更することで、第2ピッチデータY2を生成する(Sb4)。他方、ピッチデータY0のうち各初期部分P2におけるピッチ遷移Gbは、第2ピッチデータY2においても維持される。以上の説明から理解される通り、第2生成部42は、第2発音スタイルが指定された場合に、各編集部分P1について利用者からの指示に応じた変更後のピッチ遷移Gbを表し、かつ、各初期部分P2について第2発音スタイルに対応するピッチ遷移Gbを表す第2ピッチデータY2を生成する。
以上の通り、第1実施形態においては、第2推定モデルM2により生成されたピッチデータY0の一部におけるピッチ遷移Gbを、編集部分P1の変更後のピッチ遷移Gbに変更することで、第2ピッチデータY2が生成される。すなわち、第2推定モデルM2によりピッチデータYを生成する処理自体は、各ピッチ遷移Gbの変更の有無に関わらず共通する。したがって、ピッチデータYの生成のための処理を簡素化できる。
第3実施形態においても第1実施形態と同様の効果が実現される。第3実施形態においては特に、ピッチ遷移Gbが音響特性としてピッチデータYにより表されるから、ピッチ遷移Gbが発音スタイルに応じて変化する多様な目標音を生成できる。
なお、音素列データXについて第1実施形態に例示した構成および動作は、第3実施形態のピッチデータYにも同様に適用される。例えば、制御装置11(第2生成部42)は、第1ピッチデータY1に対する利用者からの指示が適正であるか否かを判定し(S6)、指示が不適正である場合には第1ピッチデータY1の編集部分P1を変更しない。
D:第4実施形態
第1実施形態においては、音素列データXの編集に着目し、第3実施形態においてはピッチデータYの編集に着目した。第4実施形態は、時系列データの一例である音響信号Zに、編集部分P1を維持しながら発音スタイルを変更する処理を適用した形態である。
図14は、第4実施形態における音響信号Zの更新に関する説明図である。図14には、第1発音スタイルに対応する第1音響信号Z1が例示されている。前述の通り、第3生成部43は、音素列データXとピッチデータYとを含む第3入力データD3を第3推定モデルM3により処理することで、第1音響信号Z1を生成する。したがって、第1発音スタイルに対応する音素列データXおよびピッチデータYからは、第1発音スタイルが反映された第1音響信号Z1が生成される。
利用者は、操作装置14を操作することで、第1音響信号Z1の変更を指示できる。具体的には、利用者は、第1音響信号Z1が表す信号波形Gdのうち所望の部分を編集部分P1として選択し、編集部分P1における波形(振幅および音色)の変更を指示する。特性編集部33は、編集部分P1が利用者からの指示に応じた変更後の信号波形Gdを表すように第1音響信号Z1を更新する。1個以上の編集部分P1について信号波形Gdが変更される。以上の通り、第4実施形態の編集部分P1は、第1音響信号Z1が表す信号波形Gdのうち利用者が変更を指示した部分である。
図14に例示される通り、第1発音スタイルから第2発音スタイルへの変更が指示された場合、第3生成部43は、第2発音スタイルに対応する第2音響信号Z2を生成する。第2音響信号Z2が表す信号波形Gdは、時間軸上において編集部分P1と初期部分P2とに区分される。
第2音響信号Z2は、各編集部分P1について、第1音響信号Z1に対する利用者からの指示に応じた変更後の信号波形Gdを表す。すなわち、第1音響信号Z1に対する編集(すなわち信号波形Gdの変更)が第2音響信号Z2にも適用される。具体的には、第2音響信号Z2の各編集部分P1については第1音響信号Z1の編集部分P1が流用され、第2発音スタイルは反映されない。他方、第2音響信号Z2は、各初期部分P2について、第2発音スタイルに対応する信号波形Gdを表す。
図15は、第3生成部43が第2音響信号Z2を生成する処理のフローチャートである。発音スタイルが変更された場合(S8:YES)の合成処理(S3)において図15の処理が実行される。
まず、制御装置11(第3生成部43)は、第3入力データD3を第3推定モデルM3により処理することで、目標楽曲の全体にわたる初期的な音響信号Z0を生成する(Sc1)。第3入力データD3には、第2発音スタイルの音素列データXおよびピッチデータYが含まれる。したがって、音響信号Z0には第2発音スタイルが反映される。第1音響信号Z1に対する利用者からの指示に応じた信号波形Gdの変更は、音響信号Z0には反映されていない。
制御装置11(第3生成部43)は、変更前の第1発音スタイルの第1音響信号Z1が編集されているか否かを判定する(Sc2)。第1音響信号Z1が編集されていない場合(Sc2:NO)、制御装置11(第3生成部43)は、音響信号Z0を第2音響信号Z2として記憶装置12に記憶する(Sc3)。
他方、第1音響信号Z1が編集されている場合(Sc2:YES)、制御装置11(第3生成部43)は、音響信号Z0の編集部分P1における信号波形Gdを、第1音響信号Z1の編集部分P1における信号波形Gdに変更することで、第2音響信号Z2を生成する(Sc4)。他方、音響信号Z0のうち各初期部分P2における信号波形Gdは、第2音響信号Z2においても維持される。以上の説明から理解される通り、第3生成部43は、第2発音スタイルが指定された場合に、各編集部分P1について利用者からの指示に応じた変更後の信号波形Gdを表し、かつ、各初期部分P2について第2発音スタイルに対応する信号波形Gdを表す第2音響信号Z2を生成する。
以上の通り、第1実施形態においては、第3推定モデルM3により生成された音響信号Z0の一部における信号波形Gdを、編集部分P1の変更後の信号波形Gdに変更することで、第2音響信号Z2が生成される。すなわち、第3推定モデルM3により音響信号Zを生成する処理自体は、各信号波形Gdの変更の有無に関わらず共通する。したがって、音響信号Zの生成のための処理を簡素化できる。
第4実施形態においても第1実施形態と同様の効果が実現される。第4実施形態においては特に、信号波形Gdが音響特性として音響信号Zにより表されるから、信号波形Gdが発音スタイルに応じて変化する多様な目標音を生成できる。
なお、音素列データXについて第1実施形態に例示した構成および動作は、第4実施形態の音響信号Zにも同様に適用される。例えば、制御装置11(第3生成部43)は、第1音響信号Z1に対する利用者からの指示が適正であるか否かを判定し(S6)、指示が不適正である場合には第1音響信号Z1の編集部分P1を変更しない。
第1実施形態から第4実施形態における例示から理解される通り、音響処理部40(第1生成部41,第2生成部42,第3生成部43)は、第2発音スタイルが指定された場合に、編集部分P1について利用者からの指示に応じた変更後の音響特性を表し、かつ、編集部分P1以外の初期部分P2について第2発音スタイルに対応する音響特性を表す第2時系列データ(第2音素列データX2,第2ピッチデータY2,第2音響信号Z2)を生成する要素として包括的に表現される。音素列データXが表す音響特性は各音素の端点の位置であり、ピッチデータYが表す音響特性は目標音のピッチであり、音響信号Zが表す音響特性は目標音の振幅および音色である。
E:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、時系列データの生成に推定モデル(第1推定モデルM1,第2推定モデルM2,第3推定モデルM3)を利用したが、制御データCから音響信号Zを生成する方法は以上の例示に限定されない。例えば、複数の音声素片の接続により音響信号Zを生成する素片接続型の音声合成にも本開示は適用される。
例えば、相異なる発音スタイルに対応する複数の音声ライブラリが記憶装置12に記憶される。各音声ライブラリは、音素単体および音素連鎖を含む複数の音声素片が登録されたデータベースである。複数の音声ライブラリのうち利用者が選択した発音スタイルに対応する音声ライブラリを利用して目標音の音響信号Zが生成される。
音響処理部40(第1生成部41)は、制御データCが時系列に指定する発音文字C3に対応する音声素片を音声ライブラリから選択する。目標音を構成する各音素の端点の位置は、音声ライブラリに登録された音声素片の継続長等に応じて確定する。各音素の端点の位置を表す音素列データXが生成される。また、音響処理部40(第2生成部42)は、公知の任意の方法により制御データCに応じたピッチデータYを生成する。音響処理部40(第3生成部43)は、各音声素片のピッチをピッチデータYに応じて調整し、調整後の各音声素片を相互に連結することで音響信号Zを生成する。以上に説明した素片接続型の音声合成においても、各時系列データ(音素列データX,ピッチデータY,音響信号Z)に対して前述の各形態と同様の処理が適用される。以上の通り、推定モデルの利用は省略されてよい。
(2)前述の各形態においては、利用者からの指示に応じて発音スタイル選択部31が発音スタイルを選択する形態を例示したが、発音スタイルを選択する方法は、以上の例示に限定されない。例えば、発音スタイルの時間的な変化を指定するデータが記憶装置12に記憶され、発音スタイル選択部31は、発音スタイルを当該データに応じて順次に選択してもよい。なお、前述の各形態のように利用者からの指示に応じて発音スタイルが選択される形態によれば、利用者の意図に沿った発音スタイルの目標音を生成できる。
(3)前述の各形態においては、音素列データXが各音素の端点の位置を表す形態を例示したが、音素列データXにより端点が指定される音単位は、単体の音素に限定されない。例えば、複数の音素が相互に連結された音素連鎖、または1個以上の音素で構成される音節等が、音単位の他の例として想定される。
(4)前述の第1実施形態においては、第2音素列データX2の生成にあたり目標楽曲の全体にわたる音素列データX0を第1推定モデルM1により生成したが(Sa1)、音素列データX0の生成は省略されてもよい。例えば、第1生成部41は、目標楽曲のうち編集部分P1以外の部分の制御データCを利用して第2音素列データX2の初期部分P2を生成し、第1音素列データX1の編集部分P1を初期部分P2に付加することで第2音素列データX2を生成してもよい。
同様に、第2生成部42は、目標楽曲のうち編集部分P1以外の部分の制御データCを利用して第2ピッチデータY2の初期部分P2を生成し、第1ピッチデータY1の編集部分P1を初期部分P2に付加することで第2ピッチデータY2を生成してもよい。すなわち、目標楽曲の全体にわたるピッチデータY0の生成は省略されてよい。また、第3生成部43は、目標楽曲のうち編集部分P1以外の部分の音素列データXおよびピッチデータYを利用して第2音響信号Z2の初期部分P2を生成し、第1音響信号Z1の編集部分P1を初期部分P2に付加することで第2音響信号Z2を生成してもよい。すなわち、目標楽曲の全体にわたる音響信号Z0の生成は省略されてよい。
(5)前述の各形態において、所定の範囲外に端点を移動する利用者からの指示は無効化される(S6:NO)。表示制御部20は、無効化された利用者からの指示を表示装置13に表示してもよい。例えば、表示制御部20は、図16に例示される通り、無効化された指示による移動先の位置に指示画像Geを表示する。すなわち、指示画像Geは、利用者が音素の端点の移動先として指示した時点を表す画像である。
表示制御部20は、端点画像Gcと指示画像Geとを相異なる表示態様で表示する。例えば、端点画像Gcは矩形状の画像であり、指示画像Geは点線の画像である。以上の形態によれば、利用者は、端点を移動させる自身の指示が無効化されたことを視覚的および直観的に把握できる。
なお、指示画像Geを表示する構成は、第1実施形態から第4実施形態の何れにも適用される。端点画像Gc1と端点画像Gc2とが相異なる表示態様で表示される第2実施形態に指示画像Geの表示を追加した形態において、指示画像Geは、端点画像Gc1および端点画像Gc2の何れとも相違する表示態様で表示される。
(6)第4実施形態においては、第3推定モデルM3により生成された音響信号Z0を部分的に変更することで第2音響信号Z2を生成したが、第2音響信号Z2を生成する方法は以上の例示に限定されない。例えば、第3生成部43は、図15の処理の代わりに図17の処理を実行してもよい。発音スタイルが変更された場合(S8:YES)の合成処理(S3)において図17の処理が実行される。
制御装置11(第3生成部43)は、変更前の第1発音スタイルの第1音響信号Z1が編集されているか否かを判定する(Sd1)。第1音響信号Z1が編集されている場合(Sd1:YES)、制御装置11(第3生成部43)は、第1音響信号Z1に対する変更の内容を表す編集データRを生成する(Sd2)。
図18に例示される通り、編集データRは、時間軸上の相異なる単位期間に対応する複数の単位データUの時系列で構成される。各単位期間に対応する単位データUは、第1音響信号Z1の編集部分P1に指示された波形(振幅および音色)の変更の内容を表す。例えば、第1音響信号Z1の編集部分P1に対応する各単位期間の単位データUは、変更の内容を示す数値に設定される。他方、第1音響信号Z1のうち編集部分P1以外の部分に対応する単位期間の単位データUは、所定の初期値(例えばゼロ)に設定される。
他方、第1音響信号Z1が編集されていない場合(Sd1:NO)、制御装置(第3生成部43)は、図18に例示される通り、全部の単位データUが初期値に設定された編集データRを生成する(Sd3)。すなわち、第1音響信号Z1が編集されていなことを表す編集データRが生成される。
以上の手順で編集データRを生成すると、制御装置11(第3生成部43)は、第3入力データD3を第3推定モデルM3により処理することで第2音響信号Z2を生成する(Sd4)。第3入力データD3は、前述の各形態と同様の音素列データXおよびピッチデータYに加えて、編集データRを含む。第3推定モデルM3は、編集データRを含む第3入力データD3と音響信号Zとの関係を機械学習により学習した統計モデルである。したがって、第2音響信号Z2は、各編集部分P1について、第1音響信号Z1に対する利用者からの指示に応じた変更後の信号波形Gdを表す。すなわち、第1音響信号Z1に対する編集が第2音響信号Z2にも適用される。
以上の説明から理解される通り、第3生成部43は、第4実施形態と同様に、第2発音スタイルが指定された場合に、各編集部分P1について利用者からの指示に応じた変更後の信号波形Gdを表し、かつ、各初期部分P2について第2発音スタイルに対応する信号波形Gdを表す第2音響信号Z2を生成する。目標楽曲の全体にわたる音響信号Z0の生成は省略される。
なお、以上の説明においては、第2音響信号Z2の生成に編集データRを利用する形態を例示したが、第1実施形態における第2音素列データX2の生成(図9)、および、第3実施形態における第2ピッチデータY2の生成(図13)にも、編集データRが同様に適用される。
例えば、第1生成部41は、第1音素列データX1に対する変更の内容を表す編集データRを生成する。第2発音スタイルが指定された場合、第1生成部41は、第1入力データD1を第1推定モデルM1により処理することで第2音素列データX2を生成する。第1入力データD1は、制御データCおよびスタイルデータQに加えて編集データRを含む。したがって、第1生成部41は、各編集部分P1について利用者からの指示に応じた変更後の位置を表し、かつ、各初期部分P2について第2発音スタイルに対応する位置を表す第2音素列データX2を生成する。以上の説明から理解される通り、目標楽曲の全体にわたる音素列データX0の生成(Sa1)は省略されてよい。
また、第2生成部42は、第1ピッチデータY1に対する変更の内容を表す編集データRを生成する。第2発音スタイルが指定された場合、第2生成部42は、第2入力データD2を第2推定モデルM2により処理することで第2ピッチデータY2を生成する。第2入力データD2は、制御データCおよび音素列データXに加えて編集データRを含む。したがって、第2生成部42は、各編集部分P1について利用者からの指示に応じた変更後の位置を表し、かつ、各初期部分P2について第2発音スタイルに対応する位置を表す第2ピッチデータY2を生成する。以上の説明から理解される通り、目標楽曲の全体にわたるピッチデータY0の生成(Sb1)は省略されてよい。
(7)前述の各形態においては、目標楽曲の歌唱音を目標音として例示したが、目標音は歌唱音に限定されない。例えば、目標音の演奏により楽器が発音する楽器音が、目標音として生成されてもよい。楽器音を生成する形態においては、制御データCから発音文字C3が省略され、音響処理部40から第1生成部41が省略される。第2生成部42は、制御データCとスタイルデータQとを含む第2入力データD2を第2推定モデルM2に入力することでピッチデータYを生成する。なお、歌唱音および楽器音は、音楽的な要素を含む楽音として包括的に表現される。歌唱音に関する発音スタイルは歌唱スタイルとも表現され、楽器音に関する発音スタイルは演奏スタイルとも表現される。また、音楽的な要素を必要としない非楽音を目的音として生成する場合にも本開示は適用される。非楽音は、例えば会話音等の言語音を含む。
(8)例えばスマートフォンまたはタブレット端末等の情報装置との間で通信するサーバ装置により、音響処理システム100を実現してもよい。例えば、音響処理システム100は、情報装置から受信した制御データCおよびスタイルデータQを利用して音響信号Zを生成し、音響信号Zを情報装置に送信する。情報装置に対する操作の内容を表す操作データが情報装置から音響処理システム100に送信される。音響処理システム100の制御装置11(特性編集部33)は、操作データが表す利用者からの指示に応じて各時系列データ(音素列データX,ピッチデータY,音響信号Z)を編集する。
(9)以上に例示した音響処理システム100の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
F:付記
以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様(態様1)に係るプログラムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、前記時系列データを利用者からの指示に応じて変更する特性編集部、としてコンピュータシステムを機能させるプログラムであって、前記音響処理部は、前記目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データを生成し、前記特性編集部は、前記第1時系列データのうちの第1部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する。
以上の態様においては、第1発音スタイルに対応する第1時系列データと、第2発音スタイルに対応する第2時系列データとが生成される。したがって、発音スタイルが相違する多様な目標音を合成できる。また、第1部分については、第1時系列データにおける利用者からの指示に応じた変更後の音響特性が、第2時系列データにおいても維持される。したがって、第1発音スタイルから第2発音スタイルへの変更にあたり、利用者は、第1部分の変更を改めて指示する必要がない。すなわち、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成できる。
「目標音」は、合成の対象となる任意の音である。「目標音」は、音楽的な要素(例えばピッチまたはリズム)を含む楽音のほか、音楽的な要素を必要としない非楽音も含む。楽音は、例えば歌唱者が発音する歌唱音または楽器が発音する楽器音を含む。また、非楽音は、例えば会話音等の言語音を含む。
「(第1/第2)発音スタイル」は、目標音に関する音響的な性質である。例えば、目標音の音色または調子等、聴感的な印象に影響する各種の性質が、「発音スタイル」の典型例である。例えば歌唱に着目すると、前ノリ(ahead of the beat)または後ノリ(behind the beat)等の歌唱時の癖または歌い回し等の性質が「発音スタイル」として例示される。「発音スタイル」は、発音源の種類(例えば歌唱者)、音楽ジャンルまたは言語等、発音スタイルに影響する各種の事項により指定される。
「(第1/第2)時系列データ」は、目標音の音響特性の時系列を表す任意の形式のデータである。音響特性は、例えばピッチ、音量または音色である。また、歌唱音については、時間軸上における各音素の端点(始点または終点)の位置が音響特性として例示される。音響特性は、目標音の合成の条件(合成条件)を包含する。
「第1部分」は、利用者からの指示に応じて編集された時間軸上の時点または期間である。第1時系列データについて1以上の第1部分が設定される。時間軸上における第1部分の位置または時間長は、例えば利用者からの指示に応じて設定される。「第2部分」は、時間軸上における第1部分以外の部分である。すなわち、「第2部分」は、利用者からの指示が反映されていない部分とも表現される。
態様1の具体例(態様2)において、前記目標音は、時間軸上の複数の音単位で構成される音声であり、前記音響特性は、前記複数の音単位の各々の端点の位置を含み、前記第1部分は、前記第1時系列データが指定する複数の端点のうち前記利用者が位置を変更した端点である。以上の態様においては、各音単位の端点の位置が音響特性として時系列データにより表されるから、各音単位の端点の位置が発音スタイルに応じて変化する多様な目標音を生成できる。例えば、各音単位の発音の開始または終了が早目および遅目の何れであるかが、発音スタイルに応じて多様に変化する。また、利用者からの指示に応じて変更された端点については発音スタイルの変更の前後にわたり維持される。したがって、発音スタイルの変更毎に利用者が特定の音単位の端点を同様に変更する必要はない。
「音単位」は、音声の音韻的な単位である。例えば、母音または子音等の音素を基準とする分節単位が「音単位」の典型例である。すなわち、単体の音素が「音単位」とされてもよいし、複数の音素の連鎖(音素連鎖)が「音単位」とされてもよい。また、1個以上の音素で構成される音節も「音単位」の概念に包含される。
態様2の具体例(態様3)において、前記音響処理部は、前記目標音の合成条件を指定する制御データと、前記第1発音スタイルを示す第1スタイルデータとを含む第1入力データを、第1入力データと時系列データとの関係を機械学習により学習した第1推定モデルにより処理することで、前記第1時系列データを生成し、前記制御データと、前記第2発音スタイルを示す第2スタイルデータとを含む第1入力データを、前記第1推定モデルにより処理することで、前記第2時系列データの前記第2部分を生成する。以上の態様においては、目標音の合成条件を指定する制御データと、発音スタイルを示す(第1/第2)スタイルデータとを含む第1入力データを第1推定モデルにより処理することで、(第1/第2)時系列データが生成される。したがって、機械学習に利用された複数の訓練データにおける第1入力データと時系列データとの間に存在する関係のもとで、統計的に妥当な時系列データを生成できる。
態様3の具体例(態様4)において、前記音響処理部は、前記第1推定モデルにより生成された時系列データの一部における音響特性を、前記第1部分における変更後の音響特性に変更することで、前記第2時系列データを生成する。以上の態様においては、第1推定モデルにより生成された時系列データの第1部分を、利用者からの指示に応じた変更後の音響特性に変更することで、第2時系列データが生成される。すなわち、第1推定モデルにより時系列データを生成する処理自体は、音響特性の変更の有無に関わらず共通する。したがって、時系列データの生成のための処理を簡素化できる。
態様2から態様4の何れかの具体例(態様5)において、前記音響処理部は、前記制御データと前記第1時系列データまたは前記第2時系列データとを含む第2入力データを、第2入力データとピッチデータとの関係を機械学習により学習した第2推定モデルにより処理することで、前記目標音のピッチの時系列を表すピッチデータを生成し、前記第1時系列データまたは前記第2時系列データと、前記ピッチデータとを利用して、前記目標音を表す音響信号を生成する。以上の態様においては、目標音の合成条件を指定する制御データと、時系列データとを含む第2入力データを第2推定モデルにより処理することでピッチデータが生成される。したがって、機械学習に利用された複数の訓練データにおける第2入力データとピッチデータとの間に存在する関係のもとで、統計的に妥当なピッチデータを生成できる。
態様2から態様5の何れかの具体例(態様6)において、前記音響処理部は、前記第1時系列データまたは前記第2時系列データと前記ピッチデータとを含む第3入力データを、第3入力データと音響信号との関係を機械学習により学習した第3推定モデルにより処理することで、前記音響信号を生成する。以上の態様においては、時系列データとピッチデータとを含む第3入力データを第3推定モデルにより処理することで音響信号が生成される。したがって、機械学習に利用された複数の訓練データにおける第3入力データと音響信号との間に存在する関係のもとで、統計的に妥当な音響信号を生成できる。
態様1から態様6の何れかの具体例(態様7)において、前記音響特性は、前記目標音のピッチであり、前記第1部分は、前記第1時系列データが表すピッチの時系列のうち前記利用者が変更を指示した部分である。以上の態様においては、目標音のピッチが音響特性として時系列データにより表されるから、ピッチの時間的な遷移が発音スタイルに応じて変化する多様な目標音を生成できる。
態様1から態様7の何れかの具体例(態様8)において、前記音響特性は、前記目標音の振幅および音色であり、前記第1部分は、前記第1時系列データが表す振幅および音色の時系列のうち前記利用者が変更を指示した部分である。以上の態様においては、目標音の振幅および音色が音響特性として時系列データにより表されるから、振幅および音色の時間的な遷移が発音スタイルに応じて変化する多様な目標音を生成できる。
態様1から態様8の何れかの具体例(態様9)において、前記第1発音スタイルおよび前記第2発音スタイルの各々は、相異なる複数の発音スタイルのうち前記利用者からの指示に応じて選択された発音スタイルである。以上の形態によれば、利用者の意図に沿った発音スタイルの目標音を生成できる。
態様1から態様9の何れかの具体例(態様10)において、前記特性編集部は、前記利用者からの指示が適正であるか否かを判定し、前記指示が適正でない場合には、前記第1部分の変更を実行しない。以上の態様によれば、利用者からの不適正な指示が無効化されるから、不適正な時系列データが生成される可能性を低減できる。
本開示のひとつの態様(態様11)に係る音響処理方法は、合成されるべき目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データのうちの第1部分を、利用者からの指示に応じて変更し、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する。
本開示のひとつの態様(態様12)に係る音響処理システムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、前記音響処理部は、前記目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データを生成し、前記特性編集部は、前記第1時系列データのうちの第1部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する。
100…音響処理システム、11…制御装置、12…記憶装置、13…表示装置、14…操作装置、15…放音装置、20…表示制御部、30…編集制御部、31…発音スタイル選択部、32…楽譜編集部、33…特性編集部、40…音響処理部、41…第1生成部、42…第2生成部、43…第3生成部。

Claims (12)

  1. 合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、
    前記時系列データを利用者からの指示に応じて変更する特性編集部、
    としてコンピュータシステムを機能させるプログラムであって、
    前記音響処理部は、前記目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データを生成し、
    前記特性編集部は、前記第1時系列データのうちの第1部分を、前記利用者からの指示に応じて変更し、
    前記音響処理部は、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する
    プログラム。
  2. 前記目標音は、時間軸上の複数の音単位で構成される音声であり、
    前記音響特性は、前記複数の音単位の各々の端点の位置を含み、
    前記第1部分は、前記第1時系列データが指定する複数の端点のうち前記利用者が位置を変更した端点である
    請求項1のプログラム。
  3. 前記音響処理部は、
    前記目標音の合成条件を指定する制御データと、前記第1発音スタイルを示す第1スタイルデータとを含む第1入力データを、第1入力データと時系列データとの関係を機械学習により学習した第1推定モデルにより処理することで、前記第1時系列データを生成し、
    前記制御データと、前記第2発音スタイルを示す第2スタイルデータとを含む第1入力データを、前記第1推定モデルにより処理することで、前記第2時系列データの前記第2部分を生成する
    請求項2のプログラム。
  4. 前記音響処理部は、前記第1推定モデルにより生成された時系列データの一部における音響特性を、前記第1部分における変更後の音響特性に変更することで、前記第2時系列データを生成する
    請求項3のプログラム。
  5. 前記音響処理部は、
    前記制御データと前記第1時系列データまたは前記第2時系列データとを含む第2入力データを、第2入力データとピッチデータとの関係を機械学習により学習した第2推定モデルにより処理することで、前記目標音のピッチの時系列を表すピッチデータを生成し、
    前記第1時系列データまたは前記第2時系列データと、前記ピッチデータとを利用して、前記目標音を表す音響信号を生成する
    請求項4のプログラム。
  6. 前記音響処理部は、
    前記第1時系列データまたは前記第2時系列データと前記ピッチデータとを含む第3入力データを、第3入力データと音響信号との関係を機械学習により学習した第3推定モデルにより処理することで、前記音響信号を生成する
    請求項5のプログラム。
  7. 前記音響特性は、前記目標音のピッチであり、
    前記第1部分は、前記第1時系列データが表すピッチの時系列のうち前記利用者が変更を指示した部分である
    請求項1のプログラム。
  8. 前記音響特性は、前記目標音の振幅および音色であり、
    前記第1部分は、前記第1時系列データが表す振幅および音色の時系列のうち前記利用者が変更を指示した部分である
    請求項1のプログラム。
  9. 前記第1発音スタイルおよび前記第2発音スタイルの各々は、相異なる複数の発音スタイルのうち前記利用者からの指示に応じて選択された発音スタイルである
    請求項1のプログラム。
  10. 前記特性編集部は、前記利用者からの指示が適正であるか否かを判定し、前記指示が適正でない場合には、前記第1部分の変更を実行しない
    請求項1のプログラム。
  11. 合成されるべき目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データのうちの第1部分を、利用者からの指示に応じて変更し、
    前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する
    コンピュータシステムにより実現される音響処理方法。
  12. 合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、
    前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、
    前記音響処理部は、前記目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データを生成し、
    前記特性編集部は、前記第1時系列データのうちの第1部分を、前記利用者からの指示に応じて変更し、
    前記音響処理部は、前記目標音について前記第1発音スタイルとは異なる第2発音スタイルが指定された場合に、前記第1部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第1部分以外の第2部分について前記第2発音スタイルに対応する音響特性を表す第2時系列データを生成する
    音響処理システム。
JP2022163721A 2022-10-12 2022-10-12 プログラム、音響処理方法および音響処理システム Pending JP2024057180A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022163721A JP2024057180A (ja) 2022-10-12 2022-10-12 プログラム、音響処理方法および音響処理システム
US18/483,570 US20240135916A1 (en) 2022-10-12 2023-10-10 Non-transitory computer-readable recording medium, sound processing method, and sound processing system
CN202311318311.8A CN117877459A (zh) 2022-10-12 2023-10-12 记录介质、音响处理方法以及音响处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022163721A JP2024057180A (ja) 2022-10-12 2022-10-12 プログラム、音響処理方法および音響処理システム

Publications (1)

Publication Number Publication Date
JP2024057180A true JP2024057180A (ja) 2024-04-24

Family

ID=90590796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022163721A Pending JP2024057180A (ja) 2022-10-12 2022-10-12 プログラム、音響処理方法および音響処理システム

Country Status (3)

Country Link
US (1) US20240135916A1 (ja)
JP (1) JP2024057180A (ja)
CN (1) CN117877459A (ja)

Also Published As

Publication number Publication date
US20240135916A1 (en) 2024-04-25
CN117877459A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
JP2018537727A (ja) 言語および/またはグラフィカルアイコンベースの音楽体験記述子を採用する自動化音楽作曲および生成機械、システムおよびプロセス
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP6465136B2 (ja) 電子楽器、方法、及びプログラム
JP2004258563A (ja) スコアデータ表示編集装置およびプログラム
US10553188B2 (en) Musical attribution in a two-dimensional digital representation
JP2019066649A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP5625321B2 (ja) 音声合成装置およびプログラム
JP5423375B2 (ja) 音声合成装置
JP5223433B2 (ja) 音声データ処理装置およびプログラム
JP2019066648A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP5509536B2 (ja) 音声データ処理装置およびプログラム
JP6136202B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
JP2024057180A (ja) プログラム、音響処理方法および音響処理システム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP2013195699A (ja) 歌唱合成装置および歌唱合成プログラム
JP2001042879A (ja) カラオケ装置
JP6828530B2 (ja) 発音装置及び発音制御方法
JP5790860B2 (ja) 音声合成装置
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP6787491B2 (ja) 音発生装置及び方法