JP5082760B2 - 音制御装置およびプログラム - Google Patents

音制御装置およびプログラム Download PDF

Info

Publication number
JP5082760B2
JP5082760B2 JP2007275173A JP2007275173A JP5082760B2 JP 5082760 B2 JP5082760 B2 JP 5082760B2 JP 2007275173 A JP2007275173 A JP 2007275173A JP 2007275173 A JP2007275173 A JP 2007275173A JP 5082760 B2 JP5082760 B2 JP 5082760B2
Authority
JP
Japan
Prior art keywords
sound
phoneme
value
peak
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007275173A
Other languages
English (en)
Other versions
JP2009103893A (ja
Inventor
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007275173A priority Critical patent/JP5082760B2/ja
Publication of JP2009103893A publication Critical patent/JP2009103893A/ja
Application granted granted Critical
Publication of JP5082760B2 publication Critical patent/JP5082760B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声の入力に応じて音を制御する技術に関する。
入力音声の音韻に応じた音を発生する技術が従来から提案されている。例えば特許文献1には、入力音声に対する音声認識で同定された音韻に応じたリズム音を出力する技術が開示されている。すなわち、事前に登録された複数の音声パターンのうち入力音声に相関する音声パターンが音声認識で特定され、当該音声パターンに対応したリズム音が出力される。
特開平9−281968号公報
しかし、特許文献1の技術においては入力音声に対する音声認識が必須である。したがって、利用者が事前に登録した音声パターンを記憶するために大容量の記憶装置が必要になるとともに、演算処理装置による音声認識の処理の負荷が過大となるといった問題がある。以上の事情に鑑みて、本発明は、音声認識を要することなく入力音声の音韻に応じた音を生成することを目的とする。
入力音声における各帯域の成分のエネルギの分布(周波数スペクトル)は音韻に応じて相違するという関係を利用して、本発明に係る音制御装置は、入力音声の音韻に応じて変化する音韻指標値を入力音声の特定の帯域の成分の強度に基づいて算定する指標算定手段と、複数の音の何れかを音韻指標値に基づいて選択する音選択手段と、入力音声のピーク値を検出するピーク検出手段と、音韻指標値に応じて閾値を可変に設定する閾値設定手段と、ピーク値が閾値を上回るか否かを判定する発音判定手段と、ピーク値が閾値を上回ると発音判定手段が判定した場合に、音選択手段が選択した音の発生を示す音データを生成するデータ生成手段とを具備する。
以上の構成においては、入力音声の音韻の指標となる音韻指標値が入力音声のうち特定の成分の強度に基づいて算定されるから、入力音声の音声認識は原理的に不要である。したがって、音声パターンを記憶する大容量な記憶装置が不要となり、音韻を弁別するための処理の負荷が軽減されるという利点がある。また、音選択手段による選択音の発生の可否の判定のためにピーク値と比較される閾値が可変に設定されるから、入力音声のピーク値に応じた発音の頻度を音韻の種類に拘わらず均一化することが可能である。閾値設定手段は、例えば、ピーク値が低くなり易い音韻ほど閾値が低下するように音韻指標値に応じて閾値を可変に制御する。もっとも、音韻指標値が特定の音韻を示す場合に閾値を低下させれば、当該音韻に対応する音の発生の頻度(可能性)を他の音韻と比較して高める(発音の頻度を音韻の種類に応じて不均一化する)構成も実現される。なお、音データの形式は任意である。例えば、音の指定(ノートナンバ)を含むデータ(MIDIデータ)や音の時間波形を示すデータ(波形データ)が音データとして好適である。また、入力音声のうち音韻指標値の算定に使用される特定の帯域は、入力音声の音韻に応じた音韻指標値の相違が顕著となる(すなわち、周波数軸上のエネルギの分布のうち音韻に応じた特徴が顕著に現れる帯域を含む)ように選定される。
本発明の好適な態様において、指標算定手段は、特定の帯域の成分を入力音声から抽出するフィルタ処理手段と、フィルタ処理手段による処理後の成分の強度を検出する第1強度検出手段(例えば図1の強度検出部144)と、入力音声の強度を検出する第2強度検出手段(例えば図1の強度検出部146)と、第1強度検出手段が検出した強度と第2強度検出手段が検出した強度との相対比に基づいて音韻指標値を算定する演算手段とを含む。以上の態様によれば、入力音声から選択的に抽出された成分の強度と当該入力音声の強度との相対比に基づいて音韻指標値が算定されるから、入力音声の強度の相違に拘わらず、音韻に応じて適切に変化する音韻指標値を算定することが可能である。強度の相対比に基づく音韻指標値の算定とは、強度の相対比を音韻指標値として算定する処理のほか、強度の相対比を変数として含む関数から音韻指標値を算定する処理を含む。
本発明の好適な態様において、指標算定手段は、入力音声の別個の帯域に属する複数の成分の各々について音韻指標値を算定し、音選択手段は、複数の音韻指標値に基づいて音を選択する。以上の態様によれば、入力音声のひとつの帯域に属する成分からひとつの音韻指標値が算定される構成と比較して、音韻指標値に応じた選択の候補(音の種類)を多様化することが可能である。
本発明の好適な態様に係る音制御装置は、音韻指標値と音との関係を可変に設定する対応音設定手段を具備し、音選択手段は、対応音設定手段が設定した関係において、指標算定手段が算定した音韻指標値に対応する音を選択する。以上の態様によれば、音韻指標値と音との関係が可変に設定されるから、例えば利用者の所望の音を音韻に応じて再生することが可能である。
本発明の好適な態様において、閾値設定手段は、発音の判定用の第1閾値と消音の判定用の第2閾値との各々を音韻指標値に応じて可変に設定し、発音判定手段は、ピーク検出手段が検出したピーク値が第1閾値を上回るか否か、および、ピーク検出手段が検出したピーク値が第2閾値を下回るか否かを判定し、データ生成手段は、ピーク検出手段が検出したピーク値が第1閾値を上回ると発音判定手段が判定した場合に、音選択手段が選択した音の発生を示す音データを生成し、ピーク検出手段が検出したピーク値が第2閾値を下回ると発音判定手段が判定した場合に、当該音の消音を示す音データを生成する
本発明の好適な態様に係る音制御装置は、入力音声の強度(例えば入力音声の音量やピーク値)と音データが示す音の音量との関係を可変に設定する対応音量設定手段と、対応音量設定手段が設定した関係において、ピーク検出手段が検出したピーク値に対応する音量を決定する音量決定手段とを具備し、データ生成手段は、音量決定手段が設定した音量の音を示す音データを生成する。以上の態様によれば、入力音声の強度と音データが示す音の音量との関係が可変に設定されるから、例えば、入力音声の音量が少ない場合でも再生音の音量を充分に確保する態様や、入力音声の音量が多い場合でも再生音の音量を抑制する態様が適宜に採用される。
本発明に係る音制御装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、入力音声の音韻に応じて変化する音韻指標値を入力音声の特定の帯域の成分の強度に基づいて算定する指標算定処理(例えば図5のステップS3)と、複数の音の何れかを音韻指標値に基づいて選択する音選択処理(例えば図5のステップS5)と、入力音声のピーク値を検出するピーク検出処理と、音韻指標値に応じて閾値を可変に設定する閾値設定処理と、ピーク値が閾値を上回るか否かを判定する発音判定処理と、ピーク値が閾値を上回ると発音判定処理で判定した場合に、音選択処理で選択した音の発生を示す音データを生成するデータ生成処理(例えば図5のステップS11)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音制御装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音制御装置の構成を示すブロック図である。音制御装置100は、利用者が発声した擬声語(例えば打楽器の演奏音を模擬した「ドン」「パン」といった音声)の音韻に応じた打楽器の演奏音を生成する装置である。例えば、利用者が「ドン」という擬声語を発声した場合にはバスドラムの演奏音が再生され、利用者が「パン」という擬声語を発声した場合にはハイハットシンバルの演奏音が再生されるといった具合である。
図1に示すように、音制御装置100は、制御装置10と記憶装置40とを具備するコンピュータシステムで実現される。制御装置10は、プログラムの実行によって様々な処理を実行する演算処理装置である。記憶装置40は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。
制御装置10には入力機器50とA/D変換器62と音源回路72とが接続される。入力機器50は、利用者が操作する複数の操作子で構成される。利用者は、入力機器50を適宜に操作することで音制御装置100に各種の指示を入力する。A/D変換器62には収音機器64が接続される。収音機器64は、利用者が発声した音声(以下「入力音声」という)Vを収音する。A/D変換器62は、収音機器64が収音した入力音声Vの時間波形を表すデジタルの音声信号SVを生成する。
制御装置10は、図1に図示された各要素として機能することで、入力音声V(音声信号SV)に応じた打楽器の演奏音を示す音データDSを生成および出力する。音データDSは、MIDI(Musical Instrument Digital Interface)規格に準拠した形式のデジタルデータである。音源回路72(MIDI音源)は、打楽器の演奏音の波形を示すデータ列を音データDSに基づいて生成する。音源回路72から出力されたデータ列は、D/A変換器74でアナログの音信号に変換される。放音機器76は、D/A変換器74が出力する音信号を増幅するとともに増幅後の音信号に応じた音波を放射する。
次に、制御装置10の機能的な構成を説明する。図1の分割部12は、音声信号SV(入力音声V)を時間軸上で複数のフレーム(例えば1ミリ秒程度の区間)に区分する。各フレームの音声信号SVは、指標算定部14とピーク検出部16とに供給される。
指標算定部14は、各フレームの音声信号SVについて音韻指標値Aを生成する。音韻指標値Aは、入力音声Vの音韻(音素)に応じて変化する数値である。すなわち、音韻指標値Aが充分に相違する入力音声Vは別個の音韻として弁別される。
図2は、発声音の周波数スペクトルQの概形を音韻の種類毎に示すグラフである。図2の部分(A)は両唇音(/b/,/p/)の周波数スペクトルQであり、図2の部分(B)は歯茎音(/t/,/d/)の周波数スペクトルQであり、図2の部分(C)は軟口蓋音(/k/,/g/)の周波数スペクトルQである。図2の各部分に示すように、発声音の周波数スペクトルQは、発声の原理や後続の母音との組合せに応じて音韻毎に周波数スペクトルQが相違する。例えば、両唇音の周波数スペクトルQ(部分(A))は高域ほど強度が低下するように分布するのに対し、歯茎音の周波数スペクトルQ(部分(B))は低域ほど強度が低下するように分布する。また、軟口蓋音の周波数スペクトルQ(部分(C))は中域にて強度が最大になるとともに低域および高域では強度が低下する。
以上のように入力音声Vの周波数スペクトルQが音韻に応じて相違するという現象を利用して、図1の指標算定部14は、入力音声Vのうち特定の周波数帯域(以下「弁別帯域」という)の成分の強度に基づいて音韻指標値Aを算定する。図1に示すように、本形態の指標算定部14は、フィルタ処理部142と強度検出部144と強度検出部146と演算部148とで構成される。
フィルタ処理部142は、音声信号SVのうちの弁別帯域内の成分VCを選択的に抽出する。例えば、弁別帯域の上限の周波数を遮断周波数とするローパスフィルタや弁別帯域を通過帯域とするバンドパスフィルタがフィルタ処理部142として好適に採用される。弁別帯域は、音韻指標値Aによる区別の対象となる複数の音韻の間で周波数スペクトルQの分布の相違が当該帯域内で顕著となるように統計的または実験的に選定される。本形態では、図2の部分(A)の両唇音(例えば「バン」「パン」といった擬声語)と図2の部分(B)の歯茎音(例えば「タン」「ドン」といった擬声語)とを区別する場合を便宜的に想定する。図2の部分(A)および部分(B)に図示した周波数fc1を下回る帯域BL(低域)において、両唇音と歯茎音との周波数スペクトルQの相違は顕著となる。したがって、帯域BLが弁別帯域としてフィルタ処理部142に設定される。
図1の強度検出部144は、フィルタ処理部142が抽出した成分VCの強度(パワー)PCをフレーム毎に検出する。強度PCは、例えば、成分VCの波形を示すフレーム内の各サンプル(フィルタ処理後の音声信号SVの各サンプル)の振幅値の自乗を合計した数値の平方根を当該フレーム内のサンプルの総数で除算した数値である。一方、強度検出部146は、フィルタ処理部142による処理を経ていない入力音声Vの強度(パワー)P0をフレーム毎に検出する。強度P0は強度PCと同様の方法で算定される。
演算部148は、強度P0に対する強度PCの相対比を音韻指標値A(A=PC/P0)として算定する。図2の部分(A)から理解されるように両唇音については弁別帯域(帯域BL)内の強度PCが高いから、入力音声Vの音韻が両唇音である場合には音韻指標値Aは大きい数値となる。一方、図2の部分(B)のように歯茎音については弁別帯域(帯域BL)内の強度PCが低いから、入力音声Vの音韻が歯茎音である場合には音韻指標値Aは小さい数値となる。したがって、演算部148の算定する音韻指標値Aの大小に応じて入力音声Vの音韻を概略的に弁別することが可能である。
図1の音選択部22は、複数種の打楽器の演奏音の何れかを音韻指標値Aに基づいて選択する。音選択部22が選択した演奏音を指定する符号(以下「ノートナンバ」という)Nnが音選択部22からデータ生成部30に出力される。音韻指標値Aに対応するノートナンバNnの特定には、記憶装置40に格納されたテーブル(「音選択テーブル」という)TBLが使用される。
図3は、音選択テーブルTBLの内容を示す模式図である。同図に示すように、音選択テーブルTBLは、音韻指標値Aの数値の複数の範囲の各々にノートナンバ(打楽器の種類)Nnを対応させたテーブルである。例えば、両唇音に対応する音韻指標値Aの範囲a1にはハイハットシンバルを指定するノートナンバNn1が対応づけられ、歯茎音に対応する音韻指標値Aの範囲a2にはバスドラムを指定するノートナンバNn2が対応づけられる。音選択部22は、演算部148の算定した音韻指標値Aが属する範囲を音選択テーブルTBLから探索し、当該範囲に対応するノートナンバNnを記憶装置40から取得する。
図1の対応音設定部23は、音選択テーブルTBLにおける音韻指標値AとノートナンバNnとの関係を可変に制御する。例えば、対応音設定部23は、音選択テーブルTBLにおける音韻指標値Aの各範囲に対して、利用者が入力機器50の操作で指定した種類の打楽器に対応したノートナンバNnを対応させて記憶装置40に格納する。したがって、各音韻の発声時に出力される打楽器の演奏音を利用者は適宜に変更することが可能である。
ピーク検出部16は、入力音声Vの時間軸上におけるピークの強度(以下「ピーク値」という)PKをフレーム毎に検出する。ピーク値PKの検出には公知の技術が任意に採用される。例えば、入力音声Vの時間波形の包絡線を特定し、当該包絡線におけるフレーム内のピークの振幅をピーク値PKとして検出する構成が好適である。
発音判定部24は、ピーク検出部16が検出したピーク値PKの大小に応じて発音および消音の時期を決定する。さらに詳述すると、発音判定部24は、ピーク値PKが閾値TONを上回ったフレームにてデータ生成部30に発音を指示するとともに、ピーク値PKが閾値TOFFを下回ったフレームにてデータ生成部30に消音を指示する。
ところで、ピーク値PKの大小は入力音声Vの音韻に依存する傾向がある。すなわち、ピーク値PKが増加し易い音韻とピーク値PKが増加し難い音韻とがある。したがって、入力音声Vの音韻に拘わらず閾値TON(閾値TOFF)を固定値とした構成では、例えばピーク値PKが増加し難い音韻ほど発音判定部24が発音の時期と判定する可能性は低下するから、演奏音の発音の頻度が音韻に応じて相違するという不整合が発生する。
そこで、図1の閾値設定部25は、閾値TONおよび閾値TOFFを入力音声Vの音韻に応じて可変に設定する。閾値設定部25による音韻の認識には、指標算定部14の算定した音韻指標値Aが流用される。すなわち、閾値設定部25は、ピーク値PKが増加し難い音韻を音韻指標値Aが示す場合には、ピーク値PKが増加し易い音韻の場合と比較して、閾値TONおよび閾値TOFFを減少させる。以上の構成によれば、各音韻に対応した演奏音の発音の頻度が複数の音韻について均一化されるという利点がある。
図1の音量決定部26は、ピーク検出部16が検出したピーク値PKに応じて演奏音の音量を決定する。音量決定部26が決定した音量を指定する数値(以下「ベロシティ」という)VELがデータ生成部30に出力される。対応音量設定部27は、以下に説明するようにピーク値PKとベロシティVELとの関係を可変に設定する。
記憶装置40には、ピーク値PKとベロシティVELとの関係を定義する複数の関数(以下「音量関数」という)Fが記憶される。図4は、各音量関数F(F1〜F3)の内容を示す概念図である。図4に示すように、ピーク値PKに対するベロシティVELの変化の態様は音量関数F毎に相違する。例えば、音量関数F1は、ピーク値PKが数値p1を上回ると傾きが減少するようにピーク値PKとベロシティVELとの関係を定義するのに対し、音量関数F2は、ピーク値PKが数値p2を上回ると傾きが増加するようにピーク値PKとベロシティVELとの関係を定義する。また、音量関数F3は、ピーク値PKに対して直線的に増加するようにベロシティVELを定義する。対応音量設定部27は、利用者が入力機器50の操作で指定した音量関数Fを記憶装置40から選択する。音量決定部26は、対応音量設定部27が選択した音量関数Fにピーク値PKを代入することでベロシティVELを算定する。したがって、入力音声Vの音量に対するベロシティVELの変化の態様(音量関数F)を利用者は適宜に変更することができる。例えば、利用者が図4の音量関数F1を選択した場合には、発声の音量が小さい場合であっても充分な音量(ベロシティVEL)の演奏音が生成され、利用者が音量関数F2を選択した場合には発声の音量が大きい場合であっても演奏音の音量が抑制されるといった具合である。
データ生成部30は、音選択部22と発音判定部24と音量決定部26とによる動作の結果に応じた音データDSを生成する。具体的には、発音判定部24による発音の指示を契機として、データ生成部30は、発音を指示する音データDS(ノートオンイベント)を生成して音源回路72に出力する。発音を指示する音データDSは、音選択部22が指定したノートナンバNnと音量決定部26が指定したベロシティVELとを含む。以上の音データDSが音源回路72に出力されることで、入力音声Vの音韻に対応した種類の打楽器の演奏音が、入力音声Vのピーク値PKに応じた音量で放音機器76から出力される。一方、発音判定部24から消音が指示された場合、データ生成部30は、ノートナンバNnに対応した演奏音の消音を指示する音データDS(ベロシティVELとしてゼロが指定されたノートオフイベント)を生成して音源回路72に出力する。
次に、図5を参照して、制御装置10が実行する処理の全体的な流れを説明する。図5の処理は、プログラムの起動を指示する操作を利用者が入力機器50に付与した場合に開始される。図5の処理を開始すると、分割部12は、A/D変換器62から供給される音声信号SVからひとつのフレームを切出す(ステップS1)。次いで、フィルタ処理部142および強度検出部144による強度PCの検出と強度検出部146による強度P0の検出とピーク検出部16によるピーク値PKの検出とが順次に実行される(ステップS2)。さらに、演算部148は、強度P0と強度PCとから音韻指標値Aを算定する(ステップS3)。
次いで、制御装置10は、入力機器50に対する操作に応じて各種の変数を更新する(ステップS4)。さらに詳述すると、対応音設定部23は、音選択テーブルTBLの内容(音韻指標値Aの各範囲とノートナンバNnとの対応)を入力機器50に対する操作に応じて更新し、対応音量設定部27は、記憶装置40に格納された複数の音量関数Fの何れかを入力機器50に対する操作に応じて選択する。また、制御装置10は、閾値TONの候補となる数値TH1および数値TH2と閾値TOFFの候補となる数値TL1および数値TL2とを入力機器50に対する操作に応じて設定する(ステップS4)。
次いで、音選択部22は、ステップS3にて算定した音韻指標値Aに対応するノートナンバNnを音選択テーブルTBLから特定する(ステップS5)。また、閾値設定部25は、ステップS3で算定した音韻指標値Aに応じて閾値TONおよび閾値TOFFを設定する(ステップS6)。すなわち、例えば音韻指標値Aが両唇音に対応する範囲a1内にある場合には数値TH1を閾値TONに設定するとともに数値TL1を閾値TOFFに設定し、音韻指標値Aが歯茎音の範囲a2内にある場合には数値TH2を閾値TONに設定するとともに数値TL2を閾値TOFFに設定するといった具合である。
次に、制御装置10は、状態フラグSFが消音を示し、かつ、ステップS2にて検出したピーク値PKがステップS6で設定した閾値TONを上回るか否かを判定する(ステップS7)。状態フラグSFは、現時点が発音の状態にあるか消音の状態にあるかを識別するための符号である。
ステップS7の結果が肯定である場合(すなわち現在のフレームが発音の開始点に該当する場合)、音量決定部26は、ステップS2で検出したピーク値PKをステップS4にて選択した音量関数Fに代入することでベロシティVELを算定する(ステップS8)。一方、ステップS7の結果が否定である場合(すなわち過去の発音が継続している場合またはピーク値PKが閾値TONに到達しない場合)、制御装置10は、状態フラグSFが発音を示し、かつ、ステップS2で検出したピーク値PKがステップS6で設定した閾値TOFFを下回るか否かを判定する(ステップS9)。
ステップS9の結果が肯定である場合(すなわち現在のフレームが発音の終了点に該当する場合)、音量決定部26はベロシティVELをゼロに設定する(ステップS10)。一方、ステップS9の結果が否定である場合(すなわち、現在のフレームでは発音および消音の一方から他方への変化がない場合)、制御装置10は、処理をステップS1に移行して音声信号SVの次のフレームについて同様の処理を実行する。
ステップS8またはステップS10が完了すると、データ生成部30は、現在のフレームに関する処理の結果に応じて音データDSを生成する(ステップS11)。すなわち、状態フラグSFが消音を示す場合(今回のフレームで発音に変化した場合)、データ生成部30は、ステップS5で設定したノートナンバNnとステップS8で設定したベロシティVELとを含むノートオンイベントを音データDSとして生成して音源回路72に出力する。したがって、利用者が発声した音韻に応じた打楽器の演奏音が放音機器76から出力される。一方、状態フラグSFが発音を示す場合(今回のフレームで消音に変化した場合)、データ生成部30は、ステップS5のノートナンバNnとステップS10でゼロに設定したベロシティVELとを含むノートオフイベントを音データDSとして生成して音源回路72に出力する。
次いで、制御装置10は、状態フラグSFを発音および消音の一方から他方に反転したうえで(ステップS12)、演奏音の再生を終了する時期が到来したか否かを判定する(ステップS13)。利用者は、入力機器50を適宜に操作することで再生の終了を制御装置10に指示することが可能である。ステップS13の結果が否定である場合(例えば再生の終了が未だ指示されていない場合)、制御装置10は、処理をステップS1に移行して音声信号SVの次のフレームについて同様の処理を実行する。一方、ステップS13の結果が肯定である場合、制御装置10は図5の処理を終了する。
以上に説明したように、本形態においては、入力音声Vの音韻の区別の指標となる音韻指標値Aが入力音声Vのうち弁別帯域(帯域BL)の成分VCの強度PCに基づいて算定されるから、入力音声Vの音声認識は原理的に不要である。したがって、記憶装置40に必要となる容量や制御装置10による処理の負荷を特許文献1の技術と比較して低減することが可能である。
なお、成分VCの強度PCが音韻に応じて相違するとは言っても、例えば成分VCの強度PC自体が音韻指標値Aとして採択される構成においては、入力音声Vの音量(強度P0)に応じて音韻指標値Aが変化するから、音韻指標値Aのみからは音韻を適切に区別できない可能性もある。本形態においては成分VCの強度PCと入力音声Vの全体の強度P0との相対比に基づいて音韻指標値Aが算定されるから、入力音声Vの強度P0の大小に拘わらず、各音韻を適切に区分し得る音韻指標値Aが算定されるという利点がある。なお、以上の説明から理解されるように、例えば振幅の最大値が所定値(例えば1)となるように音声信号SVをフレーム毎の強度で正規化(標準化)したうえで指標算定部14に供給する構成においては、強度検出部144が検出する強度PC自体を音韻指標値Aとしてもよい。
なお、演奏音が時間的に継続する打楽器の演奏音(例えばシンバルの演奏音)が再生の対象として想定される場合にはノートオフイベントが必要であるが、時間的に継続しない打楽器の演奏音(すなわち、瞬間的にのみ発生するバスドラムやハイハットシンバルなどの演奏音)のみを再生の対象として想定する場合にはノートオフイベントは不要である。したがって、データ生成部30がノートオンイベントのみを音データDSとして生成する構成も採用される。また、ノートオフイベントを利用する構成において、ノートオフイベントのベロシティをゼロ以外の数値に指定してもよい。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、本形態において作用や機能が第1実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
図6は、指標算定部14の具体的な構成を示すブロック図である。本形態のフィルタ処理部142は、周波数帯域が相異なる複数の成分VC(VC1〜VC3)を音声信号SVから抽出する。図6に示すように、通過帯域が相違する3個のフィルタ部FL(FL1〜FL3)で構成されるフィルタバンクがフィルタ処理部142として好適に採用される。フィルタ部FL1は図2における低周波側の帯域BL(〜fc1)の成分VC1を音声信号SVから抽出するバンドパスフィルタまたはローパスフィルタであり、フィルタ部FL3は高周波側の帯域BH(fc2〜)の成分VC3を音声信号SVから抽出するバンドパスフィルタまたはハイパスフィルタであり、フィルタ部FL2は中間の帯域BM(fc1〜fc2)の成分VC2を音声信号SVから抽出するバンドパスフィルタである。
強度検出部144は、3種類の成分VC1〜VC3の各々について強度PC(PC1〜PC3)を検出する。成分VCから強度PCを検出する方法は第1実施形態と同様である。一方、強度検出部146は、第1実施形態と同様に音声信号SVの強度P0を検出する。
演算部148は、強度PC1〜PC3の各々と強度P0との相対比を音韻指標値A(A1〜A3)として算定する。音韻指標値A1は帯域BLの成分VC1の強度PC1に応じた数値(A1=PC1/P0)であり、音韻指標値A2は帯域BMの成分VC2の強度PC2に応じた数値(A2=PC2/P0)であり、音韻指標値A3は帯域BHの成分VC3の強度PC3に応じた数値(A3=PC3/P0)である。したがって、音韻指標値A1〜A3の大小に応じて入力音声Vの音韻を区別することが可能である。
例えば、図2から理解されるように、音韻指標値A1および音韻指標値A2が所定の閾値を上回るとともに音韻指標値A3が閾値を下回る場合(すなわち周波数スペクトルQのうち帯域BLおよび帯域BMの強度が帯域BHと比較して高い場合)、入力音声Vの音韻は両唇音に弁別される。また、音韻指標値A2および音韻指標値A3が閾値を上回るとともに音韻指標値A1が閾値を下回る場合(すなわち周波数スペクトルQのうち帯域BMおよび帯域BHの強度が帯域BLと比較して高い場合)、入力音声Vの音韻は歯茎音に弁別される。さらに、音韻指標値A2が閾値を上回るとともに音韻指標値A1および音韻指標値A3が閾値を下回る場合、入力音声Vの音韻は軟口蓋音に弁別される。
音選択テーブルTBLは、別個の音韻に対応する音韻指標値A1〜A3の各範囲とノートナンバNnとを対応づける。音選択部22は、指標算定部14が算定した音韻指標値A1〜A3の範囲に対応するノートナンバNnを音選択テーブルTBLから探索してデータ生成部30に指示する。一方、閾値設定部25は、音韻指標値A1〜A3から弁別される音韻に応じて閾値TONおよび閾値TOFFを可変に制御する。
以上の構成によっても第1実施形態と同様の作用および効果が奏される。また、別個の帯域(BL,BM,BH)に対応する複数の成分VC1〜VC3の各々について音韻指標値A1〜A3が算定されるから、第1実施形態と比較して多数の音韻を区別することが可能である。したがって、入力音声Vの音韻に応じて多様な演奏音を選択的に再生できるという利点がある。なお、以上の形態においては3種類の音韻指標値A1〜A3を算定したが、音韻指標値Aの個数(入力音声Vから抽出される成分VCの個数)は任意である。
<C:変形例>
以上の各形態には以下に例示するような様々な変形を加えることができる。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
音データDSの形式は以上の例示(MIDI形式)に限定されない。打楽器の演奏音の時間軸上における波形を示すデータ列(サンプル列)を音データDSとしてデータ生成部30が生成する構成も好適に採用される。例えば、記憶装置40は、複数種の打楽器の各々について演奏音の波形を示す波形データを記憶する。発音判定部24から発音が指示されると、データ生成部30は、複数の波形データのうち音選択部22が指定したノートナンバNnに対応する打楽器の波形データを選択し、当該波形データの音量(振幅値)をベロシティVELに応じて増減したうえでD/A変換器74に出力する。以上の構成によれば、MIDIに準拠した音源回路72が不要であるという利点がある。
(2)変形例2
以上の各形態においては打楽器の演奏音を例示したが、再生音は任意に変更される。打楽器以外の楽器を含む複数の楽器の何れかの演奏音を音選択部22が音韻指標値Aに応じて選択する構成も好適である。また、再生音は楽器の演奏音に限定されない。例えば、拍手の音声を再生してもよい。
ひとつの楽器が生成する複数の演奏音の何れかを示す音データDSをデータ生成部30が生成する構成も好適である。例えば、音選択部22が生成したノートナンバNnをひとつの楽器の演奏音の音高として指定する音データDSがデータ生成部30から音源回路72に出力される。また、変形例1のように音データDSを波形データとする構成においては、特定の楽器の演奏音の波形データのピッチをノートナンバNnに応じて変換したうえでD/A変換器74に出力する構成が採用される。
(3)変形例3
以上の各形態においてはピーク値PKに応じてベロシティVELを設定する構成を例示したが、ピーク値PKと音声信号SVの強度P0とは連動する可能性が高いから、強度検出部146が検出した強度P0に基づいて音量決定部26がベロシティVELを決定する構成も採用される。
(4)変形例4
以上の各形態においては入力音声Vが時間領域で処理される構成を例示したが、音声信号SVを周波数領域に展開した周波数スペクトルに基づいて強度PCやピーク値PKを特定する構成も採用される。もっとも、以上の各形態のように時間領域で処理する構成によれば、FFT(Fast Fourier Transform)処理などの周波数分析が不要であるから、制御装置10による処理の負荷が軽減されるという利点がある。
(5)変形例5
以上の各形態における制御装置10の各機能がDSPなどの電子回路によって実現された構成や、制御装置10の各機能が複数の集積回路で実現される構成も好適である。また、収音機器64や放音機器76は音制御装置100に必須の要件ではない。例えば、記憶装置40に格納された音声信号SVや通信網を介して配信された音声信号SVを処理の対象とした構成においては収音機器64やA/D変換器62が省略される。また、データ生成部30の生成した音データDSが記憶装置40に格納される構成や音データDSが通信網を介して他の機器に送信される構成においては放音機器76やD/A変換器74(さらには音源回路72)が省略される。
本発明の第1実施形態に係る音制御装置の構成を示すブロック図である。 音韻に応じた周波数スペクトルの相違を説明するための概念図である。 音選択テーブルの内容を示す概念図である。 ピーク値とベロシティとの関係を定義する複数の音量関数を例示する概念図である。 制御装置による処理のフローチャートである。 本発明の第2実施形態における指標算定部の構成を示すブロック図である。
符号の説明
100……音制御装置、10……制御装置、12……分割部、14……指標算定部、142……フィルタ処理部、144……強度検出部、146……強度検出部、148……演算部、16……ピーク検出部、22……音選択部、23……対応音設定部、24……発音判定部、25……閾値設定部、26……音量決定部、27……対応音量設定部、30……データ生成部、40……記憶装置、50……入力機器、62……A/D変換器、64……収音機器、72……音源回路、74……D/A変換器、76……放音機器。

Claims (4)

  1. 入力音声の音韻に応じて変化する音韻指標値を前記入力音声の特定の帯域の成分の強度に基づいて算定する指標算定手段と、
    複数の音の何れかを前記音韻指標値に基づいて選択する音選択手段と、
    前記入力音声のピーク値を検出するピーク検出手段と、
    前記音韻指標値に応じて閾値を可変に設定する閾値設定手段と、
    前記ピーク値が前記閾値を上回るか否かを判定する発音判定手段と、
    前記ピーク値が前記閾値を上回ると前記発音判定手段が判定した場合に、前記音選択手段が選択した音の発生を示す音データを生成するデータ生成手段と
    を具備する音制御装置。
  2. 前記入力音声の強度と音データが示す音の音量との関係を可変に設定する対応音量設定手段と、
    前記対応音量設定手段が設定した関係において、前記ピーク検出手段が検出したピーク値に対応する音量を決定する音量決定手段とを具備し、
    前記データ生成手段は、前記音量決定手段が設定した音量の音を示す音データを生成する
    請求項1の音制御装置。
  3. 前記閾値設定手段は、発音の判定用の第1閾値と消音の判定用の第2閾値との各々を前記音韻指標値に応じて可変に設定し、
    前記発音判定手段は、前記ピーク検出手段が検出したピーク値が前記第1閾値を上回るか否か、および、前記ピーク検出手段が検出したピーク値が前記第2閾値を下回るか否かを判定し、
    前記データ生成手段は、前記ピーク検出手段が検出したピーク値が前記第1閾値を上回ると前記発音判定手段が判定した場合に、前記音選択手段が選択した音の発生を示す音データを生成し、前記ピーク検出手段が検出したピーク値が前記第2閾値を下回ると前記発音判定手段が判定した場合に、当該音の消音を示す音データを生成する
    請求項1または請求項2の音制御装置。
  4. 入力音声の音韻に応じて変化する音韻指標値を前記入力音声の特定の帯域の成分の強度に基づいて算定する指標算定処理と、
    複数の音の何れかを前記音韻指標値に基づいて選択する音選択処理と、
    前記入力音声のピーク値を検出するピーク検出処理と、
    前記音韻指標値に応じて閾値を可変に設定する閾値設定処理と、
    前記ピーク値が前記閾値を上回るか否かを判定する発音判定処理と、
    前記ピーク値が前記閾値を上回ると前記発音判定処理で判定した場合に、前記音選択処理で選択した音の発生を示す音データを生成するデータ生成処理と
    をコンピュータに実行させるプログラム。
JP2007275173A 2007-10-23 2007-10-23 音制御装置およびプログラム Expired - Fee Related JP5082760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007275173A JP5082760B2 (ja) 2007-10-23 2007-10-23 音制御装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007275173A JP5082760B2 (ja) 2007-10-23 2007-10-23 音制御装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009103893A JP2009103893A (ja) 2009-05-14
JP5082760B2 true JP5082760B2 (ja) 2012-11-28

Family

ID=40705639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007275173A Expired - Fee Related JP5082760B2 (ja) 2007-10-23 2007-10-23 音制御装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5082760B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018173295A1 (ja) 2017-03-24 2018-09-27 ヤマハ株式会社 ユーザインタフェース装置及び方法、並びに音操作システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192298A (ja) * 1983-04-15 1984-10-31 松下電工株式会社 音声メツセ−ジ識別方式
JPH03253900A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声認識装置
JP2897701B2 (ja) * 1995-11-20 1999-05-31 日本電気株式会社 効果音検索装置
JP2004070027A (ja) * 2002-08-07 2004-03-04 Matsushita Electric Ind Co Ltd 音声情報再生装置

Also Published As

Publication number Publication date
JP2009103893A (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
US5986199A (en) Device for acoustic entry of musical data
JP5228432B2 (ja) 素片検索装置およびプログラム
JP6435644B2 (ja) 電子楽器、発音制御方法及びプログラム
Eggink et al. Instrument recognition in accompanied sonatas and concertos
JPWO2009104269A1 (ja) 楽曲判別装置、楽曲判別方法、楽曲判別プログラム及び記録媒体
CN108369800B (zh) 声处理装置
JP6728843B2 (ja) 電子楽器、楽音発生装置、楽音発生方法及びプログラム
JP5082760B2 (ja) 音制御装置およびプログラム
JP6565548B2 (ja) 音響解析装置
JP5292702B2 (ja) 楽音信号生成装置及びカラオケ装置
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
JP4514055B2 (ja) 楽音制御装置および楽音制御プログラム
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6565549B2 (ja) 音響解析装置
JP5034642B2 (ja) カラオケ装置
JP2008209703A (ja) カラオケ装置
JP7149218B2 (ja) カラオケ装置
JP5935380B2 (ja) 電子楽器、共鳴音付与方法及びプログラム
JP5151603B2 (ja) 電子楽器
JP5805474B2 (ja) 音声評価装置,音声評価方法,及びプログラム
JP5186793B2 (ja) カラオケ装置
JP2010175739A (ja) 電子メトロノーム、およびプログラム
JP5169297B2 (ja) 音処理装置およびプログラム
JP5034471B2 (ja) 楽音信号発生装置及びカラオケ装置
JP2001051680A (ja) コード判定装置、コード判定方法およびコード判定方法を記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120820

R150 Certificate of patent or registration of utility model

Ref document number: 5082760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees