JP2013134475A

JP2013134475A - 表示制御装置及びプログラム

Info

Publication number: JP2013134475A
Application number: JP2011286727A
Authority: JP
Inventors: Osamu Oshima; 治大島; Tadashi Nagata; 資司永田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-08
Anticipated expiration: 2031-12-27
Also published as: TW201329957A; US20130162649A1; US9639966B2; EP2610859B1; TWI492216B; KR101521451B1; KR20130075679A; EP2610859A3; JP5811837B2; HK1183739A1; CN103187046A; CN103187046B; EP2610859A2

Abstract

【課題】音声の複数の属性を把握し易い態様で表示することを目的とする。
【解決手段】カラオケ装置１００の制御部１０は、音声データを解析してピッチと音量を取得し、取得したピッチと音量を表す図形を表示部４０に表示する。このとき、制御部１０は、縦軸方向にピッチの大きさが示されるとともに横軸に時間の経過が示されるピッチ曲線を表示部４０に表示するとともに、縦軸方向における幅が音量の大きさを表す音量図形を、ピッチ曲線の表示位置を基準とした位置に表示する。
【選択図】図２

Description

本発明は、表示制御装置及びプログラムに関する。

カラオケ装置においては、歌唱者の歌唱の巧拙を採点する機能を備えたものが種々提案されている。このような装置において、楽曲の旋律を歌唱者に理解し易く提示したり、また、歌唱者に自身の歌唱内容を確認させたりすることを目的として、楽曲の旋律や歌唱者の歌唱を図形化して表示する機能が提案されている。また、例えば、特許文献１には、楽曲のメロディを表す音符を五線譜上に表示するとともに、各音符に、音量の変化やピッチの変化を表す図形を表示する技術が提案されている。

特開２００４−１３９１２４号公報

ところで、人の音声はピッチや音量が常に変化するため、このような音声を表示する場合は音声について複数の属性（例えば、ピッチと音量）を同時に表現することが好ましい。しかしながら、特許文献１に記載の技術では、ひとつの音符に対し、ひとつの付加情報（属性）しか表現できず、複数の属性（例えば、音量とピッチ）を同時に表現することができなかった。
本発明は上述の背景に鑑みてなされたものであり、音声の複数の属性を把握し易い態様で表示することを目的とする。

上述した課題を解決するために、本発明は、音声データの２以上の属性を示す属性データを受け取る受取部と、前記受取部が受け取った属性データの示す２以上の属性の値の時間的な変化を表示部に表示する表示制御部であって、第１の属性の値を時間の経過を示す第１の軸と交差する第２の軸に沿った方向の座標によって表し、当該座標に応じた位置に、前記第２の軸方向の長さとして第２の属性の値を表す第１の図形を表示する表示制御部とを具備することを特徴とする表示制御装置を提供する。

本発明の好ましい態様において、前記表示制御部は、前記第１の軸と前記第２の軸とによって示される前記第１の属性の値を表す座標に第２の図形を表示してもよい。

また、本発明の更に好ましい態様において、前記表示制御部は、前記第１の図形を、前記第２の軸方向における前記第１の属性の座標が該第１の図形の中心座標、上端座標又は下端座標となるように表示してもよい。

また、本発明の更に好ましい態様において、模範となる音の前記第１の属性を示す模範属性データを受け取る第２の受取部を備え、前記表示制御部は、前記第２の受取部が受け取った前記模範属性データの示す属性を表す図形を、前記第１の軸及び前記第２の軸に従った座標に表示してもよい。

また、本発明は、コンピュータに、音声データの２以上の属性を示す属性データを受け取る受取機能と、前記受け取った属性データの示す２以上の属性の値の時間的な変化を表示部に表示する表示制御機能であって、第１の属性の値を時間の経過を示す第１の軸と交差する第２の軸に沿った方向の座標によって表し、当該座標に応じた位置に、前記第２の軸方向の長さとして第２の属性の値を表す第１の図形を表示する表示制御機能とを実現させるためのプログラムを提供する。

本発明によれば、音声の複数の属性を把握し易い態様で表示することができる。

本発明の実施形態におけるシステムの構成図カラオケ装置のハードウェア構成を表すブロック図カラオケ装置の機能的構成の一例を示すブロック図採点部の機能的構成の一例を示すブロック図表示部に表示される画面の一例を示す図制御部が行う処理の流れを示すフロー図表示部に表示される画面の一例を示す図表示部に表示される画面の一例を示す図表示部に表示される画面の一例を示す図

＜実施形態＞
＜構成＞
図１は、本発明の実施形態におけるシステムの構成を表した図である。このシステムは、カラオケ装置１００と、サーバ装置２００と、ネットワークＮＷとを有する。カラオケ装置１００は、ユーザからの要求に従ってカラオケ楽曲を再生するとともに、再生されるカラオケ楽曲についてのユーザによる歌唱を評価する装置である。カラオケ装置１００は本発明に係る表示制御装置の一例である。ネットワークＮＷはＬＡＮ（Local Area Network）やインターネットであり、カラオケ装置１００とサーバ装置２００との間におけるデータ通信が行われる通信網である。サーバ装置２００は、その内部あるいは外部に備えたＨＤＤ（Hard Disk Drive）等の記憶手段に、カラオケ楽曲に関するコンテンツデータ等の各種データを記憶しており、カラオケ装置１００からの要求に従って、ネットワークＮＷ経由でこのコンテンツデータをカラオケ装置１００に供給する装置である。ここで、コンテンツとは、カラオケ楽曲に関する音声と映像との組み合わせを指す。すなわち、コンテンツデータとは、主旋律の歌声が存在せず伴奏やコーラスで構成されたいわゆる伴奏データと、この楽曲の歌詞や歌詞の背景に表示する映像からなる映像データとから成り立っている。なお、サーバ装置２００に対してカラオケ装置１００は複数存在してもよい。また、カラオケ装置１００に対してサーバ装置２００が複数存在してもよい。

図２は、カラオケ装置１００のハードウェア構成を表したブロック図である。カラオケ装置１００は、制御部１０、記憶部２０、操作部３０、表示部４０、通信制御部５０、音声処理部６０、マイクロホン６１、及びスピーカ６２を有し、これら各部がバス７０を介して接続されている。制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を有している。制御部１０において、ＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、カラオケ装置１００の各部を制御する。

操作部３０は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部１０に出力する。表示部４０は、例えば液晶パネルを備え、制御部１０による制御の下、各カラオケ楽曲に応じた歌詞テロップや背景映像等の各種画像を表示する。通信制御部５０は、カラオケ装置１００とネットワークＮＷとを有線あるいは無線で接続し、ネットワークＮＷを介したカラオケ装置１００とサーバ装置２００との間のデータ通信を制御する。

サーバ装置２００は、図示せぬＣＰＵや各種メモリを備えたコンピュータであり、特にネットワークストレージ２１０を備えている。ネットワークストレージ２１０は例えばＨＤＤであり、カラオケ楽曲のコンテンツデータ等の各種データを記憶する。図２においてサーバ装置２００は１つのネットワークストレージ２１０を備えているが、ネットワークストレージの数はこれに限ったものではなく、複数のネットワークストレージをサーバ装置２００が備えてもよい。ユーザにより予約されたカラオケ楽曲のコンテンツデータがネットワークストレージ２１０に記憶されている場合、カラオケ装置１００は、通信制御部５０による制御に従ってサーバ装置２００と通信を行い、ネットワークストレージ２１０から読み出されたコンテンツデータをネットワークＮＷ経由でダウンロードしながら、ダウンロードが完了した部分から順次再生する、というストリーミング再生を行う。

マイクロホン６１は、収音した音声を表すアナログの音声信号を音声処理部６０に出力する。音声処理部６０は、Ａ／Ｄ（Analog / Digital）コンバータを有し、マイクロホン６１が出力したアナログの音声信号をデジタルの音声データに変換して制御部１０に出力し、制御部１０はこれを取得する。また、音声処理部６０は、Ｄ／Ａ（Digital / Analog）コンバータを有し、制御部１０から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ６２に出力する。スピーカ６２は、音声処理部６０から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン６１とスピーカ６２とがカラオケ装置１００に含まれている場合について説明するが、音声処理部６０に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン６１からスピーカ６２へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部６０にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。操作部３０や表示部４０についても同様であり、外部出力端子を設け、外部モニタを接続する構成としてもよい。

記憶部２０は、各種のデータを記憶するための記憶手段であり、例えばＨＤＤや不揮発性メモリである。記憶部２０は、伴奏データ記憶領域２１、映像データ記憶領域２２、ＧＭ（Guide Melody）データ記憶領域２３、及びユーザ歌唱音声データ記憶領域２５といった複数の記憶領域を備えている。

伴奏データ記憶領域２１には、各楽曲における伴奏の音声を表す伴奏データに関する情報が記憶されている。伴奏データは、楽曲を一意に識別する曲番号や、楽曲の名称を表す曲名等の楽曲に関する情報が付与されている。伴奏データのデータファイルは、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）形式のファイルである。映像データ記憶領域２２には、各楽曲の歌詞を示す歌詞データ及び歌詞の背景に表示される背景映像を表す背景映像データが記憶されている。歌詞データによって示される歌詞は、カラオケ歌唱の際に、楽曲の進行に伴って歌詞テロップとして表示部４０に表示される。また、背景映像データによって表される背景映像は、カラオケ歌唱の際に楽曲の進行に伴って歌詞テロップの背景として表示部４０に表示される。ＧＭデータ記憶領域２３には、楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音の内容を指定するデータであるガイドメロディデータ（以下「ＧＭデータ」という）が記憶されている。ＧＭデータは、模範となる音のピッチを表すデータである。ＧＭデータは、制御部１０が、楽曲において制御部１０がユーザによる歌唱の巧拙の評価処理を行う際に比較の基準として用いるものである。なお、制御部１０が行う評価処理については後述するため、ここではその詳細な説明は省略する。ＧＭデータは、例えば、ＭＩＤＩ形式により記述されている。

ユーザ歌唱音声データ記憶領域２５には、カラオケの対象となった各楽曲について、その伴奏データが再生されている期間中マイクロホン６１によって収音されたユーザの歌唱音声が音声処理部６０でデジタルデータに変換されることで生成された音声データが記憶される。この音声データをユーザ歌唱音声データという。このユーザ歌唱音声データは、例えば、ＷＡＶＥ（RIFF waveform Audio Format）形式のデータファイルとして記憶される。各楽曲についてのユーザ歌唱音声データは、制御部１０によって、その楽曲のＧＭデータに対応付けられる。

図３は、カラオケ装置１００の機能的構成の一例を示すブロック図である。図３において、再生部１１及び採点部１２は、制御部１０のＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。再生部１１は、カラオケ楽曲の再生を行う。具体的には、再生部１１は、伴奏データ及びＧＭデータに基づく音声をスピーカ６２から放音させるとともに、映像データに基づく映像を表示部４０に表示させる。

採点部１２は、歌唱者の歌唱音声を表すデータ（以下「ユーザ歌唱音声データ」という）を採点する。採点部１２は、歌唱音声のピッチとＧＭデータのピッチとの差分に応じて歌唱を評価する。

図４は、採点部１２の機能的構成の一例を示すブロック図である。図４において、解析部１２１は、ユーザ歌唱音声データを２以上の音声の属性について解析し、解析した属性を示す属性データを出力する。この実施形態では、音声の属性として、音量とピッチとを用いる。解析部１２１は、ピッチ取得部１２１ａと、音量取得部１２１ｂとを有する。ピッチ取得部１２１ａは、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データを解析し、歌唱音声のピッチを検出する。ピッチ取得部１２１ａは、検出したピッチを表すデータ（以下「ピッチデータ」という）を出力する。音量取得部１２１ｂは、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データの音量を検出する。音量取得部１２１ｂは、検出した音量を表すデータ（以下「音量データ」という）を出力する。

比較部１２２は、ピッチ取得部１２１ａによって取得されたユーザ歌唱音声データのピッチと、ＧＭデータのピッチとを比較し、両者の差分に応じてユーザ歌唱音声データの採点処理を行う。より具体的には、例えば、比較部１２２は、ユーザ歌唱音声データが示す音声のピッチの変化と、ＧＭデータが示すガイドメロディのピッチの変化とを比較し、これらの一致の程度を示す評価値を算出する。評価値は、あるノートにおいて、両者のピッチの差が予め定められた許容範囲内に収まっていれば１００％（すなわち減点なし）とし、両者のピッチの差が上記範囲内に収まらない部分の期間が、ＧＭデータにおいてこのノートにおける音長の半分に渡っていれば５０％である、といった具合であってもよい。つまり、あるノートにおいて、両者のピッチの差が上記範囲内に収まる期間を、ＧＭデータにおいてこのノートにおける音長で除した値を評価値とする。制御部１０は、算出した評価値に基づいて減点するポイントを決定する。例えば、あるノートに「２点」のポイントが割り当てられているときに、評価値が５０％と算出された場合、制御部１０は、「１点」を減点のポイントとして決定する。
また、比較部１２２は、音量取得部１２１ｂによって取得されたユーザ歌唱音声データの音量を加味した採点を行ってもよい。

表示制御部１２３は、比較部１２２による採点結果を表示部４０に表示する。また、表示制御部１２３は、解析部１２１から出力される属性データを受け取る受取部として機能するとともに、受け取った属性データによって示される２以上の音声の属性の値の時間的な変化を表示部４０に表示する表示制御部として機能する。以下、表示制御部１２３が行う表示制御処理について図面を参照しつつ説明する。

図５は、表示制御部１２３が表示部４０に表示する画面の一例を示す図である。図５に示す画面は、横軸に時刻が示され、縦軸にピッチが示されている。図において、実線３００は、ユーザ歌唱音声データのピッチの変化を表しており、以下、ピッチ曲線３００という。表示制御部１２３は、ピッチ取得部１２１ａによって取得されたピッチの変化を表すピッチ曲線３００を表示部４０に表示する。すなわち、表示制御部１２３は、属性データによって示されるピッチ（第１の属性）を表す図形として、横軸（第１の軸）と縦軸（第２の軸）によって示される座標にピッチ曲線３００を表示する。

また、表示制御部１２３は、ピッチ曲線３００の座標に応じた位置に、縦軸方向の長さとして音量の値を表す音量図形５００を表示する。このとき、表示制御部１２３は、縦軸方向におけるピッチ曲線３００の座標が、音量図形５００の中心座標位置となるように音量図形５００を表示する。すなわち、音量図形５００の縦軸方向の幅の大きさは、ピッチ曲線３００を中心として上下対称となっており、音量図形５００の縦軸方向の幅が大きいほど音量が大きいことが示されている。

また、図５において、帯状図形４００は、ＧＭデータのピッチを表しており、以下、ＧＭ図形４００という。表示制御部１２３は、ＧＭデータを受け取る第２の受取部として機能する。表示制御部１２３は、受け取ったＧＭデータの表すピッチを示すＧＭ図形４００を、縦軸及び横軸に従った位置（座標）に表示する。また、表示制御部１２３は、図５に例示する画面において、歌詞を表す文字画像６００（以下「歌詞画像６００」という）を、対応するＧＭ図形４００の近傍に表示する。なお、表示制御部１２３は、歌詞画像６００をＧＭ図形４００に重ねて表示するようにしてもよい。

＜動作＞
図６は、制御部１０が行う処理の流れを示すフロー図である。操作部３０を介してユーザにより楽曲が予約されると（ステップＳ１００；Ｙｅｓ）、制御部１０は、記憶部２０から予約された楽曲の検索を行う（ステップＳ１０２）。具体的にはステップＳ１０２において、制御部１０は、伴奏データ記憶領域２１、映像データ記憶領域２２、及びＧＭデータ記憶領域２３の各々から、選択された楽曲の曲番号または曲名をキーにして、その楽曲に関するデータを検索し、検索結果のデータをＲＡＭに読み込む。

次いで、制御部１０は、ＲＡＭに記憶された伴奏データ、映像データ、及びＧＭデータに基づいて、カラオケ楽曲の再生を行う（ステップＳ１０４）。具体的にはステップＳ１０４において、制御部１０は、伴奏データ及びＧＭデータに基づく音声をスピーカ６２から放音させるとともに、映像データに基づく映像を表示部４０に表示させる。そして制御部１０は、マイク６１によって収音されたユーザの歌唱音声が音声処理部６０によってデジタルのデータに変換されたものであるユーザ歌唱音声データを、ユーザ歌唱音声データ記憶領域２５に記憶させる（ステップＳ１０６）。カラオケ楽曲の再生が終了すると、制御部１０は、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データとＧＭデータ及びラップ採点用データとに基づいて、歌唱の採点を行う（ステップＳ１０８）。そして制御部１０は、採点結果を表示部４０に表示させる（ステップＳ１１０）。

ステップＳ１１０において、制御部１０は、採点結果を表す文字や画像を表示部４０に表示させるとともに、図５に例示するような、歌唱音声の解析結果を表示部４０に表示させる。図５に例示する画面においては、音声の解析結果である複数の属性（ピッチ、音量）が共通の時間軸を用いて同時に表示され、このとき、ピッチ曲線３００に重ねて表示される音量図形５００の表示幅によって音量が示されるから、ユーザは、ピッチ曲線３００を目で追うことで音量とピッチの両方を直感的に把握し易い。

＜変形例＞
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。

＜変形例１＞
上述の実施形態では、制御部１０が解析する音声の属性として、音量とピッチを用いたが、制御部１０が解析する音声の属性は音量やピッチに限らず、他の属性であってもよい。例えば、音声の属性として、音声の明瞭度や、発音タイミングを用いてもよく、要は、音声の属性は、音声の特徴や性質を表すものであればどのようなものであってもよい。例えば音声の明瞭度を属性として用いる場合には、制御部１０は、ＦＦＴ（Fast Fourier Transform）を用いて音声からスペクトルを検出し、検出したスペクトルにおいてレベルの変化が山となって表れる位置のレベル（フォルマントレベル）と谷となって表れる位置のレベル（谷レベル）との比率に応じて明瞭度を算出してもよい。より具体的には、例えば、制御部１０は、谷レベルに対するフォルマントレベルの比率が大きいほど明瞭度が高くなるように、明瞭度の算出処理を行ってもよい。また、発音タイミングを属性として用いる場合には、例えば、ユーザ歌唱音声データから歌詞の音素（ノート）毎の発音タイミングを検出し、検出した発音タイミングと模範となる発音タイミング（ＧＭデータによって示される発音タイミング）とのずれ量が大きいほど縦軸方向の幅が大きい図形を表示するようにしてもよい。

＜変形例２＞
上述の実施形態では、制御部１０は、図５に例示したように、ピッチ曲線３００とＧＭ図形４００と音量図形５００とを重ねて表示部４０に表示したが、これに限らず、例えば図７に示すように、ピッチ曲線３００と音量図形５００とを重ねて表示し、ＧＭ図形４００を表示しないようにしてもよい。また、これに限らず、例えば、制御部１０は、ピッチ曲線３００とＧＭ図形４００を表示せず、音量図形５００のみを表示する構成としてもよい。また、上述の実施形態では、制御部１０は、図５に例示したように、ピッチ曲線３００、ＧＭ図形４００、音量図形５００に加えて、歌詞を表す歌詞画像６００を表示したが、歌詞を表す画像を表示しない構成としてもよい。

＜変形例３＞
上述の実施形態では、制御部１０が、ユーザ歌唱音声データを解析し、音声の属性を表す属性データを生成したが、制御部１０が属性データを生成するに限らず、他の装置（例えば、通信ネットワークで接続されたサーバ装置、等）から属性データを取得する構成であってもよい。

＜変形例４＞
上述の実施形態では、制御部１０は、図５に例示したように、ピッチ曲線３００を中心として、ピッチ曲線３００の上下に、その幅が上下対象である音量図形５００を表示した。音量図形５００の表示態様はこれに限らず、例えば、図８に例示するように、制御部１０が、ピッチ曲線３００の上側にのみ、音量図形５００を表示するようにしてもよい。図８に示す例においても、上述の実施形態と同様に、音量図形５００の縦方向の幅によって音量の大小が表され、幅が大きいほど音量が大きいことが示される。すなわち、制御部１０は、表示の基準となる属性（以下「基準属性」という）以外の属性を表す図形を、ひとつの軸方向における基準属性の座標がその図形の中心座標、上端座標又は下端座標となるように表示してもよい。また、これに限らず、例えば、ピッチ曲線３００と音量図形５００との縦軸方向における表示位置が予め定められた距離となるように、ピッチ曲線３００と音量図形５００との距離を一定に保って表示してもよい。要は、制御部１０は、第１の属性の値を時間の経過を示す第１の軸と交差する第２の軸に沿った方向の座標によって表し、この座標（上述の実施形態ではピッチ曲線３００の座標）に応じた位置に、第２の軸方向の長さとして第２の属性の値を示す図形を表示するものであればどのようなものであってもよい。

また、上述の実施形態では、音量とピッチとの２種類の属性を表示する場合について説明したが、表示する属性の数は２に限らず、これより多くてもよい。例えば、図９に示すように、制御部１０が、音量、ピッチ、明瞭度の３種類の属性を共通の時間軸を用いて表示するようにしてもよい。図９に例示する画像において、ピッチ曲線３００は上述の実施形態と同様である。一方、音量図形５００は、ピッチ曲線３００の縦軸方向の上部に表示され、その縦方向の幅によって音量の大きさが表される。また、明瞭度図形７００は、音声の明瞭度を表す図形であり、その縦方向の幅によって明瞭度が表される。明瞭度図形７００の縦方向の幅が大きいほど明瞭度が高いことを示す。明瞭度図形７００は、ピッチ曲線３００を基準として、ピッチ曲線３００の下側に表示される。また、属性が３以上の場合は、制御部１０は、例えば、ピッチ曲線３００の上下に各属性を表す図形を表示し、かつ、ピッチ曲線３００との距離が予め定められた距離となる位置に他の属性を表す図形を表示するようにしてもよい。

また、上述の実施形態では、ピッチ曲線３００を基準位置として音量図形５００を表示するようにしたが、基準とする属性はピッチに限らず、音声の他の属性であってもよい。例えば、横軸に時間軸、縦軸に音量を表す音量曲線を表示し、この音量曲線を基準位置として、縦軸の方向の表示幅によってピッチの高さが表されるピッチ図形を、音量曲線に重ねて表示してもよい。要は、制御部１０が、第１の属性が縦軸で示され、時間の経過が横軸で示される座標に基準となる図形を表示するとともに、この座標に応じた位置に、縦軸方向の長さによって第２の属性の値が示される図形を表示すればよい。

また、上述の実施形態では、縦軸方向の長さによって音量を表す音量図形を用いたが、これに代えて、色（色彩や色の濃淡、等）によって音量を表す図形を用いてもよい。この場合は、例えば、制御部１０が、音量が大きいほど音量図形５００の色が濃くなる一方、音量が小さいほど音量図形５００の色が薄くなるように表示してもよい。また、例えば、制御部１０が、音量が大きいほど音量図形５００の色彩を赤くし（すなわち赤要素の明度を高くして他の要素の明度を低くし）、音量が小さいほど青くし（すなわち青要素の明度を高くして他の要素の明度を低くし）てもよい。この場合も、上述した実施形態と同様に、制御部１０は、ピッチ曲線３００の座標に応じた位置に音量図形を表示する。

また、上述の実施形態では、制御部１０は、横軸を時間軸とし、縦軸をピッチとして、ピッチ曲線３００や音量図形５００を表示したが、軸のとり方はこれに限らず、他の態様であってもよい。要は、制御部１０が、ひとつの軸方向の表示位置によって基準属性の値が示されるとともに時間軸によって時間の経過が示される図形を表示するものであればどのようなものであってもよい。

＜変形例５＞
上述の実施形態では、制御部１０が、歌唱音声データをユーザ歌唱音声データ記憶領域２５に記憶し、歌唱が終了した後に解析結果の表示処理を行うようにしたが、これに限らず、歌唱中にリアルタイムで解析結果の表示処理を行うようにしてもよい。

また、上述の実施形態では、制御部１０が、カラオケ楽曲の再生を行うともにユーザの歌唱音声を録音し、カラオケ楽曲の再生が終了するとユーザ歌唱音声データの解析を行って解析結果を表示したが、これに限らず、制御部１０が、予め録音されたユーザ歌唱音声データ（すなわち予め記憶部２０に記憶された音声データ）に対して解析処理を施し、解析結果の表示処理を行うようにしてもよい。

また、上述の実施形態では、制御部１０は、歌唱音声のピッチとＧＭデータのピッチとを比較し、比較結果に応じて評価処理を行ったが、評価処理の態様はこれに限らず、他の態様であってもよい。例えば、制御部１０が、ＦＦＴなどを用いた周波数分析、音量分析などの公知の様々な手法を用い、評価項目について評価値、つまり評価結果を算出するようにしてもよい。

また、上述の実施形態では、制御部１０は、歌唱者の歌唱音声を解析したが、歌唱者の歌唱音声に代えて、演奏者による楽器の演奏音を評価してもよい。本実施形態にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。

＜変形例６＞
上述の実施形態において、通信ネットワークで接続された２以上の装置が、上記実施形態のカラオケ装置１００に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置１００を実現するようにしてもよい。例えば、マイクロホンやスピーカ、表示装置及び操作部等を備えるコンピュータ装置と、音声の解析処理を行うサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、例えば、コンピュータ装置が、マイクロホンで収音された音声をオーディオ信号に変換してサーバ装置に送信し、サーバ装置が、受信したオーディオ信号を解析し、解析結果をコンピュータ装置に送信してもよい。

＜変形例７＞
上述の実施形態では、本発明に係る表示制御装置を、カラオケ伴奏を再生するととともに歌唱音声を採点するカラオケ装置に適用した場合について説明したが、本発明に係る表示制御装置が適用される装置はカラオケ装置に限らず、音声データを解析して解析結果を表示する装置であればどのような装置であってもよい。例えば、音声の解析結果を表示する装置、音声合成や編集を行う装置や、語学学習を支援する機能を備えた装置等、種々の装置に適用可能である。例えば、音声編集を行う装置の場合でも、上述の実施形態と同様に、音声の複数の属性を共通する時間軸を用いて同時に表示することで、ユーザは音声の複数の属性を直感的に把握することができ、音声の合成や編集を行い易い。

また、上述の実施形態では、模範となる音の属性を表す模範属性データとして、ＧＭデータを用いたが、模範となる音の属性を表すデータはＧＭデータに限らず、他のデータであってもよい。例えば、音声編集を行う装置の場合は、ユーザによって入力された楽譜情報（ピッチ、音量等を示す情報）を模範属性データとして用いてもよい。また、例えば、音声データを解析して解析結果を表示する装置の場合は、解析結果を１２音階に丸めたものを模範属性データとして用いてもよい。この場合も、上述した実施形態と同様に、制御部１０は、図５に例示したような、解析結果の属性を示す図形と模範属性データを示す図形とを表示する。要は、模範属性データは、模範となる音の属性を表すデータであればどのようなものであってもよい。

＜変形例８＞
本発明は、表示制御装置以外にも、これらを実現するための方法や、コンピュータに表示制御機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。

１０…制御部、２０…記憶部、２１…伴奏データ記憶領域、２２…映像データ記憶領域、２３…ＧＭデータ記憶領域、２５…ユーザ歌唱音声データ記憶領域、３０…操作部、４０…表示部、５０…通信制御部、６０…音声処理部、６１…マイクロホン、６２…スピーカ、７０…バス、１００…カラオケ装置、２００…サーバ装置、２１０…ネットワークストレージ、３００…ピッチ曲線、４００…ＧＭ図形、５００…音量図形

Claims

音声データの２以上の属性を示す属性データを受け取る受取部と、
前記受取部が受け取った属性データの示す２以上の属性の値の時間的な変化を表示部に表示する表示制御部であって、第１の属性の値を時間の経過を示す第１の軸と交差する第２の軸に沿った方向の座標によって表し、当該座標に応じた位置に、前記第２の軸方向の長さとして第２の属性の値を表す第１の図形を表示する表示制御部と
を具備することを特徴とする表示制御装置。
前記表示制御部は、前記第１の軸と前記第２の軸とによって示される前記第１の属性の値を表す座標に第２の図形を表示する
ことを特徴とする請求項１に記載の表示制御装置。
前記表示制御部は、前記第１の図形を、前記第２の軸方向における前記第１の属性の座標が該第１の図形の中心座標、上端座標又は下端座標となるように表示する
ことを特徴とする請求項１又は２に記載の表示制御装置。
模範となる音の前記第１の属性を示す模範属性データを受け取る第２の受取部
を備え、
前記表示制御部は、前記第２の受取部が受け取った前記模範属性データの示す属性を表す図形を、前記第１の軸及び前記第２の軸に従った座標に表示する
ことを特徴とする請求項１乃至３のいずれか１項に記載の表示制御装置。
コンピュータに、
音声データの２以上の属性を示す属性データを受け取る受取機能と、
前記受け取った属性データの示す２以上の属性の値の時間的な変化を表示部に表示する表示制御機能であって、第１の属性の値を時間の経過を示す第１の軸と交差する第２の軸に沿った方向の座標によって表し、当該座標に応じた位置に、前記第２の軸方向の長さとして第２の属性の値を表す第１の図形を表示する表示制御機能と
を実現させるためのプログラム。