JP2007256619A

JP2007256619A - 評価装置、制御方法及びプログラム

Info

Publication number: JP2007256619A
Application number: JP2006080812A
Authority: JP
Inventors: Noriyuki Hata; 紀行畑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-03-23
Filing date: 2006-03-23
Publication date: 2007-10-04

Abstract

【課題】聴取者の主観的評価を取り入れた評価手法を提供する。
【解決手段】サーバ装置３の記憶部３２には、様々な歌唱音声（サンプル音声データ）に対して評価者が主観的に評価した結果が予め記憶されている。制御部３１は、練習者の歌唱音声（練習者音声データ）に類似する歌唱音声（サンプル音声データ）に対する評価を、その練習者の歌唱音声に対する評価としてカラオケ装置２に送信する。これにより、練習者の歌唱音声に類似する歌唱音声に対して予め用意しておいた聴取者の主観評価が、その練習者の歌唱音声に対する評価となる。
【選択図】図３

Description

本発明は歌唱や演奏を評価する技術に関する。

カラオケ装置においては、歌唱者の歌唱の巧拙を評価するための方法が種々提案されている。その評価方法の１つに、楽譜の音符を評価基準として歌唱音声を客観的に評価するものがある（例えば特許文献１，２参照）。このような客観的評価方法によれば、楽譜の内容に忠実な歌唱が高く評価されることになる。さらに、このような評価方法は歌唱だけではなく、楽器の演奏にも適用し得る。

ところで、歌唱や演奏の評価は聴取者の主観に委ねられるという一面もある。例えば歌手のように熟練した歌唱者は、楽譜の内容に忠実に従って歌唱することはほとんどなく、その多くが、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶし等の各種歌唱技法を用いたりして、歌のなかに感情の盛り上がり（情感）を表現する。このような情感は歌唱者によって様々に表現される一方、その情感表現に対する評価も聴取者の主観によって様々である。そこで、特許文献３には、サンプルとなる歌唱を複数の聴取者に聞かせた後で、その歌唱に対する評価をアンケート方式で収集し、その結果を考慮しながら聴取者の主観を取り入れた評価基準を策定するという手法が提案されている。
特開昭６２−０４０４８８号公報特許第２８９０６５９号公報特開２０００−９９０２４号公報

最近では、このような聴取者の主観を取り入れた主観的評価手法の確立が望まれている。そこで、本発明の目的は、従来とは異なる仕組みで聴取者の主観的評価を取り入れた評価手法を提供することにある。

上記課題を解決するため、本発明は、それぞれ異なる複数の歌唱音声又は演奏音の特徴を表す複数の特徴データと、各々の前記歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データとを対応付けて記憶する記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す特徴データを取得する取得手段と、前記記憶手段によって記憶されている特徴データから、前記取得手段によって取得された特徴データに類似する、１以上の特徴データを選択する選択手段と、前記選択手段によって選択された特徴データに対応付けられた評価基準データを前記記憶手段から読み出し、前記練習者の歌唱音声又は演奏音に対する評価結果として出力する出力手段とを備えることを特徴とする評価装置を提供する。この評価装置において、さらに前記歌唱音声又は演奏音を表す複数の音声データを記憶する練習者音声データ記憶手段と、複数の音声再生装置とネットワークを介してデータ通信を行う通信手段と、前記練習者音声データ記憶手段によって記憶された音声データを前記通信手段によって前記音声再生装置に配信する配信手段と、前記音声再生装置によって再生された歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データを前記音声再生装置から取得する評価基準データ取得手段と、前記歌唱音声又は演奏音の特徴を表す特徴データと、前記評価基準データ取得手段によって取得された前記評価基準データとを対応付けて前記記憶手段に記憶させる登録手段とを備えることが望ましい。

また、本発明は、それぞれ異なる複数の歌唱音声又は演奏音の特徴を表す複数の特徴データと、各々の前記歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データとを対応付けて記憶する記憶手段と、制御手段とを備えた評価装置の制御方法であって、前記制御手段が、練習者の歌唱音声又は演奏音の特徴を表す特徴データを取得する第１のステップと、前記制御手段が、前記記憶手段によって記憶されている特徴データから、前記第１のステップにおいて取得された特徴データに類似する、１以上の特徴データを選択する第２のステップと、前記制御手段が、前記第２のステップにおいて選択された特徴データに対応付けられている評価基準データを前記記憶手段から読み出し、前記練習者の歌唱音声又は演奏音に対する評価結果として出力する第３のステップとを備えることを特徴とする制御方法を提供する。さらに、本発明は、コンピュータに対して機能を実現させるプログラムとしての形態も採り得る。

本発明においては、それぞれ異なる歌唱音声又は演奏音の特徴を表す複数の特徴データと、各々の歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データとを対応付けて記憶しておき、練習者の歌唱音声又は演奏音の特徴を表す特徴データを取得すると、記憶されている特徴データから、取得された特徴データに類似する１以上の特徴データを選択し、選択した特徴データに対応付けられた評価基準データを練習者の歌唱音声又は演奏音に対する評価結果として出力する。つまり、練習者の歌唱音声や演奏音に類似する歌唱音声又は演奏音に対する聴取者の主観評価を、その練習者の歌唱音声や演奏音に対する評価として出力する。このように本発明によれば、従来とは異なる仕組みによって、聴取者の主観的評価を取り入れた評価手法を実現することができる。

次に、本発明を実施するための最良の形態を説明する。
なお、以下の説明では、評価基準を決定するためのサンプルとしての歌唱を行う者を「歌唱者」と呼び、その歌唱者の歌唱を聴取して主観的に評価する者を「評価者（聴取者）」と呼び、その主観的な評価結果に基づいて歌唱が評価される者を「練習者」と呼ぶ。

[１．構成]
図１は、本実施形態に係る評価システム１の全体構成を示すブロック図である。この評価システム１は、複数のカラオケ装置２ａ，２ｂ，２ｃと、サーバ装置３と、これらを接続するネットワーク４とを備えている。カラオケ装置２ａ，２ｂ，２ｃは、一般家庭や、カラオケボックス又は飲食店などの各種店舗に備えられており、音声データを再生して放音する音声再生装置として機能する。サーバ装置３は、練習者がカラオケ装置２ａ，２ｂ，２ｃを用いて行った歌唱を評価する評価装置として機能する。ネットワーク４は、例えばＩＳＤＮ（Integrated Services Digital Network）やインターネットであり、有線区間又は無線区間を含んでいる。図１には３つのカラオケ装置が例示されているが、この評価システム１に含まれるカラオケ装置の数は３に限定されるものではなく、これより多くても少なくてもよい。また、カラオケ装置２ａ，２ｂ，２ｃはいずれも同じ構成及び動作であるから、これらを各々区別する必要がない場合には単に「カラオケ装置２」と呼ぶことにする。

図２は、カラオケ装置２の構成を示したブロック図である。制御部２１は例えばＣＰＵであり、記憶部２２に記憶されているコンピュータプログラムを読み出して実行することにより、カラオケ装置２の各部を制御する。表示部２３は、例えば液晶ディスプレイなどであり、制御部２１の制御の下で、カラオケ装置２を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部２４は、各種のキーを備えており、押下されたキーに対応した信号を制御部２１へ出力する。マイクロフォン２５は、歌唱者が発音した音声を収音する。音声処理部２６は、マイクロフォン２５によって収音された音声（アナログデータ）をデジタルデータに変換して制御部２１に出力する。スピーカ２７は、音声処理部２６から出力される音声を放音する。通信部２８は、制御部２１の制御の下で、ネットワーク４を介してサーバ装置３とデータ通信を行う。

記憶部２２は、例えばハードディスクなどの大容量の記憶手段であり、伴奏・歌詞データ記憶領域２２ａと、練習者音声データ記憶領域２２ｂと、楽譜音データ記憶領域２２ｃとを有している。伴奏・歌詞データ記憶領域２２ａには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが対応付けられて記憶されている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式であり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部２３に表示される。練習者音声データ記憶領域２２ｂには、マイクロフォン２５から音声処理部２６を経てＡ／Ｄ変換された音声データが練習者音声データとして記憶される。この練習者音声データは例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式である。楽譜音データ記憶領域２２ｃには、曲の楽譜によって規定された歌唱音を表す楽譜音データが記憶されている。この楽譜音データは、例えばＭＩＤＩ形式などのデータ形式であり、歌唱音のピッチとその発音タイミングとを含んでいる。この楽譜音データは、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの、歌唱における各種技法を評価するために利用される。

次に、図３は、サーバ装置３の構成を示したブロック図である。
図３において、制御部３１は例えばＣＰＵであり、記憶部３２に記憶されているコンピュータプログラムを読み出して実行することにより、サーバ装置３の各部を制御する。記憶部３２は、例えばハードディスクなどの大容量の記憶手段であり、サンプル音声データ記憶領域３２ａと、評価基準データ記憶領域３２ｂと、練習者音声特徴データ記憶領域３２ｃと、楽譜音データ記憶領域３２ｄとを有している。通信部３３は、制御部３１の制御の下でネットワーク４を介してカラオケ装置２とデータ通信を行う。

サンプル音声データ記憶領域３２ａには、それぞれ異なる複数の歌唱者の歌唱音声を表す音声データが記憶されている。この音声データは、評価サンプルとしての歌唱音声を表すものであるので、「サンプル音声データ」という。このサンプル音声データはサーバ装置３からカラオケ装置２へと送信され、カラオケ装置２によって歌唱音声として再生される。評価者はこの歌唱音声を聴取し、カラオケ装置２に表示される例えば図４に示すような入力画面にその評価を入力する。この評価は、「良い」、「やや良い」、「どちらとも言えない」、「やや悪い」、「悪い」の５段階評価である。入力された評価の結果は、カラオケ装置２からサーバ装置３へと送信され、評価基準データとして評価基準データ記憶領域３２ｂに記憶される。サーバ装置３はこのようにして記憶した評価基準データに基づいて練習者の歌唱を評価する。

ここで、図５は、評価基準データの一例を示す図である。図５では、曲ＩＤ（Identification：識別情報）「ｍ１」が割り当てられた曲を、歌唱者ＩＤ「ａ１」が割り当てられた歌唱者が歌唱し、評価者ＩＤ「ｐ１」、「ｐ２」、「ｐ３」・・・が割り当てられた評価者がその歌唱を評価した場合を例示している。この評価基準データには、評価者の属性（性別・年齢など）や、評価がなされた日時（評価基準データが生成された日時であり、以下、評価日時という）も含まれている。なお、以下では、曲ＩＤ「ｍ１」が割り当てられた曲を曲ｍ１と呼び、歌唱者ＩＤ「ａ１」が割り当てられた歌唱者を歌唱者ａ１と呼び、評価者ＩＤ「ｐ１」、「ｐ２」、「ｐ３」・・・が割り当てられた評価者をそれぞれ評価者ｐ１，ｐ２，ｐ３と呼ぶ。なお、曲ＩＤとしては例えば曲名やカラオケ曲ナンバーなどの識別情報を用いればよい。また、歌唱者ＩＤや評価者ＩＤは、例えばカラオケボックスなどの店舗が発行した会員番号やユーザＩＤなどの識別情報であってもよいし、歌唱や評価が行われた場所（カラオケボックスの部屋番号や店舗の店番号）などであってもよい。また、歌唱が行われた日時や評価がされた日時を、歌唱者ＩＤや評価者ＩＤとして用いることもできる。

この図５に示すように、曲ｍ１のＡメロ、Ｂメロ、サビの音程（ピッチ）、タイミング、音量（パワー）、技巧、声質（スペクトル）の評価及び総合評価が評価者ｐ１，ｐ２，ｐ３・・・の各々によってなされている。例えば曲ｍ１のＡメロ、Ｂメロ、サビの音程（ピッチ）に対する評価者ｐ１による評価レベルは「４」、「３」、「４」である。同様に、曲ｍ１のＡメロ、Ｂメロ、サビに対する評価者ｐ２による評価レベルは「５」、「５」、「５」であり、評価者ｐ３による評価レベルは「２」、「２」、「２」である。なお、この評価レベルの値は大きいほど良い評価を意味している。つまり、評価レベル１が図４の「悪い」に相当し、評価レベル２が図４の「やや悪い」に相当し、評価レベル３が図４の「どちらとも言えない」に相当し、評価レベル４が図４の「やや良い」に相当し、評価レベル５が図４の「良い」に相当する。

さらに、上述した複数の評価者ｐ１，ｐ２，ｐ３・・・による評価の結果が集計され、その集計値が図５の「集計結果」の項に記述される。図示の例では、例えば歌唱者ａ１が曲ｍ１を歌唱した際のＡメロの音程（ピッチ）に対しては、合計２００人の評価者のうち、３４人の評価者が評価レベル１と評価し、３６人の評価者が評価レベル２と評価し、４５人の評価者が評価レベル３と評価し、５６人の評価者が評価レベル４と評価し、２９人の評価者が評価レベル５と評価していることを示している。つまり、評価レベル４（やや良い）と評価した評価者が最も多いというわけである。一方、歌唱者ａ１が曲ｍ１を歌唱した際のＢメロの音程（ピッチ）に対しては、合計２００人の評価者のうち、４人の評価者が評価レベル１と評価し、２７人の評価者が評価レベル２と評価し、８５人の評価者が評価レベル３と評価し、６４人の評価者が評価レベル４と評価し、２０人の評価者が評価レベル５と評価していることを示している。つまり、評価レベル３（どちらとも言えない）と評価した評価者が最も多い。また、歌唱者ａ１が曲ｍ１を歌唱した際のサビの音程（ピッチ）に対しては、合計２００人の評価者のうち、２７人の評価者が評価レベル１と評価し、３５人の評価者が評価レベル２と評価し、３５人の評価者が評価レベル３と評価し、４８人の評価者が評価レベル４と評価し、５５人の評価者が評価レベル５と評価していることを示している。つまり、評価レベル５（良い）と評価した評価者が最も多い。
以上のような評価基準データが評価基準データ記憶領域３２ｂにそれぞれの曲毎に多数記憶される。

再び図３の説明に戻る。
練習者音声特徴データ記憶領域３２ｃには、カラオケ装置２から送信されてくる練習者音声データの特徴を表す練習者音声特徴データが記憶される。楽譜音データ記憶領域３２ｄには、カラオケ装置２に記憶されている楽譜音データと同様に、曲の楽譜によって規定された歌唱音を表す楽譜音データが記憶されている。この楽譜音データも、歌唱における各種技法を評価するために利用される。

［２．動作］
次に、本実施形態の動作説明を行う。
本実施形態の動作は、大別して、歌唱者のサンプル音声データをサーバ装置３に登録する動作と、サンプル音声データに対する評価者の評価結果を収集し、これを評価基準データとしてサーバ装置３に蓄積する動作と、蓄積した評価基準データを用いて練習者の歌唱を評価する動作とに分かれる。以下、これらを順番に説明する。

［２−１．サンプル音声データの登録］
まず、歌唱者のサンプル音声データをサーバ装置３に登録する動作について説明する。
図６のシーケンス図において、歌唱者は、カラオケ装置２の操作部２４を操作して、自身の歌唱をサンプル音声データとして登録することを指示し、さらに所望する曲の曲ＩＤを指定して伴奏データの再生を指示する。このとき、歌唱者は自身の歌唱者ＩＤを操作部２４によって入力するか又は制御部２１が歌唱者ＩＤを生成する。そして、制御部２１は、上記の指示に応じてカラオケ伴奏を開始する（ステップＳ１）。即ち、制御部２１は、伴奏・歌詞データ記憶領域２２ａから伴奏データを読み出して音声処理部２６に供給し、音声処理部２６は、伴奏データをアナログ信号に変換し、スピーカ２７に供給して放音させる。同時に、制御部２１は、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示部２３に表示させてから、伴奏・歌詞データ記憶領域２２ａから歌詞データを読み出して歌詞テロップを表示部２３に表示させる。歌唱者は、表示された歌詞テロップを参照しつつ、スピーカ２７から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン２５によって収音されて音声信号に変換され、音声処理部２６へと出力される。音声処理部２６によってＡ／Ｄ変換された音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部２２に記憶（録音）されていく（ステップＳ２）。

伴奏データの再生が終了すると、制御部２１は歌唱者の音声を録音する処理を終了する。次に、制御部２１は、記憶部２２に記憶されている音声データを、上記の曲ＩＤ及び歌唱者ＩＤと共に通信部２８からサーバ装置３に送信する（ステップＳ３）。サーバ装置３の制御部３１は、通信部３３によって音声データ、曲ＩＤ及び歌唱者ＩＤが受信されたことを検知すると、この音声データをサンプル音声データとして記憶部３２のサンプル音声データ記憶領域３２ａに記憶させるとともに、そのサンプル音声データに対応付けて曲ＩＤ及び歌唱者ＩＤを記憶する（ステップＳ４）。次に、制御部３１は、記憶部３２に記憶されているサンプル音声データを所定時間長のフレーム単位に分離し、フレーム単位でピッチ、スペクトル及びパワーを算出する（ステップＳ５）。

次いで、制御部３１は、サンプル音声データから技法を抽出する（ステップＳ６）。前述したように、技法には、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」がある。これらのうち、「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加えるうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。

まず、制御部３１は、これらの各技法が用いられている区間を特定（検出）する。例えば「ビブラート」及び「しゃくり」については、サンプル音声データのピッチに基づいて検出することができる。また、「こぶし」及び「ファルセット」については、サンプル音声データのスペクトルに基づいて検出することができる。また、「ため」及び「つっこみ」については、サンプル音声データのピッチと、楽譜音データ記憶領域３２ｄに記憶されている楽譜音データとに基づいて検出することができる。また、「息継ぎ」については、サンプル音声データのパワーと、楽譜音データ記憶領域３２ｄに記憶されている楽譜音データとに基づいて検出することができる。

具体的な検出方法は以下のとおりである。
制御部３１は、サンプル音声データと楽譜音データとの対応関係と、サンプル音声データから算出されたピッチとに基づいて、サンプル音声データに含まれる音の開始時刻と当該音に対応する楽譜音データの音の開始時刻とが異なる区間を特定する。ここで、制御部３１は、サンプル音声データのピッチの変化タイミングが楽譜音データのピッチの変化タイミングよりも早く現れている区間、すなわちサンプル音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。制御部３１は、このようにして特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付ける。

逆に、制御部３１は、サンプル音声データと楽譜音データとの対応関係と、サンプル音声データから算出されたピッチとに基づいて、サンプル音声データのピッチの変化タイミングが楽譜音データのピッチの変化タイミングよりも遅れて現れている区間、すなわちサンプル音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。

また、制御部３１は、サンプル音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。

また、制御部３１は、サンプル音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、制御部３１は、サンプル音声データと楽譜音データとの対応関係に基づいて、サンプル音声データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。

また、制御部３１は、サンプル音声データと楽譜音データとの対応関係と、サンプル音声データから算出されたパワーとに基づいて、楽譜音データが有音である区間であってサンプル音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。

また、制御部３１は、サンプル音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、制御部３１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、サンプル音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、サンプル音声データの音域や、サンプル音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。

また、制御部３１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。

以上のようにして、制御部３１は、音声データから各技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付ける。そして、制御部３１は、ステップＳ５にて算出したピッチ、スペクトル及びパワーと、ステップＳ６にて生成した区間情報及び種別情報とを含むサンプル音声特徴データを生成する（ステップＳ７）。次に、制御部２１は、生成したサンプル音声特徴データを、曲ＩＤ及び歌唱者ＩＤと共にサンプル音声データ記憶領域３２ａに記憶する（ステップＳ８）。
以上のような処理を経ることで、サーバ装置３のサンプル音声データ記憶領域３２ａには、サンプル音声データ、曲ＩＤ、歌唱者ＩＤ及びサンプル音声特徴データが互いに対応付けて記憶されることになる。

［２−２．評価基準データの収集・蓄積］
次に、サンプル音声データに対する評価者の評価結果を収集し、これを評価基準データとしてサーバ装置３に蓄積する動作について説明する。
図７のシーケンス図において、評価者（聴取者）は、カラオケ装置２の操作部２４を操作し、曲ＩＤを指定して歌唱の評価を行うことを指示する。制御部２１は、指定された曲ＩＤを通信部２８からサーバ装置３に送信する（ステップＳ１１）。サーバ装置３の制御部３１は、曲ＩＤを受信すると、サンプル音声データ記憶領域３２ａにおいてその曲ＩＤに対応付けられて記憶されている全ての歌唱者ＩＤを読み出し、カラオケ装置２に送信する（ステップＳ１２）。カラオケ装置２の制御部２１は、受信した歌唱者ＩＤを図８に示すようにして一覧形式で表示部２３に表示させる（ステップＳ１３）。評価者は、このようにして表示された歌唱者ＩＤの中から、カラオケ装置２の操作部２４を操作して所望の歌唱者ＩＤを１つ指定し、「この歌唱者を評価する」というソフトボタンを選択する。制御部２１は、この操作を受け付けると、指定された歌唱者ＩＤをサーバ装置３に送信する（ステップＳ１４）。

サーバ装置３の制御部３１は、受信した歌唱者ＩＤに対応付けられたサンプル音声データをサンプル音声データ記憶領域３２ａから読み出し、カラオケ装置２に送信する（ステップＳ１５）。カラオケ装置２の制御部２１は、受信したサンプル音声データに基づき、歌唱者の音声を再生する（ステップＳ１６）。即ち、制御部２１は、サンプル音声データを音声処理部２６に供給し、音声処理部２６がそのサンプル音声データをアナログ信号に変換してスピーカ２７から放音させる。

サンプル音声データの再生が終了すると、制御部２１は、前述した図４に示すような評価画面を表示部２３に表示させ、評価者に対して評価を行うよう促す（ステップＳ１７）。そこで、評価者は、Ａメロ、Ｂメロ、サビの各々に対し、音程、タイミング、音量、技巧、声質及び総合評価の各評価項目について、評価レベル５（良い）〜評価レベル１（悪い）のいずれかを選択すると共に、自身の性別や年齢といった属性を入力する。このとき、制御部２１が評価者ＩＤを生成するか又は評価者が自身の評価者ＩＤを操作部２４によって入力する。そして、評価者が「この内容で評価する」というソフトボタンを選択すると、制御部２１は、選択された各評価レベルと、入力された属性を表す属性データを、評価者ＩＤ及び評価日時と共に通信部２８からサーバ装置３に送信する（ステップＳ１８）。なお、このときの評価日時は、制御部２１が図示せぬ計時プログラムを実行することで得られる現在日時を用いればよい。

サーバ装置３の制御部３１は、受信した評価レベル、属性データ、評価者ＩＤ及び評価日時を評価基準データ記憶領域３２ｂに記憶する（ステップＳ１９）。そして、制御部３１は、記憶した各評価レベルに基づいて、図５に例示した集計結果を更新する（ステップＳ２０）。
以上のように、評価者による評価が行われる度に、その評価結果がサーバ装置３に送信され、評価基準データとして記憶される。

［２−３．歌唱の評価］
次に、評価基準データを用いて練習者の歌唱を評価する動作について説明する。
図９のシーケンス図において、練習者は、カラオケ装置２の操作部２４を操作して歌唱したい曲の曲ＩＤを選択し、カラオケ伴奏の再生を指示する。制御部２１は、この操作に応じてカラオケ伴奏を開始する（ステップＳ２１）。即ち、制御部２１は、伴奏・歌詞データ記憶領域２２ａから指定された曲ＩＤに対応する伴奏データを読み出して音声処理部２６に供給し、音声処理部２６がその伴奏データをアナログ信号に変換し、スピーカ２７から放音させる。同時に、制御部２１は、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示部２３に表示させてから、伴奏・歌詞データ記憶領域２２ａから歌詞データを読み出して歌詞テロップを表示部２３に表示させる。練習者は、表示された歌詞テロップを参照しつつ、スピーカ２７から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン２５によって収音されて音声信号に変換され、音声処理部２６へと出力される。そして、音声処理部２６によってＡ／Ｄ変換された練習者音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部２２の練習者音声データ記憶領域２２ｂに記憶（録音）されていく（ステップＳ２２）。

伴奏データの再生が終了すると、制御部２１は練習者の歌唱音声を録音する処理を終了する。そして、制御部２１は、練習者音声データ記憶領域２２ｂに記憶された練習者音声データを所定時間長のフレーム単位に分離し、それぞれのフレーム単位でピッチ、スペクトル及びパワーを算出する（ステップＳ２３）。次いで、制御部２１は、練習者音声データから技法を抽出する（ステップＳ２４）。即ち、練習者音声データから各種技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付ける。そして、制御部２１は、算出したピッチ、スペクトル及びパワーと、抽出した技法の区間情報及び種別情報を全て含む練習者音声特徴データを生成する（ステップＳ２５）。この後、制御部２１は、生成した練習者音声特徴データを曲ＩＤとともに通信部２８からサーバ装置３に送信する（ステップＳ２６）。

サーバ装置３の制御部３１は、練習者音声特徴データ及び曲ＩＤを受信すると、受信した練習者音声特徴データと、サンプル音声データ記憶領域３２ａに上記曲ＩＤと対応付けて記憶されている全てのサンプル音声データとを比較し、これらサンプル音声特徴データの中から、練習者音声特徴データとの類似度が最も高いサンプル音声特徴データを選択する（ステップＳ２７）。より具体的には、制御部３１は、Ａメロ、Ｂメロ、サビの各々の歌唱部分について、練習者音声特徴データが表すピッチと、各サンプル音声特徴データが表すピッチとの差分を各々の歌唱部分の全域にわたって積分する。同様に、制御部３１は、練習者音声特徴データが表すパワーと、各サンプル音声特徴データが表すパワーとの差分をＡメロ、Ｂメロ、サビの歌唱部分の全域にわたって積分する。スペクトルやタイミングについても同様である。また、制御部３１は、技法についても上記と同様に、練習者音声特徴データが表す各種技法の区間情報によって表わされる区間と、各サンプル音声特徴データが表す各種技法の区間情報によって表される区間との差分を積分する。もちろん、同じ技法が使われてい区間同士を比較する。そして、制御部３１は、上記のようにして得られた積分値をサンプル音声特徴データ毎に累算し、その累算値が最も小さいサンプル音声特徴データを、練習者音声データとの類似度が最も高いものとして選択する。

次に、サーバ装置３の制御部３１は、評価基準データ記憶領域３２ｂから、選択したサンプル特徴データに対応する評価基準データ（即ち図５に例示したような集計結果）を読み出し（ステップＳ２８）、読み出した集計結果をカラオケ装置２に送信（出力）する（ステップＳ２９）。カラオケ装置２の制御部２１は、受信した集計結果を図１０に示すような形態で、表示部２３に表示させる（ステップＳ３０）。図１０に示す例では、前述した歌唱者ａ１が曲ｍ１を歌唱した際のＡメロに対する評価、つまり音程に対しては、合計２００人の評価者のうち、３４人の評価者が評価レベル１（悪い）と評価し、３６人の評価者が評価レベル２（やや悪い）と評価し、４５人の評価者が評価レベル３（どちらとも言えない）と評価し、５６人の評価者が評価レベル４（やや良い）と評価し、２９人の評価者が評価レベル５（良い）と評価している場合が示されている。なお、図１０にはＡメロの評価のみを示しているが、図中の「Ｂメロの評価」と表記されたソフトボタンを選択すれば、図１０と同様の表示形態でＢメロの歌唱に対する評価が表示されるし、「サビの評価」と表記されたソフトボタンを選択すれば、図１０と同様の表示形態でサビの歌唱にに対する評価が表示されるようになっている。
練習者は、このような評価結果を参照することで、自らの歌唱と似ている歌唱者に対する評価を、自らの歌唱に対する評価に置き換えて認識することができる。

図９に示したシーケンスは、評価者の属性や評価日時を指定しない場合の動作例を表したものであったが、以下に説明するように、練習者が評価者の属性や評価日時を指定することもできる。具体的には、図９のステップＳ２２の練習者音声の録音が終了した段階で、制御部２１は、図１１に示すような画面を表示する。この画面では練習者が評価者の属性を指定することができる。例えば評価者の性別を選択する欄においては、「男性」、「女性」、「性別の指定無し」といった選択肢が表示されるので、練習者はこれらのうちの所望の選択肢を指定すればよい。また、評価者の年齢を選択する欄では、「１０代」、「２０代」、「３０代」、「４０代」、「５０代」、「６０代以上」、「年齢指定無し」といった選択肢が表示されるので、練習者はこれらのうちの所望の選択肢を指定すればよい。

さらに、この画面では、練習者が評価日時の範囲を指定することもできる。これは、例えば２００６年における自らの歌唱を、その歌唱時点から３０年ほど過去に遡った１９８０年代ではどのように評価されるか、といったことを練習者が知りたいような場合である。主観的な評価は、その時々の時代背景や流行の推移とともに様々に変化するから、同じ歌唱音声であっても、或る年代では良い歌唱であると評価される一方、別の年代ではあまり評価されないといった事態が起こり得る。そこで、練習者が評価日時の範囲を自由に指定できるようにすれば、自らの歌唱がどの時代の評価基準にマッチしたものかを知ることができ、面白みが増す。図１１に示す例の場合、練習者は、評価日時を選択する欄において、「１９６０年代」、「１９７０年代」、「１９８０年代」、「１９９０年代」、「２０００年代」、「指定無し」といった選択肢から、所望する評価日時の範囲を指定すればよい。なお、この評価システム１が実施される以前の評価基準データは、評価システム１によって各評価者から収集することはできないので、例えば過去の各年代において人気を博した歌手の歌い方から、システム設計者が擬似的に過去の評価基準データを生成し、これを記憶部３２に記憶させておけばよい。

そして、練習者がこれらの選択肢を選択してから、「これで評価してもらう」というソフトボタンを選択すると、制御部２１は、図９のステップＳ２３，Ｓ２４，Ｓ２５の処理を経た後、ステップＳ２６において、練習者音声特徴データおよび曲ＩＤと共に、練習者によって選択された評価者の属性を表す属性データや評価日時をサーバ装置３に送信する。

サーバ装置３の制御部３１は、上記の各種データを受信すると、図９のステップＳ２７の処理を経て、練習者音声データとの類似度が最も高いサンプル音声特徴データを選択する。そして、制御部３１は、ステップＳ２８において、選択したサンプル特徴データと対応する評価基準データのうち、上記属性データによって示される属性条件に合致し、且つ、指定された評価日時の範囲（年代）に属する評価日時に対応する評価基準データを評価基準データ記憶領域３２ｂから読み出し、それらを集計する。そして、制御部３１は、ステップＳ２９において、その集計結果をカラオケ装置２に送信（出力）する。カラオケ装置２の制御部２１は、ステップＳ３０において、受信した集計結果を表示部２３に表示させる。

以上説明したように本実施形態によれば、様々な歌唱音声（サンプル音声データ）に対して評価者が主観的に評価した結果を予め記憶しておき、練習者の歌唱音声（練習者音声データ）に類似する歌唱音声（サンプル音声データ）に対する評価を、その練習者の歌唱音声に対する評価として出力する。これにより、評価者の主観的評価を取り入れた評価手法を実現することができる。

［３．変形例］
上述した実施形態を次のように変形してもよい。
［３−１］上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、上述したサンプル音声データに代えてサンプルとなる演奏音データが用いられ、練習者音声データに代えて練習者の演奏音を表す演奏音データが用いられる。また、伴奏・歌詞データ記憶領域２２ａには、練習したい楽器（例えばギター）以外の楽器（例えばベースやドラム）の演奏データが記憶されるし、楽譜音データ記憶領域２２ｃ、３２ｄには、楽譜に演奏音として規定された楽譜音データが記憶される。サーバ装置３の制御部３１は、これらのデータに基づき、上記と同様の処理を経て練習者の演奏を評価する。

［３−２］上述した実施形態においては、練習者音声特徴データと最も類似度が高いサンプル音声特徴データを１つ選択するようになっていたが、選択するサンプル音声特徴データの数は１に限定されるものではなく、類似度が高い順から複数のサンプル音声特徴データを選択し、選択したそれぞれのサンプル音声特徴データに対応する評価基準データ（集計結果）を出力するようにしてもよい。また、実施形態では、練習者音声特徴データと、各サンプル音声特徴データとの差分の積分値を用いて類似度を判定していたが、例えば、多次元空間上で、練習者音声特徴データの座標と各サンプル音声特徴データの座標とのユークリッド距離を算出し、そのユークリッド距離が最小となるサンプル音声特徴データを、最も類似度が高いものとして選択するようにしてもよい。

［３−３］上述した実施形態においては、サンプル音声特徴データや練習者音声特徴データとして、音声のピッチ、タイミング、パワー、技法及びスペクトルの全てを用いたが、これらの少なくともいずれかを用いるだけでもよいし、さらにこれら以外の特徴要素を用いても良い。また、これらのうち、どの特徴要素を用いるかを練習者が操作部２４を用いて選択できるようにしてもよい。同様に、各種の技法のうちいずれかを練習者が選択できるようにしてもよい。

［３−４］また、上述した実施形態においては、練習者音声特徴データは、カラオケ装置２の制御部２１が生成するようになっていたが、これに代えて、サーバ装置３の制御部３１が生成するようにしてもよい。また、カラオケ装置２の制御部２１が練習者音声特徴データの入力を促し、練習者が予め用意しておいた練習者音声特徴データを入力するようにしてもよい。この場合、例えば、制御部２１が、練習者音声特徴データの入力を促す画面を表示部２３に表示させ、練習者は、例えばＵＳＢ（Universal Serial Bus）等のインタフェースを介してカラオケ装置２に練習者音声特徴データを入力するようにすればよい。この場合、事前にパーソナルコンピュータ等の装置で練習者音声特徴データを生成するようにしておけばよい。この際も、上述した実施形態と同様に、パーソナルコンピュータが、マイクロフォンで練習者の音声を収音して、収音した音声を分析して練習者音声特徴データを生成する。また、カラオケ装置２にＲＦＩＤリーダを設けて、練習者音声特徴データが書き込まれたＲＦＩＤをカラオケ装置２のＲＦＩＤリーダが読み取るようにしてもよい。

［３−５］評価基準データ（集計結果）を出力する形態は、表示に限らず、音声メッセージを出力するような形態であってもよい。また、集計結果を表すメッセージを電子メール形式で練習者のメール端末に送信するという形態であってもよい。また、メッセージを記憶媒体に出力して記憶させるようにしてもよく、この場合、練習者はコンピュータを用いてこの記憶媒体から評価結果を読み出させることで、それを参照することができる。要は、練習者に対して何らかの手段で評価結果を伝えられる（出力する）ものであればよい。

［３−６］実施形態において練習者音声データを記憶する際には歌詞を表示し、さらに伴奏データを再生しながら練習者に歌唱させる、所謂カラオケ歌唱を行うようにしていたが、これは必ずしも必要ではない。つまり、練習者が歌詞の表示や伴奏データの再生が無いままで歌唱し、それを録音して評価するようにしてもよい。歌唱能力が相当に高い練習者であっても、歌詞の表示や伴奏が無い状態でうまく歌唱することは容易ではないから、練習者の歌唱能力をより厳密に評価することが可能となる。

［３−７］実施形態では、それぞれの評価者による評価をすべて均等に取り扱っていたが、これらの評価に重み付けを行ってもよい。
例えば、各々の評価者の評価能力を判定し、その評価能力に応じて評価基準データに重み付けを行う。具体的には、サーバ装置３の制御部３１は、事前に評価者に対して評価能力の試験を行い、その評価能力を複数レベル（例えば０．１，０．２，０．３，・・・０．９，１．０の計１０レベル）に区分する。そして、そのレベル値を評価者ＩＤに対応付けて記憶部３２に記憶しておく。そして、制御部３１は、評価者によって練習者音声が評価され、その評価結果に基づいて人数を集計する場合、それぞれの上記レベル値を乗算して集計する。例えば、評価レベルが９レベル（レベル値が０．９）の場合、その評価者の評価を０．９人分として取り扱うのである。
また、各評価者の評価能力を事前に判定しておく手間が煩雑であれば、練習者が「評価者」となって他人の歌唱を評価する場合に限って、その練習者の歌唱能力のレベルを評価能力のレベルとしてもよい。つまり、歌唱が巧い人は他人の歌唱に対する評価のレベルも高いであろう、という考え方である。この場合、サーバ装置３の制御部３１は、図５に示したような集計結果を参照して、評価レベル１の集計結果（人数）に「１」を乗算し、評価レベル２の集計結果に「２」を乗算し、評価レベル３の集計結果に「３」を乗算し、評価レベル４の集計結果に「４」を乗算し、評価レベル５の集計結果に「５」を乗算して、これら全ての乗算結果を加算する。そして、制御部３１は、この加算結果を、評価レベル１〜５の全ての評価者の人数（図５では２００人）に「５」を乗算した値で除する。このときの値Ｒ（０≦Ｒ≦１）を評価能力のレベル値とし、そのレベル値を評価者（即ち練習者）に割り当てられた評価者ＩＤに対応付けて記憶部３２に記憶しておく。練習者（即ち評価者）によって他人の練習者音声が評価され、その評価結果に基づいて人数を集計する場合には、制御部３１は、上記レベル値を乗算して集計する。つまり前述した手法と同様に、例えば評価レベルのレベル値が０．９の場合には、その評価者（練習者）の評価を０．９人分として取り扱う。

また、上記の変形例［３−２］で述べたように、類似度が高い順から複数のサンプル音声特徴データを選択する場合、選択された複数のサンプル音声特徴データに対応付けられた複数の評価基準データに対して、上記の類似度に応じた重み付けを施してもよい。例えば類似度が高い順から３つのサンプル音声特徴データを選択する場合、制御部３１は、最も類似しているサンプル音声特徴データに対応付けられた評価基準データ（集計結果）を０．５倍し、その次に類似しているサンプル音声特徴データに対応付けられた評価基準データ（集計結果）を０．３倍し、さらにその次に類似しているサンプル音声特徴データに対応付けられた評価基準データ（集計結果）を０．２倍して、これらの合算値を評価結果として出力する。

［３−８］実施形態において、サーバ装置３はサンプル音声データからサンプル音声特徴データを抽出して事前に記憶しておいたが、そうではなくて、サーバ装置３がサンプル音声データだけを記憶しておき、評価を行う必要がある度にサンプル音声データからサンプル音声特徴データを抽出するようにしてもよい。サンプル音声データにはそのデータ自身の特徴が含まれているのだから、この変形例の場合であっても、サーバ装置３はサンプル音声データの特徴を記憶していると言える。つまり、上記のいずれの場合であっても、サーバ装置３は「それぞれ異なる複数の歌唱音声の特徴を表す複数の特徴データ」を記憶している。なお、模範音声データや練習者音声データはＷＡＶＥ形式やＭＰ３形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。

［３−９］上述した実施形態では、カラオケ装置２とサーバ装置３とが通信ネットワークで接続された評価システム１が、本実施形態に係る機能の全てを実現するようになっている。これに対し、通信ネットワークで接続された３以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。

［３−１０］本発明においては評価者による多数の評価結果が必要である。そこで、評価者が練習者の歌唱を評価する行為に対して何らかの特典を与え、評価行為を促進するように工夫することが望ましい。具体的には、サーバ装置３の記憶部３２に、評価者に対して特典として与えられる金額乃至ポイントと、その評価者の評価者ＩＤとを対応付けて記憶しておき、制御部３１が、図７のステップＳ１９において、評価基準データと評価者ＩＤとを記憶部３２に記憶させた場合、その評価者ＩＤに対応付けられて記憶されている金額乃至ポイントを増加させて更新する。この金額乃至ポイントは、例えば評価者がカラオケ装置２を用いてカラオケ歌唱を楽しむ場合に、その利用料金の支払いに充てることができる。

［３−１１］上述した実施形態におけるカラオケ装置２の制御部２１またはサーバ装置３の制御部３１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置２またはサーバ装置３にダウンロードさせることも可能である。

システム全体の構成を示すブロック図である。カラオケ装置の構成を示すブロック図である。サーバ装置の構成を示すブロック図である。カラオケ装置によって表示される評価画面の一例を示す図である。サーバ装置によって記憶される評価基準データの一例を示す図である。練習者のサンプル音声データをサーバ装置３に登録する動作を示すシーケンス図である。サンプル音声データに対する評価者の評価結果を収集し、評価基準データとしてサーバ装置３に蓄積する動作を示すシーケンス図である。カラオケ装置によって表示される画面の一例を示す図である。評価基準データを用いて練習者の歌唱を評価する動作を示すシーケンス図である。カラオケ装置によって表示される評価画面の一例を示す図である。カラオケ装置によって表示される画面の一例を示す図である。

符号の説明

１…評価システム、２ａ，２ｂ，２ｃ…カラオケ装置、３…サーバ装置、４…ネットワーク、２１…制御部、２２…記憶部、２３……表示部、２４…操作部、２５…マイクロフォン、２６…音声処理部、２７…スピーカ、２８…通信部、３１…制御部、３２…記憶部、３３…通信部。

Claims

それぞれ異なる複数の歌唱音声又は演奏音の特徴を表す複数の特徴データと、各々の前記歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データとを対応付けて記憶する記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す特徴データを取得する取得手段と、
前記記憶手段によって記憶されている特徴データから、前記取得手段によって取得された特徴データに類似する、１以上の特徴データを選択する選択手段と、
前記選択手段によって選択された特徴データに対応付けられた評価基準データを前記記憶手段から読み出し、前記練習者の歌唱音声又は演奏音に対する評価結果として出力する出力手段と
を備えることを特徴とする評価装置。
前記出力手段は、前記評価基準データを前記練習者の歌唱音声又は演奏音に対する評価結果として前記練習者に報知することを特徴とする請求項１記載の評価装置。
前記歌唱音声又は演奏音を表す複数の音声データを記憶する練習者音声データ記憶手段と、
複数の音声再生装置とネットワークを介してデータ通信を行う通信手段と、
前記練習者音声データ記憶手段によって記憶された音声データを前記通信手段によって前記音声再生装置に配信する配信手段と、
前記音声再生装置によって再生された歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データを前記音声再生装置から取得する評価基準データ取得手段と、
前記歌唱音声又は演奏音の特徴を表す特徴データと、前記評価基準データ取得手段によって取得された前記評価基準データとを対応付けて前記記憶手段に記憶させる登録手段と
を備えることを特徴とする請求項１記載の評価装置。
前記評価基準データ取得手段は、前記評価基準データとともに、前記評価基準データが生成された日時である評価日時を取得し、
前記登録手段は、前記特徴データ及び前記評価基準データに対応付けて、前記評価日時を前記記憶手段に記憶させ、
前記選択手段は、指定された日時の範囲に属する評価日時に対応付けられて前記記憶手段に記憶されている特徴データの中から、前記取得手段によって取得された特徴データに類似する、１以上の特徴データを選択する
ことを特徴とする請求項３記載の評価装置。
前記評価基準データ取得手段は、前記評価基準データとともに、聴取者の属性を示す属性データを取得し、
前記登録手段は、前記特徴データ及び前記評価基準データに対応付けて、前記属性データを前記記憶手段に記憶させ、
前記選択手段は、指定された属性条件を満たす属性データに対応付けられて前記記憶手段に記憶されている特徴データの中から、前記取得手段によって取得された特徴データに類似する、１以上の特徴データを選択する
ことを特徴とする請求項３記載の評価装置。
前記選択手段は、前記記憶手段に記憶されている特徴データの中から、前記取得手段によって取得された特徴データとの類似度が高い順から複数の特徴データを選択し、
前記出力手段は、前記選択手段によって選択された複数の特徴データに対応付けられた評価基準データを前記記憶手段から読み出し、これらの複数の評価基準データに対して、前記類似度に応じた重み付けを施して前記評価結果として出力する
ことを特徴とする請求項１記載の評価装置。
前記聴取者の評価能力を判定する判定手段を備え、
前記記憶手段には、前記判定手段によって判定された評価能力に応じて重み付けされた評価基準データが記憶されている
ことを特徴とする請求項１記載の評価装置。
聴取者に対して与えられる金額乃至ポイントと、当該聴取者に割り当てられた聴取者識別情報とを対応付けて記憶する金額記憶手段と
前記音声に対する評価を表す評価基準データを、聴取者に割り当てられた聴取者識別情報と共に取得し、取得した前記評価基準データ及び聴取者識別情報を、前記音声の特徴を表す特徴データに対応付けて前記記憶手段に記憶させる蓄積手段と、
前記蓄積手段が評価基準データ及び前記聴取者識別情報を前記記憶手段に記憶した場合、記憶した聴取者識別情報に対応付けられて前記金額記憶手段に記憶されている金額乃至ポイントを増加させて更新する更新手段と
を備えることを特徴とする請求項１に記載の評価装置。
前記特徴データは、前記歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー、及び、歌唱又は演奏に用いられる技法の種類と区間を示す技法データのうち、少なくともいずれか一つを示すデータであることを特徴とする請求項１に記載の評価装置。
それぞれ異なる複数の歌唱音声又は演奏音の特徴を表す複数の特徴データと、各々の前記歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データとを対応付けて記憶する記憶手段と、制御手段とを備えた評価装置の制御方法であって、
前記制御手段が、練習者の歌唱音声又は演奏音の特徴を表す特徴データを取得する第１のステップと、
前記制御手段が、前記記憶手段によって記憶されている特徴データから、前記第１のステップにおいて取得された特徴データに類似する、１以上の特徴データを選択する第２のステップと、
前記制御手段が、前記第２のステップにおいて選択された特徴データに対応付けられている評価基準データを前記記憶手段から読み出し、前記練習者の歌唱音声又は演奏音に対する評価結果として出力する第３のステップと
を備えることを特徴とする制御方法。
それぞれ異なる複数の歌唱音声又は演奏音の特徴を表す複数の特徴データと、各々の前記歌唱音声又は演奏音に対する聴取者の評価を表す評価基準データとを対応付けて記憶する記憶手段を備えたコンピュータに、
練習者の歌唱音声又は演奏音の特徴を表す特徴データを取得する取得機能と、
前記記憶手段によって記憶されている特徴データから、前記取得機能によって取得された特徴データに類似する、１以上の特徴データを選択する選択機能と、
前記選択機能によって選択された特徴データに対応付けられている評価基準データを前記記憶手段から読み出し、前記練習者の歌唱音声又は演奏音に対する評価結果として出力する出力機能と
を実現させるプログラム。