JP2008180794A

JP2008180794A - データ再生装置

Info

Publication number: JP2008180794A
Application number: JP2007012746A
Authority: JP
Inventors: Takahiro Tanaka; 孝浩田中
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-01-23
Filing date: 2007-01-23
Publication date: 2008-08-07

Abstract

【課題】ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせた歌詞テロップを表示することのできる技術を提供する。
【解決手段】映像表示装置１０の記憶部１２には、歌詞データが複数のブロックに区分されて記憶されているとともに、歌詞データに対応する歌詞の音素の並びを示す照合データがブロック毎に記憶されている。制御部１１は、映像データから歌唱者の唇の動きを検出し、検出結果から歌唱者の歌唱音声に含まれる母音の並び（パターン）を検出する。制御部１１は、検出したパターンと記憶部１２に記憶された照合パターンとを照合し、一致度に基づいて歌唱されているブロックを特定する。制御部１１は、ブロックが特定されたタイミングで、該ブロックの歌詞の映像を表す歌詞映像データの生成を開始し、生成した歌詞映像データを撮影された映像を表す映像データと合成して表示部１３に出力する。
【選択図】図１

Description

本発明は、データを再生する技術に関する。

カラオケ装置は、歌詞テロップを画面に表示するとともに、そのテロップを伴奏に合わせて順番に色変わりさせていく機能を備えている。カラオケ装置は、このような機能により、正しい歌詞を正しいタイミングで発音するように歌唱者に案内することができる。また、歌詞テロップの表示は、カラオケ装置だけでなく、テレビ放送などにおける歌番組においても用いられている。

ところで、動画像と音声のずれの補正処理を行う技術として、特許文献１には、動画像の中の音の発生を示す画像を画像分析して、第１の音の発生タイミングを検出し、音声から第２の音の発生タイミングを検出し、第１の音の発生タイミングと第２の音の発生タイミングに基づき音声と動画像のずれを測定し、測定結果分、音声を遅延させる技術が提案されている。
特開２０００−１９６９１７号公報

ところで、カラオケ装置によるカラオケ伴奏は常に一定のテンポで再生される一方、テレビ放送などの歌番組においてライブ演奏（生演奏）が行われる場合には、その時々によって演奏のテンポは異なることが多い。そのため、カラオケ装置で用いられている歌詞テロップデータをテレビ放送で用いると、歌詞テロップと実際の歌唱映像との間に時間的なずれが生じ、不自然になってしまう。一般的には、テレビ放送においては、楽曲の進行に合わせて歌詞テロップの表示をオペレータが手動で切り換えており、その作業は煩雑である。特許文献１に記載の技術では、動画像と音声のずれを補正することはできるものの、歌詞テロップの表示タイミングをライブ演奏に合わせて補正することはできない。
また、ライブ演奏ではその時々によってサビの演奏回数を増やすなど、曲構成にアレンジを加えて演奏する場合がある。
本発明は、このような事情に鑑みてなされたものであり、歌詞テロップの表示タイミングを映像にあわせることのできる技術を提供することを目的とする。

本発明の好適な態様であるデータ再生装置は、楽曲の歌詞を表す歌詞データであって複数のブロックに区分される歌詞データを記憶する歌詞データ記憶手段と、歌唱者の映像を含む映像データを取得する映像データ取得手段と、前記映像データ取得手段により取得された映像データから前記歌唱者の唇の形状を検出する検出手段と、前記検出手段によって検出された唇の形状から、前記歌唱者が発した音声に含まれる音素の並びを検出する音素パターン検出手段と、前記音素パターン検出手段が検出した音素の並びを、前記ブロック毎の歌詞データと照合し、照合結果に基づいて、前記歌唱者が歌唱中のブロックを特定する歌唱中ブロック特定手段と、前記歌詞データ記憶手段から前記歌詞データを読み出し、読み出した歌詞データの示す歌詞の映像を表す歌詞映像データを生成する歌詞映像データ生成手段と、前記歌唱中ブロック特定手段により歌唱中のブロックが特定されたタイミングで、前記歌詞映像データ生成手段が生成した歌詞データのうち特定されたブロックの歌詞の映像を表す歌詞映像データを、表示手段に出力する出力手段とを具備することを特徴とする。

上述の態様において、前記歌詞映像データ生成手段は、前記歌唱中ブロック特定手段により歌唱中のブロックが特定されたタイミングで、特定されたブロックの歌詞の映像を表す歌詞映像データの生成を開始してもよい。

また、上述の態様において、前記歌詞データは、複数のブロックに区分されるとともに、区分された各ブロックの再生開始タイミングを示す同期情報を含み、前記出力手段は、前記各ブロックのそれぞれについて、同期情報によって示される各ブロックの再生開始タイミングと前記ブロック特定手段によってブロックが特定されたタイミングとのずれが予め定められた範囲内である場合に、該ブロックの歌詞の映像を表す歌詞映像データを出力してもよい。

また、前記出力手段は、前記映像データ取得手段により取得された映像データと、前記歌詞映像データ生成手段によって生成された歌詞映像データとを出力してもよい。
この態様において、前記映像データ取得手段により取得された映像データを予め定められた時間だけ遅延させる遅延手段を備え、前記出力手段は、前記遅延手段により遅延された映像データと、前記歌詞映像データ生成手段によって生成された歌詞映像データとを出力してもよい。

また、上述の態様において、音声を表す第１の音声データを記憶する第１の音声データ記憶手段と、音声を表す第２の音声データを取得する音声データ取得手段と、前記音声データ取得手段により取得された第２の音声データと前記第１の音声データ記憶手段に記憶された第１の音声データとを、所定時間長のフレーム単位で対応付けるタイムアライメント手段とを備え、前記出力手段は、前記タイムアライメント手段による対応付け結果に応じたタイミングで、前記歌詞映像データ生成手段が生成した歌詞データのうち特定されたブロックの歌詞の映像を表す歌詞映像データを、表示手段に出力してもよい。

本発明によれば、歌詞テロップの表示タイミングを映像にあわせることができる。

次に、この発明を実施するための最良の形態を説明する。
図１は、この発明の一実施形態である映像表示装置１０のハードウェア構成を示すブロック図である。図において、制御部１１は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、バスＢＵＳを介して映像表示装置１０の各部を制御する。記憶部１２は、制御部１１によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部１３は、液晶パネルなどを備え、制御部１１の制御の下で、映像表示装置１０を操作するためのメニュー画面や、ライブ映像などの動画像を表示する。操作部１４は、利用者による操作に応じた操作信号を制御部１１に出力する。マイクロホン１５は、歌唱者の歌唱音声（以下「入力音声」という）を収音する収音機器である。マイクロホン１５は、入力音声の時間軸上における波形を表すアナログの電気信号を出力する。音声処理部１６は、マイクロホン１５から入力される電気信号をデジタル信号（以下「入力音声信号」という）に変換する。また、音声処理部１６は、制御部１１の制御の下、デジタルデータをアナログ信号に変換してスピーカ１７に出力する。スピーカ１７は、音声処理部１６でデジタルデータからアナログ信号に変換され出力される音声信号に応じた強度で放音する放音手段である。撮影部１８は、歌唱者を撮影し、撮影した映像を表す映像データを制御部１１に出力する。

なお、この実施形態では、マイクロホン１５とスピーカ１７とが映像表示装置１０に含まれている場合について説明するが、音声処理部１６に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン１５から音声処理部１６へ入力される音声信号及び音声処理部１６からスピーカ１７へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部１６にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。表示部１３、操作部１４、撮影部１８についても同様であり、映像表示装置１０に内蔵される形式であってもよく、外付けされる形式であってもよい。

記憶部１２は、図示のように、歌詞データ記憶領域１２１と、照合データ記憶領域１２２とを有している。歌詞データ記憶領域１２１には、歌詞テロップとして表示される楽曲の歌詞を表す歌詞データが記憶されている。この歌詞データは、予めカラオケ用に作成されたデータである。図２は、歌詞データの内容の一例を示す図である。歌詞データは、図示のように、楽曲の歌詞を示しているテキストデータ、歌詞の改行を示す改行データ、及び歌詞の一文字ごとにワイプ開始タイミングを示すワイプ開始タイミングデータを有している。そして、映像表示装置１０によって再生され、画面に歌詞テロップが表示されているときは、歌詞の１文字は対応するワイプ開始タイミングになると当該文字の左側から色を変化させ始めて、次の文字ワイプ開始タイミングに達すると、その文字全体について色の変化が完了するよう色替え制御される。この場合、ワイプ開始タイミングデータは、改行データにも設けられており、一行の最後に表示される文字については、当該文字のワイプ開始タイミングデータと改行データのワイプ開始タイミングデータの時間間隔が、当該文字の色替え時間となる。各文字の色が変化するスピードは、文字の横方向のドット数と色替え時間（当該文字のワイプ開始タイミングと次の文字のワイプ開始タイミング時間差）から決定される。
各文字は色替え時間内で色が変化する。そして、この図においては、最初の文字のワイプ開始タイミングはｗｔ１、次の文字はｗｔ２となり、以下順次ｗｔ３…となっている。

また、この実施形態では、歌詞データは、複数のブロックＢ１，Ｂ２，…（Ａメロ、Ｂメロ、サビ…等）に区分されており、区分された各ブロックＢ１，Ｂ２，…の先頭部分を示すブロック開始データｂ１，ｂ２，…を有している。各ブロックの先頭部分のワイプ開始タイミングｗｔ１，ｗｔ１１，…は、各ブロックの再生開始タイミングを示す情報であり、以下の説明では、説明の便宜上、この各ブロックの再生開始タイミングを示す情報を「同期情報」と称する。

記憶部１２の照合データ記憶領域１２２には、歌詞データの歌詞を構成する音素の母音の並びを示す照合データが、歌詞データを構成するブロック毎に記憶されている。図３は、照合データの内容の一例を示す図である。図示のように、この照合データは、歌詞を構成する音素の母音を示すデータによって構成されている。このデータは、制御部１１が行う歌唱中ブロックの特定処理（詳細は後述する）を行う際に参照されるデータである。この実施形態では、この照合データは、各ブロックの先頭の６〜８文字の母音の並びを示す。
なお、照合データは、各ブロックの先頭の６〜８文字の母音の並びに限らず、各ブロックに含まれる音素の並びを示すデータであればどのようなものであってもよい。

次に、映像表示装置１０の機能的構成について、図４を参照しつつ説明する。図４は、映像表示装置１０の機能的構成を示すブロック図である。図において、ビデオ解析部１１１，カラオケ歌詞生成部１１２，ビデオ再生部１１３及び遅延部１１４は、映像表示装置１０の制御部１１がＲＯＭ又は記憶部１２に記憶されたコンピュータプログラムを読み出して実行することにより実現される。なお、図中の矢印はデータの流れを概略的に示すものである。なお、この実施形態ではビデオ解析部１１１やカラオケ歌詞生成部１１２はソフトウェアとして実現されるが、これに限らず、ハードウェアによって実現される構成としてもよい。

図４において、ビデオ解析部１１１は、撮影部１８から映像データを取得し、取得した映像データから歌唱者の唇の形状を検出する機能を有する。ビデオ解析部１１１は、撮影部１８から出力される映像データを解析して顔検出処理を行い、検出結果に基づいて歌唱者の唇の動き（唇の形状の変化）を検出する。顔検出処理は、例えば肌色検出を行うとともに撮影された映像を予め定められたパターンの画像と照合し、その一致度に基づいて顔部分を検出してもよい。なお、顔検出処理の態様はこれに限らず、歌唱者の顔部分を検出できる態様であればどのようなものであってもよい。

ビデオ解析部１１１は、歌唱者の唇の動きの検出が開始されたときに、複数のブロックＢ１，Ｂ２，…のうちのいずれかのブロックの歌唱が開始されたと判断する。ビデオ解析部１１１は、ブロックの歌唱が開始されたと判断したときから歌唱者が発した音声に含まれる音素の並びを検出することによって、各ブロックの先頭部分の音素の並びを検出する。この音素の並びの検出処理について以下に説明する。

ビデオ解析部１１１は、検出した顔部分の画像から、歌唱者の唇の動き（唇の形状の変化）を検出し、検出結果に基づいて、歌唱者が発した音声に含まれる音素の並びを検出する。この実施形態では、ビデオ解析部１１１は、歌唱者が発した音声に含まれる母音の並びを検出する。音素の並びの検出処理は、例えば、母音（ａ，ｉ，ｕ，ｅ，ｏ）に対応する唇の形状を示すパターンデータを予め記憶させておき、検出された唇の形状を、記憶されたパターンデータと照合することによって検出してもよい。また、音素の並びの検出は、歌唱者の唇の動きの検出が開始されてから、予め定められた時間の間、ビデオ解析部１１１が唇の形状の変化の検出を行い、その期間の検出結果に基づいて音素の並びを検出してもよい。
なお、唇の形状を音素に変換する方法としては、主に、以下の２つの方法が考えられる。第一の方法は、ある人の唇の形状を一文字づつ撮影して唇の形状と音素との関係をデータベース化する方法である。この方法は、画像が使用者本人であれば、比較的正確に音素へ変換することができるが、汎用性に乏しいという問題がある。第二の方法は、唇の形状あるいは唇の動きから、これを音素に変換する方法である。この方法は、前記第一の方法に比べて、正確性に難があるものの汎用性の高い方法であるといえる。第二の方法は、一般的な唇の形状に音素を対応させるものである。例えば、大きく口が広がった形状は「あ」、横に細長くなった形状は「い」、小さくつぼまる形状は「う」といった具合に対応づけられることになる。画像データから、こうした唇の形状変化を抽出するためには、時間的に前後するフレームの画像データの差分値を求めることにより実現できる。すなわち、喋っている人の画像であれば、前後のフレームの差分値は、ほぼ唇の形状のみになるからである。

ビデオ解析部１１１は、検出した音素の並びを示すデータをカラオケ歌詞生成部１１２に供給する。
カラオケ歌詞生成部１１２は、ビデオ解析部１１１で検出された母音（音素）の並び（以下「音素パターン」という）と照合データ記憶領域１２２に記憶されたブロック毎の照合データ（歌詞の母音の並びを示すデータ）とを比較し、一致の程度に基づいて、歌唱者が歌詞のどのブロックを歌っているのかを特定する。この特定処理は、具体的には、例えば、一致度が最も高いブロックを特定してもよく、また、例えば、一致度が所定値以上であるブロックを特定してもよい。
このように、ビデオ解析部１１１は、図３に示した照合データを用いて、各ブロックの先頭部分の６〜８文字をセットにして歌詞（各フレーズ（ブロック）の歌い出し部分）とのパターンマッチングを行う。このように、この実施形態では、ある程度の長さの音素列を用いて照合を行うから、歌唱映像から解析された音素パターン（音素の並び）にある程度の誤りがある場合であっても、照合の精度を高くすることができる。

また、カラオケ歌詞生成部１１２は、歌詞データ記憶領域１２１から歌詞データを読み出し、読み出した歌詞データの示す歌詞の映像（以下「歌詞映像」という）を表す歌詞映像データを生成する機能を有する。このとき、カラオケ歌詞生成部１１２は、歌唱中のブロックが特定されたタイミングで、特定されたブロックの歌詞の映像を表す歌詞映像データの生成を開始する。

カラオケ歌詞生成部１１２は、生成した歌詞映像データをビデオ再生部１１３に順次供給する。遅延部１１４は、撮影部１８から取得された映像データを、ビデオ解析部１１１とカラオケ歌詞生成部１１２との処理時間程度遅延させてビデオ再生部１１３に供給する。ビデオ再生部１１３は、遅延部１１４から供給される映像データの表す映像に対して、カラオケ歌詞生成部１１２から供給される歌詞映像データの表す歌詞映像をスーパーインポーズした合成映像データを生成して表示部１３へ出力する。

このようにして、表示部１３には合成映像データが出力され、また、スピーカ１７にはマイクロホン１５で収音された歌唱音声が出力される。これにより、この実施形態に係る映像表示装置１０は、撮影された映像に対して時間同期、すなわち楽曲の進行に合わせた歌詞映像が合成された映像と楽曲とを再生することができる。

ここで、カラオケ歌詞生成部１１２が行う処理の具体例について、図５を参照しつつ以下に説明する。図５の（ａ）は、歌詞データの内容の一例を示す図であり、（ｂ）は、歌唱者によって実際に歌唱された歌唱音声の内容の一例を示す図であり、（ｃ）は、映像表示装置１０が表示する歌詞テロップの内容の一例を示す図である。図５（ａ）に示すように、歌詞データは、複数のブロックＢ１，Ｂ２，Ｂ３，Ｂ４，Ｂ５…に区分されて構成されている。一方、ライブ演奏を行った演奏者（歌唱者）は、歌詞データの通りに歌わずに、ブロックＢ１，Ｂ２，Ｂ３，Ｂ４，Ｂ４，Ｂ５…の順番に、ブロックＢ４を２回連続して演奏したとする。また、図示のように、（ｂ）に示すライブ演奏における歌唱と（ａ）に示す歌詞データとは、ブロックＢ１の開始時刻が、時間Δｔだけずれている。

図５に示す例において、歌唱者によってブロックＢ１の歌唱が行われると、制御部１１は、撮影部１８から出力される映像データを解析して歌唱者の唇の形状を検出し、検出した唇の形状から歌唱者が発した音声の音素パターンを特定する。次いで、制御部１１は、特定した音素パターンを照合データ記憶領域１２２に記憶された照合データと照合し、ブロックＢ１を特定する。制御部１１は、特定したブロックＢ１の歌詞映像を表す歌詞映像データの生成を開始し、ブロックＢ１に対応する歌詞テロップのワイプ処理を開始する。すなわち、制御部１１は、ブロックＢ１に対応する歌詞テロップの表示を開始し、歌詞データに含まれる各文字のワイプ開始タイミングｗｔ１，ｗｔ２，ｗｔ３，…（図２参照）に基づいて、時刻（ｗｔ１＋Δｔ），（ｗｔ２＋Δｔ），（ｗｔ３＋Δｔ），…に歌詞テロップのワイプ処理を行う。
これにより、歌唱者の開始タイミングと歌詞テロップの表示開始タイミングとがずれている（図５に示す例では時間Δｔだけずれている）場合であっても、これらを同期させることができ、表示が不自然になるのを防ぐことができる。

また、図５に示す例では、歌唱者は、ブロックＢ４を歌唱した後に再度ブロックＢ４を歌唱する。このとき、制御部１１は、上述したブロックＢ１と同様に、映像データから歌唱者の唇の動きを検出し、検出した唇の形状から音素パターンを特定し、特定した音素パターンを照合パターンと比較して、ブロックＢ４を特定する。そして、制御部１１は、特定したブロックＢ４の歌詞映像データの生成及びワイプ処理を行う。
このように、この実施形態では、各ブロックの先頭部分の音素パターンを照合するから、図５の（ｂ）に示したように、歌唱者が、ブロックＢ４を連続して歌唱する等、歌詞データと異なる順番で歌唱を行った場合であっても、図５（ｃ）に示すように、実際に歌唱された歌詞に対応する歌詞テロップを表示させることができ、実際のライブ映像と異なる歌詞テロップが表示されるのを防ぐことができる。

このように、この実施形態では、歌唱者の唇の形状を検出して歌詞のどの部分を歌唱中であるかを特定し、特定した部分の歌詞テロップを映像に同期させて表示するから、ライブ演奏映像に対して、精度の高い歌詞テロップを付加させることができる。また、歌唱者の唇の動作パターンを検出するのみでよいから、歌詞テロップの同期を容易に行うことができる。また、タイミングを映像の解析により検出し、合わせ込むから、カラオケ向けに作成されたコンテンツの歌詞表示部分をライブ／ビデオ映像に適用することができる。

ところで、歌唱者が、ＣＤなどのリファレンスどおりに歌唱しなかった場合、例えば、２番と３番とを入れ替えて歌唱したり、また、例えば、サビと他のフレーズとの順番を入れ替えて歌唱したり、また、例えば、リフレインの回数を多く歌唱した場合など、実際の歌詞がリファレンスどおりでない場合が多々ある。このような場合には、従来の装置では、歌詞画面の内容と歌唱（歌そのもの）に違いがでる事が多々あった。
これに対し、この実施形態では、歌唱者が原曲ＣＤ通りに歌唱しなかった場合、例えば３番を２番より前に歌唱してしまったり、繰り返し回数を多く又は少なく歌唱した場合であっても、歌詞カード（歌詞データ）と実演奏で差がでてしまうのを防ぐことができる。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
（１）上述した実施形態では、制御部１１は、撮影部１８から出力される映像データを取得する構成としたが、これに限らず、映像データを、ハードディスク等の記憶手段から読み出す構成としてもよく、また、映像表示装置１０の通信部を設け、通信ネットワークを介して映像データを受信する構成としてもよい。要するに、制御部１１が映像データを取得する態様であればどのようなものであってもよい。

（２）上述した実施形態では、制御部１１は、歌詞テロップをスーパーインポーズした映像データを表示部１３に出力する構成とした。映像データの出力先は表示部１３に限らず、例えば、映像表示装置１０に通信部を設ける構成とし、通信ネットワークを介して接続さされた他の装置へ、該通信部を介して映像データを出力する構成としてもよい。また、例えば、映像データをハードディスク等の記憶手段に記憶させる構成としてもよい。要するに、制御部１１が映像データを出力する態様であればどのようなものであってもよい。

（３）上述した実施形態では、遅延部１１４は、撮影部１８から取得された映像データを、ビデオ解析部１１１とカラオケ歌詞生成部１１２との処理時間程度遅延させたが、遅延部１１４が遅延させる時間はこれに限らず、例えば、歌詞のワイプ開始タイミングを実際に歌うタイミングよりも少し早めに設定するための時間を含むようにしてもよい。このようにすれば、歌唱者の歌唱開始タイミングの所定時間前に、歌詞テロップの表示及びワイプが開始されるから、視聴者は、歌詞のタイミングをより好適に把握することが可能となる。

（４）上述した実施形態では、映像を解析した歌唱者の唇の動きを検出することによって、歌唱者が歌唱中の歌詞を特定した。これに加えて、歌唱者の歌唱音声を表す音声データを音声解析し、解析結果に応じて歌唱者が歌唱中の歌詞を特定してもよい。具体的には、例えば、記憶部１２に楽曲の見本となる音声や伴奏を含む演奏を録音した音声データであってその再生時刻を示すタイムコードが付されている音声データ（以下「第１の音声データ」という）を予め記憶する構成とする。そして、制御部１１は、第１の音声データとマイクロホン１５から入力される音声データ（以下「第２の音声データ」という）とを所定時間長のフレーム単位で対応付けるタイムアライメント処理を行い、対応付け結果に応じて第１の音声データと第２の音声データとの時間的なずれを検出し、検出したずれが解消されるように歌詞映像データの生成タイミングを補正する。このようにすれば、映像の解析結果に加えて、音声の解析結果を用いて歌詞テロップの表示タイミングを補正するから、歌詞テロップの表示タイミングの補正の精度をより高くすることができる。

（５）上述した実施形態では、映像表示装置を本発明に係るデータ再生装置として適用したが、データ再生装置として適用される装置は映像表示装置に限らず、例えば、テレビ放送の放送局に設置された専用のコンピュータ装置や、パーソナルコンピュータ、移動体通信端末など、様々な装置が本発明に係るデータ再生装置として適用可能である。

（６）上述した実施形態では、歌唱者の唇の動きと歌詞テロップとを同期させる場合を例に挙げて説明したが、歌唱に限らず、楽器の演奏動作を検出してもよい。この場合は、例えば、歌詞データに代えて、楽曲の楽譜を表すデータを記憶させておき、制御部１１は、映像データから演奏者の演奏動作（例えば、鍵盤楽器の演奏時の鍵盤における手の位置）を検出し、検出結果に基づいて音素の組み合わせのパターンを検出し、検出した音素パターンと照合パターンとを照合し、照合結果に基づいて演奏中の部分を特定してもよい。この場合は、楽譜データの表す楽譜の画像と演奏者の映像とを同期させることができる。このように、本発明にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。

（７）上述した実施形態では、データ再生装置は、取得された（撮影された映像を表す）映像データに歌詞映像を表す歌詞映像データをスーパーインポーズした映像データを出力する構成としたが、これに限らず、データ再生装置は、歌詞映像データのみを出力する構成としてもよい。具体的には、例えば、接続された外部の表示機器に、映像に合わせたタイミングで歌詞映像データを出力する構成とし、その外部の表示機器が、撮影された映像を表す映像データと歌詞映像データとを合成して出力する構成としてもよい。

（８）上述した実施形態では、制御部１１は、歌唱者の唇の動きを検出し、検出結果から歌唱者が発した音声における母音の並び（組み合わせ）を検出したが、母音に限らず、例えば、子音を含む音素の並び（組み合わせ）を検出してもよい。要するに、音素の組み合わせのパターンを検出すればよい。

（９）上述した実施形態では、制御部１１は、歌唱中のブロックが特定されたタイミングで、特定されたブロックの歌詞の映像を表す歌詞映像データの生成を開始し、これにより、歌詞テロップの表示と映像データの示す映像の表示とを同期させた。歌詞テロップと映像とを同期させる態様はこれに限らず、例えば、歌詞映像データを予め生成して記憶しておく構成とし、歌唱中のブロックが特定されたタイミングで、特定されたブロックの歌詞の映像を表す映像データを読み出して表示手段に出力する構成としてもよい。要するに、歌唱中のブロックを特定し、歌唱中のブロックが特定されたタイミングで、特定されたブロックの歌詞の映像を表す歌詞映像データを表示手段に出力すればよい。

（１０）上述した実施形態において、制御部１１は、各ブロックのそれぞれについて、同期情報（各ブロックの再生開始タイミングを示す情報）によって示される各ブロックの再生開始タイミングと歌唱中のブロックが特定されたタイミングとのずれが予め定められた範囲内である場合に、該ブロックの歌詞の映像を表す歌詞映像データを表示部１３に出力する構成としてもよい。

（１１）上述した実施形態では、映像表示装置１０が、同実施形態に係る機能の総てを実現するようになっていた。これに対し、通信ネットワークで接続された複数の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の映像表示装置１０を実現してもよい。例えば、唇の動きを検出する機能や歌詞テロップ画像を生成する機能等を備える専用のコンピュータ装置と、表示部やスピーカを備える端末装置とが、ネットワークで接続されたシステムとして構成されていてもよい。

（１２）上述した映像表示装置１０の制御部１１によって実現されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で映像表示装置１０にダウンロードさせることも可能である。

映像表示装置の構成の一例を示すブロック図である。歌詞データの内容の一例を示す図である。照合データの内容の一例を示す図である。映像表示装置の機能的構成の一例を示すブロック図である。歌詞テロップの表示タイミングを説明するための図である。

符号の説明

１０…映像表示装置、１１…制御部、１２…記憶部、１３…表示部、１４…操作部、１５…マイクロホン、１６…音声処理部、１７…スピーカ、１８…撮影部、１１１…ビデオ解析部、１１２…カラオケ歌詞生成部、１１３…ビデオ再生部、１２１…歌詞データ記憶領域、１２２…照合データ記憶領域。

Claims

楽曲の歌詞を表す歌詞データであって複数のブロックに区分される歌詞データを記憶する歌詞データ記憶手段と、
歌唱者の映像を含む映像データを取得する映像データ取得手段と、
前記映像データ取得手段により取得された映像データから前記歌唱者の唇の形状を検出する検出手段と、
前記検出手段によって検出された唇の形状から、前記歌唱者が発した音声に含まれる音素の並びを検出する音素パターン検出手段と、
前記音素パターン検出手段が検出した音素の並びを、前記ブロック毎の歌詞データと照合し、照合結果に基づいて、前記歌唱者が歌唱中のブロックを特定する歌唱中ブロック特定手段と、
前記歌詞データ記憶手段から前記歌詞データを読み出し、読み出した歌詞データの示す歌詞の映像を表す歌詞映像データを生成する歌詞映像データ生成手段と、
前記歌唱中ブロック特定手段により歌唱中のブロックが特定されたタイミングで、前記歌詞映像データ生成手段が生成した歌詞データのうち特定されたブロックの歌詞の映像を表す歌詞映像データを、表示手段に出力する出力手段と
を具備することを特徴とするデータ再生装置。
前記歌詞映像データ生成手段は、前記歌唱中ブロック特定手段により歌唱中のブロックが特定されたタイミングで、特定されたブロックの歌詞の映像を表す歌詞映像データの生成を開始する
ことを特徴とする請求項１に記載のデータ再生装置。
請求項１又は２に記載のデータ再生装置において、
前記歌詞データは、複数のブロックに区分されるとともに、区分された各ブロックの再生開始タイミングを示す同期情報を含み、
前記出力手段は、前記各ブロックのそれぞれについて、同期情報によって示される各ブロックの再生開始タイミングと前記ブロック特定手段によってブロックが特定されたタイミングとのずれが予め定められた範囲内である場合に、該ブロックの歌詞の映像を表す歌詞映像データを出力する
ことを特徴とするデータ再生装置。
請求項１乃至３のいずれかに記載のデータ再生装置において、
前記出力手段は、前記映像データ取得手段により取得された映像データと、前記歌詞映像データ生成手段によって生成された歌詞映像データとを出力する
ことを特徴とするデータ再生装置。
請求項４に記載のデータ再生装置において、
前記映像データ取得手段により取得された映像データを予め定められた時間だけ遅延させる遅延手段を備え、
前記出力手段は、前記遅延手段により遅延された映像データと、前記歌詞映像データ生成手段によって生成された歌詞映像データとを出力する
ことを特徴とするデータ再生装置。
請求項１乃至５のいずれかに記載のデータ再生装置において、
音声を表す第１の音声データを記憶する第１の音声データ記憶手段と、
音声を表す第２の音声データを取得する音声データ取得手段と、
前記音声データ取得手段により取得された第２の音声データと前記第１の音声データ記憶手段に記憶された第１の音声データとを、所定時間長のフレーム単位で対応付けるタイムアライメント手段とを備え、
前記出力手段は、前記タイムアライメント手段による対応付け結果に応じたタイミングで、前記歌詞映像データ生成手段が生成した歌詞データのうち特定されたブロックの歌詞の映像を表す歌詞映像データを、表示手段に出力する
ことを特徴とするデータ再生装置。