JP2011215358A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2011215358A
JP2011215358A JP2010083162A JP2010083162A JP2011215358A JP 2011215358 A JP2011215358 A JP 2011215358A JP 2010083162 A JP2010083162 A JP 2010083162A JP 2010083162 A JP2010083162 A JP 2010083162A JP 2011215358 A JP2011215358 A JP 2011215358A
Authority
JP
Japan
Prior art keywords
section
lyrics
data
music
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010083162A
Other languages
English (en)
Inventor
Haruto Takeda
晴登 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010083162A priority Critical patent/JP2011215358A/ja
Priority to US13/038,768 priority patent/US8604327B2/en
Priority to CN2011100775711A priority patent/CN102208184A/zh
Publication of JP2011215358A publication Critical patent/JP2011215358A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】ユーザにとっての負担の少ないインタフェースを用いて、歌詞に含まれるブロックがそれぞれ対応する楽曲の区間をユーザが指定することを可能とすること。
【解決手段】楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶している記憶部と、前記楽曲の歌詞を画面上に表示する表示制御部と、前記楽曲を再生する再生部と、ユーザ入力を検出するユーザインタフェース部と、を備える情報処理装置であって、前記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み、前記表示制御部は、前記楽曲が再生されている間、前記歌詞データの各ブロックが識別可能となるように前記楽曲の歌詞を画面上に表示し、前記ユーザインタフェース部は、第1のユーザ入力に応じて、表示された各ブロックに対応する前記楽曲の区間ごとの境界に対応するタイミングを検出する、情報処理装置を提供する。
【選択図】図2

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、楽曲を再生するための楽曲データと楽曲の歌詞とを時間的に対応付けるための歌詞アラインメント技術が研究されている。例えば、下記非特許文献1は、楽曲データを解析することにより混合音から歌声を分離し、分離した歌声についてViterbiアラインメントを適用することにより、楽曲の歌詞の各部分の時間軸上の配置を決定するという手法を提案している。また、下記非特許文献2は、下記非特許文献1とは異なる方法で歌声を分離した上で、分離した歌声についてViterbiアラインメントを適用する手法を提案している。これら歌詞アラインメント技術は、いずれも、楽曲データに対する歌詞のアラインメント、即ち歌詞の各部分の時間軸上への配置を自動的に行うことを可能にする技術である
歌詞アラインメント技術は、例えば、オーディオプレーヤにおける楽曲の再生に沿った歌詞の表示、自動歌唱システムにおける歌唱タイミングの制御、及びカラオケシステムにおける歌詞の表示タイミングの制御などに応用され得る。
藤原弘将、後藤真孝、他, "音楽音響信号と歌詞の時間的対応付け手法:歌声の分離と母音のViterbiアラインメント",IPSJ SIG Technical Report, 2006-MUS-66, pp.37-44 Annamaria Mesaros and Tuomas Virtanen, "AUTOMATIC ALIGNMENT OF MUSIC AUDIO AND LYRICS", Proceeding of the 11th International Conference on Digital Audio Effects (DAFx-08), September 1-4, 2008
しかしながら、従来の自動的な歌詞アラインメント技術では、数十秒から数分の長さにわたる現実の楽曲を対象として、高い精度で歌詞を正確な時間的位置に配置することは困難であった。例えば、上記非特許文献1及び2に記載された手法は、対象とする楽曲の数を限定し、歌詞の読みを事前に与え、又はボーカル区間を事前に定義するなどといった限定的な条件の下に、ある程度のアラインメントの精度を達成している。しかし、実際の応用場面において、これらのような好都合な条件を維持できるとは限らない。
ところで、いくつかの歌詞アラインメント技術の応用場面においては、楽曲データと楽曲の歌詞との対応付けを必ずしも完全に自動的に行うことが求められる訳ではない。例えば、楽曲の再生に沿った歌詞の表示に際しては、歌詞の表示タイミングを定義するデータが提供されれば、タイムリーな歌詞の表示は可能である。そして、この場合、ユーザにとって重要なのは、歌詞の表示タイミングを定義するデータが自動的に生成された否かではなく、そのデータの正確さである。従って、歌詞のアラインメントに際して、全自動ではなく半自動的にアラインメントを行うことにより(即ち、部分的にユーザによる支援を受けることにより)アラインメントの精度を向上させることができるとすれば有益である。
例えば、自動的なアラインメントの前段階の処理として、楽曲の歌詞を複数のブロックに分割し、各ブロックがそれぞれ対応する楽曲の区間をユーザがシステムに教えることが考えられる。その後、システムが自動的な歌詞アラインメント技術をブロックごとに適用すれば、ブロックをまたいで歌詞の配置のズレが蓄積することがなくなるため、全体としてのアラインメントの精度は向上する。但し、このようなユーザによる支援は、可能な限りユーザにとって負担の少ないインタフェースで実現されることが望ましい。
そこで、本発明は、ユーザにとっての負担の少ないインタフェースを用いて、歌詞に含まれるブロックがそれぞれ対応する楽曲の区間をユーザが指定することのできる、新規かつ改良された情報処理装置、情報処理方法及びプログラムを提供しようとするものである。
本発明のある実施形態によれば、楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶している記憶部と、上記楽曲の歌詞を画面上に表示する表示制御部と、上記楽曲を再生する再生部と、ユーザ入力を検出するユーザインタフェース部と、を備える情報処理装置であって、上記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み、上記表示制御部は、上記再生部により上記楽曲が再生されている間、上記歌詞データの各ブロックがユーザにより識別可能となるように上記楽曲の歌詞を画面上に表示し、上記ユーザインタフェース部は、第1のユーザ入力に応じて、表示された各ブロックに対応する上記楽曲の区間ごとの境界に対応するタイミングを検出する、情報処理装置が提供される。
かかる構成によれば、楽曲が再生されている間、楽曲の歌詞データに含まれる各ブロックがユーザにより識別可能となるように当該楽曲の歌詞が画面上に表示される。そして、第1のユーザ入力に応じて、各ブロックに対応する楽曲の区間ごとの境界に対応するタイミングが検出される。即ち、ユーザは、再生される楽曲を聴きながら、歌詞データに含まれるブロックごとに境界に対応するタイミングのみを指定すればよい。
また、上記ユーザインタフェース部が上記第1のユーザ入力に応じて検出するタイミングは、表示された各ブロックに対応する上記楽曲の区間ごとの再生終了タイミングであってもよい。
また、上記情報処理装置は、上記ユーザインタフェース部により検出された上記再生終了タイミングに応じて、上記歌詞データの各ブロックに対応する上記楽曲の区間の開始時刻及び終了時刻を表す区間データを生成するデータ生成部、をさらに備えてもよい。
また、上記データ生成部は、上記再生終了タイミングから所定のオフセット時間を減ずることにより、上記楽曲の各区間の開始時刻を決定してもよい。
また、上記情報処理装置は、上記データ生成部により生成された上記区間データに含まれる各区間の時間長と当該区間に対応する歌詞の文字列から推定される時間長との比較に基づいて、上記区間データを補正するデータ補正部、をさらに備えてもよい。
また、上記データ補正部は、上記区間データに含まれる1つの区間の時間長が当該1つの区間に対応する歌詞の文字列から推定される時間長よりも所定の閾値以上に長い場合には、上記区間データの当該1つの区間の開始時刻を補正してもよい。
また、上記情報処理装置は、上記楽曲の音声信号を解析することにより上記楽曲に含まれるボーカル区間を認識する解析部、をさらに備え、上記データ補正部は、開始時刻を補正すべき区間について、当該区間のうち上記解析部によりボーカル区間であると認識された部分の先頭の時刻を補正後の開始時刻としてもよい。
また、上記表示制御部は、上記ユーザインタフェース部により上記再生終了タイミングが検出されたブロックが上記ユーザにより識別可能となるように、上記楽曲の歌詞の表示を制御してもよい。
また、上記ユーザインタフェース部は、第2のユーザ入力に応じて、注目されているブロックに対応する上記楽曲の区間についての上記再生終了タイミングの入力のスキップを検出してもよい。
また、上記データ生成部は、第1の区間について上記ユーザインタフェース部により上記再生終了タイミングの入力のスキップが検出された場合には、上記区間データにおいて、上記第1の区間の開始時刻と上記第1の区間に続く第2の区間の終了時刻とを、上記第1の区間に対応する歌詞と上記第2の区間に対応する歌詞とを結合した文字列に対応付けてもよい。
また、上記情報処理装置は、上記区間データにより表される区間ごとに、各区間と当該区間に対応するブロックとを用いて歌詞のアラインメントを実行するアラインメント部、をさらに備えてもよい。
また、本発明の別の実施形態によれば、楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶する記憶部を備える情報処理装置を用いた情報処理方法であって、上記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み、上記方法は、上記楽曲を再生するステップと、上記楽曲が再生されている間、上記歌詞データの各ブロックがユーザにより識別可能となるように上記楽曲の歌詞を画面上に表示するステップと、第1のユーザ入力に応じて、表示された各ブロックに対応する上記楽曲の区間ごとの境界に対応するタイミングを検出するステップと、を含む、情報処理方法が提供される。
また、本発明の別の実施形態によれば、楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶している記憶部を備える情報処理装置を制御するコンピュータを、上記楽曲の歌詞を画面上に表示する表示制御部と、上記楽曲を再生する再生部と、ユーザ入力を検出するユーザインタフェース部と、として機能させるためのプログラムであって、上記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み、上記表示制御部は、上記再生部により上記楽曲が再生されている間、上記歌詞データの各ブロックがユーザにより識別可能となるように上記楽曲の歌詞を画面上に表示し、上記ユーザインタフェース部は、第1のユーザ入力に応じて、表示された各ブロックに対応する上記楽曲の区間ごとの境界に対応するタイミングを検出する、プログラムが提供される。
以上説明したように、本発明に係る情報処理装置、情報処理方法及びプログラムによれば、ユーザにとっての負担の少ないインタフェースを用いて、歌詞に含まれるブロックがそれぞれ対応する楽曲の区間をユーザが指定することを可能とすることができる。
一実施形態に係る情報処理装置の概要を示す模式図である。 一実施形態に係る情報処理装置の構成の一例を示すブロック図である。 一実施形態に係る歌詞データについて説明するための説明図である。 一実施形態において表示される入力画面の一例について説明するための説明図である。 一実施形態においてユーザ入力に応じて検出されるタイミングについて説明するための説明図である。 一実施形態に係る区間データ生成処理について説明するための説明図である。 一実施形態に係る区間データについて説明するための説明図である。 一実施形態に係る区間データの補正について説明するための説明図である。 一実施形態に係るアラインメントの結果について説明するための第1の説明図である。 一実施形態に係るアラインメントの結果について説明するための第2の説明図である。 一実施形態に係る半自動アラインメント処理の流れの一例を示すフローチャートである。 一実施形態においてユーザが行うべき操作の流れの一例を示すフローチャートである。 一実施形態に係る再生終了タイミングの検出の流れの一例を示すフローチャートである。 一実施形態に係る区間データ生成処理の流れの一例を示すフローチャートである。 一実施形態に係る区間データ補正処理の流れの一例を示すフローチャートである。 一実施形態において表示される修正画面の一例について説明するための説明図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。
また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
1.情報処理装置の概要
2.情報処理装置の構成例
2−1.記憶部
2−2.再生部
2−3.表示制御部
2−4.ユーザインタフェース部
2−5.データ生成部
2−6.解析部
2−7.データ補正部
2−8.アラインメント部
3.半自動アラインメント処理の流れ
3−1.全体的な流れ
3−2.ユーザの操作
3−3.再生終了タイミングの検出
3−4.区間データ生成処理
3−5.区間データ補正処理
4.区間データのユーザによる修正
5.アラインメントデータの修正
6.まとめ
<1.情報処理装置の概要>
まず、図1を用いて、本発明の一実施形態に係る情報処理装置の概要を説明する。図1は、本発明の一実施形態に係る情報処理装置100の概要を示す模式図である。
図1の例では、情報処理装置100は、記憶媒体、画面、及びユーザ入力用のインタフェースを有するコンピュータである。情報処理装置100は、例えばPC(Personal Computer)若しくはワークステーションなどの汎用的なコンピュータであってもよく、又はスマートフォン、オーディオプレーヤ若しくはゲーム機器などのその他の種類のコンピュータであってもよい。情報処理装置100は、記憶媒体に記憶されている楽曲を再生すると共に、後に詳しく説明する入力画面を画面上に表示する。ユーザは、情報処理装置100により再生される楽曲を聴きながら、楽曲の歌詞を区分するブロックごとに、各ブロックの再生が終了したタイミングを入力する。情報処理装置100は、かかるユーザ入力に応じて歌詞の各ブロックに対応する楽曲の区間を認識し、認識した区間ごとに歌詞のアラインメントを実行する。
<2.情報処理装置の構成例>
次に、図2〜図7を用いて、図1に示した情報処理装置100の詳細な構成について説明する。図2は、本実施形態に係る情報処理装置100の構成の一例を示すブロック図である。図2を参照すると、情報処理装置100は、記憶部110、再生部120、表示制御部130、ユーザインタフェース部140、データ生成部160、解析部170、データ補正部180及びアラインメント部190を備える。
[2−1.記憶部]
記憶部110は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶する。記憶部110により記憶される楽曲データは、情報処理装置100による歌詞の半自動的なアラインメントの対象の楽曲についての音声データである。楽曲データのファイルフォーマットは、例えばWAVE、MP3(MPEG Audio Layer‐3)又はAAC(Advanced Audio Coding)などの任意のフォーマットであってよい。一方、歌詞データは、典型的には、楽曲の歌詞を表すテキストデータである。
図3は、本実施形態に係る歌詞データについて説明するための説明図である。図3を参照すると、楽曲データD1と関連付けられる歌詞データD2の内容の一例が示されている。
図3の例において、歌詞データD2は、記号“@”がそれぞれ付された4つのデータ項目を有する。第1のデータ項目は、歌詞データD2と関連付けられる楽曲データを識別するためのID(“ID”=“S0001”)である。第2のデータ項目は、楽曲のタイトル(“title”=“XXX XXXX”)である。第3のデータ項目は、楽曲のアーティスト名(“artist”=“YY YYY”)である。第4のデータ項目は、楽曲の歌詞(“lyric”)である。歌詞データD2において、歌詞は、改行を用いて複数のレコードに区切られている。本明細書では、これら複数のレコードの各々を、歌詞のブロックという。各ブロックは、少なくとも1文字の歌詞をそれぞれ有する。即ち、歌詞データD2は、楽曲の歌詞を区分する複数のブロックを定義したデータであると言うこともできる。図3の例では、歌詞データD2は、4つの(歌詞の)ブロックB1〜B4を含んでいる。なお、歌詞データにおいてブロックを区切るために、改行文字以外の文字又は記号が用いられてもよい。
記憶部110は、楽曲の再生の開始に際して、上述した楽曲データを再生部120へ出力すると共に、歌詞データを表示制御部130へ出力する。そして、後に説明する区間データ生成処理が行われた後、記憶部110は、生成された区間データを記憶する。区間データの内容については、後に具体的に説明する。記憶部110により記憶される区間データは、アラインメント部190による自動アラインメントのために使用される。
[2−2.再生部]
再生部120は、記憶部110により記憶されている楽曲データを取得し、楽曲を再生する。再生部120は、音声データファイルを再生可能な一般的なオーディオプレーヤであってよい。再生部120による楽曲の再生は、例えば、次に説明する表示制御部130からの指示に応じて開始される。
[2−3.表示制御部]
表示制御部130は、ユーザインタフェース部140においてユーザからの楽曲の再生開始の指示が検出されると、指定された楽曲の再生の開始を再生部120に指示する。また、表示制御部130は、内部にタイマを有し、楽曲の再生開始からの経過時間を計測する。さらに、表示制御部130は、再生部120により再生される楽曲の歌詞データを記憶部110から取得し、楽曲が再生部120により再生されている間、歌詞の各ブロックがユーザにより識別可能となるように、ユーザインタフェース部140が提供する画面上に歌詞データに含まれる歌詞を表示する。表示制御部130のタイマにより示される時間は、次に説明するユーザインタフェース部により検出される楽曲の区間ごとの再生終了タイミングの認識のために用いられる。
[2−4.ユーザインタフェース部]
ユーザインタフェース部140は、楽曲の区間ごとの境界に対応するタイミングをユーザが入力するための入力画面を提供する。本実施形態において、ユーザインタフェース部140が検出する境界に対応するタイミングとは、楽曲の区間ごとの再生終了タイミングである。ユーザインタフェース部140は、例えば所定のボタンの操作(例えばクリック若しくはタップ、又は物理的なボタンの押下など)に相当する第1のユーザ入力に応じて、入力画面に表示された各ブロックに対応する楽曲の区間ごとの再生終了タイミングを検出する。ユーザインタフェース部140により検出される楽曲の区間ごとの再生終了タイミングは、後に説明するデータ生成部160による区間データの生成のために用いられる。また、ユーザインタフェース部140は、例えば上記ボタンとは異なる所定のボタンの操作などに相当する第2のユーザ入力に応じて、注目されているブロックに対応する楽曲の区間についての再生終了タイミングの入力のスキップを検出する。ユーザインタフェース部140によりスキップが検出された楽曲の区間については、情報処理装置100は、当該区間の終了時刻の認識を省略する。
図4は、本実施形態において情報処理装置100により表示される入力画面の一例について説明するための説明図である。図4を参照すると、一例としての入力画面152が示されている。
入力画面152の中央部には、歌詞表示領域132が配置されている。歌詞表示領域132は、表示制御部130が歌詞を表示するために使用する領域である。図4の例では、歌詞表示領域132において、歌詞データに含まれる歌詞の各ブロックが、互いに異なる行に表示される。それにより、ユーザは、歌詞データの各ブロックを識別することができる。また、表示制御部130において、次に再生終了タイミングが入力されるべき対象のブロックが他のブロックよりも大きいフォントサイズにより強調して表示されている。なお、表示制御部130は、対象ブロックを強調するために、フォントサイズの大きさを変更する代わりに、テキストの色、背景色又はスタイルなどを変更してもよい。歌詞表示領域132の左側には、かかる対象ブロックを指し示す矢印A1が表示されている。また、歌詞表示領域132の右側には、各ブロックについての再生終了タイミングの入力ステータスを表すマークが表示されている。例えば、マークM1は、ユーザインタフェース部140により再生終了タイミングが検出されたブロック(即ち、ユーザによる再生終了タイミングの入力が行われたブロック)を識別するためのマークである。マークM2は、次に再生終了タイミングが入力されるべき対象のブロックを識別するためのマークである。マークM3は、ユーザインタフェース部140により再生終了タイミングが未だ検出されていないブロックを識別するためのマークである。マークM4は、ユーザインタフェース部140によりスキップが検出されたブロックを識別するためのマークである。表示制御部130は、例えば、このような歌詞表示領域132における歌詞の表示をユーザによる再生終了タイミングの入力に応じて上方向へスクロールさせ、次に再生終了タイミングが入力されるべき対象のブロックが常に上下方向の中央に位置するように表示を制御してもよい。
入力画面152の下部には、3つのボタンB1、B2及びB3が配置されている。ボタンB1は、歌詞表示領域132に表示された各ブロックに対応する楽曲の区間ごとの再生終了タイミングをユーザが指定するためのタイミング指定ボタンである。例えば、ユーザがタイミング指定ボタンB1を操作すると、ユーザインタフェース部140は、表示制御部130の上述したタイマを参照し、矢印A1に指し示されているブロックに対応する区間についての再生終了タイミングを記憶する。また、ボタンB2は、注目されているブロック(対象ブロック)に対応する楽曲の区間についての再生終了タイミングの入力をスキップすることをユーザが指定するためのスキップボタンである。例えば、ユーザがスキップボタンB2を操作すると、ユーザインタフェース部140は、再生終了タイミングの入力がスキップされることを表示制御部130に通知する。そうすると、表示制御部130は、歌詞表示領域132における歌詞の表示を上方向にスクロールさせ、次のブロックを強調表示すると共に、矢印A1を当該次のブロックに付し、さらにスキップされたブロックのマークをマークM4に変更する。また、ボタンB3は、前のブロックについての再生終了タイミングの入力を再度行うことをユーザが指定するためのいわゆる“戻る(Back)”ボタンである。例えば、ユーザが戻るボタンB3を操作すると、ユーザインタフェース部140は、戻るボタンB3が操作されたことを表示制御部130に通知する。そうすると、表示制御部130は、歌詞表示領域132における歌詞の表示を下方向にスクロールさせ、前のブロックを強調表示すると共に、矢印A1及びマークM2を新たに強調表示されたブロックに付す。
なお、ボタンB1、B2及びB3は、図4の例のように入力画面152上のGUI(Graphical User Interface)として実現される代わりに、例えばキーボード又はキーパッドの所定のキー(例えばEnterキー)などに相当する物理的なボタンを用いて実現されてもよい。
入力画面152の歌詞表示領域132とボタンB1、B2及びB3との間には、タイムラインバーC1が表示されている。タイムラインバーC1は、楽曲の再生開始からの経過時間を計測している表示制御部130のタイマにより示される時間を表示する。
図5は、本実施形態においてユーザ入力に応じて検出されるタイミングについて説明するための説明図である。図5を参照すると、再生部120により再生される楽曲の音声波形の一例が時間軸に沿って示されている。また、音声波形の下には、各時点において音声を聴取することによりユーザが認識し得る歌詞が示されている。
図5の例において、例えば、ブロックB1に対応する区間の再生は、時刻Taまでに終了する。また、ブロックB2に対応する区間の再生は、時刻Tbから開始する。従って、図4を用いて説明した入力画面152を操作するユーザは、再生される楽曲を聴きながら、時刻Taから時刻Tbまでの間にタイミング指定ボタンB1を操作する。それにより、ユーザインタフェース部140は、ブロックB1についての再生終了タイミングを検出し、当該再生終了タイミングの時刻を記憶する。そして、このような楽曲の各区間の再生とブロックごとの再生終了タイミングの検出とを楽曲の全体にわたって繰り返すことにより、ユーザインタフェース部140は、歌詞のブロックごとの再生終了タイミングのリストを取得する。ユーザインタフェース部140は、かかる再生終了タイミングのリストをデータ生成部160へ出力する。
[2−5.データ生成部]
データ生成部160は、ユーザインタフェース部140により検出された再生終了タイミングに応じて、歌詞データの各ブロックに対応する楽曲の区間の開始時刻及び終了時刻を表す区間データを生成する。
図6は、本実施形態に係るデータ生成部160による区間データ生成処理について説明するための説明図である。図6の上段には、再生部120により再生される楽曲の音声波形の一例が時間軸に沿って再び示されている。また、中段には、ユーザインタフェース部140により検出されたブロックB1についての再生終了タイミングIn(B1)、ブロックB2についての再生終了タイミングIn(B2)及びブロックB3についての再生終了タイミングIn(B3)が示されている。なお、In(B1)=T1、In(B2)=T2、In(B3)=T3である。また、下段には、これら再生終了タイミングに応じて決定される各区間の開始時刻及び終了時刻が、区間ごとのボックスを用いて示されている。
ここで、図5を用いて説明したように、ユーザインタフェース部140により検出される再生終了タイミングは、歌詞のブロックごとの楽曲の再生が終了したタイミングである。即ち、ユーザインタフェース部140からデータ生成部160に入力される再生終了タイミングのリストには、歌詞のブロックごとの楽曲の再生が開始されるタイミングは含まれない。そこで、データ生成部160は、ある1つのブロックに対応する区間の開始時刻を、直前のブロックについての再生終了タイミングに応じて決定する。より具体的には、データ生成部160は、直前のブロックについての再生終了タイミングから所定のオフセット時間を減じた時刻を、上記1つのブロックに対応する区間の開始時刻とする。図6の例では、ブロックB2に対応する区間の開始時刻は、ブロックB1についての再生終了タイミングT1からオフセット時間Δt1を減じた時刻「T1−Δt1」である。ブロックB3に対応する区間の開始時刻は、ブロックB2についての再生終了タイミングT2からオフセット時間Δt1を減じた時刻「T2−Δt1」である。ブロックB4に対応する区間の開始時刻は、ブロックB3についての再生終了タイミングT3からオフセット時間Δt1を減じた時刻「T3−Δt1」である。このように、再生終了タイミングから所定のオフセット時間を減じた時刻を各区間の開始時刻とする理由は、ユーザがタイミング指定ボタンB1を操作した時点で、既に次の区間の再生が開始されている可能性があるためである。
一方、ユーザがタイミング指定ボタンB1を操作した時点で、対象区間の再生が終了していない可能性は低い。しかし、ユーザによる誤操作のケース以外にも、例えば、対象区間に対応する歌詞の最後の音素の波形が完全に終了していない時点でユーザによる操作が行われる可能性はある。そのため、データ生成部160は、各区間の終了時刻についても、開始時刻と同様のオフセット処理を行う。より具体的には、データ生成部160は、あるブロックについての再生終了タイミングに所定のオフセット時間を加えた時刻を、当該ブロックに対応する区間の終了時刻とする。図6の例では、ブロックB1に対応する区間の終了時刻は、ブロックB1についての再生終了タイミングT1にオフセット時間Δt2を加えた時刻「T1+Δt2」である。ブロックB2に対応する区間の終了時刻は、ブロックB2についての再生終了タイミングT2にオフセット時間Δt2を加えた時刻「T2+Δt2」である。ブロックB3に対応する区間の終了時刻は、ブロックB3についての再生終了タイミングT3にオフセット時間Δt2を加えた時刻「T3+Δt2」である。なお、これらオフセット時間Δt1及びΔt2の値は、予め固定的に定義されてもよく、又は各ブロックの歌詞文字列の長さ若しくはビート数などに応じて動的に決定されてもよい。また、オフセット時間Δt2はゼロであってもよい。
データ生成部160は、歌詞データの各ブロックに対応する区間の開始時刻及び終了時刻をこのように決定し、各区間の開始時刻及び終了時刻を表す区間データを生成する。
図7は、本実施形態に係るデータ生成部160により生成される区間データについて説明するための説明図である。図7を参照すると、標準化されたフォーマットではないものの一般に広く使用されているLRC形式により記述された一例としての区間データD3が示されている。
図7の例において、区間データD3は、記号“@”がそれぞれ付された2つのデータ項目を有する。第1のデータ項目は、楽曲のタイトル(“title”=“XXX XXXX”)である。第2のデータ項目は、楽曲のアーティスト名(“artist”=“YY YYY”)である。さらに、これら2つのデータ項目の下に、歌詞データの各ブロックに対応する各区間の開始時刻、歌詞文字列、及び終了時刻がレコードごとに記録されている。各区間の開始時刻及び終了時刻は、それぞれ“[mm:ss.xx]”というフォーマットを有し、楽曲の開始時点から当該時刻までの時間を分(mm)と秒(ss.xx)とにより表す。
なお、データ生成部160は、ある区間についてユーザインタフェース部140により再生終了タイミングの入力のスキップが検出された場合には、当該区間の開始時刻と当該区間に続く区間の終了時刻との組を、それら2つの区間に対応する歌詞文字列(即ち、2つの区間にそれぞれ対応する歌詞を結合した文字列)に対応付ける。例えば、図7の例において、ブロックB1についての再生終了タイミングの入力がスキップされた場合には、ブロックB1の開始時刻[00:00.00]、ブロックB1及びB2に対応する歌詞文字列“When I was young … songs”、及びブロックB2の終了時刻[00:13.50]を1レコードに含む区間データD3が生成され得る。
生成データ生成部160は、このような区間データ生成処理により生成した区間データを、データ補正部180へ出力する。
[2−6.解析部]
解析部170は、楽曲データに含まれる音声信号を解析することにより、楽曲に含まれるボーカル区間を認識する。解析部170による音声信号の解析処理は、例えば、再表2004/111996号公報に記載されているパワースペクトラムの解析に基づく入力音響信号からの有声区間(即ちボーカル区間)の検出などの、公知の手法に基づく処理であってよい。より具体的には、解析部170は、例えば、次に説明するデータ補正部180からの指示に応じて、開始時刻を補正すべき区間について楽曲データに含まれる音声信号を部分的に抽出し、抽出した音声信号のパワースペクトラムを解析する。次に、解析部170は、パワースペクトラムの解析結果を用いて、上記区間に含まれるボーカル区間を認識する。そして、解析部170は、認識したボーカル区間の境界を特定する時刻データを、データ補正部180へ出力する。
[2−7.データ補正部]
一般的な楽曲の多くは、歌手が歌っている区間であるボーカル区間と、ボーカル区間以外の非ボーカル区間との双方を含む(ボーカル区間を含まない楽曲は歌詞アラインメントの対象となり得ないため、本明細書ではこれを考慮しない)。例えば、前奏区間及び間奏区間は、非ボーカル区間の一例である。ここで、図4を用いて説明した入力画面152においては、ユーザは各ブロックについての再生終了タイミングのみを指定するため、ユーザインタフェース部140は、前奏区間又は間奏区間と後に続くボーカル区間との間の境界を検出しない。しかし、区間データにおいて、1つの区間に長時間にわたる非ボーカル区間が含まれていれば、後段の歌詞のアラインメントの精度が低下する要因となる。そこで、データ補正部180は、以下に説明するように、データ生成部160により生成された区間データを補正する。データ補正部180による区間データの補正は、データ生成部160により生成された区間データに含まれる各区間の時間長と当該区間に対応する歌詞の文字列から推定される時間長との比較に基づいて行われる。
より具体的には、データ補正部180は、まず、図7を用いて説明した区間データD3に含まれる各区間のレコードごとに、当該区間に対応する歌詞文字列の再生に要する時間を推定する。例えば、一般的な楽曲において歌詞に含まれる1単語分の再生に要する平均時間Tが既知であるものとする。その場合、データ補正部180は、各ブロックの歌詞文字列に含まれる単語数に既知の平均時間Tを乗算することにより、各ブロックの歌詞文字列の再生に要する時間を推定することができる。なお、1単語分の再生に要する平均時間Tの代わりに、1文字又は1音素の再生に要する平均時間などが既知であってもよい。
次に、区間データに含まれるある区間の開始時刻と終了時刻との差に相当する時間長が、上述した手法により歌詞文字列から推定される時間長よりも所定の閾値(例えば数秒〜十数秒)以上に長かったものとする(以下、そのような区間を補正対象区間という)。その場合、データ補正部180は、例えば、区間データに含まれる補正対象区間の開始時刻を、当該補正対象区間のうち解析部170によりボーカル区間であると認識された部分の先頭の時刻に補正する。それにより、区間データに含まれる各区間の範囲から、前奏区間又は間奏区間などの比較的長い時間にわたる非ボーカル区間が除外される。
図8は、本実施形態に係るデータ補正部180による区間データの補正について説明するための説明図である。図8の上段には、データ生成部160により生成された区間データに含まれるブロックB6についての区間がボックスを用いて示されている。当該区間の開始時刻はT6、終了時刻はT7である。また、ブロックB6の歌詞文字列は、“Those were … times”である。このような例において、データ補正部180は、ブロックB6についての区間の時間長(=T7−T6)とブロックB6の歌詞文字列“Those were … times”から推定される時間長とを比較する。そして、前者の方が後者よりも所定の閾値以上に長い場合には、データ補正部180は、当該区間を補正対象区間として認識する。そうすると、データ補正部180は、解析部170に補正対象区間の音声信号を解析させ、補正対象区間に含まれるボーカル区間を特定する。図8の例では、ボーカル区間は、時刻T6´から時刻T7までの区間である。その結果、データ補正部180は、データ生成部160により生成された区間データに含まれる補正対象区間についての開始時刻を、T6からT6´に補正する。データ補正部180は、補正対象区間として認識される各区間についてこのように補正した区間データを、記憶部110に記憶させる。
[2−8.アラインメント部]
アラインメント部190は、歌詞のアラインメントの対象である楽曲についての楽曲データ、歌詞データ及びデータ補正部180により補正された区間データを記憶部110から取得する。そして、アラインメント部190は、区間データにより表される区間ごとに、各区間と当該区間に対応するブロックとを用いて歌詞のアラインメントを実行する。より具体的には、アラインメント部190は、区間データにより表される楽曲の区間と歌詞のブロックとの組ごとに、例えば上記非特許文献1又は非特許文献2に記載された自動的な歌詞アラインメント技術を適用する。それにより、楽曲の全体と当該楽曲の歌詞の全体との組に歌詞アラインメント技術を適用する場合と比較して、アラインメントの精度が向上する。アラインメント部190によるアラインメントの結果は、例えば、図7に関連して説明したLRC形式のアラインメントデータとして、記憶部110により記憶される。
図9A及び図9Bは、本実施形態に係るアラインメント部190によるアラインメントの結果について説明するための説明図である。
図9Aを参照すると、アラインメント部190により生成される一例としてのアラインメントデータD4が示されている。図9Aの例において、アラインメントデータD4は、図7の区間データD3と同様の2つのデータ項目である楽曲のタイトル及びアーティスト名を含む。さらに、これら2つのデータ項目の下に、歌詞に含まれる各単語についての開始時刻、ラベル(歌詞文字列)、及び終了時刻がレコードごとに記録されている。各ラベルの開始時刻及び終了時刻は、それぞれ“[mm:ss.xx]”というフォーマットを有する。このようなアラインメントデータD4は、例えば、オーディオプレーヤにおける楽曲の再生に沿った歌詞の表示又は自動歌唱システムにおける歌唱タイミングの制御などの様々な用途に活用され得る。図9Bを参照すると、図9Aに例示されたアラインメントデータD4が時間軸に沿って音声波形と共に可視化されている。なお、例えば楽曲の歌詞が日本語である場合には、1つの単語を1つのラベルとする代わりに、1つの文字を1つのラベルとしてアラインメントデータが生成されてもよい。
<3.半自動アラインメント処理の流れ>
次に、図10〜図14を用いて、上述した情報処理装置100による半自動アラインメント処理の流れを説明する。
[3−1.全体的な流れ]
図10は、本実施形態に係る半自動アラインメント処理の流れの一例を示すフローチャートである。図10を参照すると、まず、情報処理装置100は、楽曲を再生しながら、ユーザ入力に応じて、楽曲の歌詞に含まれる各ブロックに対応する区間ごとの再生終了タイミングを検出する(ステップS102)。かかるユーザ入力に応じた再生終了タイミングの検出の流れについては、図11及び図12を用いてさらに説明する。
次に、情報処理装置100のデータ生成部160は、ステップS102において検出された再生終了タイミングに応じて、図6を用いて説明した区間データ生成処理を行う(ステップS104)。区間データ生成処理の流れについては、図13を用いてさらに説明する。
次に、情報処理装置100のデータ補正部180は、図8を用いて説明した区間データ補正処理を行う(ステップS106)。区間データ補正処理の流れについては、図14を用いてさらに説明する。
その後、情報処理装置100のアラインメント部190は、補正後の区間データにより表される楽曲の区間と歌詞のブロックとの組ごとに、自動的な歌詞アラインメントを実行する(ステップS108)。
[3−2.ユーザの操作]
図11は、図10のステップS102においてユーザが行うべき操作の流れの一例を示すフローチャートである。なお、ユーザにより戻るボタンB3が操作されるケースは例外的なケースであるため、図11のフローチャートではかかる場合の処理を図示することを省略する。図12についても同様とする。
図11を参照すると、まず、ユーザは、ユーザインタフェース部140を操作することにより、情報処理装置100に楽曲の再生開始を指示する(ステップS202)。次に、ユーザは、情報処理装置100の入力画面152上に表示される各ブロックの歌詞を確認しながら、再生部120により再生される楽曲を聴く(ステップS204)。そして、ユーザは、入力画面152上で強調表示されているブロック(以下、注目ブロックという)の歌詞の再生の終了を監視する(ステップS206)。注目ブロックの歌詞の再生が終了しない間は、ユーザによる監視は継続される。
注目ブロックの歌詞の再生が終了したと判断すると、ユーザは、ユーザインタフェース部140を操作する。通常は、ユーザによる操作は、注目ブロックの歌詞の再生が終了した後、次のブロックの歌詞の再生が開始される前に行われる(ステップS208の「No」の分岐)。その場合、ユーザは、タイミング指定ボタンB1を操作する(ステップS210)。それにより、注目ブロックについての再生終了タイミングがユーザインタフェース部140により検出される。一方、ユーザは、次のブロックの歌詞の再生が既に開始したと判断すると(ステップS208の「Yes」の分岐)、スキップボタンB2を操作する(ステップS212)。この場合には、注目ブロックについての再生終了タイミングが検出されることなく、注目ブロックが次のブロックに移動する。
このようなユーザによる再生終了タイミングの指定は、楽曲の再生が終了するまで繰り返される(ステップS214)。そして、楽曲の再生が終了すると、ユーザによる操作は終了する。
[3−3.再生終了タイミングの検出]
図12は、図10のステップS102における情報処理装置100による再生終了タイミングの検出の流れの一例を示すフローチャートである。
図12を参照すると、まず、情報処理装置100は、ユーザからの指示に応じて、楽曲の再生を開始する(ステップS302)。その後、表示制御部130が入力画面152に各ブロックの歌詞を表示させながら、再生部120が楽曲を再生する(ステップS304)。その間、ユーザインタフェース部140は、ユーザ入力を監視する。
そして、ユーザによりタイミング指定ボタンB1が操作されると(ステップS306の「Yes」の分岐)、ユーザインタフェース部140は、再生終了タイミングを記憶する(ステップS308)。また、表示制御部130は、強調表示するブロックを現在の注目ブロックから次のブロックに変更する(ステップS310)。
また、ユーザによりスキップボタンB2が操作されると(ステップS306の「No」及びステップS312の「Yes」の分岐)、表示制御部130は、強調表示するブロックを現在の注目ブロックから次のブロックに変更する(ステップS314)。
このような再生終了タイミングの検出は、楽曲の再生が終了するまで繰り返される(ステップS316)。そして、楽曲の再生が終了すると、情報処理装置100による再生終了タイミングの検出は終了する。
[3−4.区間データ生成処理]
図13は、本実施形態に係る区間データ生成処理の流れの一例を示すフローチャートである。
図13を参照すると、まず、データ生成部160は、図12に示した処理においてユーザインタフェース部140により記憶された再生終了タイミングのリストから、1つのレコードを取得する(ステップS402)。かかるレコードは、1つの再生終了タイミングと対応する歌詞のブロックとを対応付けるレコードである。再生終了タイミングのスキップがあった場合には、1つの再生終了タイミングに歌詞の複数のブロックが対応付けられ得る。次に、データ生成部160は、取得したレコードに含まれる再生終了タイミング及びオフセット時間を用いて、対応する区間の開始時刻を決定する(ステップS404)。また、データ生成部160は、取得したレコードに含まれる再生終了タイミング及びオフセット時間を用いて、対応する区間の終了時刻を決定する(ステップS406)。次に、データ生成部160は、ステップ404において決定された開始時刻、歌詞の文字列及びステップ406において決定された終了時刻を含むレコードを、区間データの1つのレコードとして記録する(ステップS408)。
このような区間データの生成は、全ての再生終了タイミングについての処理が終了するまで繰り返される(ステップS410)。そして、再生終了タイミングのリストに処理すべきレコードが存在しなくなると、データ生成部160による区間データ生成処理は終了する。
[3−5.区間データ補正処理]
図14は、本実施形態に係る区間データ補正処理の流れの一例を示すフローチャートである。
図14を参照すると、まず、データ補正部180は、図13に示した区間データ生成処理においてデータ生成部160により生成された区間データから、1つのレコードを取得する(ステップS502)。次に、データ補正部180は、取得したレコードに含まれる歌詞文字列から、当該歌詞文字列に対応する部分の再生に要する時間長を推定する(ステップS504)。次に、データ補正部180は、推定した時間長よりも区間データのレコードにおける区間長が所定の閾値以上に長いか否かを判定する(ステップS510)。ここで、推定した時間長よりも区間データのレコードにおける区間長が所定の閾値以上に長くない場合には、当該区間についてのその後の処理はスキップされる。一方、推定した時間長よりも区間データのレコードにおける区間長が所定の閾値以上に長い場合には、データ補正部180は、当該区間を補正対象区間とし、補正対象区間に含まれるボーカル区間を解析部170に認識させる(ステップS512)。そして、データ補正部180は、補正対象区間の開始時刻を解析部170によりボーカル区間であると認識された部分の先頭の時刻に補正することにより、補正対象区間から非ボーカル区間を除外する(ステップS514)。
このような区間データの補正は、区間データの全てのレコードについての処理が終了するまで繰り返される(ステップS516)。そして、区間データに処理すべきレコードが存在しなくなると、データ補正部180による区間データ補正処理は終了する。
<4.区間データのユーザによる修正>
ここまでに説明した半自動アラインメント処理により、情報処理装置100は、ユーザ入力による支援を得て、完全に自動的な歌詞アラインメントと比較して精度の高い歌詞のアラインメントを実現する。また、情報処理装置100がユーザに提供する入力画面152は、ユーザ入力の負担を軽減する。特に、歌詞のブロックの再生開始ではなく再生終了のタイミングのみをユーザに指定させることにより、必要以上の注意力がユーザに求められることがない。しかし、それでも、ユーザによる判断若しくは操作のミス、又は解析部170によるボーカル区間の誤認識などを原因として、歌詞のアラインメントに使用されるべき区間データが不正確な時刻を含んでいる可能性は残されている。そのような場合のために、表示制御部130及びユーザインタフェース部140は、例えば、図15に示すような区間データの修正画面を提供し、ユーザにより事後的に区間データを修正することを可能とするのが有益である。
図15は、本実施形態において情報処理装置100により表示される修正画面の一例について説明するための説明図である。図15を参照すると、一例としての修正画面154が示されている。なお、修正画面154は、区間データの開始時刻を修正するための画面であるが、区間データの終了時刻を修正するための画面もまた同様に構成され得る。
修正画面154の中央部には、図4に例示した入力画面152と同様に、歌詞表示領域132が配置されている。歌詞表示領域132は、表示制御部130が歌詞を表示するために使用する領域である。図4の例では、歌詞表示領域132において、歌詞データに含まれる歌詞の各ブロックが互いに異なる行に表示される。歌詞表示領域132の右側には、再生部120により再生されているブロックを指し示す矢印A2が表示されている。また、歌詞表示領域132の左側には、開始時刻を修正すべきブロックをユーザが指定するためのマークが表示されている。例えば、マークM5は、開始時刻を修正すべきブロックとしてユーザに指定されたブロックを識別するためのマークである。
修正画面154の下部には、ボタンB4が配置されている。ボタンB4は、歌詞表示領域132に表示されたブロックのうち、開始時刻を修正すべきブロックについての新たな開始時刻をユーザが指定するための時刻指定ボタンである。例えば、ユーザが時刻指定ボタンB4を操作すると、ユーザインタフェース部140は、タイマにより示されている新たな開始時刻を取得し、区間データの開始時刻を当該新たな開始時刻に修正する。なお、ボタンB4は、図15の例のように修正画面154上のGUIとして実現される代わりに、例えばキーボード又はキーパッドの所定のキーなどに相当する物理的なボタンを用いて実現されてもよい。
<5.アラインメントデータの修正>
図9Aを用いて説明したように、アラインメント部190により生成されるアラインメントデータもまた、区間データと同様に、歌詞の部分文字列とその開始時刻及び終了時刻とを対応付けたデータである。従って、図15に例示した修正画面154、又は図4に例示した入力画面152は、区間データのユーザによる修正のみならず、アラインメントデータのユーザによる修正のためにも使用され得る。例えば、修正画面154を用いてアラインメントデータをユーザに修正させる場合には、表示制御部130は、修正画面154の歌詞表示領域132において、アラインメントデータに含まれる各ラベルを互いに異なる行に表示する。また、表示制御部130は、楽曲の再生の進行に応じて、歌詞表示領域132を上方向にスクロールさせながら、各時点において再生されているラベルを強調表示する。そして、ユーザは、例えば、開始時刻又は終了時刻を修正したいラベルについて、正しいタイミングが到来した時点で、時刻指定ボタンB4を操作する。それにより、アラインメントデータに含まれるラベルの開始時刻又は終了時刻が修正される。
<6.まとめ>
ここまで、図1〜図15を用いて、本発明の一実施形態について説明した。本実施形態によれば、情報処理装置100により楽曲が再生されている間、楽曲の歌詞データに含まれる各ブロックがユーザにより識別可能となるように当該楽曲の歌詞が画面上に表示される。そして、ユーザによるタイミング指定ボタンの操作に応じて、各ブロックに対応する楽曲の区間ごとの境界に対応するタイミングが検出される。ここで検出されるタイミングは、画面上に表示された各ブロックに対応する楽曲の区間ごとの再生終了タイミングである。そして、検出された再生終了タイミングに応じて、歌詞データの各ブロックに対応する楽曲の区間の開始時刻及び終了時刻が認識される。かかる構成によれば、ユーザは、歌詞の再生の終了のタイミングのみに注意を向けて楽曲を聴けばよい。仮にユーザが歌詞の再生の開始のタイミングにも注意を向けなければならないとすれば、ユーザには多大な注意力(例えば歌詞の再生開始のタイミングを予測することなど)が求められる。また、再生開始タイミングを認識した後にユーザが操作をしたとしても、本来の再生開始タイミングから操作の検出までの間に遅延が生じることは避けられない。これに対し、本実施形態では、上述したように、ユーザは歌詞の再生の終了のタイミングのみに注意を向ければよいため、ユーザの負担は軽減される。また、本来の再生終了タイミングから操作の検出までの間には遅延は生じ得るものの、かかる遅延は区間データにおける区間がやや広がるという結果を導くのみであって、区間ごとの歌詞のアラインメントの精度には大きな影響を与えない。
また、本実施形態によれば、区間データに含まれる各区間の時間長と当該区間に対応する歌詞の文字列から推定される時間長との比較に基づいて、区間データが補正される。即ち、ユーザ入力に応じて生成された区間データに不自然なデータが含まれる場合には、情報処理装置100がその不自然なデータを修正する。例えば、区間データに含まれる1つの区間の時間長が歌詞文字列から推定される時間長よりも所定の閾値以上に長い場合には、当該1つの区間の開始時刻が補正される。それにより、例えば、楽曲が前奏又は間奏などの非ボーカル区間を含む場合であっても、歌詞のアラインメントを歌詞のブロックごとに適切に行い得るように非ボーカル区間を除外した区間データが提供される。
また、本実施形態によれば、入力画面において、再生終了タイミングが検出されたブロックがユーザにより識別可能となるように、楽曲の歌詞の表示が制御される。また、ユーザは、あるブロックについて再生終了タイミングを逃した場合には、入力画面において再生終了タイミングの入力をスキップすることができる。その場合には、区間データにおいて、2つのブロックの歌詞文字列を結合した文字列に第1の区間の開始時刻及び第2の区間の終了時刻が対応付けられる。従って、再生終了タイミングの入力がスキップされた場合にも、歌詞のアラインメントを適切に行い得る区間データが提供される。このようなユーザインタフェースにより、再生終了タイミングの入力に際してのユーザによる負担はさらに軽減される。
なお、音声認識又は音声合成の分野においては、音声波形にラベルを付したコーパスがその解析のために数多く用意される。音声波形にラベルを付すためのソフトウェアもいくつか提供されている。しかし、これら分野において求められるラベリングの品質(時間軸上のラベルの配置の正確さ及び時間分解能など)は、楽曲の歌詞のアラインメントに求められる品質と比較して一般的に高い。従って、これら分野における既存のソフトウェアには、ラベリングの品質を確保するためにユーザに複雑な操作を要求するものが多い。これに対し、本実施形態に係る半自動アラインメントは、ある程度のレベルの区間データの精度を維持しながら、ユーザの負担を軽減することに重点を置いている点で、音声認識又は音声合成の分野におけるラベリングと異なっている。
本明細書において説明した情報処理装置100による一連の処理は、典型的には、ソフトウェアを用いて実現される。一連の処理を実現するソフトウェアを構成するプログラムは、例えば、情報処理装置100の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時に情報処理装置100のRAM(Random Access Memory)に読み込まれ、CPU(Central Processing Unit)などのプロセッサにより実行される。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
100 情報処理装置
110 記憶部
120 再生部
130 表示制御部
140 ユーザインタフェース部
160 データ生成部
170 解析部
180 データ補正部
190 アラインメント部
D1 楽曲データ
D2 歌詞データ
D3 区間データ
D4 アラインメントデータ

Claims (13)

  1. 楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶している記憶部と、
    前記楽曲の歌詞を画面上に表示する表示制御部と、
    前記楽曲を再生する再生部と、
    ユーザ入力を検出するユーザインタフェース部と、
    を備える情報処理装置であって:
    前記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み;
    前記表示制御部は、前記再生部により前記楽曲が再生されている間、前記歌詞データの各ブロックがユーザにより識別可能となるように前記楽曲の歌詞を画面上に表示し;
    前記ユーザインタフェース部は、第1のユーザ入力に応じて、表示された各ブロックに対応する前記楽曲の区間ごとの境界に対応するタイミングを検出する;
    情報処理装置。
  2. 前記ユーザインタフェース部が前記第1のユーザ入力に応じて検出するタイミングは、表示された各ブロックに対応する前記楽曲の区間ごとの再生終了タイミングである、請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、
    前記ユーザインタフェース部により検出された前記再生終了タイミングに応じて、前記歌詞データの各ブロックに対応する前記楽曲の区間の開始時刻及び終了時刻を表す区間データを生成するデータ生成部、
    をさらに備える、請求項2に記載の情報処理装置。
  4. 前記データ生成部は、前記再生終了タイミングから所定のオフセット時間を減ずることにより、前記楽曲の各区間の開始時刻を決定する、請求項3に記載の情報処理装置。
  5. 前記情報処理装置は、
    前記データ生成部により生成された前記区間データに含まれる各区間の時間長と当該区間に対応する歌詞の文字列から推定される時間長との比較に基づいて、前記区間データを補正するデータ補正部、
    をさらに備える、請求項4に記載の情報処理装置。
  6. 前記データ補正部は、前記区間データに含まれる1つの区間の時間長が当該1つの区間に対応する歌詞の文字列から推定される時間長よりも所定の閾値以上に長い場合には、前記区間データの当該1つの区間の開始時刻を補正する、請求項5に記載の情報処理装置。
  7. 前記情報処理装置は、前記楽曲の音声信号を解析することにより前記楽曲に含まれるボーカル区間を認識する解析部、をさらに備え、
    前記データ補正部は、開始時刻を補正すべき区間について、当該区間のうち前記解析部によりボーカル区間であると認識された部分の先頭の時刻を補正後の開始時刻とする、
    請求項6に記載の情報処理装置。
  8. 前記表示制御部は、前記ユーザインタフェース部により前記再生終了タイミングが検出されたブロックが前記ユーザにより識別可能となるように、前記楽曲の歌詞の表示を制御する、請求項2に記載の情報処理装置。
  9. 前記ユーザインタフェース部は、第2のユーザ入力に応じて、注目されているブロックに対応する前記楽曲の区間についての前記再生終了タイミングの入力のスキップを検出する、請求項3に記載の情報処理装置。
  10. 前記データ生成部は、第1の区間について前記ユーザインタフェース部により前記再生終了タイミングの入力のスキップが検出された場合には、前記区間データにおいて、前記第1の区間の開始時刻と前記第1の区間に続く第2の区間の終了時刻とを、前記第1の区間に対応する歌詞と前記第2の区間に対応する歌詞とを結合した文字列に対応付ける、請求項9に記載の情報処理装置。
  11. 前記情報処理装置は、前記区間データにより表される区間ごとに、各区間と当該区間に対応するブロックとを用いて歌詞のアラインメントを実行するアラインメント部、をさらに備える、請求項3に記載の情報処理装置。
  12. 楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶する記憶部を備える情報処理装置を用いた情報処理方法であって:
    前記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み;
    前記方法は、
    前記楽曲を再生するステップと;
    前記楽曲が再生されている間、前記歌詞データの各ブロックがユーザにより識別可能となるように前記楽曲の歌詞を画面上に表示するステップと;
    第1のユーザ入力に応じて、表示された各ブロックに対応する前記楽曲の区間ごとの境界に対応するタイミングを検出するステップと;
    を含む、情報処理方法。
  13. 楽曲を再生するための楽曲データ及び当該楽曲の歌詞を表す歌詞データを記憶している記憶部を備える情報処理装置を制御するコンピュータを:
    前記楽曲の歌詞を画面上に表示する表示制御部と、
    前記楽曲を再生する再生部と、
    ユーザ入力を検出するユーザインタフェース部と、
    として機能させるためのプログラムであって:
    前記歌詞データは、少なくとも1文字の歌詞をそれぞれ有する複数のブロックを含み;
    前記表示制御部は、前記再生部により前記楽曲が再生されている間、前記歌詞データの各ブロックがユーザにより識別可能となるように前記楽曲の歌詞を画面上に表示し;
    前記ユーザインタフェース部は、第1のユーザ入力に応じて、表示された各ブロックに対応する前記楽曲の区間ごとの境界に対応するタイミングを検出する;
    プログラム。
JP2010083162A 2010-03-31 2010-03-31 情報処理装置、情報処理方法及びプログラム Withdrawn JP2011215358A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010083162A JP2011215358A (ja) 2010-03-31 2010-03-31 情報処理装置、情報処理方法及びプログラム
US13/038,768 US8604327B2 (en) 2010-03-31 2011-03-02 Apparatus and method for automatic lyric alignment to music playback
CN2011100775711A CN102208184A (zh) 2010-03-31 2011-03-24 信息处理设备、信息处理方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010083162A JP2011215358A (ja) 2010-03-31 2010-03-31 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2011215358A true JP2011215358A (ja) 2011-10-27

Family

ID=44696987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010083162A Withdrawn JP2011215358A (ja) 2010-03-31 2010-03-31 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US8604327B2 (ja)
JP (1) JP2011215358A (ja)
CN (1) CN102208184A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103137167A (zh) * 2013-01-21 2013-06-05 青岛海信宽带多媒体技术有限公司 播放音乐的方法及音乐播放器
JP2014066938A (ja) * 2012-09-26 2014-04-17 Xing Inc カラオケ装置
JP2015125658A (ja) * 2013-12-26 2015-07-06 吉野 孝 表示時間データ作成方法
JP2017167328A (ja) * 2016-03-16 2017-09-21 ヤマハ株式会社 表示方法
JP2020144167A (ja) * 2019-03-04 2020-09-10 株式会社シンクパワー 歌詞同期データ作成システム
JP2020149009A (ja) * 2019-03-15 2020-09-17 株式会社エクシング カラオケ装置、カラオケ用プログラム及び歌詞情報変換プログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856641B2 (en) * 2008-09-24 2014-10-07 Yahoo! Inc. Time-tagged metainformation and content display method and system
JP2011215358A (ja) * 2010-03-31 2011-10-27 Sony Corp 情報処理装置、情報処理方法及びプログラム
US20120197841A1 (en) * 2011-02-02 2012-08-02 Laufer Yotam Synchronizing data to media
JP5895740B2 (ja) * 2012-06-27 2016-03-30 ヤマハ株式会社 歌唱合成を行うための装置およびプログラム
US20140149861A1 (en) * 2012-11-23 2014-05-29 Htc Corporation Method of displaying music lyrics and device using the same
CN104347097A (zh) * 2013-08-06 2015-02-11 北大方正集团有限公司 即点即播式歌曲播放方法及播放器
KR101942882B1 (ko) * 2014-08-26 2019-01-28 후아웨이 테크놀러지 컴퍼니 리미티드 미디어 파일 처리 방법 및 단말
US9489861B2 (en) * 2014-10-01 2016-11-08 Dextar Incorporated Rythmic motor skills training device
CN105845158A (zh) * 2015-01-12 2016-08-10 腾讯科技(深圳)有限公司 一种信息处理方法及客户端
CN105023559A (zh) * 2015-05-27 2015-11-04 腾讯科技(深圳)有限公司 K歌处理方法及***
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
CN106407370A (zh) * 2016-09-09 2017-02-15 广东欧珀移动通信有限公司 一种显示歌词的方法及移动终端
CN106409294B (zh) * 2016-10-18 2019-07-16 广州视源电子科技股份有限公司 防止语音命令误识别的方法和装置
JP6497404B2 (ja) * 2017-03-23 2019-04-10 カシオ計算機株式会社 電子楽器、その電子楽器の制御方法及びその電子楽器用のプログラム
US20180366097A1 (en) * 2017-06-14 2018-12-20 Kent E. Lovelace Method and system for automatically generating lyrics of a song
US10770092B1 (en) * 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
JP7159756B2 (ja) * 2018-09-27 2022-10-25 富士通株式会社 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
CN110968727B (zh) * 2018-09-29 2023-10-20 阿里巴巴集团控股有限公司 信息处理方法和装置
US11114085B2 (en) 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets
CN112989105B (zh) * 2019-12-16 2024-04-26 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及***
US11335326B2 (en) * 2020-05-14 2022-05-17 Spotify Ab Systems and methods for generating audible versions of text sentences from audio snippets
US11691076B2 (en) * 2020-08-10 2023-07-04 Jocelyn Tan Communication with in-game characters
CN113255348B (zh) * 2021-05-26 2023-02-28 腾讯音乐娱乐科技(深圳)有限公司 一种歌词分段方法、装置、设备、介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189237A (en) * 1989-12-18 1993-02-23 Casio Computer Co., Ltd. Apparatus and method for performing auto-playing in synchronism with reproduction of audio data
US5182414A (en) * 1989-12-28 1993-01-26 Kabushiki Kaisha Kawai Gakki Seisakusho Motif playing apparatus
US5726372A (en) * 1993-04-09 1998-03-10 Franklin N. Eventoff Note assisted musical instrument system and method of operation
US5751899A (en) * 1994-06-08 1998-05-12 Large; Edward W. Method and apparatus of analysis of signals from non-stationary processes possessing temporal structure such as music, speech, and other event sequences
JP3564753B2 (ja) * 1994-09-05 2004-09-15 ヤマハ株式会社 歌唱用伴奏装置
US6694297B2 (en) * 2000-03-30 2004-02-17 Fujitsu Limited Text information read-out device and music/voice reproduction device incorporating the same
US6541688B2 (en) * 2000-12-28 2003-04-01 Yamaha Corporation Electronic musical instrument with performance assistance function
US6727418B2 (en) * 2001-07-03 2004-04-27 Yamaha Corporation Musical score display apparatus and method
WO2004027577A2 (en) * 2002-09-19 2004-04-01 Brian Reynolds Systems and methods for creation and playback performance
CN1601459A (zh) * 2003-09-22 2005-03-30 英华达股份有限公司 数据同步方法、定义数据同步格式方法及储存媒体
US20050123886A1 (en) * 2003-11-26 2005-06-09 Xian-Sheng Hua Systems and methods for personalized karaoke
US7500176B2 (en) * 2004-04-01 2009-03-03 Pinnacle Systems, Inc. Method and apparatus for automatically creating a movie
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
JP4622415B2 (ja) * 2004-09-22 2011-02-02 ヤマハ株式会社 音楽情報表示装置及びプログラム
US20070044639A1 (en) * 2005-07-11 2007-03-01 Farbood Morwaread M System and Method for Music Creation and Distribution Over Communications Network
US8560327B2 (en) * 2005-08-26 2013-10-15 Nuance Communications, Inc. System and method for synchronizing sound and manually transcribed text
KR20070081368A (ko) * 2006-02-10 2007-08-16 삼성전자주식회사 노래 가사의 반복 패턴을 기초로 가사 구조를 추출하는장치, 시스템, 및 그 방법
US8304642B1 (en) * 2006-03-09 2012-11-06 Robison James Bryan Music and lyrics display method
US7491878B2 (en) * 2006-03-10 2009-02-17 Sony Corporation Method and apparatus for automatically creating musical compositions
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
US20080026355A1 (en) * 2006-07-27 2008-01-31 Sony Ericsson Mobile Communications Ab Song lyrics download for karaoke applications
CN101131693A (zh) * 2006-08-25 2008-02-27 佛山市顺德区顺达电脑厂有限公司 音乐播放***及其方法
CN100418095C (zh) * 2006-10-20 2008-09-10 无敌科技(西安)有限公司 音词同步的播放***及其方法
US8005666B2 (en) * 2006-10-24 2011-08-23 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
JP5130809B2 (ja) * 2007-07-13 2013-01-30 ヤマハ株式会社 楽曲を制作するための装置およびプログラム
US8143508B2 (en) * 2008-08-29 2012-03-27 At&T Intellectual Property I, L.P. System for providing lyrics with streaming music
US8645131B2 (en) * 2008-10-17 2014-02-04 Ashwin P. Rao Detecting segments of speech from an audio stream
US8026436B2 (en) * 2009-04-13 2011-09-27 Smartsound Software, Inc. Method and apparatus for producing audio tracks
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
CN101562035B (zh) * 2009-05-25 2011-02-16 福州星网视易信息***有限公司 音乐播放器中实现歌曲播放时歌词同步的方法
US8428955B2 (en) * 2009-10-13 2013-04-23 Rovi Technologies Corporation Adjusting recorder timing
JP2011215358A (ja) * 2010-03-31 2011-10-27 Sony Corp 情報処理装置、情報処理方法及びプログラム
US8710343B2 (en) * 2011-06-09 2014-04-29 Ujam Inc. Music composition automation including song structure

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014066938A (ja) * 2012-09-26 2014-04-17 Xing Inc カラオケ装置
CN103137167A (zh) * 2013-01-21 2013-06-05 青岛海信宽带多媒体技术有限公司 播放音乐的方法及音乐播放器
JP2015125658A (ja) * 2013-12-26 2015-07-06 吉野 孝 表示時間データ作成方法
JP2017167328A (ja) * 2016-03-16 2017-09-21 ヤマハ株式会社 表示方法
JP2020144167A (ja) * 2019-03-04 2020-09-10 株式会社シンクパワー 歌詞同期データ作成システム
JP7336802B2 (ja) 2019-03-04 2023-09-01 株式会社シンクパワー 歌詞同期データ作成システム
JP2020149009A (ja) * 2019-03-15 2020-09-17 株式会社エクシング カラオケ装置、カラオケ用プログラム及び歌詞情報変換プログラム
JP7129367B2 (ja) 2019-03-15 2022-09-01 株式会社エクシング カラオケ装置、カラオケ用プログラム及び歌詞情報変換プログラム

Also Published As

Publication number Publication date
US20110246186A1 (en) 2011-10-06
US8604327B2 (en) 2013-12-10
CN102208184A (zh) 2011-10-05

Similar Documents

Publication Publication Date Title
JP2011215358A (ja) 情報処理装置、情報処理方法及びプログラム
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
JP2007180669A (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
CN107103915A (zh) 一种音频数据处理方法以及装置
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP4797597B2 (ja) 語学学習装置
JP4741406B2 (ja) ノンリニア編集装置およびそのプログラム
KR101944365B1 (ko) 콘텐츠 싱크 생성 방법, 그 장치 및 이를 위한 인터페이스 모듈
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
JP5743625B2 (ja) 音声合成編集装置および音声合成編集方法
US8078654B2 (en) Method and apparatus for displaying image data acquired based on a string of characters
JP5422056B2 (ja) 楽曲情報処理装置及び方法、コンピュータプログラム並びに記録媒体
WO2011125204A1 (ja) 情報処理装置及び方法、並びにコンピュータプログラム
KR101493006B1 (ko) 멀티미디어 콘텐츠 편집장치 및 그 방법
JP4877811B2 (ja) 特定区間抽出装置、音楽記録再生装置、音楽配信システム
JP2007233077A (ja) 評価装置、制御方法及びプログラム
US20060084047A1 (en) System and method of segmented language learning
JP2008020621A (ja) コンテンツオーサリングシステム
JP2013024967A (ja) 表示装置、表示装置の制御方法およびプログラム
JP5085577B2 (ja) プレイリスト作成装置、楽曲再生装置、プレイリスト作成方法およびプレイリスト作成プログラム
JP4595948B2 (ja) データ再生装置、データ再生方法およびプログラム
JP3969570B2 (ja) 逐次自動字幕制作処理システム
JP5338312B2 (ja) 自動演奏同期装置、自動演奏鍵盤楽器およびプログラム
JP2017116899A (ja) 音声入力によるカラオケ生成
JP2012181307A (ja) 音声処理装置、音声処理方法及び音声処理プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130604