JPWO2009090705A1 - 記録再生装置 - Google Patents

記録再生装置 Download PDF

Info

Publication number
JPWO2009090705A1
JPWO2009090705A1 JP2009549907A JP2009549907A JPWO2009090705A1 JP WO2009090705 A1 JPWO2009090705 A1 JP WO2009090705A1 JP 2009549907 A JP2009549907 A JP 2009549907A JP 2009549907 A JP2009549907 A JP 2009549907A JP WO2009090705 A1 JPWO2009090705 A1 JP WO2009090705A1
Authority
JP
Japan
Prior art keywords
frame
song
data
audio data
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009549907A
Other languages
English (en)
Other versions
JP4990375B2 (ja
Inventor
慎吾 浦田
慎吾 浦田
隆之 川西
隆之 川西
剛史 藤田
剛史 藤田
山田 周平
周平 山田
美紀 山下
美紀 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009549907A priority Critical patent/JP4990375B2/ja
Publication of JPWO2009090705A1 publication Critical patent/JPWO2009090705A1/ja
Application granted granted Critical
Publication of JP4990375B2 publication Critical patent/JP4990375B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal
    • G11B2020/00057MPEG-1 or MPEG-2 audio layer III [MP3]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/1062Data buffering arrangements, e.g. recording or playback buffers
    • G11B2020/1075Data buffering arrangements, e.g. recording or playback buffers the usage of the buffer being restricted to a specific kind of data
    • G11B2020/10759Data buffering arrangements, e.g. recording or playback buffers the usage of the buffer being restricted to a specific kind of data content data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • G11B2020/1264Formatting, e.g. arrangement of data block or words on the record carriers wherein the formatting concerns a specific kind of data
    • G11B2020/1288Formatting by padding empty spaces with dummy data, e.g. writing zeroes or random data when de-icing optical discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

音声データ処理部(120)は音声データに対し、所定数のサンプルからなるフレーム単位で、デコード処理と圧縮符号化処理を行う。得られた符号化データはエンコードデータバッファ(110)に一時的に蓄えられる。曲切り替わり検出部(106)は、音声データに対応する曲位置情報と、特徴抽出用信号処理部(107)から出力された、音声データの特徴を表す特徴情報とを基にして、曲の切り替わりとすべきフレーム境界を特定する。フレーム境界分割部(111)は、エンコードデータバッファ(110)に蓄えられた符号化データについて、当該符号化データのフレーム境界が特定されたフレーム境界に合うように修正する。

Description

本発明は、デジタル音響データの符号化技術に関するものである。
近年、手軽に音楽を聴きたいというユーザの要望に応えるため、音声や楽音などのオーディオデータ信号を低ビットレートで圧縮符号化し、再生時に伸張復号化するための様々な技術が開発されている。その代表的な方式として、MP3(MPEG-1 Audio LayerIII)が知られている。
ある従来技術によれば、曲間に無音時間が存在しないライブ版CD中の曲番号の異なる複数の曲を、連続的に圧縮符号化して1つの音楽ファイルに記録するとともに、各曲の開始位置情報を別ファイルに記録する。そして、曲番号指定再生の場合には、位置情報ファイルを参照して、音楽ファイル中の指定曲から再生を開始する(特許文献1参照)。
特開2004-93729号公報
CD等に格納されている音声データをMP3等で符号化して記録する際に、この符号化データを曲番号ごとに分割して記録したい、というユーザの強い要望が依然として存在する。
ここで、CD上の音声データは588サンプルからなるセクタ毎に区切られており、トラックの境界はセクタ境界の一つである。一方、符号化はセクタとは異なる単位で行われる。例えばMP3ストリームは1152サンプル毎のフレームに分割して符号化処理を行っている。このため、ほとんどの場合、音声データのトラック境界とMP3ストリームの分割位置とが一致しない。よって、MP3ストリームを曲単位で分割する際に、CDのトラック境界を、そのままMP3ストリームの1曲のファイルの分割位置として使うことができない。
CDのトラック境界の近傍のMP3ストリームのフレーム境界を、曲単位のファイルの分割位置とした場合、本来の曲の境界ではない箇所で、曲が分割されることになる。このため、曲の終わりに次曲の始めの音が混入したり、曲の始めに前曲の終わりの音が混入したりする。CD中の曲によっては、前曲の最後は無音で次曲の先頭に音がある場合や、前曲の最後に音があり次曲の先頭は無音である場合がある。このような場合、MP3ストリームから曲を再生したとき、前曲の終わりに次曲の始めの音が聞こえたり、前曲の終わりの音が次曲の始まりで聞こえたりする場合があり、ノイズが混入しているように感じられる可能性がある。
本発明は、かかる点に鑑みてなされたものであり、音声データの再生と記録を行う記録再生装置において、音声データを圧縮符号化して得られた符号化データにおいて、ノイズと感じられる音が曲の切れ目に混入することを防止することを目的とする。
本発明は、記録再生装置として、入力された音声データについて、所定数のサンプルからなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とを行う音声データ処理部と、前記音声データ処理部から出力された符号化データを一時的に蓄えるエンコードデータバッファと、前記音声データに対して信号処理を行い、前記音声データの特徴を表す特徴情報を抽出する特徴抽出用信号処理部と、前記音声データに対応する曲位置情報と前記特徴抽出用信号処理部から出力された前記特徴情報とを入力とし、前記曲位置情報および特徴情報を基にして曲の切り替わりとすべきフレーム境界を特定する曲切り替わり検出部と、前記曲切り替わり検出部によって曲の切り替わりとすべきフレーム境界が特定されたとき、前記エンコードデータバッファに蓄えられた符号化データについて、当該符号化データのフレーム境界が、特定された曲の切り替わりとすべきフレーム境界に合うように修正する処理を行うフレーム境界分割部とを備えたものである。
本発明に係る記録再生装置によると、入力された音声データは、音声データ処理部によって、所定数のサンプルからなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とが行われる。得られた符号化データはエンコードデータバッファに一時的に蓄えられる。そして曲切り替わり検出部は、音声データに対応する曲位置情報と、特徴抽出用信号処理部によって抽出された、音声データの特徴を表す特徴情報とを基にして、曲の切り替わりとすべきフレーム境界を特定する。曲の切り替わりとすべきフレーム境界が特定されたとき、フレーム境界分割部によって、エンコードデータバッファに蓄えられた符号化データについて、当該符号化データのフレーム境界が特定されたフレーム境界に合うように修正する処理が行われる。これにより、符号化データのフレーム境界が音声データにおける曲の切り替わりとすべきフレーム境界に合うため、前曲の終わりに次曲の先頭の音が混入したり、前曲の終わりの音が次曲の始まりに混入したりすることを防ぐことができる。
本発明によると、音声データについて、再生のためのデコード処理と記録のための圧縮符号化処理とを行う記録再生装置において、符号化データのフレーム境界が音声データにおける曲の切り替わりとすべきフレーム境界に合うため、ノイズ混入と感じられるおそれのある、前曲の終わりへの次曲の先頭の音の混入や、前曲の終わりの音の次曲の始まりへの混入を防ぐことができる。
図1は、本発明の第1〜第3の実施形態に係る記録再生装置の構成例を示すブロック図である。 図2は、第1の実施形態における記録再生装置の動作例を示す図である。 図3は、第1の実施形態における記録再生装置の動作例を示す図である。 図4は、第1の実施形態における記録再生装置の動作例を示す図である。 図5は、第1の実施形態における記録再生装置の動作例を示す図である。 図6は、第2の実施形態における記録再生装置の動作例を示す図である。 図7は、本発明の第4の実施形態に係る記録再生装置の構成例を示すブロック図である。
符号の説明
101,101A 記録再生装置
102 ストリーム制御部
103 バッファ
104 デコーダ部
105 エンコーダ部
106 曲切り替わり検出部
107 特徴抽出用信号処理部
108 SDRAM
109 出力バッファ
110 エンコードデータバッファ
111 フレーム境界分割部
112 ホストインターフェース
120 音声データ処理部
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
図1は本発明の第1の実施形態に係る記録再生装置の概略構成を示す図である。図1の記録再生装置101は、入力された音声データを、再生すると同時に、圧縮符号化して記録するものである。本実施形態では、音声データはCDに記録されていたものとし、圧縮符号化の方式としてMP3を用いるものとする。
図1において、音声データ処理部120は、入力された音声データについて、所定数のサンプル(例えば1152サンプル)からなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とを行う。音声データ処理部120は、音声データから1フレームずつのデータを取り込んで出力するストリーム制御部102と、ストリーム制御部102から出力された音声データを一時的に蓄えるバッファ103と、バッファ103から1フレーム分のデータを取り込んで再生のためにデコード処理を行うデコーダ部104と、バッファ103から1フレーム分のデータを取り込んで記録のために圧縮符号化処理を行うエンコーダ部105とを備えている。デコーダ部104によってデコード処理されるデータと、エンコーダ部105によって圧縮符号化処理されるデータとは、バッファ103上の同じデータである。
また、出力バッファ109は、デコーダ部104からの復号データを一時的に蓄えて一定速度で出力する。エンコードバッファ110は、エンコーダ部105からの符号化データを一時的に蓄えて半導体メモリやハードディスク等へ出力する。出力バッファ109とエンコードデータバッファ110とは、SRAM108上に確保されている。
記録再生装置101はさらに、曲切り替わり検出部106、特徴抽出用信号処理部107、フレーム境界分割部111、およびホストインタフェース112を備えている。記録再生装置101の各部は、それぞれ時分割で処理を行っている。
特徴抽出用信号処理部107は、音声データ処理部120から得られる情報を基にして音声データに対して信号処理を行い、音声データの特徴を表す特徴情報を抽出する。この特徴情報は曲切り替わり検出部106に通知される。曲切り替わり検出部106は、音声データ処理部120に取り込まれた音声データに対応する曲位置情報と特徴抽出用信号処理部107から出力された特徴情報とを入力とし、これら曲位置情報および特徴情報を基にして、曲の切り替わりとすべきフレーム境界を特定する。特定されたフレーム境界の情報はフレーム境界分割部111に通知される。
フレーム境界分割部111は、曲切り替わり検出部106によって曲の切り替わりとすべきフレーム境界が特定されたとき、エンコードデータバッファ110に蓄えられた符号化データについて、当該符号化データのフレーム境界が、特定された曲の切り替わりとすべきフレーム境界に合うように修正する処理を行う。具体的には例えば、エンコードデータバッファ110に蓄えられた符号化データに対し、当該符号化データのフレーム境界が特定されたフレーム境界に合うように、ダミーデータを挿入する。さらに、曲の切り替わりとして特定されたフレーム境界に対応する符号化データのフレーム境界を示すデータを、符号化データの分割位置として出力する。この分割位置の情報は、ホストインタフェース112を介して記録再生装置101の外部に出力される。
一方、曲の途中の場合は、曲切り替わり検出部106からフレーム境界の通知はなされず、フレーム境界分割部111は特に動作は行わない。なお、本実施形態では、外部ホストモジュールにおいて分割処理を行うことを想定しているが、記録再生装置101内部の別モジュールにおいて分割処理を行ってもよい。この場合は、分割位置の情報はその内部モジュールに送られる。
本実施形態では、特徴抽出用信号処理部107は、フレーム境界付近における音声データの音圧レベルを、特徴情報として抽出するものとする。また、曲切り替わり検出部106は、CDに記録されているサブコードを、曲位置情報として利用するものとする。CDには、音声データの所定サンプル数(例えば588サンプル)のセクタごとに、曲番号等を含むサブコードが記録されている。また、音声データのサンプル数、データサイズ、1曲の再生時間等を曲位置情報として利用することも可能である。
図2および図3は本実施形態における記録再生装置の動作を示す図であり、音声データとその音圧レベル、および符号化データの一例としてのMP3データを示している。MP3方式によれば、音声データはフレーム単位で符号化され、ヘッダとメインデータとで構成されるMP3データが生成される。そして、あるヘッダの先頭から次のヘッダの先頭までがMP3データの1フレームとなっており、この1フレームのデータサイズはMP3データのビットレートによって決まっている。
図2および図3において、音声データのフレームNの中に、曲番号Mと曲番号(M+1)とのトラック境界があるものとしている(M,Nは自然数)。
図2に示す音声データでは、フレーム(N−1)とフレームNとの境界では無音でなく有音であり、フレームNとフレーム(N+1)との境界では無音になっている。この場合、フレーム(N−1)とフレームNとの境界を曲の切り替わりとすると、曲(M+1)のスタートで曲Mの音が入ってしまい、ノイズのように感じられる。このため、図2の例では、フレームNとフレーム(N+1)との境界を曲の切り替わりとするのが好ましい。
一方、図3に示す音声データでは、フレーム(N−1)とフレームNとの境界では無音であり、フレームNとフレーム(N+1)との境界では無音でなく有音になっている。この場合、フレームNとフレーム(N+1)との境界を曲の切り替わりとすると、曲Mのエンドで曲(M+1)の音が入ってしまい、ノイズのように感じられる。このため、図3の例では、フレーム(N−1)とフレームNとの境界を曲の切り替わりとするのが好ましい。
よって、本実施形態では、曲切り替わり検出部106は、特徴抽出用信号処理部107によって抽出された、フレーム境界付近における音声データの音圧レベルの情報を利用して、図2の場合には、フレームNとフレーム(N+1)との境界を曲の切り替わりとして特定し、図3の場合には、フレーム(N−1)とフレームNとの境界を曲の切り替わりとして特定するよう、動作する。
曲切り替わり検出部106における処理について、詳しく説明する。曲切り替わり検出部106は、ストリーム制御部102に取り込まれた音声データに対応するサブコードを曲位置情報として読み込む。特徴抽出用信号処理部107は、フレーム境界位置における音声データの数サンプル分の平均値(音圧レベルを表す)を求め、特徴情報として曲切り替わり検出部106に与える。なお、曲切り替わり検出部106が読み込む特徴情報は、フレーム境界位置における音声サンプルの音圧レベルの平均値に限られるものではない。曲切り替わり検出部106は、サブコードに含まれる曲番号と音声サンプルの平均値とを基にして、曲の切り替わりとすべきフレーム境界を特定する。
まず、ストリーム制御部102に音声データのフレーム0が取り込まれたとき、曲切り替わり検出部106は、この音声データのフレーム0に対応するサブコードを読み込む。音声データのフレーム0は、記録再生装置101の起動後の最初の入力データなので、このフレーム0の曲番号Mを曲番号の初期値とする。
以降、曲切り替わり検出部106は、ストリーム制御部102に音声データのフレーム1〜Nが取り込まれるたびに、これらの音声データに対応するサブコードを読み込んで曲番号の判定をする。当該フレームの曲番号と次のフレームの曲番号が等しいので、フレーム0〜(N−1)の間、曲切り替わり検出部106は曲の途中と判定する。
ストリーム制御部102に音声データのフレームNとフレーム(N+1)が取り込まれたとき、曲切り替わり検出部106はフレームNとフレーム(N+1)に対応するサブコードを読みこむ。フレームNの曲番号がMであり、フレーム(N+1)の曲番号が(M+1)なので、曲切り替わり検出部106は、特徴抽出用信号処理部107から通知されたフレーム境界位置における音声サンプルの平均値を参照した上で、判定を行う。
図2の例では、フレームNの前側境界における音声サンプルの平均値は有音を示し、後側境界における音声サンプルの平均値は無音を示す。この場合、フレームNの前側境界すなわちフレーム(N−1)とフレームNとの境界を曲の切り替わりとすると、曲(M+1)のスタートでノイズが混入することになる。よって、フレームNは曲の途中と判定し、フレームNの後側境界すなわちフレームNとフレーム(N+1)との境界を曲の切り替わりとして特定する。すなわち、フレームNは曲Mに含まれるものとする。
一方、図3の例では、フレームNの前側境界における音声サンプルの平均値は無音を示し、後側境界における音声サンプルの平均値は有音を示す。この場合、フレームNの後側境界すなわちフレームNとフレーム(N+1)との境界を曲の切り替わりとすると、曲Mのエンドでノイズが混入することになる。よって、フレームNの前側境界すなわちフレーム(N−1)とフレームNとの境界を曲の切り替わりとして特定する。すなわち、フレームNは曲(M+1)に含まれるものとする。
フレーム境界分割部111の処理について説明する。曲切り替わり検出部106から曲の切り替わりが通知されていない場合は、フレーム境界分割部111は特に処理を行わない。したがって、エンコードデータバッファ110にはエンコーダ部105から出力された符号化データがそのまま格納される。
一方、曲切り替わり検出部106が曲の切り替わりとすべきフレーム境界を特定したとき、フレーム境界分割部111は曲切り替わり検出部106からの通知を受けて、エンコードデータバッファ110に格納されたMP3データにダミーデータを挿入する処理を行う。これにより、音声データにおける曲の切り替わりとすべきフレーム境界が、MP3データのフレーム境界に合うように、MP3データが修正される。
例えば図2の例では、音声データのフレームNを符号化して得られたメインデータNの終端からヘッダ(N+1)の先頭までの間にダミーデータを挿入し、音声データのフレーム(N+1)を符号化して得られたメインデータ(N+1)がMP3データのフレームNに混入できるサイズを0にする。この後、音声データのフレーム(N+1)がエンコーダ部105によって符号化されたとき、得られたメインデータ(N+1)はヘッダ(N+1)の終端から配置される。
また図3の例では、音声データのフレーム(N−1)を符号化して得られたメインデータ(N−1)の終端からヘッダNの先頭までの間にダミーデータを挿入し、音声データのフレームNを符号化して得られたメインデータNがMP3データのフレーム(N−1)に混入できるサイズを0にする。この後、音声データのフレームNがエンコーダ部105によって符号化されたとき、得られたメインデータNはヘッダNの終端から配置される。
この結果、図2の例では、ヘッダ(N+1)の先頭でMP3データの分割が可能となり、ヘッダ(N+1)以降が曲(M+1)のMP3データとなる。図3の例では、ヘッダNの先頭でMP3データの分割が可能となり、ヘッダN以降が曲(M+1)のMP3データとなる。
さらにフレーム境界分割部111は、曲の切り替わりとなるMP3データのフレーム境界を示すデータを、MP3データの分割位置として出力する。図2の例では、エンコードデータバッファ110上のヘッダ(N+1)の先頭アドレスを分割位置として出力し、図3の例では、エンコードデータバッファ110上のヘッダNの先頭アドレスを分割位置として出力する。フレーム境界分割部111から出力された分割位置は、ホストインターフェース112を経由して記録再生装置101の外部へ通知される。
なお、図4に示すようにフレームNの前後両方の境界で音声サンプルが無音を示す場合、あるいは、図5に示すようにフレームNの前後両方の境界で音声サンプルが有音を示す場合もあり得る。図4の場合は、フレームNの前側および後側境界のどちらを曲の切り替わりとしてもノイズが混入することはない。また図5の場合は、フレームNの前側および後側境界のどちらを曲の切り替わりとしてもノイズが混入する。このような場合は、曲切り替わり検出部106は、曲の切り替わりの候補を複数通知してもよい。
図4および図5の場合、フレーム境界分割部111は、フレームNの前側および後側境界の両方が曲の切り替わりの候補として通知されると、メインデータ(N−1)の終端からヘッダNの先頭までとメインデータNの終端からヘッダ(N+1)の先頭までとの2箇所に、ダミーデータを挿入する。よって、ヘッダNおよびヘッダ(N+1)の先頭で符号化データの分割が可能となる。フレーム境界分割部111は、エンコードデータバッファ110上のヘッダNおよびヘッダ(N+1)の先頭アドレスを、符号化データの分割位置として出力する。この場合、分割処理を行う外部モジュールは、出力された分割位置のいずれかを選択することも可能である。また、分割位置の選択のために参考となり得る情報を併せて出力することも可能である。なお、外部モジュールに通知する分割位置の個数は、フレーム分割数として、外部モジュールから指定できるようにするのが望ましい。
以上のとおり、図1の記録再生装置101によれば、曲番号が異なる音声データを連続して入力した場合でも、再生が途切れることなく、符号化データを曲番号ごとに分割して記録することができる。
また、曲切り替わり検出部106は、音声データに対応する曲位置情報と、特徴抽出用信号処理部107によって抽出された、音声データの特徴を表す特徴情報とを基にして、曲の切り替わりとすべきフレーム境界を特定する。曲の切り替わりとすべきフレーム境界が特定されたとき、フレーム境界分割部111によって、エンコードデータバッファ110に蓄えられた符号化データについて、当該符号化データのフレーム境界が特定されたフレーム境界に合うように修正する処理が行われる。これにより、符号化データのフレーム境界が音声データにおける曲の切り替わりとすべきフレーム境界に合うため、曲の終わりに次曲の先頭の音が混入したり、曲の始まりに前曲の終わりの音が混入したりすることを、防ぐことができる。したがって、音声データを圧縮符号化して得られた符号化データにおいて、ノイズと感じられる音が曲の切れ目に混入することを防止することができる。
(第2の実施形態)
本発明の第2の実施形態に係る記録再生装置の概略構成は、第1の実施形態と同様であり、図1に示すとおりである。ただし、曲切り替わり検出部106および特徴抽出用信号処理部107における処理が、第1の実施形態と異なっている。その他の構成の動作は第1の実施形態と同様であり、ここでは説明を省略する。
図6は本実施形態における記録再生装置の動作を示す図であり、音声データとその音圧レベル、および符号化データの一例としてのMP3データを示している。図6を参照しながら、本実施形態における曲切り替わり検出部106および特徴抽出用信号処理部107での処理について、説明する。
本実施形態では、特徴抽出用信号処理部107は、音声データの特徴を表す特徴情報として、音声データの音圧レベルの時間推移を表す時間推移情報を抽出するものとする。具体的には例えば、音圧レベルと所定の閾値との比較を行い、この比較結果に基づいて、音圧レベルが所定の閾値を下回る区間の開始点と終了点とを求める。
曲切り替わり検出部106は、特徴抽出用信号処理部107から特徴情報として、音圧レベルが所定の閾値以下となる区間の開始点と終了点とを受ける。そして、この開始点または終了点からより遠い方のフレーム境界を、曲の切り替わりとして特定する。図6の例では、“レベル<閾値”となる区間の開始点からフレームNの前側境界までの時間長よりも、“レベル<閾値”となる区間の終了点からフレームNの後側境界までの時間長の方が長い。このため、フレームNの後側境界すなわちフレームNとフレーム(N+1)との境界を曲の切り替わりとして特定する。
なお、ここでは、開始点または終了点とフレーム境界とを比較しているが、フレーム境界の代わりにトラックの境界を用いてもよい。例えば、トラックの境界から“レベル<閾値”となる区間の開始点および終了点までの時間長をそれぞれ求め、時間長が長い方の側にあるフレーム境界(図6の場合には、フレームNとフレーム(N+1)との境界)を曲の切り替わりとして特定する。あるいは、時間長が短い方の側にあるフレーム境界を曲の切り替わりとして特定してもよい。
なお、ここでは、音声データの特徴量として音圧レベルを用いたが、これ以外の特徴量を用いてもかまわない。例えば、特徴抽出用信号処理部107が、音声データの周波数特性を特徴量として抽出し、予め定められた特性との類似度を求め、この類似度が所定の閾値を下回る区間を特定するようにしてもかまわない。このような特徴情報も、曲切り替わりの判断に用いることが可能である。あるいは、特定周波数帯域におけるレベル情報を、特徴量として抽出し、所定の閾値と比較してもかまわない。
なお、本実施形態では、デコーダ部104やエンコーダ部105における周波数分析処理の結果から、周波数特性や、特定周波数帯域におけるレベル情報を求めることも可能である。
また、ここでは、音声データの特徴量の時間推移を表す時間推移情報として、特徴量と所定の閾値との比較結果に基づいて、特徴量が所定の閾値を下回る区間の開始点と終了点とを特定するものとしたが、時間推移情報の形態はこれに限られるものではない。例えば、数フレーム分または任意のサンプル数分の音声データの特徴量を取得し、その時間変化の傾向を時間推移情報として求めてもよい。一例として、音声データの特徴量が収束するであろう時間を推定し、これに基づいて曲の切り替わりを特定する、といったことも可能である。
(第3の実施形態)
本発明の第3の実施形態に係る記録再生装置の概略構成は、第1の実施形態と同様であり、図1に示すとおりである。ただし、曲切り替わり検出部106および特徴抽出用信号処理部107における処理が、第1および第2の実施形態と異なっている。その他の構成の動作は第1の実施形態と同様であり、ここでは説明を省略する。
本実施形態では、特徴抽出用信号処理部107は、音声データの物理特性分析を行い、レベル情報や周波数特性などの分析結果を得る。ここで得られる音声データの特徴量は、音声か非音声かの判別結果、テンポ情報、および音色情報のうち少なくとも1つを含み、これらの複合的な分析結果であってもよい。そして、音声データの特徴量の時間推移を表す時間推移情報として、この分析結果の時系列に沿った変化を抽出する。なお、第2の実施形態で述べたように、デコーダ部104またはエンコーダ部105における周波数分析結果を利用することも可能である。
曲切り替わり検出部106は、特徴抽出用信号処理部107によって抽出された、分析結果の時系列に沿った変化に基づいて、曲の切り替わりを判定する。例えば、分析結果が急激に変化する点や、特定の音声が含まれる点を求め、これを曲の切り替わりと類推するような処理が考えられる。
(第4の実施形態)
図7は本発明の第4の実施形態に係る記録再生装置の概略構成を示す図である。図7の構成は、図1の構成とほぼ同様であり、図1と共通の構成要素には図1と同一の符号を付しており、ここではその詳細な説明を省略する。
本実施形態では、曲切り替わり検出部106および特徴抽出用信号処理部107における処理が、記録再生装置101Aの外部からホストインターフェース112を介して設定可能に構成されている点が、第1〜第3の実施形態と異なっている。
音声データの再生と符号化処理を開始する際には、はじめに外部からホストインターフェース112を通じて、曲切り替わり部106に、エンコード後のオーディオ符号化方式やサンプリング周波数、バッファの開始終了領域、フレーム分割数などのエンコーダ処理内容の設定を行う。設定を行った後、音声データの再生と符号化処理を行う。処理の間、フレーム境界分割部111からはフレーム境界の分割位置を受け取る。音声データの再生と符号化処理の停止を行う場合には、分割位置を基に、停止処理を行う。
外部からホストインターフェース112を用いて、例えば、次のような設定を行うことができる。
・入力が音楽データの場合には、第1の実施形態に示すような処理を行い、入力が話声データの場合には、第2の実施形態に示すような処理を行う。
・第2の実施形態に示す処理において、用いる閾値を音声データのレベルの平均値に応じて変更する。
・第1〜第3の実施形態に示すような処理を行う際に、曲番号の代わりに、外部から曲位置情報を直接指定する。
・第1〜第3の実施形態に示すような処理を行う際に、特徴抽出用信号処理部107から得られた特徴情報を基にした切り替わり検出結果と、曲番号を基にした切り替わり検出結果とが矛盾する場合、前者を優先するようにする。
・図5に示す例のように、どのフレーム境界を曲の切り替わり点としても、曲の先頭または終端で音切れが発生し得る場合、曲先頭(または終端)の音切れを回避するようにする。
このように、分割処理を行う外部モジュールから曲切り替わり検出部106および特徴抽出用信号処理部107の処理内容を制御することによって、曲切り替わりの判断を最適化することが可能である。
なお、外部モジュールから曲切り替わり検出部106および特徴抽出用信号処理部107の処理内容を制御するタイミングは任意であり、例えば、システムの起動ごとであってもよいし、エンコードを開始する都度であってもよいし、エンコード処理中であっても良い。処理内容の制御を行う頻度が上がれば、システムの負荷は高くなるが、より精度の高い最適化が可能となる。
以上説明してきたとおり、本発明に係る記録再生装置は、曲番号が異なる音声データを連続して入力しながら再生と同時に符号化データを曲番号ごとに分割して記録する際に、符号化された曲の先頭や末尾へのノイズ混入を防止するという点で有効である。
本発明は、デジタル音響データの符号化技術に関するものである。
近年、手軽に音楽を聴きたいというユーザの要望に応えるため、音声や楽音などのオーディオデータ信号を低ビットレートで圧縮符号化し、再生時に伸張復号化するための様々な技術が開発されている。その代表的な方式として、MP3(MPEG-1 Audio LayerIII)が知られている。
ある従来技術によれば、曲間に無音時間が存在しないライブ版CD中の曲番号の異なる複数の曲を、連続的に圧縮符号化して1つの音楽ファイルに記録するとともに、各曲の開始位置情報を別ファイルに記録する。そして、曲番号指定再生の場合には、位置情報ファイルを参照して、音楽ファイル中の指定曲から再生を開始する(特許文献1参照)。
特開2004-93729号公報
CD等に格納されている音声データをMP3等で符号化して記録する際に、この符号化データを曲番号ごとに分割して記録したい、というユーザの強い要望が依然として存在する。
ここで、CD上の音声データは588サンプルからなるセクタ毎に区切られており、トラックの境界はセクタ境界の一つである。一方、符号化はセクタとは異なる単位で行われる。例えばMP3ストリームは1152サンプル毎のフレームに分割して符号化処理を行っている。このため、ほとんどの場合、音声データのトラック境界とMP3ストリームの分割位置とが一致しない。よって、MP3ストリームを曲単位で分割する際に、CDのトラック境界を、そのままMP3ストリームの1曲のファイルの分割位置として使うことができない。
CDのトラック境界の近傍のMP3ストリームのフレーム境界を、曲単位のファイルの分割位置とした場合、本来の曲の境界ではない箇所で、曲が分割されることになる。このため、曲の終わりに次曲の始めの音が混入したり、曲の始めに前曲の終わりの音が混入したりする。CD中の曲によっては、前曲の最後は無音で次曲の先頭に音がある場合や、前曲の最後に音があり次曲の先頭は無音である場合がある。このような場合、MP3ストリームから曲を再生したとき、前曲の終わりに次曲の始めの音が聞こえたり、前曲の終わりの音が次曲の始まりで聞こえたりする場合があり、ノイズが混入しているように感じられる可能性がある。
本発明は、かかる点に鑑みてなされたものであり、音声データの再生と記録を行う記録再生装置において、音声データを圧縮符号化して得られた符号化データにおいて、ノイズと感じられる音が曲の切れ目に混入することを防止することを目的とする。
本発明は、記録再生装置として、入力された音声データについて、所定数のサンプルからなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とを行う音声データ処理部と、前記音声データ処理部から出力された符号化データを一時的に蓄えるエンコードデータバッファと、前記音声データに対して信号処理を行い、前記音声データの特徴を表す特徴情報を抽出する特徴抽出用信号処理部と、前記音声データに対応する曲位置情報と前記特徴抽出用信号処理部から出力された前記特徴情報とを入力とし、前記曲位置情報および特徴情報を基にして曲の切り替わりとすべきフレーム境界を特定する曲切り替わり検出部と、前記曲切り替わり検出部によって曲の切り替わりとすべきフレーム境界が特定されたとき、前記エンコードデータバッファに蓄えられた符号化データについて、当該符号化データのフレーム境界が、特定された曲の切り替わりとすべきフレーム境界に合うように修正する処理を行うフレーム境界分割部とを備えたものである。
本発明に係る記録再生装置によると、入力された音声データは、音声データ処理部によって、所定数のサンプルからなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とが行われる。得られた符号化データはエンコードデータバッファに一時的に蓄えられる。そして曲切り替わり検出部は、音声データに対応する曲位置情報と、特徴抽出用信号処理部によって抽出された、音声データの特徴を表す特徴情報とを基にして、曲の切り替わりとすべきフレーム境界を特定する。曲の切り替わりとすべきフレーム境界が特定されたとき、フレーム境界分割部によって、エンコードデータバッファに蓄えられた符号化データについて、当該符号化データのフレーム境界が特定されたフレーム境界に合うように修正する処理が行われる。これにより、符号化データのフレーム境界が音声データにおける曲の切り替わりとすべきフレーム境界に合うため、前曲の終わりに次曲の先頭の音が混入したり、前曲の終わりの音が次曲の始まりに混入したりすることを防ぐことができる。
本発明によると、音声データについて、再生のためのデコード処理と記録のための圧縮符号化処理とを行う記録再生装置において、符号化データのフレーム境界が音声データにおける曲の切り替わりとすべきフレーム境界に合うため、ノイズ混入と感じられるおそれのある、前曲の終わりへの次曲の先頭の音の混入や、前曲の終わりの音の次曲の始まりへの混入を防ぐことができる。
本発明の第1〜第3の実施形態に係る記録再生装置の構成例を示すブロック図である。 第1の実施形態における記録再生装置の動作例を示す図である。 第1の実施形態における記録再生装置の動作例を示す図である。 第1の実施形態における記録再生装置の動作例を示す図である。 第1の実施形態における記録再生装置の動作例を示す図である。 第2の実施形態における記録再生装置の動作例を示す図である。 本発明の第4の実施形態に係る記録再生装置の構成例を示すブロック図である。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
図1は本発明の第1の実施形態に係る記録再生装置の概略構成を示す図である。図1の記録再生装置101は、入力された音声データを、再生すると同時に、圧縮符号化して記録するものである。本実施形態では、音声データはCDに記録されていたものとし、圧縮符号化の方式としてMP3を用いるものとする。
図1において、音声データ処理部120は、入力された音声データについて、所定数のサンプル(例えば1152サンプル)からなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とを行う。音声データ処理部120は、音声データから1フレームずつのデータを取り込んで出力するストリーム制御部102と、ストリーム制御部102から出力された音声データを一時的に蓄えるバッファ103と、バッファ103から1フレーム分のデータを取り込んで再生のためにデコード処理を行うデコーダ部104と、バッファ103から1フレーム分のデータを取り込んで記録のために圧縮符号化処理を行うエンコーダ部105とを備えている。デコーダ部104によってデコード処理されるデータと、エンコーダ部105によって圧縮符号化処理されるデータとは、バッファ103上の同じデータである。
また、出力バッファ109は、デコーダ部104からの復号データを一時的に蓄えて一定速度で出力する。エンコードバッファ110は、エンコーダ部105からの符号化データを一時的に蓄えて半導体メモリやハードディスク等へ出力する。出力バッファ109とエンコードデータバッファ110とは、SRAM108上に確保されている。
記録再生装置101はさらに、曲切り替わり検出部106、特徴抽出用信号処理部107、フレーム境界分割部111、およびホストインタフェース112を備えている。記録再生装置101の各部は、それぞれ時分割で処理を行っている。
特徴抽出用信号処理部107は、音声データ処理部120から得られる情報を基にして音声データに対して信号処理を行い、音声データの特徴を表す特徴情報を抽出する。この特徴情報は曲切り替わり検出部106に通知される。曲切り替わり検出部106は、音声データ処理部120に取り込まれた音声データに対応する曲位置情報と特徴抽出用信号処理部107から出力された特徴情報とを入力とし、これら曲位置情報および特徴情報を基にして、曲の切り替わりとすべきフレーム境界を特定する。特定されたフレーム境界の情報はフレーム境界分割部111に通知される。
フレーム境界分割部111は、曲切り替わり検出部106によって曲の切り替わりとすべきフレーム境界が特定されたとき、エンコードデータバッファ110に蓄えられた符号化データについて、当該符号化データのフレーム境界が、特定された曲の切り替わりとすべきフレーム境界に合うように修正する処理を行う。具体的には例えば、エンコードデータバッファ110に蓄えられた符号化データに対し、当該符号化データのフレーム境界が特定されたフレーム境界に合うように、ダミーデータを挿入する。さらに、曲の切り替わりとして特定されたフレーム境界に対応する符号化データのフレーム境界を示すデータを、符号化データの分割位置として出力する。この分割位置の情報は、ホストインタフェース112を介して記録再生装置101の外部に出力される。
一方、曲の途中の場合は、曲切り替わり検出部106からフレーム境界の通知はなされず、フレーム境界分割部111は特に動作は行わない。なお、本実施形態では、外部ホストモジュールにおいて分割処理を行うことを想定しているが、記録再生装置101内部の別モジュールにおいて分割処理を行ってもよい。この場合は、分割位置の情報はその内部モジュールに送られる。
本実施形態では、特徴抽出用信号処理部107は、フレーム境界付近における音声データの音圧レベルを、特徴情報として抽出するものとする。また、曲切り替わり検出部106は、CDに記録されているサブコードを、曲位置情報として利用するものとする。CDには、音声データの所定サンプル数(例えば588サンプル)のセクタごとに、曲番号等を含むサブコードが記録されている。また、音声データのサンプル数、データサイズ、1曲の再生時間等を曲位置情報として利用することも可能である。
図2および図3は本実施形態における記録再生装置の動作を示す図であり、音声データとその音圧レベル、および符号化データの一例としてのMP3データを示している。MP3方式によれば、音声データはフレーム単位で符号化され、ヘッダとメインデータとで構成されるMP3データが生成される。そして、あるヘッダの先頭から次のヘッダの先頭までがMP3データの1フレームとなっており、この1フレームのデータサイズはMP3データのビットレートによって決まっている。
図2および図3において、音声データのフレームNの中に、曲番号Mと曲番号(M+1)とのトラック境界があるものとしている(M,Nは自然数)。
図2に示す音声データでは、フレーム(N−1)とフレームNとの境界では無音でなく有音であり、フレームNとフレーム(N+1)との境界では無音になっている。この場合、フレーム(N−1)とフレームNとの境界を曲の切り替わりとすると、曲(M+1)のスタートで曲Mの音が入ってしまい、ノイズのように感じられる。このため、図2の例では、フレームNとフレーム(N+1)との境界を曲の切り替わりとするのが好ましい。
一方、図3に示す音声データでは、フレーム(N−1)とフレームNとの境界では無音であり、フレームNとフレーム(N+1)との境界では無音でなく有音になっている。この場合、フレームNとフレーム(N+1)との境界を曲の切り替わりとすると、曲Mのエンドで曲(M+1)の音が入ってしまい、ノイズのように感じられる。このため、図3の例では、フレーム(N−1)とフレームNとの境界を曲の切り替わりとするのが好ましい。
よって、本実施形態では、曲切り替わり検出部106は、特徴抽出用信号処理部107によって抽出された、フレーム境界付近における音声データの音圧レベルの情報を利用して、図2の場合には、フレームNとフレーム(N+1)との境界を曲の切り替わりとして特定し、図3の場合には、フレーム(N−1)とフレームNとの境界を曲の切り替わりとして特定するよう、動作する。
曲切り替わり検出部106における処理について、詳しく説明する。曲切り替わり検出部106は、ストリーム制御部102に取り込まれた音声データに対応するサブコードを曲位置情報として読み込む。特徴抽出用信号処理部107は、フレーム境界位置における音声データの数サンプル分の平均値(音圧レベルを表す)を求め、特徴情報として曲切り替わり検出部106に与える。なお、曲切り替わり検出部106が読み込む特徴情報は、フレーム境界位置における音声サンプルの音圧レベルの平均値に限られるものではない。曲切り替わり検出部106は、サブコードに含まれる曲番号と音声サンプルの平均値とを基にして、曲の切り替わりとすべきフレーム境界を特定する。
まず、ストリーム制御部102に音声データのフレーム0が取り込まれたとき、曲切り替わり検出部106は、この音声データのフレーム0に対応するサブコードを読み込む。音声データのフレーム0は、記録再生装置101の起動後の最初の入力データなので、このフレーム0の曲番号Mを曲番号の初期値とする。
以降、曲切り替わり検出部106は、ストリーム制御部102に音声データのフレーム1〜Nが取り込まれるたびに、これらの音声データに対応するサブコードを読み込んで曲番号の判定をする。当該フレームの曲番号と次のフレームの曲番号が等しいので、フレーム0〜(N−1)の間、曲切り替わり検出部106は曲の途中と判定する。
ストリーム制御部102に音声データのフレームNとフレーム(N+1)が取り込まれたとき、曲切り替わり検出部106はフレームNとフレーム(N+1)に対応するサブコードを読みこむ。フレームNの曲番号がMであり、フレーム(N+1)の曲番号が(M+1)なので、曲切り替わり検出部106は、特徴抽出用信号処理部107から通知されたフレーム境界位置における音声サンプルの平均値を参照した上で、判定を行う。
図2の例では、フレームNの前側境界における音声サンプルの平均値は有音を示し、後側境界における音声サンプルの平均値は無音を示す。この場合、フレームNの前側境界すなわちフレーム(N−1)とフレームNとの境界を曲の切り替わりとすると、曲(M+1)のスタートでノイズが混入することになる。よって、フレームNは曲の途中と判定し、フレームNの後側境界すなわちフレームNとフレーム(N+1)との境界を曲の切り替わりとして特定する。すなわち、フレームNは曲Mに含まれるものとする。
一方、図3の例では、フレームNの前側境界における音声サンプルの平均値は無音を示し、後側境界における音声サンプルの平均値は有音を示す。この場合、フレームNの後側境界すなわちフレームNとフレーム(N+1)との境界を曲の切り替わりとすると、曲Mのエンドでノイズが混入することになる。よって、フレームNの前側境界すなわちフレーム(N−1)とフレームNとの境界を曲の切り替わりとして特定する。すなわち、フレームNは曲(M+1)に含まれるものとする。
フレーム境界分割部111の処理について説明する。曲切り替わり検出部106から曲の切り替わりが通知されていない場合は、フレーム境界分割部111は特に処理を行わない。したがって、エンコードデータバッファ110にはエンコーダ部105から出力された符号化データがそのまま格納される。
一方、曲切り替わり検出部106が曲の切り替わりとすべきフレーム境界を特定したとき、フレーム境界分割部111は曲切り替わり検出部106からの通知を受けて、エンコードデータバッファ110に格納されたMP3データにダミーデータを挿入する処理を行う。これにより、音声データにおける曲の切り替わりとすべきフレーム境界が、MP3データのフレーム境界に合うように、MP3データが修正される。
例えば図2の例では、音声データのフレームNを符号化して得られたメインデータNの終端からヘッダ(N+1)の先頭までの間にダミーデータを挿入し、音声データのフレーム(N+1)を符号化して得られたメインデータ(N+1)がMP3データのフレームNに混入できるサイズを0にする。この後、音声データのフレーム(N+1)がエンコーダ部105によって符号化されたとき、得られたメインデータ(N+1)はヘッダ(N+1)の終端から配置される。
また図3の例では、音声データのフレーム(N−1)を符号化して得られたメインデータ(N−1)の終端からヘッダNの先頭までの間にダミーデータを挿入し、音声データのフレームNを符号化して得られたメインデータNがMP3データのフレーム(N−1)に混入できるサイズを0にする。この後、音声データのフレームNがエンコーダ部105によって符号化されたとき、得られたメインデータNはヘッダNの終端から配置される。
この結果、図2の例では、ヘッダ(N+1)の先頭でMP3データの分割が可能となり、ヘッダ(N+1)以降が曲(M+1)のMP3データとなる。図3の例では、ヘッダNの先頭でMP3データの分割が可能となり、ヘッダN以降が曲(M+1)のMP3データとなる。
さらにフレーム境界分割部111は、曲の切り替わりとなるMP3データのフレーム境界を示すデータを、MP3データの分割位置として出力する。図2の例では、エンコードデータバッファ110上のヘッダ(N+1)の先頭アドレスを分割位置として出力し、図3の例では、エンコードデータバッファ110上のヘッダNの先頭アドレスを分割位置として出力する。フレーム境界分割部111から出力された分割位置は、ホストインターフェース112を経由して記録再生装置101の外部へ通知される。
なお、図4に示すようにフレームNの前後両方の境界で音声サンプルが無音を示す場合、あるいは、図5に示すようにフレームNの前後両方の境界で音声サンプルが有音を示す場合もあり得る。図4の場合は、フレームNの前側および後側境界のどちらを曲の切り替わりとしてもノイズが混入することはない。また図5の場合は、フレームNの前側および後側境界のどちらを曲の切り替わりとしてもノイズが混入する。このような場合は、曲切り替わり検出部106は、曲の切り替わりの候補を複数通知してもよい。
図4および図5の場合、フレーム境界分割部111は、フレームNの前側および後側境界の両方が曲の切り替わりの候補として通知されると、メインデータ(N−1)の終端からヘッダNの先頭までとメインデータNの終端からヘッダ(N+1)の先頭までとの2箇所に、ダミーデータを挿入する。よって、ヘッダNおよびヘッダ(N+1)の先頭で符号化データの分割が可能となる。フレーム境界分割部111は、エンコードデータバッファ110上のヘッダNおよびヘッダ(N+1)の先頭アドレスを、符号化データの分割位置として出力する。この場合、分割処理を行う外部モジュールは、出力された分割位置のいずれかを選択することも可能である。また、分割位置の選択のために参考となり得る情報を併せて出力することも可能である。なお、外部モジュールに通知する分割位置の個数は、フレーム分割数として、外部モジュールから指定できるようにするのが望ましい。
以上のとおり、図1の記録再生装置101によれば、曲番号が異なる音声データを連続して入力した場合でも、再生が途切れることなく、符号化データを曲番号ごとに分割して記録することができる。
また、曲切り替わり検出部106は、音声データに対応する曲位置情報と、特徴抽出用信号処理部107によって抽出された、音声データの特徴を表す特徴情報とを基にして、曲の切り替わりとすべきフレーム境界を特定する。曲の切り替わりとすべきフレーム境界が特定されたとき、フレーム境界分割部111によって、エンコードデータバッファ110に蓄えられた符号化データについて、当該符号化データのフレーム境界が特定されたフレーム境界に合うように修正する処理が行われる。これにより、符号化データのフレーム境界が音声データにおける曲の切り替わりとすべきフレーム境界に合うため、曲の終わりに次曲の先頭の音が混入したり、曲の始まりに前曲の終わりの音が混入したりすることを、防ぐことができる。したがって、音声データを圧縮符号化して得られた符号化データにおいて、ノイズと感じられる音が曲の切れ目に混入することを防止することができる。
(第2の実施形態)
本発明の第2の実施形態に係る記録再生装置の概略構成は、第1の実施形態と同様であり、図1に示すとおりである。ただし、曲切り替わり検出部106および特徴抽出用信号処理部107における処理が、第1の実施形態と異なっている。その他の構成の動作は第1の実施形態と同様であり、ここでは説明を省略する。
図6は本実施形態における記録再生装置の動作を示す図であり、音声データとその音圧レベル、および符号化データの一例としてのMP3データを示している。図6を参照しながら、本実施形態における曲切り替わり検出部106および特徴抽出用信号処理部107での処理について、説明する。
本実施形態では、特徴抽出用信号処理部107は、音声データの特徴を表す特徴情報として、音声データの音圧レベルの時間推移を表す時間推移情報を抽出するものとする。具体的には例えば、音圧レベルと所定の閾値との比較を行い、この比較結果に基づいて、音圧レベルが所定の閾値を下回る区間の開始点と終了点とを求める。
曲切り替わり検出部106は、特徴抽出用信号処理部107から特徴情報として、音圧レベルが所定の閾値以下となる区間の開始点と終了点とを受ける。そして、この開始点または終了点からより遠い方のフレーム境界を、曲の切り替わりとして特定する。図6の例では、“レベル<閾値”となる区間の開始点からフレームNの前側境界までの時間長よりも、“レベル<閾値”となる区間の終了点からフレームNの後側境界までの時間長の方が長い。このため、フレームNの後側境界すなわちフレームNとフレーム(N+1)との境界を曲の切り替わりとして特定する。
なお、ここでは、開始点または終了点とフレーム境界とを比較しているが、フレーム境界の代わりにトラックの境界を用いてもよい。例えば、トラックの境界から“レベル<閾値”となる区間の開始点および終了点までの時間長をそれぞれ求め、時間長が長い方の側にあるフレーム境界(図6の場合には、フレームNとフレーム(N+1)との境界)を曲の切り替わりとして特定する。あるいは、時間長が短い方の側にあるフレーム境界を曲の切り替わりとして特定してもよい。
なお、ここでは、音声データの特徴量として音圧レベルを用いたが、これ以外の特徴量を用いてもかまわない。例えば、特徴抽出用信号処理部107が、音声データの周波数特性を特徴量として抽出し、予め定められた特性との類似度を求め、この類似度が所定の閾値を下回る区間を特定するようにしてもかまわない。このような特徴情報も、曲切り替わりの判断に用いることが可能である。あるいは、特定周波数帯域におけるレベル情報を、特徴量として抽出し、所定の閾値と比較してもかまわない。
なお、本実施形態では、デコーダ部104やエンコーダ部105における周波数分析処理の結果から、周波数特性や、特定周波数帯域におけるレベル情報を求めることも可能である。
また、ここでは、音声データの特徴量の時間推移を表す時間推移情報として、特徴量と所定の閾値との比較結果に基づいて、特徴量が所定の閾値を下回る区間の開始点と終了点とを特定するものとしたが、時間推移情報の形態はこれに限られるものではない。例えば、数フレーム分または任意のサンプル数分の音声データの特徴量を取得し、その時間変化の傾向を時間推移情報として求めてもよい。一例として、音声データの特徴量が収束するであろう時間を推定し、これに基づいて曲の切り替わりを特定する、といったことも可能である。
(第3の実施形態)
本発明の第3の実施形態に係る記録再生装置の概略構成は、第1の実施形態と同様であり、図1に示すとおりである。ただし、曲切り替わり検出部106および特徴抽出用信号処理部107における処理が、第1および第2の実施形態と異なっている。その他の構成の動作は第1の実施形態と同様であり、ここでは説明を省略する。
本実施形態では、特徴抽出用信号処理部107は、音声データの物理特性分析を行い、レベル情報や周波数特性などの分析結果を得る。ここで得られる音声データの特徴量は、音声か非音声かの判別結果、テンポ情報、および音色情報のうち少なくとも1つを含み、これらの複合的な分析結果であってもよい。そして、音声データの特徴量の時間推移を表す時間推移情報として、この分析結果の時系列に沿った変化を抽出する。なお、第2の実施形態で述べたように、デコーダ部104またはエンコーダ部105における周波数分析結果を利用することも可能である。
曲切り替わり検出部106は、特徴抽出用信号処理部107によって抽出された、分析結果の時系列に沿った変化に基づいて、曲の切り替わりを判定する。例えば、分析結果が急激に変化する点や、特定の音声が含まれる点を求め、これを曲の切り替わりと類推するような処理が考えられる。
(第4の実施形態)
図7は本発明の第4の実施形態に係る記録再生装置の概略構成を示す図である。図7の構成は、図1の構成とほぼ同様であり、図1と共通の構成要素には図1と同一の符号を付しており、ここではその詳細な説明を省略する。
本実施形態では、曲切り替わり検出部106および特徴抽出用信号処理部107における処理が、記録再生装置101Aの外部からホストインターフェース112を介して設定可能に構成されている点が、第1〜第3の実施形態と異なっている。
音声データの再生と符号化処理を開始する際には、はじめに外部からホストインターフェース112を通じて、曲切り替わり部106に、エンコード後のオーディオ符号化方式やサンプリング周波数、バッファの開始終了領域、フレーム分割数などのエンコーダ処理内容の設定を行う。設定を行った後、音声データの再生と符号化処理を行う。処理の間、フレーム境界分割部111からはフレーム境界の分割位置を受け取る。音声データの再生と符号化処理の停止を行う場合には、分割位置を基に、停止処理を行う。
外部からホストインターフェース112を用いて、例えば、次のような設定を行うことができる。
・入力が音楽データの場合には、第1の実施形態に示すような処理を行い、入力が話声データの場合には、第2の実施形態に示すような処理を行う。
・第2の実施形態に示す処理において、用いる閾値を音声データのレベルの平均値に応じて変更する。
・第1〜第3の実施形態に示すような処理を行う際に、曲番号の代わりに、外部から曲位置情報を直接指定する。
・第1〜第3の実施形態に示すような処理を行う際に、特徴抽出用信号処理部107から得られた特徴情報を基にした切り替わり検出結果と、曲番号を基にした切り替わり検出結果とが矛盾する場合、前者を優先するようにする。
・図5に示す例のように、どのフレーム境界を曲の切り替わり点としても、曲の先頭または終端で音切れが発生し得る場合、曲先頭(または終端)の音切れを回避するようにする。
このように、分割処理を行う外部モジュールから曲切り替わり検出部106および特徴抽出用信号処理部107の処理内容を制御することによって、曲切り替わりの判断を最適化することが可能である。
なお、外部モジュールから曲切り替わり検出部106および特徴抽出用信号処理部107の処理内容を制御するタイミングは任意であり、例えば、システムの起動ごとであってもよいし、エンコードを開始する都度であってもよいし、エンコード処理中であっても良い。処理内容の制御を行う頻度が上がれば、システムの負荷は高くなるが、より精度の高い最適化が可能となる。
以上説明してきたとおり、本発明に係る記録再生装置は、曲番号が異なる音声データを連続して入力しながら再生と同時に符号化データを曲番号ごとに分割して記録する際に、符号化された曲の先頭や末尾へのノイズ混入を防止するという点で有効である。
101,101A 記録再生装置
102 ストリーム制御部
103 バッファ
104 デコーダ部
105 エンコーダ部
106 曲切り替わり検出部
107 特徴抽出用信号処理部
108 SDRAM
109 出力バッファ
110 エンコードデータバッファ
111 フレーム境界分割部
112 ホストインターフェース
120 音声データ処理部

Claims (11)

  1. 入力された音声データについて、所定数のサンプルからなるフレーム単位で、再生のためのデコード処理と、記録のための圧縮符号化処理とを行う音声データ処理部と、
    前記音声データ処理部から出力された符号化データを一時的に蓄えるエンコードデータバッファと、
    前記音声データに対して信号処理を行い、前記音声データの特徴を表す特徴情報を抽出する特徴抽出用信号処理部と、
    前記音声データに対応する曲位置情報と、前記特徴抽出用信号処理部から出力された前記特徴情報とを入力とし、前記曲位置情報および特徴情報を基にして、曲の切り替わりとすべきフレーム境界を特定する曲切り替わり検出部と、
    前記曲切り替わり検出部によって曲の切り替わりとすべきフレーム境界が特定されたとき、前記エンコードデータバッファに蓄えられた符号化データについて、当該符号化データにおけるフレーム境界が、特定された曲の切り替わりとすべきフレーム境界に合うように修正する処理を行うフレーム境界分割部とを備えた
    ことを特徴とする記録再生装置。
  2. 請求項1において、
    前記フレーム境界分割部は、曲の切り替わりとして特定されたフレーム境界に対応する、前記符号化データのフレーム境界を示すデータを、前記符号化データの分割位置として出力する
    ことを特徴とする記録再生装置。
  3. 請求項1において、
    前記特徴抽出用信号処理部は、前記特徴情報として、フレーム境界付近における音声データの特徴量を抽出するものである
    ことを特徴とする記録再生装置。
  4. 請求項3において、
    前記特徴量は、音声データの音圧レベルである
    ことを特徴とする記録再生装置。
  5. 請求項1において、
    前記特徴抽出用信号処理部は、前記特徴情報として、音声データの特徴量の時間推移を表す時間推移情報を抽出するものである
    ことを特徴とする記録再生装置。
  6. 請求項5において、
    前記時間推移情報は、特徴量と所定の閾値との比較結果に基づくものである
    ことを特徴とする記録再生装置。
  7. 請求項5において、
    前記特徴量は、音声データの音圧レベルである
    ことを特徴とする記録再生装置。
  8. 請求項5において、
    前記特徴量は、音声データの周波数特性である
    ことを特徴とする記録再生装置。
  9. 請求項5において、
    前記特徴抽出用信号処理部は、音声データの物理特性分析を行い、前記特徴量として、音声か非音声かの判別結果、テンポ情報、および音色情報のうち少なくとも1つを得る
    ことを特徴とする記録再生装置。
  10. 請求項1において、
    前記特徴抽出用信号処理部および曲切り替わり検出部における処理内容を、外部から制御可能にするためのホストインターフェースを備えている
    ことを特徴とする記録再生装置。
  11. 請求項1において、
    前記音声データは、CDに記録されたものであり、
    前記曲位置情報は、CDに記録されたサブコードを含む
    ことを特徴とする記録再生装置。
JP2009549907A 2008-01-16 2008-12-05 記録再生装置 Expired - Fee Related JP4990375B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009549907A JP4990375B2 (ja) 2008-01-16 2008-12-05 記録再生装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008006486 2008-01-16
JP2008006486 2008-01-16
PCT/JP2008/003634 WO2009090705A1 (ja) 2008-01-16 2008-12-05 記録再生装置
JP2009549907A JP4990375B2 (ja) 2008-01-16 2008-12-05 記録再生装置

Publications (2)

Publication Number Publication Date
JPWO2009090705A1 true JPWO2009090705A1 (ja) 2011-05-26
JP4990375B2 JP4990375B2 (ja) 2012-08-01

Family

ID=40885116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009549907A Expired - Fee Related JP4990375B2 (ja) 2008-01-16 2008-12-05 記録再生装置

Country Status (4)

Country Link
US (1) US20100286989A1 (ja)
JP (1) JP4990375B2 (ja)
CN (1) CN101911184B (ja)
WO (1) WO2009090705A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294603A (ja) * 2008-06-09 2009-12-17 Panasonic Corp データ再生方法、データ再生装置及びデータ再生プログラム
CN102956230B (zh) * 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
WO2017099123A1 (ja) * 2015-12-08 2017-06-15 株式会社日立国際電気 音声ノイズ検出装置および音声ノイズ検出方法
CN110134362A (zh) * 2019-05-16 2019-08-16 北京小米移动软件有限公司 音频播放方法、装置、播放设备以及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0676894B1 (en) * 1994-04-06 2001-12-19 Sony Corporation Reproducing recording media
US6819863B2 (en) * 1998-01-13 2004-11-16 Koninklijke Philips Electronics N.V. System and method for locating program boundaries and commercial boundaries using audio categories
JP2001291373A (ja) * 2000-04-05 2001-10-19 Pioneer Electronic Corp 情報記録装置及び情報記録方法
JP2003257121A (ja) * 2002-03-05 2003-09-12 Sony Corp 信号再生方法及び装置、信号記録方法及び装置、並びに符号列生成方法及び装置
JP2004021996A (ja) * 2002-06-12 2004-01-22 Sony Corp 記録装置、サーバ装置、記録方法、プログラム、記憶媒体
US7363230B2 (en) * 2002-08-01 2008-04-22 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
US7863513B2 (en) * 2002-08-22 2011-01-04 Yamaha Corporation Synchronous playback system for reproducing music in good ensemble and recorder and player for the ensemble
JP2004178705A (ja) * 2002-11-27 2004-06-24 Matsushita Electric Ind Co Ltd 圧縮データ記録装置及び圧縮データ記録方法
JP4107212B2 (ja) * 2003-09-30 2008-06-25 ヤマハ株式会社 楽曲再生装置
US7480231B2 (en) * 2004-03-29 2009-01-20 Pioneer Corporation Digital dubbing device
JP2005322291A (ja) * 2004-05-07 2005-11-17 Matsushita Electric Ind Co Ltd 再生装置及び再生方法
JP4649901B2 (ja) * 2004-07-15 2011-03-16 ヤマハ株式会社 曲の符号化伝送のための方法および装置
WO2006013822A1 (ja) * 2004-08-03 2006-02-09 Pioneer Corporation 情報記録媒体、情報記録装置及び方法、並びにコンピュータプログラム
US20080092048A1 (en) * 2004-12-27 2008-04-17 Kenji Morimoto Data Processor
JP4373962B2 (ja) * 2005-05-17 2009-11-25 株式会社東芝 音声と映像信号から判定した映像信号の区切り情報設定方法及び装置
JP2008076776A (ja) * 2006-09-21 2008-04-03 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
CN101512909B (zh) * 2006-11-30 2012-12-19 松下电器产业株式会社 信号处理装置
JP2008152840A (ja) * 2006-12-15 2008-07-03 Matsushita Electric Ind Co Ltd 記録再生装置
US8983081B2 (en) * 2007-04-02 2015-03-17 Plantronics, Inc. Systems and methods for logging acoustic incidents

Also Published As

Publication number Publication date
CN101911184B (zh) 2012-05-30
US20100286989A1 (en) 2010-11-11
WO2009090705A1 (ja) 2009-07-23
JP4990375B2 (ja) 2012-08-01
CN101911184A (zh) 2010-12-08

Similar Documents

Publication Publication Date Title
US7507894B2 (en) Sound data encoding apparatus and sound data decoding apparatus
US7479594B2 (en) Sound data encoding apparatus and sound decoding apparatus
CN103843064A (zh) 在特技模式中播放音频
JP4990375B2 (ja) 記録再生装置
KR100924731B1 (ko) 재생 장치, 재생 방법 및 재생 프로그램이 기록된 컴퓨터판독 가능한 기록 매체
JP2006221714A (ja) 符号化ディジタルオーディオ再生装置
JP2008152840A (ja) 記録再生装置
US20050016364A1 (en) Information playback apparatus, information playback method, and computer readable medium therefor
JP2004093729A (ja) 音楽データの記録装置及び再生装置
JP2007183410A (ja) 情報再生装置および方法
JP4588626B2 (ja) 楽曲再生装置、再生制御方法、および、プログラム
JP2008197199A (ja) オーディオ符号化装置及びオーディオ復号化装置
JP4542805B2 (ja) 変速再生方法及び装置、並びにプログラム
US20120039397A1 (en) Digital signal reproduction device and digital signal compression device
JP4695006B2 (ja) 復号処理装置
JPH08146985A (ja) 話速制御システム
JP2005149608A (ja) 音声データ記録/再生システムとその音声データ記録媒体
JP2008047203A (ja) 楽曲結合装置、楽曲結合方法、及び楽曲結合プログラム
JP2010123225A (ja) 記録再生装置及び記録再生方法
WO2005093750A1 (ja) ディジタルダビング装置
JP5751421B2 (ja) 音声再生装置、音声再生方法、プログラム
JP4779954B2 (ja) 音声データ処理装置、方法及びプログラム
JP2002287800A (ja) 音声信号処理装置
JP2001117596A (ja) 音声信号再生方法および音声信号再生装置
JP2007033585A (ja) 音声符号化装置および音声符号化方法

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120501

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees