JP2009075177A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2009075177A
JP2009075177A JP2007241681A JP2007241681A JP2009075177A JP 2009075177 A JP2009075177 A JP 2009075177A JP 2007241681 A JP2007241681 A JP 2007241681A JP 2007241681 A JP2007241681 A JP 2007241681A JP 2009075177 A JP2009075177 A JP 2009075177A
Authority
JP
Japan
Prior art keywords
parameter
audio signal
signal
information processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007241681A
Other languages
English (en)
Other versions
JP2009075177A5 (ja
JP4952469B2 (ja
Inventor
Osamu Nakamura
理 中村
Mototsugu Abe
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007241681A priority Critical patent/JP4952469B2/ja
Priority to US12/283,835 priority patent/US8457322B2/en
Priority to CN2008101747350A priority patent/CN101393745B/zh
Publication of JP2009075177A publication Critical patent/JP2009075177A/ja
Publication of JP2009075177A5 publication Critical patent/JP2009075177A5/ja
Application granted granted Critical
Publication of JP4952469B2 publication Critical patent/JP4952469B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】オーディオ信号の再生速度を変換する場合において、変換後の再生速度を聴覚的に認識させることが可能な、情報処理装置、情報処理方法およびプログラムを提供する。
【解決手段】本発明によれば、入力された再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節部と、第2のパラメータおよび第3のパラメータに基づいて、オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理部と、を設け、信号処理部は、入力された再生倍率が所定の閾値未満であった場合には、オーディオ信号の話速を調節し、入力された再生倍率が所定の閾値以上であった場合には、オーディオ信号の話速および音の高さを調節する。
【選択図】図18

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。
テレビ放送により放送された番組を、DVD(Digital Versatile Disc)やHDD(Hard Disk Drive)のようなランダムアクセス性を持った記録媒体にデジタルデータとして録画する録画再生装置が、近年急速に普及している。更に、ビデオやオーディオといったコンテンツのインターネットによる流通も盛んに行なわれるようになり、インターネットからダウンロードしたコンテンツを屋内外で楽しむことが可能なHDDやフラッシュメモリ搭載の再生装置も、既に広く普及している。
上記のようなデジタルコンテンツの再生装置では、デジタル性やランダムアクセス性を利用した様々な機能が搭載されている。その機能の1つとして、音の高さを一定に保ったまま再生速度を可変にする変速再生機能が挙げられる。変速再生機能とは、ビデオやオーディオの再生速度を遅くしたり早くしたりする機能であって、例えば、初心者の語学学習用途等のために再生速度を2割程度遅くしたり(遅聴)、視聴時間節約等のために再生速度を5割程度速くしたり(速聴)する機能をいう。変速再生機能は、デジタルコンテンツ再生装置の普及の初期から搭載されることが多い機能であり、現在では一般的なものになってきている。本発明では、オーディオコンテンツだけでなく、ビデオコンテンツにおけるオーディオ部分に対しても焦点を当てる。
デジタルコンテンツの再生装置において、音の高さを一定に保ったまま変速再生を可能とするための技術は、話速変換と呼ばれる。以下、話速変換といえば、音の高さを一定に保ったまま信号を伸張したり圧縮したりする変換を指すものとする。話速変換の方法は複数知られているが、一例として、デジタルオーディオ信号に対する時間領域での伸張圧縮アルゴリズムであるPICOLA(Pointer Interval Control OverLap and Add、非特許文献1参照。)が挙げられる。このアルゴリズムは、処理が単純かつ軽量でありながら、良好な音質が得られるという利点がある。
森田、板倉、「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,日本音響学会論文集,昭和61年10月、pp.149−150
しかしながら、話速変換では、音の高さを一定に保ったまま再生速度の変換を行うため、変換後の再生速度を聴覚的に認識することが困難であるという問題があった。
そこで、本発明は、このような問題に鑑みてなされたもので、その目的は、オーディオ信号の再生速度を変換する場合において、変換後の再生速度を聴覚的に認識させることが可能な、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、オーディオ信号を時間領域において伸張または圧縮して出力し、前記オーディオ信号の再生倍率を制御する情報処理装置において、入力された前記再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節部と、前記第2のパラメータおよび前記第3のパラメータに基づいて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理部と、を備え、前記信号処理部は、前記入力された再生倍率が所定の閾値未満であった場合には、前記オーディオ信号の話速を調節し、前記入力された再生倍率が所定の閾値以上であった場合には、前記オーディオ信号の話速および音の高さを調節する情報処理装置が提供される。
かかる構成によれば、パラメータ調節部は、入力された再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定し、信号処理部は、第2のパラメータおよび第3のパラメータに基づいて、オーディオ信号の話速およびオーディオ信号の音の高さの少なくともいずれか一方を調節する。ここで、信号処理部は、入力された再生倍率が所定の閾値未満であった場合には、オーディオ信号の話速を調節し、入力された再生倍率が所定の閾値以上であった場合には、オーディオ信号の話速および音の高さを調節する。これにより、本発明に係る情報処理装置は、オーディオ信号の再生速度を変換する場合において、変換後の再生速度を聴覚的に認識させることが可能となる。
前記信号処理部は、前記オーディオ信号の再生速度である話速を変換する話速変換部と、前記オーディオ信号の音の高さであるピッチを調節するピッチ調節部と、を更に備え、前記話速変換部は、前記第2のパラメータに基づき前記オーディオ信号の話速を変換し、前記ピッチ調節部は、前記第3のパラメータに基づき前記オーディオ信号のピッチを調節してもよい。
前記第1のパラメータは、前記第2のパラメータと前記第3のパラメータとの積に等しくてもよい。
前記信号処理部は、当該信号処理部から出力される所定の信号処理が施されたオーディオ信号の出力制御を行うオーディオ信号出力制御部を更に備え、前記オーディオ信号出力制御部は、話速および音の高さの双方が調節されたオーディオ信号が前記信号処理部から出力される場合に、前記話速および音の高さの双方が調節されたオーディオ信号の音量を小さくしてもよい。
前記信号処理部は、前記第1のパラメータに応じて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する処理を行うか、高速再生していることを表す所定の擬音へと前記オーディオ信号を切り替えるか、を判定する擬音切替判定部を更に備え、前記擬音切替判定部は、前記第1のパラメータが所定の閾値以上であった場合に、前記オーディオ信号を前記所定の擬音に切り替える旨を判定し、前記オーディオ信号出力制御部は、前記擬音切替判定部から前記オーディオ信号を前記所定の擬音に切り替える旨の判定結果が伝送された場合に、前記オーディオ信号を前記所定の擬音に切り替えて出力してもよい。
前記情報処理装置は、前記オーディオ信号を含むコンテンツを管理するコンテンツ管理部を更に備え、前記パラメータ調節部は、入力された前記第1のパラメータに応じて、前記コンテンツ管理部から前記信号処理部へと出力される前記オーディオ信号のデータ量を調節する第4のパラメータを決定してもよい。
前記パラメータ調節部は、前記第1のパラメータが所定の閾値以上であった場合に、前記第4のパラメータを減少させ、前記コンテンツ管理部から前記信号処理部へと出力される前記コンテンツのデータ量を減少させてもよい。
前記第1のパラメータと前記第4のパラメータとの積は、前記第2のパラメータと前記第3のパラメータとの積に等しくてもよい。
前記情報処理装置は、前記オーディオ信号を含むコンテンツを管理するコンテンツ管理部を更に備え、前記パラメータ調節部は、前記コンテンツ管理部から伝送される、当該コンテンツ管理部から前記信号処理部へと出力される前記オーディオ信号のデータ量を調節する第4のパラメータと、入力される前記第1のパラメータとに基づいて、前記第2のパラメータおよび前記第3のパラメータを決定してもよい。
前記コンテンツ管理部は、前記第1のパラメータが所定の閾値以上であった場合に、前記第4のパラメータを減少させ、前記コンテンツ管理部から前記信号処理部へと出力される前記コンテンツのデータ量を減少させてもよい。
前記情報処理装置は、入力される前記第1のパラメータと、前記第2のパラメータおよび前記第3のパラメータとが互いに関連づけられたデータベースが記録された記憶部を更に備え、前記パラメータ調節部は、前記記憶部に記録された前記データベースを参照して、前記第2のパラメータおよび前記第3のパラメータを決定してもよい。
また、前記情報処理装置は、入力される前記第1のパラメータと、前記第2のパラメータ、前記第3のパラメータおよび前記第4のパラメータとが互いに関連づけられたデータベースが記録された記憶部を更に備え、前記パラメータ調節部は、前記記憶部に記録された前記データベースを参照して、前記第2のパラメータ、前記第3のパラメータおよび前記第4のパラメータを決定してもよい。
前記第1のパラメータが所定の閾値以上であった場合に、前記パラメータ調節部は、前記第1のパラメータと前記所定の閾値との差に応じて、前記第2のパラメータを増加させてもよい。
前記データベースは、前記第1のパラメータに応じた前記第2のパラメータおよび前記第3のパラメータの変化量を表す曲線として記録されており、前記所定の閾値の前後において、前記第3のパラメータの変化量を表す曲線は、滑らかな形状を有してもよい。
上記課題を解決するために、本発明の別の観点によれば、オーディオ信号を時間領域において伸張または圧縮して出力し、前記オーディオ信号の再生倍率を制御する情報処理方法であって、入力された前記再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節ステップと、前記第2のパラメータおよび前記第3のパラメータに基づいて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理ステップと、を含み、前記信号処理ステップでは、前記入力された再生倍率が所定の閾値未満であった場合には、前記第2のパラメータに基づいて前記オーディオ信号の話速を調節し、前記入力された再生倍率が所定の閾値以上であった場合には、前記第2のパラメータおよび前記第3のパラメータに基づいて前記オーディオ信号の話速および音の高さを調節する情報処理方法が提供される。
かかる構成によれば、パラメータ調節ステップでは、入力された再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定し、信号処理ステップでは、第2のパラメータおよび第3のパラメータに基づいて、オーディオ信号の話速およびオーディオ信号の音の高さの少なくともいずれか一方を調節する。この際に、信号処理ステップでは、入力された再生倍率が所定の閾値未満であった場合には、第2のパラメータに基づいてオーディオ信号の話速を調節し、入力された再生倍率が所定の閾値以上であった場合には、第2のパラメータおよび第3のパラメータに基づいてオーディオ信号の話速および音の高さを調節する。これにより、本発明に係る情報処理方法では、オーディオ信号の再生速度を変換する場合において、変換後の再生速度を聴覚的に認識させることが可能となる。
前記パラメータ調節ステップでは、第1のパラメータが、前記第2のパラメータと前記第3のパラメータとの積に等しくなるように、前記第2のパラメータおよび前記第3のパラメータが決定されてもよい。
前記信号処理ステップでは、前記オーディオ信号の話速および音の高さの双方を調節した場合に、前記オーディオ信号の音量が小さくなるように、前記オーディオ信号の信号波形の振幅を制御してもよい。
前記信号処理ステップでは、前記第1のパラメータが所定の閾値以上であった場合に、前記オーディオ信号を、高速再生していることを表す所定の擬音へと切り替えてもよい。
前記パラメータ調節ステップでは、前記第1のパラメータに応じて、前記信号処理ステップにて処理される前記オーディオ信号のデータ量を調節する第4のパラメータを更に決定してもよい。
前記パラメータ調節ステップでは、前記第1のパラメータが所定の閾値以上であった場合に、前記第4のパラメータを減少させ、前記オーディオ信号のデータ量を減少させてもよい。
前記パラメータ調節ステップでは、前記信号処理ステップにて処理される前記オーディオ信号のデータ量を調節する第4のパラメータと、前記第1のパラメータに応じて、前記第2のパラメータおよび前記第3のパラメータを決定してもよい。
前記パラメータ調節ステップでは、前記第1のパラメータと前記第4のパラメータとの積が、前記第2のパラメータと前記第3のパラメータとの積に等しくなるように、前記第2のパラメータ、前記第3のパラメータおよび前記第4のパラメータが決定されてもよい。
上記課題を解決するために、本発明の更に別の観点によれば、コンピュータを、オーディオ信号を時間領域において伸張または圧縮して出力し、前記オーディオ信号の再生倍率を制御する情報処理装置として機能させるためのプログラムであって、入力された前記再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節機能と、前記第2のパラメータおよび前記第3のパラメータに基づいて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理機能と、をコンピュータに実現させるためのプログラムが提供される。
かかる構成によれば、コンピュータプログラムは、コンピュータが備える記憶部に格納され、コンピュータが備えるCPUに読み込まれて実行されることにより、そのコンピュータを上記の情報処理装置として機能させる。また、コンピュータプログラムが記録された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
本発明によれば、オーディオ信号の再生速度を変換する場合において、変換後の再生速度を聴覚的に認識させることが可能である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、以下の説明において、音声から構成される信号を音声信号、音楽等の音声以外の信号を音響信号と称することとし、音声信号と音響信号とから構成される信号をオーディオ信号と称することとする。
[基盤技術に関する説明]
まず、本発明に係る好適な実施形態について詳細な説明をするに先立ち、本実施形態を実現する上で基盤を成す技術的事項について説明する。なお、本実施形態は、以下に記載する基盤技術の上に改良を加えることにより、より顕著な効果を得ることができるように構成されたものである。従って、その改良に係る技術こそが本実施形態の特徴を成す部分である。つまり、本実施形態は、ここで述べる技術的事項の基礎概念を踏襲するが、その本質はむしろ改良部分に集約されており、その構成が明確に相違すると共に、その効果において基盤技術とは一線を画するものであることに注意されたい。
<PICOLAに関する説明>
PICOLAは、上述のように、デジタル音声信号に対する時間領域での伸張圧縮アルゴリズムであって、以下のような方法で、音声信号の伸張や圧縮を行う。以下では、図1〜図5を参照しながら、PICOLAの信号処理方法について説明する。
図1は、PICOLAを用いてオーディオ信号を伸張する例を示した説明図である。なお、以下の説明において、原波形とは、PICOLAに入力されたままの状態の信号の波形を意味する。また、図1各図の縦軸は、信号の振幅(すなわち、強度)を表し、横軸は、時間を表している。
(PICOLAにおける波形の伸張処理)
PICOLAにおいては、まず、原波形(a)から、波形が類似している区間Aおよび区間Bを検出する。区間Aおよび区間Bは、図1(a)に示したように、同一の長さを有する連続した2つの区間であって、区間Aと区間Bのサンプル数は、同じである。続いて、検出した区間Aでの波形はそのままで、検出した区間Bでフェードアウトする波形(b)を生成する。同様にして、区間Aからフェードインし、区間Bでの波形はそのままである波形(c)を生成する。次に、生成した波形(b)と波形(c)とを足し合わせると、伸張波形(d)が得られる。
このように、フェードアウトする波形とフェードインする波形とを足し合わせることを、クロスフェードと称する。区間Aと区間Bとのクロスフェード区間を区間A×Bと表すこととすると、以上説明した操作を行なうことにより、原波形(a)の区間Aと区間Bは、伸張波形(d)の区間Aと区間A×Bと区間Bに変更される。
(類似波形長の検出について)
ここで、上述の波形の伸張処理において、入力された信号の中から、波形が類似している連続した2つの区間を検出する必要があるが、以下においては、図2を参照しながら、類似波形である区間Aと区間Bの区間長Wを検出する方法を説明する。図2は、類似波形長の探索の一例を説明するための説明図である。なお、以下の説明においては、図1における区間Aと区間Bの区間長を類似波形長と呼ぶこととする。
まず、ある信号波形における処理開始位置P0を起点として、jサンプルの区間Aと区間Bとを、図2(a)のように定める。次に、図2(a)→(b)→(c)に示したように、少しずつj(すなわち、サンプル数)を伸ばしながら、区間Aと区間Bが最も類似するjを検出する。ここで、区間Aと区間Bとの類似度を測る尺度として、例えば、以下の式1に示す関数D(j)を用いることが可能である。
Figure 2009075177
関数D(j)は、類似波形長の探索範囲の最小値(WMIN)から探索範囲の最大値(WMAX)までの区間(すなわち、WMIN≦j≦WMAX)で計算され、最も小さなD(j)を与えるjを求める。この、最も小さなD(j)を与えるパラメータjが、区間Aと区間Bの区間長Wとなる。なお、上記j、WMIN、WMAXは、周期のサンプル数表記である。
ここで、上記の式1において、x(i)は区間Aの各サンプル値を表し、y(i)は区間Bの各サンプル値を表す。また、x(i)が区間Bの各サンプル値を表し、y(i)が区間Aの各サンプル値を表していてもよい。なお、類似波形長の探索周波数範囲は、例えば50Hz〜250Hz程度の値とすることができる。サンプリング周波数が例えば8kHzであれば、WMAX=160、WMIN=32程度となる。図2に示した例では、(b)におけるjが関数D(j)を最も小さくするjとして選ばれる。
続いて、図3を参照しながら、PICOLAを用いて任意の長さにオーディオ信号を伸張する方法を説明する。図3は、PICOLAによるオーディオ信号の伸張方法を説明するための説明図である。
まず、図2で説明したように、処理開始位置P0を起点として関数D(j)が最小となるjを求め、W=jとおく。続いて、区間301を区間303にコピーし、区間301と区間302のクロスフェード波形を、区間301に生成する。そして、原波形(a)の位置P0から位置P0’までの区間を、伸張波形(b)にコピーする。以上の操作により、原波形(a)の位置P0から位置P0’までのLサンプルが、伸張波形(b)ではW+Lサンプルとなり、サンプル数はr倍となる。ここで、サンプル数の伸張率(サンプル数の増加率)を表すrは、以下の式2を用いて定義される。
Figure 2009075177
ここで、上記式2をLについて書き換えると、以下の式3のようになる。
Figure 2009075177
すなわち、式3から明らかなように、原波形(a)のサンプル数をr倍したい場合には、以下に示す式4を用いて、位置P0’を定めればよい。
Figure 2009075177
また、以下の式5のようにパラメータRを定義すると、サンプル数Lは、以下の式6のように表すことができる。
Figure 2009075177
上述のように定義したRを用いると、原波形(a)を「R倍速再生する」といった表現も可能である。以下では、このRを、「話速変換率」と称することとする。
原波形(a)の位置P0から位置P0’の処理が終了すると、位置P0’を位置P1とし、改めて処理の起点と見なして、同様の処理を繰り返す。かかる処理を繰り返すことで、原波形を伸張することができる。
図3に示した例では、サンプル数Lが約2.5Wであるので、式2および式5から、話速変換率Rは約0.7となる。すなわち、図3に示した例は、約0.7倍速再生の遅聴に相当する。
(PICOLAにおける波形の圧縮処理)
続いて、図4および図5を参照しながら、PICOLAにおける波形の圧縮処理について説明する。
図4は、PICOLAを用いてオーディオ信号を圧縮する例を説明するための説明図である。PICOLAにおいては、まず、原波形(a)から、波形が類似している区間Aおよび区間Bを検出する。区間Aおよび区間Bは、図4(a)に示したように、同一の長さを有する連続した2つの区間であって、区間Aと区間Bのサンプル数は、同じである。なお、波形が類似している区間の検出は、図2を参照しながら説明した方法を適用することが可能である。続いて、区間Aでフェードアウトする波形(b)を生成するとともに、区間Bからフェードインする波形(c)を生成する。次に、生成した波形(b)と波形(c)とを足し合わせることで、圧縮波形(d)を得ることができる。以上の操作を行なうことによって、原波形(a)の区間Aおよび区間Bは、圧縮波形(d)の区間A×Bに変更される。
続いて、図5を参照しながら、PICOLAを用いて任意の長さにオーディオ信号を圧縮する方法を説明する。図5は、PICOLAによるオーディオ信号の圧縮方法を説明するための説明図である。
まず、図2で説明したように、処理開始位置P0を起点として関数D(j)が最小となるjを求め、W=jとおく。続いて、区間501と区間502のクロスフェード波形を、区間502に生成する。そして、原波形(a)の位置P0から位置P0’までの区間から区間501を除いた残りの区間を、圧縮波形(b)にコピーする。以上の操作により、原波形(a)の位置P0から位置P0’までのW+Lサンプルが、圧縮波形(b)ではLサンプルとなり、サンプル数はr倍となる。ここで、サンプル数の圧縮率を表すrは、以下の式7を用いて定義される。
Figure 2009075177
ここで、上記式7をLについて書き換えると、以下の式8のようになる。
Figure 2009075177
すなわち、式8から明らかなように、原波形(a)のサンプル数をr倍したい場合には、以下に示す式9を用いて、位置P0’を定めればよい。
Figure 2009075177
また、以下の式10のようにパラメータRを定義すると、サンプル数Lは、以下の式11のように表すことができる。
Figure 2009075177
上述のように定義したRを用いると、原波形(a)を「R倍速再生する」といった表現も可能である。原波形(a)の位置P0から位置P0’の処理が終了したら、位置P0’を位置P1とし、改めて処理の起点と見なして同様の処理を繰り返す。かかる処理を繰り返すことで、原波形を伸張することができる。
図5に示した例では、サンプル数Lが約1.5Wであるので、式7および式10から、話速変換率Rは約1.7となる。すなわち、図5に示した例は、約1.7倍速再生の速聴に相当する。
(PICOLAにおける信号の伸張処理の流れ)
続いて、図6を参照しながら、PICOLAにおける信号の伸張処理の流れについて、簡単に説明する。図6は、PICOLAを用いたオーディオ信号の伸張処理の流れを説明するためのフローチャートである。
まず、PICOLAにおいては、PICOLAが実装されている情報処理装置等の入力バッファに、処理すべきオーディオ信号があるか否かが判定される(ステップS601)。ここで、処理すべきオーディオ信号がないと判断した場合には、処理を終了するが、処理すべきオーディオ信号が存在すると判断した場合には、処理開始位置Pを起点として関数D(j)が最小になるjを求め、W=jとおく(ステップS602)。続いて、PICOLAでは、ユーザが指定した話速変換率RからLを求め(ステップS603)、処理開始位置PからWサンプル分の区間Aを、PICOLAが実装されている情報処理装置等の出力バッファに出力する(ステップS604)。
次に、PICOLAにおいては、処理開始位置PからWサンプル分の区間Aと、この区間Aに連続している次のWサンプル分の区間Bとのクロスフェードを求め、区間Aに配置する(ステップS605)。続いて、入力バッファの位置PからLサンプル分の信号を、出力バッファに出力する(ステップS606)。続いて、PICOLAは、処理開始位置PをP+Lに移動してから(ステップS607)、ステップS601に戻り処理を繰り返す。かかる処理を、入力バッファに処理すべきオーディオ信号がなくなるまで繰り返すことで、オーディオ信号の伸張処理を行うことが可能である。
(PICOLAにおける信号の圧縮処理の流れ)
続いて、図7を参照しながら、PICOLAにおける信号の圧縮処理の流れについて、簡単に説明する。図7は、PICOLAを用いたオーディオ信号の圧縮処理の流れを説明するためのフローチャートである。
まず、PICOLAにおいては、PICOLAが実装されている情報処理装置等の入力バッファに、処理すべきオーディオ信号があるか否かが判定される(ステップS701)。ここで、処理すべきオーディオ信号がないと判断した場合には、処理を終了するが、処理すべきオーディオ信号が存在すると判断した場合には、処理開始位置Pを起点として関数D(j)が最小になるjを求め、W=jとおく(ステップS702)。続いて、PICOLAでは、ユーザが指定した話速変換率RからLを求める(ステップS703)。
次に、処理開始位置PからWサンプル分の区間Aと、この区間Aに連続している次のWサンプル分の区間Bのクロスフェードを求め、区間Bに配置する(ステップS704)。続いて、入力バッファの位置P+WからLサンプル分の信号を、出力バッファに出力する(ステップS705)。次に、PICOLAは、処理開始位置PをP+(W+L)に移動してから(ステップS706)、ステップS701に戻り処理を繰り返す。かかる処理を、入力バッファに処理すべきオーディオ信号がなくなるまで繰り返すことで、オーディオ信号の圧縮処理を行うことが可能である。
(PICOLAによる話速変換装置の構成について)
次に、図8を参照しながら、PICOLAによる話速変換装置の構成について説明する。図8は、PICOLAによる話速変換装置の構成を説明するためのブロック図である。なお、以下の説明においては、図1と図4における区間Aと区間Bの区間長を類似波形長と呼ぶこととする。
PICOLAによる情報処理装置800は、図8に示したように、例えば、入力バッファ801と、類似波形長検出部802と、接続信号生成部803と、出力バッファ804と、を備える。
入力バッファ801は、情報処理装置800に入力されたオーディオ信号をバッファリングするとともに、後述する類似波形長検出部802および接続信号生成部803に入力されたオーディオ信号を伝送するとともに、出力バッファ804に対して、話速変換率Rsに合わせて生成されたオーディオ信号を伝送する。なお、入力バッファ801に入力されるオーディオ信号は、情報処理装置800に直接入力されたデジタル信号であってもよく、情報処理装置800が入力されたアナログ信号をAD(Analog to Digital)変換してデジタル信号としたものであってもよい。
具体的には、入力バッファ801は、後述する類似波形長検出部802により検出された類似波形長Wに基づいて、オーディオ信号2Wサンプルを接続信号生成部803に渡す。入力バッファ801は、接続信号生成部803で生成された接続信号を、話速変換率Rsに従って入力バッファの適切な位置に格納する。また、入力バッファ801は、話速変換率Rsに合わせて入力バッファ801のオーディオ信号を出力バッファ804に送る。
類似波形長検出部802は、入力バッファ801に入力されたオーディオ信号に関して、関数D(j)を最小にするパラメータjを検出し、検出したパラメータjを類似波形長Wとする(W=j)。検出された類似波形長Wは、入力バッファ801へと伝送される。なお、検出された類似波形長Wは、後述する接続信号生成部803に直接出力されてもよい。また、検出された類似波形長Wは、RAM、ストレージ装置等で構成される未図示の記憶部に記憶されてもよい。
接続信号生成部803は、入力バッファ801から伝送されたオーディオ信号および類似波形長Wを用いて、オーディオ信号の伸張/圧縮処理に用いられる接続信号を生成し、生成した接続信号を、入力バッファ801へと伝送する。具体的には、接続信号生成部803は、受け取った2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにし、このクロスフェード信号を入力バッファ801に伝送する。また、生成された接続信号は、RAM、ストレージ装置等で構成される未図示の記憶部に記憶されてもよい。
出力バッファ804は、入力バッファ801において生成された、伸張/圧縮処理が施されたオーディオ信号をバッファリングする。この伸張/圧縮処理が施されたオーディオ信号は、出力オーディオ信号として伝送され、DA(Digital to Analog)変換された後にスピーカ等の出力装置を介して出力される。
(類似波形長検出の流れ)
続いて、図9および図10を参照しながら、類似波形長を検出する処理について、詳細に説明する。図9および図10は、類似波形長を検出する処理を説明するためのフローチャートである。
類似波形長の検出に際しては、まず、パラメータであるインデックスjに、初期値WMINをセットする(ステップS901)。ここで、WMINは、上述のように、類似波形を検索する探索範囲の最小値である。類似波形検索のための初期値が設定されると、PICOLAが実装された情報処理装置等においては、図10に示すサブルーチンを実行する(ステップS902)。このサブルーチンは、後に詳述するように、波形の類似度を判定するために用いられる関数D(j)を計算するルーチンである。ここで、関数D(j)は、以下の式12で与えられる関数である。
Figure 2009075177
ここで、上記式12において、fは、入力オーディオ信号であり、例えば、図2の例であれば、位置P0を起点としたサンプルを指す。なお、式1と式12は、同じことを表現している。
続いて、サブルーチンで求まった関数D(j)の値を変数minに代入し、インデックスjをWに代入する(ステップS903)。その後、インデックスjを1増加させる(ステップS904)。次に、インデックスjが、WMAX以下か否かを判定し(ステップS905)、WMAX以下ではない場合(すなわち、WMAXを超過している場合)には、処理を終了し、処理終了時に変数Wに格納されている値が、関数D(j)を最小にするインデックスj、つまり、類似波形長となり、そのときの変数minの値が、関数D(j)の最小値となる。
また、インデックスjがWMAX以下である場合には、上記サブルーチンにて、新たなインデックスjに対して関数D(j)を求める(ステップS906)。次に、新たなインデックスjについて求まった関数D(j)の値が、min以下か否かを判定する(ステップS907)。ここで、関数D(j)の値がmin以下の場合は、関数D(j)の値を変数minに代入し、インデックスjをWに代入して(ステップS908)、ステップS904に戻る。また、関数D(j)の値がmin以下でない場合(すなわち、minを超過していた場合)は、ステップS904に戻る。かかる処理を行うことで、入力されたオーディオ信号の類似波形部分を探索して、類似波形長を検出することができる。
(関数D(j)の値の算出)
続いて、図10を参照しながら、波形の類似度を判定するために用いられる関数D(j)を算出するサブルーチンの流れについて、詳細に説明する。
サブルーチンの処理が始まると、まず、インデックスiと変数sを、0にセットする(ステップS1001)。次に、インデックスiがインデックスjより小さいか否かを判定し(ステップS1002)、インデックスiがインデックスjよりも小さい場合には、後述するステップS1003を実行し、インデックスiがインデックスjよりも小さくない場合(すなわち、インデックスiがインデックスj以上である場合)には、後述するステップS1005を実行する。ここで、インデックスjは、図9に示したフローチャートのインデックスjと同じものである。
ステップS1003では、入力オーディオ信号の差の自乗を算出して、変数sに加算する。その後、インデックスiを1増加させ(ステップS1004)、ステップS1002に戻る。また、ステップS1005では、変数sをインデックスjで除して、その商を関数D(j)の値としてサブルーチンを終了する。
(クロスフェード信号の生成について)
続いて、図11を参照しながら、接続信号生成部803にて行われるクロスフェード信号の生成方法について、詳細に説明する。図11は、クロスフェード信号の生成処理の一例を説明するためのフローチャートである。
クロスフェード信号の生成に際して、まず、インデックスiを0にセットする(ステップS1101)。次に、インデックスiと類似波形長Wを比較し(ステップS1102)、インデックスiがWより小さくない場合(すなわち、インデックスiがW以上である場合)には、処理を終了する。また、インデックスiがWよりも小さい場合には、フェードインとフェードアウトに用いるための係数hを求める(ステップS1103)。係数hの算出が終了すると、フェードインする信号x(i)に係数hを掛けるとともに、フェードアウトする信号y(i)に1−hを掛け、これらの信号の和をz(i)に代入する(ステップS1104)。例えば、図1に示した例では、区間Aにおける信号がx(i)に対応し、区間Bにおける信号がy(i)に対応する。また、例えば、図4に示した例では、区間Bにおける信号がx(i)に対応し、区間Aにおける信号がy(i)に対応する。このようにして生成された信号z(i)が、クロスフェード信号となる。次の処理では、インデックスiを1増加させ(ステップS1105)、ステップS1102に戻る。かかる処理を繰り返すことで、クロスフェード信号を算出することができる。
以上、図1〜図11を参照しながら説明したように、話速変換アルゴリズムPICOLAによって、任意の話速変換率Rs(Rs<1.0,1.0<Rs)でオーディオ信号を伸張圧縮することが可能であり、音声信号に対しては特に良好な音質を実現することが可能である。また、話速変換率Rs=1.0の場合は、話速変換装置800は、入力オーディオ信号をそのまま出力オーディオ信号とすれば良い。
<話速変換処理についての検討>
上記のような話速変換を利用したデジタルコンテンツ再生装置が普及する以前、アナログのカセットテープ再生装置等においても、再生速度を可変とするものも存在した。しかし、このようなアナログ再生装置は、再生速度に比例して音の高さ(ピッチ)が変化してしまい、再生速度を遅くした場合は音の高さが下がり、再生速度を速くした場合は音の高さが上がってしまっていた。
例えば、語学学習用のコンテンツやニュース番組のように、スピーチを中心としたコンテンツを再生する場合には、音の高さが変わってしまうと、発話内容の理解の妨げになるという問題がある。また、異なる問題として、音の高さが多少変わっただけでも、話者の特定の妨げになるという問題もある。ドラマ等のコンテンツのように、どの登場人物の発話なのかが重要なコンテンツにおいては、変速再生した声による話者の特定が困難になるという問題は、再生装置のユーザにとって大きなデメリットである。更に、音楽のコンテンツでは、音の高さが多少変わっただけでも、音楽の雰囲気が大きく変わってしまうという問題もある。以上に挙げたような、再生速度を変えた際に音の高さが変わってしまうことに起因する問題を、以下では第1の問題と称する。
近年のデジタルコンテンツ再生装置の多くに搭載される変速再生機能である音の高さを一定に保ったまま再生速度を可変にする変速再生は、この第1の問題をうまく解決している。再生速度の範囲が、例えば約0.5〜4.0倍速程度においては、特に良い結果が得られる。以下では、特に良い結果が得られるこの範囲を、第1の範囲と称し、第1の範囲外(すなわち、第1の範囲の下限未満の範囲、および、第1の範囲の上限超過の範囲)を第2の範囲と称することとする。容易に想像できるように、この第1の範囲は、コンテンツに依存して変化する。例えば、コンテンツの話者の発話がゆっくりであれば、再生速度をかなり速くしても内容を理解できるが、コンテンツの話者の発話が速ければ、再生速度を多少速くしただけでも内容を理解できなくなる。
一方で、10倍速や20倍速のような高速再生においても、音を再生したいという要求がある。例えば、アナログのカセットテープ再生装置等で提供された変速再生機能は、第1の問題はあるものの、高速再生を行なってもコンテンツの内容を大雑把に把握することが可能であった。コンテンツの内容の大雑把な把握とは、ここは人が話している、ここは音楽が鳴っている、ここは無音である、といった類の把握である。この程度の把握であっても、対象とするコンテンツの中から自分が求める部分を急いで探すためには、非常に有用である。
また、再生速度を高速にすればするほど音の高さが上がるため、音の高さの上がり具合から、大雑把な再生速度を聴覚的に感じることが可能であった。大雑把な再生速度を聴覚的に認識することによって、コンテンツ内での各イベント(例えば、人が話している、音楽が鳴っている、無音である等の事象)の時間的位置関係を、感覚的に直感し易いという利点がある。このため、対象とするコンテンツの中から自分が求める部分を探す際、この辺りは関係がなさそうだから再生速度を更に上げようとか、この辺りは関係がありそうだから再生速度を下げようなどといった再生速度のコントロールが容易になり、結果的に、コンテンツの中から自分が求める部分を急いで探すために、非常に有用である。
<基盤技術:音の高さの変換処理について>
以下では、アナログのカセットテープ再生装置等のように、再生速度に比例して音の高さが変わるようなデジタルコンテンツ再生装置について検討する。再生速度に比例して音の高さを変えるために利用する方法の一例として、例えば、サンプリングレートを変換する方法が挙げられる。以下では、サンプリングレートを変換する方法の一例を、図12および図13を参照しながら、簡単に説明する。
(サンプリングレートを下げる方法について)
図12は、サンプリングレートを下げる方法(ダウンサンプリングの方法)を説明するための説明図である。図12(a)は、処理対象となる原信号であり、サンプリング周期はT、サンプリング周波数はfsである。
サンプリングレート変換は、まず、原信号(a)に対してローパスフィルタ(LowPass Filter:LPF)1201を掛ける。ローパスフィルタ1201は、fs/(2M)をカットオフ周波数とするフィルタである。ローパスフィルタ1201により、原信号(a)はフィルタリングされ、信号(b)となる。図12(b)に示したように、ローパスフィルタ1201により、原信号(a)の波形は滑らかなものとなる。続いて、ダウンサンプラ(Down Sampler)1202は、信号(b)に対してサンプルをM−1個間引く処理を行い、Mサンプル毎に1つのサンプルを残す。図12に示した例は、M=2の場合である。こうして得られた信号(c)は、サンプリングレートが原信号(a)に対して1/M倍になり、fs/Mとなる。また、信号(c)のサンプル数も、原信号(a)に対して1/M倍になる。以上の操作の中でローパスフィルタ1201を使用しない場合、信号(c)にエイリアシング(aliasing)成分が発生してしまうことがある。図12に示したローパスフィルタ1201とダウンサンプラ1202とからなる構成を、デシメータ(decimator)という。
(サンプリングレートを上げる方法について)
図13は、サンプリングレートを上げる方法(アップサンプリングの方法)を説明するための説明図である。図13(a)は、処理対象となる原信号であり、サンプリング周期はT、サンプリング周波数はfsである。
サンプリングレート変換は、まず、原信号(a)に対して、所定の個数の零値を挿入する。具体的には、アップサンプラ(Up Sampler)1301は、原信号(a)の各サンプル間に、L−1個の零値を挿入する。図13に示した例は、L=2の場合である。このアップサンプリングされた信号が、図中の信号(b)である。信号(b)は、サンプリングレートが原信号(a)に対してL倍になり、fsLとなる。また、信号(c)のサンプル数も、原信号(a)に対してL倍となる。続いて、信号(b)に対してローパスフィルタ1302を掛けることで、信号(c)が生成される。ローパスフィルタ1302は、fs/2をカットオフ周波数とするフィルタである。また、信号(b)をローパスフィルタ1302により処理した後に、処理後の信号に対して振幅の調整を行ってもよい。以上の操作の中でローパスフィルタ1302を使用しない場合、信号(c)にイメージング(imaging)成分が発生してしまう。図13に示したアップサンプラ1301とローパスフィルタ1302とからなる構成を、インターポレータ(interpolator)という。
図12に示したデシメータと図13に示したインターポレータは、整数比のサンプリングレート変換しかできない。しかしながら、これら2つを組み合わせることにより、有理数比のサンプリングレート変換が可能となる。例えば、インターポレータのパラメータLをL=3とし、デジメータのパラメータMをM=2とする。原信号を、まず、インターポレータで処理して処理信号1を得る。続いて、処理信号1をデシメータで更に処理して処理信号2を得る。こうして得られる処理信号2は、3倍にアップサンプリングされてから1/2倍にダウンサンプリングされるため、原信号に対して3/2倍にサンプリングレート変換されることになる。このように、デシメータとインターポレータを組み合わせることで、L/M倍のサンプリングレート変換が可能となる。
図14は、再生速度に比例して音の高さを上げる処理の一例を説明するための説明図である。まず、サンプリング周波数fs(=1/T)の原信号(a)を、デシメータとインターポレータとを用いて再生速度にあわせてサンプリングレート変換を行なうことによって、サンプリング周波数fs’(=1/T’)の信号(b)に変換する。続いて、サンプリング周波数fs’(=1/T’)の信号(b)のサンプリング周波数を、原信号(a)のサンプリング周波数fs(=1/T)に置き換え、信号(c)とする。こうして得られた信号(c)の音の高さは、原信号(a)に対して再生速度の分だけ高くなる。図14に示した例は、再生速度を2倍とした場合における一例である。信号(b)のサンプリング周波数は、原信号(a)のサンプリング周波数の1/2倍になっている。更に、信号(c)の音の高さは原信号(a)の2倍になっており、信号(c)のサンプル数は原信号(a)の1/2倍になっている。
[本実施形態に関する説明]
以下の説明では、以上で説明したような再生速度に比例して音の高さが変化する再生装置を、「第1の従来の再生装置」と称し、再生速度を変えても音の高さを一定に保つ再生装置を「第2の従来の再生装置」と称することとする。
<第1の従来の再生装置>
図15Aは、第1の従来の再生装置における再生倍率と話速変換率の関係を表すグラフ図であり、図15Bは、第1の従来の再生装置における再生倍率と音の高さの関係を表すグラフ図である。ここで、図15Aにおける再生倍率とは、変速再生における再生速度の倍率を表し、例えば、通常再生の2倍の速度で再生する場合は再生倍率が2であるとし、通常再生の半分の速度で再生する場合は再生倍率が0.5であるとする。また、図15Bにおける音の高さ(ピッチ)とは、通常再生の場合の周波数と比較した倍率を表わし、例えば、通常再生の2倍の周波数で再生する場合は音の高さが2であるとし、通常再生の半分の周波数で再生する場合は音の高さが0.5であるとする。
第1の従来の再生装置では、話速変換を行なわないため、図15Aに示したように、話速変換率は1で一定である。また、図15Bに示したように、第1の従来の再生装置では、音の高さは再生倍率に比例し、一般的には、音の高さは再生倍率に等しい。
なお、図15Aおよび図15Bでは、等倍速以上(換言すれば、再生倍率1以上)の場合のみを図示している。以下では議論が煩雑になるのを避けるため、等倍速以上の再生速度についてのみ論じるが、等倍速未満、例えば、0.5倍速なども同様の議論ができることは明らかである。
<第2の従来の再生装置>
図16Aは、第2の従来の再生装置における再生倍率と話速変換率の関係を表すグラフ図であり、図16Bは、第2の従来の再生装置における再生倍率と音の高さの関係を表すグラフ図である。第2の従来の再生装置では、話速変換を行なうため、図16Aに示したように、話速変換率は再生倍率に比例し、一般的には、話速変換率は再生倍率に等しい。また、図16Bに示したように、第2の従来の再生装置では、音の高さは1で一定である。
<従来の話速変換装置の再検討>
第2の従来の再生装置において、第1の範囲を超えた再生速度(換言すれば、第2の範囲の再生速度)の音を、話速変換によって生成したとしても、再生速度を聴覚的に感じることは難しい。例えば上述のPICOLAのような話速変換アルゴリズムは、例えば10倍速や20倍速のような再生速度が指定された場合であっても、相当する音を生成することが可能である。しかしながら、話速変換で得られる音は、物理的には10倍速や20倍速になっているものの、聴覚的には10倍速であっても20倍速であっても、殆ど同じように感じられてしまう。換言すると、変換後の音を視聴する視聴者は、速度を上げていっても、聴覚的には速度が上がっているようには感じられない。このように、第2の範囲においては、再生速度を聴覚的に感じ難いという問題がある。この問題を第2の問題と称することとする。
上述のように、第1の従来の再生装置では、第1の問題はあるものの、第2の問題は生じない。他方、第2の従来の再生装置では、第1の問題は解決しているものの、第2の問題が生じてしまう。
そこで、本願発明者は、上述のような問題を解決するために鋭意研究を行い、第1の範囲での変速再生において、発話の内容の把握や話者の特定を容易に行うことが可能であり、更に、第2の範囲での変速再生において、再生速度を聴覚的に感じることが可能な変速再生方法(換言すれば、第1の問題と第2の問題の2つの問題を双方解決することが可能な変速再生方法)を備えた情報処理装置に想到した。
[第1の実施形態]
以下では、図17〜図32を参照しながら、本発明の第1の実施形態に係る情報処理装置について、詳細に説明する。なお、以下の説明においては、再生倍率を第1のパラメータ、話速変換率を第2のパラメータ、音の高さ(ピッチ)を第3のパラメータと称することとする。
<再生速度変換システムについて>
図17は、本実施形態に係る情報処理装置1701を含む再生速度変換システムを説明するための説明図である。図17に示したように、再生速度変換システムにおいては、再生倍率制御装置である情報処理装置1701は、インターネットやホームネットワーク等の各種のネットワーク1702を介して、コンテンツサーバ1703やクライアント機器1704に接続されていてもよい。また、本実施形態に係る情報処理装置1701には、テレビ、DVDレコーダ、ミュージックコンポ等のAV機器や、コンピュータ等の各種の外部接続機器1705が直接接続されていてもよい。
ここで、コンテンツサーバ1703とは、オーディオ信号を含むコンテンツを、URL(Uniform Resource Locator)等の所在情報や、メタデータ等に関連付けて管理しているサーバであり、例えば、テレビ、DVDレコーダ、ミュージックコンポ等のAV機器や、コンピュータ等であってもよく、DLNA(Digital Living Network Alliance)ガイドラインにおけるDMS(Digital Media Server)であってもよい。また、クライアント機器1704は、コンテンツサーバ1703から各種コンテンツを取得して再生する装置であって、例えば、テレビ、DVDレコーダ、ミュージックコンポ等のAV機器や、コンピュータ等であってもよく、DLNA(Digital Living Network Alliance)ガイドラインにおけるDMP(Digital Media Player)であってもよい。
<本実施形態に係る情報処理装置の構成について>
図18は、本実施形態に係る情報処理装置1800の構成を説明するためのブロック図である。図18に示したように、本実施形態に係る情報処理装置1800は、パラメータ調節部1801と、信号処理部1803と、記憶部1805と、を主に備える。本実施形態に係る情報処理装置1800には、オーディオ信号と、再生倍率を表す第1のパラメータRとが入力され、第1のパラメータRにより再生倍率が制御されたオーディオ信号が、出力信号として出力される。
なお、以下の説明においては、オーディオ信号は、本実施形態に係る情報処理装置1800の外部から入力される場合について説明するが、この場合に限定されるわけではなく、オーディオ信号は、情報処理装置1800内に格納されていてもよい。
パラメータ調節部1801は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等より構成され、外部より入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpを調節する。第1のパラメータRに応じて、第2のパラメータRsおよび第3のパラメータRpを設定する方法については、以下で詳細に説明する。パラメータ調節部1801は、第1のパラメータRに応じて決定した第2のパラメータRsおよび第3のパラメータRpを、後述する信号処理部1803へと伝送する。
信号処理部1803は、例えば、CPU、ROM、RAM等で構成され、入力されたオーディオ信号および第1のパラメータRと、パラメータ調節部1801から伝送された第2のパラメータRsおよび第3のパラメータRpとに基づいて、オーディオ信号の話速と音の高さ(ピッチ)を調節する。また、信号処理部1803は、話速と音の高さが調節されたオーディオ信号を、出力オーディオ信号として出力する。情報処理装置1800では、かかる出力オーディオ信号を、未図示のDA変換部を介してアナログ信号へと変換し、スピーカ等の出力装置から出力する。
記憶部1805は、例えば、RAM、ストレージ装置等で構成され、第1のパラメータRに応じて第2のパラメータRsおよび第3のパラメータRpを決定する際に用いられる各種のデータベースや、情報処理装置1800が実行する各種プログラム等を記憶する。また、記憶部1805は、これらのデータ以外にも、情報処理装置1800が、何らかの処理を行う際に保存する必要が生じた様々なパラメータや処理の途中経過等を、適宜記憶することが可能である。また、記憶部1805には、オーディオ信号が記録されていてもよい。この記憶部1805は、パラメータ調節部1801や、信号処理部1803等が、自由に読み書きを行うことが可能である。
(第1のパラメータと第2のパラメータ、第3のパラメータとの関係について)
続いて、図19Aおよび図19Bを参照しながら、本実施形態に係るパラメータ調節部1801について、詳細に説明する。図19Aは、第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図であり、図19Bは、第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。
図19Aおよび図19Bに示した例では、第1のパラメータRが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない(区間1901および区間1903)、第1のパラメータが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう(区間1902および区間1904)。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
なお、図19Aにおいて、区間1902を破線で示しているのは、音の高さを変化させる方法に依存するためである。音の高さを変化させる方法として、図12〜図14に示したような方法を利用する場合は、音の高さが高くなるに従ってサンプル数が減少するため、区間1902の破線のようになる。しかしながら、音の高さを変化させる方法として、サンプル数が減少しない方法、もしくは、減少してもその減少量が少ない方法では、区間1902は、図19Aに示した破線とは異なる設定となる。
また、図19Bにおける区間1903では、第1のパラメータRが1〜4である場合には、第3のパラメータRpが1で一定となっているが、この区間における第3のパラメータRpは、一定でなくともよい。また、区間1904における第3のパラメータRpの上昇の傾きは、図示の例に限定されるわけではなく、0超過の傾きを有する上昇率であればよい。また、図19Aおよび図19Bにおいては、第2のパラメータRsおよび第3のパラメータRpは連続的(アナログ的)に変化しているが、第2のパラメータRsおよび第3のパラメータRpは離散的(デジタル的)に変化してもよい。
(パラメータ調節部1801について)
本実施形態に係る情報処理装置1800では、図19Aおよび図19Bに示したような、第1のパラメータRと、第2のパラメータRsおよび第3のパラメータRpとの関係を表したデータベースが、例えば記憶部1805に記録されており、パラメータ調節部1801は、かかるデータベースを参照しながら、第1のパラメータRに応じて、第2のパラメータRsと第3のパラメータRpを決定する。
パラメータ調節部1801は、記憶部1805に記録されている図19Aおよび図19Bに示したようなデータベースを参照しながら、以下に示す4つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間1901に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間1903に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間1904に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4:第1のパラメータR=第2のパラメータRs×サンプル数の増加率Rd
ここで、区間1901と区間1903は、第1のパラメータRの第1の範囲に対応し、区間1902と区間1904は、第1のパラメータRの第2の範囲に対応する。
また、音の高さを変化させる方法におけるサンプル数の増加率をRdとすると、パラメータ調節部1801には、第1の範囲と第2の範囲共に、上記の条件4に示したような特徴がある。ただし、サンプル数の増加率とは、例えば、サンプル数が2倍になる場合は増加率を2とし、サンプル数が半分になる場合は増加率を1/2とするものである。
(本実施形態に係る再生倍率制御方法について)
図20は、本実施形態に係る情報処理装置1800における処理の流れを説明するためのフローチャートである。まず、情報処理装置1800では、入力オーディオ信号があるか否かを判定し(ステップS2001)、入力オーディオ信号がない場合は処理を終了する。また、入力オーディオ信号が存在する場合には、情報処理装置1800のパラメータ調節部1801は、入力された第1のパラメータRに応じて、第2のパラメータRsと第3のパラメータRpを調節する(ステップS2002)。この調節は、上述の条件1〜4を満たすように行われる。続いて、情報処理装置1800の信号処理部1803は、調節された第2のパラメータRsと第3のパラメータRpに従って、入力オーディオ信号の話速と音の高さを調節する(ステップS2003)。続いて、情報処理装置1800は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS2004)、ステップS2001に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本実施形態に係る情報処理装置1800は、オーディオ信号の再生倍率制御を実行することが可能となる。
図18〜図20で説明したように、本実施形態に係る再生倍率制御方法によれば、第1のパラメータRの第1の範囲では話速の調節のみを行ない、第1のパラメータRの第2の範囲では話速の調節と同時に音の高さの調節も行なうことができる。これにより、第1のパラメータRの第1の範囲では、第1の問題が解決され、かつ、第1のパラメータRの第2の範囲では、第2の問題が解決される。
(信号処理部1803について)
続いて、図21を参照しながら、本実施形態に係る信号処理部1803の一例について、詳細に説明する。図21は、本実施形態に係る信号処理部1803の機能を説明するためのブロック図である。
本実施形態に係る信号処理部1803は、図21に示したように、例えば、擬音切替判定部2101と、話速変換部2103と、ピッチ調整部2105と、オーディオ信号出力制御部2107と、を主に備える。
擬音切替判定部2101は、例えば、CPU、ROM、RAM等で構成され、伝送された第1のパラメータRに基づいて、入力オーディオ信号に対して話速変換や音の高さ(ピッチ)の変換等の信号処理を施すか、信号処理を施さずに入力オーディオ信号を擬音に切り替えるかを判定する。具体的には、擬音切替判定部2101は、伝送された第1のパラメータRと所定の閾値との大小を比較し、第1のパラメータRが所定の閾値以上(例えば、20倍速再生以上など)となった場合には、話速変換や音の高さの変換等を施さずに、オーディオ信号を所定の擬音に切り替えるように決定する。擬音切替判定部2101は、判定結果を、後述する話速変換部2103およびオーディオ信号出力制御部2107へと伝送する。
話速変換部2103は、例えば、CPU、ROM、RAM等で構成され、入力オーディオ信号と、パラメータ調節部1801により決定された第2のパラメータRsとが入力され、第2のパラメータRsに基づいて、入力オーディオ信号の話速を変換する。話速の変換は、例えば、図1〜図7に示したようなアルゴリズムを用いて行われる。話速変換部2103は、話速の調節が終了したオーディオ信号を、後述するピッチ調節部2105へと伝送する。
また、擬音切替判定部2101から「オーディオ信号を擬音に切り替える」旨の判定結果が通知された場合には、話速変換部2103は、話速の変換処理を実行しなくともよい。
ピッチ調節部2105は、例えば、CPU、ROM、RAM等で構成され、話速変換部2103から伝送された話速調整済みのオーディオ信号と、パラメータ調節部1801から伝送された第3のパラメータRpとに基づいて、オーディオ信号の音の高さ(ピッチ)を調節する。ピッチの調整には、任意のピッチ変換方法を使用可能であり、例えば、図12〜図14に示したような方法を用いることができる。ピッチ調節部2105は、音の高さの調整が終了すると、話速および音の高さが調節されたオーディオ信号を、後述するオーディオ信号出力制御部2107へと出力する。
なお、ピッチ調節部2105が図12〜図14に示したような方法を用いる場合には、音の高さを変化させる方法におけるサンプル数の増加率Rdは、音の高さに比例し、実際には、サンプル数の増加率Rdは音の高さの上昇率に等しくなる。つまり、Rd=第3のパラメータRpの関係が成立する。
オーディオ信号出力制御部2107は、例えば、CPU、ROM、RAM等で構成され、入力されたオーディオ信号またはピッチ調節部2105から伝送されたオーディオ信号を出力する際の出力制御を行う。擬音切替判定部2101から「オーディオ信号を擬音に切り替える」旨の判定結果が通知された場合には、オーディオ信号出力制御部2107は、入力されたオーディオ信号を、例えば記憶部1805に記録されている所定の擬音に切り替えて出力する。また、擬音切替判定部2101から「擬音への切り替えを行わない」旨の判定結果が通知された場合には、オーディオ信号出力制御部2107は、ピッチ調節部2105から伝送されたオーディオ信号を出力する。
また、オーディオ信号出力制御部2107は、出力するオーディオ信号の音量を調整することが可能である。オーディオ信号の音量調整は、対象となるオーディオ信号における信号波形の絶対値を調整することで行われる。オーディオ信号出力制御部2107は、例えば、再生倍率が1倍超過になっている場合に、出力するオーディオ信号の音量を小さくしてもよい。また、オーディオ信号出力制御部2107は、再生速度の大小にかかわらず、音量制御を行うことも可能である。
図22Aおよび図22Bは、図21に示した信号処理部1803を有する情報処理装置1800のパラメータ調節部1801において行なわれるパラメータの調節方法の一例を示した説明図である。図22Aは、第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図であり、図22Bは、第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。
図22Aに示したように、第1のパラメータRの変化を横軸に、第2のパラメータRsの変化を縦軸にとったグラフ図は、第2のパラメータRsの上昇率(換言すれば、グラフ図の傾き)が異なる少なくとも2つの領域から構成されている。同様に、図22Bに示したように、第1のパラメータRの変化を横軸に、第3のパラメータRpの変化を縦軸にとったグラフ図は、第3のパラメータRpの上昇率が異なる少なくとも2つの領域から構成されている。
信号処理部1803のピッチ調節部2105が、図12〜図14に示した方法でピッチの調整を行う場合には、パラメータ調節部1801は、記憶部1805に記録されている図22Aおよび図22Bに示したようなデータベースを参照しながら、以下に示す4つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間2201に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間2203に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間2204に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4’:第1の範囲と第2の範囲の両方において、第1のパラメータR=第2のパラメータRs×第3のパラメータRpが成立する。
ここで、区間2201と区間2203は、第1のパラメータRの第1の範囲に対応し、区間2202と区間2204は、第1のパラメータRの第2の範囲に対応する。
図22Aおよび図22Bに示した例では、第1のパラメータRが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない、第1のパラメータRが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
以上、本実施形態に係る情報処理装置1800の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
<本実施形態に係る信号処理方法について>
続いて、図23を参照しながら、本実施形態に係る信号処理方法について、詳細に説明する。図23は、本実施形態に係る信号処理方法を説明するためのフローチャートである。
まず、情報処理装置1800では、入力オーディオ信号があるか否かを判定し(ステップS2301)、入力オーディオ信号がない場合は処理を終了する。また、入力オーディオ信号が存在する場合には、信号処理部1803の擬音切替判定部2101は、入力された第1のパラメータRが所定の閾値以上か否かを判定する(ステップS2302)。第1のパラメータRが所定の閾値未満である場合には、パラメータ調節部1801は、入力された第1のパラメータRに応じて、第2のパラメータRsおよび第3のパラメータRpを調節し(ステップS2303)、信号処理部1803へと伝送する。信号処理部1803の話速変換部2103は、伝送された第2のパラメータRsに基づいて入力オーディオ信号の話速を調節し(ステップS2304)、話速の調節されたオーディオ信号を、ピッチ調節部2105へと出力する。ピッチ調節部2105は、伝送された第3のパラメータRpに基づいて、話速変換部2103から伝送されたオーディオ信号の音の高さ(ピッチ)を調節する(ステップS2305)。話速と音の高さが調節されたオーディオ信号は、オーディオ信号出力制御部2107に伝送され、オーディオ信号出力制御部2107は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS2306)、ステップS2301に戻って、処理を繰り返す。
他方、擬音切替判定部2101において、第1のパラメータRが所定の閾値以上であると判定された場合には、オーディオ信号出力制御部2107は、記憶部1805等に記録されている所定の擬音を、オーディオ信号として出力し(ステップS2307)、ステップS2301に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本実施形態に係る情報処理装置1800は、変換後の再生速度を聴覚的に認識することが可能なように、オーディオ信号の再生倍率制御を実行することが可能となる。
続いて、処理対象のオーディオ信号に含まれるサンプル数に着目して、本実施形態に係る情報処理装置が行う信号処理の一例を詳細に説明する。図24は、本実施形態に係る情報処理装置が行う信号処理の一例をサンプル単位で説明するための説明図である。
図24に示した例は、第1のパラメータR=2.5のときに、第2のパラメータRs=2.0、第3のパラメータRp=1.25のように調節したものである。原信号(a)において、話速変換の処理開始位置P0を起点として類似波形長を検出した結果、クロスフェード区間が区間2401と区間2402に定まったとする。区間2401の信号と区間2402の信号のクロスフェード信号を求め、区間2402に配置する。続いて、区間2402の信号を信号(b)の区間2403にコピーし、話速変換の処理開始位置を、位置P0から位置P1に移す。原信号(a)から信号(b)への変換では、話速が2倍(サンプル数は1/2倍)になり、音の高さは変わらない。続いて、信号(b)のサンプリング周波数を4/5倍に変更して信号(c)を得る。サンプリング周波数を4/5倍すると、サンプル数も4/5倍になる。信号(c)のサンプリング周波数を原信号(a)のサンプリング周波数に置き換えることで、信号(d)が得られる。信号(d)のサンプル数は、原信号(a)のサンプル数の0.4=(1/2)×(4/5)倍となり、音の高さは、5/4倍になる。換言すると、再生速度は2.5=2×(5/4)倍速となり、音の高さは1.25倍となる。
図25は、本実施形態に係る情報処理装置が行う信号処理の別の例をサンプル単位で説明するための説明図である。図25に示した例は、第1のパラメータR=4.0のときに、第2のパラメータRs=2.0、第3のパラメータRp=2.0のように調節したものである。原信号(a)において、話速変換の処理開始位置P0を起点として類似波形長を検出した結果、クロスフェード区間が区間2501と区間2502に定まったとする。区間2501の信号と区間2502の信号のクロスフェード信号を求め、区間2502に配置する。続いて、区間2502の信号を信号(b)の区間2503にコピーし、話速変換の処理開始位置をP0からP1に移す。原信号(a)から信号(b)への変換では、話速が2倍(サンプル数は1/2倍)になり、音の高さは変わらない。続いて、信号(b)のサンプリング周波数を1/2倍に変更して、信号(c)を得る。サンプリング周波数を1/2倍すると、サンプル数も1/2倍になる。信号(c)のサンプリング周波数を原信号(a)のサンプリング周波数に置き換えることで、信号(d)が得られる。信号(d)のサンプル数は、原信号(a)のサンプル数の0.25=(1/2)×(1/2)倍となり、音の高さは2倍になる。換言すると、再生速度は4.0=2×2倍速となり、音の高さは2.0倍となる。
図26Aおよび図26Bは、パラメータ調節部1801において行なうパラメータの調節方法の他の例を説明するためのグラフ図である。図26Aは、第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図であり、図26Bは、第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。
図26Aに示したように、第1のパラメータRの変化を横軸に、第2のパラメータRsの変化を縦軸にとったグラフ図は、第2のパラメータRsの上昇率(換言すれば、グラフ図の傾き)が異なる2以上の領域から構成されている。同様に、図26Bに示したように、第1のパラメータRの変化を横軸に、第3のパラメータRpの変化を縦軸にとったグラフ図は、第3のパラメータRpの上昇率が異なる2以上の領域から構成されている。
この場合に、パラメータ調節部1801は、記憶部1805に記録されている図26Aおよび図26Bに示したようなデータベースを参照しながら、以下に示す5つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間2601に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間2603に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間2604に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4’:第1の範囲と第2の範囲の両方において、第1のパラメータR=第2のパラメータRs×第3のパラメータRpが成立する。
条件5:入力された第1のパラメータRが区間2602に該当する場合は、第1のパラメータRの増加に従って第2のパラメータRsが増加する。(換言すれば、パラメータの変化を表す曲線の微分係数が0以上である。)
ここで、区間2601と区間2603は、第1のパラメータの第1の範囲に対応し、区間2602と区間2604は、第1のパラメータの第2の範囲に対応する。
図26Aおよび図26Bに示した例では、第1のパラメータが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない、第1のパラメータが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
図26Aおよび図26Bに示した例では、図22Aおよび図22Bに示した例とは異なり、第1のパラメータRが増加するに従って、第2のパラメータRsも増加する。換言すると、第2のパラメータRsの変化を表す曲線における微分係数が0以上である。図22Aの区間2202では、第1のパラメータRが増加しているにも拘わらず、第2のパラメータRsは一定である。換言すると、第2のパラメータRsの微分係数は0である。このような場合、再生速度が速くなっているにも拘わらず話速変換の話速変換率は変化せず、再生音に違和感を覚える結果となることがある。これに対して、図26Aの区間2602では、第1のパラメータの増加に従って第2のパラメータが増加するため(微分係数が0以上であるため)、再生速度が速くなっているにも拘わらず話速変換率が変化しないことを防止することができ、再生音の違和感を防ぐ効果がある。
図27Aおよび図27Bは、パラメータ調節部1801において行なうパラメータの調節方法の別の例を示すグラフ図である。図27Aは、第1のパラメータRと第2のパラメータRsの関係を示したグラフ図であり、図27Bは、第1のパラメータRと第3のパラメータRpの関係を示したグラフ図である。
図27Aに示したように、第1のパラメータRの変化を横軸に、第2のパラメータRsの変化を縦軸にとったグラフ図は、第2のパラメータRsの上昇率(換言すれば、グラフ図の傾き)が異なる2以上の領域から構成されている。同様に、図27Bに示したように、第1のパラメータRの変化を横軸に、第3のパラメータRpの変化を縦軸にとったグラフ図は、第3のパラメータRpの上昇率が異なる2以上の領域から構成されている。
この場合に、パラメータ調節部1801は、記憶部1805に記録されている図27Aおよび図27Bに示したようなデータベースを参照しながら、以下に示す5つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間2701に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間2703に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間2704に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4’:第1の範囲と第2の範囲の両方において、第1のパラメータR=第2のパラメータRs×第3のパラメータRpが成立する。
条件6:区間2703と区間2704が滑らかに接続する(換言すれば、区間2703と区間2704との接続点において、第3のパラメータRpの変化を表す曲線は微分可能である)。
ここで、区間2701と区間2703は、第1のパラメータRの第1の範囲に対応し、区間2702と区間2704は、第1のパラメータRの第2の範囲に対応する。
図27Aおよび図27Bに示した例では、第1のパラメータRが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない、第1のパラメータRが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
図27Aおよび図27Bに示した例では、図22Aおよび図22Bに示した例とは異なり、第3のパラメータRpにおいて区間2703と区間2704が滑らかに接続することとなる。換言すれば、区間2703と区間2704との接続点において、第3のパラメータRpの変化を表す曲線は微分可能である。図22Aおよび図22Bに示した例のように、区間2203と区間2204の接続点が微分可能でない場合、第1のパラメータRを徐々に増加させていった場合に、第3のパラメータRpの単位増加量(微分値)が接続点において急激に変化することになり、再生音に違和感を覚える結果となることがある。これに対して、図27Bの区間2703と区間2704のようにパラメータの変化を表す曲線が滑らかに接続していると、第1のパラメータRを徐々に増加させていった際でも、区間2703と区間2704の接続点において急激に音の高さが高くなり始めるのを防ぐことができ、再生音の違和感を防ぐ効果がある。
図28Aおよび図28Bは、パラメータ調節部1801において行なうパラメータの調節方法の別の例を示すグラフ図である。図28Aは、第1のパラメータRと第2のパラメータRsの関係を示したグラフ図であり、図28Bは、第1のパラメータRと第3のパラメータRpの関係を示したグラフ図である。
図28Aに示したように、第1のパラメータRの変化を横軸に、第2のパラメータRsの変化を縦軸にとったグラフ図は、第2のパラメータRsの上昇率(換言すれば、グラフ図の傾き)が異なる2以上の領域から構成されている。同様に、図28Bに示したように、第1のパラメータRの変化を横軸に、第3のパラメータRpの変化を縦軸にとったグラフ図は、第3のパラメータRpの上昇率が異なる2以上の領域から構成されている。
この場合に、パラメータ調節部1801は、記憶部1805に記録されている図28Aおよび図28Bに示したようなデータベースを参照しながら、以下に示す6つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間2801に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間2803に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間2804に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4’:第1の範囲と第2の範囲の両方において、第1のパラメータR=第2のパラメータRs×第3のパラメータRpが成立する。
条件5:入力された第1のパラメータRが区間2802に該当する場合は、第1のパラメータRの増加に従って第2のパラメータRsが増加する。(換言すれば、パラメータの変化を表す曲線の微分係数が0以上である。)
条件6:区間2803と区間2804が滑らかに接続する(換言すれば、区間2803と区間2804との接続点において、第3のパラメータRpの変化を表す曲線は微分可能である)。
ここで、区間2801と区間2803は、第1のパラメータの第1の範囲に対応し、区間2802と区間2804は第1のパラメータの第2の範囲に対応する。
図28Aおよび図28Bに示した例では、第1のパラメータRが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない、第1のパラメータRが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
図28Aおよび図28Bに示した例では、図27Aおよび図27Bに示した例と同様に、第3のパラメータRpにおいて区間2803と区間2804が滑らかに接続することとなる。換言すれば、区間2803と区間2804との接続点において、第3のパラメータRpの変化を表す曲線は微分可能である。一方、図28Aおよび図28Bの例では、図27Aおよび図27Bの例とは異なり、第1のパラメータRが増加するに従って、第2のパラメータRsも増加する。換言すると、第2のパラメータRsの変化を表す曲線における微分係数が0以上である。図27Aの区間2702では、第1のパラメータRが増加しているにも拘わらず、第2のパラメータRsが減少する部分が存在する。換言すれば、第2のパラメータRsの変化を表す曲線の微分値が、負となる部分が存在する。このような場合、再生速度が速くなっているにも拘わらず話速変換の話速変換率が逆に小さくなってしまい、再生音に違和感を覚える結果となることがある。これに対して、図28Aの区間2802では、第1のパラメータRの増加に従って第2のパラメータRsが増加するため(微分係数が0以上であるため)、再生速度が速くなっているにも拘わらず話速変換率が減少することを防ぐことができ、再生音の違和感を防ぐ効果がある。
以上説明したように、入力されたオーディオ信号の再生倍率を変換する際に、音の高さの調節に先立って話速変換を行うことで、話速変換において入力されたオーディオ信号の類似波形長の検出をより正確に行うことが可能となり、出力されるオーディオ信号の音質を最良の状態に維持することが可能となる。
<信号処理部1803の変形例>
続いて、図29を参照しながら、本実施形態に係る信号処理部1803の変形例について、詳細に説明する。図29は、本実施形態に係る信号処理部1803の変形例について説明するためのブロック図である。
本変形例に係る信号処理部1803は、図29に示したように、例えば、擬音切替判定部2101と、ピッチ調節部2901と、話速変換部2903と、オーディオ信号出力制御部2107と、を主に備える。
擬音切替判定部2101は、判定結果を、ピッチ調節部2901と、オーディオ信号出力制御部2107に出力する以外は、本発明の第1の実施形態に係る擬音切替判定部と同様の構成を有し、ほぼ同一の機能を奏するため、詳細な説明は省略する。
ピッチ調節部2901は、例えば、CPU、ROM、RAM等で構成され、伝送された入力オーディオ信号と、パラメータ調節部1801から伝送された第3のパラメータRpとに基づいて、オーディオ信号の音の高さ(ピッチ)を調節する。ピッチの調整には、任意のピッチ変換方法を使用可能であり、例えば、図12〜図14に示したような方法を用いることができる。ピッチ調節部2901は、音の高さの調整が終了すると、音の高さが調節されたオーディオ信号を、後述する話速変換部2903へと出力する。
なお、ピッチ調節部2901が図12〜図14に示したような方法を用いる場合には、音の高さを変化させる方法におけるサンプル数の増加率Rdは、音の高さに比例し、実際には、サンプル数の増加率Rdは音の高さの上昇率に等しくなる。つまり、Rd=第3のパラメータRpの関係が成立する。
また、擬音切替判定部2101から「オーディオ信号を擬音に切り替える」旨の判定結果が通知された場合には、ピッチ調節部2901は、音の高さ(ピッチ)の変換処理を実行しなくともよい。
話速変換部2903は、例えば、CPU、ROM、RAM等で構成され、入力オーディオ信号と、パラメータ調節部1801により決定された第2のパラメータRsと、ピッチ調節部2901から伝送された、音の高さが調節されたオーディオ信号と、が入力され、第2のパラメータRsに基づいて、オーディオ信号の話速を変換する。話速の変換は、例えば、図1〜図7に示したようなアルゴリズムを用いて行われる。話速変換部2903は、話速および音の高さの調節が終了したオーディオ信号を、後述するオーディオ信号出力制御部2107へと伝送する。
オーディオ信号出力制御部2107は、例えば、CPU、ROM、RAM等で構成され、入力されたオーディオ信号または話速変換部2903から伝送されたオーディオ信号を出力する際の出力制御を行う。擬音切替判定部2101から「オーディオ信号を擬音に切り替える」旨の判定結果が通知された場合には、オーディオ信号出力制御部2107は、入力されたオーディオ信号を、例えば記憶部1805に記録されている所定の擬音に切り替えて出力する。また、擬音切替判定部2101から「擬音への切り替えを行わない」旨の判定結果が通知された場合には、オーディオ信号出力制御部2107は、話速変換部2903から伝送されたオーディオ信号を出力する。
また、オーディオ信号出力制御部2107は、出力するオーディオ信号の音量を調整することが可能である。オーディオ信号の音量調整は、対象となるオーディオ信号における信号波形の絶対値を調整することで行われる。オーディオ信号出力制御部2107は、例えば、再生倍率が1倍超過になっている場合に、出力するオーディオ信号の音量を小さくしてもよい。また、オーディオ信号出力制御部2107は、再生速度の大小にかかわらず、音量制御を行うことも可能である。
以上、本変形例に係る信号処理部1803の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
<本変形例に係る信号処理方法について>
続いて、図30を参照しながら、本変形例に係る信号処理方法について、詳細に説明する。図30は、本変形例に係る信号処理方法を説明するためのフローチャートである。
まず、情報処理装置1800では、入力オーディオ信号があるか否かを判定し(ステップS3001)、入力オーディオ信号がない場合は処理を終了する。また、入力オーディオ信号が存在する場合には、信号処理部1803の擬音切替判定部2101は、入力された第1のパラメータRが所定の閾値以上か否かを判定する(ステップS3002)。第1のパラメータRが所定の閾値未満である場合には、パラメータ調節部1801は、入力された第1のパラメータRに応じて、第2のパラメータRsおよび第3のパラメータRpを調節し(ステップS3003)、信号処理部1803へと伝送する。信号処理部1803のピッチ調節部2901は、伝送された第3のパラメータRpに基づいて、伝送された入力オーディオ信号の音の高さ(ピッチ)を調節し(ステップS3004)、音の高さの調節されたオーディオ信号を、話速変換部2903へと出力する。話速変換部2903は、伝送された第2のパラメータRsに基づいて、音の高さの調整されたオーディオ信号の話速を調節する(ステップS3005)。話速と音の高さが調節されたオーディオ信号は、オーディオ信号出力制御部2107に伝送され、オーディオ信号出力制御部2107は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS3006)、ステップS3001に戻って、処理を繰り返す。
他方、擬音切替判定部2101において、第1のパラメータRが所定の閾値以上であると判定された場合には、オーディオ信号出力制御部2107は、記憶部1805等に記録されている所定の擬音を、オーディオ信号として出力し(ステップS3007)、ステップS3001に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本変形例に係る情報処理装置1800は、変換後の再生速度を聴覚的に認識することが可能なように、オーディオ信号の再生倍率制御を実行することが可能となる。
以上説明したように、入力されたオーディオ信号の再生倍率を変換する際に、話速変換に先立って音の高さの調整を行うことで、話速変換において処理する必要がある入力オーディオ信号のサンプル数を削減することが可能となり、処理に要するリソースの削減を図ることが可能となり、ひいては、処理の高速化を図ることが可能となる。なお、音の高さの調整が行われたオーディオ信号の話速変換を行う際に、音の高さの調整度合いに応じて、話速変換を行う対象周波数帯域を適宜変更するように構成してもよい。
<他のサンプリングレート変換の方法について>
図31は、図12〜図13で示したサンプリングレート変換の方法とは異なる方法によって、サンプリングレートを変換する方法を説明するための説明図である。通常、図12〜図13で示した方法は処理量が多いため、例えば、携帯型再生装置のように大きな処理能力が期待できない再生装置では、実現が難しい場合がある。このような場合、図31に示したようなサンプリングレート変換方法が、有用である。図31は、変換前の信号のサンプル点がn0、n1、n2、n3、・・・とある場合に、新たなサンプル点m0、m1、m2、・・・を線形補間によって求める場合について説明する説明図である。線形補間では、例えば、m1のサンプル値に関して、サンプル点n1とサンプル点n2の間のどの位置にサンプル点m1があるかを比p1:1−p1で求め、その比に従って、n1のサンプル値とn2のサンプル値からm1のサンプル値を求める。
このように、本実施形態において、音の高さを調節する方法は図12〜図13に示した方法に限るものではなく、図31に示した方法や、その他、本実施形態に係る情報処理装置の条件を満たすものであれば、任意のものを使用可能である。
<再生倍率の移行に関して>
続いて、図32を参照しながら、再生倍率を表す第1のパラメータRを連続的に変化させる場合について、説明する。図32は、再生倍率の時間変化を模式的に説明するための説明図である。
再生倍率を表す第1のパラメータRがR1に設定され、オーディオ信号を出力している情報処理装置1800に対して、時刻t1に第1のパラメータRをR2へと変更する旨の信号が入力された場合に、本実施形態に係る情報処理装置1800は、第1のパラメータRをデジタル的に直ちに切り替えるのではなく、例えば図32に示したように、第1のパラメータがR1からR2へと徐々に切り替わるように、第2のパラメータおよび第3のパラメータを制御してもよい。
この場合に、パラメータ調節部1801は、第1のパラメータRをR1からR2へと連続的に変化させ、移行中の各パラメータRに対して、第2のパラメータRsおよび第3のパラメータRpを設定する。かかる処理を行うことで、オーディオ信号の視聴者は、話速および音の高さが変化中のオーディオ信号であっても、違和感を覚えることなく視聴することが可能となる。
以上説明したように、本実施形態に係る再生倍率制御方法を用いることにより、等倍速付近での変速再生では音の高さを変えずに再生速度を変えるため、話者の発話内容の理解や、話者の特定を容易に行うことが可能となる。また、高速再生/低速再生においては、音の高さも変えて再生速度を変えるため、現在の再生速度を聴覚的に感じることができ、操作性の向上に効果がある。
[第2の実施形態]
続いて、図33〜図46を参照しながら、本発明の第2の実施形態に係る情報処理装置3300について、詳細に説明する。
いわゆるコンテンツ再生装置がコンテンツを再生する際、コンテンツ再生装置の記憶媒体再生装置、例えば、ハードディスクドライブ、DVDドライブ、Blu−rayドライブ等からオーディオ信号を取得することになるが、このような記録媒体再生装置には、データの読み出し速度に上限がある。換言すれば、単位時間当たりに記録媒体から読み出すことが可能なデータ量には、上限がある。このため、例えば、コンテンツを10倍速で再生するために、相当するデータ量を読み出すことはできても、20倍速で再生するために、相当するデータ量を読み出すことはできないという状況が発生してしまう。似たような状況は、他にも存在する。例えば、近年のコンテンツデータは、MPEG等でエンコード処理をされていることが普通であり、エンコード処理されているコンテンツを再生する場合、まず、デコード処理を行なわなければならない。このため、ハードディスクドライブ、DVDドライブ、Blu−rayドライブ等の記録媒体再生装置のデータ読み出し速度が十分であっても、デコード装置の演算能力が十分でない場合、デコード処理が間に合わないという状況が発生してしまう。この他にも、ハードディスクドライブ、DVDドライブ、Blu−rayドライブ等の記録媒体再生装置と中央演算装置やメモリを繋ぐバスの帯域が十分でない場合も、同様なことが発生してしまう。
このように、コンテンツ再生装置を構成する構成要素には、それぞれ処理能力の限界が存在し、変速再生をする際には、処理能力の限界が最も低い構成要素によって、全体の処理能力の限界が決定される。この処理能力の限界が原因となって、所望の再生速度を達成できない場合があるという問題がある。この問題を、以下では第3の問題と称する。
そこで、本願発明者は、上述のような問題を解決するために鋭意研究を行い、第1の範囲での変速再生において、発話の内容の把握および話者の特定を容易に行うことが可能であり、かつ、第2の範囲での変速再生において、再生速度を聴覚的に感じることができ、更に、所望の再生速度を達成するために、再生速度の上限を延長することが可能な変速再生方法に想到した。換言すれば、本実施形態に係る変速再生方法は、第1の問題、第2の問題および第3の問題の3つの問題を、同時に解決することが可能な変速再生方法である。
<本実施形態に係る情報処理装置の構成について>
まず、図33を参照しながら、本実施形態に係る情報処理装置3300の構成について、詳細に説明する。図33は、本実施形態に係る情報処理装置3300の機能を説明するためのブロック図である。
本実施形態に係る情報処理装置3300は、図33に示したように、例えば、パラメータ調節部3301と、コンテンツ管理部3303と、コンテンツ記憶部3305と、信号処理部3307と、記憶部3309と、を主に備える。
パラメータ調節部3301は、例えば、CPU、ROM、RAM等より構成され、外部より入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpと、第4のパラメータRtとを調節する。第1のパラメータRに応じて、第2のパラメータRs、第3のパラメータRpおよび第4のパラメータRtを設定する方法については、以下で詳細に説明する。パラメータ調節部3301は、第1のパラメータRに応じて決定した第4のパラメータRtを後述するコンテンツ管理部3303へと伝送するとともに、第2のパラメータRsおよび第3のパラメータRpを、後述する信号処理部3307へと伝送する。
コンテンツ管理部3303は、例えば、CPU、ROM、RAM等より構成され、本実施形態に係る情報処理装置3300で再生されうるオーディオ信号を含むコンテンツを管理する。コンテンツ管理部3303は、オーディオ信号を含むコンテンツを、例えば、コンテンツのタイトルや当該コンテンツの識別IDや属性情報等と関連づけて、後述するコンテンツ記憶部3305に記録する。コンテンツ管理部3303は、情報処理装置3300の外部から入力されるコンテンツの再生指示に応じて、コンテンツ記憶部3305からコンテンツを取得し、後述する信号処理部3307に出力する。信号処理部3307へのコンテンツの出力に際しては、パラメータ調節部3301から伝送される第4のパラメータRtに基づいて、伝送されるデータ量が決定される。また、コンテンツ記憶部3305から読み出したコンテンツデータがエンコードされたデータである場合には、コンテンツ管理部3303は、未図示のデコーダでデコード処理を行なってから、信号処理部3307にデータを出力する。
また、コンテンツ管理部3303は、再生すべきオーディオ信号を含むコンテンツを、インターネットやホームネットワーク等の通信網1702を介して取得することも可能である。コンテンツ管理部3303は、通信網1702を介して取得したコンテンツを、コンテンツ記憶部3305に記録してもよい。
コンテンツ記憶部3305は、例えば、ハードディスクドライブ、DVDドライブ、Blu−rayドライブ等の記録媒体からなり、オーディオ信号を含むコンテンツを、当該コンテンツのタイトルや、識別IDや、属性情報等に関連づけて記憶する。また、コンテンツ記憶部3305には、当該コンテンツ記憶部3305を構成する各種記録媒体の読み出し速度の上限値等を含む制御情報がデータベースとして記録されていてもよい。
信号処理部3307は、例えば、CPU、ROM、RAM等で構成され、コンテンツ管理部3303から伝送されたオーディオ信号と、第1のパラメータRと、パラメータ調節部3301から伝送された第2のパラメータRsおよび第3のパラメータRpとに基づいて、オーディオ信号の話速と音の高さ(ピッチ)を調節する。また、信号処理部3307は、話速と音の高さが調節されたオーディオ信号を、出力オーディオ信号として出力する。情報処理装置3300では、かかる出力オーディオ信号を、未図示のDA変換部を介してアナログ信号へと変換し、スピーカ等の出力装置から出力する。
記憶部3309は、例えば、RAM、ストレージ装置等で構成され、第1のパラメータRに応じて第2のパラメータRs、第3のパラメータRpおよび第4のパラメータRtを決定する際に用いられる各種のデータベースや、情報処理装置3300が実行する各種プログラム等を記憶する。また、記憶部3309は、これらのデータ以外にも、情報処理装置3300が、何らかの処理を行う際に保存する必要が生じた様々なパラメータや処理の途中経過等を、適宜記憶することが可能である。また、記憶部3309には、オーディオ信号が記録されていてもよい。この記憶部3309は、パラメータ調節部3301や、コンテンツ管理部3303や、信号処理部3307等が、自由に読み書きを行うことが可能である。
(第1のパラメータと第4のパラメータとの関係について)
続いて、図34Aおよび図34Bを参照しながら、本実施形態に係るパラメータ調節部3301にて行われる第4のパラメータの調節方法について、詳細に説明する。図34Aは、第1のパラメータRと第4のパラメータRtとの関係を示したグラフ図であり、図34Bは、第1のパラメータRと信号処理部3307に入力されるオーディオ信号のデータ量との関係を示したグラフ図である。
図34Aに示したように、第1のパラメータRの変化を横軸に、第4のパラメータRtの変化を縦軸にとったグラフ図は、第4のパラメータRtの上昇率(換言すれば、グラフ図の傾き)が異なる2つの領域から構成されている。
パラメータ調節部3301は、以下に示す条件に基づいて、第4のパラメータRtを調節する。ここで、コンテンツ管理部3303がコンテンツ記憶部3305からコンテンツのデータを読み出して信号処理部3307へと伝送する際のデータ読み出し速度の上限を、Smと略記する。なお、以下の説明においては、データ読み出し速度とは、コンテンツ管理部3303がコンテンツ記憶部3305から所定のコンテンツデータを読み出す際の読み出し速度と、読み出したコンテンツデータをコンテンツ管理部3303から信号処理部3307へと伝送する際に要する速度とを含む速度とする。
条件A:入力された第1のパラメータRが区間3405に該当する場合は、第4のパラメータRtは常に1.0である。
条件B:入力された第1のパラメータRが区間3406に該当する場合は、上限速度Sm=第1のパラメータR×第4のパラメータRtが成立する。
上限速度Smは、コンテンツ管理部3303およびコンテンツ記憶部3305に応じて決定する一定の値であるため、区間3406においては、第1のパラメータRの値が大きくなるほど、第4のパラメータRtは小さくなる。
図34Bは、単位時間当たりに信号処理部3307に入力されるオーディオ信号の量を、データ読み出し速度の上限Smに対する割合で示している。区間3407では、データ量の割合は第1のパラメータRに比例するが、区間3408では、データ量の割合は常に1.0となる。これは、データ読み出し速度がその上限Smを超えないように、第4のパラメータRtに従ってデータ読み出し速度が調節されているためである。このように、第4のパラメータRtは、コンテンツデータをコンテンツ記憶部3305から読み出して信号処理部3307へと伝送する際におけるデータの間引き率であるといえる。
<第4のパラメータに応じたデータ読み出し速度の調節について>
第4のパラメータに応じたデータ読み出し速度の調節は、例えば、図35〜図37に示すような方法によって行なわれる。図35〜図37は、本実施形態に係るデータ読み出し速度の調節方法の一例を説明するための説明図である。
図35に示した例では、記録媒体に記録されている原信号(a)に対して、区間3501、区間3502、区間3503というように、断続的に原信号が選択される。信号(b)は読み出された信号を表しており、区間3504、区間3505、区間3506は、それぞれ原信号(a)の区間3501、区間3502、区間3503に対応する。コンテンツ記憶部3305から読み出され信号処理部3307へと出力される信号は、信号(b)における区間3504、区間3505および区間3506を接続した信号となる。ここで、各区間を接続する際、各区間の信号をフェードイン、フェードアウトさせることで、滑らかに接続しても良い。また、各区間を多少長めに取り、クロスフェードで接続しても良い。信号(b)は、信号処理部3307で処理され、変速再生時の再生音となる。
図35に示した例では、原信号(a)に対して、読み出し区間の長さとスキップ区間の長さが等しい(すなわち、区間3501の長さと、区間3501と区間3502の間に位置する区間の長さとが等しい)ため、第4のパラメータRtは、1/2に相当する。他方、図36は、第4のパラメータRtを、図35に示した例とは異なる値にした場合の一例である。図36に示した例では、原信号(a)に対して、読み出し区間の長さとスキップ区間の長さの比が3:4であるため、第4のパラメータRtは、3/7に相当する。
図37は、図35および図36と同様の例であるが、記録媒体に記録されているコンテンツデータが、エンコードされている点で相違する。エンコードされたデータは、コーデックによって名前は異なるものの、あるまとまった単位Pで管理されていることが多い。例えば、MPEGであれば、エンコードされたデータはパック、パケットといった単位Pで管理されている。
図37に示した例では、記録媒体に記録されているストリームデータ(エンコードされたデータ)(a)に対して、区間3701、区間3702、区間3703というように、断続的にストリームデータを読み出している。読み出されたストリームデータ(b)の区間3704、区間3705、区間3706は、それぞれストリームデータ(a)の区間3701、区間3702、区間3703に対応する。読み出されたストリームデータ(b)の区間3704、区間3705、区間3706は、それぞれデコーダによりデコード処理され、オーディオ信号(c)の区間3707、区間3708、区間3709となる。コンテンツ記憶部3305から読み出され信号処理部3307へと出力される信号は、信号(c)における区間3707、区間3708、区間3709を接続した信号となる。ここで、各区間を接続する際、各区間の信号をフェードイン、フェードアウトさせることで滑らかに接続してもよい。また、各区間を多少長めに取り、クロスフェードで接続してもよい。オーディオ信号(c)は、信号処理部3307により処理され、変速再生時の再生音になる。
図37に示した例では、ストリームデータ(a)に対して、読み出し区間の長さとスキップ区間の長さが等しいため、第4のパラメータRtは、1/2に相当する。ただし、エンコードされた信号の場合、各管理単位Pが、エンコード処理前のオーディオ信号においてオーバーラップ区間を持つ場合がある。このような場合、ストリームデータ(a)に対する読み出し区間長は、オーバーラップ区間に応じて余計に読み出す必要がある。また、コーデックによっては、各管理単位毎に管理情報を付し、その管理情報を読み出さないと次の管理単位が読み出せない場合もある。このような場合、スキップ区間であっても、少なくとも上記の管理情報だけは読み出す必要がある。このように、ストリームデータを扱う場合、コーデックに依存した処理の追加が必要になる場合があるものの、基本的な処理方法は、図35および図36にて示した例と同様である。
以下の説明においては、図34Aの区間3405のように、第4のパラメータRtが1.0である区間に対応する第1のパラメータRの範囲を、第3の範囲と称し、図34Aの区間3406のように、第4のパラメータRtが上限速度Smの影響を受ける区間に対応する第1のパラメータRの範囲を、第4の範囲と称することとする。
(第1のパラメータと第2のパラメータ、第3のパラメータとの関係について)
図38Aおよび図38Bは、パラメータ調節部3301において行なうパラメータの調節方法の一例について、詳細に説明する。図38Aは、第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図であり、図38Bは、第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。
本実施形態に係る情報処理装置3300では、図38Aおよび図38Bに示したような、第1のパラメータRと、第2のパラメータRsおよび第3のパラメータRpとの関係を表したデータベースと、図34Aに示したような、第1のパラメータRと第4のパラメータRtとの関係を表したデータベースとが、例えば記憶部3309に記録されており、パラメータ調節部3301は、かかるデータベースを参照しながら、第1のパラメータRに応じて、第2のパラメータRs、第3のパラメータRpおよび第4のパラメータRtを決定する。
ここで、パラメータ調節部3301は、記憶部3309に記録されている図38Aおよび図38Bに示したようなデータベースを参照しながら、以下に示す4つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間3801に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間3803に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間3804に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4:第1のパラメータR×第4のパラメータRt=第2のパラメータRs×サンプル数の増加率Rd
ここで、図38Aの区間3809において、第2のパラメータRsが減少しているのは、上述の特徴Bの影響を受けているためである。なお、図38Aおよび図38Bから明らかなように、第4のパラメータRtによる影響は、第2のパラメータRsには及ぶものの、第3のパラメータRpには影響しない。換言すれば、信号処理部3307に伝送されるオーディオ信号のデータ量が減少する場合には、データ量の減少は、話速変換の度合いには影響するものの、音の高さの調整には影響しない。
また、区間3801と区間3803は、第1のパラメータRの第1の範囲に対応し、区間3802と区間3809と区間3804は、第1のパラメータRの第2の範囲に対応する。また、区間3801と区間3802は、第1のパラメータRの第3の範囲に対応し、区間3809は、第1のパラメータRの第4の範囲に対応する。
図38Aおよび図38Bに示した例では、第1のパラメータRが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない、第1のパラメータRが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
更に、第1のパラメータRが1〜20のとき、つまり、1〜20倍速再生のときは、連続的な信号の読み出しを行ない、第1のパラメータRが20以上のとき、つまり、20倍速以上の再生のときは、断続的な信号の読み出しを行なっている。このような処理を行なうことによって、連続的な信号の読み出しを行なう場合の上限再生速度と考えられる20倍速を超える再生速度が実現できる。
なお、図38Aにおいて、区間3802と区間3809を破線で示しているのは、音の高さを変化させる方法に依存するためである。音の高さを変化させる方法として、図12〜図14に示したような方法を利用する場合は、音の高さが高くなるに従ってサンプル数が減少するため、区間3802と区間3809の破線のようになる。しかしながら、音の高さを変化させる方法として、サンプル数が減少しない方法、もしくは、減少してもその減少量が少ない方法では、区間3802と区間3809は、図38Aに示した破線とは異なる設定となる。
また、音の高さを変化させる方法におけるサンプル数の増加率をRdとすると、パラメータ調節部3301には、上記の条件4に示したような特徴がある。ただし、サンプル数の増加率とは、例えば、サンプル数が2倍になる場合は増加率を2とし、サンプル数が半分になる場合は増加率を1/2とするものである。
(本実施形態に係る再生倍率制御方法について)
図39は、本実施形態に係る情報処理装置3300における処理の流れを説明するためのフローチャートである。まず、情報処理装置3300では、入力オーディオ信号があるか否かを判定し(ステップS3901)、入力オーディオ信号がない場合は処理を終了する。また、入力オーディオ信号が存在する場合には、情報処理装置3300のパラメータ調節部3301は、入力された第1のパラメータRに応じて、第2のパラメータRs、第3のパラメータRpおよび第4のパラメータRtを調節する(ステップS3902)。この調節は、上述の条件1〜4ならびに上述の条件Aおよび条件Bを満たすように行われる。続いて、情報処理装置3300の信号処理部3307は、調節された第2のパラメータRsと第3のパラメータRpに従って、コンテンツ管理部3303から伝送されたオーディオ信号の話速と音の高さを調節する(ステップS3903)。続いて、情報処理装置3300は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS3904)、ステップS3901に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本実施形態に係る情報処理装置3300は、オーディオ信号の再生倍率制御を実行することが可能となる。
図33〜図39にて説明したように、本実施形態に係る再生倍率制御方法によれば、第1のパラメータの第1の範囲では話速の調節のみを行ない、第1のパラメータの第2の範囲では話速の調節と同時に音の高さの調節も行なうことができる。これにより、第1のパラメータの第1の範囲では、第1の問題が解決され、かつ、第1のパラメータの第2の範囲では、第2の問題が解決される。更に、第1のパラメータの第3の範囲では連続的な信号の読み出しを行ない、第1のパラメータの第4の範囲では断続的な信号の読み出しを行なうことができる。これにより、第4の範囲において第3の問題が改善され、第4の範囲を拡大させることができ、再生速度の上限を上げることが可能となる。
(信号処理部3307について)
続いて、図40を参照しながら、本実施形態に係る信号処理部3307の一例について、詳細に説明する。図40は、本実施形態に係る信号処理部3307の機能を説明するためのブロック図である。
本実施形態に係る信号処理部3307は、図40に示したように、例えば、擬音切替判定部4001と、話速変換部4003と、ピッチ調整部4005と、オーディオ信号出力制御部4007と、を主に備える。
本実施形態に係る擬音切替判定部4001、話速変換部4003、ピッチ調整部4005、および、オーディオ信号出力制御部4007は、それぞれ本発明の第1の実施形態に係る擬音切替判定部2101、話速変換部2103、ピッチ調整部2105、および、オーディオ信号出力制御部2107とほぼ同一の構成を有し、同様の効果を奏するため、詳細な説明は省略する。
図41Aおよび図41Bは、図40に示した信号処理部3307を有する情報処理装置3300のパラメータ調節部3301において行なわれるパラメータの調節方法の一例を示した説明図である。
パラメータ調節部3301は、上述の特徴Aおよび特徴Bも兼ね備えている。図41Aは、第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図であり、図41Bは、第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。
図41Aに示したように、第1のパラメータRの変化を横軸に、第2のパラメータRsの変化を縦軸にとったグラフ図は、第2のパラメータRsの上昇率(換言すれば、グラフ図の傾き)が異なる3以上の領域から構成されている。同様に、図41Bに示したように、第1のパラメータRの変化を横軸に、第3のパラメータRpの変化を縦軸にとったグラフ図は、第3のパラメータRpの上昇率が異なる2以上の領域から構成されている。
信号処理部3307のピッチ調節部4005が、図12〜図14に示した方法でピッチの調整を行う場合には、パラメータ調節部3301は、記憶部3309に記録されている図41Aおよび図41Bに示したようなデータベースを参照しながら、以下に示す4つの条件に即して、入力された第1のパラメータRに応じて、第2のパラメータRsと、第3のパラメータRpとを決定する。
条件1:入力された第1のパラメータRが区間4101に該当する場合は、第2のパラメータRsが第1のパラメータRに比例するように(換言すれば、第2のパラメータRsが第1のパラメータRと等しくなるように)第2のパラメータRsを決定する。
条件2:入力された第1のパラメータRが区間4103に該当する場合は、第3のパラメータRpは常に1に設定する。
条件3:入力された第1のパラメータRが区間4104に該当する場合は、第1のパラメータRの増加に従って、第3のパラメータRpが増加する。
条件4’:第1の範囲と第2の範囲(第3の範囲と第4の範囲)において、第1のパラメータR×第4のパラメータRt=第2のパラメータRs×第3のパラメータRpが成立する。
ここで、区間4109において、第2のパラメータRsが減少しているのは、上述の特徴Bの影響を受けているためである。なお、図41Aおよび図41Bから明らかなように、第4のパラメータRtによる影響は、第2のパラメータRsには及ぶものの、第3のパラメータRpには影響しない。換言すれば、信号処理部3307に伝送されるオーディオ信号のデータ量が減少する場合には、データ量の減少は、話速変換の度合いには影響するものの、音の高さの調整には影響しない。
また、区間4101と区間4103は、第1のパラメータRの第1の範囲に対応し、区間4102と区間4109と区間4104は、第1のパラメータRの第2の範囲に対応する。また、区間4101と区間4102は、第1のパラメータRの第3の範囲に対応し、区間4109は、第1のパラメータRの第4の範囲に対応する。
図41Aおよび図41Bに示した例では、第1のパラメータRが1〜4のとき、つまり、1〜4倍速再生のときは、話速変換のみを行ない、第1のパラメータRが4以上のとき、つまり、4倍速以上の再生のときは、話速変換と同時に音の高さを上げる処理を行なう。このような処理を行なうことによって、1〜4倍速の再生時には、再生速度に合せて話者の発話が徐々に早口になり、4倍速以上の再生時には、話者の発話が早口になると同時に徐々に音の高さが高くなる。
更に、第1のパラメータRが1〜20のとき、つまり、1〜20倍速再生のときは、連続的に信号の読み出しを行ない、第1のパラメータRが20以上のとき、つまり、20倍速以上の再生のときは、断続的な信号の読み出しを行なっている。このような処理を行なうことによって、間引き再生を行なわない場合の上限再生速度である20倍速を超える再生速度が実現できる。
以上、本実施形態に係る情報処理装置3300の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
<本実施形態に係る信号処理方法について>
続いて、図42を参照しながら、本実施形態に係る信号処理方法について、詳細に説明する。図42は、本実施形態に係る信号処理方法を説明するためのフローチャートである。
まず、情報処理装置3300の信号処理部3307は、コンテンツ管理部3303から伝送されたオーディオ信号があるか否かを判定し(ステップS4201)、コンテンツ管理部3303から伝送されたオーディオ信号がない場合は処理を終了する。また、コンテンツ管理部3303から伝送されたオーディオ信号が存在する場合には、信号処理部3307の擬音切替判定部4001は、入力された第1のパラメータRが所定の閾値以上か否かを判定する(ステップS4202)。第1のパラメータRが所定の閾値未満である場合には、パラメータ調節部3301は、入力された第1のパラメータRに応じて、第2のパラメータRs、第3のパラメータRpおよび第4のパラメータRtを調節し(ステップS4203)、信号処理部3307へと伝送する。信号処理部3307の話速変換部4003は、伝送された第2のパラメータRsに基づいて入力オーディオ信号の話速を調節し(ステップS4204)、話速の調節されたオーディオ信号を、ピッチ調節部4005へと出力する。ピッチ調節部4005は、伝送された第3のパラメータRpに基づいて、話速変換部4003から伝送されたオーディオ信号の音の高さ(ピッチ)を調節する(ステップS4205)。話速と音の高さが調節されたオーディオ信号は、オーディオ信号出力制御部4007に伝送され、オーディオ信号出力制御部4007は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS4206)、ステップS4201に戻って、処理を繰り返す。
他方、擬音切替判定部4001において、第1のパラメータRが所定の閾値以上であると判定された場合には、オーディオ信号出力制御部4007は、記憶部3309等に記録されている所定の擬音を、オーディオ信号として出力し(ステップS4207)、ステップS4201に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本実施形態に係る情報処理装置3300は、変換後の再生速度を聴覚的に認識することが可能なように、オーディオ信号の再生倍率制御を実行することが可能となる。
[第2の実施形態の第1変形例]
続いて、図43を参照しながら、本発明の第2の実施形態の第1変形例に係る情報処理装置4300の構成について、詳細に説明する。図43は、本変形例に係る情報処理装置4300の機能を説明するためのブロック図である。
図43に示した変形例は、コンテンツ管理部4303が第4のパラメータRtを設定する例である。例えば、本変形例に係る情報処理装置4300を録画再生装置として利用する際には、あるコンテンツを再生している最中に他の番組の録画も同時に行なっている場合がある。このような場合、記録再生装置は、再生と録画の両方を同時に行なわなければならず、再生のみを行なっている場合よりも、再生処理に対して費やすことができる処理量が減ってしまう。このように、状況に応じて、再生処理に費やすことができる処理量は変わる可能性があるため、再生処理に費やすことができる処理量に応じて、間引き率を決める必要がある。本変形例に係る情報処理装置4300は、以下に説明するようなコンテンツ管理部4303を備えることで、かかる処理を可能とする。
図43に示したように、本変形例に係る情報処理装置4300は、例えば、パラメータ調節部4301と、コンテンツ管理部4303と、コンテンツ記憶部4305と、信号処理部4307と、記憶部4309と、を主に備える。
ここで、コンテンツ記憶部4305、信号処理部4307および記憶部4309については、それぞれ本発明の第2の実施形態に係る情報処理装置3300におけるコンテンツ記憶部3305、信号処理部3307および記憶部3309とほぼ同一の構成を有し、同様の効果を奏するため、詳細な説明は省略する。
パラメータ調節部4301は、例えば、CPU、ROM、RAM等より構成され、外部より入力された第1のパラメータRと、後述するコンテンツ管理部4303から伝送される第4のパラメータRtとに応じて、第2のパラメータRsと、第3のパラメータRpとを調節する。第2のパラメータRsおよび第3のパラメータRpの設定は、本発明の第2の実施形態において説明したように、記憶部4309に格納されている、第1のパラメータRと、第2のパラメータRsおよび第3のパラメータRpとの関係を表したデータベースを参照しながら、第2の実施形態において説明したような条件を満たすように決定される。パラメータ調節部4301は、決定した第2のパラメータRsおよび第3のパラメータRpを、信号処理部4307へと伝送する。
コンテンツ管理部4303は、例えば、CPU、ROM、RAM等より構成され、本実施形態に係る情報処理装置4300で再生されうるオーディオ信号を含むコンテンツを管理する。コンテンツ管理部4303は、オーディオ信号を含むコンテンツを、例えば、コンテンツのタイトルや当該コンテンツの識別IDや属性情報等と関連づけて、コンテンツ記憶部4305に記録する。コンテンツ管理部4303は、情報処理装置4300の外部から入力されるコンテンツの再生指示に応じて、コンテンツ記憶部4305からコンテンツを取得し、信号処理部4307に出力する。信号処理部4307へのコンテンツの出力に際しては、コンテンツ管理部4303は、コンテンツの出力に利用可能なリソース量に応じて、データの間引き率に相当する第4のパラメータRtを決定し、決定した第4のパラメータに応じて伝送するデータ量を決定する。また、コンテンツ管理部4303は、決定した第4のパラメータRtを、パラメータ調節部4301へと伝送する。なお、コンテンツ記憶部4305から読み出したコンテンツデータがエンコードされたデータである場合には、コンテンツ管理部4303は、未図示のデコーダでデコード処理を行なってから、信号処理部4307にデータを出力する。
また、コンテンツ管理部4303は、再生すべきオーディオ信号を含むコンテンツを、インターネットやホームネットワーク等の通信網1702を介して取得することも可能である。コンテンツ管理部4303は、通信網1702を介して取得したコンテンツを、コンテンツ記憶部4305に記録してもよい。
以上、本変形例に係る情報処理装置4300の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本変形例を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
<本変形例に係る信号処理方法について>
続いて、図44を参照しながら、本変形例に係る信号処理方法について、詳細に説明する。図44は、本変形例に係る信号処理方法を説明するためのフローチャートである。
まず、情報処理装置4300の信号処理部4307は、コンテンツ管理部4303から伝送されたオーディオ信号があるか否かを判定し(ステップS4401)、コンテンツ管理部4303から伝送されたオーディオ信号がない場合は処理を終了する。また、コンテンツ管理部4303から伝送されたオーディオ信号が存在する場合には、信号処理部4307の擬音切替判定部は、入力された第1のパラメータRが所定の閾値以上か否かを判定する(ステップS4402)。第1のパラメータRが所定の閾値未満である場合には、パラメータ調節部4301は、入力された第1のパラメータRと、コンテンツ管理部4303から伝送された第4のパラメータRtとに応じて、第2のパラメータRsおよび第3のパラメータRpを調節し(ステップS4403)、信号処理部4307へと伝送する。信号処理部4307は、伝送された第2のパラメータRsと第3のパラメータRpとに基づいて入力オーディオ信号の話速と音の高さを調節する(ステップS4404)。話速と音の高さが調節されたオーディオ信号は、オーディオ信号出力制御部に伝送され、オーディオ信号出力制御部は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS4405)、ステップS4401に戻って、処理を繰り返す。
他方、擬音切替判定部において、第1のパラメータRが所定の閾値以上であると判定された場合には、オーディオ信号出力制御部は、記憶部4309等に記録されている所定の擬音を、オーディオ信号として出力し(ステップS4406)、ステップS4401に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本実施形態に係る情報処理装置4300は、変換後の再生速度を聴覚的に認識することが可能なように、オーディオ信号の再生倍率制御を実行することが可能となる。
[信号処理部3307,4307の変形例]
続いて、図45を参照しながら、本実施形態および本変形例に係る信号処理部3307,4307の変形例について、説明する。図45は、信号処理部3307,4307の変形例を説明するためのブロック図である。
図45に示したように、本変形例に係る信号処理部は、擬音切替判定部4001と、ピッチ調節部4501と、話速変換部4503と、オーディオ信号出力制御部4007と、を主に備える。
ここで、本変形例に係る擬音切替判定部4001と、ピッチ調節部4501と、話速変換部4503と、オーディオ信号出力制御部4007とは、それぞれ、本発明の第1の実施形態の第1変形例に係る擬音切替判定部2101、ピッチ調節部2901、話速変換部2903およびオーディオ信号出力制御部2107とほぼ同一の構成を有し、同様の効果を奏するため、詳細な説明は省略する。
<本変形例に係る信号処理方法について>
続いて、図46を参照しながら、本変形例に係る信号処理方法について、詳細に説明する。図46は、本変形例に係る信号処理方法を説明するためのフローチャートである。
まず、情報処理装置4300では、入力オーディオ信号があるか否かを判定し(ステップS4601)、入力オーディオ信号がない場合は処理を終了する。また、入力オーディオ信号が存在する場合には、信号処理部4307の擬音切替判定部4001は、入力された第1のパラメータRが所定の閾値以上か否かを判定する(ステップS4602)。第1のパラメータRが所定の閾値未満である場合には、パラメータ調節部4301は、入力された第1のパラメータRとコンテンツ管理部4303から伝送された第4のパラメータRtとに応じて、第2のパラメータRsおよび第3のパラメータRpを調節し(ステップS4603)、信号処理部4307へと伝送する。信号処理部4307のピッチ調節部4501は、伝送された第3のパラメータRpに基づいて、伝送された入力オーディオ信号の音の高さ(ピッチ)を調節し(ステップS4604)、音の高さの調節されたオーディオ信号を、話速変換部4503へと出力する。話速変換部4503は、伝送された第2のパラメータRsに基づいて、音の高さの調整されたオーディオ信号の話速を調節する(ステップS4605)。話速と音の高さが調節されたオーディオ信号は、オーディオ信号出力制御部4007に伝送され、オーディオ信号出力制御部4007は、話速と音の高さが調節されたオーディオ信号を出力し(ステップS4606)、ステップS4601に戻って、処理を繰り返す。
他方、擬音切替判定部4001において、第1のパラメータRが所定の閾値以上であると判定された場合には、オーディオ信号出力制御部4007は、記憶部3309等に記録されている所定の擬音を、オーディオ信号として出力し(ステップS4607)、ステップS4601に戻って、処理を繰り返す。
かかる処理を繰り返すことで、本変形例に係る情報処理装置4300は、変換後の再生速度を聴覚的に認識することが可能なように、オーディオ信号の再生倍率制御を実行することが可能となる。
以上説明したように、本発明の第2の実施形態および各変形例に係る情報処理装置では、オーディオ信号を伝送する際の間引きによってオーディオ信号を構成するサンプル数が減少したことを認識しながら、オーディオ信号の話速変換率や音の高さの変換率を決定することが可能である。かかる装置を用いることにより、等倍速付近での変速再生では音の高さを変えずに再生速度を変えるため、話者の発話内容の理解や話者の特定が容易となるという効果があると同時に、高速再生/低速再生では音の高さも変えて再生速度を変えるため、現在の再生速度を聴覚的に感じることができ、加えて、連続的読み出しや断続的読み出しの調節を行なうことにより、高速再生時の上限再生速度を大幅に拡大できる。これにより、本実施形態に係る情報処理装置は、操作性の向上を図ることが可能である。
<情報処理装置のハードウェア構成について>
次に、図47を参照しながら、本発明の各実施形態に係る情報処理装置のハードウェア構成について、詳細に説明する。図47は、本発明の各実施形態に係る情報処理装置のハードウェア構成を説明するためのブロック図である。
情報処理装置1800,3300,4300は、主に、CPU4701と、ROM4703と、RAM4705と、ホストバス4707と、ブリッジ4709と、外部バス4711と、インターフェース4713と、入力装置4715と、出力装置4717と、ストレージ装置4719と、ドライブ4721と、接続ポート4723と、通信装置4725とを備える。
CPU4701は、演算処理装置および制御装置として機能し、ROM4703、RAM4705、ストレージ装置4719、またはリムーバブル記録媒体4727に記録された各種プログラムに従って情報処理装置1800,3300,4300内の動作全般またはその一部を制御する。ROM4703は、CPU4701が使用するプログラムや演算パラメータ等を記憶する。RAM4705は、CPU4701の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス4707により相互に接続されている。
ホストバス4707は、ブリッジ4709を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス4711に接続されている。
入力装置4715は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなどユーザが操作する操作手段である。また、入力装置4715は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置1800,3300,4300の操作に対応した携帯電話やPDA等の外部接続機器4729であってもよい。さらに、入力装置4715は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU4701に出力する入力制御回路などから構成されている。情報処理装置1800,3300,4300のユーザは、この入力装置4715を操作することにより、情報処理装置1800,3300,4300に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置4717は、例えば、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなど、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置4717は、例えば、情報処理装置1800,3300,4300が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置1800,3300,4300が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
ストレージ装置4719は、情報処理装置1800,3300,4300の記憶部の一例として構成されたデータ格納用の装置であり、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置4719は、CPU4701が実行するプログラムや各種データ、および外部から取得した音響信号データや画像信号データなどを格納する。
ドライブ4721は、記憶媒体用リーダライタであり、情報処理装置1800,3300,4300に内蔵、あるいは外付けされる。ドライブ4721は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体4727に記録されている情報を読み出して、RAM4705に出力する。また、ドライブ4721は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体4727に記録を書き込むことも可能である。リムーバブル記録媒体4727は、例えば、DVDメディア、HD−DVDメディア、Blu−rayメディア、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、メモリースティック、または、SDメモリカード(Secure Digital memory card)等である。また、リムーバブル記録媒体4727は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
接続ポート4723は、例えば、USB(Universal Serial Bus)ポート、i.Link等のIEEE1394ポート、SCSI(Small Computer System Interface)ポート、RS−232Cポート、光オーディオ端子、HDMI(High−Definition Multimedia Interface)ポート等の、機器を情報処理装置1800,3300,4300に直接接続するためのポートである。この接続ポート4723に外部接続機器4729を接続することで、情報処理装置1800,3300,4300は、外部接続機器4729から直接音響信号データや画像信号データを取得したり、外部接続機器4729に音響信号データや画像信号データを提供したりする。
通信装置4725は、例えば、通信網1702に接続するための通信デバイス等で構成された通信インターフェースである。通信装置4725は、例えば、有線または無線LAN(Local Area Network)、Bluetooth、またはWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデム等である。この通信装置4725は、例えば、インターネットや他の通信機器との間で音響信号等を送受信することができる。また、通信装置4725に接続される通信網1702は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等であってもよい。
以上説明した構成により、情報処理装置1800,3300,4300は、多様な情報源から音響信号等に関する情報を取得し、接続ポート4723や通信網1702に接続された他の外部接続機器4729、コンテンツサーバ1703、クライアント機器1704に対して音響信号等に関する情報を伝送することが可能になると同時に、外部接続機器4729、コンテンツサーバ1703、クライアント機器1704等から音響信号に関する情報を受信したり、外部接続機器4729、コンテンツサーバ1703、クライアント機器1704等が保持する音響信号に関する情報を取得したりすることができる。さらに、情報処理装置1800,3300,4300は、リムーバブル記録媒体4727を用いて音響信号等に関する情報を持ち出すこともできる。
以上、本発明の各実施形態に係る情報処理装置1800,3300,4300の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、上述した各実施形態においては、第1の範囲として、第1のパラメータRが1〜4である場合を説明してきたが、第1の範囲はこれに限るものではなく、他の値としても良い。例えば、ゆっくりした音声や音楽の場合では、第1のパラメータRの第1の範囲を1〜6程度としても良く、逆に、速い音声や音楽では1〜2程度としても良い。
また、上述した第2の実施形態においては、第3の範囲として、第1のパラメータRが1〜20である場合を説明してきたが、第3の範囲はこれに限るものではなく、他の値としても良い。
更に、上述した各実施形態においては、話速変換のアルゴリズムとしてPICOLAを用いているが、本発明の話速変換のアルゴリズムは、これに限るものではなく、時間軸上、周波数軸上問わず、話速変換が可能なものであれば、任意のアルゴリズムを使用することが可能である。
なお、上述した各実施形態においては、変速再生の例を等倍速以上の場合を用いて説明したが、等倍速以下の場合も同様のことが言える。つまり、例えば、0.5〜1.0倍速が第1の範囲に該当し、0.0〜0.5倍速が第2の範囲に該当する。0.5〜1.0倍速の範囲では、話速変換のみを行ない、0.0〜0.5倍速の範囲では話速変換をすると同時に再生速度が遅くなるに従って音の高さを低くすることが可能である。
PICOLAによるオーディオ信号の伸張方法を説明するための説明図である。 類似波形長の探索の一例を説明するための説明図である。 PICOLAによるオーディオ信号の伸張方法を説明するための説明図である。 PICOLAによるオーディオ信号の圧縮方法を説明するための説明図である。 PICOLAによるオーディオ信号の圧縮方法を説明するための説明図である。 PICOLAによるオーディオ信号の伸張方法を説明するための流れ図である。 PICOLAによるオーディオ信号の圧縮方法を説明するための流れ図である。 PICOLAによる話速変換装置の構成を説明するためのブロック図である。 類似波形長を検出する処理を説明するためのフローチャートである。 類似波形長を検出する処理を説明するためのフローチャートである。 クロスフェード信号の生成処理の一例を説明するためのフローチャートである。 サンプリングレートを下げる方法を説明するための説明図である。 サンプリングレートを上げる方法を説明するための説明図である。 再生速度に比例して音の高さを上げる処理の一例を説明するための説明図である。 第1の従来の再生装置における再生倍率と話速変換率の関係を表すグラフ図である。 第1の従来の再生装置における再生倍率と音の高さの関係を表すグラフ図である。 第2の従来の再生装置における再生倍率と話速変換率の関係を表すグラフ図である。 第2の従来の再生装置における再生倍率と音の高さの関係を表すグラフ図である。 本発明の第1の実施形態に係る情報処理装置を含む再生速度変換システムを説明するための説明図である。 同実施形態に係る情報処理装置の構成を説明するためのブロック図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 同実施形態に係る情報処理装置における処理の流れを説明するためのフローチャートである。 同実施形態に係る信号処理部の機能を説明するためのブロック図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 同実施形態に係る信号処理方法を説明するためのフローチャートである。 同実施形態に係る情報処理装置が行う信号処理の一例をサンプル単位で説明するための説明図である。 同実施形態に係る情報処理装置が行う信号処理の別の例をサンプル単位で説明するための説明図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 同実施形態に係る信号処理部の変形例について説明するためのブロック図である。 同変形例に係る信号処理方法を説明するためのフローチャートである。 サンプリングレートを変換する別の方法を説明するための説明図である。 再生倍率の時間変化を模式的に説明するための説明図である。 本発明の第2の実施形態に係る情報処理装置の機能を説明するためのブロック図である。 第1のパラメータRと第4のパラメータRtとの関係を示したグラフ図である。 第1のパラメータRと信号処理部に入力されるオーディオ信号のデータ量との関係を示したグラフ図である。 同実施形態に係るデータ読み出し速度の調節方法の一例を説明するための説明図である。 同実施形態に係るデータ読み出し速度の調節方法の一例を説明するための説明図である。 同実施形態に係るデータ読み出し速度の調節方法の一例を説明するための説明図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 同実施形態に係る情報処理装置における処理の流れを説明するためのフローチャートである。 同実施形態に係る信号処理部の機能を説明するためのブロック図である。 第1のパラメータRと第2のパラメータRsとの関係を示したグラフ図である。 第1のパラメータRと第3のパラメータRpとの関係を示したグラフ図である。 同実施形態に係る信号処理方法を説明するためのフローチャートである。 同実施形態に係る情報処理装置の第1変形例の機能を説明するためのブロック図である。 同変形例に係る信号処理方法を説明するためのフローチャートである。 同実施形態および同変形例に係る信号処理部の変形例を説明するためのブロック図である。 同変形例に係る信号処理方法を説明するためのフローチャートである。 本発明の各実施形態に係る情報処理装置のハードウェア構成を説明するためのブロック図である。
符号の説明
1800,3300,4300 情報処理装置
1801,3301,4301 パラメータ調節部
1803,3307,4307 信号処理部
1805,3309,4309 記憶部
2101,4001 擬音切替判定部
2103,2903,4003,4503 話速変換部
2105,2901,4005,4501 ピッチ調節部
2107,4007 オーディオ信号出力制御部
3303,4303 コンテンツ管理部
3305,4305 コンテンツ記憶部

Claims (26)

  1. 入力された再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節部と、
    前記第2のパラメータおよび前記第3のパラメータに基づいて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理部と、
    を備え、
    前記信号処理部は、前記入力された再生倍率が所定の閾値未満であった場合には、前記オーディオ信号の話速を調節し、前記入力された再生倍率が所定の閾値以上であった場合には、前記オーディオ信号の話速および音の高さを調節する
    ことを特徴とする、情報処理装置。
  2. 前記信号処理部は、
    前記オーディオ信号の再生速度である話速を変換する話速変換部と、
    前記オーディオ信号の音の高さであるピッチを調節するピッチ調節部と、
    を更に備え、
    前記話速変換部は、前記第2のパラメータに基づき前記オーディオ信号の話速を変換し、
    前記ピッチ調節部は、前記第3のパラメータに基づき前記オーディオ信号のピッチを調節する
    ことを特徴とする、請求項1に記載の情報処理装置。
  3. 前記第1のパラメータは、前記第2のパラメータと前記第3のパラメータとの積に等しいことを特徴とする、請求項1に記載の情報処理装置。
  4. 前記信号処理部は、
    当該信号処理部から出力される所定の信号処理が施されたオーディオ信号の出力制御を行うオーディオ信号出力制御部を更に備え、
    前記オーディオ信号出力制御部は、
    話速および音の高さの双方が調節されたオーディオ信号が前記信号処理部から出力される場合に、前記話速および音の高さの双方が調節されたオーディオ信号の音量を小さくする
    ことを特徴とする、請求項1に記載の情報処理装置。
  5. 前記信号処理部は、
    前記第1のパラメータに応じて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する処理を行うか、高速再生していることを表す所定の擬音へと前記オーディオ信号を切り替えるか、を判定する擬音切替判定部を更に備え、
    前記擬音切替判定部は、
    前記第1のパラメータが所定の閾値以上であった場合に、前記オーディオ信号を前記所定の擬音に切り替える旨を判定し、
    前記オーディオ信号出力制御部は、
    前記擬音切替判定部から前記オーディオ信号を前記所定の擬音に切り替える旨の判定結果が伝送された場合に、前記オーディオ信号を前記所定の擬音に切り替えて出力する
    ことを特徴とする、請求項1に記載の情報処理装置。
  6. 前記情報処理装置は、
    前記オーディオ信号を含むコンテンツを管理するコンテンツ管理部を更に備え、
    前記パラメータ調節部は、
    入力された前記第1のパラメータに応じて、前記コンテンツ管理部から前記信号処理部へと出力される前記オーディオ信号のデータ量を調節する第4のパラメータを決定する
    ことを特徴とする、請求項1に記載の情報処理装置。
  7. 前記パラメータ調節部は、
    前記第1のパラメータが所定の閾値以上であった場合に、前記第4のパラメータを減少させ、前記コンテンツ管理部から前記信号処理部へと出力される前記コンテンツのデータ量を減少させる
    ことを特徴とする、請求項6に記載の情報処理装置。
  8. 前記第1のパラメータと前記第4のパラメータとの積は、前記第2のパラメータと前記第3のパラメータとの積に等しいことを特徴とする、請求項6に記載の情報処理装置。
  9. 前記情報処理装置は、
    前記オーディオ信号を含むコンテンツを管理するコンテンツ管理部を更に備え、
    前記パラメータ調節部は、
    前記コンテンツ管理部から伝送される、当該コンテンツ管理部から前記信号処理部へと出力される前記オーディオ信号のデータ量を調節する第4のパラメータと、入力される前記第1のパラメータとに基づいて、前記第2のパラメータおよび前記第3のパラメータを決定する
    ことを特徴とする、請求項1に記載の情報処理装置。
  10. 前記コンテンツ管理部は、
    前記第1のパラメータが所定の閾値以上であった場合に、前記第4のパラメータを減少させ、前記コンテンツ管理部から前記信号処理部へと出力される前記コンテンツのデータ量を減少させる
    ことを特徴とする、請求項9に記載の情報処理装置。
  11. 前記第1のパラメータと前記第4のパラメータとの積は、前記第2のパラメータと前記第3のパラメータとの積に等しいことを特徴とする、請求項9に記載の情報処理装置。
  12. 前記情報処理装置は、
    入力される前記第1のパラメータと、前記第2のパラメータおよび前記第3のパラメータとが互いに関連づけられたデータベースが記録された記憶部を更に備え、
    前記パラメータ調節部は、前記記憶部に記録された前記データベースを参照して、前記第2のパラメータおよび前記第3のパラメータを決定する
    ことを特徴とする、請求項1に記載の情報処理装置。
  13. 前記第1のパラメータが所定の閾値以上であった場合に、
    前記パラメータ調節部は、前記第1のパラメータと前記所定の閾値との差に応じて、前記第2のパラメータを増加させる
    ことを特徴とする、請求項12に記載の情報処理装置。
  14. 前記データベースは、前記第1のパラメータに応じた前記第2のパラメータおよび前記第3のパラメータの変化量を表す曲線として記録されており、
    前記所定の閾値の前後において、前記第3のパラメータの変化量を表す曲線は、滑らかな形状を有する
    ことを特徴とする、請求項12に記載の情報処理装置。
  15. 前記情報処理装置は、
    入力される前記第1のパラメータと、前記第2のパラメータ、前記第3のパラメータおよび前記第4のパラメータとが互いに関連づけられたデータベースが記録された記憶部を更に備え、
    前記パラメータ調節部は、前記記憶部に記録された前記データベースを参照して、前記第2のパラメータ、前記第3のパラメータおよび前記第4のパラメータを決定する
    ことを特徴とする、請求項6に記載の情報処理装置。
  16. 前記第1のパラメータが所定の閾値以上であった場合に、
    前記パラメータ調節部は、前記第1のパラメータと前記所定の閾値との差に応じて、前記第2のパラメータを増加させる
    ことを特徴とする、請求項1に記載の情報処理装置。
  17. 入力された再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節ステップと、
    前記第2のパラメータおよび前記第3のパラメータに基づいて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理ステップと、
    を含み、
    前記信号処理ステップでは、前記入力された再生倍率が所定の閾値未満であった場合には、前記第2のパラメータに基づいて前記オーディオ信号の話速を調節し、前記入力された再生倍率が所定の閾値以上であった場合には、前記第2のパラメータおよび前記第3のパラメータに基づいて前記オーディオ信号の話速および音の高さを調節する
    ことを特徴とする、情報処理方法。
  18. 前記パラメータ調節ステップでは、
    第1のパラメータが、前記第2のパラメータと前記第3のパラメータとの積に等しくなるように、前記第2のパラメータおよび前記第3のパラメータが決定される
    ことを特徴とする、請求項17に記載の情報処理方法。
  19. 前記信号処理ステップでは、
    前記オーディオ信号の話速および音の高さの双方を調節した場合に、前記オーディオ信号の音量が小さくなるように、前記オーディオ信号の信号波形の振幅を制御する
    ことを特徴とする、請求項17に記載の情報処理方法。
  20. 前記信号処理ステップでは、
    前記第1のパラメータが所定の閾値以上であった場合に、前記オーディオ信号を、高速再生していることを表す所定の擬音へと切り替える
    ことを特徴とする、請求項17に記載の情報処理方法。
  21. 前記パラメータ調節ステップでは、
    前記第1のパラメータに応じて、前記信号処理ステップにて処理される前記オーディオ信号のデータ量を調節する第4のパラメータを更に決定する
    ことを特徴とする、請求項17に記載の情報処理方法。
  22. 前記パラメータ調節ステップでは、
    前記第1のパラメータと前記第4のパラメータとの積が、前記第2のパラメータと前記第3のパラメータとの積に等しくなるように、前記第2のパラメータ、前記第3のパラメータおよび前記第4のパラメータが決定される
    ことを特徴とする、請求項21に記載の情報処理方法。
  23. 前記パラメータ調節ステップでは、
    前記第1のパラメータが所定の閾値以上であった場合に、前記第4のパラメータを減少させ、前記オーディオ信号のデータ量を減少させる
    ことを特徴とする、請求項21に記載の情報処理方法。
  24. 前記パラメータ調節ステップでは、
    前記信号処理ステップにて処理される前記オーディオ信号のデータ量を調節する第4のパラメータと、前記第1のパラメータに応じて、前記第2のパラメータおよび前記第3のパラメータを決定する
    ことを特徴とする、請求項17に記載の情報処理方法。
  25. 前記パラメータ調節ステップでは、
    前記第1のパラメータと前記第4のパラメータとの積が、前記第2のパラメータと前記第3のパラメータとの積に等しくなるように、前記第2のパラメータおよび前記第3のパラメータが決定される
    ことを特徴とする、請求項24に記載の情報処理方法。
  26. 入力された前記再生倍率を表す第1のパラメータに応じて、第2のパラメータおよび第3のパラメータを設定するパラメータ調節機能と、
    前記第2のパラメータおよび前記第3のパラメータに基づいて、前記オーディオ信号の話速および前記オーディオ信号の音の高さの少なくともいずれか一方を調節する信号処理機能と、
    をコンピュータに実現させるためのプログラム。
JP2007241681A 2007-09-19 2007-09-19 情報処理装置、情報処理方法およびプログラム Expired - Fee Related JP4952469B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007241681A JP4952469B2 (ja) 2007-09-19 2007-09-19 情報処理装置、情報処理方法およびプログラム
US12/283,835 US8457322B2 (en) 2007-09-19 2008-09-16 Information processing apparatus, information processing method, and program
CN2008101747350A CN101393745B (zh) 2007-09-19 2008-09-19 音频信号处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007241681A JP4952469B2 (ja) 2007-09-19 2007-09-19 情報処理装置、情報処理方法およびプログラム

Publications (3)

Publication Number Publication Date
JP2009075177A true JP2009075177A (ja) 2009-04-09
JP2009075177A5 JP2009075177A5 (ja) 2010-04-15
JP4952469B2 JP4952469B2 (ja) 2012-06-13

Family

ID=40454473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007241681A Expired - Fee Related JP4952469B2 (ja) 2007-09-19 2007-09-19 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US8457322B2 (ja)
JP (1) JP4952469B2 (ja)
CN (1) CN101393745B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080155413A1 (en) * 2006-12-22 2008-06-26 Apple Inc. Modified Media Presentation During Scrubbing
US8943433B2 (en) 2006-12-22 2015-01-27 Apple Inc. Select drag and drop operations on video thumbnails across clip boundaries
US9959907B2 (en) 2006-12-22 2018-05-01 Apple Inc. Fast creation of video segments
CN110677730A (zh) * 2018-07-03 2020-01-10 微鲸科技有限公司 播放控制方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194417A (ja) * 2011-03-17 2012-10-11 Sony Corp 音声処理装置および方法、並びにプログラム
JP2012252036A (ja) * 2011-05-31 2012-12-20 Sony Corp 信号処理装置、信号処理方法、およびプログラム
JP6013951B2 (ja) * 2013-03-14 2016-10-25 本田技研工業株式会社 環境音検索装置、環境音検索方法
US20140338516A1 (en) * 2013-05-19 2014-11-20 Michael J. Andri State driven media playback rate augmentation and pitch maintenance
JP6953771B2 (ja) * 2017-04-11 2021-10-27 船井電機株式会社 再生装置
WO2019041186A1 (zh) * 2017-08-30 2019-03-07 深圳传音通讯有限公司 一种音频变声方法、智能设备及存储介质
JP6434106B1 (ja) * 2017-09-29 2018-12-05 株式会社ドワンゴ コンテンツ配信サーバ、端末装置、コンテンツ配信システム、コンテンツ配信方法、コンテンツ再生方法、コンテンツ配信プログラムおよびコンテンツ再生プログラム
JP7396029B2 (ja) * 2019-12-23 2023-12-12 ティアック株式会社 録音再生装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103704A (ja) * 1992-08-07 1994-04-15 Teac Corp ディジタルオーディオ再生装置
JPH06332500A (ja) * 1993-05-21 1994-12-02 Olympus Optical Co Ltd 可変速再生機能付音声再生装置
JPH08292790A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd ビデオテープレコーダ
JPH10214098A (ja) * 1997-01-31 1998-08-11 Sanyo Electric Co Ltd 音声変換玩具
JP2001296892A (ja) * 2000-04-11 2001-10-26 Pioneer Electronic Corp 再生装置
JP2003101959A (ja) * 2001-09-21 2003-04-04 Sanyo Electric Co Ltd 映像再生装置
JP2007101644A (ja) * 2005-09-30 2007-04-19 Victor Co Of Japan Ltd 音声再生装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2162697Y (zh) * 1993-01-03 1994-04-20 赵正敏 声音变速装置
JPH0896514A (ja) * 1994-07-28 1996-04-12 Sony Corp オーディオ信号処理装置
KR0129829B1 (ko) * 1994-09-28 1998-04-17 오영환 음향 변속 재생장치
KR100230102B1 (ko) * 1996-12-11 1999-11-15 구자홍 볼륨레벨에 따른 음성조정방법
JPH10187188A (ja) * 1996-12-27 1998-07-14 Shinano Kenshi Co Ltd 音声再生方法と音声再生装置
JP3465628B2 (ja) * 1999-05-06 2003-11-10 ヤマハ株式会社 オーディオ信号の時間軸圧伸方法及び装置
JP3546755B2 (ja) 1999-05-06 2004-07-28 ヤマハ株式会社 リズム音源信号の時間軸圧伸方法及び装置
US7233832B2 (en) * 2003-04-04 2007-06-19 Apple Inc. Method and apparatus for expanding audio data
US7189913B2 (en) * 2003-04-04 2007-03-13 Apple Computer, Inc. Method and apparatus for time compression and expansion of audio data with dynamic tempo change during playback
US7825319B2 (en) * 2005-10-06 2010-11-02 Pacing Technologies Llc System and method for pacing repetitive motion activities
US20080131075A1 (en) * 2006-12-01 2008-06-05 The Directv Group, Inc. Trick play dvr with audio pitch correction
US8312492B2 (en) * 2007-03-19 2012-11-13 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103704A (ja) * 1992-08-07 1994-04-15 Teac Corp ディジタルオーディオ再生装置
JPH06332500A (ja) * 1993-05-21 1994-12-02 Olympus Optical Co Ltd 可変速再生機能付音声再生装置
JPH08292790A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd ビデオテープレコーダ
JPH10214098A (ja) * 1997-01-31 1998-08-11 Sanyo Electric Co Ltd 音声変換玩具
JP2001296892A (ja) * 2000-04-11 2001-10-26 Pioneer Electronic Corp 再生装置
JP2003101959A (ja) * 2001-09-21 2003-04-04 Sanyo Electric Co Ltd 映像再生装置
JP2007101644A (ja) * 2005-09-30 2007-04-19 Victor Co Of Japan Ltd 音声再生装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080155413A1 (en) * 2006-12-22 2008-06-26 Apple Inc. Modified Media Presentation During Scrubbing
US8943433B2 (en) 2006-12-22 2015-01-27 Apple Inc. Select drag and drop operations on video thumbnails across clip boundaries
US8943410B2 (en) * 2006-12-22 2015-01-27 Apple Inc. Modified media presentation during scrubbing
US9280262B2 (en) 2006-12-22 2016-03-08 Apple Inc. Select drag and drop operations on video thumbnails across clip boundaries
US9335892B2 (en) 2006-12-22 2016-05-10 Apple Inc. Select drag and drop operations on video thumbnails across clip boundaries
US9830063B2 (en) 2006-12-22 2017-11-28 Apple Inc. Modified media presentation during scrubbing
US9959907B2 (en) 2006-12-22 2018-05-01 Apple Inc. Fast creation of video segments
CN110677730A (zh) * 2018-07-03 2020-01-10 微鲸科技有限公司 播放控制方法及装置

Also Published As

Publication number Publication date
US8457322B2 (en) 2013-06-04
CN101393745A (zh) 2009-03-25
CN101393745B (zh) 2012-03-14
US20090074204A1 (en) 2009-03-19
JP4952469B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
JP4952469B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4084990B2 (ja) エンコード装置、デコード装置、エンコード方法およびデコード方法
US20150078562A1 (en) Playing audio in trick-modes
JP2007528087A (ja) 異なるデータフォーマットを格納する記憶装置
TW200304123A (en) Audio frequency scaling during video trick modes utilizing digital signal processing
TWI223231B (en) Digital audio with parameters for real-time time scaling
JP2006153907A (ja) 音声データエンコード装置および音声データデコード装置
JP4256332B2 (ja) 音声データエンコード装置および音声データデコード装置
WO2002058053A1 (en) Encoding method and decoding method for digital voice data
JP4649901B2 (ja) 曲の符号化伝送のための方法および装置
JP4191221B2 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
JP4736331B2 (ja) 音響信号の再生装置
JPH0854895A (ja) 再生装置
JP4985152B2 (ja) 情報処理装置、信号処理方法およびプログラム
JPH0573089A (ja) 音声再生方法
JP4765460B2 (ja) 音声符号化装置および音声符号化方法
JP4254960B2 (ja) 音声データエンコード装置および音声データ再生装置
JP4529859B2 (ja) 音声再生装置
JP2000347697A (ja) 音声記録再生装置および記録媒体
JP2006079742A (ja) 情報処理装置および方法、並びにプログラム
JP2002100120A (ja) 音楽データの曲間制御方法、情報処理装置及び音楽データの曲間制御プログラム
JP4433954B2 (ja) 情報処理装置および方法、並びにプログラム
JP2009181044A (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP2007042184A (ja) 圧縮音楽情報再生装置
JP2002268687A (ja) 情報量変換装置及び情報量変換方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees