JP2008099046A - 音声再生装置 - Google Patents

音声再生装置 Download PDF

Info

Publication number
JP2008099046A
JP2008099046A JP2006279374A JP2006279374A JP2008099046A JP 2008099046 A JP2008099046 A JP 2008099046A JP 2006279374 A JP2006279374 A JP 2006279374A JP 2006279374 A JP2006279374 A JP 2006279374A JP 2008099046 A JP2008099046 A JP 2008099046A
Authority
JP
Japan
Prior art keywords
audio data
data
buffer
unit
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006279374A
Other languages
English (en)
Inventor
Tatsuo Koga
達雄 古賀
Tomoji Yamamoto
友二 山本
Ryosuke Otsuki
良輔 大槻
Satoru Matsumoto
悟 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2006279374A priority Critical patent/JP2008099046A/ja
Publication of JP2008099046A publication Critical patent/JP2008099046A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Noise Elimination (AREA)

Abstract

【課題】 コンテンツ・ストリームが途切れても、音声出力の途切れによる違和感を軽減する音声再生装置を提供する。
【解決手段】 音声再生装置は、音声データの入力を監視するデータ入力監視部と、前記音声データを一時保持するバッファと、前記音声データを再生する再生部と、前記バッファに保持された音声データを読み出して前記再生部に出力するバッファ制御部と、前記バッファに保持された音声データの中から無音部分の音声データを検出する無音検出部とを備え、前記データ入力監視部が音声データの入力の途切れを検出したとき、前記無音検出部は、前記バッファに保持された音声データの中から無音部分の音声データを検出し、前記バッファ制御部は、検出された前記無音部分の音声データおよびこれに連続する音声データを、前記再生部に出力しない。
【選択図】 図1

Description

本発明は、本発明は、ネットワークから音声ストリームを入力し、再生・出力する装置に関するものである。
近年、インターネット等のネットワークを介して、コンテンツの視聴が普及している。ネットワークを介した視聴では、インターネットのような帯域の保証されていないネットワークを用いるために、ネットワーク・トラフィック等の問題等により、コンテンツ・ストリーム受信が途切れることがある。
コンテンツ・ストリームの受信の途切れは、続くデコード処理等に遅延を生じさせるため、コンテンツの再生を途切れさせることになり、視聴者に違和感を与えることになる。例えば、ニュースなどの話し言葉を再生するようなコンテンツの場合、そのコンテンツ・ストリームの受信(入力)の途切れは、コンテンツの内容に関わらず発生するため、そのデコード出力となる再生音声は、コンテンツの内容に関わらず途切れを発生させる可能性がある。
以下の特許文献1には、コンテンツ・ストリームの入力の途切れをデコーダのバッファの蓄積量、例えば、バッファ・アンダーフローによって判断し、コンテンツ・ストリームの入力の途切れを検出したとき、予め記録していた受信中のコンテンツと同じジャンルのストリームを、入力が途切れたコンテンツに代わって再生する技術が開示されている。

特開2002-142209号公報
しかしながら、従来技術では、コンテンツ・ストリームの入力が途切れたとき、同じジャンルのコンテンツを代替して再生し、音声の途切れを解消させるが、元のコンテンツと異なるための違和感は解消されず、特に、会話やニュースなどの話し言葉からなるコンテンツの途切れは、会話の流れだけでなく、意味理解をスムーズに進めなくさせる。
そこで、本発明の課題は、コンテンツ・ストリームの入力が途切れても、音声出力の途切れによる違和感を軽減する音声再生装置を提供することである。
上記課題に鑑み、本発明はそれぞれ以下の特徴を有する。

請求項1の発明は、音声再生装置であって、音声データの入力を監視するデータ入力監視部と、前記音声データを一時保持するバッファと、前記音声データを再生する再生部と、前記バッファに保持された音声データを読み出して前記再生部に出力するバッファ制御部と、前記バッファに保持された音声データの中から無音部分の音声データを検出する無音検出部とを備え、前記データ入力監視部が音声データの入力の途切れを検出したとき、前記無音検出部は、前記バッファに保持された音声データの中から無音部分の音声データを検出し、前記バッファ制御部は、検出された前記無音部分の音声データおよびこれに連続する音声データを、前記再生部に出力しないことを特徴とする。
この特徴により、バッファ内の無音部分の音声データを検出し、その無音部分で音声出力を停止させるため、有音部分での音声出力の停止と比較し、違和感を軽減することができる。特に、音声データが会話等である場合、一つの単語中での途切れることが避けられるため、意味理解をスムーズに行うことができる。

請求項2の発明は、請求項1に記載の音声再生装置であって、前記バッファ制御部が、前記検出された前記無音部分の音声データおよびこれに連続する音声データを、前記再生部に出力していないとき、前記データ入力監視部が音声データの入力の途切れの解消を検出したとき、前記検出された前記無音部分の音声データより前記再生部に出力を再開することを特徴とする。
この特徴により、データの入力が再開されたとき、前記停止した無音部分の音声データから自動的に前記再生部への出力を再開することができる。

請求項3の発明は、音声再生装置であって、入力された音声データを一時保持するバッファと、前記音声データを再生する再生部と、前記バッファに保持された音声データを読み出して前記再生部に出力するバッファ制御部と、前記バッファに保持された音声データの中から無音部分の音声データを検出する無音検出部とを備え、前記無音検出部は、前記バッファに保持された音声データの中から無音部分の音声データを検出し、前記バッファ制御部は、前記無音検出部が検出した無音データの前記再生部への出力を所定時間、遅延させることを特徴とする。
この特徴により、音声データ中の無音部分の再生を遅延させることにより、バッファへのデータの蓄積を促進させることができる。特に、データの入力直後は、バッファに所定量のデータが溜まるまで音声出力しないため、操作指示に対する再生のレスポンスが悪くなるが、上記特徴により、データ入力直後のバッファにデータがあまり溜まっていない状態でも音声出力を開始することができる。また、データの出力レートを入力レートより低くすることができるため、バッファの蓄積データ量を常に高く保つことができ、バッファ内の無音部分のデータの存在確率を高めることができる。

請求項4の発明は、請求項1ないし3に記載の音声再生装置であって、前記無音検出部は、前記バッファに保持された音声データから出力パワー値を算出し、この算出した出力パワー値に基づいて、無音部分を検出することを特徴とする。
この特徴により、バッファに保持された音声データの出力パワー値を算出し、これと閾値とを比較するといった簡単な方法によって、無音部分を検出することができる。

本発明の特徴ないしその技術的意義は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも、本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義等は、以下の実施の形態に記載されたものに制限されるものではない。
本発明によれば、コンテンツ・ストリームが途切れても、音声出力の途切れによる違和感を軽減することができる。
本発明の実施の形態について、図を参照しながら以下に説明する。

(実施例1)
図1は、実施の形態に係る音声再生装置10の構成を示すブロック図である。

音声再生装置10は、データ入力部11、デコーダ12、バッファメモリ13、D/A(DAコンバータ)14、スピーカ15、データ入力モニタ16、バッファメモリ制御部17、無音検出部18、主制御部(図示しない)を備える。

データ入力部11は、インターネット等との接続のためのインタフェースを備え、ネットワークより、コンテンツ・ストリーム等のデータを受信する。
デコーダ12は、符号化されたオーディオ圧縮データをデコードし、オーディオ信号に復号する。デコーダ12は、内部にデコーダ用バッファを備える。
バッファメモリ13は、デコーダ12で復号されたオーディオ信号を一時的に蓄積するメモリである。本実施形態では、バッファメモリ13はFIFOに用いられ、バッファメモリ制御部17によって、D/A14への出力が制御される。このバッファメモリ13は、数秒分(一例として、5秒程度のオーディオデータ約5Mビット分)のオーディオデータを保持するための容量を備える。
D/A14は、デジタルのデータをアナログに変換する。本実施形態では、デジタル形式のオーディオデータをアナログ形式のオーディオデータに変換する。
スピーカ15は、アナログ形式のオーディオデータを音声として出力する。
データ入力モニタ16は、データ入力部11へのデータ入力を監視し、データ入力の途切れを検出する。検出したデータ入力の途切れは、バッファメモリ制御部17に通知される。
バッファメモリ制御部17は、バッファメモリ13のデータ量を監視する。特にコンテンツ・ストリームの再生開始時や停止後の再開時には、所定のデータ量の蓄積を検知し、バッファメモリ13のD/A14への出力を開始させる。また、無音検出部18の出力である、バッファメモリ13に蓄積されているオーディオデータの無音部分の位置情報と、データ入力モニタ16からのデータ入力の途切れ発生の通知に基づき、バッファメモリ13のD/A14への出力一時停止を決定する。バッファメモリ13に蓄積されているオーディオデータのD/A14への出力一時停止後、データ入力が再開され、バッファメモリ13への所定のデータ量の蓄積を検知したとき、オーディオデータのD/A14への出力を再開する。

無音検出部18は、バッファメモリ13に蓄積された、復号オーディオデータを解析し、無音部分を検出する。具体的には、図3に示すように、音声波形データをサンプリング周期毎に2乗してパワー値に変換する。パワー値が閾値以下の状態が一定時間継続した場合、無音部分と判断する。
無音検出部18は、検出した無音部分の開始位置、すなわち、無音のオーディオデータのバッファメモリ13におけるアドレスを求め、内部のメモリに保持する。

主制御部(図示しない)は、音声再生装置10の各機能部を統括的に制御する。ユーザの音声再生装置10への操作指示を受け、音声再生装置10の動作を制御する。

図2は、音声再生装置10における再生処理を概略的に示すフローチャートである。
主制御部がユーザのコンテンツ・データの再生指示を検出すると、本図に示す再生処理を開始する。
データ入力部11が、インタフェースを介してインターネットからコンテンツ・データの入力を開始する(ステップS100)とともに、デコーダ12が、デコード処理を開始する(ステップS101)。デコードされたデータは、バッファメモリ13に出力される。
バッファメモリ制御部17は、バッファメモリ13を監視し、所定のデータ量(例えば、5Mbit(5秒分))のデータが蓄積されたか判断する(ステップS102)。ステップS102において、バッファメモリ13に所定のデータ量が蓄積されていないとき(ステップS102 No)、バッファメモリ13に所定のデータ量が蓄積するまで、デコーダ12からの出力を待つ。
ステップS102において、バッファメモリ13に所定のデータ量が蓄積されていると判断されたとき(ステップS102 Yes)、バッファメモリ13からD/A14への出力を開始する(ステップS103)。
続いて、バッファメモリ13からD/A14への出力の転送制御処理を行う(ステップS104)。
この転送制御処理は、ユーザによるコンテンツ・データの再生停止処理の指示があるまで、あるいは、コンテンツ・データが最後まで再生終了されるまで、データ入力部11にコンテンツ・データが入力される間、繰り返し実行される(ステップS105 No)。
ユーザによるコンテンツ・データの再生停止処理の指示がなされたとき、あるいは、コンテンツ・データが最後まで再生終了されたとき(ステップS105 Yes)、本処理を終了する。

次に、ステップS104における、バッファメモリ13からD/A14への出力の転送制御処理について説明する。

データ入力モニタ16は、データ入力部11を監視し、コンテンツ・データの入力の途切れを検出する(ステップS110)。コンテンツ・データの入力の途切れが検出されないとき(ステップS110 No)、本処理を終了する。
一方、コンテンツ・データの入力の途切れが検出されたとき(ステップS110 Yes)、無音検出部18は、バッファメモリ13中の復号オーディオデータを解析し、無音部分を検出する(ステップS111)。
バッファメモリ制御部17は、検出した無音部分を出力する直前で、D/A14への出力を一時停止させる(ステップS112)。
次に、データ入力モニタ16は、データ入力部11を監視し、コンテンツ・データの入力の再開を検出する(ステップS113)。
コンテンツ・データの入力の再開が検出されないとき(ステップS113 No)、コンテンツ・データの入力の再開を待つ。
一方、コンテンツ・データの入力の再開が検出されたとき(ステップS113 Yes)、データ入力モニタ16は、コンテンツ・データの入力が再開されたことをバッファメモリ制御部17に通知する。
バッファメモリ制御部17は、バッファメモリ13を監視し、所定のデータ量(例えば、5Mbit(5秒分))のデータが蓄積されたか判断する(ステップS114)。ステップS114において、バッファメモリ13に所定のデータ量が蓄積されていないとき(ステップS114 No)、バッファメモリ13に所定のデータ量が蓄積するまで、デコーダ12からの出力を待つ。
ステップS114において、バッファメモリ13に所定のデータ量が蓄積されていると判断されたとき(ステップS114 Yes)、バッファメモリ13からD/A14への出力を再開し(ステップS115)、本処理を終了する。

なお、上記実施形態において、バッファメモリ13のデータ蓄積量を、所定のデータ量と比較し、バッファメモリ13からD/A14への転送動作の制御を行うが、ステップS102における所定のデータ量を小さく(例えば、0.5Mbit(0.5秒)分)すると、コンテンツ・データの受信開始から出力までの時間を短くすることができる。
また、ステップS114において、所定のデータ量を小さくすると、バッファメモリ13に蓄積されたデータ中に無音部分がある確立が低くなるため、ある程度の大きさ(例えば、0.5Mbit(0.5秒)分)を所定データ量として設定することにより、バッファメモリ13に蓄積されたデータ中の無音部分である確立を高め、コンテンツ・データの入力の途切れに対応し易くなる。

上記実施形態によれば、コンテンツ・データの再生において、無音部分の再生(データ出力)を、コンテンツ・データをバッファリングするための時間分、遅らせることによって、コンテンツ・データの入力の途切れによる、再生データの途切れを防ぐことができ、また、コンテンツ・データを予めバッファリングするための大容量のバッファメモリを備える必要がない。

以上、本発明に係る実施の形態について説明したが、本発明は、かかる実施の形態に限定されるものではなく、他に種々の変更が可能であることは言うまでもない。

上記実施形態では、コンテンツ・データの入力の途切れを検出したとき、無音部分のデータのD/A14への出力を一旦停止し、コンテンツ・データの入力の再開が確認されると、無音部分のD/A14への出力を再開する構成としたが、コンテンツ・データの入力の途切れに関わらず、バッファメモリ13に蓄積された無音部分のデータについては、その出力を一旦停止し、所定時間Tの経過後、その出力を再開するように構成してもよい。
このとき、所定時間Tを小さくする(例えば、0.1秒)と、ユーザに違和感を与えることなく再生を継続することができる。一方、所定時間Tが大きくすると、再生される音声のうち、無音部分がやや長くなるものの、次のステップS114でのバッファメモリ13の所定のデータ量のデータ蓄積を検出することができる。
例えば、無音部分のD/A14への出力をT=0.1秒間、停止する毎に、バッファメモリ13には0.1Mbitずつデータが蓄積される。即ち、例えば、これを45箇所の無音部分のデータに対応して45回繰り返すと、バッファメモリ13のデータ量は出力開始時の0.5秒分のデータ0.5Mbitに、45回分の無音部分に対応する0.1Mbitx45=4.5Mbitが加わり、合計5Mbitのデータが蓄積されることを意味する。

また、特に朗読や映画等で人物が話す場合には、息継ぎや、文章間での間(1秒程度)が生じることがあり、これらを考慮すると区切りとして判断できる無音声の時間は、例えば、2秒以上とすることもできる。

また、映画等で人物が話す場合には、周囲の雑音(例えば、映画等で、背景音となる電車の音も音声(人物の話し声)から見れば雑音)の影響も考慮する必要があるため、数秒間の音響サンプルのパワーの平均値を求め、その平均値の変動に応じて、閾値を動的に設定することもできる(例えば、平均値の1/2とする)。また、周囲の雑音を拾う電話音声の場合も同様にすることができる。
また、定常雑音の音響特性を音響入力から差し引くような雑音除去方法も知られており、これを用いて閾値の値を一定とすることもできる。

本発明の実施の形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜種々の変更が可能である。
本発明の実施形態に係る音声再生装置の構成を示すブロック図である。 本発明の実施形態に係る再生処理を概略的に示すフローチャートである。 無音検出処理を説明する図である。
符号の説明
10 音声再生装置
11 データ入力部
12 デコーダ
13 バッファメモリ
14 D/A
15 スピーカ
16 データ入力モニタ
17 バッファメモリ制御部
18 無音検出部

Claims (4)

  1. 音声データの入力を監視するデータ入力監視部と、
    前記音声データを一時保持するバッファと、
    前記音声データを再生する再生部と、
    前記バッファに保持された音声データを読み出して前記再生部に出力するバッファ制御部と、
    前記バッファに保持された音声データの中から無音部分の音声データを検出する無音検出部とを備え、
    前記データ入力監視部が音声データの入力の途切れを検出したとき、前記無音検出部は、前記バッファに保持された音声データの中から無音部分の音声データを検出し、前記バッファ制御部は、検出された前記無音部分の音声データおよびこれに連続する音声データを、前記再生部に出力しないことを特徴とする音声再生装置。
  2. 前記バッファ制御部が、前記検出された前記無音部分の音声データおよびこれに連続する音声データを、前記再生部に出力していないとき、前記データ入力監視部が音声データの入力の途切れの解消を検出したとき、前記検出された前記無音部分の音声データより前記再生部に出力を再開する
    ことを特徴とする請求項1に記載の音声再生装置。
  3. 入力された音声データを一時保持するバッファと、
    前記音声データを再生する再生部と、
    前記バッファに保持された音声データを読み出して前記再生部に出力するバッファ制御部と、
    前記バッファに保持された音声データの中から無音部分の音声データを検出する無音検出部とを備え、
    前記無音検出部は、前記バッファに保持された音声データの中から無音部分の音声データを検出し、前記バッファ制御部は、前記無音検出部が検出した無音データの前記再生部への出力を所定時間、遅延させる
    ことを特徴とする音声再生装置。
  4. 前記無音検出部は、前記バッファに保持された音声データから出力パワー値を算出し、この算出した出力パワー値に基づいて、無音部分を検出する
    ことを特徴とする請求項1ないし3に記載の音声再生装置。
JP2006279374A 2006-10-13 2006-10-13 音声再生装置 Pending JP2008099046A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006279374A JP2008099046A (ja) 2006-10-13 2006-10-13 音声再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006279374A JP2008099046A (ja) 2006-10-13 2006-10-13 音声再生装置

Publications (1)

Publication Number Publication Date
JP2008099046A true JP2008099046A (ja) 2008-04-24

Family

ID=39381412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006279374A Pending JP2008099046A (ja) 2006-10-13 2006-10-13 音声再生装置

Country Status (1)

Country Link
JP (1) JP2008099046A (ja)

Similar Documents

Publication Publication Date Title
JP4630876B2 (ja) 話速変換方法及び話速変換装置
US8279884B1 (en) Integrated adaptive jitter buffer
KR20110065100A (ko) 멀티미디어 스트리밍 서비스를 지원하는 방법 및 장치
JP3211771B2 (ja) 音声送受信装置
JP2010164859A (ja) オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
JP2017216603A (ja) 電話装置
TW200807395A (en) Controlling a time-scaling of an audio signal
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
JP2008067258A (ja) ワイヤレスヘッドホンおよびワイヤレスヘッドホンシステム
JP2002330180A (ja) 受信装置及び受信再生方法
JP2008099046A (ja) 音声再生装置
JP4376165B2 (ja) 受信装置,クロック調整方法および放送システム
JP4561301B2 (ja) 音声の再生及び停止を制御する音声再生装置及びプログラム
TWI701922B (zh) 訊號處理裝置、及訊號處理方法、以及記錄程式之非暫時性電腦可讀取之記錄媒體
JP4959935B2 (ja) 復号装置
JP4117301B2 (ja) 音声データ補間装置と音声データ補間方法
JP2004266724A (ja) リアルタイム音声用バッファ制御装置
JP5691721B2 (ja) 音声データ処理装置
JP5213630B2 (ja) 映像信号再生装置
JP5451134B2 (ja) 通信処理装置
KR102422794B1 (ko) 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
JP2006134271A (ja) 再生装置
WO2006040827A1 (ja) 送信装置、受信装置、並びに再生装置
JP4373283B2 (ja) 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4534582B2 (ja) 音声ストリーム再生装置及び音声ストリーム再生方法