JP2012204876A - Reproduction device, reproduction method and program - Google Patents
Reproduction device, reproduction method and program Download PDFInfo
- Publication number
- JP2012204876A JP2012204876A JP2011064900A JP2011064900A JP2012204876A JP 2012204876 A JP2012204876 A JP 2012204876A JP 2011064900 A JP2011064900 A JP 2011064900A JP 2011064900 A JP2011064900 A JP 2011064900A JP 2012204876 A JP2012204876 A JP 2012204876A
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- importance
- voice
- reproduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、再生装置、再生方法およびプログラムに関する。 The present invention relates to a playback device, a playback method, and a program.
動画のコンテンツにおいては、映像と音声が別々の切り離された情報であるため、映像と音声との同期をとる必要がある。しかし、例えばフレームレートが30fpsのコンテンツで、1秒間あたり30枚と決まっている映像に対し、音声は連続したストリームであり、映像1枚ごとに対応して区切られた音声があるわけではない。また、映像と音声はそれぞれのデータ量に差がある。特に、映像データと音声データのデータ量が大きく違ってくる理由として、映像のデータ量は、高画質になるにしたがって飛躍的に大きくなること、同じ動画内であっても、画面の精細度によって一定時間あたりのデータ量が大きく変化することなどがある。これに対し、音声データ量は大きく変化しない。 In video content, since video and audio are separate pieces of information, it is necessary to synchronize video and audio. However, for example, for content with a frame rate of 30 fps and video that is determined to be 30 frames per second, the audio is a continuous stream, and there is no audio divided for each video. Also, there is a difference in the amount of data between video and audio. In particular, the reason for the large difference between the amount of video data and the amount of audio data is that the amount of video data increases dramatically as the image quality becomes higher. The amount of data per fixed time may change greatly. On the other hand, the amount of audio data does not change greatly.
このように、映像データはフレームなどによる区切りがあるのに対し、音声データが区切りのないデータであること、音声データと映像データは、データ量に差があること等が、映像と音声のずれの原因となる。しかし、映像と音声との同期をとることは人手によるところが大きく、必ずしも正確とはいえないため、ずれの少ない同期を実行することが課題である。 In this way, while video data is separated by frames, etc., audio data is not separated, and there is a difference in the amount of data between audio data and video data. Cause. However, since synchronization between video and audio is largely manual and not necessarily accurate, it is a problem to execute synchronization with little deviation.
このような課題に対応する例として、例えば、映像と音声とを別々のクロックで再生する再生装置がある。この再生装置では、動画データの再生に先立ち音声データを無音再生させ、その再生時間から音声データ用クロックと映像データ用クロックとの誤差を演算し、再生時のタイミングを調整する。また、映像データと音声データとの再生位置のずれを、音量レベルが特定値よりも低い区間の音声データの再生速度を変更することにより同期させる方法もある。さらに、音声データを一定時間周期で区切り、データを接続することにより再生速度を変更する例もある。再生速度の変更は、区切り位置近くの音声データの波形スタイルに応じて、切り出し開始および終了点を決めて波形を接続することにより行う。 As an example corresponding to such a problem, for example, there is a reproducing apparatus that reproduces video and audio with different clocks. In this reproducing apparatus, audio data is silently reproduced prior to reproduction of moving image data, an error between the audio data clock and the video data clock is calculated from the reproduction time, and the timing at the time of reproduction is adjusted. There is also a method of synchronizing the reproduction position deviation between the video data and the audio data by changing the reproduction speed of the audio data in the section where the volume level is lower than a specific value. Further, there is an example in which the playback speed is changed by dividing the audio data at a constant time period and connecting the data. The reproduction speed is changed by determining the start and end points of cutout and connecting the waveforms according to the waveform style of the audio data near the break position.
しかしながら、上記のように、単に映像と音声とを再生速度を変えることにより同期させる方法では、同期する瞬間に音声または映像あるいはその両方が途切れてしまうことがあり、視聴者に違和感や不快感をもたらす。また、他の処理の割り込み等があってリアルタイム処理ができない状態が継続し、映像と音声の同期がずれてしまった場合には、そのずれを修正することが難しい。すなわち処理能力の不足のため、再生映像がコマ落ちしてしまう、音声が途切れてしまう、ずれがある一定間隔のまま修正されない、など、視聴者に違和感、不快感を与える問題がある。 However, as described above, in the method of simply synchronizing video and audio by changing the playback speed, the audio and / or video may be interrupted at the moment of synchronization, causing the viewer to feel uncomfortable or uncomfortable. Bring. In addition, when there is an interruption of other processing and the state where real-time processing cannot be continued, and the video and audio are out of synchronization, it is difficult to correct the shift. That is, there is a problem that the viewer feels uncomfortable or uncomfortable, for example, the playback video drops, the sound is interrupted, or the deviation is not corrected at a certain interval due to insufficient processing capability.
そこで本発明は、違和感のない映像と音声との同期が可能な再生装置、再生方法を提供することを目的とする。 Accordingly, an object of the present invention is to provide a playback apparatus and a playback method that can synchronize video and audio without a sense of incongruity.
ひとつの態様である再生装置は、符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生装置である。この再生装置において、信号取得部は、前記ストリームを取得する。復号再生部は、取得した前記ストリームを分離して復号化することにより、映像データおよび音声データを生成し、第1のずれ判定時間における第1の映像および第1の音声を再生する。ずれ判定部は、前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定する。映像重要度算出部は、前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出する。音声重要度算出部は、前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する。自動補正部は、前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2の映像および前記第2の音声の再生を制御することを特徴としている。 A playback apparatus according to one aspect is a playback apparatus that acquires a stream including encoded video and audio and plays back the video and audio. In this playback apparatus, the signal acquisition unit acquires the stream. The decoding / playback unit generates video data and audio data by separating and decoding the acquired stream, and plays back the first video and the first audio at the first shift determination time. The deviation determination unit determines an amount of deviation at the time of reproduction between the first video and the first audio during the first deviation determination time. The video importance level calculation unit calculates a video importance level indicating a degree of complexity of the second video to be reproduced in a second shift determination time next to the first shift determination time. The voice importance level calculation unit calculates a voice importance level indicating a volume characteristic of the second voice reproduced at a second shift determination time next to the first shift determination time. The automatic correction unit reproduces the second video and the second audio so as to correct a deviation in reproduction between the video and the audio based on the video importance, the audio importance, and the shift amount. It is characterized by control.
別の態様である再生方法は、符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生方法である。この再生方法においては、前記ストリームを取得し、第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、前記第1のずれ判定時間における第1の映像と第1の音声との再生時のずれ量を判定する。また、前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する。この再生方法では、前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御することを特徴としている。 The reproduction method which is another aspect is a reproduction method for acquiring a stream including encoded video and audio and reproducing the video and audio. In this reproduction method, the stream is acquired, the first video and the first audio are reproduced based on the first deviation determination time and the stream, and the first video and the first audio at the first deviation judgment time are reproduced. A deviation amount at the time of reproduction with the sound of 1 is determined. In addition, a video importance level indicating a degree of complexity of the second video to be played back at the second shift determination time next to the first shift determination time is calculated, and played back at the second shift determination time. The voice importance indicating the volume characteristic of the second voice is calculated. In this reproduction method, the second video and the second video at the second deviation determination time so as to correct a deviation at the time of reproduction between the video and the audio based on the video importance, the audio importance, and the deviation amount. The reproduction of the second sound is controlled.
なお、上述した本発明に係る方法をコンピュータに行わせるためのプログラムであっても、このプログラムを当該コンピュータによって実行させることにより、上述した本発明に係る方法と同様の作用・効果を奏するので、前述した課題が解決される。 In addition, even if it is a program for causing a computer to perform the method according to the present invention described above, since the program is executed by the computer, the same operations and effects as the method according to the present invention described above are achieved. The aforementioned problems are solved.
上述した態様によれば、違和感のない映像と音声との同期が可能な再生装置、再生方法およびプログラムが提供される。 According to the above-described aspect, a playback device, a playback method, and a program that can synchronize video and audio without a sense of incongruity are provided.
以下、図面を参照して実施の形態を説明する。まず、図1および図2A、図2Bを参照しながら、一実施の形態による再生装置1の構成について説明する。図1は、本実施の形態による再生装置の構成を示すブロック図、図2A、図2Bは、本実施の形態による再生装置1の機能を示すブロック図である。本実施の形態による再生装置1は、ローカル環境において映像及び音声のコンテンツデータをデコードし再生する際に、音声および映像を同期させる機能を有する。再生装置1は、例えば、携帯情報端末(Personal Data Assistants:PDA)、パーソナルコンピュータ(Personal Computer:PC)、移動電話機などとして実現される。
Hereinafter, embodiments will be described with reference to the drawings. First, the configuration of the
図1に示すように、再生装置1は、入力再生部5、ずれ判定部7、音声重要度判定部9、映像重要度判定部11、比較評価部13、自動補正部15、記憶部35、タイマ37を有し、互いにシステムバス17で接続され、主制御部3により制御される。入力再生部5は、信号取得部19、分離部21、音声復号部23、音声再生部25、映像復号部27、映像再生部29を有している。自動補正部15は、音声操作部31、映像操作部33を有している。
As shown in FIG. 1, the
図1、図2A、図2Bに示すように信号取得部19は、符号化された映像データおよび符号化された音声データを含むストリーム53を取得する。分離部21は、信号取得部19で取得されたストリーム53を符号化された映像データの映像ストリーム57と符号化された音声データの音声ストリーム55とに分離する。
As illustrated in FIGS. 1, 2A, and 2B, the
音声復号部23は、音声ストリーム55を復号化しつつ、自動補正部15からの出力に応じた操作を行って、再生可能な音声データを生成する。音声再生部25は、自動補正部15からの再生開始箇所に関する情報と音声復号部23からの音声データとに基づき、音声を再生する。映像復号部27は、映像ストリーム57を復号化し、自動補正部15からの出力に応じた操作を行って、再生可能な映像データを生成する。映像再生部29は、自動補正部15からの再生開始箇所に関する情報と、映像復号部27からの映像データとに基づき映像を再生する。
The
ずれ判定部7は、音声再生部25で再生された音声と、映像再生部29で再生された映像とのずれ量を判定する。音声重要度判定部9は、音声復号部23で復号化された音声データに基づき音声重要度SLを算出する。映像重要度判定部11は、分離部21で分離された映像ストリーム57に基づき映像重要度ILを算出する。比較評価部13は、算出された音声重要度SLと映像重要度ILとを比較する。
The deviation determination unit 7 determines the amount of deviation between the audio reproduced by the
自動補正部15は、比較評価部13における比較結果に基づき、コンテンツデータの再生状態を自動的に補正する装置であり、音声操作部31においては音声データを操作し、映像操作部33においては映像データを操作する。音声操作部31においては、ずれ量および音声データに基づき、無音間引き操作61、無音補間操作63、または再生速度変更操作65の少なくとも一つが行われる。映像操作部33においては、ずれ量および映像データに基づき、フレーム間引き操作67、またはフレーム補間操作69が行われる。
The
記憶部35は、Ramdom Access Memory(RAM)、Read Only Memory(ROM)等であり、上記操作を行うためのプログラムや、映像ストリーム57、復号化された映像データ、音声ストリーム55、復号化された音声データなどを格納する。主制御部3は、再生装置1の動作を制御するための演算処理装置である。
The
以下、図3から図5を参照しながら、本実施の形態による再生装置1の動作を説明する。図3、図4A〜図4Cは、再生装置1の動作を示すフローチャートである。図3に示すように、信号取得部19が動画コンテンツ等の符号化された音声データおよび映像データを含むストリームを取得し、ストリームは、分離部21により映像ストリームと音声ストリームに分離される(S100)。主制御部3は、ずれ判定部7により、閾値Aの設定を行う(S101)。音声復号部23は、音声ストリーム55についてある程度のバッファ分デコードを行うが、このバッファ長が閾値Aとされ、例えば1秒とすることができる。
Hereinafter, the operation of the
続いて、主制御部3は、ずれ判定部7により、閾値Bを、閾値Aに対応する動画のフレーム数として算出する(S101)。すなわち、ずれ判定部7は、ストリーム53から、閾値Aの時間に対応するフレーム数を算出し、これを閾値Bとする。例えば、閾値A=1秒のとき、動画のフレームレートから閾値B=30フレームと算出される。
Subsequently, the
入力再生部5は、動画および音声の再生を開始するとともに、図示せぬ音声タイマ、動画カウンタを起動する(S102)。音声タイマは、計時機能を有し、音声の再生済みサンプル数を計数することにより、再生済みの音声の時間を計測する。すなわち、音声タイマの値は、再生済み音声サンプル数を音声のサンプリングレートで割ったものである。動画カウンタは、計数機能を有し、表示した映像のフレーム数を計数する。
The
入力再生部5は、動画を1フレーム再生する(S103)。すなわち、音声復号部23は、音声ストリーム55を復号化して音声データを作成し、音声再生部25は、音声データを再生する。また、映像復号部27は、映像ストリーム57を復号化し、映像データを作成し、映像再生部29は、動画を再生する。
The
ずれ判定部7は、1フレーム再生された時点で、これまで再生された映像のフレーム数を示す動画カウンタの値(動画カウンタ値ICt)と閾値Bとを比較する(S104)。ずれ判定部7は、動画カウンタ値ICtが閾値Bに満たないと判別すると(S104:Yes)、現在映像再生部29が再生しているフレームが、映像ストリームのGroup of Pictures(GOP)端か否か判定する(S107)。現在再生しているフレームがGOP端でない場合には(S107:No)、処理はS103に戻り、追加で1フレーム再生を行う。
The deviation determination unit 7 compares the value of the moving image counter (moving image counter value ICt) indicating the number of frames of the image reproduced so far with the threshold value B when one frame is reproduced (S104). When the deviation determination unit 7 determines that the moving image counter value ICt does not satisfy the threshold value B (S104: Yes), whether or not the frame currently being reproduced by the
現在再生している部分がGOP端である場合には(S107:Yes)、音声と映像とは、GOP長に含まれる数のフレームが再生された際のずれを判定されることになる。ここで、ずれを判定される区間をずれ判定区間JAということにする。ここでは、ずれ判定区間JA=GOP長となる。 When the currently reproduced portion is the GOP end (S107: Yes), the difference between the audio and the video when the number of frames included in the GOP length is reproduced is determined. Here, the section in which the shift is determined is referred to as a shift determination section JA. Here, the deviation determination section JA = GOP length.
動画カウンタ値ICtが閾値B以上のときであって(S104:No)、動画カウンタ値ICtが閾値Bであれば(S105:Yes)、主制御部3は、S108に処理を進める。このとき、ずれ判定区間JA=閾値Bとなる。動画カウンタ値ICtが閾値Bより大きければ(S105:No)、主制御部3はエラーを出力し(S106)、処理を終了する。
If the moving image counter value ICt is equal to or greater than the threshold value B (S104: No) and the moving image counter value ICt is the threshold value B (S105: Yes), the
続いて、ずれ判定部7は、音声タイマの値(音声タイマ値ST)と、再生済み映像フレームに閾値Aを掛けて閾値Bで割ったもの(再生済み映像フレームにあたる時間)との差を算出する。すなわち、ずれ判定部7は、ずれ量L1として、(音声タイマ値ST−閾値A×(動画カウンタ値ICt/閾値B))の値を算出する。ずれ判定部7は、算出した値が、所定のずれ許容時間AT未満か否かを判別する(S108)。所定のずれ許容時間ATは、例えば1/30秒とすることができる。 Subsequently, the deviation determination unit 7 calculates a difference between the value of the audio timer (audio timer value ST) and the value obtained by multiplying the reproduced video frame by the threshold A and dividing by the threshold B (time corresponding to the reproduced video frame). To do. That is, the deviation determination unit 7 calculates a value of (audio timer value ST−threshold value A × (moving image counter value ICt / threshold value B)) as the deviation amount L1. The deviation determination unit 7 determines whether or not the calculated value is less than the predetermined deviation allowable time AT (S108). The predetermined deviation allowable time AT can be set to 1/30 seconds, for example.
ずれ判定部7は、(音声タイマ値ST−閾値A×(動画カウンタ値ICt/閾値B))<(ずれ許容時間AT)(S108:Yes)のときには、同期が取れているためずれを修正する必要なしと判別する。ずれ判定部7は、このとき、閾値A=音声タイマ値ST、閾値B=動画カウンタ値ICtとした後、音声タイマ値ST=0、動画カウンタ値ICt=0とリセットし(S109)、S103に戻る。 The deviation determination unit 7 corrects the deviation because synchronization is established when (audio timer value ST−threshold A × (movie counter value ICt / threshold B)) <(deviation allowable time AT) (S108: Yes). Determine that it is not necessary. At this time, the deviation determination unit 7 resets the audio timer value ST = 0 and the moving image counter value ICt = 0 after setting the threshold A = the audio timer value ST and the threshold B = the moving image counter value ICt (S109). Return.
ずれ判定部7は、(音声タイマ値ST−閾値A×(動画カウンタ値ICt/閾値B)<(ずれ許容時間AT)でない場合には、同期が取れていないと判別し(S108:No)、主制御部3は、処理を図4Aのフローチャートの処理に進める。
The deviation determination unit 7 determines that synchronization is not established when (voice timer value ST−threshold A × (moving image counter value ICt / threshold B) <(deviation allowable time AT)) (S108: No). The
図4Aに示すように、主制御部3は、自動補正部15により、(ずれ時間L1)=(音声タイマ値ST―閾値A×(動画カウンタ値ICt/閾値B))と設定する(S131)。ずれ時間L1は、映像と音声のずれ時間を表し、再生済み音声時間から再生済み映像時間を引いた時間であり、音声が遅れているときは負の値、映像が遅れているときは正の値をとる。
As shown in FIG. 4A, the
主制御部3は、映像復号部23により、映像ストリーム57について次に再生する部分のGOP構造を判定し、Bi−directional Predicted Frame(Bフレーム)を含むか否か判別する(S131)。例えば、GOP構造が「Inter Video Bitrate Balance Profille:IBBP」であるか否か判別される。
The
Bフレームを含まない場合には(S132:No)、音声を優先して操作するため、自動補正部15は、処理を図4BのS135に進める。Bフレームを含む場合には(S132:Yes)、映像と音声のどちらを優先して操作する方が与える違和感が少ないかを、音声重要度SLおよび映像重要度ILをもとに判定する。
When the B frame is not included (S132: No), the
S133では、映像の重要さを示す映像重要度ILおよび音声の重要さを示す音声重要度SLを算出する。以下、S133の処理について説明する。映像重要度ILは、映像の複雑さを示す値として算出される。音声重要度SLは、音声の音量の特徴を示す値として算出される。 In S133, the video importance IL indicating the importance of the video and the audio importance SL indicating the importance of the audio are calculated. Hereinafter, the process of S133 will be described. The video importance IL is calculated as a value indicating the complexity of the video. The voice importance level SL is calculated as a value indicating the characteristics of the sound volume.
まず、映像重要度ILの算出方法について説明する。映像重要度判定部11は、映像のデコード処理を行う前に例えばH.264のパラメータ情報を解析し、(−1)×量子化係数(Quantization Parameter:QP)、デコード前のフレームあたりデータ量、動きベクトル総量の各パラメータを正規化した後加算することで、映像重要度ILを算出する。
First, a method for calculating the video importance IL will be described. The video importance
映像そのものを再生しながら映像を解析するのは処理負荷的に厳しいため、映像重要度ILは、映像を符号化した際に付加される量子化係数、フレーム(ピクチャ)サイズ、動きベクトル総量に基づき求める。ここで、量子化係数に基づく映像重要度を、量子化重要度IL1、フレームサイズに基づく映像重要度を、サイズ重要度IL2、動きベクトル総量に基づく映像重要度を、ベクトル重要度IL3とする。 Since it is difficult to analyze the video while reproducing the video itself, the video importance IL is based on the quantization coefficient added when the video is encoded, the frame (picture) size, and the total amount of motion vectors. Ask. Here, it is assumed that the video importance based on the quantization coefficient is the quantization importance IL1, the video importance based on the frame size is the size importance IL2, and the video importance based on the total motion vector is the vector importance IL3.
以下、量子化重要度IL1の算出方法について説明する。量子化重要度IL1は、エンコード時にマクロブロック(Macroblock:MB)毎に設定される量子化係数QPに基づいて算出される。量子化係数QPとは、映像データを圧縮する際に目標とするデータサイズになるように、映像の複雑さおよび劣化の解りにくさに応じて設定されるパラメータである。量子化係数QPは、各MBヘッダに直前MBの量子化係数QPとの差という形で設定されており、1ピクチャ当たり量子化値QPpは以下の式1により算出できる。
QPp=26+PIQM+Σ(SQD+(ΣMQD/Mb))/(NSGM+1)
・・・(式1)
Hereinafter, a method for calculating the quantization importance IL1 will be described. The quantization importance IL1 is calculated based on a quantization coefficient QP that is set for each macroblock (Macroblock: MB) during encoding. The quantization coefficient QP is a parameter that is set according to the complexity of the video and the difficulty of understanding the degradation so that the target data size is obtained when the video data is compressed. The quantization coefficient QP is set in the form of a difference from the quantization coefficient QP of the previous MB in each MB header, and the quantization value QPp per picture can be calculated by the
QPp = 26 + PIQM + Σ (SQD + (ΣMQD / Mb)) / (NSGM + 1)
... (Formula 1)
ここで、一つ目の「Σ」は、各ピクチャに含まれる全スライス分の和を示し、二つ目の「Σ」は各スライスに含まれる全マクロブロック分の和を示す。また、各変数は以下の通りである。 Here, the first “Σ” indicates the sum of all slices included in each picture, and the second “Σ” indicates the sum of all macroblocks included in each slice. Each variable is as follows.
式1において、PIQMは、pic_init_qp_minus26を示し、Picture Parameter Set(PPS)に定義される、QPの初期値を設定する値であり、実際の初期値から26引いた値が設定される。SQDは、slice_qp_deltaを示し、スライスヘッダに定義される値であり、スライス毎のQPの初期値を設定する値である。MQDは、mb_qp_deltaを示し、マクロブロック毎に定義される値であり、当該マクロブロックと、直前のマクロブロックの量子化パラメータQPの差分値である。Mbは、Macroblocksを示し、スライスヘッダに定義される値であり、スライスに含まれるマクロブロック数である。NSGMは、num_slice_groups_minus1を示し、PPSに定義される値であり、ピクチャに含まれるスライス数から1を減じた値を表す。
In
さらに、この1ピクチャ当たりの量子化値QPpを、ずれ判定区間JA分の数のピクチャについて足し合わせ、平均をとったものをピクチャ平均QPaとすると、
ピクチャ平均QPa=ΣQPp/ずれ判定区間JA ・・・(式2)
と表される。ここで「Σ」は、ずれ判定区間JAに含まれるピクチャ数(すなわち、GOP長または閾値B)分の和を示す。
Further, if the quantized value QPp per picture is added to the number of pictures corresponding to the shift determination section JA, and the average is taken as the picture average QPa,
Picture average QPa = ΣQPp / deviation determination section JA (Expression 2)
It is expressed. Here, “Σ” indicates the sum of the number of pictures (that is, GOP length or threshold value B) included in the shift determination section JA.
映像重要度判定部11は、量子化重要度IL1を式3のように算出する。すなわち、
量子化重要度IL1=102−(2×ピクチャ平均QPa) ・・・(式3)
とすることで、量子化重要度IL1は、1〜100の範囲の値に正規化される。
The video importance
Quantization importance IL1 = 102− (2 × picture average QPa) (Expression 3)
By so doing, the quantization importance IL1 is normalized to a value in the range of 1 to 100.
以下、サイズ重要度IL2の算出方法について説明する。サイズ重要度IL2は、映像の重要度算出のパラメータの一つとして、ピクチャのデータサイズに基づき算出される。ピクチャのデータサイズは、Network Abstraction Layer(NAL)のうちnal_unit_typeに応じて計測される。データサイズは、nal_unit_typeが「1」、すなわち、Instantenous Decoding Refresh(IDR)ピクチャの場合、または、「5」、すなわち、IDR以外のピクチャの場合、のもののバイナリサイズとして計測できる。これを、映像の大きさに対して正規化するため、ピクチャデータサイズはピクチャサイズ(1ピクチャの縦画素数×横画素数)で除される。さらに、映像重要度判定部11は、ずれ判定区間JAに含まれるピクチャデータサイズ合計を算出し、それを映像データ量DVとする。すなわち、
映像データ量DV=Σ(ピクチャデータサイズ/ピクチャサイズ) ・・・(式4)
Hereinafter, a method of calculating the size importance IL2 will be described. The size importance IL2 is calculated based on the data size of the picture as one of the parameters for calculating the importance of the video. The data size of the picture is measured according to nal_unit_type in the network abstraction layer (NAL). The data size can be measured as a binary size of nal_unit_type of “1”, that is, an Instantaneous Decoding Refresh (IDR) picture, or “5”, that is, a picture other than IDR. In order to normalize this with respect to the size of the video, the picture data size is divided by the picture size (the number of vertical pixels of one picture × the number of horizontal pixels). Further, the video importance
Video data amount DV = Σ (picture data size / picture size) (Formula 4)
ここで、「Σ」は、ずれ判定区間JAに含まれるピクチャ分の和を表す。さらに、映像重要度判定部11は、これまで再生した部分の映像データ量DVの平均を算出しておき、それを(平均サイズ)とすると、サイズ重要度IL2は以下の式5のように表される。
サイズ重要度IL2
=max(((映像データ量DV)/(平均サイズ))×50、100)・・(式5)
式5により、サイズ重要度IL2は、1〜100の範囲の値に正規化される。
Here, “Σ” represents the sum of pictures included in the shift determination section JA. Further, the video importance
Size importance IL2
= Max (((video data amount DV) / (average size)) × 50, 100) (Equation 5)
According to
以下、ピクチャの動きベクトル総量に基づくベクトル重要度IL3の算出方法について説明する。映像重要度判定部11は、ベクトル重要度IL3の算出において、まず動きベクトル総量をフレーム毎の全マクロブロックについて足し合わせ、1マクロブロックあたりの平均をとる。ベクトル重要度IL3は、1マクロブロックあたりの平均動きベクトル総量を例えば10倍し上限を100で抑える。ベクトル重要度IL3の例として、以下の式6が挙げられる。
ベクトル重要度IL3=max((Σ(各マクロブロックの動きベクトル長)
/ピクチャのマクロブロック数×10)、100) ・・(式6)
Hereinafter, a method of calculating the vector importance IL3 based on the total motion vector amount of the picture will be described. In calculating the vector importance level IL3, the video importance
Vector importance IL3 = max ((Σ (motion vector length of each macroblock)
/ Number of macroblocks of picture × 10), 100) (Equation 6)
ここで「Σ」は、1ピクチャ内のマクロブロック数分の和を表す。式6により、ベクトル重要度IL3は、1〜100の範囲の値に正規化される。
Here, “Σ” represents the sum of the number of macroblocks in one picture. According to
映像重要度判定部11は、以上のように算出した量子化重要度IL1、サイズ重要度IL2およびベクトル重要度IL3に基づき映像重要度ILを算出する。映像重要度ILは、例えば量子化重要度IL1、サイズ重要度IL2およびベクトル重要度IL3の算術平均、すなわち、映像重要度IL=(IL1+IL2+IL3)/3として算出される。
The video
続いて、音声重要度SLの算出について説明する。音声重要度判定部9は、例えば音声復号部23により復号化された音声データの1フレーム分相当を周波数領域に転写する。音声重要度判定部9は、所定周波数範囲毎に振幅の積分を算出し、1フレーム分の時間における周波数毎の音量とする。
Next, calculation of the voice importance level SL will be described. The voice importance
図5は、周波数領域毎の音量の算出方法を説明する図である。図5において、縦軸は、音量に応じた振幅x(i)を示し、横軸は周波数iを対数軸で示している。図5は、例えば1フレーム分の音声データを周波数領域の振幅に変換した結果を表している。横軸は、周波数10k〜10k+1(kは整数)毎の周波数範囲に区切られている。このとき、この周波数範囲毎の振幅の積分が、周波数範囲毎の音量(以下、周波数毎の音量という)に相当する。フレームに時間的順序を表すフレーム番号jを付し、フレーム番号jにおける周波数毎の音量SVa(j)を以下の式7で表す。
以下、上記音量SVa(j)を用いた変動重要度SL1の算出方法について説明する。変動重要度SL1は、周波数帯毎の音声レベル変化量の平均である。すなわち、変動重要度SL1は、式7の周波数毎の音量SVa(j)それぞれについて、前サンプル(ここでは、前フレーム)との差を取り、その差をS108における音声タイマ値STに対応するずれ判定時間、および全周波数に対応する周波数領域について足し合わせ、その平均を計算する。ずれ判定時間に含まれるフレーム数をフレーム数FN、全周波数領域を100〜10N(Nは自然数)とすると、変動重要度SL1は、以下の式8で表される。
変動重要度SL1=1/NΣ(Σ|SVa(j)−SV(j−1)|)/FN ・・・(式8)
Hereinafter, a method of calculating the variation importance SL1 using the volume SVa (j) will be described. The variation importance SL1 is an average of the sound level change amount for each frequency band. That is, the degree of importance SL1 takes the difference from the previous sample (here, the previous frame) for each volume SVa (j) for each frequency of Equation 7, and the difference corresponds to the audio timer value ST in S108. The determination time and the frequency region corresponding to all frequencies are added together, and the average is calculated. When the number of frames included in the shift determination time is the number of frames FN and the entire frequency region is 10 0 to 10 N (N is a natural number), the variation importance SL1 is expressed by the following Expression 8.
Fluctuation importance SL1 = 1 / NΣ (Σ | SVa (j) −SV (j−1) |) / FN (Expression 8)
ここで、一つ目の「Σ」は、全周波数領域分の和を表し、二つめの「Σ」は、ずれ判定時間におけるフレーム数分の和(j=1〜FN)を表す。なお、式8により音声重要度SL1は、0〜100までの値として算出される。 Here, the first “Σ” represents the sum of all frequency regions, and the second “Σ” represents the sum of the number of frames in the shift determination time (j = 1 to FN). Note that the voice importance SL1 is calculated as a value from 0 to 100 according to Equation 8.
次に、上記音量SVa(j)を用いた音量重要度SL2の算出方法について説明する。音量重要度SL2は、音量レベル全体の総和であり、周波数毎の音量SVaそれぞれについて、S108の音声タイマ値STに対応するずれ判定時間に含まれるフレーム、および全周波数に対応する周波数領域について足し合わせ、その平均を計算する。すなわち、以下の式9で表される。
音量重要度SL2=1/NΣΣSVa(j)/FN ・・・(式9)
Next, a method for calculating the volume importance SL2 using the volume SVa (j) will be described. The volume importance level SL2 is the total sum of the volume levels. For each volume SVa for each frequency, the frame included in the deviation determination time corresponding to the audio timer value ST in S108 and the frequency region corresponding to all frequencies are added. Calculate the average. That is, it is expressed by the following
Volume importance level SL2 = 1 / NΣΣSVa (j) / FN (Expression 9)
ここで、一つ目の「Σ」は、全周波数領域分(100〜10N)の和を表し、二つめの「Σ」は、ずれ判定時間におけるフレーム数分の和(j=1〜FN)を表す。なお、音声重要度SL2は、0〜100までの値として算出される。 Here, the first “Σ” represents the sum of all frequency regions (10 0 to 10 N ), and the second “Σ” represents the sum of the number of frames in the shift determination time (j = 1 to 1). FN). The voice importance SL2 is calculated as a value from 0 to 100.
音声重要度判定部9は、以上のように算出された変動重要度SL1および音量重要度SL2に基づき、音声重要度SLを設定する。例えば、音声重要度SL=(変動重要度SL1+音量重要度SL2)/2と算出される。
The voice importance
図4AのS134では、比較評価部13が、上記のように算出した映像重要度ILと、音声重要度SLとの大小を判別する。比較評価部13は、映像重要度ILの方が音声重要度SLより大きい場合には(S134:Yes)、音声を優先的に操作するため、処理を図4BのS135に進ませる。比較評価部13は、音声重要度SLの方が映像重要度ILより大きい場合には(S134:No)、映像を優先的に操作するため、処理を図4CのS145に進ませる。以下、比較評価部13の判別結果に応じて、自動補正部15は、映像と音声との同期を行う。
In S134 of FIG. 4A, the
まず、音声を優先的に操作する場合について説明する。図4Bに示すように、S135において、自動補正部15の音声操作部31は、操作対象(これから再生するずれ判定時間分)の音声部分に無音に近い部分か、音声変化量が小さいと判断できる部分があるかどうかを判断する。無音に近いと判断するのは、例えば音量重要度SL2が、ホワイトノイズに対して予め算出された音声重要度SL以下である場合とすることができる。音声変化量が小さいと判断するのは、例えば変動重要度SL1が、ホワイトノイズに対して予め算出された変動重要度SL1以下とすることができる。
First, a case where the voice is preferentially operated will be described. As shown in FIG. 4B, in S135, the
S135において、操作対象の音声部分に無音に近い部分か、音声変化量が小さいと判断できる部分(以下、無音に近い部分と音声変化量が小さいと判断できる部分を合わせて無音相当部分という)があると判別されると(S135:Yes)、音声操作部31は、ずれ時間L1が正の数か否か判別する(S136)。ずれ時間L1が正の数である場合には(S136:Yes)、音声が進んでいるので、音声操作部31は、ずれ時間L1分、無音に近い部分または音声変化量が小さいと判断できる部分を何回も再生して伸張することにより、同期処理を完了する(S137)。
In S135, there is a portion that is close to the operation target sound portion, or a portion that can be determined that the sound change amount is small (hereinafter, a portion that is close to silence and a portion that can be determined that the sound change amount is small is collectively referred to as a silence-corresponding portion). When it is determined that there is (S135: Yes), the
S136において、ずれ時間L1が負の数であり、映像が遅れていると判別された場合には(S136:No)、音声操作部31は、ずれ時間L1の絶対値が無音相当部分の時間(無音相当時間という)よりも大きいか否か判別する(S138)。ずれ時間L1の絶対値が無音相当時間よりも長い場合には(S138:Yes)、音声操作部31は、無音相当部分を再生せずに削除し(S139)、ずれ時間L1=ずれ時間L1+無音相当時間とし(S140)、S142に処理を進める。ずれ時間L1の絶対値が無音相当時間以下の場合には(S138:No)、音声操作部31は、ずれ時間L1分の無音相当部分の音声を削除して同期処理を完了し(S141)、S153に処理を進める。
In S136, when it is determined that the shift time L1 is a negative number and the video is delayed (S136: No), the
S135において、無音相当部分がない場合には(S135:No)、音声操作部31は、速度変更率VC=(音声タイマ値ST/(音声タイマ値ST+|ずれ時間L1|)が一定値以上か否かを判別する(S142)。判別に用いる一定値は、例えば0.8とすることができる。
In S135, when there is no silent equivalent (S135: No), the
速度変更率VCが一定値未満の場合には(S142:No)、音声操作部31は、処理をS145に進める。これは、音声再生速度を一定以上変化させると、音声の速度を変更することによる違和感の方が、映像を操作することによる違和感よりも大きいと判断されるためである。ここで、音声操作部31は、音声の再生速度を上記一定値に応じた割合だけ変更した後、処理をS145に進めるようにしてもよい。
When the speed change rate VC is less than a certain value (S142: No), the
速度変更率VCが一定値以上の場合には(S142:No)、音声操作部31は、音声再生速度変更値=(音声タイマ値ST+ずれ時間L1)/音声タイマ値STとし(S143)、音声再生速度を音声再生速度変更値に応じて変更することにより、同期処理を完了する(S144)。
When the speed change rate VC is equal to or greater than a certain value (S142: No), the
ここで、音声再生速度変更方法について説明する。ここで採用する音声再生速度変更方法は、デジタル音声データの一部を省略したり挿入したりすることにより、その音程を変えずにデジタル音声データの再生速度を変換する方法である。 Here, the audio reproduction speed changing method will be described. The audio reproduction speed changing method employed here is a method of converting the reproduction speed of digital audio data without changing the pitch by omitting or inserting a part of the digital audio data.
音声操作部31は、まず、操作対象、すなわちこれから再生するずれ判定区間JAに相当する音声部分の音声データを、一定周期の区間に区切り、省略または伸張する割合を決める。例えば、10%省略するのであれば、音声操作部31は、区切られた音声データにおいて、10区間毎に1区間を目安として省略すればよいし、10%伸張するのであれば、10区間毎に1区間を目安として挿入すればよい。次に、音声操作部31は、省略または伸張する割合に応じて音声データを操作する。このような音声再生速度の変更は、例えば、特許文献3に記載の方法など、従来の様々な方法を適用することができる。
First, the
映像を処理する場合には、図4Cに示すように、まず、映像操作部33は、ずれ時間L1の正負を判別する(S145)。映像操作部33は、ずれ時間L1が正の場合には(S145:Yes)、音声に対し映像が遅れているので、フレーム間引き処理を行い、負の場合には(S145:NO)、音声に対し映像が進んでいるので、フレーム補間処理を行う。
In the case of processing a video, as shown in FIG. 4C, first, the
フレーム間引き処理では、映像操作部33は、まず、フレーム間引き枚数を算出する(S146)。すなわち、映像操作部33は、フレーム間引き枚数=ずれ時間L1/フレームレート(Frame per Second:FPS)を算出する。小数点以下については四捨五入する。
In the frame decimation process, the
映像操作部33は、操作対象(これから再生する、ずれ判定区間JA分)の映像に非参照ピクチャがある場合には、フレーム間引き枚数を超えない範囲で再生する映像データに含まないように間引く(S147)。非参照ピクチャの枚数がフレーム間引き枚数に至らない場合には、映像操作部33は、その後、Pピクチャの後のBピクチャのうち、量子化係数QPの高いものから間引く(S148)。S148までの処理でフレーム間引き枚数に至らない場合には、映像操作部33は、Iフレーム及びPフレームのような参照ピクチャを間引く。このように参照ピクチャを間引く際には、次のフレームのためにピクチャをデコードする(S149)。
When there is a non-reference picture in the operation target image (for the shift determination section JA to be played back), the
上記のように、フレームの間引きを行う際には、映像操作部33は、後フレームへの影響を小さくするため、まず、非参照フレームを間引き、次に、IBBPにおけるBフレームを間引く。さらに、IPPPにおける量子化係数QPの大きいフレーム順でフレームを間引く。映像操作部33は、フレームを間引いた場合には、非参照フレームを除き、後続のフレームの為デコードは行なう。以上により、同期処理を完了する。
As described above, when thinning out a frame, the
ずれ時間L1が負の数の場合には(S145:No)、フレーム補間処理を行う。映像操作部33は、フレーム補間枚数=−ずれ時間L1/FPSを算出する(S150)。小数点以下については四捨五入する。
If the shift time L1 is a negative number (S145: No), frame interpolation processing is performed. The
映像操作部33は、補間するフレームとして、なるべく量子化係数QPの高いものについてそのフレームと次フレームの平均フレームを作成する(S151)。例えば、フレーム補間する場合、映像操作部33は、対象箇所の前後フレームについて各ピクセルの各画素値の平均値を求め、これを補間フレームとして前後フレームの間に挿入する。
The
フレーム補間の際、映像操作部33は、閾値Bに対して、補間するフレームがなるべく均等に配置されるように、補間枚数分だけ補間処理を行う(S152)。補間すべきフレーム枚数分の間引きを完了した後、処理は、S153の初期化処理に進む。
At the time of frame interpolation, the
S153の初期化処理として、主制御部3は、閾値Aに再生済み音声時間(音声タイマ値ST)を代入、閾値Bに表示済み映像フレーム数(動画カウンタ値ICt)を代入する。その後、主制御部3は、音声タイマ値ST=0、動画カウンタ値ICt=0と初期化し、S103に戻って処理を繰り返す。
As an initialization process of S153, the
なお、本実施の形態の分離部21、音声復号部23、音声再生部25、映像復号部27、映像再生部29は、本発明の復号再生部の一例である。音声重要度判定部9は、音声重要度算出部の一例であり、映像重要度判定部11は、映像重要度算出部の一例である。
Note that the
以上説明したように、本実施の形態による再生装置1においては、映像重要度IL、音声重要度SLが算出される。映像重要度ILは、映像の複雑さの度合いを示し、復号化前の映像ストリームに基づき算出される。音声重要度SLは、音声の音量の特徴を示し、復号化した音声データに基づき算出される。また、再生装置1は、映像重要度IL、音声重要度SL、およびずれ判別区間JAにおけるずれ時間L1に応じて、映像および音声のいずれを優先して操作するかを判別することにより同期を行う。
As described above, in the
よって、本実施の形態による再生装置1において、映像重要度IL、音声重要度SLの算出は、映像そのもの再生中に行われるわけではないので、再生に影響を与えないという効果がある。また、再生装置1によれば、同期処理による視聴者への影響が少ないと考えられる方法を用いて同期処理を行うことが可能となる。よって、処理能力の不足のため、再生映像がコマ落ちしてしまう、音声が途切れてしまう、ずれがある一定間隔のまま修正されない、など、視聴者に違和感、不快感を与えることが少なくなるという効果がある。
Therefore, in the
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、S153の初期化処理では、閾値Aとして音声タイマ値STを設定し、閾値Bとして、動画カウンタ値ICtを設定したが、これに限定されない。例えば、S153が行われる度に音声タイマ値Sおよび動画カウンタ値ICtの値を記憶部35に記憶しておき、それぞれの平均値を算出して、閾値A、閾値Bの初期値として代入するようにしてもよい。
The present invention is not limited to the embodiments described above, and various configurations or embodiments can be adopted without departing from the gist of the present invention. For example, in the initialization process of S153, the audio timer value ST is set as the threshold A and the moving image counter value ICt is set as the threshold B. However, the present invention is not limited to this. For example, every time S153 is performed, the values of the audio timer value S and the moving image counter value ICt are stored in the
閾値Aは、変動重要度SL1が大きい場合には小さくし、変動重要度SL1が小さい場合には、大きくするようにしてもよい。例えば、算出された変動重要度SL1を記憶部35に記憶して、変動重要度SL1の統計分布を算出し、現在の変動重要度SL1が、確率分布で上位20%の範囲に入るか否かで、音声の変化量が大きいか否かを判別する。音声の変化量が大きいと判別されたときには、閾値A=0.5秒、それ以外は閾値A=1秒などと逐次更新するようにしてもよい。変化量の大きい部分は視聴者がリップシンクずれを感じる機会が多いと考えられるためである。
The threshold A may be decreased when the variation importance SL1 is large, and may be increased when the variation importance SL1 is small. For example, the calculated fluctuation importance SL1 is stored in the
映像重要度ILは、量子化重要度IL1、サイズ重要度IL2、またはベクトル重要度IL3のいずれか少なくとも一つに基づき算出することができる。なお、サイズ重要度IL2は、(平均サイズ)が安定するであろう、再生開始30秒以降などにサイズ重要度IL2を反映させるようにしてもよい。音声重要度SLは、変動重要度SL1または音量重要度SL2のいずれか少なくとも一つに基づき算出することができる。 The video importance IL can be calculated based on at least one of the quantization importance IL1, the size importance IL2, and the vector importance IL3. It should be noted that the size importance IL2 may be reflected after 30 seconds from the start of reproduction, where (average size) will stabilize. The voice importance SL can be calculated based on at least one of the fluctuation importance SL1 and the volume importance SL2.
映像重要度IL、音声重要度SLの算出は、別の算出方法を用いるものでもよい。例えば、動きが小さく量子化係数が大きい場合には、絵が細かいが動きが少ないパターンであると考えられる(音楽がメインで背景として映像が使われている場合など)ので音声の重要度に少し下駄をはかせるなどの調整を行うようにしてもよい。また、小さい音声の大小は人間にとって差に気づきやすい傾向がある為、音声重要度SLの算出における式7の被積分関数x(i)を10×(x(i))1/2に置き換えるようにしてもよい。これにより、同期のための操作を、人間が視聴した際に気になる度合いにより近づける効果がある。 The video importance level IL and the audio importance level SL may be calculated using another calculation method. For example, if the movement is small and the quantization coefficient is large, the pattern is fine but the movement is small (for example, when the music is the main and the video is used as the background). Adjustments such as removing clogs may be performed. Further, since the size of small speech tends to be noticed by human beings, the integrand x (i) in Equation 7 in the calculation of speech importance SL is replaced with 10 × (x (i)) 1/2. It may be. As a result, there is an effect that the operation for synchronization is made closer to the degree of concern when viewed by a human.
本実施の形態による再生装置は、データの圧縮を伴い符号化されるH.264、MPEG2等によるデジタル動画像の再生装置として適用が可能である。
ここで、上記実施の形態による映像音声の再生方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図6は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図6に示すように、コンピュータ300は、Central Processing Unit(CPU)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置等がバス310を介して接続されている。
The reproduction apparatus according to the present embodiment is an H.264 encoded with data compression. The present invention can be applied as a digital moving image reproducing apparatus based on H.264, MPEG2, or the like.
Here, an example of a computer that is commonly applied to cause the computer to perform the operation of the video / audio reproduction method according to the above embodiment will be described. FIG. 6 is a block diagram illustrating an example of a hardware configuration of a standard computer. As shown in FIG. 6, a
CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。メモリ304は、コンピュータ300の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等である。入力装置306は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU302に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。
The
外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置314は、可搬記録媒体316に書き込みおよび読み出しを行うための装置である。CPU302は、可搬型記録媒体316に記録されている所定の制御プログラムを、記録媒体駆動装置314を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。CPU302は、可搬記録媒体316に記録された動画コンテンツを読み出して、再生させるようにすることもできる。記憶可搬記録媒体316は、例えばConpact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。
The
ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。CPU302は、ネットワーク接続装置318を介して外部の動画コンテンツを取得し、再生させるようにすることもできる。バス310は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。
The
上記実施の形態による映像音声再生方法をコンピュータに実行させるプログラムは、例えば外部記憶装置312に記憶させる。CPU302は、外部記憶装置312からプログラムを読み出し、コンピュータ300に映像音声再生の動作を行なわせる。このとき、まず、映像音声再生の処理をCPU302に行わせるための制御プログラムを作成して外部記憶装置312に記憶させておく。そして、入力装置306から所定の指示をCPU302に与えて、この制御プログラムを外部記憶装置312から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体316に記憶するようにしてもよい。
CPU302は、可搬記録媒体316に記録された動画コンテンツを読み出して、再生させるようにすることもできる。
A program that causes a computer to execute the video / audio reproduction method according to the above-described embodiment is stored in, for example, the
The
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生装置であって、
前記ストリームを取得する信号取得部と、
取得した前記ストリームを分離して復号化することにより、映像データおよび音声データを生成し、第1のずれ判定時間における第1の映像および第1の音声を再生する復号再生部と、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定するずれ判定部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出する映像重要度算出部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する音声重要度算出部と、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2の映像および前記第2の音声の再生を制御する自動補正部と、
を有することを特徴とする再生装置。
(付記2)
前記映像重要度は、前記映像の符号化の際に付加される量子化係数、データ量、または動きベクトル長の総量のいずれか少なくとも1つに基づいて算出されることを特徴とする付記1に記載の再生装置。
(付記3)
前記音声重要度は、前記音声データの所定周波数範囲毎の音量の時間的変化量の平均値、または前記音声データの所定周波数範囲毎の音量の平均値のいずれか少なくとも1つに基づいて算出されることを特徴とする付記1または付記2に記載の再生装置。
(付記4)
前記自動補正部は、さらに、復号前の前記第2の映像中に非参照ピクチャがあるか否かに基づき前記第2の映像と前記第2の音声との再生時のずれを補正することを特徴とする付記1から付記3のいずれかに記載の再生装置。
(付記5)
前記自動補正部は、
前記音声データを操作する音声操作部と、
前記映像データを操作する映像操作部と、
を有し、
復号前の前記映像中に非参照ピクチャがあるか否か、および前記映像重要度と前記音声重要度との大小関係に基づき、前記再生時のずれを補正する際に音声操作部と映像操作部のいずれの操作を優先するかを決定することを特徴とする付記4に記載の再生装置。
(付記6)
前記自動補正部は、
前記映像重要度が前記音声重要度より大きいときには、前記音声操作部の操作を優先し、
前記音声重要度が前記映像重要度より大きいときには、前記映像操作部による操作を行うことにより前記映像と前記音声の再生時のずれを補正することを特徴とする付記5に記載の再生装置。
(付記7)
前記音声操作部は、
前記第2のずれ判定時間に対応する区間に、前記音声重要度が所定値以下の無音相当区間がある場合であって、
前記第1の音声の再生が前記第1の映像の再生よりも進んでいる場合には、前記無音相当区間を繰り返し再生し、
前記第1の映像の再生が、前記第1の音声の再生よりも進んでいる場合には、前記ずれ量に応じて前記無音相当区間を削除する操作、前記音声の再生速度を変更する操作、映像操作部での操作を行う操作のいずれか少なくとも一つの操作を行い、
前記音声重要度を算出する区間に、前記音声重要度が所定値以下の無音相当区間がない場合であって、
前記ずれ量が、前記第2のずれ判別時間に対し所定割合未満の場合には、前記音声の再生速度を変更し、
前記ずれ量が、前記第2のずれ判別時間に対し所定割合以上の場合には、前記映像操作部による操作を行うことを特徴とする付記5または付記6に記載の再生装置。
(付記8)
前記映像操作部は、
前記第1の音声の再生が前記第1の映像の再生よりも進んでいる場合には、少なくとも非参照ピクチャを再生しない処理を行い、
前記第1の映像の再生が、前記第1の音声の再生よりも進んでいる場合には、前後のフレームの画素値の平均を有するフレームを補間する処理を行うことを特徴とする付記5または付記6に記載の再生装置。
(付記9)
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生方法であって、
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における第1の映像と第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御する、
ことを特徴とする再生方法。
(付記10)
前記第1の映像および前記第1の音声を再生し、前記ずれ量を判定し、前記映像重要度を算出し、前記音声重要度を算出し、前記再生を制御することを繰り返し行うことを特徴とする付記9に記載の再生方法。
(付記11)
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する処理をコンピュータに実行させるためのプログラムであって、
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御する処理を前記コンピュータに実行させるためのプログラム。
(付記12)
前記第1の映像および前記第1の音声を再生する処理、前記ずれ量を判定する処理、前記映像重要度を算出する処理、前記音声重要度を算出する処理、および前記再生を制御する処理を繰り返し前記コンピュータに実行させるための付記11に記載のプログラム。
Regarding the above embodiment, the following additional notes are disclosed.
(Appendix 1)
A playback device that acquires a stream including encoded video and audio and reproduces the video and audio,
A signal acquisition unit for acquiring the stream;
A decoding reproduction unit that generates video data and audio data by separating and decoding the acquired stream, and reproduces the first video and the first audio at the first shift determination time;
A shift determination unit that determines a shift amount during reproduction of the first video and the first audio during the first shift determination time;
A video importance level calculating unit that calculates a video importance level indicating a degree of complexity of a second video that is reproduced in a second shift determination time next to the first shift determination time;
A voice importance level calculation unit for calculating a voice importance level indicating a volume characteristic of the second voice reproduced at a second shift determination time next to the first shift determination time;
An automatic correction unit that controls reproduction of the second video and the second audio so as to correct a deviation during reproduction between the video and the audio based on the video importance, the audio importance, and the shift amount. When,
A playback apparatus comprising:
(Appendix 2)
The
(Appendix 3)
The voice importance is calculated based on at least one of an average value of temporal changes in volume for each predetermined frequency range of the audio data and an average value of volume for each predetermined frequency range of the audio data. The reproducing apparatus according to
(Appendix 4)
The automatic correction unit further corrects a deviation in reproduction between the second video and the second audio based on whether or not there is a non-reference picture in the second video before decoding. 4. The playback device according to any one of
(Appendix 5)
The automatic correction unit is
A voice operation unit for operating the voice data;
A video operation unit for operating the video data;
Have
Based on whether there is a non-reference picture in the video before decoding and the magnitude relationship between the video importance level and the audio importance level, an audio operation unit and a video operation unit are used when correcting the shift at the time of reproduction. The playback apparatus according to
(Appendix 6)
The automatic correction unit is
When the video importance is greater than the audio importance, priority is given to the operation of the audio operation unit,
6. The playback apparatus according to
(Appendix 7)
The voice operation unit
In a section corresponding to the second deviation determination time, there is a silent equivalent section in which the voice importance is equal to or less than a predetermined value,
When the reproduction of the first audio is ahead of the reproduction of the first video, the silent equivalent section is reproduced repeatedly,
When the reproduction of the first video is ahead of the reproduction of the first audio, an operation for deleting the silent equivalent section according to the deviation amount, an operation for changing the audio reproduction speed, Perform at least one of the operations to perform operations on the video operation unit,
In a section where the voice importance is calculated, there is no silent equivalent section where the voice importance is a predetermined value or less,
When the deviation amount is less than a predetermined ratio with respect to the second deviation determination time, the audio playback speed is changed,
The reproduction apparatus according to
(Appendix 8)
The video operation unit
If the reproduction of the first audio is ahead of the reproduction of the first video, at least a process of not reproducing the non-reference picture is performed,
The
(Appendix 9)
A reproduction method for obtaining a stream including encoded video and audio and reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first audio in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. Control the playback of the
A reproduction method characterized by the above.
(Appendix 10)
Playing back the first video and the first audio, determining the shift amount, calculating the video importance, calculating the audio importance, and controlling the playback are repeatedly performed. The reproduction method according to
(Appendix 11)
A program for obtaining a stream including encoded video and audio and causing a computer to execute a process of reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first sound in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. A program for causing the computer to execute a process for controlling the reproduction of an image.
(Appendix 12)
Processing for reproducing the first video and the first audio, processing for determining the shift amount, processing for calculating the video importance, processing for calculating the audio importance, and processing for controlling the reproduction The program according to
1 映像音声再生装置
3 主制御部
5 入力再生部
7 ずれ判定部
9 音声重要度判定部
11 映像重要度判定部
13 比較評価部
15 自動補正部
17 システムバス
19 信号取得部
21 分離部
23 音声復号部
25 音声再生部
27 映像復号部
29 映像再生部
31 音声操作部
33 映像操作部
DESCRIPTION OF
Claims (8)
前記ストリームを取得する信号取得部と、
取得した前記ストリームを分離して復号化することにより、映像データおよび音声データを生成し、第1のずれ判定時間における第1の映像および第1の音声を再生する復号再生部と、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定するずれ判定部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出する映像重要度算出部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する音声重要度算出部と、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2の映像および前記第2の音声の再生を制御する自動補正部と、
を有することを特徴とする再生装置。 A playback device that acquires a stream including encoded video and audio and reproduces the video and audio,
A signal acquisition unit for acquiring the stream;
A decoding reproduction unit that generates video data and audio data by separating and decoding the acquired stream, and reproduces the first video and the first audio at the first shift determination time;
A shift determination unit that determines a shift amount during reproduction of the first video and the first audio during the first shift determination time;
A video importance level calculating unit that calculates a video importance level indicating a degree of complexity of a second video that is reproduced in a second shift determination time next to the first shift determination time;
A voice importance level calculation unit for calculating a voice importance level indicating a volume characteristic of the second voice reproduced at a second shift determination time next to the first shift determination time;
An automatic correction unit that controls reproduction of the second video and the second audio so as to correct a deviation during reproduction between the video and the audio based on the video importance, the audio importance, and the shift amount. When,
A playback apparatus comprising:
前記音声データを操作する音声操作部と、
前記映像データを操作する映像操作部と、
を有し、
復号前の前記映像中に非参照ピクチャがあるか否か、および前記映像重要度と前記音声重要度との大小関係に基づき、前記再生時のずれを補正する際に音声操作部と映像操作部のいずれの操作を優先するかを決定することを特徴とする請求項4に記載の再生装置。 The automatic correction unit is
A voice operation unit for operating the voice data;
A video operation unit for operating the video data;
Have
Based on whether there is a non-reference picture in the video before decoding and the magnitude relationship between the video importance level and the audio importance level, an audio operation unit and a video operation unit are used when correcting the shift at the time of reproduction. The playback apparatus according to claim 4, wherein which operation is to be prioritized is determined.
前記映像重要度が前記音声重要度より大きいときには、前記音声操作部の操作を優先し、
前記音声重要度が前記映像重要度より大きいときには、前記映像操作部による操作を行うことにより前記映像と前記音声の再生時のずれを補正することを特徴とする請求項5に記載の再生装置。 The automatic correction unit is
When the video importance is greater than the audio importance, priority is given to the operation of the audio operation unit,
6. The playback apparatus according to claim 5, wherein when the audio importance level is greater than the video importance level, a deviation between the video and the audio is corrected by performing an operation using the video operation unit.
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における第1の映像と第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御することを特徴とする再生方法。 A reproduction method for obtaining a stream including encoded video and audio and reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first audio in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. A reproduction method characterized by controlling reproduction of the video.
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御する処理を前記コンピュータに実行させるためのプログラム。 A program for obtaining a stream including encoded video and audio and causing a computer to execute a process of reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first sound in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. A program for causing the computer to execute a process for controlling the reproduction of an image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011064900A JP5696552B2 (en) | 2011-03-23 | 2011-03-23 | REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011064900A JP5696552B2 (en) | 2011-03-23 | 2011-03-23 | REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012204876A true JP2012204876A (en) | 2012-10-22 |
JP5696552B2 JP5696552B2 (en) | 2015-04-08 |
Family
ID=47185426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011064900A Active JP5696552B2 (en) | 2011-03-23 | 2011-03-23 | REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5696552B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018183215A (en) * | 2017-04-24 | 2018-11-22 | 株式会社ユニバーサルエンターテインメント | Game machine |
JP2018183218A (en) * | 2017-04-24 | 2018-11-22 | 株式会社ユニバーサルエンターテインメント | Game machine |
JP2018183219A (en) * | 2017-04-24 | 2018-11-22 | 株式会社ユニバーサルエンターテインメント | Game machine |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259093A (en) * | 1993-03-08 | 1994-09-16 | Fujitsu Ltd | Method and device for converting reproducing speed of digital audio data |
JPH09311689A (en) * | 1996-05-17 | 1997-12-02 | Ekushingu:Kk | Information outputting device |
JPH1023381A (en) * | 1996-07-01 | 1998-01-23 | Ekushingu:Kk | Device for supplying information and output terminal and system for supplying information |
JP2004007140A (en) * | 2002-05-31 | 2004-01-08 | Toshiba Corp | Voice reproducing device and voice reproduction control method to be used for the same device |
JP2005102193A (en) * | 2003-09-02 | 2005-04-14 | Sony Corp | Content receiving apparatus, video/audio output timing control method, and content providing system |
JP2005136810A (en) * | 2003-10-31 | 2005-05-26 | Nhk Engineering Services Inc | Content quality evaluation device, method therefor and program thereofor |
JP2006050362A (en) * | 2004-08-06 | 2006-02-16 | Casio Comput Co Ltd | Device for reproducing moving image with sound and method for correcting reproduction clock |
-
2011
- 2011-03-23 JP JP2011064900A patent/JP5696552B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259093A (en) * | 1993-03-08 | 1994-09-16 | Fujitsu Ltd | Method and device for converting reproducing speed of digital audio data |
JPH09311689A (en) * | 1996-05-17 | 1997-12-02 | Ekushingu:Kk | Information outputting device |
JPH1023381A (en) * | 1996-07-01 | 1998-01-23 | Ekushingu:Kk | Device for supplying information and output terminal and system for supplying information |
JP2004007140A (en) * | 2002-05-31 | 2004-01-08 | Toshiba Corp | Voice reproducing device and voice reproduction control method to be used for the same device |
JP2005102193A (en) * | 2003-09-02 | 2005-04-14 | Sony Corp | Content receiving apparatus, video/audio output timing control method, and content providing system |
JP2005136810A (en) * | 2003-10-31 | 2005-05-26 | Nhk Engineering Services Inc | Content quality evaluation device, method therefor and program thereofor |
JP2006050362A (en) * | 2004-08-06 | 2006-02-16 | Casio Comput Co Ltd | Device for reproducing moving image with sound and method for correcting reproduction clock |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018183215A (en) * | 2017-04-24 | 2018-11-22 | 株式会社ユニバーサルエンターテインメント | Game machine |
JP2018183218A (en) * | 2017-04-24 | 2018-11-22 | 株式会社ユニバーサルエンターテインメント | Game machine |
JP2018183219A (en) * | 2017-04-24 | 2018-11-22 | 株式会社ユニバーサルエンターテインメント | Game machine |
Also Published As
Publication number | Publication date |
---|---|
JP5696552B2 (en) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6287315B2 (en) | Video / audio synchronization apparatus, video / audio synchronization method, and computer program for video / audio synchronization | |
JP4717060B2 (en) | Recording / reproducing apparatus, recording / reproducing method, recording medium storing recording / reproducing program, and integrated circuit used in recording / reproducing apparatus | |
JP4472360B2 (en) | Apparatus and method for synchronization of audio and video streams | |
US7676142B1 (en) | Systems and methods for multimedia time stretching | |
JP7509190B2 (en) | Decoding device, method, and program | |
KR100547445B1 (en) | Shifting processing method of digital audio signal and audio / video signal and shifting reproduction method of digital broadcasting signal using the same | |
JP5734517B2 (en) | Method and apparatus for processing multi-channel audio signals | |
JP7233546B2 (en) | Optimizing encoding operations when generating buffer-constrained versions of media titles | |
WO2005117445A1 (en) | Adaptive decoding of video data | |
US20090147842A1 (en) | Video processing | |
JP5696552B2 (en) | REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM | |
JP2008167061A (en) | Encoding device and encoding method | |
JP2009017314A (en) | Transcoder | |
JP2009004897A (en) | Motion picture encoder | |
JP5471328B2 (en) | Moving picture playback apparatus, moving picture playback method, and program | |
CN107087210B (en) | Method and terminal for judging video playing state based on cache time | |
US20190387271A1 (en) | Image processing apparatus, image processing method, and program | |
JP6776126B2 (en) | Image processing device, image processing method, and program | |
CN114915840A (en) | Audio and video processing method, device, equipment and medium suitable for embedded equipment | |
JP2008312013A (en) | Transcoding device, transcoder, decoder, and transcoding method | |
CN111866542B (en) | Audio signal processing method, multimedia information processing device and electronic equipment | |
JP2006236475A (en) | Coded data reproduction apparatus | |
JP2011087001A (en) | Image processing device and method | |
JPWO2008129648A1 (en) | Frame rate conversion apparatus, frame rate conversion method, and moving picture encoding apparatus | |
JP2006140551A (en) | Motion picture reproducer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5696552 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |