WO2005098854A1 - 音声再生装置、音声再生方法及びプログラム - Google Patents

音声再生装置、音声再生方法及びプログラム Download PDF

Info

Publication number
WO2005098854A1
WO2005098854A1 PCT/JP2005/006685 JP2005006685W WO2005098854A1 WO 2005098854 A1 WO2005098854 A1 WO 2005098854A1 JP 2005006685 W JP2005006685 W JP 2005006685W WO 2005098854 A1 WO2005098854 A1 WO 2005098854A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
video
reproduction
signal
time information
Prior art date
Application number
PCT/JP2005/006685
Other languages
English (en)
French (fr)
Inventor
Kazuo Fujimoto
Tomoyuki Okada
Taro Katayama
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2006512092A priority Critical patent/JP3892478B2/ja
Priority to US11/547,305 priority patent/US7877156B2/en
Priority to EP05728821A priority patent/EP1734527A4/en
Publication of WO2005098854A1 publication Critical patent/WO2005098854A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10592Audio or video recording specifically adapted for recording or reproducing multichannel signals

Definitions

  • the present invention relates to an audio reproducing apparatus, an audio reproducing method, and a program.
  • the present invention relates to an audio reproducing device for reproducing a compression-coded digital audio signal.
  • MPEG is known as a known standard for encoding and compressing an audio signal and a video signal into a digital signal, and then decoding the signal.
  • the audio signal and the video signal are encoded separately in order to decode the multiplexed and compression-coded audio signal and the video signal and then reproduce the audio signal and the video signal in synchronization with each other.
  • time information information on the time at which the signal is reproduced and displayed (hereinafter referred to as “time information”) is added and compressed. Accordingly, when the compression-encoded digital audio signal and video signal are decompressed, the playback device refers to the own system time reference value and refers to the time information to reproduce the audio signal and the video signal. Plays back while synchronizing with the signal.
  • FIG. 1 is a block diagram showing a configuration of a dual audio decoder 183 that performs the reproducing method.
  • the dual audio decoder 183 includes a first audio decoder 183a and a second audio decoder 183b, and a first audio selection circuit 183c and a second audio selection circuit 183d.
  • the first audio signal which is a Japanese audio signal
  • the second audio signal which is an English voice signal
  • the decoded first and second audio signals are processed by a first audio selection circuit 183c and a second audio selection circuit 183d. For example, if the audio output channels are left and right one channel each, the first and second audio signals are processed so as to output one monaural channel each. Alternatively, processing is performed such that only one of the first and second audio signals is output in two-channel stereo. If the number of audio output channels is greater than the left and right channels, the first and second audio signals are processed to be output in a combination of stereo and monaural.
  • the first audio selection circuit 183c and the second audio selection circuit 183d output a stereo 2 + 1 channel for the outputable 5 + 1 channel. You can output each channel individually, or select and output only 5 + 1 channels of one audio data.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 10-145735 (Pages 10 to 11, FIGS. 4, 8, and 9)
  • Patent Document 1 describes a method of decoding a plurality of pieces of data having different angles by a plurality of moving picture decoding means, and combining and displaying them by a video data combining means.
  • Patent Document 1 discloses that a plurality of audio data in different languages are added to video data. If so, explain how to decode each audio data with a plurality of audio decoding means and mix and play them, and how to select and play any one! /
  • Patent Document 1 does not specifically describe a detailed means for mixing two types of data or a means for establishing reproduction synchronization. Even if it is limited to audio only, the mixing method when the sampling rates of the two types of audio data to be reproduced are different, the mixing ratio of each audio data, and audio with different number of channels such as surround audio and stereo audio There is no explanation on how to mix data, how to mix sections, and how to synchronize each audio data.
  • the first audio is compression-encoded by the Dolby Digital system
  • the second audio is encoded by the linear PCM.
  • the processing is required.
  • the present invention has been made in consideration of the above problems, and has as its object to provide an audio reproducing device that reproduces a plurality of digital audio signals in synchronization with each other.
  • the audio reproducing apparatus is an apparatus for reproducing and outputting an audio signal, and stores a plurality of pieces of audio reproduction time information of each of the plurality of audio signals on one time axis.
  • a synchronization means for synchronizing the plurality of audio signals, and a plurality of synchronization means allocated on the time axis Synthesizing means for synthesizing the plurality of audio signals using the audio reproduction time information.
  • the audio reproducing apparatus of the present invention allocates a plurality of audio reproduction time information items of a plurality of audio signals on one time axis, a plurality of digital audio signals are reproduced in synchronization. You can do it.
  • the time axis may be a time axis specified by a plurality of pieces of the audio reproduction time information of any one of the plurality of audio signals.
  • the synchronization means assigns the plurality of pieces of audio reproduction time information of another audio signal to a time axis specified by the audio reproduction time information of any one of the audio signals. It is.
  • a plurality of sounds can be synchronized by matching the audio reproduction time information of the other audio signal with the audio reproduction time information of the main audio signal.
  • a third aspect of the present invention is an audio reproducing device, wherein the time axis is a time axis specified by a plurality of pieces of the audio reproduction time information of the one audio signal being reproduced at a variable speed. It is. This has an effect that even in the case of variable speed reproduction, a plurality of audio signals can be synchronized by decoding using the audio reproduction time information of the audio signal being reproduced at variable speed.
  • the plurality of audio signals are multiplexed with a video signal, and the time axis is specified by a plurality of pieces of video reproduction time information of the video signal.
  • a fifth aspect of the present invention is the audio reproducing apparatus, wherein the time axis is a time axis specified by video reproduction time information of the video signal being reproduced at a variable speed. This has the effect of synchronizing audio with the reproduced video at the time of the skip according to the output of the skip-reproduced video.
  • a sixth aspect of the present invention is the audio reproducing apparatus according to the present invention, wherein the time axis is a time axis specified by a variable speed system time reference signal. This has the effect of synchronizing video and audio by making the system time reference signal, which is the reference for the entire system, variable.
  • a sound reproducing apparatus further comprises the step of changing the sampling rate of another audio signal in accordance with the sampling rate of one of the plurality of audio signals.
  • the apparatus further comprises a sampling rate converting means for converting, wherein the synthesizing means synthesizes any one of the audio signals and the other audio signal converted by the sampling rate converting means. This makes it possible to reproduce a plurality of sounds in accordance with the sampling rate of one sound.
  • main audio or sub-audio such as commentary
  • sub-audio such as commentary
  • the user can hear multiple sounds at a fixed sampling rate.
  • An eighth aspect of the present invention is the audio reproduction device according to the present invention, wherein any one of the audio signals is an audio signal having a longest continuous audio reproduction section among the plurality of audio signals.
  • Auxiliary audio such as commentary may be inserted for the purpose of assisting the main audio such as commentary on a specific scene, and it is assumed that the audio playback section is shorter than the main audio. Therefore, if the longer playback section is selected, the number of times the sampling rate is changed in the middle can be reduced.
  • a ninth aspect of the present invention is the audio reproducing apparatus according to the ninth aspect, wherein the one of the audio signals is an audio signal having the least intermittent audio reproduction interval among the plurality of audio signals.
  • the sampling rate of the intermittent audio signal is set to the least intermittent audio signal (there is no intermittent audio signal). (Including audio signals) can reduce the number of times the sampling rate is changed during the conversion.
  • a tenth audio reproducing apparatus is the audio reproducing apparatus, wherein the one audio signal is an audio signal having a highest sampling rate among the plurality of audio signals. This has the effect of keeping the high-quality sound as it is, upsampling other sounds, and maintaining the sound quality as much as possible.
  • An audio reproduction device is the audio reproduction device, wherein any one of the audio signals is an audio signal having a lowest sampling rate among the plurality of audio signals. This has the effect of reducing the amount of data transmitted for audio by converting to a low sampling rate, such as when the transmission band for audio output is limited.
  • a twelfth audio reproducing apparatus is the audio reproducing apparatus, wherein the one audio signal is an audio signal of which sampling rate does not change among the plurality of audio signals. If the sampling rate is changed on the way, audio mute may be required at the point of change in rate playback. This has the effect of mainly selecting the one that does not change the rate, and keeping continuous audio playback.
  • a thirteenth audio reproduction device may further comprise: combining the plurality of audio signals by adding another audio signal to any one of the plurality of audio signals.
  • An output level adjusting means for reducing a reproduction output level of any one of the audio signals only in a portion to which the other audio signal is added.
  • a fourteenth audio reproducing apparatus is the audio reproducing apparatus, wherein the output level adjusting means synthesizes the one audio signal with the other audio signal.
  • the fifteenth audio reproducing apparatus further comprises: adjusting the number of reproduced signal channels of another audio signal in accordance with the number of reproduced signal channels of any one of the plurality of audio signals.
  • An integrated distribution means for integrating or distributing is provided. This has the effect of realizing addition of a specific audio signal to a channel without causing audio distortion even if the number of reproduction channels of the reproduced signals is different from each other.
  • a sixteenth audio reproducing apparatus further integrates or distributes the number of reproduction signal channels of each of the audio signals in accordance with the number of channels of an audio output device connected to the audio reproducing apparatus.
  • An integrated distribution unit is provided. It integrates or distributes the number of playback signal channels according to the number of channels of the user's audio output device (for example, the number of speaker connections). To perform speech synthesis.
  • the integrated distributing means integrates or distributes the number of reproduced signal channels of each of the audio signals in accordance with an audio output designation channel of the audio output device by a user. Device.
  • the number of reproduction signal channels is integrated or distributed according to the number of channels (for example, the number of speaker connections) of the user's audio output device that the user wants to reproduce, and synthesis is performed.
  • the present invention can also be realized as a sound reproducing method using the characteristic constituent means of the sound reproducing apparatus of the present invention as steps, or as a program for causing a computer to execute those steps.
  • the program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as a communication network.
  • the present invention can provide an audio reproduction device that reproduces a plurality of digital audio signals in synchronization.
  • the audio reproduction device of the present invention can execute mixing of a plurality of audio signals having different sampling rates and encoding methods, and synchronous reproduction of a plurality of audio signals in variable speed reproduction.
  • FIG. 1 is a configuration diagram of a dual audio decoder that performs a conventional audio reproduction method.
  • FIG. 2 is a block diagram illustrating a configuration of an image and sound reproduction device according to Embodiment 1.
  • FIG. 3 is a flowchart showing a method for synchronously reproducing video and audio in Embodiment 1.
  • FIG. 4 is a diagram for explaining a method of storing audio reproduction data in the embodiment.
  • FIG. 5 is a diagram showing an example in which a plurality of images are overlapped in the embodiment.
  • FIG. 6 is a diagram showing an example of a temporal relationship in which a main video and a commentary video are displayed in the embodiment.
  • FIG. 7 shows that commentary video is superimposed on the main video in Embodiments 1 and 4.
  • FIG. 3 is a block diagram illustrating a configuration of a sleeping image reproducing device.
  • FIG. 8 is a configuration diagram of an audio reproducing apparatus that superimposes a main sound and a sub sound in each embodiment.
  • FIG. 9 is a diagram showing a relationship between audio reproduction time information of a main audio and audio reproduction time information of a sub audio.
  • FIG. 10 is a diagram showing a state in which audio playback time information is added to the audio streams of the main audio and the sub audio.
  • FIG. 11 is a diagram showing a configuration example of an addition output unit for describing a voice addition method according to the first embodiment.
  • FIG. 12 is a diagram for explaining connection between the audio reproduction device according to the first embodiment and an externally connected device.
  • FIG. 13 is a diagram for explaining sound integration.
  • FIG. 14 is a diagram for explaining audio distribution.
  • FIG. 15 is a diagram for explaining connection between the audio reproduction device according to the first embodiment and an externally connected device.
  • FIG. 16 is a diagram showing a state in which the sub sound has not yet ended even after the main sound has ended.
  • FIG. 17 is a diagram showing a state in which a sound effect is synthesized with a main sound.
  • FIG. 18 is a diagram for explaining synthesis and integration of audio signals.
  • FIG. 19 is a diagram showing a DVD on which a plurality of audio signals are recorded.
  • FIG. 20 is a flowchart showing processing for adding a sub-voice to a main voice and performing voice synthesis before or after variable speed processing in the second embodiment.
  • FIG. 21 is a block diagram for explaining a method of performing variable speed control by an audio output processing unit according to the second and third embodiments.
  • FIG. 22 is a diagram for explaining the principle of audio variable speed processing according to the second embodiment.
  • FIG. 23 is a flowchart showing a method for synchronously reproducing a plurality of videos according to Embodiment 4. Explanation of reference numerals
  • FIG. 2 is a block diagram illustrating a configuration of the image and sound reproduction device according to the first embodiment.
  • a configuration of the image and sound reproduction device, an image reproduction method, and a sound reproduction method according to the first embodiment will be mainly described mainly with reference to FIG. explain.
  • the present invention relates to a technique for reproducing a plurality of digital audio signals in synchronization with each other. Before describing the technique in detail, a signal in which a video signal and an audio signal are multiplexed is reproduced. The technology is explained.
  • FIG. 2 is a block diagram showing a configuration of the video and audio reproduction device according to the first embodiment.
  • the video and audio reproduction device according to the first embodiment is a device that reproduces a signal in which a video signal and an audio signal are multiplexed.
  • an input unit 1 a video buffer unit A102, Video buffer section B103, video decoding section A104, video decoding section B105, image synthesizing section 106, audio buffer section A2, audio buffer section B3, audio decoding section A4, audio decoding section B5, audio synthesis It is composed of Part 6.
  • Video buffer unit A102, video buffer unit B103, video decoding unit A104, video The decoding unit B105 and the image synthesizing unit 106 are components that process video signals.
  • the audio buffer unit A2, the audio buffer unit B3, the audio decoding unit A4, the audio decoding unit B5, and the audio synthesizing unit 6 are components that process audio signals.
  • the input unit 1 includes a data recording device such as an optical disk that stores contents encoded by various encoding methods and digital audio signals and video signals subjected to compression encoding such as digital broadcasting (see FIG. (Not shown) from the multiplexed audio signal and the video signal.
  • the input unit 1 separates the multiplexed audio signal and video signal into a video signal and an audio signal, extracts video playback time information from the video signal, and extracts audio playback time information from the audio signal. I do.
  • the video signal and the audio signal input to the input unit 1 are two-channel signals, respectively. Therefore, the input unit 1 separates the multiplexed audio signal and video signal into a video signal and an audio signal for each channel.
  • each of the video buffer unit A 102, video buffer unit B 103, video decoding unit A 104, video decoding unit B 105, and image synthesizing unit 106 that processes a video signal will be described.
  • the video buffer unit A102 is a component unit that stores the video signal of the first channel separated by the input unit 1.
  • the video buffer unit A102 stores a video playback time information management unit A121 that stores video playback time information of the video signal of the first channel, and stores compressed video data of the video signal of the first channel.
  • a compression video buffer unit A122 stores compressed video data of the video signal of the first channel.
  • the video playback time information management unit A121 has a table that associates the compressed video data of the first channel with the video playback time information.
  • the video buffer unit B103 is a component that stores the video signal of the second channel separated by the input unit 1.
  • the video buffer unit B103 stores a video playback time information management unit B131 that stores video playback time information of the video signal of the second channel, and stores compressed video data of the video signal of the second channel.
  • a compression video buffer unit B132 stores compressed video data of the video signal of the second channel.
  • the video playback time information management unit B131 It has a table for associating the compressed video data of channel 2 with the video playback time information.
  • the video decoding unit A104 analyzes the attribute information (video header information) of the compressed video data of the first channel stored in the compressed video buffer unit A122, and manages the compressed video data in the video reproduction time information management. This is a component for decompressing according to the video playback time information stored in the unit A121.
  • the video decoding unit A104 has a frame buffer unit A141 for storing the expanded video data.
  • the video decoding unit B105 analyzes the attribute information (video header information) of the compressed video data of the second channel stored in the compressed video buffer unit B132, and manages the compressed video data in the video reproduction time information management. This is a component that is stored in the unit B 131 and decompressed in accordance with the video playback time information.
  • the video decoding unit B105 has a frame buffer unit B151 for storing the expanded video data.
  • the image synthesizing unit 106 is a component that synthesizes each video data expanded by the video decoding unit A104 and the video decoding unit B105 and outputs the synthesized data to an external display unit.
  • audio buffer unit A2 audio buffer unit B3, audio decoding unit A4, audio decoding unit B5, and audio synthesizing unit 6, which process audio signals, will be described.
  • the audio buffer unit A 2 is a component that stores the audio signal of the first channel separated by the input unit 1.
  • the audio buffer unit A2 includes a compressed audio buffer unit A21 that stores compressed audio data of the audio signal of the first channel, and an audio playback unit that stores audio playback time information of the audio signal of the first channel. It consists of a time information management unit A22.
  • the audio reproduction time information management unit A22 has a table that associates the compressed audio data of the first channel with the audio reproduction time information.
  • the audio buffer unit B3 is a component that stores the audio signal of the second channel separated by the input unit 1.
  • the audio buffer unit B3 includes a compressed audio buffer unit B31 that stores compressed audio data of the audio signal of the second channel, and an audio playback time of the audio signal of the second channel.
  • the audio playback time information management unit B32 stores information.
  • the audio reproduction time information management section B32 has a table for associating the compressed audio data of the second channel with the audio reproduction time information.
  • the audio decoding unit A4 analyzes the attribute information (video header information) of the compressed audio data of the first channel stored in the compressed audio buffer unit A21 and converts the compressed audio data into audio playback time information. This is a component that is stored in the management unit A22 and decompressed in accordance with the current playback time information.
  • the audio decoding unit A4 has a PCM buffer unit A41 for storing expanded audio data.
  • the audio decoding unit B5 analyzes attribute information (video header information) of the compressed audio data of the second channel stored in the compressed audio buffer unit B31, and manages the compressed audio data in audio reproduction time information management. This is a configuration unit that is stored in the unit B32 and decompressed according to the current playback time information.
  • the audio decoding section B5 has a PCM buffer section B51 for storing expanded audio data.
  • the voice synthesis unit 6 is a component unit that synthesizes each audio data expanded by the audio decoding unit A4 and the audio decoding unit B5 and outputs the synthesized data to an external speaker.
  • a video signal and an audio signal include a unit of decoding and reproduction called an access unit (one frame in the case of video data).
  • an access unit one frame in the case of video data.
  • time stamp information indicating whether the unit should be decoded and played back is attached.
  • This time stamp information is called Presentation Time Stamp (PTS).
  • PTS Presentation Time Stamp
  • Video PTS hereafter, "VPTS” t ⁇
  • Audio PTS hereafter, "APTS”
  • the system reference reference section is a component that generates a system time reference System Time Clock (STC) inside the reference decoder of the MPEG system.
  • STC System Time Clock
  • the system reference section is used to create the system time reference STC, which is used to create the system time reference STC.
  • SCR System Time Reference Reference Value
  • PCR Program Clock Reference
  • the system standard reference unit sets the standard time by setting the same value as the value indicated by SCR or PCR in the system time standard STC when the last byte of each stream arrives (when reading).
  • the image / audio reproduction apparatus can set the reference time System clock STC with the exact same system clock and clock frequency.
  • the system clock of the STC is 27MHz.
  • Each PTS (90KHz cycle) is referenced by dividing the system time reference STC by a counter or the like.
  • the accuracy of the system time base STC is 90 KHz. Therefore, if each decoder reproduces each reproduction unit so as to synchronize the system time reference STC with the video reproduction time information VPTS and the audio reproduction time information APTS within the range of the accuracy of 90 KHz, the AV synchronization is performed. An output is obtained.
  • FIG. 3 is a flowchart of the AV synchronization process.
  • a video stream and an audio stream of one channel are multiplexed (a video stream and an audio stream of two channels are multiplexed). If it is done, it will be explained later).
  • the input unit 1 converts the encoded data input from the data recording device or the like into compressed video data, video playback time information VPTS, compressed audio data, and audio playback time information. Separate from APTS.
  • the compressed video buffer unit A122 stores the compressed video data
  • the video playback time information management unit A121 stores the video playback time information VPTS (Step 301).
  • the video playback time information management unit A121 stores the video playback time information VPTS together with the address of each compressed video data in the compressed video buffer unit A122.
  • the compressed audio buffer unit A21 stores the compressed audio data
  • the audio reproduction time information management unit A22 stores the audio reproduction time information APTS (Step 302).
  • the audio reproduction time information management unit A22 divides the audio reproduction time information APTS into units called slots, as shown in FIG. 4, and stores them together with the address of each audio data in the compressed audio buffer unit A21. Therefore, the audio reproduction time information management unit A22 stores the value of the audio reproduction time information APTS and a pointer to the address where the compressed audio data related thereto is stored.
  • Step 301 and Step 302 is appropriately changed according to the order of input of the video signal and the audio signal to the input unit 1.
  • the compressed audio buffer unit A21 has a write pointer to which the latest write position moves to the final point where data is written.
  • the compressed audio buffer unit A21 also has a read pointer for specifying a read position of the compressed audio data, and the position of the read pointer is updated by reading the compressed audio data by the audio decoding unit A4.
  • the compressed audio buffer unit A21 is a ring-shaped storage unit in which data is written up to the final address and the write position returns to the first address. Therefore, it is possible to write the next data up to the position where the data is read, and the input unit 1 manages the writing of the compressed audio data while preventing the write pointer from overtaking the read pointer.
  • the video decoding unit A104 acquires compressed video data from the compressed video buffer unit A122, and acquires video playback time information VPTS from the video playback time information management unit A121 (step 303).
  • the audio decoding unit A4 acquires the compressed audio data from the compressed audio buffer unit A21, and acquires the audio reproduction time information APTS from the audio reproduction time information management unit A22 (step 304).
  • the video decoding unit A104 performs video decoding, and stores the decoded data in the frame buffer unit A141 (step 305).
  • the audio decoding unit A4 Before the playback time information APTS reaches the system time reference STC, audio decoding is performed, and the decoded data is stored in the PCM buffer unit A41 (step 306).
  • the video decoding unit A104 and the audio decoding unit A4 decode each data, but do not output decoded data immediately after decoding.
  • the audio decoding unit A4 refers to the system time reference STC, and when the audio playback time information APTS matches the system time reference STC, or when the audio playback time information APTS matches the system time reference STC. At that point, the audio decoding data related to the audio playback time information APTS is output from the PCM buffer unit A41 (step 307).
  • the video decoding unit A104 refers to the system time reference STC, and when the video playback time information VPTS matches the system time reference STC, or when the video playback time information VPTS exceeds the system time reference STC. At this point, the video decoding data related to the video reproduction time information VPTS is output from the frame buffer unit A141 (step 308).
  • the image and sound reproduction device may output a stream such as a Dolby Digital optical output terminal as it is.
  • the stream is stored in a stream buffer (not shown) and, when the audio playback time information APTS matches or exceeds the system time reference STC, the audio decode data associated with the audio playback time information APTS. Data is output.
  • the image and sound reproduction device ends the decoding.
  • the compressed video buffer unit A122 stores the compressed video data
  • the video reproduction time information management unit A121 Returns to the video signal storage step (step 301) for storing the video playback time information VPTS.
  • the video and audio playback device synchronizes the video playback time information VPTS and the audio playback time information APTS with the system time reference STC, and outputs video decode data and audio decode data.
  • video playback time information V PTS audio playback time information If the corresponding video decode data and audio decode data are output from the time 50 ms ahead of the APTS to the time 30 ms delay, the lip sync The deviation is of a degree that does not matter.
  • a commentary video of the content creator is superimposed on a video of the main part, which is a normal reproduced video, in a sub-screen, and the video of the main part is displayed.
  • a sound corresponding to a commentary video hereinafter, referred to as “sub-sound”
  • main sound a sound to be reproduced
  • the commentary video is a video for explaining the video of the main part.
  • the commentary video is a commentary video that allows the commentator to explain the place name and the like of the landscape.
  • the sub-audio is audio that explains the main video that is output when the commentary video is projected and is output together with the commentary video.
  • FIG. 6 is a diagram showing an example of a temporal relationship in which a main video and a commentary video are displayed.
  • the video of the main part is displayed throughout the beginning of the program, and the commentary video is displayed a plurality of times during the program for a predetermined period shorter than the length of the program.
  • the sub-audio is output when the commentary video is displayed as described above.
  • the time during which the commentary video is displayed may be longer than the time during which the main video is displayed.
  • the time during which the secondary sound is output may be longer than the time during which the main audio is output.
  • FIG. 7 is a block diagram showing a configuration of an image reproducing apparatus that superimposes a commentary video on a main video.
  • the video decoding unit A 104 decodes the video data of the main video
  • Section B 105 decodes video data of commentary video. Synchronization of each decoded data decoded by the video decoding unit A104 and the video decoding unit B105 is managed by video playback time information VPTS and the like in each video stream. When the video playback time information VPTS matches the system time reference STC, the decoded data obtained by the video decoding unit A104 and the decoded data obtained by the video decoding unit B105 are output. The decoded data can be output in synchronization.
  • one of the main video and the commentary video is a video with 24 frames per second and the other is a video with 30 frames per second.
  • the image processing unit 160 converts the format of the video obtained from the movie material so that there are 30 frames per second, and then enlarges one or both of the two images. And shrink.
  • the frame synchronization section 162 performs frame synchronization of the two images.
  • the composite output unit 161 outputs two images by superimposing one image on the other image. As a result, the main video and the commentary video are superimposed and displayed after being synchronized.
  • FIG. 8 is a block diagram showing a configuration of an audio reproducing apparatus for superimposing a main audio and a sub audio.
  • the input unit 1 stores compressed audio data of main audio and audio reproduction time information APTS in the audio buffer unit A2, and stores compressed audio data of sub audio and audio reproduction time information APTS in the audio buffer. Store in part B3.
  • the synchronization setting unit 11 assigns each audio reproduction time information APTS of the sub audio to the time axis T specified by each audio reproduction time information APTS of the main audio.
  • Each audio playback time information of the main audio APTS is "MOO", “Mil”, “M2 0 “,” M29 “,” M40 “, and” M52 ", each block is marked with” SOO “and” SOO "on the time axis T.
  • S09 “,” S20 “,” S31 “, or” S40 " are assigned to each audio reproduction time information A PTS of the sub-audio indicated by a block.
  • the synchronization setting unit 11 retains the difference between the values of the adjacent audio reproduction time information APTS of the sub-audio and allocates each audio reproduction time information APTS of the sub-audio on the time axis T.
  • the synchronization setting unit 11 assigns each audio reproduction time information APTS of the sub-audio to a value obtained by adding a value "11" to the value of each audio reproduction time information APTS of the sub-audio. For example, when audio reproduction time information “S09” of the sub-voice is assigned on the time axis T, the synchronization setting unit 11 adds the value “09” to the difference value “11”, that is, the value “09”. Assign audio playback time information "S09” to "M20".
  • each audio reproduction time information APTS of the sub-audio is allocated on the time axis T in a state where the difference between the values of the adjacent audio reproduction time information APTS of the sub-audio is maintained.
  • the main audio and the sub audio are reproduced using the audio reproduction time information APTS, the main audio and the sub audio are reproduced in synchronization.
  • the audio decoding unit A4 decodes the compressed audio data of the main audio stored in the audio buffer unit A2, and refers to the audio reproduction time information APTS to Plays audio at the time synchronized with the system time reference STC.
  • the audio decoding unit B5 decodes the compressed audio data of the sub-audio stored in the audio buffer unit B3, and refers to the audio reproduction time information AP TS, so that the audio is decoded at a time synchronized with the system time reference STC. Reproduce .
  • the main sound and the sub sound are reproduced in synchronization.
  • the difference between the audio playback time information “MOO” at the beginning of the main audio and the audio playback time information “SOO” at the beginning of the sub audio is a value “11”. Is recorded, for example, in the header of the stream, and is generated when the start time of the commentary video (sub-audio) is specified in advance. The difference may be “0”. That is, the main sound and the sub sound are You may start at the same time.
  • the start time of the sub audio is set by a user's remote control operation or the like, the difference is the difference between the main audio playback time information and the main audio playback time information at the start start time.
  • One recording medium (such as a disc) stores an audio stream of compressed audio encoding data of the main audio and the sub audio, a flag information S for identifying the main audio and the sub audio, and the audio stream of each audio stream. It is stored in the bit stream header information.
  • the main sound is selected and reproduced from Dolby Digital 5. lch Japanese sound, Dolby Digital 5. lch English sound, and linear PCM2ch sound.
  • the author's commentary Dolby Digital 2ch English audio is played.
  • Each audio stream stores audio reproduction time information APTS. The user selects the main sound and the sound for simultaneous reproduction of the sub sound by selecting the menu of mixed reproduction of the sub sound and the main sound.
  • the main voice is English and the sub-voice is any of Japanese, French, and German, and that there are a plurality of sub-voices. It can be assumed that there are a plurality of them.
  • the user selects the sound to be reproduced.
  • a content such as a movie
  • an identifier for identifying the main sound for playing the scene of the movie and an identifier for identifying the sub-sound that explains the ingenuity in creating the movie creator are previously written in the content.
  • the main audio and the sub audio are distinguished from each other, and both can be reproduced in synchronization. As a result, the user can reproduce the main sound and the sub sound in synchronization.
  • Fig. 10 shows a state in which audio playback time information APTS is added to each audio stream when the main audio is lch and the sub audio is 3ch.
  • the secondary audio is, for example, an audio stream of English audio, Japanese audio, and Korean audio.
  • any of the sub-audios is reproduced in synchronization with the main audio by the operation of the synchronization setting unit 11 described above. can do.
  • the audio frame size of each data may be different due to the difference in the audio coding method between the main audio and the sub audio.
  • audio playback time information APTS is added to each audio stream, the main audio and sub audio can be separated by using the system time reference STC and each audio playback time information APTS. Can be played back in synchronization.
  • a plurality of audio decoding units are configured to have processing independence, even if the audio frame processing unit differs due to the difference in encoding system, each audio stream will be encoded with its own audio playback time information APTS. And can be reproduced in synchronization.
  • the sampling rate of the main audio and the sampling rate of the sub audio may be different.
  • the rate converter 7 converts the sampling rate of one reproduced audio signal according to the sampling rate of the other reproduced audio signal.
  • the main audio and the sub audio can be reproduced at the same sampling rate.
  • the rate conversion unit 7 adjusts the sampling rate of the sub audio to the sampling rate of the main audio.
  • the main sound and the sub sound are reproduced at a fixed sampling rate regardless of the presence or absence of the commentary sound, so that the user can hear the main sound and the sub sound without feeling uncomfortable.
  • a method of converting the sampling rate there is a method of using a DA converter that converts digital audio to analog audio and an AD converter that performs the reverse operation to convert digital audio back to analog audio and convert it. is there.
  • a method of converting to a desired sampling rate by using a semiconductor circuit as a sampling rate converter a method of generating a rate-converted sound by thinning-out or interpolation, which is easily applied when the sampling rates are in a multiple relationship, etc. There is.
  • a method of selecting an audio signal having a main sampling rate in a case where the identifiers of the main audio and the sub audio are not recorded will be described.
  • a continuous audio playback section selects an audio signal having a longer length, and a continuous audio playback section has a shorter sampling rate of an audio signal having a shorter audio playback section.
  • a sub-sound is inserted as a commentary to assist the main sound, such as commentary on a specific scene, the sound reproduction section of the sub-sound is shorter than that of the main sound.
  • the longer playback section is selected as the audio signal having the main sampling rate, and the sampling rate of the shorter playback section is converted in accordance with the sampling rate of the selected audio signal.
  • the reproduction of the sub-sound may start in the middle of the story and end in the middle, for example, only a specific scene is played. If the longer audio playback section is selected as the audio signal having the main sampling rate, the time during which the audio having the same sampling rate is played becomes longer, and the time during which the user feels uncomfortable becomes shorter.
  • the audio signal having no intermittent audio reproduction section is selected, and the sampling rate of the audio signal having the intermittent audio reproduction section is selected. Adjust to the sampling rate of the audio signal without the intermittent audio playback section. For example, when reproducing an audio signal having an intermittent commentary playback section for each scene, the sampling rate of an audio signal having an intermittent audio playback section is converted so as to match the non-intermittent one.
  • the sampling rate of the audio signal having a lower sampling rate is changed to a higher sampling rate. Convert together. In other words, the high-quality audio signal is left as it is, and the other audio signals are up-sampled and rate-converted to be synthesized.
  • the sampling rate ratio of the two audio signals is a multiple of the other, it is possible to simplify the circuit that synthesizes the voice after the rate conversion. For example, if the sampling rate of one audio signal is 96 KHz and the sampling rate of the other audio signal is 48 KHz, or if one is 48 KHz and the other is 24 KHz, frequency interpolation is used.
  • the synthesized audio signal data can be added as is, making it easy to synthesize.
  • an audio signal having a lower sampling rate is selected, and the sampling rate of the audio signal having a higher sampling rate is set lower.
  • the conversion may be performed in accordance with a different sampling rate.
  • This method is used when the transmission band for audio output is limited or when high-quality reproduced audio is not required. For example, assuming a case where audio data is transmitted using a specific transmission path, an effect of reducing the transmission amount of audio data can be expected by performing conversion in accordance with a low sampling rate. Also in this case, if the sampling rate ratio of the two audio signals is a multiple of the other, the circuit that synthesizes the audio after the rate conversion can be simplified.
  • the sampling rate of one audio signal is 96 kHz and the sampling rate of the other audio signal is 48 kHz, or if one is 48 kHz and the other is 24 kHz, the frequency is Since the thinned audio signal data can be added as it is, it is easy to synthesize!
  • an audio signal consisting of continuous audio playback sections whose sampling rate is not changed in the middle is selected, and the sampling rate of the audio signal whose sampling rate is changed in the middle is selected. Is converted to the sampling rate that does not change. Use this method when there are multiple commentaries or the sampling rate of the main audio is changed occasionally.
  • audio mute may be required at the point where the sampling rate changes. Therefore, it is preferable to mainly select the audio signal whose rate is not changed. The number of sections in which the audio is muted is reduced, and continuous audio reproduction can be easily realized.
  • the encoding method of the encoding program to be decoded and the operation of the hardware may be different. You may need to change circuit settings. In such a case, it is necessary to clear the compressed audio data and information such as the read pointer and the write pointer stored in the paired compressed audio buffer together with the initialization of the audio decoder. It is necessary to delete the audio playback time information APTS and the storage address pointer information in the audio playback time information management unit that can be used only with the compressed audio buffer unit. This audio buffer information needs to be cleared only by the person whose coding method and sampling rate are changed. If it is not changed, the user should be aware of the switching by continuing to decode and play back the compressed audio data. You can enjoy playing the sound that you hear.
  • the addition ratio processing unit A8 and the addition ratio processing unit B9 change the reproduction output level. For example, on a recording medium or the like, addition ratio information indicating an addition ratio of sub-audio such as commentary to main audio is stored in header information of each audio stream or a stream of sub-audio such as commentary.
  • the addition ratio processing unit A8 and the addition ratio processing unit B9 apply the addition ratio to one or both of the main sound and the sub sound with a value according to the addition ratio information.
  • the main voice and the sub voice are synthesized.
  • the addition ratio processing unit A8 and the addition ratio processing unit B9 add both the main sound and the sub-sound to the original sound by lowering the output level to 0.7 times or the like.
  • the reproduction output level of the arbitrary one audio is synthesized with the other audio.
  • the reproduction output level of any one of the aforementioned voices is not reduced.
  • the playback output level is a fixed value "1" and two voices are synthesized
  • the playback output level of the voice to be added is reduced from the fixed value "1" to "0.6”
  • the voice on the added side can be emphasized and heard.
  • the voice to be synthesized is commentary voice, if you want to listen carefully to the explanation, increase the playback voice level of the commentary voice and decrease the playback voice level of the main voice.
  • any one original sound can be replaced with the other. If the other audio level is set higher by the user's intention in the part that synthesizes the audio, any one of the original audio output levels is reduced according to the increment of the other. This is because if one is added at the same volume while the other is increased, a signal component exceeding the reproduction dynamic range is generated in a part of the sound after the addition, resulting in sound noise such as clipping. This is because there is a possibility that the sound will be generated and the sound will be very difficult to hear. Conversely, when the output level of the sub sound is lowered, the addition ratio of the main sound may be relatively increased.
  • the addition output unit 10 synthesizes the voice. In that case, the number of playback channels for each audio may be different.
  • FIG. 11 shows a configuration example of the addition output unit 10 (the rate conversion unit 7 is omitted for simplicity of the drawing.) 0
  • the addition ratio is adjusted according to the number of reproduction signal channels of the arbitrary one audio. After the processing is performed, the addition output unit 10 integrates or distributes the number of channels of the reproduction signal of the other audio and synthesizes them.
  • the addition channel information of the sub-audio such as the commentary for the main audio is stored in the header information of each audio stream or the stream on the commentary side, and is recorded on a recording medium or the like.
  • the addition output unit 10 synthesizes speech with a value according to the addition channel information.
  • the addition output unit 10 synthesizes the sub audio into the center channel of the main audio.
  • the addition channel information includes the mixing level and channel mapping of each addition channel, addition channel information such as addition restriction information for a specific channel, the sampling rate, the number of sampling bits for each channel, and the data rate of the compressed stream. Can be specified. Furthermore, if there is detailed addition ratio information such as an addition volume coefficient table along with the addition channel information, the sub audio is added to the front right channel of the main audio by lowering the output level by 0.7 times, etc. The output level is reduced to 0.7 times, etc. and added.
  • the audio reproduced by the audio decoding unit A4 is 5.1 ch and the audio decoding unit B5 outputs If the reproduced sound is monaural lch, the (first) cell is added as a destination of the sound reproduced by the audio decoding unit B5.
  • the addition ratio of the other channel is changed as necessary in consideration of the balance with other main audio channels as well as the change such as reducing the gain of the main audio of the addition channel. It is desirable that the addition ratio can be set flexibly at the request of the user in order to raise the volume of the main audio by lowering the volume of the main audio if the volume of the sub-audio is increased, and to increase the volume of the main audio by lowering the volume of the sub-audio.
  • the addition unit sets the addition ratio for executing the addition of the voice without clipping.
  • the addition ratio first set the clipping channel to a value that does not cause clipping, and then set the addition ratio of the other channels again according to the output relative level with the channel for which the addition ratio has been set. And so on.
  • a configuration in which the user sets the addition ratio for each channel may be provided. Therefore, each addition ratio processing unit Is added according to the number of reproduction channels.
  • the addition value is changed according to a user's instruction, if a process such as pausing the reproduction, muting the sound, and changing the addition coefficient is performed, an abnormal sound or the like occurs during the change. It is possible to realize the change of the added value without performing. If a detection unit is provided to detect the clipping before multiplying the decoded audio by the addition ratio and synthesizing and outputting, the addition ratio processing unit A8 and the addition ratio processing unit B9 automatically change the addition value. By doing so, the addition ratio can be changed again, and synthesis can be performed again so that clipping does not occur, thereby preventing generation of abnormal noise.
  • a processing unit is provided for changing the addition coefficient so that the audio output level gradually decreases and becomes a level at which clipping does not occur, in response to a case where the detection unit finds a point in time at which clipping occurs. This makes it possible to provide a device in which abnormal noise is not output continuously.
  • the synthesis of sound may be affected by the configuration of an external device connected to the sound reproducing device.
  • the external sound device 92 shown in FIG. 12 is connected to a sound reproducing device.
  • the connected speakers may have only three channels, even if the original playback content has 5.lch.
  • the number of channels of one arbitrary audio signal is integrated or distributed according to the number of channels of the external audio device 92, and the number of channels of the other audio signal is integrated or distributed and synthesized. I do.
  • the number of channels to be reproduced and output may be changed by the user.
  • the number of the reproduction signal channels of any one of the sounds is integrated or distributed according to the setting of the external sound device 92 or the output unit in the sound reproduction device to the channel designated by the user for sound output.
  • the user can set all or part of the audio output and automatically add the value required for the addition ratio processing.
  • the audio playback device can be set.
  • the L channel of the main sound also outputs the power of the first speaker.
  • the R channel of the main audio is output from the second speaker.
  • the C channel of the main audio, the FL channel of the sub audio, and the FR channel of the sub audio are calorie-calculated and output from the third speaker.
  • the channel to which the sub sound is added may be temporally changed.
  • the V of the secondary audio, the shifted channel or both channels are first added only to the L channel of the main audio, then to the L channel of the main audio and the C channel of the main audio, and then to the main audio Channels that add over time, such as adding only to the C channel of the main audio, then adding to the C channel of the main audio and the R channel of the main audio, and finally adding only to the R channel of the main audio.
  • an external video device 91 or an external audio device 92 is connected to the audio reproducing device, and the audio reproducing device specifies the external device such as the device ID of the externally connected device.
  • Information on the number of speakers that can be output by recognizing the If the configuration is such that the setting information of the channel to be synthesized with the voice is obtained and the selection of the addition before and after each output process at the time of the variable speed reproduction is set, the convenience is further improved.
  • the audio playback device receives an ID number or the like for knowing the type of the output device of the other party, and sets various setting conditions by referring to a table in the main body or a memory card for setting conditions. With such a configuration, it is possible to synthesize the main sound and the sub-sound according to the number of channels that can be output without the user's operation on the sound reproducing device.
  • FIG. 15 shows the configuration of two devices connected by HDMI.
  • a line 87 for exchanging device-specific information and a ROM 85 for storing device-specific information are displayed.
  • the source device 81 and the sink device 82 perform an authentication procedure to confirm that the source device 81 and the sink device 82 can be connected to each other.
  • device-specific information data is sent.
  • the audio playback device which is the source-side device 81, obtains the device-specific information of the external video device 91 and the external audio device 92 by this method, it can limit the number of composite channels and the restriction information of the composite image format. Earn and change settings. If the acquired information is configured to be stored as default setting values by the audio reproducing apparatus, the AV viewing can be performed in the same state as long as the device connection does not change. Whenever there is a change in the connected device ID, etc., the information on the partner device side must be received and the setting changed.
  • the synthesized output of the main sound and the sub sound is performed by synthesizing and outputting the PCM data stored in each PCM buffer.
  • the PCM data is transmitted to the external audio equipment 92 by outputting the PCM data from an audio DAC built in the audio playback device or from an optical digital cable compatible with a digital audio interface standard such as IEC60958. Can be played.
  • the PCM data created by synthesizing the main sound and the sub-sound is subjected to audio coding, thereby obtaining a digital code such as a Dolby Digital system.
  • the data may be converted into data and output to an externally connected device by an optical digital cable, an HDMI cable, or the like, according to an audio digital interface standard such as the IEC61937 standard of a compression encoding stream.
  • These externally connected devices are assumed to be monitor output devices such as TVs, audio output amplifiers, interface devices such as AV amplifiers having an AV selector function, portable output devices, in-car AV playback devices, and the like. You.
  • the addition output unit 10 performs audio output of the audio data that has been subjected to the addition ratio processing in each addition ratio processing unit at the same sampling rate without causing audio clipping. In addition, when the sampling rate is converted or when the addition ratio is changed, the continuity of the sound cannot be maintained.
  • the speech synthesis unit 6 includes a rate conversion unit 7, an addition ratio processing unit A8, an addition ratio processing unit B9, and an addition output unit 10.
  • the power rate conversion unit 7 described in the case where the rate conversion unit 7 is provided only on the audio decoding unit B5 side may be provided on the audio decoding unit A4 side, or on the audio decoding unit A4 side and the audio decoding unit B5 side.
  • a configuration in which each of the decoding units decodes three or more compressed audio data and synthesizes the two or more voices is also possible.
  • the system time reference itself serving as the reference of the entire system is made variable and the update of the reference value of the system time reference signal is made variable, a plurality of synchronous reproductions based on the reference value information can be performed. By synchronizing and decoding the audio reproduction time information of the audio signals, the two can be synchronized with each other.
  • the encoded data stream of the compressed audio data for the sub-audio is not limited to the one provided with one recording medium, but may be the input of a device connected via a network. Also, a recording medium power different from the recording medium on which the main audio is recorded may be provided. Both may be downloaded and played back from external devices connected via a network. In some cases, the information is recorded in advance in a recording device such as a device-specific semiconductor or a hard disk device, or recorded as an initial setting. In any case, synchronous reproduction can be performed if the audio reproduction time information is associated with each other in order to ensure synchronous reproduction of the main voice and the sub-audio. If they are not related, they will not play at the same time. In any case, it is not necessary to play back with the playback time information.
  • the input stream is not limited to a stream recorded on a recording medium such as a DVD or a stream recorded by receiving a digital broadcast signal. It may be a stream in which an analog signal from the outside is digitally encoded and encoded.
  • AV synchronization can be achieved at the time of playback.
  • a system that realizes post-recording playback by encoding another audio stream synchronized with the original playback audio and adding audio playback time information with reference to the audio playback time information of the original audio stream. can do.
  • the commentary video is displayed a plurality of times during a predetermined period shorter than the length of the main video.
  • the commentary video may start in the middle of the main video and may not be finished even after the main video is completed. Accordingly, the sub sound does not end even when the main sound ends (see "SB" part in Fig. 16).
  • the sub-audio is reproduced in synchronization with the main audio according to the audio reproduction time information APTS of the main audio.
  • the sub sound may be played back according to (1) the system time reference STC, or (2) predicting the audio playback time information APTS of the main sound after the end of the main sound.
  • the main audio may be reproduced according to the audio reproduction time information APTS, or (3) the sub audio may be reproduced according to the audio reproduction time information APTS.
  • the commentary video may be displayed enlarged.
  • a sound effect (for example, a buzzer sound) may be synthesized with the main sound.
  • the audio playback time information APTS is included in the signal of the sound effect, the sound effect is processed as the auxiliary sound, and the audio effect is synchronized with the main audio and the auxiliary audio by using the audio reproduction time information APTS. May be played back.
  • the sound effect signal does not include the audio playback time information APTS, the playback time information APTS of the main audio corresponding to the playback start time of the sound effect is defined as the audio playback time information of the sound effect. If this is the case, synchronous reproduction can be performed similarly.
  • ch audio signal must be integrated into 3 channels due to limitations on output speakers, etc., that is, if it is output on 3 channels of "TL”, “TR”, and “TC”, the main audio signal
  • "L” and “SL” of synthesized speech are “TL” of integrated speech
  • "R” and “SR” of synthesized speech are “TR” of integrated speech
  • "C” and ""SUB” is integrated into 3 channels of "TC” of integrated voice.
  • the attached data is information for specifying the number of channels, the encoding method, the sampling rate, the audio reproduction section, and the like of each audio signal. Further, the attached data may include addition ratio information and addition channel information. It may also include information for specifying the start time of the sub sound. Thus, the sound reproducing apparatus can easily synthesize or integrate a plurality of sounds.
  • FIG. 8 is a block diagram showing the configuration of the audio reproducing apparatus according to the second embodiment, the configuration and the audio reproducing method of the audio reproducing apparatus according to the second embodiment will be described.
  • the audio reproducing apparatus separates a plurality of audio signals from the input compressed audio data card, reads out the respective audio reproduction time information, and outputs an audio signal of one of the audio signals.
  • the main audio signal is decoded based on the playback time information, and the other audio signal is decoded.
  • the audio decoder has a processing capability equal to or higher than the normal reproduction speed process and has the capability of performing the audio output reproduction process at a variable speed
  • the audio decode of one of the audio signals is performed at the time of the reproduction at the variable speed process.
  • FIG. 20 is a diagram showing a flow of a process of selecting whether to add a sub-sound to a main sound before or after a variable speed process after an audio decoding process, and synthesizing and reproducing the sound.
  • the result of the audio decoding is stored in the PCM buffer unit.
  • step 331 either before or after the audio synthesis processing is selected. The criteria will be described later.
  • step 332 If before the audio synthesis processing is selected (Yes in step 331), in step 332, the audio playback time information of the main audio and the audio playback time information of the commentary sub audio match (within the allowable output time difference). If they match, for example, within several tens of ms), the auxiliary sound such as commentary is added to the main sound, and in step 333, audio variable speed processing is performed. On the other hand, if after the audio synthesis processing is selected (No in step 331), in step 334, the main audio is subjected to audio variable speed processing, and in step 335, the sub audio is added to the main audio. In step 307, the audio obtained by adding the sub audio to the main audio is output in synchronization with the video output.
  • FIG. 21 is a block diagram for explaining a method of performing variable speed control of audio output processing section 61 according to the second embodiment.
  • the variable speed control when performing the reproduction speed conversion function shown in FIG. 22 is performed. Examples are described in detail below.
  • the audio signal from the PCM buffer unit A41 is input to the variable speed processing unit 62, and the variable speed processing described below is performed. After that, the audio signal is temporarily output to the output buffer 63 And output to the speech synthesizer 6.
  • variable speed playback There are several methods for implementing variable speed playback. The first is a method of repeating normal speed reproduction and skip reproduction, and the second is a method of actually performing high-speed decoding.
  • the variable-speed processing unit 62 in the audio output unit which does not play back all audio frames, uses a specific audio frame so that the playback time is reduced by half after audio output processing conversion. Is created, and the reproduced audio data is created and stored in the output buffer unit 63. Then, the audio reproduction time information APTS value corresponding to the audio frame portion to be reproduced is obtained.
  • the video output unit performs AV synchronization by skipping display of a specific frame in order to acquire synchronization information and output a video corresponding to the corresponding audio reproduction time information APTS.
  • AV playback at the time of variable speed playback is achieved by performing video display in synchronization with audio playback time information APTS when skip playback is performed in audio frame processing units.
  • variable speed processing can be performed after adding the other decoded sound after the audio decoding processing.
  • the audio output processing unit 61 performs variable speed processing, so that the added sound can be output in synchronization with the variable speed processing of the decoded sound. is there.
  • the sub sound can be added to the main sound after the variable speed processing. Since the sub-sound is added to the main sound after the audio output processing unit 61 performs variable-speed processing, even if the decoded sound is subjected to variable-speed processing, the added sub-sound must be added at the normal speed sound. Can be.
  • the input unit 1 fetches data faster than the input speed required for normal reproduction, divides it into a video stream and an audio stream, and stores the stream in each buffer unit. Thereby, the plurality of video decoding units and the plurality of audio decoding units are activated.
  • Each decoder performs decoding at a speed higher than the normal playback speed (effectively using the given resources regardless of the playback speed), and decodes each frame buffer and PCM buffer. Stores the code result.
  • audio decoding processing capacity is required to be higher than normal reproduction speed processing. For example, in order to maintain a reproduction speed of about 1.3 times, it is desirable to have a decoding processing capacity of about 1.5 times slightly higher than the reproduction speed. This requires not only the decoding processing performance but also the read processing performance of the playback media power and the same performance in the transfer processing performance.
  • audio data stored in a PCM buffer or the like is processed as follows.
  • the upper side shows data at the normal speed before variable speed processing
  • the lower side shows high speed data after variable speed processing.
  • the upper part shows the case where 6 audio frames (one audio frame is about 10 ms or more) are normally played in the time T1.
  • the lower part shows the case where the playback of the first and second audio frames is overlapped, and as a result, six audio frames are played at the time of T2, which is five sixths of T1.
  • the compression ratio is defined as the value obtained by dividing the time length after processing by the time length before processing
  • the speed ratio is the reciprocal of the compression ratio. Therefore, here, high-speed reproduction is performed at 6/5 (1.2 times).
  • variable speed control in the audio output processing unit 61 is performed, and another decoded sound is added after the audio decoding process. If a means is provided for selecting whether the voice is subjected to the addition processing after the variable speed processing, the added data voice can be reproduced at a pitch different from that of the original sound.
  • the synchronization between the main playback audio and the sub audio is as described above.
  • it is sufficient to add by referring to the PTS of another audio based on the PTS originally calculated for all audio frames.
  • a rule may be determined in advance as to which of the overlapping audio frames the PTS in the overlapping portion of the audio frames should be valid.
  • the audio reproducing device may reproduce the currently reproduced main audio so that the reproduction continuity is maintained. At this time, sampling rate conversion, addition value conversion, output channel change, and the like may be performed in the same manner as in the previous embodiment.
  • AV synchronous playback is easy if audio playback time information APTS, which is an audio playback reference time, is used.
  • a determination unit for determining the content content of a playback stream is provided as selection means for addition for playback synthesis.
  • the timing for adding the audio information extracted from the data at the time of playback either before or after the audio output processing, or adding the text or character information with the extracted data power
  • the timing for adding the audio information extracted from the data at the time of playback either before or after the audio output processing, or adding the text or character information with the extracted data power
  • a selection unit for addition a selection unit for selecting the content reproduction processing content specified by the user is provided. According to the result obtained by the selection unit, the timing for adding the audio information extracted from the data is either before or after the audio output processing, or the timing for adding text or character information from which the data power is also extracted. Then, either before or after the video output processing can be selected and reproduced.
  • calorie calculation according to a user's instruction such as whether to add voice information and text information before variable speed processing or to add voice information and text information after variable speed processing is selected. it can.
  • a determination unit for determining the content content of the stream to be reproduced and the usage by the user is provided. According to the result obtained by the determination unit, at the time of reproduction, as a timing for adding the audio information extracted from the data output, either before or after the audio output process is selected, or text or character information extracted from the data output is used. As the timing for addition, either before or after the video output processing can be selected and reproduced.
  • voice information and character information are added before the variable speed process in the variable speed process according to the user's instruction, but in the pitch change process in which only the pitch is changed, the pitch is changed.
  • the addition before and after each output process can be selected by taking into account the user's instruction in addition to the content, such as adding voice information and text information after the change process.
  • FIG. 8 is a block diagram showing the configuration of the audio reproduction device according to the third embodiment
  • FIG. 21 which shows the configuration of an audio output processing unit for performing variable speed control
  • the audio reproduction device of the third embodiment will be mainly described.
  • the configuration and audio reproduction method will be described.
  • the audio output processing unit 61 is not limited to performing the variable speed reproduction process.
  • a process of changing the pitch of the decoded voice may be performed.
  • a digital broadcast signal is received and recorded, and at least a stream in which audio is encoded is played back while ensuring time synchronization
  • the audio information extracted from the data is used for audio synthesis processing using synchronization information.
  • the audio output processing unit 61 can also perform an acoustic effect process to which various surround effects are added. It is possible to change whether the surround effect is performed after adding the sub sound or the sub sound is added after the surround effect is added. As a result, it is possible to change the sense of spread of the sub-voice and the output speaker destination.
  • the audio output processing unit 61 may perform a delay setting effect in consideration of a synchronization processing delay between the video processing and the audio processing. When the output delay of the connected video equipment and audio equipment is configured to be able to be set by the audio playback device, set the power to add the sub-audio before applying the delay, and set whether to add the sub-audio after the delay. Can be.
  • FIG. 7 and 8 which are block diagrams showing the configurations of an image reproducing device and an audio reproducing device according to the fourth embodiment
  • FIG. 23 which is a flowchart showing a method of synchronously reproducing a plurality of videos according to the fourth embodiment.
  • the configuration of the image reproduction device and the audio reproduction device, and the image reproduction method and the audio reproduction method according to the fourth embodiment will be described with reference to FIG.
  • step 351 When skipping after combining (Yes in step 351), the result decoded by the video decoding unit B105 is stored in the frame buffer unit B151 (step 405). Then, in step 352, if the playback time information of the video decoding unit A104 and the playback time information of the video decoding unit B105 match (within the allowable output time difference, for example, within 33 ms), the decoded image is decoded. After the superimposition, in step 353, an image skip output process is performed.
  • Step 354 after skipping in the image skipping process, in Step 355, the video decoding unit that matches the playback time information of the video decoding unit A104 The decoded image of the playback time information of B105 is superimposed. Then, in step 308, an image is output in synchronization with the audio output.
  • either one before or after the video output process is selected based on the synchronization information at the time of the other video decoding, and the image is synthesized and reproduced. For example, after adding the other image to the decoded image, the output of synchronizing one image and the other image in the image skip output process is skipped by the image skip process, and then the other decoded image is added. By doing so, the way of outputting the added image can be changed.
  • the video skip processing is performed, and the video that matches the video playback time information VPTS to be displayed is added to the other video.
  • the decoded images may be added.
  • the video skip processing is performed, and only the video playback time information VPTS of the video to be displayed and the decoded image whose playback time information matches are selected and added. I do.
  • the addition that matches the time information after the video synthesis processing does not depend on the video playback time information VPTS of the displayed video after performing the video skip processing, and Code images are added and displayed.
  • This skip processing corresponds to high-speed I playback in which only I pictures are played back and P pictures and B pictures are skipped, and IP playback in which only B pictures are skipped. These do not play back B pictures, depending on whether the input unit 1 discards B-picture data or discards it after decoding. Therefore, the reproduction time information for reproducing the image of the B picture is not required. Therefore, at the time of high-speed reproduction with skips or the like, the reproduction time information of the finally output image is valid.
  • each frame buffer unit is added by the image synthesizing unit 106, the addition result is output as a video.
  • the processing waits until the frame output time synchronized with the next data without performing the addition processing.
  • the time difference between each PTS is about 33 ms.
  • the synthesizing of the main audio data and the sub-audio such as commentary in the PCM buffer section may be synchronized by the same principle. In this case, if the difference is within 10 ms (accuracy of several ms to several tens ms due to the difference in audio compression method), it is determined that synchronization is established, and a synthesized sound can be generated.
  • the currently output or output PTS value is referred to, the PTS value is converted to reproduction time information, and the video data and audio data are converted. If the time for synchronizing with the data is set, the data can be synthesized in the same manner as in the normal synchronous reproduction.
  • seamless playback there are the following methods for seamless playback so as to maintain continuity between the two as much as possible.
  • seamless editing is performed mainly on video.
  • the audio reproduction for the video before the connection point is performed by one audio decoding unit A4 until the last reproduction time before the seamless connection point.
  • decoding is performed in the audio corresponding to the playback time of the first image of the next seamless connection point, and preparations are made so that sound can be output at the synchronization time.
  • playback can be performed so that both decoded audios are switched! If necessary, apply audio and fade processing.
  • the image processing unit 160 is provided when images are combined by the image combining unit 106 after video decoding, if output size conversion such as enlargement / reduction of a combined screen is set after decoding, child screens are combined. In this case, it is possible to select whether to combine the sub-screens after reducing the size or to cut out a specific part and enlarge it! Selection of partial enlargement or reduction of the original screen Selection is also possible.
  • conversion from high resolution to low resolution for the output TV monitor or vice versa for example, conversion from standard resolution of 4801 to high resolution of 10801
  • various format conversions such as output format conversion of NTSC, frequency format conversion between NTSC system and PAL system, and IP conversion to interlaced image quality progressive image quality will be implemented. These orders are not necessarily as shown in this example.
  • format conversion a plurality of format conversions (resolution format and output format, etc.) may be performed simultaneously. When two images are combined, such as when one is an NTSC image and the other is a PAL image, or one is a standard quality image and the other is a high quality image, etc. Is easy to combine if both formats are matched in advance.
  • these superimposed images are displayed by pasting a GUI screen or the like that assists the user's operation on the superimposed images, it is possible to combine the images with a screen size suitable for the GUI screen menu arrangement. It may be desired. For example, if the main image is displayed on the background screen, the commentary image is superimposed on the sub-image, and the transparent menu screen for setting various screens is superimposed on it, the image effect according to the setting menu is used. Is easy to confirm.
  • subtitles are called closed caption signals, and the specification specifies that display and non-display are switched by a user's remote control operation. Therefore, when applied to the embodiment of the present invention, it is desirable to select addition of each output processing and display selection according to a user's instruction. Furthermore, even when subtitle characters and the like are scrolled vertically and horizontally, or when various display effects are involved, such as when performing a wipe, if it is possible to select before and after various output processes, even when fast-forwarding. If important information is overlooked, or if all subtitles are not displayed and confirmed, the user will not be able to move on to the next screen display, thereby eliminating the messiness.
  • Such closed captions and similar examples of closed captions include not only US closed captions but also European teletext.
  • the audio information extracted from the stream data during the data broadcast is output as an audio output. It is possible to make settings such that they are added before the processing and the character information is added after the video output processing.
  • the audio information extracted from the data at the time of reproduction can be obtained before the audio output processing by the result obtained by the judgment unit.
  • an additional sound such as a buzzer, an after-recording sound for adding a plurality of recorded sounds, and a microphone echo sound for adding a microphone echo such as karaoke to an accompaniment sound are also output as audio.
  • the addition can be performed before or after the process is selected, the same effect as described above can be obtained.
  • the same effect can be obtained by selecting and adding the subtitles, superimposed characters, characters and graphics that you want to insert at the time of editing, before or after the video output processing. Is obtained. This can be achieved by installing a dedicated audio processing element or digital signal processor (DSP), or by using a high-performance CPU.
  • DSP digital signal processor
  • the input data has been described as data to which an external force is also input or data to be input from an external recording medium, the input data may be data that exists in the device in advance.
  • the input unit 1 separates input data into a video signal and an audio signal.
  • the video signal and the audio signal may be file data separated in advance.
  • a configuration in which the playback time information, the compressed audio data and the playback time information related to the compressed video data are input, and the compressed video data and the compressed audio data can be synchronized and played back using the respective playback time information.
  • an audio reproducing apparatus that performs the audio reproducing method of the present invention. This is a result of editing a signal shot by a video camera or the like on a personal computer.
  • Examples of application of the data reproducing method and the apparatus include a set-top box, a digital satellite broadcast receiver and its recording device, a DVD player or a DVD recorder, a VCD-related device, a hard disk recorder, and a personal computer. .
  • a set-top box a digital satellite broadcast receiver and its recording device
  • DVD player or a DVD recorder a VCD-related device
  • hard disk recorder a personal computer.
  • a personal computer By creating an AV playback program according to the audio playback method of the present invention, it is possible to load an external operation program into a personal computer or the like and perform an AV synchronous execution operation while synthesizing audio or images.
  • a part or all of the components shown in FIG. 2 may be realized by one integrated circuit (integrated chip). Further, some or all of the components shown in FIG. 7 may be realized by one integrated circuit (integrated chip). Further, some or all of the components shown in FIG. 8 may be realized by one integrated circuit (integrated chip). Further, a part or all of the components shown in FIG. 12 may be realized by one integrated circuit (integrated chip). Further, some or all of the components shown in FIG. 21 may be realized by one integrated circuit (integrated chip).
  • the audio reproducing method and the audio reproducing apparatus according to the present invention are based on a synchronous signal of a plurality of coded digital audio signals, and perform a plurality of operations such as changing a sampling rate even if the encoding system is different.
  • a plurality of operations such as changing a sampling rate even if the encoding system is different.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 本発明は、複数のデジタルの音声信号を同期させて再生する音声再生装置を提供する。  音声再生装置は、一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を、音声信号毎に隣接するオーディオ再生時刻情報それぞれが示す再生時刻の差を保持した状態で割り当てることにより、複数の音声信号を同期させる同期設定部11と、上記時間軸の上に割り当てられた複数のオーディオ再生時刻情報を利用して、複数の音声信号を合成する音声合成部6とを備える。                                                                                 

Description

明 細 書
音声再生装置、 音声再生方法及びプログラム 技術分野
[0001] 本発明は、圧縮符号化されたデジタルの音声信号を再生する音声再生装置に関 する。
背景技術
[0002] 近年、 CD— ROMや、 DVD-ROM,ハードディスク等の各種記録媒体に圧縮さ れて記録されたデジタルのオーディオ信号及びビデオ信号を読み取って伸張し、伸 張した信号を、自らに接続されているディスプレイ及びスピーカ等を通じて再生する 再生装置が広く普及してきて!/、る。
[0003] また、 BSデジタル放送、 CSデジタル放送、地上デジタル放送等の圧縮されたデジ タルのオーディオ信号及びビデオ信号を、記録して再生する装置も普及してきた。
[0004] オーディオ信号及びビデオ信号をデジタル信号に符号ィ匕して圧縮し、その後にそ の信号を復号するための既知の規格として、 MPEGが知られている。 MPEGでは、 多重化されて圧縮符号化されたオーディオ信号とビデオ信号とをデコードした後にォ 一ディォ信号とビデオ信号とを同期させて再生するために、オーディオ信号及びビ デォ信号それぞれは、符号時に、信号の再生及び表示を実行する時刻の情報 (以 下、「時刻情報」という。)が付加されて圧縮される。これにより、圧縮符号化されたデ ジタルのオーディオ信号及びビデオ信号を伸張する場合、再生装置は、自身が有す るシステム時刻基準参照値を基準にし、時刻情報を参照してオーディオ信号とビデ ォ信号とを同期させながら再生する。
[0005] 以下に、従来の再生方法について説明する。なお、出願人は、特許文献 1に開示 されている画像及び音声の再生方法を認識しており、本発明の課題を明確にするた めに、特許文献 1に開示されている再生方法を従来例として簡単に説明する。その 方法では、撮影時のアングルが異なる第 1及び第 2の画像を再生するために、各々 のアングルに対応するビデオ信号を別々の動画像復号手段に入力して復号し、別 々に復号された画像を結合して一つの画面に表示する。オーディオ信号についても 、同様にして、複数のオーディオ信号を別々の音声復号手段で同時に復号して再生 する。
[0006] 以下に、従来の音声の再生方法について図 1を用いて説明する。図 1は、その再生 方法を行なうデュアルオーディオデコーダ 183の構成を示すブロック図である。図 1を 参照して、デュアルオーディオデコーダ 183の具体的な構成を説明する。デュアルォ 一ディォデコーダ 183には、第 1のオーディオデコーダ 183a及び第 2のオーディオ デコーダ 183bと、第 1の音声選択回路 183c及び第 2の音声選択回路 183dとが設 けられている。例えば、日本語と英語の 2つのオーディオ信号を同時に再生する場合 、 日本語音声の信号である第 1のオーディオ信号は第 1のオーディオデコーダ 183a に入力され、そこでデコードされる。それと同時に、英語音声の信号である第 2のォー ディォ信号は第 2のオーディオデコーダ 183bに入力され、そこでデコードされる。
[0007] これらデコードされた第 1及び第 2のオーディオ信号は、第 1の音声選択回路 183c 及び第 2の音声選択回路 183dによって処理される。例えば、音声の出力チャンネル が左右 1チャンネルずつである場合、第 1及び第 2のオーディオ信号は、それぞれが モノラルで 1チャンネルずつ出力するように処理される。又は、第 1及び第 2の何れか 一方のみのオーディオ信号が 2チャンネルステレオで出力するように処理される。ま た、音声の出力チャンネルが左右 1チャンネルずつよりも多い場合、第 1及び第 2の オーディオ信号は、ステレオとモノラルの組み合わせ等で出力するように処理される。
[0008] 更に、ドルビーデジタル方式の 5 + 1チャンネル構成のオーディオデータについて は、第 1の音声選択回路 183c及び第 2の音声選択回路 183dは、出力可能な 5 + 1 チャンネルに対して、ステレオ 2チャンネルずつを出力したり、一方のオーディオデー タの 5 + 1チャンネルのみを選択して出力したりすることができる。
特許文献 1 :特開平 10— 145735号公報 (第 10— 11頁、第 4図、第 8図、第 9図) 発明の開示
発明が解決しょうとする課題
[0009] 特許文献 1は、複数のアングル力ものデータを、複数の動画像復号手段で復号し、 それらを映像データ結合手段によって結合して表示する方法にっ 、て説明して 、る 。また、特許文献 1は、動画データに言語の異なる複数の音声データが付加されて いる場合、各々の音声データを複数の音声復号手段で復号し、各々を混合して再生 する方法、及び何れかを選択して再生する方法にっ ヽて説明して!/、る。
[0010] し力しながら、特許文献 1では、 2種類のデータを混合するための詳細な実現手段 や、再生の同期を確立する手段については、具体的に述べられていない。音声だけ に限定しても、再生する 2種類の音声データのサンプリングレートが異なっていた場 合の混合方法や、各音声データの混合比、サラウンド音声とステレオ音声とのように チャンネル数の異なる音声データの混合方法、混合区間、各々の音声データの同期 の合わせ方について、何ら説明が無い。
[0011] 例えば、再生しょうとする音声が DVDのマルチ音声であったとしても、第 1音声がド ルビーデジタル方式で圧縮符号化され、第 2音声がリニア PCMで符号化されて 、る 場合、第 1音声をサンプリングレート 48KHzで 5. lchのサラウンド音声で、第 2音声 を 96KHzで 2chのステレオ音声で混合するためには、どちらかのサンプリングレート に一致させる処理や、混合する先を設定するための処理が必要である。
[0012] 何れにしても、複数のデジタルの音声信号を合成して再生する場合、複数の音声 信号を同期させて再生する必要があるが、これまでは、それを実現する手段が存在し ない。
[0013] 本発明は、上記課題を考慮し、複数のデジタルの音声信号を同期させて再生する 音声再生装置を提供することを目的とする。
課題を解決するための手段
[0014] 第 1の本発明の音声再生装置は、音声信号を再生して出力する装置であって、一 つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を 、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時刻の 差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同期手 段と、前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用 して、前記複数の音声信号を合成する合成手段とを備える。このように、本発明の音 声再生装置は、一つの時間軸の上に、複数の音声信号それぞれの複数のオーディ ォ再生時刻情報を割り当てるので、複数のデジタルの音声信号を同期させて再生す ることがでさる。 [0015] 第 2の本発明の音声再生装置は、前記時間軸が、前記複数の音声信号のうちの何 れか一つの音声信号の複数の前記オーディオ再生時刻情報によって特定される時 間軸であって、前記同期手段が、前記何れか一つの音声信号の前記オーディオ再 生時刻情報によって特定される時間軸の上に、他の音声信号の前記複数のオーデ ィォ再生時刻情報を割り当てる、装置である。このように、他の音声信号のオーディオ 再生時刻情報を、主なる音声信号のオーディオ再生時刻情報に合わせることにより、 複数の音声を同期させることができる。
[0016] 第 3の本発明の音声再生装置は、前記時間軸が、可変速再生されている前記何れ か一つの音声信号の複数の前記オーディオ再生時刻情報によって特定される時間 軸である、装置である。これは、可変速再生の場合においても、可変速再生されてい る音声信号のオーディオ再生時刻情報を利用してデコードすることにより、複数の音 声信号を同期させることができるという作用を有する。
[0017] 第 4の本発明の音声再生装置は、前記複数の音声信号はビデオ信号と多重化さ れており、前記時間軸が、前記ビデオ信号の複数のビデオ再生時刻情報によって特 定される時間軸であって、前記同期手段が、前記ビデオ再生時刻情報によって特定 される時間軸の上に、前記複数の音声信号それぞれの前記複数のオーディオ再生 時刻情報を割り当てる、装置である。これは、再生映像の出力に合わせて、音声同期 をはかるという作用を有する。
[0018] 第 5の本発明の音声再生装置は、前記時間軸が、可変速再生されている前記ビデ ォ信号のビデオ再生時刻情報によって特定される時間軸である、装置である。これ は、スキップ再生した映像出力に合わせて、スキップ時点での再生映像に対して音 声同期をはかるという作用を有する。
[0019] 第 6の本発明の音声再生装置は、前記時間軸が、可変速しているシステム時刻基 準参照信号によって特定される時間軸である、装置である。これは、システム全体の 基準となるシステム時刻基準参照信号を可変とすることで、映像と音声の同期をはか るという作用を有する。
[0020] 第 7の本発明の音声再生装置は、更に、前記複数の音声信号のうちの何れか一つ の音声信号のサンプリングレートに合わせて、他の音声信号のサンプリングレートを 変換するサンプリングレート変換手段を備え、前記合成手段は、前記何れか一つの 音声信号と、前記サンプリングレート変換手段によって変換された前記他の音声信 号とを合成する、装置である。これにより、複数の音声を一つの音声のサンプリングレ ートに合わせた再生が可能となる。コンテンツそのものに主音声か、コメンタリ等の副 音声かの種別が記録されている場合、例えば主音声のサンプリングレートに合わせ て複数の音声を再生すれば、コメンタリ等の副音声の有り無しにかかわらず、ユーザ は、一定のサンプリングレートで複数の音声を聞き取ることができる。
[0021] 第 8の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音 声信号のうちの、連続した音声再生区間が最も長い音声信号である、装置である。コ メンタリ等の副音声は特定のシーンの解説等、主音声を補助する目的で挿入される 場合があり、主音声に対して音声再生区間が短いことが想定される。そのため、再生 区間が長い方を選択すれば、途中でのサンプリングレートを変更する回数を減少さ せることができる。
[0022] 第 9の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音 声信号のうちの、音声再生区間の間欠が最も少ない音声信号である、装置である。 例えば、音声再生区間の間欠が最も少ない音声信号を主として、シーンごとに間欠 したコメンタリ再生区間をもつ音声を再生する場合、間欠した音声信号のサンプリン グレートを、間欠が最も少ない音声信号 (間欠がない音声信号を含む)に合わせるよ うにレート変換すれば、途中でのサンプリングレートを変更する回数を減少させること ができる。
[0023] 第 10の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音 声信号のうちの、最も高いサンプリングレートを有する音声信号である、装置である。 これは、高音質の音声はそのままとして、他の音声のアップサンプリングを行ない、音 質をできるだけ保つという作用を有する。
[0024] 第 11の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音 声信号のうちの、最も低いサンプリングレートを有する音声信号である、装置である。 これは、音声出力のための伝送帯域が限られている場合等、低いサンプリングレート にあわせて変換することで、音声を伝送するデータ量を減らす作用を有する。 [0025] 第 12の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音 声信号のうちの、サンプリングレートが変わらない音声信号である、装置である。途中 でサンプリングレートが変更されると、レート再生の変化点において、音声ミュートが 必要な場合がある。これは、レート変更されないほうを主として選択し、音声の連続再 生を保つという作用を有する。
[0026] 第 13の本発明の音声再生装置は、更に、前記複数の音声信号のうちの何れか一 つの音声信号に他の音声信号を加算することにより前記複数の音声信号を合成する 場合、前記何れか一つの音声信号の再生出力レベルを、前記他の音声信号を加算 する部分のみ減ずる出力レベル調整手段を備える。これにより、加算される側の音声 を強調して聞くことができる。例えば、合成した解説音声を注意深く聞きたいとき等、 解説音声の再生音声レベルを高くし、主音声の再生音声レベルを減じるという作用 を有する。
[0027] 第 14の本発明の音声再生装置は、前記出力レベル調整手段は、前記何れか一つ の音声信号に対して前記他の音声信号を合成する場合であって、利用者によって前 記他の音声信号の再生出力レベルをより大きく設定されたとき、前記何れか一つの 音声信号の再生出力レベルを、前記他の音声信号の再生出力レベルの増加分減じ る、装置である。これは、一方を増カロさせながら、他方をそのままの音量で加算すると 、加算音声の一部にて、音声クリッピング等の音声ひずみが発生し、非常に聞きにく V、音声となることを防ぐと!、う作用がある。
[0028] 第 15の本発明の音声再生装置は、更に、前記複数の音声信号のうちの何れか一 つの音声信号の再生信号チャンネル数に合わせて、他の音声信号の再生信号チヤ ンネル数を統合又は分配する統合分配手段を備える。これは、互いの再生信号の再 生チャンネル数が異なっても、音声ひずみを起こすことなぐ特定の音声信号のチヤ ンネルへの加算を実現するという作用を有する。
[0029] 第 16の本発明の音声再生装置は、更に、前記音声再生装置に接続される音声出 力装置のチャンネル数に合わせて、各前記音声信号の再生信号チャンネル数を統 合又は分配する統合分配手段を備える。これは、利用者の音声出力装置のチャンネ ル数 (例えば、スピーカ接続数)に合わせて、再生信号チャンネル数を統合又は分配 を行ない、音声合成をはかる。
[0030] 第 17の本発明の音声再生装置は、前記統合分配手段は、利用者による前記音声 出力装置の音声出力指定チャンネルに合わせて、各前記音声信号の再生信号チヤ ンネル数を統合又は分配する、装置である。これは、利用者の音声出力装置のうち、 再生をしたいチャンネル数 (例えば、スピーカ接続数)に合わせて、再生信号チャン ネル数を統合又は分配し、合成をはかる。
[0031] また、本発明は、本発明の音声再生装置の特徴的な構成手段をステップとする音 声再生方法として実現したり、それらのステップをコンピュータに実行させるプロダラ ムとして実現することもできる。プログラムは、 CD— ROM等の記録媒体や通信ネット ワーク等の伝送媒体を介して流通させることもできる。 発明の効果
[0032] 本発明は、複数のデジタルの音声信号を同期させて再生する音声再生装置を提 供することができる。つまり、本発明の音声再生装置は、サンプリングレートや、符号 化方式が異なる複数の音声信号の混合、及び可変速度再生における複数の音声信 号の同期再生を実行することができる。
図面の簡単な説明
[0033] [図 1]図 1は、従来の音声再生方法を行なうデュアルオーディオデコーダの構成図で ある。
[図 2]図 2は、実施の形態 1における画像音声再生装置の構成を表すブロック図であ る。
[図 3]図 3は、実施の形態 1における映像と音声の同期再生方法を示す流れ図である
[図 4]図 4は、実施の形態における音声再生データの格納方法を説明するための図 である。
[図 5]図 5は、実施の形態における複数の画像を重ねた例を示す図である。
[図 6]図 6は、実施の形態における本編の映像及びコメンタリ映像が映し出される時間 的な関係の一例を示す図である。
[図 7]図 7は、実施の形態 1及び 4における、本編の映像に対してコメンタリ映像を重 ねる画像再生装置の構成を示すブロック図である。
[図 8]図 8は、各実施の形態における主音声と副音声とを重ねる音声再生装置の構 成図である。
[図 9]図 9は、主音声のオーディオ再生時刻情報と副音声のオーディオ再生時刻情 報との関係を示す図である。
[図 10]図 10は、主音声及び副音声の音声ストリームに、オーディオ再生時刻情報が 付加されて 、る様子を示す図である。
[図 11]図 11は、実施の形態 1における音声加算方法を説明するための加算出力部 の構成例を示す図である。
圆 12]図 12は、実施の形態 1の音声再生装置と外部接続機器との接続を説明する ための図である。
[図 13]図 13は、音声の統合を説明するための図である。
[図 14]図 14は、音声の分配を説明するための図である。
圆 15]図 15は、実施の形態 1の音声再生装置と外部接続機器との接続を説明する ための図である。
[図 16]図 16は、主音声が終了した後でも副音声がまだ終了していない様子を示す図 である。
[図 17]図 17は、効果音が主音声に合成される様子を示す図である。
[図 18]図 18は、音声信号の合成及び統合を説明するための図である。
[図 19]図 19は、複数の音声信号が記録されて 、る DVDを示す図である。
[図 20]図 20は、実施の形態 2における、可変速度処理の前又は後で主音声に副音 声を加算して音声合成する処理を示す流れ図である。
[図 21]図 21は、実施の形態 2及び 3におけるオーディオ出力処理部により可変速制 御を行なう方法を説明するためのブロック図である。
[図 22]図 22は、実施の形態 2のオーディオ可変速処理の原理を説明するための図で ある。
[図 23]図 23は、実施の形態 4における複数映像の同期再生方法を示す流れ図であ る。 符号の説明
[0034] 1 入力部
2 オーディオバッファ部 A
3 オーディオバッファ部 B
4 オーディオデコーダ部 A
5 オーディオデコーダ部 B
6 音声合成部
7 レート変換部
8 加算比処理部 A
9 加算比処理部 B
10 加算出力部
発明を実施するための最良の形態
[0035] 以下に、本発明を実施するための最良の形態について、図面を用いて説明する。
(実施の形態 1)
はじめに、実施の形態 1における画像音声再生装置の構成を示すブロック図である 図 2を主として参照しながら、実施の形態 1の画像音声再生装置の構成、並びに、画 像再生方法及び音声再生方法について説明する。なお、本発明は複数のデジタル の音声信号を同期させて再生する技術に関する発明であるが、その技術を詳細に説 明する前に、ビデオ信号とオーディオ信号とが多重化された信号を再生する技術に ついて説明する。
[0036] 図 2は実施の形態 1における画像音声再生装置の構成を示すブロック図である。実 施の形態 1における画像音声再生装置は、ビデオ信号とオーディオ信号とが多重化 された信号を再生する装置であって、図 2に示すように、入力部 1と、ビデオバッファ 部 A102と、ビデオバッファ部 B103と、ビデオデコード部 A104と、ビデオデコード部 B105と、画像合成部 106と、オーディオバッファ部 A2と、オーディオバッファ部 B3と 、オーディオデコード部 A4と、オーディオデコード部 B5と、音声合成部 6とで構成さ れている。
[0037] ビデオバッファ部 A102、ビデオバッファ部 B103、ビデオデコード部 A104、ビデオ デコード部 B105、及び画像合成部 106は、ビデオ信号を処理する構成部である。ォ 一ディォバッファ部 A2、オーディオバッファ部 B3、オーディオデコード部 A4、オーデ ィォデコード部 B5、及び音声合成部 6は、オーディオ信号を処理する構成部である。
[0038] 入力部 1は、各種符号化方式で符号化されたコンテンツや、デジタル放送等の圧 縮符号ィ匕されたデジタルのオーディオ信号及びビデオ信号を格納する光ディスク等 のデータ記録装置等(図示せず)からの、多重化されて!/ヽるオーディオ信号及びビデ ォ信号の供給を受ける構成部である。また、入力部 1は、多重化されているオーディ ォ信号及びビデオ信号を、ビデオ信号とオーディオ信号とに分離し、ビデオ信号から ビデオ再生時刻情報を抽出し、オーディオ信号からオーディオ再生時刻情報を抽出 する。実施の形態 1では、入力部 1へ入力されるビデオ信号及びオーディオ信号は、 それぞれ 2チャンネルの信号であると仮定する。したがって、入力部 1は、多重化され て 、るオーディオ信号及びビデオ信号を、チャンネル毎にビデオ信号とオーディオ 信号とに分離する。
[0039] 次に、ビデオ信号を処理する、ビデオバッファ部 A102、ビデオバッファ部 B103、 ビデオデコード部 A104、ビデオデコード部 B105、及び画像合成部 106それぞれに ついて説明する。
[0040] ビデオバッファ部 A102は、入力部 1によって分離された第 1のチャンネルのビデオ 信号を格納する構成部である。ビデオバッファ部 A102は、第 1のチャンネルのビデ ォ信号のうちのビデオ再生時刻情報を格納するビデオ再生時刻情報管理部 A121と 、第 1のチャンネルのビデオ信号のうちの圧縮されたビデオデータを格納する圧縮ビ デォバッファ部 A122とで構成されている。ビデオ再生時刻情報管理部 A121は、第 1のチャンネルの圧縮ビデオデータとビデオ再生時刻情報とを関連付けるテーブル を有している。
[0041] ビデオバッファ部 B103は、入力部 1によって分離された第 2のチャンネルのビデオ 信号を格納する構成部である。ビデオバッファ部 B103は、第 2のチャンネルのビデ ォ信号のうちのビデオ再生時刻情報を格納するビデオ再生時刻情報管理部 B131と 、第 2のチャンネルのビデオ信号のうちの圧縮されたビデオデータを格納する圧縮ビ デォバッファ部 B132とで構成されている。ビデオ再生時刻情報管理部 B131は、第 2のチャンネルの圧縮ビデオデータとビデオ再生時刻情報とを関連付けるテーブル を有している。
[0042] ビデオデコード部 A104は、圧縮ビデオバッファ部 A122に格納されている第 1のチ ヤンネルの圧縮ビデオデータの属性情報 (ビデオヘッダ情報)を解析し、圧縮ビデオ データを、ビデオ再生時刻情報管理部 A121に格納されているビデオ再生時刻情報 に従って伸張する構成部である。ビデオデコード部 A104は、伸張したビデオデータ を格納するフレームバッファ部 A141を有して!/、る。
[0043] ビデオデコード部 B105は、圧縮ビデオバッファ部 B132に格納されている第 2のチ ヤンネルの圧縮ビデオデータの属性情報 (ビデオヘッダ情報)を解析し、圧縮ビデオ データを、ビデオ再生時刻情報管理部 B 131に格納されて 、るビデオ再生時刻情報 に従って伸張する構成部である。ビデオデコード部 B105は、伸張したビデオデータ を格納するフレームバッファ部 B151を有している。
[0044] 画像合成部 106は、ビデオデコード部 A104及びビデオデコード部 B105によって 伸張された各ビデオデータを合成して外部の表示部に出力する構成部である。
[0045] 次に、オーディオ信号を処理する、オーディオバッファ部 A2、オーディオバッファ部 B3、オーディオデコード部 A4、オーディオデコード部 B5、及び音声合成部 6それぞ れについて説明する。
[0046] オーディオバッファ部 A2は、入力部 1によって分離された第 1のチャンネルのォー ディォ信号を格納する構成部である。オーディオバッファ部 A2は、第 1のチャンネル のオーディオ信号のうちの圧縮されたオーディオデータを格納する圧縮オーディオ バッファ部 A21と、第 1のチャンネルのオーディオ信号のうちのオーディオ再生時刻 情報を格納するオーディオ再生時刻情報管理部 A22とで構成されて ヽる。オーディ ォ再生時刻情報管理部 A22は、第 1のチャンネルの圧縮オーディオデータとオーデ ィォ再生時刻情報とを関連付けるテーブルを有している。
[0047] オーディオバッファ部 B3は、入力部 1によって分離された第 2のチャンネルのォー ディォ信号を格納する構成部である。オーディオバッファ部 B3は、第 2のチャンネル のオーディオ信号のうちの圧縮されたオーディオデータを格納する圧縮オーディオ ノ ッファ部 B31と、第 2のチャンネルのオーディオ信号のうちのオーディオ再生時刻 情報を格納するオーディオ再生時刻情報管理部 B32とで構成されて ヽる。オーディ ォ再生時刻情報管理部 B32は、第 2のチャンネルの圧縮オーディオデータとオーデ ィォ再生時刻情報とを関連付けるテーブルを有している。
[0048] オーディオデコード部 A4は、圧縮オーディオバッファ部 A21に格納されて 、る第 1 のチャンネルの圧縮オーディオデータの属性情報 (ビデオヘッダ情報)を解析し、圧 縮オーディオデータを、オーディオ再生時刻情報管理部 A22に格納されて 、るォ一 ディォ再生時刻情報に従って伸張する構成部である。オーディオデコード部 A4は、 伸張したオーディオデータを格納する PCMバッファ部 A41を有している。
[0049] オーディオデコード部 B5は、圧縮オーディオバッファ部 B31に格納されている第 2 のチャンネルの圧縮オーディオデータの属性情報 (ビデオヘッダ情報)を解析し、圧 縮オーディオデータを、オーディオ再生時刻情報管理部 B32に格納されて 、るォ一 ディォ再生時刻情報に従って伸張する構成部である。オーディオデコード部 B5は、 伸張したオーディオデータを格納する PCMバッファ部 B51を有している。
[0050] 音声合成部 6は、オーディオデコード部 A4及びオーディオデコード部 B5によって 伸張された各オーディオデータを合成して外部のスピーカに出力する構成部である
[0051] MPEGでは、ビデオデータとオーディオデータとを同期させて出力するために、ビ デォ信号及びオーディオ信号には、アクセスユニットと呼ばれる復号及び再生の単 位毎(ビデオデータの場合は 1フレーム毎、オーディオデータの場合は 1オーディオ フレーム毎)に、その単位をいっ復号及び再生すべきかを示すタイムスタンプ情報が 付カロされている。このタイムスタンプ情報は、 Presentation Time Stamp (PTS)と 呼ばれ、ビデオ用は、 Video PTS (以下、「VPTS」 t\、う。)と呼ばれ、オーディオ用 は、 Audio PTS (以下、「APTS」という。 )と呼ばれている。それらは、各ビデオフレ ーム及び各オーディオフレームの出力の時刻管理情報を表している。
[0052] 画像音声再生装置には、図 2には図示していないがシステム基準参照部が設けら れている。システム基準参照部は、 MPEGシステムの基準復号器内部のシステム時 刻基準 System Time Clock (STC)を発生する構成部である。システム基準参照 部は、システム時刻基準 STCを作成するために、 DVD等で使用されるプログラムスト リーム(PS)で用いられる System Clock Reference (SCR:システム時刻基準参 照値)、又は、 BSデジタル放送で使用されるトランスポートストリーム (TS)で用いられ る Program Clock Reference (PCR:プログラム時刻基準参照値)を用いる。シス テム基準参照部は、各ストリームの最終バイトの到着時 (読み込み時)に、 SCR又は P CRが示す値と同一の値をシステム時刻基準 STCに設定することによって、基準時刻 を設定する。
[0053] なお、画像音声再生装置に位相ロックループ (PLL)回路を設けるとともに、上記の システム時刻基準 STCの値の設定と、 PLL回路とを組み合わせることとにより、画像 音声再生装置は、基準時刻用システムクロックとクロックの周波数が完全に一致した システム時刻基準 STCを持つことができる。システム時刻基準 STCのシステムクロッ クは 27MHzで構成される。システム時刻基準 STCをカウンタ等により分周することに より、各 PTS (90KHz周期)が参照される。ビデオデコード部 A104、ビデオデコード 部 B105、オーディオデコード部 A4、及びオーディオデコード部 B5の各デコーダは 、システム時刻基準 STC力 ビデオデータの場合はビデオ再生時刻情報 VPTSと一 致したときに、オーディオデータの場合はオーディオ再生時刻情報 APTSと一致した ときに、それぞれのアクセスユニットを出力する。システム時刻基準 STCの精度は 90 KHzである。従って、この 90KHzの精度の範囲内で、システム時刻基準 STCとビデ ォ再生時刻情報 VPTS及びオーディオ再生時刻情報 APTSとの同期をとるように、 各デコーダが各再生単位を再生すれば、 AV同期のとれた出力が行なわれる。
[0054] 図 3は、 AV同期処理の流れ図である。ここでは説明の簡単ィ匕のために、 1つのチヤ ンネルのビデオのストリームとオーディオのストリームとが多重化された場合を想定す る(2つのチャンネルのビデオのストリームとオーディオのストリームとが多重化された 場合は後で説明する)。
[0055] ステップ 301及びステップ 302において、入力部 1は、データ記録装置等から入力 された符号化データを、圧縮ビデオデータと、ビデオ再生時刻情報 VPTSと、圧縮ォ 一ディォデータと、オーディオ再生時刻情報 APTSとに分離する。
[0056] 圧縮ビデオバッファ部 A122は圧縮ビデオデータを格納し、ビデオ再生時刻情報 管理部 A121はビデオ再生時刻情報 VPTSを格納する (ステップ 301)。その際、ビ デォ再生時刻情報管理部 A121は、圧縮ビデオバッファ部 A122における各圧縮ビ デォデータのアドレスとともに、ビデオ再生時刻情報 VPTSを格納する。
[0057] 圧縮オーディオバッファ部 A21は圧縮オーディオデータを格納し、オーディオ再生 時刻情報管理部 A22はオーディオ再生時刻情報 APTSを格納する (ステップ 302) 。その際、オーディオ再生時刻情報管理部 A22は、図 4に示すように、オーディオ再 生時刻情報 APTSを、スロットという単位で分割し、圧縮オーディオバッファ部 A21に おける各オーディオデータのアドレスとともに格納する。従って、オーディオ再生時刻 情報管理部 A22には、オーディオ再生時刻情報 APTSの値と、それに関連する圧 縮オーディオデータが格納されているアドレスのポインタとが格納される。
[0058] なお、ステップ 301及びステップ 302は、ビデオ信号及びオーディオ信号の入力部 1への入力の先後に応じて順序が適宜変更される。
[0059] 圧縮オーディオバッファ部 A21は、データを書き込んだ最終点まで最新の書き込 み位置が移動するライトポインタを有している。また、圧縮オーディオバッファ部 A21 は、圧縮オーディオデータの読み出し位置を特定するリードポインタをも有しており、 オーディオデコード部 A4によって圧縮オーディオデータが読み出されることにより、リ ードポインタの位置を更新する。また、圧縮オーディオバッファ部 A21は、最終アドレ スまでデータを書き込んで 、けば、最初のアドレスまで書き込み位置がもどるリング状 の記憶部である。従って、データが読み出された位置まで、次のデータを書き込むこ とが可能となり、入力部 1によって、ライトポインタがリードポインタを追い越さないよう にしながら、圧縮オーディオデータの書き込みが管理される。
[0060] 次に、ビデオデコード部 A104は、圧縮ビデオバッファ部 A122から圧縮ビデオデ ータを取得し、ビデオ再生時刻情報管理部 A121からビデオ再生時刻情報 VPTSを 取得する(ステップ 303)。オーディオデコード部 A4は、圧縮オーディオバッファ部 A 21から圧縮オーディオデータを取得し、オーディオ再生時刻情報管理部 A22からォ 一ディォ再生時刻情報 APTSを取得する (ステップ 304)。
[0061] そして、ビデオデコード部 A104は、ビデオ再生時刻情報 VPTSがシステム時刻基 準 STCに達する前に、ビデオデコードを実施し、デコードデータをフレームバッファ 部 A141に格納する(ステップ 305)。同様に、オーディオデコード部 A4は、オーディ ォ再生時刻情報 APTSがシステム時刻基準 STCに達する前に、オーディオデコード を実施し、デコードデータを PCMバッファ部 A41に格納する(ステップ 306)。なお、 ビデオデコード部 A104及びオーディオデコード部 A4は、各データをデコードするが 、デコード後直ちにデコードデータを出力するわけではない。
[0062] 次に、オーディオデコード部 A4は、システム時刻基準 STCを参照し、オーディオ再 生時刻情報 APTSがシステム時刻基準 STCと一致した時点で、又はオーディオ再 生時刻情報 APTSがシステム時刻基準 STCを超過した時点で、そのオーディオ再 生時刻情報 APTSに関連するオーディオデコードデータを、 PCMバッファ部 A41か ら出力させる (ステップ 307)。
[0063] 更に、ビデオデコード部 A104は、システム時刻基準 STCを参照し、ビデオ再生時 刻情報 VPTSがシステム時刻基準 STCと一致した時点で、又はビデオ再生時刻情 報 VPTSがシステム時刻基準 STCを超過した時点で、そのビデオ再生時刻情報 VP TSに関連するビデオデコードデータを、フレームバッファ部 A141から出力させる (ス テツプ 308)。
[0064] なお、画像音声再生装置は、光出力端子力 ドルビーデジタル等のストリームをそ のまま出力してもよい。この場合、ストリームはストリームバッファ(図示せず)にー且蓄 えられ、オーディオ再生時刻情報 APTSがシステム時刻基準 STCと一致又は超過し た時点で、そのオーディオ再生時刻情報 APTSに関連するオーディオデコードデー タは出力される。
[0065] さて、入力されるデータの終了又は、ユーザによる再生の停止が指示されれば (ス テツプ 309で Yes)、画像音声再生装置はデコードを終了する。他方、入力されるデ ータがあって、ユーザによる再生の停止が指示されなければ (ステップ 309で No)、 圧縮ビデオバッファ部 A122が圧縮ビデオデータを格納し、ビデオ再生時刻情報管 理部 A121がビデオ再生時刻情報 VPTSを格納するビデオ信号格納ステップ (ステ ップ 301)に戻る。
[0066] 上述したように、画像音声再生装置は、システム時刻基準 STCに対して、ビデオ再 生時刻情報 VPTS及びオーディオ再生時刻情報 APTSを同期させて、ビデオデコ ードデータ及びオーディオデコードデータを出力する。特に、ビデオ再生時刻情報 V PTS力 オーディオ再生時刻情報 APTSに対して、 50ミリ秒先行する時から、 30ミリ 秒遅延する時までの間に、対応するビデオデコードデータとオーディオデコードデー タとが出力されれば、リップシンクのずれは気にならない程度となる。
[0067] ここまでは、オーディオとビデオとが各々 1つのチャンネルのストリームである場合の 同期再生の方法を説明してきた。次に、オーディオ及びビデオが各々 2つのチャンネ ルである場合のストリームの同期再生の方法について説明する。
[0068] ここでは、図 5に示すように、同一画面上において、通常の再生映像である本編の 映像の上に、コンテンツ作成者のコメンタリ映像を子画面で重ねるとともに、本編の映 像に対応する音声 (以下、「主音声」という。)に、コメンタリ映像に対応する音声 (以下 、「副音声」という。)を重ねる場面を想定する。なお、コメンタリ映像は本編の映像を 解説するための映像であって、例えば本編の映像として風景が映し出されているとき 、解説者がその風景の地名等を解説する映像力 Sコメンタリ映像である。また、副音声 は、コメンタリ映像が映し出されて ヽるときに出力される本編の映像を解説する音声 であって、コメンタリ映像に付随して出力される。
[0069] 次に、図 6を用いて、本編の映像及びコメンタリ映像が映し出される時間的な関係を 説明する。図 6は、本編の映像及びコメンタリ映像が映し出される時間的な関係の一 例を示す図である。図 6に示すように、例えば、本編の映像は番組の最初力 最後ま で通して映し出され、コメンタリ映像は、番組の途中で、番組の長さよりも短い所定の 期間、複数回映し出される。また、副音声は、上述したようにコメンタリ映像が映し出さ れているときに出力される。なお、コメンタリ映像が映し出される時間は、本編の映像 が映し出される時間より長い場合もある。また、副音声が出力される時間は、主音声 が出力される時間より長い場合もある。
[0070] 以下に、本編の映像及び主音声に対してコメンタリ映像及び副音声を重ねる方法 について説明する。
[0071] まず、本編の映像に対してコメンタリ映像を重ねる方法について、図 7を用いて説明 する。図 7は、本編の映像に対してコメンタリ映像を重ねる画像再生装置の構成を示 すブロック図である。
[0072] ビデオデコード部 A 104は本編の映像のビデオデータをデコードし、ビデオデコ一 ド部 B 105はコメンタリ映像のビデオデータをデコードする。ビデオデコード部 A104 及びビデオデコード部 B105によってデコードされた各デコードデータの同期は、そ れぞれのビデオストリーム内にあるビデオ再生時刻情報 VPTS等によって管理される 。各々のビデオ再生時刻情報 VPTSがシステム時刻基準 STCと一致したときに、ビ デォデコード部 A104によって得られたデコードデータと、ビデオデコード部 B105に よって得られたデコードデータとを出力させれば、それら各デコードデータを同期さ せて出力させることができる。
[0073] し力しながら、コメンタリ映像の種類によっては、本編の映像とコメンタリ映像との同 期を工夫してとらなければならない場合がある。例えば、本編の映像とコメンタリ映像 との一方が映画素材力 得られた、 1秒間に 24コマ存在する映像であって、他方が 1 秒間に 30コマ存在する映像である場合である。これを NTSC方式の受像機に映し出 す場合、画像処理部 160は、映画素材から得られた映像を 1秒間に 30コマ存在する ようにフォーマット変換した後に、 2つの画像の一方又は双方を拡大したり縮小したり する。その後、フレーム同期部 162は、 2つの画像のフレーム同期を行なう。合成出 力部 161は、一方の画像に他方の画像を重ねて 2つの画像を出力する。これにより、 本編の映像及びコメンタリ映像は、同期がとられた上で重ね合わされて表示される。
[0074] 上述したように、本編の映像に対しては主音声が存在し、コメンタリ映像に対しては 副音声が存在するので、本編の映像に対してコメンタリ映像を重ねる際、主音声に対 して副音声を重ねる必要がある。次に、主音声と副音声とを重ねる音声再生装置に っ 、て図 8を用いて説明する。
[0075] 図 8は、主音声と副音声とを重ねる音声再生装置の構成を示すブロック図である。
図 8に示す音声再生装置では、入力部 1が、主音声の圧縮オーディオデータ及び オーディオ再生時刻情報 APTSをオーディオバッファ部 A2に格納し、副音声の圧縮 オーディオデータ及びオーディオ再生時刻情報 APTSをオーディオバッファ部 B3に 格納する。
[0076] 同期設定部 11は、図 9に示すように、主音声の各オーディオ再生時刻情報 APTS によって特定される時間軸 Tの上に、副音声の各オーディオ再生時刻情報 APTSを 割り当てる。主音声の各オーディオ再生時刻情報 APTSは、 "MOO", "Mi l", "M2 0", "M29", "M40",及び" M52", · · ·が付されている各ブロックである。すなわち 、同期設定咅 l liま、時 軸 Tの上に、 "SOO", "S09", "S20", "S31",又 ίま" S40 ", · · ·が付されて 、るブロックで示されて 、る副音声の各オーディオ再生時刻情報 A PTSを割り当てる。その際、同期設定部 11は、副音声の隣接するオーディオ再生時 刻情報 APTSそれぞれの値の差を保持して、時間軸 Tの上に副音声の各オーディオ 再生時刻情報 APTSを割り当てる。
[0077] 図 9の例では、主音声の先頭のオーディオ再生時刻情報 APTS "MOO"と、副音声 の先頭のオーディオ再生時刻情報 APTS"SOO"との差が値" 11"である。そのため、 同期設定部 11は、副音声の各オーディオ再生時刻情報 APTSの値に値" 11"をカロ えた値に、副音声の各オーディオ再生時刻情報 APTSを割り当てる。例えば、副音 声のオーディオ再生時刻情報" S09"を時間軸 Tの上に割り当てる場合、同期設定部 11は、その値" 09"に差の値" 11"をカ卩えた値、すなわち値" M20"に、オーディオ再 生時刻情報" S09"を割り当てる。これにより、副音声の各オーディオ再生時刻情報 A PTSは、副音声の隣接するオーディオ再生時刻情報 APTSそれぞれの値の差が保 持された状態で、時間軸 Tの上に割り当てられる。その結果、後述するように、オーデ ィォ再生時刻情報 APTSを利用して主音声及び副音声が再生されると、主音声及び 副音声は同期して再生される。
[0078] 同期設定部 11の動作が終了すると、オーディオデコード部 A4は、オーディオバッ ファ部 A2に格納された主音声の圧縮オーディオデータをデコードし、オーディオ再 生時刻情報 APTSを参照することにより、システム時刻基準 STCに同期した時間に 音声を再生する。他方、オーディオデコード部 B5は、オーディオバッファ部 B3に格 納された副音声の圧縮オーディオデータをデコードし、オーディオ再生時刻情報 AP TSを参照することにより、システム時刻基準 STCに同期した時間に音声を再生する 。これにより、主音声と副音声とは同期して再生される。
[0079] なお、図 9の例では、主音声の先頭のオーディオ再生時刻情報" MOO"と、副音声 の先頭のオーディオ再生時刻情報" SOO"との差は値" 11"である力 その差は、例え ばストリームのヘッダに記録されており、コメンタリ映像 (副音声)の開始時刻が予め指 定されることによって生じる。上記差は" 0"でもよい。すなわち、主音声と副音声とが 同時にスタートしてもよい。また、ユーザのリモコン操作等により副音声の起動開始時 刻が設定された場合、上記差は、起動開始時刻時点での主音声の再生時刻情報と 主音声の再生時刻情報との差となる。
[0080] 次に、以下の場合を考える。一つの記録媒体 (ディスク等)に、主音声及び副音声 の圧縮オーディオ符号ィ匕データ力 なる音声ストリームが格納されており、主音声及 び副音声を識別するフラグ情報力 S、各オーディオストリームのビットストリームのヘッダ 情報内に格納されている。また、主音声フラグを有する音声ストリームが 3種類存在し 、副音声フラグを有する音声ストリームが 1種類存在する。主音声は、ドルビーデジタ ル 5. lchの日本語音声、ドルビーデジタル 5. lchの英語音声、リニア PCM2ch音 声の中から選択されて再生される。副音声については、作者の解説用ドルビーデジ タル 2chの英語音声が再生される。各々の音声ストリームには、オーディオ再生時刻 情報 APTSが格納されている。利用者は、主音声を選択するとともに、副音声の混合 再生というメニューを選択することによって、主音声及び副音声の同時再生時の音声 を選択する。
[0081] なお、主音声が英語、副音声が日本語、フランス語、及びドイツ語の何れかであり、 副音声が複数存在する場合を想定することができるし、主音声及び副音声の両者が 複数存在する場合も想定することができる。
[0082] 何れにしても、利用者が再生させる音声を選択する。映画等のコンテンツを再生さ せる場合、映画のシーンを再生する主音声を識別する識別子と、映画作成者の作成 上の工夫点を解説したような副音声を識別する識別子とを、コンテンツに予め付与し ておき、主音声と副音声とを区別し、かつ両者を同期させて再生することができるよう にしておく。これにより、利用者は、主音声と副音声とを同期させて再生することがで きる。
[0083] 図 10に、主音声が lchであり、副音声が 3chである場合の、各々の音声ストリーム に、オーディオ再生時刻情報 APTSが付加されている様子を示す。副音声は、例え ば、英語音声、日本語音声、及び韓国語音声の音声ストリームである。図 10に示す ように、各音声ストリームにオーディオ再生時刻情報 APTSが格納されているので、 上述した同期設定部 11の動作によって、何れの副音声も主音声と同期させて再生 することができる。
[0084] ところで、複数のオーディオデータをデコードする際、主音声と副音声とのオーディ ォ符号ィ匕方式の違いにより、各データのオーディオフレームサイズが異なる場合があ る。しカゝしながら、各々のオーディオストリームにオーディオ再生時刻情報 APTSが付 Vヽて 、れば、システム時刻基準 STCと各オーディオ再生時刻情報 APTSとを利用す ることにより、主音声と副音声とを同期させて再生することができる。複数のオーディ ォデコード部が処理の独立性を持つような構成であれば、符号ィ匕方式の違いによる オーディオフレーム処理単位が異なっても、各々のオーディオストリームを、各々のォ 一ディォ再生時刻情報 APTSに従って同期させて再生することができる。
[0085] また、主音声のサンプリングレートと副音声のサンプリングレートとが異なる場合があ る。このような場合、レート変換部 7は、一方の再生音声信号のサンプリングレートを、 他方の再生音声信号のサンプリングレートに合わせて変換する。これにより、主音声 及び副音声を、サンプリングレートを合わせて再生することが可能となる。コンテンツ そのものに主音声力、コメンタリ等の副音声かの種別が記録されている場合、レート 変換部 7は、副音声のサンプリングレートを、主音声のサンプリングレートに合わせる 。これにより、コメンタリ音声の有り無しにかかわらず、一定のサンプリングレートで主 音声及び副音声は再生されるので、ユーザは違和感なく主音声及び副音声を聞くこ とがでさる。
[0086] サンプリングレート変換の方法としては、デジタル音声をアナログ音声に変換する D Aコンバータと、その逆の動作を行なう ADコンバータとを利用し、デジタル音声を一 且アナログ音声に戻して変換する方法がある。また、サンプリングレートコンバータな る半導体回路を用いることにより所望したサンプリングレートに変換する方法や、互い のサンプリングレートが倍数関係の時に適用しやすい、間引きや、補間によってレー ト変換音声を生成する方法等がある。
[0087] 次に、主音声及び副音声の識別子が記録されていない場合等における主となるサ ンプリングレートを有する音声信号の選択方法にっ 、て説明する。この主となるサン プリングレートを有する音声信号の選択方法として、連続した音声再生区間がより長 い音声信号を選択し、連続した音声再生区間が短い方の音声信号のサンプリングレ ートを、長い方のサンプリングレートに合わせる方法がある。図 6に示すように、コメン タリとして、特定のシーンの解説等、主音声を補助するような目的で副音声が挿入さ れる場合、副音声は主音声に比べて音声再生区間が短い。そこで、再生区間が長 い方を、主となるサンプリングレートを有する音声信号として選択し、再生区間が短い 方のサンプリングレートを、選択した音声信号のサンプリングレートに合わせて変換 する。また、副音声は、図 6に示すように、特定のシーンのみが再生される等、再生が ストーリの途中から始まり、途中で終了する場合もある。音声再生区間が長い方を主 となるサンプリングレートを有する音声信号として選択すれば、同じサンプリングレート の音声が再生される時間が長くなり、ユーザが違和感を持つ時間が短くなるので都 合がよい。
[0088] 別の選択方法として、一つの音声信号を選択するときに、間欠した音声再生区間 が無い方の音声信号を選択し、間欠した音声再生区間を持つ方の音声信号のサン プリングレートを、間欠した音声再生区間が無い方の音声信号のサンプリングレート に合わせる。シーン毎に間欠したコメンタリ再生区間を持つ音声信号を再生する場 合等、間欠した音声再生区間を有する音声信号のサンプリングレートを、間欠してい な 、方に合わせるように変換する。
[0089] また別の選択方法として、一つの音声信号を選択するときに、より高いサンプリング レートを有する音声信号を選択し、低 、サンプリングレートを有する音声信号のサン プリングレートを、高いサンプリングレートに合わせて変換する。つまり、高音質の音 声信号はそのままとして、他の音声信号のアップサンプリング等を行なうことでレート 変換を行ない、合成する。この場合、 2つの音声信号のサンプリングレート比は、一方 が他方の倍数の関係であれば、レート変換した後で音声合成する回路を簡略ィ匕する ことができる。例えば、一方の音声信号のサンプリングレートが 96KHzであって、他 方の音声信号のサンプリングレートが 48KHzである場合や、一方が 48KHzであつ て、他方が 24KHzである場合等であれば、周波数補間した音声信号データをその まま加算することができるため合成しやす 、。
[0090] 逆に、一つの音声信号を選択するときに、より低いサンプリングレートを有する音声 信号を選択し、高いサンプリングレートを有する音声信号のサンプリングレートを、低 いサンプリングレートに合わせて変換してもよい。音声出力のための伝送帯域が限ら れている場合や、高音質の再生音声が必要とされない場合等にこの方法を用いる。 例えば、特定伝送路を使って音声データを伝送する場合等を想定すると、低いサン プリングレートに合わせて変換することで、音声データの伝送量を減らす効果が見込 まれる。この場合も、 2つの音声信号のサンプリングレート比は、一方が他方の倍数の 関係であれば、レート変換した後で音声合成する回路を簡略ィ匕することができる。例 えば、一方の音声信号のサンプリングレートが 96KHzであって、他方の音声信号の サンプリングレートが 48KHzである場合や、一方が 48KHzであって、他方が 24KH zである場合等であれば、周波数間引きした音声信号データをそのまま加算すること ができるため合成しやす!/、。
[0091] また、一つの音声信号を選択するときに、途中でサンプリングレートが変更されない 連続した音声再生区間からなる音声信号を選択し、途中でサンプリングレートが変更 される方の音声信号のサンプリングレートを、変更されない方のサンプリングレートに 合わせて変換する。複数のコメンタリがあったり、また、主音声においてもときどきサン プリングレートが変更されたりする場合に、この方法を用いる。圧縮オーディオデータ のデコード時においては、サンプリングレートの変化点において、音声ミュートが必要 な場合がある。従って、レート変更されない方の音声信号を主として選択しておく方 力 音声をミュートする区間が少なくなり、音声の連続再生を実現しやすい。
[0092] 途中で再生コンテンツの符号ィ匕方式が変更されることや、サンプリングレートが変更 された場合のオーディオデコード部の構成によっては、デコードする符号ィ匕方式プロ グラムゃノ、一ドウエアの演算回路の設定を変更しなければならない場合がある。この ような場合、オーディオデコード部の初期化処理とともに、それと対の圧縮オーディオ ノ ッファ部に格納されている圧縮オーディオデータや、リードポインタ、ライトポインタ 等の情報もクリアする必要がある。圧縮オーディオバッファ部だけでなぐオーディオ 再生時刻情報管理部のオーディオ再生時刻情報 APTS及び格納アドレスポインタの 情報も消去する必要がある。このオーディオバッファ情報のクリアは、符号化方式や サンプリングレートが変更される方のみでよい。変更されない方は、連続して圧縮ォ 一ディォデータのデコードと再生とを続けることによって、利用者は切換を意識するこ となぐ音声の再生を楽しむことができる。
[0093] これらレート変換部 7によりサンプリングレート変換されたオーディオデータを加算す るために、加算比処理部 A8及び加算比処理部 B9は再生出力レベルを変更する。 例えば、記録媒体等に、主音声に対するコメンタリ等の副音声の加算比を示す加算 比情報が、各オーディオストリーム又は、コメンタリ等の副音声のストリームのヘッダ情 報内に格納されている。加算比処理部 A8及び加算比処理部 B9は、コメンタリ等の 副音声を主音声に合成する場合、その加算比情報に従った値で、主音声及び副音 声の一方又は双方に加算比を掛け合わせた上で主音声と副音声とを合成する。例 えば、加算比処理部 A8及び加算比処理部 B9は、主音声及び副音声の双方を、元 音声の 0. 7倍等に出力レベルを下げて加算する。
[0094] 通常、加算比情報に従い、各音声に加算比を掛け合わせた音声での再生が行な われるが、コメンタリ等の副音声を強調したい場合がある。
[0095] 第 1の手法として、別々にデコードされた音声から、任意の一つの音声に対し他方 の音声を合成する場合、前記任意の一つの音声の再生出力レベルを、他方の音声 を合成する部分のみ減じて両音声を合成し、他方の音声を合成しない部分では、前 記任意の一つの音声の再生出力レベルを減じない。例えば、再生出力レベルを一 定値" 1"とし、 2つの音声を合成する場合、加算される側の音声の再生出力レベルを 一定値" 1"から" 0. 6"に減じ、加算する側の音声の再生出力レベルを" 0. 4"にし、 全体の再生出力レベルを一定値" 1"に保つ。この場合、加算される側の音声を強調 して聞くことができる。例えば、合成しょうとする音声がコメンタリ音声である場合、解 説を注意深く聞きたいとき等、解説音声の再生音声レベルを高くし、主音声の再生音 声レベルを減じる。
[0096] 第 2の手法として、利用者が、再生音声レベルを、規定値より高くしたり低くしたりと、 任意に設定した 、場合に対応し、任意の一つの元の音声に対し他方の音声を合成 する部分で、利用者の意図で前記他方の音声レベルがより高く設定された場合、前 記任意の一つの元の音声出力レベルを他方の増加分に応じて減じる。なぜならば、 他方を増加させながら、一方をそのままの音量で加算すると、加算後の音声の一部 において、再生ダイナミックレンジを超える信号成分が生じ、クリッピング等の音声ひ ずみが発生し、非常に聞きとりにくい音声となってしまう恐れがあるためである。逆に、 副音声の出力レベルを低くした場合、相対的に主音声の加算比を上げればよい。
[0097] レート変換部 7がサンプリングレート変換し、加算比処理部 A8及び加算比処理部 B 9が加算比の処理を行なうと、加算出力部 10は音声を合成する。その場合、各々の 音声の再生チャンネル数が異なる場合がある。図 11に、加算出力部 10の構成例を 示す(図の簡単ィ匕のためレート変換部 7を省略している。 )0前記任意の一つの音声 の再生信号チャンネル数に合わせて、加算比処理が行なわれた後、加算出力部 10 は、他方の音声の再生信号のチャンネル数を統合又は分配して合成する。
[0098] 例えば、主音声に対するコメンタリ等の副音声の加算チャンネル情報を、各オーデ ィォストリーム又は、コメンタリ側のストリームのヘッダ情報内に格納して、それを記録 媒体等に記録しておく。加算出力部 10は、コメンタリ等の副音声を、主音声に合成す る場合、その加算チャンネル情報に従った値で、音声を合成する。例えば、加算出 力部 10は、副音声を主音声のセンターチャンネルに合成する。
[0099] 加算チャンネル情報としては、各加算チャンネルのミキシングレベルやチャンネル マッピング、特定チャンネルへ加算制限情報等の加算チャンネル情報や、サンプリン グレート、各チャンネルのサンプリングビット数、圧縮ストリームのデータレート等を想 定することができる。更に、加算チャンネル情報とともに加算音量係数テーブル等の 詳細な加算比情報があれば、副音声は、主音声のフロントライトチャンネルに、 0. 7 倍等に出力レベルを下げて加算、フロントレフトチャンネルに、 0. 7倍等に出カレべ ルを下げて加算される。
[0100] 更に、加算チャンネル情報力 複数のパターン力 選択することができるような情報 を有する場合では例えば、オーディオデコード部 A4によって再生された音声が 5. 1 chであって、オーディオデコード部 B5によって再生された音声がモノラル lchであつ た場合、オーディオデコード部 B5によって再生された音声の加算先として、(第 1)セ
(第 3)センターチャンネルとサブウーハチヤンネル、(第 4)フロントのライトとレフト及 ぶサブウーハチヤンネル等の選択枝を利用者に示すインタフェースを設けておき、 加算先を利用者に選択してもらう。これにより、利用者の希望に応じたチャンネルへ の加算比で、各チャンネルの出力ゲインを変更した後で、指定チャンネルの合成を 実現することができる。もちろん主音声と副音声とが同じチャンネル数で、利用者から 加算チャンネル先の指定が無い場合、各々のチャンネルを加算すればよい。また、 利用者の要望により、加算するチャンネルのある副音声の音量を増やす等の変更を した 、ときは、主音声がクリッピングしな 、ようにミキシングレベルを調節しなければな らない。この場合、加算チャンネルの主音声のゲインを減らす等の変更だけでなぐ 他の主音声チャンネルとのバランスも考慮し、必要に応じて他チャンネルの加算比を 変更する。副音声の音量を上げれば、主音声の音量を下げ、副音声の音量を下げ れば、主音声の音量を上げるために、利用者の要望で加算比を柔軟に設定できるこ とが望ましい。
[0101] 従来例の特許文献 1においても、再生チャンネルが異なる場合の同時再生につい て若干説明がある。第 1の音声をモノラルとしてフロントライトへ、第 2の音声をモノラ ルとしてフロントレフトへと 1チャンネルずつ出すこと、又は第 1と第 2とのいずれか一 方の音声をステレオ 2chで出力することについて説明がある。また 5. lchの場合は、 第 1の音声をステレオ 2ch、第 2の音声をステレオ 2chで出す設定、又は第 1と第 2と のいずれか一方の音声を 5. lchで出力することについて説明がある力 これらは、 第 1の音声と第 2の音声とを合成して出すのではなぐ同時に別々のスピーカから出 す場合につ 、ての説明である。複数の音声を同一のスピーカからの音声に合成して 出す方法については詳しく説明が無い。また、複数の音声の同期方法についても詳 しく説明されていない。
[0102] また本発明では、コメンタリ等の副音声のチャンネル数力 主音声のチャンネル数 より多い場合、複数のチャンネルを主音声のどのチャンネルに統合するか等を設定 する選択枝を利用者に示し、利用者力 選択を受け付け、その選択に基づいて加算 部においてクリッピングすることなく音声の加算を実行する加算比を設定する。加算 比の設定は、まず、クリッピングするチャンネルを、クリッピングすることのない値に設 定した後で、他のチャンネルの加算比を、加算比を設定したチャンネルとの出力相対 レベルに応じて再度設定すること等で実現する。もちろん、利用者がチャンネル毎の 加算比を設定するような構成を設けておいてもよい。従って、各々の加算比処理部 は、再生チャンネル数に応じて加算する。
[0103] 加算値の変更に当たっては、利用者の指示により行なう場合、再生を一時停止し、 音声をミュートして、加算係数を変更する等の処理を行なえば、変更途中に異音等 が発生することなぐ加算値の変更を実現することができる。デコード音声に対して、 加算比を掛け合わせ、合成して出力するまでにクリッピングを検出する検出部を設け ておけば、加算比処理部 A8及び加算比処理部 B9が加算値を自動的に変更するこ とにより、加算比を再度変更し、クリッピングが起こらないように合成しなおし、異音の 発生を防ぐことができる。また、上記検出部がクリッピングする時点をみつけた場合に 対応して、音声出力レベルが徐々に小さくなりクリッピングすることがないレベルとなる ように、加算係数を変更させる処理部を設けておく。これにより、異音の出力が連続し てなされな 、ような装置とすることができる。
[0104] 更に、音声の合成は音声再生装置に接続される外部の接続機器の構成に左右さ れる場合がある。例えば図 12に示す外部音響装置 92が音声再生装置に接続される 場合を想定する。外部音響装置 92の構成によっては、元の再生コンテンツが、 5. lc hを有する場合でも、接続スピーカが 3チャンネルしかない場合がある。このような場 合、外部音響装置 92のチャンネル数に合わせて、前記任意の一つの音声信号のチ ヤンネル数を統合又は分配し、かつ他方の音声信号のチャンネル数を統合又は分 配して合成する。
[0105] また、再生出力するチャンネル数を、利用者が変更する場合がある。このような場合 、外部音響装置 92や、音声再生装置内の出力部の設定から利用者による音声出力 指定チャンネルに合わせて、前記任意の一つの音声の再生信号チャンネル数を統 合又は分配し、かつ他方の音声の再生信号のチャンネル数を統合又は分配し合成 する構成をとれば、利用者が音声出力の全部又は一部を設定することで、自動的に 加算比処理に必要な加算値を、音声再生装置は設定することができる。
[0106] ここで、主音声の再生コンテンツが 5. lchであって、副音声の再生コンテンツが 2c hであり、接続スピーカが 3チャンネルしかな!/、場合の音声の統合の一例につ 、て、 図 13を用いて説明する。上記統合の一例では、図 13に示すように、主音声の Lチヤ ンネルに、主音声の SLチャンネルと、副音声の FLチャンネルとを加算した上で、第 1 スピーカから出力させる。また、主音声の Rチャンネルに、主音声の SRチャンネルと、 副音声の FRチャンネルとを加算した上で、第 2スピーカから出力させる。更に、主音 声の Cチャンネルに、主音声の SLチャンネルと、主音声の SRチャンネルとを加算し た上で、第 3スピーカから出力させる。又は、主音声の Lチャンネルは、第 1スピーカ 力も出力させる。また、主音声の Rチャンネルは、第 2スピーカから出力させる。更に、 主音声の Cチャンネルに、副音声の FLチャンネルと、副音声の FRチャンネルとをカロ 算した上で、第 3スピーカから出力させる。
[0107] また、副音声を加算するチャンネルを時間的に変化させても良い。例えば副音声の V、ずれかのチャンネル若しくは双方のチャンネルを、最初は主音声の Lチャンネルの みに加算し、次に主音声の Lチャンネルと主音声の Cチャンネルに加算し、次に主音 声の Cチャンネルのみに加算し、次に主音声の Cチャンネルと主音声の Rチャンネル に加算し、最後に主音声の Rチャンネルのみに加算するというように、時間の経過とと もに加算するチャンネルを変化させることもできる。このようにすると、加算音声が視 聴者の左方向から右方向へ空間的に移動するように聞こえることとなる。
[0108] 次に、主音声及び副音声の再生コンテンツがそれぞれ 2chであって、接続スピーカ 力 チャンネルある場合の音声の分配の一例について、図 14を用いて説明する。上 記分配の一例では、図 14に示すように、主音声の Lチャンネル及び Rチャンネルを 変換器で 6チャンネルに変換した後で、(1)変換後の主音声の FLチャンネルに副音 声の Lチャンネルを加算した上で第 1スピーカから出力させ、(2)変換後の主音声の FRチャンネルに副音声の Rチャンネルを加算した上で第 2スピーカから出力させ、(3 )変換後の主音声の SLチャンネルに副音声の Lチャンネルを加算した上で第 3スピ 一力から出力させ、(4)変換後の主音声の SRチャンネルに副音声の Rチャンネルを 加算した上で第 4スピーカから出力させ、(5)変換後の主音声の Cチャンネルを第 5 スピーカから出力させ、(6)変換後の主音声の SUBチャンネルを加算した上で第 6ス ピー力から出力させる。
[0109] 更に、図 12に示すように、音声再生装置に外部映像機器 91や、外部音響機器 92 を接続し、音声再生装置が、外部接続機器の機器 ID等、相手側機器を特定する情 報を認識することによって、出力可能なスピーカの数の情報を獲得し、主音声と副音 声とを合成するチャンネルの設定情報の獲得や、可変速度再生の際の各出力処理 の前後加算の選択を設定するような構成であれば、更に利便性が高まる。
[0110] 例えば、音声再生装置が、相手側出力機器の機器種別を知る ID番号等を受け取 り、各種設定条件を、本体内又は条件設定用のメモリカード内のテーブルを参照し、 設定を行なうような構成をとれば、音声再生装置に対する利用者の操作をともなわず とも、出力可能なチャンネルの数に応じて主音声と副音声とを合成させることが可能 である。
[0111] 相手機器の情報を得るために、 High— Definition Multimedia Interface (H DMI)とよばれる仕様等で機器を接続する。図 15に、 HDMIで接続される 2つの機 器の構成を示す。図 15では、ソース側の機器 81と、シンク側の機器 82と、 AVデータ 86を送る送信機 83と、 AVデータを受ける受信機 84と、電源オンやチャンネル制御 といったコマンドを送るコマンドライン 88と、機器固有情報をやりとりするライン 87と、 機器固有情報を格納する ROM85とが表示されている。 HDMIでは、ソース側の機 器 81とシンク側の機器 82とが互いに接続可能であると認証手続きを行なうことにより 、ソース側の機器 81は、シンク側の機器 82へ、適切な AVデータフォーマットで AV データを送る。そのときに機器固有の情報データを送る。ソース側の機器 81である音 声再生装置は、この方法により外部映像機器 91や外部音響機器 92の機器固有情 報を獲得すれば、合成チャンネル数の制限や、合成画像フォーマットの制限情報等 を獲得し、設定を変更することができる。これら獲得した情報は、音声再生装置がデ フォルト設定値として保存しておく構成にしておけば、機器接続が変わらない限りい つも同じ状態での AV鑑賞を行なうことができる。接続機器 ID等の変更があれば、そ の都度相手機器側の情報を受け、設定を変更すればょ 、。
[0112] 主音声と副音声等との合成出力は、各 PCMバッファに入った PCMデータを合成 し出力することにより行なわれる。この PCMデータを音声再生装置に内蔵されるォー ディォ DACから、又は、 IEC60958等のデジタルオーディオインタフェース規格に対 応した光デジタルケーブルから出力することで、 PCMデータを外部音響機器 92に 伝送して再生することができる。更に、主音声と副音声とを合成して作成した PCMデ ータを、オーディオ符号ィ匕を施すことにより、ドルビーデジタル方式等のデジタル符 号ィ匕データに変換し、光デジタルケーブルや、 HDMIケーブル等で圧縮符号化スト リームの IEC61937規格等のオーディオデジタルインタフェース規格により、外部接 続機器へ出力してもよい。
[0113] これらの外部接続機器としては、 TV等のモニタ出力機器や、オーディオ出力アン プ、 AVセレクタ機能を有する AVアンプ等のインタフェース機器、携帯型出力機器、 車載用 AV再生機器等が想定される。
[0114] 加算出力部 10は、各々の加算比処理部で加算比処理されたオーディオデータを 同一のサンプリングレートで、音声クリッピングを起こすことなく音声出力を行なう。更 に、サンプリングレートを変換するときや、加算比を変更するとき等に、音声の連続性 が保てな!/、ときは、音声のミュート処理を施す等の処理も分担する。
[0115] 音声合成部 6は、図 8に示すように、レート変換部 7と、加算比処理部 A8と、加算比 処理部 B9と、加算出力部 10とにより構成される。レート変換部 7はオーディオデコー ド部 B5側のみにある場合を説明した力 レート変換部 7は、オーディオデコード部 A4 側に、又は、オーディオデコード部 A4側及びオーディオデコード部 B5側にあっても よい。また、 2つの音声を合成する場合を説明したが、 3つ以上の圧縮オーディオデ ータをデコードする各々のデコード部を有し、合成する構成も可能である。
[0116] また、システム全体の基準となるシステム時刻基準自体を可変とし、システム時刻基 準参照信号の基準値の更新を可変とするように構成すれば、基準値情報を元として 同期再生する複数の音声信号のオーディオ再生時刻情報を合わせてデコードする ことにより、互いの同期をとることもできる。
[0117] 副音声用の圧縮オーディオデータの符号化データストリームは、一つの記録媒体 力も提供されるものに限らず、ネットワークで接続された機器力も入力される場合もあ る。また、主音声が記録されている記録媒体とは別の記録媒体力 提供される場合も ある。両方がネットワークを介して接続された外部機器力 ダウンロードされて再生さ れる場合もある。また、機器固有の半導体やハードディスク装置等の記録装置に予 め記録しておぐ又は初期設定として記録されている場合もある。何れにしても、主音 声と副音声の同期再生を確保するために、互いの音声再生時刻情報が関連づけら れていれば、同期再生が可能である。関連していなければ、同時に再生することはあ つても、再生時刻情報をあわせて再生する必要はな 、。
[0118] また、入力されるストリームは、 DVDのような記録媒体に記録されているストリームや 、デジタル放送信号を受信して記録したストリームだけとは限らない。外部からのアナ ログ信号をデジタル符号ィ匕しエンコードしたストリームでもよ 、。エンコード時にお!ヽ て、オーディオ再生時刻情報 APTSやビデオ再生時刻情報 VPTSをつけることによ り、再生時に AV同期がはかれるようになる。また、もともとの再生音声に同期した別 のオーディオストリームをエンコードしオーディオ再生時刻情報を、もとあったオーデ ィォストリームのオーディオ再生時刻情報を参照して付加することによって、アフレコ 再生を実現するシステムを構成することができる。
[0119] また、図 6では、コメンタリ映像は、本編の映像の長さよりも短い所定の期間、複数 回映し出される。し力しながら、コメンタリ映像は、図 16に示すように、本編の映像の 途中から開始し、本編の映像が終了した後でもまだ終了していない場合もある。それ に伴って、副音声は主音声が終了しても終了しない(図 16の" SB"部分参照)。その 場合、本編の映像が終了するまでは、副音声は、主音声のオーディオ再生時刻情報 APTSに従って、主音声と同期して再生される。主音声が終了すると、副音声は、(1 )システム時刻基準 STCに従って再生されてもよいし、(2)主音声が終了した後の、 主音声のオーディオ再生時刻情報 APTSを予測し、予測された主音声のオーディオ 再生時刻情報 APTSに従って再生されてもよいし、又は(3)副音声のオーディオ再 生時刻情報 APTSに従って再生されてもよい。また、本編の映像が終了すると、コメ ンタリ映像は拡大して表示されてもょ 、。
[0120] また、図 17に示すように、効果音 (例えば、ブザー音)が主音声に合成されてもよい 。効果音の信号にオーディオ再生時刻情報 APTSが含まれている場合、効果音は、 副音声として処理され、そのオーディオ再生時刻情報 APTSが利用されることにより 、効果音は主音声及び副音声と同期して再生されてもよい。効果音の信号にオーデ ィォ再生時刻情報 APTSが含まれていない場合、効果音の再生開始時刻に該当す る主音声側の再生時刻情報 APTSを、効果音のオーディオ再生時刻情報と定義す れば、同様に同期再生が可能となる。
[0121] また、図 18に示すように、 6chの主音声に、 2chの副音声を合成する場合、(1)副 音声のフロントレフト(FL) chの信号を、主音声のレフト (L) chの信号とセンター(C) c hの信号とに加算し、(2)副音声のフロントライト (FR) chの信号を、主音声のライト (R ) chの信号とセンター(C) chの信号とに加算する。これにより、主音声と副音声のチ ヤンネル数が異なっても、主音声と副音声とは合成される。この合成時点での音声信 号は 5. lchの信号である。この 5. lchの音声信号を、出力スピーカの制限等により 3 chに統合しなければならない場合、つまり" TL", "TR",及び" TC"の 3chで出力す る場合、主音声の信号は、例えば、合成音声の" L"ど' SL"が統合音声の" TL"に、 合成音声の "R"ど' SR"が統合音声の" TR"に、合成音声の" C"と "SUB"が統合音 声の" TC"の 3chに統合される。
[0122] 更に、合成することができる複数の音声信号が DVDに記録されている場合、図 19 に示すように、 DVD500には、複数の音声データ 501と、付属データ 501とが記録さ れてもよい。付属データは、各音声信号の、チャンネル数、符号化方式、サンプリン グレート、音声再生区間等を特定する情報である。また、付属データは、加算比情報 や、加算チャンネル情報を含んでもよい。また、副音声の開始時間を特定する情報を 含んでもよい。これにより、音声再生装置は複数の音声を合成したり、統合することを 容易に行なうことができる。
[0123] 音声データ 501と付属データ 502とは、ネットワークからダウンロードされて、装置内 のハードディスク等の記憶部に格納された場合も、上記と同様に、複数の音声信号を 合成し再生することができる。
[0124] (実施の形態 2)
実施の形態 2における音声再生装置の構成を示すブロック図である図 8を主として 参照しながら、実施の形態 2の音声再生装置の構成及び音声再生方法について説 明する。
[0125] 実施の形態 1では、システム時刻基準 STCを基準として複数の音声と複数の映像 の AV同期を実現する方法について説明してきた。実施の形態 2では、 AV同期の方 法として、音声再生装置は、入力された圧縮オーディオデータカゝら複数の音声信号 を分離し、各々のオーディオ再生時刻情報を読み出し、一方の音声信号のオーディ ォ再生時刻情報を元に主なる音声信号のデコードを実施し、他方の音声信号のォ 一ディォ再生時刻情報を前記主なる音声信号のオーディオ再生時刻情報に合わせ てデコードすることにより、互いの同期をとる。
[0126] これまでは、通常再生速度での音声合成と、同期方法について説明してきたが、高 速再生 (例えば 2倍速再生)等の可変速度再生のときの音声合成と、同期方法につ いて、以下に説明する。
[0127] オーディオデコーダが通常再生速度処理以上の処理能力を有するときで、かつ可 変速度による音声出力再生処理を行なう能力を有するときには、一方の音声信号の オーディオデコードを可変速度処理した再生時のオーディオ再生時刻情報を元とし て、他方の音声信号のオーディオ再生時刻情報を元のオーディオ再生時刻情報に 合わせてデコードすることにより、互いの同期をとることができる。
[0128] 図 20は、オーディオデコード処理後、可変速度処理の前と後のどちらで主音声に 副音声を加算するのかを選択して音声合成して再生する処理の流れを示す図である 。ステップ 306で、オーディオデコードした結果を PCMバッファ部へ格納する。ステツ プ 331で、オーディオ合成処理の前後どちらかを選択する。判断基準は後で説明す る。
[0129] オーディオ合成処理の前を選択した場合 (ステップ 331で Yes)、ステップ 332で、 主音声のオーディオ再生時刻情報とコメンタリ副音声のオーディオ再生時刻情報と がー致 (許容出力時刻差以内で例えば数十 ms以内で一致)すれば、コメンタリ等の 副音声を主音声に加算し、ステップ 333で、オーディオ可変速処理を行なう。他方、 オーディオ合成処理の後を選択した場合 (ステップ 331で No)、ステップ 334で、主 音声をオーディオ可変速処理した後に、ステップ 335で副音声を主音声に加算する 。ステップ 307で、主音声に副音声を加算した音声を、ビデオの出力と同期を合わせ て出力する。
[0130] 図 21は、実施の形態 2のオーディオ出力処理部 61の可変速制御を行なう方法を 説明するためのブロック図であり、図 22に示す再生速度変換機能を行なう時の可変 速制御の例を以下に詳しく説明する。
[0131] 図 21で、 PCMバッファ部 A41からの音声信号は可変速処理部 62へ入力され、以 下に説明する可変速処理が実施される。その後、音声信号は一旦出力バッファ部 63 へ格納され、音声合成部 6へ出力される。
[0132] 可変速度再生の実現方法には、幾種類かの方法がある。第 1に、通常速度再生と 、スキップ再生とを繰り返す方法、第 2に実際に高速にデコード処理する方法である。
[0133] まず、第 1の通常再生とスキップ再生とを繰り返す方法について説明する。基本的 には、読み出 Lf立置をスキップした部分をカットし、スキップされな力つた部分の再生 のみを行なうスキップ再生処理である。例えば 2倍速度再生を実施する場合、オーデ ィォフレームを全て再生するのではなぐオーディオ出力部内の可変速処理部 62に おいて、オーディオ出力処理変換後に再生時間が半分になるように特定のオーディ オフレームをスキップして再生したオーディオデータを作成し、出力バッファ部 63へ 格納する。そして、再生するオーディオフレームの部分に該当するオーディオ再生時 刻情報 APTS値を取得する。
[0134] 他方、ビデオ出力部では、同期情報を獲得し、該当するオーディオ再生時刻情報 APTSに対応するビデオを出力するために、特定のフレームの表示をスキップして A V同期を行なう。つまり、オーディオフレーム処理単位でスキップ再生したときのォー ディォ再生時刻情報 APTSに同期したビデオ表示を実施することによって、可変速 再生時の AV同期をはかる。
[0135] また別の方法として、入力部 1で予めスキップして読み出す方法もある。入力部 1へ は、スキップした後のストリームしか入力されないので、入力されたストリームから、シ ステム時刻基準 STC等のシステム基準時刻情報や、オーディオ再生時刻情報 APT S、ビデオ再生時刻情報 VPTSを読みとることで同期を実現する。これは通常再生の AV同期方法と同じである。ただし、 0. 5秒から数秒程度再生した後で、またスキップ を行なうことで、全体として高速な再生を実現する。
[0136] 次に、可変速処理を行なうために、オーディオデコード処理を通常再生速度処理 以上の処理能力により行なう場合について説明する。他方のデコード音声を、前記 オーディオデコード処理後に加算した上で、前記可変速処理を施すことができる。例 えば、コメンタリ等の副音声を主音声に加算した後で、オーディオ出力処理部 61で 可変速処理を施すため、加算された音声もデコード音声の可変速処理と同期させた 音声出力が可能である。 [0137] 他方、副音声を、前記可変速処理後に主音声に加算することもできる。オーディオ 出力処理部 61で可変速処理を施した後に、副音声を主音声に加算するため、デコ ード音声が可変速処理されても、加算された副音声は通常速度音声で加算を行なう ことができる。
[0138] まず、高速デコード処理時における同期再生方法について説明する。入力部 1が、 通常再生に必要な入力速度以上のデータを取り込んで、ビデオストリームとオーディ ォストリームとに分割した後、各々のバッファ部へストリームを格納する。これにより、 複数のビデオデコード部及び複数のオーディオデコード部が起動する。各々のデコ ーダは、通常の再生速度以上の高速で (再生速度によらず、与えられている資源を 有効に活用し)、デコードを実施し、各フレームバッファ部、各 PCMバッファ部にデコ ード結果を格納する。
[0139] 可変速処理を行なうために、オーディオデコード処理能力は通常再生速度処理以 上の処理能力が必要となる。例えば 1. 3倍ぐらいの再生速度を保っためには、再生 速度より若干高い 1. 5倍程度のデコード処理能力があることが望ましい。これは単に デコード処理性能だけでなぐ再生メディア力 の読み出し処理性能や、転送処理性 能についても同様の能力が必要である。
[0140] デコードを高速にすすめ、 PCMバッファ等に保管されたオーディオデータは、次の ように処理される。図 22において、上側は可変速処理前の通常速度による再生のデ ータを示しており、下側は可変速処理後の高速再生のデータを示している。上側は、 6オーディオフレーム(1オーディオフレームは、 10数 ms程度)を T1の時間で通常再 生する場合を示している。他方、下側は 1つ目と 2つ目のオーディオフレームの再生 を重ねて行ない、結果として T1の 6分の 5の時間である T2の時間で 6オーディオフレ ームを再生した場合を示している。圧縮比を、処理後の時間長を処理前の時間長で 割算した値と定義すると、速度比は、圧縮比の逆数となる。従ってここでは、 5分の 6 倍(1. 2倍)での高速再生となる。
[0141] このとき重なっているオーディオフレーム再生の一方をフェードアウトさせながら、一 方をフェードインすることで重ね合わせを実現する。両者は通常再生速度での重ね 合わせとする。そのほかの重ならないオーディオフレームにおいては、通常速度再生 となる。高速再生といっても、全てが通常再生速度での再生であるので、原音のピッ チが変わることはない。そのため、自然な音声を聞き取ることができように可変速再生 を実現することができる。
[0142] 主音声と副音声との間でオーディオ符号ィヒ方式やサンプリングレートが異なる等に よりオーディオフレームサイズが異なる場合がある。可変速再生時においては、ォー ディオフレームサイズが異なる場合、両者の同期をきつちりととる必要はない。双方が 同一の速度比を持ち、ある区切りのよい一定再生時間の間で同期をとれるように再生 すれば、結果として両者の同期をは力ることができる。
[0143] このようなオーディオ出力処理部 61での可変速制御を実施するとともに、別のデコ ード音声を、前記オーディオデコード処理後に加算した上で、前記可変速処理を施 す力 別のデコード音声を、前記可変速処理後に加算処理を施すかを選択する手 段を設けておけば、加算したデータ音声も、元の原音と相違ない音程で再生すること が可能である。
[0144] なお、主再生音声と副音声との同期については先に説明したとおりである。加算前 に同期をとる場合、もともと全オーディオフレームに対して算出される PTSをもとに、 別音声の PTSを参照して加算すればよい。他方可変速後、付加音加算する場合、 オーディオフレームの重なり部分の PTSは、重なっているどちらのオーディオフレー ムの PTSを有効にするのかという規則を予め定めておけばよい。
[0145] また、副音声側にオーディオ再生時刻情報が全くないストリームが提供された場合 、又は再生時刻情報を無視して同時に再生する場合、基本的に、主音声との同期関 係がないので、音声再生装置は、現行再生されている主音声に対して、再生の連続 性が保たれるように再生すればよい。このときのサンプリングレート変換、加算値変換 、出力チャンネル変更等は、先の実施の形態と同様な方法で実施すればよい。
[0146] 本実施の形態 2のように、特にオーディオの可変速再生においては、オーディオの 再生基準時刻であるオーディオ再生時刻情報 APTSを用いれば、 AV同期再生が 容易である。
[0147] 更に、複数映像や音声の同期に関しては、再生合成のための加算の選択手段とし て、再生ストリームのコンテンツ内容を判断する判断部を設けておく。前記判断部に より得られる結果により、再生時に、データから抜き出した音声情報を加算するタイミ ングとして、オーディオ出力処理の前と後のどちらかを選択し、又はデータ力も抜き出 したテキストもしくは文字情報を加算するタイミングとして、ビデオ出力処理の前と後 のどちらかを選択して再生することができる。
[0148] 例えば、カラオケの字幕のようにオーディオ及びビデオに同期した各出力処理を施 す方が!/、 、か、それとも緊急臨時放送のように(同期性なしで)各出力処理を施した 後で文字情報を出す方力 ^、いか、再生コンテンツの内容に従って選択することがで きる。
[0149] 加算の選択部として、利用者による指示内容力 コンテンツの再生処理内容を選 択する選択部を設けておく。前記選択部により得られる結果により、データから抜き 出した音声情報を加算するタイミングとして、オーディオ出力処理の前と後のどちらか を選択し、又はデータ力も抜き出したテキストもしくは文字情報を加算するタイミングと して、ビデオ出力処理の前と後のどちらかを選択して再生することができる。
[0150] 例えば、可変速処理の前に音声情報と文字情報とを加算させるのか、可変速処理 の後に音声情報と文字情報とを加算させるのかといった、利用者の指示に従ったカロ 算が選択できる。
[0151] 加算を行なうタイミングを決定するために、再生するストリームのコンテンツ内容及 び利用者による使用用途を判断する判断部を設けておく。前記判断部により得られ る結果により、再生時に、データ力 抜き出した音声情報を加算するタイミングとして 、オーディオ出力処理の前と後のどちらかを選択し、又はデータ力も抜き出したテキ ストもしくは文字情報を加算するタイミングとして、ビデオ出力処理の前と後のどちら かを選択して再生することができる。
[0152] 例えば、カラオケコンテンツであっても利用者の指示で、可変速処理では、可変速 処理の前に音声情報と文字情報とを加算させるが、音程のみを変化させる音程変化 処理では、音程変化処理の後に音声情報と文字情報とを加算させるといった、コンテ ンッ内容に加えて利用者の指示内容を加味して各出力処理の前後への加算を選択 できる。
[0153] (実施の形態 3) 実施の形態 3における音声再生装置の構成を示すブロック図である図 8と、可変速 制御を行なうオーディオ出力処理部の構成を示す図 21を主として参照しながら、実 施の形態 3の音声再生装置の構成、及び音声再生方法につ!、て説明する。
[0154] オーディオ出力処理部 61は、可変速再生処理を行なうと限定するものではない。
例えばデコードした音声の音の高さを変える処理を行なってもよ 、。デジタル放送信 号を受信して記録し、少なくともオーディオが符号化されたストリームを、時刻同期を 確保しながら再生する際に、オーディオデコード処理後、データ力 抜き出した音声 情報を同期情報によりオーディオ合成処理の前と後のどちらかを選択して加算し再 生する。そうすると、例えば、副音声を主音声に加算した後で、オーディオ出力処理 で元音声の音程の高低を変化させるか、オーディオ合成処理で元の主音声の音程 の高低を変化させた後で副音声を加算するかで、加算された音声情報の出力のさせ 方を変えることができる。
[0155] また、オーディオ出力処理部 61は、そのほかに各種サラウンド効果を加えた音響効 果処理を実施することもできる。副音声を加えた後で、サラウンド効果を実施するか、 サラウンド効果を加えた後で副音声を加えるかを変えることができる。結果として、副 音声の広がり感ゃ、出力スピーカ先を変更することができる。そのほかに、映像処理 と音響処理との間の同期処理遅延を考慮した遅延設定効果等がオーディオ出力処 理部 61によって行なわれてもよい。接続した映像機器と音響機器の出力遅延を、音 声再生装置で設定することができるように構成した場合、遅延を施す前に副音声を 加える力、遅延後に副音声を加えるかを設定することができる。
[0156] (実施の形態 4)
実施の形態 4における画像再生装置及び音声再生装置の構成を示すブロック図で ある図 7及び図 8と、実施の形態 4における複数映像の同期再生方法を示した流れ 図である図 23とを主として参照しながら、実施の形態 4の画像再生装置及び音声再 生装置の構成、並びに画像再生方法及び音声再生方法につ!、て説明する。
[0157] これまでは、オーディオ再生時刻情報 APTSをもとに、複数の音声信号の同期を合 わせる方法について説明してきた。以下に、ビデオ再生時刻情報 VPTSをもとに、複 数の音声信号の同期を合わせる方法について説明する。 [0158] これは、各々の音声信号のオーディオ再生時刻情報を、主ビデオ信号のビデオ再 生時刻情報に合わせてデコードすることにより、互いの同期をとるものである。図 23 は、ビデオデコード部 A104がデコード処理を行なった後、ビデオデコード部 B105 がデコード後の画像情報を同期情報によりビデオ出力処理の前と後のどちらかを選 択して画像合成して再生する処理を示す流れ図である。ステップ 305で、ビデオデコ ードした結果をフレームバッファ部 A141へ格納する。ステップ 351で、ビデオ合成後 にスキップ力 合成前にスキップ力どちらかを選択する。
[0159] 合成後にスキップする場合 (ステップ 351で Yes)、ビデオデコード部 B105がデコ ードした結果をフレームバッファ部 B151へ格納する(ステップ 405)。そして、ステツ プ 352で、ビデオデコード部 A104の再生時刻情報と、ビデオデコード部 B105の再 生時刻情報とがー致 (許容出力時刻差以内で例えば 33ms以内で一致)すれば、デ コード画像を重ね合わせた後、ステップ 353で、画像スキップ出力処理を行なう。
[0160] 他方、合成前にスキップする場合 (ステップ 351で No)、ステップ 354で、画像スキ ップ処理でスキップした後に、ステップ 355でビデオデコード部 A104の再生時刻情 報に合わせたビデオデコード部 B105の再生時刻情報のデコード画像を重ね合わせ る。そして、ステップ 308で、オーディオの出力と同期を合わせて画像を出力する。
[0161] 従って、一方のビデオデコード処理後、他方のビデオデコード時の同期情報により ビデオ出力処理の前と後のどちらかを選択して画像合成して再生する。例えば、他 方の画像をデコード画像に加算した後で、画像スキップ出力処理で一方の画像と他 方の画像とを同期させて出力する力 画像スキップ処理でスキップした後に他方のデ コード画像を加算するかで、加算された画像の出力のさせ方を変えることができる。
[0162] また、図 23に示す処理とは異なり、ビデオ合成処理の前か後かを判定した後で、一 且ビデオスキップ処理を施し、表示するビデオ再生時刻情報 VPTSに合致する映像 に他方のデコード画像を加算してよい。つまり、ビデオ合成処理前の時刻情報が一 致する加算は、ビデオスキップ処理を施し、表示するビデオのビデオ再生時刻情報 VPTSと、再生時刻情報が一致するデコード画像のみを選別して加算し、表示する。 他方、ビデオ合成処理後の時刻情報に一致する加算は、ビデオスキップ処理を実施 した後で、表示されているビデオのビデオ再生時刻情報 VPTSには依存せず、デコ ード画像を加算して表示する。この場合、ビデオスキップ処理を施した後、表示され る一方のビデオデコード再生時刻情報とは関係なしに、他方のビデオデコードの再 生映像を重ね合わせるといった、処理を施すこともできる。
[0163] このスキップ処理は、 Iピクチャのみを再生し、 Pピクチャや Bピクチヤをスキップ処理 する高速 I再生や、 Bピクチャのみをスキップする IP再生等が相当する。これらは、入 力部 1で Bピクチヤのデータを捨ててしまうか、又はデコードした後で捨ててしまうか等 により、 Bピクチャを再生させない。そのため、 Bピクチャの画像再生用の再生時刻情 報は不要となる。従って、スキップ等を伴う高速再生時においては、最終的に出力す る画像の再生時刻情報が有効となる。
[0164] 各フレームバッファ部力もの出力を、画像合成部 106で加算した後、加算結果をビ デォ出力する。スキップ処理において、出力するビデオフレームのビデオ再生時刻 情報 VPTSに対応するコメンタリ等の副画像データがないときには、加算処理を行な うことなく、次のデータの同期にあったフレーム出力時刻まで待つ。 NTSC方式の場 合、 1秒間に約 30枚の画像を出力するので、各々の PTSの時刻差は 33ms程度で ある。ビデオ再生時刻情報 VPTSを基準とする場合、プラスマイナス 16. 5ms以内で あれば、同期していると判断して画像等を重ねる処理をすればよい。なお、主オーデ ィォデータとコメンタリ等の副音声の PCMバッファ部の音声合成も同じ原理で同期を はかればよい。こちらは 1オーディオフレーム単位 10数 ms (オーディオ圧縮方式の 差により数 msから数十 ms)精度以内の差であれば同期していると判断し、合成音を 生成すればよい。
[0165] なお、同期に必要な映像又は音声の時刻情報が無い場合、現在出画又は出音し ている PTS値を参照し、その PTS値を再生時刻情報に換算し、ビデオデータとォー ディォデータとを同期させる時間として設定すれば、通常の同期再生と同じ方法によ り、データ合成を行なうことができる。
[0166] ここで、録画番組を編集したとき等、映像を主体としてシームレスに編集した場合を 想定する。この場合、編集後の映像は途切れなくつながる力 音声は途切れている 場合が多い。これは MPEGによる編集の特徴であるが、映像と音声とが全く同じ方式 で同時に符合ィ匕されていないことによる。従って、映像を主体とすれば、音声の連続 性が保てないし、音声を主体とすれば映像の連続性が保てない。そこで、映像を主 体としたシームレス再生時には、ビデオ再生時刻情報 VPTSをもととして、そのビデ ォ再生時刻情報 VPTSに、対応するオーディオ再生時刻情報 APTSを合わせるよう に音声再生をして、同期をかけることが望ましい。
[0167] 他方、音声を主体としてシームレスに編集する場合のシームレス再生時は、オーデ ィォ再生時刻情報 APTSをもととして、そのオーディオ再生時刻情報 APTSに、対応 するビデオ再生時刻情報 VPTSを持つ画像の再生を合わせるように同期をかけるこ とが望ましい。
[0168] シームレス再生時において、両者の連続性をできるだけ保つようにシームレス再生 するためには、以下のような方法がある。まず、映像を主体としてシームレス編集をす る。接続点の前の映像に対する音声の再生を、一方のオーディオデコード部 A4にて 、シームレス接続点の前の最後の再生時刻まで行なう。次に、別のオーディオデコー ド部 B5にて、次のシームレス接続点の最初の画像の再生時刻に対応するオーディ ォでデコードを行なって、同期する時刻の出音ができるように準備しておく。そして、 映像のシームレス再生のビデオ再生時刻情報に従って、両方のデコード音声を切り 替えるように再生すればよ!、。必要に応じて音声につ!、てはフェード処理を施す方 力 接続点前後の位相の違いによる異音が発生しにくい。このシームレス再生時に おいては、主音声のみの連続再生を重んじる場合、副音声の合成は禁止し副音声 用のオーディオデコード処理を停止するような構成をとれば、複数のオーディオデコ ード部を、主音声のシームレス再生のために使用することができる。 3つオーディオデ コード部を設けておけば、 1つは副音声のデコード用に確保しておき、他は主音声の デコード用及びシームレス処理用として使用することができる。更にもう一つオーディ ォデコード部があれば、副音声もシームレス用に確保し、副音声もシームレス再生が 可能となる。
[0169] 他方、ビデオデコード後に画像合成部 106にて画像を合成するときに、画像処理 部 160を設ければ、デコード後に合成画面拡大縮小等の出力サイズ変換を設定した 場合、子画面を合成する場合、縮小してから子画面を合成するのか、特定部分を切 り出して拡大するのかと!/、つた選択が可能となる。元画面の部分拡大や縮小等の選 択も可能となる。ほかにも、出力テレビモニタにあわせた高解像力も低解像への変換 又はその逆の解像度フォーマット変換 (4801の標準解像度から 10801の高画質解像 度への変換等)、レターボックスとサイドパネルの出力フォーマット変換、 NTSC方式 と PAL方式との間の周波数フォーマット変換等の各種のフォーマット変換、インター レース画質力 プログレッシブ画質への IP変換等を実施することが想定される。これ らの順序は、必ずしもこの例のとおりとは限らない。また、フォーマット変換についても 、複数のフォーマット変換 (解像度フォーマットと出力フォーマット等)を同時に行なう こともある。なお、 2つの画像を合成する場合、一方が NTSC方式の画像で他方が P AL方式の画像であるとか、一方が標準画質の画像で他方が高画質の画像であると き等にお 、ては、両者のフォーマットを予め合わせておくと合成しやす 、。
[0170] また、これらの重ね合わせた画像は、その画像に対して利用者の操作を助ける GU I画面等を貼り付けて表示するため、 GUI画面のメニュー配置に適した画面サイズで の合成が望まれる場合もある。例えば、背景画面に主映像を表示させ、それに子画 面でコメンタリ映像を重ね、その上に各種画面設定用の透過メニュー画面を重ねる 等の構成をとれば、設定メニューに従った画像効果を利用者が確認しやす 、。
[0171] また、米国の放送方式では字幕は、クローズドキャプション信号と呼ばれ、利用者 のリモコン操作により、表示と非表示とを切り替えることが仕様で定められている。従 つて本発明の実施の形態に適用した場合、利用者の指示による、各出力処理の加 算の選択と、表示の選択とが望まれる。更に、字幕文字等を、縦方向や横方向にスク ロールするとか、ワイプを行なう等の各種表示効果を伴う場合においても、各種出力 処理の前後を選択できるようにしてあれば、早送り時においても、重要な情報を見逃 してしまう、又は、字幕が全部表示確認されないと次の画面の表示にうつれないとい つたまどろつこしさが解消される。このような字幕や、字幕の類似例として、米国のクロ ーズドキャプションだけでなく、欧州のテレテキスト等が存在する。
[0172] 更に、衛星デジタル放送のデータ放送から、字幕データと音声データとの再生の選 択を別々に行なえるようにすると、例えば、データ放送中のストリームデータから抜き 出した音声情報はオーディオ出力処理の前に加算し、文字情報はビデオ出力処理 の後で加算する等各々の情報毎に別々〖こ加算できるような設定が可能となる。 [0173] これらの各ストリームの再生コンテンツ種別や内容を判断する判断部を設けておけ ば、再生時に、データから抜き出した音声情報を、前記判断部によって得られた結果 により、オーディオ出力処理の前又は後を選択して再生し、又はデータ力も抜き出し たテキストもしくは文字情報を、ビデオ出力処理の前もしくは後を選択して再生するこ とができる。よって、入力又は再生媒体を特定せず、同じ再生方法にて対応できる。
[0174] オーディオ及びビデオ出力処理の機能別に、加算の前後の選択ができるように構 成すれば、画面拡大後、子画面を追加して、可変速処理を施すといった複数出力処 理にち対応することがでさる。
[0175] また、副音声以外に、ブザー等の付加音、複数の記録音声を加算するためのァフ レコ音声、伴奏音にカラオケ等のマイクエコーを加算するマイクエコー音声も、ォー ディォ出力処理の前又は後を選択して加算することができる構成をとれば、上記と同 じ効果が得られる。他方、子画面以外に、字幕や文字スーパ、個人で編集時に挿入 したい文字や図形等も、ビデオ出力処理の前又は後を選択して加算することができ る構成をとることで、同様な効果が得られる。これは、専用のオーディオ演算素子や デジタルシグナルプロセッサ(DSP)を搭載すること、又は高性能の CPUを用いるこ とで実現することができる。
[0176] なお、入力データは、外部力も入力されるデータ、外部記録媒体から入力されるデ ータとして説明してきたが、予め機器内に存在するデータであってもよい。
[0177] 今までは、入力部 1が、入力データをビデオ信号とオーディオ信号とに分離する場 合について説明してきた。しかし、ビデオ信号とオーディオ信号は予め分離されてい るファイルデータであってもよい。圧縮ビデオデータと関連する再生時刻情報、圧縮 オーディオデータと再生時刻情報を入力とし、各々の再生時刻情報を利用して、圧 縮ビデオデータと圧縮オーディオデータとを同期させて再生することができる構成で あれば、本発明の音声再生方法を実施する音声再生装置を構成することができる。 これは、ビデオカメラ等で撮影した信号をパーソナルコンピュータ上で編集した結果 として、 AV及びデータの混合ファイルと、 AVデータ独立のファイルとのどちらの場合 でも、圧縮ビデオデータと関連する再生時刻情報、圧縮オーディオデータと再生時 刻情報、ファイル上のデータ情報を互いに関連づけた同期をとつて再生する場合全 てに適応される。
[0178] このデータ再生方法及び、装置の適用例としては、セットトップボックス、デジタル衛 星放送受像機及びその記録機器、 DVDプレーヤ又は DVDレコーダ、 VCDの関連 機器、ハードディスクレコーダ、パーソナルコンピュータ等がある。本発明の音声再生 方法による AV再生プログラムを作成しておくことにより、パーソナルコンピュータ等へ 、外部力もの動作プログラムをロードして、音声又は画像を合成しながら AV同期実 行動作させることができる。
[0179] なお、図 2に示す各構成部の一部又は全部は一つの集積回路 (集積チップ)で実 現されてもよい。また、図 7に示す各構成部の一部又は全部も一つの集積回路 (集積 チップ)で実現されてもよい。また、図 8に示す各構成部の一部又は全部も一つの集 積回路 (集積チップ)で実現されてもよい。また、図 12に示す各構成部の一部又は全 部も一つの集積回路 (集積チップ)で実現されてもよい。更に、図 21に示す各構成部 の一部又は全部も一つの集積回路 (集積チップ)で実現されてもょ 、。
産業上の利用可能性
[0180] 本発明における音声再生方法及び音声再生装置は、符号化されたデジタルの複 数の音声信号の同期信号を元に、符号化方式が異なってもサンプリングレートを変 換する等、複数の音声信号を混合させるための手段を用いることによって、主音声及 び主映像の再生を止めることなぐ主音声及び主映像の内容を補足するコメンタリ等 の副音声や副映像の挿入再生といった用途に使用することができる。

Claims

請求の範囲
[1] 音声信号を再生して出力する音声再生装置であって、
一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情 報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時 刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同 期手段と、
前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用して 、前記複数の音声信号を合成する合成手段と
を備える音声再生装置。
[2] 前記時間軸は、前記複数の音声信号のうちの何れか一つの音声信号の複数の前 記オーディオ再生時刻情報によって特定される時間軸であって、
前記同期手段は、前記何れか一つの音声信号の前記オーディオ再生時刻情報に よって特定される時間軸の上に、他の音声信号の前記複数のオーディオ再生時刻 情報を割り当てる
請求項 1記載の音声再生装置。
[3] 前記時間軸は、可変速再生されて!、る前記何れか一つの音声信号の複数の前記 オーディオ再生時刻情報によって特定される時間軸である
請求項 2記載の音声再生装置。
[4] 前記複数の音声信号はビデオ信号と多重化されており、
前記時間軸は、前記ビデオ信号の複数のビデオ再生時刻情報によって特定される 時間軸であって、
前記同期手段は、前記ビデオ再生時刻情報によって特定される時間軸の上に、前 記複数の音声信号それぞれの前記複数のオーディオ再生時刻情報を割り当てる 請求項 1記載の音声再生装置。
[5] 前記時間軸は、可変速再生されて!ヽる前記ビデオ信号のビデオ再生時刻情報によ つて特定される時間軸である
請求項 4記載の音声再生装置。
[6] 前記時間軸は、可変速しているシステム時刻基準参照信号によって特定される時 間軸である
請求項 1記載の音声再生装置。
[7] 更に、
前記複数の音声信号のうちの何れか一つの音声信号のサンプリングレートに合わ せて、他の音声信号のサンプリングレートを変換するサンプリングレート変換手段を 備え、
前記合成手段は、前記何れか一つの音声信号と、前記サンプリングレート変換手 段によって変換された前記他の音声信号とを合成する
請求項 1記載の音声再生装置。
[8] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、連続した音声再生 区間が最も長い音声信号である
請求項 7記載の音声再生装置。
[9] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、音声再生区間の 間欠が最も少な 、音声信号である
請求項 7記載の音声再生装置。
[10] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、最も高いサンプリ ングレートを有する音声信号である
請求項 7記載の音声再生装置。
[11] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、最も低いサンプリ ングレートを有する音声信号である
請求項 7記載の音声再生装置。
[12] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、サンプリングレート が変わらな 、音声信号である
請求項 7記載の音声再生装置。
[13] 更に、
前記複数の音声信号のうちの何れか一つの音声信号に他の音声信号を加算する ことにより前記複数の音声信号を合成する場合、前記何れか一つの音声信号の再生 出力レベルを、前記他の音声信号を加算する部分のみ減ずる出力レベル調整手段 を備える
請求項 1記載の音声再生装置。
[14] 前記出力レベル調整手段は、前記何れか一つの音声信号に対して前記他の音声 信号を合成する場合であって、利用者によって前記他の音声信号の再生出カレべ ルをより大きく設定されたとき、前記何れか一つの音声信号の再生出力レベルを、前 記他の音声信号の再生出力レベルの増加分減じる
請求項 13記載の音声再生装置。
[15] 更に、
前記複数の音声信号のうちの何れか一つの音声信号の再生信号チャンネル数に 合わせて、他の音声信号の再生信号チャンネル数を統合又は分配する統合分配手 段を備える
請求項 1記載の音声再生装置。
[16] 更に、
前記音声再生装置に接続される音声出力装置のチャンネル数に合わせて、各前 記音声信号の再生信号チャンネル数を統合又は分配する統合分配手段を備える 請求項 1記載の音声再生装置。
[17] 前記統合分配手段は、利用者による前記音声出力装置の音声出力指定チャンネ ルに合わせて、各前記音声信号の再生信号チャンネル数を統合又は分配する 請求項 16記載の音声再生装置。
[18] 音声信号を再生して出力する音声再生方法であって、
一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情 報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時 刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同 期ステップと、
前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用して 、前記複数の音声信号を合成する合成ステップと
を含む音声再生方法。
[19] 音声信号を再生して出力するためのプログラムであって、 一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情 報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時 刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同 期ステップと、
前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用して 、前記複数の音声信号を合成する合成ステップと
をコンピュータに実行させるためのプログラム。
PCT/JP2005/006685 2004-04-06 2005-04-05 音声再生装置、音声再生方法及びプログラム WO2005098854A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006512092A JP3892478B2 (ja) 2004-04-06 2005-04-05 音声再生装置
US11/547,305 US7877156B2 (en) 2004-04-06 2005-04-05 Audio reproducing apparatus, audio reproducing method, and program
EP05728821A EP1734527A4 (en) 2004-04-06 2005-04-05 AUDIOWIEDERGABEANORDNUNG, AUDIOWIEDRGABEMETHODE AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-112224 2004-04-06
JP2004112224 2004-04-06

Publications (1)

Publication Number Publication Date
WO2005098854A1 true WO2005098854A1 (ja) 2005-10-20

Family

ID=35125327

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/006685 WO2005098854A1 (ja) 2004-04-06 2005-04-05 音声再生装置、音声再生方法及びプログラム

Country Status (6)

Country Link
US (1) US7877156B2 (ja)
EP (1) EP1734527A4 (ja)
JP (1) JP3892478B2 (ja)
KR (1) KR100762608B1 (ja)
CN (1) CN100505064C (ja)
WO (1) WO2005098854A1 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006246296A (ja) * 2005-03-07 2006-09-14 Nec Electronics Corp データ処理装置及びデータ処理方法
JP2007127861A (ja) * 2005-11-04 2007-05-24 Kddi Corp 付属情報埋め込み装置および再生装置
JP2007150853A (ja) * 2005-11-29 2007-06-14 Toshiba Corp 供給装置と処理装置及び指示方法
JP2008090936A (ja) * 2006-10-02 2008-04-17 Sony Corp 信号処理装置、信号処理方法、およびプログラム
EP1928110A2 (en) * 2006-11-30 2008-06-04 Broadcom Corporation Method and system for utilizing rate conversion filters to reduce mixing complexity during multipath multi-rate audio processing
EP1927982A3 (en) * 2006-11-30 2008-06-11 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
JP2008159238A (ja) * 2006-11-30 2008-07-10 Matsushita Electric Ind Co Ltd 音声データ送信装置および音声データ受信装置
JP2009063752A (ja) * 2007-09-05 2009-03-26 Toshiba Corp 音声再生装置及び音声再生方法
JP2009289372A (ja) * 2008-05-30 2009-12-10 Toshiba Corp 音声データ処理装置および音声データ処理方法
JP2010288262A (ja) * 2009-05-14 2010-12-24 Yamaha Corp 信号処理装置
JP2011044213A (ja) * 2009-08-24 2011-03-03 Sony Corp 情報処理装置および方法、並びにプログラム
JP2011070076A (ja) * 2009-09-28 2011-04-07 Nec Personal Products Co Ltd 情報処理装置
JP2011077678A (ja) * 2009-09-29 2011-04-14 Toshiba Corp データストリーム処理装置、映像装置、およびデータストリーム処理方法
US7936288B2 (en) 2006-11-30 2011-05-03 Broadcom Corporation Method and system for audio CODEC voice ADC processing
JP2014140135A (ja) * 2013-01-21 2014-07-31 Kddi Corp 情報再生端末
JP2017521922A (ja) * 2014-06-10 2017-08-03 テンセント テクノロジー (シェンジェン) カンパニー リミテッド ビデオリモートコメンタリー同期方法及びシステム並びにターミナルデバイス
JP2019165487A (ja) * 2019-05-15 2019-09-26 東芝映像ソリューション株式会社 放送受信装置及び放送受信方法
JP2019165488A (ja) * 2019-05-15 2019-09-26 東芝映像ソリューション株式会社 放送受信装置及び放送受信方法
WO2021065496A1 (ja) * 2019-09-30 2021-04-08 ソニー株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9609278B2 (en) 2000-04-07 2017-03-28 Koplar Interactive Systems International, Llc Method and system for auxiliary data detection and delivery
JP4912296B2 (ja) * 2005-04-28 2012-04-11 パナソニック株式会社 リップシンク補正システム、リップシンク補正装置及びリップシンク補正方法
US8000423B2 (en) * 2005-10-07 2011-08-16 Zoran Corporation Adaptive sample rate converter
US20070299983A1 (en) * 2006-06-21 2007-12-27 Brothers Thomas J Apparatus for synchronizing multicast audio and video
US20070297454A1 (en) * 2006-06-21 2007-12-27 Brothers Thomas J Systems and methods for multicasting audio
US20080133249A1 (en) * 2006-11-30 2008-06-05 Hashiguchi Kohei Audio data transmitting device and audio data receiving device
JP4991272B2 (ja) * 2006-12-19 2012-08-01 株式会社東芝 カメラ装置およびカメラ装置における再生制御方法
KR100809717B1 (ko) 2007-01-12 2008-03-06 삼성전자주식회사 더블 패터닝된 패턴의 전기적 특성을 콘트롤할 수 있는반도체 소자 및 그의 패턴 콘트롤방법
CN101889441A (zh) * 2007-11-16 2010-11-17 松下电器产业株式会社 便携式终端和用于视频输出的方法
US8798133B2 (en) * 2007-11-29 2014-08-05 Koplar Interactive Systems International L.L.C. Dual channel encoding and detection
KR101403682B1 (ko) * 2007-12-13 2014-06-05 삼성전자주식회사 오디오 데이터를 전송하는 영상기기 및 그의 오디오 데이터전송방법
JP5283914B2 (ja) * 2008-01-29 2013-09-04 キヤノン株式会社 表示制御装置及び表示制御方法
EP2141689A1 (en) 2008-07-04 2010-01-06 Koninklijke KPN N.V. Generating a stream comprising interactive content
JP2009277277A (ja) * 2008-05-13 2009-11-26 Funai Electric Co Ltd 音声処理装置
US8515239B2 (en) * 2008-12-03 2013-08-20 D-Box Technologies Inc. Method and device for encoding vibro-kinetic data onto an LPCM audio stream over an HDMI link
JP2010197957A (ja) * 2009-02-27 2010-09-09 Seiko Epson Corp 画像音声供給装置、画像音声出力装置、画像供給方法、画像音声出力方法、及びプログラム
US8984626B2 (en) 2009-09-14 2015-03-17 Tivo Inc. Multifunction multimedia device
US8605564B2 (en) * 2011-04-28 2013-12-10 Mediatek Inc. Audio mixing method and audio mixing apparatus capable of processing and/or mixing audio inputs individually
JP5426628B2 (ja) * 2011-09-16 2014-02-26 株式会社東芝 映像再生装置、映像再生装置の制御方法及びプログラム
DE112013005221T5 (de) * 2012-10-30 2015-08-20 Mitsubishi Electric Corporation Audio/Video-Reproduktionssystem, Video-Anzeigevorrichtung und Audio-Ausgabevorrichtung
US9154834B2 (en) * 2012-11-06 2015-10-06 Broadcom Corporation Fast switching of synchronized media using time-stamp management
US9263014B2 (en) * 2013-03-14 2016-02-16 Andrew John Brandt Method and apparatus for audio effects chain sequencing
US9350474B2 (en) * 2013-04-15 2016-05-24 William Mareci Digital audio routing system
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
WO2016091332A1 (en) * 2014-12-12 2016-06-16 Huawei Technologies Co., Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
JP6582589B2 (ja) * 2015-06-16 2019-10-02 ヤマハ株式会社 オーディオ機器
KR102582494B1 (ko) * 2016-12-09 2023-09-25 주식회사 케이티 오디오 컨텐츠를 분석하는 장치 및 방법
KR20180068069A (ko) * 2016-12-13 2018-06-21 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN106851385B (zh) * 2017-02-20 2019-12-27 北京乐我无限科技有限责任公司 视频录制方法、装置和电子设备
CN107230474B (zh) * 2017-04-18 2020-06-09 福建天泉教育科技有限公司 一种合成音频数据的方法及***
US11475872B2 (en) * 2019-07-30 2022-10-18 Lapis Semiconductor Co., Ltd. Semiconductor device
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
CN113138744B (zh) * 2021-04-30 2023-03-31 海信视像科技股份有限公司 一种显示设备和声道切换方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101608A (ja) * 1991-10-09 1993-04-23 Fujitsu Ltd 音声編集装置
JPH05266634A (ja) * 1992-03-19 1993-10-15 Fujitsu Ltd オーディオデータの重ね合せ方法及び重ね合せ装置
JPH07296519A (ja) * 1994-04-28 1995-11-10 Sony Corp ディジタルオーディオ信号伝送装置
JPH10145735A (ja) * 1996-11-05 1998-05-29 Toshiba Corp 復号装置および画像/音声再生方法
JPH10243349A (ja) * 1997-02-21 1998-09-11 Matsushita Electric Ind Co Ltd データ作成方法,及びデータ再生装置
JPH10340542A (ja) * 1997-06-06 1998-12-22 Toshiba Corp マルチストリームのデータ記録媒体とそのデータ伝送再生装置及び方法
JPH1153841A (ja) * 1997-08-07 1999-02-26 Pioneer Electron Corp 音声信号処理装置および音声信号処理方法
JPH11120705A (ja) * 1997-10-17 1999-04-30 Toshiba Corp ディスク再生方法及び装置
JPH11328863A (ja) * 1998-05-19 1999-11-30 Toshiba Corp デジタル音声データ処理装置
JP2001036863A (ja) * 1999-07-22 2001-02-09 Nec Ic Microcomput Syst Ltd 画像処理装置
JP2003257125A (ja) * 2002-03-05 2003-09-12 Seiko Epson Corp 音再生方法および音再生装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2456642A1 (de) 1974-11-29 1976-08-12 Deutscher Filmdienst Waldfried Synchronisierverfahren fuer die tonfilmtechnik
JPH0662500A (ja) 1992-08-05 1994-03-04 Mitsubishi Electric Corp ミューズデコーダ
JP2766466B2 (ja) * 1995-08-02 1998-06-18 株式会社東芝 オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法
JPH09288866A (ja) 1996-04-22 1997-11-04 Sony Corp 記録再生装置および方法
US6044307A (en) * 1996-09-02 2000-03-28 Yamaha Corporation Method of entering audio signal, method of transmitting audio signal, audio signal transmitting apparatus, and audio signal receiving and reproducing apparatus
CA2257572A1 (en) 1997-04-12 1998-10-22 Yoshiyuki Nakamura Editing system and editing method
JP2000228054A (ja) 1999-02-08 2000-08-15 Sharp Corp 情報再生装置
US6778756B1 (en) * 1999-06-22 2004-08-17 Matsushita Electric Industrial Co., Ltd. Countdown audio generation apparatus and countdown audio generation system
JP4555072B2 (ja) * 2002-05-06 2010-09-29 シンクロネイション インコーポレイテッド ローカライズされたオーディオ・ネットワークおよび関連するディジタル・アクセサリ
KR100910975B1 (ko) 2002-05-14 2009-08-05 엘지전자 주식회사 인터넷을 이용한 대화형 광디스크 재생방법
US7706544B2 (en) * 2002-11-21 2010-04-27 Fraunhofer-Geselleschaft Zur Forderung Der Angewandten Forschung E.V. Audio reproduction system and method for reproducing an audio signal
US20040199276A1 (en) * 2003-04-03 2004-10-07 Wai-Leong Poon Method and apparatus for audio synchronization
DE10322722B4 (de) * 2003-05-20 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Synchronisieren eines Audiossignals mit einem Film
JP4305065B2 (ja) * 2003-06-12 2009-07-29 ソニー株式会社 Av同期処理装置および方法ならびにav記録装置
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101608A (ja) * 1991-10-09 1993-04-23 Fujitsu Ltd 音声編集装置
JPH05266634A (ja) * 1992-03-19 1993-10-15 Fujitsu Ltd オーディオデータの重ね合せ方法及び重ね合せ装置
JPH07296519A (ja) * 1994-04-28 1995-11-10 Sony Corp ディジタルオーディオ信号伝送装置
JPH10145735A (ja) * 1996-11-05 1998-05-29 Toshiba Corp 復号装置および画像/音声再生方法
JPH10243349A (ja) * 1997-02-21 1998-09-11 Matsushita Electric Ind Co Ltd データ作成方法,及びデータ再生装置
JPH10340542A (ja) * 1997-06-06 1998-12-22 Toshiba Corp マルチストリームのデータ記録媒体とそのデータ伝送再生装置及び方法
JPH1153841A (ja) * 1997-08-07 1999-02-26 Pioneer Electron Corp 音声信号処理装置および音声信号処理方法
JPH11120705A (ja) * 1997-10-17 1999-04-30 Toshiba Corp ディスク再生方法及び装置
JPH11328863A (ja) * 1998-05-19 1999-11-30 Toshiba Corp デジタル音声データ処理装置
JP2001036863A (ja) * 1999-07-22 2001-02-09 Nec Ic Microcomput Syst Ltd 画像処理装置
JP2003257125A (ja) * 2002-03-05 2003-09-12 Seiko Epson Corp 音再生方法および音再生装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1734527A4 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006246296A (ja) * 2005-03-07 2006-09-14 Nec Electronics Corp データ処理装置及びデータ処理方法
JP4541191B2 (ja) * 2005-03-07 2010-09-08 ルネサスエレクトロニクス株式会社 データ処理装置及びデータ処理方法
JP2007127861A (ja) * 2005-11-04 2007-05-24 Kddi Corp 付属情報埋め込み装置および再生装置
JP2007150853A (ja) * 2005-11-29 2007-06-14 Toshiba Corp 供給装置と処理装置及び指示方法
US8478910B2 (en) 2005-11-29 2013-07-02 Kabushiki Kaisha Toshiba Supply device and processing device as well as instruction method
JP2008090936A (ja) * 2006-10-02 2008-04-17 Sony Corp 信号処理装置、信号処理方法、およびプログラム
US8719040B2 (en) 2006-10-02 2014-05-06 Sony Corporation Signal processing apparatus, signal processing method, and computer program
US7463170B2 (en) 2006-11-30 2008-12-09 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
US7852239B2 (en) 2006-11-30 2010-12-14 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
EP1927982A3 (en) * 2006-11-30 2008-06-11 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
KR100915115B1 (ko) * 2006-11-30 2009-09-03 브로드콤 코포레이션 복수의 오디오 프로세싱 소스들로부터 멀티 레이트오디오를 처리하는 방법 및 시스템
KR100915116B1 (ko) * 2006-11-30 2009-09-03 브로드콤 코포레이션 다중 경로의 멀티 레이트 오디오 프로세싱 시의 믹싱복잡도를 줄일 수 있도록 레이트 변환 필터를 이용하는방법 및 시스템
US8169344B2 (en) 2006-11-30 2012-05-01 Broadcom Corporation Method and system for audio CODEC voice ADC processing
JP2008159238A (ja) * 2006-11-30 2008-07-10 Matsushita Electric Ind Co Ltd 音声データ送信装置および音声データ受信装置
EP1928110A2 (en) * 2006-11-30 2008-06-04 Broadcom Corporation Method and system for utilizing rate conversion filters to reduce mixing complexity during multipath multi-rate audio processing
US7936288B2 (en) 2006-11-30 2011-05-03 Broadcom Corporation Method and system for audio CODEC voice ADC processing
EP1928110A3 (en) * 2006-11-30 2008-12-10 Broadcom Corporation Method and system for utilizing rate conversion filters to reduce mixing complexity during multipath multi-rate audio processing
JP2009063752A (ja) * 2007-09-05 2009-03-26 Toshiba Corp 音声再生装置及び音声再生方法
JP2009289372A (ja) * 2008-05-30 2009-12-10 Toshiba Corp 音声データ処理装置および音声データ処理方法
JP2010288262A (ja) * 2009-05-14 2010-12-24 Yamaha Corp 信号処理装置
JP2011044213A (ja) * 2009-08-24 2011-03-03 Sony Corp 情報処理装置および方法、並びにプログラム
JP2011070076A (ja) * 2009-09-28 2011-04-07 Nec Personal Products Co Ltd 情報処理装置
JP2011077678A (ja) * 2009-09-29 2011-04-14 Toshiba Corp データストリーム処理装置、映像装置、およびデータストリーム処理方法
JP2014140135A (ja) * 2013-01-21 2014-07-31 Kddi Corp 情報再生端末
JP2017521922A (ja) * 2014-06-10 2017-08-03 テンセント テクノロジー (シェンジェン) カンパニー リミテッド ビデオリモートコメンタリー同期方法及びシステム並びにターミナルデバイス
US9924205B2 (en) 2014-06-10 2018-03-20 Tencent Technology (Shenzhen) Company Limited Video remote-commentary synchronization method and system, and terminal device
JP2019165487A (ja) * 2019-05-15 2019-09-26 東芝映像ソリューション株式会社 放送受信装置及び放送受信方法
JP2019165488A (ja) * 2019-05-15 2019-09-26 東芝映像ソリューション株式会社 放送受信装置及び放送受信方法
WO2021065496A1 (ja) * 2019-09-30 2021-04-08 ソニー株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP3892478B2 (ja) 2007-03-14
US7877156B2 (en) 2011-01-25
CN1942962A (zh) 2007-04-04
KR20070003958A (ko) 2007-01-05
KR100762608B1 (ko) 2007-10-01
EP1734527A1 (en) 2006-12-20
EP1734527A4 (en) 2007-06-13
US20080037151A1 (en) 2008-02-14
JPWO2005098854A1 (ja) 2007-08-16
CN100505064C (zh) 2009-06-24

Similar Documents

Publication Publication Date Title
JP3892478B2 (ja) 音声再生装置
JP5586950B2 (ja) プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法
JP4536653B2 (ja) データ処理装置および方法
JP4602204B2 (ja) 音声信号処理装置および音声信号処理方法
US20060210245A1 (en) Apparatus and method for simultaneously utilizing audio visual data
KR100802179B1 (ko) 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
TW200830874A (en) Image information transmission system, image information transmitting apparatus, image information receiving apparatus, image information transmission method, image information transmitting method, and image information receiving method
JP4613674B2 (ja) 音声再生装置
WO2011142129A1 (ja) デジタル放送受信装置及びデジタル放送受信方法
JP2012019386A (ja) 再生装置、再生方法、およびプログラム
JP2003111023A (ja) データ記録装置、データ記録方法、プログラム、および媒体
JP4013800B2 (ja) データ作成方法及びデータ記録装置
JP2008288935A (ja) 音声処理装置
JP4285099B2 (ja) データ再生方法及びデータ再生装置
JP2006148679A (ja) データ処理装置
JP2007235519A (ja) 映像音声同期方法及び映像音声同期システム
JP4270084B2 (ja) 記録再生装置
KR100681647B1 (ko) Pvr의 편집 관리 시스템 및 그 제어 방법
JP2006148839A (ja) 放送装置、受信装置、及びこれらを備えるデジタル放送システム
JP2008125015A (ja) 映像音声記録再生装置
WO2013098898A1 (ja) 放送受信装置および音声信号再生方法
JP2005033576A (ja) コンテンツ記録再生装置
JP2010098522A (ja) デジタル放送受信機
JP2002247476A (ja) 多言語音声出力機能付き放送受信装置及び再生装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2006512092

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 1020067019351

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2005728821

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11547305

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 200580011973.4

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2005728821

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020067019351

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 11547305

Country of ref document: US