WO2019069710A1 - 符号化装置および方法、復号装置および方法、並びにプログラム - Google Patents

符号化装置および方法、復号装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2019069710A1
WO2019069710A1 PCT/JP2018/034981 JP2018034981W WO2019069710A1 WO 2019069710 A1 WO2019069710 A1 WO 2019069710A1 JP 2018034981 W JP2018034981 W JP 2018034981W WO 2019069710 A1 WO2019069710 A1 WO 2019069710A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
metadata
frame
data
aac
Prior art date
Application number
PCT/JP2018/034981
Other languages
English (en)
French (fr)
Inventor
光行 畠中
徹 知念
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/651,532 priority Critical patent/US11595056B2/en
Priority to RU2020111480A priority patent/RU2020111480A/ru
Priority to CN201880063308.7A priority patent/CN111164679B/zh
Priority to EP18864075.9A priority patent/EP3693961B1/en
Priority to KR1020207007879A priority patent/KR102683551B1/ko
Priority to JP2019546624A priority patent/JP7358986B2/ja
Publication of WO2019069710A1 publication Critical patent/WO2019069710A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Definitions

  • the present technology relates to an encoding apparatus and method, a decoding apparatus and method, and a program, and more particularly to an encoding apparatus and method, a decoding apparatus and method, and a program that can improve convenience.
  • Non-Patent Document 1 Non-Patent Document 2
  • AAC Advanced Audio Coding
  • MP3 Motion Picture Experts Group 2 Audio Layer 3
  • Audio coding technologies such as AAC and MP3 are used in various applications including music distribution, and have a track record in terms of sound quality and implementation.
  • audio encoding techniques ie, conventional audio encoding standards
  • these audio encoding techniques are encoding techniques that are premised on handling channel-based audio data.
  • 3D Audio metadata including object audio data used for reproduction of 3D audio (3D Audio) and position information of each object audio data.
  • the present technology has been made in view of such a situation, and is intended to improve convenience.
  • the decoding device decodes audio data including object audio included in a coded bit stream, and from the area capable of storing arbitrary data of the coded bit stream, the object A decoding unit that reads out audio metadata, and an output unit that outputs the decoded audio data based on the metadata.
  • the decoding method or program according to the first aspect of the present technology decodes audio data including object audio included in a coded bit stream, and from an area capable of storing arbitrary data of the coded bit stream. Reading metadata of the object audio and outputting the decoded audio data based on the metadata.
  • audio data including object audio included in a coded bit stream is decoded, and the object audio is generated from an area capable of storing arbitrary data of the coded bit stream.
  • Metadata is read out, and the decoded audio data is output based on the metadata.
  • the encoding apparatus encodes audio data including object audio and stores metadata of the object audio in an area capable of storing arbitrary data, and the metadata, and And an encoding unit configured to generate an encoded bit stream including the encoded audio data.
  • the encoding method or program according to the second aspect of the present technology encodes audio data including object audio and stores metadata of the object audio in an area capable of storing any data, and the metadata And generating a coded bit stream in which the coded audio data is included.
  • audio data including object audio is encoded, and metadata of the object audio is stored in an area capable of storing any data, and the metadata and encoding are encoded.
  • An encoded bit stream is generated which includes the audio data.
  • the present technology encodes and transmits object audio data and 3D audio metadata even when using an encoding method such as AAC or MP3 which is not supposed to handle object audio data from the beginning. Convenience can be improved by enabling 3D Audio playback on the side.
  • the present technology particularly has the following features.
  • 3D Audio metadata required for 3D Audio rendering is stored in the ancillary data area in a codec such as AAC not compatible with 3D Audio.
  • Feature (2) When 3D Audio metadata does not fit in one ancillary data area, 3D Audio metadata is stored in a plurality of ancillary data areas.
  • Feature (3) When 3D Audio metadata is intermittently present, the last obtained 3D Audio metadata already acquired is applied to the frame to be reproduced.
  • Feature (4) By describing information on the configuration of 3D Audio audio data in the comment field of the codec layer, audio data is transmitted while maintaining the conventional codec (coding) standard.
  • Feature (5) If the 3D Audio metadata does not fit in the ancillary data area of one frame, the 3D Audio metadata is transmitted across a plurality of frames.
  • the encoding device performs thinning processing of 3D Audio metadata to be stored for each original frame, and transmits representative values of 3D Audio metadata of a plurality of frames.
  • a sound image of a sound source such as an audio object can be localized at an arbitrary position in a three-dimensional space.
  • Such 3D Audio requires 3D Audio metadata in addition to audio elements of audio objects, that is, object-based audio data and channel-based audio data.
  • 3D Audio metadata is data including, for example, position information indicating the position of an audio object in a three-dimensional space, gain information used for gain adjustment of audio data of the audio object, and the like.
  • 3D Audio metadata can not be encoded and transmitted as it is.
  • encoded 3D Audio metadata is stored in the extension area provided in the encoded bit stream in which the audio data is stored.
  • the extension area in which 3D Audio metadata is stored is an area defined by the existing coding technology, in which the user is allowed to record free data according to his / her own rule, that is, an arbitrary data is stored. It is a possible area, also called an ancillary data area.
  • the AAC bit stream which is a coded bit stream has a region corresponding to the extension region of the example shown by arrow Q11.
  • DSE Data Stream Element
  • the decoding device receiving the AAC bit stream indicated by the arrow Q12 supports 3D Audio, that is, 3D Audio metadata
  • the decoding device reads out 3D Audio metadata from the AAC bit stream and decodes it. It can be used for 3D Audio playback.
  • a decoding apparatus not compatible with 3D Audio metadata can not interpret 3D Audio metadata as ancillary data described in DSE.
  • the decoding apparatus it is possible to obtain data size information indicating the data size of ancillary data recorded in DSE, which is defined in the AAC standard. Therefore, the decoding apparatus can skip portions of 3D Audio metadata in the DSE using the data size information, and can maintain compatibility with the AAC standard.
  • an ancillary data area as an area corresponding to the extension area of the example shown by arrow Q11. Is provided. Therefore, when audio data is encoded by the MP3 encoding method, encoded 3D Audio metadata is stored as ancillary data in the ancillary data area.
  • an AAC bit stream that is, a coded bit stream obtained by coding audio data according to AAC has a configuration shown in FIG.
  • PCE Program Config Element
  • DSE Data Config Element
  • the AAC audio element data includes at least one of audio data of an audio object, channel-based audio data, and HOA (High Order Ambisonic) -based audio data as audio data for realizing 3D Audio playback. It is done.
  • HOA High Order Ambisonic
  • audio data of an audio object that is, object-based audio data is so-called object audio
  • object audio is an audio signal for reproducing the sound of the audio object.
  • the channel-based audio data is, for example, an audio signal of each channel of a predetermined channel configuration such as 5.1 channel or 22.2 channel, that is, an audio signal of sound reproduced by a speaker corresponding to each channel.
  • HOA-based audio data is an ambisonic audio signal. That is, the HOA-based audio data is a channel-based audio signal represented in ambisonic format. Hereinafter, HOA-based audio data is also referred to as ambisonic-based audio data.
  • audio data of audio objects are also simply referred to as audio data, when it is not necessary to distinguish them.
  • the comment field capable of storing arbitrary data in the PCE of the AAC bit stream stores 3D Audio component information indicating components of AAC audio element data.
  • 3D Audio component information is the number of channel bases that is the number of channel-based audio data that configures AAC audio element data, the number of object audios that is the number of audio data of audio objects, and ambisonic based audio data It is information indicating the number of HOA audios, which is the number of.
  • 3D Audio metadata which is metadata of audio data making up AAC audio element data, is stored as ancillary data in the DSE of the AAC bit stream.
  • channel-based metadata is included as 3D Audio metadata.
  • object-based metadata is included as 3D Audio metadata.
  • Ambisonic-based metadata is included as 3D Audio metadata.
  • channel-based metadata is metadata of channel-based audio data, and includes corresponding channel information indicating which channel each channel-based audio data belongs to.
  • Object base metadata is metadata of audio data of an audio object, and object number information indicating the number of audio objects, position information indicating the position of each audio object in a three-dimensional space, audio of each audio object It consists of gain information etc. which show the gain by which data is multiplied.
  • Ambisonic-based metadata is metadata of Ambisonic-based audio data, and includes information indicating the Ambisonic order and mode.
  • an AAC bit stream obtained by applying the present technology that is, an AAC-based encoded bit stream storing 3D Audio metadata will be particularly referred to as a 3D AAC bit stream.
  • FIG. 3 is a diagram showing a configuration example of a coding device to which the present technology is applied.
  • the encoding device 11 illustrated in FIG. 3 includes a 3D Audio metadata encoding unit 21 and an AAC encoding unit 22.
  • channel-based metadata, object-based metadata, and ambisonic-based metadata are externally supplied to the 3D Audio metadata encoding unit 21 as 3D Audio metadata.
  • the audio data of an audio object (object audio), channel-based audio data, various audio data such as ambisonic-based audio data, and 3D Audio component information are supplied to the AAC encoding unit 22 from the outside.
  • object audio an audio object
  • various audio data such as ambisonic-based audio data
  • 3D Audio component information are supplied to the AAC encoding unit 22 from the outside.
  • each audio data is a PCM (Pulse Code Modulation) signal for reproducing the content
  • the AAC encoding unit 22 is supplied with one or more audio data including at least object audio.
  • the 3D Audio metadata encoding unit 21 encodes 3D Audio metadata supplied from the outside, and supplies the encoded 3D Audio metadata to the AAC encoding unit 22.
  • 3D Audio metadata encoded by the 3D Audio metadata encoding unit 21 will also be referred to as encoded 3D Audio metadata.
  • the AAC encoding unit 22 encodes the encoded 3D Audio metadata supplied from the 3D Audio metadata encoding unit 21 and the externally supplied 3D Audio component information and audio data according to the AAC encoding method. Generate and output a 3D AAC bitstream.
  • the audio data supplied to the AAC encoding unit 22 is a PCM signal, it is possible to encode those audio data as AAC audio element data of the AAC standard.
  • the 3D Audio component element information is not supplied from the outside to the AAC encoding unit 22, but the AAC encoding unit 22 receives the supply of necessary information from the 3D Audio metadata encoding unit 21, and the information is The 3D Audio component information may be generated based on that.
  • a decoding apparatus that receives and decodes the 3D AAC bit stream output from the encoding apparatus 11 shown in FIG. 3 will be described.
  • Such a decoding apparatus is configured, for example, as shown in FIG.
  • the decoding device 51 illustrated in FIG. 4 includes an AAC decoding unit 61, a 3D Audio metadata decoding unit 62, a 3D Audio metadata acquisition unit 63, and a 3D Audio renderer 64.
  • the AAC decoding unit 61 receives the 3D AAC bit stream transmitted from the encoding device 11 and decodes the received 3D AAC bit stream.
  • the AAC decoding unit 61 supplies the encoded 3D Audio metadata obtained by decoding the 3D AAC bit stream to the 3D Audio metadata decoding unit 62, and the audio data obtained by decoding, that is, the PCM signal is 3D Audio renderer Supply to 64.
  • audio data supplied from the AAC decoding unit 61 to the 3D Audio renderer 64 is audio data of an audio object (object audio data), channel-based audio data, ambisonic-based audio data, or the like.
  • the AAC decoding unit 61 appropriately supplies the 3D Audio component information obtained by the decoding to the upper control unit that controls the decoding device 51.
  • the 3D Audio metadata decoding unit 62 decodes the encoded 3D Audio metadata supplied from the AAC decoding unit 61, and obtains channel base metadata as object 3D Audio metadata obtained as a result, object base metadata, Ambi. Supply sonic based metadata to the 3D Audio renderer 64.
  • the 3D Audio metadata acquisition unit 63 appropriately acquires necessary information from the outside to generate 3D Audio metadata, or receives 3D Audio metadata from an external server or the like, and thereby generates 3D Audio metadata. Acquire and supply to 3D Audio renderer 64.
  • the 3D Audio renderer 64 performs rendering processing to generate reproduction data for 3D Audio reproduction, and an output unit that outputs the obtained reproduction data, that is, the decoded audio data based on 3D Audio metadata. It functions as an output unit to output.
  • the 3D Audio renderer 64 is based on the 3D Audio metadata supplied from the 3D Audio metadata decoding unit 62 or 3D Audio metadata acquisition unit 63 and the audio data supplied from the AAC decoding unit 61. Rendering is performed, and audio data of a predetermined number of channels is generated as reproduction data.
  • the reproduction data is an audio signal for realizing 3D Audio reproduction, which is audio data of each channel having a predetermined channel configuration such as 2 channels or 5.1 channels, for example. If the sound is reproduced based on the reproduction data, for example, the sound image of the sound of the audio object may be localized at the position in the three-dimensional space indicated by the position information included in the 3D Audio metadata of the audio object. it can.
  • the 3D Audio renderer 64 outputs the obtained reproduction data to the outside.
  • the 3D Audio renderer 64 supplies reproduction data to a speaker to reproduce a sound, or supplies reproduction data to a recording unit (not shown) to record.
  • AAC audio element data is composed of 7.1 channel channel-based audio data, audio data of two audio objects, and ambisonic-based primary ambisonic audio data.
  • a 3D AAC bitstream is configured, for example, as shown in FIG.
  • PCE and DSE are arranged at the beginning of a 3D AAC bit stream of one frame of audio data.
  • the PCE stores 3D Audio component information
  • the DSE stores encoded 3D Audio metadata.
  • one single channel element SCE
  • three channel pair elements CPE
  • one low frequency effects LFE
  • SCE single channel element
  • CPE channel pair elements
  • LFE low frequency effects
  • two SCEs are arranged behind the channel-based audio element, and audio data of the two audio objects are stored in these SCEs to be an object-based audio element.
  • SCEs Following the object-based audio element, four SCEs are arranged, and the ambisonic-based primary ambisonic audio data is stored in these SCEs to be an ambisonic-based audio element.
  • a FIL is placed behind the ambisonic based audio element, that is, at the end of one frame of 3D AAC bit stream.
  • the AAC audio element data is composed of a channel based audio element, an object based audio element, and an ambisonic based audio element.
  • the AAC audio element data may be composed of at least one of these channel based audio elements, object based audio elements, and ambisonic based audio elements.
  • 3D Audio metadata is basically transmitted for each frame.
  • 3D Audio metadata is not necessarily required for each of a plurality of frames, for example, in a frame section where there is no motion of an audio object, 3D Audio metadata may not be transmitted for each frame.
  • 3D Audio metadata acquired last in time among 3D Audio metadata of frames prior to the frame is obtained. Data is used as that of the current frame.
  • each of the squares indicated by the arrows A11 to A15 represents the 3D AAC bit stream of each of the frame N to the frame (N + 4).
  • a 3D AAC bit stream for one frame is also referred to as AAC frame data.
  • 3D Audio metadata of the frame N is stored in the AAC frame data. Therefore, in the decoding device 51, 3D Audio metadata of the frame N obtained by the decoding (hereinafter, 3D Audio metadata ( N)) is used to perform rendering.
  • next frame (N + 1) 3D Audio metadata is not stored in the AAC frame data. Therefore, in the decoding device 51, rendering of the frame (N + 1) is performed using 3D Audio metadata (N) of the frame N acquired last, that is, finally obtained by decoding.
  • the most current of the 3D Audio metadata of the frame temporally previous to the current frame which has already been read from the DSE of the 3D AAC bitstream.
  • the 3D Audio metadata of a frame temporally close to the frame is used as the 3D Audio metadata of the current frame.
  • the 3D Audio metadata read from the DSE in a frame earlier than the current frame is used as the 3D Audio metadata of the current frame. And the current frame is rendered. Furthermore, as a result, when there is no 3D Audio metadata of the current frame, the 3D Audio metadata used in the frame immediately before the current frame is also used as that of the current frame.
  • the 3D Audio metadata (N + 4) of the frame (N + 4) is obtained by decoding, so the 3D Audio metadata Rendering is performed using (N + 4).
  • the 3D Audio metadata of the frame temporally previous to the current frame is referred to Can be
  • the fact that 3D Audio metadata is not stored in the DSE of the current frame represents an instruction to refer to 3D Audio metadata of a frame temporally previous to the current frame.
  • DSE may also store a previous frame reference flag indicating whether to use (reference) 3D Audio metadata of a frame temporally previous to the current frame. .
  • the previous frame reference flag is the 3D Audio metadata read out from the DSE in the frame prior to the current frame, and is the 3D Audio metadata read last in time, the 3D Audio of the current frame. It is information indicating whether to use as metadata.
  • the previous frame reference flag is the 3D Audio metadata of the current frame, of the 3D Audio metadata stored in the DSE of the frame temporally previous to the current frame, the 3D frame closest to the current frame This is information indicating whether to use Audio metadata.
  • the value of the previous frame reference flag is set to “1”, and only the previous frame reference flag whose value is 1 is described in DSE.
  • the value of the previous frame reference flag is set to “0”, and the DSE has a value of 0 for the previous frame reference flag. Data is described. The following description will be continued assuming that the previous frame reference flag is stored in DSE.
  • 3D Audio metadata is data stored in the DSE, and is data independent of the AAC encoding standard.
  • 3D Audio metadata may be omitted in some frames.
  • the 3D Audio metadata of the current frame when the 3D Audio metadata of the current frame can not be obtained, the 3D Audio metadata of the previous frame is used as it is, and the 3D Audio metadata held in advance by the decoding device 51 Default values can be used.
  • 3D Audio metadata different from the 3D Audio metadata read from the 3D AAC bit stream such as default values held in advance by the decoding apparatus 51, are also referred to as externally acquired 3D Audio metadata. To be.
  • 3D Audio metadata can not be obtained in some frames at the beginning of the content.
  • each of the squares indicated by the arrows A21 to A25 represents the AAC frame data of the frame 0 to the frame 4, respectively.
  • the 3D Audio metadata acquisition unit 63 acquires a predetermined initial metadata value as externally acquired 3D Audio metadata, and supplies the 3D Audio renderer 64 with the acquired initial metadata value.
  • the position indicated by the position information of the audio object is a predetermined position or the like, such as the position directly in front of the user on the three-dimensional space.
  • the 3D Audio metadata acquiring unit 63 acquires the initial metadata value as externally acquired 3D Audio metadata based on the 3D Audio component information read from the PCE. . Specifically, for example, position information and gain information corresponding to the number of audio objects are acquired based on the number of object audios indicated by the 3D Audio component information.
  • the 3D Audio renderer 64 When receiving the supply of initial metadata values as externally acquired 3D Audio metadata, the 3D Audio renderer 64 renders frames 0 to 3 using the supplied initial metadata values. Then, when the 3D Audio metadata is read out from the DSE in the frame 4, the rendering is performed for the frame 4 based on the read out 3D Audio metadata.
  • 3D Audio metadata can not be obtained from DSE for a long time, such as at the beginning or in the middle of content
  • externally acquired 3D Audio metadata acquired based on 3D Audio component information etc. is used. If used, 3D Audio can be played for the time being.
  • the value of the previous frame reference flag is “1”, and the 3D Audio meta Data may not be transmitted.
  • 3D Audio reproduction may be performed by using externally acquired 3D Audio metadata. it can.
  • 3D Audio metadata When using externally acquired 3D Audio metadata, then, when using 3D Audio metadata read from DSE, 3D Audio metadata was suddenly read from DSE from what was acquired from the outside etc. If it changes to something, the position of the audio object may become discontinuous, which may cause discomfort. Therefore, for example, during several frames, interpolation processing is performed based on externally acquired 3D Audio metadata used last and 3D Audio metadata read from DSE, and 3D Audio metadata obtained by interpolation processing The position of the audio object may be smoothly transitioned by using.
  • externally acquired 3D Audio metadata is generated by the 3D Audio metadata acquisition unit 63 based on information acquired from the outside, etc., acquired from a server via a network, or encoded separately from the 3D AAC bit stream It may be acquired in any way, such as being acquired from the In addition, externally acquired 3D Audio metadata of each reproduction time may be prepared in advance for each content, and suitable externally acquired 3D Audio metadata may be acquired according to the reproduction time of the content.
  • 3D Audio metadata may be changed according to a user's instruction or the like.
  • a user's instruction such as a network type competition game
  • not only user operations in the decryption apparatus 51 but also operations of other users are considered, and the 3D Audio Meta Data can be made to change.
  • the AAC audio element data encoded by the AAC encoding method is channel-based, object-based, or ambisonic Identification information that identifies the type of audio data, such as whether it is based or not, is required.
  • configuration information indicating the configuration of AAC audio element data is required. Such information should be able to be obtained without decoding 3D Audio metadata.
  • 3D Audio component information is stored in the PCE comment field as information identifying the type of audio data, that is, information indicating the configuration of AAC audio element data. It is done.
  • the information indicated by the 3D Audio component information is also included in the 3D Audio metadata.
  • the decoding device 51 can obtain 3D Audio component information in the decoding process of the AAC standard in the AAC decoding unit 61.
  • PCE is also used independently in the MPEG-4 File Format layer, storing 3D Audio component information in the PCE has the advantage of being able to acquire 3D Audio component information also from the system layer. .
  • a decoding device not compatible with the present technology can skip the number of bytes of the comment field recorded in the AAC standard, so compatibility with the AAC standard is possible. Can be maintained.
  • each audio element that is, the speaker arrangement information of each audio data is recorded as position information on a two-dimensional plane such as front position (FRONT), horizontal position (SIDE) or back position (BACK) in PCE. can do. That is, it is possible to store, in the PCE, speaker arrangement information indicating which of the forward, backward, and lateral directions the speaker for reproducing the audio data is present.
  • FRONT front position
  • SIDE horizontal position
  • BACK back position
  • 3D Audio metadata as the position information of each audio object, that is, object-based audio data, an angle indicating the position of the audio object in the plane direction and an angle indicating the position in the height direction are 3D Audio metadata.
  • the front side is the front direction of the user U11 who is the viewer, that is, the front direction in the drawing, and the back side is the rear of the user U11 in the drawing.
  • the audio object EL11 is located on the upper front of the user U11, and the audio object EL12 is located on the upper right of the front of the user U11. Also, the audio object EL13 is located on the upper rear side of the user U11, and the audio object EL14 is located on the upper left side of the user U11.
  • the audio object EL11 and the audio object EL12 are set as the front position audio element at the front. Then, information indicating the front position is described in the PCE as the speaker arrangement information of those audio objects.
  • the positions of the audio object EL11 and the audio object EL12 in the three-dimensional space are remapped to the front positions on the two-dimensional plane.
  • the PCE describes position information of the audio objects, that is, information indicating the front position as the speaker arrangement information.
  • the audio object EL13 is a rear position audio element located at the rear, and information indicating the rear position, which is the position on the two-dimensional plane of the audio object EL13, is described in the PCE as speaker arrangement information.
  • the audio object EL14 is a lateral position audio element positioned laterally, and information indicating the lateral position, which is the position on the two-dimensional plane of the audio object EL14, is described in the PCE as speaker arrangement information.
  • Such speaker arrangement information is information indicating a speaker to which audio data of an audio object is to be output, that is, information on a speaker arrangement corresponding to the audio object.
  • the speaker arrangement information is information indicating which channel the audio data of each audio object belongs to, that is, the channel mapping of the audio object.
  • Such speaker arrangement information can also be said to be position information indicating the position on the two-dimensional plane of the audio object.
  • position information indicating the position of the audio object on the two-dimensional plane is also referred to as position information indicating the position of the audio object on the two-dimensional plane.
  • the decoding device 51 does not support 3D Audio. Even if it can not, the position on each two-dimensional plane of each audio object can be specified.
  • the sound image of each audio object can be localized at the correct position on the two-dimensional plane from the position information on the two-dimensional plane described in the PCE.
  • parts corresponding to those in FIG. 8 are assigned the same reference numerals, and the description thereof will be omitted as appropriate.
  • the decoding device 51 reads out position information (speaker arrangement information) indicating the position on the two-dimensional plane of the audio object EL11 to the audio object EL14 from the PCE, so that each audio is displayed at the position indicated by the position information. Objects can be placed.
  • the channel mapping of 3D Audio can be assigned to the existing channel mapping as much as possible. In this way, sounds based on object-based audio element data can be output from the speaker located at an approximate position on the plane of the audio object.
  • the heights of the audio object EL11 to the audio object EL14 are different from the original height, and are the height of the head of the user U11.
  • the audio object EL11 and the audio object EL12 are disposed in front of the user U11
  • the audio object EL13 is disposed behind the user U11
  • the audio object EL14 is disposed on the left side of the user U11.
  • This encoding process is started when audio data to be encoded is supplied.
  • step S11 the 3D Audio metadata encoding unit 21 determines whether there is 3D Audio metadata to be transmitted for the current frame to be processed.
  • 3D Audio metadata when 3D Audio metadata is supplied from the outside, it is determined that there is 3D Audio metadata to be transmitted.
  • 3D Audio metadata of the previous frame is referred to, for example, when there is no change in 3D Audio metadata between the current frame to be processed and the immediately preceding frame, the 3D Audio metadata of the current frame to be processed is Not supplied
  • step S11 If it is determined in step S11 that there is 3D audio metadata to be transmitted, the 3D audio metadata encoding unit 21 encodes 3D audio metadata supplied from the outside in step S12. Process. Then, the 3D Audio metadata encoding unit 21 supplies the encoded 3D Audio metadata obtained by the 3D Audio metadata encoding process to the AAC encoding unit 22.
  • step S13 the AAC encoding unit 22 AAC-encodes the encoded 3D Audio metadata supplied from the 3D Audio metadata encoding unit 21, the previous frame reference flag, and the audio data supplied from the outside to one frame. Generate AAC frame data of
  • the AAC encoding unit 22 stores the encoded 3D Audio metadata in the DSE following the previous frame reference flag. Do.
  • the AAC encoding unit 22 encodes audio data for one frame supplied from the outside according to the AAC encoding method, and stores the encoded audio data as AAC audio element data in SCE, CPE, LFE or the like of AAC frame data.
  • the AAC encoding unit 22 stores externally supplied 3D Audio component information and position information (speaker arrangement information) indicating the position on the two-dimensional plane of the audio object in the PCE of the AAC frame data.
  • position information indicating the position on the two-dimensional plane of the audio object in the PCE of the AAC frame data.
  • the AAC frame data of the configuration shown in FIG. 5 is obtained as a 3D AAC bit stream for one frame.
  • step S17 When the AAC encoding unit 22 outputs (transmits) the 3D AAC bit stream for one frame obtained in this manner, the process proceeds to step S17.
  • step S11 when it is determined in step S11 that there is no 3D Audio metadata to be transmitted, the AAC encoding unit 22 determines whether or not 3D Audio metadata of the previous frame is referred to on the decoding side in step S14. Do.
  • step S14 If it is determined in step S14 that 3D Audio metadata of the previous frame is to be referred to, then the process proceeds to step S15.
  • step S15 the AAC coding unit 22 sets the value of the previous frame reference flag to "1", and AAC codes audio data supplied from the outside.
  • the AAC encoding unit 22 stores the previous frame reference flag whose value is “1” in the DSE of the AAC frame data. Further, the AAC encoding unit 22 encodes audio data for one frame supplied from the outside according to the AAC encoding method, and stores the encoded audio data as AAC audio element data in SCE, CPE, LFE or the like of AAC frame data.
  • the AAC encoding unit 22 stores externally supplied 3D Audio component information and position information indicating the position of the audio object on the two-dimensional plane in the PCE of the AAC frame data.
  • step S17 When the AAC encoding unit 22 outputs the AAC frame data thus obtained as one frame of 3D AAC bit stream, the process proceeds to step S17.
  • step S14 determines whether the 3D Audio metadata of the previous frame is referred to. If it is determined in step S14 that the 3D Audio metadata of the previous frame is not referred to, then the process proceeds to step S16.
  • step S16 the AAC encoding unit 22 sets the value of the previous frame reference flag to "0", and AAC encodes audio data supplied from the outside.
  • the AAC encoding unit 22 stores the previous frame reference flag whose value is “0” in the DSE of AAC frame data, and codes the audio data of one frame supplied from the outside according to the AAC encoding method. And store in AAC frame data.
  • encoded audio data is also referred to as encoded audio data.
  • the AAC encoding unit 22 stores externally supplied 3D Audio component information and position information indicating the position of the audio object on the two-dimensional plane in the PCE of the AAC frame data.
  • step S17 When the AAC encoding unit 22 outputs the AAC frame data thus obtained as one frame of 3D AAC bit stream, the process proceeds to step S17.
  • step S13 After the process of step S13, the process of step S15, or the process of step S16 is performed, the process of step S17 is performed thereafter.
  • step S17 the encoding device 11 determines whether there is audio data to be encoded.
  • step S17 If it is determined in step S17 that there is audio data to be encoded, the process returns to step S11, and the above-described process is repeated.
  • step S17 if it is determined in step S17 that there is no audio data to be encoded, that is, it is determined that all audio data of the content to be transmitted has been encoded and output, the encoding process ends.
  • the encoding device 11 stores 3D Audio metadata in the DSE, and generates a 3D AAC bit stream.
  • the existing AAC standard can be extended, and 3D Audio reproduction can be performed using 3D Audio metadata on the decoding side. Thereby, the convenience can be improved.
  • the decoding side can refer to 3D Audio metadata of the previous frame in time, so the code amount of the 3D AAC bit stream is reduced by the amount of 3D Audio metadata. can do.
  • step S41 the AAC decoding unit 61 performs an AAC decoding process on the received 3D AAC bit stream of one frame, that is, AAC frame data, in the decoding system corresponding to the AAC encoding system.
  • the AAC decoding unit 61 reads out 3D Audio component element information from the PCE and supplies it to the upper control unit, or reads out position information on a two-dimensional plane of each audio object, ie, speaker arrangement information from the PCE. Or to the 3D Audio renderer 64 via the upper control unit.
  • the AAC decoding unit 61 decodes the encoded audio data stored in the AAC frame data, and supplies the audio data, which is the PCM data obtained as a result, to the 3D Audio renderer 64.
  • step S42 the AAC decoding unit 61 determines whether there is 3D Audio metadata in the DSE of the AAC frame data.
  • the AAC decoding unit 61 determines that there is 3D Audio metadata. In this case, the value of the previous frame reference flag is “0”.
  • step S42 If it is determined in step S42 that there is 3D Audio metadata, the AAC decoding unit 61 reads the encoded 3D Audio metadata from the DSE and supplies it to the 3D Audio metadata decoding unit 62, and the process then proceeds to step S43. And proceed.
  • step S43 the 3D Audio metadata decoding unit 62 decodes the encoded 3D Audio metadata supplied from the AAC decoding unit 61, and supplies the 3D Audio metadata obtained as a result to the 3D Audio renderer 64. After the 3D Audio metadata is obtained in this way, the process proceeds to step S47.
  • step S44 the AAC decoding unit 61 determines whether the value of the previous frame reference flag described at the beginning of the DSE is "1". judge.
  • step S44 the value of the previous frame reference flag is not "1", that is, if the value of the previous frame reference flag is "0" but 3D Audio metadata can not be obtained from DSE, then the process proceeds to step S48. move on.
  • step S44 determines whether the value of the previous frame reference flag is "1" or not stored in the DSE. If it is determined in step S44 that the value of the previous frame reference flag is "1", then the process proceeds to step S45. In this case, the encoded 3D Audio metadata is not stored in the DSE.
  • step S45 the AAC decoding unit 61 determines whether there is any past 3D Audio metadata. That is, if there is 3D Audio metadata read from DSE for the same content, that is, a frame temporally earlier than the current frame to be processed in the 3D AAC bitstream to be decoded, the 3D Audio metadata in the past is It is determined that there is.
  • step S45 If it is determined in step S45 that there is past 3D Audio metadata, the AAC decoding unit 61 determines that the frame closest in time to the current frame among the past frames in which the 3D Audio metadata read from the DSE is present.
  • the 3D Audio metadata decoding unit 62 is instructed to output the 3D Audio metadata of 3D Audio metadata, that is, the 3D Audio metadata used last, and then the process proceeds to Step S47.
  • the 3D Audio metadata decoding unit 62 supplies the 3D Audio metadata used in the past frame to the 3D Audio renderer 64 according to the instruction of the AAC decoding unit 61.
  • the 3D Audio metadata decoding unit 62 converts the 3D Audio metadata (N) of the frame N into the 3D Audio renderer. Supply to 64.
  • step S45 when it is determined in step S45 that there is no past 3D Audio metadata, 3D Audio metadata used in the current frame can not be obtained from the 3D AAC bit stream for some reason, and the process then proceeds to step S46. And proceed.
  • step S46 the AAC decoding unit 61 determines whether there is 3D Audio metadata acquired from other than the 3D AAC bit stream. That is, it is determined whether or not there is externally acquired 3D Audio metadata acquired by the 3D Audio metadata acquisition unit 63.
  • step S46 If it is determined in step S46 that there is no acquired 3D Audio metadata, then the process proceeds to step S48.
  • step S46 when it is determined in step S46 that the acquired 3D Audio metadata is present, the AAC decoding unit 61 instructs the 3D Audio metadata acquisition unit 63 to output the acquired 3D Audio metadata, and then the process is performed. The process proceeds to step S47.
  • the 3D Audio metadata acquisition unit 63 supplies the 3D Audio renderer 64 with externally acquired 3D Audio metadata acquired from the outside or generated by itself.
  • step S43 If the process of step S43 is performed, it is determined that there is past 3D Audio metadata in step S45, or it is determined that there is 3D Audio metadata acquired in step S46, then the process of step S47 is performed. Is done.
  • step S 47 the 3D Audio renderer 64 performs rendering based on the 3D Audio metadata supplied from the 3D Audio metadata decoding unit 62 or the 3D Audio metadata acquisition unit 63 and the audio data supplied from the AAC decoding unit 61. I do.
  • the 3D Audio renderer 64 outputs the reproduction data of the current frame for realizing 3D Audio reproduction obtained by the rendering, and then the process proceeds to step S49.
  • step S44 If it is determined in step S44 that the value of the previous frame reference flag is not "1" or it is determined that there is no 3D Audio metadata acquired in step S46, the process of step S48 is performed.
  • step S48 the 3D Audio renderer 64 performs rendering defined by the normal AAC standard based on the audio data supplied from the AAC decoding unit 61, and outputs reproduction data obtained as a result.
  • the 3D Audio renderer 64 appropriately selects a two-dimensional sound image of each audio object based on the position information (speaker arrangement information) on the two-dimensional plane of each audio object read from the PCE. Audio data of each channel is generated as reproduction data so as to be localized at a position on a plane. As a result, even if 3D Audio metadata can not be obtained and sound image localization control in the height direction of the audio object (sound source) can not be performed, the sound image of each audio object is localized at the correct position on the two-dimensional plane. be able to.
  • the AAC decoding unit 61 determines whether there is a 3D AAC bit stream to be decoded in step S49.
  • step S49 when all the received 3D AAC bitstreams have not been decoded, it is determined that there is a 3D AAC bitstream to be decoded.
  • step S49 If it is determined in step S49 that there is a 3D AAC bit stream to be decoded, the process returns to step S41, and the above-described process is repeated.
  • step S49 when it is determined in step S49 that there is no 3D AAC bit stream to be decoded, the decoding process ends.
  • the decoding device 51 reads out 3D Audio metadata from the DSE and performs rendering using the read out 3D Audio metadata.
  • the existing AAC standard can be expanded to perform 3D Audio playback, and convenience can be improved.
  • PCE of the 3D AAC bit stream describes position information indicating the position of each audio object on the two-dimensional plane
  • the sound image of each audio object can be obtained even if 3D Audio metadata can not be obtained. It can be localized at the correct position on a two-dimensional plane. That is, audio reproduction can be performed without losing the sense of reality.
  • the size (data amount) of 3D Audio metadata may exceed the upper limit size of DSE defined in the AAC standard.
  • the number of DSEs required to store 3D Audio metadata in one frame may exceed the upper limit number of DSEs defined in the AAC standard.
  • the 3D Audio metadata of a plurality of frames is not transmitted, but 3D Audio metadata is appropriately thinned by appropriately excluding 3D Audio metadata.
  • each of the characters “DSE 1” to “DSE 3” is written represents each of the DSEs provided in one frame of AAC frame data.
  • those DSEs will also be referred to as DSE 1 to DSE 3.
  • the amount of data of 3D Audio metadata for one frame is large, and the 3D Audio metadata can not be stored in the first DSE 1.
  • the encoding device 11 divides the 3D Audio metadata into three pieces of data.
  • three pieces of data obtained by dividing 3D Audio metadata will be referred to as divided 3D Audio metadata (1) to divided 3D Audio metadata (3).
  • each piece of data obtained by dividing 3D Audio metadata is also referred to as divided 3D Audio metadata, when it is not necessary to distinguish them in particular.
  • the encoding apparatus 11 stores each of the divided 3D Audio metadata (1) to the divided 3D Audio metadata (3) obtained by the division in each of DSE 1 to DSE 3.
  • the intra-frame DSE division counter can be configured so that the encoding device 11 can specify that the 3D Audio metadata has been divided, and which divided 3D Audio metadata is what data from the head. And an intra-frame DSE split end flag is generated.
  • the intra-frame DSE division counter is information indicating what number DSE in which division 3D Audio metadata is stored in one frame of AAC frame data.
  • the intra-frame DSE division counter is information indicating what number of divided 3D Audio metadata stored in the DSE of one frame of AAC frame is the divided 3D Audio metadata stored in the DSE. It can be said that there is.
  • divided 3D Audio metadata stored in DSE in which the value of the intra-frame DSE division counter is “i ⁇ 1” (1 ⁇ i) is i from the beginning stored in the DSE of an AAC frame for one frame. It becomes the second divided 3D Audio metadata.
  • the intra-frame DSE division end flag is flag information indicating whether or not it is the last DSE in which divided 3D Audio metadata is stored among DSEs sequentially arranged in one frame of AAC frame data. is there.
  • the intra-frame DSE division end flag when the value of the intra-frame DSE division end flag is “0”, it indicates that the DSE is not the last DSE in which division 3D Audio metadata is stored.
  • the value of the intra-frame DSE division end flag is “1”, it indicates that the DSE is the last DSE in AAC frame data in which divided 3D Audio metadata is stored.
  • the encoding device 11 stores the in-frame DSE division counter and the in-frame DSE division end flag together with the divided 3D Audio metadata in each DSE.
  • the first DSE 1 indicates that it is the first divided 3D Audio metadata, and the in-frame DSE division counter whose value is “0” and the value that it is not the last DSE.
  • An intra-frame DSE division end flag in which “0” is “0” and a division 3D Audio metadata (1) are stored.
  • the second DSE 2 indicates that it is the second divided 3D Audio metadata, the in-frame DSE division counter whose value is “1”, and the value which indicates that it is not the last DSE.
  • the intra-frame DSE division end flag, which is “,” and the division 3D Audio metadata (2) are stored.
  • the third DSE 3 indicates the third divided 3D Audio metadata, the in-frame DSE division counter having the value “2”, and the last DSE indicating the value “1
  • the intra-frame DSE division end flag, which is “,” and the division 3D Audio metadata (3) are stored.
  • the decoding side reads out the divided 3D Audio metadata, correctly combines the divided 3D Audio metadata, and the original 3D Audio. You can get metadata.
  • the encoding device 11 performs, for example, as shown in FIG. 13, AAC frame data of a plurality of frames as a representative value as 3D Audio metadata. Divide into and store.
  • one DSE is provided for one frame.
  • the quadrangle indicated by each of the arrows A51 to A55 represents each AAC frame data of the frame (N-1) to the frame (N + 3).
  • the 3D Audio metadata of the original frame (i) (where N-1 ⁇ i ⁇ N + 3) is also referred to as 3D Audio metadata (i).
  • 3D Audio metadata (N-1) to 3D Audio metadata (N + 3) were originally prepared for the frame (N-1) to the frame (N + 3).
  • 3D Audio metadata (N) to 3D Audio metadata (N + 3) has a large amount of data, those 3D Audio metadata can not be stored in the corresponding DSE of one frame as it is It is in the state.
  • the encoding device 11 generates one new 3D Audio metadata for obtaining 3D Audio metadata for the frame (N) to the frame (N + 3). In other words, some 3D Audio metadata are thinned out to select representative 3D Audio metadata.
  • the encoding device 11 determines one piece of 3D Audio metadata representing 3D Audio metadata (N) to 3D Audio metadata (N + 2) as a representative value.
  • the representative value may be, for example, any one of 3D Audio metadata (N) to 3D Audio metadata (N + 2) or 3D Audio metadata (N).
  • the average value of 3D Audio metadata (N + 2) may be used as a representative value.
  • an average value of positional information of frames (N) to (N + 2) of the audio object as 3D Audio metadata, etc. is used as 3D Audio metadata of the audio object.
  • position information as 3D Audio metadata (N + 1) of a specific audio object is taken as a representative value of the specific audio object.
  • position information as 3D Audio metadata (N + 1) of those audio objects is taken as a representative value of those audio objects.
  • position information as 3D Audio metadata (N + 1) of the specific audio object may be set as a representative value of all the audio objects.
  • an average value of position information in each of the most important motion frames of each of a plurality of audio objects is determined, and the obtained average value is made a representative value common to all audio objects.
  • the encoding device 11 divides a period and consists of a plurality of frames for transmitting one 3D Audio metadata (hereinafter referred to as 3D Audio metadata of the frame at the end of the split transmission period) is generated as a termination value.
  • the encoding device 11 determines the termination value by some method such as using the 3D Audio metadata (N + 3) as the termination value as it is.
  • the encoding device 11 generates an applied frame index indicating the representative value application frame, with the frame to which the representative value of the frames in the divided transmission period is applied as the representative value application frame.
  • the representative value application frame is a frame in which the representative value is directly used as 3D Audio metadata on the decoding side.
  • the encoding device 11 when the representative value application frame is a frame (N + 1), the encoding device 11 generates information indicating the frame (N + 1) as an application frame index.
  • the value of the application frame index is “i ⁇ 1”. Therefore, in the example shown in FIG. 13, since the second frame (N + 1) from the beginning of the divided transmission period is the representative value application frame, the value of the application frame index is “1”.
  • the encoding device 11 sets the representative value and the termination value as 3D Audio metadata of the divided transmission period, and also the 3D Split Audio metadata.
  • the encoding apparatus 11 divides 3D Audio metadata of the divided transmission period into divided 3D Audio metadata of the number of frames included in the divided transmission period.
  • the 3D Audio metadata is represented by the characters “division 3D Audio metadata (1)” to “division 3D Audio metadata (4)”. Split into 3D Audio metadata.
  • divided 3D Audio metadata (1) to divided 3D Audio metadata indicated by the characters "division 3D Audio metadata (1)” to “division 3D Audio metadata (4)" are divided. It is also called (4).
  • the encoding device 11 stores the divided 3D Audio metadata in the DSE of the AAC frame data of each frame and outputs it.
  • the quadrangle indicated by each of the arrows A61 to A65 represents AAC frame data of each of the frame (N-1) to the frame (N + 3) actually output from the encoding device 11.
  • undivided 3D Audio metadata (N-1) is stored in the DSE as it is in the AAC frame data of the frame (N-1).
  • the divided 3D Audio metadata (1) and the applied frame index are stored in the DSE
  • the divided 3D Audio metadata (2) Is stored in DSE
  • the divided 3D Audio metadata (3) is stored in the DSE
  • the divided 3D Audio metadata (4) is the DSE Stored in
  • the applicable frame index may be stored in the DSE of any frame as long as it is the DSE of the frame within the divided transmission period.
  • decoding is performed as shown in FIG. 14, for example.
  • the description is suitably abbreviate
  • the decoding device 51 receives a 3D AAC bit stream composed of AAC frame data indicated by arrows A71 to A75, respectively.
  • the AAC frame data of each frame indicated by each of the arrows A71 to A75 corresponds to the AAC frame data of each frame indicated by each of the arrows A61 to A65 in FIG.
  • the decoder 51 converts the AAC frame data of the frame (N-1) to 3D Audio metadata (N) as indicated by the arrow A81. Read out -1). Then, the decoding device 51 performs rendering based on the read 3D Audio metadata (N-1).
  • the AAC decoding unit 61 of the decoding device 51 divides the 3D audio metadata for each of the frames (N) to (N + 3) from the DSEs of the frames into divided 3D audio metadata ( 1) to each of the divided 3D Audio metadata (4). Then, the AAC decoding unit 61 combines the read divided 3D Audio metadata (1) to divided 3D Audio metadata (4) into one encoded 3D Audio metadata.
  • the decoding device 51 decodes the obtained encoded 3D Audio metadata to obtain the representative value and the terminal value, and reads the applied frame index from the DSE. Then, the decoding device 51 generates 3D Audio metadata of the frame in the divided transmission period by performing interpolation processing based on the obtained representative value, terminal value, and applied frame index.
  • the decoding device 51 sets the representative value as 3D Audio metadata of the frame (N + 1) indicated by the applied frame index.
  • the decoding device 51 is based on 3D Audio metadata (N-1) of frame (N-1) and a representative value which is 3D Audio metadata of frame (N + 1).
  • 3D Audio metadata (N) of frame (N) is generated by interpolation processing.
  • the decoding device 51 uses the end value as it is as the 3D Audio metadata of the frame (N + 3).
  • the decoding device 51 performs interpolation processing based on the representative value which is 3D Audio metadata of the frame (N + 1) as shown by the arrow A 84 and the end value which is 3D Audio metadata of the frame (N + 3).
  • the decoding device 51 performs rendering using the 3D Audio metadata (N) to 3D Audio metadata (N + 3) thus obtained.
  • the decoding device 51 reads the divided 3D Audio metadata divided and stored across a plurality of frames as described above, and obtains 3D Audio metadata of each frame of the divided transmission period. By doing this, it is possible to efficiently transmit 3D Audio metadata to improve convenience and to realize realistic 3D Audio reproduction.
  • the termination value may not be included.
  • 3D Audio metadata of the frame immediately after the end of the divided transmission period may be used as the end value.
  • the intra-frame DSE division information which is information regarding the division of 3D Audio metadata within the frame, that is, within the AAC frame data, including the intra-frame DSE division counter and the intra-frame DSE division end flag described above Described in DSE.
  • intra-frame DSE division information is as shown in FIG. 15, for example.
  • the character "dse_div_info ()" represents a function in which in-frame DSE division information is stored, and this function exists in 3D Audio metadata of each frame.
  • intra-frame DSE division information exists for each DSE.
  • the intra-frame DSE division information includes an intra-frame DSE division counter indicated by the character “dse_div_cnt” and an intra-frame DSE division end flag indicated by the character “dse_div_terminate”.
  • the in-frame DSE division counter is counter information starting from 0 indicating which of the DSEs in which the corresponding DSE is stored in the same frame is the divided 3D Audio metadata.
  • the intra-frame DSE division counter is 3-bit information, it is possible to divide 3D Audio metadata or divided 3D Audio metadata into up to eight divided 3D Audio metadata within one frame. It has become. That is, up to eight DSEs can be provided.
  • intra-frame DSE division end flag indicates that the value is “0”, it indicates that the corresponding DSE is not the last DSE in the frame in which the divided 3D Audio metadata is stored.
  • the value of the intra-frame DSE division end flag is “1”, it indicates that the corresponding DSE is the last DSE in the frame in which the divided 3D Audio metadata is stored.
  • the divided 3D Audio metadata obtained by dividing one 3D Audio metadata is stored in the DSE of a plurality of frames, it is necessary to be able to recognize that on the decoding side.
  • frame division information which is information regarding division of 3D Audio metadata between frames, that is, division of 3D audio metadata for a plurality of frames, is described in DSE Be done.
  • the syntax of such frame division information is, for example, as shown in FIG.
  • the character “frame_div_info ()” represents a function in which frame division information is stored, and this function exists in 3D Audio metadata of each frame.
  • this function exists in 3D Audio metadata of each frame.
  • one frame division information exists for one frame.
  • the frame division information includes frame division mode information indicated by the characters “frm_div_mode”.
  • This frame division mode information indicates whether to transmit one 3D Audio metadata across a plurality of frames, that is, whether or not it is a frame division mode in which one 3D Audio metadata is divided and stored in DSEs of a plurality of frames. It is information.
  • the frame division mode information when the value of the frame division mode information is “0”, it indicates that the frame division mode is not set, that is, one frame of 3D Audio metadata is stored in one frame of DSE.
  • the frame division mode information when the value of the frame division mode information is “1”, it indicates that the frame division mode is selected, that is, one 3D Audio metadata is divided and stored in DSE of a plurality of frames. There is.
  • the frame division information further includes a frame division counter indicated by the character “frm_div_cnt” and a frame division end flag indicated by the character “frm_div_terminate”. It is done.
  • the frame division counter is counter information starting from 0 that indicates what number of the corresponding frame from the top of the frames constituting the divided transmission period.
  • the frame division counter is 3-bit information, the divided transmission period can be up to a period of 8 frames. That is, it is possible to transmit one 3D Audio metadata across eight frames.
  • the frame division end flag indicates that the corresponding frame is not the last frame in the divided transmission period when the value is “0”. On the other hand, when the value of the frame division end flag is “1”, it indicates that the corresponding frame is the last (end) frame in the divided transmission period.
  • the frame division information also stores the applied frame index indicated by the character “apply_frm_Index”. That is, the applied frame index is stored in the DSE of the first (head) frame in the divided transmission period.
  • the applied frame index is information indicating a representative value applied frame, and here, the value of the frame division counter of the representative value applied frame is the value of the applied frame index.
  • the number of divided frames that is, the number of frames constituting the divided transmission period is F
  • the value of the applicable frame index is 1 (F-1) smaller than F, it is 3D Audio metadata. Only representative or terminal values are included.
  • the end value is the representative value, so only the representative value or end value is transmitted as 3D Audio metadata. become.
  • the intra-frame DSE division information and the frame division information described above are stored in one frame of AAC frame data.
  • information composed of intra-frame DSE division information and frame division information is also referred to as division information.
  • division information is stored in each DSE of AAC frame data, and frame division information may not necessarily be included in the division information, but intra-frame DSE division information is necessarily included.
  • the syntax of the division information stored in the AAC frame data is, for example, as shown in FIG.
  • the character "div_info ()" represents a function in which division information is stored, and this function exists in 3D Audio metadata of each frame.
  • intra-frame DSE division information indicated by the characters “dse_div_info ()” is included as division information. Also, when the value of the intra-frame DSE division counter (dse_div_cnt) included in the intra-frame DSE division information is “0”, the frame division information indicated by the character “frame_div_info ()” is further included as division information. It is done.
  • the first (head) DSE in AAC frame data includes intra-frame DSE division information and frame division information as division information
  • the second and subsequent DSEs in AAC frame data include in-frame as division information. Only DSE split information is included.
  • one piece of 3D Audio metadata is stored in AAC frame data (1) to AAC frame data (3) which are AAC frame data indicated by arrows A101 to A103.
  • the first AAC frame data (1) is provided with DSE1, which is the first DSE, and DSE2, which is the second DSE.
  • DSE1 of this AAC frame data (1) intra-frame DSE division information (dse_div_info ()) and frame division information (frame_div_info ()) as division information and divided 3D Audio meta that is divided 3D Audio metadata Data (1-1) is stored.
  • the value of the intra-frame DSE division counter (dse_div_cnt) is “0”, and the value of the intra-frame DSE division end flag (dse_div_terminate) is It will be "0".
  • the value of frame division mode information (frm_div_mode) is “1”
  • the value of frame division counter (frm_div_cnt) is “0”
  • the frame is The value of the division termination flag (frm_div_terminate) is “0”, and the applicable frame index of the appropriate value is included.
  • intra-frame DSE division information (dse_div_info ()) as division information and divided 3D Audio metadata (1-2) which are divided 3D Audio metadata are included. It is stored.
  • the value of the intra-frame DSE division counter (dse_div_cnt) is “1”
  • the value of the intra-frame DSE division end flag (dse_div_terminate) is It is considered as "1”.
  • the first DSE1 and the second DSE2 are provided.
  • DSE1 of AAC frame data (2) intra-frame DSE division information (dse_div_info ()) and frame division information (frame_div_info ()) as division information, and divided 3D Audio metadata which are divided 3D Audio metadata And (2-1) are stored.
  • the value of the intra-frame DSE division counter (dse_div_cnt) is “0”
  • the value of the intra-frame DSE division termination flag (dse_div_terminate) is It will be "0”.
  • the value of frame division mode information (frm_div_mode) is “1”, and the value of frame division counter (frm_div_cnt) is “1”.
  • the value of the division termination flag (frm_div_terminate) is “0”.
  • the frame division information does not include the applicable frame index.
  • intra-frame DSE division information (dse_div_info ()) as division information and divided 3D Audio metadata (2-2) which is divided 3D Audio metadata are included. It is stored.
  • the value of the intra-frame DSE division counter (dse_div_cnt) is “1”
  • the value of the intra-frame DSE division termination flag (dse_div_terminate) is It is considered as "1”.
  • a first DSE1 and a second DSE2 are provided.
  • DSE 1 of AAC frame data (3) intra-frame DSE division information (dse_div_info ()) and frame division information (frame_div_info ()) as division information and divided 3D Audio metadata which is divided 3D Audio metadata And (3-1) are stored.
  • the value of the intra-frame DSE division counter (dse_div_cnt) is “0”, and the value of the intra-frame DSE division termination flag (dse_div_terminate) is It will be "0".
  • the value of frame division mode information (frm_div_mode) is “1”
  • the value of frame division counter (frm_div_cnt) is “2”
  • the frame is The value of the division termination flag (frm_div_terminate) is “1”.
  • the frame division information does not include the applicable frame index.
  • intra-frame DSE division information (dse_div_info ()) as division information and divided 3D Audio metadata (3-2) which is divided 3D Audio metadata are included. It is stored.
  • the value of the intra-frame DSE division counter (dse_div_cnt) is “1”
  • the value of the intra-frame DSE division end flag (dse_div_terminate) is It is considered as "1”.
  • step S81 the 3D Audio metadata encoding unit 21 sets the value of the frame division mode information (frm_div_mode) to “0” for the current frame to be processed.
  • step S82 the 3D Audio metadata encoding unit 21 determines whether there is 3D Audio metadata to be transmitted for the current frame to be processed.
  • step S82 processing similar to that in step S11 of FIG. 10 is performed.
  • step S82 If it is determined in step S82 that there is 3D Audio metadata to be transmitted, the 3D Audio metadata encoding unit 21 performs 3D Audio metadata encoding processing in step S83, and the externally supplied 3D Audio metadata is processed. Encode metadata. In step S83, processing similar to that of step S12 in FIG. 10 is performed.
  • step S84 the 3D Audio metadata encoding unit 21 determines that the code amount (data amount) of the encoded 3D Audio metadata of the current frame to be processed obtained in the process of step S83 is within a predetermined allowable range. It is determined whether the
  • the allowable range when the data amount of the encoded 3D Audio metadata is larger (larger) than the threshold value that allows the allowable range and the encoded 3D Audio metadata can not be stored in the DSE of the AAC frame data of the current frame. It is determined not to be inside.
  • step S84 If it is determined in step S84 that it is within the allowable range, the 3D Audio metadata encoding unit 21 supplies the encoded 3D Audio metadata obtained in the process of step S83 to the AAC encoding unit 22 as it is, and then The process proceeds to step S90.
  • the 3D Audio metadata encoding unit 21 when the 3D Audio metadata encoding unit 21 can not store the encoded 3D Audio metadata in one DSE, the encoded 3D Audio metadata is divided into several divided 3D Audio metadata. To divide. Then, the 3D Audio metadata encoding unit 21 causes each of the divided 3D Audio metadata obtained by the division to be stored in each of the plurality of DSEs in the AAC frame data of the current frame.
  • the 3D Audio metadata encoding unit 21 also generates appropriate in-frame DSE division information and frame division information, and also supplies the intra-frame DSE division information and frame division information to the AAC encoding unit 22.
  • the value of the frame division mode information (frm_div_mode) is set to “0”. That is, the frame division mode information set in step S81 is supplied to the AAC encoding unit 22 as it is.
  • the division of the encoded 3D Audio metadata and the generation of the intra-frame DSE division information and the frame division information may be performed by the AAC encoding unit 22 instead of the 3D Audio metadata encoding unit 21.
  • step S84 determines whether the value is within the allowable range. If it is determined in step S84 that the value is not within the allowable range, then the process proceeds to step S85.
  • step S85 the 3D Audio metadata encoding unit 21 changes the value of the frame division mode information (frm_div_mode) of the current frame set in step S81 to “1”.
  • the 3D Audio metadata encoding unit 21 sets the frame that has been used as the current frame so far as the leading frame of the divided transmission period.
  • the 3D Audio metadata encoding unit 21 takes the temporally next frame of the first frame as a new processing target frame, and also acquires 3D Audio metadata of the new processing target frame. Furthermore, the 3D Audio metadata encoding unit 21 3D deletes 3D Audio metadata of frames in the divided transmission period, as appropriate, by deleting position information etc. of audio objects with low importance and audio objects without motion, etc. The amount of data of Audio metadata may be reduced.
  • step S86 the 3D Audio metadata encoding unit 21 calculates a representative value and an end value for 3D Audio metadata of each frame from the top frame of the divided transmission period to the frame currently processed. Do.
  • the frame currently processed is the frame at the end of the divided transmission period.
  • the 3D Audio metadata encoding unit 21 determines the divided transmission period based on the 3D Audio metadata of each frame constituting the divided transmission period, more specifically, the 3D Audio metadata of each frame excluding the end frame. Determine the representative value of 3D Audio metadata of. For example, at the time of determination of the representative value of 3D Audio metadata, as described above, calculation etc. for obtaining the average value is performed as necessary, and the representative value application frame to which the representative value is applied is also the 3D Audio metadata encoding unit 21. Determined by
  • the 3D Audio metadata encoding unit 21 determines an end value which is final 3D Audio metadata of the end frame, based on 3D Audio metadata or the like of the end frame of the divided transmission period.
  • the 3D Audio metadata encoding unit 21 sets the representative value and the terminal value thus determined as 3D Audio metadata for a plurality of frames constituting the divided transmission period.
  • the 3D Audio metadata encoding unit 21 functions as a metadata determination unit that determines a representative value and a termination value of the divided transmission period.
  • step S87 the 3D Audio metadata encoding unit 21 performs 3D Audio metadata encoding processing using the representative value and the termination value obtained in Step S86 as 3D Audio metadata, and encodes the 3D Audio metadata.
  • step S88 the 3D Audio metadata encoding unit 21 determines an allowable range in which the code amount (data amount) of the encoded 3D Audio metadata obtained in the process of step S87 is determined by the number of frames constituting the divided transmission period. It is determined whether or not it is inside.
  • the amount of data of the encoded 3D Audio metadata is larger (larger) than the allowable threshold value, and the encoded 3D Audio metadata is completely stored in the DSE of the AAC frame data of all the frames constituting the divided transmission period. If not, it is determined to be outside the allowable range.
  • step S88 If it is determined in step S88 that the amount is not within the allowable range, the data amount of the 3D Audio metadata is still too large for the divisional transmission period, so the process returns to step S86 and the above-described process is repeated. At this time, the temporally next frame of the frame at the end of the period which has been used as the divided transmission period is taken as the frame at the end of the new divided transmission period.
  • step S88 determines whether the value is within the allowable range. If it is determined in step S88 that the value is within the allowable range, the 3D Audio metadata encoding unit 21 performs frame division processing in step S89.
  • the 3D Audio metadata encoding unit 21 divides the encoded 3D Audio metadata obtained in the process of step S87 into a plurality of divided 3D Audio metadata. For example, in the example shown in FIG. 18, the encoded 3D Audio metadata is divided into divided 3D Audio metadata (1-1) to divided 3D Audio metadata (3-2).
  • the 3D Audio metadata encoding unit 21 generates frame division information including frame division mode information in which the value determined in step S85 is “1” according to the division result of the 3D Audio metadata, the division transmission period, and the like. , And also generate intra-frame DSE division information.
  • frame division information is generated for each frame of the divided transmission period, and intra-frame DSE division information is generated for each DSE of each frame of the divided transmission period.
  • the 3D Audio metadata encoding unit 21 supplies the generated intra-frame DSE division information and frame division information, and the divided 3D Audio metadata to the AAC encoding unit 22, and then the process proceeds to step S90.
  • the frame division processing in step S89 may be performed by the AAC encoding unit 22.
  • step S84 If it is determined in step S84 that the value is within the allowable range or the process of step S89 is performed, then the process of step S90 is performed.
  • step S90 the AAC encoding unit 22 encodes the encoded 3D Audio metadata, the intra-frame DSE division information, and the frame division information supplied from the 3D Audio metadata encoding unit 21, and the audio data supplied from the outside. AAC encoding to generate a 3D AAC bitstream.
  • the AAC encoding unit 22 stores intra-frame DSE division information and frame division information in the DSE of AAC frame data according to the syntax shown in FIGS.
  • the 3D Audio metadata is also stored in the DSE.
  • the AAC encoding unit 22 divides the 3D Audio metadata for the plurality of frames into the DSEs of the plurality of frames in the divided transmission period. Each of the divided 3D Audio metadata obtained is stored. At that time, the AAC encoding unit 22 appropriately stores, in the DSE, frame division information including frame division mode information and an applied frame index, which are set to appropriate values, and intra-frame DSE division information.
  • the AAC encoding unit 22 encodes audio data supplied from the outside according to the AAC encoding method, and stores the encoded audio data as AAC audio element data in SCE, CPE, LFE or the like of AAC frame data. Furthermore, the AAC encoding unit 22 stores externally supplied 3D Audio component information and position information indicating the position of the audio object on the two-dimensional plane in the PCE of the AAC frame data.
  • step S92 When the AAC encoding unit 22 outputs (transmits) a 3D AAC bit stream composed of AAC frame data for one frame or a plurality of frames obtained in this manner, the process proceeds to step S92.
  • step S82 If it is determined in step S82 that there is no 3D Audio metadata to be transmitted, then the process proceeds to step S91.
  • step S91 the AAC encoding unit 22 AAC encodes audio data supplied from the outside.
  • the AAC encoding unit 22 encodes audio data for one frame supplied from the outside according to the AAC encoding method, and stores the encoded audio data in AAC frame data.
  • the AAC encoding unit 22 also stores externally supplied 3D Audio component information and position information indicating the position of the audio object on the two-dimensional plane in the PCE of the AAC frame data.
  • step S92 When the AAC encoding unit 22 outputs a 3D AAC bit stream composed of AAC frame data for one frame obtained in this manner, the process proceeds to step S92.
  • previous frame reference flag is not used
  • the previous frame reference flag may of course be used.
  • step S82 the previous frame reference flag is stored in DSE in step S90. If it is determined in step S82 that there is no 3D Audio metadata to be transmitted, the same processing as step S14 to step S16 in FIG. 10 is performed thereafter.
  • step S90 or the process of step S91 is performed, the process of step S92 is performed thereafter.
  • step S92 the encoding device 11 determines whether there is audio data to be encoded.
  • step S92 If it is determined in step S92 that there is still audio data to be encoded, the process returns to step S81, and the above-described process is repeated.
  • step S92 if it is determined in step S92 that there is no audio data to be encoded, that is, it is determined that all audio data of the content to be transmitted has been encoded and output, the encoding process ends.
  • the encoding device 11 stores 3D Audio metadata in the DSE, and generates a 3D AAC bit stream.
  • 3D Audio metadata can not be stored in one frame of AAC frame data
  • 3D Audio metadata is used as the representative value and terminal value, and stored efficiently across multiple frames of AAC frame data. Audio metadata can be transmitted.
  • step S131 the AAC decoding unit 61 performs, on the received 3D AAC bit stream, an AAC decoding process that is a decoding process using a decoding method corresponding to the AAC encoding method.
  • step S131 the same processing as step S41 in FIG. 11 is performed, and the 3D Audio component information obtained by the decoding is supplied to the upper control unit, or the position information of each audio object on the two-dimensional plane is obtained.
  • the audio data read out or decoded is supplied to the 3D Audio renderer 64.
  • step S132 the AAC decoding unit 61 determines whether there is 3D Audio metadata in the DSE of AAC frame data of the 3D AAC bit stream.
  • step S132 If it is determined in step S132 that there is 3D Audio metadata, then the process proceeds to step S133.
  • step S133 the AAC decoding unit 61 determines whether or not frame division is performed based on frame division mode information (frm_div_mode) stored in DSE of AAC frame data. For example, when the value of the frame division mode information is “1”, it is determined that frame division is performed, that is, one 3D Audio metadata is recorded across AAC frame data of a plurality of frames.
  • frame division mode information frm_div_mode
  • step S133 If it is determined in step S133 that frame division is not performed, that is, if the value of the frame division mode information is "0", the process proceeds to step S134.
  • the AAC decoding unit 61 reads out encoded 3D Audio metadata from the DSE of AAC frame data for one frame, and supplies the 3D Audio metadata decoding unit 62 with the encoded 3D Audio metadata.
  • the AAC decoding unit 61 refers to the intra-frame DSE division information of each DSE and stores them. Read divided 3D Audio metadata from DSE of. That is, each of divided 3D Audio metadata obtained by dividing 3D Audio metadata of one frame is read out from each of a plurality of DSEs of AAC frame data of one frame.
  • the AAC decoding unit 61 combines the divided 3D Audio metadata read from each DSE into one encoded 3D Audio metadata, and supplies the encoded 3D Audio metadata to the 3D Audio metadata decoding unit 62.
  • step S134 the 3D Audio metadata decoding unit 62 decodes the encoded 3D Audio metadata supplied from the AAC decoding unit 61, and the 3D Audio metadata for one frame obtained as a result is converted to the 3D Audio renderer 64. Supply.
  • step S135 the AAC decoding unit 61 acquires (reads) divided 3D Audio metadata from DSE of AAC frame data of one frame.
  • step S136 the AAC decoding unit 61 combines the divided 3D Audio metadata obtained by the processing up to this point from the first frame of the divided transmission period.
  • the AAC decoding unit 61 appropriately performs combining while referring to the frame division information read from the DSE.
  • step S137 the AAC decoding unit 61 determines whether the frame processed in the immediately preceding step S135 is a frame at the end of the divided transmission period. For example, when the value of the frame division termination flag (frm_div_terminate) of the frame processed in the immediately preceding step S135 is “1”, the AAC decoding unit 61 determines that the frame is the termination frame.
  • step S137 If it is determined in step S137 that the frame is not the end frame, there is a frame in the divided transmission period in which the divided 3D Audio metadata has not been read yet, so the process returns to step S135 and the above-described process is repeated. That is, divided 3D Audio metadata is read out for the next frame.
  • step S137 If it is determined in step S137 that the frame is the end frame, encoded 3D audio metadata for the divided transmission period is obtained by the processing of step S136 performed immediately before, and so processing is performed thereafter. The process proceeds to step S138.
  • the AAC decoding unit 61 uses the encoded 3D Audio metadata for the divided transmission period obtained by combining, and the applied frame read from the intra-frame DSE division information or frame division information of the DSE for the division transmission period.
  • the information such as the index (apply_frm_Index) is supplied to the 3D Audio metadata decoding unit 62.
  • the 3D Audio metadata decoding unit 62 can specify what frame the divided transmission period is configured of and which frame the representative value is applied to.
  • step S138 the 3D Audio metadata decoding unit 62 decodes the encoded 3D Audio metadata of the divided transmission period supplied from the AAC decoding unit 61. As a result, a representative value and an end value for the divided transmission period can be obtained.
  • step S139 the 3D Audio metadata decoding unit 62 calculates the representative value and terminal value obtained in the process of step S138, 3D Audio metadata of the frame immediately before the divided transmission period already obtained, and the applied frame index. And interpolation processing is performed.
  • the 3D Audio metadata and the representative value of the frame immediately before the divided transmission period are used, and the representative value is applied from the first frame of the divided transmission period.
  • 3D Audio metadata of each frame up to the frame immediately preceding the current frame is calculated by interpolation.
  • 3D Audio metadata of each frame from the frame immediately after the frame to which the representative value is applied to the frame immediately before the frame at the end of the divided transmission period is Calculated by interpolation.
  • the 3D Audio metadata decoding unit 62 functions as a metadata generation unit that performs interpolation processing to generate 3D Audio metadata of frames of the divided transmission period.
  • 3D Audio metadata of each frame of the divided transmission period is obtained.
  • information supplied from the AAC decoding unit 61 such as an applied frame index is referred to as appropriate.
  • the 3D Audio metadata decoding unit 62 supplies those 3D Audio metadata to the 3D Audio renderer 64, and then the process proceeds to step S140.
  • step S134 or step S139 is performed to obtain 3D Audio metadata of one or more frames
  • step S140 is performed thereafter.
  • step S 140 the 3D Audio renderer 64 performs rendering based on the 3D Audio metadata supplied from the 3D Audio metadata decoding unit 62 and the audio data supplied from the AAC decoding unit 61.
  • step S140 processing similar to that in step S47 of FIG. 11 is performed.
  • the 3D Audio renderer 64 When reproduction data is obtained by rendering, the 3D Audio renderer 64 outputs the obtained reproduction data, and then the process proceeds to step S142.
  • step S141 determines whether there is no 3D Audio metadata. If it is determined in step S132 that there is no 3D Audio metadata, then the process of step S141 is performed.
  • step S141 the 3D Audio renderer 64 performs rendering defined by the normal AAC standard based on the audio data supplied from the AAC decoding unit 61, and outputs reproduction data obtained as a result.
  • step S141 processing similar to that in step S48 of FIG. 11 is performed.
  • step S142 After the reproduction data is output in this manner, the process proceeds to step S142.
  • previous frame reference flag is not used
  • the previous frame reference flag may of course be used.
  • step S132 if it is determined in step S132 that there is no 3D Audio metadata, processing similar to that of steps S44 to S46 and step S48 in FIG. 11 is performed thereafter.
  • step S140 the AAC decoding unit 61 determines whether there is a 3D AAC bit stream to be decoded in step S142.
  • step S142 If it is determined in step S142 that there is a 3D AAC bit stream to be decoded, the process returns to step S131, and the above-described process is repeated.
  • step S142 when it is determined in step S142 that there is no 3D AAC bit stream to be decoded, the decoding process ends.
  • the decoding device 51 reads out 3D Audio metadata from the DSE and performs rendering using the read out 3D Audio metadata.
  • the existing AAC standard can be expanded to perform 3D Audio playback, and convenience can be improved.
  • 3D Audio metadata of a divided transmission period is stored across AAC frame data of a plurality of frames
  • interpolation processing is performed based on the representative value and end value as 3D Audio metadata, and 3D Audio of each frame is processed.
  • 3D Audio can be reproduced efficiently even with a small code amount.
  • 3D Audio metadata is divided, and distributed and stored in multiple ancillary data areas to transmit 3D Audio metadata. Can.
  • the existing decoding device not compatible with 3D Audio Audio reproduction can be performed using as much positional information as possible.
  • the series of processes described above can be executed by hardware or software.
  • a program that configures the software is installed on a computer.
  • the computer includes, for example, a general-purpose personal computer that can execute various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 21 is a block diagram showing an example of a hardware configuration of a computer that executes the series of processes described above according to a program.
  • a central processing unit (CPU) 501 a read only memory (ROM) 502, and a random access memory (RAM) 503 are mutually connected by a bus 504.
  • CPU central processing unit
  • ROM read only memory
  • RAM random access memory
  • an input / output interface 505 is connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an imaging device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 is formed of a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads, for example, the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504, and executes the above-described series. Processing is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on, for example, a removable recording medium 511 as a package medium or the like. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Also, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in advance in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that performs processing in chronological order according to the order described in this specification, in parallel, or when necessary, such as when a call is made. It may be a program to be processed.
  • the present technology can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
  • each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices.
  • the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
  • present technology can also be configured as follows.
  • a decoding unit that decodes audio data including object audio included in an encoded bit stream and reads metadata of the object audio from an area capable of storing arbitrary data of the encoded bit stream; An output unit that outputs the decoded audio data based on the metadata.
  • the decoding unit reads out each of a plurality of data obtained by dividing the metadata from each of the plurality of areas in the encoded bit stream for one frame, and based on the plurality of the data Obtain the metadata The decoding device according to (1).
  • the decoding unit reads out each of a plurality of data obtained by dividing the metadata from each of the regions of a plurality of frames in the encoded bit stream, and the plurality of the plurality of data are obtained based on the plurality of pieces of data.
  • the decoding device wherein the metadata for a frame of is obtained.
  • the metadata for the plurality of frames is a representative value of the metadata for a period including the plurality of frames, and a termination value that is the metadata in a termination frame of the period .
  • the decoding unit further reads, from the area, applied frame information indicating a frame using the representative value as the metadata.
  • the decoding device further including: a metadata generation unit that generates the metadata of a frame within the period by performing interpolation processing based on the representative value, the termination value, and the applied frame information. .
  • the output unit is configured to decode the predetermined frame based on the metadata read last in time among the metadata read from the area in a frame before the predetermined frame.
  • the decoding apparatus according to any one of (1) to (5), which outputs audio data.
  • the output unit outputs the decoded audio data of the predetermined frame based on the metadata read last according to an instruction to use the metadata read last.
  • the decoding device according to (6).
  • the output unit decodes the decoded audio data of the predetermined frame based on another metadata different from the metadata read from the area.
  • the decoding apparatus according to any one of (1) to (5).
  • the coded bit stream is an AAC bit stream, The decoding unit according to any one of (1) to (8), which reads the metadata from a DSE as the area.
  • the coded bit stream is an AAC bit stream, The decoding unit according to any one of (1) to (9), wherein the decoding unit reads configuration information of the audio data or speaker arrangement information of the audio data from the PCE of the AAC bit stream.
  • the decryption device Audio data including object audio included in the encoded bit stream is decoded, and metadata of the object audio is read out from an area where any data of the encoded bit stream can be stored; Outputting the decoded audio data based on the metadata.
  • Audio data including object audio included in the encoded bit stream is decoded, and metadata of the object audio is read out from an area where any data of the encoded bit stream can be stored;
  • a program that causes a computer to execute processing including the step of outputting the decoded audio data based on the metadata.
  • Audio data including object audio is encoded, metadata of the object audio is stored in an area capable of storing arbitrary data, and the metadata and encoded bits including the encoded audio data
  • An encoding device comprising an encoding unit that generates a stream.
  • the encoding unit stores each of a plurality of data obtained by dividing the metadata in each of the plurality of areas in the encoded bit stream for one frame.
  • the encoding according to (13) apparatus is described by a plurality of data obtained by dividing the metadata in each of the plurality of areas in the encoded bit stream for one frame.
  • the encoding unit stores each of a plurality of data obtained by dividing the metadata for the plurality of frames in each of the regions of the plurality of frames in the encoded bit stream (13).
  • Encoding device (16) The encoding device according to (15), further comprising: a metadata determination unit that determines a representative value of the metadata for a period including the plurality of frames, and using the representative value as the metadata for the plurality of frames.
  • the metadata determination unit determines an end value which is the metadata in an end frame of the period, and sets the representative value and the end value as the metadata for the plurality of frames. apparatus.
  • the encoding apparatus stores application frame information indicating a frame using the representative value as the metadata in the area.
  • the encoding unit is configured to, as the metadata of the predetermined frame, the metadata of the frame closest to the predetermined frame among the metadata stored in the area of the frame temporally previous to the predetermined frame.
  • the information processing apparatus according to any one of (13) to (18), wherein information indicating whether to use is stored in the area.
  • the coded bit stream is an AAC bit stream,
  • the encoding apparatus according to any one of (13) to (19), wherein the encoding unit stores the metadata in a DSE as the area.
  • the coded bit stream is an AAC bit stream
  • the encoding unit according to any one of (13) to (20), wherein the encoding unit stores configuration information of the audio data or speaker arrangement information of the audio data in the PCE of the AAC bit stream.
  • the coding device Audio data including object audio is encoded, metadata of the object audio is stored in an area capable of storing arbitrary data, and the metadata and encoded bits including the encoded audio data
  • An encoding method comprising the steps of generating a stream.
  • Audio data including object audio is encoded, metadata of the object audio is stored in an area capable of storing arbitrary data, and the metadata and encoded bits including the encoded audio data
  • a program that causes a computer to execute processing including the step of generating a stream.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本技術は、利便性を向上させることができるようにする符号化装置および方法、復号装置および方法、並びにプログラムに関する。 復号装置は、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、符号化ビットストリームの任意のデータを格納可能な領域からオブジェクトオーディオのメタデータを読み出す復号部と、メタデータに基づいて、復号されたオーディオデータを出力する出力部とを備える。本技術は復号装置に適用することができる。

Description

符号化装置および方法、復号装置および方法、並びにプログラム
 本技術は、符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、利便性を向上させることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。
 従来、AAC(Advanced Audio Coding)やMP3(Moving Picture Experts Group 2 Audio Layer 3)などのオーディオ符号化技術が知られている(例えば、非特許文献1および非特許文献2参照)。
 これらのAACやMP3などのオーディオ符号化技術は、音楽配信をはじめとする様々な用途で使用されており、音質面や実装面での実績がある。
ISO/IEC 14496-3:2009 Information technology -- Coding of audio-visual objects -- Part 3: Audio ISO/IEC 11172-3:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 3: Audio
 しかしながら、これらのオーディオ符号化技術、すなわち従来のオーディオ符号化規格はチャンネルベースのオーディオデータを扱うことを前提とした符号化技術となっている。
 そのため、3次元オーディオ(3D Audio)の再生に用いられるオブジェクトオーディオデータや、各オブジェクトオーディオデータの位置情報等を含む3D Audioメタデータをそのまま符号化することはできなかった。
 このようなことから、上述のオーディオ符号化規格を3D Audioで利用するために従来規格との互換性を維持しながらの規格の拡張が望まれている。
 本技術は、このような状況に鑑みてなされたものであり、利便性を向上させることができるようにするものである。
 本技術の第1の側面の復号装置は、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部とを備える。
 本技術の第1の側面の復号方法またはプログラムは、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、前記メタデータに基づいて、復号された前記オーディオデータを出力するステップを含む。
 本技術の第1の側面においては、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータが復号されるとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータが読み出され、前記メタデータに基づいて、復号された前記オーディオデータが出力される。
 本技術の第2の側面の符号化装置は、オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える。
 本技術の第2の側面の符号化方法またはプログラムは、オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成するステップを含む。
 本技術の第2の側面においては、オブジェクトオーディオを含むオーディオデータが符号化されるとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータが格納されて、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームが生成される。
 本技術の第1の側面および第2の側面によれば、利便性を向上させることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
本技術について説明する図である。 AACビットストリームについて説明する図である。 符号化装置の構成例を示す図である。 復号装置の構成例を示す図である。 3D AACビットストリームの構成例を示す図である。 3D Audioメタデータの適用について説明する図である。 外部取得3D Audioメタデータの使用について説明する図である。 オーディオオブジェクトの位置情報について説明する図である。 オーディオオブジェクトの位置情報について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 3D Audioメタデータの分割伝送について説明する図である。 3D Audioメタデータの分割伝送について説明する図である。 3D Audioメタデータの分割伝送について説明する図である。 フレーム内DSE分割情報について説明する図である。 フレーム分割情報について説明する図である。 分割情報について説明する図である。 3D Audioメタデータの複数フレームでの分割について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、もともとは3D Audio、すなわちオブジェクトオーディオデータを取り扱うことが想定されていないAACやMP3などの符号化方式を用いても、オブジェクトオーディオデータや3D Audioメタデータを符号化して伝送し、復号側において3D Audio再生を実現できるようにすることで、利便性を向上させるものである。
 本技術は、特に以下のような特徴を有している。
 特徴(1)
 3D Audioに対応していないAAC等のコーデックにおいてアンシラリーデータ領域に3D Audioのレンダリングに必要な3D Audioメタデータを格納する
 特徴(2)
 3D Audioメタデータが1つのアンシラリーデータ領域に収まらない場合には、複数のアンシラリーデータ領域に3D Audioメタデータを格納する
 特徴(3)
 3D Audioメタデータが間欠的に存在する場合には、再生対象のフレームに対して、既に取得された3D Audioメタデータのうちの最後に得られたものを適用する
 特徴(4)
 3D Audioのオーディオデータの構成に関する情報をコーデック層のコメントフィールドに記述することで、従来のコーデック(符号化)規格を維持したままオーディオデータを伝送する
 特徴(5)
 3D Audioメタデータが1つのフレームのアンシラリーデータ領域に収まらない場合には、複数のフレームに跨って3D Audioメタデータを伝送する。その際、符号化装置側では、本来のフレームごとに格納すべき3D Audioメタデータの間引き処理を行い、複数フレームの3D Audioメタデータの代表値を伝送する
 特徴(6)
 3D Audioのチャンネルマッピングを可能な限り既存のチャンネルマッピングに割り当てて、そのチャンネルマッピングを示す情報をビットストリームに格納し、伝送する
 以上のような特徴を有する本技術では、AACやMP3などの既存の符号化技術を用いて、その符号化技術の互換性を保ったまま3D Audioの再生を実現することができる。
 具体的には、例えば3D Audioでは、3次元空間上の任意の位置にオーディオオブジェクト等の音源の音像を定位させることができる。
 このような3D Audioでは、オーディオオブジェクトのオーディオデータ、すなわちオブジェクトベースのオーディオデータや、チャンネルベースのオーディオデータなどからなるオーディオエレメントに加え、3D Audioメタデータが必要になる。
 ここで、3D Audioメタデータは、例えばオーディオオブジェクトの3次元空間上の位置を示す位置情報や、オーディオオブジェクトのオーディオデータのゲイン調整に用いるゲイン情報などを含むデータである。
 しかし、AACやMP3などの符号化方式では、もともと、このような3D Audioメタデータを取り扱うことは想定されていないため、そのままでは3D Audioメタデータを符号化し、伝送することができない。
 そこで本技術では、図1の矢印Q11に示すように、オーディオデータが格納される符号化ビットストリームに設けられた拡張領域に、符号化された3D Audioメタデータを格納するようにした。
 これにより、3D Audioに対応していない符号化方式の符号化ビットストリームでも、3D Audioメタデータを伝送し、3D Audioの再生を行うことができるようになる。
 ここで、3D Audioメタデータが格納される拡張領域は、既存符号化技術で定義されている、使用者が独自のルールで自由なデータを記録することが許される領域、つまり任意のデータを格納可能な領域であり、アンシラリーデータ領域とも呼ばれている。
 具体的には、例えば本技術をAAC符号化技術に適用する場合、矢印Q12に示すように符号化ビットストリームであるAACビットストリームには、矢印Q11に示した例の拡張領域に対応する領域として、DSE(Data Stream Element)が設けられている。そこで、AAC符号化方式によりオーディオデータが符号化されるときには、符号化された3D AudioメタデータがアンシラリーデータとしてDSEに格納される。
 例えば矢印Q12に示すAACビットストリームを受信した復号装置が、3D Audio、つまり3D Audioメタデータに対応している場合には、その復号装置はAACビットストリームから3D Audioメタデータを読み出して復号し、3D Audioの再生に用いることができる。
 これに対して、3D Audioメタデータに非対応の復号装置は、DSEに記述されたアンシラリーデータとしての3D Audioメタデータを解釈することはできない。
 しかし復号装置では、AAC規格で定義されている、DSEに記録されたアンシラリーデータのデータサイズを示すデータサイズ情報を得ることができる。したがって、復号装置は、そのデータサイズ情報を用いてDSE内の3D Audioメタデータの部分を読み飛ばすことができ、AAC規格との互換性を維持することができる。
 また、本技術をMP3に適用する場合には、矢印Q13に示すように符号化ビットストリームであるMP3ビットストリームには、矢印Q11に示した例の拡張領域に対応する領域として、アンシラリーデータ領域が設けられている。そこで、MP3符号化方式によりオーディオデータが符号化されるときには、符号化された3D Audioメタデータが、アンシラリーデータとしてアンシラリーデータ領域に格納される。
 それでは以下、本技術についてさらに詳細に説明する。以下では、説明を具体的にするため、本技術をAAC規格に適用した例、つまりAAC符号化技術を用いて、AAC規格の互換性を維持したまま3D Audioの再生を行う例について説明する。
 本技術をAAC規格に適用した場合、AACビットストリーム、つまりAACに従ってオーディオデータを符号化することで得られた符号化ビットストリームは、図2に示す構成となる。
 すなわち、AACビットストリームにはPCE(Program Config Element)およびDSEが設けられているとともに、再生に用いられるオーディオデータからなるAACオーディオエレメントデータが格納されている。
 例えばAACオーディオエレメントデータには、3D Audioの再生を実現するためのオーディオデータとして、オーディオオブジェクトのオーディオデータ、チャンネルベースのオーディオデータ、およびHOA(High Order Ambisonic)ベースのオーディオデータの少なくとも何れかが含まれている。
 ここで、オーディオオブジェクトのオーディオデータ、つまりオブジェクトベースのオーディオデータとは、いわゆるオブジェクトオーディオであり、オーディオオブジェクトの音を再生するためのオーディオ信号である。また、チャンネルベースのオーディオデータは、例えば5.1チャンネルや22.2チャンネルなどの所定のチャンネル構成の各チャンネルのオーディオ信号、つまり各チャンネルに対応するスピーカで再生される音のオーディオ信号である。
 さらに、HOAベースのオーディオデータとは、アンビソニック形式のオーディオ信号である。すなわち、HOAベースのオーディオデータは、チャンネルベースのオーディオ信号をアンビソニック形式で表現したものである。なお、以下、HOAベースのオーディオデータを、アンビソニックベースのオーディオデータとも称することとする。
 以下では、オーディオオブジェクトのオーディオデータ、チャンネルベースのオーディオデータ、およびアンビソニックベースのオーディオデータを特に区別する必要のない場合、単にオーディオデータとも称することとする。
 AACビットストリームのPCEにおける任意のデータを格納可能なコメントフィールドには、AACオーディオエレメントデータの構成要素を示す3D Audio構成要素情報が格納される。ここでは、3D Audio構成要素情報は、AACオーディオエレメントデータを構成するチャンネルベースのオーディオデータの数であるチャンネルベース数、オーディオオブジェクトのオーディオデータの数であるオブジェクトオーディオ数、およびアンビソニックベースのオーディオデータの数であるHOAオーディオ数を示す情報となっている。
 さらに、AACビットストリームのDSEには、AACオーディオエレメントデータを構成するオーディオデータのメタデータである3D Audioメタデータがアンシラリーデータとして格納される。
 ここでは、3D Audioメタデータとして、チャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータが含まれている。
 例えばチャンネルベースメタデータは、チャンネルベースのオーディオデータのメタデータであり、チャンネルベースの各オーディオデータがどのチャンネルのものであるかを示す対応チャンネル情報などからなる。
 また、オブジェクトベースメタデータは、オーディオオブジェクトのオーディオデータのメタデータであり、オーディオオブジェクトの数を示すオブジェクト数情報や、各オーディオオブジェクトの3次元空間上の位置を示す位置情報、各オーディオオブジェクトのオーディオデータに乗算されるゲインを示すゲイン情報などからなる。
 さらに、アンビソニックベースメタデータは、アンビソニックベースのオーディオデータのメタデータであり、アンビソニックの次数やモードを示す情報などからなる。
 なお、以下では、本技術を適用して得られたAACビットストリーム、つまりAACをベースとした、3D Audioメタデータが格納される符号化ビットストリームを、特に3D AACビットストリームとも称することとする。
〈符号化装置の構成例〉
 続いて、以上において説明した3D AACビットストリームを生成する符号化装置と、その符号化装置から出力された3D AACビットストリームを受信して復号する復号装置について説明する。
 図3は、本技術を適用した符号化装置の構成例を示す図である。
 図3に示す符号化装置11は、3D Audioメタデータ符号化部21、およびAAC符号化部22を有している。
 符号化装置11では、外部から3D Audioメタデータ符号化部21には、チャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータが3D Audioメタデータとして供給される。
 また、外部からAAC符号化部22には、オーディオオブジェクトのオーディオデータ(オブジェクトオーディオ)や、チャンネルベースのオーディオデータ、アンビソニックベースのオーディオデータなどの各種のオーディオデータ、および3D Audio構成要素情報が供給される。ここでは、各オーディオデータは、コンテンツを再生するためのPCM(Pulse Code Modulation)信号となっており、外部からAAC符号化部22には、少なくともオブジェクトオーディオを含む1または複数のオーディオデータが供給されるものとする。
 3D Audioメタデータ符号化部21は、外部から供給された3D Audioメタデータを符号化し、符号化された3D AudioメタデータをAAC符号化部22に供給する。以下では、3D Audioメタデータ符号化部21により符号化された3D Audioメタデータを、符号化3D Audioメタデータとも称することとする。
 AAC符号化部22は、3D Audioメタデータ符号化部21から供給された符号化3D Audioメタデータと、外部から供給された3D Audio構成要素情報およびオーディオデータとをAAC符号化方式で符号化して3D AACビットストリームを生成し、出力する。
 ここでは、AAC符号化部22に供給されるオーディオデータはPCM信号となっているため、それらのオーディオデータをAAC規格のAACオーディオエレメントデータとして符号化することが可能である。
 なお、外部からAAC符号化部22に3D Audio構成要素情報が供給されるのではなく、AAC符号化部22が3D Audioメタデータ符号化部21から必要な情報の供給を受けて、その情報に基づいて3D Audio構成要素情報を生成するようにしてもよい。
〈復号装置の構成例〉
 次に、図3に示した符号化装置11から出力された3D AACビットストリームを受信して復号する復号装置の構成について説明する。そのような復号装置は、例えば図4に示すように構成される。
 図4に示す復号装置51は、AAC復号部61、3D Audioメタデータ復号部62、3D Audioメタデータ取得部63、および3D Audioレンダラ64を有している。
 AAC復号部61は、符号化装置11から送信されてきた3D AACビットストリームを受信し、受信した3D AACビットストリームを復号する。
 AAC復号部61は、3D AACビットストリームの復号により得られた符号化3D Audioメタデータを3D Audioメタデータ復号部62に供給するとともに、復号により得られたオーディオデータ、すなわちPCM信号を3D Audioレンダラ64に供給する。
 ここで、AAC復号部61から3D Audioレンダラ64に供給されるオーディオデータは、オーディオオブジェクトのオーディオデータ(オブジェクトオーディオデータ)や、チャンネルベースのオーディオデータ、アンビソニックベースのオーディオデータなどである。
 また、AAC復号部61は、復号により得られた3D Audio構成要素情報を、適宜、復号装置51を制御する上位の制御部に供給する。
 3D Audioメタデータ復号部62は、AAC復号部61から供給された符号化3D Audioメタデータを復号し、その結果得られた3D Audioメタデータとしてのチャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータを3D Audioレンダラ64に供給する。
 3D Audioメタデータ取得部63は、適宜、外部から必要な情報を取得して3D Audioメタデータを生成したり、外部のサーバ等から3D Audioメタデータを受信したりすることで3D Audioメタデータを取得し、3D Audioレンダラ64に供給する。
 3D Audioレンダラ64は、レンダリング処理を行って3D Audio再生のための再生データを生成するとともに、得られた再生データを出力する出力部、すなわち3D Audioメタデータに基づいて、復号されたオーディオデータを出力する出力部として機能する。
 具体的には、3D Audioレンダラ64は、3D Audioメタデータ復号部62または3D Audioメタデータ取得部63から供給された3D Audioメタデータと、AAC復号部61から供給されたオーディオデータとに基づいてレンダリングを行い、所定チャンネル数のオーディオデータを再生データとして生成する。
 再生データは、例えば2チャンネルや5.1チャンネルなどの所定のチャンネル構成の各チャンネルのオーディオデータからなる、3D Audio再生を実現するためのオーディオ信号である。この再生データに基づいて音を再生すれば、例えばオーディオオブジェクトの音の音像を、そのオーディオオブジェクトの3D Audioメタデータに含まれている位置情報により示される3次元空間上の位置に定位させることができる。
 3D Audioレンダラ64は、得られた再生データを外部に出力する。例えば3D Audioレンダラ64は、再生データをスピーカに供給して音を再生させたり、再生データを図示せぬ記録部に供給して記録させたりする。
〈3D AACビットストリームの構成例〉
 ここで、以上のような符号化装置11と復号装置51との間で授受される3D AACビットストリームの具体的な構成例について説明する。
 例えばAACオーディオエレメントデータが、7.1チャンネルのチャンネルベースのオーディオデータと、2つのオーディオオブジェクトのオーディオデータと、アンビソニックベースの1次アンビソニックのオーディオデータとから構成されるとする。
 そのような場合、3D AACビットストリームは、例えば図5に示すように構成される。この例では、オーディオデータの1フレーム分の3D AACビットストリームの先頭には、PCEとDSEが配置されている。そして、PCEには3D Audio構成要素情報が格納されており、DSEには符号化された3D Audioメタデータが格納されている。
 また、DSEに続いて1つのSCE(Single Channel Element)、3つのCPE(Channel Pair Element)、および1つのLFE(Low Frequency Effects)が配置されている。そして、これらのSCE、CPE、およびLFEに7.1チャンネルのチャンネルベースのオーディオデータが格納されてチャンネルベースオーディオエレメントとされている。
 さらに、チャンネルベースオーディオエレメントの後ろには、2つのSCEが配置されており、それらのSCEに2つのオーディオオブジェクトのオーディオデータが格納されてオブジェクトベースオーディオエレメントとされている。
 オブジェクトベースオーディオエレメントに続いて、4つのSCEが配置されており、それらのSCEにアンビソニックベースの1次アンビソニックのオーディオデータが格納されてアンビソニックベースオーディオエレメントとされている。
 そして、アンビソニックベースオーディオエレメントの後ろ、つまり1フレーム分の3D AACビットストリームの終端にはFILが配置されている。
 このように図5に示した例では、AACオーディオエレメントデータは、チャンネルベースオーディオエレメント、オブジェクトベースオーディオエレメント、およびアンビソニックベースオーディオエレメントから構成されている。
 なお、AACオーディオエレメントデータは、これらのチャンネルベースオーディオエレメント、オブジェクトベースオーディオエレメント、およびアンビソニックベースオーディオエレメントの少なくとも何れか1つから構成されるようにしてもよい。
〈3D Audioメタデータの伝送について〉
 ところで、3D Audioでは基本的にはフレームごとに3D Audioメタデータが伝送される。しかし、例えばオーディオオブジェクトの動きがないフレーム区間など、必ずしも複数のフレームごとに3D Audioメタデータが必要ないときには、3D Audioメタデータをフレームごとに伝送しなくてもよい。
 そのような場合、例えば図6に示すように3D Audioメタデータが伝送されなかったフレームでは、そのフレームよりも前のフレームの3D Audioメタデータのうち、時間的に最後に取得された3D Audioメタデータが現フレームのものとして利用される。
 図6に示す例では、矢印A11乃至矢印A15により示される四角形のそれぞれがフレームN乃至フレーム(N+4)のそれぞれの3D AACビットストリームを表している。なお、以下では1フレーム分の3D AACビットストリームを、AACフレームデータとも称することとする。
 例えばフレームNでは、AACフレームデータに、そのフレームNの3D Audioメタデータが格納されているので、復号装置51では、復号により得られたフレームNの3D Audioメタデータ(以下、3D Audioメタデータ(N)とも記すこととする)が用いられてレンダリングが行われる。
 これに対して、次のフレーム(N+1)では、AACフレームデータに3D Audioメタデータが格納されていない。そこで、復号装置51では、最後に取得された、つまり最後に復号により得られたフレームNの3D Audioメタデータ(N)が用いられて、フレーム(N+1)のレンダリングが行われる。
 このように現フレームの3D Audioメタデータがない場合には、既に3D AACビットストリームのDSEから読み出されている、現フレームよりも時間的に前のフレームの3D Audioメタデータのうち、最も現フレームに時間的に近いフレームの3D Audioメタデータが、現フレームの3D Audioメタデータとして用いられる。
 換言すれば、現フレームよりも前のフレームでDSEから読み出されている3D Audioメタデータのうちの時間的に最後に読み出された3D Audioメタデータが、現フレームの3D Audioメタデータとして用いられ、現フレームのレンダリングが行われる。さらにいえば、結果として、現フレームの3D Audioメタデータがない場合には、その現フレームの直前のフレームで用いられた3D Audioメタデータを、現フレームのものとしても用いることになる。
 フレーム(N+1)における場合と同様に、その後のフレーム(N+2)およびフレーム(N+3)においても、それらのフレームでは3D Audioメタデータが格納されていなかったので、最後に得られたフレームNの3D Audioメタデータ(N)が用いられてレンダリングが行われる。
 これに対して、フレーム(N+3)に続くフレーム(N+4)では、復号によりそのフレーム(N+4)の3D Audioメタデータ(N+4)が得られるので、その3D Audioメタデータ(N+4)が用いられてレンダリングが行われる。
 なお、現フレームにおいてDSEに何も格納されておらず、3D Audioメタデータが格納されていないと判定された場合に、現フレームよりも時間的に前のフレームの3D Audioメタデータを参照するようにすることができる。
 この場合、現フレームのDSEに3D Audioメタデータが格納されていないことが、現フレームよりも時間的に前のフレームの3D Audioメタデータの参照の指示を表しているともいうことができる。
 その他、DSEに3D Audioメタデータだけでなく、現フレームよりも時間的に前のフレームの3D Audioメタデータを使用(参照)するか否かを示す前フレーム参照フラグも格納するようにしてもよい。
 すなわち、前フレーム参照フラグは、現フレームよりも前のフレームでDSEから読み出されている3D Audioメタデータのうちの時間的に最後に読み出された3D Audioメタデータを、現フレームの3D Audioメタデータとして用いるかを指示する情報である。
 換言すれば前フレーム参照フラグは、現フレームの3D Audioメタデータとして、現フレームよりも時間的に前のフレームのDSEに格納された3D Audioメタデータのうちの、最も現フレームに近いフレームの3D Audioメタデータを用いるかを指示する情報である。
 この場合、例えば前のフレームの3D Audioメタデータを参照する場合には前フレーム参照フラグの値が「1」とされ、DSEには値が1である前フレーム参照フラグのみが記述される。
 これに対して、前のフレームの3D Audioメタデータを参照しない場合には前フレーム参照フラグの値が「0」とされ、DSEには値が0である前フレーム参照フラグに続いて3D Audioメタデータが記述される。以下では、DSEに前フレーム参照フラグが格納されるものとして説明を続ける。
 また、3D Audioメタデータは、DSE内に格納されるデータであり、AAC符号化規格とは独立したデータとなる。
 そのため、3D AACビットストリームを途中から再生する場合、つまりコンテンツを途中から再生する場合、AAC規格のフレーム(オーディオデータ)の復号ができたとしても3D Audioメタデータの復号が完了していないことがある。これは、3D Audioメタデータが差分符号化などにより符号化されている場合には、差分符号化を行わないリセットフレームが出現するまでは差分の起点が不明なことに起因するものである。
 また、3D AACビットストリームを途中から再生する場合、いくつかのフレームで3D Audioメタデータが省略されていることもある。
 そこで、本技術では現フレームの3D Audioメタデータが得られない場合に、時間的に前のフレームの3D Audioメタデータをそのまま用いる他、復号装置51側で予め保持されている3D Audioメタデータのデフォルト値を用いるようにすることができる。
 なお、以下、復号装置51側で予め保持されているデフォルト値など、3D AACビットストリームから読み出された3D Audioメタデータとは異なる他の3D Audioメタデータを、外部取得3D Audioメタデータとも称することとする。
 例えば図7に示すように、コンテンツの先頭部分のいくつかのフレームにおいて3D Audioメタデータが得られなかったとする。
 図7では、矢印A21乃至矢印A25により示される四角形のそれぞれがフレーム0乃至フレーム4のそれぞれのAACフレームデータを表している。
 この例では、先頭のフレーム0から4番目のフレーム3までの間は、AAC規格でのオーディオデータの復号はできたが、3D Audioメタデータの復号ができなかったり、DSEに3D Audioメタデータが格納されていなかったりなどの理由で3D Audioメタデータがない状態となっている。
 そこで、3D Audioメタデータ取得部63は、予め定められた初期メタデータ値を外部取得3D Audioメタデータとして取得し、3D Audioレンダラ64に供給する。
 例えば初期メタデータ値では、オーディオオブジェクトの位置情報により示される位置は、3次元空間上のユーザの真正面の位置など、予め定められた位置などとなっている。
 また、初期メタデータ値の取得時には、例えば3D Audioメタデータ取得部63は、PCEから読み出された3D Audio構成要素情報に基づいて、外部取得3D Audioメタデータとしての初期メタデータ値を取得する。具体的には、例えば3D Audio構成要素情報により示されるオブジェクトオーディオ数に基づいて、オーディオオブジェクトの数だけ位置情報やゲイン情報が取得される。
 外部取得3D Audioメタデータを取得する場合、AACオーディオエレメントデータがどのような構成となっているか、すなわちチャンネルベース数やオブジェクトオーディオ数など、オーディオデータの構成を示す情報が必要となる。そのため、例えば符号化装置11において前フレーム参照フラグの値が「1」とされ、3D AudioメタデータがDSEに格納されない場合には、必ずPCEに3D Audio構成要素情報が記述されるようにされる。
 3D Audioレンダラ64は、外部取得3D Audioメタデータとしての初期メタデータ値の供給を受けると、フレーム0乃至フレーム3については、供給された初期メタデータ値を用いてレンダリングを行う。そして、フレーム4においてDSEから3D Audioメタデータが読み出されると、フレーム4については、その読み出された3D Audioメタデータに基づいてレンダリングが行われる。
 このように、コンテンツの先頭部分や途中の部分など、長時間、DSEから3D Audioメタデータが得られなかった場合には、3D Audio構成要素情報等に基づいて取得した外部取得3D Audioメタデータを用いれば、さしあたり3D Audioの再生を行うことができる。
 例えば符号化装置11側では、オブジェクトに動きがない場合など、複数のフレームにわたって3D Audioメタデータに変化がないときには、前フレーム参照フラグの値が「1」とされ、ある程度長い期間、3D Audioメタデータが伝送されないこともある。そのような場合に、復号装置51側において参照先とされる3D Audioメタデータが何らかの理由により得られなかったときには、外部取得3D Audioメタデータを利用することで、3D Audioの再生を行うことができる。
 なお、外部取得3D Audioメタデータを用いる場合、その後、DSEから読み出された3D Audioメタデータを用いるときに、急に3D Audioメタデータが外部等から取得したものから、DSEから読み出されたものへと変化すると、オーディオオブジェクトの位置が不連続となるなど、違和感が生じてしまうこともある。そこで、例えば数フレームの間は、最後に用いた外部取得3D Audioメタデータと、DSEから読み出された3D Audioメタデータとに基づいて補間処理を行い、補間処理により得られた3D Audioメタデータが使用されるようにすることで、スムーズにオーディオオブジェクトの位置等が遷移するようにしてもよい。
 また、外部取得3D Audioメタデータは、外部から取得した情報等に基づいて3D Audioメタデータ取得部63により生成される他、ネットワークを介してサーバから取得されたり、3D AACビットストリームとは別に符号化装置11から取得されたりするなど、どのようにして取得されるようにしてもよい。また、コンテンツごとに、各再生時刻の外部取得3D Audioメタデータが予め用意されており、コンテンツの再生時刻に応じて適切な外部取得3D Audioメタデータが取得されるなどしてもよい。
 さらに、ユーザの指示等により3D Audioメタデータが変更されるようにしてもよい。一例として、例えばネットワーク型の対戦ゲームなど、インタラクティブに複数のユーザにより共有されて再生されるコンテンツについては、復号装置51におけるユーザ操作だけでなく、他のユーザの操作等も考慮されて3D Audioメタデータが変更されるようにすることができる。
 上述したように、外部取得3D Audioメタデータが取得される場合、AAC符号化方式で符号化されたAACオーディオエレメントデータが、チャンネルベースのものであるか、オブジェクトベースのものであるか、アンビソニックベースのものであるかなど、オーディオデータの種別を識別する識別情報が必要となる。換言すれば、AACオーディオエレメントデータの構成を示す構成情報が必要となる。このような情報は、3D Audioメタデータを復号しなくても取得できなければならない。
 そこで、本技術では、図2を参照して説明したように、オーディオデータの種別を識別する情報、つまりAACオーディオエレメントデータの構成を示す情報として、3D Audio構成要素情報がPCEのコメントフィールドに格納されている。なお、3D Audio構成要素情報により示される情報は、3D Audioメタデータにも含まれている。
 PCEのコメントフィールドに3D Audio構成要素情報を格納することで、復号装置51では、AAC復号部61におけるAAC規格の復号処理の中で3D Audio構成要素情報を得ることができる。またPCEは、MPEG-4 File Format層でも独立に使用されるものとなるため、3D Audio構成要素情報のPCEへの格納には、システム層からも3D Audio構成要素情報を取得できるという利点がある。
 なお、PCEのコメントフィールドについても、DSEにおける場合と同様に、本技術に対応していない復号装置はAAC規格で記録されたコメントフィールドのバイト数を読み飛ばすことができるので、AAC規格の互換性を維持することができる。
〈2次元平面上の位置情報の伝送について〉
 ところで、AAC規格では、各オーディオエレメント、つまり各オーディオデータのスピーカ配置情報を、PCEにおいて前方位置(FRONT)、横位置(SIDE)、または後方位置(BACK)という2次元平面上の位置情報として記録することができる。すなわち、前方、後方、および側方の各方向のうちの何れの方向にオーディオデータを再生するスピーカがあるかを示すスピーカ配置情報をPCEに格納することが可能である。
 一方で、3D AACビットストリームでは各オーディオオブジェクト、すなわちオブジェクトベースのオーディオデータの位置情報として、オーディオオブジェクトの平面方向の位置を示す角度と、高さ方向の位置を示す角度とが3D Audioメタデータに含まれている。
 本技術では、エレメント個数の上限(制限)はあるが、可能な限り平面方向の角度に合わせてオーディオオブジェクトの位置に対応するスピーカ配置情報をPCEに記述するようにしてもよい。
 具体的には、例えば図8に示すようにオーディオオブジェクトとして4つのオーディオオブジェクトEL11乃至オーディオオブジェクトEL14があるとする。
 図8では、図中、手前側が視聴者であるユーザU11の正面の方向、つまり前方方向であり、図中、奥側がユーザU11の後方となっている。
 この例では、オーディオオブジェクトEL11がユーザU11の前方上側に位置しており、オーディオオブジェクトEL12がユーザU11の前方右上に位置している。また、オーディオオブジェクトEL13がユーザU11の後方上側に位置しており、オーディオオブジェクトEL14がユーザU11の左側方上側に位置している。
 このような場合、符号化装置11では、オーディオオブジェクトEL11とオーディオオブジェクトEL12が前方に位置する前方位置オーディオエレメントとされる。そして、それらのオーディオオブジェクトのスピーカ配置情報として前方位置を示す情報がPCEに記述される。
 すなわち、オーディオオブジェクトEL11とオーディオオブジェクトEL12の3次元空間上の位置が、2次元平面上の前方位置にマッピングし直される。そして、そのマッピング結果に応じて、PCEには、それらのオーディオオブジェクトの位置情報、つまりスピーカ配置情報として前方位置を示す情報が記述される。
 また、オーディオオブジェクトEL13が、後方に位置する後方位置オーディオエレメントとされ、そのオーディオオブジェクトEL13の2次元平面上の位置である後方位置を示す情報がスピーカ配置情報としてPCEに記述される。
 同様に、オーディオオブジェクトEL14が、側方に位置する横位置オーディオエレメントとされ、そのオーディオオブジェクトEL14の2次元平面上の位置である横位置を示す情報がスピーカ配置情報としてPCEに記述される。
 このようなスピーカ配置情報は、オーディオオブジェクトのオーディオデータを出力すべきスピーカを示す情報、つまりオーディオオブジェクトに対応するスピーカ配置に関する情報である。換言すれば、スピーカ配置情報は、各オーディオオブジェクトのオーディオデータがどのチャンネルのものであるか、つまりオーディオオブジェクトのチャンネルマッピングを示す情報である。
 このようなスピーカ配置情報は、オーディオオブジェクトの2次元平面上の位置を示す位置情報であるともいうことができる。以下では、このようなスピーカ配置情報を、オーディオオブジェクトの2次元平面上の位置を示す位置情報とも称することとする。
 このようにPCEに各オーディオオブジェクトの2次元平面上の位置情報を記述することで、復号装置51が3D Audioに対応していないなど、何らかの理由で復号装置51において3D Audioメタデータを利用することができなくても、各オーディオオブジェクトの2次元平面上の位置は特定することができる。
 したがって、例えば図9に示すように、PCEに記述された2次元平面上の位置情報から、各オーディオオブジェクトの音像を2次元平面上における正しい位置に定位させることができる。なお、図9において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 この例では、復号装置51では、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の2次元平面上の位置を示す位置情報(スピーカ配置情報)をPCEから読み出すことで、それらの位置情報により示される位置に各オーディオオブジェクトを配置することができる。
 すなわち、高さ方向の情報を得ることはできないが、3D Audioのチャンネルマッピングを可能な限り既存のチャンネルマッピングに割り当てることができる。これにより、オブジェクトベースのオーディオエレメントデータに基づく音を、オーディオオブジェクトの平面上におけるおおよその位置にあるスピーカから出力することができる。
 図9に示す例では、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の高さはもとの高さとは異なり、ユーザU11の頭部の高さとなっている。しかし、オーディオオブジェクトEL11およびオーディオオブジェクトEL12はユーザU11の前方に配置されており、オーディオオブジェクトEL13はユーザU11の後方に配置されており、オーディオオブジェクトEL14はユーザU11の左側方に配置されている。
 このように、2次元平面上の位置を示す位置情報を用いれば、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の音の音像を、もともとの方向と略同じ方向の位置に定位させることが可能である。
〈符号化処理の説明〉
 続いて、符号化装置11および復号装置51の動作について説明する。
 まず、図10のフローチャートを参照して、符号化装置11による符号化処理について説明する。この符号化処理は、符号化すべきオーディオデータが供給されると開始される。
 ステップS11において、3D Audioメタデータ符号化部21は、処理対象とする現フレームについて、伝送すべき3D Audioメタデータがあるか否かを判定する。
 例えば外部から3D Audioメタデータが供給された場合、伝送すべき3D Audioメタデータがあると判定される。なお、例えば処理対象の現フレームとその直前のフレームとで3D Audioメタデータに変化がない場合など、前のフレームの3D Audioメタデータを参照させるときには、処理対象の現フレームの3D Audioメタデータは供給されない。
 ステップS11において、伝送すべき3D Audioメタデータがあると判定された場合、ステップS12において3D Audioメタデータ符号化部21は、外部から供給された3D Audioメタデータを符号化する3D Audioメタデータ符号化処理を行う。そして、3D Audioメタデータ符号化部21は、3D Audioメタデータ符号化処理により得られた符号化3D AudioメタデータをAAC符号化部22に供給する。
 ステップS13において、AAC符号化部22は3D Audioメタデータ符号化部21から供給された符号化3D Audioメタデータ、前フレーム参照フラグ、および外部から供給されたオーディオデータをAAC符号化し、1フレーム分のAACフレームデータを生成する。
 すなわち、AAC符号化部22は、AACフレームデータのDSEに、値が「0」である前フレーム参照フラグを格納した後、その前フレーム参照フラグに続いて符号化3D AudioメタデータをDSEに格納する。
 また、AAC符号化部22は、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。
 さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報(スピーカ配置情報)もAACフレームデータのPCEに格納する。これにより、例えば図5に示した構成のAACフレームデータが、1フレーム分の3D AACビットストリームとして得られる。
 AAC符号化部22は、このようにして得られた1フレーム分の3D AACビットストリームを出力(送信)すると、その後、処理はステップS17へと進む。
 一方、ステップS11において、伝送すべき3D Audioメタデータがないと判定された場合、ステップS14においてAAC符号化部22は、復号側において前のフレームの3D Audioメタデータを参照させるか否かを判定する。
 ステップS14において前のフレームの3D Audioメタデータを参照させると判定された場合、その後、処理はステップS15へと進む。
 ステップS15において、AAC符号化部22は前フレーム参照フラグの値を「1」として、外部から供給されたオーディオデータをAAC符号化する。
 すなわち、AAC符号化部22は、AACフレームデータのDSEに、値が「1」である前フレーム参照フラグを格納する。また、AAC符号化部22は、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。
 さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
 AAC符号化部22は、このようにして得られたAACフレームデータを1フレーム分の3D AACビットストリームとして出力すると、その後、処理はステップS17へと進む。
 これに対して、ステップS14において前のフレームの3D Audioメタデータを参照させないと判定された場合、その後、処理はステップS16へと進む。
 ステップS16において、AAC符号化部22は前フレーム参照フラグの値を「0」として、外部から供給されたオーディオデータをAAC符号化する。
 すなわち、AAC符号化部22は、AACフレームデータのDSEに、値が「0」である前フレーム参照フラグを格納するとともに、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACフレームデータに格納する。なお、以下では、符号化されたオーディオデータを符号化オーディオデータとも称することとする。
 さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
 AAC符号化部22は、このようにして得られたAACフレームデータを1フレーム分の3D AACビットストリームとして出力すると、その後、処理はステップS17へと進む。
 ステップS13の処理、ステップS15の処理、またはステップS16の処理が行われると、その後、ステップS17の処理が行われる。
 ステップS17において、符号化装置11は、符号化すべきオーディオデータがあるか否かを判定する。
 ステップS17において、まだ符号化すべきオーディオデータがあると判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS17において符号化すべきオーディオデータがない、すなわち伝送するコンテンツのオーディオデータが全て符号化されて出力されたと判定された場合、符号化処理は終了する。
 以上のようにして符号化装置11は、3D AudioメタデータをDSEに格納し、3D AACビットストリームを生成する。このようにすることで既存のAAC規格を拡張し、復号側において3D Audioメタデータを利用して3D Audio再生を行うことができるようになる。これにより、利便性を向上させることができる。
 また、前フレーム参照フラグを格納することにより、復号側において時間的に前のフレームの3D Audioメタデータを参照することができるので、3D Audioメタデータの分だけ3D AACビットストリームの符号量を削減することができる。
 さらに3D AACビットストリームのPCEに、各オーディオオブジェクトの2次元平面上における位置を示す位置情報を記述することで、復号側において3D Audioメタデータを得ることができなくても、各オーディオオブジェクトの音像を2次元平面上の正しい位置に定位させることができる。すなわち、臨場感を損なうことなくオーディオ再生を行うことができる。
〈復号処理の説明〉
 次に、図11のフローチャートを参照して、復号装置51により行われる復号処理について説明する。この復号処理は、符号化装置11により送信された3D AACビットストリームが受信されると開始される。
 ステップS41において、AAC復号部61は受信した1フレーム分の3D AACビットストリーム、すなわちAACフレームデータに対して、AAC符号化方式に対応する復号方式での復号処理であるAAC復号処理を行う。
 すなわち、AAC復号部61は、PCEから3D Audio構成要素情報を読み出して上位の制御部に供給したり、PCEから各オーディオオブジェクトの2次元平面上の位置情報、すなわちスピーカ配置情報を読み出して、直接、または上位の制御部を介して3D Audioレンダラ64に供給したりする。
 また、AAC復号部61は、AACフレームデータに格納されている符号化オーディオデータを復号し、その結果得られたPCMデータであるオーディオデータを3D Audioレンダラ64に供給する。
 ステップS42において、AAC復号部61は、AACフレームデータのDSEに3D Audioメタデータがあるか否かを判定する。
 例えばAAC復号部61は、DSEの先頭に記述された前フレーム参照フラグの値に続いて符号化3D Audioメタデータが記述されている場合、3D Audioメタデータがあると判定する。この場合、前フレーム参照フラグの値は「0」となっている。
 ステップS42において3D Audioメタデータがあると判定された場合、AAC復号部61は、DSEから符号化3D Audioメタデータを読み出して3D Audioメタデータ復号部62に供給し、その後、処理はステップS43へと進む。
 ステップS43において、3D Audioメタデータ復号部62は、AAC復号部61から供給された符号化3D Audioメタデータを復号し、その結果得られた3D Audioメタデータを3D Audioレンダラ64に供給する。このようにして3D Audioメタデータが得られると、その後、処理はステップS47へと進む。
 また、ステップS42において3D Audioメタデータがないと判定された場合、ステップS44においてAAC復号部61は、DSEの先頭に記述されている前フレーム参照フラグの値が「1」であるか否かを判定する。
 ステップS44において前フレーム参照フラグの値が「1」でない、つまり前フレーム参照フラグの値が「0」であるがDSEから3D Audioメタデータが得られなかった場合、その後、処理はステップS48へと進む。
 これに対して、ステップS44において前フレーム参照フラグの値が「1」であると判定された場合、その後、処理はステップS45へと進む。この場合、DSEには符号化3D Audioメタデータが格納されていない。
 ステップS45において、AAC復号部61は、過去の3D Audioメタデータがあるか否かを判定する。すなわち、同じコンテンツ、つまり復号対象の3D AACビットストリームにおける処理対象の現フレームよりも時間的に前のフレームについて、DSEから読み出された3D Audioメタデータがある場合、過去の3D Audioメタデータがあると判定される。
 ステップS45において過去の3D Audioメタデータがあると判定された場合、AAC復号部61は、DSEから読み出された3D Audioメタデータがある過去のフレームのうちの現フレームに最も時間的に近いフレームの3D Audioメタデータ、つまり最後に用いられた3D Audioメタデータの出力を3D Audioメタデータ復号部62に指示し、その後、処理はステップS47へと進む。
 この場合、3D Audioメタデータ復号部62は、AAC復号部61の指示に従って過去のフレームで用いた3D Audioメタデータを3D Audioレンダラ64に供給する。
 具体的には、例えば図6に示した例においてフレーム(N+1)が現フレームであったとすると、3D Audioメタデータ復号部62は、フレームNの3D Audioメタデータ(N)を3D Audioレンダラ64に供給する。
 一方、ステップS45において過去の3D Audioメタデータがないと判定された場合、何らかの理由により、3D AACビットストリームから現フレームで用いる3D Audioメタデータが得られなかったので、その後、処理はステップS46へと進む。
 ステップS46においてAAC復号部61は、3D AACビットストリーム以外から取得された3D Audioメタデータがあるか否かを判定する。すなわち、3D Audioメタデータ取得部63により取得された外部取得3D Audioメタデータがあるか否かが判定される。
 ステップS46において、取得された3D Audioメタデータがないと判定された場合、その後、処理はステップS48へと進む。
 また、ステップS46において、取得された3D Audioメタデータがあると判定された場合、AAC復号部61は、取得した3D Audioメタデータの出力を3D Audioメタデータ取得部63に指示し、その後、処理はステップS47へと進む。
 この場合、3D Audioメタデータ取得部63は、外部から取得したり自身が生成したりして得られた外部取得3D Audioメタデータを3D Audioレンダラ64に供給する。
 ステップS43の処理が行われたか、ステップS45において過去の3D Audioメタデータがあると判定されたか、またはステップS46において取得された3D Audioメタデータがあると判定されると、その後、ステップS47の処理が行われる。
 ステップS47において、3D Audioレンダラ64は、3D Audioメタデータ復号部62または3D Audioメタデータ取得部63から供給された3D Audioメタデータと、AAC復号部61から供給されたオーディオデータとに基づいてレンダリングを行う。
 そして、3D Audioレンダラ64は、レンダリングにより得られた3D Audio再生を実現するための現フレームの再生データを出力し、その後、処理はステップS49へと進む。
 また、ステップS44において前フレーム参照フラグの値が「1」でないと判定されたか、またはステップS46において取得された3D Audioメタデータがないと判定された場合、ステップS48の処理が行われる。
 すなわち、ステップS48において3D Audioレンダラ64は、AAC復号部61から供給されたオーディオデータに基づいて、通常のAAC規格により定められたレンダリングを行い、その結果得られた再生データを出力する。
 この場合、3D Audioレンダラ64は、適宜、PCEから読み出された各オーディオオブジェクトの2次元平面上の位置情報(スピーカ配置情報)に基づいて、各オーディオオブジェクトの音像が位置情報により示される2次元平面上の位置に定位するように各チャンネルのオーディオデータを再生データとして生成する。これにより、3D Audioメタデータが得られず、オーディオオブジェクト(音源)の高さ方向の音像定位制御を行うことができなくても、各オーディオオブジェクトの音像を2次元平面上の正しい位置に定位させることができる。
 このようにして現フレームの再生データが出力されると、その後、処理はステップS49へと進む。
 ステップS47の処理またはステップS48の処理が行われて1フレーム分の再生データが出力されると、ステップS49においてAAC復号部61は、復号すべき3D AACビットストリームがあるか否かを判定する。
 例えばステップS49では、受信された3D AACビットストリームがまだ全て復号されていない場合、復号すべき3D AACビットストリームがあると判定される。
 ステップS49において復号すべき3D AACビットストリームがあると判定された場合、処理はステップS41に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS49において復号すべき3D AACビットストリームがないと判定された場合、復号処理は終了する。
 以上のようにして復号装置51は、DSEから3D Audioメタデータを読み出して、読み出した3D Audioメタデータを用いてレンダリングを行う。このようにすることで既存のAAC規格を拡張して3D Audio再生を行うことができ、利便性を向上させることができる。
 また、3D AACビットストリームのPCEに、各オーディオオブジェクトの2次元平面上における位置を示す位置情報が記述されているので、3D Audioメタデータを得ることができなくても、各オーディオオブジェクトの音像を2次元平面上の正しい位置に定位させることができる。すなわち、臨場感を損なうことなくオーディオ再生を行うことができる。
〈第2の実施の形態〉
〈3D Audioメタデータの分割伝送について〉
 ところで、オーディオオブジェクトの数、すなわちオブジェクトオーディオ数が多いほど、3D Audioメタデータのデータ量(符号量)は多くなる。
 そのため、3D Audioメタデータのデータ量が多くなると、3D Audioメタデータのサイズ(データ量)がAAC規格で定義されているDSEの上限サイズを超えてしまうことがある。また、1つのフレームで3D Audioメタデータの格納に必要となるDSEの個数が、AAC規格で定義されているDSEの上限個数を超えてしまうこともある。
 そこで、本技術では、3D Audioメタデータのデータ量が多い場合には、複数の各フレームの3D Audioメタデータを伝送するのではなく、それらの3D Audioメタデータを適宜間引いて、3D Audioメタデータの代表値をそれらの複数のフレームのDSEに格納して伝送するようにした。すなわち、複数のフレームにまたがって代表値を送信するようにした。
 例えば図12に示すように、1つのフレームのAACフレームデータに3つのDSEを設けることができるとする。なお、図12において文字「DSE 1」乃至「DSE 3」のそれぞれが記された四角形は、1フレーム分のAACフレームデータ内に設けられたDSEのそれぞれを表している。以下では、それらのDSEをDSE 1乃至DSE 3とも称することとする。
 この例では、1フレーム分の3D Audioメタデータのデータ量が多く、その3D Audioメタデータが1つ目のDSE 1には格納しきれない状態となっている。
 このような場合、符号化装置11は、3D Audioメタデータを3つのデータに分割する。ここでは、3D Audioメタデータを分割して得られた3つのデータを、分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(3)と称することとする。さらに、以下、3D Audioメタデータを分割して得られた各データを特に区別する必要のない場合、分割3D Audioメタデータとも称することとする。
 符号化装置11は、分割により得られた分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(3)のそれぞれを、DSE 1乃至DSE 3のそれぞれに格納する。
 このとき、符号化装置11は、3D Audioメタデータが分割されたことや、どの分割3D Audioメタデータが先頭から何番目のデータであるかを特定することができるように、フレーム内DSE分割カウンタと、フレーム内DSE分割終端フラグを生成する。
 フレーム内DSE分割カウンタは、1フレーム分のAACフレームデータにおける、分割3D Audioメタデータが格納された何番目のDSEであるかを示す情報である。
 換言すれば、フレーム内DSE分割カウンタは、DSEに格納された分割3D Audioメタデータが、1フレーム分のAACフレームのDSEに格納された何番目の分割3D Audioメタデータであるかを示す情報であるともいうことができる。
 例えば、フレーム内DSE分割カウンタの値が「i-1」(1≦i)であるDSEに格納されている分割3D Audioメタデータは、1フレーム分のAACフレームのDSEに格納された先頭からi番目の分割3D Audioメタデータとなる。
 また、フレーム内DSE分割終端フラグは、1フレーム分のAACフレームデータにおいて順番に並べられたDSEのうち、分割3D Audioメタデータが格納されている最後のDSEであるか否かを示すフラグ情報である。
 具体的には、フレーム内DSE分割終端フラグの値が「0」である場合、そのDSEは分割3D Audioメタデータが格納されている最後のDSEではないことを示している。
 これに対して、フレーム内DSE分割終端フラグの値が「1」である場合、そのDSEは分割3D Audioメタデータが格納されているAACフレームデータ内の最後のDSEであることを示している。
 符号化装置11は、各DSEに分割3D Audioメタデータとともにフレーム内DSE分割カウンタおよびフレーム内DSE分割終端フラグも格納する。
 すなわち、この例では1番目のDSE 1には1番目の分割3D Audioメタデータであることを示す、値が「0」であるフレーム内DSE分割カウンタと、最後のDSEではないことを示す、値が「0」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ(1)とが格納される。
 また、2番目のDSE 2には2番目の分割3D Audioメタデータであることを示す、値が「1」であるフレーム内DSE分割カウンタと、最後のDSEではないことを示す、値が「0」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ(2)が格納される。さらに、3番目のDSE 3には3番目の分割3D Audioメタデータであることを示す、値が「2」であるフレーム内DSE分割カウンタと、最後のDSEであることを示す、値が「1」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ(3)が格納される。
 このようにフレーム内DSE分割カウンタとフレーム内DSE分割終端フラグを格納することで、復号側では分割3D Audioメタデータを読み出して、それらの分割3D Audioメタデータを正しく結合し、もとの3D Audioメタデータを得ることができる。
 また、3D Audioメタデータが1フレーム分のAACフレームデータに格納しきれない場合、符号化装置11では例えば図13に示すように、3D Audioメタデータとしての代表値を複数フレーム分のAACフレームデータに分割して格納する。なお、ここでは、説明を簡単にするため1フレームにつき1つのDSEが設けられるものとする。
 図13において、矢印A51乃至矢印A55のそれぞれにより示される四角形がフレーム(N-1)乃至フレーム(N+3)のそれぞれのAACフレームデータを表している。また、ここでは、もともとのフレーム(i)(但し、N-1≦i≦N+3)の3D Audioメタデータを3D Audioメタデータ(i)とも記すこととする。
 この例では、もともとはフレーム(N-1)乃至フレーム(N+3)について、3D Audioメタデータ(N-1)乃至3D Audioメタデータ(N+3)が用意されていた。しかし、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+3)については、データ量が多いため、このままではそれらの3D Audioメタデータが、対応する1フレーム分のDSEに格納しきれない状態となっている。
 そこで、符号化装置11は、フレーム(N)乃至フレーム(N+3)についての3D Audioメタデータを得るための新たな1つの3D Audioメタデータを生成する。換言すれば、いくつかの3D Audioメタデータが間引かれて代表的な3D Audioメタデータが選択される。
 具体的には、例えば符号化装置11は、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)を代表する1つの3D Audioメタデータを代表値として定める。
 ここで、代表値は、例えば3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)のなかの何れか1つの3D Audioメタデータとされてもよいし、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)の平均値が代表値とされてもよい。
 この場合、例えば1つのオーディオオブジェクトに注目すると、3D Audioメタデータとしてのオーディオオブジェクトのフレーム(N)乃至フレーム(N+2)の位置情報の平均値等が、そのオーディオオブジェクトの3D Audioメタデータとしての代表値とされる。
 その他、例えば複数のオーディオオブジェクトがあり、それらの複数のオーディオオブジェクトのなかの1つの特定のオーディオオブジェクトが最も重要であり、その特定のオーディオオブジェクトのフレーム(N+1)における動きが最も重要であったとする。
 そのような場合、例えば特定のオーディオオブジェクトの3D Audioメタデータ(N+1)としての位置情報が、その特定のオーディオオブジェクトの代表値とされる。また、他の全てのオーディオオブジェクトについても、それらのオーディオオブジェクトの3D Audioメタデータ(N+1)としての位置情報のそれぞれが、それらのオーディオオブジェクトの代表値のそれぞれとされる。
 さらに、例えば複数のオーディオオブジェクトがあり、それらの複数のオーディオオブジェクトのなかの1つの特定のオーディオオブジェクトが最も重要であり、その特定のオーディオオブジェクトのフレーム(N+1)における動きが最も重要であったとする。そのような場合に、例えばその特定のオーディオオブジェクトの3D Audioメタデータ(N+1)としての位置情報が、全てのオーディオオブジェクトの代表値とされるようにしてもよい。
 さらに他の例として、複数のオーディオオブジェクトのそれぞれの最も動きが重要なフレームのそれぞれにおける位置情報の平均値が求められ、得られた平均値が全てのオーディオオブジェクトに共通の代表値とされるようにしてもよい。
 符号化装置11は、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)の代表値を定めると、分割して1つの3D Audioメタデータを送信する複数フレームからなる期間(以下、分割伝送期間とも称する)の終端のフレームの3D Audioメタデータを終端値として生成する。
 例えば、この例ではフレーム(N)からフレーム(N+3)までの期間が分割伝送期間となっているので、その分割伝送期間の終端のフレームはフレーム(N+3)となる。そこで、符号化装置11は、3D Audioメタデータ(N+3)をそのまま終端値とするなど、何らかの方法により終端値を定める。
 さらに、符号化装置11は、分割伝送期間内のフレームのうちの代表値を適用するフレームを代表値適用フレームとして、その代表値適用フレームを示す適用フレームインデックスを生成する。ここで、代表値適用フレームとは、復号側において代表値がそのまま3D Audioメタデータとして用いられるフレームである。
 例えば図13の例において、代表値適用フレームがフレーム(N+1)である場合、符号化装置11は、そのフレーム(N+1)を示す情報を適用フレームインデックスとして生成する。
 具体的には、例えば代表値適用フレームが分割伝送期間における先頭からi番目(1≦i)のフレームである場合、適用フレームインデックスの値は「i-1」とされる。したがって、図13に示す例では、分割伝送期間の先頭から2番目のフレーム(N+1)が代表値適用フレームであるので、適用フレームインデックスの値は「1」となる。
 以上のようにして分割伝送期間の代表値、終端値、および適用フレームインデックスが得られると、符号化装置11は、代表値と終端値を分割伝送期間の3D Audioメタデータとするとともに、その3D Audioメタデータを分割する。
 すなわち、符号化装置11は、分割伝送期間の3D Audioメタデータを、その分割伝送期間に含まれるフレームの数の分割3D Audioメタデータへと分割する。
 この例では、分割伝送期間を構成するフレーム数は4であるので、3D Audioメタデータは、文字「分割3D Audioメタデータ(1)」乃至「分割3D Audioメタデータ(4)」により示される4つの分割3D Audioメタデータへと分割される。
 なお、以下、文字「分割3D Audioメタデータ(1)」乃至「分割3D Audioメタデータ(4)」により示される分割3D Audioメタデータを、分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)とも称することとする。
 分割3D Audioメタデータが得られると、符号化装置11は、それらの分割3D Audioメタデータを各フレームのAACフレームデータのDSEに格納し、出力する。
 ここでは、矢印A61乃至矢印A65のそれぞれにより示される四角形は、実際に符号化装置11から出力されるフレーム(N-1)乃至フレーム(N+3)のそれぞれのAACフレームデータを表している。
 この例では、フレーム(N-1)のAACフレームデータには、分割されていない3D Audioメタデータ(N-1)がそのままDSEに格納されている。
 一方、フレーム(N)のAACフレームデータでは、分割3D Audioメタデータ(1)と適用フレームインデックスがDSEに格納され、フレーム(N+1)のAACフレームデータでは、分割3D Audioメタデータ(2)がDSEに格納される。また、フレーム(N+2)のAACフレームデータでは、分割3D Audioメタデータ(3)がDSEに格納され、フレーム(N+3)のAACフレームデータでは、分割3D Audioメタデータ(4)がDSEに格納される。
 なお、適用フレームインデックスは、分割伝送期間内のフレームのDSEであれば、どのフレームのDSEに格納されてもよい。
 さらに、このような3D AACビットストリームを受信した復号装置51では、例えば図14に示すように復号が行われる。なお、図14において図13における場合と対応する部分については、その説明は適宜省略する。
 図14に示す例では、復号装置51において矢印A71乃至矢印A75のそれぞれにより示されるAACフレームデータからなる3D AACビットストリームが受信される。
 ここで、矢印A71乃至矢印A75のそれぞれに示した各フレームのAACフレームデータは、図13の矢印A61乃至矢印A65のそれぞれに示した各フレームのAACフレームデータに対応する。
 復号装置51は、3D Audioメタデータの分割が行われていないフレーム(N-1)については、矢印A81に示すように、そのフレーム(N-1)のAACフレームデータから3D Audioメタデータ(N-1)を読み出す。そして、復号装置51は、読み出した3D Audioメタデータ(N-1)に基づいてレンダリングを行う。
 これに対して、3D Audioメタデータの分割が行われたフレーム(N)乃至フレーム(N+3)については、分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)に基づいて、それらのフレームの3D Audioメタデータが生成される。
 すなわち、復号装置51のAAC復号部61は、フレーム(N)乃至フレーム(N+3)のDSEのそれぞれから、それらのフレームに対する3D Audioメタデータを分割して得られた分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)のそれぞれを読み出す。そして、AAC復号部61は、読み出したそれらの分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)を結合し、1つの符号化3D Audioメタデータとする。
 そして、復号装置51は得られた符号化3D Audioメタデータを復号することで、代表値と終端値を得るとともに、DSEから適用フレームインデックスを読み出す。そして、復号装置51は得られた代表値、終端値、および適用フレームインデックスに基づいて補間処理を行うことで、分割伝送期間内のフレームの3D Audioメタデータを生成する。
 具体的には、復号装置51は矢印A83に示すように、代表値を、適用フレームインデックスにより示されるフレーム(N+1)の3D Audioメタデータとする。
 また、復号装置51は、矢印A82に示すようにフレーム(N-1)の3D Audioメタデータ(N-1)と、フレーム(N+1)の3D Audioメタデータである代表値とに基づいて、補間処理によりフレーム(N)の3D Audioメタデータ(N)を生成する。
 さらに復号装置51は、矢印A85に示すように終端値をそのままフレーム(N+3)の3D Audioメタデータとする。復号装置51は、矢印A84に示すようにフレーム(N+1)の3D Audioメタデータである代表値と、フレーム(N+3)の3D Audioメタデータである終端値とに基づいて、補間処理によりフレーム(N+2)の3D Audioメタデータ(N+2)を生成する。
 復号装置51はフレーム(N)乃至フレーム(N+3)では、このようにして得られた3D Audioメタデータ(N)乃至3D Audioメタデータ(N+3)を用いてレンダリングを行う。
 復号装置51では、以上のようにして複数フレームにまたがって分割して格納された分割3D Audioメタデータを読み出し、分割伝送期間の各フレームの3D Audioメタデータを得る。このようにすることで、効率的に3D Audioメタデータを伝送して利便性を向上させるとともに、臨場感のある3D Audio再生を実現することができる。
 なお、ここでは分割伝送期間の3D Audioメタデータに終端値が含まれる例について説明したが、終端値が含まれないようにしてもよい。そのような場合には、分割伝送期間の終端直後のフレームの3D Audioメタデータを終端値として用いるようにすればよい。
〈DSEシンタックス例〉
 以上のように、1フレーム分のAACフレームデータにおいて、3D Audioメタデータを複数の分割3D Audioメタデータに分割して複数のDSEに格納する場合、復号側においてそのことを認識することができるようにする必要がある。
 そのため、符号化側では、上述したフレーム内DSE分割カウンタやフレーム内DSE分割終端フラグを含む、フレーム内、つまりAACフレームデータ内での3D Audioメタデータの分割に関する情報であるフレーム内DSE分割情報がDSEに記述される。
 このようなフレーム内DSE分割情報のシンタックスは、例えば図15に示すようになる。図15に示す例では、文字「dse_div_info()」は、フレーム内DSE分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。ここでは、フレーム内DSE分割情報はDSEごとに存在する。
 また、フレーム内DSE分割情報には、文字「dse_div_cnt」により示されるフレーム内DSE分割カウンタ、および文字「dse_div_terminate」により示されるフレーム内DSE分割終端フラグが含まれている。
 上述したようにフレーム内DSE分割カウンタは、対応するDSEが同じフレームにおける分割3D Audioメタデータが格納されているDSEのうちの何番目のものであるかを示す、0から始まるカウンタ情報である。ここでは、フレーム内DSE分割カウンタは3ビットの情報であるので、1フレーム内では、3D Audioメタデータまたは分割3D Audioメタデータを、最大で8個の分割3D Audioメタデータに分割することが可能となっている。すなわち、最大で8個のDSEを設けることができる。
 また、フレーム内DSE分割終端フラグは、値が「0」とされているときには対応するDSEがフレーム内における、分割3D Audioメタデータが格納された最後のDSEではないことを示している。これに対して、フレーム内DSE分割終端フラグの値が「1」とされているときには、対応するDSEがフレーム内における、分割3D Audioメタデータが格納された最後のDSEであることを示している。
 さらに、1つの3D Audioメタデータを分割して得られた分割3D Audioメタデータを複数のフレームのDSEに格納する場合、復号側においてそのことを認識することができるようにする必要がある。
 そのため、符号化側では、フレーム内DSE分割情報における場合と同様に、フレーム間での3D Audioメタデータの分割、つまり複数フレームに対する3D Audioメタデータの分割に関する情報であるフレーム分割情報がDSEに記述される。
 このようなフレーム分割情報のシンタックスは、例えば図16に示すようになる。
 図16に示す例では、文字「frame_div_info()」は、フレーム分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。ここでは、フレーム分割情報は1フレームに対して1つ存在する。
 フレーム分割情報には、文字「frm_div_mode」により示されるフレーム分割モード情報が含まれている。
 このフレーム分割モード情報は、複数フレームにまたがって1つの3D Audioメタデータを伝送する、つまり複数フレームのDSEに1つの3D Audioメタデータを分割して格納するフレーム分割モードであるか否かを示す情報である。
 ここでは、フレーム分割モード情報の値が「0」である場合には、フレーム分割モードではない、つまり1フレーム分の3D Audioメタデータが1フレーム分のDSEに格納されることを示している。
 これに対して、フレーム分割モード情報の値が「1」である場合には、フレーム分割モードである、つまり複数フレームのDSEに1つの3D Audioメタデータが分割されて格納されることを示している。
 また、フレーム分割モード情報の値が「1」である場合には、フレーム分割情報には、さらに文字「frm_div_cnt」により示されるフレーム分割カウンタと、文字「frm_div_terminate」により示されるフレーム分割終端フラグが格納されている。
 フレーム分割カウンタは、対応するフレームが分割伝送期間を構成するフレームのうちの先頭から何番目のものであるかを示す、0から始まるカウンタ情報である。ここでは、フレーム分割カウンタは3ビットの情報であるので、分割伝送期間は最大で8フレームの期間とすることが可能となっている。すなわち、1つの3D Audioメタデータを8フレームにまたがって伝送することが可能となっている。
 また、フレーム分割終端フラグは、値が「0」とされているときには対応するフレームが分割伝送期間における最後のフレームではないことを示している。これに対して、フレーム分割終端フラグの値が「1」とされているときには、対応するフレームが分割伝送期間における最後(終端)のフレームであることを示している。
 さらに、フレーム分割カウンタの値が「0」である場合、フレーム分割情報には文字「apply_frm_Index」により示される適用フレームインデックスも格納されている。つまり、適用フレームインデックスは、分割伝送期間における最初(先頭)のフレームのDSEに格納される。
 この適用フレームインデックスは代表値適用フレームを示す情報であり、ここでは代表値適用フレームのフレーム分割カウンタの値が、適用フレームインデックスの値となっている。
 なお、分割フレーム数、つまり分割伝送期間を構成するフレーム数をFとしたときに、適用フレームインデックスの値がFよりも1だけ小さい(F-1)である場合には、3D Audioメタデータとして代表値または終端値のみが含まれている。
 換言すれば、適用フレームインデックスにより示されるフレームが分割伝送期間の終端のフレームである場合には、終端値が代表値となるので、代表値または終端値のみが3D Audioメタデータとして伝送されることになる。
 1フレーム分のAACフレームデータには、以上で説明したフレーム内DSE分割情報とフレーム分割情報が格納されることになる。以下では、フレーム内DSE分割情報やフレーム分割情報からなる情報を分割情報とも称することとする。但し、AACフレームデータの各DSEに分割情報が格納され、分割情報には、フレーム分割情報は必ずしも含まれていなくてもよいが、フレーム内DSE分割情報は必ず含まれているようにされる。
 そのような場合、AACフレームデータに格納される分割情報のシンタックスは、例えば図17に示すようになる。
 図17に示す例では、文字「div_info()」は分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。
 また、ここでは分割情報として、文字「dse_div_info()」により示されるフレーム内DSE分割情報が含まれている。また、そのフレーム内DSE分割情報に含まれているフレーム内DSE分割カウンタ(dse_div_cnt)の値が「0」である場合、分割情報として、さらに文字「frame_div_info()」により示されるフレーム分割情報が含まれている。
 すなわち、AACフレームデータにおける最初(先頭)のDSEには、分割情報としてフレーム内DSE分割情報とフレーム分割情報が含まれており、AACフレームデータにおける2番目以降のDSEには、分割情報としてフレーム内DSE分割情報のみが含まれている。
 図17に示すようにAACフレームデータに分割情報が格納される場合、1つの3D Audioメタデータが3つのフレームにまたがって伝送されるときには、例えば図18に示すようになる。
 図18に示す例では、矢印A101乃至矢印A103により示されるAACフレームデータであるAACフレームデータ(1)乃至AACフレームデータ(3)に1つの3D Audioメタデータが格納されている。
 すなわち、1つ目のAACフレームデータ(1)には、1番目のDSEであるDSE1と、2番目のDSEであるDSE2とが設けられている。
 このAACフレームデータ(1)のDSE1には、分割情報としてのフレーム内DSE分割情報(dse_div_info())およびフレーム分割情報(frame_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(1-1)とが格納されている。
 この場合、AACフレームデータ(1)のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「0」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「0」とされる。
 また、AACフレームデータ(1)のDSE1内のフレーム分割情報においては、フレーム分割モード情報(frm_div_mode)の値は「1」とされ、フレーム分割カウンタ(frm_div_cnt)の値は「0」とされ、フレーム分割終端フラグ(frm_div_terminate)の値は「0」とされ、適切な値の適用フレームインデックスが含まれている。
 さらに、AACフレームデータ(1)のDSE2には、分割情報としてのフレーム内DSE分割情報(dse_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(1-2)とが格納されている。
 この場合、AACフレームデータ(1)のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「1」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「1」とされる。
 同様に、2つ目のAACフレームデータ(2)には、1番目のDSE1と、2番目のDSE2とが設けられている。
 AACフレームデータ(2)のDSE1には、分割情報としてのフレーム内DSE分割情報(dse_div_info())およびフレーム分割情報(frame_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(2-1)とが格納されている。
 この場合、AACフレームデータ(2)のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「0」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「0」とされる。
 また、AACフレームデータ(2)のDSE1内のフレーム分割情報においては、フレーム分割モード情報(frm_div_mode)の値は「1」とされ、フレーム分割カウンタ(frm_div_cnt)の値は「1」とされ、フレーム分割終端フラグ(frm_div_terminate)の値は「0」とされる。なお、このフレーム分割情報には、適用フレームインデックスは含まれていない。
 さらに、AACフレームデータ(2)のDSE2には、分割情報としてのフレーム内DSE分割情報(dse_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(2-2)とが格納されている。
 この場合、AACフレームデータ(2)のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「1」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「1」とされる。
 さらに3つ目のAACフレームデータ(3)には、1番目のDSE1と、2番目のDSE2とが設けられている。
 AACフレームデータ(3)のDSE1には、分割情報としてのフレーム内DSE分割情報(dse_div_info())およびフレーム分割情報(frame_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(3-1)とが格納されている。
 この場合、AACフレームデータ(3)のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「0」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「0」とされる。
 また、AACフレームデータ(3)のDSE1内のフレーム分割情報においては、フレーム分割モード情報(frm_div_mode)の値は「1」とされ、フレーム分割カウンタ(frm_div_cnt)の値は「2」とされ、フレーム分割終端フラグ(frm_div_terminate)の値は「1」とされる。なお、このフレーム分割情報には、適用フレームインデックスは含まれていない。
 さらに、AACフレームデータ(3)のDSE2には、分割情報としてのフレーム内DSE分割情報(dse_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(3-2)とが格納されている。
 この場合、AACフレームデータ(3)のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「1」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「1」とされる。
 したがって、復号装置51では、AACフレームデータ(1)乃至AACフレームデータ(3)に含まれている分割3D Audioメタデータ(1-1)、分割3D Audioメタデータ(1-2)、分割3D Audioメタデータ(2-1)、分割3D Audioメタデータ(2-2)、分割3D Audioメタデータ(3-1)、および分割3D Audioメタデータ(3-2)が読み出されてそれらの分割3D Audioメタデータが結合され、1つの3D Audioメタデータとされる。そして、得られた1つの3D Audioメタデータを復号することで、上述した代表値と終端値が得られる。
〈符号化処理の説明〉
 次に、適宜、3D Audioメタデータが分割して格納される場合に行われる符号化処理と復号処理について説明する。まず、図19のフローチャートを参照して、符号化装置11による符号化処理について説明する。
 ステップS81において、3D Audioメタデータ符号化部21は、処理対象とする現フレームについて、フレーム分割モード情報(frm_div_mode)の値を「0」とする。
 そして、ステップS82において、3D Audioメタデータ符号化部21は、処理対象とする現フレームについて、伝送すべき3D Audioメタデータがあるか否かを判定する。ステップS82では、図10のステップS11における場合と同様の処理が行われる。
 ステップS82において、伝送すべき3D Audioメタデータがあると判定された場合、ステップS83において3D Audioメタデータ符号化部21は、3D Audioメタデータ符号化処理を行って、外部から供給された3D Audioメタデータを符号化する。ステップS83では、図10のステップS12と同様の処理が行われる。
 ステップS84において、3D Audioメタデータ符号化部21は、ステップS83の処理で得られた処理対象の現フレームの符号化3D Audioメタデータの符号量(データ量)が、予め定められた許容範囲内であるか否かを判定する。
 ここでは、符号化3D Audioメタデータのデータ量が許容範囲となる閾値よりも多く(大きく)、符号化3D Audioメタデータを現フレームのAACフレームデータのDSEに格納しきれない場合に、許容範囲内ではないと判定される。
 ステップS84において許容範囲内であると判定された場合、3D Audioメタデータ符号化部21は、ステップS83の処理で得られた符号化3D AudioメタデータをそのままAAC符号化部22に供給し、その後、処理はステップS90へと進む。
 より詳細には、このとき3D Audioメタデータ符号化部21は、符号化3D Audioメタデータが1つのDSEに格納しきれないときには、符号化3D Audioメタデータをいくつかの分割3D Audioメタデータに分割する。そして、3D Audioメタデータ符号化部21は、分割により得られた分割3D Audioメタデータのそれぞれが現フレームのAACフレームデータにおける複数のDSEのそれぞれに格納されるようにする。
 また、3D Audioメタデータ符号化部21は、適切なフレーム内DSE分割情報とフレーム分割情報も生成し、それらのフレーム内DSE分割情報とフレーム分割情報もAAC符号化部22に供給する。特に、ここでは現フレームの3D Audioメタデータが現フレームのAACフレームデータに格納されるので、フレーム分割モード情報(frm_div_mode)の値は「0」とされる。すなわち、ステップS81で設定されたフレーム分割モード情報がそのままAAC符号化部22へと供給される。
 なお、符号化3D Audioメタデータの分割や、フレーム内DSE分割情報とフレーム分割情報の生成は、3D Audioメタデータ符号化部21ではなくAAC符号化部22において行われるようにしてもよい。
 これに対して、ステップS84において許容範囲内ではないと判定された場合、その後、処理はステップS85へと進む。
 ステップS85において、3D Audioメタデータ符号化部21は、ステップS81で設定した現フレームのフレーム分割モード情報(frm_div_mode)の値を「1」に変更する。
 また、3D Audioメタデータ符号化部21は、これまで現フレームとしていたフレームを分割伝送期間の先頭フレームとする。
 3D Audioメタデータ符号化部21は、その先頭フレームの時間的に次のフレームを新たな処理対象のフレームとし、その新たな処理対象のフレームの3D Audioメタデータも取得する。さらに、3D Audioメタデータ符号化部21は、分割伝送期間のフレームの3D Audioメタデータについて、適宜、重要度の低いオーディオオブジェクトや動きのないオーディオオブジェクトの位置情報等を削除するなどして、3D Audioメタデータのデータ量の削減を行うようにしてもよい。
 ステップS86において、3D Audioメタデータ符号化部21は、分割伝送期間の先頭フレームから、現時点で処理対処とされているフレームまでの各フレームの3D Audioメタデータを対象として代表値と終端値を算出する。
 すなわち、3D Audioメタデータ符号化部21は、現時点で処理対処とされているフレームが分割伝送期間の終端のフレームであるものとする。
 そして、3D Audioメタデータ符号化部21は、分割伝送期間を構成する各フレームの3D Audioメタデータ、より詳細には終端のフレームを除く各フレームの3D Audioメタデータに基づいて、分割伝送期間についての3D Audioメタデータの代表値を決定する。例えば、3D Audioメタデータの代表値の決定時には、上述したように、平均値を求める演算等が必要に応じて行われ、代表値を適用する代表値適用フレームも3D Audioメタデータ符号化部21により決定される。
 また、3D Audioメタデータ符号化部21は、分割伝送期間の終端のフレームの3D Audioメタデータ等に基づいて、その終端のフレームの最終的な3D Audioメタデータである終端値を決定する。
 3D Audioメタデータ符号化部21は、このようにして決定された代表値と終端値を、分割伝送期間を構成する複数のフレームに対する3D Audioメタデータとする。この場合、3D Audioメタデータ符号化部21は、分割伝送期間の代表値と終端値を決定するメタデータ決定部として機能する。
 ステップS87において、3D Audioメタデータ符号化部21は、ステップS86で得られた代表値と終端値を3D Audioメタデータとして3D Audioメタデータ符号化処理を行い、3D Audioメタデータを符号化する。
 ステップS88において、3D Audioメタデータ符号化部21は、ステップS87の処理で得られた符号化3D Audioメタデータの符号量(データ量)が、分割伝送期間を構成するフレームの数により定まる許容範囲内であるか否かを判定する。
 ここでは、符号化3D Audioメタデータのデータ量が許容範囲となる閾値よりも多く(大きく)、符号化3D Audioメタデータが分割伝送期間を構成する全フレームのAACフレームデータのDSEに格納しきれない場合に、許容範囲内ではないと判定される。
 ステップS88において許容範囲内ではないと判定された場合、まだ分割伝送期間に対して3D Audioメタデータのデータ量が多すぎるので、処理はステップS86に戻り、上述した処理が繰り返し行われる。このとき、これまで分割伝送期間としてきた期間の終端のフレームの時間的に次のフレームが、新たな分割伝送期間の終端のフレームとされる。
 これに対して、ステップS88において許容範囲内であると判定された場合、ステップS89において3D Audioメタデータ符号化部21は、フレーム分割処理を行う。
 すなわち、3D Audioメタデータ符号化部21は、ステップS87の処理で得られた符号化3D Audioメタデータを、複数の分割3D Audioメタデータに分割する。例えば図18に示した例では、符号化3D Audioメタデータが分割3D Audioメタデータ(1-1)乃至分割3D Audioメタデータ(3-2)に分割される。
 また、3D Audioメタデータ符号化部21は、3D Audioメタデータの分割結果や分割伝送期間等に応じて、ステップS85で定めた値が「1」であるフレーム分割モード情報を含むフレーム分割情報や、フレーム内DSE分割情報も生成する。ここでは、フレーム分割情報は分割伝送期間のフレームごとに生成され、フレーム内DSE分割情報は分割伝送期間の各フレームのDSEごとに生成される。
 そして、3D Audioメタデータ符号化部21は、生成したフレーム内DSE分割情報およびフレーム分割情報と、分割3D AudioメタデータとをAAC符号化部22に供給し、その後、処理はステップS90へと進む。なお、ステップS89のフレーム分割処理は、AAC符号化部22により行われるようにしてもよい。
 ステップS84において許容範囲内であると判定されたか、またはステップS89の処理が行われると、その後、ステップS90の処理が行われる。
 ステップS90において、AAC符号化部22は3D Audioメタデータ符号化部21から供給された符号化3D Audioメタデータ、フレーム内DSE分割情報、およびフレーム分割情報と、外部から供給されたオーディオデータとをAAC符号化し、3D AACビットストリームを生成する。
 具体的には、AAC符号化部22は、フレーム内DSE分割情報およびフレーム分割情報を、図15乃至図17に示したシンタックスに従ってAACフレームデータのDSEに格納するとともに、適宜、分割された符号化3D AudioメタデータもDSEに格納する。
 例えば複数のフレームにまたがって3D Audioメタデータが伝送されるときには、AAC符号化部22は、分割伝送期間の複数のフレームのDSEのそれぞれに、それらの複数のフレームに対する3D Audioメタデータを分割して得られた分割3D Audioメタデータのそれぞれを格納する。その際、AAC符号化部22は、適切な値とされたフレーム分割モード情報や適用フレームインデックスなどを含むフレーム分割情報と、フレーム内DSE分割情報も適宜、DSEに格納する。
 また、AAC符号化部22は、外部から供給されたオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
 AAC符号化部22は、このようにして得られた1フレーム分または複数フレーム分のAACフレームデータからなる3D AACビットストリームを出力(送信)すると、その後、処理はステップS92へと進む。
 また、ステップS82において伝送すべき3D Audioメタデータがないと判定された場合、その後、処理はステップS91へと進む。
 ステップS91において、AAC符号化部22は、外部から供給されたオーディオデータをAAC符号化する。
 すなわち、AAC符号化部22は、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACフレームデータに格納する。また、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
 AAC符号化部22は、このようにして得られた1フレーム分のAACフレームデータからなる3D AACビットストリームを出力すると、その後、処理はステップS92へと進む。
 なお、ここでは前フレーム参照フラグは用いられない例について説明したが、前フレーム参照フラグも用いられるようにしても勿論よい。
 そのような場合、ステップS90ではDSEに前フレーム参照フラグが格納される。また、ステップS82において伝送すべき3D Audioメタデータがないと判定された場合には、その後、図10のステップS14乃至ステップS16と同様の処理が行われる。
 ステップS90の処理、またはステップS91の処理が行われると、その後、ステップS92の処理が行われる。
 ステップS92において、符号化装置11は、符号化すべきオーディオデータがあるか否かを判定する。
 ステップS92において、まだ符号化すべきオーディオデータがあると判定された場合、処理はステップS81に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS92において符号化すべきオーディオデータがない、すなわち伝送するコンテンツのオーディオデータが全て符号化されて出力されたと判定された場合、符号化処理は終了する。
 以上のようにして符号化装置11は、3D AudioメタデータをDSEに格納し、3D AACビットストリームを生成する。このようにすることで既存のAAC規格を拡張し、復号側において3D Audioメタデータを利用して3D Audio再生を行うことができるようになる。これにより、利便性を向上させることができる。特に3D Audioメタデータを1フレーム分のAACフレームデータに格納しきれないときには、代表値および終端値を3D Audioメタデータとし、複数フレームのAACフレームデータにまたがって格納することで、効率的に3D Audioメタデータを伝送することができる。
〈復号処理の説明〉
 次に、図20のフローチャートを参照して、復号装置51により行われる復号処理について説明する。
 ステップS131において、AAC復号部61は受信した3D AACビットストリームに対して、AAC符号化方式に対応する復号方式での復号処理であるAAC復号処理を行う。
 ステップS131では、図11のステップS41と同様の処理が行われて、復号により得られた3D Audio構成要素情報が上位の制御部に供給されたり、各オーディオオブジェクトの2次元平面上の位置情報が読み出されたり、復号により得られたオーディオデータが3D Audioレンダラ64に供給されたりする。
 ステップS132において、AAC復号部61は、3D AACビットストリームのAACフレームデータのDSEに3D Audioメタデータがあるか否かを判定する。
 ステップS132において3D Audioメタデータがあると判定された場合、その後、処理はステップS133へと進む。
 ステップS133において、AAC復号部61はAACフレームデータのDSEに格納されているフレーム分割モード情報(frm_div_mode)に基づいて、フレーム分割されているか否かを判定する。例えばフレーム分割モード情報の値が「1」である場合、フレーム分割されている、つまり1つの3D Audioメタデータが複数のフレームのAACフレームデータにまたがって記録されていると判定される。
 ステップS133においてフレーム分割されていないと判定された場合、つまりフレーム分割モード情報の値が「0」である場合、処理はステップS134へと進む。
 この場合、AAC復号部61は1フレーム分のAACフレームデータのDSEから符号化3D Audioメタデータを読み出して3D Audioメタデータ復号部62へと供給する。
 なお、このとき1フレーム分のAACフレームデータの複数のDSEに3D Audioメタデータが分割して格納されている場合には、AAC復号部61は各DSEのフレーム内DSE分割情報を参照してそれらのDSEから分割3D Audioメタデータを読み出す。すなわち、1フレーム分のAACフレームデータの複数のDSEのそれぞれから、1フレーム分の3D Audioメタデータを分割して得られた分割3D Audioメタデータのそれぞれが読み出される。
 そして、AAC復号部61は各DSEから読み出した分割3D Audioメタデータを結合して1つの符号化3D Audioメタデータとし、その符号化3D Audioメタデータを3D Audioメタデータ復号部62に供給する。
 ステップS134において、3D Audioメタデータ復号部62は、AAC復号部61から供給された符号化3D Audioメタデータを復号し、その結果得られた1フレーム分の3D Audioメタデータを3D Audioレンダラ64に供給する。
 このようにして3D Audioメタデータが得られると、その後、処理はステップS140へと進む。
 これに対して、ステップS133においてフレーム分割されていると判定された場合、ステップS135において、AAC復号部61は1フレーム分のAACフレームデータのDSEから分割3D Audioメタデータを取得する(読み出す)。
 この場合においても、1フレーム分のAACフレームデータにおいて分割3D Audioメタデータが複数のDSEに格納されている場合には、フレーム内DSE分割情報が参照されて、それらのDSEから分割された3D Audioメタデータが読み出される。
 ステップS136において、AAC復号部61は、分割伝送期間の先頭フレームからこれまでの処理により得られた、分割された3D Audioメタデータを結合する。分割された3D Audioメタデータを結合する結合処理にあたっては、AAC復号部61は、適宜、DSEから読み出されたフレーム分割情報を参照しながら結合を行う。
 ステップS137において、AAC復号部61は、直前のステップS135で処理したフレームが分割伝送期間の終端のフレームであるか否かを判定する。例えばAAC復号部61は、直前のステップS135で処理したフレームのフレーム分割終端フラグ(frm_div_terminate)の値が「1」である場合、終端のフレームであると判定する。
 ステップS137において、終端のフレームではないと判定された場合、まだ分割3D Audioメタデータを読み出していない分割伝送期間のフレームがあるので、処理はステップS135に戻り、上述した処理が繰り返し行われる。すなわち、次のフレームについて分割3D Audioメタデータが読み出される。
 これに対して、ステップS137において終端のフレームであると判定された場合、直前に行われたステップS136の処理により、分割伝送期間についての符号化3D Audioメタデータが得られたので、その後、処理はステップS138へと進む。
 このとき、AAC復号部61は、結合により得られた分割伝送期間についての符号化3D Audioメタデータと、その分割伝送期間についてDSEのフレーム内DSE分割情報やフレーム分割情報から読み出された適用フレームインデックス(apply_frm_Index)等の情報とを3D Audioメタデータ復号部62に供給する。これにより、3D Audioメタデータ復号部62は、分割伝送期間が何フレームから構成されているかや、代表値がどのフレームに適用されるかを特定することができる。
 ステップS138において、3D Audioメタデータ復号部62は、AAC復号部61から供給された分割伝送期間の符号化3D Audioメタデータを復号する。これにより、分割伝送期間についての代表値と終端値が得られることになる。
 ステップS139において、3D Audioメタデータ復号部62は、ステップS138の処理で得られた代表値および終端値と、既に得られている分割伝送期間の直前のフレームの3D Audioメタデータと、適用フレームインデックスとに基づいて補間処理を行う。
 例えば補間処理では、図14を参照して説明したように、分割伝送期間の直前のフレームの3D Audioメタデータと代表値とが用いられて、分割伝送期間の先頭のフレームから代表値が適用されるフレームの直前のフレームまでの間の各フレームの3D Audioメタデータが補間により算出される。
 同様に、代表値と終端値とが用いられて、代表値が適用されるフレームの直後のフレームから、分割伝送期間の終端のフレームの直前のフレームまでの間の各フレームの3D Audioメタデータが補間により算出される。
 この場合、3D Audioメタデータ復号部62は、補間処理を行って分割伝送期間のフレームの3D Audioメタデータを生成するメタデータ生成部として機能する。
 このような処理により、分割伝送期間の各フレームの3D Audioメタデータが得られたことになる。なお、補間処理時には、適宜、適用フレームインデックスなどのAAC復号部61から供給された情報が参照される。
 分割伝送期間の各フレームの3D Audioメタデータが得られると、3D Audioメタデータ復号部62は、それらの3D Audioメタデータを3D Audioレンダラ64に供給し、その後、処理はステップS140へと進む。
 ステップS134またはステップS139の処理が行われて1または複数のフレームの3D Audioメタデータが得られると、その後、ステップS140の処理が行われる。
 すなわち、ステップS140において、3D Audioレンダラ64は、3D Audioメタデータ復号部62から供給された3D Audioメタデータと、AAC復号部61から供給されたオーディオデータとに基づいてレンダリングを行う。なお、ステップS140では図11のステップS47における場合と同様の処理が行われる。
 レンダリングにより再生データが得られると、3D Audioレンダラ64は、得られた再生データを出力し、その後、処理はステップS142へと進む。
 一方、ステップS132において、3D Audioメタデータがないと判定された場合、その後、ステップS141の処理が行われる。
 すなわち、ステップS141において3D Audioレンダラ64は、AAC復号部61から供給されたオーディオデータに基づいて、通常のAAC規格により定められたレンダリングを行い、その結果得られた再生データを出力する。ステップS141では図11のステップS48における場合と同様の処理が行われる。
 このようにして再生データが出力されると、その後、処理はステップS142へと進む。
 なお、ここでは前フレーム参照フラグは用いられない例について説明したが、前フレーム参照フラグも用いられるようにしても勿論よい。
 そのような場合、ステップS132において、3D Audioメタデータがないと判定された場合には、その後、図11のステップS44乃至ステップS46、およびステップS48と同様の処理が行われる。
 ステップS140またはステップS141の処理が行われると、ステップS142においてAAC復号部61は、復号すべき3D AACビットストリームがあるか否かを判定する。
 ステップS142において復号すべき3D AACビットストリームがあると判定された場合、処理はステップS131に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS142において復号すべき3D AACビットストリームがないと判定された場合、復号処理は終了する。
 以上のようにして復号装置51は、DSEから3D Audioメタデータを読み出して、読み出した3D Audioメタデータを用いてレンダリングを行う。このようにすることで既存のAAC規格を拡張して3D Audio再生を行うことができ、利便性を向上させることができる。
 特に、分割伝送期間の3D Audioメタデータが複数フレームのAACフレームデータにまたがって格納されているときには、3D Audioメタデータとしての代表値および終端値に基づいて補間処理を行い、各フレームの3D Audioメタデータを得ることで、少ない符号量でも効率的に3D Audioの再生を行うことができる。
 以上のように、本技術によればオーディオコーデック(符号化方式)に依存することなく、アンシラリーデータ領域を持つ既存のオーディオコーデックの規格内で3D Audioデータの伝送を行うことができる。
 また、DSEなどのアンシラリーデータ領域の大きさに制限がある場合には、3D Audioメタデータを分割し、複数のアンシラリーデータ領域に分散して格納することで3D Audioメタデータを伝送することができる。
 さらに、PCE等にオーディオオブジェクトの2次元平面上の位置を示す位置情報、つまりチャンネルマッピングに関する情報(スピーカ配置情報)を格納して伝送することで、3D Audioに対応していない既存の復号装置においても可能な限りの位置情報を用いてオーディオ再生を行うことができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、
 前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部と
 を備える復号装置。
(2)
 前記復号部は、1フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて前記メタデータを得る
 (1)に記載の復号装置。
(3)
 前記復号部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る
 (1)に記載の復号装置。
(4)
 前記複数のフレームに対する前記メタデータは、前記複数のフレームからなる期間についての前記メタデータの代表値、および前記期間の終端フレームにおける前記メタデータである終端値である
 (3)に記載の復号装置。
(5)
 前記復号部は、前記領域から、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報をさらに読み出し、
 前記代表値、前記終端値、および前記適用フレーム情報に基づいて補間処理を行うことで、前記期間内のフレームの前記メタデータを生成するメタデータ生成部をさらに備える
 (4)に記載の復号装置。
(6)
 前記出力部は、所定フレームよりも前のフレームで前記領域から読み出された前記メタデータのうちの時間的に最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
 (1)乃至(5)の何れか一項に記載の復号装置。
(7)
 前記出力部は、前記最後に読み出された前記メタデータを用いるかの指示に応じて、前記最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
 (6)に記載の復号装置。
(8)
 前記出力部は、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
 (1)乃至(5)の何れか一項に記載の復号装置。
(9)
 前記符号化ビットストリームはAACビットストリームであり、
 前記復号部は、前記領域としてのDSEから前記メタデータを読み出す
 (1)乃至(8)の何れか一項に記載の復号装置。
(10)
 前記符号化ビットストリームはAACビットストリームであり、
 前記復号部は、前記AACビットストリームのPCEから、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を読み出す
 (1)乃至(9)の何れか一項に記載の復号装置。
(11)
 復号装置が、
 符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
 前記メタデータに基づいて、復号された前記オーディオデータを出力する
 ステップを含む復号方法。
(12)
 符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
 前記メタデータに基づいて、復号された前記オーディオデータを出力する
 ステップを含む処理をコンピュータに実行させるプログラム。
(13)
 オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える
 符号化装置。
(14)
 前記符号化部は、1フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれに、前記メタデータを分割して得られた複数のデータのそれぞれを格納する
 (13)に記載の符号化装置。
(15)
 前記符号化部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれに、前記複数のフレームに対する前記メタデータを分割して得られた複数のデータのそれぞれを格納する
 (13)に記載の符号化装置。
(16)
 前記複数のフレームからなる期間についての前記メタデータの代表値を決定し、前記代表値を前記複数のフレームに対する前記メタデータとするメタデータ決定部をさらに備える
 (15)に記載の符号化装置。
(17)
 前記メタデータ決定部は、前記期間の終端フレームにおける前記メタデータである終端値を決定し、前記代表値および前記終端値を前記複数のフレームに対する前記メタデータとする
 (16)に記載の符号化装置。
(18)
 前記符号化部は、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報を前記領域に格納する
 (16)または(17)に記載の符号化装置。
(19)
 前記符号化部は、所定フレームの前記メタデータとして、前記所定フレームよりも時間的に前のフレームの前記領域に格納された前記メタデータのうちの、最も前記所定フレームに近いフレームの前記メタデータを用いるかを指示する情報を前記領域に格納する
 (13)乃至(18)の何れか一項に記載の符号化装置。
(20)
 前記符号化ビットストリームはAACビットストリームであり、
 前記符号化部は、前記領域としてのDSEに前記メタデータを格納する
 (13)乃至(19)の何れか一項に記載の符号化装置。
(21)
 前記符号化ビットストリームはAACビットストリームであり、
 前記符号化部は、前記AACビットストリームのPCEに、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を格納する
 (13)乃至(20)の何れか一項に記載の符号化装置。
(22)
 符号化装置が、
 オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
 ステップを含む符号化方法。
(23)
 オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 符号化装置, 21 3D Audioメタデータ符号化部, 22 AAC符号化部, 51 復号装置, 61 AAC復号部, 62 3D Audioメタデータ復号部, 63 3D Audioメタデータ取得部, 64 3D Audioレンダラ

Claims (23)

  1.  符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、
     前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部と
     を備える復号装置。
  2.  前記復号部は、1フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて前記メタデータを得る
     請求項1に記載の復号装置。
  3.  前記復号部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る
     請求項1に記載の復号装置。
  4.  前記複数のフレームに対する前記メタデータは、前記複数のフレームからなる期間についての前記メタデータの代表値、および前記期間の終端フレームにおける前記メタデータである終端値である
     請求項3に記載の復号装置。
  5.  前記復号部は、前記領域から、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報をさらに読み出し、
     前記代表値、前記終端値、および前記適用フレーム情報に基づいて補間処理を行うことで、前記期間内のフレームの前記メタデータを生成するメタデータ生成部をさらに備える
     請求項4に記載の復号装置。
  6.  前記出力部は、所定フレームよりも前のフレームで前記領域から読み出された前記メタデータのうちの時間的に最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
     請求項1に記載の復号装置。
  7.  前記出力部は、前記最後に読み出された前記メタデータを用いるかの指示に応じて、前記最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
     請求項6に記載の復号装置。
  8.  前記出力部は、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
     請求項1に記載の復号装置。
  9.  前記符号化ビットストリームはAACビットストリームであり、
     前記復号部は、前記領域としてのDSEから前記メタデータを読み出す
     請求項1に記載の復号装置。
  10.  前記符号化ビットストリームはAACビットストリームであり、
     前記復号部は、前記AACビットストリームのPCEから、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を読み出す
     請求項1に記載の復号装置。
  11.  復号装置が、
     符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
     前記メタデータに基づいて、復号された前記オーディオデータを出力する
     ステップを含む復号方法。
  12.  符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
     前記メタデータに基づいて、復号された前記オーディオデータを出力する
     ステップを含む処理をコンピュータに実行させるプログラム。
  13.  オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える
     符号化装置。
  14.  前記符号化部は、1フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれに、前記メタデータを分割して得られた複数のデータのそれぞれを格納する
     請求項13に記載の符号化装置。
  15.  前記符号化部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれに、前記複数のフレームに対する前記メタデータを分割して得られた複数のデータのそれぞれを格納する
     請求項13に記載の符号化装置。
  16.  前記複数のフレームからなる期間についての前記メタデータの代表値を決定し、前記代表値を前記複数のフレームに対する前記メタデータとするメタデータ決定部をさらに備える
     請求項15に記載の符号化装置。
  17.  前記メタデータ決定部は、前記期間の終端フレームにおける前記メタデータである終端値を決定し、前記代表値および前記終端値を前記複数のフレームに対する前記メタデータとする
     請求項16に記載の符号化装置。
  18.  前記符号化部は、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報を前記領域に格納する
     請求項16に記載の符号化装置。
  19.  前記符号化部は、所定フレームの前記メタデータとして、前記所定フレームよりも時間的に前のフレームの前記領域に格納された前記メタデータのうちの、最も前記所定フレームに近いフレームの前記メタデータを用いるかを指示する情報を前記領域に格納する
     請求項13に記載の符号化装置。
  20.  前記符号化ビットストリームはAACビットストリームであり、
     前記符号化部は、前記領域としてのDSEに前記メタデータを格納する
     請求項13に記載の符号化装置。
  21.  前記符号化ビットストリームはAACビットストリームであり、
     前記符号化部は、前記AACビットストリームのPCEに、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を格納する
     請求項13に記載の符号化装置。
  22.  符号化装置が、
     オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
     ステップを含む符号化方法。
  23.  オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2018/034981 2017-10-05 2018-09-21 符号化装置および方法、復号装置および方法、並びにプログラム WO2019069710A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US16/651,532 US11595056B2 (en) 2017-10-05 2018-09-21 Encoding device and method, decoding device and method, and program
RU2020111480A RU2020111480A (ru) 2017-10-05 2018-09-21 Устройство и способ кодирования, устройство и способ декодирования и программа
CN201880063308.7A CN111164679B (zh) 2017-10-05 2018-09-21 编码装置和方法、解码装置和方法以及程序
EP18864075.9A EP3693961B1 (en) 2017-10-05 2018-09-21 Encoding device and method, decoding device and method, and program
KR1020207007879A KR102683551B1 (ko) 2017-10-05 2018-09-21 복호 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터 판독가능 기록매체
JP2019546624A JP7358986B2 (ja) 2017-10-05 2018-09-21 復号装置および方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-195064 2017-10-05
JP2017195064 2017-10-05

Publications (1)

Publication Number Publication Date
WO2019069710A1 true WO2019069710A1 (ja) 2019-04-11

Family

ID=65995091

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/034981 WO2019069710A1 (ja) 2017-10-05 2018-09-21 符号化装置および方法、復号装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US11595056B2 (ja)
EP (1) EP3693961B1 (ja)
JP (1) JP7358986B2 (ja)
KR (1) KR102683551B1 (ja)
CN (1) CN111164679B (ja)
RU (1) RU2020111480A (ja)
WO (1) WO2019069710A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022083443A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
JP2022083444A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015119477A (ja) * 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
WO2015182491A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
JP2016509249A (ja) * 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
WO2016060101A1 (ja) * 2014-10-16 2016-04-21 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2016522911A (ja) * 2013-05-24 2016-08-04 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2016203994A1 (ja) * 2015-06-19 2016-12-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012279357B2 (en) * 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
CN110085240B (zh) * 2013-05-24 2023-05-23 杜比国际公司 包括音频对象的音频场景的高效编码
US9495968B2 (en) 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509249A (ja) * 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
JP2016522911A (ja) * 2013-05-24 2016-08-04 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
JP2015119477A (ja) * 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
WO2015182491A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
WO2016060101A1 (ja) * 2014-10-16 2016-04-21 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2016203994A1 (ja) * 2015-06-19 2016-12-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISO/IEC 11172-3:1993 INFORMATION TECHNOLOGY -- CODING OF MOVING PICTURES AND ASSOCIATED AUDIO FOR DIGITAL STORAGE MEDIA AT UP TO ABOUT 1.5 MBIT/S
ISO/IEC 14496-3:2009 INFORMATION TECHNOLOGY -- CODING OF AUDIO-VISUAL OBJECTS

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022083443A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
JP2022083444A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof
US11942096B2 (en) 2020-11-24 2024-03-26 Naver Corporation Computer system for transmitting audio content to realize customized being-there and method thereof

Also Published As

Publication number Publication date
US11595056B2 (en) 2023-02-28
JP7358986B2 (ja) 2023-10-11
EP3693961A4 (en) 2020-11-11
KR20200054978A (ko) 2020-05-20
JPWO2019069710A1 (ja) 2020-11-05
RU2020111480A (ru) 2021-09-20
RU2020111480A3 (ja) 2021-12-08
EP3693961B1 (en) 2024-06-12
KR102683551B1 (ko) 2024-07-11
US20200265853A1 (en) 2020-08-20
CN111164679B (zh) 2024-04-09
EP3693961A1 (en) 2020-08-12
CN111164679A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN105981411B (zh) 用于高声道计数的多声道音频的基于多元组的矩阵混合
RU2661775C2 (ru) Передача сигнальной информации рендеринга аудио в битовом потоке
TWI595785B (zh) 用於螢幕相關音訊物件再對映之裝置及方法
ES2705100T3 (es) Método y aparato para analizar un flujo de bits de información lateral de una señal de audio multiobjeto
CN110085240B (zh) 包括音频对象的音频场景的高效编码
JP6565922B2 (ja) 符号化装置および方法、再生装置および方法、並びにプログラム
TWI607655B (zh) Coding apparatus and method, decoding apparatus and method, and program
US10075802B1 (en) Bitrate allocation for higher order ambisonic audio data
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
JP7358986B2 (ja) 復号装置および方法、並びにプログラム
JP6174326B2 (ja) 音響信号作成装置及び音響信号再生装置
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
US20230298600A1 (en) Audio encoding and decoding method and apparatus
US11942096B2 (en) Computer system for transmitting audio content to realize customized being-there and method thereof
KR20150028147A (ko) 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
US20210243485A1 (en) Receiving apparatus, transmission apparatus, receiving method, transmission method, and program
TW202002679A (zh) 使用不同呈現器呈現音訊資料的不同部分
CN106663435A (zh) 编码装置和方法、解码装置和方法、以及程序
WO2021124903A1 (ja) 信号処理装置および方法、並びにプログラム
KR101114431B1 (ko) 실시간 스트리밍을 위한 오디오 생성장치, 오디오 재생장치 및 그 방법
KR102421292B1 (ko) 오디오 객체 신호 재생 시스템 및 그 방법
CN115966216A (zh) 音频流处理方法及装置
KR20090066190A (ko) 대화형 오디오 송/수신 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18864075

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019546624

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018864075

Country of ref document: EP

Effective date: 20200506