WO2020004027A1 - 情報処理装置、情報処理システム、プログラム及び情報処理方法 - Google Patents

情報処理装置、情報処理システム、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2020004027A1
WO2020004027A1 PCT/JP2019/023220 JP2019023220W WO2020004027A1 WO 2020004027 A1 WO2020004027 A1 WO 2020004027A1 JP 2019023220 W JP2019023220 W JP 2019023220W WO 2020004027 A1 WO2020004027 A1 WO 2020004027A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
data
block
audio data
channel
Prior art date
Application number
PCT/JP2019/023220
Other languages
English (en)
French (fr)
Inventor
知伸 早川
孝章 石渡
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to US17/058,763 priority Critical patent/US20210210107A1/en
Priority to DE112019003220.8T priority patent/DE112019003220T5/de
Priority to CN201980040819.1A priority patent/CN112400280A/zh
Priority to JP2020527375A priority patent/JP7247184B2/ja
Priority to KR1020207035312A priority patent/KR20210021968A/ko
Publication of WO2020004027A1 publication Critical patent/WO2020004027A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3053Block-companding PCM systems
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6058Saving memory space in the encoder or decoder

Definitions

  • the present technology relates to an information processing apparatus, an information processing system, a program, and an information processing method for decoding compressed audio data.
  • Some audio compression codecs have a large frame length, such as FLAC (Free Lossless Audio Codec).
  • FLAC Free Lossless Audio Codec
  • When decoding data compressed by such a compression codec having a large frame length it is necessary to ensure a large memory size for storing compressed data (Elementary stream) and a large memory for storing PCM (pulse code modulation).
  • PCM pulse code modulation
  • an object of the present technology is to provide an information processing apparatus, an information processing system, a program, and an information processing method capable of executing decoding without requiring a large memory resource.
  • an information processing device includes a decoding unit.
  • the decoding unit obtains the start position of each of the data of the plurality of channels included in each frame of the compressed audio data, and decodes the data of the plurality of channels for each block of a predetermined size from the start position.
  • the decoding unit decodes the compressed audio data block by block, it is possible to suppress memory resources required for decoding.
  • a compression codec such as FLAC
  • the size of a frame is large, so that it is usually difficult to execute decoding in a device having a small memory resource.
  • decoding can be executed even in a device having a small memory resource.
  • Each frame of the compressed audio data includes data of the first channel and data of the second channel in order from the top of the frame
  • the decoding unit decodes a first block from a start position in the first channel, decodes a second block from a start position in the second channel, and decodes the first block in the first channel. May be decoded from the end position of the second block, and the fourth block may be decoded from the end position of the second block in the second channel.
  • the information processing apparatus may further include a parser unit that specifies the head position.
  • the parser unit may decode the compressed audio data and specify the head position.
  • Each frame of the compressed audio data includes data of the first channel and data of the second channel in order from the top of the frame
  • the parser unit may decode the data of the first channel, and specify an end position of the data of the first channel as a head position of the data of the second channel.
  • the parser unit may specify the head position from the meta information of the compressed audio data.
  • the parser unit specifies the head position, generates meta information of the compressed audio data including the head position,
  • the decoding unit may decode the data of the plurality of channels for each block of a predetermined size from the start position using the start position included in the meta information.
  • the parser unit may generate compressed audio data including the meta information.
  • the parser unit may generate a meta information file including the meta information.
  • Information processing device may generate a meta information file including the meta information.
  • the decoding unit may further include a rendering unit that renders audio data of the first block and the second block.
  • an information processing system includes a first information processing device and a second information processing device.
  • the first information processing apparatus obtains a start position of each of data of a plurality of channels included in each frame of compressed audio data, and decodes the data of the plurality of channels for each block of a predetermined size from the start position. And a decoding unit.
  • the second information processing device includes a parser unit that specifies the head position.
  • a program according to the present technology causes an information processing device to operate as a decoding unit.
  • the decoding unit obtains the start position of each of the data of the plurality of channels included in each frame of the compressed audio data, and decodes the data of the plurality of channels for each block of a predetermined size from the start position.
  • a decoding unit acquires a head position of each of data of a plurality of channels included in each frame of compressed audio data, and decodes the data of the plurality of channels. Decoding is performed for each block of a predetermined size from the head position.
  • FIG. 9 is a schematic diagram illustrating a usage mode of a memory resource in a general decoding process. It is a schematic diagram which shows the decoding method of the compressed audio
  • 1 is a block diagram illustrating a functional configuration of an information processing device according to a first embodiment of the present technology.
  • FIG. 3 is a schematic diagram showing a channel head position in compressed audio data. It is a schematic diagram which shows the aspect of the decoding (identification of the channel head position) by the parser part with which the said information processing apparatus is provided.
  • FIG. 3 is a schematic diagram illustrating a data structure of audio data generated by a decoding unit included in the information processing device. It is a schematic diagram which shows the order of the decoding by the decoding part with which the said information processing apparatus is equipped.
  • FIG. 3 is a schematic diagram illustrating a data structure of audio data generated by a decoding unit included in the information processing device.
  • FIG. 3 is a block diagram illustrating a hardware configuration of the information processing apparatus. It is a block diagram showing a functional configuration of an information processing device according to a second embodiment of the present technology. It is an example of a meta information file generated by a parser unit included in the information processing device. It is an example of a meta information embedding part of the compressed audio data with meta information generated by a parser unit included in the information processing apparatus.
  • FIG. 1 is a schematic diagram showing a mode of using memory resources in a general decoding process.
  • ES compressed audio data
  • FLAC Free Lossless Audio Codec
  • PCM pulse code modulation
  • the decoding unit 301 reads the ES from the storage 302 and stores it in the ES buffer 1. Further, the decoding unit 301 decodes the compressed audio data in the ES buffer 1 and stores the PCM generated by the decoding in the PCM buffer 1.
  • FIG. 2 is a schematic diagram showing the data structure of the ES data of the stereo sound.
  • the ES includes a stream header (Stream @ Header), a frame header (Frame @ Header), left channel data (Left @ Date), and right channel data (Right @ Date).
  • the ES is composed of a plurality of frames F, and each frame F includes a frame header, left channel data, and right channel data.
  • the decoding unit 301 stores the ES for one frame in the ES buffer 1 and performs decoding. Further, during decoding, it is necessary to read the ES of the next frame from the storage 302, and the read ES is stored in the ES buffer 2.
  • FIG. 3 is a schematic diagram showing the data structure of PCM. As shown in the figure, one frame F includes left channel data (Left @ Date) and right channel data (Right @ Date).
  • the rendering unit 303 renders the PCM to generate an audio signal and causes the speaker 304 to generate a sound.
  • the decoding unit 301 decodes the ES of the next frame into PCM and stores it in the PCM buffer 1.
  • At least four memory buffers of the ES buffer 1, the ES buffer 2, the PCM buffer 1, and the PCM buffer 2 are required at the same time.
  • the size of one frame is large and the required amount of memory buffer is also large. For example, when the size of one frame is about 500 KB, about 2 MB is required for four memory buffers. It is difficult to secure such a memory buffer in a device having limited memory resources such as IoT (Internet of Things) and M2M (Machine to Machine).
  • IoT Internet of Things
  • M2M Machine to Machine
  • sampling is performed at the sampling frequency of the frame time. After being converted into a set of frequency-domain features, the data is compressed based on a human auditory model algorithm or the like.
  • the audio compression format is usually premised on decoding in frame units. For this reason, even if an attempt is made to execute the divided decoding, the leading position of the right channel data (Right ⁇ Date in FIG. 2) ⁇ is not known, and the divided decoding cannot be executed. According to the present technology, as described below, the leading position of the right channel data is specified to enable the execution of the divided decoding.
  • FIG. 4 is a block diagram illustrating a functional configuration of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 includes a storage 101, a parser unit 102, a decoding unit 103, a rendering unit 104, and an output unit 105.
  • the storage 101 and the output unit 105 may be provided separately from the information processing apparatus 100 and connected to the information processing apparatus 100.
  • the storage 101 is a storage device such as an embedded Multi Media Card (eMMC) or an SD card, and stores compressed audio data D to be decoded by the information processing device 100.
  • the compressed audio data D is audio data compressed by a compression codec such as FLAC.
  • the codec that can be decoded by the technique of the present technology is not limited to FLAC, and is a compression codec that does not perform sampling at the sampling frequency or a compression codec that performs sampling at the sampling frequency, but the audio data unit to be sampled is smaller than the frame size. .
  • Vorbis can be decoded by the technique of the present technology.
  • the parser unit 102 acquires the compressed audio data D from the storage 101 and analyzes the syntax described in the stream header and the frame header.
  • the parser unit 102 supplies Syntax information, which is a result of the syntax analysis, to the decoding unit 103.
  • the parser unit 102 specifies a head position (hereinafter, a channel head position) of each channel included in each frame of the compressed audio data D.
  • FIG. 5 is a schematic diagram showing a channel head position in the compressed audio data D. Parser 102, as shown in the figure, the left channel data (Left a Date: hereinafter, D L) head position of S L and right channel data (Right a Date: hereinafter, D R) specifying the beginning position S R of the .
  • the parser 102 may be the end position of the frame header and the start position S L.
  • the start position S R because it is located behind the left channel data D L, it is impossible to identify the start position S R as it is.
  • parser 102 can identify the head position S R by the decode.
  • FIG. 6 is a schematic diagram illustrating a mode of decoding by the parser unit 102. As indicated by the white arrows in the drawing, the parser unit 102 performs decoding from the head of the left channel data D L.
  • parser unit 102 When parser unit 102 completes the decoding of the left channel data D L, since the head position S R of the right channel data D R is found, the parser 102 can identify the head position S R.
  • parser 102 may be decoded only the left-channel data D L. Note that the data generated by this decoding is not used and is therefore deleted. Therefore, no memory resources are required in this process.
  • the parser unit 102 supplies the channel head position to the decoding unit 103 together with the Syntax information.
  • the decoding unit 103 decodes the compressed audio data using the channel head position and the Syntax information.
  • FIG. 7 is a schematic diagram showing a mode of decoding by the decoding unit 103. As shown in the figure, the decoding unit 103, a block B L1 is a block from the head position S L of a predetermined size in the left-channel data D L read from the storage 101, decode.
  • the size of the block BL1 is not particularly limited, and is preferably a size that allows the information processing apparatus 100 to use the maximum available memory resources. Typically, the size of the block B L1 is about 3-10% of the size of the left channel data D L.
  • a block B R1 from the head position S R is a block of a predetermined size in the right-channel data D R read from the storage 101, decode.
  • the size of the block B R1 is the same level as the block B L1, may be about 3-10% of the size of the right channel data D R.
  • FIG. 8 is a schematic diagram illustrating a data structure of audio data (PCM) generated by the decoding unit 103.
  • the audio data P R1 is a result of decoding the audio data P L1
  • the block B R1 is a result of decoding the block B L1 is generated.
  • the rendering unit 104 renders interleaves the audio data P L1 and audio data P R1, and supplies the generated audio signal to the output unit 105.
  • the output unit 105 supplies an audio signal to an output device such as a speaker and causes the output device to generate a sound.
  • Audio data P L1 and the audio data P R1 is generated from the block B L1 and block B R1, small relative to one frame of speech data generated from the left channel data D L and right channel data D R Size (See FIGS. 3 and 8).
  • the decoding unit 103 decodes the left-channel data D L and right channel data D R for each block, the rendering unit 104 renders the generated voice data.
  • FIG. 9 is a schematic diagram showing the order of decoding by the decoding unit 103 of the decoding unit 103
  • FIG. 10 is a schematic diagram showing the data structure of audio data (PCM) generated by the decoding unit 103.
  • PCM audio data
  • the decoding section 103 decoded in block B R1, decodes from the end position of the block B L1 reads the block B L2 of a predetermined size, generates audio data P L2. Subsequently, a block BR2 of a predetermined size is read from the end position of the block BR1, and is decoded to generate audio data PR2 .
  • the rendering unit 104 When the audio data PL2 and the audio data PR2 are generated, the rendering unit 104 performs interleaving and rendering, and supplies the generated audio signal to the output unit 105.
  • the rendering unit 104 sequentially renders audio data.
  • the information processing apparatus 100 performs decoding by the same processing for the subsequent frames. That is, the parser 102 identifies the head position S L and the top position S R for each frame of compressed audio data D, the decoding unit 103 performs decoding for each block. The rendering unit 104 renders the audio data generated for each block to generate sound.
  • the decoding unit 103 can decode the compressed audio data D for each block. As a result, the rendering unit 104 has a small size. Audio data can be output.
  • the data size stored in each of the ES buffers 1 and 2 and the PCM buffers 1 and 2 is about two blocks (two left and right channels) and is decoded for each frame (FIG. 2). And FIG. 3). For this reason, it is possible to reduce the amount of memory resources required for decoding.
  • the parser unit is also used in normal decoding processing, the decoding processing according to the present technology can be realized without requiring a special processing engine.
  • the compressed audio data D is stored in the storage 101.
  • the compressed audio data D is stored on another information processing device or a network, and the parser unit 102 and the decoding unit 103 communicate with the compressed audio data D by communication. May be obtained.
  • the parser 102 can identify the head position S l of the left channel data D L by the decoding.
  • the compressed audio data is not limited to two channels on the left and right, but may be multi-channels such as 5.1 channels and eight channels. Even in this case, the parser unit 102 specifies a channel head position for each channel, so that the decoding unit 103 can execute decoding for each block.
  • the parser unit 102 specifies the channel head position by decoding, but if the compressed audio data D contains information indicating the channel head position in advance, decoding is not performed by using this information. It is also possible to specify the channel start position at the same time.
  • FIG. 11 is a schematic diagram illustrating a hardware configuration of the information processing apparatus 100.
  • the information processing apparatus 100 has a CPU 1001, a memory 1002, a storage 1003, and an input / output unit (I / O) 1004 as a hardware configuration. These are connected to each other by a bus 1005.
  • a CPU (Central Processing Unit) 1001 controls other components according to a program stored in the memory 1002, performs data processing according to the program, and stores a processing result in the memory 1002.
  • CPU 1001 can be a microprocessor.
  • the memory 1002 stores programs and data executed by the CPU 1001.
  • the memory 1002 can be a RAM (Random Access Memory).
  • the storage 1003 stores programs and data.
  • the storage 1003 may be a hard disk drive (HDD) or a solid state drive (SSD).
  • the input / output unit 1004 receives an input to the information processing device 100 and supplies an output of the information processing device 100 to the outside.
  • the input / output unit 1004 includes input devices such as a touch panel and a keyboard, output devices such as a display, and a connection interface such as a network.
  • the hardware configuration of the information processing apparatus 100 is not limited to the one shown here, and may be any as long as the functional configuration of the information processing apparatus 100 can be realized. Further, a part or all of the hardware configuration may exist on a network.
  • FIG. 12 is a block diagram showing a functional configuration of the information processing apparatus 200 according to the present embodiment.
  • the information processing device 200 includes a storage 201, a parser unit 202, a decoding unit 203, a rendering unit 204, and an output unit 205.
  • the storage 201 and the output unit 205 may be provided separately from the information processing device 200 and connected to the information processing device 200. Also, the parser unit 202 may be provided in an information processing device different from the information processing device 200 and connected to the storage 201.
  • the storage 201 is a storage device such as an eMMC or an SD card, and stores the compressed audio data D to be decoded by the information processing device 200.
  • the compressed audio data D is audio data compressed by a compression codec such as FLAC as described above.
  • the codec that can be decoded by the information processing apparatus 200 is not limited to FLAC, and is a compression codec that does not perform sampling at the sampling frequency or performs sampling at the sampling frequency. A smaller compression codec.
  • the storage 201 stores the compressed audio data E with meta information.
  • the compressed audio data E with meta information is the compressed audio data D to which meta information has been added, and will be described later in detail.
  • the parser unit 202 acquires the compressed audio data D from the storage 201, analyzes the syntax described in the stream header and the frame header, and generates Syntax information.
  • the parser unit 202 specifies the head position (channel head position) of each channel included in each frame of the compressed audio data D.
  • Channel head position include the start position of S L and the right-channel data D R of the left channel data D L S R (see FIG. 5).
  • the parser 202 may be the end position of the frame header and the start position S L. Further, parser 202, as in the first embodiment perform the decoding from the head of the left channel data D L (see FIG. 6) can acquire the start position S R.
  • the parser unit 202 generates the compressed audio data E with meta information by adding the meta information including the head position of the channel and the Syntax information to the compressed audio data D, and stores the compressed audio data E with meta information in the storage 201.
  • the meta information includes at least the head position of each channel for each frame.
  • the generation of the compressed audio data E with meta information by the parser unit 202 can be executed at an arbitrary timing before the decoding unit 203 executes the decoding.
  • the decoding unit 203 decodes the compressed audio data using the channel head position and the Syntax information.
  • the decoding unit 203 can read the compressed audio data E with meta information from the storage 201 and acquire the channel head position included in the compressed audio data E with meta information.
  • the decoding unit 203 decodes the compressed audio data D using the channel head position as in the first embodiment. That is, the decoding unit 203 reads out the block B L1 from the head position S L which is part of the left channel data D L decodes reads the block B R1 is part of the head position S R of the right channel data D R Decoding (see FIG. 7).
  • the audio data P R1 is a result of decoding the audio data P L1 and locking B R1 is a result of decoding the block B L1 is generated (see FIG. 8).
  • Rendering unit 204 renders interleaves the audio data P L1 and audio data P R1, and supplies the generated audio signal to the output unit 205.
  • the output unit 205 supplies a sound signal to an output device such as a speaker, and causes the output device to sound.
  • the decoding unit 203 the first embodiment as well as left-channel data D L and right channel data D R reads each block decoded, the rendering unit 204 renders the generated audio data (FIG. 9).
  • the information processing apparatus 200 performs decoding by the same processing for the subsequent frames. That is, the decoding unit 203 acquires the channel head position of each frame from the compressed audio data E with meta information, and decodes the compressed audio data D for each block. The rendering unit 204 renders the sound data generated for each block to generate sound.
  • the decoding unit 203 can decode the compressed audio data D for each block. As a result, the rendering unit 204 has a small size. Audio data can be output.
  • the data size stored in each of the ES buffers 1 and 2 and the PCM buffers 1 and 2 is approximately two blocks (two channels on the left and right), and is decoded for each frame (FIG. 2). And FIG. 3). For this reason, it is possible to reduce the amount of memory resources required for decoding.
  • decoding can be executed without the need for the synchronous operation of the parser unit 202 and the decoding unit 203. For this reason, it is possible to reduce the influence of the fluctuation of the processing amount between the parser unit 202 and the decoding unit 203.
  • parser unit 202 can perform parsing processing (syntax analysis and specification of a channel head position) in advance before receiving an actual decoding request, there is no need to perform parsing processing during actual decoding. It is also possible to reduce the processor power and the access load to the storage at the same time.
  • the parsing process can be performed by the edge terminal by creating the meta information not by the edge terminal such as a wearable terminal or an IoT device but by, for example, a PC, a server, and a cloud. Without performing the decoding, it is possible to realize the decoding according to the present embodiment.
  • the meta information in the compressed audio data it is possible to select the decoding by the method of the present embodiment and the normal decoding by the audio reproduction terminal, and the compressed audio data is independent of the reproduction environment. Data can be reproduced.
  • the parser unit 202 may generate a meta information file that does not include the compressed audio data, instead of generating the compressed audio data E with meta information.
  • FIG. 13 shows an example of a meta information file.
  • the meta information file can be a file storing stream information and size information for each channel data of each frame.
  • the decoding unit 203 can execute decoding for each block from the channel head position with reference to the meta information.
  • the parser unit 202 can also store meta information in a database (playlist data or the like) held by a music generator or the like.
  • the compressed audio data D and the compressed audio data E with meta information are stored in the storage 201.
  • these data are stored on another information processing device or a network, and the parser unit 202 and the The decoding unit 203 may acquire these data by communication.
  • the parser 202 may obtain the head position S L of the left-channel data D L by the decoding.
  • the compressed audio data is not limited to two channels on the left and right, but may be multi-channels such as 5.1 channels and eight channels. Even in this case, the parser unit 202 specifies the channel head position for each channel, so that the decoding unit 203 can execute decoding for each block.
  • FIG. 14 is an example of the syntax of the compressed audio data by FLAC.
  • a new META DATA BLOCK header type is provided in the META DATA BLOCK (for example, used as CHANNEL_SIZE in BLOCK TYPE 7), and by writing the data format of the channel information shown in FIG.
  • the compressed audio data E with information can be realized.
  • the above-described functional configuration of the information processing apparatus 200 can be realized by cooperation of hardware and a program.
  • the hardware configuration of the information processing device 200 can be the same as the hardware configuration according to the first embodiment (see FIG. 11).
  • the parser unit 202 may be realized by an information processing device different from the information processing device in which the decoding unit 203 and the rendering unit 204 are mounted, that is, configured by a plurality of information processing devices.
  • This embodiment may be implemented by an information processing system.
  • the present technology can have the following configurations.
  • An information processing apparatus comprising: a decoding unit that obtains a start position of each of data of a plurality of channels included in each frame of compressed audio data and decodes the data of the plurality of channels for each block of a predetermined size from the start position. .
  • Each frame of the compressed audio data includes data of the first channel and data of the second channel in order from the top of the frame
  • the decoding unit decodes a first block from a head position in the first channel, decodes a second block from a head position in the second channel, and decodes the first block in the first channel.
  • An information processing device that decodes a third block from the end position of the second block and decodes a fourth block from the end position of the second block in the second channel.
  • An information processing apparatus further comprising a parser unit for specifying the head position.
  • Each frame of the compressed audio data includes data of the first channel and data of the second channel in order from the top of the frame,
  • the information processing apparatus wherein the parser unit decodes the data of the first channel, and specifies an end position of the data of the first channel as a head position of the data of the second channel.
  • the parser unit specifies the head position, generates meta information of the compressed audio data including the head position, The information processing device, wherein the decoding unit decodes the data of the plurality of channels for each block of a predetermined size from the start position using the start position included in the meta information.
  • An information processing apparatus further comprising: a rendering unit that renders audio data of the first block and the second block when the first block and the second block are decoded by the decoding unit.
  • First information including a decoding unit that obtains a start position of each of a plurality of channels of data included in each frame of the compressed audio data and decodes the plurality of channels of data from the start position for each block of a predetermined size.
  • a second information processing apparatus including a parser unit for specifying the head position.
  • the information processing device operates as a decoding unit that obtains the start position of each of the data of the plurality of channels included in each frame of the compressed audio data and decodes the data of the plurality of channels for each block of a predetermined size from the start position. Program to let.
  • a decoding unit obtains respective head positions of data of a plurality of channels included in each frame of compressed audio data, and decodes the data of the plurality of channels for each block of a predetermined size from the head position.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】大きなメモリリソースを必要とせずにデコードを実行することが可能な情報処理装置、情報処理システム、プログラム及び情報処理方法を提供すること。 【解決手段】本技術に係る情報処理装置は、デコード部を具備する。上記デコード部は、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードする。

Description

情報処理装置、情報処理システム、プログラム及び情報処理方法
 本技術は、圧縮音声データのデコードに係る情報処理装置、情報処理システム、プログラム及び情報処理方法に関する。
 音声の圧縮コーデックには、FLAC(Free Lossless Audio Codec)のようにフレーム長の大きなものがある。このようなフレーム長の大きな圧縮コーデックにより圧縮されたデータをデコードする場合、圧縮データ(Elementary stream)を格納するメモリのサイズ及びPCM(pulse code modulation)を格納するメモリのサイズを共に大きく確保する必要がある(例えば特許文献1参照)。
特表2009-500681号公報
 しかしながら、フレーム長の大きな圧縮コーデックを利用する場合、デバイスに求められる電力、サイズ及びコストの観点から、大きなメモリリソースを確保することが困難な場合がある。
 特に、ウェアラブル端末やIoT(Internet of Things)、メッシュネットワークを介するM2M(Machine to Machine)等ではデバイスの条件が限定されるため、メモリリソースの確保が容易ではない。一方で、これらの用途でも、FLACのような高音質(ハイレゾリューション)かつロスレスな圧縮コーデックを利用したいという要求がある。
 以上のような事情に鑑み、本技術の目的は、大きなメモリリソースを必要とせずにデコードを実行することが可能な情報処理装置、情報処理システム、プログラム及び情報処理方法を提供することにある。
 上記目的を達成するため、本技術に係る情報処理装置は、デコード部を具備する。
 上記デコード部は、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードする。
 この構成によれば、デコード部は圧縮音声データをブロック毎にデコードするため、デコードに要するメモリリソースを抑制することが可能である。特にFLACのような圧縮コーデックではフレームのサイズが大きいため、通常はメモリリソースが小さいデバイスではデコードの実行が困難である。これに対し、デコードをブロック単位で実行することにより、メモリリソースが小さいデバイスでもデコードの実行が可能となる。
 上記圧縮音声データの各フレームには、フレーム先頭から順に第1のチャンネルのデータと第2のチャンネルのデータが含まれ、
 上記デコード部は、上記第1のチャンネルにおいて先頭位置から第1のブロックをデコードし、上記第2のチャンネルにおいて先頭位置から第2のブロックをデコードし、上記第1のチャンネルにおいて上記第1のブロックの終端位置から第3のブロックをデコードし、上記第2のチャンネルにおいて上記第2のブロックの終端位置から第4のブロックをデコードしてもよい。
 上記情報処理装置は、上記先頭位置を特定するパーサ部をさらに具備してもよい。
 上記パーサ部は、上記圧縮音声データをデコードし、上記先頭位置を特定してもよい。
 上記圧縮音声データの各フレームには、フレーム先頭から順に第1のチャンネルのデータと第2のチャンネルのデータが含まれ、
 上記パーサ部は、上記第1のチャンネルのデータをデコードし、上記第1のチャンネルのデータの終端位置を上記第2のチャンネルのデータの先頭位置として特定してもよい。
 上記パーサ部は、上記圧縮音声データのメタ情報から上記先頭位置を特定してもよい。
 上記パーサ部は、上記先頭位置を特定し、上記先頭位置を含む上記圧縮音声データのメタ情報を生成し、
 上記デコード部は、上記メタ情報に含まれる上記先頭位置を用いて上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードしてもよい。
 上記パーサ部は、上記メタ情報を含む圧縮音声データを生成してもよい。
 上記パーサ部は、上記メタ情報を含むメタ情報ファイルを生成してもよい。
 情報処理装置。
 上記情報処理装置は、
 上記デコード部によって上記第1のブロックと上記第2のブロックがデコードされると、上記第1のブロックと上記第2のブロックの音声データをレンダリングするレンダリング部をさらに具備してもよい。
 上記目的を達成するため、本技術に係る情報処理システムは、第1の情報処理装置と、第2の情報処理装置とを具備する。
 上記第1の情報処理装置は、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードするデコード部を備える。
 上記第2の情報処理装置は、上記先頭位置を特定するパーサ部を備える。
 上記目的を達成するため、本技術に係るプログラムは、デコード部として情報処理装置を動作させる。
 上記デコード部は、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードする。
 上記目的を達成するため、本技術に係る情報処理方法は、デコード部が、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードする。
 以上のように、本技術によれば、大きなメモリリソースを必要とせずにデコードを実行することが可能な情報処理装置、情報処理システム、プログラム及び情報処理方法を提供することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
一般的なデコード処理でのメモリリソースの使用態様を示す模式図である。 上記デコード処理での圧縮音声データのデコード手法を示す模式図である。 上記デコード処理によって生成される音声データのデータ構造を示す模式図である。 本技術の第1の実施形態に係る情報処理装置の機能的構成を示すブロック図である。 圧縮音声データにおけるチャンネル先頭位置を示す模式図である。 上記情報処理装置が備えるパーサ部によるデコード(チャンネル先頭位置の特定)の態様を示す模式図である。 上記情報処理装置が備えるデコード部によるデコードの態様を示す模式図である。 上記情報処理装置が備えるデコード部によって生成される音声データのデータ構造を示す模式図である。 上記情報処理装置が備えるデコード部によるデコードの順序を示す模式図である。 上記情報処理装置が備えるデコード部によって生成される音声データのデータ構造を示す模式図である。 上記情報処理装置のハードウェア構成を示すブロック図である。 本技術の第2の実施形態に係る情報処理装置の機能的構成を示すブロック図である。 上記情報処理装置が備えるパーサ部によって生成されるメタ情報ファイルの例である。 上記情報処理装置が備えるパーサ部によって生成されるメタ情報付き圧縮音声データのメタ情報埋め込み箇所の例である。
 (一般的なデコードにおけるメモリリソースについて)
 本技術の実施形態について説明する前に、圧縮音声データの一般的なデコード処理でのメモリリソースの使用態様について説明する。
 図1は、一般的なデコード処理でのメモリリソースの使用態様を示す模式図である。ここでは、FLAC(Free Lossless Audio Codec)によって圧縮された圧縮音声データ(ES:Elementary stream)をデコードし、PCM(pulse code modulation)を生成する処理について説明する。
 デコード部301は、ストレージ302からESを読み込み、ESバッファ1に格納する。さらに、デコード部301は、ESバッファ1の圧縮音声データをデコードし、デコードによって生成したPCMをPCMバッファ1に格納する。
 図2は、ステレオ音声のESデータのデータ構造を示す模式図である。同図に示すように、ESにはストリームヘッダ(Stream Header)、フレームヘッダ(Frame Header)、左チャンネルデータ(Left Date)、右チャンネルデータ(Right Date)が含まれている。ESは複数のフレームFによって構成され、各フレームFにはフレームヘッダ、左チャンネルデータ及び右チャンネルデータが含まれている。
 デコード部301は、1フレーム分のESをESバッファ1に格納し、デコードを行う。また、デコード中に次のフレームのESをストレージ302から読み込んでおく必要があり、読み込んだESをESバッファ2に格納する。
 図3は、PCMのデータ構造を示す模式図である。同図に示すように、一つのフレームFには左チャンネルデータ(Left Date)及び右チャンネルデータ(Right Date)が含まれている。レンダリング部303は、PCMをレンダリングして音声信号を生成し、スピーカ304から発音させる。
 レンダリング部303がPCMバッファ2のPCMをレンダリングしている間に、デコード部301は、次のフレームのESをPCMにデコードし、PCMバッファ1に格納しておく。
 このように、一般的なデコード処理では少なくともESバッファ1、ESバッファ2、PCMバッファ1及びPCMバッファ2の4つのメモリバッファを同時に必要とする。
 ここで、FLACのような一部の音声コーデックでは、1フレームのサイズが大きく、メモリバッファの必要量も大きくなる。例えば、1フレームのサイズが500KB程度である場合、4つのメモリバッファで2MB程度が必要となる。このようなメモリバッファは、IoT(Internet of Things)やM2M(Machine to Machine)等のメモリリソースが限られるデバイスでは確保が困難である。
 (分割デコードについて)
 上記のようにフレーム単位でデコードを実行する場合、大きなメモリリソースが必要となる。ここで、フレーム単位以下でのデコード(分割デコード)を実行することができれば、デコードに要するメモリリソースを抑制することが可能である。
 通常の音声圧縮では、フレーム時間の標本周波数にサンプリングがなされる。このように周波数ドメインの特徴量の集まりに変換したうえで、人間の聴覚モデルアルゴリズムなどに基づいてデータを圧縮する。
 このようなケースの場合、圧縮された音声を伸張する上でフレーム単位での処理を行う必要があり、フレーム単位でのメモリリソース確保が必須になる。しかしながら、FLACのような標本周波数にサンプリングを行わない音声圧縮の場合、フレーム単位での処理を行う必要がなく、本質的にはフレーム単位以下での分割デコードが可能である。
 また、標本周波数にサンプリングする音声圧縮であっても、サンプリングを行う音声データ単位がフレームサイズより小さい場合、フレーム単位以下(周波数変換単位)での分割デコートが可能である。
 しかしながら、音声圧縮フォーマットは通常、フレーム単位でのデコードが前提となっている。このため、分割デコードを実行しようとしても、右チャンネルデータ(図2中、Right Date) の先頭位置がわからず、分割デコードを実行することができない。本技術では、以下に示すように、右チャンネルデータの先頭位置を特定することにより、分割デコードの実行を可能とする。
 (第1の実施形態)
 本技術の第1の実施形態に係る情報処理装置について説明する。
 図4は、本実施形態に係る情報処理装置100の機能的構成を示すブロック図である。同図に示すように、情報処理装置100は、ストレージ101、パーサ部102、デコード部103、レンダリング部104及び出力部105を備える。
 なお、ストレージ101及び出力部105は情報処理装置100とは別に設けられ、情報処理装置100に接続されたものであってもよい。
 ストレージ101は、eMMC(embedded Multi Media Card)やSDカードのような記憶装置であり、情報処理装置100のデコード対象である圧縮音声データDを格納する。圧縮音声データDは、FLACのような圧縮コーデックにより圧縮された音声データである。
 なお、本技術の手法によってデコード可能なコーデックはFLACに限定されず、標本周波数にサンプリングを行わない圧縮コーデック又は標本周波数にサンプリング行うが、サンプリングを行う音声データ単位がフレームサイズより小さい圧縮コーデックである。具体的には、Vorbisは本技術の手法によってデコードが可能である。
 パーサ部102は、ストレージ101から圧縮音声データDを取得し、ストリームヘッダ及びフレームヘッダに記述されている構文を解析する。パーサ部102は、構文解析結果であるSyntax情報をデコード部103に供給する。
 さらに、パーサ部102は、圧縮音声データDの各フレームに含まれる各チャンネルの先頭位置(以下、チャンネル先頭位置)を特定する。図5は、圧縮音声データDにおけるチャンネル先頭位置を示す模式図である。パーサ部102は、同図に示すように、左チャンネルデータ(Left Date:以下、D)の先頭位置Sと右チャンネルデータ(Right Date:以下、D)の先頭位置Sを特定する。
 ここで、先頭位置Sはフレームヘッダの直後であるので、パーサ部102はフレームヘッダの終端位置を先頭位置Sとすることができる。一方、先頭位置Sは左チャンネルデータDの後ろに配置されているため、そのままでは先頭位置Sを特定することができない。
 ここでパーサ部102は、デコードによって先頭位置Sを特定することができる。図6は、パーサ部102によるデコードの態様を示す模式図である。同図に白矢印で示すように、パーサ部102は、左チャンネルデータDの先頭からデコードを実行する。
 パーサ部102が左チャンネルデータDのデコードを完了すると、右チャンネルデータDの先頭位置Sが判明するため、パーサ部102は先頭位置Sを特定することができる。
 このため、パーサ部102は、左チャンネルデータDのみをデコードすればよい。なお、このデコードによって生成されるデータは使用しないため、削除される。したがって、この処理ではメモリリソースは不要である。
 パーサ部102は、チャンネル先頭位置をSyntax情報と共にデコード部103に供給する。
 デコード部103は、チャンネル先頭位置及びSyntax情報を用いて圧縮音声データをデコードする。図7は、デコード部103によるデコードの態様を示す模式図である。同図に示すように、デコード部103は、左チャンネルデータDにおいて先頭位置Sから所定サイズのブロックであるブロックBL1をストレージ101から読み出し、デコードする。
 ブロックBL1のサイズは特に限定されず、情報処理装置100が利用可能なメモリリソースを最大限利用できるサイズが好適である。典型的には、ブロックBL1のサイズは左チャンネルデータDのサイズの3~10%程度である。
 続いて、デコード部103は、右チャンネルデータDにおいて先頭位置Sから所定サイズのブロックであるブロックBR1をストレージ101から読み出し、デコードする。ブロックBR1のサイズはブロックBL1と同程度であり、右チャンネルデータDのサイズの3~10%程度とすることができる。
 図8は、デコード部103によって生成される音声データ(PCM)のデータ構造を示す模式図である。同図に示すように、ブロックBL1のデコード結果である音声データPL1とブロックBR1のデコード結果である音声データPR1が生成される。
 レンダリング部104は、音声データPL1と音声データPR1をインターリーブしてレンダリングし、生成した音声信号を出力部105に供給する。出力部105は、スピーカ等の出力デバイスに音声信号を供給し、発音させる。
 音声データPL1及び音声データPR1は、ブロックBL1及びブロックBR1から生成されるため、左チャンネルデータD及び右チャンネルデータDから生成される1フレーム分の音声データに対して小さいサイズを有する(図3及び図8参照)。
 以降、デコード部103は、左チャンネルデータD及び右チャンネルデータDをブロック毎にデコードし、レンダリング部104は、生成された音声データをレンダリングする。
 図9は、デコード部103のデコード部103によるデコードの順序を示す模式図であり、図10はデコード部103によって生成される音声データ(PCM)のデータ構造を示す模式図である。
 図9に示すように、デコード部103は、ブロックBR1のデコード後、ブロックBL1の終端位置から所定サイズのブロックBL2を読み出してデコードし、音声データPL2を生成する。続いて、ブロックBR1の終端位置から所定サイズのブロックBR2を読み出してデコードし、音声データPR2を生成する。
 レンダリング部104は、音声データPL2及び音声データPR2が生成されると、インターリーブしてレンダリングし、生成した音声信号を出力部105に供給する。
 以下、同様にデコード部103は、ブロックBL3及びブロックBR3以降の左チャンネルデータD及び右チャンネルデータDをそれぞれの終端位置までブロック毎にデコードし、音声データを生成する。レンダリング部104は、音声データを順次レンダリングする。
 次のフレーム以降についても、情報処理装置100は同様の処理でデコードを実行する。即ち、パーサ部102は、圧縮音声データDの各フレームについて先頭位置S及び先頭位置Sを特定し、デコード部103は、ブロック毎にデコードを行う。レンダリング部104は、ブロック毎に生成された音声データをレンダリングして発音させる。
 上記のように、パーサ部102によってチャンネル先頭位置が特定されているため、デコード部103は、ブロック毎に圧縮音声データDをデコードすることが可能となり、その結果、レンダリング部104は、サイズが小さい音声データを出力することができる。
 このため、ESバッファ1及び2並びにPCMバッファ1及び2(図1参照)のそれぞれ格納されるデータサイズはブロック2つ分(左右2チャンネル分)程度となり、フレーム毎にデコードされる場合(図2及び図3参照)に比べて大幅に小さくなる。このため、デコードに必要なメモリリソースの量を低減させることが可能である。
 また、パーサ部は、通常のデコード処理においても用いられるため、本技術に係るデコード処理は特別な処理エンジンを必要とせずに実現可能である。
 [変形例]
 上記説明では、ストレージ101に圧縮音声データDが格納されているとしたが、圧縮音声データDは別の情報処理装置やネットワーク上に格納され、パーサ部102及びデコード部103は通信によって圧縮音声データを取得してもよい。
 また、上記説明では、フレームヘッダの次に左チャンネルデータDが配置され、その次に右チャンネルデータDが配置されるものとしたが、左チャンネルデータDと右チャンネルデータDの順序は逆でもよい。この場合、パーサ部102はデコードによって左チャンネルデータDの先頭位置Sを特定することができる。
 また、圧縮音声データは、左右2チャンネルに限られず、5.1チャンネルや8チャンネル等のより多チャンネルであってもよい。この場合であってもパーサ部102が各チャンネルについてチャンネル先頭位置を特定することで、デコード部103がブロック毎にデコードを実行することが可能である。
 さらに、パーサ部102は、デコードによってチャンネル先頭位置を特定するものとしたが、予め圧縮音声データDにチャンネル先頭位置を示す情報が含まれている場合、この情報を利用することでデコードをせずにチャンネル先頭位置を特定することも可能である。
 [ハードウェア構成について]
 上述した情報処理装置100の機能的構成は、ハードウェアとプログラムの協働によって実現することが可能である。
 図11は、情報処理装置100のハードウェア構成を示す模式図である。同図に示すように情報処理装置100はハードウェア構成として、CPU1001、メモリ1002、ストレージ1003及び入出力部(I/O)1004を有する。これらはバス1005によって互いに接続されている。
 CPU(Central Processing Unit)1001は、メモリ1002に格納されたプログラムに従って他の構成を制御すると共に、プログラムに従ってデータ処理を行い、処理結果をメモリ1002に格納する。CPU1001はマイクロプロセッサとすることができる。
 メモリ1002はCPU1001によって実行されるプログラム及びデータを格納する。メモリ1002はRAM(Random Access Memory)とすることができる。
 ストレージ1003は、プログラムやデータを格納する。ストレージ1003はHDD(hard disk drive)又はSSD(solid state drive)とすることができる。
 入出力部1004は情報処理装置100に対する入力を受け付け、また情報処理装置100の出力を外部に供給する。入出力部1004は、タッチパネルやキーボード等の入力機器やディスプレイ等の出力機器、ネットワーク等の接続インターフェースを含む。
 情報処理装置100のハードウェア構成はここに示すものに限られず、情報処理装置100の機能的構成を実現できるものであればよい。また、上記ハードウェア構成の一部又は全部はネットワーク上に存在していてもよい。
 (第2の実施形態)
 本技術の第2の実施形態に係る情報処理装置について説明する。
 図12は、本実施形態に係る情報処理装置200の機能的構成を示すブロック図である。同図に示すように、情報処理装置200は、ストレージ201、パーサ部202、デコード部203、レンダリング部204及び出力部205を備える。
 なお、ストレージ201及び出力部205は情報処理装置200とは別に設けられ、情報処理装置200に接続されたものであってもよい。また、パーサ部202も情報処理装置200とは異なる情報処理装置に設けられ、ストレージ201に接続されたものであってもよい。
 ストレージ201は、eMMCやSDカードのような記憶装置であり、情報処理装置200のデコード対象である圧縮音声データDを記憶する。圧縮音声データDは、上記のようにFLACのような圧縮コーデックにより圧縮された音声データである。
 第1の実施形態と同様に情報処理装置200がデコード可能なコーデックはFLACに限定されず、標本周波数にサンプリングを行わない圧縮コーデック又は標本周波数にサンプリング行うが、サンプリングを行う音声データ単位がフレームサイズより小さい圧縮コーデックである。
 さらに、ストレージ201は、メタ情報付き圧縮音声データEを記憶する。メタ情報付き圧縮音声データEは、メタ情報が付与された圧縮音声データDであり、詳細は後述する。
 パーサ部202は、ストレージ201から圧縮音声データDを取得し、ストリームヘッダ及びフレームヘッダに記述されている構文を解析してSyntax情報を生成する。
 さらに、パーサ部202は、圧縮音声データDの各フレームに含まれる各チャンネルの先頭位置(チャンネル先頭位置)を特定する。チャンネル先頭位置には、左チャンネルデータDの先頭位置Sと右チャンネルデータDの先頭位置S(図5参照)が含まれる。
 先頭位置Sはフレームヘッダの直後であるので、パーサ部202はフレームヘッダの終端位置を先頭位置Sとすることができる。また、パーサ部202は、第1の実施形態と同様に左チャンネルデータDの先頭からデコードを実行し(図6参照)、先頭位置Sを取得することができる。
 パーサ部202は、チャンネルの先頭位置とSyntax情報を含むメタ情報を圧縮音声データDに追加してメタ情報付き圧縮音声データEを生成し、メタ情報付き圧縮音声データEをストレージ201に格納する。メタ情報の具体例については後述するが、少なくともフレーム毎の各チャンネルの先頭位置を含むものであればよい。
 パーサ部202によるメタ情報付き圧縮音声データEの生成は、デコード部203がデコードを実行する前の任意のタイミングで実行することができる。
 デコード部203は、チャンネル先頭位置及びSyntax情報を用いて圧縮音声データをデコードする。デコード部203は、ストレージ201からメタ情報付き圧縮音声データEを読み出し、メタ情報付き圧縮音声データEに含まれるチャンネル先頭位置を取得することができる。
 デコード部203は、このチャンネル先頭位置を用いて第1の実施形態と同様に圧縮音声データDをデコードする。即ち、デコード部203は先頭位置Sから左チャンネルデータDの一部であるブロックBL1を読み出してデコードし、先頭位置Sから右チャンネルデータDの一部であるブロックBR1を読み出してデコードする(図7参照)。
 これにより、ブロックBL1のデコード結果である音声データPL1とロックBR1のデコード結果である音声データPR1が生成される(図8参照)。
 レンダリング部204は、音声データPL1と音声データPR1をインターリーブしてレンダリングし、生成した音声信号を出力部205に供給する。出力部205は、スピーカ等の出力デバイスに音声信号を供給し、発音させる。
 以降、デコード部203は、第1の実施形態と同様に左チャンネルデータD及び右チャンネルデータDをブロック毎に読み出してデコードし、レンダリング部204は、生成された音声データをレンダリングする(図9参照)。
 次のフレーム以降についても、情報処理装置200は同様の処理でデコードを実行する。即ち、デコード部203は、メタ情報付き圧縮音声データEから、各フレームのチャンネル先頭位置を取得し、圧縮音声データDをブロック毎にデコードする。レンダリング部204は、ブロック毎に生成された音声データをレンダリングして発音させる。
 上記のように、パーサ部202によってチャンネル先頭位置が特定されているため、デコード部203は、ブロック毎に圧縮音声データDをデコードすることが可能となり、その結果、レンダリング部204は、サイズが小さい音声データを出力することができる。
 このため、ESバッファ1及び2並びにPCMバッファ1及び2(図1参照)のそれぞれ格納されるデータサイズはブロック2つ分(左右2チャンネル分)程度となり、フレーム毎にデコードされる場合(図2及び図3参照)に比べて大幅に小さくなる。このため、デコードに必要なメモリリソースの量を低減させることが可能である。
 また、本実施形態では、メタ情報付き圧縮音声データEを用いることで、パーサ部202とデコード部203の同期動作を要さずにデコードが実行できる。このため、パーサ部202とデコード部203の間での処理量の揺らぎ等の影響を受けにくくすることが可能である。
 また、実際のデコード要求を受ける前に事前にパーサ部202がパース処理(構文解析及びチャンネル先頭位置の特定)を行うことができるため、実際のデコード時にはパース処理を行う必要がなく、音声再生処理でのプロセッサパワーやストレージへのアクセス負荷を低減することも可能である。
 また、メタ情報を所定のフォーマットで定義しておくことで、ウェアラブル端末やIoTデバイスのようなエッジ端末ではなく、例えばPC、サーバ及びクラウド等で作成しておくことにより、エッジ端末でパース処理を行わずに、本実施形態に係るデコードを実現することが可能である。
 さらに、メタ情報を圧縮音声データ内に保持しておくことで、本実施形態の手法でのデコードと、通常のデコードを音声再生端末で選択することが可能であり、再生環境によらない圧縮音声データの再生が可能となる。
 [変形例]
 パーサ部202は、パース処理を実行した際、メタ情報付き圧縮音声データEを生成する代わりに、圧縮音声データを含まないメタ情報ファイルを生成してもよい。
 図13は、メタ情報ファイルの例である。同図に示すようにメタ情報ファイルは、ストリーム情報と各フレームのチャンネルデータ毎のサイズ情報を格納したファイルとすることができる。デコード部203は、このメタ情報を参照し、チャンネル先頭位置からブロック毎にデコードを実行することが可能である。
 また、パーサ部202は、メタ情報を音楽生成機等が保持するデータベース(プレイリストデータ等)に格納することも可能である。
 なお、上記説明では、ストレージ201に圧縮音声データD及びメタ情報付き圧縮音声データEが格納されているとしたが、これらのデータは別の情報処理装置やネットワーク上に格納され、パーサ部202及びデコード部203は通信によってこれらのデータを取得してもよい。
 また、上記説明では、フレームヘッダの次に左チャンネルデータDが配置され、その次に右チャンネルデータDが配置されるものとしたが、左チャンネルデータDと右チャンネルデータDの順序は逆でもよい。この場合、パーサ部202は、デコードによって左チャンネルデータDの先頭位置Sを取得することができる。
 さらに、圧縮音声データは、左右2チャンネルに限られず、5.1チャンネルや8チャンネル等のより多チャンネルであってもよい。この場合であってもパーサ部202が各チャンネルについてチャンネル先頭位置を特定することで、デコード部203がブロック毎にデコードを実行することが可能である。
 [FLACでのメタ情報埋め込み例について]
 図14は、FLACによる圧縮音声データのSyntaxの例である。同図に示すようMETA  DATA BLOCK内にMETA DATA BLOCKヘッダのタイプを新設し(例えばBLOCK TYPE7でCHANNEL_SIZEとして使用等)、このMETA DATA BLOCKの実態に図13示すチャンネル情報のデータフォーマットを書き込むことでメタ情報付き圧縮音声データEを実現することができる。
 [ハードウェア構成について]
 上述した情報処理装置200の機能的構成は、ハードウェアとプログラムの協働によって実現することが可能である。情報処理装置200のハードウェア構成は、第1の実施形態に係るハードウェア構成(図11参照)と同様とすることができる。
 また、上述のようにパーサ部202は、デコード部203及びレンダリング部204が搭載された情報処理装置とは別の情報処理装置によって実現されていてもよく、即ち複数の情報処理装置によって構成される情報処理システムによって本実施形態が実施されてもよい。
 なお、本技術は以下のような構成もとることができる。
 (1)
 圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードするデコード部
 を具備する情報処理装置。
 (2)
 上記(1)に記載の情報処理装置であって、
 上記圧縮音声データの各フレームには、フレーム先頭から順に第1のチャンネルのデータと第2のチャンネルのデータが含まれ、
 上記デコード部は、上記第1のチャンネルにおいて先頭位置から第1のブロックをデコードし、上記第2のチャンネルにおいて先頭位置から第2のブロックをデコードし、上記第1のチャンネルにおいて上記第1のブロックの終端位置から第3のブロックをデコードし、上記第2のチャンネルにおいて上記第2のブロックの終端位置から第4のブロックをデコードする
 情報処理装置。
 (3)
 上記(1)又は(2)に記載の情報処理装置であって、
 上記先頭位置を特定するパーサ部
 をさらに具備する情報処理装置。
 (4)
 上記(3)に記載の情報処理装置であって、
 上記パーサ部は、上記圧縮音声データをデコードし、上記先頭位置を特定する
 情報処理装置。
 (5)
 上記(4)に記載の情報処理装置であって、
 上記圧縮音声データの各フレームには、フレーム先頭から順に第1のチャンネルのデータと第2のチャンネルのデータが含まれ、
 上記パーサ部は、上記第1のチャンネルのデータをデコードし、上記第1のチャンネルのデータの終端位置を上記第2のチャンネルのデータの先頭位置として特定する
 情報処理装置。
 (6)
 上記(3)に記載の情報処理装置であって、
 上記パーサ部は、上記圧縮音声データのメタ情報から上記先頭位置を特定する
 情報処理装置。
 (7)
 上記(4)又は(5)に記載の情報処理装置であって、
 上記パーサ部は、上記先頭位置を特定し、上記先頭位置を含む上記圧縮音声データのメタ情報を生成し、
 上記デコード部は、上記メタ情報に含まれる上記先頭位置を用いて上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードする
 情報処理装置。
 (8)
 上記(7)に記載の情報処理装置であって、
 上記パーサ部は、上記メタ情報を含む圧縮音声データを生成する
 情報処理装置。
 (9)
 上記(7)に記載の情報処理装置であって、
 上記パーサ部は、上記メタ情報を含むメタ情報ファイルを生成する
 情報処理装置。
 (10)
 上記(2)から(9)のうちいずれか一つに記載の情報処理装置であって、
 上記デコード部によって上記第1のブロックと上記第2のブロックがデコードされると、上記第1のブロックと上記第2のブロックの音声データをレンダリングするレンダリング部
 をさらに具備する情報処理装置
 (11)
 圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードするデコード部を備える第1の情報処理装置と、
 上記先頭位置を特定するパーサ部を備える第2の情報処理装置と
 を具備する情報処理システム。
 (12)
 圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードするデコード部
 として情報処理装置を動作させるプログラム。
 (13)
 デコード部が、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、上記複数のチャンネルのデータを上記先頭位置から所定サイズのブロック毎にデコードする
 情報処理方法。
 100…情報処理装置
 101…ストレージ
 102…パーサ部
 103…デコード部
 104…レンダリング部
 105…出力部
 200…情報処理装置
 201…ストレージ
 202…パーサ部
 203…デコード部
 204…レンダリング部
 205…出力部

Claims (13)

  1.  圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、前記複数のチャンネルのデータを前記先頭位置から所定サイズのブロック毎にデコードするデコード部
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記圧縮音声データの各フレームには、フレーム先頭から順に第1のチャンネルのデータと第2のチャンネルのデータが含まれ、
     前記デコード部は、前記第1のチャンネルにおいて先頭位置から第1のブロックをデコードし、前記第2のチャンネルにおいて先頭位置から第2のブロックをデコードし、前記第1のチャンネルにおいて前記第1のブロックの終端位置から第3のブロックをデコードし、前記第2のチャンネルにおいて前記第2のブロックの終端位置から第4のブロックをデコードする
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記先頭位置を特定するパーサ部
     をさらに具備する情報処理装置。
  4.  請求項3に記載の情報処理装置であって、
     前記パーサ部は、前記圧縮音声データをデコードし、前記先頭位置を特定する
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記圧縮音声データの各フレームには、フレーム先頭から順に第1のチャンネルのデータと第2のチャンネルのデータが含まれ、
     前記パーサ部は、前記第1のチャンネルのデータをデコードし、前記第1のチャンネルのデータの終端位置を前記第2のチャンネルのデータの先頭位置として特定する
     情報処理装置。
  6.  請求項3に記載の情報処理装置であって、
     前記パーサ部は、前記圧縮音声データのメタ情報から前記先頭位置を特定する
     情報処理装置。
  7.  請求項4に記載の情報処理装置であって、
     前記パーサ部は、前記先頭位置を特定し、前記先頭位置を含む前記圧縮音声データのメタ情報を生成し、
     前記デコード部は、前記メタ情報に含まれる前記先頭位置を用いて前記複数のチャンネルのデータを前記先頭位置から所定サイズのブロック毎にデコードする
     情報処理装置。
  8.  請求項7に記載の情報処理装置であって、
     前記パーサ部は、前記メタ情報を含む圧縮音声データを生成する
     情報処理装置。
  9.  請求項7に記載の情報処理装置であって、
     前記パーサ部は、前記メタ情報を含むメタ情報ファイルを生成する
     情報処理装置。
  10.  請求項2に記載の情報処理装置であって、
     前記デコード部によって前記第1のブロックと前記第2のブロックがデコードされると、前記第1のブロックと前記第2のブロックの音声データをレンダリングするレンダリング部
     をさらに具備する情報処理装置
  11.  圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、前記複数のチャンネルのデータを前記先頭位置から所定サイズのブロック毎にデコードするデコード部を備える第1の情報処理装置と、
     前記先頭位置を特定するパーサ部を備える第2の情報処理装置と
     を具備する情報処理システム。
  12.  圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、前記複数のチャンネルのデータを前記先頭位置から所定サイズのブロック毎にデコードするデコード部
     として情報処理装置を動作させるプログラム。
  13.  デコード部が、圧縮音声データの各フレームに含まれる複数のチャンネルのデータのそれぞれの先頭位置を取得し、前記複数のチャンネルのデータを前記先頭位置から所定サイズのブロック毎にデコードする
     情報処理方法。
PCT/JP2019/023220 2018-06-25 2019-06-12 情報処理装置、情報処理システム、プログラム及び情報処理方法 WO2020004027A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/058,763 US20210210107A1 (en) 2018-06-25 2019-06-12 Information processing apparatus, information processing system, program, and information processing method
DE112019003220.8T DE112019003220T5 (de) 2018-06-25 2019-06-12 Informationsverarbeitungsvorrichtung, Informationsverarbeitungssystem, Programm und Informationsverarbeitungsverfahren
CN201980040819.1A CN112400280A (zh) 2018-06-25 2019-06-12 信息处理装置、信息处理***、程序和信息处理方法
JP2020527375A JP7247184B2 (ja) 2018-06-25 2019-06-12 情報処理装置、情報処理システム、プログラム及び情報処理方法
KR1020207035312A KR20210021968A (ko) 2018-06-25 2019-06-12 정보 처리 장치, 정보 처리 시스템, 프로그램 및 정보 처리 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018119738 2018-06-25
JP2018-119738 2018-06-25

Publications (1)

Publication Number Publication Date
WO2020004027A1 true WO2020004027A1 (ja) 2020-01-02

Family

ID=68984834

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023220 WO2020004027A1 (ja) 2018-06-25 2019-06-12 情報処理装置、情報処理システム、プログラム及び情報処理方法

Country Status (6)

Country Link
US (1) US20210210107A1 (ja)
JP (1) JP7247184B2 (ja)
KR (1) KR20210021968A (ja)
CN (1) CN112400280A (ja)
DE (1) DE112019003220T5 (ja)
WO (1) WO2020004027A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009500681A (ja) * 2005-07-11 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号のエンコーディング及びデコーディング装置及び方法
JP2009134115A (ja) * 2007-11-30 2009-06-18 Oki Semiconductor Co Ltd デコーダ

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108584A (en) * 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE50101087D1 (de) * 2000-04-14 2004-01-15 Siemens Ag Verfahren zum kanaldecodieren eines datenstroms mit nutzdaten und redundanzdaten, vorrichtung zum kanaldecodieren, computerlesbares speichermedium und computerprogramm-element
US8145974B2 (en) * 2008-02-02 2012-03-27 Broadcom Corporation Virtual limited buffer modification for rate matching
US9998890B2 (en) * 2010-07-29 2018-06-12 Paul Marko Method and apparatus for content navigation in digital broadcast radio
CN105376613B (zh) * 2015-12-10 2019-05-10 华为技术有限公司 一种快速频道切换方法、服务器及iptv***
JP7209456B2 (ja) * 2016-08-08 2023-01-20 ソニーグループ株式会社 基地局装置、端末装置、通信方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009500681A (ja) * 2005-07-11 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号のエンコーディング及びデコーディング装置及び方法
JP2009134115A (ja) * 2007-11-30 2009-06-18 Oki Semiconductor Co Ltd デコーダ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHU, F. ET AL.: "Design and research on free lossless audio decoding systems under the embedded development platform of ARM9", 2009 SECOND INTERNATIONAL SYMPOSIUM ON INFORMATION SCIENCE AND ENGINEERING, 26 December 2009 (2009-12-26), pages 223 - 226, XP031657463, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5447174> *

Also Published As

Publication number Publication date
DE112019003220T5 (de) 2021-04-08
JP7247184B2 (ja) 2023-03-28
JPWO2020004027A1 (ja) 2021-08-05
KR20210021968A (ko) 2021-03-02
CN112400280A (zh) 2021-02-23
US20210210107A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
WO2020155964A1 (zh) 音视频的切换方法、装置、计算机设备及可读存储介质
WO2017129130A1 (zh) 一种音频处理的方法、服务器、用户设备及***
JP2009506378A (ja) オーディオ信号デコーディング方法及びその装置
US20200020342A1 (en) Error concealment for audio data using reference pools
CN112562638A (zh) 语音预览的方法、装置及电子设备
US10027994B2 (en) Interactive audio metadata handling
CN110838298A (zh) 多声道音频数据的处理方法、装置、设备和存储介质
US9864536B2 (en) System and method for conserving power consumption in a memory system
WO2020004027A1 (ja) 情報処理装置、情報処理システム、プログラム及び情報処理方法
CN110022510B (zh) 一种声音振动文件的生成方法、解析方法以及相关装置
EP2981081B1 (en) Methods and devices for coding and decoding depth information, and video processing and playing device
CN113744744B (zh) 一种音频编码方法、装置、电子设备及存储介质
JP2008503766A5 (ja)
CN103702172A (zh) 对音视频进行杜比转码的方法和***
KR20100029010A (ko) 멀티미디어 데이터를 처리하기 위한 다중 프로세서 시스템들 및 그것의 방법들
CN113542764A (zh) 视频快速启播方法、装置、电子设备及计算机可读介质
US10354695B2 (en) Data recording control device and data recording control method
CN111126003A (zh) 话单数据处理方法及装置
CN111757168B (zh) 音频解码方法、装置、存储介质及设备
CN113593568B (zh) 将语音转换成文本的方法、***、装置、设备及存储介质
US9100717B2 (en) Methods and systems for file based content verification using multicore architecture
WO2022183841A1 (zh) 解码方法、装置和计算机可读存储介质
CN102768834A (zh) 一种实现音频帧解码的方法
EP4398242A1 (en) Encoding and decoding methods and apparatus, device, storage medium, and computer program
KR100540982B1 (ko) 휴대용 wma 복호화 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19827177

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020527375

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 19827177

Country of ref document: EP

Kind code of ref document: A1