WO2002060069A1 - Data processing apparatus - Google Patents

Data processing apparatus Download PDF

Info

Publication number
WO2002060069A1
WO2002060069A1 PCT/JP2002/000490 JP0200490W WO02060069A1 WO 2002060069 A1 WO2002060069 A1 WO 2002060069A1 JP 0200490 W JP0200490 W JP 0200490W WO 02060069 A1 WO02060069 A1 WO 02060069A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
tap
prediction
decoding
class
Prior art date
Application number
PCT/JP2002/000490
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Tsutomu Watanabe
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP02716352A priority Critical patent/EP1355428B1/en
Priority to US10/239,805 priority patent/US7082220B2/en
Priority to DE2002611854 priority patent/DE60211854T2/de
Priority to KR20027012587A priority patent/KR100847179B1/ko
Publication of WO2002060069A1 publication Critical patent/WO2002060069A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]

Definitions

  • the present invention relates to a data processing device, and more particularly to a data processing device that can decode, for example, a high-quality image, a high-quality sound, and the like.
  • the applicant of the present application has previously proposed a class classification adaptive process as a method for improving the image quality of images and the sound quality of audio.
  • the class classification adaptive processing includes a class classification processing and an adaptive processing.
  • the class classification processing classifies the data into classes based on their properties, and performs an adaptive processing for each class.
  • the method is as follows.
  • the adaptive processing is to obtain a predicted value of a pixel value of a high-quality image by, for example, a linear combination of a pixel value of the low-quality image and a predetermined tap coefficient. This converts low quality images to high quality images.
  • a certain high-quality image is used as teacher data, and the high-quality image is encoded by, for example, a JPEG (Joint Photographic Experts Group) method or an MPEG (Moving Picture Experts Group) method.
  • the predicted value E [y] of the high-quality pixel value y which is the teacher data, is used as the student data, and the decoded image with reduced image quality obtained by decoding the encoded data is used as the student data.
  • a set of ⁇ ⁇ ', predetermined tap coefficients ww 2, ⁇ - is defined by a linear combination of ⁇ considering that obtained by linear combination model c in this case,
  • the predicted value E [y] can be expressed by the following equation.
  • a matrix W consisting of a set of tap coefficients W j and student data
  • a matrix X consisting of a set of data Xij and a matrix Y consisting of a set of predicted values E [y.
  • the component Xij of the matrix X means the j-th student data in the i-th set of student data (a set of student data used for predicting the i-th teacher data yi)
  • the component Wj of the matrix W represents a tap coefficient by which a product with the j-th student data in the set of student data is calculated.
  • Yi represents the i-th teacher data.
  • [y ; ] represents the predicted value of the i-th teacher data. Note that y on the left side of the equation (1) is the one obtained by omitting the suffix i of the component yi of the matrix Y.
  • X l , x, ⁇ ⁇ ⁇ on the right side of (1) are also the same as the matrix X except for the suffix i of the component X ij .
  • the tap coefficient Wj that satisfies the following equation is the optimal value for obtaining the predicted value E [y] close to the pixel value y. become.
  • equation (7) is a matrix (covariance matrix) A and a vector
  • V ⁇ Xi2Yi
  • Equation (8) By preparing a certain number of sets of student data and teacher data yi for each normal equation in equation (7), the same number as the number J of tap coefficients Wj to be obtained can be obtained.
  • the matrix A in Equation (8) must be regular
  • the statistical prediction error is minimized.
  • Tap coefficients (here, tap coefficients that minimize the square error) Wj can be obtained.
  • the tap coefficient is In decoding the encoded image data into the original image data, the one with a statistically minimum prediction error is obtained.
  • an image having a higher resolution than the image to be encoded is used as the teacher data, and the resolution of the teacher data is degraded to the same image quality as the image to be encoded as the student data.
  • a tap coefficient that minimizes the prediction error in decoding the encoded image data into high-resolution image data is obtained. Will be done.
  • the adaptive processing it is possible to obtain a tap coefficient capable of arbitrarily adjusting the image quality of the decoded image depending on whether an image serving as teacher data or student data is selected. .
  • the adaptation process uses the tap coefficients that minimize the prediction error statistically by learning, and the high-frequency components that are not included in the image to be encoded by using such tap coefficients. Is very different from mere filtering by a filter in that the
  • the present invention has been made in view of such a situation, and is intended to obtain data with sufficiently improved quality.
  • a first data processing device performs learning with decoding means for decoding encoded data and outputting decoded data, a re-encoding means for encoding the decoded data and outputting re-encoded data.
  • Predictive tap generating means for generating a predictive tap for performing a predetermined predictive calculation with the tap coefficient obtained from the decoded data and information obtained from the re-encoded data; and a predictive tap and a tap coefficient.
  • a prediction means for performing a predetermined prediction operation to obtain a prediction value corresponding to teacher data used as a teacher in learning.
  • a first data processing method of the present invention decodes encoded data and outputs decoded data; encodes the decoded data and outputs re-encoded data; and performs learning.
  • a first program includes: a decoding step of decoding encoded data and outputting decoded data; a decoding step of encoding decoded data and outputting recoded data; and learning.
  • a first recording medium includes a decoding step of decoding encoded data and outputting decoded data; and a re-encoding step of encoding decoded data and outputting re-coded data.
  • the second data processing device comprises: a decoding unit that encodes and decodes the teacher data from teacher data as a teacher; and obtains information obtained from re-encoded data that encodes the decoded data.
  • a learning means for learning so as to statistically minimize a prediction error of a predicted value of teacher data obtained by performing a predetermined prediction operation, and for obtaining a tap coefficient, is provided.
  • a second data processing method of the present invention from teacher data serving as a teacher, decoded data obtained by encoding and decoding the teacher data and re-encoded data obtained by encoding the decoded data are obtained.
  • the student data generation step of generating as student data to be a student the prediction tap used to predict teacher data
  • the prediction tap generation step of generating the prediction tap from the student data and the prediction tap and the tap coefficient.
  • a learning step of learning so as to statistically minimize the prediction error of the predicted value of the teacher data obtained by performing a predetermined prediction operation, and obtaining a tap coefficient.
  • a second program of the present invention from teacher data to be a teacher, decoded data obtained by encoding and decoding the teacher data and information obtained from re-encoded data obtained by encoding the decoded data are used as students.
  • a student data generation step to be generated as student data, a prediction tap used to predict teacher data, a prediction tap generation step to generate the student data from the student data, and a predetermined prediction using a prediction tap and a tap coefficient.
  • a learning step of learning so that a prediction error of a prediction value of teacher data obtained by performing the measurement operation is statistically minimized, and obtaining a tap coefficient.
  • the second recording medium includes, from teacher data serving as a teacher, decoded data obtained by encoding and decoding the teacher data, and information obtained from re-encoded data obtained by encoding the decoded data.
  • a student data generation step for generating student data as a student, a prediction tap used for predicting teacher data, a prediction tap generation step for generating the student data from the student data, and a prediction tap and a tap coefficient are used.
  • a learning step is performed in which learning is performed so that the prediction error of the predicted value of the teacher data obtained by performing the predetermined prediction operation is statistically minimized, and a learning step of obtaining a tap coefficient is recorded.
  • a third data processing apparatus includes: decoding means for decoding encoded data obtained by encoding data and outputting decoded data; and re-encoding means for encoding decoded data and outputting re-encoded data.
  • a class tap generating means for generating a class tap used for class classification from the decoded data and information obtained from the re-encoded data; and a class classifying means for performing class classification based on the class tap.
  • a third data processing method includes: a decoding step of decoding encoded data obtained by encoding data and outputting decoded data; a re-encoding step of encoding decoded data and outputting re-encoded data.
  • a class tap generation step for generating a class tap used for class classification from decoded data and information obtained from re-encoded data; and a class classification step for performing class classification based on the class tap. It is characterized by that.
  • a third program includes: a decoding step of decoding encoded data obtained by encoding data and outputting decoded data; a re-encoding step of encoding decoded data and outputting re-encoded data; Cluster tap generation step of generating a class tap used for class classification from decoded data and information obtained from re-encoded data And a class classification step of performing a class classification based on the class tap.
  • a third recording medium includes a decoding step of decoding encoded data obtained by encoding data and outputting decoded data; a re-encoding step of encoding decoded data and outputting re-encoded data; A program that includes a cluster tap generation step of generating a class tap used for class classification from decoded data and information obtained from re-encoded data, and a class classification step of performing class classification based on the class tap. It is characterized by having been done.
  • the encoded data is decoded, the decoded data obtained as a result is encoded, and the re-encoded data is output. You. Then, a prediction tap for performing a predetermined prediction operation with the tap coefficient obtained by performing the learning is generated from the decoded data and information obtained from the re-encoded data, and the prediction tap is used by using the prediction tap and the tap coefficient. By performing a predetermined prediction operation, a prediction value corresponding to teacher data used as a teacher in learning is obtained.
  • a second data processing device and data processing method, and a program and a recording medium In a second data processing device and data processing method, and a program and a recording medium according to the present invention, from teacher data serving as a teacher, decoded data obtained by encoding and decoding the teacher data, and encoding the decoded data
  • the information obtained from the re-encoded data is generated as student data to be students.
  • a prediction tap used to predict the teacher data is generated from the student data, and the prediction error of the prediction value of the teacher data obtained by performing a predetermined prediction operation using the prediction tap and the tap coefficient is calculated. Learning is performed so as to be statistically minimum, and the tap coefficient is determined.
  • encoded data obtained by encoding data is decoded, and the resulting decoded data is encoded and re-encoded.
  • Coded data is output.
  • the class tap used for class classification is obtained from the decoded data and the re-encoded data. Classification is performed based on the class tap generated from the information and the class tap, a brief description of the drawing
  • FIG. 1 is a diagram showing a configuration example of an embodiment of a data transmission system to which the present invention is applied. .
  • FIG. 2 is a block diagram illustrating a configuration example of the decoder 2.
  • FIG. 3 is a block diagram showing a configuration example of the classification adaptive processing circuit 24.
  • 4A to 4D are block diagrams showing configuration examples of the classifying units 33 and 59.
  • FIG. 5 is a flowchart illustrating the processing of the decoder 2.
  • FIG. 6 is a block diagram showing a configuration example of an embodiment of the learning device to which the present invention is applied.
  • FIG. 7 is a flowchart illustrating processing of the learning device.
  • FIG. 8 is a block diagram showing a first configuration example of the encoder 1 and the encoding units 22, 52, and 55.
  • FIG. 9 is a block diagram showing a first configuration example of the decoding units 21, 23, 54, and 56.
  • FIG. 10 is a block diagram illustrating a second configuration example of the encoder 1 and the encoding units 22, 52, and 55.
  • FIG. 11 is a block diagram showing a second configuration example of decoding sections 21, 23, 54, and 56.
  • FIG. 12 is a block diagram illustrating a third configuration example of the encoder 1 and the encoding units 22, 52, and 55.
  • FIG. 13 is a block diagram illustrating a third configuration example of the decoding units 21, 23, 54, and 56.
  • FIG. 14 is a block diagram showing a configuration example of a computer according to an embodiment of the present invention.
  • FIG. 1 shows a configuration example of an embodiment of a data transmission system to which the present invention is applied.
  • the data to be transmitted is supplied to the encoder 1, and the encoder 1 encodes the data supplied thereto, for example, according to a predetermined encoding method, and I do.
  • This coded data is recorded on a recording medium 3 composed of, for example, a semiconductor memory, a magneto-optical disk, a magnetic disk, an optical disk, a magnetic tape, a phase change disk, or the like.
  • a terrestrial wave, a satellite line, a CATV ( (Cable Television) It is transmitted via a transmission medium 4 consisting of a network, the Internet, and a public line.
  • the decoder 2 receives and decodes the encoded data provided via the recording medium 3 or the transmission medium 4, and outputs decoded data obtained as a result.
  • the decoded data is, for example, image data
  • the image data is supplied to, for example, a display (not shown) and displayed.
  • the encoded data is, for example, audio data
  • the audio data is supplied to, for example, a speaker (not shown) and output.
  • FIG. 2 shows a configuration example of the decoder 2 of FIG.
  • the encoded data is supplied to a decoding unit 21.
  • the decoding unit 21 decodes the encoded data according to a decoding method corresponding to the encoding method in the encoder 1, for example.
  • the resulting decoded data is supplied to an encoding unit 22 and a class classification adaptive processing circuit 24. Further, the decoding unit 21 supplies information obtained in the process of decoding the encoded data to the classification adaptive processing circuit 24 as additional information.
  • the encoding unit 22 encodes (re-encodes) the decoded data supplied from the decoding unit 21 according to, for example, the same encoding scheme as that in the encoder 1 in FIG. Get. This re-encoded data is transmitted from the encoder 22 to the decoder 23. Supplied.
  • the decoding unit 23 decodes, for example, the re-encoded data from the encoding unit 22 in the same manner as the decoding unit 21 and supplies the resulting decoded data to the classification adaptive processing circuit 24. . Further, the decoding unit 23 supplies information obtained in the process of decoding the re-encoded data to the classification adaptive processing circuit 24 as additional information.
  • the decoded data output by the decoding unit 21 that performs the first decoding is referred to as first decoded data
  • the decoded data output by the decoding unit 23 that performs the second decoding is referred to as the second decoded data. , Respectively.
  • the additional information output by the decoding unit 21 that performs the first decoding is first additional information
  • the additional information that is output by the decoding unit 23 that performs the second decoding is second additional information, as appropriate. Describe each.
  • the first decoded data and the second decoded data are collectively referred to simply as “decoded data” as appropriate.
  • the first additional information and the second additional information are collectively referred to as additional information, as appropriate.
  • the classification adaptive processing circuit 24 uses the first decoded data and the first additional information supplied from the decoding unit 21 and further uses the second decoded data and the second additional information supplied from the decoding unit 23. , Perform the classification adaptive processing, and output decoded data as final decoding result of the encoded data (hereinafter, referred to as final decoded data as appropriate). Therefore, the classification adaptive processing circuit 24 re-encodes the first decoded data obtained by decoding the encoded data, the first additional information obtained in the decoding process, and the first decoded data.
  • the class classification adaptation process is performed using the second decoded data obtained by decoding the re-encoded data and the second additional information obtained in the process of decoding the re-encoded data, the quality of the first decoded data is improved. Even if is greatly degraded, it is possible to obtain final decoded data with sufficiently improved quality.
  • the classification adaptive processing circuit 24 Encodes the second decoded data, and decodes the resulting encoded data in the third By supplying the decoded data and the third additional information obtained in the decoding process, it is possible to perform the classification adaptation process.
  • FIG. 3 shows a configuration example of the class classification adaptive processing circuit 24 of FIG.
  • the first decoded data, the first additional information, the second decoded data, and the second additional information are supplied to tap generators 31 and 32.
  • the tap generation unit 31 becomes a prediction tap used for a prediction calculation in the prediction unit 35 described below from the first decoded data, the first additional information, the second decoded data, and the second additional information. Generate That is, the tap generation unit 31 extracts, for example, the first decoded data and the second decoded data that are temporally or spatially close to the target data of interest in order to improve the quality. The first and second additional information used for decoding the first and second decoded data are extracted, and the extracted data (information) is used as a prediction tap by the prediction unit. Supply to 3-5.
  • the tap generation unit 32 becomes a class tap used for class classification in the class classification unit 33 described later from the first decoded data, the first additional information, the second decoded data, and the second additional information. Generate That is, the tap generation unit 32 generates, for example, a class tap having the same configuration as the prediction tap generated by the tap generation unit 31 for the attention data, and supplies the generated class tap to the class classification unit 35.
  • the same class tap and the same prediction tap are configured.
  • the class tap and the prediction tap are configured differently, that is, the first decoding is performed. Different data can be extracted and generated from the data, the first additional information, the second decoded data, and the second additional information.
  • the class classification unit 33 classifies the data of interest based on the class taps from the tap generation unit 32, and outputs a class code corresponding to the resulting class to the coefficient memory 34.
  • the coefficient memory 34 stores tap coefficients for each class obtained by performing a learning process in the learning device of FIG. 6 described later.
  • the tap coefficient stored in the address corresponding to the class code to be output is output to the prediction unit 35.
  • the prediction unit 35 acquires the prediction tap output from the tap generation unit 31 and the tap coefficient output from the coefficient memory 34, and uses the prediction tap and the tap coefficient to obtain the equation (1)
  • a linear prediction operation (product-sum operation) is performed to obtain and output data with improved quality for the target data, that is, a predicted value of the target data with high quality.
  • FIG. 4 illustrates a configuration example of the class classification unit 33 in FIG.
  • the class classification unit 33 can be composed of ADRC (Adaptive Dynamic Range Coding) circuits 41A and 41B and a combining circuit 41C.
  • ADRC Adaptive Dynamic Range Coding
  • the ADRC circuits 41 A and 41 B respectively perform the K-bit ADRC processing on the decoded data and the additional information forming the class tap, and output the resulting ADRC code to the combining circuit 41 C.
  • the information that makes up the class tap is requantized to K bits. That is, from the information constituting the class taps, the minimum value MIN is subtracted, and the subtracted value is divided (quantized) by DR / 2 K. Then, a bit string obtained by arranging the K-bit values of each piece of information constituting the class tap in a predetermined order is output as an ADRC code.
  • the combining circuit 41C combines the ADRC code of the decoded data output by the ADRC circuit 41A and the ADRC code of the additional information output by the ADRC circuit 41B into one code, and outputs it as a class code. .
  • the additional information constituting the class tap is not limited to one type, but when there are a plurality of types of additional information, the ADRC circuit 41B uses the plurality of types of additional information. ADRC processing is performed for each, and multiple ADRC codes are output. Then, in the combining circuit 41C, from the plurality of ADRC codes, 1 Two codes are generated. The same applies to the class classification unit 33 shown in FIGS. 4B to 4D described later.
  • the classifying section 33 includes the arithmetic units 42A and 42B and the 01 «: circuits 41A and 41B shown in FIG. It can also be composed of a combining circuit 41C.
  • the arithmetic unit 42A calculates the difference between the first decoded data forming the class tap and the second decoded data corresponding to the first decoded data, and calculates the difference value by the ADRC circuit 41.
  • Arithmetic unit 42B computes the difference between the first additional information forming the class tap and the second additional information corresponding to the first additional information, and outputs the difference value to ADRC circuit 41B.
  • the second decoded data corresponding to the first decoded data is, for example, when the decoded data is an image, is obtained as the second decoded data identical to the decoded pixel obtained as the first decoded data.
  • the second decoded data corresponding to the first decoded data pi (f, ⁇ , y ) means p2 (f, x, y).
  • the second additional information corresponding to the first additional information is, for example, audio data in which decoded data is decoded by a CELP (Code Excited Liner Prediction coding) method described later, and the additional information is the decoded data.
  • the linear prediction coefficient obtained in the process of the above it means the linear prediction coefficient obtained as the second additional information of the same order as the linear prediction coefficient obtained as the first additional information. That is, the p-th linear prediction coefficients used for decoding the first decoded data and the second decoded data in a certain frame (or subframe) f are represented by al (f, p) and hi2, respectively.
  • the second additional information corresponding to the first additional information al (f, p) means 2 (f, p).
  • the decoded data is image data decoded by the JPEG method described later, and additional information is obtained in the decoding process.
  • the second additional information corresponding to the first additional information is the DCT coefficient obtained as the second additional information of the same spatial frequency component as the DCT coefficient obtained as the first additional information Means That is, the DCT coefficients as the first additional information and the second additional information at the position (X, y) in a certain 8 ⁇ 8 block of a certain frame f are respectively expressed as dl (f, b, x, y ) And d 2 (f, b, x, y), the second additional information corresponding to the first additional information dl (f, b, x, y) is d 2 (f, b, x, y).
  • classifying circuit 33 can be configured as shown in FIG. 4C, for example.
  • the difference between the first decoded data and the second decoded data is obtained in the arithmetic unit 42A, and the first additional information and the second additional information are calculated in the arithmetic unit 42B. 2 A difference value from the additional information is obtained.
  • the difference value between the first decoded data and the second decoded data is supplied from the arithmetic unit 42A to the polarity discriminating circuit 43C, and the polarity discriminating circuit 43C calculates the difference value between the first decoded data and the second decoded data. And outputs 0 or 1 to the combining circuit 43E according to the polarity.
  • the difference value between the first additional information and the second additional information is supplied from the arithmetic unit 42B to the polarity discriminating circuit 43D, and the polarity discriminating circuit 43D calculates the difference value between the first additional information and the second additional information. And outputs 0 or 1 to the synthesizing circuit 43E according to the polarity.
  • the synthesizing circuit 43E synthesizes a sequence of 0 or 1 corresponding to the polarity from each of the polarity discriminating circuits 43C and 44C into one code and outputs it as a class code. Further, as shown in FIG. 4D, the classifying section 33 includes delay circuits 44A and 44B, computing elements 44C and 44D, and ADRC circuits 41A and 44A shown in FIG. 4A. And 41B and a combining circuit 41C.
  • the delay circuit 44A converts the decoded data forming the class tap into, for example,
  • Arithmetic unit 44C calculates the difference between the decoded data forming the class tap and the decoded data delayed from delay circuit 44A, and outputs the difference value to ADRC circuit 41A. Supply.
  • the delay circuit 44B delays the additional information forming the class tap by, for example, a time corresponding to one sample and supplies it to the arithmetic unit 44D.
  • the arithmetic unit 44D calculates the difference between the additional information forming the class tap and the delayed version of the additional information from the delay circuit 44B, and outputs the difference value to the ADRC circuit 41B. Supply.
  • the same processing as in FIG. 4A is performed on the above-mentioned difference value, and the class code is output.
  • the class classification unit 33 may be configured by a circuit that combines any two or more outputs of the circuits shown in FIGS. 4A to 4D into one code and outputs the code. It is possible.
  • the classifying section 33 can be configured by a circuit other than the circuit shown in FIG.
  • DCT Discrete Cosine Transform
  • the classifying unit 33 outputs a class code based on the activity of the image obtained from the DCT coefficient of the 8 ⁇ 8 block. It is also possible to output a class code based on the position of the pixel of interest in the block.
  • the class classification unit 33 can be configured to output, for example, vector quantization results of decoded data and additional information constituting a class tap, as a class code.
  • the decoding unit 21 decodes the encoded data according to the decoding method corresponding to the encoding method in the encoder 1, and outputs the resulting first decoded data to the encoding unit 22 and the class classification adaptive processing circuit. Supply 2 to 4. Further, the decoding unit 21 supplies information obtained in the process of decoding the encoded data to the classification adaptive processing circuit 24 as first additional information. Encoding section 22 re-encodes the encoded data supplied from decoding section 21, and supplies the resulting re-encoded data to decoding section 23. The decoding unit 23 decodes the re-encoded data from the encoding unit 22 in the same manner as the decoding unit 21, and sends the resulting second decoded data to the classification adaptive processing circuit 24. Supply.
  • the decoding unit 23 supplies information obtained in the process of decoding the re-encoded data to the classification adaptive processing circuit 24 as second additional information.
  • the tap generation unit 31 sequentially sets the first decoded data supplied thereto as attention data, for example, On the other hand, the second decoded data that is temporally or spatially closer to the first decoded data that is temporally or spatially closer to the second decoded data corresponding to the data of interest, From the first additional information obtained in the data decoding process and the second additional information obtained in the decoding process of the second decoded data corresponding to the data of interest, a prediction tap for the data of interest is generated. Output.
  • step S1 the tap generation unit 32 generates a class tap for the data of interest in the same manner as, for example, the tap generation unit 31 and outputs the class tap to the class classification unit 33. Then, the process proceeds to step S2, where the classifying unit 33 classifies the class based on the class taps supplied from the tap generating unit 32, and supplies the resulting class code to the coefficient memory 34. And proceed to step S3.
  • step S3 the coefficient memory 34 reads the tap coefficient from the address corresponding to the class code supplied from the class classification section 33, and supplies the read tap coefficient to the prediction section 35.
  • step S4 the prediction unit 35 selects the tap output from the coefficient memory 34.
  • the product-sum operation shown in equation (1) is performed, and the prediction value of the data (the prediction value of ) And go to step S5.
  • step S5 it is determined whether or not there is still first decoded data to be processed as the data of interest. If it is determined that there is, the process returns to step S1 and the first decryption to be made the next data of interest is performed. The same process is repeated hereafter, using the data as new data of interest. If it is determined in step S5 that there is no data to be processed as the data of interest, the processing ends.
  • FIG. 6 shows a configuration example of an embodiment of a learning device for performing a learning process of a tap coefficient stored in the coefficient memory 34 of FIG.
  • high-quality data to be encoded by the encoder 1 in FIG. 1 is supplied as learning data.
  • the learning data is supplied to the student data generation unit 51 and the normal equation addition circuit 60 as teacher data serving as a learning teacher.
  • the student data generation unit 51 generates student data to be students for learning from the teacher data supplied thereto.
  • the student data generating unit 51 includes an encoding unit 52, a medium characteristic reflecting unit 53, a decoding unit 54, an encoding unit 55, and a decoding unit 56.
  • the encoding unit 52 encodes the teacher data in the same manner as the encoder 1 in FIG. 1, and supplies the resulting encoded data to the medium characteristic reflecting unit 53.
  • the medium characteristic reflection section 53 adds (reflects) noise or the like added to a signal through the recording medium 3 or the transmission medium 4 in FIG. 1 to the encoded data from the encoding section 52. Are supplied to the decoding unit 54.
  • the decoding unit 54, the coding unit 55, and the decoding unit 56 are configured in the same manner as the decoding unit 21, the coding unit 22, and the decoding unit 23 of the decoder 2 illustrated in FIG. Therefore, in the decoding unit 54, the coding unit 55, and the decoding unit 56, the coded data output by the medium characteristic reflecting unit 53 is the same as the decoding unit 21, the coding unit 22, and the decoding unit in FIG. Parts 2 and 3 As a result, the decoding unit 54 outputs the first decoded data and the first additional information as the student data, and the decoding unit 56 outputs the second decoded data and the second additional information as the student data. Output. The first decoded data and the first additional information as the student data, and the second decoded data and the second additional information are supplied to tap generation units 57 and 58.
  • the decoder 2 in FIG. 2 can be configured by providing at least one set similar to the set of the encoding unit 22 and the decoding unit 23 at the subsequent stage of the decoding unit 23.
  • the student data generation unit 51 of the learning device in FIG. 6 has the same configuration as the set of the encoding unit 55 and the decoding unit 56 in the subsequent stage of the decoding unit 54, as in the decoder 2. It is necessary to provide one or more sets.
  • the tap generation section 57 is configured in the same manner as the tap generation section 31 of the class classification adaptive processing circuit 24 in FIG. 3, and supplied with the first decoded data and the first additional information as student data supplied thereto, and (2) A prediction tap is generated from the decoded data and the second additional information in the same manner as in the tap generation unit 31 and supplied to the normal equation addition circuit 60.
  • the tap generation unit 58 is configured in the same manner as the tap generation unit 32 of the class classification adaptive processing circuit 24 in FIG. 3, and supplied with the first decoded data and the first additional information as student data supplied thereto, and (2) A class tap is generated from the decoded data and the second additional information in the same manner as in the tap generation unit 32, and is supplied to the class classification unit 59.
  • the class classification unit 59 performs the same class classification as in the class classification unit 33 of the classification adaptive processing circuit 24 in FIG. 3 based on the class tap supplied from the tap generation unit 58, and as a result, The obtained class code is supplied to the normal equation adding circuit 60.
  • the normal equation addition circuit 60 sequentially applies the teacher data supplied thereto as attention teacher data to the prediction taps generated for the attention teacher data supplied from the tap generation unit 57 and the attention teacher data.
  • Classification part 5 This is performed for each class represented by the class code supplied from 9.
  • the normal equation adding circuit 60 uses the prediction tap (student data) for each class corresponding to the class code supplied from the class classification unit 59, and calculates each component in the matrix A of the equation (8). Multiplication of student data (x in X i J and calculation equivalent to summation ( ⁇ ) are performed.
  • the normal equation addition circuit 60 also uses the prediction tap (student data) and the attention teacher data for each class corresponding to the class code supplied from the class classification unit 59 to calculate the vector of the equation (8). It performs operations equivalent to multiplication (x in yi) of student data and attention teacher data, which are each component in V, and summation ( ⁇ ).
  • the normal equation addition circuit 60 performs the above addition, using all the teacher data supplied thereto as attention teacher data, and thereby, for each class, forms the normal equation shown in Expression (8).
  • the tap coefficient determination circuit 61 solves the normal equation generated for each class in the normal equation addition circuit 60 to determine the tap coefficient for each class, and stores the address corresponding to each class in the coefficient memory 62. To supply.
  • the normal equation adding circuit 60 may generate a class in which the number of normal equations required for obtaining the tap coefficients cannot be obtained.
  • the circuit 61 outputs, for example, a default tap coefficient for such a class.
  • the coefficient memory 62 stores the tap coefficients for each class supplied from the tap coefficient determination circuit 61.
  • the learning device is supplied with learning data, and the learning data is supplied as teacher data to the student data generating unit 51 and the normal equation adding circuit 60. Then, in step S11, the student data generation unit 51 converts the teacher data into the student data. Generate data.
  • step S11 the encoding unit 52 encodes the teacher data in the same manner as the encoder 1 in FIG. 1, and encodes the resulting encoded data via the medium characteristic reflecting unit 53. Are supplied to the decoding unit 54.
  • the decoding unit 54 decodes the encoded data supplied thereto, and supplies the resulting first decoded data to the encoding unit 55, and further, as student data, a tap generation unit 57 And supply 5-8.
  • the decoding unit 54 also supplies the first additional information obtained in the process of decoding the encoded data to the first decoded data to the tap generation units 57 and 58 as student data.
  • step S 11 encoding section 55 re-encodes the first decoded data from decoding section 54, and supplies the resulting re-encoded data to decoding section 56.
  • the decoding unit 56 decodes the re-encoded data from the encoding unit 55, and obtains the resulting second decoded data and the second additional data obtained in the process of decoding the re-encoded data into the second decoded data.
  • the information is supplied to the tap generators 57 and 58 as student data.
  • the teacher data supplied thereto is regarded as the attention teacher data, and the process proceeds to step S12, where the tap generators 57 and 58 power are supplied from the student data supplied thereto.
  • the tap generators 57 and 58 power are supplied from the student data supplied thereto.
  • a prediction tap and a cluster tap are generated respectively.
  • the prediction tap generated by the tap generation unit 57 is supplied to the normal equation addition circuit 61, and the class tap generated by the tap generation unit 58 is supplied to the classification unit 59.
  • step S13 in which the class classification unit 59 classifies the class based on the class taps from the tap generation unit 58, and supplies the resulting class code to the normal equation addition circuit 60. Then, go to step S14.
  • step S 14 the normal equation adding circuit 60 determines, for the class represented by the class code supplied from the class classification section 59, the attention teacher data supplied thereto and the prediction supplied from the tap generation section 57. For the student data that compose the taps, add the matrix A and vector V of Eq. Go to 1-5.
  • step S15 it is determined whether or not there is still teacher data to be processed as the attention teacher data. If it is determined that there is, the process returns to step S11. The same process is repeated for the new teacher data of interest.
  • step S15 when it is determined that there is no teacher data to be processed as attention teacher data, that is, for example, when a normal equation is obtained for each class in the normal equation adding circuit 60, Proceeding to S16, the tap coefficient determination circuit 61 solves the normal equation generated for each class to find the tap coefficient for each class, and stores the address corresponding to each class in the coefficient memory 62. And store it, and the process ends.
  • the tap coefficients for each class stored in the coefficient memory 62 are stored in the coefficient memory 34 in FIG.
  • the tap coefficients stored in the coefficient memory 34 in FIG. 3 are obtained by performing a linear prediction operation on a prediction value of data having the same quality as that of the learning data.
  • FIG. 8 shows that the data transmission system of FIG. 1 converts the audio signal (audio data) into a CEL P (eg, VSELP (Vector Sum Excited Liner Prediction), PSI-CELP (Pitch Synchronous Innovation CELP), CS-ACELP). (Including various CELPs such as Conjugate Structure Algebraic CELP).
  • FIG. 2 shows a configuration example of the encoder 1 of FIG. From the above, when the encoder 1 in FIG. 1 is configured as shown in FIG. 8, the encoders 22 in FIG. 2 and the encoders 52 and 55 in FIG. The configuration is the same as that shown.
  • Speech signals to be encoded can be obtained by sampling analog speech signals at a sampling frequency such as 8 kHz.
  • a / D conversion into a digital audio signal, and quantization by a predetermined number of bits are performed by the arithmetic unit 71 and the LPC (Liner Prediction Coefficient) analysis unit 72. Supplied to
  • an audio signal to be encoded which is supplied thereto, for example, LPC analysis for each frame of a length of 1 6 0 samples, ⁇ P-order LPC coefficients 0, shed 2, ⁇ ⁇ ⁇ , Hi And?
  • the vector quantization unit 73 stores a codebook in which a code vector having linear prediction coefficients as elements is associated with a code, and based on the codebook, a codebook from the LPC analysis unit 72 is stored.
  • the feature vector ⁇ is vector-quantized, and a code obtained as a result of the vector quantization (hereinafter referred to as ⁇ code (A-code) as appropriate) is supplied to a code determination unit 83.
  • the vector quantization section 73 converts the linear prediction coefficients ⁇ , 2 2 ′,..., ⁇ ⁇ ′, which constitute the code vector ⁇ ′ corresponding to the A code, into a speech synthesis filter.
  • Supply 7 4
  • IIR Infinite Impulse Response
  • the LPC analysis performed by the LPC analysis unit 72 includes (the sample value of) the audio signal s n at the current time n and the past P sample values 3 ⁇ , s n _2 > . ⁇ , S nP , the expression
  • ⁇ e ⁇ ( ⁇ ⁇ ⁇ , e n e n, e n + 1, ⁇ ⁇ ⁇ ) is a is average value 0, variance of a predetermined value sigma 2 Mu mutually It is a correlated random variable.
  • the speech synthesis filter 74 uses the linear prediction coefficient ⁇ ⁇ ′ from the vector quantization unit 73 as a tap coefficient and inputs the residual signal e supplied from the arithmetic unit 82. Equation (1 2) is calculated as the signal, and the voice signal (synthesized sound signal) ss is obtained. Note that, in the speech synthesis filter 74, the linear prediction coefficient obtained as a code vector corresponding to the code obtained as a result of the vector quantization is not the linear prediction coefficient obtained as a result of the LPC analysis performed by the LPC analysis unit 72. Since ⁇ ⁇ ′ is used, the synthesized speech signal output from the speech synthesis filter 74 is not basically the same as the speech signal before LPC analysis.
  • the synthesized sound signal ss output from the voice synthesis filter 74 is supplied to the arithmetic unit 71.
  • the arithmetic unit 71 subtracts the original speech signal s from the synthesized speech signal Ss from the speech synthesis filter 74 (from each sample of the synthesized speech signal ss, the original speech signal s corresponding to the sample is subtracted).
  • the sample is subtracted), and the subtracted value is supplied to the square error calculator 75.
  • the square error calculator 75 calculates the sum of squares of the subtracted value from the calculator 71 (for example, the sum of squares for each frame in which the LPC analyzer 72 performs the LPC analysis), and obtains the square error obtained as a result. Is supplied to the square error minimum judgment section 76.
  • the square error minimum determination unit 76 is configured to associate the square error output from the square error calculation unit 75 with an L code (L_code) as a code representing a lag, a G code (G_code) as a code representing a gain, And an I code (I-code) representing a codeword (excitation codebook), and an L code, a G code, and an L code corresponding to the square error output by the square error calculator 75 Is output.
  • L code is supplied to an adaptive codebook storage unit 77
  • the G code is supplied to a gain decoder 78
  • the I code is supplied to an excitation codebook storage unit 79.
  • the L code, the G code, and the I code are also supplied to a code determination unit 83.
  • the adaptive codebook storage unit 77 stores, for example, an adaptive codebook in which a 7-bit L code is associated with a predetermined delay time (lag), and the remaining code supplied from the arithmetic unit 82 is stored.
  • the difference signal e is delayed by the delay time associated with the L code supplied from the square error minimum determination unit 76 and output to the arithmetic unit 80.
  • the adaptive codebook storage unit 77 outputs the residual signal e with a delay corresponding to the time corresponding to the L code, the output signal is close to a periodic signal whose cycle is the delay time.
  • This signal is used for speech synthesis using linear prediction coefficients. And mainly serves as a drive signal for generating a synthesized voiced voice.
  • the gain decoder 78 stores a template in which the G code is associated with a predetermined gain of 3 and ⁇ , and is associated with the G code supplied from the square error minimum determination unit 76.
  • Gain] 3 and ⁇ are output.
  • the gain and y are supplied to arithmetic units 80 and 81, respectively.
  • the gain / 3 is called a long-term filter state output gain
  • the gain ⁇ is called an excitation codebook gain.
  • the excitation codebook storage unit 79 stores, for example, an excitation codebook in which a 9-bit I code is associated with a predetermined excitation signal, and is supplied from the square error minimum determination unit 76.
  • the excitation signal associated with the code is output to arithmetic unit 81.
  • the excitation signal stored in the excitation codebook is, for example, a signal close to white noise or the like, and is mainly used for generating unvoiced synthesized speech in speech synthesis using linear prediction coefficients. Signal.
  • the arithmetic unit 80 multiplies the output signal of the adaptive codebook storage unit 77 by the gain / 3 output from the gain decoder 78 and supplies the multiplied value 1 to the arithmetic unit 82.
  • Arithmetic unit 81 multiplies the output signal of excitation codebook storage unit 79 by the gain y output by gain decoder 78, and supplies the multiplied value n to arithmetic unit 82.
  • the computing unit 82 adds the multiplied value 1 from the computing unit 80 and the multiplied value n from the computing unit 81, and uses the sum as a residual signal e as the speech synthesis filter 74 and the adaptive codepick. Supply to storage unit 7 7
  • the residual signal e supplied from the arithmetic unit 82 is converted into the IIR using the linear prediction coefficient ⁇ ⁇ ′ supplied from the vector quantization unit 73 as a tap coefficient.
  • the resultant signal is filtered by a filter, and the resulting synthesized sound signal is supplied to a computing unit 71. Then, the same processing as described above is performed in the calculator 71 and the square error calculator 75, and the resulting square error is supplied to the minimum square error determiner 76.
  • the minimum square error determination unit 76 has the minimum square error from the square error calculation unit 75 Small) is determined. Then, when determining that the square error is not minimized, the square error minimum determination unit 76 outputs the L code, the G code, and the L code corresponding to the square error, as described above, Hereinafter, the same processing is repeated.
  • the square error minimum determination section 76 determines that the square error has become minimum, it outputs a determination signal to the code determination section 83.
  • the code determination unit 83 latches the A code supplied from the vector quantization unit 73, and sequentially latches the L code, G code, and I code supplied from the minimum square error determination unit 76.
  • the decision signal is received from the square error minimum judgment section 76, the A code, L code, G code, and I code that are latched at that time are supplied to the channel encoder 84.
  • Channel encoder 84 multiplexes the A code, L code, G code, and I code from code determination section 83, and outputs code data as a result of the multiplexing as encoded data.
  • a code, L code, G code, and I code are required for each frame.
  • one frame can be divided into four subframes, and the L code, G code, and I code can be obtained for each subframe.
  • FIG. 9 shows a configuration example of the decoding unit 21 of FIG. 2 when the encoder 1 of FIG. 1 is configured as shown in FIG.
  • the decoding unit 21 in FIG. 2 is configured as shown in FIG. 9, the decoding units 23 in FIG. 2 and the decoding units 54 and 56 in FIG.
  • the configuration is the same as that shown in FIG.
  • Code data output from the encoder 1 in FIG. 8 as encoded data is received by the channel decoder 91.
  • the channel decoder 91 separates the L code, G code, I code, and A code from the code data, and , A gain decoder 93, an excitation codebook storage 94, and a filter coefficient decoder 95.
  • Arithmetic units 96 to 98 have the same configuration as adaptive codebook storage unit 77, gain decoder 78, excitation codebook storage unit 79, and arithmetic units 80 to 82 in FIG.
  • the L code, the G code, and the I code are decoded into a residual signal e by performing the same processing as that described in FIG.
  • the residual signal e is provided as an input signal to the speech synthesis filter 99 and is also supplied to the adaptive codebook storage 92.
  • the filter coefficient decoder 95 stores the same code pack as that stored by the vector quantization unit 73 in FIG. 8, decodes the A code into a linear prediction coefficient p ′, It is supplied to the synthesis filter 99.
  • the speech synthesis filter 99 has the same configuration as the speech synthesis filter 74 in FIG. 8.
  • the linear prediction coefficients from the filter coefficient decoder 95 are used as tap coefficients, and the speech
  • the supplied residual signal e is used as an input signal, and the equation (12) is calculated.
  • the synthesized sound signal when the square error is determined to be the minimum in the square error minimum determination unit 76 in FIG.
  • Generate This synthesized sound signal is output as a decoding result (decoded data) of the encoded data.
  • the additional information output unit 100 obtains information obtained in the process of decoding the encoded data into the synthesized sound signal as the decoded data, and part or all of the information is obtained. Output as additional information.
  • the additional information output unit 1000 has the L code output from the channel decoder 91,
  • FIG. 10 shows an example of the configuration of the encoder 1 of FIG. 1 when the data transmission system of FIG. 1 encodes still image data by the JPEG system and transmits the encoded image data.
  • the encoder 1 in FIG. 1 is configured as shown in FIG. 10, the encoding units 22 in FIG. 2 and the encoding units 52 and 55 in FIG. It is configured similarly to.
  • the image data to be coded is input to a blocking circuit 111, which divides the input image data into blocks of 64 pixels of 8 ⁇ 8 pixels. I do.
  • Each block obtained by the blocking circuit 111 is supplied to the DCT circuit 112.
  • the 0 ⁇ 1 circuit 1 1 2 performs DCT (Discrete Cosine Transform) processing on the block from the blocking circuit 1 1 1 to obtain one DC (Direct Curve t) component and the horizontal and vertical directions. Converts 63 frequency components (AC (Alternating Current) components) into a total of 64 DCT coefficients.
  • the 64 DCT coefficients for each block are supplied to the quantization circuit 113 from the 0 ⁇ 1 circuit 112.
  • the quantization circuit 113 quantizes the DCT coefficient from the DCT circuit 112 according to a predetermined quantization table, and quantizes the quantization result (hereinafter, appropriately referred to as a quantized DCT coefficient). Along with the quantization table used in (1), it is supplied to the entropy coding circuit 114.
  • the quantization table used in the quantization circuit 113 generally, in consideration of human visual characteristics, low-frequency DCT coefficients having high importance are quantized finely, and A quantization step is set so that the DCT coefficient of the frequency is roughly quantized, so that the image quality is suppressed from deteriorating, and efficient compression is performed.
  • what kind of quantization table is used is determined based on, for example, a compression ratio set by a user.
  • the entropy coding circuit 114 performs entropy coding processing such as Huffman coding on the quantized DCT coefficient from the quantization circuit 113, and performs The quantization table from the encoding circuit 113 is added, and the resulting encoded data is output.
  • FIG. 11 shows a configuration example of the decoding unit 21 of FIG. 2 when the encoder 1 of FIG. 1 is configured as shown in FIG.
  • the decoding unit 23 of FIG. 2 and the decoding units 54 and 56 of FIG. 6 also have the configuration shown in FIG.
  • the configuration is the same as
  • the encoded data is input to the entropy decoding circuit 122, and the entropy decoding circuit 121 separates the encoded data into entropy-coded quantized DCT coefficients and a quantization table. Further, the entropy decoding circuit 121 entropy-decodes the quantized DCT coefficient subjected to the entropy coding, and supplies the resulting quantized DCT coefficient to the inverse quantization circuit 122 together with the quantization table. . The inverse quantization circuit 122 inversely quantizes the quantized DCT coefficient from the entropy decoding circuit 121 in accordance with the quantization table from the entropy decoding circuit 122, and obtains the resulting DCT coefficient.
  • the inverse DCT circuit 123 performs an inverse DCT process on the DCT coefficient from the inverse quantization circuit 12, and outputs the resulting decoding block of 8 ⁇ 8 pixels to the block decomposition circuit 124.
  • the block decomposition circuit 124 obtains and outputs decoded image data by deblocking the decoding block from the inverse DCT circuit 123.
  • the additional information output unit 125 acquires information obtained in the process of decoding the encoded data into the decoded image data, and part or all of the information is obtained. Output as additional information.
  • the quantization table and the quantized DCT coefficient output from the entropy decoding circuit 121, the DCT coefficient output from the inverse quantization circuit 122, and the like are supplied to the additional information output unit 125.
  • the additional information output unit 125 outputs a part or all of the information as additional information.
  • FIG. 12 shows an example of the configuration of the encoder 1 of FIG. 1 in the case where the data transmission system of FIG. 1 encodes and transmits moving image data in the MPEG2 format.
  • the encoder 1 of FIG. 1 is configured as shown in FIG. 12, the encoders 22 of FIG. 2 and the encoders 52 and 55 of FIG. It is configured similarly to.
  • Frames (or fields) constituting a moving image to be subjected to MPEG encoding are sequentially supplied to the motion detection circuit 13 1 and the arithmetic unit 13 2.
  • the motion detection circuit 1331 detects a motion vector of the frame supplied thereto on a macroblock basis, and supplies the motion vector to the entropy encoding circuit 1336 and the motion compensation circuit 140.
  • the arithmetic unit 13 2 supplies the picture to the block circuit 1 33 as it is, and outputs a P (Predictive) or B (Bidirectionally predictive) picture. If so, a difference from the reference image supplied from the motion compensation circuit 140 is calculated, and the difference value is supplied to the blocking circuit 133.
  • the blocking circuit 1333 blocks the output of the computing unit 1332 into an 8 ⁇ 8 pixel block, and supplies the pixel block to the DCT circuit 1334.
  • the 0-th circuit 134 performs DCT processing on the pixel block from the blocking circuit 133, and supplies the resulting DCT coefficient to the quantization circuit 135.
  • the quantization circuit 135 quantizes the block-based DCT coefficients from the 0 ⁇ circuit 133 in accordance with a predetermined quantization table, and quantizes the resulting quantized DCT coefficients together with the quantization table used. , And supplied to the entropy encoding circuit 1336.
  • the entropy encoding circuit 13 6 encodes the quantized DCT coefficient from the quantization circuit 13 5 into an entry-to-peak code, and outputs the motion vector from the motion detection circuit 13 1 and the quantization vector 13 5 Then, add the necessary quantization table and other necessary information (for example, information to be the header of each layer of the MPEG stream), and output the resulting encoded data as the MPEG encoding result.
  • the quantized DCT coefficients output by the quantization circuit 135 I-pictures and P-pictures need to be subjected to oral decoding to be used as reference pictures for P-pictures and B-pictures to be encoded later Therefore, it is supplied to the inverse quantization circuit 1337 in addition to the entropy coding circuit 1336.
  • the inverse quantization circuit 13 7 has a quantization circuit
  • the quantization tables used in paths 135 are also provided.
  • the inverse quantization circuit 13 7 inversely quantizes the quantized DCT coefficient from the quantization circuit 13 5 in accordance with the quantization table from the quantization circuit 13 5, thereby obtaining a DCT coefficient.
  • the inverse DCT circuit 138 performs an inverse DCT process on the DCT coefficient from the inverse quantization circuit 1337 and outputs the result to the computing unit 139.
  • the arithmetic unit 1339 is also supplied with the reference image output from the motion compensation circuit 140 in addition to the output of the inverse DCT circuit 1338.
  • the original image is decoded by adding the 40 outputs and is supplied to the motion compensation circuit '140. If the output of the inverse DCT circuit 1338 is that of an I-picture, the operation unit 1339 outputs a decoded image of the I-picture. Supply to circuit 140.
  • the motion compensation circuit 140 performs motion compensation on the locally decoded image supplied from the arithmetic unit 1339 according to the motion vector from the motion detection circuit 131, and performs the motion compensation after the motion compensation.
  • the image is supplied to arithmetic units 132 and 139 as a reference image.
  • FIG. 13 shows a configuration example of the decoding unit 21 of FIG. 2 when the encoder 1 of FIG. 1 is configured as shown in FIG.
  • the decoding unit 21 of FIG. 2 is configured as shown in FIG. 13
  • the decoding unit 23 of FIG. 2 and the decoding units 54 and 56 of FIG. 6 are also shown in FIG. It is configured in the same way.
  • the encoded data is supplied to an entropy decoding circuit 151, which entropy decodes the encoded data to obtain a quantized DCT coefficient, and a motion vector included in the encoded data. , Quantization tables, and other necessary information. Then, the quantized DCT coefficient and the quantization table are supplied to the inverse quantization circuit 152, and the motion vector is supplied to the motion compensation circuit 156.
  • the inverse quantization circuit 1 5 2 is a quantized DCT coefficient from the entropy decoding circuit 1 5 1 Is also inversely quantized according to the quantization table from the entropy decoding circuit 11 to obtain a DCT coefficient, which is supplied to the inverse DCT circuit 153.
  • the inverse DCT circuit 153 performs an inverse DCT process on the DCT coefficient from the inverse quantization circuit 152 and outputs the result to the arithmetic unit 154.
  • the arithmetic unit 154 receives the already decoded I-picture or P-picture output from the motion compensation circuit 156 as well as the output of the inverse quantization circuit 153, and outputs the decoded data to the end-to-end decoding circuit 15
  • the motion compensated according to the motion vector from 1 is supplied as a reference image, and the arithmetic unit 154 outputs the output of the inverse DCT circuit 153 from the P or B picture. In the case of, the output is added to the output of the motion compensation circuit 156 to decode the original image and supply it to the block decomposition circuit 155. If the output of the inverse DCT circuit 153 is that of an I-picture, the arithmetic unit 154 outputs the decoded picture of the I-picture, so Supply circuit 1 5 5.
  • the block decomposition circuit 155 obtains and outputs decoded image data by deblocking the decoded image supplied from the arithmetic unit 154 in units of pixel blocks.
  • the motion compensation circuit 156 receives the I-picture and the P-picture of the decoded image output from the arithmetic unit 154, and performs motion compensation according to the motion vector from the event speech decoding circuit 151. Is applied. Then, the motion compensation circuit 156 supplies the image after the motion compensation to the arithmetic unit 154 as a reference image.
  • the additional information output unit 157 obtains information obtained in the process of decoding the encoded data into the decoded image data as described above, and part or all of the information is obtained. Output as additional information.
  • the additional information output unit 157 includes the quantization table, the quantized DCT coefficient, and the motion vector output from the entropy decoding circuit 151, and the DCT coefficient output from the inverse quantization circuit 122. It is being supplied. Further, the additional information output unit 157 includes information (for example, picture type and block information) arranged in each layer of the MPEG stream obtained by entropy decoding the encoded data by the entropy decoding circuit 151. Position information, frame D CT mode / field D CT mode, etc.) are also supplied. The additional information output unit 157 outputs a part or all of the information as additional information.
  • information for example, picture type and block information
  • FIG. 14 shows a configuration example of an embodiment of a computer in which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on a hard disk 205 or ROM 203 as a recording medium built in the computer.
  • the program may be a removable storage medium such as a floppy disk, CD-ROM (Compact Disc Read-Only Memory), M0 (Magneto optical) disk, DVD (Digital Versati le Disc), magnetic disk, or semiconductor memory. 11 It can be stored (recorded) temporarily or permanently.
  • a removable recording medium 211 can be provided as so-called package software.
  • the program can be installed on the computer from the removable recording medium 211 described above, or transmitted from the download site wirelessly to a computer via a digital satellite broadcasting artificial satellite, or via a LAN ( Local area network), the Internet, and a wired transfer to a computer via a network.
  • the computer receives the transferred program in the communication unit 208, and the built-in hard disk 20 5 can be installed.
  • the computer includes a CPU (Central Processing Unit) 202.
  • An input / output interface 210 is connected to the CPU 202 via a bus 201, and the CPU 202 is operated by a user via the input / output interface 210 by a user.
  • the input unit 207 consisting of a board, mouse, microphone, etc. is operated When a command is input, the program stored in R0M (Read Only Memory) 203 is executed in accordance with the command.
  • R0M Read Only Memory
  • the CPU 202 may execute a program stored on the hard disk 205, a program transferred from a satellite or a network, received by the communication unit 208, and installed on the hard disk 205, or The program read from the removable recording medium 211 mounted on the drive 209 and installed on the hard disk 205 is loaded into a RAM (Random Access Memory) 204 and executed. Accordingly, the CPU 202 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 202 outputs the processing result as needed from, for example, an output unit 206 including an LCD (Liquid CryStal Display) or a speaker via the input / output interface 210. Alternatively, the data is transmitted from the communication unit 208 and further recorded on the hard disk 205.
  • an output unit 206 including an LCD (Liquid CryStal Display) or a speaker via the input / output interface 210.
  • the data is transmitted from the communication unit 208 and further recorded on the
  • processing steps for describing a program for causing a computer to perform various types of processing do not necessarily need to be processed in chronological order in the order described as a flowchart, and may be performed in parallel or in parallel. It also includes processes that are executed individually (for example, parallel processing or processing by objects).
  • the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.
  • the present invention is applicable without being limited to a specific coded Z decoding method. That is, in the present embodiment, the CELP system, the JPEG system, and the MPEG2 system have been described. However, the present invention also includes, for example, the M-JPEG (Motion JPEG) system, MPEG1, 4, P3 (MPEG-1 The present invention is applicable to various encoding / decoding methods such as the Audio Layer 3) method and the ATRAC (Adaptive TRansform Acoustic Coding) method.
  • M-JPEG Motion JPEG
  • MPEG1 Motion JPEG1
  • MPEG-1 MPEG-1
  • the present invention is applicable to various encoding / decoding methods such as the Audio Layer 3) method and the ATRAC (Adaptive TRansform Acoustic Coding) method.
  • the encoded data is decoded by the decoding method corresponding to the encoding method, but the encoded data can be decoded by the class classification adaptive processing.
  • Decoding of encoded data by class classification adaptive processing Can be performed by using data to be encoded as teacher data and using tap coefficients obtained by learning the encoded data obtained by encoding the data as student data.
  • a prediction value of high quality data is obtained by a linear primary prediction operation using tap coefficients. It can also be obtained by calculation.
  • the tap coefficient for improving the quality is stored in advance in the class classification adaptive processing circuit 24 of the decoder 2, but the tap coefficient is included in the encoded data. , Decoder 2. '
  • a prediction tap is generated from the first additional information and the second additional information in addition to the first decoded data and the second decoded data. For example, it is possible to generate from only the first decoded data and the second decoded data. The same applies to class taps.
  • encoded data is decoded, and decoded data obtained as a result is encoded, and re-encoded data is output. Is done. Then, a prediction tap for performing a predetermined prediction operation with the tap coefficient obtained by performing the learning is generated from the decoded data and information obtained from the re-encoded data, and the prediction tap and the tap coefficient are used. Then, by performing a predetermined prediction operation, a prediction value corresponding to teacher data used as a teacher in learning is obtained. Therefore, for example, it is possible to obtain data with sufficiently improved quality.
  • the data processing method, the program, and the recording medium of the present invention from teacher data serving as a teacher, decoded data obtained by encoding and decoding the teacher data, and encoding the decoded data From the encoded recoded data Information is generated as student data to be students. Then, a prediction tap used to predict the teacher data is generated from the student data, and the prediction error of the prediction value of the teacher data obtained by performing a predetermined prediction operation using the prediction tap and the tap coefficient is calculated. Learning is performed so as to be statistically minimized, and tap coefficients are obtained. Therefore, by performing a prediction operation using the tap coefficients, for example, it is possible to obtain data with sufficiently improved quality.
  • the encoded data obtained by encoding the data is decoded, and the resulting decoded data is encoded.
  • the re-encoded data is output.
  • a class tap used for class classification is generated from the decoded data and information obtained from the re-encoded data, and the class classification is performed based on the class tap. Therefore, appropriate classification of data becomes possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Description

明細書
データ処理装置 技術分野
本発明は、 データ処理装置に関し、 特に、 例えば、 画質の良い画像や、 音質の 良い音声等を復号することができるようにするデータ処理装置に関する。
背景技術
本件出願人は、 画像の画質や音声の音質を向上させる方法として、 クラス分類 適応処理を、 先に提案している。
クラス分類適応処理は、 クラス分類処理と適応処理とからなり、 クラス分類処 理によって、 データを、 その性質に基づいてクラス分けし、 各クラスごとに適応 処理を施すものであり、 適応処理は、 以下のような手法のものである。
即ち、 例えば、 いま、 画像を対象とすると、 適応処理では、 例えば、 低画質の 画像の画素値と、 所定のタップ係数との線形結合により、 高画質の画像の画素値 の予測値を求めることで、 低画質の画像が、 高画質の画像に変換される。
具体的には、 例えば、 いま、 ある高画質の画像を教師データとするとともに、 その高画質の画像を、 例えば、 JPEG (Joint Photographic Experts Group)方式や MPEG (Moving Picture Experts Group)方式等によって符号化し、 さらに、 その符 号化データを復号して得られる、 画質の低下した復号画像を生徒データとして、 教師データである高画質の画素値 yの予測値 E [ y ] を、 生徒データである低画 質の画素値の幾つか x 2, ■ · ' の集合と、 所定のタップ係数 w w2, ■ - ■の線形結合により規定される線形 1次結合モデルにより求めることを考える c この場合、 予測値 E [ y ] は、 次式で表すことができる。
E L y ] = W ! !+ w2 2 + · ■ "
• · · ( 1 ) 式 (1 ) を一般化するために、 タップ係数 W jの集合でなる行列 W、 生徒デー タ Xijの集合でなる行列 X、 および予測値 E [y の集合でなる行列 Y, を.
1】
Figure imgf000004_0001
で定義すると、 次のような観測方程式が成立する,
XW= Y'
(2) ここで、 行列 Xの成分 Xijは、 i件目の生徒データの集合 ( i件目の教師データ yiの予測に用いる生徒データの集合) の中の j番目の生徒データを意味し、 行 列 Wの成分 Wjは、 生徒データの集合の中の j番目の生徒データとの積が演算さ れるタップ係数を表す。 また、 yiは、 i件目の教師データを表し、 従って、 E
[y ;] は、 i件目の教師データの予測値を表す。 なお、 式 (1) の左辺におけ る yは、 行列 Yの成分 yiのサフィックス iを省略したものであり、 また、 式
(1) の右辺における X l, x , ■ ■ ■ も、 行列 Xの成分 X ijのサフィックス i を省略したものである。
式 (2) の観測方程式に最小自乗法を適用して、 画質の良い画素値 yに近い予 測値 E [y ] を求めることを考える。 この場合、 教師データとなる画素値 yの集 合でなる行列 Y、 および画素値 yに対する予測値 E [y] の残差 eの集合でなる 行列 Eを、
【数 2】
ei yi
E= , Υ=
Υτ J で.ド∑定義すると、 式 (2) から、 次のような残差方程式が成立する。
Θ XW= Y+E
(3) この場合、 元の画素値 yに近い予測値 E [y] を求めるためのタップ係数 Wj は、 自乗誤差
【数 3】
2 を最小にすることで求めることができる。
従って、 上述の自乗誤差をタップ係数 で微分したものが 0になる場合、 即 ち、 次式を満たすタップ係数 Wjが、 画素値 yに近い予測値 E [ y ] を求めるた め最適値ということになる。
【数 4】
1.2, .-,J )
Figure imgf000005_0001
(4) そこで、 まず、 式 (3) を、 タップ係数 Wjで微分することにより、 次式が成 立する。
【数 5】
9ei =Xii, ^-=Xi ■ 9ei =XiJ,
3wi 2, (i=1,2,-..,I)
aw2 , 8wj
(5) 式 (4) および (5) より、 式 (6) が得られる,
【数 6】
Figure imgf000005_0002
(6)
差替え用紙 "(規 さらに、 式 (3) の残差方程式における生徒データ X ij、 タップ係数 Wj、 教師 データ yi、 および残差 の関係を考慮すると、 式 (6) から、 次のような正規 方程式を得ることができる。
【数 7】
I I T I
(∑ ilXil)Wi+(2XiiXj2)W2+--.+(∑XiiXij)Wj=(∑ i yi)
i=1 i=1 i=1 i=1 ί I 1 ]
(∑Xi2Xi1)Wi + ( Xi2Xi2)W2+'''+(∑Xi2XiJ)Wj = (∑Xi2yi)
i=1 i=1 i=1 i=1 ijyi)
Figure imgf000006_0001
■ · · (7) なお、 式 (7) に示した正規方程式は、 行列 (共分散行列) Aおよびべクトル
Vを、
【数 8】
I I
∑XilXi1 ∑XilXi2 i iJ
i=1 i=1
I I
∑Xi2Xi1 ' ∑Xi2Xi2 ∑Xi2XiJ
i=1 i=1
I
∑XiJXi1 ∑XiJXi2 ∑XiJX iJ
i=1 i=1
I
∑XilYi
i=1
X
I
V = ∑Xi2Yi
i=1
I
∑XiJYi
i=1
で定義するとともに、 ベク トル Wを、 数 1で示したように定義すると、 式
AW= V
• · · (8) で表すことができる。
式 (7) における各正規方程式は、 生徒データ および教師データ yiのセ ットを、 ある程度の数だけ用意することで、 求めるべきタップ係数 Wjの数 Jと 同じ数だけたてることができ、 従って、 式 (8) を、 ベタ トル Wについて解くこ とで (但し、 式 (8) を解くには、 式 (8) における行列 Aが正則である必要が ある) 、 統計的な予測誤差を最小にするタップ係数 (ここでは、 自乗誤差を最小 にするタップ係数) Wjを求めることができる。 なお、 式 (8) を解くにあたつ ては、 例えば、 掃き出し法 (Gauss - Jordanの消去法) などを用いることが可能 である。
差替え用紙(規則 26) 以上のようにして、 統計的な予測誤差を最小にするタップ係数 W jを求めてお き、 さらに、 そのタップ係数 W jを用い、 式 (1 ) により、 高画質の画素値 yに 近い予測値 E [ y ] を求めるのが適応処理である。
なお、 例えば、 教師データとして、 符号化する画像と同一画質の画像を用いる とともに、 生徒データとして、 その教師データを符号化し、 さらに復号して得ら れる復号画像を用いた場合、 タップ係数としては、 符号化された画像データを、 元の画像データに復号するのに、 予測誤差が統計的に最小となるものが得られる ことになる。
また、 例えば、 教師データとして、 符号化する画像よりも高解像度の画像を用 いるとともに、 生徒データとして、 その教師データの解像度を、 符号化する画像 と同一画質に劣化させ、 それを符号化して復号することにより得られる復号画像 を用いた場合、 タップ係数としては、 符号化された画像データを、 高解像度の画 像データに復号するのに、 予測誤差が統計的に最小となるものが得られることに なる。
従って、 この場合、 適応処理によれば、 教師データまたは生徒データとなる画 像の選択のしたかによつて、 復号画像の画質を任意に調整することの可能なタツ プ係数を得ることができる。
なお、 適応処理は、 学習によって、 予測誤差が統計的に最小になるタップ係数 が用いられる点、 およびそのようなタップ係数を用いることにより、 符号化され る画像には含まれていない高周波数成分が再現されることがある点等において、 フィルタによる単なるフィルタリングとは大きく異なる。
以上から、 符号化データを復号した復号画像を対象に、 クラス分類適応処理を 行った場合には、 画質を向上させた復号画像を得ることができる。
しかしながら、 符号化データを復号した復号画像の画質が、 例えば、 符号化デ ータを伝送する伝送路の状態や、 画像データの符号化時における圧縮率等に起因 して大きく劣化している場合には、 復号画像だけを用いてクラス分類適応処理を 行っても、 その画質を十分に改善することが困難なことがあった。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 品質が十分に改善さ れたデータを得ることができるようにするものである。
本発明の第 1のデータ処理装置は、 符号化データを復号し、 復号データを出力 する復号手段と、 復号データを符号化し、 再符号化データを出力する再符号化手 段と、 学習を行うことにより求められたタップ係数との所定の予測演算を行う予 測タップを、 復号データと、 再符号化データから得られる情報とから生成する予 測タップ生成手段と、 予測タップとタップ係数とを用いて、 所定の予測演算を行 うことにより、 学習において教師として用いられた教師データに対応する予測値 を求める予測手段とを備えることを特徴とする。
本発明の第 1のデータ処理方法は、 符号化データを復号し、 復号データを出力 する復号ステップと、 復号データを符号化し、 再符号化データを出力する再符号 化ステップと、 学習を行うことにより求められたタップ係数との所定の予測演算 を行う予測タップを、 復号データと、 再符号化データから得られる情報とから生 成する予測タップ生成ステップと、 予測タップとタップ係数とを用いて、 所定の 予測演算を行うことにより、 学習において教師として用いられた教師データに対 応する予測値を求める予測ステップとを備えることを特徴とする。
本発明の第 1のプログラムは、 符号化データを復号し、 復号データを出力する 復号ステップと、 復号デ タを符号化し、 再符号化データを出力する再符号化ス テツプと、 学習を行うことにより求められたタツプ係数との所定の予測演算を行 う予測タップを、 復号データと、 再符号化データから得られる情報とから生成す る予測タップ生成ステップと、 予測タップとタップ係数とを用いて、 所定の予測 演算を行うことにより、 学習において教師として用いられた教師データに対応す る予測値を求める予測ステップとを備えることを特徴とする。
本発明の第 1の記録媒体は、 符号化データを復号し、 復号データを出力する復 号ステップと、 復号データを符号化し、 再符号化データを出力する再符号化ステ ップと、 学習を行うことにより求められたタツプ係数との所定の予測演算を行う 予測タップを、 復号データと、 再符号化データから得られる情報とから生成する 予測タップ生成ステップと、 予測タップとタツプ係数とを用いて、 所定の予測演 算を行うことにより、 学習において教師として用いられた教師データに対応する 予測値を求める予測ステップとを備えるプログラムが記録されていることを特徴 とする。
本発明の第 2のデータ処理装置は、 教師となる教師データから、 その教師デー タを符号化して復号した復号データと、 その復号データを符号化した再符号化デ ータから得られる情報とを、 生徒となる生徒データとして生成する生徒データ生 成手段と、 教師データを予測するのに用いる予測タップを、 生徒データから生成 する予測タップ生成手段と、 予測タップとタップ係数とを用いて、 所定の予測演 算を行うことにより得られる教師データの予測値の予測誤差が、 統計的に最小に なるように学習を行い、 タップ係数を求める学習手段とを備えることを特徴とす る。
本発明の第 2のデータ処理方法は、 教師となる教師データから、 その教師デー タを符号化して復号した復号データと、 その復号デ一タを符号化した再符号化デ —タから得られる情報とを、 生徒となる生徒データとして生成する生徒データ生 成ステップと、 教師データを予測するのに用いる予測タップを、 生徒データから 生成する予測タップ生成ステップと、 予測タップとタップ係数とを用いて、 所定 の予測演算を行うことにより得られる教師データの予測値の予測誤差が、 統計的 に最小になるように学習を行い、 タップ係数を求める学習ステップとを備えるこ とを特徴とする。
本発明の第 2のプログラムは、 教師となる教師データから、 その教師データを 符号化して復号した復号データと、 その復号データを符号化した再符号化データ から得られる情報とを、 生徒となる生徒データとして生成する生徒データ生成ス テツプと、 教師データを予測するのに用いる予測タップを、 生徒データから生成 する予測タップ生成ステップと、 予測タップとタップ係数とを用いて、 所定の予 測演算を行うことにより得られる教師データの予測値の予測誤差が、 統計的に最 小になるように学習を行い、 タップ係数を求める学習ステップとを備えることを 特徴とする。
本発明の第 2の記録媒体は、 教師となる教師データから、 その教師データを符 号化して復号した復号データと、 その復号データを符号化した再符号化データか ら得られる情報とを、 生徒となる生徒データとして生成する生徒データ生成ステ ップと、 教師データを予測するのに用いる予測タップを、 生徒データから生成す る予測タップ生成ステップと、 予測タップとタップ係数とを用いて、 所定の予測 演算を行うことにより得られる教師データの予測値の予測誤差が、 統計的に最小 になるように学習を行い、 タップ係数を求める学習ステップとを備えるプロダラ ムが記録されていることを特徴とする。
本発明の第 3のデータ処理装置は、 データを符号化した符号化データを復号し、 復号データを出力する復号手段と、 復号データを符号化し、 再符号化データを出 力する再符号化手段と、 クラス分類に用いるクラスタップを、 復号データと、 再 符号化データから得られる情報とから生成するクラスタップ生成手段と、 クラス タップに基づいて、 クラス分類を行うクラス分類手段とを備えることを特徴とす る。
本発明の第 3のデータ処理方法は、 データを符号化した符号化データを復号し、 復号データを出力する復号ステップと、 復号データを符号化し、 再符号化データ を出力する再符号化ステップと、 クラス分類に用いるクラスタップを、 復号デ一 タと、 再符号化データから得られる情報とから生成するクラスタップ生成ステツ プと、 クラスタップに基づいて、 クラス分類を行うクラス分類ステップとを備え ることを特徴とする。
本発明の第 3のプログラムは、 データを符号化した符号化データを復号し、 復 号データを出力する復号ステップと、 復号データを符号化し、 再符号化データを 出力する再符号化ステップと、 クラス分類に用いるクラスタップを、 復号データ と、 再符号化データから得られる情報とから生成するクラスタツプ生成ステップ と、 クラスタップに基づいて、 クラス分類を行うクラス分類ステップとを備える ことを特徴とする。
本発明の第 3の記録媒体は、 データを符号化した符号化データを復号し、 復号 データを出力する復号ステップと、 復号データを符号化し、 再符号化データを出 力する再符号化ステップと、 クラス分類に用いるクラスタップを、 復号データと、 再符号化データから得られる情報とから生成するクラスタツプ生成ステップと、 クラスタップに基づいて、 クラス分類を行うクラス分類ステップとを備えるプロ グラムが記録されていることを特徴とする。
本発明の第 1のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体においては、 符号化データが復号され、 その結果得られる復号データ が符号化されて、 再符号化データが出力される。 そして、 学習を行うことにより 求められたタツプ係数との所定の予測演算を行う予測タップが、 復号データと、 再符号化データから得られる情報とから生成され、 予測タップとタツプ係数とを 用いて、 所定の予測演算を行うことにより、 学習において教師として用いられた 教師データに対応する予測値が求められる。
本発明の第 2のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体においては、 教師となる教師データから、 その教師データを符号化し て復号した復号データと、 その復号データを符号化した再符号化データから得ら れる情報とが、 生徒となる生徒データとして生成される。 そして、 教師データを 予測するのに用いる予測タップが、 生徒データから生成され、 予測タップとタツ プ係数とを用いて、 所定の予測演算を行うことにより得られる教師データの予測 値の予測誤差が、 統計的に最小になるように学習が行われ、 タップ係数が求めら れる。
本発明の第 3のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体においては、 データを符号化した符号化データが復号され、 その結果 得られる復号データが符号化されて、 再符号化データが出力される。 そして、 ク ラス分類に用いるクラスタップが、 復号データと、 再符号化データから得られる 情報とから生成され、 そのクラスタップに基づいて、 クラス分類が行われる, 図面の簡単な説明
図 1は、 本発明を適用したデータ伝送システムの一実施の形態の構成例を示す 図である。 .
図 2は、 デコーダ 2の構成例を示すプロック図である。
図 3は、 クラス分類適応処理回路 2 4の構成例を示すブロック図である。 図 4 A〜図 4 Dは、 クラス分類部 3 3および 5 9の構成例を示すプロック図で ある。 ―
図 5は、 デコーダ 2の処理を説明するフローチャートである。
図 6は、 本発明を適用した学習装置の一実施の形態の構成例を示すプロック図 である。
図 7は、 学習装置の処理を説明するフローチャートである。
図 8は、 エンコーダ 1、 符号化部 2 2 , 5 2、 および 5 5の第 1の構成例を示 すプロック図である。
図 9は、 復号部 2 1, 2 3 , 5 4、 および 5 6の第 1の構成例を示すプロック 図である。
図 1 0は、 エンコーダ 1、 符号化部 2 2 , 5 2、 および 5 5の第 2の構成例を 示すブロック図である。
図 1 1は、 復号部 2 1 , 2 3 , 5 4、 および 5 6の第 2の構成例を示すブロッ ク図である。
図 1 2は、 エンコーダ 1、 符号化部 2 2 , 5 2、 および 5 5の第 3の構成例を 示すブロック図である。
図 1 3は、 復号部 2 1, 2 3 , 5 4、 および 5 6の第 3の構成例を示すブロッ ク図である。
図 1 4は、 本発明を適用したコンピュータの一実施の形態の構成例を示すプロ ック図である。 発明を実施するための最良の形態
図 1は、 本発明を適用したデータ伝送システムの一実施の形態の構成例を示し ている。
伝送すべき'データは、 エンコーダ 1に供給されるようになっており、 ェンコ一 ダ 1は、 そこに供給されるデータを、 例えば、 所定の符号化方式にしたがって符 号化し、 符号化データとする。 この符号化データは、 例えば、 半導体メモリ、 光 磁気ディスク、 磁気ディスク、 光ディスク、 磁気テープ、 相変化ディスクなどで なる記録媒体 3に記録され、 あるいは、 また、 例えば、 地上波、 衛星回線、 C A T V (Cabl e Te levi sion) 網、 インターネット、 公衆回線などでなる伝送媒体 4 を介して伝送される。
デコーダ 2は、 記録媒体 3または伝送媒体 4を介して提供される符号化データ を受信して復号し、 その結果得られる復号データを出力する。 復号データが、 例 えば、 画像データである場合には、 その画像データは、 例えば、 図示せぬデイス プレイに供給されて表示される。 また、 符号化データが、 例えば、 音声データで ある場合には、 その音声データは、 例えば、 図示せぬスピーカに供給されて出力 される。
次に、 図 2は、 図 1のデコーダ 2の構成例を示している。
符号化データは、 復号部 2 1に供給されるようになっており、 復号部 2 1は、 例えば、 エンコーダ 1における符号化方式に対応する復号方式にしたがって、 符 号化データを復号し、 その結果得られる復号データを、 符号化部 2 2とクラス分 類適応処理回路 2 4に供給する。 さらに、 復号部 2 1は、 符号化データを復号す る過程において得られる情報を、 付加情報として、 クラス分類適応処理回路 2 4 に供給する。
符号化部 2 2は、 復号部 2 1から供給される復号データを、 例えば、 図 1のェ ンコーダ 1におけるのと同一の符号化方式にしたがって符号化 (再符号化) し、 再符号化データを得る。 この再符号化データは、 符号化部 2 2から復号部 2 3に 供給される。
復号部 2 3は、 例えば、 復号部 2 1 と同様にして、 符号化部 2 2からの再符号 化データを復号し、 その結果得られる復号データを、 クラス分類適応処理回路 2 4に供給する。 さらに、 復号部 2 3は、 再符号化データを復号する過程において 得られる情報を、 付加情報として、 クラス分類適応処理回路 2 4に供給する。 ここで、 以下、 適宜、 最初の復号を行う復号部 2 1が出力する復号データを第 1復号データと、 2番目の復号を行う復号部 2 3が出力する復号データを第 2復 号データと、 それぞれ記述する。 同様に、 以下、 適宜、 最初の復号を行う復号部 2 1が出力する付加情報を第 1付加情報と、 2番目 復号を行う復号部 2 3が出 力する付加情報を第 2付加情報と、 それぞれ記述する。 また、 以下、 適宜、 第 1 復号データと第 2復号データをまとめて、 単に、 復号データとも記述する。 同様 に、 以下、 適宜、 第 1付加情報と第 2付加情報をまとめて、 単に、 付加情報とも 記述する。
クラス分類適応処理回路 2 4は、 復号部 2 1から供給される第 1復号データと 第 1付加情報、 さらには、 復号部 2 3から供給される第 2復号データと第 2付加 情報を用いて、 クラス分類適応処理を行い、 符号化データの最終的な復号結果と しての復号データ (以下、,適宜、 最終的な復号データという) を出力する。 従って、 クラス分類適応処理回路 2 4では、 符号化データを復号して得られる 第 1復号データの他、 その復号過程で得られる第 1付加情報、 さらには、 第 1復 号データを再符号化し、 その再符号化データを復号した第 2復号データ、 および 再符号化データを復号する過程で得られる第 2付加情報を用いて、 クラス分類適 応処理が行われるので、 第 1復号データの品質が大きく劣化している場合であつ ても、 最終的な復号データとして、 十分に品質が改善されたものを得ることが可 能となる。
なお、 復号部 2 3の後段には、 符号化部 2 2と復号部 2 3のセッ トと同様のセ ットを、 1以上設けることができ、 これにより、 クラス分類適応処理回路 2 4に は、 第 2復号データを符号化し、 その結果得られる符号化データを復号した第 3 復号データや、 その復号過程で得られる第 3付加情報を供給して、 クラス分類適 応処理を行わせることが可能である。
次に、 図 3は、 図 2のクラス分類適応処理回路 2 4の構成例を示している。 第 1復号データ、 第 1付加情報、 第 2復号データ、 および第 2付加情報は、 タ ップ生成部 3 1 と 3 2に供給される。
タップ生成部 3 1は、 第 1復号データ、 第 1付加情報、 第 2復号データ、 およ び第 2付加情報から、 後述する予測部 3 5における予測演算に用いられる予測タ ップとなるものを生成する。 即ち、 タップ生成部 3 1は、 例えば、 品質を改善し ようとして注目している注目データに対して、 時間的または空間的に近い位置に ある第 1復号データと第 2復号データを抽出するととともに、 その第 1復号デ一 タと第 2復号デ一タの復号にそれぞれ用いられた第 1付加情報と第 2付加情報を 抽出し、 その抽出したデータ (情報) を、 予測タップとして、 予測部 3 5に供給 する。
タップ生成部 3 2は、 第 1復号データ、 第 1付加情報、 第 2復号データ、 およ び第 2付加情報から、 後述するクラス分類部 3 3におけるクラス分類に用いられ るクラスタップとなるものを生成する。 即ち、 タップ生成部 3 2は、 例えば、 注 目データについて、 タップ生成部 3 1で生成される予測タップと同一構成のクラ スタップを生成し、 クラス分類部 3 5に供給する。
なお、 ここでは、 説明を簡単にするために、 同一のクラスタップおよび予測タ ップを構成するようにしたが、 クラスタップと予測タップとは、 異なる構成とす ること、 即ち、 第 1復号データ、 第 1付加情報、 第 2復号データ、 および第 2付 加情報から、 異なるデータを抽出して生成することが可能である。
クラス分類部 3 3は、 タップ生成部 3 2からのクラスタップに基づき、 注目デ ータについてクラス分類を行い、 その結果得られるクラスに対応するクラスコー ドを、 係数メモリ 3 4に出力する。
係数メモリ 3 4は、 後述する図 6の学習装置において学習処理が行われること により得られる、 クラスごとのタップ係数を記憶しており、 クラス分類部 3 3が 出力するクラスコードに対応するァドレスに記憶されているタップ係数を、 予測 部 3 5に出力する。
予測部 3 5は、 タップ生成部 3 1が出力する予測タップと、 係数メモリ 3 4が 出力するタップ係数とを取得し、 その予測タップとタップ係数とを用いて、 式 ( 1 ) に示した線形予測演算 (積和演算) を行い、 注目データについて品質を改 善したデータ、 即ち、 注目データを高品質にしたものの予測値を求めて出力する。 次に、 図 4は、 図 3のクラス分類部 3 3の構成例を示している。
クラス分類部 3 3は、 例えば、 図 4 Aに示すように、 ADRC (Adaptive Dynamic Range Coding)回路 4 1 Aおよび 4 1 B、 並びに合成回路 4 1 Cで構成すること ができる。
この場合、 ADRC回路 4 1 Aと 4 1 Bは、 クラスタップを構成する復号データ と付加情報をそれぞれ Kビッ ト ADRC処理し、 その結果得られる ADRC コードを、 合成回路 4 1 Cに出力する。
ここで、 Kビット ADRC処理においては、 例えば、 クラスタップを構成する情 報の最大値 MAXと最小値 MINが検出され、 DR=MAX- MINを、 集合の局所的なダイ ナミックレンジとし、 このダイナミックレンジ DRに基づいて、 クラスタップを 構成する情報が Kビットに再量子化される。 即ち、 クラスタップを構成する各情 報から、 最小値 MINが減算され、 その減算値が DR/2Kで除算 (量子化) される。 そして、 以上のようにして得られる、 クラスタップを構成する各情報の Kビット の値を、 所定の順番で並べたビッ ト列が、 ADRCコードとして出力される。
合成回路 4 1 Cは、 ADRC回路 4 1 Aが出力する復号データの ADRC コードと、 ADRC回路 4 1 Bが出力する付加情報の ADRC コードとを、 1つのコードに合成し、 クラスコードとして出力する。
ここで、 後述するように、 クラスタップを構成する付加情報は、 1種類とは限 らないが、 付加情報が複数種類存在する場合には、 ADRC回路 4 1 Bでは、 その 複数種類の付加情報それぞれについて、 ADRC処理が行われ、 複数の ADRCコード が出力される。 そして、 合成回路 4 1 Cでは、 その複数の ADRCコードから、 1 つのコードが生成される。 後述する図 4 B乃至図 4 Dそれぞれに示すクラス分類 部 3 3においても同様である。
次に、 クラス分類部 3 3は、 例えば、 図 4 Bに示すように、 演算器 42 Aおよ び 42 Bと、 図 4八に示した 01«:回路4 1 Aおよび 4 1 B、 並びに合成回路 4 1 Cとから構成することもできる。
即ち、 この場合、 演算器 4 2Aは、 クラスタップを構成する第 1復号データと、 その第 1復号データに対応する第 2復号データとの差分を演算し、 その差分値を、 ADRC回路 4 1 Aに供給する。 演算器 4 2 Bは、 クラスタップを構成する第 1付 加情報と、 その第 1付加情報に対応する第.2付加情報との差分を演算し、 その差 分値を、 ADRC回路 4 1 Bに出力する。
ここで、 第 1復号データに対応する第 2復号データとは、 例えば、 復号データ が画像である場合には、 第 1復号データとして得られた復号画素と同一の、 第 2 復号データとして得られた復号画素を意味する。 即ち、 あるフレーム f における 位置 (X , y) における第 i m号データと第 2復号データとしての復号画素を、 それぞれ、 p i ( f , x, y ) と p 2 ( f , x, y) と表すこととすると、 第 1 復号データ p i ( f , χ , y ) に対応する第 2復号データとは、 p 2 ( f , x , y) を意味する。
また、 第 1付加情報に対応する第 2付加情報とは、 例えば、 復号データが後述 する CELP(Code Excited Liner Prediction coding)方式で復号された音声デー タであり、 かつ、 付加情報が、 その復号の過程で得られる線形予測係数である場 合には、 第 1付加情報として得られた線形予測係数と同一次数の、 第 2付加情報 として得られた線形予測係数を意味する。 即ち、 あるフレーム (またはサブフレ ーム) f における第 1復号データと第 2復号データとしての音声の復号に用いら れる第 p次の線形予測係数を、 それぞれ、 a l ( f , p) と ひ 2 ( f , ρ) と表 すこととすると、 第 1付加情報 a l ( f , p) に対応する第 2付加情報とは、 2 ( f , p) を意味する。 さらに、 例えば、 復号データが、 後述する JPEG方式 で復号された画像データであり、 かつ付加情報が、 その復号の過程で得られる D CT係数である場合には、 第 1付加情報に対応する第 2付加情報とは、 第 1付加 情報として得られた DCT係数と同一空間周波数成分の、 第 2付加情報として得ら れた DCT係数を意味する。 即ち、 あるフレーム f の、 ある 8 X 8のブロック に おける位置 (X , y ) の第 1付加情報と第 2付加情報としての DCT係数を、 それ ぞれ、 d l ( f , b, x, y ) と d 2 ( f , b, x, y) と表すこととすると、 第 1付加情報 d l ( f , b, x, y) に対応する第 2付加情報とは、 d 2 ( f , b, x, y ) を意味する。
以下、 第 1復号データと第 2復号データの差分値、 および第 1付加情報と第 2 付加情報との差分値について、 図 4 Aにおける場合と同様の処理が行われ、 クラ スコードが求められる。
さらに、 クラス分類回路 3 3は、 例えば、 図 4 Cに示すように構成することも 可能である。
この場合も、 図 4 Bにおける場合と同様に、 演算器 42 Aにおいて、 第 1復号 データと第 2復号データとの差分値が求められるとともに、 演算器 42 Bにおい て、 第 1付加情報と第 2付加情報との差分値が求められる。
第 1復号データと第 2復号データとの差分値は、 演算器 42 Aから極性判別回 路 43 Cに供給され、 極性判別回路 43 Cは、 第 1復号データと第 2復号データ との差分値の極性 (符号) を判別し、 その極性に応じて、 0または 1を、 合成回 路 43 Eに出力する。
また、 第 1付加情報と第 2付加情報との差分値は、 演算器 42Bから極性判別 回路 4 3Dに供給され、 極性判別回路 43 Dは、 第 1付加情報と第 2付加情報と の差分値の極性を判別し、 やはり、 その極性に応じて、 0または 1を、 合成回路 43 Eに出力する。
合成回路 43 Eは、 極性判別回路 43 Cと 44 Cそれぞれからの、 極性に対応 する 0または 1の系列を、 1つのコードに合成し、 クラスコードとして出力する。 さらに、 クラス分類部 3 3は、 図 4Dに示すように、 遅延回路 44Aおよび 4 4 B、 並びに演算器 44 Cおよび 44 Dと、 図 4 Aに示した ADRC回路 4 1 Aお よび 4 1 B、 並びに合成回路 4 1 Cとから構成することも可能である。
この場合、 遅延回路 4 4 Aは、 クラスタップを構成する復号データを、 例えば、
1サンプル分 (1クラスタップ分) の時間だけ遅延して、 演算器 4 4 Cに供給す る。 演算器 4 4 Cは、 クラスタップを構成する復号データと、 遅延回路 4 4 Aか らの、 その復号データを遅延したものとの差分を演算し、 その差分値を、 ADRC 回路 4 1 Aに供給する。
一方、 遅延回路 4 4 Bは、 クラスタップを構成する付加情報を、 例えば、 1サ ンプル分の時間だけ遅延して、 演算器 4 4 Dに供給する。 演算器 4 4 Dは、 クラ スタップを構成する付加情報と、 遅延回路 4 4 Bからの、 その付加情報を遅延し たものとの差分を演算し、 その差分値を、 ADRC回路 4 1 Bに供給する。
以下、 ADRC回路 4 1 Aおよび 4 1 B、 並びに合成回路 4 1 Cでは、 上述の差 分値を対象に、 図 4 Aにおける場合と同様の処理が行われ、 クラスコードが出力 される。
なお、 クラス分類部 3 3は、 その他、 例えば、 図 4 A乃至図 4 Dに示した回路 のうちの任意の 2以上の出力を 1つのコードに合成して出力する回路によって構 成することも可能である。
さらに、 クラス分類部 3 3は、 図 4に示した回路以外の回路によって構成する ことも可能である。 即ち、 例えぱ、 符号化データが、 JPEGや MPEG符号化された もののような、 その復号過程において、 直交変換係数の 1つである DCT (Discret e Cosine Transform)係数が得られるものであり、 クラスタップを構成する付加 情報に、 そのような DCT係数が含まれる場合には、 クラス分類部 3 3は、 8 X 8 のブロックの DCT係数から得られる画像のァクティビティに基づくクラスコード を出力したり、 注目している画素のプロック内の位置に基づくクラスコードを出 力したりするように構成することが可能である。 また、 クラス分類部 3 3は、 例 えば、 クラスタップを構成する復号データや付加情報のベク トル量子化結果を、 クラスコードとして出力するように構成すること等も可能である。
次に、 図 5のフローチャートを参照して、 図 2のデコーダ 2の処理 (復号処 理) について説明する。
復号部 2 1は、 エンコーダ 1における符号化方式に対応する復号方式にしたが つて、 符号化データを復号し、 その結果得られる第 1復号データを、 符号化部 2 2とクラス分類適応処理回路 2 4に供給する。 さらに、 復号部 2 1は、 符号化デ 一タを復号する過程において得られる情報を、 第 1付加情報として、 クラス分類 適応処理回路 2 4に供給する。 符号化部 2 2は、 復号部 2 1から供給される符号 化データを再符号化し、 その結果得られる再符号化データを、 復号部 2 3に供給 する。 復号部 2 3は、 復号部 2 1と同様にして、 符号化部 2 2からの再符号化デ 一タを復号し、 その結果得られる第 2復号データを、 クラス分類適応処理回路 2 4に供給する。 さらに、 復号部 2 3は、 再符号化データを復号する過程において 得られる情報を、 第 2付加情報として、 クラス分類適応処理回路 2 4に供給する。 クラス分類適応処理回路 2 4 (図 3 ) では、 ステップ S 1において、 タップ生 成部 3 1が、 そこに供給される第 1復号データを、 順次、 注目データとし、 例え ば、 その注目データに対して、 時間的または空間的に近い位置にある第 1復号デ ータ、 注目データに対応する第 2復号データに対して、 時間的または空間的に近 い位置にある第 2復号データ、 注目データの復号過程で得られた第 1付加情報、 注目デーダに対応する第 2復号データの復号過程で得られた第 2付加情報から、 注目データについての予測タップを生成し、 予測部 3 5に出力する。 さらに、 ス テツプ S 1では、 タップ生成部 3 2が、 例えば、 タップ生成部 3 1 と同様にして、 注目データについてのクラスタップを生成し、 クラス分類部 3 3に出力する。 そして、 ステップ S 2に進み、 クラス分類部 3 3は、 タップ生成部 3 2から供 給されるクラスタップに基づいて、 クラス分類を行い、 その結果得られるクラス コードを、 係数メモリ 3 4に供給して、 ステップ S 3に進む。
ステップ S 3では、 係数メモリ 3 4は、 クラス分類部 3 3から供給されるクラ スコードに対応するアドレスから、 タップ係数を読み出し、 予測部 3 5に供給す る。
そして、 ステップ S 4に進み、 予測部 3 5は、 係数メモリ 3 4が出力するタツ プ係数を取得し、 そのタップ係数と、 タップ生成部 3 1からの予測タップとを用 いて、 式 (1 ) に示した積和演算を行い、 注目データを高品質にしたデータ (の 予測値) を得て、 ステップ S 5に進む。
ステップ S 5では、 まだ、 注目データとして処理すべき第 1復号データがある かどうかが判定され、 あると判定された場合、 ステップ S 1に戻り、 次に注目デ ータとすべき第 1復号データを、 新たに注目データとして、 以下、 同様の処理を 繰り返す。 また、 ステップ S 5において、 注目データとして処理すべきデータが ないと判定された場合、 処理を終了する。
次に、 図 6は、 図 3の係数メモリ 3 4に記憶させるタップ係数の学習処理を行 う学習装置の一実施の形態の構成例を示している。
学習装置には、 図 1のエンコーダ 1において符号化の対象とされるデータの、 例えば、 高品質のものが、 学習用データとして供給される。 この学習用データは、 学習の教師となる教師データとして、 生徒データ生成部 5 1と正規方程式加算回 路 6 0に供給される。
生徒データ生成部 5 1は、 そこに供給される教師データから、 学習の生徒とな る生徒データを生成する。
即ち、 生徒データ生成部 5 1は、 符号化部 5 2、 媒体特性反映部 5 3、 復号部 5 4、 符号化部 5 5、 および復号部 5 6から構成される。
符号化部 5 2は、 教師データを、 図 1のエンコーダ 1と同様にして符号化し、 その結果得られる符号化データを、 媒体特性反映部 5 3に供給する。 媒体特性反 映部 5 3は、 図 1の記録媒体 3または伝送媒体 4を介することによって信号に付 加される雑音等を、 符号化部 5 2からの符号化データに付加し (反映し) 、 復号 部 5 4に供給する。
復号部 5 4、 符号化部 5 5、 復号部 5 6は、 図 2に示したデコーダ 2の復号部 2 1、 符号化部 2 2、 復号部 2 3とそれぞれ同様に構成される。 従って、 復号部 5 4、 符号化部 5 5、 復号部 5 6では、 媒体特性反映部 5 3が出力する符号化デ ータが、 図 2の復号部 2 1、 符号化部 2 2、 復号部 2 3それぞれにおける場合と 2レ 同様に処理され、 その結果、 復号部 5 4は、 第 1復号データおよび第 1付加情報 を、 復号部 5 6は、 第 2復号データおよび第 2付加情報を、 それぞれ、 生徒デー タとして出力する。 この生徒データとしての第 1復号データおよび第 1付加情報、 並びに第 2復号デ一タおよび第 2付加情報は、 タップ生成部 5 7および 5 8に供 給される。
なお、 図 2のデコ ダ 2は、 上述したように、 復号部 2 3の後段に、 符号化部 2 2と復号部 2 3のセッ トと同様のセットを、 1以上設けて構成することができ るが、 この場合、 図 6の学習装置の生徒データ生成部 5 1は、 デコーダ 2と同様 に、 復号部 5 4の後段に、 符号化部 5 5と復号部 5 6のセットと同様のセッ トを、 1以上設けて構成する必要がある。
タップ生成部 5 7は、 図 3のクラス分類適応処理回路 2 4のタップ生成部 3 1 と同様に構成され、 そこに供給される生徒データとしての第 1復号データおよび 第 1付加情報、 並びに第 2復号データおよび第 2付加情報から、 タップ生成部 3 1における場合と同様にして、 予測タップを生成し、 正規方程式加算回路 6 0に 供給する。
タップ生成部 5 8は、 図 3のクラス分類適応処理回路 2 4のタップ生成部 3 2 と同様に構成され、 そこに供給される生徒データとしての第 1復号データおよび 第 1付加情報、 並びに第 2復号データおよび第 2付加情報から、 タップ生成部 3 2における場合と同様にして、 クラスタップを生成し、 クラス分類部 5 9に供給 する。
クラス分類部 5 9は、 タップ生成部 5 8から供給されるクラスタップに基づい て、 図 3のクラス分類適応処理回路 2 4のクラス分類部 3 3における場合と同様 のクラス分類を行い、 その結果得られるクラスコードを、 正規方程式加算回路 6 0に供給する。
正規方程式加算回路 6 0は、 そこに供給される教師データを、 順次、 注目教師 データとして、 タップ生成部 5 7から供給される、 注目教師データについて生成 された予測タップと、 注目教師データを対象とした足し込みを、 クラス分類部 5 9から供給されるクラスコードが表すクラスごとに行う。
即ち、 正規方程式加算回路 6 0は、 クラス分類部 5 9から供給されるクラスコ ードに対応するクラスごとに、 予測タップ (生徒データ) を用い、 式 (8 ) の行 列 Aにおける各コンポーネントとなっている、 生徒データどうしの乗算 (x in X i J と、 サメーシヨン (∑) に相当する演算を行う。
さらに、 正規方程式加算回路 6 0は、 やはり、 クラス分類部 5 9から供給され るクラスコードに対応するクラスごとに、 予測タップ (生徒データ) および注目 教師データを用い、 式 (8 ) のベク トル Vにおける各コンポーネントとなってい る、 生徒データと注目教師データの乗算 (x in y i) と、 サメーシヨン (∑) に相 当する演算を行う。
正規方程式加算回路 6 0は、 以上の足し込みを、 そこに供給される教師データ すべてを注目教師データとして行い、 これにより、 各クラスについて、 式 (8 ) に示した正規方程式をたてる。
タップ係数決定回路 6 1は、 正規方程式加算回路 6 0においてクラスごとに生 成された正規方程式を解くことにより、 クラスごとに、 タップ係数を求め、 係数 メモリ 6 2の、 各クラスに対応するァドレスに供給する。
なお、 学習用データの量や内容等によっては、 正規方程式加算回路 6 0におい て、 タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる 場合があり得るが、 タップ係数決定回路 6 1は、 そのようなクラスについては、 例えば、 デフォルトのタップ係数を出力する。
係数メモリ 6 2は、 タップ係数決定回路 6 1から供給されるクラスごとのタッ プ係数を記憶する。
次に、 図 7のフローチャートを参照して、 図 6の学習装置の処理 (学習処理) について説明する。
学習装置には、 学習用データが供給され、 この学習用データは、 教師データと して、 生徒データ生成部 5 1と正規方程式加算回路 6 0に供給される。 そして、 ステップ S 1 1において、 生徒データ生成部 5 1は、 教師データから、 生徒デー タを生成する。
即ち、 ステップ S 1 1では、 符号化部 5 2が、 教師データを、 図 1のェンコ一 ダ 1と同様に符号化し、 その結果得られる符号化データを、 媒体特性反映部 5 3 を介して、 復号部 5 4に供給する。 復号部 5 4は、 そこに供給される符号化デー タを復号し、 その結果得られる第 1復号データを、 符号化部 5 5に供給するとと もに、 生徒データとして、 タップ生成部 5 7および 5 8に供給する。 また、 復号 部 5 4は、 符号化データを第 1復号データに復号する過程において得られる第 1 付加情報も、 生徒データとして、 タップ生成部 5 7および 5 8に供給する。
さらに、 ステップ S 1 1では、 符号化部 5 5が、 復号部 5 4からの第 1復号デ 一タを再符号化し、 その結果得られる再符号化データを、 復号部 5 6に供給する。 復号部 5 6は、 符号化部 5 5からの再符号化データを復号し、 その結果得られる 第 2復号データと、 再符号化データを第 2復号データに復号する過程において得 られる第 2付加情報を、 生徒データとして、 タップ生成部 5 7および 5 8に供給 する。
その後、 正規方程式加算回路 6 0において、 そこに供給される教師データが注 目教師データとされ、 ステップ S 1 2に進み、 タップ生成部 5 7と 5 8力 そこ に供給される生徒データから、 注目教師データについて、 予測タップとクラスタ ップを、 それぞれ生成する。 タップ生成部 5 7で生成された予測タップは、 正規 方程式加算回路 6 1に供給され、 タップ生成部 5 8で生成されたクラスタップは、 クラス分類部 5 9に供給される。
そして、 ステップ S 1 3に進み、 クラス分類部 5 9が、 タップ生成部 5 8から のクラスタップに基づいて、 クラス分類を行い、 その結果得られるクラスコード を、 正規方程式加算回路 6 0に供給して、 ステップ S 1 4に進む。
ステップ S 1 4では、 正規方程式加算回路 6 0は、 クラス分類部 5 9から供給 されるクラスコードが表すクラスについて、 そこに供給される注目教師データと、 タップ生成部 5 7から供給される予測タップを構成する生徒データを対象とした- 式 (8 ) の行列 Aとベク トル Vの、 上述したような足し込みを行い、 ステップ S 1 5に進む。
ステップ S 1 5では、 まだ、 注目教師データとして処理すべき教師データがあ るかどうかが判定され、 あると判定された場合、 ステップ S 1 1に戻り、 例えば、 次に供給される教師データを新たに注目教師データとして、 以下、 同様の処理が 繰り返される。
また、 ステップ S 1 5において、 注目教師データとして処理すべき教師データ がないと判定された場合、 即ち、 例えば、 正規方程式加算回路 6 0において、 各 クラスについて、 正規方程式が得られた場合、 ステップ S 1 6に進み、 タップ係 数決定回路 6 1は、 各クラスごとに生成された正規方程式を解くことにより、 各 クラスごとのタップ係数を求め、 係数メモリ 6 2の、 各クラスに対応するァドレ スに供給して記憶させ、 処理を終了する。
以上のようにして、 係数メモリ 6 2に記憶された各クラスごとのタップ係数が、 図 3の係数メモリ 3 4に記憶されている。
従って、 図 3の係数メモリ 3 4に記憶されたタップ係数は、 線形予測演算を行 うことにより得られる、 学習用データと同様の品質のデータの予測値について、 その予測誤差 (ここでは、 自乗誤差) 力 統計的に最小になるように学習を行う ことにより求められたものであるから、 図 3の予測部 3 5が出力する最終的な復 号データは、 学習用データと同様の品質のものとなる。
次に、 図 8は、 図 1のデータ伝送システムが、 音声信号 (音声データ) を CEL P (例えば、 VSELP (Vector Sum Excited Liner Prediction) , PSI-CELP (Pitch Sy nchronous Innovation CELP) , CS-ACELP (Conjugate Structure Algebraic CELP) 等の各種の CELPを含む) 方式で符号化して伝送する場合の、 図 1のエンコーダ 1の構成例を示している。 なお、 上述したことから、 図 1のエンコーダ 1が図 8 に示すように構成される場合は、 図 2の符号化部 2 2並びに図 6の符号化部 5 2 および 5 5も、 図 8に示したのと同様に構成される。
符号化の対象となる音声信号 (人の発話の他、 曲等の信号も含む) は、 例えば、 アナログの音声信号を、 8 k H z等のサンプリング周波数でサンプリングするこ とにより、 ディジタルの音声信号に A/D変換し、 さらに、 所定のビッ ト数で量 子化を行って得られたもので、 演算器 7 1 と L P C (Liner Prediction Coeffici ent)分析部 7 2に供給される。
?〇分析部7 2は、 そこに供給される符号化対象の音声信号を、 例えば、 1 6 0サンプル分の長さのフレームごとに L P C分析し、 P次の線形予測係数 0^, ひ 2, · · · , ひ pを求める。 そして、 ?〇分析部7 2は、 この P次の線形予測 係数ひ p (p = 1 , 2, · · · , P) を要素とするベク トルを、 音声の特徴べク トルとして、 べク トル量子化部 7 3に供給する。
べク トル量子化部 7 3は、 線形予測係数を要素とするコードべク トルとコード とを対応付けたコードブックを記憶しており、 そのコードブックに基づいて、 L P C分析部 7 2からの特徴べク トル αをべク トル量子化し、 そのべク トル量子化 の結果得られるコード (以下、 適宜、 Αコード(A— code)という) を、 コード決定 部 8 3に供給する。
さらに、 ベク トル量子化部 7 3は、 Aコードに対応するコードベク トル α ' を 構成する要素となっている線形予測係数 α , ひ 2' , . ■ · , αΡ ' を、 音声合 成フィルタ 7 4に供給する。
音声合成フィルタ 74は、 例えば、 I I R(Infinite Impulse Response)型の ディジタルフィルタで、 ベク トル量子化部 7 3からの線形予測係数 αρ' (ρ = 1 , 2, ■ · · , Ρ) を I I Rフィルタのタップ係数とするとともに、 演算器 8 2から供給される残差信号 eを入力信号として、 音声合成を行う。
即ち、 L P C分析部 7 2で行われる L P C分析は、 現在時刻 nの音声信号 (の サンプル値) s n、 およびこれに隣接する過去の P個のサンプル値 3 ^, s n_2> . · · , s n-Pに、 式
a p s n_P— en
· · · (9) で示す線形 1次結合が成立すると仮定し、 現在時刻 nのサンプル値 s nの予測値 (線形予測値) sn' を、 過去の P個の標本値 sn—い sn2, · · · , sn-pを用い て、 式
s η' =一 ( CK χ s α 2 s η_,+ · · · + α ρ s Π_Ρ)
• · · ( 1 0) によって線形予測したときに、 実際のサンプル値 snと線形予測値 sn' との間の 自乗誤差を最小にする線形予測係数ひ pを求めるものである。
ここで、 式 (9) において、 {e„} ( · ■ ■ , en en, en+1, ■ ■ · ) は、 平 均値が 0で、 分散が所定値 σ 2の互いに無相関な確率変数である。
式 (9) から、 サンプル値 s nは、 式
s n = en— o; L s + « 2 s n―。 + ■ · · + a p s n_P)
· · · ( 1 1) で表すことができ、 これを、 Z変換すると、 次式が成立する。
S = E/ ( 1 + <¾! ζ_1+ α2ζ"ζ+ - ■ · + αΡζ"ρ)
• · · (1 2) 伹し、 式 (1 2) において、 Sと Εは、 式 (1 1 ) における snと 6„の2変換を. それぞれ表す。
ここで、 式 (9) および (1 0) から、 enは、 式
e n= s n— s n
• · · ( 1 3) で表すことができ、 実際 サンプル値 snと線形予測値 sn' との間の残差信号と 呼ばれる。
従って、 式 (1 2) から、 線形予測係数 apを I I Rフィルタのタップ係数と するとともに、 残差信号 enを I I Rフィルタの入力信号とすることにより、 音 声信号 s nを求めることができる。
そこで、 音声合成フィルタ 74は、 上述したように、 ベク トル量子化部 7 3か らの線形予測係数 α ρ' をタップ係数とするとともに、 演算器 8 2から供給され る残差信号 eを入力信号として、 式 (1 2) を演算し、 音声信号 (合成音信号) s sを求める。 なお、 音声合成フィルタ 7 4では、 L P C分析部 7 2による L P C分析の結果 得られる線形予測係数ひ pではなく、 そのべク トル量子化の結果得られるコード に対応するコードベク トルとしての線形予測係数 α ρ ' が用いられるため、 音声 合成フィルタ 7 4が出力する合成音信号は、 LPC分析前の音声信号とは、 基本的 に同一にはならない。
音声合成フィルタ 7 4が出力する合成音信号 s sは、 演算器 7 1に供給される。 演算器 7 1は、 音声合成フィルタ 7 4からの合成音信号 S sから、 元の音声信号 sを減算し (合成音信号 s sの各サンプルから、 そのサンプルに対応する元の音 声信号 sのサンプルを減算し) 、 その減算値を、 自乗誤差演算部 7 5に供給する。 自乗誤差演算部 7 5は、 演算器 7 1からの減算値の自乗和 (例えば、 L P C分析 部 7 2が L P C分析を行うフレーム単位での自乗和) を演算し、 その結果得られ る自乗誤差を、 自乗誤差最小判定部 7 6に供給する。
自乗誤差最小判定部 7 6は、 自乗誤差演算部 7 5が出力する自乗誤差に対応付 けて、 ラグを表すコードとしての Lコード(L_code)、 ゲインを表すコードとして の Gコード(G_code)、 および符号語 (励起コードブック) を表すコードとしての Iコード(I一 code)を記憶しており、 自乗誤差演算部 7 5が出力する自乗誤差に対 応する Lコード、 Gコード、 および Lコードを出力する。 Lコードは、 適応コー ドブック記憶部 7 7に、 Gコードは、 ゲイン復号器 7 8に、 Iコードは、 励起コ ードブック記憶部 7 9に、 それぞれ供給される。 さらに、 Lコード、 Gコード、 および Iコードは、 コード決定部 8 3にも供給される。
適応コードブック記憶部 7 7は、 例えば 7ビッ トの Lコードと、 所定の遅延時 間 (ラグ) とを対応付けた適応コードブックを記憶しており、 演算器 8 2から供 給される残差信号 eを、 自乗誤差最小判定部 7 6から供給される Lコードに対応 付けられた遅延時間だけ遅延して、 演算器 8 0に出力する。
ここで、 適応コードブック記憶部 7 7は、 残差信号 eを、 Lコードに対応する 時間だけ遅延して出力することから、 その出力信号は、 その遅延時間を周期とす る周期信号に近い信号となる。 この信号は、 線形予測係数を用いた音声合成にお いて、 主として、 有声音の合成音を生成するための駆動信号となる。
ゲイン復号器 7 8は、 Gコードと、 所定のゲイン ]3および γとを対応付けたテ 一プルを記憶しており、 自乗誤差最小判定部 7 6から供給される Gコードに対応 付けられたゲイン ]3および γを出力する。 ゲイン と yは、 演算器 8 0と 8 1に、 それぞれ供給される。 ここで、 ゲイン /3は、 長期フィルタ状態出力ゲインと呼ば れるものであり、 また、 ゲイン γは、 励起コードブックゲインと呼ばれるもので ある。
励起コードブック記憶部 7 9は、 例えば 9ビッ トの I コードと、 所定の励起信 号とを対応付けた励起コードブックを記憶しており、 自乗誤差最小判定部 7 6か ら供給される I コードに対応付けられた励起信号を、 演算器 8 1に出力する。 ここで、 励起コードブックに記憶されている励起信号は、 例えば、 ホワイ トノ ィズ等に近い信号であり、 線形予測係数を用いた音声合成において、 主として、 無声音の合成音を生成するための駆動信号となる。
演算器 8 0は、 適応コードブック記憶部 7 7の出力信号と、 ゲイン復号器 7 8 が出力するゲイン /3とを乗算し、 その乗算値 1 を、 演算器 8 2に供給する。 演算 器 8 1は、 励起コードブック記憶部 7 9の出力信号と、 ゲイン復号器 7 8が出力 するゲイン yとを乗算し、 その乗算値 nを、 演算器 8 2に供給する。 演算器 8 2 は、 演算器 8 0からの乗算値 1 と、 演算器 8 1からの乗算値 nとを加算し、 その 加算値を、 残差信号 eとして、 音声合成フィルタ 7 4と適応コードプック記憶部 7 7に供給する。
音声合成フィルタ 7 4では、 以上のようにして、 演算器 8 2から供給される残 差信号 eが、 ベク トル量子化部 7 3から供給される線形予測係数 α ρ' をタップ 係数とする I I Rフィルタでフィルタリングされ、 その結果得られる合成音信号 1) 演算器 7 1に供給される。 そして、 演算器 7 1および自乗誤差演算部 7 5に おいて、 上述の場合と同様の処理が行われ、 その結果得られる自乗誤差が、 自乗 誤差最小判定部 7 6に供給される。
自乗誤差最小判定部 7 6は、 自乗誤差演算部 7 5からの自乗誤差が最小 (極 小) になったかどうかを判定する。 そして、 自乗誤差最小判定部 7 6は、 自乗誤 差が最小になっていないと判定した場合、 上述のように、 その自乗誤差に対応す る Lコード、 Gコード、 および Lコードを出力し、 以下、 同様の処理が繰り返さ れる。
一方、 自乗誤差最小判定部 7 6は、 自乗誤差が最小になったと判定した場合、 確定信号を、 コード決定部 8 3に出力する。 コード決定部 8 3は、 ベク トル量子 化部 7 3から供給される Aコードをラツチするとともに、 自乗誤差最小判定部 7 6から供給される Lコード、 Gコード、 および I コードを順次ラッチするように なっており、 自乗誤差最小判定部 7 6から確定信号を受信すると、 そのときラッ チしている Aコード、 Lコード、 Gコード、 および I コードを、 チャネルェンコ ーダ 8 4に供給する。 チャネルエンコーダ 8 4は、 コード決定部 8 3からの Aコ ード、 Lコード、 Gコード、 および I コードを多重化し、 その多重化結果である コードデータを、 符号化データとして出力する。
なお、 以下では、 説明を簡単にするため、 Aコード、 Lコード、 Gコード、 お よび I コードは、 フレームごとに求められるものとする。 但し、 例えば、 1フレ ームを、 4つのサブフレームに分割し、 Lコード、 Gコード、 および I コードは、 サブフレームごとに求めるようにすること等が可能である。
ここで、 図 8 (後述する図 9においても同様) では、 各変数に、 [k]が付され、 配列変数とされている。 この kは、 フレーム数を表すが、 明細書中では、 その記 述は、 適宜省略する。
次に、 図 9は、 図 1のエンコーダ 1が図 8に示したように構成される場合の、 図 2の復号部 2 1の構成例を示している。 なお、 上述したことから、 図 2の復号 部 2 1が図 9に示すように構成される場合は、 図 2の復号部 2 3、 並びに図 6の 復号部 5 4および 5 6も、 図 9に示したのと同様に構成される。
図 8のエンコーダ 1が出力する符号化データとしてのコードデータは、 チヤネ ルデコーダ 9 1で受信される。 チャネルデコーダ 9 1は、 コードデータから、 L コード、 Gコード、 Iコード、 Aコードを分離し、 それぞれを、 適応コードブッ ク記憶部 9 2、 ゲイン復号器 9 3、 励起コードブック記憶部 9 4、 フィルタ係数 復号器 9 5に供給する。
適応コードブック記憶部 9 2、 ゲイン復号器 9 3、 励起コードブック記憶部 9
4、 演算器 9 6乃至 9 8は、 図 8の適応コードブック記憶部 7 7、 ゲイン復号器 7 8、 励起コードブック記憶部 7 9、 演算器 8 0乃至 8 2とそれぞれ同様に構成 されるもので、 図 8で説明した場合と同様の処理が行われることにより、 L コー ド、 Gコード、 および I コードが、 残差信号 eに復号される。 この残差信号 eは、 音声合成フィルタ 9 9に対して、 入力信号として与えられるとともに、 適応コー ドブック記憶部 9 2に供給される。
フィルタ係数復号器 9 5は、 図 8のべク トル量子化部 7 3が記憶しているのと 同一のコードプックを記憶しており、 Aコードを、 線形予測係数ひ p ' に復号し、 音声合成フィルタ 9 9に供給する。
音声合成フィルタ 9 9は、 図 8の音声合成フィルタ 7 4と同様に構成されてお り、 フィルタ係数復号器 9 5からの線形予測係数ひ をタップ係数とするとと もに、 演算器 9 8から供給される残差信号 eを入力信号として、 式 (1 2 ) を演 算し、 これにより、 図 8の自乗誤差最小判定部 7 6において自乗誤差が最小と判 定されたときの合成音信号を生成する。 この合成音信号は、 符号化データの復号 結果 (復号データ) として出力される。
一方、 付加情報出力部 1 0 0は、 上述のように、 符号化データを、 復号データ としての合成音信号に復号する過程において得られる情報を取得し、 その情報の うちの一部または全部を、 付加情報として出力する。
即ち、 付加情報出力部 1 0 0には、 チャネルデコーダ 9 1が出力する Lコード、
Gコード、 Iコード、 および Aコードや、 ゲイン復号器 9 3が出力するゲイン |3 および" y、 フィルタ係数復号器 9 5が出力する線形予測係数 p、 演算器 9 6が 出力する演算結果 1、 演算器 9 7が出力する演算結果 γ、 演算器 9 8が出力する 残差信号 e等が供給されるようになっており、 付加情報出力部 1 0 0は、 これら の情報のうちの一部または全部を、 付加情報として出力する。 次に、 図 1 0は、 図 1のデータ伝送システムが、 静止画の画像データを JPEG 方式で符号化して伝送する場合の、 図 1のエンコーダ 1の構成例を示している。 なお、 図 1のエンコーダ 1が図 1 0に示すように構成される場合は、 図 2の符号 化部 2 2並びに図 6の符号化部 5 2および 5 5も、 図 1 0に示したのと同様に構 成される。
符号化対象の画像データは、 ブロック化回路 1 1 1に入力され、 ブロック化回 路 1 1 1は、 そこに入力される画像データを、 8 X 8画素の 64画素でなるブロ ックに分割する。 ブロック化回路 1 1 1で得られる各ブロックは、 DCT回路 1 1 2に供給される。 0〇丁回路1 1 2は、 ブロック化回路 1 1 1からのブロック に対して、 DCT (離散コサイン変換) 処理を施し、 1個の DC (Direct Curren t)成分と、 水平方向および垂直方向についての 6 3個の周波数成分 (AC(Alter nating Current)成分) の、 合計 64個の D C T係数に変換する。 各ブロックご との 64個の DC T係数は、 0〇丁回路1 1 2から量子化回路 1 1 3に供給され る。
量子化回路 1 1 3は、 所定の量子化テーブルにしたがって、 DCT回路 1 1 2 からの DC T係数を量子化し、 その量子化結果 (以下、 適宜、 量子化 DC T係数 という) を、 量子化に用いた量子化テーブルとともに、 エントロピー符号化回路 1 1 4に供給する。
ここで、 量子化回路 1 1 3において用いられる量子化テーブルには、 一般に、 人間の視覚特性を考慮して、 重要性の高い低周波数の DC T係数は細かく量子化 し、 重要性の低い高周波数の DC T係数は粗く量子化するような量子化ステップ が設定されており、 これにより、 画像の画質の劣化を抑えて、 効率の良い圧縮が 行われるようになつている。
また、 J P EG符号化において、 どのような量子化テーブルを用いるかは、 例 えば、 ユーザが設定する圧縮率等に基づいて決定される。
エントロピー符号化回路 1 1 4は、 量子化回路 1 1 3からの量子化 DC T係数 に対して、 例えば、 ハフマン符号化等のエントロピー符号化処理を施して、 量子 化回路 1 1 3からの量子化テーブルを付加し、 その結果得られる符号化データを 出力する。
次に、 図 1 1は、 図 1のエンコーダ 1が図 10に示したように構成される場合 の、 図 2の復号部 2 1の構成例を示している。 なお、 図 2の復号部 2 1が図 1 1 に示すように構成される場合は、 図 2の復号部 23、 並びに図 6の復号部 54お よび 5 6も、 図 1 1に示したのと同様に構成される。
符号化データは、 エントロピー復号回路 1 2 1に入力され、 エントロピー復号 回路 1 21は、 符号化データを、 エントロピー符号化された量子化 DCT係数と、 量子化テーブルとに分離する。 さらに、 エントロピー復号回路 12 1は、 ェント 口ピー符号化された量子化 D CT係数をエントロピー復号し、 その結果得られる 量子化 DCT係数を、 量子化テーブルとともに、 逆量子化回路 12 2に供給する。 逆量子化回路 1 2 2は、 エントロピー復号回路 1 21からの量子化 DC T係数を、 同じくェントロピー復号回路 1 2 1からの量子化テーブルにしたがって逆量子化 し、 その結果得られる D CT係数を、 逆 DCT回路 1 23に供給する。 逆 DCT 回路 1 23は、 逆量子化回路 1 2からの DC T係数に、 逆 DC T処理を施し、 そ の結果得られる 8 X 8画素の復号ブ口ックを、 ブロック分解回路 1 24に供給す る。 プロック分解回路 1 24は、 逆 DCT回路 1 23からの復号プロックのブロ ック化を解くことで、 復号画像データを得て出力する。
一方、 付加情報出力部 1 2 5は、 上述のように、 符号化データを、 復号画像デ 一タに復号する過程において得られる情報を取得し、 その情報のうちの一部また は全部を、 付加情報として出力する。
即ち、 付加情報出力部 1 25には、 ェントロピー復号回路 1 21が出力する量 子化テーブルおよび量子化 DCT係数や、 逆量子化回路 1 22が出力する DCT 係数等が供給されるようになっており、 付加情報出力部 1 25は、 これらの情報 のうちの一部または全部を、 付加情報として出力する。
次に、 図 1 2は、 図 1のデータ伝送システムが、 動画の画像データを MPEG2方 式で符号化して伝送する場合の、 図 1のエンコーダ 1の構成例を示している。 な お、 図 1のエンコーダ 1が図 1 2に示すように構成される場合は、 図 2の符号化 部 2 2並びに図 6の符号化部 5 2および 5 5も、 図 1 2に示したのと同様に構成 される。
M P E G符号化の対象である動画を構成するフレーム (またはフィールド) は、 順次、 動き検出回路 1 3 1と演算器 1 3 2に供給される。
動き検出回路 1 3 1は、 そこに供給されるフレームについて、 マクロプロック 単位で、 動きべク トルを検出し、 エントロピー符号化回路 1 3 6および動き補償 回路 1 4 0に供給する。
演算器 1 3 2は、 そこに供給される画像が、 I (Intra)ピクチャであれば、 そ のままブロックィ匕回路 1 3 3に供給し、 P (Predictive)または B (Bidirectional ly predictive)ピクチャであれば、 動き補償回路 1 4 0から供給される参照画像 との差分を演算して、 その差分値を、 ブロック化回路 1 3 3に供給する。
ブロック化回路 1 3 3は、 演算器 1 3 2の出力を、 8 X 8画素の画素ブロック にブロック化し、 D C T回路 1 3 4に供給する。 0じ丁回路1 3 4は、 ブロック 化回路 1 3 3からの画素ブロックを D C T処理し、 その結果得られる D C T係数 を、 量子化回路 1 3 5に供給する。 量子化回路 1 3 5は、 0〇丁回路1 3 3から のプロック単位の D C T係数を所定の量子化テーブルにしたがって量子化し、 そ の結果得られる量子化 D C T係数を、 用いた量子化テーブルとともに、 ェントロ ピー符号化回路 1 3 6に供給する。 エントロピー符号化回路 1 3 6は、 量子化回 路 1 3 5からの量子化 D C T係数をェント口ピー符号化し、 動き検出回路 1 3 1 からの動きべク トルや、 量子化回路 1 3 5からの量子化テーブル、 その他の必要 な情報 (例えば、 MPEGス トリームの各レイヤのヘッダとなる情報など) を付加 して、 その結果得られる符号化データを、 M P E G符号化結果として出力する。 量子化回路 1 3 5が出力する量子化 D C T係数のうち、 I ピクチャおよび Pピ クチャは、 後で符号化される Pピクチャや Bピクチヤの参照画像として用いるの に口一カルデコードする必要があるため、 ェントロピー符号化回路 1 3 6の他、 逆量子化回路 1 3 7にも供給される。 また、 逆量子化回路 1 3 7には、 量子化回 路 1 3 5で用いられた量子化テーブルも供給される。
逆量子化回路 1 3 7は、 量子化回路 1 3 5からの量子化 DC T係数を、 同じく 量子化回路 1 3 5からの量子化テーブルにしたがって逆量子化することにより、 DCT係数とし、 逆 DC T回路 1 38に供給する。 逆 DCT回路 1 38は、 逆量 子化回路 1 3 7からの DC T係数を逆 DC T処理し、 演算器 1 39に出力する。 演算器 1 3 9には、 逆 DCT回路 1 3 8の出力の他、 動き補償回路 140が出力 する参照画像も供給されるようになっており、 演算器 1 3 9は、 逆 DCT回路 1
38の出力が、 Pピクチャのものである場合には、 その出力と、 動き補償回路 1
40の出力とを加算することで、 元の画像を復号し、 動き補償回路' 140に供給 する。 また、 演算器 1 3 9は、 逆 DCT回路 1 3 8の出力が、 Iピクチャのもの である場合には、 その出力は、 Iピクチャの復号画像となっているので、 そのま ま、 動き補償回路 140に供給する。
動き補償回路 140は、 演算器 1 3 9から供給される、 ローカルデコードされ た画像に対して、 動き検出回路 1 3 1からの動きべク トルにしたがった動き補償 を施し、 その動き補償後の画像を、 参照画像として、 演算器 1 32および 1 39 に供給する。
次に、 図 1 3は、 図 1のエンコーダ 1が図 1 2に示したように構成される場合 の、 図 2の復号部 2 1の構成例を示している。 なお、 図 2の復号部 2 1が図 1 3 に示すように構成される場合は、 図 2の復号部 2 3、 並びに図 6の復号部 54お ょぴ 5 6も、 図 1 3に示したのと同様に構成される。
符号化データは、 エントロピー復号回路 1 5 1に供給され、 エントロピー復号 回路 1 5 1は、 符号化データをエントロピー復号し、 量子化 DCT係数を得ると ともに、 その符号化データに含まれる動きベク トル、 量子化テーブル、 その他の 必要な情報を分離する。 そして、 量子化 DC T係数および量子化テーブルは、 逆 量子化回路 1 5 2に供給され、 動きべク トルは、 動き補償回路 15 6に供給され る。
逆量子化回路 1 5 2は、 エントロピー復号回路 1 5 1からの量子化 DC T係数 を、 同じくエントロピー復号回路 1 1からの量子化テーブルにしたがって逆量子 化することにより、 DCT係数とし、 逆 DCT回路 1 5 3に供給する。 逆 DCT 回路 1 53は、 逆量子化回路 1 5 2からの DC T係数を逆 DC T処理し、 演算器 1 54に出力する。 演算器 1 54には、 逆量子化回路 1 5 3の出力の他、 動き補 償回路 1 5 6が出力する、 既に復号された Iピクチャまたは Pピクチャを、 ェン ト口ピー復号回路 1 5 1からの動きべク トルにしたがって動き補償したものが参 照画像として供給されるようになっており、 演算器 1 54は、 逆 DC T回路 1 5 3の出力が、 Pまたは Bピクチャのものである場合には、 その出力と、 動き補償 回路 1 56の出力とを加算することで、 元の画像を復号し、 ブロック分解回路 1 5 5に供給する。 また、 演算器 1 54は、 逆 DC T回路 1 5 3の出力が、 I ピク チヤのものである場合には、 その出力は、 Iピクチャの復号画像となっているの で、 そのまま、 ブロック分解回路 1 5 5に供給する。
プロック分解回路 1 5 5は、 演算器 1 54から画素プロック単位で供給される 復号画像のプロック化を解くことで、 復号画像データを得て出力する。
また、 動き補償回路 1 56は、 演算器 1 54が出力する復号画像のうちの Iピ クチャと Pピクチャを受信し、 ェント口ピー復号回路 1 5 1からの動きべク トル にしたがった動き補償を施す。 そして、 動き補償回路 1 56は、 その動き補償後 の画像を、 参照画像として、 演算器 1 54に供給する。
一方、 付加情報出力部 1 5 7は、 上述のように、 符号化データを、 復号画像デ 一タに復号する過程において得られる情報を取得し、 その情報のうちの一部また は全部を、 付加情報として出力する。
即ち、 付加情報出力部 1 5 7には、 ェントロピー復号回路 1 5 1が出力する量 子化テーブル、 量子化 DCT係数、 および動きべクトルや、 逆量子化回路 1 22 が出力する DC T係数が供給されるようになっている。 さらに、 付加情報出力部 1 5 7には、 エントロピー復号回路 1 5 1が符号化データをエントロピー復号す ることにより得られる MPEGストリームの各レイヤに配置された情報 (例えば、 ピクチャタイプや、 ブロックの位置情報、 フレーム D CTモード/フィールド D C Tモードの別など) も供給されるようになっている。 付加情報出力部 1 5 7は、 これらの情報のうちの一部または全部を、 付加情報として出力する。
次に、 上述した一連の処理は、 ハードウェアにより行うこともできるし、 ソフ トウエアにより行うこともできる。 一連の処理をソフトウェアによって行う場合 には、 そのソフトウェアを構成するプログラムが、 汎用のコンピュータ等にイン ス トーノレされる。
そこで、 図 1 4は、 上述した一連の処理を実行するプログラムがインス トール されるコンピュータの一実施の形態の構成例を示している。
プログラムは、 コンピュータに内蔵されている記録媒体としてのハードデイス ク 2 0 5や R O M 2 0 3に予め記録しておくことができる。
あるいはまた、 プログラムは、 フロッピーディスク、 CD- ROM (Compact Disc Re ad Onl y Memory) , M0 (Magneto optical)ディスク, DVD (Di gital Versati le Dis c)、 磁気ディスク、 半導体メモリなどのリムーバブル記録媒体 2 1 1に、 一時的 あるいは永続的に格納 (記録) しておくことができる。 このようなリムーバブル 記録媒体 2 1 1は、 いわゆるパッケージソフトウェアとして提供することができ る。
なお、 プログラムは、 上述したようなリムーバブル記録媒体 2 1 1からコンビ ユータにインス トールする他、 ダウンロードサイ トから、 ディジタル衛星放送用 の人工衛星を介して、 コンピュータに無線で転送したり、 LAN (Local Area Netwo rk)、 インターネッ トといったネットワークを介して、 コンピュータに有線で転 送し、 コンピュータでは、 そのようにして転送されてくるプログラムを、 通信部 2 0 8で受信し、 内蔵するハードディスク 2 0 5にインス トールすることができ る。
コンピュータは、 CPU (Central Processing Unit) 2 0 2を内蔵している。 CPU 2 0 2には、 バス 2 0 1を介して、 入出力ィンタフェース 2 1 0が接続されてお り、 CPU 2 0 2は、 入出力インタフェース 2 1 0を介して、 ユーザによって、 キ 一ボードや、 マウス、 マイク等で構成される入力部 2 0 7が操作等されることに より指令が入力されると、 それにしたがって、 R0M (Read Only Memory) 2 0 3に 格納されているプログラムを実行する。 あるいは、 また、 CPU 2 0 2は、 ハード ディスク 2 0 5に格納されているプログラム、 衛星若しくはネットワークから転 送され、 通信部 2 0 8で受信されてハードディスク 2 0 5にインストールされた プログラム、 またはドライブ 2 0 9に装着されたリムーバブル記録媒体 2 1 1か ら読み出されてハードディスク 2 0 5にィンス トールされたプログラムを、 RAM (Random Access Memory) 2 0 4にロードして実行する。 これにより、 CPU 2 0 2 は、 上述したフローチャートにしたがった処理、 あるいは上述したブロック図の 構成により行われる処理を行う。 そして、 CPU 2 0 2は、 その処理結果を、 必要 に応じて、 例えば、 入出力インタフェース 2 1 0を介して、 LCD (Liquid CryStal Display)やスピーカ等で構成される出力部 2 0 6から出力、 あるいは、 通信部 2 0 8から送信、 さらには、 ハードディスク 2 0 5に記録等させる。
ここで、 本明細書において、 コンピュータに各種の処理を行わせるためのプロ グラムを記述する処理ステツプは、 必ずしもフローチャートとして記載された順 序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいはオブジェク トによる処理) も含むものである。
また、 プログラムは、 1のコンピュータにより処理されるものであっても良い し、 複数のコンピュータによって分散処理されるものであっても良い。 さらに、 プログラムは、 遠方のコンピュータに転送されて実行されるものであっても良い。 なお、 本発明は、 特定の符号化 Z復号方式に限定されることなく適用可能であ る。 即ち、 本実施の形態においては、 CELP方式、 JPEG方式、 MPEG2方式につい て説明したが、 本発明は、 その他、 例えば、 M-JPEG (Motion JPEG)方式や、 MPEG1, 4, P3 (MPEG-1 Audio Layer 3)方式、 ATRAC (Adaptive TRansform Acoustic Cod ing)方式等の種々の符号化ノ復号方式に適用可能である。
また、 本実施の形態では、 符号化データを、 その符号化方式に対応した復号方 式によって復号するようにしたが、 符号化データの復号は、 クラス分類適応処理 によって行うことが可能である。 クラス分類適応処理による符号化データの復号 は、 符号化の対象とするデータを教師データとするとともに、 そのデータを符号 化した符号化データを生徒データとして学習を行うことによって得られるタップ 係数を用いることで行うことが可能である。
さらに、 本実施の形態では、 タップ係数を用いた線形 1次予測演算によって、 高品質のデータの予測値を求めるようにしたが、 この予測値は、 その他、 2次以 上の高次の予測演算によって求めることも可能である。
また、 本実施の形態では、 デコーダ 2のクラス分類適応処理回路 2 4において、 品質を向上させるためのタップ係数を、 あらかじめ記憶しておくようにしたが、 タップ係数は、 符号化データに含めて、 デコーダ 2に提供するようにすることが 可能である。 '
さらに、 本実施の形態では、 予測タップを、 第 1復号データおよび第 2復号デ ータの他、 第 1付加情報および第 2付加情報から生成するようにしたが、 予測タ ップは、 その他、 例えば、 第 1復号データおよび第 2復号データだけから生成す るようにすること等が可能である。 クラスタップについても、 同様である。 産業上の利用可能性
本発明の第 1のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体によれば、 符号化データが復号され、 その結果得られる復号データが 符号化されて、 再符号化データが出力される。 そして、 学習を行うことにより求 められたタップ係数との所定の予測演算を行う予測タップが、 復号データと、 再 符号化データから得られる情報とから生成され、 予測タップとタップ係数とを用 いて、 所定の予測演算を行うことにより、 学習において教師として用いられた教 師データに対応する予測値が求められる。 従って、 例えば、 品質が十分に改善さ れたデータを得ることが可能となる。
本発明の第 2のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体によれば、 教師となる教師データから、 その教師データを符号化して 復号した復号データと、 その復号データを符号化した再符号化データから得られ る情報とが、 生徒となる生徒データとして生成される。 そして、 教師データを予 測するのに用いる予測タップが、 生徒データから生成され、 予測タップとタップ 係数とを用いて、 所定の予測演算を行うことにより得られる教師データの予測値 の予測誤差が、 統計的に最小になるように学習が行われ、 タップ係数が求められ る。 従って、 そのタップ係数を用いて予測演算を行うことにより、 例えば、 品質 が十分に改善されたデータを得ることが可能となる。
本発明の第 3のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体によれば、 データを符号化した符号化データが復号され、 その結果得 られる複号データが符号化されて、 再符号化データが出力される。 そして、 クラ ス分類に用いるクラスタップが、 復号データと、 再符号化データから得られる情 報とから生成され、 そのクラスタップに基づいて、 クラス分類が行われる。 従つ て、 データの適切なクラス分けが可能となる。

Claims

請求の範囲
1 . データを符号化して得られる符号化データを処理するデータ処理装置であ つて、
前記符号化データを復号し、 復号データを出力する復号手段と、
前記復号データを符号化し、 再符号化データを出力する再符号化手段と、 学習を行うことにより求められたタップ係数との所定の予測演算を行う予測タ ップを、 前記復号データと、 前記再符号化データから得られる情報とから生成す る予測タップ生成手段と、
前記タップ係数を取得するタップ係数取得手段と、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより、 前記学習において教師として用いられた教師データに対応する予測値を求める予 測手段と
を備えることを特徴とするデータ処理装置。
2 . 前記予測手段は、 前記予測タップとタップ係数とを用いて、 線形 1次予測 演算を行うことにより、 前記予測値を求める
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
3 . 前記復号手段は、 前記符号化データを復号する過程において得られる情報 を、 付加情報として出力し、
前記予測タップ生成手段は、 前記付加情報からも、 前記予測タップを生成する ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
4 . 前記再符号化データを復号し、 再復号データを出力する再復号手段をさら に偷 、
前記予測タップ生成手段は、 前記復号データと再復号データとから、 前記予測 タップを生成する
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
5 . 前記再復号手段は、 前記再符号化データを復号する過程において得られる 情報を、 付加情報として出力し、 前記予測タップ生成手段は、 前記付加情報からも、 前記予測タップを生成する ことを特徴とする請求の範囲第 4項に記載のデータ処理装置。
6 . 情報をクラス分けするクラス分類を行うのに用いられるクラスタップを、 前記復号デ一タと、 前記再符号化データから得られる情報とから生成するクラス タップ生成手段と、
前記クラスタップに基づいて、 クラス分類を行うクラス分類手段と
をさらに備え、
前記タップ係数取得手段は、 前記クラス分類手段が出力するクラスに対応する 前記タップ係数を取得し、
前記予測手段は、 前記クラス分類手段が出力するクラスに対応する前記タップ 係数を用いて、 前記予測値を求める
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
7 . 前記復号手段は、 前記符号化データを復号する過程において得られる情報 を、 付加情報として出力し、
前記クラスタップ生成手段は、 前記付加情報からも、 前記クラスタップを生成 する '
ことを特徴とする請求の範囲第 6項に記載のデータ処理装置。
8 . 前記再符号化データを復号し、 再復号データを出力する再復号手段をさら に備え、
前記クラスタップ生成手段は、 前記復号データと再復号データとから、 前記ク ラスタップを生成する
ことを特徴とする請求の範囲第 6項に記載のデータ処理装置。
9 . 前記再復号手段は、 前記再符号化データを復号する過程において得られる 情報を、 付加情報として出力し、
前記クラスタップ生成手段は、 前記付加情報からも、 前記クラスタップを生成 する
ことを特徴とする請求の範囲第 8項に記載のデータ処理装置。
1 0 . 前記データは、 画像データである
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
1 1 . 前記符号化データは、 前記画像データを、 少なく とも直交変換して得ら れるデータを含む
ことを特徴とする請求の範囲第 1 0項に記載のデータ処理装置。
1 2 . 前記データは、 音声データである
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
1 3 . 前記符号化データは、 少なく とも、 線形予測係数と残差信号に対応する コードを含む
ことを特徴とする請求の範囲第 1 2項に記載のデータ処理装置。
1 4 . データを符号化して得られる符号化データを処理するデータ処理方法で あって、
前記符号化データを復号し、 復号データを出力する復号ステップと、 前記復号デ一タを符号化し、 再符号化データを出力する再符号化ステップと、 学習を行うことにより求められたタップ係数との所定の予測演算を行う予測タ ップを、 前記復号データと、 前記再符号化データから得られる情報とから生成す る予測タップ生成ステツプと、
前記タップ係数を取得するタップ係数取得ステップと、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより、 前記学習において教師として用いられた教師データに対応する予測値を求める予 測ステップと
を備えることを特徴とするデータ処理方法。
1 5 . データを符号化して得られる符号化データを、 コンピュータに処理させ るプログラムであって、
前記符号化データを復号し、 復号データを出力する復号ステップと、 前記復号デ一タを符号化し、 再符号化データを出力する再符号化ステップと、 学習を行うことにより求められたタップ係数との所定の予測演算を行う予測タ ップを、 前記復号データと、 前記再符号化データから得られる情報とから生成す る予測タップ生成ステップと、
前記タップ係数を取得するタツプ係数取得ステツプと、
前記予測タップとタツプ係数とを用いて、 所定の予測演算を行うことにより、 前記学習において教師として用いられた教師データに対応する予測値を求める予 測ステップと
を備えることを特徴とするプログラム。
1 6 . データを符号化して得られる符号化データを、 コンピュータに処理させ るプログラムが記録されている記録媒体であって、
前記符号化データを復号し、 復号データを出力する復号ステップと、 前記復号データを符号化し、 再符号化データを出力する再符号化ステップと、 学習を行うことにより求められたタップ係数との所定の予測演算を行う予測タ ップを、 前記復号データと、 前記再符号化データから得られる情報とから生成す る予測タップ生成ステツプと、
前記タップ係数を取得するタップ係数取得ステツプと、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより、 前記学習において教師として用いられた教師データに対応する予測値を求める予 測ステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
1 7 . データを符号化して得ちれる符号化データを処理するのに用いる所定の タップ係数を学習するデータ処理装置であって、
教師となる教師データから、 その教師データを符号化して復号した復号データ と、 その復号データを符号化した再符号化データから得られる情報とを、 生徒と なる生徒データとして生成する生徒データ生成手段と、
前記教師データを予測するのに用いる予測タップを、 前記生徒データから生成 する予測タップ生成手段と、 前記予測タップとタツプ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習手段と
を備えることを特徴とするデータ処理装置。
1 8 . 前記学習手段は、 前記予測タップとタップ係数とを用いて線形 1次予測 演算を行うことにより得られる前記教師データの予測値の予測誤差が、 統計的に 最小になるように学習を行う
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
1 9 . 前記生徒データ生成手段は、 前記教師データを符号化した符号化データ を復号する過程において得られる情報も、 前記生徒データとして出力する
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
2 0 . 前記生徒データ生成手段は、 前記再符号化データを復号し、 その結果得 られる再復号データを、 前記生徒データとして出力する
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
2 1 . 前記生徒データ生成手段は、 前記再符号化データを復号する過程におい て得られる情報も、 前記生徒データとして出力する
ことを特徴とする請求の範囲第 2 0項に記載のデータ処理装置。
2 2 . 情報をクラス分けするクラス分類を行うのに用いられるクラスタップを、 前記生徒データから生成するクラスタツプ生成手段と、
前記クラスタップに基づいて、 クラス分類を行うクラス分類手段と
をさらに備え、
前記学習手段は、 前記クラス分類手段が出力するクラスごとに、 前記タップ係 数を求める
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
2 3 . 前記生徒データ生成手段は、 前記教師データを符号化した符号化データ を復号する過程において得られる情報も、 前記生徒データとして出力する
ことを特徴とする請求の範囲第 2 2項に記載のデータ処理装置。
2 4 . 前記生徒データ生成手段は、 前記再符号化データを復号し、 その結果得 られる再復号データを、 前記生徒データとして出力する
ことを特徴とする請求の範囲第 2 2項に記載のデータ処理装置。
2 5 . 前記生徒データ生成手段は、 前記再符号化データを復号する過程におい て得られる情報も、 前記生徒データとして出力する
ことを特徴とする請求の範囲第 2 4項に記載のデータ処理装置。
2 6 . 前記教師データは、 画像データである
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
2 7 . 前記生徒データ生成手段は、 前記画像データを、 少なくとも直交変換す ることにより符号化する
ことを特徴とする請求の範囲第 2 6項に記載のデータ処理装置。
2 8 . 前記データは、 音声データである
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
2 9 . 前記生徒データ生成手段は、 前記音声データを、 少なくとも、 線形予測 係数と残差信号に対応するコードに符号化する
ことを特徴とする請求の範囲第 2 8項に記載のデータ処理装置。
3 0 . データを符号化して得られる符号化データを処理するのに用いる所定の タップ係数を学習するデータ処理方法であって、
教師となる教師データから、 その教師データを符号化して復号した復号データ と、 その復号データを符号化した再符号化データから得られる情報とを、 生徒と なる生徒データとして生成する生徒データ生成ステップと、
前記教師データを予測するのに用いる予測タップを、 前記生徒データから生成 する予測タップ生成ステップと、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えることを特徴とするデータ処理方法。
3 1 . データを符号化して得られる符号化データを処理するのに用いる所定の タップ係数を学習するデータ処理を、 コンピュータに行わせるプログラムであつ て、
教師となる教師データから、 その教師データを符号化して復号した復号データ と、 その復号データを符号化した再符号化データから得られる情報とを、 生徒と なる生徒データとして生成する生徒データ生成ステップと、
前記教師データを予測するのに用いる予測タップを、 前記生徒データから生成 する予測タップ生成ステップと、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えることを特徴とするプログラム。
3 2 . データを符号化して得られる符号化データを処理するのに用いる所定の タップ係数を学習するデータ処理を、 コンピュータに行わせるプログラムが記録 されている記録媒体であって、
教師となる教師データから、 その教師データを符号化して復号した復号データ と、 その復号データを符号化した再符号化データから得られる情報とを、 生徒と なる生徒データとして生成する生徒データ生成ステップと、
前記教師データを予測するのに用いる予測タップを、 前記生徒データから生成 する予測タップ生成ステップと、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
3 3 . 情報をクラス分けするクラス分類を行うデータ処理装置であって、 データを符号化した符号化データを復号し、 復号データを出力する復号手段と、 前記復号データを符号化し、 再符号化データを出力する再符号化手段と、 前記クラス分類に用いるクラスタップを、 前記復号データと、 前記再符号化デ ータから得られる情報とから生成するクラスタップ生成手段と、
前記クラスタツプに基づいて、 クラス分類を行うクラス分類手段と
を備えることを特徴とするデータ処理装置。
3 4 . 前記復号手段は、 前記符号化データを復号する過程において得られる情 報を、 付加情報として出力し、
前記クラスタップ生成手段は、 前記付加情報からも、 前記クラスタップを生成 する
ことを特徴とする請求の範囲第 3 3項に記載のデータ処理装置。
3 5 . 前記再符号化データを復号し、 再復号データを出力する再復号手段をさ らに備え、
前記クラスタップ生成手段は、 前記復号データと再復号データとから、 前記ク ラスタップを生成する
ことを特徴とする請求の範囲第 3 3項に記載のデータ処理装置。
3 6 . 前記再復号手段は、 前記再符号化データを復号する過程において得られ る情報を、 付加情報として出力し、
前記予測タップ生成手段は、 前記付加情報からも、 前記予測タップを生成する ことを特徴とする請求の範囲第 3 5項に記載のデータ処理装置。
3 7 . 前記データは、 画像データである
ことを特徴とする請求の範囲第 3 3項に記載のデータ処理装置。
3 8 . 前記符号化データは、 前記画像データを、 少なく とも直交変換して得ら れるデータを含む
ことを特徴とする請求の範囲第 3 7項に記載のデータ処理装置。
3 9 . 前記データは、 音声データである
ことを特徴とする請求の範囲第 3 3項に記載のデータ処理装置。
4 0 . 前記符号化データは、 少なく とも、 線形予測係数と残差信号に対応する コードを含む
ことを特徴とする請求の範囲第 3 9項に記載のデータ処理装置。
4 1 . 情報をクラス分けするクラス分類を行うデータ処理方法であって、 データを符号化した符号化データを復号し、 復号データを出力する復号ステツ プと、
前記復号データを符号化し、 再符号化データを出力する再符号化ステップと、 前記クラス分類に用いるクラスタップを、 前記復号データと、 前記再符号化デ ータから得られる情報とから生成するクラスタップ生成ステップと、
前記クラスタップに基づいて、 クラス分類を行うクラス分類ステップと を備えることを特徴とするデータ処理方法。
4 2 . 情報をクラス分けするクラス分類を行うデータ処理を、 コンピュータに 行わせるプログラムであって、
データを符号化した符号化データを復号し、 復号データを出力する復号ステツ プと、
前記復号データを符号化し、 再符号化データを出力する再符号化ステップと、 前記クラス分類に用いるクラスタップを、 前記復号データと、 前記再符号化デ ータから得られる情報とから生成するクラスタップ生成ステップと、
前記クラスタップに基づいて、 クラス分類を行うクラス分類ステップと を備えることを特徴とするプログラム。
4 3 . 情報をクラス分けするクラス分類を行うデータ処理を、 コンピュータに 行わせるプログラムが記録されている記録媒体であって、
データを符号化した符号化データを復号し、 復号データを出力する復号ステッ プと、
前記復号データを符号化し、 再符号化データを出力する再符号化ステップと、 前記クラス分類に用いるクラスタップを、 前記復号データと、 前記再符号化デ ータから得られる情報とから生成するクラスタップ生成ステップと、
前記クラスタップに基づいて、 クラス分類を行うクラス分類ステップと を備えるプログラムが記録されている ことを特徴とする記録媒体。
PCT/JP2002/000490 2001-01-25 2002-01-24 Data processing apparatus WO2002060069A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP02716352A EP1355428B1 (en) 2001-01-25 2002-01-24 Data processing apparatus
US10/239,805 US7082220B2 (en) 2001-01-25 2002-01-24 Data processing apparatus
DE2002611854 DE60211854T2 (de) 2001-01-25 2002-01-24 Vorrichtung zur datenverarbeitung
KR20027012587A KR100847179B1 (ko) 2001-01-25 2002-01-24 데이터 처리 장치, 방법 및 기록 매체

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001016869A JP4507046B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2001-16869 2001-01-25

Publications (1)

Publication Number Publication Date
WO2002060069A1 true WO2002060069A1 (en) 2002-08-01

Family

ID=18883164

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/000490 WO2002060069A1 (en) 2001-01-25 2002-01-24 Data processing apparatus

Country Status (6)

Country Link
EP (1) EP1355428B1 (ja)
JP (1) JP4507046B2 (ja)
KR (1) KR100847179B1 (ja)
CN (1) CN1269314C (ja)
DE (1) DE60211854T2 (ja)
WO (1) WO2002060069A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4462823B2 (ja) 2002-11-20 2010-05-12 ソニー株式会社 画像信号の処理装置および処理方法、それに使用される係数データの生成装置および生成方法、並びに各方法を実行するためのプログラム
US7756051B2 (en) * 2004-07-02 2010-07-13 Microsoft Corporation Content distribution using network coding
US8140849B2 (en) 2004-07-02 2012-03-20 Microsoft Corporation Security for network coding file distribution
TW200834537A (en) 2006-12-18 2008-08-16 Sony Corp Dynamic image signal processing device
TWI384437B (zh) 2006-12-18 2013-02-01 Sony Corp An image signal processing device, an image signal processing method, and a computer program product
JP2008178075A (ja) 2006-12-18 2008-07-31 Sony Corp 表示制御装置、表示制御方法、及びプログラム
JP4656452B2 (ja) 2008-05-20 2011-03-23 ソニー株式会社 画像信号処理装置および画像信号処理方法、予測係数生成装置および予測係数生成処理方法、並びに各方法をコンピュータに実行させるためのプログラム
JP5326465B2 (ja) * 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06152432A (ja) * 1992-11-13 1994-05-31 Sony Corp 高能率符号化及び/又は復号化装置
JPH08307835A (ja) * 1995-05-10 1996-11-22 Sony Corp クラス分類適応処理装置および方法
JPH08322041A (ja) * 1995-05-25 1996-12-03 Sony Corp ブロック歪み除去装置
JPH09186608A (ja) * 1995-12-28 1997-07-15 Sony Corp 量子化ビット数変換装置および方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3946812B2 (ja) * 1997-05-12 2007-07-18 ソニー株式会社 オーディオ信号変換装置及びオーディオ信号変換方法
JP3787823B2 (ja) * 1997-07-31 2006-06-21 ソニー株式会社 画像処理装置および画像処理方法
JP4362895B2 (ja) * 1999-06-21 2009-11-11 ソニー株式会社 データ処理装置およびデータ処理方法、並びに記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06152432A (ja) * 1992-11-13 1994-05-31 Sony Corp 高能率符号化及び/又は復号化装置
JPH08307835A (ja) * 1995-05-10 1996-11-22 Sony Corp クラス分類適応処理装置および方法
JPH08322041A (ja) * 1995-05-25 1996-12-03 Sony Corp ブロック歪み除去装置
JPH09186608A (ja) * 1995-12-28 1997-07-15 Sony Corp 量子化ビット数変換装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1355428A4 *

Also Published As

Publication number Publication date
DE60211854D1 (de) 2006-07-06
JP2002223167A (ja) 2002-08-09
EP1355428A4 (en) 2005-09-07
KR20030062230A (ko) 2003-07-23
DE60211854T2 (de) 2007-05-24
KR100847179B1 (ko) 2008-07-17
CN1269314C (zh) 2006-08-09
JP4507046B2 (ja) 2010-07-21
EP1355428B1 (en) 2006-05-31
EP1355428A1 (en) 2003-10-22
CN1457552A (zh) 2003-11-19

Similar Documents

Publication Publication Date Title
US7082220B2 (en) Data processing apparatus
US8396123B2 (en) Video coding and decoding method using weighted prediction and apparatus for the same
US20060176957A1 (en) Method and apparatus for compressing multi-layered motion vector
JP4507046B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
KR970078653A (ko) 화상복호화장치와 그 방법 및 화상재생장치
KR20050112587A (ko) 동영상 인코딩, 디코딩 장치 및 그 방법
KR20060069227A (ko) 영상신호의 엔코딩/디코딩시에 영상블록을 위한 모션벡터를베이스 레이어 픽처의 모션벡터로부터 유도하는 방법 및장치
KR20160065860A (ko) 미디어 신호의 인코딩, 디코딩 방법 및 그 장치
AU2006225467A1 (en) Video coding and decoding method using weighted prediction and apparatus for the same
JP4748113B2 (ja) 学習装置および学習方法、並びにプログラムおよび記録媒体
JP4000589B2 (ja) 復号装置および復号方法、並びにプログラムおよび記録媒体
JP4752088B2 (ja) データ処理装置およびデータ処理方法、並びに記録媒体
JP4517448B2 (ja) データ処理装置およびデータ処理方法、並びに記録媒体
KR20060059773A (ko) 베이스 레이어 픽처의 벡터를 이용하는 영상신호의엔코딩/디코딩 방법 및 장치
JP4505729B2 (ja) 画像処理装置、画像処理方法、プログラム、および記録媒体
JP4538698B2 (ja) データ処理装置およびデータ処理方法、並びに記録媒体
JP4678454B2 (ja) データ処理装置およびデータ処理方法、並びに記録媒体
WO2011087333A2 (ko) 오디오 신호 처리 방법 및 장치
Yang et al. Multi-stage encoding scheme for multiple audio objects using compressed sensing
JP4120916B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4154647B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2002335405A (ja) 画像データ処理装置および方法、記録媒体、並びにプログラム
JP3714786B2 (ja) 音声符号化装置
JP2001345707A (ja) データ処理装置およびデータ処理方法、並びに記録媒体
Chan et al. An Introduction to AVS Lossless Audio Coding

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002716352

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020027012587

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 028005414

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 10239805

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1020027012587

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2002716352

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2002716352

Country of ref document: EP