WO2004006185A1 - 類似度算出方法及び装置 - Google Patents

類似度算出方法及び装置 Download PDF

Info

Publication number
WO2004006185A1
WO2004006185A1 PCT/JP2003/008142 JP0308142W WO2004006185A1 WO 2004006185 A1 WO2004006185 A1 WO 2004006185A1 JP 0308142 W JP0308142 W JP 0308142W WO 2004006185 A1 WO2004006185 A1 WO 2004006185A1
Authority
WO
WIPO (PCT)
Prior art keywords
distance
vector
hierarchical
calculated
similarity
Prior art date
Application number
PCT/JP2003/008142
Other languages
English (en)
French (fr)
Inventor
Mototsugu Abe
Masayuki Nishiguchi
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to DE60330147T priority Critical patent/DE60330147D1/de
Priority to US10/489,012 priority patent/US7260488B2/en
Priority to EP03736281A priority patent/EP1521210B9/en
Priority to KR1020047003337A priority patent/KR101021044B1/ko
Publication of WO2004006185A1 publication Critical patent/WO2004006185A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2131Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present invention relates to a similarity calculation method and apparatus for performing pattern matching between two vectors at high speed, as well as a program and a recording medium.
  • the so-called full search which determines the closest distance after determining the similarity between the input value and each of the candidates, is the simplest and least-missing method. Often used when the amount is small. However, for example, when searching for a part similar to the input video or input audio from a large amount of stored video or audio, the dimension of the feature vector per second is large, and they are equivalent to tens to hundreds of hours. Since the search is performed on the stored ones, performing such a simple full search has the problem that the search time is enormous.
  • the binary tree search and the heart tree search are required.
  • a high-speed technique such as a Shu method is used. This is to speed up the processing by storing data in advance in order and omitting comparison of branches or tables different from the input data during retrieval.
  • the symbolized data rarely coincides completely, because distortion and noise are inherent in the data. If a high-speed technology is used, many detection leaks will occur.
  • the data is multidimensional in nature, there is a problem that it is difficult to assign a unique order to the data in advance.
  • Japanese Patent Laid-Open Publication No. Hei 8—1 2 3 4 60 describes a process in which a plurality of vectors that are close to each other are grouped at the time of data registration and represented by one representative vector. By calculating the distance between the vector and the representative vector, and comparing only the vectors in the group with the shortest distance with all the vectors in the group, the similar vector search is speeded up and multidimensional There has been proposed a technology that can reflect vector distortion.
  • Japanese Patent Publication No. 2000-1-1345073 describes that vectors are coded and indexed by short codes, thereby suppressing an increase in the number of distance calculations and providing high-speed similar data. Techniques that enable search have been proposed.
  • a similarity calculation method is a similarity calculation method for calculating a similarity between two input vectors, wherein the distance calculation between the two input vectors is performed in a hierarchical manner.
  • the threshold comparison step if the integrated value of the distance calculated up to a certain level exceeds the threshold, control is performed so as to terminate the distance calculation.
  • the distance between two vectors is calculated in a hierarchical manner, and if the integrated value of the distance calculated up to a certain level exceeds a predetermined threshold, the threshold is calculated.
  • the calculation is sped up by detecting only that the value is greater than or equal to the value and not calculating the actual distance.
  • the similarity calculation method may further include a conversion step of performing a predetermined conversion on the two input vectors.
  • a conversion step of performing a predetermined conversion on the two input vectors.
  • the distance between the two converted input vectors is calculated in a predetermined order based on the predetermined conversion.
  • the predetermined transform is, for example, a transform that rearranges the order of each component constituting the input vector according to the magnitude of the variance of each component, a discrete cosine transform, a discrete Fourier transform, a Walsh This is the power conversion, or the power rune-nélebe conversion.
  • the similarity calculation method includes, for each of the two input vectors converted in the conversion step, extracting each component constituting the input vector in the predetermined order, and forming a plurality of hierarchical portions.
  • the hierarchical distance calculation step may calculate the distance between the components constituting the partial vector in order from the partial vector of the highest hierarchy. If the integrated value of the distances calculated for all the components that make up the partial vector up to a certain level is below the above threshold, the distance between the components that make up the partial vector one level lower Calculation is performed.
  • a similarity calculation device for calculating a similarity between two input vectors, wherein a distance between the two input vectors is provided.
  • a hierarchical distance calculating means for performing the calculation hierarchically; a threshold comparing means for comparing an integrated value of the distances calculated in each hierarchy by the hierarchical distance calculating means with a preset threshold; and a comparison by the threshold comparing means Control means for controlling the distance calculation by the hierarchical distance calculation means according to the result; and output means for outputting the integrated value of the distance calculated up to the last hierarchy as the similarity, wherein the control means Controls the distance calculation to be terminated when the integrated value of the distances calculated up to a certain level exceeds the threshold value as a result of the comparison in the threshold value comparison step.
  • Such a similarity calculation device calculates the distance between two vectors in a hierarchical manner, and when the integrated value of the distance calculated up to a certain level exceeds a predetermined threshold value, only that the integrated value of the distance is equal to or more than the threshold value Calculation by calculating the actual distance by detecting Speed up.
  • the similarity calculating device may further include a conversion unit that performs a predetermined conversion on the two input vectors.
  • the hierarchical distance calculation unit is converted by the conversion unit.
  • the distance between the two input vectors is calculated in a predetermined order based on the predetermined conversion.
  • the predetermined transform is, for example, a transform that rearranges the order of each component constituting the input vector according to the magnitude of the variance of each component, a discrete cosine transform, a discrete Fourier transform, a Walsh-Hadamard transform, Or the Karhunen-Loeve transformation.
  • the similarity calculation device extracts each component constituting the input vector in the predetermined order and obtains a plurality of hierarchical partial vectors. May be provided.
  • the hierarchical distance calculating means hierarchically calculates the distance between the components constituting the partial vectors in order from the partial vector of the highest hierarchical level. If the integrated value of the distances calculated for all the components constituting the partial vector up to the hierarchy is lower than the above threshold value, the distance between the components constituting the partial vector one hierarchy lower is calculated.
  • a program according to the present invention causes a computer to execute the above-described similarity calculation processing
  • a recording medium according to the present invention is a computer-readable medium having such a program recorded thereon.
  • FIG. 1 is a diagram illustrating a schematic configuration of a similar vector detection device according to the first embodiment.
  • FIG. 2 is a flowchart illustrating processing at the time of vector registration in the similar vector detection apparatus.
  • Fig. 3 is a flowchart explaining the processing at the time of vector search in the similar vector detector. It is a chart.
  • FIG. 4 is a diagram for intuitively explaining the processing in the first embodiment.
  • FIG. 5 is a diagram showing an example in which the distribution of vectors in the feature space is biased.
  • FIG. 6 is a diagram illustrating a schematic configuration of a similar vector detection device according to the second embodiment.
  • FIG. 7 is a flow chart for explaining processing at the time of vector registration in the similar vector detection device.
  • FIG. 8 is a flowchart illustrating processing at the time of vector search in the similar vector detection apparatus.
  • FIG. 9 is a diagram illustrating a schematic configuration of a similar vector detection device according to the third embodiment.
  • FIG. 10 is a flowchart for explaining processing at the time of vector registration in the similar vector detection apparatus.
  • FIG. 11 is a flowchart for explaining processing at the time of vector search in the similarity vector detection device.
  • FIG. 12 is a flowchart illustrating an example of a process of extracting an acoustic feature vector from an acoustic signal.
  • FIG. 13 is a diagram illustrating an example of a process of extracting an acoustic feature vector from an acoustic signal.
  • FIG. 14 is a diagram for explaining transform coding in an audio signal.
  • FIG. 15 is a flowchart illustrating an example of a process of extracting an audio feature vector from an encoded audio signal.
  • FIG. 16 is a diagram illustrating an example of a process of extracting an audio feature vector from an encoded audio signal.
  • FIG. 17 is a flowchart illustrating an example of a process of extracting a video feature vector from a video signal.
  • FIG. 18 is a diagram illustrating an example of a process of extracting a video feature vector from a video signal.
  • FIG. 19 illustrates another example of processing for extracting a video feature vector from a video signal. It is a flow chart.
  • FIG. 20 is a diagram illustrating another example of the process of extracting a video feature vector from a video signal.
  • FIG. 21 is a flowchart illustrating another example of a process of extracting a video feature vector from an encoded video signal.
  • FIG. 22 is a diagram illustrating another example of the process of extracting a video feature vector from an encoded video signal.
  • BEST MODE FOR CARRYING OUT THE INVENTION hereinafter, specific embodiments to which the present invention is applied will be described in detail with reference to the drawings.
  • the present invention is applied to a similar vector detection method for detecting a vector similar to an input vector from a plurality of registered vectors at high speed, and an apparatus therefor.
  • the distance is calculated for the one whose distance is smaller than a predetermined threshold, For those exceeding a predetermined threshold, only the fact that the threshold is exceeded is detected and the actual distance is not calculated, thereby speeding up the calculation of similar vector detection. Note that, in the similar vector detection device according to the present embodiment, when the distance exceeds the threshold, 11 is output for convenience.
  • f (f [l], f [2], one, f [N]) t ⁇ ⁇ ⁇ (1)
  • g (g [l [2], '', g [N]) t ⁇ ⁇ ⁇ ( 2)
  • f [1], f [2],... represent each component of the vector f
  • g [1], g [2],. Represents each component of g.
  • t represents transpose
  • N represents the dimension of the vector.
  • FIG. 1 shows a schematic configuration of a similar vector detection device according to the first embodiment.
  • the similar vector detection device 1 inputs a vector f and a vector g and outputs a square distance (or ⁇ 1) between the vectors.
  • the recording unit 10 and the hierarchical distance It comprises an operation unit 11 and a threshold value judgment unit 12.
  • step S1 the recording unit 10 (FIG. 1) inputs a registration vector g in advance.
  • a registration vector g In general, there are a plurality of vectors g, and the number is often huge.
  • step S2 the recording unit 10 records the input vector g.
  • the recording unit 10 is, for example, a magnetic disk, an optical disk, a semiconductor memory, or the like.
  • step S10 the threshold determination unit 12 (FIG. 1) sets the distance threshold S, and in the subsequent step S11, the hierarchical distance calculation unit 11 inputs the vector f, Obtain one vector g recorded in the recording unit 10.
  • step S12 the hierarchical distance calculation unit 11 sets the component number i, which is an internal variable, to 1 and the integrated value sum of the distance to 0, and in step S13, the vector f
  • An integration operation as shown by the following equation (3) is performed between the ith component f [i] and the ith component g [i] of the vector g.
  • step S14 the threshold determination unit 12 determines whether the integrated value sum is less than the threshold S. If the integrated value sum is smaller than the threshold value S (Yes), the process proceeds to step S16. If the integrated value sum is equal to or larger than the threshold value S (No), the threshold value determination unit 12 is set to 1 in step S15. Is output and the process ends.
  • the output 1 is a convenient numerical value indicating that the distance between the input vector f and the obtained vector g exceeds the threshold S and the vector g is rejected, as described above. is there.
  • the threshold determination unit 12 sets the threshold value S, and terminates the integration operation in the hierarchical distance calculation unit 11 when the integrated value sum exceeds the threshold value S in the middle of the integration operation. However, the processing speed has been improved.
  • step S16 it is determined whether or not the component number i is equal to or smaller than the number of dimensions N of the vector f and the vector g. If the component number i is equal to or smaller than N (Yes), i is incremented in step S17 and the process returns to step S13. On the other hand, if the component number i is larger than N (No), since the integration operation has been completed up to the last component of the vector f and the vector g, the threshold determination unit 12 in step S 18 sets the integrated value Output sum and end the process. The sum sum at this time is the square of the distance between the vectors.
  • the square distance between the vectors is used.
  • the same method can be used for any distance scale, not limited to the square distance.
  • the sum value monotonically increases with respect to the sum value of the distances between the components, false rejection does not occur.
  • the sum of the distances between the components is Therefore, for the vectors f and g whose distances are equal to or smaller than the threshold value ⁇ S, exactly the same distance as that of the simple full search method is output, and no error occurs.
  • updates and deletions can be performed in a chronological order, and processing and management are easy. It is also possible to easily search in chronological order and to specify the chronological range to search.
  • a search equivalent to a full search could be performed at high speed by setting the threshold value S of the distance.However, in this method, from which vector component the search is performed Since the search order depends on the order of the vectors, there is a difference in the search speed depending on this order. For example, if the distribution of vectors in the feature space seems to be biased as shown in Fig. 5, the search speed varies greatly depending on which of the f [1] axis and f [2] axis is integrated first. . In this example, evaluating the f [2] axis first reduces unnecessary integration and speeds up.
  • the input vector f and the registered vector g are multiplied by the orthonormal
  • the search is further speeded up by performing a transform and performing a search in descending order of significance using the vector f 'and the vector g' after the orthogonal transform.
  • FIG. 6 shows a schematic configuration of a similar vector detection device according to the second embodiment.
  • the similar vector detection device 2 inputs a vector and a vector g and outputs a distance (or ⁇ 1) between the vectors.
  • the vector conversion units 20 and 21 and a recording unit It comprises a unit 22, a hierarchical distance calculation unit 23, and a threshold determination unit 24.
  • the vector converters 20 and 21 perform the same conversion on the vector g and the vector f, respectively.
  • the recording unit 22 is, for example, a magnetic disk, an optical disk, a semiconductor memory, or the like.
  • step S 20 the vector conversion unit 20 (FIG. 6) inputs a registration vector g in advance, and in step S 21, converts the vector g as in the above equation (5), g '. Then, in step S2, the recording unit 10 records the converted vector g ′.
  • step S30 the threshold determination unit 24 (FIG. 6) sets a distance threshold S, and in the following step S31, the vector conversion unit 21 inputs the vector f, and the hierarchical distance The operation unit 23 acquires one vector g ′ recorded in the recording unit 22.
  • step S32 the vector conversion unit 21 converts the vector f as in the above equation (4) to generate a vector: f '.
  • step S33 the hierarchical distance calculation unit 23 sets the component number i, which is an internal variable, to 1 and the integrated value sum of the distance to 0.
  • step S35 the threshold determination unit 24 determines whether the integrated value sum is less than the threshold S. If the integrated value sum is less than the threshold value S (Yes), the process proceeds to step S37. If the integrated value sum is equal to or greater than the threshold value S (No), the threshold determination unit 24 determines in step S36 that the value of -1 Is output and the process ends.
  • step S37 it is determined whether or not the component number i is equal to or smaller than the number of dimensions ⁇ ⁇ ⁇ ⁇ of the vector ⁇ and the vector g '. If the component number i is equal to or less than N (Yes), i is incremented in step S38, and the process returns to step S34. On the other hand, when the component number i is larger than N (No), since the multiplication operation has been completed up to the last component of the vector f ′ and the vector g ′, the threshold determination unit 24 calculates Output the value sum and end the process. The integrated value sum at this time is the square of the distance between the vectors.
  • an order matrix This simply rearranges the order of the vector components.
  • an 8th-order matrix P is represented by the following equation (8). 0 1 0 0 0 0 0 0 0 0 0
  • the orthogonal transform using this order matrix is effective when the spread of each vector component is different, and is high-speed because only rearrangement is required and multiplication / division or conditional branching is not required.
  • the energy when the feature vector is regarded as a discrete signal is biased toward low-frequency components.
  • the orthogonal transform is represented by the discrete cosine transform (DCT) expressed by the following equations (10) and (11), and by the following equations (12) and (13).
  • DCT discrete cosine transform
  • (12) and (12) Low-frequency components using a discrete Fourier transform (DFT)
  • DFT discrete Fourier transform
  • the fast transform method can be used for the discrete cosine transform and the discrete Fourier transform, and it is not necessary to hold the entire transformation matrix. This is much more advantageous than performing all calculations.
  • the Walsh-Hadamard transformation is an orthogonal transformation in which each element of the transformation matrix is composed of only ⁇ 1, and is suitable for high-speed transformation because no multiplication is required during the transformation.
  • the alternating number as a concept close to the frequency, and arranging the components in order from the low alternating number, the discrete cosine transform and the discrete Fourier transform described above can be used.
  • distance calculation is speeded up for vectors with large correlation between adjacent components.
  • the Walsh-Hadamard transform matrix is constructed according to the sign of the Fourier transform matrix, or by recursive expansion of the matrix.
  • equation (14) shows an eighth-order Walsh-Hadamard transformation matrix W arranged in the order of alternating numbers.
  • the optimal Karhunen-Loeve transform (hereinafter referred to as the KL transform) is used as the orthogonal transform. ) Is effective.
  • the KL transformation matrix T is an eigenvalue decomposition of the variance matrix V of the sample vector, and is defined as the following equation (15), where the eigenvalues are..., ⁇ ⁇ .
  • the KL transform is an orthogonal transform matrix that completely removes the correlation between the components, and the variance of the transformed vector components becomes the eigenvalue ⁇ i. Therefore, by constructing the KL transformation matrix ⁇ ⁇ ⁇ so that the eigenvalues are arranged in descending order, it is possible to integrate all components and remove redundant information, and then integrate the distance from the axis with the largest variance.
  • the vector itself is compressed by extracting and holding only the vector components having large eigenvalues and not storing the vector components having small eigenvalues.
  • the storage area and data read time in Fig. 6) can also be reduced.
  • the search operation is speeded up by speeding up the distance calculation.
  • searching for example, the time required to read data from a recording unit such as an eighteen disc is required. Can also be a major contributor.
  • the KL transform in the above-described second embodiment corresponds to an analysis method called principal component analysis in the field of multivariate analysis, and is an operation for extracting main components constituting a vector. Therefore, in the third embodiment described below, the main component of the transformed vector g ′ obtained in the second embodiment is defined as an index vector gi, and the remaining components are defined as a detailed vector g 2. Record. During the search, first with reference to the index vector g perform distance calculation, by performing the result only further distance calculations to obtain more base vector g 2 when it is less than the threshold value S, shorten the data read time Can be planned.
  • FIG. 9 shows a schematic configuration of a similar vector detection device according to the third embodiment.
  • the similar vector detection device 3 inputs a vector f and a vector g and outputs a square distance (or ⁇ 1) between the vectors. It comprises units 30 and 31, an index recording unit 32, a detailed recording unit 33, a hierarchical distance calculation unit 34, and a threshold determination unit 35.
  • the vector converters 30 and 31 perform the same conversion on the vector 8 and the vector f, respectively, as in the above-described second embodiment.
  • the index recording unit 32 and the detailed recording unit 33 are, for example, a magnetic disk, an optical disk, a semiconductor memory, or the like.
  • step S40 the vector conversion unit 30 (FIG. 9) inputs a registration vector g in advance, and in step S41, the above-described equation
  • the vector transformer 30 performs an index having a predetermined number M (1 ⁇ ⁇ N) components in order from a component having a small component number, that is, a component having a large variance or eigenvalue in the above-described transform, or a low-frequency component.
  • M (1 ⁇ ⁇ N) components split into a vector and a detailed vector g 2 with the remaining components.
  • the index recording portion 3 2 records the index vector gi, in step S 4 3, detailed recording unit 3 3 records the details base vector g 2.
  • step S50 the threshold determination unit 35 (FIG. 9) sets the distance threshold S, and in the following step S51, the vector conversion unit 31 inputs the vector f, and the hierarchical distance The operation unit 34 acquires one index vector gi recorded in the index recording unit 32.
  • step S52 the vector conversion unit 31 converts the vector f as in the above equation (4) to generate the vector ⁇ . Further, the vector transformation unit 31 divides, in ascending order of component numbers, into an index vector fi having a predetermined number M (1 ⁇ M ⁇ N) of components and a detailed vector ⁇ 2 having the remaining components. .
  • step S55 the threshold determination unit 35 determines whether the integrated value sum is less than the threshold S. If the integrated value sum is less than the threshold value S (Yes), the process proceeds to step S57. If the integrated value sum is equal to or greater than the threshold value S (No), the threshold determination unit 35 in step S56 performs Outputs 1 and ends the processing.
  • the output 1 is a convenient numerical value indicating that the distance has exceeded the threshold and has been rejected, as described above.
  • step S57 it is determined whether or not the component number i is equal to or smaller than the dimension number M of the index vector f index vector. If the component number i is equal to or less than M (Yes), i is incremented in step S58, and the process returns to step S54. On the other hand, when the component number i is larger than M (No), the hierarchical distance calculation unit 34 acquires one detailed vector g 2 recorded in the detailed recording unit 33.
  • step S60 the hierarchical distance calculation unit 34 calculates a value between the ith component ⁇ ′ [i] of the vector and the ith component g ′ [i] of the vector g ′ by using the above equation (16). Perform the multiplication operation as shown.
  • step S61 the threshold determination unit 35 determines whether the integrated value sum is less than the threshold S. If the integrated value sum is less than the threshold value S (Yes), the process proceeds to step S63. If the integrated value sum is equal to or more than the threshold value S (No), the threshold determination unit 35 in step S62 is executed. ⁇ 1 is output and the processing ends.
  • step S63 it is determined whether or not the component number i is equal to or smaller than the number of dimensions N of the vector f 'and the vector g'. If the component number i is equal to or smaller than N (Yes), i is incremented in step S64, and the process returns to step S60. On the other hand, if the component number i is larger than N (No), since the calculation has been completed up to the last component of the vector f ′ and the vector g ′, the threshold determination unit 35 Output the value sum and end the process. At this time, the integrated value sum is the square of the distance between the vectors. As described above, the processing for one registered vector g ′ is shown in the flowchart of FIG.
  • the storage capacity and accuracy are not changed and the operation speed is hardly changed as compared with the first and second embodiments, but most of the comparisons are rejected at the stage of the index vector g. If less need to get more base vector g 2 are, the head is eliminated to over by Isseki der click process.
  • the vector is divided into two stages, the index vector and the detailed vector, but similarly, the index vector is further divided into a higher-order index vector and a detailed index vector and divided into three stages.
  • the index vector is further divided into a higher-order index vector and a detailed index vector and divided into three stages.
  • step S70 an audio signal for each time interval T is acquired from an audio signal in the target time interval.
  • Q is an index representing a discrete frequency
  • Q is a maximum discrete frequency.
  • step S 7 3 the average scan Bae spectrum S 'q of Pawasu Bae vector coefficient S q determined calculated, the average spectrum S ⁇ vectorized at step S 74, it generates an acoustic feature vector a.
  • This acoustic feature vector a is represented, for example, by the following equation (17).
  • the audio signal in the target time section is described as being divided into time sections T.
  • the spectrum is not divided every time section T and the spectrum is not divided. The calculation may be performed.
  • acoustic signals are enormous, they are often compressed and encoded before being recorded or transmitted. After decoding the coded audio signal and returning it to the baseband, it is possible to extract the audio feature vector a using the above method, but the audio feature vector a can be extracted only by partial decoding. If extraction is possible, the extraction process can be made more efficient and faster.
  • transform coding which is a commonly used coding method, as shown in FIG. 14, an audio signal as an original sound is divided into frames for each time interval T. Then, a modified discrete cosine transform (Modified Discrete Coefficient) is applied to the sound signal of each frame. Orthogonal transformation such as sine transform (MDCT) is performed, and its coefficients are quantized and encoded. At this time, a scale factor, which is a magnitude normalization coefficient, is extracted for each frequency band and separately encoded. Therefore, by decoding only this scale factor, it can be used as the acoustic feature vector a.
  • Modified Discrete Coefficient Modified Discrete Coefficient
  • MDCT sine transform
  • step S80 an encoded audio signal in the time section T of the target time section is obtained, and in step S81, the scale factor of each frame is partially decoded. Subsequently, in step S82, it is determined whether or not decoding within the target time interval has been completed. If the decoding has been completed (Yes), the process proceeds to step S83. If not completed (No), the process proceeds to step S83. Return to S80.
  • step S83 the largest scale factor is detected for each band from the scale factors in the target time interval, and in step S84, they are vectorized to generate an acoustic feature vector a.
  • the sound feature vector a equivalent to the above can be extracted at high speed without completely decoding the encoded sound signal.
  • step S90 as shown in FIG. 18, a video frame is obtained from a video signal in the target time interval T.
  • step S91 a time averaged image 100 is created based on all the acquired video frames.
  • step S92 the created time averaged image 100 is divided into ⁇ vertical X X Y small blocks, and a block averaged image 110 is created by averaging the pixel values in each block.
  • step S93 these are arranged in the order of R, G, B, for example, from the upper left to the lower right, to generate a one-dimensional video feature vector V.
  • the rule v is represented, for example, by the following equation (18).
  • the one-dimensional video feature vector V may be generated by rearranging the pixel values of the time average image 100 without creating the block average image 110.
  • step S100 as shown in FIG. 20, a video frame is obtained from a video signal in the target time interval T.
  • step S101 a histogram for each color, for example, R, G, B signal values is created from the signal values of each video frame.
  • step S102 these are arranged in the order of, for example, R, G, and B to generate a one-dimensional video feature vector V.
  • This video feature vector V is, for example, Expression (19),
  • video signals are enormous, they are often compressed and encoded before being recorded or transmitted. After decoding the coded video signal and returning it to baseband, it is possible to extract the video feature vector V using the above method, but the video feature vector V is extracted only by partial decoding If possible, the extraction process can be made more efficient and faster.
  • step S110 for the target time interval T to be vectorized, the coded video signal of the most recent coded group (Group of Pictures: G0P) is obtained, and the intraframe code in the GOP is obtained. Obtain a chemical picture (I picture) 1 20.
  • the frame image is encoded in units of a macroblock MB (16 ⁇ 16 pixels or 8 ⁇ 8 pixels), and a discrete cosine transform (DCT) is used.
  • This DCT-converted DC coefficient corresponds to the average value of the pixel values of the image in the macroblock.
  • step S111 the DC coefficients are obtained, and in step S112, these are arranged in the order of, for example, Y, Cb, and Cr to generate a one-dimensional video feature vector V.
  • This video feature vector V is expressed by, for example, the following equation (20). expressed.
  • the video feature vector V can be extracted at high speed without completely decoding the encoded video signal.
  • a hierarchical distance integration operation is performed, and when a similarity vector exceeds a threshold value for a preset distance.
  • similar vectors can be detected at high speed.
  • a vector similar to the input vector is detected from a large number of registered vectors, most of the registered vectors are dissimilar and exceed the threshold. Detection time can be greatly reduced.
  • the vector is subjected to an order transform, a discrete cosine transform, a discrete Fourier transform, a Walsh-Hadamard transform, or a KL transform in advance, and a highly significant vector component, that is, a component having a large variance or eigenvalue in the above-described transform,
  • a highly significant vector component that is, a component having a large variance or eigenvalue in the above-described transform
  • the present invention is not limited to this, and arbitrary processing is realized by causing a CPU (Central Processing Unit) to execute a computer program. It is also possible.
  • the computer program can be provided by being recorded on a recording medium, or can be provided by being transmitted via the Internet or another transmission medium.
  • INDUSTRIAL APPLICABILITY According to the present invention described above, the distance between two vectors is calculated in a hierarchical manner. The calculation can be sped up by detecting only that the distance is not and calculating the actual distance. In particular, when a vector similar to the input vector is detected from a large number of registered vectors, most of the registered vectors are dissimilar and exceed the threshold, so the distance calculation is terminated early. Detection time can be greatly reduced.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 類似ベクトル検出装置(2)において、ベクトル変換部(20),(21)は、登録ベクトルg及び入力ベクトルfに対して、順序行列による変換、離散コサイン変換、離散フーリエ変換、ウォルシュ−アダマール変換、或いはカルーネン−レーベ変換を施す。階層的距離演算部(23)は、2つのベクトル間の距離計算を、有意性の高いベクトル成分、すなわち、上述の変換で分散や固有値の大きい成分、或いは低周波成分から順に階層的に行う。そして、ある階層までに計算された距離の積算値が閾値判定部(24)において距離の閾値Sを上回ったと判定された場合、閾値Sを上回ったことのみを出力して距離計算を打ち切る。

Description

明細書 類似度算出方法及び装置 技術分野 本発明は、 2つのべクトル間のパターンマッチングを高速に行う類似度算出方 法及び装置、 並びにプログラム及び記録媒体に関する。
本出願は、 日本国において 2 0 0 2年 7月 9日に出願された日本特許出願番号 2 0 0 2— 2 0 0 4 8 1を基礎として優先権を主張するものであり、 この出願は 参照することにより、 本出願に援用される。 背景技術 従来より、 既知の'パターンと略々同じパターンを未知の入力信号から検出した り、 2つの信号間の類似性を評価したりするため、 音響処理技術、 画像処理技術、 通信技術、 レーダ技術など、 信号処理が関係するあらゆる技術分野でデータの類 似性や一致性の判定が行われている。 一般に、 類似データの検出には、 データを 特徴ベクトル化し、 その距離又は角度 (相関) の大きさによって類似性を判定す る手法が用いられている。
特に、 入力値と全ての候補それぞれとの類似度を求めた上で最も距離の近いも のを決定する、 いわゆる全探索 (fu l l search) が、 最もシンプル且つ検出漏れの ない手法であり、 データ量が少ない場合によく用いられている。 しかしながら、 例えば大量に蓄積された映像や音声から、 入力映像や入力音声と類似する部分を 検索する場合には、 毎秒あたりの特徴ベクトルの次元が大きく、 また、 それらが 数十乃至数百時間分蓄積されたものに対しての検索が行われるため、 このような 単純な全探索を行うと、 検索時間が膨大なものとなる問題がある。
一方、 大量のデータを検索するためには、 例えば文書検索等の記号化されたデ —夕の完全一致検索を行う場合などに、 二分木法 (b inary t ree search) やハツ シュ法などの高速化技術が用いられる。 これは、 予めデータを順序立てて格納し、 検索時には入力データと異なる枝或いはテーブルの比較を省略することで高速化 するものである。 しかしながら、 例えば映像や音声等の物理信号を対象とする場 合、 デ一夕には本質的に歪みやノイズがあるため、 記号化されたデータが完全に 一致することは稀であり、 このような高速化技術を用いた場合には多数の検出漏 れが発生してしまう。 また、 データが本質的に多次元であることから、 予めデー 夕に一意の順序付けを施しておくことが困難であるという問題がある。
そこで、 日本特許公開公報平 8— 1 2 3 4 6 0号には、 データ登録時に距離の 近い複数のべクトルをグループ化して 1つの代表べクトルで代表させる処理を行 い、 検索時に先ず入力ベクトルと代表ベクトルとの間の距離を計算し、 その距離 が近いグループのべクトルについてのみグループ内の全てのべクトルとの比較を 行うことで、 類似ベク トル検索を高速化し、 且つ、 多次元でベクトルの歪みを反 映させることのできる技術が提案されている。
また、 日本特許公開公報 2 0 0 1 - 1 3 4 5 7 3号には、 べクトルを符号化し て短い符号により索引付けすることで、 距離計算回数の増加を抑制し、 高速な類 似データ検索を可能とする技術が提案されている。
しかしながら、 上述した日本特許公開公報平 8— 1 2 3 4 6 0号に記載された 技術では、 登録時に適切なグループ分けと代表ベクトルの選択が必要とされ、 登 録操作が煩雑になるという問題があった。 また、 検索時においても、 例えば入力 べクトルと最小距離にある登録べクトルが、 入力べクトルと最小距離にある代表 べクトルが代表するグループに属しているとは限らないため、 検索すべきグルー プを決定する操作が煩雑になるという問題があった。
また、 上述した日本特許公開公報 2 0 0 1 - 1 3 4 5 7 3号に記載された技術 では、 符号化する際にベクトル間の距離関係が失われるか、 又は非加算的若しく は非単調で複雑な距離関係となり、 登録や検索の仕組みが煩雑になるという問題 があった。
ここで、 映像や音声は本質的に時系列であるため、 登録は実時間で行われるこ とが望ましく、 また、 検索時には、 時間順序を反映できるものであることが望ま しい。 言い換えれば、 上述の日本特許公開公報平 8— 1 '2 3 4 6 0号や日本特許 公開公報 2 0 0 1 - 1 3 4 5 7 3号に記載された技術のように、 時系列を入れ替 えるような登録操作を必要としたり、 更新時に既登録のデータや索引に対する配 置替えを必要とするような手法は、 時系列データの検索には適切でない場合があ る。
すなわち、
( a ) 全探索の構造的シンプルさ、 歪みに対する頑健さを失わず、
( b ) 登録や削除が実時間以内で行われ、
( c ) 登録や削除によって他の既登録データに対する操作を必要としない という条件を満たしつつ、 全探索よりも遙かに短時間に検索が行われるような仕 組みが望まれている。 発明の開示 本発明は、 このような従来の実情に鑑みて提案されたものであり、 上述の条件 を満たしつつ、 2つのべクトル間のパターンマッチングを高速に行う類似度算出 方法及び装置、 並びにその類似度算出処理をコンピュータに実行させるプロダラ ム及びそのようなプログラムが記録されたコンピュータ読み取り可能な記録媒体 を提供することを目的とする。
上述した目的を達成するために、 本発明に係る類似度算出方法は、 2つの入力 べクトル間の類似度を求める類似度算出方法であって、 上記 2つの入力べクトル 間の距離算出を階層的に行う階層的距離算出工程と、 上記階層的距離算出工程の 各階層で算出された距離の積算値を予め設定された閾値と比較する閾値比較工程 と、 上記閾値比較工程における比較結果に応じて、 上記階層的距離算出工程にお ける距離算出を制御する制御工程と、 最後の階層までに算出された距離の積算値 を上記類似度として出力する出力工程とを有し、 上記制御工程では、 上記閾値比 較工程において、 ある階層までに算出された距離の積算値が上記閾値を上回った 場合、 距離算出を打ち切るように制御する。
このような類似度算出方法は、 2つのべクトル間の距離算出を階層的に行い、 ある階層までに算出された距離の積算値が所定の閾値を上回るものについては閾 値以上であることのみを検出して実際の距離を算出しないことにより、 演算を高 速化する。
また、 この類似度算出方法は、 上記 2つの入力ベクトルに対して所定の変換を 施す変換工程をさらに有していてもよく、 この場合、 上記階層的距離算出工程で は、 上記変換工程にて変換された上記 2つの入力ベクトル間の距離算出が、 上記 所定の変換に基づく所定の順序で行われる。 ここで、 上記所定の変換とは、 例え ば、 入力べクトルを構成する各成分の順序を当該各成分の分散の大きさに従って 並べ替える変換、 離散コサイン変換、 離散フーリエ変換、 ウオルシューァダマ一 ル変換、 或いは力ルーネンーレ一ベ変換である。
さらに、 この類似度算出方法は、 上記変換工程にて変換された上記 2つの入力 べクトルの各々について、 当該入力べクトルを構成する各成分を上記所定の順序 で取り出して階層的な複数の部分べクトルに分割する分割工程を有していてもよ く、 この場合、 上記階層的距離算出工程では、 最上位階層の部分ベクトルから順 に部分べクトルを構成する各成分間の距離算出が階層的に行われ、 ある階層まで の部分べクトルを構成する全ての成分間について算出された距離の積算値が上記 閾値を下回った場合、 一階層下位の部分べクトルを構成する各成分間の距離算出 が行われる。
また、 上述した目的を達成するために、 本発明に係る類似度算出装置は、 2つ の入力べクトル間の類似度を求める類似度算出装置であって、 上記 2つの入力べ クトル間の距離算出を階層的に行う階層的距離算出手段と、 上記階層的距離算出 手段によって各階層で算出された距離の積算値を予め設定された閾値と比較する 閾値比較手段と、 上記閾値比較手段による比較結果に応じて、 上記階層的距離算 出手段による距離算出を制御する制御手段と、 最後の階層までに算出された距離 の積算値を上記類似度として出力する出力手段とを備え、 上記制御手段は、 上記 閾値比較工程による比較の結果、 ある階層までに算出された距離の積算値が上記 閾値を上回った場合、 距離算出を打ち切るように制御する。
このような類似度算出装置は、 2つのべクトル間の距離算出を階層的に行い、 ある階層までに算出された距離の積算値が所定の閾値を上回るものについては閾 値以上であることのみを検出して実際の距離を算出しないことにより、 演算を高 速化する。
また、 この類似度算出装置は、 上記 2つの入力べクトルに対して所定の変換を 施す変換手段をさらに備えていてもよく、 この場合、 上記階層的距離算出手段は, 上記変換手段によって変換された上記 2つの入力べクトル間の距離算出を、 上記 所定の変換に基づく所定の順序で行う。 ここで、 上記所定の変換とは、 例えば、 入力べクトルを構成する各成分の順序を当該各成分の分散の大きさに従って並べ 替える変換、 離散コサイン変換、 離散フーリエ変換、 ウオルシュ一アダマール変 換、 或いはカルーネンーレーべ変換である。
さらに、 この類似度算出装置は、 上記変換手段によって変換された上記 2つの 入力べクトルの各々について、 当該入力べクトルを構成する各成分を上記所定の 順序で取り出して階層的な複数の部分ベクトルに分割する分割手段を備えていて もよく、 この場合、 上記階層的距離算出手段は、 最上位階層の部分ベクトルから 順に部分べクトルを構成する各成分間の距離算出を階層的に行い、 ある階層まで の部分べクトルを構成する全ての成分間について算出した距離の積算値が上記閾 値を下回った場合、 一階層下位の部分べクトルを構成する各成分間の距離算出を 行う。
また、 本発明に係るプログラムは、 上述した類似度算出処理をコンピュータに 実行させるものであり、 本発明に係る記録媒体は、 そのようなプログラムが記録 されたコンピュー夕読み取り可能なものである。
本発明の更に他の目的、 本発明によって得られる具体的な利点は、 以下に説明 される実施例の説明から一層明らかにされるであろう。 図面の簡単な説明 図 1は、 第 1の実施の形態における類似べクトル検出装置の概略構成を説明す る図である。
図 2は、 同類似べクトル検出装置におけるべクトル登録時の処理を説明するフ 口—チヤ—卜である。
図 3は、 同類似べクトル検出装置におけるべクトル検索時の処理を説明するフ ローチャー卜である。
図 4は、 第 1の実施の形態における処理を直観的に説明するための図である。 図 5は、 特徴空間内のべクトルの分布に偏りがある例を示す図である。
図 6は、 第 2の実施の形態における類似べクトル検出装置の概略構成を説明す る図である。
図 7は、 同類似べクトル検出装置におけるべクトル登録時の処理を説明するフ ローチャートである。
図 8は、 同類似べクトル検出装置におけるべクトル検索時の処理を説明するフ 口—チヤ一トである。
図 9は、 第 3の実施の形態における類似べクトル検出装置の概略構成を説明す る図である。
図 1 0は、 同類似べクトル検出装置におけるべクトル登録時の処理を説明する フローチヤ一トである。
図 1 1は、 同類似ベクトル検出装置におけるベクトル検索時の処理を説明する フローチヤ一トである。
図 1 2は、 音響信号から音響特徴ベクトルを抽出する処理の一例を説明するフ 口一チヤ一トである。
図 1 3は、 音響信号から音響特徴べクトルを抽出する処理の一例を説明する図 である。
図 1 4は、 音響信号における変換符号化を説明する図である。
図 1 5は、 符号化音響信号から音響特徴ベクトルを抽出する処理の一例を説明 するフローチャートである。
図 1 6は、 符号化音響信号から音響特徴ベクトルを抽出する処理の一例を説明 する図である。
図 1 7は、 映像信号から映像特徴ベクトルを抽出する処理の一例を説明するフ 口—チヤ一トである。
図 1 8は、 映像信号から映像特徴ベクトルを抽出する処理の一例を説明する図 である。
図 1 9は、 映像信号から映像特徴ベクトルを抽出する処理の他の例を説明する フロ一チヤ一トである。
図 2 0は、 映像信号から映像特徴ベクトルを抽出する処理の他の例を説明する 図である。
図 2 1は、 符号化映像信号から映像特徴ベクトルを抽出する処理の他の例を説 明するフローチヤ一トである。
図 2 2は、 符号化映像信号から映像特徴べクトルを抽出する処理の他の例を説 明する図である。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について、 図面を参照しながら詳 細に説明する。 この実施の形態は、 本発明を、 複数の登録ベクトルの中から入力 べクトルに類似するべクトルを高速に検出する類似べクトル検出方法及びその装 置に適用したものである。
具体的には、 本実施の形態における類似べクトル検出方法及びその装置では、 2つのべクトル間の距離を算出するにあたり、 その距離が所定の閾値を下回るも のについてはその距離を算出し、 所定の閾値を上回るものについては閾値以上で あることのみを検出して実際の距離を算出しないことにより、 類似べクトル検出 の演算を高速化する。 なお、 本実施の形態における類似ベクトル検出装置では、 距離が閾値を上回る場合には、 便宜上一 1を出力することとする。
以下、 距離を算出する 2つのべクトル f 及びべクトル gを、 以下の式 (1 ) 、 ( 2 ) のように表記する。
f = (f [l],f [2],一,f [N])t · · · (1) g = (g [l [2],' ',g [N])t · · · (2) ここで、 式 ( 1 ) において、 f [1] , f [2] ,…は、 べクトル f の各成分を表し、 式 (2 ) において g [1] , g [2] ,…は、 ベクトル gの各成分を表す。 また、 tは転 置を表し、 Nはベクトルの次元を表す。
( 1 ) 第 1の実施の形態
第 1の実施の形態における類似べクトル検出装置の概略構成を図 1に示す。 図 1に示すように、 類似ベクトル検出装置 1は、 ベクトル f 、 ベクトル gを入力し てそのベクトル間の自乗距離 (又は— 1 ) を出力するものであり、 記録部 1 0と、 階層的距離演算部 1 1と、 閾値判定部 1 2とから構成される。
この類似べクトル検出装置 1における登録時の処理を図 2のフローチヤ一トを 用いて説明する。 先ずステツプ S 1において、 記録部 1 0 (図 1 ) は、 予め登録 ベクトル gを入力する。 一般にベクトル gは複数であり、 膨大な数になることが 多い。 そして、 続くステップ S 2において、 記録部 1 0は、 入力したベクトル g を記録する。
このように、 第 1の実施の形態では、 登録時に特別な操作を行う必要がないた め簡便であり、 実時間での処理に適する。 なお、 記録部 1 0は、 例えば磁気ディ スク、 光ディスク、 或いは半導体メモリ等である。
続いて、 類似べクトル検出装置 1における検索時の処理を図 3のフ口一チヤ一 トを用いて説明する。 先ずステップ S 1 0において、 閾値判定部 1 2 (図 1 ) は, 距離の閾値 Sを設定し、 続くステップ S 1 1において、 階層的距離演算部 1 1は, べクトル f を入力すると共に、 記録部 1 0に記録されているべクトル gを 1つ取 得する。
続いてステップ S 1 2において、 階層的距離演算部 1 1は、 内部変数である成 分番号 iを 1に、 距離の積算値 s u mを 0にそれぞれセットし、 ステップ S 1 3 において、 ベクトル f の第 i成分 f [i]とベクトル gの第 i成分 g [i]との間で、 以 下の式 (3 ) で示すような積算演算を行う。
sum =sum +(f [i] - gは ι )2 . . . (3) ステップ S 1 4において、 閾値判定部 1 2は、 積算値 s u mが閾値 S未満であ るか否かを判別する。 積算値 s u mが閾値 S未満である場合 (Yes) にはステップ S 1 6に進み、 積算値 s u mが閾値 S以上である場合 (No) にはステップ S 1 5 で閾値判定部 1 2が— 1を出力して処理を終了する。 ここで、 出力される一 1は、 上述したように、 入力されたべクトル f と取得されたべクトル gとの距離が閾値 Sを上回り、 このベクトル gが棄却されたことを示す便宜的な数値である。 この ように、 閾値判定部 1 2は、 閾値 Sを設け、 積算演算の途中の階層で積算値 s u mが閾値 Sを上回つた場合に階層的距離演算部 1 1での積算演算を打ち切ること で、 処理の高速化を図っている。
ステップ S 1 6では、 成分番号 iがベクトル f 、 ベクトル gの次元数 N以下で あるか否かが判別される。 成分番号 iが N以下である場合 (Yes) には、 ステップ S 1 7で iをインクリメントしてステップ S 1 3に戻る。 一方、 成分番号 iが N よりも大きい場合 (No) には、 ベクトル f 、 ベクトル gの最後の成分まで積算演 算が終了しているため、 ステップ S 1 8で閾値判定部 1 2が積算値 s u mを出力 して処理を終了する。 なお、 このときの積算値 s u mは、 ベクトル間距離の自乗 となる。
以上、 図 3のフローチャートでは、 1つの登録ベクトル gに対する処理を示し たが、 実際には登録されている全てのベクトル gについて同様の処理を行い、 ベ クトル ίとの距離の積算値 s u mが閾値 Sを下回った全てのべクトル gを、 べク トル f に類似するべクトルとして出力する。
以上説明した第 1の実施の形態における処理を直観的に説明すると、 図 4に黒 丸で示す多数の登録べクトルについて、 図中 Xで示す入力べクトルからの距離が 半径 の超球の範囲内の登録べクトルに対してのみ正確な距離を算出し、 範囲 外の登録べクトルに対しては、 各軸毎の距離の積算値が半径を上回った時点で棄 却する処理を行っていることに相当する。
なお、 上述の説明ではベクトル間の自乗距離を用いたが、 自乗距離に限らず、 任意の距離尺度に対して同様の手法を用いることができる。 但し、 自乗距離を用 いる場合には、 積算値 s u mが各成分間距離の積算値に対して単調に増加するた め、 誤棄却を発生させることがない。 また、 各成分間の距離の総和はベクトル間 の距離に一致するため、 距離が閾値^ S以下であるベクトル f 、 ベクトル gに関 しては、 単純な全探索法と全く同じ距離が出力され、 誤差が発生することがない。 さらに、 この手法では、 時系列関係を崩す参照テーブル等を作成す'る必要がな いため、 デ一夕の更新や削除を時系列順序に従って行うことができ、 処理や管理 が容易である。 また、 時系列順序に従って検索を行うことや、 検索する時系列範 囲を指定することも容易に可能である。
( 2 ) 第 2の実施の形態
上述した第 1の実施の形態では、 距離の閾値 Sを設定することで、 全検索と同 等の検索を高速に行うことができたが、 この手法では、 どのベクトル成分から検 索を行うかはべクトルの並び順に依存するため、 この並び順によつて検索速度に 差が生じる。 例えば、 図 5のように特徴空間内のベクトルの分布に偏りがあるよ うな場合には、 f [1]軸と f [2]軸とのどちらを先に積算するかによって検索速度 が大きく異なる。 この例では、 f [2]軸を先に評価する方が余計な積算が少なくな り高速化できる。
そこで、 以下に説明する第 2の実施の形態では、 以下の式 (4 ) 、 ( 5 ) に示 すように、 入力ベクトル f 、 登録ベクトル gに対して正規直交変換行列 Uを乗算 して直交変換を行い、 この直交変換後のベクトル f '、 ベクトル g 'を用いて有意 性の高い順に検索を行うことで、 さらに検索を高速化する。
f '- Uf ' · · (4) g - Ug . . . (5)
なお、 以下の式 (6 ) に示すように、 正規直交変換行列 Uによっては 2つのべ クトル g、 べクトル f 間の自乗距離 d 2は変わらない。
Figure imgf000013_0001
(6)
第 2の実施の形態における類似べクトル検出装置の概略構成を図 6に示す。 図 6に示すように、 類似ベクトル検出装置 2は、 ベクトル 、 ベクトル gを入力し てそのベクトル間の距離 (又は— 1 ) を出力するものであり、 ベクトル変換部 2 0 , 2 1と、 記録部 2 2と、 階層的距離演算部 2 3と、 閾値判定部 2 4とから構 成される。 ここで、 ベクトル変換部 2 0, 2 1は、 それぞれベクトル g、 べクト ル f に対して同様の変換を施すものである。 また、 記録部 2 2は、 例えば磁気デ イスク、 光ディスク、 或いは半導体メモリ等である。
この類似べクトル検出装置 2における登録時の処理を図 7のフローチャートを 用いて説明する。 先ずステップ S 2 0において、 ベクトル変換部 2 0 (図 6 ) は、 予め登録べクトル gを入力し、 続くステップ S 2 1において、 上述した式 ( 5 ) のようにベクトル gを変換し、 ベクトル g 'を生成する。 そして、 ステップ S 2に おいて、 記録部 1 0は、 変換されたベクトル g 'を記録する。
続いて、 類似べクトル検出装置 2における検索時の処理を図 8のフローチヤ一 トを用いて説明する。 先ずステップ S 3 0において、 閾値判定部 2 4 (図 6 ) は、 距離の閾値 Sを設定し、 続くステップ S 3 1において、 ベクトル変換部 2 1がべ クトル f を入力すると共に、 階層的距離演算部 2 3が記録部 2 2に記録されてい るベクトル g 'を 1つ取得する。
続いてステップ S 3 2において、 ベクトル変換部 2 1は、 上述した式 (4 ) の ようにべクトル f を変換し、 ベクトル: f 'を生成する。
ステップ S 3 3において、 階層的距離演算部 2 3は、 内部変数である成分番号 iを 1に、 距離の積算値 s u mを 0にそれぞれセットし、. ステップ S 3 4におい て、 ベクトル f 'の第 i成分 f ' [i]とベクトル g 'の第 i成分 g' [i]との間で、 以下 の式 (7 ) で示すような積算演算を行う。 sum =sum +(f'[i]_g'[i])2 · · · (7)
ステップ S 3 5において、 閾値判定部 24は、 積算値 s umが閾値 S未満であ るか否かを判別する。 積算値 s umが閾値 S未満である場合 (Yes) にはステップ S 37に進み、 積算値 s umが閾値 S以上である場合 (No) にはステップ S 3 6 で閾値判定部 24がー 1を出力して処理を終了する。
ステップ S 37では、 成分番号 iがベクトル Γ、 ベクトル g'の次元数 Ν以下 であるか否かが判別される。 成分番号 iが N以下である場合 (Yes) には、 ステツ プ S 38で i をインクリメントしてステツプ S 34に戻る。 一方、 成分番号 iが Nよりも大きい場合 (No) には、 ベクトル f '、 ベクトル g'の最後の成分まで積 算演算が終了しているため、 ステップ S 3 9で閾値判定部 24が積算値 s umを 出力して処理を終了する。 なお、 このときの積算値 s umは、 ベクトル間距離の 自乗となる。
以上、 図 8のフローチャートでは、 1つの登録ベクトル g'に対する処理を示し たが、 実際には登録されている全てのベクトル g'について同様の処理を行い、 ベ クトル f 'との距離の積算値 s umが閾値 Sを下回った全てのべクトル g'を、 ベ クトル f 'に類似するべクトルとして出力する。
ここで、 上述した正規直交変換行列 Uとしては、 種々のものを用いることがで きるが、 以下では、 具体的に 4つの例を挙げて説明する。
(2 - 1) 直交変換の具体例
(2 - 1 - 1)
直交変換の最も簡単なものとして順序行列が挙げられる。 これは、 単純にべク トル成分の順序を並べ替えるものであり、 例えば 8次の順序行列 Pは、 以下の式 (8) に示すような形で表される。 0 1 0 0 0 0 0 0
1 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0
0 0 1 0 0 0 0 0
P = (8)
0 0 0 0 0 1 0 0
0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 1
0 0 0 0 0 0 1 0
上述した図 5のようにべクトルの各成分の分布が異なる場合、 明らかに分散の 大きな成分ほど距離に対する寄与が大きい。 したがって、 並べ替えの順序を決定 する際には、 予め十分な数 ( I個) のサンプルベクトル g iを用意し、 以下の式 (9 ) で計算される分散べクトル Vの大きい順に並ぶような順序行列を設定する のが最適である。
Figure imgf000015_0001
なお、 この順序行列を用いた直交変換は、 各ベクトル成分の広がり方が異なる ような場合に有効であり、 並べ替えのみでよく乗除算や条件分岐が必要ないため 高速である。
( 2— 1 - 2 )
映像特徴量や音響特徴量など、 隣接成分間の相関関係が大きい特徴量では、 特 徵ベクトルを離散信号とみなした場合のエネルギが低周波成分に偏る。
そこで、 直交変換として、 以下の式 (1 0) 、 (1 1) で表される離散コサイ ン変換 (Discrete Cosine Transf orm:DCT) や、 以下の式 ( 12) 、 (1 3) で表 される離散フーリエ変換 (Discrete Fourier Transforni:DFT) を用い、 低周波成 分から順に積算を行うことで、 有意性の高い成分から順に積算することができ. 距離計算が高速化される。
Figure imgf000016_0001
丄 (n = l)
(m - 1)(2η-1)π
a〔m -丄 )cos ― ― α 一 (11)
- (n≠l)
N
Figure imgf000016_0002
ここで、 離散コサイン変換や離散フーリエ変換には高速変換法を用いることが でき、 また変換行列も全部を保持する必要がないため、 計算機で実現する場合の メモリ使用量や演算速度は、 行列の全計算を行う場合よりも遙かに有利である。
(2 - 1 - 3)
ウオルシュ一アダマール (Walsh- Hadamard) 変換は、 変換行列の各要素が ± 1 のみで構成される直交変換であり、 変換時に乗算が必要ないため、 高速な変換に 適する。 ここで、 周波数に近い概念として交番数 (senuency) を用い、 低交番数 の成分から順に並べることで、 上述した離散コサイン変換や離散フーリエ変換と 同様に、 隣接成分間の相関関係が大きなべクトルに対して距離計算の高速化が図 られる。
ウオルシュ一アダマール変換行列は、 フーリェ変換行列の符号に従って構成す るか、 又は行列の再帰的拡大演算によって構成する。 一例として、 交番数順に並 ベた 8次のウオルシュ一アダマール変換行列 Wを以下の式 ( 14) に示す。
Figure imgf000017_0001
(2 - 1 - 4)
予め十分な数のサンプルベクトルが収集され、 また、 変換演算に多少のコスト をかけてもよい場合には、 直交変換として最適な力ルーネンーレ一ベ (Karhunen -Loeve) 変換 (以下、 KL変換という。 ) を用いることが有効である。
KL変換行列 Tは、 サンプルべクトルの分散行列 Vを固有値分解する固有行列 であり、 固有値を ···, λΝとした場合に、 以下の式 ( 1 5) のように定義さ れる。
V = Τ'ΛΤ , A=diag {λΐ5λ2,···,λΝ} (15) ここで、 K L変換は、 各成分間の相関関係を完全に取り除く直交変換行列であ り、 変換されたベクトル成分の分散が固有値 λ iとなる。 したがって、 固有値 を大きい順に並べるように K L変換行列 Τを構成することで、 全ての成分を統合 し重複する情報を取り除いた上で、 最も分散の大きい軸から距離の積算を行うこ とができる。
なお、 この K L変換を用いた手法では、 演算時に K L変換行列 Tを原則として 全次元に亘つて保持する必要があり、 また、 全てのベクトルに対して全次数の行 列演算を行う必要があるため、 演算コストがかかる。 しかしながら、 この演算は 登録時に行うものであるため、 特に高速化が要求される検索処理に要する時間を 増やすものではない。
また、 若干の精度の劣化は伴うものの、 固有値の大きいベクトル成分のみを抽 出して保持し、 固有値の小さいベクトル成分は保持しないようにすることで、 ベ クトル自体を圧縮し、 記録部 2 2 (図 6 ) の記憶領域やデータ読み込み時間を低 減することもできる。
( 3 ) 第 3の実施の形態
上述した第 1、 第 2の実施の形態では、 距離計算の高速化により検索演算を高 速化したが、 検索する際には、 例えば八一ドディスク等の記録部からのデータ読 み込み時間も大きなォ一パ一ヘッ ドの要因となる。
ここで、 上述した第 2の実施の形態における K L変換は、 多変量解析分野で主 成分分析と呼ばれる分析法にあたり、 べクトルを構成する主要な成分を抽出する 演算となっている。 そこで、 以下に説明する第 3の実施の形態では、 第 2の実施 の形態で得られた変換後のべクトル g 'の主要成分を索引べクトル g i、 残りの成 分を詳細ベクトル g 2として記録する。 検索時には、 先ず索引ベクトル g を参照 して距離計算を行い、 その結果が閾値 S未満である場合にのみ詳細べクトル g 2を 取得してさらに距離計算を行うことで、 データ読み込み時間の短縮化を図ること ができる。
第 3の実施の形態における類似べクトル検出装置の概略構成を図 9に示す。 図 9に示すように、 類似ベクトル検出装置 3は、 ベクトル f 、 ベクトル gを入力し てそのベクトル間の自乗距離 (又は— 1 ) を出力するものであり、 ベクトル変換 部 3 0 , 3 1と、 索引記録部 3 2と、 詳細記録部 3 3と、 階層的距離演算部 3 4 と、 閾値判定部 3 5とから構成される。 ここで、 ベクトル変換部 3 0 , 3 1は、 それぞれべクトリレ8、 べクトル f に対して上述した第 2の実施の形態と同様の変 換を施すものである。 また、 索引記録部 3 2、 詳細記録部 3 3は、 例えば磁気デ イスク、 光ディスク、 或いは半導体メモリ等である。
この類似べクトル検出装置 3における登録時の処理を図 1 0のフローチャート を用いて説明する。 先ずステップ S 4 0において、 ベクトル変換部 3 0 (図 9) は、 予め登録ベクトル gを入力し、 続くステップ S 4 1において、 上述した式
( 5 ) のようにベクトル gを変換し、 ベクトル g'を生成する。 さらにベクトル変 換部 3 0は、 成分番号の小さいもの、 すなわち上述した変換で分散や固有値の大 きい成分、 或いは低周波成分から順に、 所定数 M (1≤ <N) の成分を持つ索 引ベクトル と、 残りの成分を持つ詳細ベクトル g2とに分割する。 そしてステ ップ S 42において、 索引記録部 3 2が索引ベクトル g iを記録し、 ステップ S 4 3において、 詳細記録部 3 3が詳細べクトル g 2を記録する。
続いて、 類似べクトル検出装置 3における検索時の処理を図 1 1のフローチヤ ートを用いて説明する。 先ずステップ S 5 0において、 閾値判定部 3 5 (図 9 ) は、 距離の閾値 Sを設定し、 続くステップ S 5 1において、 ベクトル変換部 3 1 がべクトル f を入力すると共に、 階層的距離演算部 3 4が索引記録部 3 2に記録 されている索引ベクトル g iを 1つ取得する。
続いてステップ S 5 2において、 ベクトル変換部 3 1は、 上述した式 (4) の ようにベクトル f を変換し、 ベクトル Γを生成する。 さらにベクトル変換部 3 1 は、 成分番号の小さいものから順に、 所定数 M ( 1≤M<N) の成分を持つ索引 べクトル f iと、 残りの成分を持つ詳細べクトル ί 2とに分割する。
ステップ S 5 3において、 階層的距離演算部 3 4は、 内部変数である成分番号 iを 1に、 距離の積算値 s umを 0にそれぞれセットし、 ステップ S 5 4におい て、 ベクトル ί 'の第 i成分 Γ [i]とベクトル g'の第 i成分 g' [i]との間で、 以下 の式 (1 6) で示すような積算演算を行う。 sum =sum +(f '[i] - g'fi])2 · . · (16)
ステップ S 5 5において、 閾値判定部 3 5は、 積算値 s umが閾値 S未満であ るか否かを判別する。 積算値 s umが閾値 S未満である場合 (Yes) にはステップ S 5 7に進み、 積算値 s umが閾値 S以上である場合 (No) にはステップ S 56 で閾値判定部 3 5が— 1を出力して処理を終了する。 ここで、 出力される一 1は、 上述したように、 距離が閾値を上回り棄却されたことを示す便宜的な数値である。 ステップ S 5 7では、 成分番号 iが索引ベクトル f 索引ベクトル の次元 数 M以下であるか否かが判別される。 成分番号 iが M以下である場合 (Yes) には、 ステップ S 58で iをインクリメントしてステップ S 54に戻る。 一方、 成分番 号 iが Mよりも大きい場合 (No) には、 階層的距離演算部 34は、 詳細記録部 3 3に記録されている詳細べクトル g 2を 1つ取得する。
ステップ S 6 0において、 階層的距離演算部 34は、 ベクトル の第 i成分 ί ' [i]とべクトル g'の第 i成分 g' [i]との間で、 上述の式 (1 6) で示すような積 算演算を行う。
ステップ S 6 1において、 閾値判定部 3 5は、 積算値 s umが閾値 S未満であ るか否かを判別する。 積算値 s umが閾値 S未満である場合 (Yes) にはステップ S 6 3に進み、 積算値 s umが閾値 S以上である場合 (No) にはステップ S 6 2 で閾値判定部 3 5がー 1を出力して処理を終了する。
ステップ S 6 3では、 成分番号 iがベクトル f '、 ベクトル g'の次元数 N以下 であるか否かが判別される。 成分番号 iが N以下である場合 (Yes) には、 ステツ プ S 64で iをインクリメントしてステップ S 6 0に戻る。 一方、 成分番号 iが Nよりも大きい場合 (No) には、 ベクトル f '、 ベクトル g'の最後の成分まで積 算が終了しているため、 ステップ S 6 5で閾値判定部 3 5が積算値 s umを出力 して処理を終了する。 このとき積算値 s umは、 ベクトル間距離の自乗となる。 以上、 図 1 1のフローチャートでは、 1つの登録ベクトル g 'に対する処理を示 したが、 実際には登録されている全てのべクトル g 'について同様の処理を行い、 べク トル Γとの距離の積算値 s u mが閾値 Sを下回った全てのべクトル g 'を、 ベクトル 'に類似するべクトルとして出力する。
上述した第 3の実施の形態では、 第 1、 第 2の実施の形態と比較して記憶容量 や精度は変わらず、 演算速度も殆ど変わらないが、 大半の比較が索引ベクトル g の段階で棄却され詳細べクトル g 2を取得する必要が少ない場合に、 デ一夕ァク セスによるオーバーへッドが解消される。
なお、 上述の説明では、 ベクトルを索引ベクトルと詳細ベクトルとの 2段階に 分割するものとしたが、 同様に索引べクトルをさらに上位の索引べクトルと詳細 な索引べクトルに分割して 3段構成にするなど、 多段化への拡張が可能であるこ とは勿論である。
( 4 ) 特徴べクトルの抽出
以下では、 音響信号や映像信号から特徴べクトルを抽出する手法について説明 する。 後述のようにして音響特徴べクトル及び/又は映像特徴べクトルを抽出し、 これを上述したベクトル f 、 ベクトル gとして用いることで、 音響信号や映像信 号が入力された場合に、 上述の第 1乃至第 3の実施の形態の手法を用いて、 登録 された音響信号や映像信号から、 類似する音響信号や映像信号を高速に検索する ことができる。
( 4 - 1 ) 音響特徴ベクトルの抽出
( 4 - 1 - 1 )
音響信号に関する特徴量としてパワースぺクトル係数を用いる場合の例につい て、 図 1 2のフローチャートと図 1 3を用いて説明する。 先ずステツプ S 7 0に おいて、 図 1 3に示すように、 対象時区間内の音響信号から時間区間 T毎の音響 信号を取得する。
次にステップ S 7 1では、 取得した音響信号に対して例えば高速フーリエ変換 等のスペクトル演算を施し、 短時間区間毎にパワースペクトル係数 S q ( q = 0 , 1 , Q - 1 ) を求める。 ここで、 Qは離散周波数を表すインデックスであり、 Qは最大離散周波数である。 続いてステップ S 7 2では、 対象時区間内の計算を終えたか否かが判別され、 終えている場合 (Yes) にはステップ S 7 3に進み、 終えていない場合 (No) には ステップ S 7 0に戻る。
ステップ S 7 3では、 求めたパワースぺクトル係数 S qの平均スぺクトル S'qを 計算し、 ステップ S 74においてこの平均スペクトル Sヽをベクトル化し、 音響 特徴ベクトル aを生成する。 この音響特徴ベクトル aは、 例えば以下の式 (1 7) のように表される。
Figure imgf000022_0001
なお、 上述の例では、 対象時区間内の音響信号を時間区間 T毎に区切るものと して説明したが、 対象時区間が短い場合には、 時間区間 T毎に区切らずにスぺク トル演算を施すようにしても構わない。
また、 上述の例では、 パワースペクトル係数を用いた例について説明したが、 これに限定されるものではなく、 例えば等価な情報を持つケプストラム係数等を 用いることもできる。 さらに、 フーリエ変換ではなく AR (Auto-Regressive) モ デルを用いる線形予測係数によっても同様の効果を得ることができる。
(4 - 1 - 2)
音響信号は膨大であるため、 圧縮符号化されて記録、 或いは伝送されることが 多い。 符号化された音響信号を復号してベースバンドに戻した後、 上述の手法を 用いて音響特徴べクトル aを抽出することも可能であるが、 部分的な復号のみで 音響特徴ベク トル aを抽出できれば、 抽出処理を効率化、 高速化することができ る。
ここで、 一般的に用いられる符号化法である変換符号化では、 図 14に示すよ うに、 原音となる音響信号が時間区間 T毎にフレームに区切られる。 そして、 そ のフレーム毎の音響信号に対して変更離散コサイン変換 (Modified Discrete Co s ine Trans f orm:MDCT) 等の直交変換が施され、 その係数が量子化されて符号化さ れる。 この際、 周波数帯域毎に、 大きさの正規化係数であるスケールファクタが 抽出され、 別途符号化される。 そこで、 このスケールファクタのみを復号するこ とにより、 音響特徴べクトル aとして用いることができる。
このように、 音響信号に関する特徴量としてスケールファクタを用いる場合の 例について、 図 1 5のフローチャートと図 1 6を用いて説明する。 先ずステツプ S 8 0において、 対象時区間における時間区間 T内の符号化音響信号が取得され、 ステップ S 8 1において、 フレーム毎のスケールファクタが部分的に復号される。 続いてステップ S 8 2では、 対象時区間内の復号を終えたか否かが判別され、 終えている場合 (Ye s) にはステップ S 8 3に進み、 終えていない場合 (No) には ステツプ S 8 0に戻る。
ステップ S 8 3では、 対象時区間内のスケールファクタの中から各帯域毎に最 大のスケールファクタを検出し、 ステップ S 8 4においてそれらをべクトル化し、 音響特徴べクトル aを生成する。
このようにして、 符号化音響信号を完全に復号することなく、 上述と等価な音 響特徴べクトル aを高速に抽出することができる。
( 4一 2 ) 映像特徴ベクトルの抽出
( 4 - 2 - 1 )
映像信号に関する特徴量として輝度情報及び色情報を用いる場合の例について、 図 1 7のフ口一チヤ一ト及ぴ図 1 8を用いて説明する。 先ずステツプ S 9 0にお いて、 図 1 8に示すように、 対象時区間 T内の映像信号から映像フレームを取得 する。
次にステップ S 9 1では、 取得した全ての映像フレームに基づいて、 時間平均 画像 1 0 0を作成する。
続いてステップ S 9 2では、 作成された時間平均画像 1 0 0を橫縦 X X Y個の 小ブロックに分割し、 各ブロック内の画素値を平均したブロック平均画像 1 1 0 を作成する。
そしてステップ S 9 3では、 これらを例えば左上から右下へ向かって R , G , Bの順に並べて、 1次元の映像特徴ベクトル Vを生成する。 この映像特徴べクト ル vは、 例えば以下の式 (1 8 ) のように表される。
v = R 00 , R Χ-Ι,Υ-1 , G 00: , G χ-ι,γ· I , D00, ',B X-LY-1 (1 8)
なお、 上述の例では、 時間平均画像 1 0 0を分割したブロック平均画像 1 1 0 の画素値を並べ替えて 1次元の映像特徴べクトル Vを生成する例について説明し たが、 これに限定されるものではなく、 ブロック平均画像 1 1 0を作成せずに、 時間平均画像 1 0 0の画素値を並べ替えて 1次元の映像特徴べクトル Vを生成す るようにしても構わない。
また、 通常、 映像信号の時間変化はあまり激しくないため、 時間平均画像 1 0 0を作成せずに、 対象時区間内の 1フレームを代表画像として選択して代用して も、 ほぼ同様の効果を得ることができる。
( 4 — 2 — 2 )
全く同一な映像信号でなくても、 例えばニュース映像の同じアンダルから撮影 されたスタジオ映像など、 全画像に対する色の分布が鑌似する映像には何らかの 関連があることが多く、 これらを同一視して検索する要求もある。 このような場 合には、 画像の空間依存性を排除し、 色分布のヒストグラムを作成して比較する と効果的である。
そこで、 このように色分布のヒストグラムを特徴量として用いる場合の例につ いて、 図 1 9のフローチヤ一ト及び図 2 0を用いて説明する。 先ずステツプ S 1 0 0において、 図 2 0に示すように、 対象時区間 T内の映像信号から映像フレー ムを取得する。
次にステップ S 1 0 1では、 各映像フレームの信号値から、 各色、 例えば R, G , Bの信号値に対するヒストグラムを作成する。
そしてステップ S 1 0 2では、 これらを例えば R , G , Bの順に並べて、 1次 元の映像特徴ベクトル Vを生成する。 この映像特徴ベクトル Vは、 例えば以下の 式 ( 1 9) のように表される,
v=(R0,-5RN_l5G0,-,GN_l5Bc ,Β N-l (19)
なお、 上述の例では、 R, G, Bの信号値に対するヒストグラムを作成するも のとして説明したが、 輝度 (Y) 、 色差 (C b、 C r) の信号値に対するヒスト グラムを作成するようにしても、 同様の効果を得ることができる。
(4 - 2 - 3 )
映像信号は膨大であるため、 圧縮符号化されて記録、 或いは伝送されることが 多い。 符号化された映像信号を復号してベースバンドに戻した後、 上述の手法を 用いて映像特徴べクトル Vを抽出することも可能であるが、 部分的な復号のみで 映像特徴ベクトル Vを抽出できれば、 抽出処理を効率化、 高速化することができ る。
MP EG 1 (Moving Picture Experts Grou 1) 又は M P E G 2で圧縮符号化 された映像信号から映像特徴ベクトル vを抽出する場合の例について、 図 2 1の フローチャートと図 22を用いて説明する。 先ずステップ S 1 10において、 ベ クトル化する対象時区間 Tに対して、 その直近の符号化グループ (Group of Pic tures:G0P) の符号化映像信号を取得し、 その GO P内のフレーム内符号化ピクチ ャ ( I ピクチャ) 1 20を取得する。
ここで、 フレーム画像は、 マクロブロック MB ( 1 6 X 1 6画素、 又は 8 X 8 画素) を単位として符号化されており、 また、 離散コサイン変換 (DCT) が用 いられている。 この D C T変換された D C係数は、 マクロブロック内画像の画素 値の平均値にあたる。
そこで、 ステップ S 1 1 1では、 この DC係数を取得し、 続くステップ S 1 1 2では、 これらを例えば Y, Cb, C rの順に並べて、 1次元の映像特徴べク卜 ル Vを生成する。 この映像特徴ベクトル Vは、 例えば以下の式 (20) のように 表される。
v一 (Too , · · ·, Υχ-ι'γ-ι ' Cb00 , · · · , Cbx_j Y_j , Cr00 , · · · , Crx -l.Y-l (20)
このようにして、 符号化映像信号を完全に復号することなく、 映像特徴べクト ル Vを高速に抽出することができる。
なお、 上述の例では、 M P E G 1又は M P E G 2で圧縮符号化された映像信号 を用いるものとして説明したが、 他の圧縮符号化方式にも適用可能である。
( 5 ) その他
以上説明したように、 本実施の形態によれば、 ベクトル間の距離に基づいて類 似ベクトルを検出する際に、 階層的な距離積算演算を行い、 予め設定された距離 に対する閾値を上回った時点で打ち切ることで、 類似べクトルを高速に検出する ことができる。 特に、 大量の登録ベクトルの中から、 入力ベクトルと類似するべ クトルを検出するような場合には、 殆どの登録べクトルは非類似であり閾値を上 回ってしまうため、 距離計算を早期に打ち切ることができ、 検出時間を大幅に短 縮することができる。
また、 予めベクトルに対して順序変換、 離散コサイン変換、 離散フーリエ変換、 ウオルシュ一アダマール変換、 或いは K L変換を施し、 有意性の高いベクトル成 分、 すなわち、 上述の変換で分散や固有値の大きい成分、 或いは低周波成分から 順に積算演算を行うようにすることで、 ベクトル成分の分布を考慮して、 効率的 且つ高速に類似するべクトルを検出することができる。
したがって、 音響信号や映像信号の検索を行う際にも、 予め音響特徴ベクトル 及び Z又は映像特徴べクトルを抽出して登録しておくことで、 任意の音響信号や 映像信号が入力された場合に、 全検索と同様の構造的シンプルさや検索精度を保 持したまま、 類似する音響信号や映像信号を高速に検索することができる。
なお、 本発明は、 図面を参照して説明した上述の実施例に限定されるものでは なく、 添付の請求の範囲及びその主旨を逸脱することなく、 様々な変更、 置換又 はその同等のものを行うことができることは当業者にとって明らかである。
例えば、 上述の実施の形態では、 ハードウェアの構成として説明したが、 これ に限定されるものではなく、 任意の処理を、 C P U (Central Process ing Uni t) にコンピュータプログラムを実行させることにより実現することも可能である。 この場合、 コンピュータプログラムは、 記録媒体に記録して提供することも可能 であり、 また、 インタ一ネットその他の伝送媒体を介して伝送することにより提 供することも可能である。 産業上の利用可能性 上述した本発明によれば、 2つのベクトル間の距離算出を階層的に行い、 ある 階層までに算出された距離の積算値が所定の閾値を上回るものについては閾値以 上であることのみを検出して実際の距離を算出しないことにより、 演算を高速化 することができる。 特に、 大量の登録ベクトルの中から、 入力ベクトルと類似す るべクトルを検出するような場合には、 殆どの登録べクトルは非類似であり閾値 を上回ってしまうため、 距離算出を早期に打ち切ることができ、 検出時間を大幅 に短縮することができる。

Claims

請求の範囲
1 . 2つの入力べクトル間の類似度を求める類似度算出方法であって、
上記 2つの入力ベクトル間の距離算出を階層的に行う階層的距離算出工程と、 上記階層的距離算出工程の各階層で算出された距離の積算値を予め設定された 閾値と比較する閾値比較工程と、
上記閾値比較工程における比較結果に応じて、 上記階層的距離算出工程におけ る距離算出を制御する制御工程と、
最後の階層までに算出された距離の積算値を上記類似度として出力する出力ェ 程とを有し、
上記制御工程では、 上記閾値比較工程において、 ある階層までに算出された距 離の積算値が上記閾値を上回った場合、 距離算出を打ち切るように制御すること を特徴とする類似度算出方法。
2 . 請求の範囲第 1項記載の類似度算出方法であって、
上記階層的距離算出工程では、 上記 2つの入力べクトルを構成する各成分間の 距離算出が階層的に行われ、 ある階層までに算出された距離の積算値が上記閾値 を下回った場合、 次の成分間の距離算出が行われることを特徴とする類似度算出 方法。
3 . 請求の範囲第 2項記載の類似度算出方法であって、
上記 2つの入力べクトルに対して所定の変換を施す変換工程をさらに有し、 上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 上記所定の変換に基づく所定の順序で行われること を特徴とする類似度算出方法。
4 . 請求の範囲第 3項記載の類似度算出方法であって、
上記所定の変換は、 上記 2つの入力べクトルを構成する各成分の順序を当該各 成分の分散の大きさに従って並べ替える変換であり、
上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 分散の大きな成分から順に行われること
を特徴とする類似度算出方法。
5 . 請求の範囲第 3項記載の類似度算出方法であって、
上記所定の変換は、 離散コサイン変換又は離散フーリエ変換であり、 上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 低周波成分から順に行われること
を特徴とする類似度算出方法。
6 . 請求の範囲第 3項記載の類似度算出方法であって、
上記所定の変換は、 ウオルシュ—アダマール変換であり、
上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 低交番数成分から順に行われること
を特徴とする類似度算出方法。
7 . 請求の範囲第 3項記載の類似度算出方法であって、
上記所定の変換は、 カル一ネン—レーべ変換であり、
上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 固有値の大きな成分から順に行われること
を特徴とする類似度算出方法。
8 . 請求の範囲第 3項記載の類似度算出方法であって、
上記変換工程にて変換された上記 2つの入力べクトルの各々について、 当該入 力ベクトルを構成する各成分を上記所定の順序で取り出して階層的な複数の部分 べクトルに分割する分割工程をさらに有し、
上記階層的距離算出工程では、 最上位階層の部分べクトルから順に部分べクト ルを構成する各成分間の距離算出が階層的に行われ、 ある階層までの部分べクト ルを構成する全ての成分間について算出された距離の積算値が上記閾値を下回つ た場合、 一階層下位の部分べクトルを構成する各成分間の距離算出が行われるこ と
を特徴とする類似度算出方法。
9 . 請求の範囲第 1項記載の類似度算出方法であって、
上記入力べクトルは、 音響信号を特徴べクトル化したものであり、
上記特徴べク トルは、 上記音響信号の所定の時区間内のパワースペクトル係数 をべクトル化したものであること を特徴とする類似度算出方法。
1 0 . 請求の範囲第 1項記載の類似度算出方法であって、
上記入力べクトルは、 音響信号を特徴べクトル化したものであり、
上記特徴べクトルは、 上記音響信号の所定の時区間内の線形予測係数をべクト ル化したものであること
を特徴とする類似度算出方法。
1 1 . 請求の範囲第 1項記載の類似度算出方法であって、
上記入力べクトルは、 符号化音響信号を特徴べクトル化したものであり、 上記特徴べクトルは、 上記符号化音響信号の各フレーム内の周波数成分の強さ を表すパラメータをべクトル化したものであること
を特徴とする類似度算出方法。
1 2 . 請求の範囲第 1項記載の類似度算出方法であって、
上記入力べクトルは、 映像信号を特徴べクトル化したものであり、
上記特徴ベクトルは、 上記映像信号の所定の時区間内の代表画像、 上記所定の 時区間内のフレーム画像の平均画像、 又は上記代表画像若しくは上記平均画像を 所定のプロック単位に分割した小画像の信号値をベクトル化したものであること を特徴とする類似度算出方法。
1 3 . 請求の範囲第 1項記載の類似度算出方法であって、
上記入力べクトルは、 映像信号を特徴べクトル化したものであり、
上記特徴ベクトルは、 上記映像信号の所定の時区間内のフレーム画像の、 輝度 及び/又は色に対するヒス卜グラムをべクトル化したものであること
を特徴とする類似度算出方法。
1 4 . 請求の範囲第 1項記載の類似度算出方法であって、
上記入力べクトルは、 符号化映像信号を特徴べクトル化したものであり、 上記特徴べクトルは、 上記符号化映像信号の所定の時区間の直近にあるフレー ム内符号化画像の符号化単位となる各プロックの D C成分の信号値をべクトル化 したものであること
を特徴とする類似度算出方法。
1 5 . 2つの入力べクトル間の類似度を求める類似度算出装置であって、 上記 2つの入力べクトル間の距離算出を階層的に行う階層的距離算出手段と、 上記階層的距離算出手段によって各階層で算出された距離の積算値を予め設定 された閾値と比較する閾値比較手段と、
上記閾値比較手段による比較結果に応じて、 上記階層的距離算出手段による距 離算出を制御する制御手段と
最後の階層までに算出された距離の積算値を上記類似度として出力する出力手 段とを備え、
上記制御手段は、 上記閾値比較手段による比較の結果、 ある階層までに算出さ れた距離の積算値が上記閾値を上回った場合、 距離算出を打ち切るように制御す ること
を特徴とする類似度算出装置。
1 6 . 請求の範囲第 1 5項記載の類似度算出装置であって、
上記階層的距離算出手段は、 上記 2つの入力ベクトルを構成する各成分間の距 離算出を階層的に行い、 ある階層までに算出した距離の積算値が上記閾値を下回 つた場合、 次の成分間の距離算出を行うことを特徴とする類似度算出装置。
1 7 . 請求の範囲第 1 6項記載の類似度算出装置であって、
上記 2つの入力べクトルに対して所定の変換を施す変換手段をさらに備え、 上記階層的距離算出手段は、 上記変換手段によって変換された上記 2つの入力 べクトル間の距離算出を、 上記所定の変換に基づく所定の順序で行うこと
を特徴とする類似度算出装置。
1 8 . 請求の範囲第 1 7項記載の類似度算出装置であって、
上記変換手段によって変換された上記 2つの入力べクトルの各々について、 当 該入力べクトルを構成する各成分を上記所定の順序で取り出して階層的な複数の 部分べクトルに分割する分割手段を備え、
上記階層的距離算出手段は、 最上位階層の部分べクトルから順に部分べクトル を構成する各成分間の距離算出を階層的に行い、 ある階層までの部分べクトルを 構成する全ての成分間について算出した距離の積算値が上記閾値を下回った場合、 一階層下位の部分べクトルを構成する各成分間の距離算出を行うこと
を特徴とする類似度算出装置。
1 9 . 2つの入力べクトル間の類似度を求める類似度算出処理をコンピュータに 実行させるプログラムであって、
上記 2つの入力ベクトル間の距離算出を階層的に行う階層的距離算出工程と、 上記階層的距離算出工程の各階層で算出された距離の積算値を予め設定された 閾値と比較する閾値比較工程と、
上記閾値比較工程における比較結果に応じて、 上記階層的距離算出工程におけ る距離算出を制御する制御工程と
最後の階層までに算出された距離の積算値を上記類似度として出力する出力ェ 程とを有し、
上記制御工程では、 上記閾値比較工程において、 ある階層までに算出された距 離の積算値が上記閾値を上回った場合、 距離算出を打ち切るように制御すること を特徴とするプログラム。
2 0 . 請求の範囲第 1 9項記載のプログラムであって、
上記階層的距離算出工程では、 上記 2つの入力べクトルを構成する各成分間の 距離算出が階層的に行われ、 ある階層までに算出された距離の積算値が上記閾値 を下回った場合、 次の成分間の距離算出が行われることを特徴とするプログラム
2 1 . 請求の範囲第 2 0項記載のプログラムであって、
上記 2つの入力べクトルに対して所定の変換を施す変換工程を有し、 上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 上記所定の変換に基づく所定の順序で行われること を特徴とするプログラム。
2 2 . 請求の範囲第 2 1項記載のプログラムであって、
上記変換工程にて変換された上記 2つの入力べクトルの各々について、 当該入 力べクトルを構成する各成分を上記所定の順序で取り出して階層的な複数の部分 べクトルに分割する分割工程をさらに有し、
上記階層的距離算出工程では、 最上位階層の部分べクトルから順に部分べクト ルを構成する各成分間の距離算出が階層的に行われ、 ある階層までの部分べクト ルを構成する全ての成分間について算出された距離の積算値が上記閾値を下回つ た場合、 一階層下位の部分べクトルを構成する各成分間の距離算出が行われるこ と
を特徴とするプログラム。
2 3 . 2つの入力べクトル間の類似度を求める類似度算出処理をコンピュータに 実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体であつ て、
上記 2つの入力べクトル間の距離算出を階層的に行う階層的距離算出工程と、 上記階層的距離算出工程の各階層で算出された距離の積算値を予め設定された 閾値と比蛟する閾値比較工程と、
上記閾値比較工程における比較結果に応じて、 上記階層的距離算出工程におけ る距離算出を制御する制御工程と
最後の階層までに算出された距離の積算値を上記類似度として出力する出力ェ 程とを有し、
上記制御工程では、 上記閾値比較工程において、 ある階層までに算出された距 離の積算値が上記閾値を上回った場合、 距離算出を打ち切るように制御すること を特徴とするプログラムが記録された記録媒体。
2 4 . 請求の範囲第 2 3項記載の記録媒体であって、
上記階層的距離算出工程では、 上記 2つの入力べクトルを構成する各成分間の 距離算出が階層的に行われ、 ある階層までに算出された距離の積算値が上記閾値 を下回った場合、 次の成分間の距離算出が行われることを特徴とする記録媒体。
2 5 . 請求の範囲第 2 4項記載の記録媒体であって、
上記プログラムは、 上記 2つの入力べクトルに対して所定の変換を施す変換ェ 程をさらに有し、
上記階層的距離算出工程では、 上記変換工程にて変換された上記 2つの入力べ クトル間の距離算出が、 上記所定の変換に基づく所定の順序で行われること を特徴とする記録媒体。
2 6 . 請求の範囲第 2 5項記載の記録媒体であって、
上記プログラムは、 上記変換工程にて変換された上記 2つの入力べクトルの各 々について、 当該入力べクトルを構成する各成分を上記所定の順序で取り出して 階層的な複数の部分べクトルに分割する分割工程を有し、 上記階層的距離算出工程では、 最上位階層の部分べクトルから順に部分べクト ルを構成する各成分間の距離算出が階層的に行われ、 ある階層までの部分べクト ルを構成する全ての成分間について算出された距離の積算値が上記閾値を下回つ た場合、 一階層下位の部分べクトルを構成する各成分間の距離算出が行われるこ と
を特徴とする記録媒体。
PCT/JP2003/008142 2002-07-09 2003-06-26 類似度算出方法及び装置 WO2004006185A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE60330147T DE60330147D1 (de) 2002-07-09 2003-06-26 Ähnlichkeitsberechnungsverfahren und einrichtung
US10/489,012 US7260488B2 (en) 2002-07-09 2003-06-26 Similarity calculation method and device
EP03736281A EP1521210B9 (en) 2002-07-09 2003-06-26 Similarity calculation method and device
KR1020047003337A KR101021044B1 (ko) 2002-07-09 2003-06-26 유사도 산출 방법 및 장치 및 컴퓨터 판독가능한 기록 매체

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002200481A JP4623920B2 (ja) 2002-07-09 2002-07-09 類似度算出方法及び装置、並びにプログラム及び記録媒体
JP2002-200481 2002-07-09

Publications (1)

Publication Number Publication Date
WO2004006185A1 true WO2004006185A1 (ja) 2004-01-15

Family

ID=30112514

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/008142 WO2004006185A1 (ja) 2002-07-09 2003-06-26 類似度算出方法及び装置

Country Status (7)

Country Link
US (1) US7260488B2 (ja)
EP (1) EP1521210B9 (ja)
JP (1) JP4623920B2 (ja)
KR (1) KR101021044B1 (ja)
CN (1) CN1324509C (ja)
DE (1) DE60330147D1 (ja)
WO (1) WO2004006185A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691909B2 (en) 2016-11-11 2020-06-23 Samsung Electronics Co., Ltd. User authentication method using fingerprint image and method of generating coded model for user authentication

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7539870B2 (en) * 2004-02-10 2009-05-26 Microsoft Corporation Media watermarking by biasing randomized statistics
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
JP2006101462A (ja) * 2004-09-30 2006-04-13 Sanyo Electric Co Ltd 画像信号処理装置
US7552303B2 (en) * 2004-12-14 2009-06-23 International Business Machines Corporation Memory pacing
KR100687207B1 (ko) * 2005-09-16 2007-02-26 주식회사 문화방송 이미지 전송 장치 및 이미지 수신 장치
IL179582A0 (en) * 2006-11-26 2007-05-15 Algotec Systems Ltd Comparison workflow automation by registration
US8738633B1 (en) 2012-01-31 2014-05-27 Google Inc. Transformation invariant media matching
US20170206202A1 (en) * 2014-07-23 2017-07-20 Hewlett Packard Enterprise Development Lp Proximity of data terms based on walsh-hadamard transforms
US9568591B2 (en) * 2014-11-10 2017-02-14 Peter Dan Morley Method for search radar processing using random matrix theory
US9503747B2 (en) * 2015-01-28 2016-11-22 Intel Corporation Threshold filtering of compressed domain data using steering vector
US10783268B2 (en) 2015-11-10 2020-09-22 Hewlett Packard Enterprise Development Lp Data allocation based on secure information retrieval
US11080301B2 (en) 2016-09-28 2021-08-03 Hewlett Packard Enterprise Development Lp Storage allocation based on secure data comparisons via multiple intermediaries
JP6922556B2 (ja) 2017-08-29 2021-08-18 富士通株式会社 生成プログラム、生成方法、生成装置、及び剽窃検知プログラム
CN108960537B (zh) * 2018-08-17 2020-10-13 安吉汽车物流股份有限公司 物流订单的预测方法及装置、可读介质
CN112861260B (zh) * 2021-02-01 2022-03-11 中国人民解放军国防科技大学 固体火箭发动机装药性能匹配方法、装置和设备
CN114225361A (zh) * 2021-12-09 2022-03-25 栾金源 一种网球测速方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4934246A (ja) * 1972-07-28 1974-03-29
JPS6227878A (ja) * 1985-07-29 1987-02-05 Ricoh Co Ltd マツチング方法
JPH02273880A (ja) * 1989-04-15 1990-11-08 Toshiba Corp パターン認識装置
EP0575815A1 (en) * 1992-06-25 1993-12-29 Atr Auditory And Visual Perception Research Laboratories Speech recognition method
JPH07287753A (ja) * 1994-04-19 1995-10-31 N T T Data Tsushin Kk 物品識別システム
JPH1013832A (ja) * 1996-06-25 1998-01-16 Nippon Telegr & Teleph Corp <Ntt> 動画像認識方法および動画像認識検索方法
WO1999067696A2 (en) * 1998-06-23 1999-12-29 Koninklijke Philips Electronics N.V. A scalable solution for image retrieval
JP2002008027A (ja) * 2000-06-20 2002-01-11 Ricoh Co Ltd パターン認識方法、パターン認識装置およびパターン認識プログラムを記録した記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0711819B2 (ja) * 1986-06-20 1995-02-08 株式会社リコー パターン認識方法
JPS6339092A (ja) * 1986-08-04 1988-02-19 Ricoh Co Ltd 辞書検索方式
JPS6339093A (ja) * 1986-08-04 1988-02-19 Ricoh Co Ltd 辞書検索方式
JP3224955B2 (ja) * 1994-05-27 2001-11-05 株式会社東芝 ベクトル量子化装置およびベクトル量子化方法
TW293227B (ja) * 1994-11-24 1996-12-11 Victor Company Of Japan
KR0165497B1 (ko) * 1995-01-20 1999-03-20 김광호 블럭화현상 제거를 위한 후처리장치 및 그 방법
KR100247969B1 (ko) * 1997-07-15 2000-03-15 윤종용 대용량패턴정합장치및방법
JP3252802B2 (ja) * 1998-07-17 2002-02-04 日本電気株式会社 音声認識装置
US6535617B1 (en) * 2000-02-14 2003-03-18 Digimarc Corporation Removal of fixed pattern noise and other fixed patterns from media signals
JP3816309B2 (ja) 2000-06-26 2006-08-30 アマノ株式会社 駐車場管理装置
JP2002191050A (ja) * 2000-12-22 2002-07-05 Fuji Xerox Co Ltd 画像符号化装置および方法
US6807305B2 (en) * 2001-01-12 2004-10-19 National Instruments Corporation System and method for image pattern matching using a unified signal transform
US6963667B2 (en) * 2001-01-12 2005-11-08 National Instruments Corporation System and method for signal matching and characterization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4934246A (ja) * 1972-07-28 1974-03-29
JPS6227878A (ja) * 1985-07-29 1987-02-05 Ricoh Co Ltd マツチング方法
JPH02273880A (ja) * 1989-04-15 1990-11-08 Toshiba Corp パターン認識装置
EP0575815A1 (en) * 1992-06-25 1993-12-29 Atr Auditory And Visual Perception Research Laboratories Speech recognition method
JPH07287753A (ja) * 1994-04-19 1995-10-31 N T T Data Tsushin Kk 物品識別システム
JPH1013832A (ja) * 1996-06-25 1998-01-16 Nippon Telegr & Teleph Corp <Ntt> 動画像認識方法および動画像認識検索方法
WO1999067696A2 (en) * 1998-06-23 1999-12-29 Koninklijke Philips Electronics N.V. A scalable solution for image retrieval
JP2002008027A (ja) * 2000-06-20 2002-01-11 Ricoh Co Ltd パターン認識方法、パターン認識装置およびパターン認識プログラムを記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ATSUNORI YOSHIKAWA ET AL.: "Chokko henkan o mochiita kaogazo no shikibetsu", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU, vol. 95, no. 469, 18 January 1996 (1996-01-18), pages 16, XP002974132 *
See also references of EP1521210A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691909B2 (en) 2016-11-11 2020-06-23 Samsung Electronics Co., Ltd. User authentication method using fingerprint image and method of generating coded model for user authentication

Also Published As

Publication number Publication date
CN1324509C (zh) 2007-07-04
KR101021044B1 (ko) 2011-03-14
KR20050016278A (ko) 2005-02-21
DE60330147D1 (de) 2009-12-31
EP1521210A1 (en) 2005-04-06
US7260488B2 (en) 2007-08-21
JP2004046370A (ja) 2004-02-12
EP1521210B9 (en) 2010-09-15
US20050033523A1 (en) 2005-02-10
EP1521210A4 (en) 2007-07-04
JP4623920B2 (ja) 2011-02-02
EP1521210B1 (en) 2009-11-18
CN1552042A (zh) 2004-12-01

Similar Documents

Publication Publication Date Title
WO2004006185A1 (ja) 類似度算出方法及び装置
JP3550681B2 (ja) 画像検索装置及び方法、並びに類似画像検索プログラムを格納した記憶媒体
CA2364798C (en) Image search system and image search method thereof
CA2814401C (en) Vector transformation for indexing, similarity search and classification
JP4301193B2 (ja) 画像比較装置及び方法、画像検索装置及び方法、並びにプログラム及び記録媒体
JP4138007B2 (ja) Dc及び動き符号を用いたmpeg圧縮列のビデオ検索
US7295718B2 (en) Non-linear quantization and similarity matching methods for retrieving image data
JP2004045565A (ja) 類似時系列検出方法及び装置、並びにプログラム及び記録媒体
US20170026665A1 (en) Method and device for compressing local feature descriptor, and storage medium
JP2006505075A (ja) 複数のイメージフレームを有するビデオシーケンス検索のための非線形量子化及び類似度マッチング方法
WO2007066924A1 (en) Real-time digital video identification system and method using scene information
Seetharaman et al. Statistical framework for image retrieval based on multiresolution features and similarity method
KR101365989B1 (ko) 트리 구조를 기반으로 한 엔트로피 부호화 및 복호화 장치및 방법
JP5155210B2 (ja) 画像比較装置及びその方法、画像検索装置、並びにプログラム及び記録媒体
KR20010039811A (ko) 디지털 영상 텍스쳐 분석 방법
JP2968666B2 (ja) 画像符号化方法および装置
Qiu Embedded colour image coding for content-based retrieval
WO2016110125A1 (zh) 高维向量的哈希方法、向量量化方法及装置
CN113656639A (zh) 视频检索方法及装置、计算机可读存储介质、电子设备
Arnia et al. Fast method for joint retrieval and identification of JPEG coded images based on DCT sign
JP4697111B2 (ja) 画像比較装置および方法、並びに、画像検索装置および方法
KR100333744B1 (ko) 영상 압축이미지를 이용한 유사이미지 검색시스템 및 그 방법과 기록매체
KR20010027936A (ko) 텍스쳐 영상 검색 장치 및 그 방법
Sha et al. Low-complexity and high-coding-efficiency image deletion for compressed image sets in cloud servers
JP4002212B2 (ja) 動画像符号化方法,装置,プログラムおよびプログラムの記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

WWE Wipo information: entry into national phase

Ref document number: 20038009765

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2003736281

Country of ref document: EP

Ref document number: 1020047003337

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10489012

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2003736281

Country of ref document: EP