WO2016181468A1 - パターン認識装置、パターン認識方法およびプログラム - Google Patents

パターン認識装置、パターン認識方法およびプログラム Download PDF

Info

Publication number
WO2016181468A1
WO2016181468A1 PCT/JP2015/063522 JP2015063522W WO2016181468A1 WO 2016181468 A1 WO2016181468 A1 WO 2016181468A1 JP 2015063522 W JP2015063522 W JP 2015063522W WO 2016181468 A1 WO2016181468 A1 WO 2016181468A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
recognition
feature vectors
state
class
Prior art date
Application number
PCT/JP2015/063522
Other languages
English (en)
French (fr)
Inventor
聡一郎 小野
博之 水谷
Original Assignee
株式会社東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝, 東芝ソリューション株式会社 filed Critical 株式会社東芝
Priority to PCT/JP2015/063522 priority Critical patent/WO2016181468A1/ja
Priority to CN201580078044.9A priority patent/CN107533671B/zh
Publication of WO2016181468A1 publication Critical patent/WO2016181468A1/ja
Priority to US15/708,367 priority patent/US10373028B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Definitions

  • Embodiments described herein relate generally to a pattern recognition apparatus, a pattern recognition method, and a program.
  • the first method is a method in which an input signal is divided into a plurality of elements, combined according to a predetermined standard, and individually recognized (hereinafter, this method is referred to as an “analytic method”).
  • the second method uses a stochastic model such as a Hidden Markov Model (HMM), and simultaneously recognizes and divides the input signal while considering all possibilities as a division point (hereinafter referred to as this method). Called the "overall method").
  • HMM Hidden Markov Model
  • the problem to be solved by the present invention is to provide a pattern recognition apparatus, a pattern recognition method, and a program capable of performing high-accuracy recognition with a small amount of calculation for an input signal whose recognition unit separation is not clear. .
  • the pattern recognition apparatus includes a division unit, a feature extraction unit, and a recognition unit.
  • the dividing unit divides the input signal into a plurality of elements.
  • the feature extraction unit converts each of the divided elements into a feature vector having the same dimensionality to generate a set of feature vectors.
  • the recognition unit evaluates the set of feature vectors using a recognition dictionary, and outputs a recognition result representing the class or set of classes to which the input signal belongs.
  • the recognition dictionary used by the recognition unit includes a model corresponding to each class, and the model is a division pattern that can be taken when a signal to be classified into a class corresponding to the model is divided into a plurality of elements.
  • a sub-model corresponding to each of the elements, and the sub-model is a state corresponding to each of the elements divided by the division pattern corresponding to the sub-model, the feature vector and a label representing the state It has a state expressed by a function.
  • the recognizing unit represents a label representing a model having the submodel that fits the set of feature vectors, or a set of labels representing a set of models having the submodel that fits the set of feature vectors. Output as the recognition result.
  • FIG. 1 is a block diagram illustrating a functional configuration example of the pattern recognition apparatus according to the embodiment.
  • FIG. 2 is a conceptual diagram of processing for dividing an input signal into a plurality of elements.
  • FIG. 3 is a conceptual diagram of models included in the recognition dictionary.
  • FIG. 4 is a conceptual diagram of models included in the recognition dictionary.
  • FIG. 5 is a flowchart illustrating an example of a processing procedure performed by the pattern recognition apparatus according to the embodiment.
  • FIG. 6 is a conceptual diagram illustrating a conventional analytical method.
  • FIG. 7 is a conceptual diagram of a model including a noise state.
  • FIG. 8 is a conceptual diagram of processing for dividing a Korean character into elements.
  • FIG. 9 is a diagram showing an example of a Korean character division pattern.
  • FIG. 10 is a block diagram illustrating a hardware configuration example of the pattern recognition apparatus according to the embodiment.
  • the pattern recognition apparatus performs pattern recognition on an input signal whose recognition unit break is not clear by a novel method combining a conventional analytical method and an overall method.
  • the basic principle is to divide the input signal into multiple elements to obtain a set of element feature vectors, and use a probability model to output a class that matches the set of feature vectors or a recognition result representing that set. Let it be a concept.
  • the division method when dividing the input signal into a plurality of elements is generally not one for each class.
  • the input signal is an image of a handwritten character, it may take different forms depending on the writer's habit and the like, so even signals that should be classified into the same class may be divided by different division patterns.
  • signals to be classified into the same class are divided by different division patterns, the distribution and the number of feature vectors extracted from the respective divided elements are greatly different. Therefore, the left-to-right in the hidden Markov model A standard model such as a model (see Non-Patent Document 2) cannot correctly recognize an input signal.
  • each of the division patterns that can be taken by the signal to be classified into that class is used as a sub model, and a combination of all these sub models is used as a model corresponding to the class.
  • FIG. 1 is a block diagram showing a functional configuration of the pattern recognition apparatus of the present embodiment.
  • the pattern recognition apparatus of this embodiment includes a signal input unit 1, a division unit 2, a feature extraction unit 3, and a recognition unit 4.
  • the signal input unit 1 receives an input of a signal to be recognized.
  • Signals to be recognized are, for example, characters and character strings represented as images, other images, audio signals represented as waveforms, various sensor signals, and the like. These digital information, or two as necessary. Digital information subjected to preprocessing such as valuation is input to the signal input unit 1.
  • the dividing unit 2 divides the signal input to the signal input unit 1 into a plurality of elements. Specifically, when the signal input to the signal input unit 1 is a character string image, the processing of the dividing unit 2 is, for example, projection and connected component analysis described in Reference Document 1 below, or non-patent This can be realized by applying the “division into basic segments” method described in Document 1.
  • Reference Document 1 A. Rosenfeld et al., “Digital Image Processing” (translated by Makoto Nagao), Modern Science, 1978
  • FIG. 2 is a conceptual diagram of processing for dividing an input signal into a plurality of elements, and shows a state in which a character string image “water” is divided into five elements by the dividing unit 2.
  • the direction in which the character string image is divided is one direction.
  • the present invention is not limited to this, and the signal may be divided into a plurality of elements using a two-dimensional division pattern.
  • the processing of the dividing unit 2 is performed, for example, when the signal power is a threshold value. This can be realized by applying a method in which a portion where the state shown below continues for a certain time or more is used as a divided portion.
  • each divided element The order is given to each divided element.
  • the order of each element is based on the horizontal coordinates in the image if the original signal is an image, and the time divided if the original signal is a time-series waveform such as an audio signal or sensor signal.
  • the order of can be determined.
  • each divided element may have a structure such as a series, and position information in the structure may be given.
  • position information in the structure may be given.
  • a method of assigning numbers as position information to the divided elements in order from the earliest time can be considered.
  • symbols of each element divided by the division pattern are determined in advance for each division pattern (see FIG. 8), and the symbols are positioned.
  • a method of giving as information can be considered.
  • the feature extraction unit 3 converts each element divided by the division unit 2 into feature vectors having the same number of dimensions, and generates a set of feature vectors. Specifically, the feature extraction unit 3 first performs preprocessing such as normalizing the length and quantization level on the divided signals. Then, the feature extraction unit 3 uses the pre-processed value and the feature vector whose component is the value after the pre-processed signal is further subjected to filter processing such as a Gaussian filter or transformation processing such as Fourier transform. Output as the feature vector of the element. At this time, the feature vectors of the respective elements may be normalized so that the norm is 1. In this way, the feature extraction unit 3 extracts feature vectors one by one from each element, and generates a feature vector set.
  • preprocessing such as normalizing the length and quantization level on the divided signals. Then, the feature extraction unit 3 uses the pre-processed value and the feature vector whose component is the value after the pre-processed signal is further subjected to filter processing such as a Gau
  • the recognition unit 4 uses the recognition dictionary 10 to evaluate a set of feature vectors generated by the feature extraction unit 3, and outputs a recognition result representing a class or a set of classes to which the signal input to the signal input unit 1 belongs. To do.
  • the recognition dictionary 10 is a database including models corresponding to the respective classes handled by the pattern recognition apparatus of the present embodiment as signal classification destinations, and is held inside or outside the pattern recognition apparatus of the present embodiment.
  • Each class model held by the recognition dictionary 10 is a probabilistic model, and any graphical model including a hidden Markov model (see Reference 4 below) can be used.
  • Reference 4 ⁇ Reference Document 4> C.I. M. Bishop et al., “Pattern recognition and machine learning” (translated by Noboru Murata), Springer Japan, 2007
  • the recognition unit 4 searches for an optimum correspondence with the set of feature vectors generated by the feature extraction unit 3 by combining the models included in the recognition dictionary 10 alone or in combination as will be described later. Then, the recognition unit 4 outputs, as a recognition result, a label that represents a model that fits the set of feature vectors or a set of labels that represents a set of models that fit the set of feature vectors.
  • FIG. 3 and 4 are conceptual diagrams of the model M included in the recognition dictionary 10.
  • FIG. 3 is an example of the model M corresponding to the class to which the character image “water” is to be classified
  • FIG. 4 is an example of the model M corresponding to the class to which the voice signal “Tokyo” is to be classified. is there.
  • the model M handled in this embodiment is a division pattern that can be taken when a signal to be classified into a class corresponding to the model M is divided into a plurality of elements by the division unit 2.
  • the probability that each submodel m is selected is matched with the appearance rate of each corresponding divided pattern in the prepared learning data.
  • a prior distribution such as a uniform distribution is given to the probability that the model M and the submodel m are selected, and the probability that the model M and the submodel m are selected is estimated based on the prior distribution (see Reference 4). You can also.
  • the sub model m of each model M is configured as a directed graph having, as nodes, states s corresponding to the respective elements divided by the division pattern corresponding to the sub model m.
  • the submodel m may be such that the state s can transition only in one direction, like a left-to-right model in a hidden Markov model. That is, the sub model m may have a configuration in which the states s are linearly ordered and the transition from the upper state s to the lower state s is prohibited.
  • FIGS. 3 and 4 illustrates a model M in which submodels m in which the state s can transition only in one direction are combined.
  • Each state s of the submodel m is expressed by a function of a feature vector and a label representing the state s.
  • this function is a probability density function of a Gaussian distribution
  • the log likelihood of the feature vector is an output of the function. Can do.
  • learning data in which a class to be classified or a set of classes is known in advance is used, and for example, an EM algorithm, a variational Bayes method, a gradient method described in Reference Document 4 are used. It can be estimated by such a method.
  • a feature vector sequence (set of feature vectors) x 1 ,..., X n obtained from an input signal is not more than a length n and allows duplication, and a model M is selected in order, M 1 ,. -, put the M p. Further, one sub model m is selected from each model M and is set as m 1 ,..., M p so that the total length is equal to the feature vector sequence. Then, giving the state of the sub-models m obtained in this way s 1, ⁇ ⁇ ⁇ , s n Distant, an evaluation function of a feature vector in the form of the following formula (1).
  • f 1 is an evaluation function determined by the sequence of model M itself, such as the probability of N-gram (see Reference 5 below), and f 2 (i) is a sub-model in model M i such as the selection probability of sub-model m evaluation function with to select the m i, f 3 (j) is such a probability density function of the state s j, an evaluation function associated with assigning a feature vector x j in state s j.
  • the sub model m is configured as a state in which the state s can only transition in one direction as described above, M 1 ,..., M p and m 1 ,.
  • p can be efficiently calculated by the Viterbi algorithm. Then, M 1 to maximize this, outputs ..., and M p as a recognition result.
  • FIG. 5 is a flowchart illustrating an example of a processing procedure performed by the pattern recognition apparatus according to the present embodiment.
  • the signal input unit 1 receives an input of a signal to be recognized (step S101).
  • the signal input to the signal input unit 1 is passed to the dividing unit 2.
  • the dividing unit 2 receives the signal input in step S101 from the signal input unit 1, and divides this signal into a plurality of elements (step S102). Each element divided by the dividing unit 2 is passed to the feature extracting unit 3.
  • the feature extraction unit 3 receives each element divided in step S102 from the division unit 2, obtains a feature vector for each of these elements by the method described above, and generates a set of feature vectors (step S103). ). A set of feature vectors generated by the feature extraction unit 3 is passed to the recognition unit 4.
  • the recognition unit 4 receives the set of feature vectors generated in step S103 from the feature extraction unit 3, evaluates the set of feature vectors using the recognition dictionary 10, and the signal input in step S101 belongs.
  • a recognition result representing a class or a set of classes is output (step S104).
  • the model M corresponding to each class to which the signal is classified is classified into various division patterns of signals to be classified into the model M.
  • a probability model that combines the corresponding submodels m.
  • a recognition dictionary 10 including the model M for each class a set of feature vectors obtained from the input signal is evaluated, and a recognition result representing a class or a set of classes to which the input signal belongs is obtained.
  • Output Therefore, according to the pattern recognition apparatus of the present embodiment, the respective drawbacks of the conventional analytical method and the overall method are solved, and high-accuracy recognition is performed with a small amount of calculation for an input signal whose recognition unit separation is not clear. It can be performed.
  • the input signal is divided into a plurality of elements, it is combined with a unit to be recognized (character in the example of FIG. 6) and recognized by pattern matching or the like.
  • the elements are combined in a heuristic manner, for example, by determining the breaks assuming the average size of characters.
  • the recognition accuracy is sufficient. It cannot be secured.
  • a model M that is a probability model corresponding to each class treated as a signal classification destination is used, and a model M that matches a set of feature vectors obtained from an input signal.
  • a recognition result representing the class or set of classes to which the input signal belongs, it is possible to accurately recognize an input signal whose recognition unit break is not clear.
  • input signal pattern recognition is performed using a stochastic model such as a hidden Markov model. Hardware resources are required.
  • a model M obtained by combining submodels m corresponding to division patterns assumed in advance for each class is used to match a set of feature vectors obtained from an input signal.
  • the model M or the set to be searched is searched and a recognition result representing the class or set of classes to which the input signal belongs is output.
  • the disadvantages of the conventional analytical method and the overall method are solved, and the input signal whose recognition unit separation is not clear is high with a small amount of calculation. Accurate recognition can be performed.
  • the recognition dictionary 10 used in the present embodiment may include a reject model that does not correspond to any class as a signal classification destination.
  • a reject model for example, a model obtained by extracting only a part of submodels m of another model M to be one model, or a model in which parameter values are randomly determined can be used.
  • the recognition unit 4 treats this as a rejection, and the recognition result cannot be obtained.
  • the information shown is output. Thereby, when the input signal itself is not correct, such as when an erroneously written handwritten character image is input, this can be notified to the user.
  • noise model a model having only one submodel consisting of only one state (noise model) as one of the reject models as described above.
  • an evaluation function corresponding to only one state in the noise model may return a value of 0, or a parameter value may be determined at random.
  • At least one of the models M included in the recognition dictionary 10 does not correspond to any of the elements included in the signal to be classified into the class corresponding to the model M, as shown in FIG. It may be configured to have a certain noise state s ′.
  • the above description mainly assumes a case where the direction of division when the input signal is divided into elements is one direction. However, even if the direction of division is not one direction, the division is performed. If the pattern is determined in advance, the same processing can be performed. For example, Korean characters and the like are desirably divided into elements by a two-dimensional division pattern, and the pattern recognition apparatus of the present embodiment can be effectively applied to recognition of such Korean characters.
  • FIG. 8 is a conceptual diagram of processing for dividing Korean characters into elements.
  • an image of a Korean character string is input as a signal to be recognized, for example, as shown in FIG. 8A
  • the character string image is first divided into characters by vertical projection.
  • the connected component analysis is performed for each character, and an operation of selecting one set of adjacent components from the connected components and integrating them in the vertical direction is performed by any of the predetermined division patterns as shown in FIG. Repeat until it matches.
  • a symbol of each element predetermined for each division pattern is given as position information.
  • the leftmost character in the Korean character string shown in FIG. 8A is divided by the division patterns indicated by 0, 2, and 4 in the division pattern shown in FIG. 8B.
  • the model M corresponding to the class into which the characters are classified is a combination of the submodels m corresponding to the division patterns shown in FIG.
  • highly accurate pattern recognition can be performed by the method similar to the method mentioned above.
  • the pattern recognition apparatus of this embodiment includes a processor such as a CPU (Central Processing Unit) 101, a storage device such as a ROM (Read Only Memory) 102 and a RAM (Random Access Memory) 103, an HDD ( It is possible to adopt a hardware configuration using a normal computer including an auxiliary storage device such as (Hard Disk Drive) 104, a communication I / F 105 that communicates by connecting to a network, and a bus 106 that connects each unit. . In this case, each functional component described above can be realized by executing a predetermined pattern recognition program on the computer.
  • a processor such as a CPU (Central Processing Unit) 101
  • a storage device such as a ROM (Read Only Memory) 102 and a RAM (Random Access Memory) 103
  • an HDD It is possible to adopt a hardware configuration using a normal computer including an auxiliary storage device such as (Hard Disk Drive) 104, a communication I / F 105 that communicates by connecting to a network, and
  • This pattern recognition program is an installable or executable file in CD-ROM (Compact Disk Read Only Memory), flexible disk (FD), CD-R (Compact Disk Recordable), DVD (Digital Versatile Disc)
  • CD-ROM Compact Disk Read Only Memory
  • FD flexible disk
  • CD-R Compact Disk Recordable
  • DVD Digital Versatile Disc
  • the program is recorded on a computer-readable recording medium such as a computer program product.
  • the pattern recognition program may be provided by being stored on another computer connected to a network such as the Internet and downloaded via the network.
  • the pattern recognition program may be provided or distributed via a network such as the Internet.
  • this pattern recognition program may be provided by being incorporated in advance in the ROM 102 or the like.
  • This pattern recognition program has a module configuration including each processing unit (the signal input unit 1, the division unit 2, the feature extraction unit 3, and the recognition unit 4) of the pattern recognition apparatus according to the present embodiment.
  • each processing unit described above is loaded onto the RAM 103 (main memory), and each processing unit described above is loaded into the RAM 103 (main memory). It is supposed to be generated above.
  • the pattern recognition apparatus of this embodiment implement

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

入力された信号を複数の要素に分割し、各要素を特徴ベクトルに変換して特徴ベクトルの集合を生成し、認識辞書を用いて特徴ベクトルの集合を評価する。認識辞書は、それぞれのクラスに対応するモデルを含み、各モデルは、該モデルに対応するクラスに分類されるべき信号が取り得る分割パターンに対応するサブモデルを有し、サブモデルは、該サブモデルに対応する分割パターンで分割された各要素に対応する状態であって、特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有する。認識部は、特徴ベクトルの集合に適合するサブモデルを有するモデルを表現するラベル、または、特徴ベクトルの集合に適合するサブモデルを有するモデルの集合を表現するラベルの集合を、認識結果として出力する。

Description

パターン認識装置、パターン認識方法およびプログラム
 本発明の実施形態は、パターン認識装置、パターン認識方法およびプログラムに関する。
 パターン認識の分野では、認識単位の区切りが明らかでない入力信号をパターン認識するための方法として、以下の2つの方法が知られている。1つ目の方法は、入力信号を複数の要素に分割した後に所定の基準に従って結合し、それぞれを個別に認識する方法(以下、この方法を「解析的方法」と呼ぶ。)である。2つ目の方法は、隠れマルコフモデル(HMM:Hidden Markov Model)などの確率モデルを用いて、入力信号の分割箇所としてあらゆる可能性を考えながら認識と分割を同時に行う方法(以下、この方法を「全体的方法」と呼ぶ。)である。
 しかし、解析的方法では、一旦分割した要素をヒューリスティックな方法によって結合するため、認識の精度が十分に確保できない場合がある。一方、全体的方法では、あらゆる分割箇所の可能性を考えながら処理を行うため計算量が大きく、高いスペックのハードウェア資源が要求される。このように、解析的方法と全体的方法にはそれぞれ欠点があるため、これらの欠点を解消した新たな技術の提供が望まれている。
村瀬洋 ほか、"言語情報を導入した手書き文字列からの文字の切り出しと認識"、信学論(D)、J69-D(9)、pp.1292-1301、1986 F.Camastra et al."Machine Learning for Audio,Image and Video Analysis:Theory and Applications"、Springer-Verlag、2007
 本発明が解決しようとする課題は、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができるパターン認識装置、パターン認識方法およびプログラムを提供することである。
 実施形態のパターン認識装置は、分割部と、特徴抽出部と、認識部と、を備える。分割部は、入力された信号を複数の要素に分割する。特徴抽出部は、分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する。認識部は、認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。前記認識部が用いる前記認識辞書は、それぞれのクラスに対応するモデルを含み、前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有する。前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力する。
図1は、実施形態のパターン認識装置の機能的な構成例を示すブロック図である。 図2は、入力された信号を複数の要素に分割する処理の概念図である。 図3は、認識辞書に含まれるモデルの概念図である。 図4は、認識辞書に含まれるモデルの概念図である。 図5は、実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。 図6は、従来の解析的方法を説明する概念図である。 図7は、ノイズ状態を含むモデルの概念図である。 図8は、韓国語文字を要素に分割する処理の概念図である。 図9は、韓国語文字の分割パターンの一例を示す図である。 図10は、実施形態のパターン認識装置のハードウェア構成例を示すブロック図である。
 以下、実施形態のパターン認識装置、パターン認識方法およびプログラムを、図面を参照しながら説明する。
 本実施形態のパターン認識装置は、従来の解析的方法と全体的方法とを組み合わせた新規な方法により、認識単位の区切りが明らかでない入力信号に対するパターン認識を行う。すなわち、入力された信号を複数の要素に分割して要素の特徴ベクトルの集合を求め、確率モデルを用いて、特徴ベクトルの集合に適合するクラスまたはその集合を表す認識結果を出力することを基本概念とする。
 ここで、入力された信号を複数の要素に分割する際の分割の仕方(分割パターン)は、一般に、それぞれのクラスについて1通りではない。例えば、入力された信号が手書き文字の画像であれば、書き手の癖などによって異なる形態となり得るため、同じクラスに分類されるべき信号であっても、異なる分割パターンで分割される場合がある。そして、同じクラスに分類されるべき信号が異なる分割パターンで分割されると、分割されたそれぞれの要素から抽出される特徴ベクトルの分布および個数が大きく異なるため、隠れマルコフモデルにおけるleft-to-rightモデル(非特許文献2を参照)などの標準的なモデルでは、入力された信号を正しく認識することができない。
 そこで、本実施形態では、それぞれのクラスについて、そのクラスに分類されるべき信号が取り得る分割パターンのそれぞれをサブモデルとし、これらサブモデルすべてを結合したものを、当該クラスに対応するモデルとして用いる。
 図1は、本実施形態のパターン認識装置の機能的な構成を示すブロック図である。図1に示すように、本実施形態のパターン認識装置は、信号入力部1、分割部2、特徴抽出部3、および認識部4を備える。
 信号入力部1は、認識対象となる信号の入力を受け付ける。認識対象となる信号は、例えば、画像として表される文字や文字列、その他の画像、波形として表される音声信号や各種のセンサ信号などであり、これらのディジタル情報、または必要に応じて二値化などの前処理を施したディジタル情報が、信号入力部1に入力される。
 分割部2は、信号入力部1に入力された信号を、複数の要素に分割する。具体的には、信号入力部1に入力された信号が文字列画像である場合、分割部2の処理は、例えば、下記の参考文献1に記載されている射影および連結成分分析、あるいは非特許文献1に記載されている「基本セグメントへの分割」の方法などを適用することで実現できる。
<参考文献1>A.Rosenfeld ほか、「ディジタル画像処理」(長尾真監訳)、近代科学社、1978年
 図2は、入力された信号を複数の要素に分割する処理の概念図であり、「水の」という文字列画像が分割部2によって5つの要素に分割された様子を示している。この図2に示す例では文字列画像を分割する方向が一方向であるが、これに限らず、二次元の分割パターンで信号を複数の要素に分割してもよい。
 また、信号入力部1に入力された信号が音声信号や各種のセンサ信号などのように時系列の波形で表される信号である場合、分割部2の処理は、例えば、信号のパワーが閾値以下になっている状態が一定時間以上継続している箇所を分割箇所とする方法などを適用することで実現できる。
 分割した各要素には、それぞれ順序が与えられる。各要素の順序は、元の信号が画像であれば画像中の水平方向の座標、元の信号が音声信号やセンサ信号などの時系列の波形であれば時刻などを基準に、分割した各要素の順序を定めることができる。このとき、分割した各要素に系列などの構造を持たせ、構造内における位置情報を付与してもよい。具体的な例として、図2に示した文字列画像から分割された各要素に対し、左から順に番号を位置情報として付与する方法や、音声信号や各種のセンサ信号などの時系列の波形から分割された各要素に対し、時刻が早い順に番号を位置情報として付与する方法が考えられる。また、分割の方向が一方向でない画像を扱う場合は、後述するように、分割パターンごとにその分割パターンで分割される各要素の記号を予め定めておき(図8参照)、その記号を位置情報として付与する方法などが考えられる。
 特徴抽出部3は、分割部2によって分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して、特徴ベクトルの集合を生成する。具体的には、特徴抽出部3は、まず分割されたそれぞれの要素をなす信号に、長さや量子化レベルを正規化するなどの前処理を施す。そして、特徴抽出部3は、その前処理後の値や、前処理後の信号にさらにガウシアンフィルタなどのフィルタ処理やフーリエ変換などの変換処理を施した後の値を成分とする特徴ベクトルを、その要素の特徴ベクトルとして出力する。このとき、各要素の特徴ベクトルを、すべてノルムが1となるように正規化してもよい。特徴抽出部3は、このようにしてそれぞれの要素から特徴ベクトルを1つずつ抽出し、特徴ベクトル集合を生成する。
 要素を特徴ベクトルに変換する処理の具体例としては、例えば、音声信号の要素それぞれの時間を正規化した後、下記の参考文献2に記載されているメル周波数ケプストラム係数特徴を抽出して、それらの値をそのまま並べて特徴ベクトルとする方法がある。また、画像の要素それぞれから、下記の参考文献3に記載されている加重方向指数ヒストグラム特徴を抽出する方法がある。
<参考文献2>古井貞熙、「新音響音声工学」、近代科学社、2006年
<参考文献3>鶴岡信治 ほか、“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識” 信学論(D)、J70-D(7)、pp.1390-1397、1987
 認識部4は、認識辞書10を用いて、特徴抽出部3により生成された特徴ベクトルの集合を評価し、信号入力部1に入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。
 認識辞書10は、本実施形態のパターン認識装置が信号の分類先として扱うそれぞれのクラスに対応するモデルを含むデータベースであり、本実施形態のパターン認識装置の内部または外部に保持される。認識辞書10が保持する各クラスのモデルは確率モデルであり、隠れマルコフモデルを含む任意のグラフィカルモデル(下記の参考文献4を参照)を用いることができる。
<参考文献4>C.M.ビショップ ほか、「パターン認識と機械学習」(村田昇監訳)、シュプリンガー・ジャパン、2007年
 認識部4は、この認識辞書10に含まれるモデルを単独あるいは後述するように組み合わせて、特徴抽出部3により生成された特徴ベクトルの集合との最適な対応を探索する。そして、認識部4は、特徴ベクトルの集合に適合するモデルを表現するラベル、または特徴ベクトルの集合に適合するモデルの集合を表現するラベルの集合を、認識結果として出力する。
 図3および図4は、認識辞書10に含まれるモデルMの概念図である。図3は、「水」という文字画像が分類されるべきクラスに対応するモデルMの例であり、図4は、「トウキョウト」の音声信号が分類されるべきクラスに対応するモデルMの例である。
 本実施形態で扱うモデルMは、図3および図4に示すように、そのモデルMに対応するクラスに分類されるべき信号が分割部2によって複数の要素に分割される際に取り得る分割パターンのそれぞれをサブモデルmとし、これらサブモデルmのすべてを結合したものである。それぞれのサブモデルmが選択される確率は、予め用意した学習データにおいて、対応する分割パターンそれぞれの出現率と一致させる。あるいは、モデルMおよびサブモデルmが選択される確率について一様分布などの事前分布を与え、これに基づいてモデルMおよびサブモデルmが選択される確率をMAP推定(参考文献4を参照)することもできる。
 各モデルMのサブモデルmは、例えば、該サブモデルmに対応する分割パターンによって分割された各要素のそれぞれに対応する状態sをノードに持つ有向グラフとして構成される。この場合、サブモデルmは、隠れマルコフモデルにおけるleft-to-rightモデルのように、状態sが一方向にしか遷移できないものとしてもよい。つまり、サブモデルmは、各状態sが線形に順序づけられ、上位の状態sから下位の状態sへの遷移が禁じられた構成であってもよい。図3および図4に示した例は、状態sが一方向にしか遷移できないサブモデルmを結合したモデルMを例示している。サブモデルmをこのように構成することで、分類されるクラスまたはクラスの集合が予め分かっている学習データを分割部2に渡したときに、サブモデルmの各状態sに対する、分割された各要素の割り当てを決定的に与えることができる。
 サブモデルmのそれぞれの状態sは、特徴ベクトルと該状態sを表すラベルの関数によって表現され、例えばこの関数をガウス分布の確率密度関数として、特徴ベクトルの対数尤度を関数の出力とすることができる。このとき、分布のパラメータは、上述したように、分類されるクラスまたはクラスの集合が予め分かっている学習データを用い、例えば参考文献4に記載されているEMアルゴリズム、変分ベイズ法、勾配法などの方法で推定することができる。
 ここで、以上のようなモデルMを用いた認識部4の処理の具体例を説明する。なお、以下の説明は、入力信号が複数のクラスの系列として分類される例を想定しているが、入力信号が1つのクラスに分類される場合も同様の説明が当てはまる。
 入力信号から得られた特徴ベクトル列(特徴ベクトルの集合)x,・・・,xの長さn以下の個数、重複を許して、モデルMを順序付きで選択しM,・・・,Mとおく。さらに、それぞれのモデルMからサブモデルmを1つずつ選択してm,・・・,mとおき、合計の長さが特徴ベクトル列と等しくなるようにする。そして、このようにして得られたサブモデルmの状態をs,・・・,sとおき、特徴ベクトルの評価関数を下記式(1)の形で与える。
Figure JPOXMLDOC01-appb-M000001
 ただし、fはNグラム(下記の参考文献5を参照)の確率など、モデルMの列自体によって決まる評価関数、f (i)はサブモデルmの選択確率など、モデルMにおいてサブモデルmを選択することに伴う評価関数、f (j)は状態sの確率密度関数など、状態sに特徴ベクトルxを割り当てることに伴う評価関数である。
<参考文献5>北研二、「確率的言語モデル」(言語と計算5)、東京大学出版会、1999年
 このとき、サブモデルmを、上述したように状態sが一方向にしか遷移できないものとして構成した場合、これを最大化するM,・・・,Mおよびm,・・・,mは、非特許文献2に示されるように、Viterbiのアルゴリズムによって効率的に計算することができる。そして、これを最大化するM,・・・,Mを認識結果として出力する。
 次に、本実施形態のパターン認識装置による処理の概要について、図5に沿って説明する。図5は、本実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。
 まず、信号入力部1が、認識対象となる信号の入力を受け付ける(ステップS101)。信号入力部1に入力された信号は、分割部2に渡される。
 次に、分割部2が、ステップS101で入力された信号を信号入力部1から受け取り、この信号を複数の要素に分割する(ステップS102)。分割部2により分割された各要素のそれぞれは、特徴抽出部3に渡される。
 次に、特徴抽出部3が、ステップS102で分割された各要素を分割部2から受け取り、これらの各要素について、上述した方法によって特徴ベクトルを求めて、特徴ベクトルの集合を生成する(ステップS103)。特徴抽出部3により生成された特徴ベクトルの集合は、認識部4に渡される。
 次に、認識部4が、ステップS103で生成された特徴ベクトルの集合を特徴抽出部3から受け取り、認識辞書10を用いて特徴ベクトルの集合を評価して、ステップS101で入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する(ステップS104)。
 以上、具体的な例を挙げながら説明したように、本実施形態では、信号の分類先となるそれぞれのクラスに対応するモデルMとして、そのモデルMに分類されるべき信号の様々な分割パターンに対応するサブモデルmを結合した確率モデルを定義する。そして、このようなクラスごとのモデルMを含む認識辞書10を用いて、入力された信号から得られる特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。したがって、本実施形態のパターン認識装置によれば、従来の解析的方法と全体的方法のそれぞれの欠点を解消し、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができる。
 従来の解析的方法では、図6に示すように、入力された信号を複数の要素に分割した後に、認識対象となる単位(図6の例では文字)に結合してパターンマッチングなどによる認識を行うが、要素の結合は、例えば文字の平均的な大きさを想定して区切りを決めるなど、ヒューリスティックな方法で行っている。このため、図6の例では、例えばAの要素とBの要素、Cの要素とDの要素をそれぞれ1つの認識対象として処理を行ってしまう場合があり、この場合は認識の精度が十分に確保できない。これに対して本実施形態のパターン認識装置では、信号の分類先として扱うそれぞれのクラスに対応した確率モデルであるモデルMを用い、入力された信号から得られる特徴ベクトルの集合に適合するモデルMあるいはその集合を探索して、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力するので、認識単位の区切りが明らかでない入力信号に対して、精度のよい認識を行うことができる。
 また、従来の全体的方法では、隠れマルコフモデルなどの確率モデルを用いて入力信号のパターン認識を行うが、様々な分割箇所の可能性を考えながら処理を行うため計算量が大きく、高いスペックのハードウェア資源が要求される。これに対して本実施形態のパターン認識装置では、クラスごとに予め想定される分割パターンに対応するサブモデルmを結合したモデルMを用いて、入力された信号から得られる特徴ベクトルの集合に適合するモデルMあるいはその集合を探索し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力するので、少ない計算量で認識を行うことができる。
 以上のように、本実施形態のパターン認識装置によれば、従来の解析的方法と全体的方法のそれぞれの欠点を解消し、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができる。
 なお、本実施形態で用いる認識辞書10は、信号の分類先となるいずれのクラスにも対応しないリジェクトモデルを含んでいてもよい。このリジェクトモデルとしては、例えば、他のモデルMの一部のサブモデルmのみを抽出して1つのモデルとしたものや、ランダムにパラメータ値を定めたものを連結したモデルを用いることができる。この場合、認識部4は、例えば上記の式(1)中のM,・・・Mの中にリジェクトモデルが含まれた場合、これをリジェクトとして扱い、認識結果が得られないことを示す情報を出力する。これにより、誤った記載の手書き文字の画像が入力された場合など、入力された信号自体が正しくない場合に、その旨をユーザに伝えることができる。
 また、入力信号に含まれるノイズが誤って1つの要素として扱われることを想定し、以上のようなリジェクトモデルの1つとして、ただ1つの状態からなるただ1つのサブモデルを有するモデル(ノイズモデル)を設け、このノイズモデル中のただ1つの状態に対応する評価関数は値0を返すか、ランダムにパラメータ値を定めたものとしてもよい。
 また、認識辞書10に含まれるモデルMのうちの少なくとも1つは、図7に示すように、このモデルMに対応するクラスに分類されるべき信号に含まれる要素のいずれにも対応しない状態であるノイズ状態s’を有するように構成してもよい。モデルMをこのように構成することで、入力信号に含まれるノイズが誤って1つの要素として扱われても、その要素をノイズとして正しく認識して、ノイズの混入による認識精度の低下を有効に抑制することができる。
 また、以上の説明は、主に、入力された信号を要素に分割する際の分割の方向が一方向である場合を想定したが、分割の方向が一方向でない場合であっても、その分割パターンを予め定めておけば同様の処理が可能である。例えば、韓国語文字などは、二次元の分割パターンで要素に分割することが望ましく、本実施形態のパターン認識装置は、このような韓国語文字の認識にも有効に適用できる。
 図8は、韓国語文字を要素に分割する処理の概念図である。認識対象となる信号として韓国語の文字列の画像が入力された場合は、例えば、図8(a)に示すように、まず縦方向の射影により文字列の画像を文字単位に分割する。そして、各文字について連結成分分析を行い、連結成分のうち隣接するものの組を一つ選んでそれらを縦方向に統合する操作を、図8(b)のように予め定められた分割パターンのいずれかに一致するまで繰り返す。そして、以上の操作により得られた要素のそれぞれについて、分割パターンごとに予め定められた各要素の記号を位置情報として与える。
 図8(a)に示す韓国語文字列のうち最も左の文字は、図9に示すように、図8(b)の分割パターンのうちの0、2、4で示される分割パターンで分割される可能性がある。そこで、この文字が分類されるべきクラスに対応するモデルMは、この図9に示した分割パターンのそれぞれに対応するサブモデルmを結合したものとする。これにより、上述した方法と同様の方法によって、高精度のパターン認識を行うことができる。
 本実施形態のパターン認識装置は、例えば図10に示すように、CPU(Central Processing Unit)101などのプロセッサ、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、HDD(Hard Disk Drive)104などの補助記憶装置、ネットワークに接続して通信を行う通信I/F105、各部を接続するバス106などを備えた、通常のコンピュータを利用したハードウェア構成を採用することができる。この場合、上述した各機能的な構成要素は、コンピュータ上で所定のパターン認識プログラムを実行することによって実現することができる。
 このパターン認識プログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
 また、このパターン認識プログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このパターン認識プログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。
 また、このパターン認識プログラムを、ROM102等に予め組み込んで提供するように構成してもよい。
 このパターン認識プログラムは、本実施形態のパターン認識装置の各処理部(信号入力部1、分割部2、特徴抽出部3、および認識部4)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU101(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM103(主記憶)上にロードされ、上述した各処理部がRAM103(主記憶)上に生成されるようになっている。なお、本実施形態のパターン認識装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
 以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (7)

  1.  入力された信号を複数の要素に分割する分割部と、
     分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出部と、
     認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識部と、を備え、
     前記認識辞書は、それぞれのクラスに対応するモデルを含み、
     前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
     前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
     前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするパターン認識装置。
  2.  前記サブモデルは、各状態が線形に順序づけられ、上位の状態から下位の状態への遷移が禁じられていることを特徴とする請求項1に記載のパターン認識装置。
  3.  前記認識辞書は、いずれのクラスにも対応しないモデルであるリジェクトモデルを含み、
     前記認識部は、前記特徴ベクトルの集合が前記リジェクトモデルに適合する場合、前記認識結果が得られないことを示す情報を出力することを特徴とする請求項1または2に記載のパターン認識装置。
  4.  前記認識辞書に含まれる前記モデルのうち少なくとも1つは、該モデルに対応するクラスに分類されるべき信号に含まれる要素のいずれにも対応しない状態であるノイズ状態をさらに有することを特徴とする請求項1~3のいずれか一項に記載のパターン認識装置。
  5.  前記サブモデルが有する状態は、学習データとなる信号を前記パターン認識装置に入力したときに該状態への入力となる前記特徴ベクトルの集合および入力される確率によって、該状態が保持する関数が決定されることを特徴とする請求項1~4のいずれか一項に記載のパターン認識装置。
  6.  パターン認識装置において実行されるパターン認識方法であって、
     前記パターン認識装置が、入力された信号を複数の要素に分割する分割ステップと、
     前記パターン認識装置が、分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出ステップと、
     前記パターン認識装置が、認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識ステップと、を含み、
     前記認識辞書は、それぞれのクラスに対応するモデルを含み、
     前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
     前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
     前記認識ステップでは、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするパターン認識方法。
  7.  コンピュータに、
     入力された信号を複数の要素に分割する分割部の機能と、
     分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出部の機能と、
     認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識部の機能と、を実現させるプログラムであって、
     前記認識辞書は、それぞれのクラスに対応するモデルを含み、
     前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
     前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
     前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするプログラム。
PCT/JP2015/063522 2015-05-11 2015-05-11 パターン認識装置、パターン認識方法およびプログラム WO2016181468A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2015/063522 WO2016181468A1 (ja) 2015-05-11 2015-05-11 パターン認識装置、パターン認識方法およびプログラム
CN201580078044.9A CN107533671B (zh) 2015-05-11 2015-05-11 模式识别装置、模式识别方法以及记录介质
US15/708,367 US10373028B2 (en) 2015-05-11 2017-09-19 Pattern recognition device, pattern recognition method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/063522 WO2016181468A1 (ja) 2015-05-11 2015-05-11 パターン認識装置、パターン認識方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/708,367 Continuation US10373028B2 (en) 2015-05-11 2017-09-19 Pattern recognition device, pattern recognition method, and computer program product

Publications (1)

Publication Number Publication Date
WO2016181468A1 true WO2016181468A1 (ja) 2016-11-17

Family

ID=57247854

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/063522 WO2016181468A1 (ja) 2015-05-11 2015-05-11 パターン認識装置、パターン認識方法およびプログラム

Country Status (3)

Country Link
US (1) US10373028B2 (ja)
CN (1) CN107533671B (ja)
WO (1) WO2016181468A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022504937A (ja) * 2018-10-19 2022-01-13 ジェネンテック, インコーポレイテッド 畳み込みニューラルネットワークによる凍結乾燥製剤における欠陥検出
US20220207117A1 (en) * 2019-09-20 2022-06-30 Huawei Technologies Co., Ltd. Data theft prevention method and related product

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154511B (zh) * 2018-01-12 2019-10-25 西安电子科技大学 基于子模字典学习的sar图像分割方法
JP7247472B2 (ja) * 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN112801237B (zh) * 2021-04-15 2021-07-23 北京远鉴信息技术有限公司 暴恐内容识别模型的训练方法、训练装置及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202830A (ja) * 1995-01-27 1996-08-09 Chugoku Nippon Denki Software Kk 文字認識システム
JP2003308090A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2012118650A (ja) * 2010-11-30 2012-06-21 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5923778A (en) * 1996-06-12 1999-07-13 Industrial Technology Research Institute Hierarchical representation of reference database for an on-line Chinese character recognition system
JP4039708B2 (ja) * 1997-02-14 2008-01-30 ヒューレット・パッカード・カンパニー パターン認識方法およびパターン認識装置
US7844114B2 (en) * 2005-12-12 2010-11-30 Microsoft Corporation Logical structure layout identification and classification for offline character recognition
CN101930545A (zh) * 2009-06-24 2010-12-29 夏普株式会社 手写识别方法和设备
US8750628B2 (en) * 2010-01-14 2014-06-10 Nec Corporation Pattern recognizer, pattern recognition method and program for pattern recognition
JP5488077B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
JP5647919B2 (ja) * 2011-03-07 2015-01-07 株式会社Nttドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN102096819B (zh) * 2011-03-11 2013-03-20 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN103218611B (zh) * 2013-05-07 2016-05-25 西安电子科技大学 基于分布式协同学习的人体运动跟踪方法
US9536180B2 (en) * 2013-12-30 2017-01-03 Google Inc. Text recognition based on recognition units
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202830A (ja) * 1995-01-27 1996-08-09 Chugoku Nippon Denki Software Kk 文字認識システム
JP2003308090A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2012118650A (ja) * 2010-11-30 2012-06-21 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022504937A (ja) * 2018-10-19 2022-01-13 ジェネンテック, インコーポレイテッド 畳み込みニューラルネットワークによる凍結乾燥製剤における欠陥検出
US11810287B2 (en) 2018-10-19 2023-11-07 Genentech, Inc. Defect detection in lyophilized drug products with convolutional neural networks
US20220207117A1 (en) * 2019-09-20 2022-06-30 Huawei Technologies Co., Ltd. Data theft prevention method and related product

Also Published As

Publication number Publication date
US10373028B2 (en) 2019-08-06
CN107533671A (zh) 2018-01-02
US20180005087A1 (en) 2018-01-04
CN107533671B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
US10373028B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6066354B2 (ja) 信頼度計算の方法及び装置
US8065149B2 (en) Unsupervised lexicon acquisition from speech and text
US8340429B2 (en) Searching document images
JP5125573B2 (ja) 領域抽出プログラム、文字認識プログラム、および文字認識装置
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN107229627B (zh) 一种文本处理方法、装置及计算设备
JP6618884B2 (ja) 認識装置、認識方法およびプログラム
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
US10803858B2 (en) Speech recognition apparatus, speech recognition method, and computer program product
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
CN108496185B (zh) 用于对象检测的***和方法
US10366312B2 (en) Pattern recognition device, pattern recognition method, and computer program product
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
JP4985724B2 (ja) 単語認識プログラム、単語認識方法、単語認識装置
KR20200063067A (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
Kumar et al. A Bayesian approach to script independent multilingual keyword spotting
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
CN113221549A (zh) 词语类型标注方法、装置以及存储介质
JP6313062B2 (ja) パターン認識装置、パターン認識方法およびプログラム
Das et al. Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance
CN112990252B (zh) 信息处理装置、信息处理方法以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15891794

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15891794

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP