WO2006087854A1 - 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム - Google Patents

情報分類装置、情報分類方法、情報分類プログラム、情報分類システム Download PDF

Info

Publication number
WO2006087854A1
WO2006087854A1 PCT/JP2005/021095 JP2005021095W WO2006087854A1 WO 2006087854 A1 WO2006087854 A1 WO 2006087854A1 JP 2005021095 W JP2005021095 W JP 2005021095W WO 2006087854 A1 WO2006087854 A1 WO 2006087854A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
population
classification
distance
statistical
Prior art date
Application number
PCT/JP2005/021095
Other languages
English (en)
French (fr)
Inventor
Masayoshi Ihara
Original Assignee
Sharp Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Kabushiki Kaisha filed Critical Sharp Kabushiki Kaisha
Priority to US11/791,705 priority Critical patent/US7693683B2/en
Priority to JP2007503580A priority patent/JP4550882B2/ja
Publication of WO2006087854A1 publication Critical patent/WO2006087854A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Definitions

  • Information classification device information classification method, information classification program, information classification system
  • the present invention relates to an information classification device, an information classification method, an information classification program, an information classification system, an information providing service using the information classification system, and a computer that records a post-classification population classified by the information classification system
  • Readable recording media and databases that store an arbitrary number of populations to search for populations to which the sample information to be classified belongs using an information classification system, especially for statistically classifying information Suitable information classification apparatus, information classification method, information classification program, information classification system, information providing service using the information classification system, computer-readable recording medium for recording a population after classification classified by the information classification system, and Any number of populations to search the population to which the sample information to be classified belongs, using the information classification system On the memorize the database.
  • classification methods for information recognition and classification are obtained by orthogonally decomposing the most matrix information group to obtain an optimal solution by using a plurality of matrix information groups, or by using the likelihood estimation method such as Baumweltian algorithm or minimum. Algorithms are used to arithmetically find the optimal solution such as error classification.
  • Patent Document 1 discloses a method for optimizing boundary conditions by making the Mahalanobis distance constant.
  • the local solution is continuously changed based on the appearance frequency distribution and likelihood distribution of the sample in the mixed distribution of the population called EM algorithm, and the local optimal solution is recursively generated. There is a method for maximizing expected values.
  • SVM support vector machine
  • Non-Patent Document 1 the evaluation for estimating the mean, variance, and standard deviation of a population is evaluated by the Bayesian method from the center of gravity of the entire population. Is evaluated whether the position of is within a specific range of standard deviation.
  • Non-Patent Document 2 describes the high accuracy of phoneme evaluation using Mahalanobis distance.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2003-76976
  • Non-Patent Document 1 Gen Furujo, Hiroshi Wakuya, “Estimation of data distribution based on Bayesian reasoning realized by neural network”, Institute of Electrical Engineers of Japan, October 2003, IM— 0 3-55, p . 13-18
  • Non-Patent Document 2 Nakamura Toshinobu, Iwano Koji, Furui Sadaaki, “Analysis of Acoustic Characteristics of Japanese Spoken Speech Using Mahalanobis Distance”, Acoustical Society of Japan 2005 Spring Meeting Presentation, March 2005 , Vol. 1, 2— 1—14, p. 231—232
  • FIG. 7 is a diagram illustrating an example of a normal distribution.
  • FIG. 8 shows an example of a non-normal distribution.
  • the boundary specified in the population specified by the person has to be different depending on the situation in which the person interprets the information. Such a non-normal distribution was formed. For this reason, there was a problem that the population boundary by the optimal solution based on the normal distribution as shown in Fig. 7 could not be obtained arithmetically.
  • the mixed distribution is not necessarily a mixed normal distribution, many local solutions with high likelihood that can be interpreted as the optimal solution of the normal distribution have appeared. For this reason, an optimal solution as an arithmetic solution is generated without limitation or more than necessary, and it does not form a key as a practical optimal solution. In general, there was a problem that stable classification could not be realized.
  • the K means method, if the arbitrary center of gravity specified in the initial stage is not appropriate, the initial population number becomes the number of populations after optimization, so the population is not increased or decreased autonomously. However, there is a problem that stable classification into a population cannot be realized.
  • Patent Document 1 only explains that the neural network functions optimally by keeping the Mahalanobis distance constant. For this reason, even if it is assumed to be used for clustering, it is classified as inside and outside the distance average value of the samples that make up the population, solving the problem of increasing the population unrestrictedly or more than necessary. Absent.
  • the EM algorithm is known to construct local solutions without limitation or more than necessary, and there is a problem that the population cannot always be stably classified.
  • SVM is a method for determining a boundary condition and a boundary width by converting a nonlinear mapping of a population into another dimensional space by an arbitrary function.
  • SVM there is a problem that a stable classification of the population is not always possible.
  • Non-Patent Document 1 is attributed evaluation based on variance and standard deviation with the population centroid as an average, and output in a multi-layered dual network.
  • evaluating the average of the evaluation distance in the population to which it belongs and the standard deviation using the standard deviation as shown in the present invention it is possible to present problems related to information classification and solve problems. It ’s a proof of proof.
  • Non-Patent Document 2 is an analysis result and consideration that speech analysis using Mahalanobis distance shows high correlation, and presents specific problems and solutions and demonstrations of the problems. Do not mean.
  • the present invention has been made to solve the above-mentioned problems, and one of the objects of the present invention is an information classification apparatus and information capable of autonomously and stably classifying sample information into a population. It is to provide a classification method, an information classification program, and an information classification system.
  • Another object of the present invention is to provide an information classification device, an information classification method, an information classification program, and an information classification system that can mutually evaluate sample information having different component aspects. is there.
  • an information classification device includes a distance calculation unit, a statistical information calculation unit, an attribution degree evaluation unit, an attribution determination unit, and sample information. And a return part.
  • the distance calculation unit calculates a statistical distance between the centroid for each population of sample information belonging to each of an arbitrary number of populations including the sample information and the classification target sample information.
  • the statistical information calculation unit calculates statistical information for each population regarding the statistical distance calculated by the distance calculation unit.
  • the attribution degree evaluation unit evaluates the degree of attribution of the classification target sample information to the population based on the statistical distance calculated by the distance calculation unit and the statistical information calculated by the statistical information calculation unit. .
  • the attribution determination unit determines to which population the classification target sample information is to be attributed according to the attribution degree evaluated by the attribution degree evaluation unit.
  • the sample information attribution unit assigns the sample information to be classified to the population determined by the attribution determination unit.
  • the information classification apparatus integrates the centroid for each population of sample information belonging to each of an arbitrary number of populations including sample information and the classification target sample information.
  • the statistical distance is calculated, and statistical information for each population is calculated for the calculated statistical distance.
  • the degree of attribution of the classification target sample information to the population is determined to which population the classification target sample information belongs, and the classification target sample information is attributed to the determined population.
  • the information classification device assigns the classification target sample information to any population corresponding to the degree of attribution to the population.
  • the information classification apparatus that can autonomously and stably classify sample information into a population.
  • the statistical information is an average value and a standard deviation value for each statistical population calculated by the distance calculation unit.
  • the distance calculation unit statistically calculates a centroid for each updated population to which the classification target sample information is attributed by the sample information attribution unit, and classification target sample information belonging to each of the updated populations. The distance is further calculated.
  • the information classification device further provides a statistical distance between the center of gravity of each updated population to which the classification target sample information is attributed and the classification target sample information belonging to each of the updated population. Based on the calculated statistical distance, the classification target sample information is further attributed to any population according to the degree of attribution.
  • the information classification apparatus can further recursively classify sample information into a population.
  • the belonging determination unit includes a population generating unit that newly generates a population when the degree of belonging to any population is outside the range of the predetermined degree. Decide to assign the sample information to be classified.
  • the information classification device when the degree of belonging to any population is out of the predetermined range by the information classification device, a new population is generated, and the generated population is classified. Sample information is attributed.
  • the sample information belonging to the population becomes sample information within a range with a predetermined degree of belonging.
  • the information classification device can classify the sample information within a predetermined range with respect to the population.
  • the statistical information is an average value and a standard deviation value of the statistical distance calculated by the distance calculation unit for each population, and the degree of attribution is an average value of the statistical distance for the population. It is a force deviation value, and the predetermined degree is a range of standard deviation values where the deviation value is a predetermined multiple from the average value.
  • the information classification device when the deviation value from the average value of the statistical distance to any population is outside the range of the standard deviation value of a predetermined multiple by the information classification device, a new mother is newly created. A group is generated, and the sample information to be classified belongs to the generated population.
  • the information classification device can classify the sample information within a standard deviation value range in which the deviation value from the average value of the statistical distance with respect to the population is a predetermined multiple. As a result, it is possible to classify the sample information into the population so that a certain percentage of the sample information belonging to the population is close to a normal distribution that is distributed within the range of the standard deviation value of the average value power a predetermined multiple. .
  • the information classification device includes a population deletion unit that deletes a population to which a predetermined number of pieces of sample information are not attributed and causes sample information belonging to the deleted population to belong to another population. Further prepare.
  • the information classification device deletes a population to which a predetermined number of sample information is not attributed, and samples information attributed to the deleted population is attributed to another population. For this reason, invalid populations are deceived.
  • the attribution determining unit determines that the classification target sample information is attributed to the population having the highest attribution degree evaluated by the attribution degree evaluating unit.
  • the information classification device determines that the classification target sample information is to be attributed to the population having the best evaluated degree of attribution, and the classification target sample information is attributed to the determined population. Is done.
  • the information classification apparatus is attributed to the population having the highest degree of attribution for the classification target sample information.
  • the sample information can be optimally classified into the population.
  • the distance calculation unit calculates a statistical distance based on a covariance structure analysis.
  • the distance calculation unit calculates the statistical distance based on the eigenvalue and the eigenvalue. calculate.
  • the distance calculation unit calculates the Mahalanobis distance as the statistical distance.
  • the distance calculation unit calculates a distance by a Bayes discriminant function as a statistical distance.
  • the distance calculation unit includes a distance normalization unit that normalizes the calculated statistical distance.
  • the statistical distance is normalized by the information classification device. As a result, statistical distance can be easily handled by the information classifier.
  • the information classification method is executed by a computer, and the centroid for each population of sample information belonging to each of an arbitrary number of populations including the sample information, and the classification target Based on the step of calculating the statistical distance to the sample information, the step of calculating the statistical information for each statistical population for the calculated statistical distance, and the calculated statistical distance and statistical information A step of evaluating the degree of attribution of the sample information to the population, a step of determining to which population the sample information to be classified belongs to according to the evaluated degree of attribution, and the determined population And assigning the sample information to be classified.
  • an information classification method capable of autonomous and stable classification of sample information into a population.
  • the information classification program is executed by a computer, and the center of gravity for each population of sample information belonging to each of an arbitrary number of populations including sample information; Based on the step of calculating the statistical distance from the sample information to be classified, the step of calculating the statistical information for each statistical population about the calculated statistical distance, and the calculated statistical distance and statistical information, A step of evaluating the degree of attribution of the classification target sample information to the population, a step of determining to which population the classification target sample information should be attributed according to the evaluated degree of attribution, and the determined population And causing the computer to execute the step of assigning the sample information to be classified to the group.
  • an information classification system includes an information classification device and an information terminal connected to the information classification device via a communication line.
  • the information classification device includes a population reception unit, a distance calculation unit, a statistical information calculation unit, an attribution degree evaluation unit, an attribution determination unit, a sample information attribution unit, and a post-classification population delivery unit.
  • the information terminal includes a population delivery unit and a post-classification population reception unit.
  • the population delivery unit delivers an arbitrary number of populations including sample information to the information classification device.
  • the population receiving unit receives an arbitrary number of populations including sample information from the information terminal.
  • the distance calculation unit calculates a statistical distance between the centroid for each population of sample information belonging to each of the populations received by the population reception unit and the sample information to be classified.
  • the statistical information calculation unit calculates statistical information for each population about the statistical distance calculated by the distance calculation unit.
  • the belonging degree evaluation unit evaluates the degree of belonging to the population of the classification target sample information based on the statistical distance calculated by the distance calculating unit and the statistical information calculated by the statistical information calculating unit.
  • the attribution determination unit determines to which population the classification target sample information is to be attributed, according to the attribution degree evaluated by the attribution degree evaluation unit.
  • the sample information attribution unit assigns the classification target sample information to the population determined by the attribution determination unit.
  • the post-classification population delivery unit delivers the post-classification population to which the classification target sample information is attributed by the sample information attribution unit to the information terminal.
  • the post-classification population receiving unit receives the post-classification population from the information classification device.
  • an information classification system capable of providing a population in which sample information is classified autonomously and stably.
  • an information classification system includes an information classification device and an information terminal connected to the information classification device via a communication line.
  • the information classification device includes a sample information receiving unit, a distance calculating unit, a statistical information calculating unit, an belonging degree evaluating unit, an belonging determining unit, and a population identification information passing unit.
  • the information terminal includes a sample information delivery unit and a population identification information reception unit.
  • the specimen information delivery unit delivers the classification target specimen information to the information classification device.
  • the sample information receiving unit receives the classification target sample information from the information terminal.
  • the distance calculator includes sample information And calculating a statistical distance between the center of gravity of the sample information belonging to each of an arbitrary number of populations and the classification target sample information received by the population receiving unit.
  • the statistical information calculation unit calculates statistical information for each population about the statistical distance calculated by the distance calculation unit.
  • the belonging degree evaluation unit evaluates the degree of belonging to the population of the classification target sample information based on the statistical distance calculated by the distance calculating unit and the statistical information calculated by the statistical information calculating unit.
  • the attribution determination unit determines to which population the classification target sample information is to be attributed, according to the attribution degree evaluated by the attribution degree evaluation unit.
  • the population identification information delivery unit delivers the population identification information for identifying the population determined by the attribution determination unit to the information terminal.
  • the population identification information receiving unit receives population identification information from the information classification device.
  • an information classification system capable of autonomously and stably giving information for identifying a population to which classification target sample information belongs.
  • an information providing system used for an information providing service includes: an information classification device; and an information terminal connected to the information classification device via a communication line.
  • the information classification device includes a sample information receiving unit, a distance calculating unit, a statistical information calculating unit, an attribution degree evaluating unit, an belonging determining unit, and a population identification information passing unit.
  • the information terminal includes a sample information delivery unit and a population identification information reception unit.
  • the specimen information delivery unit delivers the classification target specimen information to the information classification device.
  • the sample information receiving unit receives the classification target sample information from the information terminal.
  • the distance calculation unit calculates the statistical distance between the centroid for each population of the sample information belonging to each of an arbitrary number of populations including the sample information and the classification target sample information received by the population reception unit. To do.
  • the statistical information calculation unit calculates statistical information for each population regarding the statistical distance calculated by the distance calculation unit.
  • the belonging degree evaluation unit evaluates the degree of belonging to the population of the classification target sample information based on the statistical distance calculated by the distance calculating unit and the statistical information calculated by the statistical information calculating unit.
  • the attribution determination unit determines to which population the classification target sample information is to be attributed, according to the attribution degree evaluated by the attribution degree evaluation unit.
  • the population identification information delivery unit sends the population identification information for identifying the population determined by the attribution determination unit to the information terminal. Deliver.
  • the population identification information receiving unit receives information identification apparatus power population identification information.
  • an information classification system for classifying a post-classification population recorded on a computer-readable recording medium includes an information classification device, an information classification device, and a communication line.
  • the information classification device includes a population receiving unit, a distance calculation unit, a statistical information calculation unit, an attribution degree evaluation unit, an attribution determination unit, a sample information attribution unit, and a post-classification population delivery unit.
  • the information terminal includes a population delivery unit and a post-classification population reception unit.
  • the population delivery unit delivers an arbitrary number of populations including sample information to the information classification device.
  • the population receiving unit receives an arbitrary number of populations including sample information from the information terminal.
  • the distance calculation unit calculates a statistical distance between the centroid for each population of sample information belonging to each of the populations received by the population reception unit and the sample information to be classified.
  • the statistical information calculation unit calculates statistical information for each population regarding the statistical distance calculated by the distance calculation unit.
  • the belonging degree evaluation unit evaluates the degree of belonging to the population of the classification target sample information based on the statistical distance calculated by the distance calculating unit and the statistical information calculated by the statistical information calculating unit.
  • the attribution determination unit determines to which population the classification target sample information is to be attributed, according to the attribution degree evaluated by the attribution degree evaluation unit.
  • the sample information attribution unit assigns the classification target sample information to the population determined by the attribution determination unit.
  • the post-classification population delivery unit delivers the post-classification population to which the classification target sample information is attributed by the sample information attribution unit to the information terminal.
  • the post-classification population receiving unit receives the post-classification population from the information classification device.
  • a computer-readable recording medium for recording a post-classification population classified by an information classification system capable of providing a population in which sample information is autonomously and stably classified. Can be provided.
  • the information classification system used for searching the population to which the sample information to be classified belongs includes an information classification device and an information terminal connected to the information classification device via a communication line.
  • the information classification device includes a population receiving unit, a distance calculation unit, a statistical information calculation unit, a attribution degree evaluation unit, an attribution determination unit, a sample information attribution unit, and a post-classification population delivery unit.
  • the information terminal includes a population delivery unit and a post-classification population reception unit.
  • the population delivery unit delivers an arbitrary number of populations including sample information to the information classification device.
  • the population receiving unit receives an arbitrary number of populations including sample information from the information terminal.
  • the distance calculation unit calculates a statistical distance between the centroid for each population of sample information belonging to each of the populations received by the population reception unit and the sample information to be classified.
  • the statistical information calculation unit calculates statistical information for each population regarding the statistical distance calculated by the distance calculation unit.
  • the belonging degree evaluation unit evaluates the degree of belonging to the population of the classification target sample information based on the statistical distance calculated by the distance calculating unit and the statistical information calculated by the statistical information calculating unit.
  • the attribution determination unit determines to which population the classification target sample information is to be attributed according to the attribution degree evaluated by the attribution degree evaluation unit.
  • the sample information attribution unit assigns the classification target sample information to the population determined by the attribution determination unit.
  • the post-classification population delivery unit delivers the post-classification population to which the classification target sample information is attributed by the sample information attribution unit to the information terminal.
  • the post-classification population receiving unit receives the post-classification population from the information classification device.
  • the present invention for searching for a population to which the classification target sample information belongs using an information classification system capable of providing a population in which sample information is autonomously and stably classified.
  • a database for storing the arbitrary number of populations can be provided.
  • the classification target specimen information is arbitrary vector information, matrix information, or tensor information in which an identifier is given to each element in advance, and a predetermined evaluation function is assigned to each element in advance. It is a function that receives vector information, matrix information, or tensor information of a given component aspect given an identifier, and the distance calculation unit is an identifier for each element of arbitrary vector information, matrix information, or tensor information. Is the prescribed structure Statistics are obtained by reconstructing each element of arbitrary vector information, matrix information, or tensor information so as to be the same identifier for each element identifier of the component aspect and inputting it to a predetermined evaluation function. The target distance is calculated.
  • the identifier of each element of arbitrary vector information, matrix information, or tensor information is a predetermined component of vector information, matrix information, or tensor information input to a predetermined evaluation function. It is reconfigured so that it becomes the same identifier for each of the identifiers of the elements of the aspect, and is input to a predetermined evaluation function. For this reason, an information classification device, an information classification system, an information providing service using the information classification system, and a post-classification population classified by the information classification system that can mutually evaluate sample information with different component aspects. It is possible to provide a computer-readable recording medium for recording, and a database for storing the arbitrary number of populations for searching for a population to which the sample information to be classified belongs using an information classification system.
  • an evaluation function or a sample may be configured using the feature amount, name, or identifier in an arbitrary field for these elements, and the attribution state of the sample to the population may be evaluated.
  • These evaluation functions may be configured or reconfigured.
  • the classification target specimen information is arbitrary vector information, matrix information, or tensor information in which an identifier is given in advance to each element, and a predetermined evaluation function is given in advance to each element. It is a function that receives vector information, matrix information, or tensor information of a given component aspect given an identifier, and the step of calculating the statistical distance is each of arbitrary vector information, matrix information, or tensor information.
  • Each element of arbitrary vector information, matrix information, or tensor information is reconfigured so that the identifier of the element of the element is the same identifier as the identifier of the element of the predetermined component aspect, and the predetermined evaluation function To calculate the statistical distance.
  • an identifier of each element of arbitrary vector information, matrix information, or tensor information is a predetermined component of vector information, matrix information, or tensor information input to a predetermined evaluation function. It is reconfigured so that it becomes the same identifier for each of the identifiers of the elements of the aspect and is input to a predetermined evaluation function. For this reason, an information classification method capable of mutually evaluating specimen information with different component aspects, and And an information classification program can be provided.
  • an identifier is given to a feature vector, a matrix, and / or a tensor element, an element having a matching identifier is arranged as an evaluation feature quantity, and given to an evaluation function, or a vector vector, matrix, and / or tensor Perform distance evaluation.
  • the distance calculation unit replaces the order of the element items of the vector, matrix, and Z or tensor, substitutes the element average value or 0 for the missing element, or deletes the excess element. And the function of making the apparent number of elements and the element identifier the same.
  • Vector, matrix, and / or tensor with different elements, or vector, matrix, and / or tensor and evaluation function based on distance from population centroid, mean, and standard deviation The range of application of vectors, matrices and / or tensor evaluation functions is expanded.
  • FIG. 1 is a diagram showing an outline of the configuration of an information classification device according to the present embodiment.
  • FIG. 2 is a flowchart showing the flow of information classification processing executed by the information classification device according to the present embodiment.
  • FIG. 3 is a diagram showing an example of a population in information classification processing by supervised learning according to the present embodiment.
  • FIG. 4 is a graph showing an experimental result of an information classification experiment by supervised learning according to the present embodiment.
  • FIG. 5 is a graph showing experimental results of a control experiment of an information classification experiment.
  • FIG. 6 is a diagram showing an outline of an information classification system according to a modification of the present embodiment.
  • FIG. 7 is a diagram showing an example of a normal distribution.
  • FIG. 8 is a diagram showing an example of a non-normal distribution.
  • FIG. 9 is a graph showing experimental results of an information classification experiment according to the present embodiment in unsupervised learning with more samples.
  • 100 information classification device 100A, 100B information processing device, 110 processing unit, 120 storage unit, 130 input unit, 140 output unit, 200A to 200C information terminal, 500 network.
  • FIG. 1 is a diagram showing an outline of the configuration of the information classification device 100 according to the present embodiment.
  • information classification apparatus 100 is configured by a computer such as a PC (Personal Computer), and includes a processing unit 110, a storage unit 120, an input unit 130, and an output unit 140.
  • the processing unit 110, the storage unit 120, the input unit 130, and the output unit 140 are connected via a bus and exchange necessary data via the bus.
  • the information classification device 100 is not limited to a general-purpose device such as a PC, and may be configured as a dedicated device.
  • the processing unit 110 includes an arithmetic circuit such as a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a DSP (Digital Signal Processor), and its peripheral circuits.
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • DSP Digital Signal Processor
  • the storage unit 120 includes a storage circuit such as a ROM (Read Only Memory), a RAM (Random Access Memory), and a hard disk drive.
  • the storage unit 120 stores a program executed by the information classification device 100 or is used as a work area when the program is executed.
  • the input unit 130 is configured with power such as an input device such as a keyboard and a mouse, an imaging device such as a camera, and a sound collecting device such as a microphone.
  • the input unit 130 delivers data input from the input device, the imaging device, and the sound collection device to the processing unit 110.
  • the output unit 140 includes a display device such as a display, an acoustic device such as a speaker, and the like.
  • the output unit 140 outputs the data received from the processing unit 110.
  • processing unit 110 executes a predetermined process using storage unit 120 as a work area. Further, the processing unit 110 receives predetermined data from the input unit 130 according to the processing. Further, the processing unit 110 delivers predetermined data to the output unit 140 according to the processing.
  • FIG. 2 shows the flow of information classification processing executed by the information classification device 100 according to the present embodiment. It is a flowchart to show.
  • processing unit 110 constructs a distance function from sample information belonging to each population to be classified stored in storage unit 120. .
  • n 1 2 m n and b can be multidimensional vectors, matrices and tensors.
  • the processing unit 110 obtains variables for multivariate analysis of the respective populations A and B such as eigenvalues, eigenvectors, average values, and standard deviation values from these sample information groups.
  • the processing unit 110 obtains the Mahalanobis distance between the populations A and B and each sample information based on the variables for covariance structure analysis obtained here, and the sample information a and bnm The argument
  • [0106] is a vector, including the number of evaluation dimensions that are internal variables of the distance evaluation function Although the accuracy of the calculation result can be set using the variable for evaluation, it can be specified with any accuracy.
  • i indicates an identification value of a plurality of populations.
  • k represents the identification value of the sample.
  • [0111] shows the distance between sample k and the center of gravity of population i.
  • represents an average vector obtained from the sample information.
  • [0113] indicates a sample information vector.
  • V in Equations 5 and 9 indicates the covariance matrix of population i.
  • I represents the eigenvector of the covariance matrix of the population.
  • represents the eigenvalue of the covariance matrix of the population.
  • a constant log IVI based on the eigenvalue of Mahalanobis distance and prior probability logP (c) can be added to construct a multidimensional distance calculation function using a Bayes discriminant function.
  • a value corresponding to the distance from the population center of gravity can be derived in the form of [0124].
  • step S12 the processing unit 110 evaluates the sample information with the distance function constructed in step S11, and calculates the evaluation distance.
  • step S13 the processing unit 110 performs step S13.
  • the average value, variance value, and standard deviation value of the evaluation distance calculated in 12 are derived.
  • step S14 processing unit 110 normalizes the evaluation distance for each population calculated in step S12.
  • D which is the evaluation distance group obtained by inputting the sample information group a, a, ..., a, b, b, ..., b
  • [0137] is also the evaluation distance group obtained by inputting the sample information group a, a , ''', a, b, b,''', b Normalize D group with ⁇ D and ⁇ D. As a result, the samples belonging to each population
  • the distance deviation values V, V, ⁇ , V, V, V, V, ⁇ , V of each sample calculated using the average distance from the center of gravity of each sample group by the constructed evaluation function are obtained.
  • V bk o3 ⁇ 4- 1 (D bk - M D b )
  • step S21 the processing unit 110 evaluates the distance deviation value of the sample with respect to the first population calculated in step S14.
  • step S22 the processing unit 110 determines whether or not the distance deviation value is within a specified range.
  • step S23 processing unit 110 assigns the sample to the population, and advances the process to step S24.
  • step S24 processing unit 110 assigns the sample to the population, and advances the process to step S24.
  • step S24 processing unit 110 determines whether or not there is a next population. When there is a next population (YES in step S24), in step S25, the processing unit 110 evaluates the sample distance deviation value with respect to the next population, and returns the process to step S22. On the other hand, if there is no next population (NO in step S24), the process proceeds to step S26.
  • step S26 the processing unit 110 determines whether or not the sample belongs to any existing population. If it is not attributed to any population (NO in step S26), in step S27, the processing unit 110 generates a new population, assigns the sample to the population, and performs processing. Proceed to step S28. On the other hand, if it belongs to one of the populations (YES in step S26), the process proceeds to step S28.
  • the distance deviation value V of the distance function F (a) is less than 3 ⁇ 4 ⁇ .
  • step S28 the processing unit 110 determines whether there is a next sample. If there is a next sample (YES in step S 28), processing unit 110 returns the process to step S 21. On the other hand, when there is no next sample (NO in step S28), processing unit 110 advances the process to step S31.
  • steps S21 to S27 are executed for sample information a force a.
  • step S21 to step S27 are executed for sample information b force b.
  • samples belonging to populations A and B may be attributed to the population with the smallest distance standard deviation value.
  • the criterion of 3 times ⁇ which is an index used here, is 99.7% of sample information in the membership probability, appearance probability or membership probability derived based on the statistical probability density function. It is a value that can be expected to be included, and any magnification may be specified based on the specifications, ideas, and purpose of the device.
  • any ⁇ value is used as an evaluation criterion, whether it is within 3 ⁇ to an arbitrary rank, or belonging to the population closest to the center of gravity If the evaluation distance is a negative value when the evaluation distance is negative, the probability value is greater than ⁇ Considering that, it is possible to use a method of selecting a population to be attributed, by combining with evaluation that it belongs to the population.
  • the standard deviation for the distance from the center of gravity of the sample group may be obtained by using the average as in Equation 22 or 23, and may be used as the boundary reference in the above method.
  • the distance average Since the distance from the population centroid is used as the evaluation criterion, the probability of occurrence or attribution probability determined by the statistical probability density function according to the mean z D for which the constant force based on the eigenvalue was obtained and the standard deviation based on the mean, or The distance that becomes the attribution boundary may be determined by using the affiliation probability.
  • the reclassification condition may be specified by any combination of conditions with a plurality of populations. At this time, if it is sufficiently close to the center of gravity of multiple populations, the method is closer, or it is assigned to the smaller standard deviation value, or if both are small, a new population is formed, or both populations are assigned. It may be configured such that the method of assigning or changing the classification method for each positive / negative deviation value can be arbitrarily performed.
  • step S31 the processing unit 110 determines whether there is a population whose sample information is less than a predetermined number, for example, less than 200. If there is a population whose sample information is less than the predetermined number (YES in step S31), processing unit 110 causes the sample information belonging to that population to belong to another population in step S32. In other words, the population is deleted. Thereafter, the processing unit 110 proceeds with the process to step S33. On the other hand, when there is no population whose sample information is less than the predetermined number (NO in step S31), processing unit 110 advances the process to step S33.
  • a predetermined number for example, less than 200.
  • the sample information belonging to the population to be deleted belongs to the population having the smallest distance standard deviation value.
  • the sample information belonging to the deleted population is not attributed to any population, and it is used as sample information only to obtain the distance function force distance and the temporary belonging population in step S33. You can do it.
  • step S33 the processing unit 110 calculates the distance function for the reclassified population. Then, the degree of coincidence is evaluated by recognition using a discriminant function, and it is evaluated whether the classification is made accurately. In step S34, the processing unit 110 determines whether or not the degree of coincidence satisfies the termination condition.
  • processing unit 110 If the end condition is not satisfied (NO in step S34), processing unit 110 returns the process to step S12 and recursively executes the processes from step S12 to step S32. On the other hand, when the end condition is satisfied (YES in step S34), processing unit 110 terminates this information classification process.
  • FIG. 3 is a diagram showing an example of a population in the information classification process by supervised learning according to the present embodiment.
  • FIG. 3 (A) is a diagram showing the classification of the population before the information classification process. Referring to Fig. 3 (A), this figure is a plot of sample information a and b on a scatter plot. Specimen information a is indicated by “ ⁇ ”
  • the sample information bn is indicated by “ ⁇ ”.
  • the person judges the contents of the sample information and classifies them into a and b.
  • the set of sample information a is population A
  • the set of sample information b is population B.
  • the centroids of the population A and the population B before classification are indicated by “ ⁇ ”, respectively.
  • the 3 ⁇ boundary of population A before classification is shown by a one-dot chain line.
  • the 3 ⁇ boundary of the population ⁇ before classification is indicated by a two-dot chain line.
  • FIG. 3 (B) is a diagram showing the classification of the population after the information classification process.
  • the new classification boundary of the population after processing is shown by a broken line.
  • the centroid of newly generated population C is also indicated by “ ⁇ ”, as is the centroid of population A and population B.
  • the statistical information of the distance obtained based on multiple distance functions by the information classification process Information with a distance from the population center of gravity can form a unique population or change attribution to a population with a closer center of gravity. Even if the information is likely to cause a difference, the distribution can be made close to a normal distribution, and an autonomously stable population can be formed.
  • the number of dimensions per sample is 192
  • the number of representative initial populations at the start specified by humans is eight
  • the number of data samples is about 250,000. Yes, there are 28 utterance phonemes.
  • the 28 types of phonemes are classified into 8 types of populations based on the specific human subjective speech conditions by the information classification process described above.
  • the nearest distance obtained after the evaluation the nearest distance obtained after the evaluation, and the label population If the distance from the center of gravity of the population composed of matched samples is less than 3 ⁇ , the attribute is assigned to the population before evaluation.
  • the distance of the sample is 3 ⁇ from the distance average value of the other populations. If it is within the range, it is attributed to the matched population, and if it is more than 3 ⁇ above the mean, a new population is created. Make it happen.
  • FIG. 4 is a graph showing experimental results of an information classification experiment by supervised learning according to the present embodiment.
  • FIG. 5 is a graph showing the experimental results of the control experiment of the information classification experiment.
  • the vertical axis shows the number of populations and the matching rate.
  • the horizontal axis indicates the number of repetitions of the information classification process.
  • FIG. 9 is a graph showing an experimental result of an information classification experiment according to the present embodiment in unsupervised learning with a larger number of samples.
  • the information classification device 100 performs the steps in FIG. As explained in steps S11 and S12, calculate the evaluation distance between the centroid of each population of sample information belonging to each of the multiple populations containing sample information and the sample information to be classified To do.
  • the information classification device 100 calculates statistical information such as the mean, variance, and standard deviation for each population for the evaluation distance calculated in step S12.
  • the information classification device 100 applies the population to the population based on the evaluation distance calculated in step S12 and the statistical information calculated in step S13. By evaluating the evaluation distance of the sample information, the degree of attribution of the sample information of the classification target to the population is evaluated.
  • the information classification device 100 converts the sample information to be classified into any population according to the degree of attribution evaluated in step S21 or step S25. Decide whether to belong to
  • the information classification device 100 assigns the sample information of the classification contrast to the determined population.
  • the information classification device 100 causes the sample information to be classified to belong to any population according to the degree of attribution to the population. As a result, autonomous and stable classification of sample information into the population can be achieved.
  • the information classification device 100 adds the center of gravity of each updated population to which the sample information to be classified belongs, and each updated population.
  • the sample information of the classification target is further converted into the degree of attribution based on the calculated evaluation distance. Be attributed to one of the responding populations.
  • the information classification apparatus 100 can further recursively classify sample information into a population S.
  • the information classification device 100 has a degree of belonging to any population that is outside the range of the predetermined degree, that is, any of them.
  • the deviation from the average value of the evaluation distance to the population is also outside the range of 3 ⁇ , A simple population and assign the sample information to be classified to the created population.
  • the sample information belonging to the population becomes sample information when the degree of attribution is within a predetermined range. That is, the information classification device 100 can classify sample information within a range where the deviation value from the average value of the evaluation distance is 3 ⁇ with respect to the population.
  • the information classification apparatus 100 can classify the sample information within a predetermined degree with respect to the population.
  • the sample information can be classified into the population so that a certain percentage of the sample information belonging to the population is close to a normal distribution distributed within the range of 3 ⁇ from the average value.
  • the information classification device 100 deletes a population to which a predetermined number of sample information is not attributed, and obtains other sample information belonging to the deleted population. Be attributed to the population of This tricks the invalid population.
  • the sample information of the classification target may be attributed to the population with the highest degree of attribution evaluated in step S21 or step S25.
  • the information classification apparatus 100 assigns the sample information to be classified to the population with the highest degree of attribution evaluated. As a result, it is possible to optimally classify sample information into a population.
  • step S14 of FIG. 2 the information classification device 100 normalizes the evaluation distance calculated in step S12.
  • the information classification device 100 can easily handle the evaluation distance.
  • the information classification device 100 uses the processing unit 110 to calculate the mean and variance for the sample information classified by the population of the storage unit 120, forms a covariance matrix, and stores it in the storage unit 120.
  • eigenvalues and eigenvectors are obtained from the covariance matrix, classified together with the population of the population to which the sample belongs, and stored in the storage unit 120 as an evaluation function.
  • the processing unit 110 calculates the distances of all the samples. Implement and classify according to the contents. If necessary, a new population is given and stored in the storage unit 120.
  • processing for obtaining an average, variance, and the like is performed again using processing unit 110 according to the new classification, and is repeated until the number of populations is stabilized.
  • the 3 ⁇ range used in this experiment is a range that includes about 99.7% of the population, and in statistical predictions, it is possible to implement classification with good values around 2 ⁇ , which is the test boundary of 98%. I ’ll do it.
  • the Mahalanobis distance average between the center of gravity and sample information in a certain population is the number of dimensions of the sample information. Considering this characteristic force, it can be seen that samples at a distance equal to the number of evaluation dimensions from the center of the population are included in 0.68 ⁇ .
  • the distance corresponding to ⁇ 3 ⁇ is about 4.5 times the number of sample dimensions, and the Mahalanobis distance from this value If is small, it can be expected that it will belong to the original population with a probability of 99.7%.
  • the minimum ⁇ value in the negative direction as viewed from the average position based on the average distance from the population centroid, or the minimum to the sample closest to the centroid can be used as the upper limit for evaluation of the ⁇ value in the positive direction when viewed from the average position.
  • the power can be regarded as the upper limit of the standard deviation of +4 from the distance average.
  • sample information of only one side smaller or larger than the average in the specified range centered on the average is used as a new population, or a new population is specified by specifying an asymmetric range. May be configured.
  • the divided populations are fused by assigning the sample information a to a population that is closer and within an arbitrary boundary.
  • Processing may be performed to reduce the number of populations.
  • the Mahalanobis distance when used as the exponent, it is well known that it can be used as a probability based not only on a simple n-dimensional space but also on time-series statistics.
  • the statistical distribution based on the mean and standard deviation is measured using the distance in this method or the exponent value when the probability value is regarded as the exponent of the natural logarithm as the distance.
  • the probability of occurrence or the probability of attribution based on the probability density function to the population to which it belongs should all be 1, but this is not necessarily the case because of variance and changes in the environment due to human interpretation. It can be used as a countermeasure.
  • distance evaluation of values used in combination with arbitrary input / output variables for part or all of the input layer, intermediate layer, and output layer is performed, and in the case of a non-hierarchical model, The input value to the node and the output value of the firing node, or by combining those non-hierarchical models into a hierarchy, 3D, or higher dimensions, the output evaluation results The based value may be used as the distance.
  • the present invention is classified into hierarchical Bayes, experience Bayes, variational Bayes, naive Bayes method, extended Bayes method, integrated Bayes method, large scale Bayes method, simplified Bayes method, Markov chain Monte force Nore mouth.
  • the present invention uses the spherical concentration phenomenon, which is conventionally referred to as "curse of dimension", to obtain the average distance of the sample with respect to the vicinity of the spherical surface, which is an average value, and to obtain the standard deviation thereof. Based on the statistical probability density function within the range, the attribution to the population is determined based on whether the probability of belonging is high or not, and the set-theoretic attribution is determined. It may be considered as a self-propagating neural network method for reconstructing the attribution function to the population.
  • the present invention can also be regarded as an application of the experience Bayes method or the hierarchical Bayes method, and the average or variance of the belonging probability or appearance probability or belonging probability based on the probability density function to the population of each sample, Probability theory that the probability is greater than 1 and closer to the population center of gravity in the case of the present invention when the standard deviation is obtained and the average deviation is 3 times the standard deviation, that is, 3 ⁇ or more. Even if it is impossible, classification is possible even when information overlaps extremely close to the center of gravity because it is a distance evaluation based on Mahalanobis distance, eigenvalue and prior probability by Bayes discriminant function. It differs from simple probability evaluation in that it is easy to convert. In this case, the degree of divergence from the population can be regarded as evaluating whether it is within the range based on the mean and standard deviation of the population according to the probability density function based on the number of samples (number of samples) and other conditions. good.
  • Distance calculation method using only one of eigenvalues and eigenvectors, calculating the distance by arbitrarily changing the statistical characteristics by changing either value arithmetically, or the eigenvalue itself Also, the norm of the eigenscale, the maximum component, etc. may be used for distance calculation.
  • Jacobian method instituteijos method, standard eigenvalue problem, eigenvalue calculation method, Householder one method, Arnoldi method, QR compound method, Singnor QR method, double QR method, Gauss' Seidel method, Gauss * Jordan method
  • the eigenvalues and eigenvectors may be derived by any method.
  • the multiple distance information obtained from the multiple populations is regarded as the sample vector information, and the norm of the eigenvalue, eigenvector, and eigenbetatonole is obtained again, so that the second- and third-order matrixes are obtained.
  • Nom, Ranobis distances, and eigenvalues, eigenvectors, averages, variances, standard deviation values, and re, when using eigenvalues and eigenvectors of multiple populations as sample vectors It is also possible to create a structure like a Bayesian network by implementing these contents recursively and hierarchically.
  • the maximum eigenvalue and maximum eigenvector using a power method or the like is used to derive the past time. It is possible to evaluate the Mahalanobis distance from the input information itself in recent time series information and other shape information by using indices such as average, norm, standard deviation value based on eigenvalues and eigenvectors obtained from series information and other shape information it can.
  • Mahalanobis distance can be evaluated based on indices such as a mean, norm, standard deviation value based on eigenvalues and eigenvectors obtained from recent time series information and different shape information.
  • a method may be used in which information is classified based on the average distance or standard deviation value evaluated in this way, and a new population is formed and the population is assigned.
  • this information is not time series or shape information, but color information, sound information, character information, character symbol string, phonetic symbol string, ideographic symbol string, phonetic symbol string, phoneme symbol string, phoneme Dynamic variable information such as symbol strings, meaning population symbols, names, shapes, spatial positions, spatial arrangements, symbol fragments such as phoneme symbols and their evaluation variables, feature values, symbol values, and changes. Alternatively, static variable information may be used.
  • eigenvalues and eigenvectors can be obtained recursively from the mean and variance of the eigenvalues and eigenvectors of each population, and the Mahalanobis distance between the populations can be derived.
  • the distance between the populations near the orthogonal boundary can be calculated by each type of outer partitioning method.
  • a plurality of classified populations that are within an arbitrary specified range may be divided, combined, or changed. For example, when the distance between the averages of multiple populations is within 2 ⁇ of the standard deviation value of each other, for example, the populations may be integrated and combined.
  • the distance from the center of gravity of a specific population is evaluated by evaluating the distance from the center of gravity of each population, and if the distance is 3 ⁇ or more, it is attributed previously.
  • the method may be used when another population is constructed based on the previously established population.
  • the specification of the variance range can be changed, the center of gravity of the samples that should be matched is used as the reference, and the center of gravity of only the samples that actually match as a result of the match evaluation is used as the reference Thus, the evaluation of reclassification may be performed.
  • the local solution based on the likelihood distribution, appearance probability distribution, and distance distribution of the sample in the population is regarded as a temporary center, the distance of each sample is obtained from the temporary center, and the average and variance of the obtained distances, standard deviation
  • the population may be divided, combined, or changed by discriminating whether the range is statistically significant or not.
  • any method such as Gram's Schmidt decomposition, Cholesky decomposition, singular value decomposition, eigenvalue analysis, determinant, norm, condition number estimation, and linear equation solution by the linear algebra method can be used in this embodiment. You may use for distance calculation and attribution evaluation.
  • correlation coefficient matrix multiple regression analysis, principal component analysis, factor analysis, canonical correlation analysis, multidimensional scaling, discriminant analysis, classification tree, log linear model, cluster one analysis by multivariate analysis Any method such as, dendrogram, and shortest distance tree may be used for distance calculation and attribution evaluation in this embodiment.
  • one-way / two-way analysis of variance Tukey method, Latin square method, factorial planning, one-way / two-way robust analysis of variance, and any arbitrary method and multi-dimensional multi-way analysis based on analysis of variance
  • the given method may be used for distance calculation and attribution evaluation in the present embodiment.
  • test methods are Goodman 'Kruskal-Wallis test, one-sided test, ⁇ 2 test, two-sided limit, normal distribution test (population variance) Known), test for population mean of normal distribution (unknown population variance), t-one test, test for population variance of normal distribution, test for independence, test for variance, test for mean, run test, run covariance Matrix tests, multigroup discrimination effectiveness test, Wilks lambda metric test, variable contribution test in multigroup discrimination, partial ⁇ statistic test, Adichie-Koul test, Ansari-Bradley (Ansari-Bradley) ) Test, Cohen's Kappa, weighted Kappa Durbin test, Durbin Watson test, eigenvalue test (Bartlett), Kolmogorov—Smirnov test, Kolmogorov's Smirnov test, Lepage type Test, Lili Four test, log rank test, Ansari—Bradley test, Fisher exact test, Friedman test, F—test, Hodges-Lehmann estimation,
  • the population to which they belong may be evaluated and recognized or identified.
  • an evaluation function having an arbitrary network structure may be configured by connecting a plurality of evaluation results in a network and using a normal distribution as a connection weight.
  • K means to evaluate whether the sample belongs to, for example, 3 ⁇ . This method may be used to improve the performance of any clustering process.
  • the force plan 'Meyer method the varimax method, the quatimax method, the union' intersection method, the Quartimin method, the biquay maxi method, the promax method, the oblimax Method, oblimin method, ortho-max method, Ward method, ekomax method, force plan 'Meier method, Kaiser' Dickman method, Gauss' Dourit Nore method, Covalimin method, oblique rotation method, simultaneous general varimax method, Centroid method (centroid method), Studentized residual method, Beaton method, Shortest distance method, Longest distance method, Group average method, Median method, Ward method, Variable method, etc. , Optimize eigenvectors and eigenvalue spaces using factor analysis methods, multivariate analysis methods, and cluster analysis methods Or, you can use the distance evaluation, use record in the evaluation function, may be or distance evaluation Te.
  • the present invention may be used for classification of variables and posture names for configuring a certain motion in motion learning based on association of information in a motion machine such as a robot.
  • An information processing system or any drive system that implements a remote robot control service that analytically processes and reuses the robot's remote dance service operations, etc.
  • Operation control systems and services based on feature learning of device operation and / or control methods including functions are conceivable, and work robots, organizing robots, transport robots, nursing robots, pet robots, help robots, dialogues using these Robots, housework robots, agricultural robots, etc. may be created.
  • the energy obtained by the robot's actions is consumed or consumed, such as "excess, moderate, equilibrium, attenuation, loss".
  • surrounding images and sounds temperature, humidity, air components and odors, liquid components, taste, weight, acceleration, impact, pressure, etc.
  • Higher-order features based on multi-dimensional combinations of feature quantities such as sensor input values and analysis values such as secondary features based on the transition state of feature quantities and tertiary features based on the transition state of secondary feature quantities Quantity may be collected and classified using the present invention.
  • the above five classifications may transition to analog between the classifications, or may be classified into finer classifications to form an evaluation function, or positive or negative values by one or any number of variables. It may be expressed as
  • the procedure information may be configured by recording time-series changes in actions performed by the device itself.
  • the behavior of the device may be controlled based on the procedure.
  • a device used for a pointing device such as a capacitance sensor pad is used to evaluate the user's tapping or rubbing, and when hit, it is evaluated bad, and when it is stroked, it is evaluated well.
  • a method such as a positive evaluation and a bad evaluation when the user does not respond can be considered, and the information may be classified using the method of the present invention.
  • the slow consumption of energy is the longest over a long period exceeding any defined period using the classification based on the present invention. If it is confirmed and not instructed by the user, it automatically shifts to a standby or sleep mode, which is said to be on a personal computer, to avoid energy reduction, or to perform an unprocessed act requested in advance. May be.
  • objective information such as nouns and actions and actions associated with users used in human subjective evaluation analysis and psychoanalysis, user age and date of birth, and user personality and emotional disposition information
  • Psychoanalysis services and fortune-telling services based on the association of the expected results and state designation information, personnel evaluation services that correlate work names and person names, work difficulty, and work achievement levels, and content analysis
  • the label of each item and the information based on the feature quantity that is the variable are classified and the tendency is extracted.
  • An information processing system that implements personal preference services tailored to popularity and user interests can be considered.
  • indices such as natural information organisms, topography, geological name and position and size, color, weight, shape, composition, material, component, state.
  • An information processing system that implements an environmental survey service based on an analysis based on association can be considered. For example, if an index is captured as a node when viewed as a network model, the distance from a certain index or a person to the index or information included in the meantime and / or temporal co-occurrence relationship or co-occurrence probability , Use the context and number of indicators as semantic states
  • An information processing system that analyzes, constructs, and proposes natural conditions can be considered. You can arbitrarily change the way of grasping the relationship between nodes and links, as is often the case with network models such as HMM.
  • Information such as the use of crime prevention devices by statistically classifying human behavior around buildings, and the tracking of frequent offenders using road imaging devices and alarm devices.
  • An information processing system that implements a safety management service based on this association can be considered. For example, a building or product and a person are captured as nodes when viewed as a network model, and the distance between a certain building or product and a person is included between the location of the number of objects and people and the location of information.
  • An information processing system that analyzes, constructs, and proposes ownership and usage situations using the temporal co-occurrence relationship, co-occurrence probability, and word context as semantic states can be considered. As is often the case with network models such as HMMs, these methods may be used to arbitrarily change the way nodes and links are understood.
  • an adaptive filter for filtering in a communication device it can be used for network services, implementing a firewall service, implementing a spam mail filter, identifying and configuring a network connection route, and depending on the communication quality such as radio wave strength and the number of connection retries in wireless communication.
  • An information processing system that implements networking, such as the sender's name, IP address, domain, specific domain or IP space, or via a specific network route Suppressing communication based on the result of evaluating the feature quantity indicating illegal access and spam It is also possible to filter this.
  • nouns such as disease names, body parts, symptoms, and chemical substances associated with medical treatment are used as labels, and shape analysis and symptom analysis of affected areas in medical equipment, chemical analysis coefficients and variables, analysis values, and
  • the processed value may be used to estimate the condition of the affected area using the feature value of the sample vector, or it may be used as a dialogue pattern variable to record information using the sample vector, and communication medical care based on association of information for counseling An information processing system that implements services can be considered.
  • node and link when used as a network model for medical medical applications, there is a relationship between medical characteristics and diseases such as human DNA, body characteristics, blood pressure, body temperature pulse, and body fluid component values.
  • medical characteristics and diseases such as human DNA, body characteristics, blood pressure, body temperature pulse, and body fluid component values.
  • weights as features that include the distance between a feature and a disease, and the number of illnesses as the number of network hops, a co-occurrence relationship and co-occurrence within a medical field such as a wider concept of information can be used.
  • An information processing system that analyzes pathological forms and proposes improvements using the probability of occurrence as the semantic state of medical features can be considered.
  • network models such as HMMs, these may be used to arbitrarily change the way the relationship between nodes and links is understood.
  • node and link when used as a network model for surgical medical applications, the relationship between physical features and physical obstacle models, such as human body parts and physical features, and human-movable landforms and road shapes
  • the distance between a certain feature and the physical space model is the number of network hops.
  • a processing system is conceivable. You may arbitrarily change the way of grasping the relationship between nodes and links, as is often the case with network models such as HMM.
  • the names related to expertise are used as labels, and the correlation between these labels is expressed as a distance to analyze the layer structure of abstract concepts and concrete concepts, and the coefficients
  • the classification according to the present embodiment is performed by using a sample vector as a variable or a variable.
  • This method constructs a network structure by capturing labels based on the names of knowledge such as various technical terms, persons, and places as nodes, and captures the number of hops, which is the number of nodes included in the information, as a distance.
  • the distance is used as a feature quantity, the distance between information in the semantic space is obtained using the route search technology in the communication protocol, and the distance is evaluated. At this time, it is also possible to assign a weight to each node as an attenuation amount in connection to other nodes. If the distance is evaluated by giving a continuous interpretation to the discrete value of the number of hops. Any method can be considered.
  • Information association services, educational services, information distribution services, personnel and materials using associative expert systems based on classification according to the present invention by realizing the association of information by hierarchical storage considering such a network structure Simulation service that predicts effects by combination of factors such as chemicals, equipment, distribution channels, weather forecasts, stock price and market forecasts, earthquake forecasts, economic forecasts, price forecasts, competition forecasts, horse racing forecasts, newspapers
  • An information processing system that implements information summarization services for articles, magazines, and book articles can be considered.
  • information that spans different regions in multiple languages is used as sample vectors for words that are spoken with shapes and words that are spoken with shapes for people who speak a specific language.
  • mobile phones, PDAs, and communications that implement travel guides and translation services that can realize similar services in different languages based on information association
  • An information processing system using a base station can be considered.
  • the interactive user interface uses the feature amount based on the utterance probability of a meaningful word as a sample vector in the present embodiment to reduce the utterance of the speaker.
  • an information processing system that provides dialogue services based on the association of information that realizes ambiguous dialogue can be considered.
  • the credit information and evaluation value sample vectors are used to classify by calculating the evaluation distance within the organization and between the organizations, and the trust distance between the evaluators is obtained to determine the dividend, performance evaluation, and ability evaluation hierarchy. Therefore, there may be an information processing system that evaluates and determines values such as monetary payment system, credit line setting, discount system, profit return method, voting method, adjustment method, product amount and dividend.
  • information is collected based on the map and area.
  • information such as voice characteristics, image characteristics, temperature characteristics, weather characteristics, and population density indicating the location and name are used as sample vectors.
  • An information processing system that performs information support based on location by assigning and classifying as a label can be considered. When used as a network model, it captures densely populated areas such as towns and villages as links, and weights the distance from one place to another as the feature with the number of places in between as the number of network hops It can be used within the range of regional names such as the number of cities, population, output, traffic volume, economic scale, their management numbers, time and Z, or a wider range of information based on physical location.
  • An information processing system using car navigation systems that analyze, construct, and make proposals for moving forms using the co-occurrence relations, co-occurrence probabilities, and location positional relations as semantic states can be considered.
  • index information for distribution status management is built, logistics information provision and It is also acceptable to provide detour information, congestion information, and other information provision services to reduce congestion.
  • eigenvalues and eigenscales are used to evaluate image information, motion information, shape information of two-dimensional or three-dimensional objects based on coordinate information groups, and design infringement based on similarity based on the evaluation distance. It is also possible to evaluate the infringement status of intellectual property related to copyright infringement. In this case, it becomes obsolete by evaluating the distance between the information based on the distance between the information of the subject population and the information to be evaluated, which is the sample, and the announcement clause of a similar shape that accompanies a time-series change from the time of the sample publication. Situations and similarities may be quantified. [0286] Further, an information processing system for selecting arbitrary information, products, and services is conceivable. In addition, an information processing system that analyzes the relationship between music and words recalled based on music, classifies related information statistically, and selects arbitrary information, products, and services can be considered.
  • an information processing system that analyzes the relationship between the tactile sensations and the words recalled based on the tactile sensation and statistically classifies the related information to select arbitrary information, products, and services can be considered.
  • An information processing system that analyzes the relationship between words recalled based on taste and taste, statistically classifies related information, and selects arbitrary information, products, and services can be considered.
  • An information processing system that analyzes the relationship between words recalled based on odors and categorizes related information statistically and selects arbitrary information, products, and services can be considered.
  • an information processing system that analyzes the relationship between the weather and words recalled based on the weather, statistically classifies the related information, and selects arbitrary information, products, and services can be considered.
  • an information processing system that analyzes the relationship between videos and words recalled based on the videos, statistically classifies the related information, and selects arbitrary information, products, and services can be considered.
  • information obtained from such sensory organs and words is associated with information of different series such as words and smells related to taste and costumes, and words related to accessories, and any information, products, or services
  • An information processing system that provides When these are used as a network model, the words are captured as nodes and links, and the distance between certain words is used as a feature with the number of words contained between them as the number of network hops for weighting.
  • An information processing system that analyzes, constructs, and proposes semantic relationships using information co-occurrence relationships and co-occurrence probabilities, the number of characters and words, management numbers, and word context based on temporal positional relationships as semantic states. Conceivable. As is often the case with network models such as HMMs, these methods may be used to arbitrarily change the way nodes and links are captured.
  • an information processing system that provides arbitrary information, products, and services based on sensibility-related words that are recalled in association with each matter can be considered.
  • recalled words are classified into symbols and classification codes that are not words, for example, sensory codes that classify adjectives and adverbs such as character codes, sensory codes that classify sensibility, and emotions. Emotion codes, subjective codes that separate subjects, shape code numbers that classify visual shapes, etc., and the code is associated with any other information, or multiple pieces of arbitrary information such as features
  • a co-occurrence matrix a method for defining co-occurrence distances based on the number of characters, words, management numbers, and temporal and positional relationships.
  • An information processing system that records concept dictionaries and concept indexes built using them on a storage medium can be considered.
  • the system can be configured.
  • a sample information group of information necessary for the above-described information processing system example is generated using an arbitrary feature amount.
  • These specimens can be voice, music, paintings, photographs, videos, chemical components that stimulate the sense of taste and smell, the sensation of touching and touching, the length, weight, speed, etc. It is information such as position, if it is a sentence, it is the appearance frequency and co-occurrence probability of a single word, the appearance character frequency that is a sentence feature, and a combination of any desired information It may be a feature amount configured by combining or processing, or a component ratio of these feature amounts.
  • these pieces of information and feature quantities may be manually specified at the initial stage for any ID (Idification Data), label, or code for the classified population. You may classify in advance from the average and dispersion
  • the sample information shows the relationship between the obtained label, ID, code, classification number, reference number, control number and the name used by humans, co-occurrence matrix nyunigram, bigram, N-gram, composite type N
  • arbitrary features such as path search and matching results based on applications such as CDP matching, DP matching, Viterbi search, N-best method, trellis method, etc. It efficiently constructs concept dictionaries and concept indexes classified and recorded by the present invention after being linked by an index processing method such as a branch tree or hash buffer.
  • the information entered by a person is appropriately labeled, ID, code, classification number, reference number, Information related to the control number is searched, and information related to the label, ID, code, classification number, reference number, and control number is searched, and the target information, service, product, means, procedure, route, schedule, etc. are sent to the user.
  • a database composed of recording media using information generated and classified according to the present invention as an index or evaluation meter
  • the information input by the user is associated with any other information according to the criteria classified according to the present embodiment, and the relation is evaluated.
  • the relation is evaluated.
  • these applications can realize services that take into account meaning, taste, background, and situation.
  • items that are less than a certain threshold for the information that expresses the coexistence state and change of information such as the co-occurrence matrix, co-occurrence probability, and probability transition matrix described in this embodiment in numerical values.
  • Is deleted from the evaluation target, or information at a certain distance from the average is deleted from the evaluation target based on the standard deviation obtained from the variance of all probabilities, or the evaluation dimension is set by a method such as Gaussian elimination. You may degenerate or you may add an evaluation item under similar conditions.
  • the information classification device 100 may include an external storage device that records data on a recording medium.
  • the storage medium includes a program script for executing this procedure on the information processing apparatus, a source code and a flash memory, CD-ROM (Compact Disk Read Only Memory), a hard disk in which the execution means is recorded as information. And a recording medium such as a floppy (registered trademark) disk.
  • the information classification device 100 is a transmission / reception device that serves as a communication means or a bus connection means regardless of wired / wireless, such as Ethernet (registered trademark), a modem for mobile phones, and a wireless LAN (Local Area Network).
  • It has optical terminals and / or electrical and electromagnetic terminals for inputting / outputting arbitrary signals to / from these apparatuses which may have arbitrary output devices.
  • information terminals and information processing devices such as personal computers and car navigation systems, backbone servers and communication base stations including the information classification device 100, mobile phones and watches, jewelry-shaped terminals, remote controllers, PDAs, IC cards, intelligent RFID,
  • a portable terminal such as a body-embedded terminal may be used. Since the present invention is an algorithm implementation application, the present invention can be implemented on an arbitrary apparatus as long as it has an arithmetic circuit.
  • the control device that controls the information includes the information classification device 100. You may make it.
  • the information classification apparatus 100 may be reduced to a portable size and used as an information terminal.
  • the information classification device 100 is provided with a function for improving the convenience of society by mutually connecting and exchanging communication of a plurality of different users and, in some cases, charging with the communication. It may be a processing device.
  • the information classification apparatus 100 has been described.
  • the present invention is not limited to this, and the invention can be understood as an information classification method for causing a computer to execute the processing described in FIG. 2 or an information classification program for causing a computer to execute the processing described in FIG.
  • FIG. 6 is a diagram showing an outline of an information classification system according to a modification of the present embodiment.
  • the information classification system includes information processing apparatuses 100A and 100B and information terminals 200A to 200C.
  • Information processing apparatuses 100A and 100B and information terminals 200A to 200C are connected to each other via a network 500 such as the Internet or a telephone line network.
  • Information processing apparatuses 100A and 100B each have the same function as information classification apparatus 100 described above. Then, according to a request from any of the information terminals 200A to 200C, one of the information processing apparatuses 100A and 100B classifies the sample information to be classified into a plurality of populations, and is classified as the requested information terminal. Send the result.
  • the power of the information processing devices 100A and 100B receives a plurality of populations from any of the information processing terminals 200A to 200C, reclassifies sample information belonging to these populations, The population classified into the requested information terminal is transmitted. As a result, it is possible to provide a population in which sample information is autonomously and stably classified.
  • the information processing apparatuses 100A and 100B and the information terminals 200A to 200C as described above may be applied as an information providing system that provides an ASP (Application Service Provider) type service, a database apparatus, It can be used as a recording medium storing the classification information according to the present invention incorporated in the database device for providing a service, or as an information distribution device using the classification based on the present invention using a communication line.
  • any of the information processing devices 100A and 100B receives the sample information to be classified from any of the information processing terminals 200A to 200C, and is stored in the storage unit of the information processing device. It may be determined which population belongs to, and information identifying the determined population may be transmitted to the requested information terminal. As a result, information for identifying the population to which the sample information to be classified belongs can be given autonomously and stably. In addition, the requested information terminal may be charged.
  • information configured based on the present embodiment may be recorded on a recording medium and distributed as it is, distributed as a book attached, or distributed using a communication environment.
  • recording media such as CD-ROM and DVD-ROM (Digital Versatile Disk Read Only Memory), printing media such as 2D barcodes, electronic media such as flash memory, telephone lines and ADSL (Asymmetric) Digital Subscriber Line), or a recording medium stored remotely via a transmission medium such as an optical fiber.
  • any of the information processing devices 100, 100A, and 100B of the present embodiment further includes a database that stores the classified population, and the user or terminal device 200A.
  • the sample information power of the classification target received from which power of ⁇ 200C The present invention is used as a database search system that searches which belongs to which population and delivers the search result to either the user or the terminal device 200A-200C. Can be caught. Further, the present invention can be understood as a database construction apparatus for constructing such a database.
  • any ID 'label that is generally used in the past is identical.
  • the evaluation distance by the arbitrary distance evaluation method is similar to the classification method according to the present invention as an index for the arbitrary feature quantities associated with the arbitrary ID 'labels, 'By judging that it belongs to the category, it can be selected as a search result and presented to the user.
  • classification evaluation that can be applied to a state in which arbitrary features and information are stochastically related
  • a classification method may be realized that realizes functions and switches the combination of effective functions according to the situation to enable flexible response.
  • the information classification device 100 in the present embodiment can be viewed as follows.
  • the information classification device 100 calculates the distance between the k samples a belonging to a certain population A and the population A.
  • the distance D is determined based on the distance calculation unit, and the mother of each sample a
  • the degree of belonging to the population is evaluated by the appearance probability of statistical normal distribution.
  • This degree-of-affiliation evaluation unit is a value that is predicted to be out of range from the probability of normal distribution centering on the mean with a ka difference between sample a and distance mean value ⁇ with a probability of 99.7% or higher, for example. Yes 3 ⁇ a
  • a closer population such as another population B or population C, is attributed to the new population, otherwise it is attributed to population A as before, Perform recursive classification so that the sample group belonging to population A can form a normal distribution.
  • the distribution is symmetric, and the distance from the population is approximately 0.68 ⁇ when the distance from the center of gravity is found.
  • the range includes more than 99% of the population.
  • the boundaries are ambiguous in human-made populations. Therefore, it often happens that the distribution is asymmetric as described in FIG.
  • the average position is indefinite depending on the sample condition, and the sample does not necessarily contain more than 99% of samples from the center of gravity of the population within 3 ⁇ from the distance average value. There is no guarantee.
  • the sample is set to 3 ⁇ . If there is a population that includes it, make it belong to that population, and if it does not belong to 3 ⁇ of any population, create a new population C. In this case, if a statistical problem arises that the number of elements in population C is smaller than the required number of evaluation dimensions, the new population need not necessarily be used for evaluation.
  • the distance between each element and each population is normalized, and the vector normalization distance is used to divide, combine, and change the population based on the normalized distance.
  • the information classification device that performs information classification as close to a normal distribution as possible can be configured.
  • the center of gravity of the population is extremely close, for example, when there are populations within a distance of 1 ⁇ from each other, unifying the population to prevent an inadvertent increase in the population.
  • the average and standard obtained from the Sampnore group which is a combination of multiple populations that are around 5 ⁇ from the specific population, when sufficient samples are not collected due to statistical reasons In terms of deviation, the sample or population to be evaluated may be deleted under conditions that should be considered statistically, such as when the sample or population exceeds 4 ⁇ .
  • the present invention is used as an index for evaluating information, XML (extensible Markup Language), ⁇ OA (Service Oriented Architecture) SML (simple (or Stupid or Software) Markup Language), MCF (Meta Contents Framework), DT D (Document Type Dermition), GML (Geography Markup La nguage), SMIL (Synchronized Multimedia Integration Language), SGML (Standard Generalized Mark-up Language), RDF (Resource Description Framework), and other meta-expression format classification indicators, or SOAP (Simple Object Access Protocol) UD DI (Universal Description, Discovery, and Integration), WDL (Web Services Description Language), SVG (Scalable Vector Graphics), HTML (HyperText Markup Language), etc. Service.
  • XML extensible Markup Language
  • ⁇ OA Service Oriented Architecture
  • SML simple (or Stupid or Software) Markup Language
  • MCF Metal Contents Framework
  • DT D Document Type Dermition
  • [0333] is composed of ⁇ xl, x2, x3, x4, x5, x6, x7, x8 ⁇ and is the input vector of the evaluation function
  • the name or ID of the component as an identifier for this component is, for example, from the viewpoint of speech recognition, even if it is a label that itself has one meaning, such as a phoneme.
  • a combination of a higher level concept and a lower level concept of an abstract label, such as a phoneme segment, may be used to efficiently represent any efficient representation as an identifier representing a phoneme transition state.
  • This superordinate concept and subordinate concept can be used in any information space such as video elements, products, academics, culture, movies, music, etc. The structure which enables the application suitable for is possible.
  • the label name or the component ID as an identifier given to the sample and the evaluation function are interchanged if they are equal or not equal as follows. Suppose that there is a case.
  • the order of the sample vectors is matched to the label of the input vector of the evaluation function so that the order of the variables is the same, and the label relation of the data is the same. Assign the appropriate variables to the missing labels in the vector.
  • the value to be assigned may be 0, or may be an average value of elements according to the Sampnore group used when constructing the evaluation function.
  • the label co-occurrence of data and the effect at the time of co-occurrence are separated on the basis of the evaluation result, and those that are positively correlated, those that are not correlated, and those that should not be correlated are separated based on the evaluation results. They may be combined in consideration of the relationship between labels, or may be constructed by evaluating the correlation between labels using the present invention.
  • the evaluation order of betatonore on the evaluation function side is sorted in the order of the largest eigenvector, the labels and element values are sorted, the sump nore vector is sorted accordingly, and the same criteria are introduced to introduce distance and similarity. May be evaluated. Also, if the input vector has many 0s, extremely small values, or many values close to the average, the covariance matrix based on the mean and variance of the evaluation function construction sample is extremely small or a value close to the average.
  • the components may be reconfigured into In this case, 0 is assigned to the vector element in the following example, but the value of this element may be the sampnore average of each element value in the population to which the betatonore on the side containing that element belongs. .
  • the change of the component due to the matching of the label or ID as an identifier may be used for multidimensional evaluation information such as matrix analysis or tensor analysis, not just vector analysis.
  • eigen and value eigenvectors are obtained based on the vector structure with changed elements, and various transition matrices such as covariance matrix, probability transition matrix, stationary transition matrix, state transition matrix, co-occurrence matrix, co-occurrence matrix transition You can create an arbitrary matrix such as a probability matrix or reconstruct an arbitrary evaluation function. [0356] [Table 3]
  • the evaluation items are aligned and any dummy data is used for items that are blank because they have no elements, and the evaluation side and the evaluated side are added or deleted as appropriate.
  • the evaluation distance in the present invention is used as an element, and the sample is re-evaluated at the distance evaluated by the function by associating with the element label of the evaluation function or the element label of the sample, or the function is re-evaluated. It is easy to think of hierarchization. Also, the evaluation function input vector is not reconstructed as in this embodiment.
  • Similar effects can be obtained by reconstructing the order and items of the covariance matrix used in the valence function.
  • the distance evaluation if there is an evaluation function X belonging to sample A and an evaluation function Y belonging to sample B, distance evaluation using A evaluation function Y and distance evaluation using B evaluation function X are performed. In this case, when the A sample and the Y function are close, and the B sample and the X function are far, it is possible to consider the method of re-learning by changing the information processing means and the sample assignment destination.
  • the reconstruction of these vectors is based on the conventional sorting algorithm, adding / deleting / changing indexes in queues and buffering, various algorithms used for replacement and label processing, DP, HMM, regular expressions, etc.
  • This can be implemented by building a program by combining label matching processing using.
  • a label is specified as an identifier for each variable input to the function. Label each input sample variable. Evaluate whether the labels match. If they do not match, insert dummy data on the sample side if the label is in the function and not in the sample. As this dummy data, an average value of the item, a value such as 0, or an arbitrary multiple of the standard deviation may be used.
  • the distance is evaluated by the evaluation function configured as described above, and the degree of attribution is output based on the average, variance, and standard deviation. The procedure is executed.
  • evaluation dimensions of these evaluation functions are dynamically controlled, and the samples are processed using the evaluation functions with a small number of evaluation dimensions.
  • the results are roughly predicted in advance, and the degree of agreement between the predicted results and those after detailed classification is determined.
  • re-evaluating it may be possible to deal with flexible classification.
  • these re-evaluation results may be used as feature quantities in the feature vector of the present invention.
  • any number of eigenvalues and Z or any number of eigenvectors obtained based on these operations can be used as feature quantities, or these eigenvalues and eigenvectors can be evaluated in any number of layers. It may be used for functions.
  • the number of evaluation dimensions of each evaluation function may be used as the feature amount. In this case, for example, after normalizing the distance, if the average is regarded as half the maximum number of dimensions and the total number of dimensions is 100, the appearance probability is 9 If it is 8%, it will be 98 dimensions, if the appearance probability is 50%, it will be 50 dimensions, if the appearance probability is 5%, it will be regarded as 5 dimensions.
  • the distance and the probability of appearance may be used as variables in the evaluation function.
  • a function that evaluates true and a function that evaluates false are configured, and when true is close and false is far, true, when false is close and true is far away, false is close If you can't judge, but the relevance is high, and both are far away, if you can't judge, the relevance is low.
  • the covariance matrix V based on the eigenvector is divided by the square root of the eigenvalue and the distance D is calculated based on the polynomial structure, and the difference from each element mean of the sample Is multiplied by the covariance matrix IJV based on the eigenvector, the constants and prior probabilities based on the eigenvalues that become correction terms when n> 4 in the formulas and Bayesian discriminants used in multidimensional distance calculations For example, the calculation result cannot be expressed in finite digits. In consideration of recursive or hierarchical evaluation, one of the element variables is predicted not to be a finite digit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 情報分類装置は、標本情報を含む複数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報(対象標本)との評価距離を算出し(S11,12)、評価距離についての母集団ごとの平均、分散、標準偏差などの統計情報を算出し(S13)、評価距離および統計情報に基づいて、母集団に対する標本情報の評価距離を評価して、対象標本の母集団への帰属度合を評価し(S21,25)、帰属度合に応じて、対象標本をいずれの母集団に帰属させるかを決定し、その母集団に対象標本を帰属させる(S22,23,26,27)。更新母集団ごとの重心と、更新母集団のそれぞれに帰属する対象標本との評価距離を算出する(S33)。いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たな母集団を生成し、その母集団に対象標本を帰属させる(S26,27)。これにより、母集団への標本情報の自律的かつ安定的な分類ができる。

Description

明 細 書
情報分類装置、 情報分類方法、 情報分類プログラム、 情報分類システム 技術分野
[0001] 本発明は、情報分類装置、情報分類方法、情報分類プログラム、情報分類システ ム、情報分類システムを用いた情報提供サービス、情報分類システムによって分類さ れた分類後母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類 システムを用いて分類対象標本情報が帰属する母集団を検索するための任意数の 母集団を記憶するデータベースに関し、特に、統計的に情報を分類するのに適した 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム、情報分類 システムを用いた情報提供サービス、情報分類システムによって分類された分類後 母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類システムを 用いて分類対象標本情報が帰属する母集団を検索するための任意数の母集団を記 憶するデータベースに関する。
背景技術
[0002] 情報の認識や分類においての分類方法は、一般的には最行列情報群を直交分解 し複数の行列情報群によって最適解を求めたり、尤度推定法であるバウムウェルチア ルゴリズムや最小誤差分類などの最適解を算術的に求めたりするアルゴリズムが用 いられている。
[0003] また、ニューラルネットワークにおける中間層の最適値を求める際に、マハラノビス 距離が任意の一定距離になるようにニューラルネットワークを補正する方法がある(た とえば、特開 2003— 76976号公報 (以下「特許文献 1」という)参照)。
[0004] また、ベクトノレ量子化方法として、 Kミーンズ手法と呼ばれる母集団に任意の重心を 与え、その重心が最適な位置に移動するまで再帰的に分類する方法がある。 [0005] また、特許文献 1におレ、ては、マハラノビス距離を一定にすることで境界条件を最 適化する方法が開示されている。
[0006] また、混合分布分割手法として、 EMアルゴリズムと呼ばれる母集団の混合分布内 における標本の出現頻度分布や尤度分布に基づいて局所解を継続的に変化させ、 帰納的に局所最適解を求める期待値最大化法がある。
[0007] また、他の混合分布分割手法として、サポートベクターマシン(SVM)と呼ばれる手 法があるが、この手法は、任意の関数によって母集団の非線形写像を別次元空間に 変換し境界条件と境界の幅を決める手法である。
[0008] また、古城玄、和久屋寛、「ニューラルネットワークで実現したベイズ的推論に基づ くデータ分布の推定法」、電気学会計測研究会資料、 2003年 10月、 IM— 03— 55 、 p. 13— 18 (以下「非特許文献 1」という)によれば、母集団の平均と分散、標準偏 差を推定するための評価をベイズ法により母集団全体の重心からみてそれぞれの標 本の位置が標準偏差の特定範囲か否力を評価している。また、中村匡伸、岩野公司 、古井貞熙、「マハラノビス距離を用いた日本語話し言葉音声の音響的特徴の分析」 、 日本音響学会 2005年春季研究発表会講演論文集、 2005年 3月、 vol. 1、 2— 1 14、 p. 231— 232 (以下「非特許文献 2」という)によれば、マハラノビス距離を用いた 音素評価における精度の高さが記載されてレ、る。
[0009] このような、混合分布分解やベクトル量子化を実施するといつた方法が一般的であ つた。
特許文献 1 :特開 2003— 76976号公報
非特許文献 1 :古城玄、和久屋寛、「ニューラルネットワークで実現したベイズ的推論 に基づくデータ分布の推定法」、電気学会計測研究会資料、 2003年 10月、 IM— 0 3— 55、 p. 13 - 18
非特許文献 2 :中村匡伸、岩野公司、古井貞熙、「マハラノビス距離を用いた日本語 話し言葉音声の音響的特徴の分析」、 日本音響学会 2005年春季研究発表会講演論 文集、 2005年 3月、 vol. 1、 2— 1— 14、 p. 231— 232
発明の開示
発明が解決しょうとする課題 [0010] 図 7は、正規分布の例を示す図である。図 8は、非正規分布の例を示す図である。 一般的に、前述の背景となる技術では、人が指定した母集団では人が情報を解釈す る状況によって境界がぁレ、まいにならざるを得ないので混合分布と呼ばれる図 8に示 すような非正規分布が形成されていた。このため、図 7に示すような正規分布を前提 とした最適解による母集団境界が算術的に得られないという課題があった。
[0011] カロえて、混合分布が必ずしも混合正規分布ではないために、正規分布の最適解と して解釈可能な尤度の高い局所解が数多く出現していた。このため、無制限もしくは 必要以上に算術解としての最適解が生成されてしまい、実用的な最適解としての要 を成さないばかりか、分類のための母集団が無制限に増えるため、必ずしも母集団 の安定的な分類を実現できないという課題が一般的にあった。
[0012] また、 Kミーンズ手法では、初期に指定した任意の重心が適切でない場合、初期の 母集団数が最適化後の母集団数になるため、 自律的に母集団の増減が実施されず 、必ずしも母集団への安定的な分類が実現できないという課題がある。
[0013] また、特許文献 1においては、マハラノビス距離を一定にすることでニューラルネット ワークが最適に機能することを説明しているに留まっている。このため、仮にクラスタリ ングに利用することを想定しても、母集団を構成する標本の距離平均値の内側と外 側という分類になり、無制限もしくは必要以上に母集団を増やすという課題を解決し ない。
[0014] また、 EMアルゴリズムは、局所解を無制限もしくは必要以上に構成することが知ら れており、必ずしも母集団の安定的な分類ができないという課題がある。
[0015] また、 SVMは、任意の関数によって母集団の非線形写像を別次元空間に変換し 境界条件と境界の幅を決める方法である。 SVMでは、必ずしも母集団の安定的な分 類ができないとレ、う課題がある。
[0016] また、非特許文献 1のベイズ的推論に基づくデータ分布の推定法は、母集団重心 を平均とする分散及び標準偏差に基づいた帰属評価であるとともに、多層二ユーラ ルネットワークでの出力層を評価したものであり、本発明のように帰属する母集団に おける評価距離の平均とその標準偏差を用いての標本の距離を評価することにより 、情報分類に関する課題の提示や課題解決の実証をしてはレ、なレ、。 [0017] また、非特許文献 2は、マハラノビス距離を用いた音声分析に高い相関性が見られ るという分析結果と考察であり、具体的な課題や課題の解決方法と実証を提示してい るわけではない。
[0018] また、このような情報分類システムにおレ、て、特徴構成要素の順序や項目が異なる ベクトル及び/若しくはマトリクス及び/若しくはテンソル同士や評価関数は互いに 評価できないとレ、う課題があった。
[0019] この発明は上述の課題を解決するためになされたもので、この発明の目的の 1つは 、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類装置、情報分 類方法、情報分類プログラム、および、情報分類システムを提供することである。
[0020] この発明の他の目的は、構成要素態様が異なる標本情報同士を互いに評価するこ とが可能な情報分類装置、情報分類方法、情報分類プログラム、および、情報分類 システムを提供することである。
課題を解決するための手段
[0021] 上述した課題を解決するために、この発明のある局面によれば、情報分類装置は、 距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、標本情報帰 属部とを備える。
[0022] 距離算出部は、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本 情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。統計情 報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの 統計情報を算出する。
[0023] 帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出 部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰 属度合を評価する。帰属決定部は、帰属度合評価部によって評価された帰属度合 に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情 報帰属部は、帰属決定部によって決定された母集団に分類対象標本情報を帰属さ せる。
[0024] この発明に従えば、情報分類装置によって、標本情報が含まれる任意数の母集団 のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統 計的距離が算出され、算出された統計的距離についての母集団ごとの統計情報が 算出され、算出された統計的距離と統計情報とに基づいて、分類対象標本情報の母 集団への帰属度合が評価され、評価された帰属度合に応じて、分類対象標本情報 をいずれの母集団に帰属させるかが決定され、決定された母集団に分類対象標本 情報が帰属される。
[0025] このため、情報分類装置によって、分類対象標本情報が母集団への帰属度合に応 じたいずれかの母集団に帰属される。その結果、母集団への標本情報の自律的か つ安定的な分類が可能な情報分類装置を提供することができる。
[0026] 好ましくは、統計情報は、距離算出部によって算出された統計的距離の母集団ごと の平均値および標準偏差値である。
[0027] 好ましくは、距離算出部は、標本情報帰属部によって分類対象標本情報が帰属さ れた更新母集団ごとの重心と、更新母集団のそれぞれに帰属する分類対象標本情 報との統計的距離をさらに算出する。
[0028] この発明に従えば、情報分類装置によって、分類対象標本情報が帰属された更新 母集団ごとの重心と、更新母集団のそれぞれに帰属する分類対象標本情報との統 計的距離がさらに算出され、算出された統計的距離に基づいて、さらに、分類対象 標本情報が帰属度合に応じたいずれかの母集団に帰属される。
[0029] このため、情報分類装置によって、さらに、母集団へ標本情報を再帰的に分類する こと力 Sできる。
[0030] 好ましくは、帰属決定部は、いずれの母集団への帰属度合も所定の度合の範囲外 であるときに、新たに母集団を生成する母集団生成部を含み、生成した母集団に分 類対象標本情報を帰属させることを決定する。
[0031] この発明に従えば、情報分類装置によって、いずれの母集団への帰属度合も所定 の度合の範囲外であるときに、新たに母集団が生成され、生成された母集団に分類 対象標本情報が帰属される。
[0032] このため、母集団に帰属する標本情報は、帰属度合が所定の度合で範囲内の標 本情報となる。その結果、情報分類装置によって、母集団に対して所定の度合の範 圏内に標本情報を分類することができる。 [0033] さらに好ましくは、統計情報は、距離算出部によって算出された統計的距離の母集 団ごとの平均値および標準偏差値であり、帰属度合は、その母集団に対する統計的 距離の平均値力 の偏差値であり、所定の度合は、偏差値が平均値から所定倍の標 準偏差値の範囲である。
[0034] この発明に従えば、情報分類装置によって、いずれの母集団への統計的距離の平 均値からの偏差値も、所定倍の標準偏差値の範囲外であるときに、新たに母集団が 生成され、生成された母集団に分類対象標本情報が帰属される。
[0035] このため、情報分類装置によって、母集団に対して統計的距離の平均値からの偏 差値が所定倍の標準偏差値の範囲内に標本情報を分類することができる。その結果 、母集団に帰属する標本情報のうちの一定割合が平均値力 所定倍の標準偏差値 の範囲内に分布する正規分布に近くなるように、標本情報を母集団に分類すること ができる。
[0036] また、好ましくは、情報分類装置は、所定数の標本情報が帰属されない母集団を削 除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる母集団削除 部をさらに備える。
[0037] この発明に従えば、情報分類装置によって、所定数の標本情報が帰属されない母 集団が削除され、削除された母集団に帰属する標本情報が他の母集団に帰属され る。このため、妥当でない母集団は淘汰される。
[0038] 好ましくは、帰属決定部は、帰属度合評価部によって評価された帰属度合が最も 良い母集団に分類対象標本情報を帰属させることを決定する。
[0039] この発明に従えば、情報分類装置によって、評価された帰属度合が最も良い母集 団に分類対象標本情報を帰属させることが決定され、決定された母集団に分類対象 標本情報が帰属される。
[0040] このため、情報分類装置によって、分類対象標本情報にとって帰属度合が最も良 い母集団に帰属される。その結果、母集団へ標本情報を最適に分類することができ る。
[0041] 好ましくは、距離算出部は、共分散構造分析に基づいて、統計的距離を算出する。
好ましくは、距離算出部は、固有値および固有べ外ルに基づいて、統計的距離を 算出する。
[0042] 好ましくは、距離算出部は、統計的距離としてマハラノビス距離を算出する。
好ましくは、距離算出部は、統計的距離としてベイズ識別関数による距離を算出す る。
[0043] 好ましくは、距離算出部は、算出した統計的距離を正規化する距離正規化部を含 む。
この発明に従えば、情報分類装置によって、統計的距離が正規化される。その結 果、情報分類装置によって、統計的距離を容易に取扱うことができるようになる。
[0044] この発明の他の局面によれば、情報分類方法は、コンピュータによって実行され、 標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の母集団ごと の重心と、分類対象標本情報との統計的距離を算出するステップと、算出された統 計的距離についての母集団ごとの統計情報を算出するステップと、算出された統計 的距離と統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価 するステップと、評価された帰属度合に応じて、分類対象標本情報をいずれの母集 団に帰属させるかを決定するステップと、決定された母集団に分類対象標本情報を 帰属させるステップとを含む。
[0045] この発明に従えば、母集団への標本情報の自律的かつ安定的な分類が可能な情 報分類方法を提供することができる。
[0046] この発明のさらに他の局面によれば、情報分類プログラムは、コンピュータで実行さ れ、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の母集団 ごとの重心と、分類対象標本情報との統計的距離を算出するステップと、算出された 統計的距離についての母集団ごとの統計情報を算出するステップと、算出された統 計的距離と統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評 価するステップと、評価された帰属度合に応じて、分類対象標本情報をいずれの母 集団に帰属させるかを決定するステップと、決定された母集団に分類対象標本情報 を帰属させるステップとをコンピュータに実行させる。
[0047] この発明に従えば、母集団への標本情報の自律的かつ安定的な分類が可能な情 報分類プログラムを提供することができる。 [0048] この発明のさらに他の局面によれば、情報分類システムは、情報分類装置と、情報 分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、母集 団受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、 標本情報帰属部と、分類後母集団受渡部とを備える。情報端末は、母集団受渡部と 、分類後母集団受取部とを備える。
[0049] 母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す 。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取る。距 離算出部は、母集団受取部によって受取られた母集団のそれぞれに帰属する標本 情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。
[0050] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集 団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された 統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対 象標本情報の母集団への帰属度合を評価する。
[0051] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象 標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属 決定部によって決定された母集団に分類対象標本情報を帰属させる。
[0052] 分類後母集団受渡部は、標本情報帰属部によって分類対象標本情報が帰属され た分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から 分類後母集団を受取る。
[0053] この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えること が可能な情報分類システムを提供することができる。
[0054] この発明のさらに他の局面によれば、情報分類システムは、情報分類装置と、情報 分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、標本 情報受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部 と、母集団識別情報受渡部とを備える。情報端末は、標本情報受渡部と、母集団識 別情報受取部とを備える。
[0055] 標本情報受渡部は、情報分類装置に分類対象標本情報を受渡す。標本情報受取 部は、情報端末から分類対象標本情報を受取る。距離算出部は、標本情報が含ま れる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、 母集団受取部によって受取られた分類対象標本情報との統計的距離を算出する。
[0056] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集 団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された 統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対 象標本情報の母集団への帰属度合を評価する。
[0057] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象 標本情報をいずれの母集団に帰属させるかを決定する。母集団識別情報受渡部は 、帰属決定部によって決定された母集団を識別する母集団識別情報を情報端末に 受渡す。母集団識別情報受取部は、情報分類装置から母集団識別情報を受取る。
[0058] この発明に従えば、分類対象標本情報が帰属する母集団を識別する情報を自律 的かつ安定的に与えることが可能な情報分類システムを提供することができる。
[0059] この発明のさらに他の局面によれば、情報提供サービスに用いられる情報提供シス テムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末と を含む。情報分類装置は、標本情報受取部と、距離算出部と、統計情報算出部と、 帰属度合評価部と、帰属決定部と、母集団識別情報受渡部とを備える。情報端末は 、標本情報受渡部と、母集団識別情報受取部とを備える。
[0060] 標本情報受渡部は、情報分類装置に分類対象標本情報を受渡す。標本情報受取 部は、情報端末から分類対象標本情報を受取る。距離算出部は、標本情報が含ま れる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、 母集団受取部によって受取られた分類対象標本情報との統計的距離を算出する。
[0061] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集 団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された 統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対 象標本情報の母集団への帰属度合を評価する。
[0062] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象 標本情報をいずれの母集団に帰属させるかを決定する。母集団識別情報受渡部は 、帰属決定部によって決定された母集団を識別する母集団識別情報を情報端末に 受渡す。母集団識別情報受取部は、情報分類装置力 母集団識別情報を受取る。
[0063] この発明に従えば、分類対象標本情報が帰属する母集団を識別する情報を自律 的かつ安定的に与えることが可能な情報分類システムを用いた情報提供サービスを 提供すること力 Sできる。
[0064] この発明のさらに他の局面によれば、コンピュータ読取可能な記録媒体に記録され る分類後母集団を分類する情報分類システムは、情報分類装置と、情報分類装置と 通信回線を介して接続される情報端末とを含む。情報分類装置は、母集団受取部と 、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、標本情報 帰属部と、分類後母集団受渡部とを備える。情報端末は、母集団受渡部と、分類後 母集団受取部とを備える。
[0065] 母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す 。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取る。距 離算出部は、母集団受取部によって受取られた母集団のそれぞれに帰属する標本 情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。
[0066] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集 団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された 統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対 象標本情報の母集団への帰属度合を評価する。
[0067] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象 標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属 決定部によって決定された母集団に分類対象標本情報を帰属させる。
[0068] 分類後母集団受渡部は、標本情報帰属部によって分類対象標本情報が帰属され た分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から 分類後母集団を受取る。
[0069] この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えること が可能な情報分類システムによって分類された分類後母集団を記録するコンピュー タ読取可能な記録媒体を提供することができる。
[0070] この発明のさらに他の局面によれば、データベースに記憶された任意数の母集団 力 分類対象標本情報が帰属する母集団を検索するために用いられる情報分類シ ステムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末 とを含む。情報分類装置は、母集団受取部と、距離算出部と、統計情報算出部と、帰 属度合評価部と、帰属決定部と、標本情報帰属部と、分類後母集団受渡部とを備え る。情報端末は、母集団受渡部と、分類後母集団受取部とを備える。
[0071] 母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す 。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取る。距 離算出部は、母集団受取部によって受取られた母集団のそれぞれに帰属する標本 情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。
[0072] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集 団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された 統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対 象標本情報の母集団への帰属度合を評価する。
[0073] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象 標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属 決定部によって決定された母集団に分類対象標本情報を帰属させる。
[0074] 分類後母集団受渡部は、標本情報帰属部によって分類対象標本情報が帰属され た分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から 分類後母集団を受取る。
[0075] この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えること が可能な情報分類システムを用いて前記分類対象標本情報が帰属する母集団を検 索するための前記任意数の母集団を記憶するデータベースを提供することができる
[0076] 好ましくは、分類対象標本情報は、それぞれの要素に予め識別子が与えられた任 意のベクトル情報、マトリクス情報またはテンソル情報であり、所定の評価関数は、そ れぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マト リクス情報またはテンソル情報を入力とする関数であり、距離算出部は、任意のベタト ル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が所定の構 成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように任意の ベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、所 定の評価関数に入力することによって統計的距離を算出する。
[0077] この発明に従えば、任意のベクトル情報、マトリクス情報またはテンソル情報のそれ ぞれの要素の識別子が、所定の評価関数へ入力されるベクトル情報、マトリクス情報 またはテンソル情報の所定の構成要素態様の要素の識別子のそれぞれに対して同 一の識別子となるように再構成されて所定の評価関数に入力される。このため、構成 要素態様が異なる標本情報同士を互いに評価することが可能な情報分類装置、情 報分類システム、情報分類システムを用いた情報提供サービス、情報分類システム によって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体、お よび、情報分類システムを用いて前記分類対象標本情報が帰属する母集団を検索 するための前記任意数の母集団を記憶するデータベースを提供することができる。
[0078] また、それらの要素に任意の分野における特徴量や名称、識別子を用いて評価関 数や標本を構成し、標本の母集団への帰属状態を評価するようにしてもよいし、それ らの評価関数を構成または再構成するようにしてもよい。
[0079] 好ましくは、分類対象標本情報は、それぞれの要素に予め識別子が与えられた任 意のベクトル情報、マトリクス情報またはテンソル情報であり、所定の評価関数は、そ れぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マト リクス情報またはテンソル情報を入力とする関数であり、統計的距離を算出するステツ プは、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の 識別子が所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子と なるように任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素 を再構成して、所定の評価関数に入力することによって統計的距離を算出する。
[0080] この発明に従えば、任意のベクトル情報、マトリクス情報またはテンソル情報のそれ ぞれの要素の識別子が、所定の評価関数へ入力されるベクトル情報、マトリクス情報 またはテンソル情報の所定の構成要素態様の要素の識別子のそれぞれに対して同 一の識別子となるように再構成されて所定の評価関数に入力される。このため、構成 要素態様が異なる標本情報同士を互いに評価することが可能な情報分類方法、およ び、情報分類プログラムを提供することができる。
[0081] 好ましくは、特徴ベクトル、マトリクス、及び/またはテンソル要素に識別子を与え、 識別子の一致する要素を評価用特徴量として整理し、評価関数に与えたり、ベクトノレ 、マトリクス及び/またはテンソル同士の距離評価を行なったりする。
[0082] 好ましくは、距離算出部は、ベクトル、マトリクス及び Zまたはテンソルの要素項目の 順序を入替えたり、不足要素に要素平均値や 0を代入したり、過剰要素を削除したり するといつた方法で、見かけ上の要素数と要素識別子とを同一にする機能を含む。
[0083] 要素の一部が異なるベクトル、マトリクス及び/またはテンソル同士、あるいは、ベタ トル、マトリクス及び/またはテンソルと評価関数とが、母集団重心からの距離と平均 と標準偏差とに基づく帰属確率により評価できるようになるため、ベクトル、マトリクス 及び/またはテンソル評価関数の応用範囲が広がる。
図面の簡単な説明
[0084] [図 1]本実施形態に従う情報分類装置の構成の概略を示す図である。
[図 2]本実施形態に従う情報分類装置で実行される情報分類処理の流れを示すフロ 一チャートである。
[図 3]本実施形態に従う教師有り学習による情報分類処理における母集団の例を示 す図である。
[図 4]本実施形態に従う教師有り学習による情報分類実験の実験結果を示すグラフ である。
[図 5]情報分類実験の対照実験の実験結果を示すグラフである。
[図 6]本実施形態の変形例に従う情報分類システムの概略を示す図である。
[図 7]正規分布の例を示す図である。
[図 8]非正規分布の例を示す図である。
[図 9]より多い標本による教師無し学習における本実施形態に従う情報分類実験の 実験結果を示すグラフである。
符号の説明
[0085] 100 情報分類装置、 100A, 100B 情報処理装置、 110 処理部、 120 記憶部 、 130 入力部、 140 出力部、 200A〜200C 情報端末、 500 ネットワーク。 発明を実施するための最良の形態
[0086] 以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。なお 、図中の同一または相当部分については、同一符号を付して、その説明は繰返さな い。
[0087] 図 1は、本実施形態に従う情報分類装置 100の構成の概略を示す図である。
図 1を参照して、情報分類装置 100は、 PC (Personal Computer)などのコンビユー タで構成され、処理部 110と、記憶部 120と、入力部 130と、出力部 140とを含む。処 理部 110、記憶部 120、入力部 130、および、出力部 140は、バスで接続され、バス を介して、必要なデータをやり取りする。
[0088] なお、情報分類装置 100は、 PCなどの汎用的な装置で構成されることに限定され ず、専用的な装置として構成されてもよい。
[0089] 処理部 110は、 CPU (Central Processing Unit)や、 MPU (Micro Processing U nit)や、 DSP (Digital Signal Processor)などの演算回路と、その周辺回路で構成さ れる。
[0090] 記憶部 120は、 ROM (Read Only Memory)や RAM (Random Access Memory) 、ハードディスクドライブを例とする記憶回路で構成される。記憶部 120は、情報分類 装置 100で実行されるプログラムを記憶したり、プログラムが実行されるときのワーク エリアとして用いられたりする。
[0091] 入力部 130は、キーボードやマウスなどの入力装置や、カメラのような撮像装置や、 マイクのような集音装置など力 構成される。入力部 130は、入力装置や撮像装置や 集音装置から入力されたデータを処理部 110に受渡す。
[0092] 出力部 140は、ディスプレイのような表示装置やスピーカのような音響装置などから 構成される。出力部 140は、処理部 110から受取ったデータを出力する。
[0093] 処理部 110は、記憶部 120に記憶されたプログラムに基づいて、記憶部 120をヮー クエリアとして用いながら、所定の処理を実行する。また、処理部 110は、処理に応じ て、入力部 130から所定のデータを受取る。さらに、処理部 110は、処理に応じて、 出力部 140に所定のデータを受渡す。
[0094] 図 2は、本実施形態に従う情報分類装置 100で実行される情報分類処理の流れを 示すフローチャートである。
[0095] 図 2を参照して、まず、ステップ S 1 1で、処理部 1 10が、記憶部 120に記憶された分 類対象となる母集団毎に帰属する標本情報から距離関数を構築する。
[0096] 具体的には、ある母集団 A (a , a , · · · , a ) , B (b , b , · · · , b )、および、これらを
1 2 n 1 2 m
構成する標本情報群 a , a, · · ·, aと b, b , · · · , b について説明する。この際、 a
1 n 1 2 m n および bは多次元のベクトルやマトリクスやテンソルであってよレ、。
m
[0097] 処理部 1 10は、これらの標本情報群から固有値、固有ベクトル、平均値、標準偏差 値といった、それぞれの母集団 A、 Bの多変量解析のための変数を得る。
[0098] そして、処理部 1 10は、ここで得られた共分散構造分析のための変数に基づき母 集団 A, Bと各標本情報とのマハラノビス距離を求めるために標本情報である aや b n m を引数
[0099] [数 1コ
X
[0100] とする距離関数
[0101] ほ女 2]
Figure imgf000017_0001
[0102] および
[0103] [数 3]
Figure imgf000017_0002
[0104] を構成する。
なお、この距離関数において引数
[0105] 國
X
[0106] がベクトルである場合、距離評価関数の内部変数である評価次元数をはじめとした 評価用変数を用いて演算結果の精度を設定できるが、任意の精度で指定すればよ レヽ。
[0107] なお、マハラノビス距離は以下の式に表される。
[0108] [¾5]
Figure imgf000018_0001
[0109] iは複数の母集団の識別値を示す。
kは標本の識別値を表す。
Dは距離関数
ik
[0110] [数 6コ
Figure imgf000018_0002
[0111] による標本 kと母集団 iの重心との距離を示す。
μは標本情報から得た平均ベクトルを示す。
[0112] [数 7]
X
[0113] は標本情報ベクトルを示す。
数 5および数 9における Vは母集団 iの共分散行列を示す。
[0114] また、固有値と固有ベクトルによる表現では、
[0115] ]
Figure imgf000018_0003
[0116] となる。
Φ
Iは母集団の共分散行列の固有ベクトルを示す。
λは母集団の共分散行列の固有値を示す。 [0117] また、マハラノビス距離に固有値に基づく定数 log I V I と事前確率 logP ( c )を追 加して、ベイズ識別関数による多次元距離計算関数を構成できるが、この場合は
[0118] ほ女 9] - _1( )+io
Figure imgf000019_0001
[0119] という形で表現できる。
また、別の式表現として、
[0120] ほ女 10]
Figure imgf000019_0002
[0121] と表わすこともできる。この際、最後に追加されている logP ( co )部は事前確率による 補正のため、性能改善を目的として削除することにより、どの母集団に対しても均一 の確率で評価されるようにしたり、前後の距離評価状況に基づいて評価結果を調節 をするために遷移確率や出力確率に基づいた補正値を与えてもよい。
[0122] そして
[0123] ほ女 11]
Figure imgf000019_0003
[0124] という形で母集団重心からの距離に相当する値を導き出すことができる。
次に、ステップ S12で、処理部 110が、ステップ S11で構築した距離関数で標本情 報を評価し、評価距離を算出する。また、ステップ S13で、処理部 110は、ステップ S
12で算出した評価距離の平均値、分散値、および、標準偏差値を導出する。
[0125] 具体的には、構成された距離関数
[0126] ほ女 12] [0127] に対し標本情報群 a , a, ···, aを入力し、距離関数
1 2 n
[0128] ほ女 13]
Fb
[0129] に対し標本情報群 b , b, ···, bを入力する。この結果として、距離関数に基づく距
1 m
離情報 D , D , ···, D , D , D , ···, D が求められる。このようにして求められ
al a2 an bl b2 bm
た母集団 Aにおける D群と母集団 Bにおける D群から、それぞれの距離平均値 μ D a b a
, μ Dと距離標準偏差値 σ D, σ D力 なる統計情報が求められる。この際、 a, の b a b
群を識別する値は前述の式の iに代入される。
[0130] [数 14]
Figure imgf000020_0001
k=0
[0131] ほ女 15]
Figure imgf000020_0002
[0132] 次に、ステップ S14で、処理部 110は、ステップ S12で算出された母集団ごとの評 価距離を正規化する。
[0133] 具体的には、距離関数
[0134] ほ女 16]
Figure imgf000020_0003
[0135] に標本情報群 a , a , ···, a , b , b , ···, bを入力し得られた評価距離群である D
1 2 n 1 2 m a 群を/ D , σ Dで正規化し、同様に、距離関数
a a
[0136] [数 17]
Figure imgf000020_0004
[0137] にも標本情報群 a , a, ''', a, b , b, ''', bを入力し得られた評価距離群である D群を μ D, σ Dで正規化する。この結果、それぞれの母集団に属する標本により b b b
構成された評価関数による各標本群の重心からの距離平均を用いて算出された各 標本の距離偏差値 V , V , · · · , V , V , V , · · · , V が得られる。
al a2 an bl b2 bm
[0138] ほ女 18]
Va k 二。 (0" - )
[0139] ほ女 19]
Vb k =o¾-1(Db k -MDb)
[0140] 次いで、ステップ S21で、処理部 110は、ステップ S14で算出した最初の母集団に 対する標本の距離偏差値を評価する。そして、ステップ S22で、処理部 110は、距離 偏差値が規定範囲内か否力を判断する。
[0141] 距離偏差値が規定範囲内である場合 (ステップ S22において YESの場合)、ステツ プ S23で、処理部 110は、標本をその母集団に帰属させ、処理をステップ S24に進 める。一方、距離偏差値が規定範囲内でない場合 (ステップ S22において N〇の場 合)、ステップ S24に処理を進める。
[0142] ステップ S24において、処理部 110は、次の母集団があるか否かを判断する。次の 母集団がある場合 (ステップ S24において YESの場合)、ステップ S25で、処理部 11 0は、次の母集団に対する標本の距離偏差値を評価し、ステップ S22に処理を戻す 。一方、次の母集団がない場合 (ステップ S24において NOの場合)、ステップ S26に 処理を進める。
[0143] ステップ S26において、処理部 110は、標本が既存のいずれかの母集団に帰属さ れたか否かを判断する。いずれの母集団にも帰属されていない場合 (ステップ S26に おいて NOの場合)、ステップ S27で、処理部 110は、新たな母集団を生成し、その 母集団に標本を帰属させ、処理をステップ S28に進める。一方、いずれかの母集団 に帰属された場合(ステップ S26において YESの場合)、ステップ S28に処理を進め る。
[0144] 具体的には、標本 aにおいて、距離関数 F (a )の距離偏差値 V 力 ¾ σ未満である
k a k ak 場合、標本を母集団 Aに帰属させる。
[0145] 標本 aにおいて、距離関数 F (a )の距離偏差値 V 力 ¾ σ以上である場合、かつ、 k a k ak
F (a )の距離偏差値 V 力 ¾ σ未満である場合、標本を母集団 Bに帰属させる。 b k ak
[0146] 標本 aにおいて、距離関数 F (a )の距離偏差値 V 力 ¾ σ以上である場合、かつ、 k a k ak
F (a )の距離偏差値 V 力 S3 σ以上である場合、新たな母集団 Cを生成し、標本を母 b k ak
集団 Cに帰属させる。
[0147] ほ女 20]
A U ¾ ( ak < a のとさ)
B U ( vak > a Λ vak < のとき)
C U ¾ ( ak > a Λ ¼k > 3 b のとき)
[0148] そして、ステップ S28で、処理部 1 10が、次の標本があるか否かを判断する。次の 標本がある場合 (ステップ S 28において YESの場合)、処理部 1 10は、処理をステツ プ S 21に戻す。一方、次の標本がない場合(ステップ S 28において NOの場合)、処 理部 1 10は、処理をステップ S31に進める。
[0149] 具体的には、標本情報 a力 aまでについてステップ S21からステップ S27が実行
1 n
される。同様に、標本情報 b力 bまでについてステップ S21からステップ S27が実
1 m
行される。
[0150] 具体的には、標本 bにおいて、 F (b )の距離偏差値 V 力 ¾ σ未満である場合、標 k b k bk
本を母集団 Bに帰属させる。
[0151] 標本!)において、 F (b )の距離偏差値 V 力 ¾ σ未満である場合、かつ、 F (b )の k a k bk b k 距離偏差値 V 力 ¾ σ以上である場合、標本を母集団 Αに帰属させる。
bk
[0152] 標本 bにおいて、距離関数 F (b )の距離偏差値 V 力 ¾ σ以上である場合、かつ、 k a k bk
F (b )の距離偏差値 V 力 S3 σ以上である場合、新たな母集団 Cを生成し、標本を母 b k bk
集団 Cに帰属させる。
[0153] ほ女 21] r B U ¾ ( Vbk < 3ab のとき)
A U bk ( Vbk < 3aa Λ Vbk > 3σ¾ のとき)
C U bk ( Vbk > 3σ3 Λ Vbk > 3ab のとき)
[0154] なお、母集団 A, Bに帰属する標本が、距離標準偏差値が最も小さい母集団に帰 属されるようにしてもよレ、。
[0155] なお、ここで用いられる指標である σの 3倍という基準は統計学的な確率密度関数 に基づいて導出される帰属確率もしくは出現確率もしくは所属確率において、 99. 7 %の標本情報を含むことが予想できる値であり、装置の仕様や思想、 目的に基づい て、任意の倍率を指定してもよい。
[0156] また、ここでの分類の方法として、任意の σ値を評価基準としたり、任意の順位まで 3 σ以内であるかを評価したり、一番重心に近い母集団に帰属していると評価したり 、一番距離平均に近い母集団に帰属していると評価したり、評価距離が負の値であ る場合において、その距離値が指数部と見なすと確率力 ^以上であることを考慮して 、母集団に帰属していると評価したりすることを組み合わせて、帰属させる母集団を 選択する方法を用いてもょレ、。
[0157] また、母集団自身の重心位置となる値を
[0158] [数 22]
L k=0
[0159] ほ女 23]
ム k=0
[0160] としてもよレ、。
数 22もしくは数 23のように平均として用いて、標本群の重心からの距離に対する標 準偏差を求め、前述の手法における境界基準としてもよい。この場合、距離平均では なぐ母集団重心からの距離を評価基準とするため、固有値に基づく定数力も求めら れた平均 z Dとその平均に基づいた標準偏差 に従って、統計的確率密度関数 により求められる出現確率もしくは帰属確率もしくは所属確率とすることで帰属境界と なる距離を決めてもよい。
[0161] また、正規分布を前提とした場合、母集団の重心と標本の距離平均値は統計量的 に 0. 68 σ付近になることが予測できる。このため、距離平均値に対し一0. 68 σ以 下の値をもつ標本も母集団とは異なる性質を持つと考えられるので、帰属する母集 団を変更してもよぐガンマ分布など他の分布における確率密度関数に基づいて判 断してもよい。
[0162] また、このような距離平均値と標準偏差値に基づいた分類方法であれば、複数の 母集団との任意の条件の組合せで、再分類条件を指定してもよい。この際、複数の 母集団の重心に充分近い場合はより近い方法にしたり、標準偏差値のより小さい方 に帰属させたり、共に小さい場合、新たに母集団を構成したり、両方の母集団に帰属 させたり、正負の偏差値ごとに分類方法を変えたり、といった方法が任意にできる構 成であってもよい。
[0163] 次に、ステップ S31で、処理部 110は、標本情報が所定数未満、たとえば、 200未 満の母集団があるか否力を判断する。標本情報が所定数未満の母集団がある場合 ( ステップ S31において YESの場合)、処理部 110は、ステップ S32において、その母 集団に帰属する標本情報を他の母集団に帰属させる。つまり、その母集団を削除す る。その後、処理部 110は、ステップ S33に処理を進める。一方、標本情報が所定数 未満の母集団がない場合 (ステップ S31において N〇の場合)、処理部 110は、ステ ップ S33に処理を進める。
[0164] なお、削除する母集団に帰属する標本情報は、距離標準偏差値が最も小さい母集 団に帰属されるようにするのが好ましい。また、母集団のみ削除し、削除する母集団 に帰属する標本情報をどの母集団にも帰属させず、ステップ S33において距離関数 力 距離と仮の帰属母集団とを得るためのみの標本情報として用いるようにしてもよ レ、。
[0165] 次に、ステップ S33で、処理部 110は、この再分類された母集団に対する距離関数 を構築し、判別関数による認識により一致度の評価を実施し、分類が的確になされて レ、るかを評価する。そして、ステップ S 34で、処理部 1 10は、一致度が終了条件を満 たすか否力を判断する。
[0166] なお、母集団数の増減が指定値以下になったか否力 指定割合以下になったか否 、各標本の評価距離の標準偏差値と平均距離が一定の比率になったか否か、最 新の母集団による平均、分散、標準偏差値、固有値、固有ベクトルに基づいた再評 価結果において、元の母集団に帰属する標本が一定値以上になったか否カ 評価 距離群から得た標準偏差値自体の分散が一定の値以下になったか否か、若しくは、 評価距離平均値と一定の比率になったか否かに基づレ、て、終了条件を満たすか否 力を判断するようにしてもよい。
[0167] 終了条件を満たさない場合 (ステップ S34において NOの場合)、処理部 1 10は、処 理をステップ S 12に戻し、ステップ S 12からステップ S32までの処理を再帰的に実行 する。一方、終了条件を満たす場合 (ステップ S 34において YESの場合)、処理部 1 10は、この情報分類処理を終了させる。
[0168] 図 3は、本実施形態に従う教師有り学習による情報分類処理における母集団の例 を示す図である。
[0169] 図 3 (A)は、情報分類処理前の母集団の分類を示す図である。図 3 (A)を参照して 、この図は、標本情報 a, bを散布図にプロットした図である。標本情報 aを「〇」で示
n n n
し、標本情報 bnを「◊」で示す。ここでは、人が標本情報の内容を判断して、 a, bに分 類している。標本情報 aの集合が母集団 A、標本情報 bの集合が母集団 Bである。
n n
[0170] そして、分類前の母集団 Aおよび母集団 Bの重心をそれぞれ「★」で示す。分類前 の母集団 Aの 3 σ境界を 1点鎖線で示す。分類前の母集団 Βの 3 σ境界を 2点鎖線 で示す。このように、人が標本情報の内容を判断して分類した標本情報をプロットし た場合には、 a, bの分類境界が歪なものとなる。
[0171] 図 3 (B)は、情報分類処理後の母集団の分類を示す図である。処理後の母集団の 新規分類境界を破線で示す。新たに生成された母集団 Cの重心も、母集団 Aおよび 母集団 Bの重心と同様、「★」で示す。
[0172] このように、情報分類処理により、複数の距離関数に基づいて得た距離の統計的 に母集団重心との距離が乖離した情報は独自の母集団を形成したり、より重心の近 い母集団に帰属を変更したりすることが可能となり、境界付近にあり、人の評価に誤 差の生じやすい情報であっても、分布を正規分布に近づけることを可能とし、 自律的 に安定した母集団を形成することが可能となる。
[0173] 次に実験結果の説明を行う。
この実験は、あくまでも分類困難であった自然情報の一例として、人の音声情報を 標本情報に用いることで、本実施形態により事前分類と認識結果に基づく事後分類 の一致率が向上し分類数が減少する点から効率的な分類が実現できていることを確 認するための実験である。
[0174] この音声情報においては、 1標本あたりの次元数が 192次元であり、人手により指 定された開始時の代表初期母集団数が 8種類であり、データの標本数が 25万程度 であり、発話音素数は 28種類である。
[0175] また、新しく作られた母集団の標本数がベイズ識別関数による距離を評価するため に必要な評価次元数とほぼ同数の 200標本に満たない場合は、統計上の理由により 母集団を構成していない。
[0176] この実験において、前述した情報分類処理により、まず、 28種類の音素を特定の 人間の主観的音声条件に基づいて 8種類の母集団に分類する。それぞれの母集団 に帰属していた各標本が評価前に付けられたラベルに基づいて帰属した母集団と評 価後で得た距離の一番近レ、ラベルの母集団とがー致した場合、一致した標本から構 成される母集団の重心との距離が帰属する母集団の距離平均値力 みて 3 σより小 さい場合、評価前の母集団に帰属させる。
[0177] 次に、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とがー致し たが、評価前の母集団の距離平均値からみて 3 σ以上離れていたり、他の母集団の 重心との距離がそれぞれの母集団の距離平均値からみて 3 σより大きいかったりする 場合は、新しい母集団を構成させる。
[0178] そして、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とがー致 しない標本の場合、標本の距離が他の母集団の距離平均値より 3 σの範囲である場 合は一致した母集団に帰属させ、平均より 3 σ以上大きい場合は新しい母集団を構 成させる。
[0179] 図 4は、本実施形態に従う教師有り学習による情報分類実験の実験結果を示すグ ラフである。図 5は、情報分類実験の対照実験の実験結果を示すグラフである。縦軸 は、母集団数および一致率を示す。横軸は、情報分類処理の繰返し数を示す。
[0180] この実験結果である図 4によれば、母集団数が増加し、一時的に 40付近に到達す るが、しばらくすると 16から 20付近で母集団数が増減しながら安定することが見て取 れると同時に、一致率も 80%程度から始まり、一部割り込むことはあるが、安定して 8 0%以上を維持していることが分かる。
[0181] 図 5を参照して、対照実験は、評価前に帰属した母集団と評価後で得た距離の一 番近レ、母集団とがー致しなレ、場合に新しレ、母集団を構成し、一致すれば帰属を変 更しないという方法での実験である。
[0182] このため、母集団数が次第に増加し、母集団数が十分な標本が集まらなくなった 1 05付近で止まっており、最初 80%あった認識率も 72%から 62%の範囲に落ち込ん でおり、安定した分類ができていないことがわかる。
[0183] すなわち、図 4の情報分類実験によれば、 25万の標本を 3 σ以内の 20個以下の母 集団に分類可能であり認識率を 80%以上にすることが可能である。一方、図 5の対 照実験では、母集団を構成するために必要な 200標本に満たない状態になる 105 付近まで母集団が増加しつづけ、加えて認識率が 70%台へと低下している。このこ とから、元来の 28音素に関係なぐ図 4の実験結果の方が、図 5の実験結果である 1 00を超えた母集団より少ない 15程度の母集団への効率的分割を実現できていると 判断できる。
[0184] 図 9は、より多い標本による教師無し学習における本実施形態に従う情報分類実験 の実験結果を示すグラフである。
[0185] 図 9を参照して、図 9の情報分類実験結果によれば、図 3と同一の話者による新規 の標本を約 225万加えた約 250万の標本による教師無し学習においても、本発明を 用いた 25万標本の実験と同様に 200回のトレーニング経過後であっても先の実験に 近い 14から 18程度とラベル数 16付近の安定した母集団への分割を実現している。
[0186] 以上説明したように、本実施の形態における情報分類装置 100は、図 2のステップ S 11およびステップ S 12で説明したように、標本情報が含まれる複数の母集団のそ れぞれに帰属する標本情報の母集団ごとの重心と、分類対象の標本情報との評価 距離を算出する。
[0187] また、図 2のステップ S13で説明したように、情報分類装置 100は、ステップ S12で 算出した評価距離についての母集団ごとの平均、分散、標準偏差などの統計情報を 算出する。
[0188] また、図 2のステップ S21およびステップ S25で説明したように、情報分類装置 100 は、ステップ S 12で算出した評価距離、および、ステップ S13で算出した統計情報に 基づいて、母集団に対する標本情報の評価距離を評価することによって、分類対象 の標本情報の母集団への帰属度合を評価する。
[0189] また、図 2のステップ S22からステップ S27で説明したように、情報分類装置 100は 、ステップ S21またはステップ S25で評価した帰属度合に応じて、分類対象の標本情 報をいずれの母集団に帰属させるかを決定する。
[0190] また、図 2のステップ S23およびステップ S27で説明したように、情報分類装置 100 は、決定した母集団に分類対照の標本情報を帰属させる。
[0191] このように、情報分類装置 100によって、分類対象の標本情報が母集団への帰属 度合に応じたいずれかの母集団に帰属される。その結果、母集団への標本情報の 自律的かつ安定的な分類をすることができる。
[0192] また、図 2のステップ S33で説明したように、情報分類装置 100は、分類対象の標 本情報が帰属された更新された母集団ごとの重心と、更新された母集団のそれぞれ に帰属する分類対象の標本情報との評価距離を算出し、ステップ S12からステップ S 33を再帰的に実行することによって、算出した評価距離に基づいて、さらに、分類対 象の標本情報を帰属度合に応じたいずれかの母集団に帰属させる。
[0193] これにより、情報分類装置 100によって、さらに、標本情報を母集団へ再帰的に分 類すること力 Sできる。
[0194] また、図 2のステップ S26およびステップ S27で説明したように、情報分類装置 100 は、いずれの母集団への帰属度合も所定の度合の範囲外であるとき、つまり、いず れの母集団への評価距離の平均値からの偏差値も 3 σの範囲外であるときに、新た な母集団を生成し、生成した母集団に分類対象の標本情報を帰属させる。
[0195] これにより、母集団に帰属する標本情報は、帰属度合が所定の度合の範囲内であ る場合に標本情報となる。つまり、情報分類装置 100によって、母集団に対して評価 距離の平均値からの偏差値が 3 σの範囲内の標本情報を分類することができる。
[0196] その結果、情報分類装置 100によって、母集団に対して所定の度合の範囲内に標 本情報を分類することができる。また、母集団に帰属する標本情報のうちの一定割合 が平均値から 3 σの範囲内に分布する正規分布に近くなるように、標本情報を母集 団に分類することができる。
[0197] また、図 2のステップ S31およびステップ S32で説明したように、情報分類装置 100 は、所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する 標本情報を他の母集団に帰属させる。これにより、妥当でない母集団は淘汰される。
[0198] また、図 2のステップ S21からステップ S27で説明したように、情報分類装置 100は
、ステップ S21またはステップ S25で評価した帰属度合が最も良い母集団に分類対 象の標本情報を帰属させるようにしてもょレ、。
[0199] これにより、情報分類装置 100によって、評価された帰属度合が最も良い母集団に 分類対象の標本情報が帰属される。その結果、標本情報を母集団へ最適に分類す ること力 Sできる。
[0200] また、図 2のステップ S14で説明したように、情報分類装置 100は、ステップ S 12で 算出した評価距離を正規化する。
[0201] これにより、情報分類装置 100によって、評価距離を容易に取扱うことができるよう になる。
[0202] 本実施の形態についての概略を次に示す。
情報分類装置 100は、記憶部 120の母集団により分類された標本情報に対し処理 部 110を用いて、平均と分散を求め、共分散行列を構成し、記憶部 120に保存する
[0203] 次に、共分散行列から固有値と固有ベクトルを求め、標本の帰属する母集団の母 集団と共に分類し評価関数として記憶部 120に保存する。
[0204] 保存された全ての評価関数に基づき、全ての標本の距離算出を処理部 110により 実施し、その内容にしたがって分類し、必要であれば新しい母集団を与え記憶部 12 0に保存する。
[0205] 保存された母集団を用いて分類された母集団に従い、再度、処理部 110を用いて 平均や分散等を求める演算を新しい分類に従って処理し、母集団数が安定するまで 繰り返す。
[0206] 次に、本実施形態の変形例を説明する。
この実験に用いられる 3 σ範囲は母集団の 99. 7%程度を内包する範囲であり、統 計的予測では検定境界である 98%となる 2 σ付近の値がよい分類を実施できること ち予想、でさる。
[0207] また、マハラノビス距離の特性として、ある母集団における重心と標本情報とのマハ ラノビス距離平均は、その標本情報の次元数になることがよく知られている。この特性 力 考えると、母集団の中心から評価次元数と等しい距離にある標本は、 0. 68 σに 含まれていることが解る。
[0208] このため、重心からの距離が絶対値であることを考慮すると、 ± 3 σに相当する距離 は、得られた距離が標本次元数の 4. 5倍付近となり、この値よりマハラノビス距離が 小さい場合であれば 99. 7%の確率で元の母集団に帰属することが予想でき、この 値より大きな値であれば、ほぼ帰属しないことが予想できる。
[0209] そこで、本実施形態を利用し前述の手順を用いた再分類によって異なる母集団へ 再分類するといつた応用も可能である。
[0210] そして、この分類の結果、既にある全ての母集団の重心から見て、 4. 5倍以上離れ ている標本は、全て同じ母集団に帰属させ、新しい母集団を一つ追加する方法が考 られる。
[0211] また、既にある母集団が A, Β, Cである場合、全ての母集団から 4. 5倍以上離れて いる標本に関して、その標本が、 Αに一番近い場合は Al、 Βに一番近い場合は B1と レ、う具合に類似性の高そうなラベルを割当てることで、類似性のある標本同士を集め て、補助ラベルをカ卩えて新しくラベルを割り振ることで標本を分類する方法が考えら れる。
[0212] この際、 A1が Αに帰属すると評価されても正しく評価されたとすることでマルチテン プレートを応用し、分類効率や分析処理の改善をはかることも可能である。
[0213] また、初期の分類を 1 σや 2 σと狭く指定し、数回の処理をした後 4 σや 5 σに幅を 広げて分類することで、厳しい条件から緩い条件に変化させ、学習速度を効率的に する方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。
[0214] また、分類境界とする σ値を求める際、母集団重心からの平均距離に基づいた平 均位置から見て負方向の最小 σ値を求めたり、一番重心に近い標本までの最小 σ 値を求めたりした後でそれらの絶対値や二乗値を平均位置から見て正方向の σ値 の評価用上限値に用いてもよぐ距離平均より小さくベクトル重心に一番近い値の 2 乗とは距離平均から一番小さい評価距離までの標準偏差がー 2の場合、距離平均よ り + 4の標準偏差を上限の範囲とするととらえてもよい。また、これらの倍率や乗数は 任意に指定してもよい。
[0215] また、逆の方法として、初期の数回を 5 σと広くし、そのあとで 2 σと狭くするなどの 方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。また、母集 団の変化が減った時点で母集団の増減を停止する方法を用いて、母集団の学習効 率を改善する方法が容易に考えられる。
[0216] また、この距離算出において、平均を中心とした指定範囲ばかりでなぐ平均からみ てより小さい、もしくはより大きい片側だけの標本情報を新しい母集団として用いたり、 非対称の範囲指定によって新しい母集団を構成したりしてもよい。
[0217] また、複数の母集団により評価される場合、より近く且つ任意の境界内に入ってい る母集団に標本情報 aを帰属させることにより、分割されている母集団が融合され、
n
母集団の数を減らすように処理してもよい。
[0218] また、マハラノビス距離を指数部とした場合、単純な n次元空間ばかりではなく時系 列的統計に基づいた確率として利用できることもよく知られているため、 0から 1の確 率値を本方法における距離とみなしたり、確率値を自然対数の指数部とみなした場 合の指数値を距離として用いたりして、その平均と標準偏差値とに基づいた統計的 分布を計測する。本来であれば、帰属する母集団への確率密度関数に基づいた出 現確率もしくは帰属確率において全て 1になるはずだが、人の解釈による分散や環 境の変化があるため必ずしもそうはならない場合の対策として利用できる。 [0219] この方法で、各種ニューラルネットワークやマルコフ過程、ベイズ推定といった確率 モデルを用いたボルツマンマシン、 HMM (Hidden Markov Model)、ベイジアンネ ットワーク、ベイズ識別関数、ネオコグニトロン、コグニトロン、オートマトン、セルラーォ 一トマトン、ファジー関数、カオス関数、フラクタル関数、揺らぎ関数、学習ベクトル量 子化法(LVQ)、 自己組織化マップ(SOM)、ベクトル量子化ニューラルネットワーク、 競合学習型ベクトル量子化ニューラルネットワーク、ホップフィールドネットワーク、パ ーセプトロン、バックプロパゲーション学習、ハミングネットワーク、カーペンター 'グロ スバーグ識別器、多値ホップフィールドネットワーク、並列ホップフィールドネットヮー ク、連続値ホップフィールドネットワーク、相互結合型ニューラルネットワーク、セルラ 一ニューラルネットワーク、フアジィニューラルネットワーク、単層パーセプトロン、多層 パーセプトロンコーホネン学習、最急降下法、前向き学習、後ろ向き学習、適応共鳴 理論モデル、状態転送ネットワーク、回帰ネットワーク、エルマンネットワーク、ジョー ダンネットワーク、フューチャーマップ、コンビネット、競合学習、ァソシアトロン、誤差 逆伝播学習、 自己組織化特徴マップ、連想記憶、ダイナミカルネットワーク、カウンタ 一バックプロパゲーション、ファジー推論、遺伝的アルゴリズム、カオスモデル、フラク タルモデル、アブイニシォ法といった任意の AI手法や評価関数、分類評価方法、各 種確率的評価方法、それらの多層モデル、単層モデル、並列モデル、相互結合モ デル、時間連続モデル、多値モデル、および、それらの組合せによる評価モデルに よる評価結果を用いて得られる距離やそれぞれの入出力パラメータや係数に対して 利用してもよい。また、それらの、多層モデルであれば入力層、中間層、出力層の一 部もしくは全部に対する任意の入出力変数との組合せに用いる値の距離評価を実 施したり、非階層モデルであれば各ノードへの入力値や発火ノードの出力値であつ たり、それらの非階層モデルを組合せて階層化させたり 3次元化させたり、より高次元 ィ匕させたりすることで、出力される評価結果に基づく値を距離として使用してもよい。
[0220] また、本発明を階層ベイズ、経験ベイズ、変分ベイズ、ナイーブ ·ベイズ法、拡張べ ィズ法、集積化ベイズ法、大規模ベイズ法、簡略化ベイズ法、マルコフ連鎖モンテ力 ノレ口法(Markov chain Monte Carlo, MCMC)、ァ一二リング、ブースティング、 M —H (Metropolis-Hastings,メトロポリス ヘイスティングス)ァノレゴリズム、ヒットエンド ラン(hit-and-run)アルゴリズム、ギブスサンプラー、 SIR法(Sampling/Importance Re -sampling)、サポートベクターマシン (SVM)、 EM (Expectation Maximization)ァノレ ゴリズム、最大距離アルゴリズム、主成分分析 (PCA)、独立成分分析、 KL展開、 Kミ 一ンズ、最大エントロピ一法、バックオフ重み付け処理などを組み合わせにより、混合 分布情報や任意の分布情報を母集団とする情報群の分類や時系列遷移状況の評 価を行なうために最適な評価関数を構成する手段として用いてもよい。
[0221] また、リードソロモン法やハミング法、巡回冗長検查(CRC)、各種ハッシュ関数と組 み合わせたキーや 8— 10変換における 8ビット値範囲適用外の 10ビット値を用いるよ うな方法を利用することでハッシュバッファ処理で大量に構成された距離評価関数へ のアクセスの高速化を行なうことも可能である。
[0222] また、本発明は従来から「次元の呪い」と言われるところの球面集中現象を利用して 、概ね平均値となる球面付近に対しての標本の距離平均を求め、その標準偏差に基 づレ、た範囲内に統計的確率密度関数に基づレ、て帰属する確率が高レヽか否かによつ て母集団への帰属を決定し集合論的な帰属を確定することで、母集団への帰属評 価関数を再構成する自己増殖型ニューラルネットワーク手法と捕らえても良い。
[0223] また、本発明は経験ベイズ法若しくは階層ベイズ法応用と捕らえることも可能であり 、各標本の母集団への確率密度関数に基づいた帰属確率もしくは出現確率もしくは 所属確率の平均と分散、標準偏差を求め、平均からみて標準偏差の 3倍、すなわち 3 σ以上離れている場合の実施例としても考えられる力 本発明の場合は確率が 1よ り大きくより母集団重心に近いという確率論的にはありえない状態であっても、ベイズ 識別関数によるマハラノビス距離と固有値と事前確率に基づいた距離評価であるた め、極端に重心に近い状態で情報が重なり合っても分類が可能であり、定量化しや すいという点で単純な確率評価とは異なっている。この場合、母集団からの乖離度は 標本数 (サンプル数)やその他の条件を踏まえ、確率密度関数に従って母集団の平 均と標準偏差に基づいた範囲内にあるかどうかを評価すると捕らえても良い。
[0224] なお、マハラノビス距離に必要な共分散行列構造分析により導出される他の距離 表現、 Κミーンズ手法ゃシュミット直交分解などによるベクトル量子化空間における重 心距離算出を用いてもよい。 [0225] また、距離算出方法においては、マハラノビス距離ば力りではなくユークリッド距離 やシティブロック距離、チェスボード距離、ォクタゴナル距離、へタス距離、ミンコフス キー距離、類似度やそれらの距離に重み付け処理をした距離といった任意の距離算 出方法や、固有値、固有ベクトルのどちらかだけを用いたり、どちらかの値を算術的 に変化させることで統計的特徴を任意に変更した距離算出を行ったり、固有値自体 や固有べ外ルのノルム、最大成分などを距離算出に用レ、てもよい。
[0226] また、ヤコビ法、ランチヨス法、標準固有値問題、固有値計算の解法、ハウスホルダ 一法、アーノルディ法、 QR複合方式、シングノレ QR法、ダブル QR法、ガウス'ザイデ ル法、ガウス *ジヨルダン法といった任意の方法で固有値や固有ベクトルを導出しても よい。
[0227] また、この複数の母集団から得られる複数の距離情報自体を標本ベクトル情報と捕 らぇ、再度、固有値、固有ベクトル、固有べタトノレのノルムを得ることで、 2次、 3次のマ ノ、ラノビス距離を導出することや複数の母集団の固有値や固有ベクトルを標本べタト ルとして捉えた場合のノルムゃ固有値、固有ベクトル、平均、分散、標準偏差値とレ、 つた情報を用いた距離算出も可能であり、これらの内容を再帰的、階層的に実施す ることでベイジアンネットワークのような構造を持たせたりする方法も容易に考えられる
[0228] また、分類前に母集団がなく母集団付けされていない時系列情報や形状情報にお いては、べき乗法などを用いた最大固有値と最大固有ベクトルの導出手段を用いて 、過去の時系列情報や別形状情報から得られる固有値や固有ベクトルに基づいた 平均やノルム、標準偏差値などの指標により最近の時系列情報や別形状情報にお ける入力情報自体とのマハラノビス距離を評価することができる。
[0229] また、最近の時系列情報や別形状情報から得られる固有値や固有ベクトルに基づ レ、た平均やノルム、標準偏差値などの指標によりマハラノビス距離を評価することが できる。
[0230] このように評価された距離の平均や標準偏差値に基づいて情報を分類しながら、 新規に母集団を構成し母集団付けを実施する方法を用いてもよい。
[0231] また、距離算出にともなう条件分岐において、境界付近の値を乱数などにより確率 的に分類してもよい。
[0232] また、これらの情報は時系列や形状情報ば力りでな 色情報や音情報、文字情報 、文字記号列、発音記号列、表意記号列、表音記号列、音素記号列、音韻記号列、 意味母集団記号、名称、形状、空間位置、空間配置、音素片記号などの記号片とい つた事柄やそれらの評価変数、特徴量、記号値、変化量といった動的な変数情報で あっても、静的な変数情報であってもよい。
[0233] また、本方法を用いて、人工知能の様に入力情報を評価判定し、結果を出力したり 、音声認識に用いて音声対話を実現したり、画像認識ゃジエスチヤ認識に用いて装 置を操作したり、意味検索を実施したり、情報処理装置におけるユーザーインターフ エースのエージェントの内部評価に利用してもよレ、。このような、人間の認識を代行す る装置としての応用に用いてもよい。
[0234] また、各母集団の固有値や固有ベクトル自体の平均や分散から再帰的に固有値と 固有ベクトルを求め母集団同士のマハラノビス距離を導出することができる。また、各 種べ外ル分割方法により直交境界付近の母集団同士の距離を計算することができ る。
[0235] このようにすることで、互レ、に任意の指定範囲以内にある分類された複数の母集団 を分割や結合、変更してもよい。例えば、複数の母集団における、それぞれの平均 同士の距離が互いの標準偏差値の例えば 2 σ以内にある場合、母集団を統合し一 つにまとめてもよい。
[0236] また、それぞれの母集団の重心からの距離を評価するば力りではな 特定の母集 団の重心からの距離を評価し、その距離が 3 σ以上であれば、以前に帰属していた 母集団に基づいて別の母集団を構成するといつた方法を用いてもよい。
[0237] また、再分類の回数に応じて変化する帰属する母集団の履歴に基づいて、過去の 履歴で帰属した頻度の高い母集団へ帰属させる方法であってもよい。この際、過去 の母集団がほぼ同じ程度の場合は、乱数によって帰属する母集団を決定してもよレ、
[0238] また、強化学習回数に応じて、分散範囲の指定を変更したり、一致するべき標本の 重心を基準にしたり、一致評価の結果として実際に一致した標本だけの重心を基準 にして、再分類の評価を実施してもよい。
[0239] また、母集団数を変更せず、帰属する母集団だけを変更してもよい。
また、母集団における標本の尤度分布や出現確率分布、距離分布に基づく局所解 を仮中心とみなし、その仮中心から各々の標本の距離を求め、得られた距離の平均 と分散、標準偏差値により統計的に有意な範囲かどうかを弁別し母集団を分割や結 合、変更してもよい。
[0240] また、平均ベクトルと標本ベクトルの差を取るときに、各要素の差から得られた解に 正が多いか負が多いかを調べ、距離軸を正負に拡張し距離情報が重心と平均に対 しての相関性が正相関か逆相関かを捕らえ、どのように偏っているかを確認し、母集 団の分類を変えてもよい。
[0241] また、前述されるような正規分布ば力りではなくカイ二乗分布や一様分布,正規分 布,対数正規分布,ベータ分布,コーシ一分布, F分布, U分布, t分布, p変量正規 分布,ガンマ分布,ロジスティック分布,ポアツソン分布,ウィシャート分布, Hotelling (ホテリング)の T2分布,べき正規分布,経験分布,累積分布関数,離散分布,結合 分布,二変量正規分,多変量正規分布,多変数指数分布,超幾何分布,多次元正 規分布,対数級数分布,指数分布,半正規分布,同時分布,度数分布,条件分布, 周辺分布,確率分布,安定分布,幾何分布,二項分布,負の二項分布,ワイブル分 布などやそれらの多変数、多項数、多次元といった変形例を含む他の分布やそれら を用いた検定を、本実施形態における距離算出や帰属評価に用いてもよい。
[0242] また、線形代数手法による、グラム'シュミット分解,コレスキー分解,特異値分解, 固有値解析,行列式,ノルム,条件数の推定,線形方程式の解といった任意の方法 を、本実施形態における距離算出や帰属評価に用いてもよい。
[0243] また、多変量解析による、相関係数行列,重回帰分析,主成分分析,因子分析,正 準相関分析,多次元尺度法,判別分析,分類樹木,対数線形モデル,クラスタ一分 析,デンドログラム,最短距離木といった任意の方法を、本実施形態における距離算 出や帰属評価に用いてもよい。
[0244] また、回帰分析による、最小二乗法回帰,非線形回帰,ステップワイズ回帰,口バス ト回帰,スプライン近似,超平滑化,核型平滑化,一般化線形モデル,一般化加法モ デル,尤離度によるモデルの比較,交替条件付き期待値による回帰 (ACE (Alternati ng Conditional Expectation) ),加法型分散安定化変換による回帰(AVAS (Additi vity and VAriance Stabilization for regression) ) ,射影追跡凹リ巿,残差二乗中央 値回帰,回帰樹木(CART (Classification And Regression Trees) )といった任意 の方法を、本実施形態における距離算出や帰属評価に用いてもよい。
[0245] また、分散分析による、一元 ·二元配置分散分析,チューキー法,ラテン方格法,要 因計画,一元 ·二元ロバスト分散分析とレ、つた任意の方法やそれらを多次多元化さ せた方法を、本実施形態における距離算出や帰属評価に用いてもよい。
[0246] また、時系列解析や信号処理による、 自己相関, 自己回帰 (従来手法および頑健 法), ARIMA (Auto Regressive Integrated Moving Average)モテル, AIC (Akaik e's information criterion)によ 次数選択,ベクトノレ AR (AutoRegressive model)モ デル,任意の変量スペクトル分析,高速フーリエ変換,ウェーブレット変換,ァダマー ル変換,べき変換、ボックス 'コックスべき変換、多パラメータべき変換、べき正規変換 、プロクラステス変換、 z変換、対数変換、欠損値変換、逆正規変換、正規変換、角変 換、ラプラス変換、口ジット変換、検定や任意の評価関数を用いたハイパス'ローパス 'バンドパス.バンドノッチなどの各種フィルタリング,古典的およびロバストな多数のス ムージング手法、ルベーク積分、経路積分、振動積分、楕円積分、高階微分、対数 微分、偏微分、楕円微分、各種関数微分、確率微分、リー微分、マルコフ微分、伊藤 微分、ブラックショールーズ式、任意の初等関数、任意の多項式関数、任意の有理 関数、指数関数、対数関数、三角関数、双曲線関数、任意の床関数や天井関数、ガ ンマ関数、ゼータ関数、楕円関数、ベッセル関数、ランベルトの W関数、任意の誤差 関数、ベータ関数、グリーン関数、 σ関数、オイラーの φ関数、分割関数、メビウス関 数、 L関数、アツカーマン関数、ディラックのデルタ関数、任意のへヴィサイドの階段 関数、ディリクレの関数、任意の一方向性関数といった任意の方法や関数を、本実 施形態における距離算出や帰属評価やそれらの補正に用いてもよい。
[0247] また、生存時間解析による、 Coxの比例ハザード回帰,ポアツソン回帰, Anderson -Gillによる修正 Coxモデル, Kaplan—Meier法, Fleming— Harrington法による 生存時間解析といった任意の方法を、本実施形態における距離算出や帰属評価に 用いてもよい。
また、検定手法である、グッドマン 'クラスカルの係数を用いた検定、クラスカル'ヮリ ス(Kmskal-Wallis)検定、片側検定、 χ 2検定、両側限定、正規分布の母平均の検 定 (母分散既知)、正規分布の母平均の検定 (母分散未知)、 t一検定、正規分布の 母分散の検定、独立性の検定、分散に関する検定、平均値に関する検定、連の検 定、分散共分散行列に関する検定、多群判別の有効性の検定、 Wilksの lambda統 計量検定、多群判別での変数の寄与の検定、偏 Λ統計量検定、 Adichie— Koul検 定、アンサリ 'ブラッドレー(Ansari-Bradley)検定、コーェンのカッパ(Cohen's Kappa )重み付きカツノ (Weighted Kappa)ダービン検定、ダービン'ワトソンの検定、固有 値の検定(Bartlett)、 Kolmogorov—Smirnov検定、コルモゴロフ'スミルノフの 1標 本検定、 Lepage型検定、リリフォー検定、ログランク検定、 Ansari— Bradley検定、 Fisher (フィッシャー)の精密検定、 Friedman (フリードマン)検定、 F—検定、ホッジ ス ·レーマン推定(Hodges-Lehmann Estimation)、 Hotelling (ホテリング)の T2検定 、 Jonckheere検定、 k X c分割表の (独立性の)カイ 2乗検定、 Klotzの正規スコア検 定、 Kolmogorov— Smimov検定、 Kruskal— Wallis検定、 k個の母比率の均一性 の検定、 Mood検定、 Moses検定、 Page検定、ラン検定(Runs Test)、 Linear by Linear連関検定(Linear by Linear Association Test)、層別データの CMH検 定(CMH Test for Stratified Data)、ログランク検定(Logrank Test)、タロン'ゥェ ァの傾向検定(Tarone-Ware Test for Trend)、フィッシャー.フリーマン.ホルトン 検定(Fisher-Freeman-Halton Test)、ピアソンの積率相関係数(Pearson's Product -Moment Correlation Coefficient)、ヒ Zソンの刀ィニ来検疋' (Pearson s Chi-Squar e Test)、尤度比検定(Likelihood Ratio Test)、サベジのスコア検定(Savage Scor es Test)、シャピロ 'ゥイルク検定(Shapiro-Wilk Test)、 Siegal—Tukey検定、 Tuk ey (チューキー)の加法性の検定、 Wald検定、 Watson検定、 Wilcoxon型検定、 Wi lcoxon_Mann_Whitney検定、ノ ートレット(Bartlett)の検定、 Yatesの補正、 M ann_Whitney (マン.フィットニー)検定といった各種標本検定,分割表の関連性の 検定,独立性の検定,適合度検定といった任意の方法を、本実施形態における距離 算出や帰属評価に用いてもよぐ本発明は統計的確率的に距離評価関数を構成し、 その関数への帰属度合いを検定する「出現確率検定つきベイズ関数」と捕らえても良 レ、。
[0249] また、前述した方法を任意に組み合わせて、本実施形態における距離算出や帰属 評価に用いてもよい。
[0250] また、標準偏差値を用いた正規化前の距離の短いほうを分類時に優先させる任意 の係数演算処理を実施してもよレ、。
[0251] また、演算の途中で求められる複数の母集団に対する正規化距離に従って、帰属 する母集団を評価し、認識や識別を行ってもよい。
[0252] また、複数の評価結果をネットワーク状に接続し、接続の重みに正規分布を用いる ことで、任意のネットワーク構造による評価関数を構成してもよい。
[0253] また、 EMアルゴリズムや Kミーンズに応用し、帰属する標本が例えば 3 σに帰属し ているかを評価することで妥当であるかの評価を実施し、最適なクラスタリングを実施 するといつた任意の方法の組合せにより、任意のクラスタリング処理の性能改善に利 用してもよい。
[0254] また、力プラン'マイヤー法、ノくリマックス法(varimax method)、クオ一ティマックス 法、ユニオン 'インターセクション法、クアーティミン法、バイクオ一ティマックス法、プロ マックス法(promax method)、ォブリマックス法、ォブリミン法、ォーソマックス法(orth omax method) ,ウォード法、ェクオマックス法、力プラン'マイヤー法、カイザー 'ディ ックマン法、ガウス'ドウリットノレ法、コバリミン法、斜交回転法、斉時一般バリマックス 法、セントロイド法(重心法)、スチューデント化残差を用いる方法、ビートンの方法、 最短距離法、最長距離法、群平均法、メジアン法、ウォード法、可変法、などによる因 子軸の回転や分析、因子分析方法や多変量解析方法、クラスター分析法をもちいて 、固有ベクトルや固有値空間を最適化したり、距離評価に利用したり、評価関数に用 レ、て距離評価したりしても良い。
[0255] また、 Ansari— Bradleyのスコア、 Klotzの正規スコア、 Savageのスコア、 Siegel —Tukeyのスコア、符号付正規スコア、 van der Waerdenの正規スコア、 Moodの スコアなどのスコアリング方法を用いて特徴量をスコアリングしたり、関数出力結果を スコアリングしたりして、評価関数を構成したり評価関数の出力を評価したり評価結果 を再度スコァリングしたりしても良い。
[0256] このように、機知の関数や統計方法、スコアリング方法、分類方法、検定方法、最適 化方法、統計的手法と組合わせることで、それぞれの方法の特性を利用した各種応 用や性能改善、機能改善などが容易に考えられる。
[0257] 次に、各種サービスを実施する情報処理システムについて説明する。
たとえば、ロボットなどの動作機械における情報の関連付けに基づく動作学習にお レ、てある動作を構成するための変数と姿勢の名称との分類に本発明を用いてもよい し、その際姿勢の名称のみを通信回線を経由してロボットなどの装置に対して送信し 、ロボットの遠隔ダンスサービス等の動作を分析的に処理し再利用する遠隔ロボット 制御サービスを実施する情報処理システムや任意の駆動系機能を含む装置の運転 および/もしくは制御方法の特徴学習による運転制御システムやサービスが考えら れ、これらを用いた工作ロボットや整理ロボット、搬送ロボット、介護ロボット、愛玩ロボ ット、手伝いロボット、対話ロボット、家事ロボット、農業ロボットなどを作成しても良い。
[0258] たとえば、本発明をロボットの思考や行動、判断に応用する場合、ロボットの行動に よって得られるエネルギーを「過剰、適度、平衡、減衰、喪失」といった具合に消費さ れるエネルギーや摂取されるエネルギーや利用者の好評価に基づいて分類し、それ らの分類にともなう周囲の画像や音声、温度、湿度、空気成分や匂い、液体'素材成 分や味、重さや加速度、衝撃、圧力などのセンサ入力値や分析値といった特徴量と 特徴量の遷移状態に基づく二次特徴量、二次特徴量の遷移状態に基づく三次特徴 量といった特徴量の多次元的な組合わせによる高次特徴量を収集し本発明を用い て分類してもよい。この場合、前述の五つの分類はその分類の間をアナログに遷移し てもよいし、より細かく分類して評価関数を構成してもよいし、 1つもしくは任意数の変 数による正負の値で表現してもよい。
[0259] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、 これらの変数が 1つの変数であれば 0付近、複数の変数であれば平衡状態を示す値 である場合に、過去の分類にぉレ、てエネルギーが取得された手順情報やエネルギ 一や利用者の好評価を獲得するコストを低減させる手順に分類された手順情報が入 力された特徴量、つまり、エネルギーの獲得に成功した手順情報との距離が近い場 合において、ロボットの持つ興味変数が増減し、エネルギーの獲得が過剰やそれに 伴う装置の破損であったり、喪失やそれに伴う運動能力の低下する場合であれば、 恐怖変数が増減したり、エネルギーの獲得に伴い減衰するエネルギーが多い場合に 倦怠変数が増減するといつた方法が考えられる。この際、手順情報は自装置の行な つた行為の時系列的変化を記録することで構成しても良い。
[0260] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、 減衰するエネルギーより得られるエネルギーや利用者の好評価が少ない場合であつ ても、それらを複数組み合わせることにより、より大きなエネルギーが得られる場合や 、将来、他の装置や生物から提供されるエネルギーや利用者の好評価が大きいと過 去の分類に基づいて予測される場合や同種類の装置の破損を回避できると予測さ れる手順情報があれば、その手順に基づいて装置の行動を制御してもよい。たとえ ば、静電容量センサパッドなどのようなポインティングデバイスに用いる装置を利用し て利用者が叩いたことや擦ったことを評価し、叩かれたときは悪評価、撫でられたとき は好評価であるとか、ロボットの発話に利用者が反応したときは好評価、無反応な時 は悪評価といった方法が考えられそれらの情報を本発明の方法を用いて分類しても よい。
[0261] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、 本発明に基づいた分類を利用し任意の定義された期間を超える長期間においてェ ネルギ一の緩慢な消費が確認され特に利用者から指示されない場合いにおいて、 自動的にパソコンなどでいわれるスタンバイやスリープモードに移行しエネルギーの 低減を回避したり、事前に依頼されていて未処理の行為を実施したりしてもよい。
[0262] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、 過去に分類された母集団にサンプルが帰属しない場合や新しい母集団重心が出現 した場合や分類された母集団に帰属し且つ他者が利益を得た情報がある場合、若し くは自分が容易に利益やエネルギーの獲得を得られた場合に興味変数が増減したり 、過去に分類された母集団の重心に極端に近い場合に倦怠変数が増減したり、過去 の判断に基づき分類された母集団において判断結果により極端なエネルギーの減 衰ゃ損失、利用者からの信用の喪失や悪評価、装置の破損が起きた場合に恐怖変 数や嫌悪変数が増減するといつた方法やそれらの分類情報を利用した処理手段に 用いても良い。
[0263] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、 これらの興味や恐怖、倦怠といった名称は好奇心や恐れ、飽きといった心理状態を 表す変数として異なる名称を持っていてもよ 利用者によって良しと評価された行 為や悪しと評価された行為を分類することで任意の処理や行為を行なって良いか否 力を分類し学習したり、抑制したりしても良ぐ 自己と他者の区別を能動的な行為によ り自己のエネルギー状態や位置状態に極短時間に影響する範囲を確率的に評価す ることで決定してもよぐ能動であるかどうかの評価を自己のエネルギー状態の変化 に基づいて自発的な信号に同期しているかどうかを確率的に評価することで行なつ ても良い、興味変数が増減している状態で、嫌悪変数や恐怖変数が増減したり、ェ ネルギーゃ好評価の獲得が予測道理にできなかった場合にストレスや抑圧といった 状態を示す変数を増減させても良レ、。
[0264] また、人間の主観評価分析や、精神分析に用いて利用者が連想する名詞と動作や 行為、利用者の年齢、生年月日といった客観的情報と、利用者の性格や感情気質 情報と期待する結果や状態の呼称情報の関連付けに基づぐ精神分析サービスや 占いサービス、業務の名称と人物の名称と業務の難易度と業務の達成度とを関連付 けた人事評価サービス、内容分析サービス、趣味の要素を示す名詞とそれに係わる アンケートなどによる統計的変数情報に基づいて各項目であるラベルとその変数で ある特徴量に基づいた情報を分類し傾向を抽出することで商品やサービスの人気や 利用者の趣味に合わせた個人向け趣向対応サービスを実施する情報処理システム が考えられる。
[0265] また、 自然情報の生物や地形、地質名称と位置や大きさ、色、重さ、形状、組成、 材質、成分、状態といった指標に基づく分類や認識に用いてもよいし、情報の関連 付けに基づく分析に基づいた環境調査サービスを実施する情報処理システムが考え られる。例えば、ネットワークモデルとして捉えた場合のノードとして指標を捕らえて、 ある指標からある指標や人との距離をその間に含まれる指標や情報の位置的および /もしくは時間的な共起関係や共起確率、指標の前後関係や数を意味状態として用 いて、 自然状況の分析や構築、提案を実施する情報処理システムが考えられる。こ れらは HMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉 え方を任意に変更してもよレ、。
[0266] また、建造物周辺での人の行動を統計的分類しての防犯装置への利用や道路上 の撮影装置や警報装置を用いて頻度の高い違反者の追跡に利用するなどの情報の 関連付けに基づく安全管理サービスを実施する情報処理システムが考えられる。例 えば、ネットワークモデルとして捉えた場合のノードとして建造物や商品と人とを捕ら えて、ある建造物や商品からある人との距離をその間に含まれる物や人の数や情報 の位置的および/もしくは時間的な共起関係や共起確率、単語の前後関係を意味 状態として用いて、所有や利用状況の分析や構築、提案を実施する情報処理システ ムが考えられる。これらは HMMなどのようなネットワークモデルによくあるようにノード とリンクの関係の捉え方を任意に変更してもよい。また、画像特徴と出現頻度や停滞 時間と犯罪の発生率を特徴量として人が犯罪と認定した状態をラベルとすることで指 標として用いて分類して評価してもよぐ監視設備などに応用できる。こういった技術 を応用することで動物の挙動を評価し農作物や廃棄物の監視をする「電子案山子」 なども考えられる。
[0267] また、化学分析や DNA (Deoxyribonucleic Acid)解析などの確率的推測に基づい た分析に用いてもよいし、情報の関連付けに基づく薬品調合サービスや DNA鑑定 などの医療や化学サービスを実施する情報処理システムが考えられる。この際、実験 値などとなる科学的特徴量とその名称を分類の指標としてラベルに用いたり、 DNA の取得された身体や病症の部位などの特徴及び/若しくは年齢、性別、性格、趣味 、スポーツや音楽、映画、政治活動の嗜好のような各種趣味分野名称といった分類 機軸を分類のためのラベルとして、その人の生活や体質傾向と薬や治療の効果を分 析、設計、提案するために用いたりしてもよい。
[0268] また、不良品の検出や耐震性分析、設計に伴う強度分析といった工学的特徴を統 計的に分析しラベル付けするための工学的分析を実施する情報処理システムが考 られる。
[0269] また、通信機器におけるフィルタリングにおいて、適応型フィルターを構成する場合 に用いてもよいし、フアイヤーウォールサービスを実施したり、スパムメールフィルター を実施したり、ネットワーク接続経路を特定し構成したり、無線通信における電波強度 や接続の再試行回数といった通信品質にともなうアドホックネットワーク再構築方法 に用いるなどして、通信の安全な経路や信頼できる通信を分析、構築、提案する本 発明による情報の関連付けに基づく通信基地局を構成したりする通信サービスや情 報伝達サービスを実施する情報処理システムが考えられ、送信者の名前であったり、 IPアドレスであったり、ドメインであったり、特定のドメインや IP空間であったり、それら 特定のネットワーク経路を経由している場合を示す特徴量を評価した結果に基づい て、通信を抑制することで、違法なアクセスやスパムをフィルタリングすることも考えら れる。
[0270] また、医療に伴う病名や身体部位、症状、化学物質などの名詞をラベルとして利用 し、医療機器などにおける患部の形状分析や症状分析、化学分析による係数や変 数、分析値やそれらを加工した値を標本ベクトルの特徴量に用いて患部の状態推定 などに用いてもよいし、対話パターン変数化し標本ベクトルに用いて情報を収録し、 カウンセリングを実施する情報の関連付けに基づく通信医療サービスを実施する情 報処理システムが考えられる。
[0271] また、内科医療的な応用としてネットワークモデルとして用いた場合のノードやリンク として人の DNAや身体特徴、血圧や体温脈拍、体液成分値といった医療特徴と疾 病の関係を捕らえて、ある特徴からある特徴と病気の距離をその間に含まれる特徴 や病気の数をネットワークホップ数とした特徴として重み付けに用いることで、情報の より広い医療概念といった医療分野範囲内での共起関係や共起確率を医療特徴の 意味状態として用いて、病理形態の分析や改善提案を実施する情報処理システムが 考えられる。これらは HMMなどのようなネットワークモデルによくあるようにノードとリ ンクの関係の捉え方を任意に変更してもよい。
[0272] また、外科医療的な応用としてネットワークモデルとして用いた場合のノードやリンク として人の身体部位や身体特徴と人の移動可能な地形や道路形状といった身体障 害特徴と物理空間モデルの関係を捕らえて、ある特徴力 ある特徴と物理空間モデ ルの距離をその間に含まれる特徴やある物理空間モデルをネットワークホップ数とし た特徴として重み付けに用いることで、それらの情報の範囲内での共起関係や共起 確率を外科的な身体機能の意味状態として用いて、身体機能障害の分析や改善提 案を実施する情報処理システムが考えられる。これらは HMMなどのようなネットヮー クモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。
[0273] また、これら前述の応用方法に関する一般的な解釈として専門知識に関する名称 をラベルとし、それらのラベルの相関性を距離表現することで抽象概念や具体概念 の層構造分析し、それらの係数や変数を標本ベクトルに用いて本実施形態による分 類を実施する。
[0274] この方法は、各種の専門用語や人物、場所といった知識の名称によるラベルをノー ドとして捕らえてネットワーク構造を構成し、情報間に含まれるノード数となるホップ数 を距離として捕らえ、その距離を特徴量としたり、通信プロトコルにおける経路探索技 術を用いて意味空間の情報間距離を求めたり、距離を評価したりする。この際、各ノ ードに他のノードへの接続における減衰量としてのウェイト指定を行なうことも可能で あり、ホップ数の離散的な値に対して連続量的な解釈を与えて距離評価するといつ た方法も考えられる。
[0275] このようなネットワーク構造を考慮した階層的記憶による情報の関連付けを実現す ることで本発明による分類に基づく連想型エキスパートシステムによる情報提供サー ビスや教育サービス、情報配信サービス、人員や素材、薬品、器具、流通経路といつ た要素の組み合わせによって効果を予測するシミュレーションサービス、天気予報や 株価や相場の予想、地震予想、経済予想、物価予想、競技予想、競馬予想といった 情報予測サービス、新聞記事や雑誌や書籍記事などの情報要約サービスを実施す る情報処理システムが考えられる。
[0276] また、複数の言語の異なる地域にまたがった情報を、特定の言語を話す人向けに、 形状に伴って発話される単語や、形状に付随して発話される単語を標本ベクトルに 用いて本実施形態により分類し、意味空間分類を実施するとことで、情報の関連付け に基づぐ言語の異なる地域で同様のサービスを実現できる旅行ガイドや翻訳サー ビスを実施する携帯電話や PDA、通信基地局などを用いた情報処理システムが考 えられる。 [0277] また、対話型ユーザーインターフェースにおレ、て、ぁレ、まレ、な意味のある単語の発 言確率に基づいた特徴量を標本ベクトルに用いて発音者の癖を本実施形態により学 習することで、あいまいな対話を実現する情報の関連付けに基づく対話サービスを実 施する情報処理システムが考えられる。
[0278] また、ゲームなどでコンピュータが制御するキャラクタに会話モデルを分類登録した 情報を用いることで、人間的雰囲気を距離評価演算中に考える仕草をすることなどで 演出した会話をさせたり、動物や植物、人の行動を分析した特徴量を用いて動物的 であつたり植物的、人間的な挙動や行動を演出したりといつたサービスを実施するこ とも可能である。また、このようなサービスを実施する情報処理システムが考えられる。
[0279] また、信用情報や評価値標本ベクトルに用いて組織内や組織間の評価距離を求め ることで分類し評価者間の信頼距離を求め、配当や成績評価、能力評価の階層を決 め、金銭の支払い体系や与信枠の設定、割引体系、利益還元方法、投票方法、調 查方法、商品の金額や配当など価値の評価や決定を実施する情報処理システムが 考えられる。
[0280] また、地図と地域に基づいた情報収集を行ない、たとえば、位置と名称を示す音声 特徴や画像特徴、温度特徴、天候特徴、人口密度といった情報を標本ベクトルに用 レ、て適当な名称をラベルとして割当てて分類することで、位置に基づレ、た情報支援 を実施する情報処理システムが考えられる。ネットワークモデルとして用いた場合のノ ードゃリンクとして街や村などの人口密集地を捕らえて、ある場所からある場所の距 離をその間に含まれる場所の数をネットワークホップ数とした特徴として重み付けに 用いることで、都市数や人口、生産高、交通量、経済規模、それらの管理番号、時間 的及び Z若しくは物理的位置関係による情報のより広い巿ゃ郡、国といった地域名 称範囲内での共起関係や共起確率、場所の位置関係を意味状態として用いて、移 動形態の分析や構築、提案を実施するカーナビなどを利用した情報処理システムが 考えられる。
[0281] また、従来からある状況把握のための情報を特徴量として用レ、、 IDタグなどを利用 して商品の流通状況を分析したり、車両の通行状況を分析したり、人の流通状況を 分析したりすることで、流通状態管理のための指標情報を構築し、物流情報提供や 混雑緩和のための迂回情報提供、渋滞情報提供とレ、つた情報提供サービスを実施 することも可肯である。
[0282] また、人と人との共存時間や共著情報、戸籍情報、共同制作者情報などの人が交 流している状態を客観的に示す情報やその情報の件数および/もしくは出現頻度を 標本ベクトルや、ネットワークモデルとして用いた場合のノードやリンクとして捕らえて
、ある人からある人の距離をその間に含まれる人の数をネットワークホップ数とした特 徴として重み付けに用いることで、人数や参加団体数、それらの管理番号、時間的 物理的位置関係や人同士の情報の交換回数や閲覧回数を交流状態として用いて、 人間関係の交流分析や提案を実施する情報処理システムが考えられる。
[0283] また、ある言語に基づいた情報と、異なる言語に基づいた情報とに関する単語や任 意の情報を関連付けることで、異なる言語間で利用できるサービスを実施するための 分類や評価基準を構成する情報処理システムが考えられ、文字認識や手入力、音 声認識による文章に対して閲覧者から指定された誤記や脱字、誤解釈などにより精 度の高い文書の自動訂正を行なうサービスも考えられる。
[0284] また、位置に基づいた映像情報もしくは音声情報と、その映像もしくは音声に関す る単語や任意の情報とを関連付けることで、位置に基づいてサービスを実施するた めの分類や評価基準を構成する情報処理システムが考えられる。ネットワークモデル として用いた場合のノードやリンクとして単語を捕らえて、ある単語からある単語の距 離をその間に含まれる単語の数をネットワークホップ数とした特徴として重み付けに 用いることで、情報の共起関係や共起確率、文字数や単語数、管理番号、時間的位 置関係による単語の前後関係を意味状態として用いて、意味関係の分析や構築、提 案を実施する情報処理システムが考えられる。
[0285] また、固有値や固有べ外ルを用いて、画像情報や運動情報、座標情報群による二 次元若しくは三次元物体の形状情報などを評価し、その評価距離に基づく類似性に よって意匠侵害や著作権侵害に関する知的財産の侵害状況を評価することも可能 である。この場合、帰属する母集団とサンプルである評価対象情報の情報間距離や サンプルの発表時期からの時系列的変化に伴う類似する形状の発表条項を踏まえ て情報間距離を評価することにより陳腐化状況や類似性を定量化してもよい。 [0286] また、任意の情報や商品、サービスを選択する情報処理システムが考えられる。 また、音楽と音楽に基づいて想起される単語の関係を分析し関連情報を統計的に 分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
[0287] また、衣装や装身具、装飾品と衣装や装身具、装飾品に基づいて想起される単語 の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択 する情報処理システムが考えられる。
[0288] また、触感と触感に基づいて想起される単語の関係を分析し関連情報を統計的に 分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
[0289] また、味と味に基づいて想起される単語の関係を分析し関連情報を統計的に分類 して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
[0290] また、匂いと匂いに基づいて想起される単語の関係を分析し関連情報を統計的に 分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
[0291] また、天候と天候に基づいて想起される単語の関係を分析し関連情報を統計的に 分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
[0292] また、映像と映像に基づいて想起される単語の関係を分析し関連情報を統計的に 分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
[0293] また、このような感覚器や言葉から得られる情報同士を味と衣装に関する言葉や匂 レ、と装身具に関する言葉という具合に異なる系列の情報を相互に関連付けて任意の 情報や商品、サービスを提供する情報処理システムが考えられる。そして、これらを ネットワークモデルとして用いた場合のノードやリンクとして単語を捕らえて、ある単語 力 ある単語の距離をその間に含まれる単語の数をネットワークホップ数とした特徴と して重み付けに用いることで、情報の共起関係や共起確率、文字数や単語数、管理 番号、時間的位置関係による単語の前後関係を意味状態として用いて、意味関係の 分析や構築、提案を実施する情報処理システムが考えられる。これらは HMMなどの ようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更 してもよい。
[0294] また、それぞれの事柄と関連付けて想起される感性に関する言葉にもとづいて任意 の情報や商品、サービスを提供する情報処理システムが考えられる。 [0295] また、想起される単語を言葉でない記号や分類コード、例えば、文字コードのような 形容詞や副詞などを分類する感覚を分類する感覚コードや感性を分類する感性コ ード、感情を分類する感情コード、主観を分離する主観コード、視覚的形状を分類す る形状コード番号などを構成して、そのコードと他の任意の情報を関連付けたり、複 数の任意の情報同士、例えば、特徴量や認識された記号をそのようなコードを用い て関連付けたりすることで共起行列や文字数や単語数、管理番号、時間的位置的関 係による共起距離の定義方法を構築する。そして、それらを用いて構築した概念辞 書や概念索引を記憶媒体に記録する情報処理システムが考えられる。
[0296] このように、情報選択、情報配信、情報提供、情報抽出、情報加工、情報分析、情 報予測、情報伝達、情報分類、情報分離、情報翻訳、情報変換、情報要約、情報検 索、情報探索、情報比較、情報評価、情報調査といった方法を応用し、任意の情報 と任意の情報の関連付けをすることで、任意の情報や任意の商品、任意のサービス を提供もしくは支援する情報処理システムが構成できる。
[0297] より具体的には、任意の特徴量を用いて前述の情報処理システム例に必要な情報 の標本情報群を生成する。この標本は、音声や音楽であったり、絵画や写真、動画 であったり、味覚や嗅覚を刺激する化学成分であったり、体感する音頭や触覚であつ たり、計量可能な長さや重さや速度や位置といった情報であったり、文章であれば単 語の出現頻度や共起確率であったり、文章特徴である出現文字頻度であったり、 目 的とする任意の情報を組合せて表現したり、それらを組合せたり加工したりすることで 構成された特徴量であったり、それらの特徴量の構成比率であったりしてもよい。
[0298] この際、これらの情報や特徴量などは最初の段階で人手によって、任意の ID (Iden tification Data)やラベル、コードを分類された母集団に対し指定してもよいし、本実 施形態を用いて全ての標本情報群の平均と分散から事前に分類していてもよい。
[0299] このようにして任意の変数や係数で分類された標本情報は、母集団の数が安定す るまで本実施形態の分類を再帰的に繰返し母集団が安定するまで実施した結果得 られるラベルや ID、コード、分類番号、整理番号、管理番号を、人の主観や任意の 情報処理方法により再度特定のラベルや ID、コード、分類番号、整理番号、管理番 号にする。ラベルや ID、コード、分類番号、整理番号、管理番号をデータベースの検 索キーとして用いたり、ファイルシステムでのファイルの属性に用いたりしてもよい。
[0300] この結果、標本情報は、得られたラベルや ID、コード、分類番号、整理番号、管理 番号と人間が使う名称との関係を共起行列ゃュニグラム、バイグラム、 Nグラム、複合 型 Nグラムや 2次元や 3次元に限らない任意次元や任意段数の CDPマッチング、 DP マッチング、ビタビ探索、 N— best法、トレリス法などの応用に基づくパス探索やマツ チング結果といった任意の特徴量とともに 2分木やハッシュバッファといった索引処理 方法により関連付けられたのちに本発明により分類され記録された概念辞書や概念 索引を効率的に構築する。そして、本発明により分類生成された情報を索引や評価 ノ メータに用いた記録媒体により構成されたデータベースを用いて、人が入力した 情報が適切なラベルや ID、コード、分類番号、整理番号、管理番号と関連付けられ、 そのラベルや ID、コード、分類番号、整理番号、管理番号に関連する情報が検索さ れ、 目的の情報、サービス、商品、手段、手順、経路、 日程などが利用者に提示、提 案されたり、利用者に各種目的に応じた情報提供サービスとして実施されたり、記録 媒体に目的に応じて分類され記録されたりする。
[0301] このように、本実施形態により分類された基準によって利用者の入力した情報と他 の任意の情報を関連付けたりその関連性を評価したりすることで前述の色々な情報 提供サービスのための情報処理システムの実現を図る。そして、これらの応用により 意味や趣向、背景、状況に配慮したサービスが実現可能であることが考えられる。
[0302] また、本実施例の中に記載される共起行列や共起確率、確率遷移行列といった情 報の共存状態や変化を数値化して表現する情報に対して、一定の閾値未満の項目 は評価対象から削除したり、全ての確率の分散から求められる標準偏差に基づいて 平均から一定距離以上の位置にある情報を評価対象から削除したり、ガウス消去の ような方法で評価次元数を縮退させてもよいし、同様の条件で評価項目を追加しても よい。
[0303] くわえて、これらの共起行列や共起確率、確率遷移行列といった情報の共存状態 を数値化する情報において、性能が改善されたり効果があったり意味が感じられたり する人間の主観において肯定的に評価される情報群と、逆に劣化したり効果が低下 したり否定的に評価される情報群と、変化が主観的に感じられない情報群と、共起さ せることで著しく結果の悪化するため禁忌される情報群とに分類することで、実施に おける利用効率の改善も図ることができる。この分類は四つであるが、実際の使用に あわせてより多数の分類を実施してもよレ、。
[0304] また、情報分類装置 100は、記録媒体にデータを記録する外部記憶装置を備えて もよレ、。記憶媒体は、この手順を情報処理装置上で実施するためのプログラムゃスク リブト、ソースコードとレ、つた実施手段が情報として記録されたフラッシュメモリや CD -ROM (Compact Disk Read Only Memory)、ハードディスク、フロッピー(登録 商標)ディスクなどの記録媒体である。
[0305] また、情報分類装置 100は、イーサネット (登録商標)や携帯電話向けモデム、無線 LAN (Local Area Network)を例とする有線/無線を問わず通信手段やバス接続 手段となる送受信装置や、撮像装置や集音装置、傾斜センサ、音響センサ、光セン サ、方向センサ、 GPS、温度センサ、湿度センサ、地磁気センサ、キーボード、マウス 、タブレット、スキャナといった任意の入力装置やセンサ、そして 2次元や 3次元のディ スプレイといった表示装置、スピーカなどの発音装置、任意の薬品や化学物質による 素材を合成するための装置や製造機器、印字や印刷するための機器、ロボットの手 足や車輪などによる任意の出力装置を具備してもよぐそれらの装置と任意の信号を 入出力するための光学的端子および/もしくは電気的、電磁的端子類を具備してい てもよレ、。また、これらは、内蔵であるか外付けであるかを問わない。
[0306] また、情報分類装置 100を含むパソコンやカーナビ、基幹サーバや通信基地局と いった情報端末や情報処理装置、携帯電話や腕時計、装身具形状端末、リモコン、 PDA, ICカード、インテリジェント RFID、身体埋め込み端末といった携帯端末であつ てもよく、本発明はアルゴリズム実施応用であるため、演算回路を有すれば任意の装 置上で実施可能である。
[0307] また、ロボット、電車、船舶、航空機、 自動車、 自転車、特殊車両、工作機械、人工 衛星、販売設備、通信設備、搬送設備、加工設備、空調設備、水道設備、電力設備 、ガス設備、衛生設備、農業設備、海洋設備、建設設備、監視設備、課金設備、住 宅設備、娯楽設備、安全設備、交通設備、動力設備、教育設備、生産設備、マイクロ マシンなどの駆動系を伴う機械装置を制御する制御装置が情報分類装置 100を含 むようにしてもよい。
[0308] そして、情報分類装置 100を携帯可能な大きさまで縮小し、情報端末として利用す ることが可能であってもよい。
[0309] また、情報分類装置 100は、複数の異なる利用者の通信を相互に接続交換し、場 合によっては通信に伴って課金を実施することで社会の利便性を図る機能を備えた 情報処理装置であってもよい。
[0310] また、本実施形態においては、情報分類装置 100について説明した。しかし、これ に限定されず、図 2で説明した処理をコンピュータに実行させる情報分類方法、また は、図 2で説明した処理をコンピュータに実行させる情報分類プログラムとして発明を 捉えることができる。
[0311] 図 6は、本実施形態の変形例に従う情報分類システムの概略を示す図である。
図 6を参照して、情報分類システムは、情報処理装置 100A, 100B、および、情報 端末 200A〜200Cを含む。情報処理装置 100A, 100B、および、情報端末 200A 〜200Cは、それぞれ、インターネットや電話回線網などのネットワーク 500を介して 接続される。
[0312] 情報処理装置 100A, 100Bは、それぞれ、前述した情報分類装置 100と同様の機 能を備える。そして、情報処理装置 100A, 100Bのいずれかは、情報端末 200A〜 200Cのいずれ力からの要求に応じて、分類対象の標本情報を複数の母集団に分 類し、要求した情報端末に分類された結果を送信する。
[0313] たとえば、情報処理装置 100A, 100Bのいずれ力が、情報処理端末 200A〜200 Cのいずれかから、複数の母集団を受信し、それらの母集団に帰属する標本情報を 分類し直し、要求した情報端末に分類された母集団を送信する。これにより、標本情 報を自律的かつ安定的に分類した母集団を与えることができる。
[0314] また、前述したような情報処理装置 100A, 100Bおよび情報端末 200A〜200Cを 含み、 ASP (Application Service Provider)型のサービスを提供する情報提供シス テムとして適用したり、データベース装置としたり、データベース装置に組込まれた本 発明による分類情報をサービス提供のために記憶した記録媒体としたり、通信回線 を用いた本発明に基づいた分類を用いた情報配信装置としたりすることができる。 [0315] また、情報処理装置 100A, 100Bのいずれ力が、情報処理端末 200A〜200Cの いずれかから、分類対象の標本情報を受信し、情報処理装置の記憶部に記憶され た母集団のうちいずれの母集団に帰属するかを判定し、要求した情報端末に判定さ れた母集団を識別する情報を送信するようにしてもよい。これにより、分類対象の標 本情報が帰属する母集団を識別する情報を自律的かつ安定的に与えることができる 。また、要求した情報端末に課金を実施するようにしてもよい。
[0316] また、本実施形態に基づいて構成された情報を記録媒体に記録し、そのまま配布 したり、書籍に添付して配布したり、通信環境を用いて配布したりしてもよい。この際、 CD— ROMや DVD— ROM (Digital Versatile Disk Read Only Memory)といつ た記録媒体や、 2次元バーコードのような印刷媒体、フラッシュメモリのような電子媒 体、電話回線や ADSL (Asymmetric Digital Subscriber Line)、光ファイバといった 伝送媒体を経由して遠隔に記憶された記録媒体などであってもよレ、。
[0317] また、本実施形態の情報処理装置 100, 100A, 100Bのいずれ力が、前述した構 成に加えて、さらに、分類された母集団を記憶するデータベースを備え、ユーザや端 末装置 200A〜200Cのいずれ力から受取った分類対象の標本情報力 いずれの 母集団に帰属するかを検索して検索結果をユーザや端末装置 200A〜200Cのい ずれかに受渡すデータベース検索システムとして本発明を捉えることができる。また、 このようなデータベースを構築するデータベース構築装置として本発明を捉えること ができる。
[0318] また、前述のデータベースの内容に関し、本発明を用いて距離評価方法である距 離評価関数による距離算出により得られた帰属母集団や他の母集団の重心からの 距離に基づいて、それぞれの母集団に対するそれぞれの標本の帰属度を評価する ことにより、再分類を実施し、利用者に提示するための基準となるテーブルやレコード 、インデックスからなる分類情報や分類基準、表現情報およびそれらに対して発行さ れるクエリやキーワードといったサービスを実現するために利用者へ提供するための 任意の情報を更新および/もしくは変更や最適化を行なうことで利便性の高いサー ビスを実施してもよい。
[0319] また、検索においては従来から一般的に用いられる、任意の ID 'ラベル同士が一 致する場合や任意の ID'ラベル同士と関連付けられた任意の特徴量同士に対して 任意の距離評価方法による評価距離が本発明による分類方法を指標として近いと評 価される対象を同様の分野'分類に属すると判断することで、検索結果として選択し 利用者に提示することが可能である。
[0320] また、遺伝的アルゴリズムの有効無効フラグやフラグ項目に本発明による評価分類 方法や分類結果を用いることで、任意の特徴や情報同士が確率的に間係する状態 に適応可能な分類評価機能を実現し、状況に応じて有効機能の組合せを切替えて 臨機応変な対応を可能とする分類方法を実現してもよい。
[0321] このように、前述のデータベース構築装置を用いて本発明により分類された IDや変 数やテーブルやレコード、インデックスの項目や内容として記憶することを特徴とする データベースを用いて、顧客の嗜好や自然情報の傾向、経済の傾向、動物行動の 傾向、人の心理傾向といった従来では傾向分析の困難だった情報を分類し検索す ることで任意のサービスを実施する装置が実現できる。
[0322] また、本実施形態における情報分類装置 100を次のように見ることができる。
情報分類装置 100は、ある母集団 Aに帰属する k個の標本 aと母集団 Aとの距離算
k
出部を構成し、その距離算出部に基づいて距離 Dを求め、求められた各標本 aの母
k k 集団 Aとの距離を標本 aと母集団 Aの距離平均値 μ と標準偏差値 σ といった統計
k a a
情報算出部を用いて得た値にしたがって、統計的な正規分布の出現確率により母集 団への帰属度合を評価する。
[0323] この帰属度合評価部は、例えば 99. 7%以上の確率で標本 aと距離平均値 μ との k a 差が平均を中心とした正規分布出現確率からみて範囲外と予測される値である 3 σ a
(標準偏差値の 3倍)より大きい場合、別の母集団 Bや母集団 Cといったより近い母集 団ゃ新規母集団に帰属させ、そうでない場合は母集団 Aに従来通り帰属させること により、母集団 Aに帰属する標本群が正規分布を構成できるように再帰的な分類を 実施する。
[0324] 図 7で説明したような正規分布であれば対称的な分布になり、母集団からの距離は 重心の距離を求めると、距離平均値が概ね 0. 68 σ付近になり 3 σの範囲に母集団 の 99%以上の標本が含まれる。しかし、人が作った母集団では境界があいまいにな り、図 8で説明したような非対称な分布になることが頻繁に生じる。
[0325] このため、図 8で説明したような非正規分布の場合、平均位置は標本の状況により 不定となり、必ずしも距離平均値から 3 σ以内に母集団の重心から 99%以上の標本 が含まれる保証は無い。
[0326] このことから、本実施形態では前述した内容や図 3にある様に母集団の重心からの 距離が距離平均値から見て 3 σの外にある標本に関し、その標本を 3 σに含む母集 団があればその母集団に帰属させ、どの母集団の 3 σにも帰属しない場合は、新た に母集団 Cを形成するようにする。この際、母集団 Cの要素数が必要な評価次元数よ り小さいといった統計上の問題を生じる場合は、必ずしも新規母集団を評価に用い なくてもよい。
[0327] このように、人の指定に基づいて演繹的に求められる情報境界の妥当性を重心か らの距離の正規分布における出現確率に基づいた統計的手法により帰納的に確認 する。そして、演繹的にも帰納的にも妥当でないと判断された場合、仮説的に母集団 を構成し、その母集団が妥当な重心を有していれば、そのあと継続される演繹と帰納 により残り、妥当でなければ淘汰され、最終的に適切な重心の母集団のみが残る。
[0328] その結果、各々の要素と各々の母集団との距離情報を正規化したベクトル間距離 正規化距離に基づいて、母集団の分割や結合、変更が実施されるため統計学的な 正規分布を期待した場合の根拠があり、できるだけ正規分布に近似した情報分類を 実施する情報分類装置を構成できる。
[0329] また、母集団の重心が極端に近い場合、たとえば、互いに 1 σの範囲にある距離に 母集団が存在する場合、その母集団を統合することで、不用意な母集団の増加を防 いでもよいし、統計の都合上、充分な標本が集まらない場合や全体のサンプルゃ特 定母集団から 5 σ程度の近隣にある複数の母集団を統合したサンプノレ群からもとめ られる平均と標準偏差から見て、評価対象のサンプルや母集団が 4 σ以上はなれて レ、る場合などの統計的に考慮すべき条件において、その母集団を削除してもよい。
[0330] このため、人間の感覚に基づいた抽象概念やあいまいな表現、感性情報といった 従来では定量化による分類が困難であった情報の分類を実現でき、人にやさしいサ 一ビスやそのようなサービスを実現する装置や情報処理システムや通信基地局ゃ携 帯端末を実現することができるため、インターネットなどのポータルサイトや検索サイト 、販売サイト、 SNS (Social Networking Site)、知識を共有するエキスパートシステム サイト、オークションサイト、情報を分類するためのスクリーニングシステム、ネットヮー ク上の信用情報や認証情報を取り扱う認証サイト、ァグリゲートサービス、情報処理 装置のグラフィカノレ'インターフェースやタンジブノレ'インターフェース、エージェント' インターフェース、ロボット、仮想現実、拡張現実などにおいて RSS (RDF Site Sum mary)等を実施するときの情報評価の指標に本発明を用いたり、 XML (extensible Markup Language)や; ^OA (Service Oriented Architecture) SML (simple (or St upid or Software) Markup Language)、 MCF (Meta Contents Framework)、 DT D (Document Type Dermition)、 GML (Geography Markup Language)、 SMIL (S ynchronized Multimedia Integration Language)、 SGML (Standard Generalized Mark-up Language)、 RDF (Resource Description Framework)等のメタ表現形式 の分類指標に本発明を用いたり、 SOAP (Simple Object Access Protocol)や UD DI (Universal Description, Discovery, and Integration)、 WDL (Web Services Description Language)、 SVG (Scalable Vector Graphics)、 HTML (HyperText Markup Language)等の各種プロトコルやスクリプト、情報処理言語を任意に組み合 わせてサービスを実施できる。
[0331] [変形例]
次に、本実施の形態の変形例について説明する。例えば、図 2のステップ S12の距 離評価において、評価用サンプルである
[0332] ほ女 24]
[0333] の構成要素が {xl、 x2、 x3、 x4、 x5、 x6、 x7、 x8 }であり、評価関数の入力べクトノレ である
[0334] ほ 5]
Y [0335] の構成要素が {yl、 y2、 y3、 y4、 y5、 y6 }である場合、それぞれのベクトル要素に事 前に名称若しくは構成要素の IDなどの識別子を与えておく。
[0336] この構成要素に対する識別子としての名称若しくは構成要素の IDは音声認識の観 点から例えれば、それ自身が音素のように 1つの意味を持つラベルであってもレ、レ、し 、音素と音素片のようにより抽象的なラベルの上位概念と下位概念とを組み合わせて 、音素の遷移状態を表す識別子として任意の効率的な表現を行なっていてもよい。 この上位概念および下位概念は、映像要素や商品、学問、文化、映画、音楽、といつ た任意の分野の情報空間におレ、て用いられてレ、る概念を利用することでそれぞれの 分野に適した応用を可能とする構成であってもよい。
[0337] そして、距離評価を行なう際に、サンプルと評価関数に与えられた識別子としてのラ ベルの名称若しくは構成要素の IDが以下のように等しい場合と、等しくない場合、入 れ替わってレ、る場合があるとする。
[0338] [表 1]
Figure imgf000057_0001
[0339] [表 2] サンプルべク トル Z 评価関数入力べクトル Y の値— X 2 y 1のラベル— b
2の値- 1 y 2のラベリレ ~+ a z 3の値— X 3のラペル— g z 4の値— X 4 y 4のラベル→ d
5の値→0若しくはラベル iのサンプル平均 y 5のラベル-
6の → X 6 y 6のラベル- [0340] この場合、サンプルベクトルの順序を評価関数の入力ベクトルのラベルにあわせて 変数の順序をそろえデータのラベル関係が同じになるようにするとともに、サンプノレ ベクトルが余る変数に関しては削除し、サンプノレベクトルに不足するラベルに関して、 適当な変数を割当てて追加する。この際、割当てる値は 0であったり、評価関数の構 築時に用いたサンプノレ群による要素の平均値であったりしてもよい。このとき、データ のラベル共起や共起時の効果が逆相関になるもの、正相関になるもの、相関がない もの、相関を持たせてはいけないものを評価結果に基づいて分離し、そのラベル同 士がどういう関係にあるかを考慮して組み合わせてもよいし、本発明を用いてラベル 同士の相関性を評価して構成してもよレ、。
[0341] そして、
[0342] [数 26]
X
[0343] の要素再構成後のベクトルを
[0344] [数 27]
Z
[0345] とし {zl、 z2、 z3、 z4、 z5、 z6}とする。
このような変換を行なう場合、過剰である x3、 x8は項目から削除し、 z5には評価関 数側で iとラベル付けされた評価関数構築時のサンプノレにおける対称要素である iラ ベルの平均値若しくは 0を代入することで、評価関数と被評価ベクトルとの構成要素 が異なっていても評価を可能とする。
[0346] また、この際、評価関数側のベタトノレの評価順序を最大固有ベクトルの大きい順に ラベルと要素値をソートしそれにあわせてサンプノレベクトルもソートし同様の基準を導 入して距離や類似性を評価してもよい。また、入力ベクトルに 0が多い場合や極端に 小さい値、平均に近い値が多い場合には、評価関数構築サンプルの平均と分散に 基づく共分散行列に対し、極端に小さな値や平均に近い値をもつラベルもしくは ID 個所の要素値を 0と見なしてガウス消去を用いて次元を縮小し、評価関数自体も縮 小再構成したり、入力ベクトルの項目が 0や平均値である場合にその項目に相当す る距離計算のための処理を省いたりすることで演算効率を改善による単位時間あたり の演算速度の向上を図ってもよい。
[0347] また、ベクトル同士の場合も同様であるが、以下のように被評価ベクトル側にも修正 をカ卩える方法を用レ、、入力ベクトルを
[0348] ほ 8]
[0349] から
[0350] ほ 9]
Z
[0351] に、被評価ベクトルを
[0352] [数 30]
Ϋ
[0353] から
[0354] [数 31]
W
[0355] へと構成要素を再構成してもよい。この際、下記の例ではベクトル要素に 0を代入し ているが、この要素の値はその要素を含む側のベタトノレが帰属する母集団における それぞれの要素値のサンプノレ平均であってもよレ、。また、このような識別子としてのラ ベルや IDの一致による構成要素の変更はベクトル解析ばかりではなぐマトリクス解 析ゃテンソル解析といった多次元評価情報に用いてもよい。また、要素を変更したベ タトル構成に基づいて、固有や値固有ベクトルを求めたり、共分散行列や確率遷移 行列、定常遷移行列、状態遷移行列といった各種遷移行列、共起行列、共起行列 の遷移確率行列といった任意の行列を作ったり、任意の評価関数を再構築してもよ レ、。 [0356] [表 3]
サンプルべク トル 被評価べク トル Y
X 1のラベル— a y 1のラベル— b
X 2のラベル→ b y 2のラベル— a
X 3のラベル→ c y 3のラベル一♦ g
X 4のラベル— d y 4のラベル— d
X 5のラベル— Θ y 5のラベル→ I
X 6のラベル— f y 6のラベル→ f
X 7のラベル→ g
x 8のラベル" * h
[0357] [表 4]
Figure imgf000060_0001
[0358] このように、評価項目をそろえ、互いに要素をもたないため空白となった項目に任 意のダミーデータを利用したり、評価側と被評価側と適宜追加したり削除したりするこ とで、共通の要素ラベルを用いた整合性をとることを可能とし、距離評価不可能だつ た異なる評価要素の情報同士における距離や相関性を評価することができるように なる。この場合、本発明における評価距離を要素として用レ、、評価関数の要素ラベル やサンプルの要素ラベルと関連付けることで関数により評価された距離でサンプルを 再評価したり、関数を再評価したりすることで階層化するといった方法も容易に考えら れる。また、本実施例のように評価関数の入力ベクトルを再構成するのではなぐ評 価関数に用いる共分散行列の順序や項目を再構成することで、同様の効果を得るこ とも可能である。また、距離評価に関しては、サンプル Aの帰属する評価関数 Xとサン プル Bの帰属する評価関数 Yとがある場合、 Aの評価関数 Yによる距離評価と Bの評 価関数 Xによる距離評価を行なった場合、 A標本と Y関数では近く B標本と X関数で は遠い場合において、情報処理手段や標本の帰属先を代えて再学習を行なうといつ た方法も考えられる。
[0359] なお、これらのベクトルの再構成は、従来のソートアルゴリズムやキューやバッファリ ングにおけるインデックスの追加 ·削除'変更 ·入替とレ、つたラベル処理に用いる各種 アルゴリズムと DPや HMM、正規表現などを用いたラベルマッチング処理の組み合 わせによりプログラムを構築することで実施可能である。具体的には、関数に入力す る変数の各々の識別子としてラベルを指定する。入力するサンプルの変数それぞれ にラベルをつける。ラベルが一致するかどうか評価し、一致しない場合、ラベルが関 数にあってサンプノレにない場合はサンプル側にダミーデータを挿入する。このダミー データはその項目の平均値や 0といった値や標準偏差の任意倍の値を用いてもよい 。そして、ラベルがサンプルにあって、関数にない場合はサンプノレ側の変数そのもの を削除してもよレ、。そして、このように構成された評価関数により距離評価し、その平 均と分散、標準偏差に基づいて帰属度合を出力する。といった、手順で実行される。
[0360] また、これらの評価関数の評価次元数を動的に制御して、標本に対して少ない評 価次元数で評価関数を用いて処理し高速な分類処理をいつたん行なった後に、分 類された標本を再度より多い評価次元数で評価関数を用いて詳細分類することによ り、事前に結果を大まかに予測しておき、予測結果と詳細分類後とがどの程度一致 するかを再度評価することで、臨機応変な分類への対応を行なってもよい。また、こ れらの再評価結果を特徴量として本発明の特徴ベクトルに用いてもよい。
[0361] また、これらの演算に基づいて得られた任意数の固有値および Zもしくは任意数の 固有べクトノレを特徴量として用いたり、それらの固有値や固有べクトノレを任意回数の 階層化された評価関数に用いたりしてもよい。また、各評価関数の評価次元数を特 徴量としてもよい。この場合、例えば距離を正規化した後、平均を最大次元数の半分 の値とみなして、出現確率に応じて、全体の次元数が 100である場合、出現確率が 9 8%であれば 98次元、出現確率が 50%であれば 50次元、出現確率が 5%であれば 5次元としてみたり、また逆に、 98%であれば 2次元、 75%であれば 25次元などの確 率密度関数に基づいた帰属確率と相関性を持たせることで、距離や出現確率を評 価関数の変数に用いたりしてもよい。
[0362] また、距離評価に用いる評価関数において真を評価する関数と偽を評価する関数 を構成し、真が近く偽が遠い場合は真、偽が近く真が遠い場合は偽、ともに近い場合 は判断できなレ、が関連性が高レ、、ともに遠レ、場合は判断できなレ、が関連性が低いと レ、つた評価を行なっても良レ、。
[0363] このような、ベクトルやマトリクス、テンソルなどの多次多元情報空間における情報を 評価するとき、本発明に用いているような評価関数による距離評価は超球同士の近 似を評価するための多次元多項式を用いた評価方法であると考えられる。次に、フエ ルマーの定理である nが 2より大きい自然数ならば、 xn + yn = znとなる整数 X, y, zの 組は存在しないことや、ルツフー二、ァーベル、ガロアによる五次以上の方程式にお レ、て代数的解法がないことが知られており、それらの解は行列式などにより得る必要 がある。また、行列式は波動関数へ可換であることもよく知られている。
[0364] このこと力ら、多次元多項式としてマハラノビス距離評価を捕らえると、
[0365] [数 32]
Figure imgf000062_0001
[0366] と捕らえることが可能であり、固有ベクトルに基づく共分散行列 Vが固有値の平方根 で除算されるとともに多項式構造に基づいて距離 Dが求めていることや、標本の各要 素平均との差に固有ベクトルに基づく共分散行歹 IJVを乗じていることを踏まえると、多 次元距離計算に用いられる式やベイズ識別式においてに n >4の場合や補正項とな る固有値に基づく定数、事前確率などにより演算価結果が有限桁で表現できないこ とが予測され、再帰的もしくは階層的な評価を行なう場合を考慮すると各要素変数の いずれかが有限桁でなくなると予測される。また、サンプリング定理にあるように、獲 得した標本精度の半分までしか情報が再現できないことや情報を定量化するために は空間の範囲と解像度が確定する必要があるため目的に基づいた限度を設けない 限り、完全な情報の獲得はできないと予測できる。以上のことから、多次元空間にお レ、て有限桁での連続的な情報表現や伝達が困難になると可能性が高い。仮に、こう いった多次元多項式の解や要素変数の値が有限桁で表現できない場合、安定した 量子化基準を多次元空間で得ることができないため常に演算結果に誤差が生じ演 算回数や時間経過に伴う累積によりカオス化する可能性がある。
[0367] このような点から予想するに、 自然界のような時系列的に変化する多次元情報空間 において、最低限、時間軸(変化量)の範囲と空間軸の範囲といった 4つの軸を特定 しなければ客観的な定量ィヒはできないこと、定量化にもとづく再計算を時系列的に 行なわなければならないことを踏まえると、前述のような多次元多項式を用いて算術 的予測を定量的に行なうには、本発明のような方法を用いて確率的に予測解を得る カ 低次元に空間縮減した式による側面的な評価方法により予測解を得ることしかで きないと考えられる。
[0368] 今回開示された実施の形態は、任意の出願された特許や文献、技術と関連付けて 利用可能であり、それらの特性に従って改善可能であることが容易に考えられる。
[0369] また、今回開示された実施の形態はすべての点で例示であって制限的なものでは ないと考えられるべきである。本発明の範囲は、上記した説明ではなぐ請求の範囲 によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれ ること力 S意図される。

Claims

請求の範囲
[1] 標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集 団ごとの重心と、分類対象標本情報との統計的距離を算出する距離算出手段 (S11 , S12, S14)と、
前記距離算出手段によって算出された統計的距離についての前記母集団ごとの 統計情報を算出する統計情報算出手段 (S13)と、
前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によ つて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属 度合を評価する帰属度合評価手段 (S21 , S25)と、
前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標 本情報をいずれの母集団に帰属させるかを決定する帰属決定手段(S22, S26)と、 前記帰属決定手段によって決定された母集団に前記分類対象標本情報を帰属さ せる標本情報帰属手段 (S23, S27)とを備える、情報分類装置。
[2] 前記統計情報は、前記距離算出手段によって算出された統計的距離の前記母集 団ごとの平均値および標準偏差値である、請求項 1に記載の情報分類装置。
[3] 前記距離算出手段は、前記標本情報帰属手段によって前記分類対象標本情報が 帰属された更新母集団ごとの重心と、前記更新母集団のそれぞれに帰属する分類 対象標本情報との統計的距離をさらに算出する(S33)、請求項 1に記載の情報分類 装置。
[4] 前記帰属決定手段は、いずれの母集団への帰属度合も所定の度合の範囲外であ るときに、新たに母集団を生成する母集団生成手段を含み、生成した母集団に前記 分類対象標本情報を帰属させることを決定する(S26, S27)、請求項 1に記載の情 報分類装置。
[5] 前記統計情報は、前記距離算出手段によって算出された統計的距離の前記母集 団ごとの平均値および標準偏差値であり、
前記帰属度合は、その母集団に対する統計的距離の平均値からの偏差値であり、 前記所定の度合は、前記偏差値が前記平均値から所定倍の標準偏差値の範囲で ある、請求項 4に記載の情報分類装置。 所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標 本情報を他の母集団に帰属させる母集団削除手段 (S31)をさらに備える、請求項 4 に記載の情報分類装置。
前記帰属決定手段は、前記帰属度合評価手段によって評価された帰属度合が最 も良い母集団に前記分類対象標本情報に帰属させることを決定する、請求項 1に記 載の情報分類装置。
前記距離算出手段は、共分散構造分析に基づいて、前記統計的距離を算出する 、請求項 1に記載の情報分類装置。
前記距離算出手段は、固有値および固有ベクトルに基づいて、前記統計的距離を 算出する、請求項 1に記載の情報分類装置。
前記距離算出手段は、前記統計的距離としてマハラノビス距離を算出する、請求 項 1に記載の情報分類装置。
前記距離算出手段は、前記統計的距離としてベイズ識別関数による距離を算出す る、請求項 1に記載の情報分類装置。
前記距離算出手段は、算出した統計的距離を正規化する距離正規化手段 (S14) を含む、請求項 1に記載の情報分類装置。
コンピュータによって実行される情報分類方法であって、
標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集 団ごとの重心と、分類対象標本情報との統計的距離を算出するステップ (Sl l , S12 , S14)と、
算出された統計的距離についての前記母集団ごとの統計情報を算出するステップ (S13)と、
算出された統計的距離と統計情報とに基づいて、分類対象標本情報の前記母集 団への帰属度合を評価するステップ(S21, S25)と、
評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属 させるかを決定するステップ(S22, S26)と、
決定された母集団に前記分類対象標本情報を帰属させるステップ (S23, S27)と を含む、情報分類方法。 [14] コンピュータで実行される情報分類プログラムであって、
標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集 団ごとの重心と、分類対象標本情報との統計的距離を算出するステップ (Sl l , S12 , S14)と、
算出された統計的距離についての前記母集団ごとの統計情報を算出するステップ (S13)と、
算出された統計的距離と統計情報とに基づいて、分類対象標本情報の前記母集 団への帰属度合を評価するステップ(S21, S25)と、
評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属 させるかを決定するステップ(S22, S26)と、
決定された母集団に前記分類対象標本情報を帰属させるステップ(S23, S27)と をコンピュータに実行させる、情報分類プログラム。
[15] 情報分類装置(100A, 100B)と、前記情報分類装置と通信回線 (500)を介して 接続される情報端末(200A, 200B, 200C)とを含み、
前記情報分類装置は、
前記情報端末から標本情報が含まれる任意数の母集団を受取る母集団受取手 段と、
前記母集団受付手段によって受付けられた母集団のそれぞれに帰属する標本情 報の前記母集団ごとの重心と、分類対象標本情報との統計的距離を算出する距離 算出手段(Sl l , S12, S14)と、
前記距離算出手段によって算出された統計的距離についての前記母集団ごとの 統計情報を算出する統計情報算出手段 (S13)と、
前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によ つて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属 度合を評価する帰属度合評価手段 (S21 , S25)と、
前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標 本情報をいずれの母集団に帰属させるかを決定する帰属決定手段(S22, S26)と、 前記帰属決定手段によって決定された母集団に前記分類対象標本情報を帰属 させる標本情報帰属手段 (S23, S27)と、
前記標本情報帰属手段によって前記分類対象標本情報が帰属された分類後母 集団を前記情報端末に受渡す分類後母集団受渡手段とを備え、
前記情報端末は、
前記情報分類装置に前記任意数の母集団を受渡す母集団受渡手段と、 前記情報分類装置から前記分類後母集団を受取る分類後母集団受取手段とを 備える、†青幸艮分類システム。
[16] 情報分類装置(100A, 100B)と、前記情報分類装置と通信回線 (500)を介して 接続される情報端末(200A, 200B, 200C)とを含み、
前記情報分類装置は、
前記情報端末から分類対象標本情報を受取る標本情報受取手段と、 標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母 集団ごとの重心と、前記母集団受取手段によって受取られた分類対象標本情報との 統計的距離を算出する距離算出手段 (Sl l , S12, S14)と、
前記距離算出手段によって算出された統計的距離についての前記母集団ごとの 統計情報を算出する統計情報算出手段 (S13)と、
前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によ つて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属 度合を評価する帰属度合評価手段 (S21 , S25)と、
前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標 本情報をいずれの母集団に帰属させるかを決定する帰属決定手段(S22, S26)と、 前記帰属決定手段によって決定された母集団を識別する母集団識別情報を前 記情報端末に受渡す母集団識別情報受渡手段とを備え、
前記情報端末は、
前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、 前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段 とを備える、†青幸艮分類システム。
[17] 情報分類装置(100A, 100B)と、前記情報分類装置と通信回線 (500)を介して 接続される情報端末(200A, 200B, 200C)とを含み、
前記情報分類装置は、
前記情報端末から分類対象標本情報を受取る標本情報受取手段と、 標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母 集団ごとの重心と、前記母集団受取手段によって受取られた分類対象標本情報との 統計的距離を算出する距離算出手段(Sl l , S12, S14)と、
前記距離算出手段によって算出された統計的距離についての前記母集団ごとの 統計情報を算出する統計情報算出手段 (S13)と、
前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によ つて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属 度合を評価する帰属度合評価手段 (S21 , S25)と、
前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標 本情報をいずれの母集団に帰属させるかを決定する帰属決定手段(S22, S26)と、 前記帰属決定手段によって決定された母集団を識別する母集団識別情報を前 記情報端末に受渡す母集団識別情報受渡手段とを備え、
前記情報端末は、
前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、 前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段 とを備える、情報分類システムを用いた情報提供サービス。
情報分類装置(100A, 100B)と、前記情報分類装置と通信回線 (500)を介して 接続される情報端末(200A, 200B, 200C)とを含み、
前記情報分類装置は、
前記情報端末から標本情報が含まれる任意数の母集団を受取る母集団受取手 段と、
前記母集団受付手段によって受付けられた母集団のそれぞれに帰属する標本情 報の前記母集団ごとの重心と、分類対象標本情報との統計的距離を算出する距離 算出手段(Sl l , S12, S14)と、
前記距離算出手段によって算出された統計的距離についての前記母集団ごとの 統計情報を算出する統計情報算出手段 (S13)と、
前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によ つて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属 度合を評価する帰属度合評価手段 (S21 , S25)と、
前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標 本情報をいずれの母集団に帰属させるかを決定する帰属決定手段(S22, S26)と、 前記帰属決定手段によって決定された母集団に前記分類対象標本情報を帰属 させる標本情報帰属手段(S23, S27)と、
前記標本情報帰属手段によって前記分類対象標本情報が帰属された分類後母 集団を前記情報端末に受渡す分類後母集団受渡手段とを備え、
前記情報端末は、
前記情報分類装置に前記任意数の母集団を受渡す母集団受渡手段と、 前記情報分類装置から前記分類後母集団を受取る分類後母集団受取手段とを 備える、情報分類システムによって分類された分類後母集団を記録するコンピュータ 読取可能な記録媒体。
情報分類装置(100A, 100B)と、前記情報分類装置と通信回線 (500)を介して 接続される情報端末(200A, 200B, 200C)とを含み、
前記情報分類装置は、
前記情報端末から分類対象標本情報を受取る標本情報受取手段と、 標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母 集団ごとの重心と、前記母集団受取手段によって受取られた分類対象標本情報との 統計的距離を算出する距離算出手段(Sl l , S12, S14)と、
前記距離算出手段によって算出された統計的距離についての前記母集団ごとの 統計情報を算出する統計情報算出手段 (S13)と、
前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によ つて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属 度合を評価する帰属度合評価手段 (S21 , S25)と、
前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標 本情報をいずれの母集団に帰属させるかを決定する帰属決定手段(S22, S26)と、 前記帰属決定手段によって決定された母集団を識別する母集団識別情報を前 記情報端末に受渡す母集団識別情報受渡手段とを備え、
前記情報端末は、
前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、 前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段 とを備える、情報分類システムを用いて前記分類対象標本情報が帰属する母集団を 検索するための前記任意数の母集団を記憶するデータベース。
[20] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情 報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれ ぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報また はテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力するこ とによって前記統計的距離を算出することを特徴とする、請求項 1に記載の情報分類 装置。
[21] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記統計的距離を算出するステップは、前記任意のベクトル情報、マトリクス情報ま たはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の 識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マト リクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関 数に入力することによって前記統計的距離を算出することを特徴とする、請求項 13 に記載の情報分類方法。 [22] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記統計的距離を算出するステップは、前記任意のベクトル情報、マトリクス情報ま たはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の 識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マト リクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関 数に入力することによって前記統計的距離を算出することを特徴とする、請求項 14 に記載の情報分類プログラム。
[23] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情 報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれ ぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報また はテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力するこ とによって前記統計的距離を算出することを特徴とする、請求項 15または請求項 16 に記載の情報分類システム。
[24] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情 報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれ ぞれに対して同一の識別子となるように前記任意のべ外ル情報、マトリクス情報また はテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力するこ とによって前記統計的距離を算出することを特徴とする、請求項 17に記載の情報分 類システムを用いた情報提供サービス。
[25] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情 報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれ ぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報また はテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力するこ とによって前記統計的距離を算出することを特徴とする、請求項 18に記載の情報分 類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記 録媒体。
[26] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベ タトル情報、マトリクス情報またはテンソル情報であり、
所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素 態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、 前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情 報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれ ぞれに対して同一の識別子となるように前記任意のべ外ル情報、マトリクス情報また はテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力するこ とによって前記統計的距離を算出することを特徴とする、請求項 19に記載の情報分 類システムを用いて前記分類対象標本情報が帰属する母集団を検索するための前 記任意数の母集団を記憶するデータベース。
PCT/JP2005/021095 2004-11-25 2005-11-17 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム WO2006087854A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/791,705 US7693683B2 (en) 2004-11-25 2005-11-17 Information classifying device, information classifying method, information classifying program, information classifying system
JP2007503580A JP4550882B2 (ja) 2004-11-25 2005-11-17 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004-340723 2004-11-25
JP2004340723 2004-11-25
JP2005147048 2005-05-19
JP2005-147048 2005-05-19

Publications (1)

Publication Number Publication Date
WO2006087854A1 true WO2006087854A1 (ja) 2006-08-24

Family

ID=36916267

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/021095 WO2006087854A1 (ja) 2004-11-25 2005-11-17 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Country Status (3)

Country Link
US (1) US7693683B2 (ja)
JP (1) JP4550882B2 (ja)
WO (1) WO2006087854A1 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008088961A (ja) * 2006-10-05 2008-04-17 Hitachi Ltd ガスタービンの性能診断システムと診断方法及び表示画面
JP2008203935A (ja) * 2007-02-16 2008-09-04 Nagoya Institute Of Technology 迷惑メール判別方法
JP2009053430A (ja) * 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2010118064A (ja) * 2008-11-14 2010-05-27 Palo Alto Research Center Inc コンピュータ実施方法
JP2011175587A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
CN103309448A (zh) * 2013-05-31 2013-09-18 华东师范大学 一种加入符号序列匹配的基于三维加速度的手势识别方法
JP2013225207A (ja) * 2012-04-20 2013-10-31 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
JP2013228933A (ja) * 2012-04-26 2013-11-07 Docomo Technology Inc 特許調査結果評価装置、特許調査結果評価方法、およびプログラム
ES2655544A1 (es) * 2017-03-29 2018-02-20 Ignacio GOMEZ MAQUEDA Método y sistema para la monitorización de seres vivos
JP6457058B1 (ja) * 2017-12-06 2019-01-23 株式会社ゴールドアイピー 知的財産システム、知的財産支援方法および知的財産支援プログラム
CN109325294A (zh) * 2018-09-25 2019-02-12 云南电网有限责任公司电力科学研究院 一种火电机组空气预热器性能状态的证据表征构建方法
JP2019102099A (ja) * 2018-12-19 2019-06-24 株式会社AI Samurai 知的財産システム、知的財産支援方法および知的財産支援プログラム
CN110085026A (zh) * 2019-03-28 2019-08-02 中国公路工程咨询集团有限公司 一种基于聚类分析和马尔科夫模型的交通状态预测方法
CN110110133A (zh) * 2019-04-18 2019-08-09 贝壳技术有限公司 一种智能语音数据生成方法及装置
CN111552260A (zh) * 2020-07-10 2020-08-18 炬星科技(深圳)有限公司 工人位置估算方法、设备及存储介质
CN111950987A (zh) * 2020-08-18 2020-11-17 广州驰兴通用技术研究有限公司 一种基于互联网的远程教育培训方法及***
WO2022044625A1 (ja) * 2020-08-26 2022-03-03 パナソニックIpマネジメント株式会社 異常検出装置、異常検出方法及びプログラム
WO2022079904A1 (ja) * 2020-10-16 2022-04-21 日本電信電話株式会社 パラメータ推定装置、パラメータ推定システム、パラメータ推定方法、及びプログラム
CN114443849A (zh) * 2022-02-09 2022-05-06 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8060112B2 (en) 2003-11-20 2011-11-15 Intellient Spatial Technologies, Inc. Mobile device and geographic information system background and summary of the related art
US7245923B2 (en) * 2003-11-20 2007-07-17 Intelligent Spatial Technologies Mobile device and geographic information system background and summary of the related art
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
US7880154B2 (en) 2005-07-25 2011-02-01 Karl Otto Methods and apparatus for the planning and delivery of radiation treatments
US7906770B2 (en) * 2005-07-25 2011-03-15 Karl Otto Methods and apparatus for the planning and delivery of radiation treatments
US7418341B2 (en) * 2005-09-12 2008-08-26 Intelligent Spatial Technologies System and method for the selection of a unique geographic feature
US20070179970A1 (en) * 2006-01-31 2007-08-02 Carli Connally Methods and apparatus for storing and formatting data
US7603351B2 (en) * 2006-04-19 2009-10-13 Apple Inc. Semantic reconstruction
US8379990B2 (en) * 2006-05-10 2013-02-19 Nikon Corporation Object recognition apparatus, computer readable medium storing object recognition program, and image retrieval service providing method
US8694302B1 (en) * 2006-05-31 2014-04-08 Worldwide Pro Ltd. Solving a hierarchical circuit network using a Barycenter compact model
US8538676B2 (en) * 2006-06-30 2013-09-17 IPointer, Inc. Mobile geographic information system and method
US7707533B2 (en) * 2006-07-21 2010-04-27 Solido Design Automation Inc. Data-mining-based knowledge extraction and visualization of analog/mixed-signal/custom digital circuit design flow
US10957217B2 (en) 2006-08-25 2021-03-23 Ronald A. Weitzman Population-sample regression in the estimation of population proportions
US11151895B2 (en) * 2006-08-25 2021-10-19 Ronald Weitzman Population-sample regression in the estimation of population proportions
US8744883B2 (en) * 2006-12-19 2014-06-03 Yahoo! Inc. System and method for labeling a content item based on a posterior probability distribution
US20080154811A1 (en) * 2006-12-21 2008-06-26 Caterpillar Inc. Method and system for verifying virtual sensors
US7880621B2 (en) * 2006-12-22 2011-02-01 Toyota Motor Engineering & Manufacturing North America, Inc. Distraction estimator
USRE46953E1 (en) 2007-04-20 2018-07-17 University Of Maryland, Baltimore Single-arc dose painting for precision radiation therapy
JP5024668B2 (ja) * 2007-07-10 2012-09-12 富士ゼロックス株式会社 画像形成装置および情報処理装置
US8036764B2 (en) * 2007-11-02 2011-10-11 Caterpillar Inc. Virtual sensor network (VSN) system and method
US8224468B2 (en) * 2007-11-02 2012-07-17 Caterpillar Inc. Calibration certificate for virtual sensor network (VSN)
JP2009151540A (ja) * 2007-12-20 2009-07-09 Fuji Xerox Co Ltd 関連要素検索装置、及び関連要素検索プログラム
JP5500070B2 (ja) 2008-07-30 2014-05-21 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US9361367B2 (en) * 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
TW201009627A (en) * 2008-08-20 2010-03-01 Inotera Memories Inc Method for diagnosing tool capability
US7917333B2 (en) 2008-08-20 2011-03-29 Caterpillar Inc. Virtual sensor network (VSN) based control system and method
US20130079907A1 (en) * 2008-09-12 2013-03-28 Kristopher L Homsi Golf athleticism rating system
US20100129780A1 (en) * 2008-09-12 2010-05-27 Nike, Inc. Athletic performance rating system
US7809195B1 (en) * 2008-09-18 2010-10-05 Ernest Greene Encoding system providing discrimination, classification, and recognition of shapes and patterns
DE112009002603T5 (de) * 2008-10-30 2012-08-02 Ford Global Technologies, Llc Fahrzeug und Verfahren zum Angeben von Empfehlungen für einen darin befindlichen Fahrer
US20100145990A1 (en) * 2008-12-09 2010-06-10 Washington University In St. Louis Selection and performance of hosted and distributed imaging analysis services
US8745090B2 (en) 2008-12-22 2014-06-03 IPointer, Inc. System and method for exploring 3D scenes by pointing at a reference object
US8483519B2 (en) 2008-12-22 2013-07-09 Ipointer Inc. Mobile image search and indexing system and method
JP5436574B2 (ja) 2008-12-22 2014-03-05 インテリジェント スペイシャル テクノロジーズ,インク. ポインティングによって現実世界のオブジェクトとオブジェクト表現とをリンクさせるシステム及び方法
US8412493B2 (en) * 2008-12-22 2013-04-02 International Business Machines Corporation Multi-dimensional model generation for determining service performance
JP5647141B2 (ja) * 2008-12-22 2014-12-24 インテリジェント スペイシャル テクノロジーズ,インク. 関心のあるオブジェクトを指定することにより動作を開始しフィードバックを提供するシステム及び方法
US8443278B2 (en) 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document
US9672293B2 (en) * 2009-01-12 2017-06-06 Namesforlife, Llc Systems and methods for automatically identifying and linking names in digital resources
CA2750094A1 (en) * 2009-01-29 2010-08-05 Nike International Ltd. Athletic performance rating system
US20100205034A1 (en) * 2009-02-09 2010-08-12 William Kelly Zimmerman Methods and apparatus to model consumer awareness for changing products in a consumer purchase model
US8972899B2 (en) 2009-02-10 2015-03-03 Ayasdi, Inc. Systems and methods for visualization of data analysis
US20100211894A1 (en) * 2009-02-18 2010-08-19 Google Inc. Identifying Object Using Generative Model
US8285414B2 (en) 2009-03-31 2012-10-09 International Business Machines Corporation Method and system for evaluating a machine tool operating characteristics
EP2417544A4 (en) * 2009-04-08 2013-10-02 Google Inc SIMILARITY BASED ADJUSTMENT TO CLASSIFY
WO2010121166A1 (en) * 2009-04-16 2010-10-21 Nike International Ltd. Athletic performance rating system
CA2760616A1 (en) * 2009-05-01 2010-11-04 Nike International Ltd. Athletic performance rating system
US20100306028A1 (en) * 2009-06-02 2010-12-02 Wagner John G Methods and apparatus to model with ghost groups
CN101950377A (zh) * 2009-07-10 2011-01-19 索尼公司 新型马尔可夫序列生成器和生成马尔可夫序列的新方法
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
DE102009057583A1 (de) * 2009-09-04 2011-03-10 Siemens Aktiengesellschaft Vorrichtung und Verfahren zur Erzeugung einer zielgerichteten realitätsnahen Bewegung von Teilchen entlang kürzester Wege bezüglich beliebiger Abstandsgewichtungen für Personen- und Objektstromsimulationen
WO2011035298A2 (en) * 2009-09-21 2011-03-24 The Nielsen Company (Us) Llc Methods and apparatus to perform choice modeling with substitutability data
US8738228B2 (en) * 2009-10-30 2014-05-27 Ford Global Technologies, Llc Vehicle and method of tuning performance of same
US8258934B2 (en) * 2009-10-30 2012-09-04 Ford Global Technologies, Llc Vehicle and method of advising a driver therein
US8886365B2 (en) * 2009-10-30 2014-11-11 Ford Global Technologies, Llc Vehicle and method for advising driver of same
US9707974B2 (en) 2009-10-30 2017-07-18 Ford Global Technologies, Llc Vehicle with identification system
JP2011138194A (ja) * 2009-12-25 2011-07-14 Sony Corp 情報処理装置、情報処理方法およびプログラム
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search
US8903837B2 (en) * 2010-04-13 2014-12-02 Yahoo!, Inc. Incorporating geographical locations in a search process
US8548255B2 (en) * 2010-04-15 2013-10-01 Nokia Corporation Method and apparatus for visual search stability
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
US9289627B2 (en) 2010-06-22 2016-03-22 Varian Medical Systems International Ag System and method for estimating and manipulating estimated radiation dose
TWI537845B (zh) * 2010-10-20 2016-06-11 華亞科技股份有限公司 半導體製程管制規格之制定方法
US8676623B2 (en) * 2010-11-18 2014-03-18 Navteq B.V. Building directory aided navigation
US9159128B2 (en) 2011-01-13 2015-10-13 Rutgers, The State University Of New Jersey Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion
WO2012104786A2 (en) * 2011-02-04 2012-08-09 Koninklijke Philips Electronics N.V. Imaging protocol update and/or recommender
WO2012104780A1 (en) * 2011-02-04 2012-08-09 Koninklijke Philips Electronics N.V. Identification of medical concepts for imaging protocol selection
US8484024B2 (en) 2011-02-24 2013-07-09 Nuance Communications, Inc. Phonetic features for speech recognition
US20120223227A1 (en) * 2011-03-04 2012-09-06 Chien-Huei Chen Apparatus and methods for real-time three-dimensional sem imaging and viewing of semiconductor wafers
US20120259676A1 (en) 2011-04-07 2012-10-11 Wagner John G Methods and apparatus to model consumer choice sourcing
WO2012162405A1 (en) 2011-05-24 2012-11-29 Namesforlife, Llc Semiotic indexing of digital resources
US8793004B2 (en) 2011-06-15 2014-07-29 Caterpillar Inc. Virtual sensor system and method for generating output parameters
EP2766836A4 (en) * 2011-10-10 2015-07-15 Ayasdi Inc SYSTEM AND METHOD FOR ALLOCATING NEW PATIENT INFORMATION TO PREVIOUS RESULTS IN SUPPORT OF TREATMENT
US8805008B1 (en) * 2011-11-02 2014-08-12 The Boeing Company Tracking closely spaced objects in images
CN102521602B (zh) * 2011-11-17 2013-09-25 西安电子科技大学 基于条件随机场和最小距离法的超光谱图像分类方法
US9311383B1 (en) 2012-01-13 2016-04-12 The Nielsen Company (Us), Llc Optimal solution identification system and method
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9183600B2 (en) 2013-01-10 2015-11-10 International Business Machines Corporation Technology prediction
WO2014115254A1 (ja) * 2013-01-23 2014-07-31 株式会社日立製作所 シミュレーションシステム、およびシミュレーション方法
US9704136B2 (en) 2013-01-31 2017-07-11 Hewlett Packard Enterprise Development Lp Identifying subsets of signifiers to analyze
US8914416B2 (en) 2013-01-31 2014-12-16 Hewlett-Packard Development Company, L.P. Semantics graphs for enterprise communication networks
US9355166B2 (en) 2013-01-31 2016-05-31 Hewlett Packard Enterprise Development Lp Clustering signifiers in a semantics graph
WO2014126650A1 (en) * 2013-02-14 2014-08-21 Exxonmobil Upstream Research Company Detecting subsurface structures
WO2014143729A1 (en) 2013-03-15 2014-09-18 Affinnova, Inc. Method and apparatus for interactive evolutionary optimization of concepts
WO2014152010A1 (en) 2013-03-15 2014-09-25 Affinnova, Inc. Method and apparatus for interactive evolutionary algorithms with respondent directed breeding
CN104346354B (zh) * 2013-07-29 2017-12-01 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置
US9841463B2 (en) * 2014-02-27 2017-12-12 Invently Automotive Inc. Method and system for predicting energy consumption of a vehicle using a statistical model
US10599705B2 (en) * 2014-03-20 2020-03-24 Gracenote Digital Ventures, Llc Retrieving and playing out media content for a personalized playlist including a content placeholder
US10213149B2 (en) 2014-05-08 2019-02-26 Medical Care Corporation Systems and methods for assessing human cognition, including a quantitative approach to assessing executive function
US20150331930A1 (en) * 2014-05-16 2015-11-19 Here Global B.V. Method and apparatus for classification of media based on metadata
TWI595416B (zh) * 2014-06-12 2017-08-11 國立交通大學 多維資料空間的貝氏循序切割系統及其計數引擎
US20160004794A1 (en) * 2014-07-02 2016-01-07 General Electric Company System and method using generative model to supplement incomplete industrial plant information
JP6459345B2 (ja) * 2014-09-26 2019-01-30 大日本印刷株式会社 変動データ管理システム及びその特異性検出方法
US10062033B2 (en) * 2014-09-26 2018-08-28 Disney Enterprises, Inc. Analysis of team behaviors using role and formation information
US11093845B2 (en) * 2015-05-22 2021-08-17 Fair Isaac Corporation Tree pathway analysis for signature inference
US9665735B2 (en) * 2015-02-05 2017-05-30 Bank Of America Corporation Privacy fractal mirroring of transaction data
US10270609B2 (en) * 2015-02-24 2019-04-23 BrainofT Inc. Automatically learning and controlling connected devices
JP2018508090A (ja) * 2015-03-13 2018-03-22 プロジェクト レイ リミテッド ユーザインタフェースをユーザ注意力及び運転条件に適合化するシステム及び方法
US10147108B2 (en) 2015-04-02 2018-12-04 The Nielsen Company (Us), Llc Methods and apparatus to identify affinity between segment attributes and product characteristics
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
CN106295351B (zh) * 2015-06-24 2019-03-19 阿里巴巴集团控股有限公司 一种风险识别方法及装置
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
US9882807B2 (en) * 2015-11-11 2018-01-30 International Business Machines Corporation Network traffic classification
EP3373089B1 (en) * 2016-01-13 2021-03-10 Mitsubishi Electric Corporation Operating state classification device
US10605470B1 (en) 2016-03-08 2020-03-31 BrainofT Inc. Controlling connected devices using an optimization function
EP3450910B1 (en) * 2016-04-27 2023-11-22 FUJIFILM Corporation Index generation method, measurement method, and index generation device
KR101830522B1 (ko) * 2016-08-22 2018-02-21 가톨릭대학교 산학협력단 빅 데이터를 이용한 예측 대상 지역의 범죄 발생 예측 방법
US9946958B1 (en) * 2016-10-14 2018-04-17 Cloudera, Inc. Image processing system and method
US10216899B2 (en) * 2016-10-20 2019-02-26 Hewlett Packard Enterprise Development Lp Sentence construction for DNA classification
US10157613B2 (en) 2016-11-17 2018-12-18 BrainofT Inc. Controlling connected devices using a relationship graph
US10931758B2 (en) 2016-11-17 2021-02-23 BrainofT Inc. Utilizing context information of environment component regions for event/activity prediction
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10739733B1 (en) 2017-02-01 2020-08-11 BrainofT Inc. Interactive environmental controller
CN106874599B (zh) * 2017-02-17 2019-07-09 武汉大学 快速生成卵石碎石夹杂的混凝土三维随机骨料模型的方法
US10067746B1 (en) * 2017-03-02 2018-09-04 Futurewei Technologies, Inc. Approximate random number generator by empirical cumulative distribution function
US10365893B2 (en) 2017-03-30 2019-07-30 Futurewei Technologies, Inc. Sample-based multidimensional data cloning
CN107515842B (zh) * 2017-07-19 2018-06-19 中南大学 一种城市人口密度动态预测方法及***
US10922334B2 (en) * 2017-08-11 2021-02-16 Conduent Business Services, Llc Mixture model based time-series clustering of crime data across spatial entities
WO2019060199A1 (en) * 2017-09-19 2019-03-28 Dharma Platform, Inc. AUTOMATIC DATA SWITCHING
CN108304853B (zh) * 2017-10-10 2022-11-08 腾讯科技(深圳)有限公司 游戏相关度的获取方法、装置、存储介质和电子装置
EP3471107A1 (en) * 2017-10-12 2019-04-17 Fresenius Medical Care Deutschland GmbH Medical device and computer-implemented method of predicting risk, occurrence or progression of adverse health conditions in test subjects in subpopulations arbitrarily selected from a total population
US11062216B2 (en) * 2017-11-21 2021-07-13 International Business Machines Corporation Prediction of olfactory and taste perception through semantic encoding
RU2699573C2 (ru) 2017-12-15 2019-09-06 Общество С Ограниченной Ответственностью "Яндекс" Способы и системы для создания значений общего критерия оценки
CN108243191B (zh) * 2018-01-10 2019-08-23 武汉斗鱼网络科技有限公司 风险行为识别方法、存储介质、设备及***
CN108304875A (zh) * 2018-01-31 2018-07-20 中国科学院武汉岩土力学研究所 一种基于统计判别分类的***块度预测方法
GB201802440D0 (en) * 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data
US20190355477A1 (en) * 2018-05-18 2019-11-21 Beckman Coulter, Inc. Test panel analysis
CN110599336B (zh) * 2018-06-13 2020-12-15 北京九章云极科技有限公司 一种金融产品购买预测方法及***
US20210089952A1 (en) * 2018-06-19 2021-03-25 Shimadzu Corporation Parameter-searching method, parameter-searching device, and program for parameter search
US11035943B2 (en) * 2018-07-19 2021-06-15 Aptiv Technologies Limited Radar based tracking of slow moving objects
GB2576501B (en) * 2018-08-16 2021-03-10 Centrica Plc Sensing fluid flow
CN109034269A (zh) * 2018-08-22 2018-12-18 华北水利水电大学 一种基于计算机视觉技术的棉铃虫雌雄成虫判别方法
CN108845302B (zh) * 2018-08-23 2022-06-03 电子科技大学 一种k近邻变换真假目标特征提取方法
JP7005463B2 (ja) * 2018-09-27 2022-01-21 株式会社東芝 学習装置、学習方法及びプログラム
CN109446467B (zh) * 2018-09-28 2023-10-24 安徽皖仪科技股份有限公司 数字滤波方法及装置
US10878292B2 (en) * 2018-12-07 2020-12-29 Goodrich Corporation Automatic generation of a new class in a classification system
CN109697466B (zh) * 2018-12-20 2022-10-25 烟台大学 一种自适应区间型空间模糊c均值的地物分类方法
EP3935581A4 (en) 2019-03-04 2022-11-30 Iocurrents, Inc. DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING
US11245729B2 (en) * 2019-07-09 2022-02-08 Salesforce.Com, Inc. Group optimization for network communications
CN110675959B (zh) * 2019-08-19 2023-07-07 平安科技(深圳)有限公司 数据智能分析方法、装置、计算机设备及存储介质
CN110851321B (zh) * 2019-10-10 2022-06-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
US20210173855A1 (en) * 2019-12-10 2021-06-10 Here Global B.V. Method, apparatus, and computer program product for dynamic population estimation
CN111078589B (zh) * 2019-12-27 2023-04-11 深圳鲲云信息科技有限公司 一种应用于深度学习计算的数据读取***、方法及芯片
CN111191723B (zh) * 2019-12-30 2023-06-20 创新奇智(北京)科技有限公司 基于级联分类器的少样本商品分类***及分类方法
CN111291326B (zh) * 2020-02-06 2022-05-17 武汉大学 一种结合类内相似度和类间差异度的聚类有效性指标建立方法
CN111427984B (zh) * 2020-03-24 2022-04-01 成都理工大学 一种区域地震概率空间分布生成方法
US11551666B1 (en) * 2020-05-28 2023-01-10 Amazon Technologies, Inc. Natural language processing
CN111693658A (zh) * 2020-06-11 2020-09-22 上海交通大学 基于多种智能感官数据融合的食品品质鉴定方法
US11222232B1 (en) 2020-06-19 2022-01-11 Nvidia Corporation Using temporal filters for automated real-time classification
CN111912799B (zh) * 2020-07-17 2021-07-27 中国科学院西安光学精密机械研究所 一种基于高光谱水体库的自适应波段选择方法
CN112116159B (zh) * 2020-09-21 2021-08-27 贝壳找房(北京)科技有限公司 信息交互方法、装置、计算机可读存储介质及电子设备
US11978266B2 (en) 2020-10-21 2024-05-07 Nvidia Corporation Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications
US20220138260A1 (en) * 2020-10-30 2022-05-05 Here Global B.V. Method, apparatus, and system for estimating continuous population density change in urban areas
US20220262455A1 (en) * 2021-02-18 2022-08-18 Recursion Pharmaceuticals, Inc. Determining the goodness of a biological vector space
CN113327220B (zh) * 2021-06-24 2023-06-02 浙江成功软件开发有限公司 一种基于复杂网络的海洋多时间序列关联性发现方法
JP7504236B2 (ja) * 2021-06-25 2024-06-21 エルアンドティー テクノロジー サービシズ リミテッド データサンプルをクラスタ化する方法およびシステム
CN115700838A (zh) * 2021-07-29 2023-02-07 脸萌有限公司 用于图像识别模型的训练方法及其装置、图像识别方法
CN115218893B (zh) * 2022-06-19 2024-05-28 中国人民解放军空军工程大学 一种基于特征提取的地磁导航方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167124A (ja) * 1999-12-13 2001-06-22 Sharp Corp 文書分類装置及び文書分類プログラムを記録した記録媒体
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3165247B2 (ja) * 1992-06-19 2001-05-14 シスメックス株式会社 粒子分析方法及び装置
JPH09161062A (ja) 1995-12-13 1997-06-20 Nissan Motor Co Ltd パターン認識方法
US6442555B1 (en) * 1999-10-26 2002-08-27 Hewlett-Packard Company Automatic categorization of documents using document signatures
JP3457617B2 (ja) * 2000-03-23 2003-10-20 株式会社東芝 画像検索システムおよび画像検索方法
JP3701197B2 (ja) 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US6728658B1 (en) * 2001-05-24 2004-04-27 Simmonds Precision Products, Inc. Method and apparatus for determining the health of a component using condition indicators
JP2003076976A (ja) 2001-08-31 2003-03-14 Mitsui Eng & Shipbuild Co Ltd パターンマッチング方法
JP3708042B2 (ja) * 2001-11-22 2005-10-19 株式会社東芝 画像処理方法及びプログラム
JP4080276B2 (ja) * 2002-08-27 2008-04-23 富士フイルム株式会社 オブジェクト抽出方法および装置ならびにプログラム
US7117108B2 (en) * 2003-05-28 2006-10-03 Paul Ernest Rapp System and method for categorical analysis of time dependent dynamic processes
US7548651B2 (en) * 2003-10-03 2009-06-16 Asahi Kasei Kabushiki Kaisha Data process unit and data process unit control program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167124A (ja) * 1999-12-13 2001-06-22 Sharp Corp 文書分類装置及び文書分類プログラムを記録した記録媒体
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAMAMOTO Y.: "Some Remarks on Statistical Pattern Recognition: Past, Present and Future", TECHNICAL REPORT OF IEICE, vol. 100, no. 507, 7 December 2000 (2000-12-07), pages 69 - 76, XP002996546 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008088961A (ja) * 2006-10-05 2008-04-17 Hitachi Ltd ガスタービンの性能診断システムと診断方法及び表示画面
JP2008203935A (ja) * 2007-02-16 2008-09-04 Nagoya Institute Of Technology 迷惑メール判別方法
JP2009053430A (ja) * 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2010118064A (ja) * 2008-11-14 2010-05-27 Palo Alto Research Center Inc コンピュータ実施方法
JP2011175587A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
JP2013225207A (ja) * 2012-04-20 2013-10-31 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
JP2013228933A (ja) * 2012-04-26 2013-11-07 Docomo Technology Inc 特許調査結果評価装置、特許調査結果評価方法、およびプログラム
CN103309448A (zh) * 2013-05-31 2013-09-18 华东师范大学 一种加入符号序列匹配的基于三维加速度的手势识别方法
ES2655544A1 (es) * 2017-03-29 2018-02-20 Ignacio GOMEZ MAQUEDA Método y sistema para la monitorización de seres vivos
WO2018178461A1 (es) * 2017-03-29 2018-10-04 Ignacio Gomez Maqueda Método y sistema para la monitorización de seres vivos
WO2019111545A1 (ja) * 2017-12-06 2019-06-13 株式会社 AI Samurai 知的財産システム、知的財産支援方法および知的財産支援プログラム
JP6457058B1 (ja) * 2017-12-06 2019-01-23 株式会社ゴールドアイピー 知的財産システム、知的財産支援方法および知的財産支援プログラム
JP2019101944A (ja) * 2017-12-06 2019-06-24 株式会社AI Samurai 知的財産システム、知的財産支援方法および知的財産支援プログラム
CN109325294B (zh) * 2018-09-25 2023-08-11 云南电网有限责任公司电力科学研究院 一种火电机组空气预热器性能状态的证据表征构建方法
CN109325294A (zh) * 2018-09-25 2019-02-12 云南电网有限责任公司电力科学研究院 一种火电机组空气预热器性能状态的证据表征构建方法
JP2019102099A (ja) * 2018-12-19 2019-06-24 株式会社AI Samurai 知的財産システム、知的財産支援方法および知的財産支援プログラム
CN110085026A (zh) * 2019-03-28 2019-08-02 中国公路工程咨询集团有限公司 一种基于聚类分析和马尔科夫模型的交通状态预测方法
CN110110133A (zh) * 2019-04-18 2019-08-09 贝壳技术有限公司 一种智能语音数据生成方法及装置
CN111552260A (zh) * 2020-07-10 2020-08-18 炬星科技(深圳)有限公司 工人位置估算方法、设备及存储介质
CN111950987A (zh) * 2020-08-18 2020-11-17 广州驰兴通用技术研究有限公司 一种基于互联网的远程教育培训方法及***
WO2022044625A1 (ja) * 2020-08-26 2022-03-03 パナソニックIpマネジメント株式会社 異常検出装置、異常検出方法及びプログラム
EP4206699A4 (en) * 2020-08-26 2024-03-13 Panasonic Intellectual Property Management Co., Ltd. ANOMALY DETECTION DEVICE, ANOMALY DETECTION METHOD AND PROGRAM
WO2022079904A1 (ja) * 2020-10-16 2022-04-21 日本電信電話株式会社 パラメータ推定装置、パラメータ推定システム、パラメータ推定方法、及びプログラム
AU2020472128B2 (en) * 2020-10-16 2023-11-30 Nippon Telegraph And Telephone Corporation Parameter estimation device, parameter estimation system, parameter estimation method, and program
JP7456514B2 (ja) 2020-10-16 2024-03-27 日本電信電話株式会社 パラメータ推定装置、パラメータ推定システム、パラメータ推定方法、及びプログラム
CN114443849A (zh) * 2022-02-09 2022-05-06 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质
CN114443849B (zh) * 2022-02-09 2023-10-27 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
JPWO2006087854A1 (ja) 2008-08-07
JP4550882B2 (ja) 2010-09-22
US7693683B2 (en) 2010-04-06
US20080114564A1 (en) 2008-05-15

Similar Documents

Publication Publication Date Title
JP4550882B2 (ja) 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
CN110929164B (zh) 一种基于用户动态偏好与注意力机制的兴趣点推荐方法
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及***
Chen et al. Efficient ant colony optimization for image feature selection
CN112085565A (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN113553510B (zh) 一种文本信息推荐方法、装置及可读介质
Habib et al. Altibbivec: a word embedding model for medical and health applications in the Arabic language
Sharma et al. Supervised machine learning method for ontology-based financial decisions in the stock market
CN114298783A (zh) 基于矩阵分解融合用户社交信息的商品推荐方法及***
Chanda Efficacy of BERT embeddings on predicting disaster from twitter data
Sadiq et al. High dimensional latent space variational autoencoders for fake news detection
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
Chemchem et al. Deep learning and data mining classification through the intelligent agent reasoning
CN114417172A (zh) 一种深度兴趣进化推荐方法、装置、设备和存储介质
CN116756347B (zh) 一种基于大数据的语义信息检索方法
Liao et al. Embedding compression with isotropic iterative quantization
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
Kumnunt et al. Detection of Depression in Thai Social Media Messages using Deep Learning.
Sridhar et al. Sentiment Analysis Using Ensemble-Hybrid Model with Hypernym Based Feature Engineering
Viji et al. A hybrid approach of Poisson distribution LDA with deep Siamese Bi-LSTM and GRU model for semantic similarity prediction for text data
Ling Coronavirus public sentiment analysis with BERT deep learning
Venkataraman et al. FBO‐RNN: Fuzzy butterfly optimization‐based RNN‐LSTM for extracting sentiments from Twitter Emoji database
Tizhoosh et al. On poem recognition
Aruna et al. Feature Selection Based Naïve Bayes Algorithm for Twitter Sentiment Analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2007503580

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11791705

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05806849

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 5806849

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11791705

Country of ref document: US