WO2018207524A1 - 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 - Google Patents

識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 Download PDF

Info

Publication number
WO2018207524A1
WO2018207524A1 PCT/JP2018/014926 JP2018014926W WO2018207524A1 WO 2018207524 A1 WO2018207524 A1 WO 2018207524A1 JP 2018014926 W JP2018014926 W JP 2018014926W WO 2018207524 A1 WO2018207524 A1 WO 2018207524A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
pulse
waveform
time
vector
Prior art date
Application number
PCT/JP2018/014926
Other languages
English (en)
French (fr)
Inventor
鷲尾 隆
正輝 谷口
敬人 大城
吉田 剛
孝之 鷹合
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to EP18798973.6A priority Critical patent/EP3623793B1/en
Priority to US16/611,455 priority patent/US20210140938A1/en
Priority to CN201880029955.6A priority patent/CN110720034B/zh
Priority to JP2019517508A priority patent/JP6807529B2/ja
Publication of WO2018207524A1 publication Critical patent/WO2018207524A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present invention relates to an identification method for identifying nonconforming data included in measurement data obtained from a measurement system, a classification analysis method for performing classification analysis based on data obtained by removing the nonconforming data, an identification device, a classification analysis device, and a storage medium.
  • Non-Patent Document 1 devices for measuring minute and minute objects have been developed one after another in the field of advanced sensing device development such as nano-sensing, minute measurement, and quantum measurement.
  • An object of the present invention is to appropriately identify nonconforming data from a measurement data set, and to perform, for example, an identification method that contributes to improving the reliability of measurement results by a leading-edge sensing device, and a highly accurate classification analysis for measurement data.
  • a classification analysis method, an identification apparatus, a classification analysis apparatus, an identification storage medium, and a classification analysis storage medium are provided.
  • the present invention focuses on a machine learning method for learning a classifier from a positive example set and an unknown set.
  • a PU classification method suitable for binary classification of positive examples / negative examples (Classification of Positive and positive and This is an invention made based on the knowledge that non-conforming data can be identified with high accuracy from a measurement pattern by using a classifier constituted by Ulabelled Examples). Details of the PU classification method are described in Non-Patent Document 3.
  • the first form according to the present invention is: An identification method for identifying nonconforming data detected due to elements other than an analyte from execution of a computer control program from pulsed signal data detected by introducing a sample containing the analyte into a measurement space.
  • the computer control program uses machine learning to learn a classifier that classifies positive and negative cases from positive case data of positive cases and unknown data of unknown sets in which either positive or negative cases are unknown
  • the nonconforming data included in the second type data is identified by executing the identification analysis program using the first type data as the positive example data and the second type data as the unknown data. This is an identification method.
  • the second form according to the present invention is: Having nonconforming data storage means for storing nonconforming data identified by the identifying method according to the first embodiment;
  • the computer control program classifies and analyzes the data to be analyzed by removing the nonconforming data detected due to elements other than the analyte from the data of the pulse signal detected by introducing the sample containing the analyte into the measurement space.
  • a classification analysis method performed by execution The computer control program has a classification analysis program for performing classification analysis using machine learning, Obtain in advance a feature amount indicating the waveform form of the pulse signal, The analysis is performed by executing the classification analysis program by using the characteristic amount obtained in advance as learning data for the machine learning, and using the characteristic amount obtained from the pulsed signal of the analyzed data from which the nonconforming data is removed as a variable.
  • a classification analysis method characterized by performing a classification analysis on an object.
  • the third form according to the present invention is:
  • the feature amount is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform, The depression angle that represents the slope from the pulse start to the pulse peak, An area that represents the sum of the time division areas obtained by dividing the waveform at predetermined intervals, The area ratio of the sum of the time division area from the start of the pulse to the pulse peak to the total waveform area, Time moment of inertia determined when the time segment area is assumed to be mass with respect to the start point of the pulse, and the time from the center to the time segment area is simulated to the radius of rotation, Normalized moment of inertia when normalized so that wave height becomes a reference value with respect to the moment of inertia of time, The waveform is equally divided in the wave height direction
  • Normalized wave width average moment of inertia when the wavelength is normalized so as to be a reference value with respect to the wave width average moment of inertia It is determined when the waveform is equally divided in the wave height direction, the variance is obtained from the time value for each division unit, the dispersion vector having the variance as a vector component is assumed to be a mass distribution, and the time axis of the waveform base is set as the rotation center.
  • Wave width dispersion moment of inertia, and normalized wave width dispersion moment of inertia when wavelength is normalized to the reference value with respect to the wave width dispersion moment of inertia It is a classification analysis method which is any one or 2 or more.
  • the 4th form concerning the present invention is: An identification device for identifying nonconforming data detected due to elements other than an analyte from execution of a computer control program from pulsed signal data detected by introducing a sample containing the analyte into a measurement space.
  • the computer control program uses machine learning to learn a classifier that classifies positive and negative cases from positive case data of positive cases and unknown data of unknown sets in which either positive or negative cases are unknown
  • the nonconforming data included in the second type data is identified by executing the identification analysis program using the first type data as the positive example data and the second type data as the unknown data. It is an identification device.
  • the fifth form according to the present invention is: Having nonconforming data storage means for storing nonconforming data identified by the identification device according to the fourth aspect;
  • the computer control program classifies and analyzes the data to be analyzed by removing the nonconforming data detected due to elements other than the analyte from the data of the pulse signal detected by introducing the sample containing the analyte into the measurement space.
  • a classification analysis device that performs by execution,
  • the computer control program has a classification analysis program for performing classification analysis using machine learning, Obtain in advance a feature amount indicating the waveform form of the pulse signal, The analysis is performed by executing the classification analysis program by using the characteristic amount obtained in advance as learning data for the machine learning, and using the characteristic amount obtained from the pulsed signal of the analyzed data from which the nonconforming data is removed as a variable.
  • Classification analysis apparatus characterized by performing classification analysis on objects.
  • the sixth form according to the present invention is:
  • the feature amount is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform, The depression angle that represents the slope from the pulse start to the pulse peak, An area that represents the sum of the time division areas obtained by dividing the waveform at predetermined intervals, The area ratio of the sum of the time division area from the start of the pulse to the pulse peak to the total waveform area, Time moment of inertia determined when the time segment area is assumed to be mass with respect to the start point of the pulse, and the time from the center to the time segment area is simulated to the radius of rotation, Normalized moment of inertia when normalized so that wave height becomes a reference value with respect to the moment of inertia of time, The waveform is equally divided in the wave height direction
  • Normalized wave width average moment of inertia when the wavelength is normalized so as to be a reference value with respect to the wave width average moment of inertia It is determined when the waveform is equally divided in the wave height direction, the variance is obtained from the time value for each division unit, the dispersion vector having the variance as a vector component is assumed to be a mass distribution, and the time axis of the waveform base is set as the rotation center.
  • Wave width dispersion moment of inertia, and normalized wave width dispersion moment of inertia when wavelength is normalized to the reference value with respect to the wave width dispersion moment of inertia It is a classification analyzer which is any one or two or more.
  • a seventh aspect according to the present invention is an identification storage medium characterized by storing the computer control program according to the first aspect.
  • the eighth aspect according to the present invention is a storage medium for classification analysis characterized by storing a second form computer control program.
  • the computer control program can identify nonconforming data detected due to elements other than the analyte from the data of the pulse signal detected by introducing the sample containing the analyte into the measurement space.
  • the computer control program includes a classifier that classifies positive and negative examples from positive example data of a positive example set and unknown data of an unknown set in which either positive example or negative example is unknown.
  • the second type data as the unknown data by performing the identification analysis program, can identify the non-conforming data included in the second type data. Therefore, in this embodiment, a classifier based on the PU classification method can be configured to identify the nonconforming data included in the pulsed signal obtained as a result of measurement with high accuracy. For example, the reliability of the measurement result by the advanced sensing device can be identified. It can contribute to improvement of the property.
  • the classifier in the present embodiment can be configured with each data of a non-conforming data set collected in the past and an actually measured data set with unknown positive / negative without using knowledge about the object or problem-specific properties. It has excellent non-conformance data removal performance that cannot be achieved by the conventional method of identifying by simple signal strength, and has wide applicability to analysis of various measurement data.
  • the non-conforming data storage means for storing the non-conforming data identified by the identification method according to the first embodiment, and the pulse-like signal detected by introducing the sample containing the analyte into the measurement space is detected.
  • the classification analysis program is executed with the feature quantity obtained from the pulse signal of the data to be analyzed as a variable.
  • each feature amount described above is a feature amount derived from the waveform form of the pulse-like signal, and by using one or two or more feature amounts in any one of these feature amount groups.
  • classification analysis by machine learning can be performed with higher accuracy.
  • the classification analysis is not limited to the case where the classification analysis is performed using at least one or more of the feature quantity groups, but the combination analysis of two or more of the feature quantity groups is performed. Can do.
  • the computer control program can identify nonconforming data detected due to elements other than the analyte from the data of the pulse signal detected by introducing the sample containing the analyte into the measurement space.
  • the computer control program includes: a classifier that classifies positive and negative examples from positive example data of a positive example set and unknown data of an unknown set in which either positive example or negative example is unknown.
  • the second type data as the unknown data by performing the identification analysis program, can identify the non-conforming data included in the second type data. Therefore, in this embodiment, a classifier based on the PU classification method can be configured to identify the nonconforming data included in the pulsed signal obtained as a result of measurement with high accuracy. For example, the reliability of the measurement result by the advanced sensing device can be identified. It is possible to provide an identification device that can contribute to improvement in performance.
  • the classifier according to the present embodiment can be configured with each data of a non-conforming data set collected in the past and an actual measurement data set with unknown positive / negative without using knowledge about the object or problem-specific properties.
  • it is possible to realize an identification device having excellent non-conformance data removal performance that cannot be achieved by the conventional method of identifying by simple signal strength and having wide applicability to the analysis of various measurement data. it can.
  • the non-conforming data storage means for storing the non-conforming data identified by the identification device according to the fourth aspect, and the pulse-like signal detected by introducing the sample containing the analyte into the measurement space is detected.
  • a classification analysis apparatus that performs classification analysis of data to be analyzed by removing the nonconforming data detected due to elements other than an analyte from data by executing a computer control program, the computer control program comprising machine learning Having a classification analysis program for performing classification analysis using the above, obtaining in advance a feature quantity indicating a feature of the waveform form of the pulse-like signal, using the feature quantity obtained in advance as learning data for the machine learning, and the nonconforming data
  • the classification analysis program is executed with the feature quantity obtained from the pulse signal of the data to be analyzed as a variable.
  • a classification analysis apparatus capable of performing a classification analysis on the analyte with high accuracy from the analyzed data from which the nonconforming data identified with high accuracy by the classifier based on the PU classification method according to the fourth embodiment is removed. Can be provided.
  • each feature amount described above is a feature amount derived from the waveform form of the pulse-like signal, and by using one or more feature amounts in any one of these feature amount groups. Therefore, it is possible to provide a classification analysis apparatus that can perform classification analysis by machine learning with higher accuracy.
  • the classification is not limited to the case where the classification analysis is performed using at least one or more feature quantities in the feature quantity group, but the classification analysis can be performed using a combination of two or more of the feature quantity groups.
  • An analyzer can be realized.
  • the seventh aspect it is possible to provide an identification storage medium storing the computer control program according to the first aspect. Therefore, since the storage medium according to the present embodiment has the effect of the computer control program described in the first embodiment, the computer control program stored in the identification storage medium is installed in the computer and the computer performs the identification analysis operation. Therefore, highly accurate discrimination analysis can be performed.
  • the eighth aspect it is possible to provide a classification analysis storage medium storing the computer control program according to the second aspect. Accordingly, since the storage medium according to the present embodiment has the effect of the computer control program described in the second embodiment, the computer control program stored in the classification analysis storage medium is installed in the computer, and the classification analysis operation is performed in the computer. By doing so, highly accurate classification analysis can be performed.
  • any one of computer-readable storage media such as a flexible disk, a magnetic disk, an optical disk, a CD, an MO, a DVD, a hard disk, and a mobile terminal can be selected. .
  • an analytical substance contained in a pharmaceutical drug discovery using an information compression technique of an DNA storage medium or artificial base pair, or fine dust mixed in a measurement sample or body fluid using a computer terminal can be analyzed with high accuracy in the field of identification / removal technology of nonconforming data caused by minute substances such as red blood cells, white blood cells, and platelets.
  • FIG. 6 is a diagram showing an F-Measure histogram (F-Measure histogram) obtained from the discrimination experiment. It is a schematic sectional side view which shows schematic structure of a micro / nanopore device. It is a figure which shows the processing program structure required for description of the analysis process by PC1. It is a figure which shows the example of a pulse waveform by the particle passage measured about colon_bacillus
  • surface which shows the number of the pulses picked up from the waveform of the bead model according to the combination of the adjustment factors m, k, and ⁇ .
  • a waveform example of a detection signal obtained by passing three types of particles 33a, 33b, and 33c through the through-hole 12 using the micro / nanopore device 8 and a derivation example of a probability density function obtained based on the feature amount are shown.
  • FIG. It is a pulse waveform diagram for explaining the feature amount of depression angle and area. It is a figure for demonstrating the method of acquisition of a wave height vector.
  • FIG. 6 is a pulse waveform diagram for explaining a second type of feature quantity related to time (wavelength) and wave width. It is a figure for demonstrating the relationship between a dw- dimensional wave width vector and data sampling. It is a figure for demonstrating the acquisition process which acquires the inertia moment regarding a wave width by a wave width vector. It is a figure for demonstrating an example of the waveform vector for the feature-value preparation at the time of dividing
  • each feature-value combination when it samples at 250 kHz and 125 kHz. It is an estimation evaluation table regarding each feature-value combination when it samples at 63 kHz and 32 kHz. It is an estimation evaluation table regarding each feature-value combination when it samples at 16 kHz and 8 kHz. It is an estimation evaluation table regarding each feature-value combination when it samples at 4 kHz. It is an estimation evaluation table regarding each feature-value combination with respect to all the sampling data.
  • 5 is an estimation evaluation table regarding each feature amount combination when high-density sampling is performed at 1 MHz to 125 kHz.
  • 7 is an estimation evaluation table for each feature amount combination when sampling is performed at a low density of 63 kHz to 4 kHz.
  • the sampling frequency-weighted average relative error (average value) for the combination of the top five feature quantities that can obtain high number estimation accuracy It is a graph.
  • Sampling frequency-weighted average relative error (average value) graph (51A) for the combination of the top five feature quantities that can provide high number estimation accuracy when sampling at low density, and when using all sampling data It is a graph (51B) of the sampling frequency-weighted average relative error (average value) regarding the combination of four types of feature-values.
  • a classification analyzer according to an embodiment of the present invention will be described below with reference to the drawings.
  • a base species analysis form in which DNA constituent molecules are classified and analyzed as an example of an analyte will be described.
  • FIG. 1 is a schematic diagram schematically showing a measurement system for measuring measurement data to be analyzed in the present embodiment.
  • the measurement system has a measurement space MS configured by a storage container that stores a solution containing base molecules, and a pair of finely-shaped electrodes D1 and D2 arranged to face each other in the measurement space MS.
  • the electrodes D1 and D2 are nanogap electrodes formed of gold (Au) element, and are arranged at a minute distance from each other. The fine distance is formed at about 1 nm.
  • the measurement sample is a solution sample containing a solvent (pure water) and DNA constituent molecules mixed in the solvent.
  • the nanogap electrode is a device expected as a next-generation DNA sequencer.
  • This electrode is an electrode gap having a very fine gap created by using a technique called mechanical fracture joining.
  • tunnel current is measured by the current measuring device ME as a pulse current at the moment when the substance passes.
  • the data of a pulse signal detected by measuring a tunnel current pulse flowing through one molecule passing near the electrode is analyzed. set to target.
  • bithioU dithiophene uracil derivatives
  • TTF TTF uracil derivatives
  • FIG. 1 (1B) and FIG. 2 show examples of the waveform of the pulse signal measured by the measurement system of FIG.
  • the horizontal axis represents measurement time ( ⁇ 10 ⁇ 4 sec)
  • the vertical axis represents measurement current value (nA).
  • the pulse determination part of the pulse-like signal is a 1/3 part of the center of the measurement waveform, and this pulse waveform data is used as the data to be analyzed.
  • 2A1 and 2A2 in (2A) show examples of waveforms when the base molecule BithioU is detected.
  • 2B1 and 2B2 in (2B) show examples of waveforms when the base molecule TTF is detected.
  • 2A3, 2A4 of (2A) and 2B3, 2B4 of (2B) show examples of noise waveforms mixed when a base molecule is detected.
  • one base molecule of DNA is measured and detected as a current pulse.
  • the measured pulses include not only those derived from base molecules but also current pulses due to metal atom fluctuations and impurities on the electrode surface (2A3, 2A4 in (2A) of FIG. 2 and 2B3 in (2B), 2B4). Because of these noise pulses, there is a possibility that a pulse originally derived from a base may be missed, or conversely, it may be erroneously determined that a base molecule pulse was measured even though it was a noise pulse. It becomes difficult to identify molecules.
  • the present invention can appropriately identify and remove noise pulse inappropriate word data from the measured pulse waveform data set, and enable classification analysis of base types with high accuracy.
  • FIG. 3 shows a schematic configuration of the classification analyzer of this embodiment.
  • the classification analysis apparatus includes a personal computer (hereinafter referred to as a PC) 1, and the PC 1 includes a CPU 2, a ROM 3, a RAM 4, and a data file storage unit 5.
  • the ROM 3 stores a computer control program.
  • Computer control programs include various processing programs such as identification / classification analysis programs for performing non-conformance data classification processing and classification analysis using machine learning and programs for creating feature quantities necessary for identification / classification analysis. ing.
  • Various processing programs such as a classification analysis program can be installed and stored from a storage medium (CD, DVD, etc.) storing each program.
  • An input means 6 such as a keyboard and a display means 7 such as a liquid crystal display are connected to the PC 1 so as to allow input / output.
  • the data file storage unit 5 can store analysis data.
  • the PC 1 has a non-conformance data identification processing function and a classification analysis processing function.
  • the PC 1 can be configured by a dedicated terminal provided with a separate identification processing function and classification analysis processing function.
  • FIG. 4 shows an outline of processing contents that can be executed by the identification / classification analysis program (computer control program) of the PC 1.
  • FIG. 5 is a flowchart of the identification process of the PC 1.
  • the identification processing of the PC 1 is performed by a processing procedure based on the following identification method.
  • the identification / classification analysis program uses machine learning to learn a classifier that classifies positive and negative examples from positive example data of positive examples and unknown data of unknown sets where either positive examples or negative examples are unknown.
  • An identification processing program based on the PU method used is stored.
  • (Process 1-1) First type data of a pulsed signal obtained under the first measurement condition for measuring by introducing a sample (solvent only) not containing an analyte (DNA constituent molecule) into the measurement space MS is stored. The data is taken in and stored in the RAM 4 of the means.
  • the attribute vector used in the analysis by the following PU method is based on multidimensional data and is represented by a vector, but in the following description, the vector notation is particularly omitted.
  • detection is caused by elements other than the analyte (fluctuations or impurities of metal atoms on the electrode surface, not from the aforementioned base molecule) included in the second type data. Detect and identify the nonconforming data. The detected nonconforming data is stored and saved in a predetermined area of the RAM 4.
  • the classifier software of machine learning platform freeware Weka which is disclosed in Non-Patent Document 2, can be used for the identification processing program.
  • the measured pulse waveform data varies in both wavelength and wave height, so in order to identify the base type by the machine learning classifier, it is necessary to use attribute vectors with uniform dimensions as inputs.
  • a pre-processing according to the input format a pre-processing for performing a kind of coarse-graining and creating an attribute vector reflecting the pulse waveform is performed in (Process 1-1) and (Process 1-2).
  • FIG. 7 shows the wave height vector.
  • FIG. 8 shows a wavelength direction time vector.
  • the wave height vector d h dimensional attribute vector in which the this component To do.
  • Two types of attribute vectors are created: those normalized in the wave height direction and those not normalized.
  • measuring the current value of the pulse is divided into groups of 2d w.
  • An average value of the number of steps from the pulse start time is calculated for each division section, and a 2d w- dimensional wavelength direction time vector having these values as components is created.
  • a normalized wavelength direction time vector that has been normalized so that the time from the pulse start point to the end point is “1” is also created.
  • an attribute vector simply created by concatenating them is also created.
  • two feature quantities of wave height and wavelength are used to configure a binary classifier.
  • verification was performed using the following eight attribute vectors V1 to V8 created from one pulse waveform data.
  • V1 Pulse height vector (hvNrmd) with the pulse peak value normalized to “1”
  • V2 Unnormalized wave height vector
  • wvNrmd Wavelength direction time vector in which the pulse wavelength time is normalized to “1”
  • V4 Unnormalized wavelength direction time vector (wvRaw)
  • V5 the concatenation of the V1 and V2 (d h + 2d w) were ligated-dimensional vector (V6) V1 and V4 and (d h + 2d w) dimensional vector (V7) V2 and V3 were ligated (d h + 2d w) dimension Vector (V8) (d h + 2d w ) dimensional vector connecting V2 and V4
  • a classifier is generated by learning from data given positive examples and negative examples.
  • a classifier based on the PU method is used.
  • the PU method used in the present embodiment is semi-supervised for learning from positive examples and unlabeled data and performing binary classification of positive examples / negative examples. It is a kind of learning algorithm.
  • the outline of the processing procedure of the learning algorithm of the PU method stored in the ROM 3 is as follows.
  • FIG. 9 is a diagram for explaining the outline of the processing procedure of the learning algorithm of the PU method.
  • FIG. 9A shows variables and label flags used for learning
  • FIG. 9B shows details of the preconditions of 9A.
  • FIG. 10 is a diagram showing main analysis contents in the PU method.
  • FIG. 11 is a schematic explanatory diagram summarizing the processing contents of the classifier based on the PU method described below.
  • the positive example set and the negative example set are P and N, respectively, where P includes a labeled subset L and an unlabeled subset U, and N includes only U.
  • case x (input data) is an attribute vector related to a pulse waveform
  • y is its class label
  • s is a flag indicating whether or not a case is labeled with a class label.
  • case x input data
  • y is its class label
  • s is a flag indicating whether or not a case is labeled with a class label.
  • x), p (y 1
  • x) p (s 1
  • x) g (x) / c.
  • FIG. 12 shows the discrimination process of the binary classifier by the PU method in (Process 1-5).
  • process P1-1 a process of learning g (x) from the learning data set is performed.
  • process P1-2 a process of estimating c from the verification data set based on Equation 1 is performed.
  • x) determined from the relationship g (y 1
  • x) g (x) / c. Is called.
  • the present invention can extract the probability that a case without a label is a positive example in the configuration of the classifier based on the PU method shown in FIG.
  • the extraction procedure for extracting the probability that the unlabeled case is a positive example will be described below.
  • a classifier based on the PU method is constructed as a pre-processing, and noise-derived pulses (nonconformity data) are identified (FIG. 12).
  • the extracted nonconforming data was removed from the second type data, and a data set of only pulses derived from the base was obtained.
  • the base type identification accuracy was evaluated for the pulse set derived from the base.
  • a tunnel current pulse measured with a nano-gap electrode is obtained in advance only for the solvent containing no base (BithioU, TTF).
  • This pulse set is a pulse derived from noise that has nothing to do with the base, and is referred to as a “noise pulse set”.
  • a current pulse measured for the solvent mixed with the base BithioU is obtained.
  • the TTF is acquired in the same manner.
  • This pulse set includes both a “base pulse” derived from a base and a noise pulse. Therefore, this is called “base + noise pulse set”.
  • the pulse in the noise pulse set is always a noise pulse, it is regarded as a positive case set (data set of the first data), and it is unknown which pulse is in the base + noise pulse set.
  • 12 is regarded as an unlabeled case set, and noise pulse (positive example) and base pulse (negative example) can be identified by the PU classifier processing shown in FIG. 12, and noise data that is a positive example is removed. As a result, it is possible to obtain a set (base pulse set) composed of only base pulses.
  • the PU classifier process uses only 1 degree to classify the positive and negative examples of this noise pulse and base pulse, and there is no problem with over-learning, so a PU classifier is created using the entire pulse set as learning data.
  • a classification analysis was performed to separate all pulse sets into noise pulses and base pulses.
  • a BithioU base pulse set was obtained from the BithioU base + noise pulse set by the PU classifier
  • a TTF base pulse set was obtained from the TTF base + noise pulse set by the PU classifier.
  • the number of base pulses of BithioU and TTF obtained by the PU classifier is NB and NT, respectively
  • N min (NB, NT) for both BithioU and TTF.
  • the identification accuracy was examined under various analysis conditions with 22 classifiers using the machine learning software shown in FIG.
  • a pulse height threshold ⁇ indicating how much the measured current value deviates from the baseline is determined to be a pulse start, and how many steps the pulse height threshold is exceeded is determined to be a pulse.
  • the two parameters (the adjustment factor shown in FIG. 22 described later) of the wavelength threshold k value are used.
  • Various tests were performed on these parameters, and an experiment was performed on “4 types for the wave height threshold ⁇ ⁇ 4 types for the wavelength threshold k value, 16 types in total”.
  • attribute vectors eight types of attribute vectors V1 to V8 were tested.
  • the ensemble learning “Rotation Forest” is adopted as a classifier for classification analysis, and the binary classification of the input example continuous value vector can be performed among those implemented in Weka as the base classifier used internally. Twenty-two classifiers were used. As the PU method, two methods g (x) and w (x) shown in FIG. 10 were used.
  • the discriminating data discriminating experiment conducted under the above experimental conditions is the discriminating data discriminating experiment conducted under the above experimental conditions.
  • the pulse extraction parameters are 16 patterns ⁇ the attribute vectors are 8 patterns ⁇ Weka 22 classifiers ⁇ PU method Of all the two combinations, 3272 cases where the number of base pulses was 10 or more for both bases were performed.
  • the conditions used for these three parties for 1) BithioU noise removal, 2) TTF noise removal, and 3) 2-base discrimination after noise removal for simplification.
  • the pulse extraction parameter, attribute vector, classifier, and PU classifier method are all common.
  • a discrimination experiment was also performed for the base + noise pulse set without using noise removal by the PU classifier under the same conditions.
  • FIG. 13 is a pulse obtained from 3272 cases where F-measure> 0.9 (measured pulse set used under the analysis condition where F-measure was 0.93), which was determined to be a base. And a histogram of pulse peak heights for pulses determined to be noise.
  • the horizontal axis represents the pulse peak wave height (nA), and the vertical axis represents the number of pulses.
  • (13A) shows a histogram of noise pulses and base pulses for BithioU
  • (13B) shows a histogram of noise pulses and base pulses for TTF.
  • the noise pulse and the base pulse are distributed in wave height ranges of 0 to 0.3 and 0.02 to 0.4, respectively.
  • the noise pulse and the base pulse are distributed in wave height ranges of 0 to 0.2 and 0 to 1.2, respectively.
  • FIG. 14 shows the F-Measure histogram obtained for 3272 cases with and without noise removal, respectively.
  • the horizontal axis represents base identification accuracy
  • the vertical axis represents the number of analysis cases under various conditions with and without noise removal. In the case of no noise removal and the case of noise removal, the distribution is in the accuracy ranges of 0.3 to 0.6 and 0.5 to 1.0, respectively.
  • the total number of analysis cases is 3272 of various combinations of pulse extraction parameters, attribute vectors, and classifiers.
  • the non-conformance data identification processing performance by PC1 is appropriate by using the attribute vector of the feature quantity that accurately grasps the pulse waveform characteristics, even when it is difficult to determine the base / noise only by the pulse peak height.
  • high base classification accuracy can be obtained by removing noise pulses.
  • the classification analysis apparatus by PC1 has a high-precision classification analysis function for the analyzed data from which the nonconforming data identified by the above identification processing is removed.
  • This classification analysis function includes the following analysis procedures.
  • the nonconforming data detected by the elements other than the analyte identified by the above identification process is stored in a predetermined area of the RAM 4 of the nonconforming data storage means. Not only the non-conforming data is detected and stored by the PC 1, but a non-conforming data file stored in advance in an external terminal may be introduced and stored in the PC 1.
  • C2 A data group obtained by removing the stored nonconforming data from the data of the pulse signal detected by introducing the sample containing the analyte into the measurement space is stored in the predetermined area of the RAM 4 as the analyzed data.
  • a data group from which nonconforming data has been removed in advance may be introduced into the PC 1 and stored as data to be analyzed.
  • the computer control program installed in the PC 1 includes a classification analysis program for performing classification analysis using machine learning, and is stored in the ROM 3.
  • a feature amount indicating the feature of the waveform form of the pulse signal is obtained in advance, the feature amount obtained in advance is used as learning data for machine learning, and the classifier based on the PU classification method is used for high accuracy.
  • the classification analysis for the analyte is performed by executing the classification analysis program using the feature quantity obtained from the analysis data from which the nonconforming data identified in (2) is removed as a variable. It can be performed with high accuracy.
  • high-accuracy nonconformity data can be identified and classified, so that, for example, a way to enable identification of artificial bases is opened, and information compression technology for DNA storage media and pharmaceutical creation using artificial base pairs are opened. Can be applied to medicines.
  • the present invention is not limited to the current output waveform in the above-described embodiment, but can be applied to identification and classification analysis of nonconforming data for a wide range of output waveforms, such as a voltage waveform and an impedance waveform.
  • the present invention is not limited to the detection waveform obtained by the measurement system using the nanogap electrode, but the measurement of a microstructure equivalent to the sample object through which the sample object passes, such as a through hole, a well (concave), a pillar (convex), and a flow path. It can be applied to the detected waveform by the system.
  • the applicable range of measurement data in the present invention is all of time-series measurement data, and is not limited to electrical measurement, and can include detection data of physical phenomena such as optical measurement and sound.
  • the removal target caused by the elements other than the analyte in the present invention is not limited to the quantum level elements in the above-described embodiment, and includes, for example, other than the analyte present in the measuring instrument, measuring device, and solution.
  • the feature quantity used in the identification processing and the classification analysis according to the present invention is not limited to the above-described wave height and wavelength, and various feature quantities derived from the waveform form can be used.
  • the present inventors have come up with an effective feature amount from analysis of waveform data that appears in particle detection technology using a micro / nanopore device.
  • a particle detection technique using a micro / nanopore device is disclosed in Patent Document 1 and the like.
  • feature quantities effective for the present invention and classification analysis processing when using them will be described in detail.
  • FIG. 15 shows a schematic configuration of a particle detection apparatus using the micro / nanopore device 8.
  • the particle detection apparatus includes a micro / nanopore device 8 and an ion current detection unit.
  • the micro / nanopore device 8 includes a chamber 9, a partition wall 11 that partitions the chamber 9 into upper and lower accommodation spaces, and a pair of electrodes 13 and 14 disposed on the front and back sides of the partition wall 11.
  • the partition wall 11 is formed on the substrate 10. Near the center of the partition wall 11, a through hole 12 having a small diameter is formed. Below the through hole 12, a recess 18 is provided by removing a part of the substrate 10 in a concave shape downward.
  • the micro / nanopore device 8 is produced by using a manufacturing technique (for example, electron beam lithography or photolithography) such as a semiconductor device. That is, the substrate 10 is made of a Si material, and a partition wall 11 made of a Si 3 N 4 film is formed on the surface thereof.
  • the recess 18 is formed by removing a part of the substrate 10 by etching.
  • the partition wall 11 is formed by laminating a SiN film of 50 nm on a Si substrate having a size of 10 mm square and a thickness of 0.6 mm.
  • a resist is applied to the Si 3 N 4 film, a circular opening pattern having a diameter of 3 ⁇ m is formed by an electron beam drawing method, and the through holes 12 are formed.
  • wet etching using KOH is performed to form a 50 ⁇ m square opening, and a recess 18 is provided.
  • the formation of the recess 18 is not limited to wet etching, and can be performed by isotropic etching or the like, for example, by dry etching with a CF 4 gas.
  • an insulating film such as an SiO 2 film, an Al 2 O 3 film, glass, sapphire, ceramic, resin, rubber, or elastomer can be used as the film for the partition wall 11.
  • the substrate material of the substrate 10 is not limited to Si, and glass, sapphire, ceramic, resin, rubber, elastomer, SiO 2 , SiN, Al 2 O 3 or the like can be used.
  • the through-hole 12 is not limited to the case where the through-hole 12 is formed on the thin film on the substrate.
  • the thin-film sheet on which the through-hole 12 is formed is bonded onto the substrate to form a partition having the through-hole. Also good.
  • the ion current detection unit includes an electrode pair of electrodes 13 and 14, a power supply 15, an amplifier 16, and a voltmeter 20.
  • the electrodes 13 and 14 are arranged to face each other through the through hole 12.
  • the amplifier 16 includes an operational amplifier 17 and a feedback resistor 19.
  • the ( ⁇ ) input terminal of the operational amplifier 17 and the electrode 13 are connected.
  • the (+) input terminal of the operational amplifier 17 is grounded.
  • a voltmeter 20 is connected between the output side of the operational amplifier 17 and the power supply 15.
  • An applied voltage of 0.05 to 1 V can be used between the electrodes 13 and 14 by the power supply 15, but 0.05 V is applied in this embodiment.
  • the amplifier 16 amplifies the current flowing between the electrodes and outputs it to the voltmeter 20 side.
  • an electrode material of the electrodes 13 and 14 for example, an Ag / AgCl electrode, a Pt electrode, an Au electrode, or the like can be used, and an Ag / AgCl electrode is preferable.
  • the chamber 9 is a fluid substance container that hermetically surrounds the micro / nanopore device 8 and is electrically and chemically inert material such as glass, sapphire, ceramic, resin, rubber, elastomer, SiO 2. , SiN, Al 2 O 3 or the like.
  • the chamber 9 is filled with an electrolyte solution 24 containing the specimen 21 from an injection port (not shown).
  • the specimen 21 is an analyte such as a bacterium, a microparticulate substance, or a molecular substance.
  • the specimen 21 is mixed in an electrolyte solution 24 that is a fluid substance, and measurement by the micro / nanopore device 8 is performed.
  • the filling solution can be discharged from a discharge port (not shown).
  • the electrolyte solution for example, phosphate buffered saline (PBS), Tris-EDTA (TE) buffer, and their diluted solutions, as well as all electrolyte solutions similar to these, can be used.
  • PBS phosphate buffered saline
  • TE Tris-EDTA
  • the measurement is not limited to the case where the specimen-containing electrolyte solution is introduced into and filled in the chamber 9, but the specimen-containing electrolyte solution (fluid substance) is pumped out of the solution reservoir by a simple pump device into the chamber 9 from the inlet.
  • a continuous measurement system that fills and discharges from the discharge port after measurement, stores another solution reservoir or a new solution in the solution reservoir, draws out a new solution, and performs the next measurement may be configured.
  • a constant ion current proportional to the through hole 12 flows between the electrodes.
  • a specimen such as bacteria in the electrolyte solution 24 passes through the through-hole 12
  • a part of the ionic current is inhibited by the specimen, and therefore, the voltmeter 20 can measure the pulsed ionic current decrease. Therefore, according to the particle detection apparatus using the micro / nanopore device 8, by detecting the change in the waveform of the measurement current, each particle contained in the fluid substance by passing through the through hole 12 for each specimen (for example, particle) is detected. Can be detected with high accuracy.
  • the measurement mode is not limited to the case where measurement is performed while forcing a fluid substance to flow, but can include the case where measurement is performed while the fluid substance is forced to flow.
  • the measurement output of the ionic current by the voltmeter 20 can be output externally.
  • the external output is converted into digital signal data (measured current data) by a conversion circuit device (not shown), temporarily stored in a storage device (not shown), and then stored in the data file storage unit 5.
  • the measurement current data acquired in advance by the particle detection device using the micro / nanopore device 8 can be externally input to the data file storage unit 5.
  • FIG. 68 shows a schematic diagram for explaining an outline of classification analysis processing for an analyte (for example, E. coli Ec and Bacillus subtilis Bs) by PC1.
  • analyte for example, E. coli Ec and Bacillus subtilis Bs
  • the classification analysis process of FIG. 68 includes the following analysis procedures (a) to (d).
  • A As a result of measurement by a nanopore device 8a on a fluid substance containing a predetermined analyte (for example, E. coli Ec or Bacillus subtilis Bs), the analyte passes through the through-hole 8b obtained as a detection signal for each type.
  • a feature quantity indicating the feature of the waveform form of the corresponding pulse signals De and Db is obtained in advance.
  • the pulse signals De and Db are signals obtained by passing through the through holes 8b of E. coli Ec and Bacillus subtilis Bs, respectively.
  • the computer analysis unit 1a incorporates a classification analysis program for performing classification analysis by machine learning.
  • the feature amount obtained in advance in (a) is a feature amount obtained from known data of E. coli Ec and Bacillus subtilis Bs, and is used in the computer analysis unit 1a as learning data for machine learning.
  • C For example, when a mixture mixed in a fluid substance with an unknown content ratio or number of Escherichia coli Ec and Bacillus subtilis Bs is used as the classified analyte Mb, the known data acquisition in (a) In the same manner as described above, measurement is performed by the nanopore device 8c. By this measurement, a pulsed signal Dm is obtained as data to be analyzed by passing through the through-hole 8d of the analyte to be classified Mb.
  • the data to be analyzed whose classification is unknown is classified into those derived from passage of E. coli Ec or Bacillus subtilis Bs and those not derived it can.
  • the feature quantity according to the present invention may be created by the computer analysis unit 1a, or may be created by using another feature quantity creation program and given to the computer analysis unit 1a.
  • FIG. 69 shows the main control processing by the PC 1.
  • the main control processing includes input processing (step S100), feature amount acquisition processing for acquiring feature amounts from input data (step S101), classification analysis processing (step S104), number analysis processing (step S105), and output processing (step S105).
  • Step S106) is included.
  • various inputs necessary for PC operation, start-up input of built-in program, execution instruction input for various analyzes, input of measurement current data and / or feature amount data, input setting of output mode, characteristics during analysis Input of a specified feature amount or the like when specifying an amount is performed.
  • This input processing includes processing for removing nonconforming data.
  • classification analysis processing (step S104) or number analysis processing (step S105) can be executed (steps S102 and S103).
  • the classification analysis process can be classified and analyzed using the vector quantity data of the feature quantity acquired from the input data in the feature quantity acquisition process (step S101).
  • the number analysis process enables the number analysis using the scalar data of the feature quantity acquired from the input data in the feature quantity acquisition process.
  • the present embodiment is an embodiment having a number analysis processing function in addition to the classification analysis processing function, the present invention can be implemented by an embodiment having only a classification analysis processing function.
  • the computer control program includes a number analysis program for analyzing the number of particle types or the number distribution.
  • the number analysis program can be executed.
  • the analysis result data in the classification analysis process (step S104) and the number analysis process (step S105) can be output.
  • various analysis result data are displayed and output on the display means 7.
  • a printer (not shown) is connected to the PC 1 as output means, various analysis result data can be printed out.
  • the classification analyzer allows the flowable substance (electrolyte solution 24) including one or more kinds of particles (an example of an analyte) to be analyzed as an analysis target by executing the number analysis program.
  • the number or number distribution of particle types is analyzed based on the data (measurement current data) of the detection signal that is supplied to one side and detects the change in electrical conduction between the electrodes 13 and 14 caused by the particles passing through the through-hole 12. It has a number analysis function. That is, the PC 1 can perform the number analysis process on the measured current data stored and stored in the data file storage unit 5 by executing the number analysis program stored in the ROM 3 under the control of the CPU 2.
  • the number analysis process is based on a number analysis method in which probability density estimation is performed from a data group based on a feature amount indicating characteristics of a waveform shape of a pulse signal corresponding to particle passage included in a detection signal, and the number of particle types is derived. Thus, automatic analysis of the number of particle types can be performed.
  • FIG. 16 shows a processing program configuration necessary for explaining the analysis processing of the PC 1.
  • Each processing program is stored in the ROM 3.
  • measured current data pulse extracted data of each particle
  • electrolyte solution 24 containing two kinds of particles E. coli and Bacillus subtilis
  • a probability density function is obtained from a data group based on the feature quantity indicating the characteristics of the waveform of the pulse signal corresponding to the particle passing through the through-hole 12 obtained as a detection signal.
  • a probability density function module program to be obtained and a particle type distribution estimation program for deriving the number of particle types from the result of probability density estimation are included.
  • the processing program used for classification analysis and number analysis includes a feature amount extraction program for extracting feature amounts indicating features of the waveform form of a pulse signal based on a baseline extracted from a data group, and extracted features.
  • a data file creation program for creating a data file based on pulse feature data for each particle obtained based on the quantity is included.
  • the classification analysis processing and the number analysis processing are executed on the data created by the data file creation program.
  • the feature quantity extraction program includes a baseline estimation processing program that extracts the baseline from the original measured current data.
  • a feature quantity extraction program and a data file creation program are executed to create a feature quantity from the data input in the input process (step S100) and to store the feature quantity in the RAM 4 Processing to be stored in the data file is performed.
  • the input data for classification analysis is known data necessary for creating feature values provided for learning data and data for analysis (analysis data).
  • Feature quantity data created from known data is stored in a feature quantity storage data file DA based on known data
  • feature quantity data created from analysis data is stored in a feature quantity storage data file DB based on analysis data. .
  • the input data for the number analysis is only data for analysis (analysis data).
  • Feature quantity data created from the input data for number analysis is stored in the data file DC for number analysis, and when performing number analysis, the scalar data of the feature quantity can be taken from the data file DC and analysis processing can be executed. It has become.
  • nonparametric (no function form is specified) probability density estimation called the kernel method is performed by executing the probability density function module program.
  • the original data to be estimated is, for example, pulse appearance distribution data obtained from the pulse-like signal and including the wave height h, time width ⁇ t, number of appearances, and the like.
  • Each data of the original measurement data distribution is represented by a Gaussian distribution with measurement error uncertainty introduced, and a probability density function is obtained by superimposing each Gaussian distribution.
  • Probability density estimation processing is performed by executing a probability density function module program, and the original data is represented by an unknown complex probability density function (for example, pulse height, pulse width, appearance probability of feature quantity) based on the original data. it can.
  • FIG. 46 shows an example of a waveform of a detection signal obtained when three kinds of particles 33a, 33b, and 33c pass through the through-hole 12 using the micro / nanopore device 8, and a probability density function obtained based on the feature amount.
  • FIG. 46A schematically shows a particle detection apparatus using the micro / nanopore device 8.
  • FIGS. 46B to 46D show waveform data of each detection signal.
  • FIGS. 46E to 46G show three-dimensional distribution diagrams of probability density functions obtained from each waveform data.
  • the x-axis, y-axis, and z-axis indicate the probability density obtained by estimating the pulse height, pulse width, and probability density of the feature amount, respectively.
  • the kernel method is an estimation method in which a function (kernel function) at one data point is applied, this is performed for all data points, and the arranged functions are overlapped, and is suitable for obtaining a smooth estimated value.
  • the probability density function module program By executing the probability density function module program, it is regarded as multivariable multidimensional probability density from data such as the pulse height and pulse width of the measured current waveform, and is extended to more than two dimensions to estimate the weight distribution and estimate the number distribution of particle types. Processing is performed.
  • the EM algorithm software executed based on Hasselbald iteration is used for the optimal estimation of weights.
  • the EM algorithm is installed in the PC 1 in advance.
  • the particle type number distribution result obtained by the particle type number distribution estimation process can be displayed and output on the display means 7 as a histogram of the appearance frequency (particle number) for the particle type.
  • the feature quantity according to the present invention belongs to the first type indicating the local characteristics of the waveform of the pulsed signal as the parameter derived from the pulsed signal and the second characteristic indicating the overall characteristic of the waveform of the pulsed signal. It is one of those belonging to a type. By performing number analysis using one or more of these feature quantities, it is possible to analyze the number or number distribution according to the analyte type such as particle type with high accuracy.
  • FIG. 24 is an enlarged view of the periphery of the through-hole 12 schematically showing that two types of particles of E. coli 22 and Bacillus subtilis 23 are mixed in the electrolyte solution 24.
  • FIG. 17 shows an example of a pulse waveform due to particle passage measured for Escherichia coli and Bacillus subtilis of the example.
  • (4-1) to (4-9) in FIG. 17 show examples of actually measured pulse waveforms of E. coli (9 types), and (4-10) to (4-18) show examples of actually measured pulse waveforms of Bacillus subtilis ( 9 types).
  • FIG. 18 is a pulse waveform diagram for explaining various feature amounts according to the present invention.
  • the horizontal axis represents time
  • the vertical axis represents the pulse height.
  • the feature quantity of the first type is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform (spreading of the peak waveform), The depression angle that represents the slope from the pulse start to the pulse peak, Either the area representing the sum of the time division areas obtained by dividing the waveform at predetermined time intervals, or the area ratio of the sum of the time division areas from the start of the pulse to the pulse peak with respect to the total waveform area.
  • 5a to 5d indicate the pulse wavelength, peak value, peak position ratio, and kurtosis, respectively.
  • BL in FIG. 5 indicates a reference line (hereinafter referred to as a base line) extracted from pulse waveform data (refer to BL extraction processing described later).
  • FIG. 47 is a pulse waveform diagram for describing feature amounts of depression angle, area, and area ratio.
  • the horizontal axis represents time
  • the vertical axis represents the pulse wave height.
  • the depression angle ⁇ is the slope from the start of the pulse to the pulse peak, as shown in (34A), and is defined by the following equation (3).
  • the area m is defined by the area [m] based on the inner product of the unit vector [u] and the wave height vector [p], as shown in Equation 4 below.
  • the vector notation of the variable A is indicated by [A].
  • FIG. 48 is a diagram for explaining how to obtain the wave height vector.
  • the wavelength is divided into d equal parts, and d data groups are differentiated.
  • the values of the wave heights are averaged for each group (each divided section) and, for example, average values A1 to A10 are obtained when dividing into 10 equal parts.
  • This averaging can include a case where the peak value is not normalized and a case where the peak value is normalized.
  • the area [m] expressed by Equation 4 indicates a case where normalization is not performed.
  • a d-dimensional vector whose component is the average value thus determined is defined as a “wave height vector”.
  • FIG. 49 is a diagram for explaining the relationship between the d-dimensional wave height vector and data sampling.
  • the feature quantity extraction program includes a wave height vector acquisition program for acquiring wave height vector data.
  • a wave height vector acquisition program for acquiring wave height vector data.
  • the area ratio r m is defined as an area ratio to the sum of the total waveform area of the section up to the pulse peak time division area h i illustrated in (34B) from the pulse start. Following Expression 5 shows the area ratio r m.
  • the first type of feature amount is a feature amount that is uniquely derived from the waveform of a pulse-like signal such as a pulse wave height, a pulse wavelength, and a pulse area, and indicates a local feature.
  • the feature quantity of the second type is a feature quantity indicating the overall feature with respect to the local feature of the first type.
  • the feature quantity of the second type is Time moment of inertia determined when the time section area is assumed to be mass around the start of the pulse, and the time from the center to the time section area is simulated as the radius of rotation, Normalized moment of inertia when normalized so that the wave height becomes the reference value with respect to the moment of inertia of time,
  • the waveform is equally divided in the wave height direction, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector having the average value at the same wave height position as the vector component, Normalized average value vector when the wavelength is standardized with respect to the average value vector,
  • the waveform is equally divided in the direction of the wave height, the average value of the time value is calculated for each division unit before and after the pulse peak, and the difference vector of the average value with the difference of the average value at the same wave height position as the vector component is mass distribution
  • the average moment of inertia of the wave width determined when the time axis of the waveform base is
  • Normalized wave width average moment of inertia when the wavelength is normalized to the reference value with respect to the wave width average inertia moment It is determined when the waveform is equally divided in the wave height direction, the variance is obtained from the time value for each division unit, the dispersion vector having the variance as a vector component is assumed to be a mass distribution, and the time axis of the waveform base is set as the rotation center. Wavelength dispersion inertia moment, or normalized wave width dispersion moment of inertia when wavelength is normalized to the reference value with respect to wave dispersion dispersion moment of inertia.
  • FIG. 50 is a pulse waveform diagram for explaining the second type of feature quantity regarding time (wavelength) and wave width.
  • the horizontal axis represents time
  • the vertical axis represents the pulse wave height.
  • the time moment of inertia is obtained by dividing the time division area h i when dividing one waveform into i-dimensions at predetermined time intervals by the mass, and from the center to the time division area h i . It is a feature value that is determined when the time to reach is imitated by the turning radius. That is, the characteristic value of the moment of inertia is defined by [I], which is the inner product of the vector [v] and the wave height vector [p], as shown in Equation 6 below.
  • [I] is the inner product of the vector [v] and the wave height vector [p], as shown in Equation 6 below.
  • [v] (1 2 , 2 2 , 3 2 ,...
  • the normalized time moment of inertia is obtained by using a waveform normalized in the wave height direction so that the wave height becomes the reference value “1” with respect to the waveform created in the time zone area shown in (8).
  • (8) is a feature amount defined by Equation 6 by the wave height vector h i created.
  • the average vector is obtained by equally dividing one waveform in the i-dimensional direction in the wave height direction, and for each division unit (division region w i ) before and after the pulse peak. An average value of time values is calculated, and this is a feature amount having an average value at the same wave height position in the divided region w i as a vector component.
  • the standardized average value vector is a feature amount when standardized so that the wavelength becomes the reference value with respect to the average value vector of (10).
  • the average wave width inertia moment is obtained by equally dividing one waveform i-dimensionally in the wave height direction, and dividing each unit (division region w i ) before and after the pulse peak.
  • the definition formula is the same as in Equation 6, and the feature quantity of (12) can be obtained from the inner product of the vector [v] and the mass distribution h i .
  • the normalized wave width average value moment of inertia uses a waveform that is normalized in the wavelength direction so that the wavelength becomes “1” of the reference value with respect to the waveform that created the divided region w i . This is the feature amount defined by Equation 6 using the mass distribution h i created in the same manner as (12).
  • the wave-dispersion moment of inertia is the same as the wave-width average moment of inertia, in which one waveform is equally divided i-dimensionally in the wave height direction, and the time value for each division unit (division area w i ) before and after the pulse peak.
  • the normalized wave-dispersion moment of inertia uses a waveform that is normalized in the wavelength direction so that the wavelength becomes the reference value “1” with respect to the waveform that created the divided region w i ( This is the feature quantity defined by Equation 6 using the mass distribution h i created in the same manner as in 14).
  • the wave width average moment of inertia and the wave width dispersion moment of inertia are the feature quantities defined by Equation 6, and the vector [p] in the definition is the average of the time values in the case of the wave width average moment of inertia. It is a vector of value differences, and in the case of the wave dispersion dispersion moment of inertia, it is a dispersion vector of time values.
  • the vector [p] at the moment of inertia related to the wave widths of (12) to (15) is represented as [p w ].
  • the wave width vector is a difference vector or a variance vector of the average values shown in the definition of the feature quantity of (12) to (15).
  • the dimension of the wave width vector is 10 dimensions.
  • the time axis At shown in (37B) is a rotation axis line around the pulse base obtained from the wave width vector, unlike the base line BL.
  • FIG. 51 is a diagram for explaining the relationship between the d w -dimensional wave width vector and data sampling.
  • the feature amount extraction program includes a wave width vector acquisition program for acquiring a wave width vector by the following calculation processing of a d w -dimensional wave width vector.
  • the pulse waveform data is distributed at various intervals in the wave height direction, there may be a case where one or two or more non-existing regions Bd in which no data points exist are included in the section divided in the wave height direction.
  • an example of the non-existing region Bd is indicated by an arrow.
  • i 1,..., M of each wave height when the wave height to the pulse peak is equally divided by d w.
  • the component data is acquired by linear interpolation.
  • (38B) shows an example of the linear interpolation point t k for the height k of the non-existing region Bd generated between the data points t i and t i + 1 .
  • the wave width vector is created, as shown in (38C)
  • the side closer to the pulse peak is aligned so as to be closer to the pulse peak.
  • the wave height data Du is discarded.
  • the execution processing of the wave width vector acquisition program includes linear interpolation processing for the nonexistent region Bd and truncation processing of the wave height data Du for discrepancy between the wave height data.
  • FIG. 52 is a diagram for explaining an acquisition process in which the moment of inertia related to the wave width is acquired using the wave width vector.
  • (39A) is an example in which the waveform is divided into 10 equal parts in the wave height direction, and the waveform vector divided region 39b and the rotation obtained by performing the above-described linear interpolation processing and truncation processing on one waveform 39a.
  • An axis line 39c is shown.
  • the average value of the time values before and after the pulse peak is calculated, and the difference vector of the average values using the difference between the average values at the same wave height position in the divided region as a vector component Can be obtained.
  • This average value difference vector is assumed to be a mass distribution, and the wave width average moment of inertia of (12) with the rotation axis 39c (time axis) as the rotation center can be created. Further, a variance can be obtained from the time value for each division unit, and a variance vector having the variance as a vector component can be obtained.
  • This dispersion vector is simulated as a mass distribution, and the wave dispersion moment of inertia of (14) with the rotation axis 39c (time axis) as the rotation center can be created.
  • the average vector of (10) and (11) is An average value of time values is calculated and a vector having each average value at the same wave height position in the divided region as a component, and when it is equally divided by d w , it is expressed by a 2d w- dimensional time vector.
  • the vector dimensions of the wave height vector and the wave width vector used to create the feature quantity do not need to be limited to the number of divisions and can be arbitrarily set. Although the wave height vector and the wave width vector are subdivided in one direction of wavelength or wave height, a vector subdivided in a plurality of directions can be used to create the feature amount.
  • FIG. 53 is a diagram for explaining an example of a feature quantity creation waveform vector when divided in a plurality of directions.
  • (40A) shows a data map 40a obtained by dividing one waveform data into a mesh shape.
  • Data map 40a is to d n divided waveform data in the time axis direction of the horizontal axis shows the distribution of the number of data points in a matrix in a height direction of the longitudinal axis with d w divided.
  • (40B) shows a distribution state in which a part of a matrix-like section (lattice) is enlarged. In the distribution state (40B), 0 to 6 data points are distributed on 11 ⁇ 13 grids.
  • the wave height is obtained by converting a waveform vector having the number of data points / total number of data points in each lattice as a component of a d n ⁇ d w dimensional vector into a vector obtained by rearranging a matrix group of data groups in a scanning manner. It can be used to create a feature quantity instead of a vector or a wave width vector.
  • ⁇ About baseline estimation> In general, bacteria and the like are minute objects having finely different forms. For example, in the case of average Escherichia coli, the body length is 2-4 ⁇ m and the outer diameter is 0.4-0.7 ⁇ m. The average Bacillus subtilis has a body length of 2-3 ⁇ m and an outer diameter of 0.7-0.8 ⁇ m. Furthermore, E. coli and the like are accompanied by 20-30 nm flagella.
  • the baseline estimation (hereinafter referred to as BL estimation) is preferably performed on-line (immediately) by a computer.
  • a Kalman filter suitable for estimating the amount of change from observation with discrete errors if a Kalman filter suitable for estimating the amount of change from observation with discrete errors is used, disturbances (system noise and observation noise) can be removed.
  • a baseline BL can be estimated.
  • the Kalman filter is a technique in which a discrete control process is defined by the linear difference equation shown in (6A) of FIG. 19 and the value of the updatable state vector [x] at time [t] is estimated.
  • the value of the state vector [x] and the system control input [u t] is assumed to not be observed directly.
  • FIG. 20 is a diagram showing each of the above factors by actual measured current data.
  • particles are clogged in the through-holes 12 and the baseline distortion occurs.
  • it is interrupted at the time of occurrence of distortion, and the cause of the distortion is removed. Since measurement is performed, only data including a baseline without distortion is collected in the original data set.
  • Estimation by Kalman filter is performed by repeated prediction and update.
  • Baseline estimation is performed by repeatedly performing prediction and updating using the Kalman filter.
  • FIG. 21 is a diagram showing details of prediction (8A) and update (8B) repetition in the Kalman filter.
  • the “hat” symbol added to the vector notation indicates an estimated value.
  • t ⁇ 1” indicates an estimated value of the value at time t based on the value at time (t ⁇ 1).
  • FIG. 22 shows BL estimation processing based on the BL estimation processing program.
  • BL estimation and pulse peak value extraction based on the BL estimation are performed.
  • the start time m and constants k and ⁇ of the adjustment factors necessary for the prediction and update processes in the Kalman filter are adjusted in advance according to the data attributes to be estimated (tuning). It is necessary to decide.
  • the value of ⁇ is a value for adjusting the variance of the estimated value of the baseline.
  • the value of k is a value related to the number of executions of update A in the Kalman filter shown in FIG. 21 (see steps S57 and S62).
  • the start time m is time data for the number of steps calculated with one measurement sampling as one step.
  • FIG. 23 shows a waveform diagram of the bead model used for the adjustment.
  • FIG. 15 shows a solution state in the case where fine bead balls having the same size as bacteria are mixed as particles (bead model).
  • (10A) in FIG. 23 is waveform data acquired by the ion current detector at a sampling frequency of 900,000 Hz.
  • the waveform of the bead model shown in (10A) shows a waveform that gradually attenuates. A severe drop has occurred in the right end portion of (10A), which is enlarged and shown in (10B).
  • the immediately preceding period is the initial value calculation period.
  • m 100000, 11 to 12 significant pulses can be visually confirmed in the period excluding the initial value calculation period.
  • FIG. 25 is a table showing the number of pulses picked up from the waveform of the bead model according to the combination of adjustment factors m, k, and ⁇ .
  • step S51 the initial value of the Kalman filter at time m is set in the work area of the RAM 23.
  • step S52 prediction and update (A and B in FIG. 21) of the Kalman filter at time (m + 1) are executed (step S52).
  • prediction and update each calculation of the Kalman filter shown in FIG. 21 is executed and stored in the RAM 23.
  • prediction and update (A and B) are repeatedly executed every predetermined unit time, and when prediction and update A of the Kalman filter at time t are performed, it is determined whether or not the following equation 6 is satisfied.
  • the unit time is a value determined by the sampling frequency of the original data, and is set in the RAM 23 in advance.
  • the Kalman filter update B at time t is executed, and the processing of steps S53 to S55 is repeated for each data that has passed the unit time.
  • the count value is accumulated and stored in the count area of the RAM 23 every time (steps S54 and S56).
  • step S57 it is determined whether or not the condition of Formula 7 is satisfied k times continuously from the time s. If not k times, the process proceeds to step S55, and the update B is performed.
  • step S58 it is determined that the hold necessary period for determining the BL has started.
  • the hold start time of the required hold period is stored in the RAM 23 as s, and the Kalman filter calculation result between the time (s + 1) and the time (s + k ⁇ 1) is discarded without being stored.
  • step S59 The maximum pulse drop at time t is stored in the RAM 23 in an updatable manner at the start of the hold required period (step S59).
  • step S54 it is determined whether or not the following equation 8 is satisfied in the hold necessary period (step S60).
  • step S59 and S60 the maximum pulse drop value is updated.
  • the count value is accumulated and stored in the count area of the RAM 23 every time (steps S60 and S61).
  • step S62 it is determined whether or not the condition of Formula 8 is satisfied k times continuously from the time s2 (step S62). If not k times, the process returns to step S59.
  • step S63 the pulse drop maximum value updated and stored at this time is stored in the RAM 23 as an estimated value of the pulse peak value.
  • the estimated value of the pulse peak value is stored together with the data of the pulse start time and the pulse end time.
  • the hold end time of the hold required period is stored in the RAM 23 as s2 (step S64).
  • step S65 the value of time s is used as the initial value when the Kalman filter calculation process is resumed, and the Kalman filter calculation is executed retroactively for the period from time s2 to time (s + k-1).
  • step S65 it is determined whether or not the BL estimation process for all pulse waveform data has been performed (step S66), and the process ends upon completion of the estimation of all pulse waveform data. If there is remaining data, the process proceeds to step S53.
  • FIG. 26 shows an outline of the execution processing content of the feature amount extraction program.
  • the feature amount extraction process can be executed on the condition that there is extracted data of a pulse peak value (wave height
  • FIG. 54 shows the execution processing contents of the feature amount extraction processing (step S45).
  • Steps S71 to S83 show the calculation of the feature values of the first type and the second type defined in the above (1) to (13), and the storage and storage of the calculated feature values.
  • the feature quantity of the first type is calculated in steps S71 to S76.
  • the wavelength (pulse width) ⁇ t is sequentially calculated and stored in time series for the extracted data group of pulse peak values (step S71).
  • the calculated feature amount is stored in a feature amount storage memory area of the RAM 4.
  • the peak position ratio r is sequentially calculated and stored in time series for the extracted data group of pulse peak values (step S72).
  • the peak kurtosis ⁇ is sequentially calculated and stored in the time series for the extracted data group of pulse peak values (step S73).
  • i at which the pulse peak PP intersects the horizontal line with the wave height of 30%. 1,..., M], and the variance of the data of the time set T is calculated to obtain ⁇ as the pulse waveform spread.
  • the depression angle ⁇ is obtained based on the time and pulse height data from the start of the pulse to the pulse peak and the calculation of Equation 2 described above (step S74).
  • the area m is obtained from the data of the wave height vector, the time division area h i is obtained according to the number of divisions, and the sum total thereof is calculated and stored (step S75).
  • the number of divisions can be arbitrarily set, and is 10, for example.
  • Area ratio r m is the total waveform area, respectively determined and a partial sum of an interval of time division area h i from the pulse start until the pulse peak, to calculate the area ratio to the total waveform area of the partial sum storage (Step S76).
  • the feature quantity of the second type is calculated in steps S77 to S82.
  • the time moment of inertia is obtained from the data of the wave height vector, and is calculated and stored based on the time division area h i obtained in accordance with the number of divisions and the calculation of the above-mentioned equation 6 (step S77).
  • the normalized time inertia moment of (9) is normalized in the wave height direction so that the wave height becomes the reference value “1” with respect to the time inertia moment obtained in step S77 (the wave height vector and the normalized vector It is stored as standardized data (inner product) (step S78).
  • the wave width average moment of inertia is a time value calculated for each division unit (preset number of divisions: 10) before and after the pulse peak from the data of the wave width vector (average difference vector) obtained in steps S42 to S44. Is calculated and stored based on the difference between the average values of the above and the calculation of Equation 7 above (step S79).
  • the normalized wave width average moment of inertia of (11) is normalized in the wavelength direction so that the wavelength becomes the reference value “1” with respect to the wave width average moment of inertia obtained in step S79 (difference in average value). This is stored as normalized data obtained by the inner product of the vector and the normalized vector (step S80).
  • the wave width dispersion moment of inertia is calculated and stored from the wave width vector (dispersion vector) data based on the variance of the time value calculated for each division unit and the calculation of the above-described equation (7) (step S81).
  • the normalized wave-dispersion inertia moment of (13) is normalized in the wavelength direction (dispersion vector and normalization vector so that the wavelength becomes the reference value “1” with respect to the wave-dispersion inertia moment obtained in step S81. Is stored as normalized data (step S82).
  • each data is saved in a file, and it is determined whether there is another data group (steps S83 and S84). If there is a data group of another file continuously, the above processing (steps S71 to S82) can be repeatedly executed. If there is no more data to be processed, the feature amount extraction process ends (step S85). In the above extraction process, all feature amounts of the first type and the second type are obtained, but a desired feature amount can be designated by the designation input of the input means 6, and only the feature amount by the designation is extracted. Can be possible.
  • FIG. 27 shows a particle type estimation process executed based on the particle type distribution estimation program.
  • Estimatimation of probability density function Since the measured pulse waveform is not always constant even for the same kind of particles, the probability density of the pulse waveform of the particle type from the test data in advance as a preparation for estimating the particle type distribution Function estimation is performed. The probability of appearance of each pulse can be expressed by a probability density function derived by estimating the probability density function.
  • (15B) in FIG. 28 is an image diagram of a probability density function with respect to a pulse waveform obtained using the pulse width and the pulse wave height as feature quantities of the pulse waveform in E. coli and Bacillus subtilis particle types. Represents the appearance probability of.
  • (15A) in FIG. 28 shows a part of the first type of feature quantity regarding one waveform data.
  • kernel density estimation using a Gaussian function as a kernel function is used.
  • Kernel density estimation is a technique that assumes a probability density distribution given as a kernel function to measurement data and regards a distribution obtained by superimposing these distributions as a probability density function.
  • a Gaussian function is used as a kernel function, a normal distribution is assumed for each data, and a distribution obtained by superimposing them can be regarded as a probability density function.
  • FIG. 29 is an image diagram of superposition of probability density distributions obtained from each of the E. coli and Bacillus subtilis particle species.
  • FIG. 16C shows a state in which the probability density distribution (16B) obtained for each particle from the feature amount data (16A) of the pulse width ⁇ t and the pulse height h is superimposed.
  • the probability density function [p (x)] for the input data [x] is expressed by the following equation 9 using the number of teacher data [N], the teacher data [ ⁇ i ], and the variance-covariance matrix [ ⁇ ].
  • the probability density function [p (x)] can be expressed by a product of Gaussian functions of each dimension, as shown in the following formula 10.
  • Equation 10 this corresponds to the assumption that each pulse attribute is an independent random variable that follows a normal distribution, and this can be extended to three or more dimensions as well. Therefore, in this embodiment, it is possible to analyze two or more kinds of particle types.
  • the probability density function module program has a function to calculate and obtain a probability density function for two types of features. That is, when using estimation target data based on two feature quantities [( ⁇ , ⁇ )], the probability density function [p ( ⁇ , ⁇ )] in kernel density estimation using a Gaussian function as the kernel function is expressed by the following equation (11). Is done.
  • the probability density function estimation process executed by the probability density function module program based on Equation 11 performs a probability density function estimation process for two feature quantities as will be described in detail later with reference to FIG.
  • FIG. 30 is an image diagram showing the relationship between the total number of particles of k particle types, the appearance probability of the particle types, and the expected value of the appearance frequency of the entire data.
  • FIG. 17A shows the appearance frequency of the entire data. (17-1) to (17-k) in the same figure show the appearance frequency of the particle type.
  • the expected value of the appearance frequency at which the pulse [x] is measured is the sum of the expected values of the appearance frequency at which the pulse [x] is measured according to the probability density function of the particle type.
  • the sum of expected values of the particle type can be expressed by the following formula 12.
  • probability density function data (see Equation 10) obtained by estimating a probability density function of a particle type obtained in advance is stored in the RAM 23 as analysis reference data.
  • the particle type number analysis is performed by determining the appearance frequency of the entire data to be analyzed from the respective analysis data.
  • the number analysis is performed by estimating histograms of different particle types (appearance frequency (number of particles) for particle types).
  • a data file creation process for creating a data file based on feature values by editing data
  • a particle number estimation process step S2
  • an estimated particle type distribution calculation process step S3
  • estimation methods based on the maximum likelihood method, the Lagrange undetermined multiplier method, and the Hasselblad iteration method can be used.
  • the likelihood (likelihood) that the estimated j-th pulse height data appears is expressed by the following equation (13).
  • ⁇ Lagrange multiplier method an analytical method that optimizes under constraint conditions. An unknown multiplier is prepared for each constraint condition, and a new linear function that uses these coefficients as a coefficient (a new multiplier is also added) It is a method of solving a binding problem as a normal extreme value problem by regarding Maximizing the likelihood that the data set D appears is equivalent to maximizing the log likelihood that the data set [D] appears. Equation 15 below shows the process of deriving the log likelihood for examining the suitability of the Lagrange undetermined multiplier method.
  • Equation 15 the coefficient 1 / N N in the middle it is omitted in the final formula.
  • Equation 17 A constrained log-likelihood maximization formula that performs optimization using the Lagrange undetermined multiplier method can be expressed by Equation 17 below.
  • Equation 17 From the constrained log likelihood maximization equation shown in Equation 17, [k] simultaneous equations shown in Equation 18 below can be derived through the mathematical derivation process shown in FIG.
  • Equation 18 can be numerically solved using an iterative method proposed by Hasselblad. According to the Hasselblad iterative method, the following iterative calculation may be performed. Details of this iterative method are described in a proposed paper (Hasselblad V., 1966, Estimation of parameters for a mixture of normal distributions. Technologies, 8, pp. 431-444).
  • Equation 19 The iterative calculation of Equation 19 is performed using commercially available EM algorithm software.
  • the EM algorithm is a method of calculating the probability distribution parameters by maximizing the likelihood function, that is, maximizing the expected value (Expectation) of the probability distribution which is the likelihood function ( It is an algorithm that can be Maximized.
  • the initial value of the parameter to be obtained is set, the likelihood (expected value) is calculated from the value, and in many cases, using the condition that the partial differentiation of the likelihood function is 0,
  • the maximum likelihood parameter can be calculated by iterative calculation.
  • the initial value of the parameter to be obtained is set, the likelihood (expected value) is calculated from that value, and the partial differentiation of the likelihood function is zero. Is used to repeatedly calculate the maximum likelihood parameter.
  • ⁇ Particle type estimation process Data file creation processing (step S1), probability density function estimation processing (step S2), particle number estimation processing (step S3), and calculation of estimated particle species distribution that can be executed in the particle species estimation processing shown in FIG.
  • the process (step S4) will be described in detail below.
  • FIG. 32 shows a data file creation process (step S1) executed by the data file creation program.
  • the input means 6 of the PC 1 it is possible to perform k number (in the embodiment, two) feature amount designation operations for creating a data file.
  • the combination input of the designated feature amount is set in the RAM 23 (step S30).
  • the data of the feature amount data file for each feature amount setting is read into the work area of the RAM 23 (step S31).
  • the feature amount data file is feature amount (pulse peak value, etc.) data extracted by the BL estimation process of FIG. 22 and the feature amount extraction process of FIG. 26 and stored in a file.
  • step S32 matrix data of N rows and k columns is created (step S32).
  • the created matrix data is output to a particle type distribution estimation data file and stored for each designated feature amount (step S33).
  • step S34 the process ends (step S34).
  • FIG. 33 shows a probability density function estimation process (step S2) executed by the probability density function module program.
  • step S2 a probability density function estimation process for two feature quantities is performed based on Equation (6).
  • step S1 The data of the data file that is the object of probability density function estimation created in the data file creation process (step S1) is read, and an N ⁇ 2 matrix [D] is created (steps S20 and S21). Variance shown in Equation 20 below for each column of the matrix [D]
  • step S22 the dispersion parameter shown in the following equation 21 is set as shown in the following equation 22 using the standard deviation coefficient c (step S23).
  • the probability density function is obtained by substituting each row of the dispersion parameter and the matrix [D] as the teacher data shown in the following Equation 23, and is stored in a predetermined area of the RAM 23 (steps S24 and S25). The processes in steps S20 to S25 are performed until the probability density function is derived from all the processing target data (step S26).
  • FIG. 34 shows a particle number estimation process (step S3).
  • step S10 the data of the data file for which the number of particles is to be estimated created in the data file creation process is read to create a matrix [D] of N rows and 2 columns (step S10). , S11).
  • An estimation process by the Hasselblad iteration method is performed on the matrix [D] data (step S12).
  • FIG. 35 shows a particle number estimation process by the Hasselblad iteration method executed by the EM algorithm.
  • FIG. 23 shows a processing procedure by the EM algorithm.
  • process 19A After setting an initial value (process 19A), number calculation based on a probability density function is sequentially executed (process 19B) (steps S12a and S12b). The number calculation is repeated until the convergence condition shown in (19C) is satisfied (step S12c).
  • the execution result of the EM algorithm (estimated number data for each particle type) is stored in a predetermined area of the RAM 23 (step S12d).
  • the estimated number data for each particle type obtained by the particle number estimation process is edited into the number distribution data of the particle type in step 4 and can be output as a histogram on the display means 7 according to display designation.
  • the particle type scatter diagram based on the feature amount data can be displayed and output.
  • FIG. 37 shows an example of the result of analysis by the particle type number analysis of this embodiment.
  • FIGS. (24A) and (25B) are micrographs of Escherichia coli and Bacillus subtilis that are particle types to be analyzed.
  • (24C) and (25D) show a histogram and a dispersion diagram of the estimated number data for each particle type obtained by executing the particle number estimation process by adding the pulse wave height and the pulse kurtosis as feature amounts.
  • ⁇ Verification 1 of analysis accuracy of the number of particle types by feature amount> The present inventors performed verification 1 of the analysis performance of the number of particle species under the following evaluation conditions using the measured current data of Escherichia coli and Bacillus subtilis in the above examples.
  • Evaluation conditions for verification 1 are as follows.
  • a part of the measured data of the verification particles (E. coli and Bacillus subtilis) is individually analyzed, and the rest are randomly mixed at a predetermined mixing ratio ⁇ , and the number analysis results are compared for verification.
  • a data mixing program for random data mixing is stored in the ROM 3 and random mixing of data is executed using the PC 1 to estimate the number of the random mixed data. That is, the random permutation matrix data of N rows and k columns created by the data mixing program is used as the matrix data in step S32 of FIG.
  • the mixing ratio ⁇ seven types of 10, 20, 30, 35, 40, 45, and 50% are used as the mixing ratio of E. coli.
  • BL estimation parameters (adjustment factors) m, k, and ⁇ are 100,000, 400, and 6, respectively, and the standard deviation coefficient c for estimating the probability density function is set to 0.1.
  • the convergence condition ⁇ at the time of estimating the number of particle types is set to 0.1. Note that, as the value of the adjustment factor used in the evaluation, a value obtained by performing a stricter adjustment in the same manner as the simulation example shown in FIG. 25 is used.
  • the number of total pulses obtained by this verification was 146 for Escherichia coli and 405 for Bacillus subtilis.
  • FIG. 39 show the estimation result data of the verification example using the spread of the waveform near the peak as the feature quantity and the pulse wavelength, and the verification example using the spread of the waveform near the peak and the wave height as the feature quantity. Show.
  • Evaluation of the number of particle types can be performed by “weighted average relative error” represented by the mathematical formula shown in FIG.
  • the “weighted average relative error” is a numerical value obtained by multiplying the relative error of each particle size by the true number ratio of the particle size and adding to the total particle size.
  • (27A) in FIG. 40 shows the number estimation result when kurtosis and pulse height are used as feature quantities.
  • (28A) and (28B) in FIG. 41 show the number estimation result for each mixing ratio ⁇ when the pulse wavelength and the pulse height are used as the feature amount, and the case where the pulse wavelength and the peak position ratio are used as the feature amount.
  • the number estimation result for each mixing ratio ⁇ is shown.
  • (32A), (32B) and (32C) in FIG. 45 are peaks when a waveform near the peak is used as the feature quantity, and when the pulse wavelength is used, the waveform near the peak is used as the feature quantity, and the peak position ratio is used. It is the figure which synthesize
  • (42A) and (42B) in FIG. 55 respectively show the estimation evaluation results regarding the respective feature amount combinations when sampling is performed at 1 MHz and 500 kHz among all the data.
  • (43A) and (43B) in FIG. 43 respectively show the estimation evaluation results regarding each feature amount combination when sampling is performed at 250 kHz and 125 kHz among all the data.
  • (44A) and (44B) of FIG. 44 respectively show the estimation evaluation results regarding each feature amount combination when sampling is performed at 63 kHz and 32 kHz among all the data.
  • (45A) and (45B) in FIG. 58 respectively show the estimation evaluation results regarding each feature amount combination when sampling is performed at 16 kHz and 8 kHz among all the data.
  • the estimated evaluation results for each combination in these tables are the average accuracy shown on the upper side and the standard deviation shown in parentheses on the lower side, obtained by the cross-validation method in the same manner as (4) of Verification 1. To express.
  • Inertia I inertia I (normalized), inertia I in the table w, inertia I wv, inertia I w (standardization), inertia I wv (normalization) is (8) time inertia moment, (9) normalized time inertia moment, (10) wave width average inertia moment, (12) wave dispersion inertia moment, (11) ) Shows the normalized wave width average moment of inertia, and (13) shows the characteristic value of the normalized wave width dispersion moment of inertia.
  • FIG. 60 shows an estimation evaluation result regarding each feature amount combination in all sampling data.
  • FIG. 61 shows the estimation evaluation results for each feature amount combination when high-density sampling is performed at 1 MHz to 125 kHz among all data.
  • FIG. 62 shows the estimated evaluation results for each feature amount combination when low density sampling is performed at 63 kHz to 4 kHz among all data.
  • FIG. 63 shows the sampling frequency-weighted average relative error (weighted average relative error) for the combination of the top five types of feature quantities that can obtain high number estimation accuracy when all sampling data is used (50A) and when sampling is performed at high density (50B). It is a graph of an average value.
  • the combinations of the top five feature quantities in FIG. 63 are: wavelength ⁇ t-area m, wavelength ⁇ t-inertia I, peak position ratio r-inertia I, depression angle ⁇ -inertia I, inertia I-inertia I w (standardization).
  • FIG. 64 is a graph (51A) of sampling frequency-weighted average relative error (average value) and a combination of all sampling data for combinations of the top five types of feature quantities that can obtain high number estimation accuracy when sampling is performed at low density. It is a graph (51B) of the sampling frequency-weighted average relative error (average value) regarding the combination of the four types of feature values when used.
  • the values on the vertical axis in FIGS. 63 and 64 are the average values of the weighted average relative errors obtained by performing 50 cross-validations.
  • the combinations of the top five feature quantities in 51A are as follows: wavelength ⁇ t-area m, wavelength ⁇ t-inertia I, peak position ratio r-area m, depression angle ⁇ -area m, area m-inertia I wv (standardization).
  • the combination of the four types of feature values in 51B is wavelength ⁇ t-area m, wavelength ⁇ t-inertia I, kurtosis k-wave height
  • the results obtained from Verification 2 are as follows.
  • (R1) As shown in FIGS. 60 and 63, when all the sampling data is used, the top five combinations, that is, wavelength ⁇ t-inertia I, wavelength ⁇ t-area m, peak position ratio r-inertia I, depression angle ⁇ -Inertia I, Inertia I-Inertia I
  • w standardized feature quantity
  • the number estimation accuracy (weighted average relative error) by the combination of these feature amounts is, for example, about 9 to 10% in the sampling region of 250 to 1000 kHz at the wavelength ⁇ t-inertia I and 125 to 250 kHz at the wavelength ⁇ t-area m.
  • the feature quantity that can obtain high number estimation accuracy is the wavelength ⁇ t-inertia if it is shown in the top five combinations.
  • I wavelength ⁇ t-area m, peak position ratio r-inertia I, inertia I-inertia I
  • the number estimation accuracy (weighted average relative error) by the combination of these feature amounts is, for example, about 9 to 10% in the sampling region of 250 to 1000 kHz at the wavelength ⁇ t-inertia I and 125 to 250 kHz at the wavelength ⁇ t-area m. About 9 to 10% in the sampling region, and about 13 to 15% in the sampling region of 16 to 63 kHz with wavelength ⁇ t-inertia I. (R3) As shown in FIG. 62, the feature quantity that can obtain a high number estimation accuracy when using low-density sampling data that is smaller than the high-density sampling data can be represented by the wavelength ⁇ t if it is represented by the top five combinations.
  • (R4) As can be seen from (R1) to (R3), high-precision number estimation can be performed even if a combination of feature quantities of the first type and the second type is used. Furthermore, according to the number analysis method of the present invention, even if the number of samplings is not sufficiently large, the number analysis can be performed with the same degree of accuracy as when a predetermined number of samplings is obtained. For example, the combination of the kurtosis k and the peak position ratio r investigated in the verification 1 produced a maximum error of 12%. For example, when the characteristic amount of the wavelength ⁇ t-inertia I is used, all data is used.
  • the number estimation process can be performed with high accuracy of about 9% even for partial data. Therefore, the number analysis function according to the present embodiment is not limited to regular number analysis, and is suitable for promptly performing the determination of the presence and number of particles of fungi or the like, for example, in quarantine inspections or medical sites that require urgency. Can be used as an inspection tool. ⁇ Regarding the number analysis processing time verification 3> Since the number estimation requires the required calculation time for the iterative calculation by the Hasselblad method, a comparison study of feature quantities was verified in Verification 3 regarding the relationship between the required calculation time and the sampling frequency.
  • the time required for the calculation of the number analysis includes the time required for creating the feature value and the calculation time required for the iterative calculation by the Hasselblad method. Therefore, the calculation time CT1 required for creating the feature value, the calculation required for the iterative calculation by the Hasselblad method.
  • FIG. 65 is a graph (52A) of sampling frequency (kHz) -required calculation time (seconds) showing the total calculation time CT3 for each of the four types of feature amount combinations, and the calculation time CT1 required for creating the feature amount for each feature amount combination.
  • Is a graph (52B) of sampling frequency (kHz) -required calculation time (seconds).
  • FIG. 66 is a graph of sampling frequency-required calculation time (seconds) showing calculation time CT2 for each feature amount combination.
  • the feature amount combination G1 of the wavelength ⁇ t-area m and the wavelength ⁇ t-inertia I has almost the same total calculation time, and the kurtosis k-wave height
  • the feature amount combination G2 of the position ratio r has substantially the same total calculation time.
  • the calculation time required to create each feature value of the feature value combination G1 is the same, and the calculation time required to create each feature value of the feature value combination G2 is the same.
  • the time required for iterative calculation by the Hasselblad method can be processed in a short time of about 3 to 5 seconds or less in the sampling region at 1 MHz to 16 kHz in any of the feature amount combinations G1 and G2. ing.
  • the feature amount is used for the required calculation time regardless of the combination of the first type and the same type of the second type or different mixed combinations. Shortening can be achieved. Therefore, according to the number analysis function according to the present embodiment, not only the regular number analysis, but also, for example, in the quarantine inspection that requires urgency or the medical site, the presence / absence and number of fungi particles are quickly determined. be able to.
  • a particle type integrated analysis system in which inspection and analysis are integrated may be constructed by directly importing a detection signal from the nanopore device 8 into a number analyzer and enabling data storage.
  • the probability density is estimated from the data group based on the feature quantity, and the result of deriving the number of the particle types can be displayed on the display means 7 as output means or printed on the printer. Therefore, according to the present embodiment, a highly accurate derivation result (particle number, particle number distribution, estimation accuracy, etc.) can be notified promptly and recognizable in an output form of, for example, a histogram or a scatter diagram.
  • the number analysis function according to the present embodiment can be used as a useful inspection tool in a medical site or a quarantine station that requires a quick response.
  • the present invention is not limited to a computer terminal such as a specific PC on which an identification processing program is installed, but can be applied to a storage medium for identification analysis that stores a part or all of the identification processing program. That is, since the discriminant analysis program stored in the discriminant analysis storage medium can be installed in a predetermined computer terminal and the desired computer can perform the number analysis operation, the number analysis can be performed easily and inexpensively.
  • a storage medium to which the present invention can be applied any one of computer-readable storage media such as a flexible disk, a magnetic disk, an optical disk, a CD, an MO, a DVD, a hard disk, and a mobile terminal can be selected and used. .
  • FIG. 69 shows a classification analysis process according to this embodiment.
  • step S100 processing for removing nonconforming data, specification of feature amounts, and input of known data and analyzed data to the PC 1 are performed.
  • the feature quantity a part or all of the first type and second type shown in the above (1) to (15), or one or more combinations of feature quantities can be designated in advance by the input processing. For example, when Escherichia coli Ec and Bacillus subtilis Bs are the analytes (specific analytes) whose particle types are specified, each of these specific analytes is measured by the nanopore device 8a, and each pulse-like signal is measured.
  • the pulsed signal data obtained by performing measurement with the nanopore device 8a on the analyte to be analyzed whose specific analyte content is unknown is input to the PC 1 as analysis data, and the input data is an analysis data storage memory area of the RAM 4 Stored in
  • step S110 When the classification analysis process is activated by the activation operation, it is determined whether or not the known data is input (step S110). When the known data has not been input, the display means 7 displays a guidance prompting the user to input the known data. In FIG. 69, the notification processing step by various guidance displays is omitted.
  • the input known data is stored in the memory area for storing the known data in the RAM 4 and is used for creating a feature amount (steps S100 and S101).
  • step S110 and S111 When there is known data input, it is determined whether or not a feature amount is specified (steps S110 and S111).
  • the feature amount is designated, the vector amount data of the feature amount designated from the feature amount storage data file DA based on the known data in the RAM 4 is taken into the learning data storage area of the RAM 4 (step S113). If no feature quantity is specified, vector quantity data of all feature quantities is taken into the learning data storage area of the RAM 4 from the feature quantity storage data file DA based on known data in the RAM 4 (step S112).
  • step S114 it is determined whether or not analysis data is input (step S114).
  • the display means 7 displays a guidance prompting input of analysis data.
  • the analysis data is input, the acquired analysis data is stored in the analysis data storage memory area of the RAM 4 (step S100).
  • a feature amount related to the analysis data is created and stored in the RAM 4 as described (step S101).
  • feature quantity vector quantity data is taken into the variable data storage area of the RAM 4 from the feature quantity storage data file DB based on the analysis data of the RAM 4 (step S115).
  • ⁇ Guidance display prompting the execution of classification analysis is performed in the state where the known data and analysis data have been input and the feature quantity has been acquired.
  • the classification analysis program is started and the classification analysis execution process by machine learning is performed (step S116).
  • a classification analysis program by machine learning configured by an algorithm based on a random forest method is stored in the ROM 3 in advance.
  • the classification analysis program uses the feature amount based on the known data as learning data and the feature amount obtained from the analysis data as a variable, it is possible to perform classification analysis on a specific analyte in the analyzed data.
  • the pulse waveform is converted into a numerical vector of the same dimension, and the classification analysis is performed by identifying individual pulses by determining how each vector is different.
  • the classification analysis method by machine learning is not limited to the random forest method, but is a group such as a k-nearest neighbor method, a naive Bayes classifier, a decision tree, a neural network, a support vector machine, a bagging method, or a boosting method. Learning can be used.
  • the classification analysis process ends, and the classification analysis result output process is performed (step S117).
  • the classification result that is the ratio of those derived from passage of Escherichia coli Ec or Bacillus subtilis Bs that are examples of the specific analyte can be displayed on the display means 7.
  • the display modes that can be output are not limited to the classification results for each analysis data, and display modes such as the total number of analytes (for example, E. coli Ec or Bacillus subtilis Bs) and the corresponding ratios of both can be used.
  • FIG. 70 shows a case where the analysis sample shown in FIG. 70 (B) is used in various combinations of feature quantities (Features) and analysis techniques using machine learning (hereinafter referred to as classifiers).
  • category analysis process (refer FIG. 69) based on this invention is shown.
  • Analytical samples are two types of bacterial species (E. coli and Bacillus subtilis) as shown in (57B).
  • a pulse shape obtained by measuring a passing waveform using a micro / nanopore device 8 having an inner diameter of the through-hole 12 of 4.5 ⁇ and a penetration distance (pore depth) of the through-hole 12 of 1500 mm.
  • 42 signal data all of the measurement pulses in the case of Escherichia coli and 42 out of 265 measurement pulses in the case of Bacillus subtilis
  • about 90% of the pulsed signal data was used as learning data, and the remaining data was assigned to variables.
  • the evaluation items are represented by the F-scale (F-Measure), the true positive rate (TPRate), the false positive rate (FPRate), the precision (Precision), the recall (Recall), It consists of items of F value (FMMeasure) and receiver operating characteristic curve area (ROC (Receiver Operating Characteristic) curve Area).
  • FIG. 71 is an explanatory diagram of the F-scale.
  • the F-scale is calculated by assigning the expected value of each bacterial species to the real number of two bacterial species (E. coli real number: P, Bacillus subtilis real number: N). Assuming that the sum of true positive (TP), false positive (FP), true negative (FN) and false negative (TN) in the combination is 1, expressed as 2TP / (2TP + FP + FN) as shown in (58B) .
  • FIG. 70 (57A) is a table showing classification results in the top 10 excellent F-scales obtained by this verification.
  • the top 10 feature values include a 13-dimensional feature value vector (table) in which 13 types of feature values (1) to (11), (14), and (15) are arranged.
  • hv & F a combination of a wave height vector (abbreviated as “h” in the table) and an average vector of (10) (abbreviated as “wV” in the table) (“h & wV” in the table) (Abbreviation), a combination of a wave height vector and a standardized average value vector (abbreviated as “wNrmdV” in the table) (abbreviated as “h & wNrmdV” in the table).
  • the one with the best classification accuracy is the case by a classifier (“4meta.Random Committee”) using the combination of h & wV as a feature quantity, and the classification accuracy is about 98.9%. It was highly accurate.
  • the present invention is not limited to a computer terminal such as a specific PC on which a classification analysis program is installed, but can be applied to a classification analysis storage medium that stores part or all of the classification analysis program. That is, since a classification analysis program stored in the classification analysis storage medium can be installed in a predetermined computer terminal and a desired computer can be operated for classification analysis, analysis can be performed easily and inexpensively.
  • a storage medium to which the present invention can be applied any one of computer-readable storage media such as a flexible disk, a magnetic disk, an optical disk, a CD, an MO, a DVD, a hard disk, and a mobile terminal can be selected and used. .
  • highly accurate nonconforming data can be identified and classified and analyzed.
  • drug discovery using DNA storage medium information compression technology or artificial base pairing, or fine dust mixed in a measurement sample In the case where an analysis substance contained in a body fluid or the like is used as a measurement target, it can be widely applied and developed in the field of identification / removal technology of nonconforming data caused by minute substances such as red blood cells, white blood cells, and platelets.
  • the present invention can be applied to data analysis in a detection technique in which a sample containing DNA or RNA and contaminants is analyzed, for example, by performing DNA content analysis in sewage to detect the occurrence of a virus. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Nanotechnology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)

Abstract

[課題]計測データ集合から適切に不適合データを識別して、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与する識別方法、計測データに対する高精度の分類分析を行うことのできる分類分析方法、識別装置、分類分析装置、識別用記憶媒体および分類分析用記憶媒体を提供することである。 [解決手段]パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、PU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データから得られる特徴量を変数にして、分類分析プログラムを実行することによって分析物に関する分類分析が行われる。高精度に識別した不適合データを取り除いた被分析データにより分析物に関する分類分析が高精度に実行可能である。 [選択図]図4

Description

識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体
 本発明は、計測系から得られた計測データに含まれる不適合データを識別する識別方法、該不適合データを取り除いたデータによる分類分析を行う分類分析方法、識別装置、分類分析装置および記憶媒体に関する。
 例えば、非特許文献1に記載されているように、ナノセンシング、微量計測、量子計測など先端センシングデバイス開発分野において、微細・微量な対象を計測するためのデバイスが次々と開発されている。
WO2013-137209号公報
「Rosenstein,J.K.,Wanunua, M.,Merchant,C.A.,Drndic,M.,and Shepard,K.L.: Integrated nanopore sensing platform with sub-microsecond temporal resolution,Nature Methods,pp.487-492(2012)」 「Weka3:Data Mining Software in Java」、Machine Learning Group at the University of Waikato、インターネット<URL:http://www.cs.waikato.ac.nz/ml/weka/> 「Elkan,C.and Noto,K.: Learning Classifiers from Only Positive and Unlabeled Data,in KDD '08 Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining,pp.213-220, Las Vegas,Nevada,USA(2008),ACM New York,NY,USA」 「Tsutsui,M.,Taniguchi,M.,Yokota,K.,and KawaiT.: Identifying Single Nucleotides by Tunneling Current,Nature Nanotechnology,Vol.5,pp.286-290(2010)」
 しかしながら、上記の先端センシングデバイスの多くは、計測系や計測対象が微小であるが故に該対象の部分的な情報のみを出力するものであり、出力が熱雑音や量子ノイズなどの影響を受けることが多い。このため、対象信号よりもノイズ信号レベルの大きい場合、すなわち、SN比が非常に悪いという場合が多く、一次的な計測段階では計測精度が低すぎて実用化に適さないという問題を生じていた。また、このような計測状況下では、小さい信号がノイズで大きい信号が対象を表すと仮定して、信号強度でノイズ成分を除去するという一般的なノイズ除去手法を採用する余地はない。さらに、対象に関する知識や問題固有の性質を用いた各種ノイズフィルタリングを適用する場面も、係る知識や性質が明らかでない場合が多く適用しがたい。特に、1分子計測技術を用いた次々世代DNAシークエンサーでは、対象分子や計測系の性質に未知な部分が多くかつノイズ信号が大きいため、ノイズの影響が深刻な課題となっている。
 本発明の目的は、計測データ集合から適切に不適合データを識別して、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与する識別方法、計測データに対する高精度の分類分析を行うことのできる分類分析方法、識別装置、分類分析装置、識別用記憶媒体および分類分析用記憶媒体を提供することである。
 本発明は、上記課題に鑑み、正例集合と未知集合から分類器を学習する機械学習手法に着目し、例えば、正例/負例の2値分類に適したPU分類手法(Classificaion of Positive and Ulabeled Examples)により構成した分類器を用いることによって、計測パターンから不適合データを高精度に識別し得るという知見にも基づいてなされた発明である。PU分類手法の詳細は、非特許文献3に記載されている。
 本発明に係る第1の形態は、
 計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別方法であって、
 前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
 前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
 前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別方法である。
 本発明に係る第2の形態は、
 第1の形態に係る識別方法により識別した不適合データを記憶する不適合データ記憶手段を有し、
 計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、
 前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
 前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
 あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析方法である。
 本発明に係る第3の形態は、
 前記特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さを表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
 パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
のいずれか1または2以上である分類分析方法である。
 本発明に係る第4の形態は、
 計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別装置であって、
 前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
 前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
 前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別装置である。
 本発明に係る第5の形態は、
 第4の形態に係る識別装置により識別した不適合データを記憶する不適合データ記憶手段を有し、
 計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、
 前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
 前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
 あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析装置。
 本発明に係る第6の形態は、
 前記特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さを表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
 パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
のいずれか1または2以上である分類分析装置である。
 本発明に係る第7の形態は、第1の形態に係るコンピュータ制御プログラムを記憶したことを特徴とする識別用記憶媒体である。
 本発明に係る第8の形態は、第2の形態コンピュータ制御プログラムを記憶したことを特徴とする分類分析用記憶媒体である。
 第1の形態によれば、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別方法であって、前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することができる。したがって、本形態においては、PU分類手法に基づく分類器を構成して、計測の結果得られたパルス状信号に含まれる不適合データを高精度に識別でき、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与することができる。
 特には、本形態における分類器は、対象に関する知識や問題固有の性質を用いることなく、過去に収集された不適合データ集合と、正負不明の実測データ集合の各データで構成することができるので、単純な信号強度で識別する従来手法では達成できない優れた不適合データの除去性能を具備し、種々の計測データの解析への広汎な適用可能性を有している。
 第2の形態によれば、第1の形態に係る識別方法により識別した不適合データを記憶する不適合データ記憶手段を有し、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことができる。したがって、本形態においては、第1の形態に係るPU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データにより前記分析物に関する分類分析を高精度に行うことができる。
 第3の形態によれば、前掲の各特徴量は、パルス状信号の波形形態由来の特徴量であり、これらの特徴量群のいずれかのうち1または2以上の特徴量を使用することにより、機械学習による分類分析をより一層高精度に行うことができる。
 本形態においては、上記特徴量群のうち少なくとも1つ以上の特徴量を使用して分類分析する場合に限らず、上記特徴量群のうち2つ以上の組み合わせを使用して分類分析を行うことができる。
 第4の形態によれば、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別装置であって、前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することができる。したがって、本形態においては、PU分類手法に基づく分類器を構成して、計測の結果得られたパルス状信号に含まれる不適合データを高精度に識別でき、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与し得る識別装置を提供することができる。
 特には、本形態に係る分類器は、対象に関する知識や問題固有の性質を用いることなく、過去に収集された不適合データ集合と、正負不明の実測データ集合の各データで構成することができるので、本形態は、単純な信号強度で識別する従来手法では達成できない優れた不適合データの除去性能を具備し、種々の計測データの解析への広汎な適用可能性を有する識別装置を実現することができる。
 第5の形態によれば、第4の形態に係る識別装置により識別した不適合データを記憶する不適合データ記憶手段を有し、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことができる。したがって、本形態においては、第4の形態に係るPU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データにより前記分析物に関する分類分析を高精度に行える分類分析装置を提供することができる。
 第6の形態によれば、前掲の各特徴量は、パルス状信号の波形形態由来の特徴量であり、これらの特徴量群のいずれかのうち1または2以上の特徴量を使用することにより、機械学習による分類分析をより一層高精度に行える分類分析装置を提供することができる。
 本形態においては、上記特徴量群のうち少なくとも1つ以上の特徴量を使用して分類分析する場合に限らず、上記特徴量群のうち2つ以上の組み合わせを使用して分類分析を行える分類分析装置を実現することができる。
 第7の形態によれば、第1の形態に係るコンピュータ制御プログラムを記憶した識別用記憶媒体を提供することができる。したがって、本形態に係る記憶媒体は、第1の形態で説明した前記コンピュータ制御プログラムによる効果を有するので、識別用記憶媒体に記憶したコンピュータ制御プログラムをコンピュータにインストールして該コンピュータに識別分析動作させることによって高精度な識別分析を行うことができる。
 第8の形態によれば、第2の形態に係るコンピュータ制御プログラムを記憶した分類分析用記憶媒体を提供することができる。したがって、本形態に係る記憶媒体は、第2の形態で説明した前記コンピュータ制御プログラムによる効果を有するので、分類分析用記憶媒体に記憶したコンピュータ制御プログラムをコンピュータにインストールして該コンピュータに分類分析動作させることによって高精度な分類分析を行うことができる。
 第7および第8の形態に係る記憶媒体としては、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択することができる。
 本発明によれば、コンピュータ端末を利用して、DNA記憶媒体の情報圧縮技術や人工塩基対を用いた医薬品創薬、あるいは、計測試料に混入する微細な塵埃、あるいは体液などに含まれる分析物質を計測対象とする場合における、赤血球、白血球、血小板等の微小物質などに起因する不適合データの識別・除去技術等の分野におけるデータ分析を高精度に行うことができる。
本発明に係る実施形態における分析対象となる計測データを測定するための計測系を模式的に示す概要図、該計測系により計測したパルス状信号の波形例を示す図である。 前記計測系によりDNA構成分子について計測したパルス状信号の波形例を示す図である。 本発明の一実施形態である分類分析装置の概略構成を示す概略ブロック図である。 前記実施形態に用いるPC1の識別・分類分析プログラムにより実行可能な処理内容の概要を示す図である。 PC1による識別処理を示すフローチャートである。 本発明による識別精度の検証に使用した22種の分類器用ソフトウエアのリストを示す表である。 前記実施形態に用いる波高ベクトルを示す図である。 前記実施形態に用いる波長方向時間ベクトルを示す図である。 PU法の学習アルゴリズムの処理手順の概要を説明するための図である。 PU法における主要な解析内容を示す図である。 PU法による分類器の処理内容をまとめた概要説明図である。 前記識別処理におけるPU法による2値分類器の識別処理を示すフローチャートである。 本発明に係る識別方法の識別精度を検証するための識別実験から得られたパルスピーク波高のヒストグラムを示す図である。 前記識別実験から得られたF-尺度(F-Measureのヒストグラムを示す図である。 マイクロ・ナノポアデバイスの概略構成を示す概略側断面図である。 PC1による分析処理の説明に必要な処理プログラム構成を示す図である。 実施例の大腸菌と枯草菌につき実測した粒子通過によるパルス波形例を示す図である。 本発明に係る各種特徴量を説明するためのパルス波形図である。 カルマンフィルターを説明するための図である。 カルマンフィルターの各因子を実際の計測電流データで説明するための図である。 カルマンフィルターの予測(8A)と更新(8B)の繰返しの詳細を示す図である。 BL推定処理プログラムに基づくBL推定処理を示すフローチャートである。 カルマンフィルターの因子調整に使用したビーズモデルの波形図である。 大腸菌22と枯草菌23が電解質溶液24中に混在する様子を模式的に示した貫通孔12周辺の拡大図である。 調整因子のm、k、αの組合せに応じてビーズモデルの波形から拾われたパルスの数を示す表である。 特徴量抽出プログラムの実行処理内容の概要を示すフローチャートである。 粒子種推定処理を示すフローチャートである。 1つの波形データに関する各特徴量(15A)と、大腸菌と枯草菌の粒子種における確率密度関数のイメージ図(15B)とを示す図である。 大腸菌と枯草菌の粒子種の個々より得られた確率密度分布の重ね合わせのイメージ図である。 k個の粒子種別の粒子総数と、粒子種別の出現確率と、データ全体の出現頻度の期待値との関係を示すイメージ図である。 ラグランジュ未定乗数法により最適化を行う制約付き対数尤度最大化式の導出過程を説明するための図である。 データファイル作成処理を示すフローチャートである。 確率密度関数の推定処理を示すフローチャートである。 粒子数の推定処理を示すフローチャートである。 Hasselblad反復法による粒子数推定処理を示すフローチャートである。 EMアルゴリズムによる処理手順を示すフローチャートである。 本実施形態に係る個数分析機能により分析した結果の一例を示す図である。 特徴量としてパルス波長、波高を使用した検証例と、特徴量としてパルス波長、ピーク位置比を使用した検証例の各推定結果データを示す表である。 特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す表である。 特徴量として尖度と、パルス波高を使用した場合における個数推結果を示す図である。 BL推定処理プログラムに基づくBL推定処理を示すフローチャートである。 大腸菌と枯草菌の混合比をそれぞれ、1:10、2:10、3:10、35:100とした場合における各個数推定結果を示すヒストグラムである。 大腸菌と枯草菌の混合比をそれぞれ、4:10、45:100、1:2とした場合における各個数推定結果を示すヒストグラムである。 特徴量としてパルス波長、パルス波高を使用した場合における各粒子の散布状態を合成した図である。 特徴量としてピーク付近波形の広がり、パルス波長を使用した場合、特徴量としてピーク付近波形の広がり、ピーク位置比を使用した場合、ピーク付近波形の広がり、パルス波高を使用した場合における各粒子の散布状態を合成した図である。 マイクロ・ナノポアデバイス8を用いて、3種の粒子33a、33b、33cが貫通孔12を通過して得られる検出信号の波形例と、特徴量に基づいて得られる確率密度関数の導出例を示す図である。 俯角および面積の特徴量を説明するためのパルス波形図である。 波高ベクトルの取得の仕方を説明するための図である。 d次元の波高ベクトルとデータサンプリングとの関係を説明するための図である。 時間(波長)および波幅に関する第2類型の特徴量を説明するためのパルス波形図である。 w次元の波幅ベクトルとデータサンプリングとの関係を説明するための図である。 波幅に関する慣性モーメントを波幅ベクトルにより取得する取得過程を説明するための図である。 複数の方向に分割した場合の特徴量作成用波形ベクトルの一例を説明するための図である。 特徴量抽出の処理内容を示すフローチャートである。 1MHz、500kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である 250kHz、125kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 63kHz、32kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 16kHz、8kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 4kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 全サンプリングデータに対する各特徴量組合せに関する推定評価表である。 1MHz~125kHzでの高密度サンプリングしたときの各特徴量組合せに関する推定評価表である。 63kHz~4kHzでの低密度サンプリングしたときの各特徴量組合せに関する推定評価表である。 全サンプリングデータを使用したとき(50A)および高密度にサンプリングしたとき(50B)に高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフである。 低密度にサンプリングしたときに高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51A)と、全サンプリングデータを使用したときの4種類の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51B)である。 4種類の各特徴量組合せに対する、特徴量作成に要する計算時間とHasselblad法による反復計算に要する計算時間との合計計算時間を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52A)と、各特徴量組合せに対する特徴量作成に要する計算時間を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52B)である。 4種類の各特徴量組合せに対する、Hasselblad法による反復計算に要する計算時間を示すサンプリング周波数-所要計算時間(秒)のグラフである。 本発明に係る分類分析方法の概要を説明するための概要図である。 本実施形態における主な制御処理を示す図である。 本実施形態における分類分析処理を示すフローチャートである。 分類分析処理の検証により評価結果と、該検証における分析試料の詳細を示す表である。 F-尺度(F-Measure)の説明図である。
 本発明の一実施形態に係る分類分析装置を図面を参照して以下に説明する。本実施形態においては、分析物の一例としてDNA構成分子を分類分析する塩基種分析形態で説明する。
 図1の(1A)は、本実施形態における分析対象となる計測データを測定するための計測系を模式的に示す概要図である。
 計測系は、塩基分子を含む溶液を収容する収容容器で構成された計測空間MSと、計測空間MS内に対向して配置された1対の微細形状の電極D1、D2とを有する。電極D1、D2は、金(Au)元素で形成されたナノギャップ電極であり、互いに微細距離を隔てて配設されている。微細距離は、約1nmに形成されている。計測空間MSには、測定試料は、溶媒(純水)と、溶媒に混入されたDNA構成分子とを含む溶液サンプルである。
 非特許文献4に記載されているように、ナノギャップ電極は、次々世代DNAシークエンサーとして期待されるデバイスである。この電極は、機械的破断接合と呼ばれる手法を用いて作成されたごく微細な隙間をもつ電極ギャップである。この電極ギャップに一定の電圧をかけると、ギャップ付近を物質が通過する際に量子力学的トンネル効果による電流(トンネル電流:図1の破線参照)が流れる。このトンネル電流が、物質が通過した瞬間のパルス電流として電流計測器MEにより計測される。このナノ ギャップ電極によるトンネル電流パルスを計測することにより、DNA塩基分子の種類を1分子単位で識別することが可能になり、既存技術では困難であったペプチドのアミノ酸配列や疾病マーカーとなる修飾アミノ分子の識別などが可能になってきている 。図1の測定系において、約1nmの電極間隙を有するナノギャップ電極(D1、D2)を用いて、電極付近を通り過ぎる1分子に流れるトンネル電流パルスを計測して検出したパルス状信号のデータを分析対象とする。
 被計測分子には、人工核酸塩基であるジチオフェンウラシル誘導体(以下、BithioUと略す。)とTTFウラシル誘導体(以下、TTFと略す。)の2種類を用いた。これらの分子は、識別を容易にするためにエピジェネティック部位(DNAメチル化などが起こる後天修飾部位)を化学的に修飾したものである。矢印Fで示すように、ギャップ付近をDNA分子を通過させる駆動力源は、分子自体のブラウン運動の他に、電気泳動、電気浸透流、誘電泳動によるものを使用することができる。
 図1の(1B)および図2は、図1の計測系により計測したパルス状信号の波形例を示す。これらの図において、横軸は計測時間(×10-4sec)、縦軸は計測電流値(nA)を示す。
 (1B)に示すように、パルス状信号のパルス判定部分は、計測波形中央の1/3の部分であり、このパルス波形データを被分析データに使用する。
 (2A)の2A1、2A2は、塩基分子BithioUを検出したときの波形例を示す。(2B)の2B1、2B2は、塩基分子TTFを検出したときの波形例を示す。(2A)の2A3、2A4および(2B)の2B3、2B4は、塩基分子を検出したときに混在するノイズ波形例を示す。
 図1の計測系において、DNAの1塩基分子を電流パルスとして計測して検出する。計測されたパルスには、塩基分子由来のものだけではなく電極表面の金属原子のゆらぎや不純物による電流パルスも含まれている(図2の(2A)の2A3、2A4および(2B)の2B3、2B4参照)。これらのノイズパルスのために、本来は塩基由来であるパルスを見逃したり、逆にノイズパルスであったのに塩基分子パルスが計測されたと誤判定する可能性が起こり得るので、計測結果としてDNA塩基分子の識別が困難になる。本発明は、計測されたパルスの波形データ集合から適切にノイズパルスの不適語データを識別、除去して、高精度に塩基種類の分類分析を可能にすることができる。
 図3は本実施形態の分類分析装置の概略構成を示す。この分類分析装置は、パーソナルコンピュータ(以下、PCという。)1により構成され、PC1にはCPU2、ROM3、RAM4およびデータファイル記憶部5を有する。ROM3には、コンピュータ制御プログラムが格納されている。コンピュータ制御プログラムには、機械学習を用いた不適合データの識別処理および分類分析を行うための識別・分類分析プログラムおよび識別・分類分析に必要な特徴量の作成用プログラム等の各種処理プログラムが含まれている。分類分析プログラム等の各種処理プログラムは、各プログラムを記憶した記憶媒体(CD、DVD等)からインストールされて格納可能になっている。PC1にはキーボード等の入力手段6および液晶ディスプレイ等の表示手段7が入出力可能に接続されている。データファイル記憶部5には分析用データが格納可能になっている。
 PC1は、不適合データの識別処理機能および分類分析処理機能を具備するが、本発明においては、識別処理機能および分類分析処理機能をそれぞれ別個に備えた専用端末で構成することができる。
 図4は、PC1の識別・分類分析プログラム(コンピュータ制御プログラム)により実行可能な処理内容の概要を示す。図5は、PC1の識別処理のフローチャートである。
 PC1の識別処理は、以下の識別方法に基づく処理手順により行われる。識別・分類分析プログラムには、正例集合の正例データと、、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いたPU手法に基づいた識別処理プログラムが格納されている。
(処理1-1)計測空間MSに分析物(DNA構成分子)を含まない試料(溶媒のみ)を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データを記憶手段のRAM4に取り込んで記憶させる。
(処理1-2)計測空間MSに分析物(DNA構成分子)を含む試料(溶媒+DNA構成分子)を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データを記憶手段のRAM4に取り込んで記憶させる。
(処理1-3)識別処理プログラムの入力形式に合わせるために、第1種データおよび第2種データの属性ベクトルが作成される。
(処理1-4)第1種データを正例データとし、第2種データを未知データとして、識別処理プログラムを実行する。
(処理1-5)識別処理プログラムの実行により、確率p(s=1|x)を抽出して求める。該確率データは、RAM4の所定エリアに記憶、保存される。なお、以下のPU法による解析において使用される属性ベクトルは、多次元データによるもので、ベクトル表記されるものであるが、以下の説明では、特にベクトル表記を省略している。
(処理1-6)該確率により、第2種データに含まれている、分析物以外の要素(前述の塩基分子由来のものでなく電極表面の金属原子のゆらぎや不純物)に起因して検出された不適合データを検出、識別する。検出した不適合データは、RAM4の所定エリアに記憶、保存される。
 識別処理プログラムには、非特許文献2に開示されている、機械学習プラットフォームフリーウェア Wekaの分類器用ソフトウエアを用いることができる。
 図6は、本発明による識別精度の検証に使用した22種の分類器用ソフトウエアのリストである。識別処理プログラムとして、22種のいずれも使用可能であり、ROM3に格納可能になっている。PU法におけるp(s=1|x)の計算と、PU法によるノイズデータ除去後の識別処理のいずれに対してもWekaのプログラムを使用して検証を行った。
 計測したパルス波形データは、波長も波高もまちまちであるため、機械学習分類器によって塩基種類を識別するためには次元のそろった属性ベクトルを入力として用いる必要があり、機械学習処理プログラムの実行の際には、入力形式に合わせる前処理として、一種の粗視化を施し、パルス波形を反映した属性ベクトルを作成する前処理が(処理1-1)および(処理1-2)において行われる。
 計測したパルス波形データは、波長も波高もまちまちであるため、機械学習分類器によって塩基種類を識別するためには次元のそろった属性ベクトルを入力として用いる必要があり、識別処理プログラムの実行の際には、入力形式に合わせる前処理として、一種の粗視化を施し、パルス波形を反映した属性ベクトルを作成する前処理が(処理1-3)において行われる。
 図7は、波高ベクトルを示す。図8は、波長方向時間ベクトルを示す。
 図7に示すように、計測パルス波形について、波長方向にdh分割し各分割区分ごとに計測電流値の平均値を計算して、これを成分にしたdh次元の属性ベクトルを波高ベクトルとする。この属性ベクトルには、波高方向に規格化したものとしないものの2種類が作成される。
 図8に示すように、パルスのピーク前後で計測電流値を2つのグループに分けた上で、波高方向にdw 分割すると、パルスの計測電流値は、2dwのグループに分割される。この分割区分ごとにパルス開始時点からのステップ数の平均値を 算出して、これらの値を成分としてもつ2dw次元の波長方向時間ベクトルが作成される。また、パルス開始時点から終了時点までの時間を「 1 」とする規格化を施した規格化波長方向時間ベクトルも作成される。以上の波高ベクトルと波長方向時間ベクトルに加え、これらを単に連結した属性ベクトルも作成される。これらのベクトルデータは、RAM4の所定エリアに記憶される。
 本実施形態において2値分類器を構成するために、波高と波長の2つの特徴量を使用している。本実施形態に係る不適合データの識別精度を検証する検証実験においては、1つのパルス波形データから作成した、下記のV1~V8の8通りの属性ベクトルを使用して検証した。
(V1)パルスピーク値を「1」に規格化した波高ベクトル(hvNrmd)
(V2)規格化しない波高ベクトル(hvRaw)
(V3)パルス波長時間を「1」に規格化した波長方向時間ベクトル(wvNrmd)
(V4)規格化しない波長方向時間ベクトル(wvRaw)
(V5)V1とV2を連結した(dh+2dw)次元ベクトル
(V6)V1とV4を連結した(dh+2dw)次元ベクトル
(V7)V2とV3を連結した(dh+2dw)次元ベクトル
(V8)V2とV4を連結した(dh+2dw)次元ベクトル
 検証実験では、上記8通りの属性ベクトルを作成し、これらの識別精度の比較を行った。属性ベクトル作成時の分割数は予備解析を行った上で、一律にdh =10、dw=5とした。
 通常の2値分類器の場合、正例と負例が与えられたデータから学習して分類器が生成される。これに対し、本実施形態においては、計測データに不適合データが混在する場合であるから、PU法による分類器を使用している。本実施形態に使用されるPU法は、非特許文献3に詳述されているように、正例とラベルなしデータから学習し、正例/負例の2値分類をするための半教師あり学習アルゴリズムの一種である。ROM3に格納したPU法の学習アルゴリズムの処理手順の概要は以下の通りである。
 図9は、PU法の学習アルゴリズムの処理手順の概要を説明するための図である。同図(9A)は、学習に使用する変数およびラベルフラグを示し、(9B)は、(9A)の前提条件の詳細を示す。図10は、PU法における主要な解析内容を示す図である。図11は、以下に説明する、PU法による分類器の処理内容をまとめた概要説明図である。図11において、正例集合、負例集合をそれぞれ、P、Nとし、Pには、ラベル付き部分集合Lとラベル無し部分集合Uが含まれ、NにはUのみを含むとしている。
 事例x(入力データ)をパルス波形に関する属性ベクトルとし、yをそのクラスラベル、事例にクラスラベルが付けられているか否かを示すフラグをsとする。入力事例の集合のなかで、正例(y=1)の一部のみがラベルされており(s= 1)、他の正例と全ての負例(y=0)はラベルされていない(s=0)。すなわち、サンプルが負例であるならばラベルされている確率はゼロであり、p(s= 1|x,y=0)=0である。このような事例集合を2値分類器の学習アルゴリズムの入力とし、サンプルがラベルされている確率 g(x)=p(s=1|x)を求めることができる。さらに、本来求めたいものはg(x)ではなくp(y=1|x)であるから、次の補正を加えてp(y=1|x)が抽出される。
 全事例集合において、サンプルがラベルされている確率である、g(x)=p(s=1|x)は、図10の(10a)に示す導出過程により、g(x)=p(y=1|x)p(s=1|y=1)の関係式に導出される。c=p(s=1|y=1)とすると、サンプルが正例である確率は、p(y=1|x)=g(x)/cと与えられる。
 ここで、正事例集合中でラベル付けされる確率が一様ランダム、すなわちxによらずp(s=1|y=1,x) =p(s=1|y=1)=cは一定値であると仮定している。これは、取り扱う計測データが意図的に偏った恣意的なデータではないことによる。
 ここで、cは、次のようにして推定することが可能である。正事例集合中で一 様ランダムにラベル付けされているならば、g(x)は、xが正例である場合には正例中に含まれるラベル付き事例集合の割合 に一致し、g(x)=p(s=1|y=1)=cとなる。そこで、PU法によらない通常の2値分類器で求めたg(x)を用いて、正事例であるラベル付き事例集合L中の平均(下式の数1としてcを推定することができる。
Figure JPOXMLDOC01-appb-M000001
 図12は、(処理1-5)におけるPU法による2値分類器の識別処理を示す。
 処理P1-1において、g(x)を学習データ集合により学習する処理が行われる。次に、処理P1-2において、数1に基づいてcを検証用データ集合により推定する処理が行われる。処理P1-3において、g(y=1|x)=g(x)/cの関係から確定したg(y=1|x)によってテストデータに対する正例/負例の識別を行う処理が行われる。この場合の判断基準は、g(y=1|x)>0.5とすることができる。
 本発明は、図11に示すPU法による分類器の構成において、ラベルなし事例が正例である確率を抽出することができる。以下に、ラベルなし事例が正例である確率を抽出する抽出手順を説明する。
 ラベル付き事例は全て正例であるが、ラベルなし事例は正例、負例のいずれの可能性もある。ラベルなし事例が正例である確率をw(x)とすると、その負例である確率は、 1-w(x)である。そこで、ラベルなし事例をすべて2倍に複製し、一方を正例として扱い、もう一方を負例として扱う。正例として扱うラベルなし事例xには重みw(x)を与え、負例として扱うラベルなし事例x には重み「1-w(x)」を与える。ラベル付き事例は、すべて正例であるから、重み「1」で正例として扱う。これら重み付き事例集合を学習データとして分類器を作成する。
 ここで、cとg(x)=p(s=1|x)は、図9~図11に示した手法により得られているとした場合、ラベルなし事例が正例である確率w(x)は、図10の(10b)に示す導出過程により、w(x)=(1-c)g(x)/(c(1-g(x)))となるので、cおよびg(x)の抽出によりラベルなし事例が正例である確率w(x)を求めることができる。
 本実施形態による識別精度の検証実験を以下に説明する。
 DNA構成分子を分析物とし、ナノギャップ電極を用いて計測した計測パルス集合から、1)まず前処理としてPU法による分類器を構成し、ノイズ由来のパルス(不適合データ)を識別し(図12参照)、抽出した不適合データを第2種データから除去して塩基由来のパルスのみのデータ集合を取得した。2)そのようにして得た塩基由来のパルス集合に対して塩基種別の識別精度を評価した。
 ノイズ除去は、あらかじめ塩基(BithioU、TTF)を含んでいない溶 媒のみに対して、ナノギャップ電極により計測したトンネル電流パルスを取得しておく。このパルス集合は塩基とは関係のないノイズ由来のパルスであり、「ノイズパルス集合」と呼ぶことにする。次に、溶媒に塩基BithioUを混入したものについて計測した電流パルスを取得する。TTFについても同様に取得する。このパルス集合には、塩基由来の「塩基パルス」とノイズパルスの双方が含まれている。そこでこれを「塩基+ノイズパルス集合」と呼ぶことにする。
 ノイズパルス集合中のパルスは必ずノイズパルスであるので、それを正事例集合(第1データのデータ集合)とみなし、塩基+ノイズパルス集合中のパルスは、いずれのパルスであるか不明なので、それをラベルなし事例集合とみなして、図12に示したPU分類器処理によって、ノイズパルス(正例)と塩基パルス(負例)の識別を行うことができ、正例であるノイズデータを除去することにより、ほぼ塩基パルスのみからなる集合(塩基パルス集合)を得ることができる。
 PU分類器処理は、このノイズパルスと塩基パルスの正負例分類のために 1 度使用するだけであり過学習による問題は起こらないので、全パルス集合を学習用データとして用いてPU分類器を作成し、それにより全パルス集合をノイズパルスと塩基パルスに分離する分類分析を行った。このようにして、BithioUの塩基+ノイズパ ルス集合からPU分類器によりBithioUの塩基パルス集合を取得、TTFの塩基+ノイズパルス集合からPU分類器によりTTFの塩基パルス集合を取得した。
 塩基パルスと塩基+ノイズパルスの識別精度評価のために、ノイズデータを除去、分離したBithioUとTTFの塩基パルス集合に対し、通常の2値分類器による塩基種類の識別実験を行った。識別実験では、2種塩基の塩基パルス数のいずれかが10に満たない場合は、学習用事例が少なすぎるために実験対象から除外した。識別精度の指標にはF-measure(後述の図71に示す、F-尺度)を用い、10倍交差検定(10-Fold crossvalidation:以下、10CVと略す。)により精度評価を行った。10CVの際には、BithioUとTTFの塩基パルス数は同数とした.すなわち、PU分類器により得たBithioUとTTFの塩基パルス数がそれぞれNB、NTであるとき、10CVに用いる塩基パルス数をBithioU、TTFともにN=min(NB,NT) に揃えた。パルス数がNより大きい塩基パルス集合については、N個の塩基パルスをランダム抽出した。また、PU分類器によるノイズ除去の効果を見るために、ノイズデータ除去を施す以前の塩基+ノイズパルス集合に対しても、BithioUとTTFの識別実験を行った。BithioU、TTFそれぞれの塩基+ノイズパルス集合からN個ずつランダム抽出して得たパルス集合に対し、塩基パルス同様に 10CVで精度評価を行った。
 以下に検証実験の実験条件を説明する。
 図6に示した機械学習ソフトウエアによる、22種の分類器で種々の分析条件の下で識別精度を調べた。
 パルス抽出パラメータとして、パルス抽出の際には、計測電流値のベースラインからどれだけ外れたらパルス開始と判定するかという波高閾値αと、何ステップ以上波高閾値を超えたらパルスであると判定するかという波長閾k値の2つのパラメータ(後述の図22に示す調整因子)を用いている。これらのパラメータを様々試し、「波高閾値αについて4通り×波長閾k値について4通りの計16通り」に対して実験を行った。属性ベクトルとしては、V1~V8の8種類の属性ベクトルについて試した。
 分類分析用の分類器としてアンサンブル学習「Rotation Forest」を採用し、その内部で用いるベース分類器として、Wekaに実装されているもののうち、入力事例連続値ベクトルの2値分類を行える、図6の22種類の分類器を使用した。PU手法としては、図10に示したg(x)およびw(x)の2種の手法を使用した。
 上記の実験条件下で行う不適合データの識別実験は、上記の実験条件下で行う不適合データの識別実験は、パルス抽出パラメータ16通り×属性ベクトル8通り×Wekaに実装された22分類器×PU手法2通りの全ての組合せのうちで、塩基パルス数が2塩基とも10以上であった3272ケースについて行った。この識別実験では、単純化のため、抽出したパ ルスに対して、1)BithioUのノイズ除去、2)TTFのノイズ除去、3)ノイズ除去後の2塩基識別のこれら3者に用いた条件(パルス抽出パラメータ、属性ベクトル、分類器、PU分類器手法)は全て共通とした。同様な条件でPU分類器によるノイズ除去を用いないで塩基+ノイズパ ルス集合に対しても識別実験を行った。
 図13は、3272ケースから得られた、F-measure>0.9であった1事例(F-measureが0.93であった解析条件で使用した計測パルス集合)で、塩基と判定したパルスと、ノイズと判定したパルスについてのパルスピーク波高のヒストグラムを示す。横軸は、パルスピーク波高(nA)、縦軸は、パルス数を示す。(13A)は、BithioUに関するノイズパルスと塩基パルスのヒストグラムを示し、(13B)は、TTFに関するノイズパルスと塩基パルスのヒストグラムを示す。(13A)において、ノイズパルスと塩基パルスとでは、それぞれ、0~0.3、0.02~0.4の波高範囲で分布している。(13B)において、ノイズパルスと塩基パルスとでは、それぞれ、0~0.2、0~1.2の波高範囲で分布している。
 図13からわかるように、パルスピーク波高のヒストグラムは、ノイズパルスと塩基パルス間で重なり合う部分が多く、パルスピーク波高だけではノイズパルスと塩基パルスとの識別が困難であることがわかる。
 図14は、ノイズ除去あり/なしのそれぞれ3272ケースについて得られた、F-尺度(F-Measure)のヒストグラムを示す。横軸は塩基識別精度、縦軸は、ノイズ除去あり/なし別の各種条件下における解析事例数を示す。ノイズ除去なしの場合と、ノ
イズ除去ありの場合とでは、それぞれ、0.3~0.6、0.5~1.0の精度範囲で分布している。解析事例総数は、パルス抽出パラメータと属性ベクトルと分類器の各種組合せの3272である。
 図14からわかるように、ノイズ除去なしの場合と、ノイズ除去ありの場合とでは、重なり部分が大きいものの、100%ないし100%に近い精度まで識別精度が向上している。したがって、PC1による不適合データの識別処理性能は、パルスピーク波高だけでは塩基/ノイズの判定が困難な場合であっても、パルス波形特徴を的確に把握した特徴量の属性ベクトルを用いることにより、適切にノイズパルスを除去して高い塩基分類精度を得ることができる。
 PC1による分類分析装置は、上記の識別処理により識別された不適合データを除去した被分析データに対する高精度の分類分析機能を有する。この分類分析機能は、以下の分析手順によって構成されている。
 (C1)上記の識別処理により識別した、分析物以外の要素に起因して検出された不適合データを不適合データ記憶手段のRAM4の所定エリアに記憶する。不適合データは、PC1で検出して記憶するだけでなく、あらかじめ外部端末に記憶した不適合データファイルをPC1に導入して記憶させてもよい。
 (C2)計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、記憶した不適合データを取り除いたデータ群を被分析データとしてRAM4の所定エリアに記憶する。あらかじめ不適合データを取り除いたデータ群を被分析データとしてPC1に導入して記憶させてもよい。
 (C3)PC1に搭載されたコンピュータ制御プログラムには、機械学習を用いた分類分析を行う分類分析プログラムが含まれ、ROM3に格納されている。
 (C4)パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、分類分析プログラムを実行することによって分析物に関する分類分析が実行可能になっている。
 PC1による分類分析装置によれば、パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、PU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データから得られる特徴量を変数にして、分類分析プログラムを実行することによって分析物に関する分類分析を行うので、該被分析データにより分析物に関する分類分析を高精度に行うことができる。
 本実施形態においては、高精度の不適合データの識別と分類分析を行えるので、例えば、人工塩基の識別可能となる途を開き、DNA記憶媒体の情報圧縮技術や、人工塩基対を用いた医薬品創薬などへの応用展開を図ることができる。
 本発明は、上記の実施形態における電流出力波形に限らず、広範囲の出力波形、例えば、電圧波形、インピーダンス波形などに対する不適合データの識別および分類分析に適用することができる。
 本発明は、ナノギャップ電極による測定系による検出波形に限らず、試料対象が通過する試料対象相当の微小構造、例えば、貫通孔、ウェル(凹型),ピラー(凸型)、流路等の測定系による検出波形に適用することができる。本発明における計測データの適応範囲は、時系列の計測データ中のすべてであって,電気計測に限らず光計測、音等の物理現象の検出データを含むことが可能である。
 本発明における分析物以外の要素に起因する除去対象には、上記の実施形態における量子レベルの要素に限らず、例えば、計測器、計測デバイス、溶液中に存在する分析物以外で混入しているシグナルに適用可能である。すなわち、本発明は、例えば、計測試料に混入する微細な塵埃、あるいは血液などに含まれる分析物質を計測対象とする場合における、赤血球、白血球、血小板等の微小物質などに起因する不適合データの識別・除去技術に適用することができる。
 本発明に係る識別処理および分類分析に使用される特徴量は、上記の波高・波長に限らず、波形形態由来の各種特徴量を使用することができる。本発明者ら、マイクロ・ナノポアデバイスを用いた粒子検出技術で登場する波形データの解析から有効な特徴量を把握するに至った。マイクロ・ナノポアデバイスを用いた粒子検出技術は、特許文献1などに開示されている。以下、本発明に有効な特徴量およびそれを使用したときの分類分析処理を詳述する。
 図15は、マイクロ・ナノポアデバイス8を用いた粒子検出装置の概略構成を示す。
 粒子検出装置は、マイクロ・ナノポアデバイス8およびイオン電流検出部により構成されている。マイクロ・ナノポアデバイス8は、チャンバー9と、チャンバー9を上下の収容空間に区画する隔壁11と、隔壁11の表裏側に配置された一対の電極13、14とを有する。隔壁11は基板10上に形成されている。隔壁11の中央付近には、微小径の貫通孔12が穿設されている。貫通孔12の下方には、基板10の一部を下向きに凹状に取り除いた凹部18を設けている。マイクロ・ナノポアデバイス8は半導体デバイス等の製造技術(例えば、電子線描画法やフォトリソグラフィ)を用いて作成される。すなわち、基板10はSi材で構成され、表面上にSi34膜による隔壁11が薄膜形成されている。凹部18は基板10の一部をエッチングにより除去して形成されている。
 隔壁11は、大きさ10mm角で、厚さ0.6mmのSi基板に50nmのSiN膜を積層して形成されている。Si34膜にレジストを塗布し、電子線描画法により、直径3μmの円形の開口パターンを形成して、貫通孔12が穿設されている。貫通孔12の裏側においては、KOHによるウェットエッチングを行い50μm角の開口を形成して凹部18を設けている。凹部18の形成は、ウェットエッチングに限らず、例えば、CF4系ガスによるドライエッチングなどによる等方的なエッチング等により行うことができる。
 隔壁11用の膜には、SiN膜の他に、SiO2膜、Al23膜、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー等の絶縁性膜を使用することができる。基板10の基板材料もSiに限定されるものではなく、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー、SiO2、SiN、Al23等を使用することができる。
 貫通孔12は、上記の基板上の薄膜に形成する場合に限らず、例えば、貫通孔12を形成した薄膜状シートを基板上に接着することによって、貫通孔を有する隔壁を形成するようにしてもよい。
 イオン電流検出部は、電極13、14の電極対と、電源15、増幅器16および電圧計20により構成されている。電極13、14は貫通孔12を介して対向配置されている。増幅器16はオペアンプ17と帰還抵抗19とにより構成されている。オペアンプ17の(-)入力端子と電極13は接続されている。オペアンプ17の(+)入力端子は接地されている。オペアンプ17の出力側と電源15の間に電圧計20が接続配置されている。電源15により電極13、14間には、0.05~1Vの印加電圧を使用できるが、本実施例では0.05Vが印加されるようになっている。増幅器16は電極間に流れる電流を増幅して電圧計20側に出力する。電極13、14の電極材料としては、例えば、Ag/AgCl電極、Pt電極、Au電極等を使用でき、好ましくはAg/AgCl電極である。
 チャンバー9は、マイクロ・ナノポアデバイス8周囲を密閉状に囲む流動性物質収容容器であり、電気的および化学的に不活性な材質、例えば、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー、SiO2、SiN、Al23等により形成されてよい。
 チャンバー9内には注入口(図示せず)から検体21を含む電解質溶液24が充填される。検体21は、例えば、細菌、微小粒子状物質、分子状物質等の分析物である。検体21を、流動性物質である電解質溶液24に混入して、マイクロ・ナノポアデバイス8による計測が行われる。イオン電流検出部による計測終了時には排出口(図示せず)より充填溶液は排出可能になっている。電解質溶液には、例えば、リン酸緩衝生理食塩水(PBS)、Tris-EDTA(TE)バッファーやそれらの希釈液の他、これらと同様なすべての電解質溶液剤を使用することができる。計測は、検体含有電解質溶液をチャンバー9内に導入、充填するごとに行う場合に限らず、溶液溜から簡易ポンプ装置により検体含有電解質溶液(流動性物質)を汲み出して注入口よりチャンバー9内に充填し、計測後に排出口から排出させ、さらに、別の溶液溜あるいは新たな溶液を溶液溜に貯留し、新たに汲み出して次の計測を行う連続計測システムを構成するようにしてもよい。
 電解質溶液24をチャンバー9内に充填した状態で、貫通孔12の上下の電極13、14間に電源15の電圧印加を行うと、貫通孔12に比例した一定のイオン電流が電極間に流れる。電解質溶液24中の細菌等の検体が貫通孔12を通過する際には、一部のイオン電流が検体により阻害されるため、電圧計20によりパルス状のイオン電流減少を計測することができる。したがって、マイクロ・ナノポアデバイス8を用いた粒子検出装置によれば、計測電流の波形変化を検出することにより、検体(例えば、粒子)毎の貫通孔12通過による流動性物質中に含まれる粒子個々の存在を高精度に検出することができる。計測態様には、流動性物質を強制的に流動させながら計測する場合に限らず、流動性物質を非強制的に流動させながら計測する場合を含むことができる。
 電圧計20によるイオン電流の計測出力は外部出力可能になっている。この外部出力は、変換回路装置(図示せず)によりデジタル信号データ(計測電流データ)に変換されて記憶装置(図示せず)に一旦保存された後、データファイル記憶部5に格納される。データファイル記憶部5には、マイクロ・ナノポアデバイス8を用いた粒子検出装置によりあらかじめ取得した計測電流データを外部入力することができる。
 図68は、PC1による分析物(例えば、大腸菌Ecや枯草菌Bs)に対する分類分析処理の概要を説明するための概要図を示す。
 図68の分類分析処理は、以下の分析手順(a)~(d)によって構成されている。
(a)所定の分析物(例えば、大腸菌Ecや枯草菌Bs)を含む流動性物質に対しナノポアデバイス8aによる計測の結果、各種別毎の検出信号として得られた貫通孔8bの分析物通過に対応するパルス状信号De、Dbの波形形態の特徴を示す特徴量をあらかじめ求める。パルス状信号De、Dbは、それぞれ大腸菌Ec、枯草菌Bsの貫通孔8b通過によって得られた信号である。
(b)コンピュータ解析部1aには、機械学習による分類分析を行う分類分析プログラムが内蔵されている。(a)においてあらかじめ求めた特徴量は、大腸菌Ec、枯草菌Bsの既知データから得られた特徴量であり、機械学習のための学習データとしてコンピュータ解析部1aにおいて使用される。
(c)例えば、大腸菌Ecおよび枯草菌Bsの含有比ないし含有数が不明の状態で流動性物質中に混入された混合物を被分類分析物Mbとした場合、(a)の既知データ取得の場合と同様に、ナノポアデバイス8cによる計測を行う。この計測により、被分類分析物Mbの貫通孔8d通過によって被分析データとしてパルス状信号Dmが得られる。
(d)既知データによる特徴量を学習データとし、被分析データのパルス状信号Dmから得られる特徴量を変数にして、分類分析プログラムを実行することによって、該被分析データにおける所定の分析物に関する分類分析を行うことができる。
 上記の分類分析により、特徴量に基づいて機械学習による分類分析を行って、種別の分からない被分析データを大腸菌Ecまたは枯草菌Bsの通過に由来するもの1bと由来しないものに分類することができる。なお、本発明に係る特徴量は、コンピュータ解析部1aにおいて作成してもよいし、別の特徴量作成プログラムを使用して作成してコンピュータ解析部1aに与えるようにしてもよい。
 図69は、PC1による主な制御処理を示す。
 主な制御処理には、入力処理(ステップS100)、入力データから特徴量を取得する特徴量取得処理(ステップS101)、分類分析処理(ステップS104)、個数分析処理(ステップS105)および出力処理(ステップS106)が含まれている。入力処理(ステップS100)において、PC操作に必要な各種入力、内蔵プログラムの起動入力、各種分析の実行指示入力、計測電流データおよび/または特徴量データの入力、出力態様の設定入力、分析時に特徴量を指定する場合の指定特徴量の入力等が行われる。この入力処理には、不適合データの除去処理も含まれている。入力手段6による分析種別の指定操作を行うことによって、分類分析処理(ステップS104)または個数分析処理(ステップS105)が実行可能になっている(ステップS102、S103)。分類分析処理は、特徴量取得処理(ステップS101)において入力データから取得した特徴量のベクトル量データを使用して分類分析可能になっている。個数分析処理は、特徴量取得処理において入力データから取得した特徴量のスカラーデータを使用して個数分析可能になっている。本実施形態は、分類分析処理機能に加え、個数分析処理機能を具備する実施形態であるが、本発明は、分類分析処理機能のみを具備した実施形態により実施することができる。
 本実施形態に係るコンピュータ制御プログラムには、粒子種別の個数ないし個数分布を分析するための個数分析プログラムが含まれている。個数分析処理(ステップS105)において、個数分析プログラムの実行が可能になっている。出力処理(ステップS106)において、分類分析処理(ステップS104)および個数分析処理(ステップS105)における分析結果データの出力が可能であり、例えば、表示手段7に各種分析結果データが表示出力される。PC1に出力手段としてプリンタ(図示せず)を接続した場合には、各種分析結果データのプリント出力が可能になっている。
<個数分析処理について>
 本実施形態に係る分類分析装置は、個数分析プログラムの実行によって、分析対象として例えば、1種または2種以上の粒子(分析物の一例)を含む流動性物質(電解質溶液24)を隔壁11上側の一面側に供給し、粒子が貫通孔12を通過することにより生ずる電極13、14間の通電変化を検出した検出信号のデータ(計測電流データ)に基づいて粒子種別の個数ないし個数分布を分析する個数分析機能を有する。すなわち、PC1は、CPU2の制御によりROM3に格納した個数分析プログラムを実行することにより、データファイル記憶部5に格納、記憶した計測電流データに対する個数分析処理を行うことができる。個数分析処理は、検出信号に含まれ粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出する個数分析方法に基づいて、粒子種別個数の自動分析を行うことができる。
 図16は、PC1の分析処理の説明に必要な処理プログラム構成を示す。各処理プログラムはROM3に格納されている。分析対象の一データ実施例として、分析物としての2種の粒子(大腸菌と枯草菌)を含む電解質溶液24を用いて抽出した計測電流データ(各粒子のパルス抽出データ)を元データに使用している。
 個数分析用処理プログラム(個数分析プログラム)には、検出信号として得られた、貫通孔12の粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度関数を求める確率密度関数モジュールプログラムと、確率密度推定の結果から粒子種別の個数を導出する粒子種分布推定プログラムとが含まれている。分類分析および個数分析に使用される処理プログラムには、データ群から抽出したベースラインを基準にして、パルス状信号の波形形態の特徴を示す特徴量を抽出する特徴量抽出プログラムと、抽出した特徴量に基づいて得られる粒子毎のパルス特徴量データによるデータファイルを作成するデータファイル作成プログラムとが含まれている。分類分析処理および個数分析処理は、データファイル作成プログラムにより作成されたデータに対して実行される。特徴量抽出プログラムには、元の計測電流データから該ベースラインを抽出するベースライン推定処理プログラムを含む。特徴量取得処理(ステップS101)においては、特徴量抽出プログラムおよびデータファイル作成プログラムを実行して、入力処理(ステップS100)で入力されたデータから特徴量を作成して、RAM4の特徴量記憶用データファイルに記憶させる処理が行われる。分類分析用の入力データは、学習データに供される特徴量の作成に必要な既知データと、被分析用のデータ(分析データ)である。既知データから作成された特徴量データは、既知データによる特徴量記憶用データファイルDAに記憶され、分析データから作成された特徴量データは、分析データによる特徴量記憶用データファイルDBに記憶される。分類分析を行う場合、これらのデータファイルDA、DBから特徴量のベクトル量データを取り込んで分析処理が実行可能になっている。個数分析用の入力データは、被分析用のデータ(分析データ)のみである。個数分析用の入力データから作成された特徴量データは、個数分析用データファイルDCに記憶され、個数分析を行う場合、該データファイルDCから特徴量のスカラーデータを取り込んで分析処理が実行可能になっている。
 粒子種分布推定の前提として真の確率密度関数の形式が未知であるから、確率密度関数モジュールプログラムの実行により、カーネル法と呼ばれるノンパラメトリック(関数形式を指定しない)確率密度推定が行われる。推定対象の元データは、パルス状信号から得られた、例えば、波高h・時間幅Δt・出現数等を含むパルス出現分布データである。元の計測データ分布の各データを計測誤差不確定性を導入したガウス分布で表し、各ガウス分布の重ね合わせにより確率密度関数が得られる。確率密度関数モジュールプログラムの実行により確率密度推定処理を行い、元データを該元データに基づいた未知の複雑な確率密度関数(例えば、特徴量のパルス波高・パルス幅・出現確率)で表すことができる。
 図46は、マイクロ・ナノポアデバイス8を用いて、3種の粒子33a、33b、33cが貫通孔12を通過して得られる検出信号の波形例と、特徴量に基づいて得られる確率密度関数の導出例を示す。同図(46A)は、マイクロ・ナノポアデバイス8を用いた粒子検出装置を模式的に示す。同図(46B)~(46D)は、各検出信号の波形データを示す。同図(46E)~(46G)は、各波形データから得られた確率密度関数の3次元分布図を示す。(46E)~(46G)における、x軸、y軸、z軸は、それぞれ、特徴量のパルス波高、パルス幅および確率密度推定により得られた確率密度を示す。
 上記のように、ノンパラメトリックな密度関数の推定法の一つであるカーネル法に基づいて確率密度推定処理が行われる。カーネル法は、1つのデータ点にある関数(カーネル関数)を当てはめ、これを全てのデータ点について行い、配置された関数を重ね合わせる推定法であり、滑らかな推定値を得るに適する。
 確率密度関数モジュールプログラムの実行により、計測電流波形のパルス波高、パルス幅等のデータから多変数多次元確率密度とみなして2次元以上に拡張して加重の最適推定を行い粒子種別個数分布の推定処理が行われる。加重の最適推定にはHasselbald反復法に基づいて実行されるEMアルゴリズムソフトウエアが使用される。EMアルゴリズムは、PC1にあらかじめインストールされている。粒子種別個数分布の推定処理により得られた粒子種別個数分布結果は、表示手段7に粒子種別に対する出現頻度(粒子個数)のヒストグラムで表示出力可能になっている。
 本発明に係る特徴量は、パルス状信号由来のパラメータとして、該パルス状信号の波形の局所的特徴を示す第1類型に属するものと、該パルス状信号の波形の全体的特徴を示す第2類型に属するもののいずれかである。これらのうちの1または2以上の特徴量を使用して個数分析を行うことによって、粒子種等の分析物種別に応じた個数ないし個数分布を高精度に分析することができる。
 図24は、大腸菌22と枯草菌23の2種の粒子が電解質溶液24中に混在する様子を模式的に示した貫通孔12周辺の拡大図である。
<特徴量について>
 図17は、実施例の大腸菌と枯草菌につき実測した粒子通過によるパルス波形例を示す。図17の(4-1)~(4-9)は、大腸菌の実測パルス波形例(9種類)を示し、(4-10)~(4-18)は、枯草菌の実測パルス波形例(9種類)を示す。両者を外観で比較すると、両者間に波高や波長には差異はあまりないが、ピーク位置や波形尖度等の粒子通過パルス波形形態の属性に顕著な相違がみられる。例えば、大腸菌の場合、ピークが時間経過に伴い前倒し傾向にあり、全体的に波形が尖っている(波形尖度が大きい)。枯草菌の場合、ピークが時間経過に伴い後倒し傾向にあり、波形尖度が小さい。
 上記の粒子通過パルス波形形態の属性の違いに基づいて、確率分布作成のベースに用いる特徴量をパルス波形データから粒子種(大腸菌と枯草菌)別に抽出することができる。
 図18は、本発明に係る各種特徴量を説明するためのパルス波形図である。図18において、横軸は時間、縦軸はパルス波高を示す。
 第1類型の特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さ(ピーク波形の広がり)を表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである。
 図18の5a~5dは、それぞれ、パルス波長、波高値、ピーク位置比、尖度を示す。図5のBLは、パルス波形データから抽出(後述のBL抽出処理参照)した基準ライン(以下、ベースラインという。)を示す。これら4種類のパルス特徴量は、図19に基づいて示すと以下の(1)~(4)で定義される。
 (1)波長(パルス幅)Δt:  Δt=te-ts(tsはパルス波形の開始時間、teはパルス波形の終了時間、Δt=ta
 (2)波高|h|:  h=xp-xo(BLのxoを基準にしてパルスピークPPのxpまでのパルス波形の高さ)
 (3)ピーク位置比r:  r=(tp-ts)/(te-ts)(パルス波長(=Δt)と、パルス開始からパルスピークppに至るまでの時間tb(=tp-ts)との比)
 (4)ピーク尖度κ:  波高|h|=1、ts=0、te=1となるように正規化し、パルスピークPPから波高30%の水平線と交差する時刻の時刻集合[T]=[[ti]|i=1,・・・,m]を収集して、下記数2に示すように、時刻集合[T]のデータの分散をパルス波形広がりとしてκが求められる。
Figure JPOXMLDOC01-appb-M000002
 図47は、俯角、面積および面積比の特徴量を説明するためのパルス波形図である。同図において横軸は時間、縦軸はパルス波高を示す。これら3種類のパルス特徴量は、図に基づいて示すと以下の(5)、(6)、(7)で定義される。
 (5)俯角θは、(34A)に示すように、パルス開始からパルスピークに至る傾きであり、下記数3により定義される。
Figure JPOXMLDOC01-appb-M000003
 (6)面積mは、下記数4に示すように、単位べクトル[u]と波高ベクトル[p]との内積による面積[m]で定義される。なお、以下の説明において、変数Aのベクトル表記は[A]で示される。例えば、(34B)の10分割例に示すように、面積mは、一つの波形を所定の時間毎に10分割したときの時間区分面積hi(幅hx、高さhyとしたとき、hi=hx×hy、i=1~10)の総和を表す面積である。
Figure JPOXMLDOC01-appb-M000004
 ここで、特徴量計算の準備として、以下に定義するd次元波高ベクトル[p](=(h1,h2,・・・,hd))をあらかじめ計算して求めておく必要がある。
 図48は、波高ベクトルの取得の仕方を説明するための図である。
 (35A)に示すように、一つの波形データにつき、波長をd等分してd個のデータグループの分化が行われる。ついで、(35B)に示すように、各グループ(各分割区間)ごとに波高の値を平均化して、例えば、10等分するときには平均値A1~A10が求められる。この平均化には、波高値を規格化しない場合と、波高値を規格化する場合とを含むことができる。数4で表記した面積[m]は、規格化しない場合を示す。このようにして求めた平均値を成分とするd次元ベクトルが「波高ベクトル」と定義される。
 図49は、d次元の波高ベクトルとデータサンプリングとの関係を説明するための図である。
 (36A)に示すように、パルスデータの取得に関わるサンプリングレートが大きい場合、パルス部分におけるステップ数(データ数)Tがベクトルの次元数dを上回るので、上述の取得手順により各区分の平均値を成分した波高ベクトルを得ることができる。一方、サンプリングレートを下げていくと、パルス部分におけるステップ数Tがベクトルの次元数d(>T)を下回る事態が生ずる。T<dの場合、上述の取得手順により各区分の平均値を取得できないので、3次スプライン補間によってd次元の波高ベクトルを取得することができる。
 特徴量抽出プログラムには、波高ベクトルデータを取得するための波高ベクトル取得プログラムが含まれている。波高ベクトル取得プログラムの実行により、パルスステップ数Tがベクトルの次元数dを上回るか(T>d)同等の場合(T=d)、時間方向にd等分した各区分の平均値を求め、該平均値を成分とするd次元波高ベクトルを取得し、パルスステップ数Tがベクトルの次元数dを下回る場合(T<d)、3次スプライン補間を実行してd次元波高ベクトルを取得するようになっている。すなわち、3次スプライン補間法を用いた補間処理を行うことにより、パルスステップ数が少ない場合にもベクトルの次元数を一定にすることができる。
 (7)面積比rmは、(34B)に図示した時間区分面積hiをパルス開始からパルスピークに至るまでの区間での和の、全波形面積に対する面積比で定義される。下記数5は、面積比rmを示す。
Figure JPOXMLDOC01-appb-M000005
 第1類型の特徴量は、パルス波高、パルス波長、パルス面積等のパルス状信号の波形に一義的に由来し、局所的特徴を示す特徴量である。第2類型の特徴量は、第1類型の局所的特徴に対し全体的特徴を示す特徴量である。
 第2類型の特徴量は、
 パルス開始時点を中心にして時間区分面積を質量に、かつ該中心から時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである。
 図50は、時間(波長)および波幅に関する第2類型の特徴量を説明するためのパルス波形図である。同図において横軸は時間、縦軸はパルス波高を示す。これらのパルス特徴量は、同図に基づいて示すと、以下の(8)~(15)で定義される。
 (8)時間慣性モーメントは、(34B)と同様に一つの波形を所定の時間毎にi次元で等分割したときの時間区分面積hiを質量に、かつ該中心から時間区分面積hiに至る時間を回転半径に擬制したときに定まる特徴量である。すなわち、時間慣性モーメントの特徴量は、下記数6に示すように、ベクトル[v]と波高ベクトル[p]との内積による[I]で定義される。ここで、ベクトルの次元をnとしたとき、[v]=(12,22,32,・・・n2)および[p]=(h1,h2,・・・,hd)である。例えば、時間慣性モーメントは、(37A)の10分割例に示すように、(34B)と同様に一つの波形を所定の時間毎に10分割したとき、時間区分面積hi(幅hx、高さhyとしたとき、hi=hx×hy、i=1~10)を質量に、かつ該中心から時間区分面積hiに至る時間を回転半径に擬制したときに定まる特徴量であり、(6)の面積mと同様に、波高ベクトルにより求めることができる。
Figure JPOXMLDOC01-appb-M000006
 (9)規格化された時間慣性モーメントは、(8)で示した時間区面積を作成した波形に対して波高が基準値の「1」になるように波高方向に規格化した波形を用いて、(8)と同様にして作成した波高ベクトルhiにより数6で定義される特徴量である。
 (10)平均値ベクトルは、(37B)の10分割例に示すように、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎に時刻値の平均値を算出し、分割領域wiの同一波高位置の平均値をベクトルの成分とする特徴量である。
 (11)規格化された平均値ベクトルは、(10)の平均値ベクトルに対し波長が基準値になるように規格化した場合の特徴量である。
 (12)波幅平均値慣性モーメントは、(37B)の10分割例に示すように、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎に時刻値の平均値を算出し、分割領域wiの同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布hi(ベクトルの次元数をnとしたとき、i=1~n)と擬制して波形裾野の時間軸Atを回転中心にした場合の慣性モーメントとして定義される特徴量である。定義式は、数6と同じであり、(12)の特徴量は、ベクトル[v]と質量分布hiとの内積により求めることができる。
 (13)規格化された波幅平均値慣性モーメントは、上記の分割領域wiを作成した波形に対して波長が基準値の「1」になるように波長方向に規格化した波形を用いて、(12)と同様にして作成した質量分布hiにより数6で定義される特徴量である。
 (14)波幅分散慣性モーメントは、波幅平均値慣性モーメントと同様に、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布hi(ベクトルの次元数をnとしたとき、i=1~n)と擬制して波形裾野の時間軸Atを回転中心にした場合の慣性モーメントとして定義される特徴量であり、波幅平均値慣性モーメントと同様に、数6で定義される。
 (15)規格化された波幅分散慣性モーメントは、上記の分割領域wiを作成した波形に対して波長が基準値の「1」になるように波長方向に規格化した波形を用いて、(14)と同様にして作成した質量分布hiにより数6で定義される特徴量である。
 波幅平均値慣性モーメントおよび波幅分散慣性モーメントは、上記のように、数6で定義される特徴量であり、該定義中のベクトル[p]は、波幅平均値慣性モーメントの場合、時刻値の平均値の差のベクトルであり、波幅分散慣性モーメントの場合、時刻値の分散ベクトルである。以下の説明で、(12)~(15)の波幅に関する慣性モーメントにおけるベクトル[p]を[pw]と表す。
 (12)~(15)の波幅に関する慣性モーメントのデータ作成演算には、図36に示した波高ベクトルの縦横軸を交換した波幅ベクトル[pw](=[p1,p2,・・・,pdw])を用いて行われる。波幅ベクトルは、(12)~(15)の特徴量の定義で示した平均値の差ベクトルまたは分散ベクトルである。波幅ベクトルを密度分布として捉えることによって、(12)と(13)の波幅平均値慣性モーメントおよび(14)と(15)の波幅分散慣性モーメントを求めることができる。波幅ベクトルは、パルス波形データを波高方向にdw等分し、各区分毎に求めた波高値の平均値の差または分散を成分にもつdw次元ベクトルである。(37B)の場合、波幅ベクトルの次元は10次元である。(37B)に示した時間軸Atは、ベースラインBLと異なり、波幅ベクトルから得られるパルス裾野周りの回転軸ラインである。
 図51は、dw次元の波幅ベクトルとデータサンプリングとの関係を説明するための図である。
 特徴量抽出プログラムには、以下のdw次元の波幅ベクトルの作成演算処理により波幅ベクトルを取得するための波幅ベクトル取得プログラムが含まれている。
 パルス波形データは、波高方向に様々な間隔で分布しているため、波高方向に分割した区画においてデータ点が存在しない不存在領域Bdを1または2以上含む場合が生ずる。(38A)においては、不存在領域Bdの1例を矢印で示している。不存在領域Bdは、データ間隔が粗くなってデータ点が存在せず、上記の数6で定義される波幅に関する慣性モーメントの成分を得ることができない。そこで、前述のパルス波形広がりの場合と同様に、パルスピークまでの波高をdw等分したときの各波高の時刻集合[Tk]=[[ti]|i=1,・・・,m]を収集することにより波幅ベクトルの成分が作成される。このとき、データ点が存在しない不存在領域Bdにおいては、線形補間によって成分データの取得が行われる。該線形補間は、パルスピークの(10k+5)%(k=0,1,2,3、・・・)の値をまたぐ連続した2つのデータに対して行われる。(38B)は、データ点tiとti+1の間に生じた不存在領域Bdの高さkについての線形補間点tkの一例を示している。なお、波幅ベクトルの作成に際して、(38C)に示すように、パルス波形データの裾野領域URに波高データの食い違いが生じている場合、パルスピークに近い方に揃えるように、パルスピークに遠い側の波高データDuは切り捨てられる。波幅ベクトル取得プログラムの実行処理には、不存在領域Bdに対する線形補間処理と、波高データの食い違いに対する波高データDuの切り捨て処理が含まれている。
 図52は、波幅に関する慣性モーメントを波幅ベクトルにより取得する取得過程を説明するための図である。
 (39A)は、波形を波高方向に10等分した例であり、一つの波形39aに対して、上記の線形補間処理および切り捨て処理を行うことにより得られた、波幅ベクトルの分割領域39bおよび回転軸ライン39cを示す。
 (39B)に示すように、各分割単位ごとに、パルスピーク前後それぞれにおいて時刻値の平均値を算出し、分割領域の同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルの波幅ベクトルを取得することができる。この平均値の差ベクトルを質量分布と擬制して回転軸ライン39c(時間軸)を回転中心にした(12)の波幅平均値慣性モーメントを作成することができる。また、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを取得することができる。この分散ベクトルを質量分布と擬制して回転軸ライン39c(時間軸)を回転中心にした(14)の波幅分散慣性モーメントを作成することができる。なお、(10)、(11)の平均値ベクトルは、
時刻値の平均値を算出して分割領域の同一波高位置の各平均値を成分としたベクトルであり、dw等分した場合、2dw次元の時刻ベクトルで表わされる。
 特徴量の作成に用いた波高ベクトルおよび波幅ベクトルのベクトル次元数は、分割数に拘泥する必要はなく任意に設定することができる。波高ベクトルおよび波幅ベクトルは、波長ないし波高の一方向に細分化した場合であるが、特徴量の作成には、複数方向に細分化したベクトルを使用することができる。
 図53は、複数の方向に分割した場合の特徴量作成用波形ベクトルの一例を説明するための図である。
 (40A)は、一つの波形データをメッシュ状に分割したデータマップ40aを示す。データマップ40aは、波形データを横軸の時間軸方向にdn分割し、縦軸の波高方向にdw分割してマトリクス状にデータ点の数の分布状態を示す。(40B)は、マトリクス状の区画(格子)の一部を拡大した分布状態を示す。(40B)の分布状態において、11×13個の格子に0~6個のデータ点数が分布している。このマトリクス分割によって、各格子内のデータ点数/総データ点数をdn×dw次元ベクトルの成分とした波形ベクトルを、マトリクス配列のデータ群を走査状に並べ替えたベクトルに変換することにより波高ベクトルや波幅ベクトルに代えて特徴量の作成に使用することができる。
<ベースラインの推定について>
 一般に細菌等は微細に異なる形態を有する微小物体である。例えば、平均的な大腸菌の場合、2~4μmの体長で外径が0.4~0.7μmである。平均的な枯草菌の場合、2~3μmの体長で外径が0.7~0.8μmである。さらに、大腸菌などには20~30nmの鞭毛が付随している。
 検体粒子として細菌等を使用する場合には、パルス波形データから僅かの違いを見逃すと、個数判定精度の低下をもたらしてしまう。このため、特徴量を正確に算出して確率分布の推定基礎とするために、粒子通過パルス波高を正確に把握する必要があり、これには計測信号のベースラインの推定を行う必要がある。しかし、計測信号の元データのベースラインには、ノイズデータや微弱な計測電流による揺らぎが含まれているために、この揺らぎ成分等を除いたベースラインを確定してからパルス波高等を検出する必要がある。ベースラインの推定(以下、BLの推定という。)は実用上、コンピュータによりオンラインで(即時的に)行うのが好ましい。
 BLの推定をコンピュータ上で行う手法として、離散的な誤差のある観測から時々刻々変化する量を推定するに好適なカルマンフィルターを使用すれば、これにより外乱(システム雑音や観測雑音)を取り除いてベースラインBLを推定することができる。
 カルマンフィルターとは、離散的制御過程が図19の(6A)に示す線形差分方程式により定義され、更新可能な状態ベクトル[x]の時刻[t]における値を推定する手法である。カルマンフィルターにおいては、状態ベクトル[x]およびシステム制御入力[ut]の値は直接観測できないものとされる。
 状態ベクトル[x]は、図19の(6B)に示す観測モデルにより、間接的に推定されるものとする。システム制御入力[ut]については、その統計的変動幅[σu,t]のみをパラメータとして仮定する。
 計測電流データ[X]はベクトルではなくスカラーであり、さらに各種行列もスカラーであり、[F]=[G]=[H]=[1]とみなすことができる。したがって、時刻tの実際の電流値のベースラインレベル、時刻tで計測された電流、時刻tの観測ノイズをそれぞれ、[xt]、[yt]、[νt]とすると、[xt]および[yt]は図19の(6C)に示すように表される。[xt]、[ut]、[νt]は観測不可能な因子であり、[yt]は観測可能な因子である。イオン電流検出部による計測周波数をf(Hz)とすると時刻データは1/f(秒)刻みとなる。システム制御入力[ut]の影響は実際上非常に小さいものと仮定してベースラインの推定を行うことができる。
 図20は、上記の各因子を実際の計測電流データで示した図である。イオン電流検出部による実際の計測の際には、粒子が貫通孔12に詰まったりして、ベースラインの歪みが生ずるが、計測時には歪みの発生時点で中断して、歪み原因を除去してから計測が行われるので、元のデータ集合には歪みのないベースラインを含むデータのみが収集されている。
 カルマンフィルターによる推定は予測と更新の繰返しにより行われる。ベースラインの推定にもカルマンフィルターによる予測と更新を繰返して実行される。
 図21は、カルマンフィルターにおける予測(8A)と更新(8B)の繰返しの詳細を示す図である。図8において、ベクトル表記に付加した「ハット」記号は推定値を示している。添え字の「t|t-1」は(t-1)時点の値に基づく、t時点の値の推定値であることを示している。
 図22は、BL推定処理プログラムに基づくBL推定処理を示す。BL推定処理にいては、BLの推定と、それに基づくパルス波高値の抽出が行われる。
 BL推定処理の実行に際しては、カルマンフィルターにおける予測と更新の処理に必要な調整因子の開始時刻m、定数k、αの値は推定対象のデータ属性に応じて適切な値にあらかじめ調整(チューニング)して決めておく必要がある。αの値はベースラインの推定値の分散を調整するための値である。kの値は図21に示したカルマンフィルターにおける更新Aの実行回数に関係する値である(ステップS57、S62参照)。開始時刻mは計測サンプリングの1個分を1ステップとして計算されたステップ数分の時間データである。
 図23は、該調整に使用したビーズモデルの波形図を示す。図15においては、粒子として細菌等と同程度の大きさの微小ビーズ玉を混入させた場合(ビーズモデル)の溶液状態を示している。図23の(10A)はイオン電流検出部によってサンプリング周波数900000Hzで取得した波形データである。(10A)に示すビーズモデルの波形はなだらかに減衰していく波形を示している。(10A)の右端部分に激しい落ち込みが生じており、それを拡大して(10B)に示している。
 ビーズモデルの波形から(10B)に示すベースラインの段差部分(10C)が検出された場合に、その直前期間が初期値計算期間となる。例えば、m=100000とした場合、当該初期値計算期間を除いた期間において有意性のあるパルスが11~12個目視で確認することができる。
 図25は、調整因子のm、k、αの組合せに応じてビーズモデルの波形から拾われたパルスの数を示す表である。
 図25の(12A)は、m=10000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。同図(12B)は、m=50000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。(12C)は、m=100000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。
 図25の3種のシミュレーション結果を比較すると、(12A)と(12B)の場合、計測されるべきパルス数は12になり、(12C)では11となっている。したがって、実施例では、パルス数の最大値の最も小さい(12C)を採用して、m=100000、k=50、α=6のチューニング設定を行っている。これらのチューニング設定データはあらかじめRAM23の設定エリアに記憶、設定されている。
 図22のBL推定処理は上記チューニング設定下、図21に示したカルマンフィルターによるBL推定で行われる。まず、ステップS51にて、時刻mにおけるカルマンフィルターの初期値がRAM23のワークエリアに設定される。このとき、データファイル記憶部5に格納したパルス波形データはRAM23のワークエリアに読み込まれる。ついで、時刻(m+1)におけるカルマンフィルターの予測と更新(図21のAおよびB)が実行される(ステップS52)。予測と更新においては、図21に示したカルマンフィルターの各演算が実行され、RAM23に記憶される。以降、所定の単位時間毎に予測と更新(AおよびB)が繰り返し実行され、時刻tにおけるカルマンフィルターの予測と更新Aが
行われたとき、下記数6の条件が満たされたか否かが判断される(ステップS53、S54)。単位時間は元データのサンプリング周波数により定まる値であり、あらかじめRAM23にセットされている。
Figure JPOXMLDOC01-appb-M000007
 数7の条件が満たされない場合、時刻tにおけるカルマンフィルターの更新Bが実行され、単位時間経過したデータ毎にステップS53~S55の処理が繰り返される。上記数7の条件が満たされた場合、その回数値が1回ごとにRAM23のカウントエリアに累積記憶される(ステップS54、S56)。ついで、該カウント値に基づき、数7の条件が時刻sを起点としてk回連続して満たされたか否かが判断される(ステップS57)。k回連続していない場合はステップS55に進み、更新Bが行われる。
 k回連続した場合はステップS58に進み、BL確定のためのホールド必要期間が開始したと判定される。このとき、ホールド必要期間のホールド開始時刻をsとしてRAM23に記憶されるとともに、時刻(s+1)~時刻(s+k-1)の間のカルマンフィルターの演算結果は記憶されずに捨てられる。
 ホールド必要期間の開始により、時刻tにおけるパルスの落ち込み最大値がRAM23に更新可能に記憶される(ステップS59)。ついで、ステップS54と同様に、ホールド必要期間における、下記数8の条件が満たされているか否かの判断が行われる(ステップS60)。
Figure JPOXMLDOC01-appb-M000008
 上記数8の条件が満たされない場合、パルスの落ち込み最大値の更新が行われる(ステップS59、S60)。数8の条件が満たされた場合、その回数値が1回ごとにRAM23のカウントエリアに累積記憶される(ステップS60、S61)。ついで、該カウント値に基づき、数8の条件が時刻s2を起点としてk回連続して満たされたか否かが判断される(ステップS62)。k回連続していない場合はステップS59に戻る。
 k回連続した場合はステップS63に進み、このとき更新記憶されたパルスの落ち込み最大値がパルス波高値の推定値としてRAM23に記憶される。パルス波高値の推定値はパルス開始時刻およびパルス終了時刻のデータとともに記憶される。パルス波高値の推定を終えると、ホールド必要期間は終了と判定される。この終了によりホールド必要期間のホールド終了時刻がs2としてRAM23に記憶される(ステップS64)。次に、ステップS65に進み、時刻sの値はカルマンフィルターの演算処理の再開時の初期値として、時刻s2~時刻(s+k-1)の期間について遡及してカルマンフィルターの演算が実行される。ステップS65の後は、全パルス波形データのBL推定処理を行ったか否かが判断されて(ステップS66)、全パルス波形データの推定完了で終了し、残データがあるときはステップS53に移る。
<特徴量抽出について>
 図26は、特徴量抽出プログラムの実行処理内容の概要を示す。
 特徴量抽出処理は、図22の上記BL推定処理の実行によってパルス波高値(波高|h|)の抽出データがあることを条件に実行可能になる(ステップS41)。パルス波高値の抽出データがある場合、前述の波高ベクトル取得プログラムおよび波幅ベクトル取得プログラムが実行されて、各種ベクトルのデータ作成演算が実行される(ステップS42)。波高ベクトルおよび波幅ベクトルの全てのデータ取得を終えると、該ベクトルデータが保存される(ステップS43、S44)。ついで、各種の特徴量の抽出処理が実行される(ステップS45)。波高ベクトルおよび波幅ベクトルのデータ取得に際しては、3次スプライン補間法を用いた補間処理、線形補間処理および切り捨て処理が随時行われる。
 図54は、特徴量の抽出処理(ステップS45)の実行処理内容を示す。ステップS71~S83は、それぞれ上記(1)~(13)で定義された第1類型および第2類型の特徴量の算出と、算出された特徴量の記憶、保存の処理を示す。
 第1類型の特徴量は、ステップS71~S76において算出される。波長(パルス幅)Δtは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS71)。算出された特徴量は、RAM4の特徴量記憶用メモリエリアに記憶される。パルス幅は、Δt(=te-ts;sはパルス波形の開始時刻、teはパルス波形の終了時刻)を演算して求められる。ピーク位置比rは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS72)。ピーク位置比rは、r=(tp-ts)/(te-ts)(パルス幅Δtと、パルス開始からパルスピークppに至るまでの時間(=tp-ts)との比)を演算して求められる。
 ピーク尖度κは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS73)。パルス波高値|h|=1、ts=0、te=1となるように正規化し、パルスピークPPから波高30%の水平線と交差する時刻の時刻集合T=[[ti]|i=1,・・・,m]を収集して、時刻集合Tのデータの分散を演算してパルス波形広がりとしてκが求められる。
 俯角θは、パルス開始からパルスピークまでの時刻と波高のデータと、前掲の数2の演算とに基づいて求められる(ステップS74)。面積mは、波高ベクトルのデータにより求められ、時間区分面積hiを区分数に応じて求め、それらの総和を求めることにより算出、記憶される(ステップS75)。該区分数は、任意に設定可能であり、例えば、10である。面積比rmは、全波形面積と、時間区分面積hiをパルス開始からパルスピークに至るまでの区間での部分和とをそれぞれ求め、部分和の全波形面積に対する面積比を算出して記憶される(ステップS76)。
 第2類型の特徴量は、ステップS77~S82において算出される。時間慣性モーメントは、波高ベクトルのデータにより求められ、区分数に応じて求めた時間区分面積hiと、前掲の数6の演算とに基づいて算出され、記憶される(ステップS77)。(9)の規格化された時間慣性モーメントは、ステップS77において得られた時間慣性モーメントに対し波高が基準値の「1」になるように波高方向に規格化処理(波高ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS78)。波幅平均値慣性モーメントは、ステップS42~S44で求めた波幅ベクトル(平均値の差ベクトル)のデータから、パルスピーク前後それぞれにおいて分割単位(あらかじめ設定された分割数:10)毎に算出した時刻値の平均値の差と、前掲の数7の演算とに基づいて算出され、記憶される(ステップS79)。(11)の規格化された波幅平均値慣性モーメントは、ステップS79において得られた波幅平均値慣性モーメントに対し波長が基準値「1」になるように波長方向に規格化処理(平均値の差ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS80)。波幅分散慣性モーメントは、波幅ベクトル(分散ベクトル)のデータから、分割単位毎に算出した時刻値の分散と、前掲の数7の演算とに基づいて算出され、記憶される(ステップS81)。(13)の規格化された波幅分散慣性モーメントは、ステップS81において得られた波幅分散慣性モーメントに対し波長が基準値「1」になるように波長方向に規格化処理(分散ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS82)。
 全データからの特徴量の抽出を終了すると、各データのファイル保存が行われ、別のデータ群があるか否かが判断される(ステップS83、S84)。引き続き別ファイルのデータ群があれば、上記処理(ステップS71~S82)が繰返し実行可能になっている。処理すべきデータがなくなれば特徴量の抽出処理は終了する(ステップS85)。上記の抽出処理においては、第1類型および第2類型の特徴量を全て求めるようにしているが、入力手段6の指定入力により所望の特徴量を指定可能にし、該指定による特徴量だけを抽出可能にすることができる。
 図27は、粒子種分布推定プログラムに基づいて実行される粒子種推定処理を示す。<確率密度関数の推定について> 同種の粒子であっても計測されるパルス波形が一定とは限らないので、粒子種分布推定のための準備として、テストデータから予め粒子種別のパルス波形の確率密度関数の推定が行われる。確率密度関数の推定により導出される確率密度関数によって各パルスの出現確率を表すことができる。
 図28の(15B)は大腸菌と枯草菌の粒子種において、パルス波形の特徴量としてパルス幅とパルス波高が用いて得られたパルス波形に対する確率密度関数のイメージ図であり、図中の濃淡によりパルスの出現確率を表している。図28の(15A)は1つの波形データに関する第1類型の特徴量の一部を示す。
 パルス幅Δtとパルス波高hの真の密度関数は未知であるので、ノンパラメトリックな確率密度関数の推定を行う必要がある。本実施形態では、カーネル関数としてガウス関数を採用したカーネル密度推定を用いている。
 カーネル密度推定とは、計測データにカーネル関数で与えられた確率密度分布を想定し、それらの分布を重ね合わせた分布を確率密度関数とみなす手法である。カーネル関数としてガウス関数を用いた場合は、各データに対して正規分布を想定し、それらを重ね合わせた分布を確率密度関数とみなすことができる。
 図29は、大腸菌と枯草菌の粒子種の個々より得られた確率密度分布の重ね合わせのイメージ図である。同図(16C)は、パルス幅Δtとパルス波高hの特徴量データ(16A)から、各粒子につき求めた確率密度分布(16B)を重ね合わせた状態を示している。
 入力データ[x]に対する確率密度関数[p(x)]は教師データ数[N]、教師データ[μi]、分散共分散行列[Σ]を用いて、下記数9で表される。
Figure JPOXMLDOC01-appb-M000009
 さらに、確率密度関数[p(x)]は下記数10に示すように、各次元のガウス関数の積で表すことができる。
Figure JPOXMLDOC01-appb-M000010
 数10からわかるように、各パルス属性が正規分布に従う独立な確率変数であると仮定していることに相当し、これは3次元以上にも同様に拡張可能である。したがって、本実施形態においては2種以上の粒子種個数の分析が可能である。
 確率密度関数モジュールプログラムは、2種の特徴量に対する確率密度関数を演算して求める機能を有する。すなわち、2つの特徴量[(β,γ)]による推定対象データを使う場合、カーネル関数としてガウス関数を採用したカーネル密度推定における確率密度関数[p(β,γ)]は下記数11で表される。
Figure JPOXMLDOC01-appb-M000011
 数11に基づいて確率密度関数モジュールプログラムにより実行される確率密度関数推定処理は後述の図33により詳述するように、2つの特徴量における確率密度関数の推定処理を行う。
 図30は、k個の粒子種別の粒子総数と、粒子種別の出現確率と、データ全体の出現頻度の期待値との関係を示すイメージ図である。同図(17A)はデータ全体の出現頻度を示す。同図(17-1)~(17-k)は粒子種別の出現頻度を示す。パルス[x]が計測される出現頻度の期待値は、粒子種別の確率密度関数に従ってパルス[x]が計測される出現頻度の期待値の和となる。図30に示すように、粒子種別の粒子総数[ni]と、粒子種別出現確率[pi(x)]とから粒子種別の期待値の和として下記数12で表すことができる。
Figure JPOXMLDOC01-appb-M000012
 本実施形態においては、あらかじめ求められた粒子種別の確率密度関数の推定を行った確率密度関数データ(数10参照)が分析参照データとしてRAM23に記憶されている。粒子種別個数分析は、数12に基づいて、分析対象の全体データの出現頻度を各分析データから適合する粒子種別の個数を割り出すことにより行われる。個数分析は異なる粒子種のヒストグラム(粒子種に対する出現頻度(粒子数))を推定することにより行われる。
 図27の粒子種推定処理においては、データの編集によって特徴量によるデータファイルを作成するデータファイル作成処理(ステップS1)と、粒子数の推定処理(ステップS2)と、推定粒子種分布の算出処理(ヒストグラム作成処理)(ステップS3)が行われる。粒子数の推定処理においては、最尤法、ラグランジュ未定乗数法およびHasselblad反復法による推定手法が用いることができる。
<最尤法(maxium likelihood estimation:統計学において与えられたデータからそれが従う確率分布の母数を点推定する方法である。)について>
 今、実際のパルス推定結果として、データセット[D]=[x1,x2,x3,・・・xN]が得られているとする。推定されたj番目のパルス波高データが出現する尤度(尤もらしさ)は下記数13で表わされる。
Figure JPOXMLDOC01-appb-M000013
 するとデータセットDが出現する尤度は下記数14で表される。
Figure JPOXMLDOC01-appb-M000014
 数14の尤度を最大化する様な粒子種分布の値セット[n]=[n1,・・・,nk]Tが最も尤もらしい粒子種分布である。
<ラグランジュ未定乗数法(束縛条件のもとで最適化を行う解析学的方法であり、各束縛条件に対して未定乗数を用意し、これらを係数にする線形結合を新しい関数(未定乗数も新たな変数とする)として捉えることによって束縛問題を通常の極値問題として解く方法である。)について>
 データセットDが出現する尤度を最大化することは、データセット[D]が出現する対数尤度を最大化することに等しい。下記数15はラグランジュ未定乗数法の適否を調べるための対数尤度を導出する過程を示す。
Figure JPOXMLDOC01-appb-M000015
 数15において、途中の係数1/NNは最終式では省略している。
 ここで、粒径個数分布の値セットn=[n1,・・・,nk]Tには、「合計がNである」という制約(下記数16参照)がある。
Figure JPOXMLDOC01-appb-M000016
 したがって、最も尤もらしい粒子種分布を得るという命題は、制約付き対数尤度最大化の問題になるので、ラグランジュ未定乗数法により最適化を行うことが可能である。ラグランジュ未定乗数法により最適化を行う制約付き対数尤度最大化式を下記数17で表すことができる。
Figure JPOXMLDOC01-appb-M000017
 数17に示す制約付き対数尤度最大化式からは、図31に示す数学的導出過程を経て下記数18に示す[k]個の連立方程式を導き出すことができる。
Figure JPOXMLDOC01-appb-M000018
 数18に示す連立方程式を数値的に解くには、Hasselbladが提唱した反復法を用いて行うことができる。Hasselblad反復法によれば、下記数19の反復計算を行えばよい。この反復法の詳細は提唱論文(Hasselblad V .,1966,Estimation of parameters for a mixture of normal distributions. Technomerics,8,pp.431-444)に記述されている。
Figure JPOXMLDOC01-appb-M000019
 数19の反復計算には、市販のEMアルゴリズムのソフトウエアを利用して行われる。EMアルゴリズムは、命名の由来から明らかなように、確率分布のパラメータを、尤度関数を最大化することで計算する方法、つまり尤度関数である確率分布の期待値(Expectation)を最大化(Maximization)することができるアルゴリズムである。EMアルゴリズムによれば、求めたいパラメータの初期値を設定して、その値から尤度(期待値)を計算して、多くの場合、尤度関数の偏微分が0になる条件を使って、繰り返し計算で最大尤度のパラメータを計算することができる。EMアルゴリズムを使用して行うHasselblad反復法の演算処理は、求めるパラメータの初期値を設定して、その値から尤度(期待値)を計算し、さらに尤度関数の偏微分が0になる条件を使って繰り返し計算を行って最大尤度のパラメータを計算する工程を有する。
<粒子種推定処理について>
 図27に示した粒子種推定処理において実行可能な、データファイル作成処理(ステップS1)、確率密度関数の推定処理(ステップS2)、粒子数の推定処理(ステップS3)および推定粒子種分布の算出処理(ステップS4)を以下に詳述する。
 図32はデータファイル作成プログラムにより実行されるデータファイル作成処理(ステップS1)を示す。
 PC1の入力手段6を使用して、データファイルを作成するk個(実施例では2個)ずつの特徴量の指定操作を行うことができる。指定された特徴量の組合せ入力がRAM23に設定される(ステップS30)。特徴量の設定毎の特徴量データファイルのデータがRAM23のワークエリアに読み込まれる(ステップS31)。特徴量データファイルは、図22のBL推定処理および図26の特徴量抽出処理で抽出され、ファイル保存されている特徴量(パルス波高値等)データである。
 個数推定に使う特徴量をk個指定することにより、N行k列の行列データが作成される(ステップS32)。作成された行列データは、粒子種分布推定用データファイルに出力され、指定特徴量別に保存される(ステップS33)。指定特徴量に対するすべてのデータファイルの生成を終えると終了する(ステップS34)。
 図33は、確率密度関数モジュールプログラムにより実行される確率密度関数の推定処理(ステップS2)を示す。確率密度関数推定処理は、数6に基づいて2つの特徴量における確率密度関数の推定処理が行われる。
 データファイル作成処理(ステップS1)において作成された、確率密度関数推定対象のデータファイルのデータを読み込んで、N行2列の行列[D]が作成される(ステップS20、S21)。行列[D]の列ごとの下記数20に示す分散
Figure JPOXMLDOC01-appb-M000020
が算出される(ステップS22)。ついで、下記数21に示す分散パラメータが標準偏差係数cを用いて下記数22に示すように設定される(ステップS23)。
Figure JPOXMLDOC01-appb-M000021
Figure JPOXMLDOC01-appb-M000022
 分散パラメータおよび行列[D]の各行を下記数23に示す教師データとして代入されて確率密度関数が求められ、RAM23の所定エリアに記憶される(ステップS24、S25)。上記のステップS20~S25の処理は全ての処理対象データからの確率密度関数の導出を行うまで行われる(ステップS26)。
Figure JPOXMLDOC01-appb-M000023
 図34は粒子数の推定処理(ステップS3)を示す。
 まず、上記のステップS20、S21と同様に、データファイル作成処理において作成された、粒子数推定対象のデータファイルのデータを読み込んで、N行2列の行列[D]が作成される(ステップS10、S11)。行列[D]データに対して、Hasselblad反復法による推定処理が実行される(ステップS12)。
 図35は、EMアルゴリズムによって実行される、Hasselblad反復法による粒子数推定処理を示す。図23はEMアルゴリズムによる処理手順を示す。
 まず、初期値の設定(処理19A)を行った後、確率密度関数に基づく個数計算が順次実行される(処理19B)(ステップS12a、S12b)。個数計算の反復は(19C)に示す収束条件を満たすまで実行される(ステップS12c)。EMアルゴリズムの実行結果(粒子種ごとの推定個数データ)はRAM23の所定エリアに格納される(ステップS12d)。
 粒子数推定処理により得られた粒子種ごとの推定個数データは、ステップ4において、粒子種別の個数分布データに編集され、表示指定に応じて表示手段7にヒストグラム表示出力可能になる。図27では省略しているが、本実施形態においては、分散図出力の指定を受けた場合には、特徴量データによる粒子種別の分散図を表示出力可能になっている。
 図37は、本実施形態の粒子種個数分析により分析した結果の一例を示す。同図(24A)および(25B)は分析対象の粒子種である大腸菌、枯草菌の顕微鏡拡大写真である。(24C)および(25D)は特徴量としてパルス波高およびパルス尖度を注して粒子数推定処理の実行により得られた粒子種ごとの推定個数データのヒストグラム、分散図を示す。
<特徴量による粒子種個数の分析精度の検証1について>
 本発明者らは、上記実施例の大腸菌と枯草菌の計測電流データを用いて下記の評価条件下で粒子種個数の分析性能の検証1を行った。
 検証1の評価条件は以下の通りである。
 (1)大腸菌と枯草菌の1000kHz実験測定データで評価を行う。
 (2)特徴量には、波長Δt、波高h、ピーク位置比r、ピーク尖度kの4つの第1類型の特徴量を算出して用いる。
 (3)各特徴量の組合せについて個数推定処理を実施する。
 (4)大腸菌と枯草菌の実測データをランダムに学習用とテスト用に分けて推定評価する。この推定評価を10回反復して実施し、それらの平均精度と標準偏差を算出する。この場合、実際に近い精度を評価する交差検定法(cross validation)により行う。
 (5)検証粒子(大腸菌と枯草菌)の実測データの一部を個別に個数分析し、残りを所定の混合比δによりランダムに混合して検証用として、個数分析結果を比較する。ランダムデータ混合用データ混合プログラムをROM3に格納しPC1を利用してデータのランダム混合を実行して、そのランダム混合したデータに対する個数推定を行う。すなわち、図32のステップS32における行列データには、データ混合プログラムにより作成されたN行k列のランダム置換行列データを使用する。混合比δには、大腸菌の混合率として10、20、30、35、40、45、50%の7種類を使用する。BL推定用のパラメータ(調整因子)m、k、αの値はそれぞれ、100000、400、6を使用し、確率密度関数の推定用の標準偏差係数cには0.1を設定する。粒子種個数推定時の収束条件αは0.1に設定する。なお、評価に使用した上記調整因子の値には、図25で示したシミュレーション例と同様にしてより厳密な調整を行って得られた値が使用されている。
 図38の(25A)および(25B)は、特徴量としてパルス波長、波高を使用した検証例と、特徴量としてパルス波長、ピーク位置比を使用した検証例の各推定結果データを示す。
 本検証により得られた全パルスの数は大腸菌で146個、枯草菌で405個であった。
 図39の(26A)および(26B)は特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す。
 粒子種別個数の評価は、図40の(27B)に示す数式で表わされる「重み付き平均相対誤差」により行うことができる。「重み付き平均相対誤差」は各粒径の相対誤差にその粒径の真の個数割合を掛けたものを、全粒径について足した数値である。
 図40の(27A)は特徴量として尖度と、パルス波高を使用した場合における個数推定結果を示す。
 図41の(28A)および(28B)は特徴量としてパルス波長、パルス波高を使用した場合における各混合比δ別の個数推定結果と、特徴量としてパルス波長、ピーク位置比を使用した場合における各混合比δ別の個数推定結果を示す。
 図42の(29A)~(29D)は大腸菌と枯草菌の混合比をそれぞれ、1:10、2:10、3:10、35:100とした場合における各個数推定結果を示すヒストグラムである。
 図43の(30A)~(30C)は、大腸菌と枯草菌の混合比をそれぞれ、4:10、45:100、1:2とした場合における各個数推定結果を示すヒストグラムである。
 図44の(31A)および(31B)は、特徴量としてパルス波長、パルス波高を使用した場合における各粒子の散布状態を合成した図である。
 図45の(32A)、(32B)および(32C)は、特徴量としてピーク付近波形の広がり、パルス波長を使用した場合、特徴量としてピーク付近波形の広がり、ピーク位置比を使用した場合、ピーク付近波形の広がり、パルス波高を使用した場合における各粒子の散布状態を合成した図である。
 上記の性能評価実験から、以下の評価結果が得られた。
 (1)図44および図45のデータ散布図では、4つの特徴量に関して、大腸菌と枯草菌の特徴は大きく重なるが、明らかな相違があることが認められる。
 (2)図40(27A)等に示す種別個数分布の推定結果からは、この評価検証の特徴量の中でパルス波高とピーク尖度の特徴量を組み合わせた場合が最も精度がよく、重み付き平均相対誤差の評価で4~12%の分析精度を得ることができる。上記実施形態においては4種類全部の特徴量を抽出しているが、上記検証結果を踏まえて一部の特徴量(例えば、パルス波高とピーク尖度)だけを抽出して個数分析するようにしてもよい。
<特徴量による粒子種個数の分析精度の検証2について>
 上記実施例の大腸菌と枯草菌の計測電流データを用いて、検証1とは別の粒子種個数の分析性能の検証2を行った。検証2においては、検証1とは異なり、第1類型および第2類型の特徴量((1)~(13)の13種類)を算出して用い、これらの組合せに係る特徴量とサンプリングデータ数との関連性および各組合せの分析性能を検証した。
 図55の(42A)および(42B)は、それぞれ、全データのうち、1MHz、500kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図43の(43A)および(43B)は、それぞれ、全データのうち、250kHz、125kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図44の(44A)および(44B)は、それぞれ、全データのうち、63kHz、32kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図58の(45A)および(45B)は、それぞれ、全データのうち、16kHz、8kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図59は、4kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。これらの表中の各組合せごとの推定評価結果は、検証1の(4)と同様に交差検定法により得られた、上側に記載の平均精度と、下側に括弧書きで示した標準偏差を表す。表中の慣性I、慣性I(規格化)、慣性I w、慣性I wv、慣性I w(規格化)、慣性I wv(規格化)は、それぞれ、(8)の時間慣性モーメント、(9)の規格化された時間慣性モーメント、(10)の波幅平均値慣性モーメント、(12)の波幅分散慣性モーメント、(11)の規格化された波幅平均値慣性モーメント、(13)の規格化された波幅分散慣性モーメントの特徴量を示す。
 図60は、全サンプリングデータにおける各特徴量組合せに関する推定評価結果を示す。図61は、全データのうち1MHz~125kHzでの高密度サンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図62は、全データのうち63kHz~4kHzでの低密度サンプリングしたときの各特徴量組合せに関する推定評価結果を示す。
 図63は、全サンプリングデータを使用したとき(50A)および高密度にサンプリングしたとき(50B)に高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフである。図63における上位5種の特徴量の組合せは、波長Δt-面積m、波長Δt-慣性I、ピーク位置比r-慣性I、俯角θ-慣性I、慣性I-慣性I w(規格化)である。
 図64は、低密度にサンプリングしたときに高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51A)と、全サンプリングデータを使用したときの4種類の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51B)である。図63および図64の縦軸の値は、50回の交差検定を行って得られた重み付き平均相対誤差の平均値である。51Aにおける上位5種の特徴量の組合せは、波長Δt-面積m、波長Δt-慣性I、ピーク位置比r-面積m、俯角θ-面積m、面積m-慣性I wv(規格化)である。51Bにおける4種類の特徴量の組合せは、波長Δt-面積m、波長Δt-慣性I、尖度k-波高|h|、尖度k-ピーク位置比rである。
 検証2から得られた結果は、以下の通りである。
(R1)図60および図63に示すように、全サンプリングデータを使用したときには、上位5種の組合せ、すなわち、波長Δt-慣性I、波長Δt-面積m、ピーク位置比r-慣性I、俯角θ-慣性I、慣性I-慣性I w(規格化)の特徴量の場合、高い個数推定精度を得ることができる。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、例えば、波長Δt-慣性Iで250~1000kHzのサンプリング領域において約9~10%、波長Δt-面積mで125~250kHzのサンプリング領域において約9~10%、波長Δt-慣性Iで16~63kHzのサンプリング領域において約13~15%である。
(R2)図61に示すように、全サンプリングデータより少ないが高密度なサンプリングデータを使用したときに高い個数推定精度が得られる特徴量は、上位5種の組合せで示せば、波長Δt-慣性I、波長Δt-面積m、ピーク位置比r-慣性I、慣性I-慣性I w、俯角θ-慣性Iの5種である。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、例えば、波長Δt-慣性Iで250~1000kHzのサンプリング領域において約9~10%、波長Δt-面積mで125~250kHzのサンプリング領域において約9~10%、波長Δt-慣性Iで16~63kHzのサンプリング領域において約13~15%である。
(R3)図62に示すように、高密度サンプリングデータと比べてさらに少ない低密度サンプリングデータを使用した場合に高い個数推定精度が得られる特徴量は、上位5種の組合せで示せば、波長Δt-面積m、波長Δt-慣性I、俯角θ-面積m、面積m-慣性I wv(規格化)、ピーク位置比r-面積mの5種である。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、波長Δt-慣性Iで250~1000kHzのサンプリング領域において約9~10%、波長Δt-面積mで125~250kHzのサンプリング領域において約9~10%、、波長Δt-慣性Iで16~63kHzのサンプリング領域において約13~16%である。
(R4)(R1)~(R3)からわかるように、第1類型と第2類型の特徴量の組合せを使用しても高精度の個数推定を行うことができる。さらに、本発明に係る個数分析方法によれば、サンプリング数が十分に多くなくても、所定のサンプリング数が得られれば十分あるときと同程度の精度で個数分析を行うことができる。例えば、検証1で調べた尖度kとピーク位置比rとの組合せでは、12%の最大誤差を生じていたが、例えば、波長Δt-慣性Iの特徴量による場合には、全データを使用しなくとも1MHz~125kHzでの高密度サンプリングデータを使用して、つまり部分的なデータであっても個数推定処理を約9%の高精度で行うことができる。したがって、本実施形態に係る個数分析機能は、定常的な個数分析にとどまらず、例えば、緊急性を要する検疫検査や医療現場において、菌類等の粒子有無や個数の判別に即応的実施に好適な検査ツールとして使用することができる。
<個数分析処理時間の検証3について>
 個数推定には、Hasselblad法による反復計算に要する所要計算時間がかかるので、この所要計算時間とサンプリング周波数との関係について特徴量の比較検討を検証3で検証した。検証3の比較検討例には、図64の(51B)に示した、波長Δt-面積m、波長Δt-慣性I、尖度k-波高|h|、尖度k-ピーク位置比rの4種類の特徴量の組合せを使用した。これらの組合せは、他の組合せと比較して交差検定精度の良い組合せである。個数分析の計算に要する時間には、特徴量作成に要する時間と、Hasselblad法による反復計算に要する計算時間とが含まれるので、特徴量作成に要する計算時間CT1、Hasselblad法による反復計算に要する計算時間CT2およびそれらの合計計算時間CT3(=CT1+CT2)について比較検討を行った。この場合も、それぞれの所要計算時間は、50回の交差検定を行って得られた各計算時間の平均値である。
 図65は、4種類の各特徴量組合せに対する合計計算時間CT3を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52A)と、各特徴量組合せに対する特徴量作成に要する計算時間CT1を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52B)である。図66は、各特徴量組合せに対する計算時間CT2を示すサンプリング周波数-所要計算時間(秒)のグラフである。
 (52A)に示すように、波長Δt-面積mと波長Δt-慣性Iの特徴量組合せG1は、ほぼ同じ合計計算時間になっており、尖度k-波高|h|と尖度k-ピーク位置比rの特徴量組合せG2は、ほぼ同じ合計計算時間になっている。(52B)に示すように、特徴量組合せG1のそれぞれの特徴量作成に要する計算時間は同じであり、特徴量組合せG2のそれぞれの特徴量作成に要する計算時間は同じになっている。図53に示すように、Hasselblad法による反復計算に要する時間は、特徴量組合せG1、G2のいずれにおいても、1MHz~16kHzでのサンプリング領域において約3,5秒以下の短時間で処理可能になっている。
 検証3の特徴量組合せG1、G2の比較結果から明らかに、第1類型と第2類型の同一類型との組合せであっても異なる混合組合せであっても特徴量を使用して所要計算時間の短縮化を図ることができる。したがって、本実施形態に係る個数分析機能によれば、定常的な個数分析にとどまらず、例えば、緊急性を要する検疫検査や医療現場において、菌類等の粒子有無や個数の判別処理を迅速に行うことができる。
 以上の性能評価からわかるように、ナノポアデバイス8により検出した検出信号のデータ群をベースにして、個数導出手段である粒子種分布推定プログラムの実行によって、該検出信号として得られた粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出することができる。したがって、PC1個数分析機能を用いることによって、例えば、細菌や微小粒子状物質等の分析物種別に応じた個数ないし個数分布を高精度に分析することができ、個数分析検査における簡易化および低コスト化を実現することができる。ナノポアデバイス8による検出信号を個数分析装置に直接的に取り込んでデータ保存可能にすることにより、検査・分析を統合した粒子種統合分析システムを構築するようにしてもよい。
 特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出した結果を、出力手段である表示手段7に表示出力あるいはプリンタにプリント出力することができる。したがって、本実施形態によれば、高精度の導出結果(粒子個数、粒子個数分布、推定精度等)を、例えば、ヒストグラムや散布図の出力形態で認知可能に即応的に報知することができるので、例えば、迅速な対応を要する医療現場や検疫場における有用な検査ツールとして本実施形態に係る個数分析機能を使用することができる。
 本発明は、識別処理プログラムを搭載した特定のPC等のコンピュータ端末に限らず、該識別処理プログラムの一部ないし全部を記憶した識別分析用記憶媒体に適用することができる。すなわち、所定のコンピュータ端末に該識別分析用記憶媒体に記憶した識別分析プログラムをインストールして所望のコンピュータに個数分析動作させることができるので、簡便かつ安価に個数分析を行うことができる。本発明の適用可能な記憶媒体には、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択して使用することができる。
 図69は、本実施形態に係る分類分析処理を示す。
 図67のコンピュータ解析部1aは、本実施形態のPC1に対応する。分析処理の準備作業として、入力処理(ステップS100)において、不適合データの除去処理、特徴量の指定、既知データおよび被分析データのPC1への入力が行われる。特徴量は、前述の(1)~(15)に示した第1類型および第2類型の一部または全部あるいは1以上の組合せの特徴量を該入力処理であらかじめ指定しておくことができる。例えば、大腸菌Ecおよび枯草菌Bsを、粒子種別が特定された分析物(特定分析物)とする場合、これらの特定分析物の個々につき、ナノポアデバイス8aによる計測を行って、それぞれのパルス状信号のデータが既知データとしてPC1に入力され、入力データは、RAM4の既知データ記憶用メモリエリアに格納される。特定分析物の含有状態が不明の被分析対象に対するナノポアデバイス8aによる計測を行って得られたパルス状信号のデータが分析データとしてPC1に入力され、入力データは、RAM4の分析データ記憶用メモリエリアに格納される。
 分類分析処理が起動操作により起動されると、既知データの入力有無が判別される(ステップS110)。既知データの未入力の場合、表示手段7により既知データの入力を促すガイダンス表示が行われる。図69において各種のガイダンス表示による報知処理ステップは省略している。既知データが入力されると、入力された既知データは、RAM4の既知データ記憶用メモリエリアに格納され、特徴量の作成に供される(ステップS100、S101)。
 既知データ入力がある場合、特徴量の指定があるか否かが判断される(ステップS110、S111)。特徴量の指定がある場合、RAM4の既知データによる特徴量記憶用データファイルDAから指定された特徴量のベクトル量データがRAM4の学習データ記憶エリアに取り込まれる(ステップS113)。特徴量の指定がない場合は、RAM4の既知データによる特徴量記憶用データファイルDAからすべての特徴量のベクトル量データがRAM4の学習データ記憶エリアに取り込まれる(ステップS112)。
 ついで、分析データの入力有無が判別される(ステップS114)。分析データ入力がない場合、表示手段7により分析データ入力を促すガイダンス表示が行われる。分析データが入力されると、取得した分析データはRAM4の分析データ記憶用メモリエリアに格納される(ステップS100)。分析データが入力されると、記述のように、分析データに関する特徴量が作成され、RAM4に記憶される(ステップS101)。分析データの入力がある場合、RAM4の分析データによる特徴量記憶用データファイルDBから特徴量のベクトル量データがRAM4の変数データ記憶エリアに取り込まれる(ステップS115)。
 既知データおよび分析データの入力済みで特徴量の取得状態において、分類分析の実行を促すガイダンス表示が行われる。該ガイダンス表示にしたがって所定の指示操作を行うことにより、分類分析プログラムが起動されて機械学習による分類分析の実行処理が行われる(ステップS116)。本実施形態において、例えば、ランダムフォレスト法に基づくアルゴリズムで構成された機械学習による分類分析プログラムがROM3にあらかじめ格納されている。既知データによる特徴量を学習データとし、分析データから得られる特徴量を変数にして、該分類分析プログラムを実行することによって、該被分析データにおける特定分析物に関する分類分析を行うことができる。該分類分析プログラムの実行に際しては、パルス波形を同一次元の数値ベクトルに変換し、各ベクトルがどのように異なっているかを判別することにより個別のパルスを識別して分類分析が行われる。
 本発明に係る機械学習による分類分析手法には、ランダムフォレスト法に限らず、例えば、k近傍法、ナイーブベイズ分類器、決定木、ニューラルネットワーク、サポートベクターマシン、バギング法、ブースティング法等の集団学習によるものを使用することができる。
 機械学習による分類分析の実行処理が、分析データによる特徴量のすべてについて実行されると、分類分析処理が終了し、分類分析結果の出力処理が行われる(ステップS117)。出力処理において、種別の分からない分析データの個々について、特定分析物の例示である大腸菌Ecまたは枯草菌Bsの通過に由来するものの割合である分類結果が表示手段7に表示可能になっている。出力可能な表示態様には、各分析データ毎の分類結果に限らず、分析物(例えば、大腸菌Ecまたは枯草菌Bs)の該当総数、両者の該当比率等の表示態様を使用することができる。
<分類分析処理の処理精度の検証>
 上記の分類分析処理の処理精度について、種々の機械学習による分析手法を適用して分類分析を試行して本実施形態による分類分析処理の精度を検証した。
 図70の(57A)は、同図(57B)に示す分析試料を用いて、特徴量(Feature)と機械学習による分析手法のアルゴリズム(以下、分類器という。)とを種々組み合わせた場合に、本発明に係る分類分析処理(図69参照)を実行した評価結果を示す。
 分析試料は、(57B)に示すように、2種類の細菌種(大腸菌、枯草菌)である。各細菌種に対し、貫通孔12の内径が4.5Φで、貫通孔12の貫通距離(ポア深さ)が1500mmのマイクロ・ナノポアデバイス8を用いて通過波形を計測して得られたパルス状信号データを42個(大腸菌の場合、計測パルスのすべてで、枯草菌の場合、計測パルス数265個のうちの42個である。)を使用した。分類器の実行の際には、パルス状信号データのうち約9割を学習データとし、残りのデータを変数に振り分けた。
 評価項目は、(57A)に示すように、F-尺度(F-Measure)で表され、真陽性率(TPRate)、偽陽性率(FPRate)、適合率(Precision)、再現率(Recall)、F値(FMeasure)、受信者操作特性曲線面積(ROC(Receiver Operating Characteristic )curve Area)の項目からなる。
 図71は、F-尺度の説明図である。
 F-尺度は、(58A)に示すように、2種類の細菌種の実数(大腸菌の実数:P、枯草菌の実数:N)に対し、各細菌種の予想値を割り付けた場合に、各組合せにおける真陽性(TP)、偽陽性(FP)、真陰性(FN)および偽陰性(TN)の総和が1であるとして、(58B)に示すように、2TP/(2TP+FP+FN)で表される。
 この検証において、アルゴリズムが異なる67種類の分類器を用いて、各種特徴量ないし特徴量の組合せを用いて約4000種のパターンに対して分類分析を試行した。この結果、60種の特徴量の組合せに対して有意な分析結果が得られた。図70の(57A)は、この検証で得られたF-尺度の優れた上位10位内の分類結果を示す表である。
 上位10位内における特徴量には、(57A)に示すように、(1)~(11)、(14)および(15)の13種類の特徴量を並べた13次元の特徴量ベクトル(表中に「hv&F」で略記)、波高ベクトル(表中に「h」で略記)と(10)の平均値ベクトル(表中に「wV」で略記)との組合せ(表中に「h&wV」で略記)、波高ベクトルと(11)の規格化された平均値ベクトル(表中に「wNrmdV」で略記)との組合せ(表中に「h&wNrmdV」で略記)が含まれている。(57A)で最も優れた分類精度によるものは、特徴量としてh&wVの組合せを使用した、ランダムホレスト法による分類器(「4meta.Random Commitee」)による場合であり、その分類精度約98.9%の高精度であった。
 本発明は、分類分析プログラムを搭載した特定のPC等のコンピュータ端末に限らず、該分類分析プログラムの一部ないし全部を記憶した分類分析用記憶媒体に適用することができる。すなわち、所定のコンピュータ端末に該分類分析用記憶媒体に記憶した分類分析プログラムをインストールして所望のコンピュータに分類分析動作させることができるので、簡便かつ安価に分析析を行うことができる。本発明の適用可能な記憶媒体には、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択して使用することができる。
 尚、本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々変形例、設計変更などをその技術的範囲内に包含するものであることは云うまでもない。
 本発明によれば、高精度の不適合データの識別と分類分析を行えるので、例えば、DNA記憶媒体の情報圧縮技術や人工塩基対を用いた医薬品創薬、あるいは、計測試料に混入する微細な塵埃、あるいは体液などに含まれる分析物質を計測対象とする場合における、赤血球、白血球、血小板等の微小物質などに起因する不適合データの識別・除去技術等の分野に広範囲に応用発展することができる。特には、本発明は、DNAやRNAと夾雑物を含む試料を分析対象にして、例えば、下水中のDNA含有分析を行ってウイルスの発生を検知する検知技術におけるデータ分析に適用することができる。
1   パーソナルコンピュータ
2   CPU
3   ROM
4   RAM
5   データファイル記憶部
6   入力手段
7   表示手段
8   マイクロ・ナノポアデバイス
9   チャンバー
10  基板
11  隔壁
12  貫通孔
13  電極
14  電極
15  電源
16  増幅器
17  オペアンプ
18  凹部
19  帰還抵抗
20  電圧計
21  検体
22  大腸菌
23  枯草菌
24  電解質溶液
MS  計測空間
D1  電極
D2  電極
ME  電流計測器

Claims (8)

  1.  計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別方法であって、
     前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
     前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
     前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別方法。
  2.  請求項1に記載の識別方法により識別した不適合データを記憶する不適合データ記憶手段を有し、
     計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、
     前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
     前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
     あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析方法。
  3.  前記特徴量は、
     所定の時間幅内における波形の波高値、
     パルス波長ta
     パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
     該波形の鋭さを表す尖度、
     パルス開始からパルスピークに至る傾きを表す俯角、
     波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
     パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
     パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
     前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
     前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
     前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
     波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
     前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
    のいずれか1または2以上である請求項2に記載の分類分析方法。
  4.  計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別装置であって、
     前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
     前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
     前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別装置。
  5.  請求項4に記載の識別装置により識別した不適合データを記憶する不適合データ記憶手段を有し、
     計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、
     前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
     前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
     あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析装置。
  6.  前記特徴量は、
     所定の時間幅内における波形の波高値、
     パルス波長ta
     パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
     該波形の鋭さを表す尖度、
     パルス開始からパルスピークに至る傾きを表す俯角、
     波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
     パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
     パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
     前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
     前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
     前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
     波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
     前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
    のいずれか1または2以上である請求項5に記載の分類分析装置。
  7.  請求項1に記載のコンピュータ制御プログラムを記憶したことを特徴とする識別用記憶媒体。
  8.  請求項2に記載のコンピュータ制御プログラムを記憶したことを特徴とする分類分析用記憶媒体。
PCT/JP2018/014926 2017-05-07 2018-04-09 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 WO2018207524A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP18798973.6A EP3623793B1 (en) 2017-05-07 2018-04-09 Identification classification analysis method and classification analysis device
US16/611,455 US20210140938A1 (en) 2017-05-07 2018-04-09 Identification method, classification analysis method, identification device, classification analysis device, and storage medium
CN201880029955.6A CN110720034B (zh) 2017-05-07 2018-04-09 识别方法、分类分析方法、识别装置、分类分析装置及记录介质
JP2019517508A JP6807529B2 (ja) 2017-05-07 2018-04-09 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017092075 2017-05-07
JP2017-092075 2017-05-07

Publications (1)

Publication Number Publication Date
WO2018207524A1 true WO2018207524A1 (ja) 2018-11-15

Family

ID=64105353

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/014926 WO2018207524A1 (ja) 2017-05-07 2018-04-09 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体

Country Status (5)

Country Link
US (1) US20210140938A1 (ja)
EP (1) EP3623793B1 (ja)
JP (1) JP6807529B2 (ja)
CN (1) CN110720034B (ja)
WO (1) WO2018207524A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020203404A1 (ja) * 2019-04-02 2020-10-08 国立研究開発法人物質・材料研究機構 測定装置、測定方法、プログラム、及び、バイオセンサ
JPWO2020202446A1 (ja) * 2019-04-01 2020-10-08
JPWO2021020063A1 (ja) * 2019-08-01 2021-02-04
JPWO2021070385A1 (ja) * 2019-10-11 2021-04-15
JP2021092467A (ja) * 2019-12-11 2021-06-17 トヨタ自動車株式会社 データ解析システム及びデータ解析方法
CN113779817A (zh) * 2021-11-11 2021-12-10 长江空间信息技术工程有限公司(武汉) 一种测量控制网基准稳定性分析方法
WO2022024389A1 (ja) * 2020-07-31 2022-02-03 株式会社日立ハイテク 学習済みモデルを生成する方法、生体分子の塩基配列を決定する方法、および生体分子計測装置
US11373293B2 (en) * 2019-06-27 2022-06-28 SCREEN Holdings Co., Ltd. Method for building image determination model, image determination model, and image determination method
US11651585B2 (en) 2020-03-26 2023-05-16 Fujitsu Limited Image processing apparatus, image recognition system, and recording medium
CN117760920A (zh) * 2024-02-22 2024-03-26 大连理工大学 基于机器学习辅助的卡尔曼滤波金属粉尘浓度检测方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11781099B2 (en) * 2015-12-25 2023-10-10 Aipore Inc. Number analyzing method, number analyzing device, and storage medium for number analysis
JP6872034B2 (ja) * 2017-11-09 2021-05-19 富士通株式会社 波形解析装置
US11399312B2 (en) * 2019-08-13 2022-07-26 International Business Machines Corporation Storage and retention intelligence in mobile networks
US20220036134A1 (en) * 2020-07-31 2022-02-03 Netapp, Inc. Methods and systems for automated document classification with partially labeled data using semi-supervised learning
CN112326552B (zh) * 2020-10-21 2021-09-07 山东大学 基于视觉和力觉感知的隧道掉块病害检测方法和***
CN114916910B (zh) * 2022-04-29 2024-04-09 无锡市华焯光电科技有限公司 脉象分类方法、分类模型训练方法、分类设备和存储介质
CN115374125B (zh) * 2022-09-01 2024-05-10 无锡市华焯光电科技有限公司 脉象诊断分类方法、数据库构建方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013137209A1 (ja) 2012-03-13 2013-09-19 株式会社 東芝 一粒子解析装置および解析方法
WO2014136316A1 (ja) * 2013-03-04 2014-09-12 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016017533A1 (ja) * 2014-07-29 2016-02-04 国立大学法人浜松医科大学 識別装置および識別方法
JP2016505836A (ja) * 2012-12-19 2016-02-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 流体サンプル中の粒子の分類のためのシステム及び方法
WO2016053181A1 (en) * 2014-10-01 2016-04-07 Water Optics Technology Pte. Ltd A sensor for particle detection in a fluid
WO2017073737A1 (ja) * 2015-10-28 2017-05-04 国立大学法人東京大学 分析装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2586623T3 (es) * 2008-08-15 2016-10-17 Aperture Bio, LLC Sistemas y métodos basados en citometría de flujo para la detección de microbios
SI23471A (sl) * 2010-09-02 2012-03-30 Krog-Mit D.O.O. Naprava in informacijski sistem za samodejno interpretacijo rezultatov predtransfuzijksih preiskav
US20150142327A1 (en) * 2012-03-28 2015-05-21 Arizona Board Of Regents On Behalf Of Arizona State University Method for improving the accuracy of chemical identification in a recognition-tunneling junction
CN103226088B (zh) * 2013-04-08 2015-04-22 贵州茅台酒股份有限公司 一种颗粒物计数方法
CN108426994B (zh) * 2014-06-16 2020-12-25 西门子医疗保健诊断公司 分析数字全息显微术数据以用于血液学应用
CN104200114B (zh) * 2014-09-10 2017-08-04 中国人民解放军军事医学科学院卫生装备研究所 流式细胞仪数据快速分析方法
EP3054279A1 (en) * 2015-02-06 2016-08-10 St. Anna Kinderkrebsforschung e.V. Methods for classification and visualization of cellular populations on a single cell level based on microscopy images
WO2017075292A1 (en) * 2015-10-28 2017-05-04 The Broad Institute, Inc. Systems and methods for determining relative abundances of biomolecules
US20190204296A1 (en) * 2016-08-18 2019-07-04 The Regents Of The University Of California Nanopore sequencing base calling
RU2018142223A (ru) * 2016-10-24 2020-05-29 Онтера Инк. Фракционная распространенность полинуклеотидных последовательностей в образце
US20200251184A1 (en) * 2016-12-16 2020-08-06 Osaka University Classification analysis method, classification analysis device, and storage medium for classification analysis
GB201707138D0 (en) * 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013137209A1 (ja) 2012-03-13 2013-09-19 株式会社 東芝 一粒子解析装置および解析方法
JP2016505836A (ja) * 2012-12-19 2016-02-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 流体サンプル中の粒子の分類のためのシステム及び方法
WO2014136316A1 (ja) * 2013-03-04 2014-09-12 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016017533A1 (ja) * 2014-07-29 2016-02-04 国立大学法人浜松医科大学 識別装置および識別方法
WO2016053181A1 (en) * 2014-10-01 2016-04-07 Water Optics Technology Pte. Ltd A sensor for particle detection in a fluid
WO2017073737A1 (ja) * 2015-10-28 2017-05-04 国立大学法人東京大学 分析装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FELKAN, C.NOTO, K: "KDD '08 Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining", 2008, MACHINE LEARNING GROUP AT THE UNIVERSITY OF WAIKATO, article "Learning Classifiers from Only Positive and Unlabeled Data", pages: 213 - 220
HASSELBLAD V.: "Estimation of parameters for a mixture of normal distributions", TECHNOMERICS, vol. 8, 1966, pages 431 - 444
See also references of EP3623793A4
TROSENSTEIN, J. KWANUNUA, M.MERCHANT, C. A.DRNDIC, M.SHEPARD, K L: "Integrated nanopore sensing platform with sub-microsecond temporal resolution", NATURE METHODS, 2012, pages 487 - 492, XP055181607, DOI: 10.1038/nmeth.1932
TSUTSUI, M.TANIGUCHI, M.YOKOTA, KKAWAI, T.: "Identifying Single Nucleotides by Tunneling Current", NATURE NANOTECHNOLOGY, vol. 5, 2010, pages 286 - 290, XP055146479, DOI: 10.1038/nnano.2010.42

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3951372A4 (en) * 2019-04-01 2022-04-13 Aipore Inc. MACHINE LEARNING PROGRAM, METHOD, AND APPARATUS FOR MEASURING, BY AN ELECTRICAL PORE RESISTANCE METHOD, A TRANSIENT CHANGE IN ION CURRENT ASSOCIATED WITH THE PASSAGE OF MEASURED PARTICLES THROUGH PORES AND FOR ANALYZING A PULSE WAVEFORM OF SAID TRANSITIONAL CHANGE
JPWO2020202446A1 (ja) * 2019-04-01 2020-10-08
WO2020202446A1 (ja) * 2019-04-01 2020-10-08 アイポア株式会社 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置
JP7309227B2 (ja) 2019-04-01 2023-07-18 アイポア株式会社 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置
JPWO2020203404A1 (ja) * 2019-04-02 2020-10-08
WO2020203404A1 (ja) * 2019-04-02 2020-10-08 国立研究開発法人物質・材料研究機構 測定装置、測定方法、プログラム、及び、バイオセンサ
US11373293B2 (en) * 2019-06-27 2022-06-28 SCREEN Holdings Co., Ltd. Method for building image determination model, image determination model, and image determination method
JP7173354B2 (ja) 2019-08-01 2022-11-16 株式会社村田製作所 検出装置、検出方法およびプログラム
JPWO2021020063A1 (ja) * 2019-08-01 2021-02-04
JPWO2021070385A1 (ja) * 2019-10-11 2021-04-15
JP7315257B2 (ja) 2019-10-11 2023-07-26 アイポア株式会社 粒子の識別を行うためのセンサ、測定器、コンピュータ装置、およびシステム
JP2021092467A (ja) * 2019-12-11 2021-06-17 トヨタ自動車株式会社 データ解析システム及びデータ解析方法
JP7188373B2 (ja) 2019-12-11 2022-12-13 トヨタ自動車株式会社 データ解析システム及びデータ解析方法
US11651585B2 (en) 2020-03-26 2023-05-16 Fujitsu Limited Image processing apparatus, image recognition system, and recording medium
WO2022024389A1 (ja) * 2020-07-31 2022-02-03 株式会社日立ハイテク 学習済みモデルを生成する方法、生体分子の塩基配列を決定する方法、および生体分子計測装置
CN113779817B (zh) * 2021-11-11 2022-03-11 长江空间信息技术工程有限公司(武汉) 一种测量控制网基准稳定性分析方法
CN113779817A (zh) * 2021-11-11 2021-12-10 长江空间信息技术工程有限公司(武汉) 一种测量控制网基准稳定性分析方法
CN117760920A (zh) * 2024-02-22 2024-03-26 大连理工大学 基于机器学习辅助的卡尔曼滤波金属粉尘浓度检测方法

Also Published As

Publication number Publication date
JPWO2018207524A1 (ja) 2020-05-28
EP3623793A4 (en) 2020-06-17
CN110720034A (zh) 2020-01-21
EP3623793A1 (en) 2020-03-18
CN110720034B (zh) 2022-10-18
JP6807529B2 (ja) 2021-01-06
US20210140938A1 (en) 2021-05-13
EP3623793B1 (en) 2022-09-07

Similar Documents

Publication Publication Date Title
WO2018207524A1 (ja) 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体
JP6971499B2 (ja) 分類分析方法、分類分析装置および分類分析用記憶媒体
Kumar Sharma et al. Complex DNA knots detected with a nanopore sensor
Raillon et al. Fast and automatic processing of multi-level events in nanopore translocation experiments
Briane et al. Statistical analysis of particle trajectories in living cells
CN100368796C (zh) 通过隧道电导变化检测来对聚合物测序的方法和装置
JP6334115B2 (ja) 生体分子シーケンシング装置、方法、及びプログラム
Maugi et al. A methodology for characterising nanoparticle size and shape using nanopores
CN110178012B (zh) 分类分析方法、分类分析装置及分类分析用记录介质
KR20140138526A (ko) 폴리뉴클레오티드의 염기 서열을 결정하는 방법, 및 폴리뉴클레오티드의 염기 서열을 결정하는 장치
Das et al. Signal processing for single biomolecule identification using nanopores: a review
Lee et al. Multiple consecutive recapture of rigid nanoparticles using a solid‐state nanopore sensor
CN116881634B (zh) 用于清洗纳米孔信号数据的方法、设备和存储介质
Li et al. Emerging Data Processing Methods for Single‐Entity Electrochemistry
US11781099B2 (en) Number analyzing method, number analyzing device, and storage medium for number analysis
JP6334118B2 (ja) 単分子識別方法、装置、及びプログラム
Bhattacharya et al. An accurate DNA sensing and diagnosis methodology using fabricated silicon nanopores
CN108037060B (zh) 粒子计数方法、实现所述方法的粒子计数装置和粒子分析仪
CN116704500A (zh) 基于机器学习的细胞识别方法和***
Kaushik et al. Measurement of Alcohol-Dependent Physiological Changes in Red Blood Cells Using Resistive Pulse Sensing
Roy et al. Features extraction from electronic nose employing genetic algorithm for black tea quality estimation
Berkenbrock et al. Fabrication of High-Aspect-Ratio Nanopores in Polymer Membranes: Analysis of Artifacts by Non-Destructive Testing
Sharma Single Biomolecule Sensing and Characterization Using Solid-State Nanopores
Brock et al. Toolbox for chemical acoustic emission data acquisition and analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18798973

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019517508

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018798973

Country of ref document: EP

Effective date: 20191209