RU2540831C2

RU2540831C2 - Automated diagnostic technique for diseases

Info

Publication number: RU2540831C2
Application number: RU2013102773/08A
Authority: RU
Inventors: Олег Владимирович Чикало
Original assignee: Олег Владимирович Чикало
Priority date: 2013-01-23
Filing date: 2013-01-23
Publication date: 2015-02-10
Also published as: RU2013102773A

Abstract

FIELD: medicine.

SUBSTANCE: invention refers to medicine, particularly to diagnostic technique for diseases. The technique implies specifying the characteristics, which spatially comprise detectable clusters formed by points of two types; the first type encloses the patients with a confirmed diagnosis of a diagnosable disease; the second type related to the patients having no diagnosable disease; training samples for classifiers consisting of medoid points for each cluster and boundary points separating the clusters are determined. A classification procedure involves using the boundary point classifier according to a special majority variant; the medoid point classifier is used for the points classified by other than the first classifier according to the special majority variant; and for the rest points - the boundary point classifier according to the simple majority variant. After the diagnosis is confirmed, it is decided that the characteristics of the examined patient are included into the training samples, if these characteristics improve the detection accuracy.

EFFECT: higher accuracy for diagnosing the disease.

3 dwg

Description

Область применения.Application area.

Изобретение относится к области медицины, в частности к способам диагностики заболеваний, и может быть использовано в качестве способа автоматизированной диагностики заболеваний по совокупности диагностических признаков состояния организма, полученных в результате обработки измерений, проведенных посредством различных приборов медицинского назначения. Все диагностические признаки (характеристики) должны быть выражены действительными числами.The invention relates to medicine, in particular to methods for diagnosing diseases, and can be used as a method for automated diagnosis of diseases by the totality of diagnostic signs of the state of an organism obtained as a result of processing measurements made using various medical devices. All diagnostic signs (characteristics) must be expressed in real numbers.

Уровень техникиState of the art

В настоящее время в медицинской диагностике широко применяется теория распознавания образов.Currently, the theory of pattern recognition is widely used in medical diagnostics.

Распознавание образов - научное направление, связанное с разработкой принципов и построением систем, предназначенных для определения принадлежности данного объекта к одному из заранее выделенных классов объектов. Под объектами в распознавании образов понимают различные предметы, явления, процессы, ситуации, сигналы. Каждый объект описывается совокупностью основных характеристик (признаков, свойств) Х=(x₁,…, х:,…, Х_n), где 1-я координата вектора Х определяет значения 1-й характеристики, и дополнительной характеристикой S, которая указывает на принадлежность объекта к некоторому классу. Набор заранее расклассифицированных объектов, т.е. таких, у которых известны характеристики Х и S, используется для обнаружения закономерных связей между значениями этих характеристик и поэтому называется обучающей выборкой. Те объекты, у которых характеристика S неизвестна, образуют контрольную выборку. Обучающая выборка используется для построения решающего механизма, называемого классификатором. Классификатор и используется для принятия решения о принадлежности исследуемого объекта конкретному классу. Проверяются работоспособность и точность классификатора с помощью контрольной выборки. В медицинской диагностике роль классов играют различные заболевания, а объектов - пациенты, представленные результатами измерений различных характеристик состояний организма.Pattern recognition is a scientific field related to the development of principles and the construction of systems designed to determine whether an object belongs to one of the pre-defined classes of objects. Under objects in pattern recognition, various objects, phenomena, processes, situations, signals are understood. Each object is described by a set of basic characteristics (features, properties) X = (x ₁ , ..., x:, ..., X _n ), where the 1st coordinate of the vector X determines the values of the 1st characteristic, and an additional characteristic S, which indicates the object belongs to a certain class. A set of pre-classified objects, i.e. those for which the characteristics of X and S are known, is used to detect regular relationships between the values of these characteristics and is therefore called the training sample. Those objects for which the characteristic S is unknown form a control sample. A training set is used to construct a decisive mechanism called a classifier. The classifier and is used to make a decision on whether the object under study belongs to a particular class. The efficiency and accuracy of the classifier are checked using a control sample. In medical diagnostics, the role of classes is played by various diseases, and the objects are patients, represented by the results of measurements of various characteristics of the body's conditions.

В распознавании образов одной из важных проблем является определение состава вектора характеристик X. Этой задаче уделяется очень большое внимание в литературе, однако до сих пор нет приемлемого решения, которое бы применялось во всех случаях. В каждом конкретном случае исследователь должен решать задачу также конкретно, с учетом особенностей предметной области. Если же использовать для распознавания все характеристики, то точность распознавания будет, скорее всего, низкой из-за наличия большого числа избыточных и нерелевантных характеристик. Все характеристики можно разбить на три группы:In pattern recognition, one of the important problems is to determine the composition of the vector of characteristics of X. This task is given a lot of attention in the literature, but there is still no acceptable solution that would be applied in all cases. In each case, the researcher must solve the problem also specifically, taking into account the characteristics of the subject area. If all characteristics are used for recognition, then the recognition accuracy will most likely be low due to the presence of a large number of redundant and irrelevant characteristics. All characteristics can be divided into three groups:

- релевантные (оказывающие влияние на распознавание);- relevant (affecting recognition);

- нерелевантные (могут быть характеристики, не только не влияющие на- irrelevant (there may be characteristics that not only do not affect

распознавание, но и мешающие распознаванию). Среди релевантных размерностей могут быть избыточные.recognition, but also interfering with recognition). Among relevant dimensions, there may be redundant ones.

Известен ближайший аналог - способ автоматизированной диагностики заболеваний и их форм, который также базируется на использовании кластерного анализа (патент РФ 2191429, авторов Базарского О.В., Битюковой В.В., Сидоренко Е.А., опубл. 20.10.2002).The closest analogue is known - a method for automated diagnosis of diseases and their forms, which is also based on the use of cluster analysis (RF patent 2191429, authors Bazarsky OV, Bityukova VV, Sidorenko EA, publ. 20.10.2002).

Однако в этом способе не учитывается, что кластеров в пространстве характеристик просто может не быть, а если они есть, то могут перекрываться.However, this method does not take into account that there simply may not be clusters in the characteristics space, and if they exist, they may overlap.

Задача изобретенияObject of the invention

Задачей изобретения является создание нового способа автоматизированной диагностики заболеваний при повышении точности, сокращении времени диагностического исследования и повышении информативности при снижении стоимости исследования.The objective of the invention is to create a new method for automated diagnosis of diseases while increasing accuracy, reducing the time of diagnostic studies and increasing information content while reducing the cost of research.

Решение задачиThe solution of the problem

Поставленная задача решается тем, что создан новый способ автоматизированной диагностики заболеваний на основе распознавания образов, отличающийся тем, что сначала осуществляют выбор характеристик, в пространстве которых для исследуемых объектов существуют различимые кластеры, образованные точками двух типов, первый тип соответствует пациентам с подтвержденным диагнозом диагностируемого заболевания, второй тип соответствует пациентам, не имеющем диагностируемого заболевания, затем в найденном пространстве характеристик определяют обучающие выборки для классификаторов, состоящие из точек - медоидов каждого кластера, и граничных точек, разделяющих кластеры; эти обучающие выборки используются затем при работе двух классификаторов типа «К ближайших соседей», на вход которых подаются данные обследуемого пациента, причем сначала используют классификатор на основе граничных точек в варианте «квалифицированного большинства», затем для точек, не классифицированных первым классификатором, используют классификатор на основе точек - медоидов в варианте «квалифицированного большинства», а для оставшихся точек - классификатор на основе граничных точек в варианте «простого большинства», после постановки диагноза, т.е. определения, к какому из двух классов относится обследуемый пациент, а именно к классу «с диагнозом» или к классу «без диагноза», принимают решение о включении характеристик обследуемого пациента в состав обучающих выборок и, если эти характеристики улучшают точность распознавания, производят включение.The problem is solved in that a new method of automated diagnosis of diseases based on pattern recognition was created, characterized in that they first select the characteristics in the space of which for the objects under study there are distinguishable clusters formed by points of two types, the first type corresponds to patients with a confirmed diagnosis of the diagnosed disease , the second type corresponds to patients who do not have a diagnosed disease, then in the found space of characteristics determines there are training samples for classifiers, consisting of points - medoids of each cluster, and boundary points that separate the clusters; these training samples are then used when two classifiers of the “K nearest neighbors” type are used, the input of which is the data of the patient being examined, first using a classifier based on boundary points in the “qualified majority” variant, then using a classifier for points not classified by the first classifier based on points - medoids in the “qualified majority” variant, and for the remaining points - a classifier based on boundary points in the “simple majority” variant, after the post Diagnosis, i.e. determining which of the two classes the examined patient belongs to, namely, the class “with a diagnosis” or the class “without a diagnosis”, a decision is made to include the characteristics of the examined patient in the training samples and, if these characteristics improve recognition accuracy, make an inclusion.

Принципиальным отличием заявляемого способа от ближайшего аналога является предварительный выбор пространства характеристик, в котором кластеры заведомо существуют, причем оценивается и степень их перекрытия. Новизной заявляемого способа автоматизированной диагностики заболеваний является вся заявленная совокупность признаков. Заявляемое изобретение иллюстрируется фиг.1-3. На фиг.1 приведена блок-схема последовательности операций, иллюстрирующая сущность заявленного способа автоматизированной диагностики заболеваний.The fundamental difference between the proposed method and the closest analogue is the preliminary selection of the characteristic space in which the clusters obviously exist, and the degree of their overlap is estimated. The novelty of the proposed method for automated diagnosis of diseases is the entire claimed combination of features. The invention is illustrated in figures 1-3. Figure 1 shows a block diagram of a sequence of operations illustrating the essence of the claimed method of automated diagnosis of diseases.

На фиг.2 приведена блок-схема последовательности операций, иллюстрирующая процесс настройки классификаторов в соответствии с заявляемым изобретением.Figure 2 is a flowchart illustrating a tuning process of classifiers in accordance with the claimed invention.

На фиг.3 приведена блок-схема последовательности операций, иллюстрирующая процесс выбора множества характеристик, в пространстве которых образуются наилучшие кластеры в соответствии с заявляемым изобретением.Figure 3 is a flowchart illustrating a process for selecting a plurality of characteristics in the space of which the best clusters are formed in accordance with the claimed invention.

Предлагаемый способ осуществляют следующим образом (фиг.1).The proposed method is as follows (figure 1).

I. Приготовление выборки, состоящей из объектов двух классов.I. Preparation of a sample consisting of objects of two classes.

Первый класс составляют пациенты с подтвержденным диагнозом заболевания, которое будет диагностироваться в дальнейшем (далее этот класс именуется «с диагнозом»). Второй класс составляют пациенты, не имеющие данного заболевания (далее этот класс именуется «без диагноза»). Оба класса должны содержать не меньше ста пациентов и содержать примерно одинаковое количество пациентов. Затем для всех пациентов производят измерения характеристик с помощью одного или нескольких медицинских приборов. Предполагается, что приборы предназначены для диагностики одного или группы заболеваний. Измеряемых характеристик должно быть больше двух, иначе применение способа не имеет смысла. Эта выборка будет служить эталоном для настройки классификаторов, которые будут использоваться для диагностики остальных пациентов. Способ пригоден и при использовании, например, характеристик, полученных после обработки медицинских изображений.The first class consists of patients with a confirmed diagnosis of the disease, which will be diagnosed in the future (hereinafter this class is referred to as "with a diagnosis"). The second class consists of patients who do not have this disease (hereinafter, this class is referred to as "without diagnosis"). Both classes should contain at least one hundred patients and contain approximately the same number of patients. Then, for all patients, performance measurements are made using one or more medical devices. It is assumed that the devices are designed to diagnose one or a group of diseases. The measured characteristics must be more than two, otherwise the application of the method does not make sense. This sample will serve as a reference for setting the classifiers that will be used to diagnose the remaining patients. The method is also suitable when using, for example, the characteristics obtained after processing medical images.

Предполагается, что все характеристики должны быть выражены количественно действительными числами.It is assumed that all characteristics must be quantified by real numbers.

Полученные значения характеристик рассматривают в качестве координат точки в многомерном пространстве. Далее рассчитывают расстояния между точками в этом многомерном пространстве. В качестве метрики предлагается использовать метрику Евклида.The obtained values of the characteristics are considered as the coordinates of the point in multidimensional space. Next, the distances between points in this multidimensional space are calculated. It is proposed to use the Euclidean metric as a metric.

Затем производят настройку классификаторов на основе обработки подготовленной выборки. Настройка заключается в выполнении последовательности операций, показанных на фиг.2.Then, the classifiers are adjusted based on the processing of the prepared sample. The setup is to perform the sequence of operations shown in figure 2.

1. Подготовить контрольную выборку пациентов для двух классов: «с диагнозом» и «без диагноза»1. Prepare a control sample of patients for two classes: “with a diagnosis” and “without a diagnosis”

Нужно подготовить контрольную выборку, состоящую из объектов двухIt is necessary to prepare a control sample consisting of two objects

классов. Первый класс составляют пациенты с подтвержденным диагнозом заболевания, которое будет диагностироваться в дальнейшем («с диагнозом»). Второй класс составляют пациенты, не имеющие данного заболевания («без диагноза»).classes. The first class consists of patients with a confirmed diagnosis of the disease, which will be diagnosed in the future ("with a diagnosis"). The second class consists of patients who do not have this disease ("without a diagnosis").

2. Выбрать набор характеристик, в пространстве которых образуются наилучшие кластеры.2. Choose a set of characteristics in the space of which the best clusters are formed.

Качество распознавания между двумя классами - «с диагнозом» и «без диагноза» - в решающей степени зависит от выбора пространства характеристик. Предлагают в качестве характеристик выбирать то их подмножество, в котором образуются различимые кластеры двух классов. Выбор характеристик производят согласно последовательности операций, показанной на фиг.3.The quality of recognition between two classes - “with a diagnosis” and “without a diagnosis” - to a decisive degree depends on the choice of the space of characteristics. It is proposed to select as their characteristics the subset of them in which distinguishable clusters of two classes are formed. The selection of characteristics is made according to the sequence of operations shown in figure 3.

В качестве показателя качества кластеризации предлагают использовать индекс перекрытия, вычисляемый следующим образом:As an indicator of the quality of clustering, it is proposed to use the overlap index, calculated as follows:

Индекс перекрытия= ΣSj/N, j=1,NOverlap Index = ΣSj / N, j = 1, N

где Sj=БСj/ КБС, БСj - количество соседей того же класса объектов из КБС ближайших для точки j, к которому принадлежит сама точка j, а КБС -количество определяемых ближайших соседей. N - размер исходной выборки. Значение КБС зависит от размера исходной выборки и равняется N/10.where Sj = BSj / BSC, BSj is the number of neighbors of the same class of objects from the BSC closest to the point j to which j itself belongs, and the BSC is the number of determined nearest neighbors. N is the size of the original sample. The value of KBS depends on the size of the original sample and equals N / 10.

Сначала определяют значение индекса перекрытия для исходного множества характеристик. Затем оценивают релевантность (значимость) каждой характеристики для образования кластеров, а, следовательно, для распознавания класса каждой точки. Для этого по очереди удаляют каждую характеристику и оценить индекс перекрытия для оставшегося подмножества характеристик. Большее значение индекса перекрытия свидетельствует о наличии лучших кластеров. Удаление характеристики может привести как к ухудшению качества кластеров (если значение индекса перекрытия уменьшилось), так и к улучшению. Полученные значения индексов перекрытия сравнивают со значением индекса перекрытия для исходного множества. Если есть большее значение индекса перекрытия, выбор релевантных характеристик можно продолжить. Тогда ту характеристику, при удалении которой достигнуто максимальное значение индекса перекрытия, удаляют из рассмотрения, и выбор продолжают дальше аналогичным образом для оставшихся характеристик. Процесс может быть продолжен, пока не будут рассмотрены пары характеристик или не будет достигнута ситуация, когда удаление любой характеристики только ухудшает качество кластеризации.First determine the value of the overlap index for the original set of characteristics. Then, the relevance (significance) of each characteristic is evaluated for the formation of clusters, and, therefore, for recognition of the class of each point. To do this, each characteristic is removed in turn and the overlap index is estimated for the remaining subset of characteristics. A larger overlap index indicates the presence of better clusters. Deletion of the characteristic can lead to both a deterioration in the quality of the clusters (if the value of the overlap index decreases) and to an improvement. The obtained values of the overlap indices are compared with the value of the overlap index for the original set. If there is a larger overlap index value, the selection of relevant characteristics can be continued. Then that characteristic, at the removal of which the maximum value of the overlap index is reached, is removed from consideration, and the choice is continued further in the same way for the remaining characteristics. The process can be continued until a pair of characteristics is considered or a situation is reached where the removal of any characteristic only worsens the quality of clustering.

Найденный лучший вариант подмножества характеристик должен быть в конце обработки оценен визуально. Для визуального отображения многомерного пространства на плоскость предлагается использовать отображение Сэммона (J.W. Sammon, Jr, "A nonlinear mapping for data structure analysis," IEEE Transactions on Computers, vol. C-18, no. 5, pp.401-409, 1969.).The best variant of a subset of characteristics found should be evaluated visually at the end of processing. For the visual display of multidimensional space on a plane, it is proposed to use the Sammon map (JW Sammon, Jr, "A nonlinear mapping for data structure analysis," IEEE Transactions on Computers, vol. C-18, no. 5, pp.401-409, 1969. )

Можно увидеть как наличие кластеров, так и их отсутствие. Если кластеры отсутствуют, следует увеличить количество характеристик и начать выбор заново. Если присутствуют различимые кластеры, выполняется следующий пункт.You can see both the presence of clusters and their absence. If there are no clusters, increase the number of characteristics and start the selection again. If distinct clusters are present, the next step is performed.

3. Сформировать обучающие выборки для классификаторов3. To create training samples for classifiers

Предлагается сформировать две обучающие выборки. Первая обучающая выборка должна содержать примерно равное (нечетное) количество точек, находящихся на границах каждого из классов. В выборку включают только точки, находящиеся на границе, разделяющей кластеры.It is proposed to form two training samples. The first training sample should contain an approximately equal (odd) number of points located on the borders of each class. Only points located on the boundary separating the clusters are included in the sample.

Вторая обучающая выборка должна состоять из точек, являющихся медоидами каждого из классов. Размер обучающей выборки должен быть не менее N/10. Обучающая выборка должна содержать равное (нечетное) количество медоидов обоих классов. Для распознавания предлагают использовать классификаторы типа «К ближайших соседей», настройка таких классификаторов заключается в формировании обучающих выборок.The second training sample should consist of points that are the medoid of each of the classes. The size of the training sample must be at least N / 10. The training sample should contain an equal (odd) number of medoids of both classes. For recognition, it is proposed to use classifiers of the “K nearest neighbors” type, the setting of such classifiers consists in the formation of training samples.

4. Применить обученные классификаторы для распознавания контрольной выборки4. Apply trained classifiers for recognition of the control sample

Для распознавания предлагают использовать последовательно дваFor recognition, they suggest using two sequentially

классификатора типа «К ближайших соседей». На вход подается последовательно каждая точка контрольной выборки. Для нее выбираются значения характеристик, выбранных в п.2.classifier of type "K nearest neighbors". Each point of the control sample is fed sequentially to the input. For it, the values of the characteristics selected in clause 2 are selected.

Сначала применяют классификатор, обученный на граничных точках. Вычисляют расстояние в многомерном пространстве между точкой контрольной выборки и точками первой обучающей выборки. В качестве метрики используется метрика Евклида. Определяют Kb ближайших соседей для искомой точки среди точек обучающей выборки. Подсчитывают Nd -количество среди ближайших соседей точек, принадлежащих классу «с диагнозом» и Nb - количество среди ближайших соседей точек, принадлежащих классу «без диагноза». Решение о принадлежности искомой точки тому или иному классу принимают по правилу «квалифицированного большинства», т.е. когда количество соседей одного класса значительно превышает количество соседей другого, а именно, если | Nd - Nb|<Kb- 2, то если Nd>Nb, точка является точкой класса «с диагнозом», иначе - точкой класса «без диагноза».First, a classifier trained at boundary points is used. The distance in the multidimensional space between the point of the control sample and the points of the first training sample is calculated. As a metric, the Euclidean metric is used. Determine Kb of nearest neighbors for the desired point among the points of the training sample. Calculate the Nd-number among the nearest neighbors of points belonging to the class "with a diagnosis" and Nb - the number among the nearest neighbors of points belonging to the class "without a diagnosis". The decision on whether the desired point belongs to a particular class is made according to the “qualified majority” rule, i.e. when the number of neighbors of one class significantly exceeds the number of neighbors of another, namely, if | Nd - Nb | <Kb- 2, then if Nd> Nb, the point is a point of class "with a diagnosis", otherwise it is a point of class "without a diagnosis."

Если | Nd - Nb|<Kb - 2, то применяется классификатор, обученный на медоидах.If | Nd - Nb | <Kb - 2, then the classifier trained on medoids is applied.

Определяют Km ближайших соседей для искомой точки среди точек второй обучающей выборки. Подсчитывают N1 - количество среди ближайших соседей точек, принадлежащих классу «с диагнозом» и N2 - количество среди ближайших соседей точек, принадлежащих классу «без диагноза». Решение о принадлежности искомой точки тому или иному классу принимают по правилу «квалифицированного большинства», т.е. когда количество соседей одного класса значительно превышает количество соседей другого, а именно, если | N1 - N2|>=Km - 2, то если N1>N2, точка является точкой класса «с диагнозом», иначе - точкой класса «без диагноза».The nearest neighbors Km are determined for the desired point among the points of the second training sample. Calculate N1 - the number among the nearest neighbors of points belonging to the class "with a diagnosis" and N2 - the number among the nearest neighbors of points belonging to the class "without a diagnosis". The decision on whether the desired point belongs to a particular class is made according to the “qualified majority” rule, i.e. when the number of neighbors of one class significantly exceeds the number of neighbors of another, namely, if | N1 - N2 |> = Km - 2, then if N1> N2, the point is a point of class "with a diagnosis", otherwise it is a point of class "without a diagnosis."

Если правило «квалифицированного большинства» и в этом случае не выполняется, тогда применяют правило простого большинства:If the “qualified majority” rule is not satisfied in this case as well, then the simple majority rule is applied:

если Nd>Nb, то точка является точкой класса «с диагнозом», иначе - точкой класса «без диагноза».if Nd> Nb, then the point is a point of class "with a diagnosis", otherwise it is a point of class "without a diagnosis."

5. Оценить полученный результат5. Rate the result

Для контрольной выборки необходимо добиться стопроцентной точности распознавания. Если результат не удовлетворяет, проводят корректирующие действия. Если результат удовлетворяет, то обе обучающие выборки, а также значения Kb и Km используют уже для диагностики других пациентов.For the control sample, it is necessary to achieve absolute recognition accuracy. If the result does not satisfy, corrective actions are taken. If the result is satisfactory, then both training samples, as well as Kb and Km values are used already for the diagnosis of other patients.

6. Произвести корректирующие действия6. Perform corrective actions.

Возможно проведение следующих корректирующих действий:The following corrective actions are possible:

- изменить количество точек - медоидов, которые нужно использовать;- change the number of points - medoids that need to be used;

- уточнить границу между классами;- clarify the border between classes;

- увеличить количество рассматриваемых точек первичной выборки. После принятия решения о коррекции, повторяют последовательность операций, начиная с п.2.- increase the number of points considered the primary sample. After deciding on the correction, repeat the sequence of operations, starting with paragraph 2.

II. Применение настроенных классификаторов для диагностики пациента.II. Using customized classifiers to diagnose a patient.

Классификатор готов и может быть применен для диагностики пациентов уже без предварительно установленной принадлежности к распознаваемым классам. Для его реализации целесообразно разработать специальное программное обеспечение. Данные пациентов из исходной выборки сохраняются в базе данных.The classifier is ready and can be used to diagnose patients already without a pre-established membership in recognizable classes. For its implementation, it is advisable to develop special software. Patient data from the original sample is stored in a database.

III. Повышение точности распознавания. Точность распознавания может быть увеличена в ходе эксплуатации классификатора.III. Improving recognition accuracy. Recognition accuracy can be increased during the operation of the classifier.

Для этого проводят визуальную оценку места точки, соответствующей диагностируемому пациенту, среди точек пациентов из текущей базы данных в многомерном пространстве характеристик, отображенном на плоскость с помощью отображения Сэммона. Если новая точка позволит уточнить границу между двумя классами, ее включают в базу данных и включают в состав обучающей выборки граничных точек. Если точка далека от границы двух классов, следует заново определить медоиды соответствующего класса. Если новая точка войдет в состав медоидов класса, ее следует включить в базу данных и включить в состав обучающей выборки медоидов. Заявляемый способ автоматизированной диагностики заболеваний иллюстрируется фигурами 1-3.To do this, a visual assessment of the location of the point corresponding to the diagnosed patient is carried out among the patient points from the current database in a multidimensional space of characteristics displayed on the plane using the Sammon map. If the new point allows you to clarify the boundary between the two classes, it is included in the database and included in the training sample of boundary points. If the point is far from the border of the two classes, the medoids of the corresponding class should be redefined. If a new point is included in the class’s medoid, it should be included in the database and included in the training sample of medoid. The inventive method of automated diagnosis of diseases is illustrated by figures 1-3.

Результатом заявляемого изобретения является повышение точности и сокращение времени диагностического исследования, повышение информативности при снижении стоимости исследования.The result of the claimed invention is to increase the accuracy and reduce the time of diagnostic studies, increase information content while reducing the cost of the study.

Указанный технический результат при осуществлении изобретения достигается тем, что используются методы распознавания образов с предварительным определением значимых для данного заболевания характеристик, в пространстве которых существуют хорошо различимые кластеры. Кроме того, обучающая выборка для настройки классификаторов формируется не одномоментно, а уточняется и совершенствуется после каждого сеанса диагностики.The specified technical result in the implementation of the invention is achieved by the fact that image recognition methods are used with preliminary determination of characteristics that are significant for a given disease, in the space of which there are clearly distinguishable clusters. In addition, the training sample for setting the classifiers is not formed simultaneously, but is refined and improved after each diagnostic session.

Claims

Способ автоматизированной диагностики заболеваний на основе распознавания образов, отличающийся тем, что сначала осуществляют выбор характеристик, в пространстве которых для исследуемых объектов существуют различимые кластеры, образованные точками двух типов, первый тип соответствует пациентам с подтвержденным диагнозом диагностируемого заболевания, второй тип соответствует пациентам, не имеющим диагностируемого заболевания, затем в найденном пространстве характеристик определяют обучающие выборки для классификаторов, состоящие из точек - медоидов каждого кластера, и граничных точек, разделяющих кластеры; эти обучающие выборки используются затем при работе двух классификаторов типа «К ближайших соседей», на вход которых подаются данные обследуемого пациента, причем сначала используют классификатор на основе граничных точек в варианте «квалифицированного большинства», затем для точек, не классифицированных первым классификатором, используют классификатор на основе точек - медоидов в варианте «квалифицированного большинства», а для оставшихся точек классификатор на основе граничных точек в варианте «простого большинства», после постановки диагноза, т.е. определения, к какому из двух классов относится обследуемый пациент, а именно к классу «с диагнозом» или к классу «без диагноза», принимают решение о включении характеристик обследуемого пациента в состав обучающих выборок и, если эти характеристики улучшают точность распознавания, производят включение. A method for automated diagnosis of diseases based on pattern recognition, characterized in that they first select characteristics in the space of which for the objects under study there are distinguishable clusters formed by points of two types, the first type corresponds to patients with a confirmed diagnosis of the diagnosed disease, the second type corresponds to patients who do not have diagnosed disease, then training samples for classifiers, consisting of f of the points - the medoid of each cluster, and the boundary points separating the clusters; these training samples are then used when two classifiers of the “K nearest neighbors” type are used, the input of which is the data of the patient being examined, first using a classifier based on boundary points in the “qualified majority” variant, then using a classifier for points not classified by the first classifier based on points - medoids in the “qualified majority” version, and for the remaining points, the classifier based on boundary points in the “simple majority” version, after the post new diagnosis, i.e. determining which of the two classes the examined patient belongs to, namely, the class “with a diagnosis” or the class “without a diagnosis”, a decision is made to include the characteristics of the examined patient in the training samples and, if these characteristics improve recognition accuracy, make an inclusion.