EA006272B1 - Эвристический способ классификации - Google Patents

Эвристический способ классификации Download PDF

Info

Publication number
EA006272B1
EA006272B1 EA200300035A EA200300035A EA006272B1 EA 006272 B1 EA006272 B1 EA 006272B1 EA 200300035 A EA200300035 A EA 200300035A EA 200300035 A EA200300035 A EA 200300035A EA 006272 B1 EA006272 B1 EA 006272B1
Authority
EA
Eurasian Patent Office
Prior art keywords
data
variables
clusters
sample
vector
Prior art date
Application number
EA200300035A
Other languages
English (en)
Other versions
EA200300035A1 (ru
Inventor
Бен Хитт
Original Assignee
Коррелоджик Системз, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Коррелоджик Системз, Инк. filed Critical Коррелоджик Системз, Инк.
Publication of EA200300035A1 publication Critical patent/EA200300035A1/ru
Publication of EA006272B1 publication Critical patent/EA006272B1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system
    • Y10S706/932Mathematics, science, or engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Threshing Machine Elements (AREA)
  • Image Analysis (AREA)
  • Electrotherapy Devices (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Separation By Low-Temperature Treatments (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)

Abstract

Настоящее изобретение относится к эвристическим алгоритмам для классификации Объектов. Первый алгоритм обучения включает в себя генетический алгоритм, который используется для абстрагирования потока данных, связанных с каждым Объектом, и алгоритм распознавания образов, который используется для классификации Объектов и измерения степени соответствия хромосом генетическому алгоритму. Алгоритм обучения применяется к множеству данных обучения. Алгоритм обучения генерирует алгоритм классификации, который используется для классификации или категоризации неизвестного Объекта. Настоящее изобретение является пригодным для использования в областях классификации текстов и медицинских образцов, предсказания поведения одного из финансовых рынков на основании изменений цен на других при мониторинге состояния сложного технологического оборудования с целью обнаружения приближающегося отказа.

Description

Область техники
Настоящее изобретение относится к способу анализа и классификации объектов, которые могут быть представлены в виде последовательностей знаков, таких как документы, или последовательностей, или таблиц численных данных, таких как изменения цен на рынке ценных бумаг, уровни экспрессии различных генов в клетках ткани, обнаруживаемые по гибридизации мРНК на генном чипе, или количества различных белков в образце, определяемые с помощью масс-спектроскопии. Более конкретно, настоящее изобретение относится к обобщенному способу, посредством которого генерируется алгоритм классификации, проверяемый на обучающем множестве данных, состоящем из предварительно классифицированных образцов из того класса объектов, которые должны классифицироваться. Предварительно классифицированные образцы классифицируются путем чтения, в случае документов, исторического опыта, в случае рыночных данных, или исследования патологии, в случае биологических данных. Затем алгоритм классификации может быть использован для классификации ранее неклассифицированных образцов. Такие алгоритмы, в целом, называются методами извлечения информации из данных. Все более часто применяемые методы извлечения информации из данных, такие как многомерная линейная регрессия и нелинейные нейронные сети с прогнозированием имеют тот изначальный недостаток, что после разработки они являются статичными и не могут распознавать новые события в потоке данных. В конце концов, происходит то, что новые события часто остаются не классифицированными. Настоящее изобретение относится к устранению этого недостатка путем использования адаптивного механизма, который может распознавать новые события в потоке данных.
Предпосылки изобретения
Настоящее изобретение использует генетические алгоритмы и самоорганизующиеся адаптивные алгоритмы распознавания образов. Генетические алгоритмы впервые были описаны профессором 1обп Н. Но11апб (1.Н. Но11апб, ΛάαρΙαΙίοη ίη №1Шга1 апб ЛпШс1а1 8ук1етк, ΜΙΤ Ргекк 1992, см. также патенты США № 4697242 и № 4881178). Использование генетического алгоритма для распознавания образов описано в патенте США № 5136686, Коха, столбец 87.
Самоорганизующееся распознавание образов было описано Кобопеп (Т. Кобопеп, 8е1Г Огдашхбщ апб Аккоаабуе Метогу, 8 Зепек ш 1пГотта1юп Заепсек, Зргтдет Ует1ад, 1984; Кобопеп, Т., 8е1Г-огдаш/йщ Марк, Зртшдег Ует1ад, Не1бе1Ьегд 1997). Использование самоорганизующихся карт при адаптивном распознавании образов было описано Ότ. Шсбатб Ырртап, Маккасбикейк 1пк1би1е оГ Тесбпо1оду.
Сущность изобретения
Настоящее изобретение состоит из двух взаимосвязанных эвристических алгоритмов, алгоритма классификации и алгоритма обучения, которые используются для осуществления способов классификации и способов обучения. Параметры алгоритма классификации определяются путем применения алгоритма обучения к множеству данных для обучения или тренировки. Множество данных обучения представляет собой множество данных, в которых каждый элемент уже был классифицирован. Хотя следующий далее способ описывается без ссылки на цифровые компьютеры, специалистам в данной области понятно, что настоящее изобретение предназначается для реализации как программное обеспечение для компьютера. Может быть использован любой компьютер общего назначения; вычисления в соответствии с настоящим способом являются не очень громоздкими. Хотя могут быть использованы компьютеры, обладающие способностью параллельной обработки данных на нескольких процессорах, такие способности обработки не являются необходимыми для практического использования алгоритма обучения по настоящему изобретению. Алгоритм классификации требует только минимального количества вычислений.
Способ классификации по настоящему изобретению классифицирует Объекты в соответствии с потоком данных, который ассоциируется с Объектом. Каждый Объект в настоящем изобретении характеризуется потоком данных, который представляет собой большое количество, по меньшей мере, примерно 100 точек данных, и может составлять 10000 или более точек данных. Поток данных генерируется таким способом, который дает возможность индивидуальным элементам данных в потоках данных из различных образцов одного и того же типа Объекта коррелироваться друг с другом.
Примеры Объектов включают в себя тексты, точки во времени, в контексте предсказания направления развития финансовых рынков или поведения сложного технологического оборудования, и биологических образцов, для медицинской диагностики.
Ассоциированные потоки данных этих Объектов представляют собой распределение триграмм в тексте, дневные изменения цен обращающихся на рынке акций или товаров, мгновенные отсчеты величины давления, температуры и потока в технологическом оборудовании, в таком как нефтепереработка, и спектр масс некоторого подмножества белков, обнаруженных в образце, или интенсивность гибридизации мРНК в ряду различных исследуемых полинуклеотидов.
Таким образом, в принципе, настоящее изобретение может быть использовано там, где желательно классифицировать Объекты в одну или несколько категорий, например в две или три категории, и Объекты ассоциируются с избыточными количествами данных, например, как правило, с тысячами точек данных. Термин Объекты пишется здесь с заглавной буквы, чтобы указать, что Объект имеет здесь специальное значение, состоящее в том, что он относится коллективно к реальным объектам, например
- 1 006272 конкретным образцам, и к неконкретным объектам, например, к записям или текстам, и к совершенно абстрактным объектам, например к моменту времени перед непрогнозируемым событием в сложном технологическом оборудовании, или к изменению цены иностранной валюты.
Первая стадия способа классификации представляет собой вычисление вектора Объекта, то есть, упорядоченного множества из небольшого количества точек данных или скаляров (в пределах между 4 и 100, более типично, между 5 и 30), которые получают из потока данных, ассоциирующегося с Объектом, который должен быть классифицирован. Преобразование потока данных в вектор Объекта определяется как абстрагирование. Наиболее простой процесс абстрагирования представляет собой выбор некоторого количества точек из потока данных. Однако, в принципе, процесс абстрагирования может быть осуществлен на любой функции из потока данных. В вариантах осуществления, представленных ниже, абстрагирование осуществляется путем выбора малого количества конкретных интенсивностей из потока данных.
В одном из вариантов осуществления, вторая стадия способа классификации представляет собой определение того, в каком кластере данных находится вектор, если вообще он находится в каком-либо кластере. Кластеры данных представляют собой математические объекты, которые являются многомерными эквивалентами неперекрывающихся гиперсфер фиксированного размера в векторном пространстве. Положение и ассоциирующаяся с ним классификация или статус каждого кластера данных определяется с помощью алгоритма обучения из множества данных обучения. Величина или размер каждого кластера данных и количество размерностей векторного пространства устанавливается посредством рутинного экспериментирования оператора перед работой алгоритма обучения. Если вектор лежит в известном кластере данных, Объект получает классификацию, ассоциированную с этим кластером. В самых простых вариантах осуществления количество размерностей векторного пространства совпадает с количеством точек данных, которые выбраны в процессе абстрагирования. Альтернативно, однако, каждый скаляр вектора Объекта может быть вычислен с использованием множества точек данных из потока данных. Если вектор Объекта находится вне пределов любого известного кластера, может осуществляться классификация нетипичности или нетипичного образца.
В альтернативном варианте осуществления определение каждого кластера данных как гиперсферы отбрасывается и вторая стадия осуществляется путем вычисления параметра согласования ρ=Σ (шбп (1111, 1ИЦ ) /Σ( |И11) , где 11 представляют собой скаляры вектора Объекта, а представляют собой скаляры центроида предварительно сформированного вектора классификации. Параметр согласования ρ также определяется как нормализованное нечеткое логическое умножение. Затем Объект классифицируется в соответствии с классификацией предварительно сформированного вектора, к которому он является наиболее близким согласно этой метрике. Параметр согласования составляет 1, когда вектор Объекта и полученный вектор являются идентичными, и меньшим, чем 1, во всех остальных случаях.
Алгоритм обучения определяет как детали процесса абстрагирования, так и идентичность кластеров данных, путем использования сочетания известных математических методов и двух предварительно установленных параметров. Пользователь предварительно устанавливает количество размерностей векторного пространства и размер кластеров данных или, альтернативно, приемлемый минимальный уровень параметра согласования ρ для нечеткого логического умножения. Как он здесь используется, термин кластер данных относится как к гиперсфере, с использованием эвклидовой метрики, так и к полученным классифицированным векторам, с использованием метрики нечеткого логического умножения.
Как правило, векторное пространство, в котором находятся кластеры данных, представляет собой нормированное векторное пространство, так что разброс интенсивностей в каждом измерении является постоянным. Выраженный таким образом размер кластера данных с использованием эвклидовой метрики может быть выражен как минимальный процент сходства между векторами, лежащими в пределах кластера.
В одном из вариантов осуществления алгоритм обучения может быть реализован путем объединения двух различных типов доступного общего программного обеспечения, которые были разработаны другими и являются хорошо известными в данной области: (1) генетического алгоритма (1.Н. Но11апб, Абар1а1юп ίη Ыа1ига1 апб Атййс1а1 8ук1етк, ΜΙΤ Ргекк 1992), который обрабатывает множество логических хромосом1 (Сноска1: термин логическая хромосома используется в связи с генетическими обучающими алгоритмами, поскольку логические операции алгоритма являются аналогичными репродукции, селекции, рекомбинации и мутации. Разумеется, биологического воплощения логической хромосомы, в ДНК или иным образом, не существует. Генетические обучающие алгоритмы по настоящему изобретению являются чисто компьютерными устройствами и их не следует путать со схемами обработки информации на биологической основе.) для идентификации оптимальной логической хромосомы, которая контролирует абстрагирование потока данных, и (2) адаптивной самоорганизующейся системы распознавания образов (см., Т. Койопеп, 8е1Г-огдаш/йщ апб Аккоаайуе Метогу, 8 8епек ίη 1пГогтаОоп 8с1епсек, 8рппдег Уег1ад, 1984; Койопеп, Т., 8е1Г-огдаш/йщ Марк, 8рппдег Уег1ад, Не1бе1Ьегд 1997), доступной от Сгоир Опе 8ойтоаге, СгеепЬеЙ, ΜΌ, которая определяет множество кластеров данных на основе любого
- 2 006272 множества векторов, генерируемого логической хромосомой. Конкретно, адаптивное программное обеспечение для распознавания образов максимально увеличивает количество векторов, которые находятся в гомогенных кластерах данных, то есть в кластерах, которые содержат векторы множества данных обучения, имеющие только один тип классификации.
Для использования генетического алгоритма каждой логической хромосоме должна быть присвоена степень соответствия. Степень соответствия каждой логической хромосомы определяется по количеству векторов во множестве данных обучения, которые находятся в гомогенных кластерах оптимального множества кластеров данных для этой хромосомы. Таким образом, алгоритм обучения по настоящему изобретению объединяет генетический алгоритм для идентификации оптимальной логической хромосомы и адаптивный алгоритм распознавания образов для генерации оптимального множества кластеров данных и вычисления степени соответствия на основе количества векторов образцов, находящихся в гомогенных кластерах. В своем наиболее широком воплощении, алгоритм обучения по настоящему изобретению состоит из сочетания генетического алгоритма, алгоритма распознавания образов и использования функции степени соответствия, которая является мерой гомогенности выходного результата алгоритма распознавания образов, для контроля генетического алгоритма.
Чтобы избежать путаницы, необходимо заметить, что количество кластеров данных является гораздо большим, чем количество категорий. Алгоритмы классификации из приведенных ниже примеров сортируют Объекты на две категории, например на документы, представляющие интерес и не представляющие интереса, или клинические образцы, на доброкачественные или злокачественные. Эти алгоритмы классификации, однако, используют множество кластеров данных для осуществления классификации. Когда Объект представляет собой точку во времени, алгоритм классификации может использовать более чем две категории. Например, когда настоящее изобретение используется для предсказания курсов обмена иностранных валют, могла бы использоваться трехкомпонентная схема, соответствующая росту, падению и смешанным перспективам. Опять же, такой трехкомпонентный алгоритм классификации, как ожидается, должен иметь более чем три кластера данных.
Подробное описание изобретения
Для реализации настоящего изобретения рутинный пользователь должен разработать алгоритм классификации путем использования алгоритма обучения. Как и для любого эвристического способа требуется некоторое рутинное экспериментирование. Для использования алгоритма обучения рутинный пользователь использует множество данных обучения и должен экспериментально оптимизировать два параметра, количество измерений и размер кластера данных.
Хотя не существует никакого абсолютного или изначального верхнего предела для количества размерностей вектора, алгоритм обучения сам по себе изначально ограничивает количество размерностей в каждой реализации. Если количество размерностей слишком мало или размер кластера слишком велик, алгоритм обучения не может генерировать никаких логических хромосом, которые корректно классифицируют все образцы с приемлемым уровнем гомогенности. Подобным же образом и количество размерностей может быть слишком большим. При таких обстоятельствах алгоритм обучения генерирует множество логических хромосом, которые имеют максимальную возможную степень соответствия на начальной стадии процесса обучения, и соответственно происходит только отрицательная селекция. Подобным же образом, когда размер кластеров данных слишком мал, количество кластеров будет приближаться к количеству образцов во множестве данных обучения, и, опять же, рутинный пользователь обнаружит, что большое количество логических хромосом будут выдавать множество совершенно гомогенных кластеров данных.
Хотя изложенное выше обеспечивает общую инструкцию для выбора количества размерностей и размера кластеров данных, предназначенных для алгоритма классификации, необходимо понять, что реальное исследование ценности алгоритма классификации состоит в его способности корректно классифицировать потоки данных, которые являются независимыми от потока данных во множестве данных обучения. По этой причине рутинный пользователь должен понять, что часть множества данных обучения должна представлять собой резерв для проверки того, что алгоритм классификации функционирует с такой относительной ошибкой, которая является приемлемой для предполагаемой цели. Конкретные компоненты настоящего изобретения описываются более подробно ниже.
А. Поток данных и типы Объектов
Классификация Объектов и генерация ассоциированного потока данных зависит от природы проблемы, которую необходимо решить. Общие принципы иллюстрируются с помощью следующих далее примеров.
Документы: В одном из вариантов осуществления настоящее изобретение предусматривает способ для компьютеризированной классификации документов. Например, может потребоваться извлечь представляющие интерес документы из базы данных, состоящей из некоторого количества документов, слишком большого для индивидуального просмотра. Для этих обстоятельств настоящее изобретение предусматривает компьютеризированный алгоритм, предназначенный для идентификации подмножества базы данных, с наибольшей вероятностью содержащего представляющие интерес документы. Каждый документ представляет собой Объект, поток данных для каждого документа состоит из гистограммы,
- 3 006272 представляющей частоту каждой из 17576 (263) комбинаций из трех букв (триграмм), находимых в документе после удаления пробелов между словами и пунктуации. Альтернативно, может быть подготовлена гистограмма 9261 триграммы согласных после дополнительного удаления гласных из документа. Множество данных обучения состоит из образца соответствующих документов, которые должны классифицироваться как представляющие интерес или не представляющие интереса, в соответствии с потребностями пользователя.
Финансовые рынки:
Само собой разумеется, что финансовые рынки реагируют на внешние события и связаны друг с другом взаимно однозначным образом; например, курсы обмена иностранных валют зависят от привлекательности возможностей для инвестиций. Однако направление и степень реакции на индивидуальное событие могут быть трудными для предсказания. В одном из вариантов осуществления, настоящее изобретение предусматривает алгоритм компьютеризированного предсказания цен на одном рынке на основе изменения цен на другом. Каждая точка во времени представляет собой Объект, например часовые интервалы, поток данных в течение часа состоит из гистограммы изменения в ценах государственных ценных бумаг на главных рынках акций в релевантных странах, например на Нью-Йоркской и Лондонской фондовых биржах, где интерес представляет курс обмена фунта и доллара. Множество данных обучения состоит из исторических записей таких изменений цен, которые классифицируются как предшествующие росту или падению курса доллар:фунт.
Технологическое оборудование: В сложном технологическом оборудовании, таком как нефтепереработка, нефтяное месторождение или нефтехимическая установка, давление, температура, поток и состояние множества клапанов и других устройств контроля (все вместе, значения состояний) непрерывно отслеживаются и записываются. Существует необходимость в обнаружении приближающихся неблагоприятных событий до того, как неблагоприятное событие станет катастрофическим отказом. Настоящее изобретение предусматривает компьютеризированный алгоритм для классификации каждой точки во времени либо как точки времени с высоким риском, либо нормальной точки времени. Поток данных состоит из значений состояний для каждой точки во времени. Множество данных обучения состоит из исторических записей значений состояний, классифицируемых либо как предшествующие неблагоприятному событию, либо как предшествующее нормальной работе.
Медицинский диагноз:
Настоящее изобретение может быть использовано при анализе образца ткани для постановки медицинского диагноза, например, для анализа сыворотки или плазмы крови. Поток данных может представлять собой любой воспроизводимый физический анализ образца ткани, который приводит к получению 2000 или более измерений, которые могут быть количественно определены, по меньшей мере, с точностью до 1 тысячной (три значащих цифры). Спектры масс для времен пролета белков являются особенно пригодными для использования при осуществлении настоящего изобретения. Более конкретно, это спектрометрия времени пролета при ионизации с матричной поддержкой лазерной десорбцией (ΜΑΕΌΙ-ΤΟΡ) и спектрометрия времени пролета при ионизации поверхностно усиленной лазерной десорбцией (8ΕΕΌΙΤΟΡ) (см. XV О 00/49410). Поток данных может также включать в себя измерения, которые не являются изначально организованными с помощью единственного упорядоченного параметра, такого как молекулярная масса, но имеют произвольный порядок. Так, микроматричные данные по ДНК, которые одновременно измеряют уровни экспрессии 2000 или более генов, могут быть использованы в качестве потока данных, когда образец ткани представляет собой образец, полученный при биопсии, замечая, что порядок следования индивидуальных генов в потоке данных является произвольным.
Существуют конкретные заболевания, где настоящее изобретение является особенно ценным, когда ранняя диагностика является важной, но технически сложной из-за отсутствия симптомов, и заболевание, как ожидается, дает различия, которые детектируются в сыворотке, благодаря метаболической активности патологической ткани. Ранняя диагностика злокачественных образований является главной целью для применения настоящего изобретения. Рабочий пример иллюстрирует диагностику карциномы простаты, подобные же попытки были предприняты относительно диагностики раковых заболеваний яичников.
Необходимо заметить, что один и тот же поток данных из образца, взятого от пациента, может быть проанализирован для множества диагнозов с использованием способа по настоящему изобретению. Дополнительная стоимость такого многократного анализа может быть очень низкой, поскольку конкретные стадии для каждого диагноза являются чисто компьютерными.
В. Процесс абстрагирования и логическая хромосома
Первая стадия в процессе классификации по настоящему изобретению представляет собой преобразование или абстрагирование потока данных в виде характеристического вектора. Данные могут быть удобно пронормированы перед абстрагированием путем присваивания самому большому значению величины 1,0 и присваивания всем другим точкам дробных значений. Наиболее простое абстрагирование потока данных заключается в выборе небольшого количества точек данных. Специалистам понятно, что могут быть получены и более сложные функции от множества точек, такие как средние значения по некоторым интервалам или более сложные суммы или разности между точками данных, которые находятся
- 4 006272 на заданном расстоянии от выбранного прототипа точки данных. Такие функции значений интенсивностей из потока данных также могут быть использованы и, как ожидается, могут функционировать эквивалентно простому абстрагированию, иллюстрируемому в рабочих примерах.
Специалист также заметит, что при рутинном экспериментировании можно определить, сможет ли абстрагирование путем получения мгновенной крутизны в произвольных точках быть реализовано в настоящем изобретении. В соответствии с этим, такие рутинно доступные вариации иллюстрируемых рабочих примеров входят в объем настоящего изобретения.
Особенностью настоящего изобретения является использование генетического алгоритма для определения точек данных, которые используются для вычисления характеристического вектора. Придерживаясь номенклатуры, принятой в данной области, список конкретных точек, которые необходимо выбрать, определяется как логическая хромосома. Логические хромосомы содержат столько же генов, сколько размерностей существует для характеристического вектора. Любое множество из соответствующего количества точек данных может представлять собой логическую хромосому, при одном только условии, что ни один из генов хромосомы не повторяется. Порядок следования генов не имеет значения для настоящего изобретения.
Специалисты в данной области заметят, что генетический алгоритм может быть использован, когда удовлетворяются два условия. Конкретное решение задачи должно иметь возможность для выражения в виде множества или последовательности заданного размера из дискретных элементов, эти элементы могут представлять собой числа или буквы, и последовательности могут быть рекомбинированы для получения дополнительных решений. Должна также существовать возможность вычисления численного значения относительной ценности каждого решения, его степени соответствия. При этих обстоятельствах детали генетического алгоритма не являются взаимосвязанными с задачей, решение которой рассматривается. В соответствии с этим для настоящего изобретения может быть использовано программное обеспечение для генетического алгоритма общего назначения. Пригодными для использования являются алгоритмы в библиотеках РОАРаек, доступных от Агдоппе Ναΐίοηαΐ ЬаЬога1огу. Вычисление степени соответствия любой конкретной логической хромосомы описывается ниже.
Первый иллюстративный пример относится к совокупности из 100 документов, которые случайным образом разделяются на множество данных обучения из 46 документов и исследуемое множество из 54 документов. Документы состоят из адресов 81а1е о£ 1йе υηίοη, избранных мест из книги ТНе Аг! о£ \¥аг и статей из Ешапе1а1 Т1ше5. Вычисляется распределение триграмм для каждого документа. Выбирается векторное пространство 25 размерностей и размер кластера данных по каждой размерности выбирается в 0,35 от всего диапазона значений по этой размерности. Инициализируются генетические алгоритмы примерно с 1500 логическими хромосомами, выбранными случайным образом. По мере осуществления алгоритма логические хромосомы с большей степенью соответствия дуплицируются, а хромосомы с меньшей степенью соответствия прекращают свое существование. Существует рекомбинация между хромосомами и их мутация, которая осуществляется с помощью случайного замещения одного из элементов хромосомы. Не является существенным для настоящего изобретения, чтобы первоначально выбранная коллекция логических хромосом была случайной. Определенная предварительная фильтрация общего множества потоков данных для выявления точек данных, имеющих самую высокую изменчивость, может быть полезной, хотя такие методы могут также приводить к нежелательному смещению инициализации. Специалисты в данной области заметят, что начальное множество хромосом, скорость мутаций и другие граничные условия для генетического алгоритма не являются критичными для его функционирования.
С. Процесс распознавания образов и генерация оценки степени соответствия
Вычисляется оценка степени соответствия каждой из логических хромосом, которые генерируются с помощью генетического алгоритма. Вычисление оценки степени соответствия требует генерации оптимального множества кластеров данных для каждой логической хромосомы, которая исследуется.
Кластеры данных представляют собой просто объемы в векторном пространстве, в которых находятся векторы Объектов из множества данных обучения. Способ генерации оптимального множества кластеров данных не является критичным для настоящего изобретения и будет рассмотрен ниже. Однако какой бы способ ни использовался для генерации карты кластеров данных, эта карта является ограниченной следующими правилами: каждый кластер данных должен быть расположен в центроиде точек данных, которые лежат внутри кластера данных, никакие два кластера данных не могут перекрываться, и размерность каждого кластера в нормированном векторном пространстве фиксируется перед генерацией карты.
Размер кластера данных устанавливается пользователем во время процесса обучения. Установка слишком большого размера приводит к невозможности найти какие-либо хромосомы, которые могут успешно классифицировать множество данных обучения в целом, подобным же образом, установка слишком малого размера приводит к возникновению множества оптимальных кластеров данных, в котором количество кластеров приближается к количеству точек данных в обучающем множестве. Что более важно, установка слишком малого размера кластера данных приводит к переоценке, как описано ниже.
Способ, используемый для определения размера кластера данных, представляет собой часть на
- 5 006272 стоящего изобретения. Размер кластера может быть определен с помощью максимального значения эквивалента эвклидового расстояния (корня из суммы квадратов) между двумя любыми элементами кластера данных. Размер кластера данных, который соответствует требованию 90% сходства, пригоден для использования по настоящему изобретению, когда поток данных генерируется с помощью данных массспектроскопии 8ΕΕΌΙ-ΤΟΕ. Иногда большие кластеры данных, как обнаружено, пригодны для использования для классификации текстов. Математически 90%-ное сходство определяется требованием, чтобы расстояние между любыми двумя элементами кластера было меньшим, чем 0,1 от максимального расстояния между двумя точками в нормированном векторном пространстве. Для этого вычисления векторное пространство нормируется таким образом, чтобы диапазон каждого скаляра векторов во множестве данных обучения находился в пределах между 0,0 и 1,0. Нормированное таким образом максимальное возможное расстояние между двумя любыми векторами в векторном пространстве составляет тогда корень из Ν, где N представляет собой количество измерений. Тогда эвклидов диаметр каждого кластера составляет 0,1 х корень (Ν).
Конкретная нормировка векторного пространства не является критичной особенностью настоящего способа. Указанный выше способ выбран для простоты вычисления. Альтернативная нормировка может быть получена путем масштабирования каждой размерности не по диапазону, а таким образом, чтобы каждая размерность имела одинаковую дисперсию. Могут быть использованы неэвклидовы метрики, такие как метрики произведений векторов.
Специалистам в данной области также понятно, что поток данных может быть преобразован в логарифмическую форму, если распределение значений в потоке данных является логарифмически нормальным, а не нормально распределенным.
После того как сформировано оптимальное множество кластеров данных для логической хромосомы, вычисляется оценка степени соответствия для этой хромосомы. Для настоящего изобретения оценка степени соответствия хромосомы примерно соответствует количеству векторов множества данных обучения, которые находятся в кластерах, которые являются гомогенными, то есть, в кластерах, которые содержат характеристические векторы от образцов, имеющих одну и ту же классификацию. Более конкретно, оценка степени соответствия вычисляется путем присвоения каждому кластеру оценки гомогенности, которая изменяется от 0,0 для гомогенных кластеров до 0,5 для кластеров, которые содержат одинаковое количество векторов злокачественных и доброкачественных образцов. Оценка степени соответствия хромосомы представляет собой среднюю оценку степени соответствия для кластеров данных.
Так, оценка степени соответствия 0,0 является наибольшим соответствием. Существует некоторый сдвиг в сторону логических хромосом, которые генерируют больше кластеров данных, в связи с тем, что когда рассматриваются две логических хромосомы, которые имеют одинаковое количество ошибок в присваивании данных, хромосома, которая генерирует большее количество кластеров, будет иметь более низкую среднюю оценку гомогенности, и, таким образом, лучшую оценку степени соответствия.
Программное обеспечение общего пользования для генерации используемой самоорганизующейся карты имеет несколько наименований, одно из них - это Ьеаб С1ик!ег Мар, и может быть реализовано с помощью программного обеспечения общего назначения, которое является доступным как Мобе1 1 от Сгоир Опе 8ой^аге (СгеепЬеЙ, ΜΌ).
Альтернативный вариант осуществления настоящего изобретения использует неэвклидову метрику для установления границ кластеров данных. Метрика относится к способу измерения расстояния в векторном пространстве. Альтернативная метрика для настоящего изобретения может быть основана на нормированном нечетком логическом умножении, как определено выше. Программное обеспечение, которое осуществляет адаптивный алгоритм распознавания образов на основе метрики нечеткого логического умножения, доступно от Войоп Ишуегкйу под наименованием Ειιζζν ΑΚΤΜΑΡ.
Ό. Описание и проверка конкретных вариантов осуществления
Специалистам в данной области понятно, что присвоение всему множеству данных обучения состояния гомогенных кластеров данных само по себе не является доказательством того, что алгоритм классификации является эффективно работающим на приемлемом уровне точности. Таким образом, ценность алгоритма классификации, генерируемого с помощью алгоритма обучения, должна быть проверена через его способность к сортировке множества данных, иного, чем множество данных обучения. Когда алгоритм обучения генерирует алгоритм классификации, который успешно присваивает значения множеству данных обучения, но неэффективно присваивает значения исследуемому множеству данных, считается, что обучающие данные переоценены обучающим алгоритмом. Переоценка возникает, когда количество измерений является слишком большим и/или размер кластеров данных является слишком малым.
Кластеризация документов:
Кластеризация документов (текста) представляет интерес в большом множестве профессий. Они включают в себя юридическое, медицинское и информационное сообщества. Способы поиска и извлечения информации на основе булевой алгебры, как доказано, становятся неадекватными, когда встречаются лицом к лицу с высокими требованиями современного объема производства текстового материала. Более того, булев поиск не захватывает концептуальную информацию.
- 6 006272
Предлагаемый подход к проблеме заключается в извлечении некоторым образом концептуальной информации способом, который является доступным численному анализу. Один из таких способов представляет собой кодирование документа в виде коллекции триграмм, и измеряется их частота появления. Триграмма представляет собой коллекцию из любых трех букв, таких как АТУ, КЬР, ОЕ, и тому подобное. По этой причине существуют 263 триграмм. Пробелы и пунктуация не включаются. Затем документ может быть представлен как сегментированный в виде конкретного множества триграмм, начиная от начала потока текста от этого документа. Полученное в результате множество триграмм из этого документа и их частоты являются характерными. Если документы во множестве имеют схожие множества триграмм и частоты, является вероятным, что они относятся к одной и той же теме. Это является особенно верным, если исследуется и обсчитывается только конкретное подмножество триграмм. Весь вопрос заключается в том, какое множество триграмм описывает любую концепцию. Алгоритм обучения в соответствии с настоящим изобретением может ответить на этот вопрос.
Была компилирована совокупность из 100 документов на английском языке из Ешапс1а1 Тппс5. Т11С Аг! о£ \Уаг и коллекции адресов президентского 81а1е о£ 1йе υηίοη. Совокупность случайным образом была сегментирована на совокупности обучения и исследуемые совокупности. Всем документам было присвоено значение либо 0, либо 1, где 0 указывает нежелательный документ, а 1 указывает желательный документ. Алгоритм обучения осуществлял поиск во множестве триграмм и идентифицировал множество триграмм, которое разделено на два класса документов. Полученная в результате модель имела 25 размерностей, при этом граница принятия решения была установлена как 0,35 от максимального расстояния, возможного в этом пространстве. Классифицирующий алгоритм использует только 25 из возможных 17576 триграмм. При исследовании получены результаты, представленные в таблице.
Реальная классификация О
Таблица: Матрица недоразумений. Реальные значения записаны по вертикали, а результаты алгоритма в соответствии с настоящим изобретением записаны по горизонтали.
Результаты показывают, что алгоритм корректно идентифицирует 24 из 26 документов, которые представляют интерес, и корректно отсеивает или отбрасывает 22 из 26 документов, которые не пред ставляют интереса.
Оценка биологических состояний: Указанный выше алгоритм обучения был использован для разработки классификации для рака простаты с использованием спектров масс (М8) 8ΕΕΌΙ-ΤΘΕ 55 образцов сыворотки пациентов, 30 из них имеют рак простаты, диагностируемый с помощью биопсии, и уровни антигена в сыворотке простаты (Р8А), превышающие 4,0 нг/мл, и 25 нормальных пациентов имеют уровни Р8А, меньшие чем 1 нг/мл. Данные М8 абстрагировались путем выбора 7 значений молекулярных масс.
Была генерирована карта кластеров, которая присваивала каждый вектор во множестве данных обучения гомогенному кластеру данных. Карта кластеров содержала 34 кластера, 17 доброкачественных и 17 злокачественных. Табл. 1 демонстрирует положение каждого кластера данных на карте и количество образцов из множества данных обучения, присвоенное каждому кластеру.
Алгоритм классификации был исследован с использованием 231 образца, которые были исключены из множества данных обучения. Использовались шесть множеств образцов от пациентов с различными клиническими и патологическими диагнозами. Клиническое и патологическое описание и результаты применения алгоритма имели следующий вид: 1) 24 пациента с Р8А>4 нг/мл и биопсией, указывающей на рак, 22 заносятся в карту как кластеры с данными о заболевании, 2 не заносятся ни в какой кластер; 2) 6 нормальных, все заносятся в здоровые кластеры; 3) 39 с доброкачественной гипертрофией простаты (ВРН) или простатитом и с Р8А<4 г/мл, 7 заносятся в кластеры с данными о заболевании, ни одного в кластеры со здоровыми данными и 32 не заносятся ни в один кластер данных; 4) 139 пациентов с ВРН или простатитом и с Р8А>4 и <10 нг/мл, 42 заносятся в кластеры с данными о заболевании, 2 пациента в кластеры со здоровыми данными и 95 пациентов не заносятся ни в один из кластеров; 5) 19 пациентов с ВРН или простатитом, и с Р8А>10 нг/мл, 9 пациентов заносятся в кластеры с данными о заболевании, ни одного в здоровые и 10 пациентов ни в один из кластеров. Шестое множество данных получается путем отбора образцов до и после простатоэктомии, у пациентов, имеющих биопсию, указывающую на карциному, и с Р8А >10 нг/мл. Как и ожидалось, каждый из 7 образцов до операции был занесен во множество данных о заболевании. Однако, ни один из образцов, взятых через 6 недель после операции, в момент времени, когда уровни Р8А падают ниже 1 нг/мл, не был занесен ни в одно множество данных.
При оценке результатов указанного выше исследования необходимо напомнить, что процент скрытой карциномы у пациентов, имеющих Р8А 4-10 нг/мл и доброкачественный диагноз согласно биопсии,
- 7 006272 составляет примерно 30%. Таким образом, обнаружение того факта, что от 18 до 47% пациентов с повышенным уровнем Р8Л, но не имеющих диагноза рак по биопсии ткани, согласуется с корректным предсказанием наличия карциномы.

Claims (25)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ формирования алгоритма классификации путем использования множества предварительно классифицированных Объектов, каждый Объект является ассоциированным с потоком данных, где алгоритм характеризуется как имеющий множество кластеров данных заданного размера в векторном пространстве с фиксированным количеством размерностей, включающий этапы
    a) обеспечения множества потоков данных, ассоциированных с предварительно классифицированными Объектами;
    b) выбора начального множества логических хромосом, которые определяют положение заданного количества точек в потоке данных;
    c) вычисления вектора Объекта для каждого элемента из множества потоков данных с использованием каждой хромосомы;
    δ) определения степени соответствия каждой хромосомы путем нахождения положений в векторном пространстве множества не перекрывающихся кластеров данных заданного размера, которые максимизируют количество векторов Объектов, которые находятся в кластерах данных, которые содержат только идентично классифицированные векторы Объекта, при этом, чем больше количество таких векторов, тем больше степень соответствия логической хромосомы;
    е) оптимизации множества логических хромосом с помощью итерационного процесса, включающего в себя повторную итерацию стадий (с) и (δ), прекращение существования логических хромосом с низкой степенью соответствия, репликацию логических хромосом с высокой степенью соответствия, рекомбинацию и случайную модификацию хромосом;
    ί) завершения итерационного процесса и выбора логической хромосомы, которая делает возможным оптимально гомогенное множество не перекрывающихся кластеров данных, где атрибутивный статус каждого кластера из оптимально гомогенного множества представляет собой классификацию векторов Объектов, которые находятся внутри кластера данных; и
    д) формирования алгоритма классификации, который классифицирует неизвестный Объект с помощью процесса, включающего в себя вычисление вектора неизвестного Объекта с использованием выбранной логической хромосомы, и классификации неизвестного Объекта в соответствии с атрибутивным статусом кластера данных из оптимально гомогенного множества не перекрывающихся кластеров данных, в которых находится вектор неизвестного Объекта.
  2. 2. Способ по п.1, в котором фиксированное количество размерностей составляет от 5 до 25.
  3. 3. Способ по п.1, в котором количество предварительно классифицированных Объектов составляет от 20 до 200.
  4. 4. Способ по п.1, в котором начальное множество логических хромосом является выбранным случайным образом.
  5. 5. Способ по п.1, в котором начальное множество логических хромосом состоит из 100-2000 логических хромосом.
  6. 6. Способ по п.1, в котором протяженность каждого кластера данных является одинаковой.
  7. 7. Способ по п.1, в котором протяженность каждого кластера данных определяется с помощью эвклидовой метрики.
  8. 8. Способ по п.7, в котором протяженность каждого кластера данных по одной размерности является заданной долей от диапазона векторов Объектов по этой размерности.
  9. 9. Способ по п.1, в котором метрика, которая определяет протяженность каждого кластера данных, является функцией параметра согласования нечеткого логического умножения с вектором, характерным для кластера данных.
  10. 10. Способ по п.1, в котором положение каждого кластера данных из оптимально гомогенного множества представляет собой центроид векторов Объектов для предварительно классифицированных Объектов, которые находятся в кластере данных.
  11. 11. Способ по п.1, в котором положение каждого кластера данных из оптимально гомогенного множества представляет собой центроид векторов Объектов для предварительно классифицированных Объектов, которые находятся в кластере данных.
  12. 12. Способ по п.1, в котором положение каждого кластера данных из оптимально гомогенного множества представляет собой центроид векторов Объектов для предварительно классифицированных Объектов, которые находятся в кластере данных.
  13. 13. Продукт программного обеспечения для цифрового компьютера общего назначения, сопровождаемый инструкциями, что продукт может быть использован для выполнения способа по п.1.
  14. 14. Продукт программного обеспечения, который выполняет или обеспечивает выполнение на цифровом компьютере общего назначения способа по п.1.
    - 8 006272
  15. 15. Цифровой компьютер общего назначения, запрограммированный для выполнения или обеспечения выполнения способа по п.1.
  16. 16. Реализуемый компьютером способ построения модели, сконфигурированной для классификации биологических образцов в качестве находящихся в одном из по меньшей мере первого состояния или второго состояния, отличающегося от первого состояния, содержащий этапы, на которых обеспечивают совокупность последовательностей данных, причем каждая последовательность данных получена из биологического образца, в отношении которого известно, что он находится в первом состоянии или во втором состоянии;
    используют генетический алгоритм для выбора первого набора переменных, которые идентифицируют данные в каждой последовательности данных из упомянутой совокупности последовательностей данных;
    вычисляют вектор образца для каждого члена набора последовательностей данных, используя первый набор переменных;
    находят положение каждого из по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, в первом векторном пространстве;
    определяют изменчивость для по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных;
    определяют, находится ли изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, в пределах приемлемого допуска;
    если определено, что изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, находится в пределах приемлемого допуска, обеспечивают положения по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, в первом векторном пространстве; и если определено, что изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, не находится в пределах приемлемого допуска;
    используют генетический алгоритм для выбора второго набора переменных, отличающегося от первого набора переменных;
    вычисляют вектор образца для каждого члена набора последовательностей данных, используя второй набор переменных;
    находят положение каждого из по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием второго набора переменных, во втором векторном пространстве;
    определяют изменчивость для по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием второго набора переменных;
    определяют, находится ли изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием второго набора переменных, в пределах приемлемого допуска, и если определено, что изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием второго набора переменных, находится в пределах приемлемого допуска, обеспечивают положения по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием второго набора переменных, во втором векторном пространстве.
  17. 17. Реализуемый компьютером способ по п.16, в котором изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, представляет собой дисперсию по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных.
  18. 18. Реализуемый компьютером способ по п.16, в котором если определено, что изменчивость по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием второго набора переменных, не находится в пределах приемлемого допуска, выбирают третий набор переменных, отличающийся от первого набора переменных и от второго набора переменных.
  19. 19. Реализуемый компьютером способ по п.16, в котором каждая последовательность данных получена из биологического образца посредством методики биологической пробы.
  20. 20. Реализуемый компьютером способ по п.16, в котором приемлемый допуск вводится пользователем.
  21. 21. Реализуемый компьютером способ по п.16, в котором нахождение положения каждого из по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, в первом векторном пространстве включа
    - 9 006272 ет в себя этап, на котором определяют для каждого вектора образца близость этого вектора образца относительно существующего центроида в первом векторном пространстве.
  22. 22. Реализуемый компьютером способ по п.21, дополнительно содержащий этапы, на которых определяют, находится ли расстояние до каждого вектора образца от ближайшего существующего центроида в пределах заранее определенного порогового расстояния, если упомянутое расстояние превышает пороговое расстояние, задают новый центроид на основе положения вектора образца в первом векторном пространстве, если упомянутое расстояние меньше порогового расстояния, назначают вектор образца кластеру, ассоциированному с существующим центроидом.
  23. 23. Реализуемый компьютером способ по п.22, в котором назначение вектора образца включает в себя этап, на котором корректируют положение существующего центроида так, чтобы он стал ближе к положению вектора образца.
  24. 24. Реализуемый компьютером способ по п.16, в котором каждый из по меньшей мере двух кластеров данных, которые наилучшим образом соответствуют векторам образцов, вычисленным с использованием первого набора переменных, включает в себя центроид и гипер-радиус решения.
  25. 25. Модель, сконфигурированная для классификации биологических образцов с использованием способа по п.16.
EA200300035A 2000-06-19 2001-06-19 Эвристический способ классификации EA006272B1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US21240400P 2000-06-19 2000-06-19
PCT/US2001/019376 WO2001099043A1 (en) 2000-06-19 2001-06-19 Heuristic method of classification

Publications (2)

Publication Number Publication Date
EA200300035A1 EA200300035A1 (ru) 2003-10-30
EA006272B1 true EA006272B1 (ru) 2005-10-27

Family

ID=22790864

Family Applications (1)

Application Number Title Priority Date Filing Date
EA200300035A EA006272B1 (ru) 2000-06-19 2001-06-19 Эвристический способ классификации

Country Status (19)

Country Link
US (3) US7096206B2 (ru)
EP (1) EP1292912B1 (ru)
JP (1) JP2003536179A (ru)
KR (2) KR20030051435A (ru)
CN (2) CN1741036A (ru)
AT (1) ATE406627T1 (ru)
AU (1) AU2001269877A1 (ru)
BR (1) BR0111742A (ru)
CA (1) CA2411906A1 (ru)
DE (1) DE60135549D1 (ru)
EA (1) EA006272B1 (ru)
HK (1) HK1059494A1 (ru)
IL (1) IL153189A0 (ru)
MX (1) MXPA02012167A (ru)
NO (1) NO20026087L (ru)
NZ (1) NZ522859A (ru)
SG (1) SG143055A1 (ru)
WO (1) WO2001099043A1 (ru)
ZA (1) ZA200209845B (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2473555C2 (ru) * 2006-12-19 2013-01-27 ДжинГоу, Инк. Новые способы функционального анализа большого количества экспериментальных данных и групп генов, идентифицированных из указанных данных

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993186B1 (en) 1997-12-29 2006-01-31 Glickman Jeff B Energy minimization for classification, pattern recognition, sensor fusion, data compression, network reconstruction and signal processing
WO2001094616A1 (en) * 2000-06-02 2001-12-13 Large Scale Proteomics Corp. Protein markers for pharmaceuticals and related toxicity
EA006272B1 (ru) * 2000-06-19 2005-10-27 Коррелоджик Системз, Инк. Эвристический способ классификации
EP1386275A2 (en) * 2000-07-18 2004-02-04 Correlogic Systems, Inc. A process for discriminating between biological states based on hidden patterns from biological data
US6980674B2 (en) * 2000-09-01 2005-12-27 Large Scale Proteomics Corp. Reference database
US6539102B1 (en) * 2000-09-01 2003-03-25 Large Scale Proteomics Reference database
CA2429633A1 (en) 2000-11-16 2002-05-30 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
US20030009293A1 (en) * 2001-01-09 2003-01-09 Anderson Norman G. Reference database
WO2003079286A1 (en) * 2002-03-15 2003-09-25 Pacific Edge Biotechnology Limited Medical applications of adaptive learning systems using gene expression data
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system
US7333895B2 (en) * 2002-07-29 2008-02-19 Correlogic Systems, Inc. Quality assurance for high-throughput bioassay methods
US7321364B2 (en) * 2003-05-19 2008-01-22 Raytheon Company Automated translation of high order complex geometry from a CAD model into a surface based combinatorial geometry format
US7337154B2 (en) * 2003-05-19 2008-02-26 Raytheon Company Method for solving the binary minimization problem and a variant thereof
AU2004261222A1 (en) * 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
CA2548842A1 (en) * 2003-12-11 2005-07-07 Correlogic Systems, Inc. Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
JP5180478B2 (ja) * 2004-02-10 2013-04-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
EP1728210A2 (en) * 2004-02-27 2006-12-06 Aureon Laboratories, Inc. Methods and systems for predicting occurrence of an event
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
JP2007528544A (ja) * 2004-03-02 2007-10-11 クラウドマーク インコーポレイテッド 遺伝的アルゴリズムを使用して改良された統計学的モデルを作成する方法及び装置
US7733339B2 (en) * 2004-05-04 2010-06-08 Raytheon Company System and method for partitioning CAD models of parts into simpler sub-parts for analysis of physical characteristics of the parts
US8275772B2 (en) * 2004-05-14 2012-09-25 Yin Aphinyanaphongs Content and quality assessment method and apparatus for quality searching
US8527442B2 (en) * 2004-05-14 2013-09-03 Lawrence Fu Method for predicting citation counts
US7379939B2 (en) * 2004-06-30 2008-05-27 International Business Machines Corporation Methods for dynamic classification of data in evolving data stream
US20060036566A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US7545986B2 (en) * 2004-09-16 2009-06-09 The United States Of America As Represented By The Secretary Of The Navy Adaptive resampling classifier method and apparatus
EP1861704A2 (en) * 2005-02-09 2007-12-05 Correlogic Systems, Inc. Identification of bacteria and spores
US7370039B2 (en) * 2005-04-05 2008-05-06 International Business Machines Corporation Method and system for optimizing configuration classification of software
US20080312514A1 (en) * 2005-05-12 2008-12-18 Mansfield Brian C Serum Patterns Predictive of Breast Cancer
US20080234944A1 (en) * 2005-07-21 2008-09-25 Koninklijke Philips Electronics, N.V. Method and Apparatus for Subset Selection with Preference Maximization
WO2007017770A1 (en) 2005-08-05 2007-02-15 Koninklijke Philips Electronics, N.V. Search space coverage with dynamic gene distribution
AU2006279437A1 (en) * 2005-08-15 2007-02-22 University Of Southern California Method and system for integrated asset management utilizing multi-level modeling of oil field assets
GB2430772A (en) * 2005-10-01 2007-04-04 Knowledge Support Systems Ltd User interface method and apparatus
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering
US7853869B2 (en) * 2005-12-14 2010-12-14 Microsoft Corporation Creation of semantic objects for providing logical structure to markup language representations of documents
US7736905B2 (en) 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
US7478075B2 (en) * 2006-04-11 2009-01-13 Sun Microsystems, Inc. Reducing the size of a training set for classification
US20070260568A1 (en) 2006-04-21 2007-11-08 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
US20080201095A1 (en) * 2007-02-12 2008-08-21 Yip Ping F Method for Calibrating an Analytical Instrument
US20080208646A1 (en) * 2007-02-28 2008-08-28 Thompson Ralph E Method for increasing productivity and safety in the mining and heavy construction industries
CN101680872B (zh) * 2007-04-13 2015-05-13 塞昆纳姆股份有限公司 序列比较分析方法和***
KR20120087885A (ko) 2007-06-29 2012-08-07 안국약품 주식회사 난소암의 예측 마커
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
WO2009052404A1 (en) * 2007-10-17 2009-04-23 Lockheed Martin Corporation Hybrid heuristic national airspace flight path optimization
US20090112645A1 (en) * 2007-10-25 2009-04-30 Lockheed Martin Corporation Multi objective national airspace collaborative optimization
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US10475529B2 (en) 2011-07-19 2019-11-12 Optiscan Biomedical Corporation Method and apparatus for analyte measurements using calibration sets
US8583571B2 (en) * 2009-07-30 2013-11-12 Marchex, Inc. Facility for reconciliation of business records using genetic algorithms
US8139822B2 (en) * 2009-08-28 2012-03-20 Allen Joseph Selner Designation of a characteristic of a physical capability by motion analysis, systems and methods
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US9009156B1 (en) * 2009-11-10 2015-04-14 Hrl Laboratories, Llc System for automatic data clustering utilizing bio-inspired computing models
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
US20110208433A1 (en) * 2010-02-24 2011-08-25 Biodesix, Inc. Cancer patient selection for administration of therapeutic agents using mass spectral analysis of blood-based samples
JP5165021B2 (ja) * 2010-05-11 2013-03-21 ヤフー株式会社 カテゴリ処理装置及び方法
CN102184193A (zh) * 2011-04-19 2011-09-14 无锡永中软件有限公司 与通用公办软件兼容的快速文档处理方法
JP5821767B2 (ja) * 2012-04-20 2015-11-24 株式会社島津製作所 クロマトグラフタンデム四重極型質量分析装置
US9798918B2 (en) * 2012-10-05 2017-10-24 Cireca Theranostics, Llc Method and system for analyzing biological specimens by spectral imaging
US9552649B2 (en) * 2012-11-20 2017-01-24 Koninklijke Philips N.V. Integrated phenotyping employing image texture features
US8855968B1 (en) * 2012-12-10 2014-10-07 Timothy Lynn Gillis Analytical evaluation tool for continuous process plants
US8467988B1 (en) * 2013-01-02 2013-06-18 Biodesix, Inc. Method and system for validation of mass spectrometer machine performance
US9471662B2 (en) 2013-06-24 2016-10-18 Sap Se Homogeneity evaluation of datasets
CN103632164B (zh) * 2013-11-25 2017-03-01 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
US11657447B1 (en) * 2015-02-27 2023-05-23 Intuit Inc. Transaction-based verification of income and employment
CN105373832B (zh) * 2015-10-14 2018-10-30 江苏师范大学 基于并行遗传算法的交易规则参数优化方法
US10496996B2 (en) 2016-06-23 2019-12-03 Capital One Services, Llc Neural network systems and methods for generating distributed representations of electronic transaction information
CN106404441B (zh) * 2016-09-22 2018-11-06 宁波大学 一种基于非线性相似度指标的故障分类诊断方法
EP3575813B1 (en) * 2018-05-30 2022-06-29 Siemens Healthcare GmbH Quantitative mapping of a magnetic resonance imaging parameter by data-driven signal-model learning
CN108877947B (zh) * 2018-06-01 2021-10-15 重庆大学 基于迭代均值聚类的深度样本学习方法
EP4047519A1 (en) 2021-02-22 2022-08-24 Carl Zeiss Vision International GmbH Devices and methods for processing eyeglass prescriptions
EP4101367A1 (en) 2021-06-09 2022-12-14 Carl Zeiss Vision International GmbH Method and device for determining a visual performance
TW202338854A (zh) * 2021-12-29 2023-10-01 美商愛昂科股份有限公司 基於基因資訊分析綜合判定癌症存在及類型之多層分類方案及其實施系統
CN114623693B (zh) * 2022-04-13 2024-01-30 深圳市佳运通电子有限公司 用于油田上下游站加热炉智能外输温度的控制方法
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及***
CN117688354B (zh) * 2024-02-01 2024-04-26 中国标准化研究院 一种基于进化算法的文本特征选择方法及***

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3935562A (en) 1974-02-22 1976-01-27 Stephens Richard G Pattern recognition method and apparatus
US4075475A (en) 1976-05-03 1978-02-21 Chemetron Corporation Programmed thermal degradation-mass spectrometry analysis method facilitating identification of a biological specimen
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4697242A (en) 1984-06-11 1987-09-29 Holland John H Adaptive computing system capable of learning and discovery
GB2187035A (en) 1986-01-27 1987-08-26 Eric James Sjoberg Pyrolysis mass spectrometer disease diagnosis aid
US4881178A (en) 1987-05-07 1989-11-14 The Regents Of The University Of Michigan Method of controlling a classifier system
US5697369A (en) 1988-12-22 1997-12-16 Biofield Corp. Method and apparatus for disease, injury and bodily condition screening or sensing
WO1991014990A1 (en) 1990-03-28 1991-10-03 Koza John R Non-linear genetic algorithms for solving problems by finding a fit composition of functions
US5210412A (en) 1991-01-31 1993-05-11 Wayne State University Method for analyzing an organic sample
US5784162A (en) 1993-08-18 1998-07-21 Applied Spectral Imaging Ltd. Spectral bio-imaging methods for biological research, medical diagnostics and therapy
ES2102518T3 (es) 1991-08-28 1997-08-01 Becton Dickinson Co Motor de atraccion por gravitacion para el agrupamiento autoadaptativo de corrientes de datos n-dimensionales.
US5632957A (en) 1993-11-01 1997-05-27 Nanogen Molecular biological diagnostic systems including electrodes
RU2038598C1 (ru) 1992-07-06 1995-06-27 Шапиро Светлана Борисовна Способ уринодиагностики заболеваний почек
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
DE69334349D1 (de) 1992-09-01 2011-04-21 Apple Inc Verbesserte Vektorquatisierung
US5790761A (en) 1992-12-11 1998-08-04 Heseltine; Gary L. Method and apparatus for the diagnosis of colorectal cancer
DE69432791T2 (de) * 1993-05-28 2004-06-03 Baylor College Of Medicine, Houston Verfahren und massenspektrometer zur desorption und ionisierung von analyten
US5995645A (en) 1993-08-18 1999-11-30 Applied Spectral Imaging Ltd. Method of cancer cell detection
US5352613A (en) 1993-10-07 1994-10-04 Tafas Triantafillos P Cytological screening method
US5553616A (en) * 1993-11-30 1996-09-10 Florida Institute Of Technology Determination of concentrations of biological substances using raman spectroscopy and artificial neural network discriminator
US6025128A (en) 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
WO1996012187A1 (en) 1994-10-13 1996-04-25 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
US5848177A (en) 1994-12-29 1998-12-08 Board Of Trustees Operating Michigan State University Method and system for detection of biological materials using fractal dimensions
GB2301897B (en) 1995-06-08 1999-05-26 Univ Wales Aberystwyth The Composition analysis
KR100197580B1 (ko) 1995-09-13 1999-06-15 이민화 무선 통신망을 이용한 실시간 생체신호모니터링시스템
US5716825A (en) 1995-11-01 1998-02-10 Hewlett Packard Company Integrated nucleic acid analysis system for MALDI-TOF MS
US5687716A (en) 1995-11-15 1997-11-18 Kaufmann; Peter Selective differentiating diagnostic process based on broad data bases
DE19543020A1 (de) 1995-11-18 1997-05-22 Boehringer Mannheim Gmbh Verfahren und Vorrichtung zur Bestimmung von analytischen Daten über das Innere einer streuenden Matrix
SE9602545L (sv) 1996-06-25 1997-12-26 Michael Mecklenburg Metod för att diskriminera komplexa biologiska prover
US5839438A (en) 1996-09-10 1998-11-24 Neuralmed, Inc. Computer-based neural network system and method for medical diagnosis and interpretation
WO1998020437A2 (en) 1996-11-04 1998-05-14 3-Dimensional Pharmaceuticals, Inc. System, method and computer program product for identifying chemical compounds having desired properties
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
WO1998020166A2 (en) * 1996-11-06 1998-05-14 Sequenom, Inc. Dna diagnostics based on mass spectrometry
US6157921A (en) 1998-05-01 2000-12-05 Barnhill Technologies, Llc Enhancing knowledge discovery using support vector machines in a distributed network environment
WO1998043182A1 (en) * 1997-03-24 1998-10-01 Queen's University At Kingston Coincidence detection method, products and apparatus
US5905258A (en) 1997-06-02 1999-05-18 Advanced Research & Techology Institute Hybrid ion mobility and mass spectrometer
NZ516848A (en) * 1997-06-20 2004-03-26 Ciphergen Biosystems Inc Retentate chromatography apparatus with applications in biology and medicine
US6081797A (en) 1997-07-09 2000-06-27 American Heuristics Corporation Adaptive temporal correlation network
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
IL137836A0 (en) 1998-02-13 2001-10-31 Oxford Glycosciences Uk Ltd Methods and compositions for diagnosis of hepatoma
GB9805477D0 (en) 1998-03-13 1998-05-13 Oxford Glycosciences Limited Methods and compositions for diagnosis of rheumatoid arthritis
US6723564B2 (en) 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
EP1078257A4 (en) 1998-05-09 2007-07-18 Iconisys Inc METHOD AND APPARATUS FOR COMPUTER-ASSISTED DIAGNOSIS OF RARE CELLS, INCLUDING FETAL CELLS
AU1133200A (en) 1998-10-26 2000-05-15 Visionary Medical, Inc. Prescription-controlled data collection system and method
US5989824A (en) 1998-11-04 1999-11-23 Mesosystems Technology, Inc. Apparatus and method for lysing bacterial spores to facilitate their identification
CA2359649A1 (en) 1999-02-16 2000-08-24 Lance A. Liotta Lcm (laser capture microdissection) for cellular protein analysis
GB9905817D0 (en) 1999-03-12 1999-05-05 Oxford Glycosciences Uk Ltd Methods
US6631333B1 (en) * 1999-05-10 2003-10-07 California Institute Of Technology Methods for remote characterization of an odor
US6329652B1 (en) 1999-07-28 2001-12-11 Eastman Kodak Company Method for comparison of similar samples in liquid chromatography/mass spectrometry
US6615199B1 (en) * 1999-08-31 2003-09-02 Accenture, Llp Abstraction factory in a base services pattern environment
AU7586100A (en) 1999-09-17 2001-04-17 Affymetrix, Inc. Method of cluster analysis of gene expression profiles
EP1236173A2 (en) 1999-10-27 2002-09-04 Biowulf Technologies, LLC Methods and devices for identifying patterns in biological systems
WO2001031579A2 (en) 1999-10-27 2001-05-03 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological patterns
DE10021737C2 (de) 2000-05-04 2002-10-17 Hermann Haller Verfahren und Vorrichtung zur qualitativen und/oder quantitativen Bestimmung eines Protein- und/oder Peptidmusters einer Flüssigkeitsprobe, die dem menschlichen oder tierischen Körper entnommen wird
EA006272B1 (ru) 2000-06-19 2005-10-27 Коррелоджик Системз, Инк. Эвристический способ классификации
US6680203B2 (en) * 2000-07-10 2004-01-20 Esperion Therapeutics, Inc. Fourier transform mass spectrometry of complex biological samples
AU2001273486A1 (en) 2000-07-17 2002-01-30 Labnetics, Inc. Method and apparatus for the processing of remotely collected electronic information characterizing properties of biological entities
EP1386275A2 (en) * 2000-07-18 2004-02-04 Correlogic Systems, Inc. A process for discriminating between biological states based on hidden patterns from biological data
CA2429633A1 (en) 2000-11-16 2002-05-30 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
JP4138486B2 (ja) 2001-01-24 2008-08-27 バイオウルフ テクノロジーズ エルエルスィー データに含まれる複数の特徴の分類方法
KR20030074773A (ko) 2001-02-01 2003-09-19 싸이퍼젠 바이오시스템즈, 인코포레이티드 탠덤 질량 분광계에 의한 단백질 확인, 특성화 및 서열결정을 위한 개선된 방법
US7299134B2 (en) 2001-02-16 2007-11-20 Bio-Rad Laboratories, Inc. Method for correlating gene expression profiles with protein expression profiles
US20030077616A1 (en) 2001-04-19 2003-04-24 Ciphergen Biosystems, Inc. Biomolecule characterization using mass spectrometry and affinity tags
US20020160420A1 (en) 2001-04-30 2002-10-31 George Jackowski Process for diagnosis of physiological conditions by characterization of proteomic materials
WO2003014735A1 (en) 2001-08-03 2003-02-20 General Hospital Corporation System, process and diagnostic arrangement establishing and monitoring medication doses for patients
CA2457432A1 (en) 2001-08-13 2003-02-27 Jan Van Der Greef Method and system for profiling biological systems
US20020193950A1 (en) 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
US7333895B2 (en) 2002-07-29 2008-02-19 Correlogic Systems, Inc. Quality assurance for high-throughput bioassay methods
JP4585167B2 (ja) 2002-11-29 2010-11-24 東芝医用システムエンジニアリング株式会社 X線コンピュータ断層撮影システム
US7311665B2 (en) 2003-05-19 2007-12-25 Alcohol Monitoring Systems, Inc. Bio-information sensor monitoring system and method
AU2004261222A1 (en) 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
CA2548842A1 (en) 2003-12-11 2005-07-07 Correlogic Systems, Inc. Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
IL163061A (en) 2004-07-15 2007-07-24 Meddynamics Ltd System and method for administration of on-line healthcare
EP1861704A2 (en) 2005-02-09 2007-12-05 Correlogic Systems, Inc. Identification of bacteria and spores

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2473555C2 (ru) * 2006-12-19 2013-01-27 ДжинГоу, Инк. Новые способы функционального анализа большого количества экспериментальных данных и групп генов, идентифицированных из указанных данных

Also Published As

Publication number Publication date
ATE406627T1 (de) 2008-09-15
CA2411906A1 (en) 2001-12-27
CN1446344A (zh) 2003-10-01
DE60135549D1 (de) 2008-10-09
EP1292912A1 (en) 2003-03-19
KR20030051435A (ko) 2003-06-25
US20060112041A1 (en) 2006-05-25
BR0111742A (pt) 2004-02-03
EA200300035A1 (ru) 2003-10-30
US7499891B2 (en) 2009-03-03
JP2003536179A (ja) 2003-12-02
KR20090019019A (ko) 2009-02-24
KR101047575B1 (ko) 2011-07-13
NZ522859A (en) 2005-08-26
HK1059494A1 (en) 2004-07-02
US20070185824A1 (en) 2007-08-09
ZA200209845B (en) 2003-10-21
SG143055A1 (en) 2008-06-27
IL153189A0 (en) 2003-06-24
MXPA02012167A (es) 2004-08-19
US7240038B2 (en) 2007-07-03
WO2001099043A1 (en) 2001-12-27
NO20026087L (no) 2003-02-13
CN1249620C (zh) 2006-04-05
EP1292912B1 (en) 2008-08-27
AU2001269877A1 (en) 2002-01-02
US7096206B2 (en) 2006-08-22
US20020046198A1 (en) 2002-04-18
NO20026087D0 (no) 2002-12-18
CN1741036A (zh) 2006-03-01

Similar Documents

Publication Publication Date Title
EA006272B1 (ru) Эвристический способ классификации
US8214157B2 (en) Method and apparatus for representing multidimensional data
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Babu et al. Implementation of partitional clustering on ILPD dataset to predict liver disorders
Schirra et al. Selection stability as a means of biomarker discovery in classification
Suthagar et al. Analysis of breast cancer classification using various algorithms
Wang et al. Using Artificial Intelligence to Interpret Clinical Flow Cytometry Datasets for Automated Disease Diagnosis and/or Monitoring
US20230385664A1 (en) A computer-implemented method for deriving a data processing and inference pipeline
NZ539429A (en) Heuristic method of classification
Huiqing Effective use of data mining technologies on biological and clinical data
Arthur Using Machine Learning on an Imbalanced Cancer Dataset
Bamgbade Disease profiling of high-dimensional biomedical data with multiple classifier systems
Bamgbade Disease Profiling of High-Dimensional
Suzuki Statistical and graph-based approaches to small sample and high dimensional data
El-Ghareeb Evaluation of Data Mining Classifica tion Models
Luo et al. Comparing feature bias and feature selection strategies for many-attribute machine learning
Mason Analysis of Epigenetics and Epidemiology of Acute Myeloid Leukemia with Machine Learning
Ramyachitra et al. A Comprehensive Study on Gene Selection and Tissue Samples Techniques
Nascimento et al. Mining rules for selection of clustering methods on cancer gene expression

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM AZ BY KZ KG MD TJ TM

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): RU