RU2297665C2 - Хранилище данных для основанной на знаниях системы извлечения информации из данных - Google Patents

Хранилище данных для основанной на знаниях системы извлечения информации из данных Download PDF

Info

Publication number
RU2297665C2
RU2297665C2 RU2004136278/09A RU2004136278A RU2297665C2 RU 2297665 C2 RU2297665 C2 RU 2297665C2 RU 2004136278/09 A RU2004136278/09 A RU 2004136278/09A RU 2004136278 A RU2004136278 A RU 2004136278A RU 2297665 C2 RU2297665 C2 RU 2297665C2
Authority
RU
Russia
Prior art keywords
data
key
indexer
analysis mechanism
objects
Prior art date
Application number
RU2004136278/09A
Other languages
English (en)
Other versions
RU2004136278A (ru
Inventor
Маттью ДЕНИСУК (US)
Маттью ДЕНИСУК
Даниель Фредерик ГРУЛ (US)
Даниель Фредерик ГРУЛ
Кевин Сноу МАККАРЛИ (US)
Кевин Сноу МАККАРЛИ
Джоуерг МЕЙЕР (US)
Джоуерг МЕЙЕР
Сридхар РАДЖАГОПАЛАН (US)
Сридхар РАДЖАГОПАЛАН
Эндрью ТОМПКИНС (US)
Эндрью ТОМПКИНС
Джеймс Юон ЦИНЬ (US)
Джеймс Юон ЦИНЬ
Original Assignee
Интернэшнл Бизнес Машинз Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Интернэшнл Бизнес Машинз Корпорейшн filed Critical Интернэшнл Бизнес Машинз Корпорейшн
Publication of RU2004136278A publication Critical patent/RU2004136278A/ru
Application granted granted Critical
Publication of RU2297665C2 publication Critical patent/RU2297665C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к системам извлечения информации. Техническим результатом является сокращение времени и затрат вычислительных ресурсов на обработку больших массивов данных с целью извлечения требуемой информации. Система содержит хранилище данных, механизмы анализа более низкого уровня, механизмы анализа более высокого уровня, индексатор. Согласно способу на основе первого набора правил, соответствующего первому механизму анализа, генерируют первый ключ, который направляют во второй механизм анализа, в котором на основе второго набора правил генерируют второй ключ, присоединяют первый и второй ключи к объектам и индексируют ключи и значения ключей. 2 н. и 13 з.п. ф-лы, 5 ил.

Description

Область техники, к которой относится изобретение
Настоящее изобретение в целом относится к системам извлечения информации из данных.
Предпосылки создания изобретения
Извлечение информации из данных - это процесс выделения информации из информационных фондов в соответствии с желанием пользователя. В отношении этого процесса (первоначального описанного в англоязычных источниках как "data mining") в русскоязычной литературе также вошли в употребление такие термины, как "информационная проходка", "добыча данных", "обнаружение знаний", "интеллектуальный анализ данных" и др. С учетом контекста изобретения все эти термины рассматриваются как синонимичные понятию извлечения информации из данных. Возможно наиболее распространенным примером извлечения информации из данных является функциональность механизмов поиска или поисковых систем, которые включены в состав большинства Web-браузеров и позволяют пользователям вводить ключевые слова и затем получать в ответ список документов (иногда состоящий из нескольких тысяч документов), которые пользователь затем просматривает, чтобы найти нужную ему информацию.
В основу работы существующих поисковых систем, таких как AltaVista, Google, Northern Light, FAST и Inktomi положен принцип навигации по всемирной паутине, т.е. эти системы получают доступ к Web-страницам и к страницам, гиперссылки на которые содержат страницы, к которым был осуществлен доступ, с генерированием инвертированного индекса ключевых слов, встречающихся на Web-страницах. В таком индексе ключевые слова соотнесены с идентификаторами (унифицированными указателями информационного ресурса или URL) страниц, которые содержат ключевые слова. Для ответа на запрос осуществляют доступ к индексу, используя в качестве действительных параметров запрошенные ключевые слова, после чего из указателя возвращаются URL-адреса страниц, удовлетворяющие запросам. Вернувшиеся идентификаторы страниц обычно упорядочивают по релевантности, например, по данным о ссылке или частоте употребления ключевых слов.
Несмотря на то, что в большинстве коммерческих механизмов поиска результаты поиска выстраиваются по их релевантности, для нахождения информации определенного рода пользователю обычно приходится перелопачивать огромный объем результатов запроса. Это объясняется тем, что для отсеивания полезной информации от бесполезной часто необходимы специальные знания в определенной области. Действительно, при создании изобретения была осознана возможность ситуации, когда для обработки множества документов с целью отбора подмножества документов требуется один специалист, использующий для этого одни критерии отбора, после чего необходимо, чтобы другой специалист, пользуясь другими критериями, систематизировал нужную информацию, содержащуюся в подмножестве документов, отобранных первым специалистом. Несмотря на то, что данная процедура является всего лишь необходимым этапом работы, предшествующим этапу использования данных, она связана со значительными затратами труда и может занять больше времени, чем любой другой этап работы.
Рассмотрим, например, случай ответа на сложный вопрос из области маркетинга, такой как "каково мнение наших клиентов в северо-западных штатах Тихоокеанского побережья об оздоровительной продукции нашего конкурента с точки зрения узнаваемости и ценности ее товарного знака?". Анализ Web-страниц может начаться с поиска ключевого слова, в качестве которого может использоваться название компании-конкурента, однако затем специалисту потребуется значительное время, чтобы отсеять, возможно, тысячи документов, таких как правительственные отчеты, которые не дают ответа на заданный вопрос, хотя в остальном являются релевантными. Среди прошедших первый этап отсеивания документов может остаться множество документов, имеющих еще меньшее отношение к делу, таких как документы из подростковых чатов, в которых может упоминаться название компании-конкурента, но для отсеивания которых потребуются специальные знания о демографическом составе целевого сегмента покупателей.
Рассмотрим также простой вопрос "совместима ли программа Adobe Acrobat с MS Word?". В ответ на столь простой запрос, введенный в одну из вышеупомянутых поисковых систем, был получен список результатов из 33 миллионов Web-страниц, на большинстве из которых не содержалось искомого ответа "да" или "нет". Для отсеивания бесполезных страниц потребовался бы специалист, который просмотрел бы каждую страницу и определил, является ли она страницей, которая может содержать информацию о совместимости программ. Затем потребовался бы другой специалист для изучения страниц, отобранных первым специалистом, и определения, действительно ли такие страницы содержат ответ на конкретный поставленный вопрос. Несложно понять, что на работу сменяющих друг друга специалистов, просеивающих большой объем информации, может уйти чрезмерно много времени.
Краткое изложение сущности изобретения
Одним объектом изобретения является система извлечения информации из данных, включающая в себя: по меньшей мере одно хранилище, или склад данных, в котором содержатся объекты; по меньшей мере один механизм анализа более низкого уровня, связанный с хранилищем данных и генерирующий выходные данные на основе первого набора правил, реализованных в указанном механизме анализа более низкого уровня; и по меньшей мере один механизм анализа более высокого уровня, принимающий выходные данные механизма анализа более низкого уровня и генерирующий свои выходные данные на основе второго набора правил, реализованных в указанном механизме анализа более высокого уровня, причем выходные данные механизмов анализа более низкого и более высокого уровней присоединены к объектам, содержащимся в хранилище данных.
В частных вариантах предложенной системы хранилище данных может представлять собой базу данных и может содержать вертикальные и горизонтальные таблицы. Вход в вертикальные таблицы может осуществляться с использованием выходных данных механизма анализа одного из вышеупомянутых уровней, а вход в горизонтальные таблицы - с использованием идентификации объекта. Выходными данными могут быть ключи, представляющие соответствующие характеристики объекта, которому эти ключи сопоставлены. Как альтернативный вариант, хранилищем данных может быть, например, файловая система.
При необходимости в системе может также использоваться индексатор, связанный с хранилищем данных, а также быстродействующая кэш-память на полупроводниках и процессор обработки запросов для выполнения запросов по меньшей мере от одного механизма анализа. Кроме того, с механизмами анализа могут быть связаны очереди работ.
В частном предпочтительном варианте индексатор содержит индексы ключей и значения ключей, имеющихся в структурах хранения данных, например, таблицах. Он также может содержать булевы индексы, хранящие значения "да" или "нет" на запросы по форме "имеет ли ключ k значение v?". Кроме того, индексатор может содержать интервальные индексы, хранящие интервалы значений ключей, а также индексы текста. При необходимости индексатор может представлять собой обобщенное воплощение текстового индексатора в виде инвертированного файла, индексирующего Web-документы и обеспечивающего интерфейс прикладного программирования (API) для поиска документов по ключевым словам.
В предпочтительном варианте индексатор может содержать определенные ключи, позволяющие осуществлять запросы в отношении конкретного объекта с применением булевой логики. Кроме того, в индексаторе могут содержаться графические данные, поддерживающие входящие и исходящие запросы.
Целесообразно, чтобы снабжение индексов метками и индексирование в индексаторе осуществлялось раздельно.
Другим объектом изобретения является способ хранения данных для поддержки системы извлечения информации из данных, заключающийся в том, что: по меньшей мере в одном хранилище данных сохраняют объекты; с хранилищем данных устанавливают связь посредством по меньшей мере одного первого механизма анализа; на основе первого набора правил, соответствующего первому механизму анализа, генерируют выходные данные; направляют эти выходные данные по меньшей мере в один второй механизм анализа; на основе второго набора правил, соответствующего второму механизму анализа, генерируют выходные данные; и присоединяют сгенерированные выходные данные к объектам.
Краткое описание чертежей
Ниже изобретение более подробно рассмотрено на примере предпочтительного варианта его осуществления, поясняемого прилагаемыми чертежами, на которых:
на фиг.1 показана структурная схема системы с предпочтительной архитектуры системы,
на фиг.2 приведена блок-схема, поясняющая общую логику выполнения операций,
на фиг.3 показана схема горизонтальной таблицы,
на фиг.4 показана схема вертикальной таблицы,
на фиг.5 приведена блок-схема, иллюстрирующая логику выполнения операций анализатором.
Подробное описание предпочтительного варианта осуществления
На фиг.1 показана система, в целом обозначенная позицией 10, используемая для ответа на вводимые клиентами запросы на получение данных. По существу в системе 10 собраны воедино знания множества специалистов, необходимые для просеивания, т.е. подробного анализа, крупного информационного фонда и ответа на запросы информации, которые могут оказаться довольно сложными, например, как это описано выше. В частных вариантах осуществления изобретения, не ограничивающих объем патентных притязаний, система 10 может использоваться для анализа данных о предприятиях, сбора информации о конкурентах, анализа тенденций, выявления скрытых взаимосвязей, предоставления услуг Web-порталов, кластеризации и создания таксономической иерархии. Кроме того, система 10 может применяться для поддержки целевых функций, требующих использования в ней значительного объема специальных знаний, например, пакета снабженческих услуг (представляющих интерес для определенной части предприятия).
Система 10 может базироваться в одном месте, где находится ее разработчик, и обслуживаться одним процессором или группой процессоров с тем, чтобы отвечать на запросы клиентов на получение данных в служебном формате. Как вариант, некоторые компоненты системы 10 могут быть предоставлены в распоряжение клиента для извлечения информации из данных на оборудовании клиента.
Как более подробно описано ниже, система 10 имеет уровень сбора данных, уровень хранения данных, уровень анализа данных, уровень представления данных и уровень управления системой. На уровне сбора данных находящийся в левой части фиг.1 навигатор 12 всемирной паутины (WWW) получает доступ к всемирной паутине 14 (и при необходимости к другим частям сети Internet). Навигатор 12 также может получать доступ, например, к корпоративным сетям Intranet 16, в том числе к собственной информации фирмы, которую можно получить лишь путем соответствующей аутентификации. Предпочтительно, чтобы навигатор 12 осуществлял непрерывную навигацию по всемирной паутине 14, просматривая при этом одни страницы чаще других с учетом частоты обновления страниц и других критериев, и при помощи интерфейса 20 прикладного программирования (API) выводил просмотренные страницы в хранилище данных 18. В предпочтительном частном варианте осуществления изобретения интерфейсом 20 является протокол компании IBM для обслуживания запросов, известный как "Vinci xTalk", который представляет собой упрощенный протокол на основе языка XML в сочетании с набором пользовательских соглашений, регламентирующих текущий контроль, регистрацию и передачу данных. При описании используемых в системе API-интерфейсов сетевого уровня используются терминология фреймов протокола xTalk.
Также предпочтительно, чтобы навигатор имел канал обратной связи, позволяющий при необходимости изменять режим функционирования навигатора. В предпочтительном частном варианте осуществления изобретения навигатор 12 представляет собой инструмент, описанный в патенте US 6263364, или навигатор, описанный в полученном компанией IBM патенте US 6418433 (патентная заявка США №09/239921) под названием "System and Method for Focussed Web Crawling", также включенных в настоящее описание путем ссылки. Помимо получения данных при помощи навигатора 12 система при необходимости также может иметь инструмент 22 сбора структурированных данных, который осуществляет обработку данных из клиентских и сторонних баз данных 24 и передает обработанные данные в хранилище, или склад данных 18.
Что касается хранилища данных 18, в одном из вариантов изобретения хранилищем данных является система управления реляционной базой данных (реляционная СУБД), такая как СУБД DB2 компании IBM. В других вариантах могут использоваться иные системы, например файловые системы. Следующее далее описание применимо к хранилищам данных обоих типов.
В одном из вариантов осуществления хранилище данных 18 может иметь централизованную программу, выполняющуюся на одной или на нескольких ЭВМ. Описанные ниже механизмы анализа - анализаторы могут выполняться на независимых ЭВМ, обращаясь к программе хранилища данных с запросами для считывания или записи данных. Как альтернативный вариант, хранилище данных 18 может быть распределено по нескольким ЭВМ, при этом анализаторы действуют на таких ЭВМ в параллельном режиме. В таком варианте для повышения эффективности использования ресурсов документ может быть считан из местной (локальной) части хранилища данных в память, находясь в оперативной памяти, пройти по цепочке зависимых или независимых анализаторов и снова быть сохраненным в хранилище данных. В действительности оба вышеупомянутых типа архитектуры могут быть реализованы в одной и той же системе 10, учитывая тот факт, что одни анализаторы лучше работают в архитектуре второго типа (например, анализаторы, работающие постранично), тогда как для других анализаторов могут требоваться служебные сигналы или данные, обеспечиваемые архитектурой первого типа.
Хранилище данных 18 связано с индексатором 26 и, при необходимости, с быстродействующей кэш-памятью 28 на полупроводниках. Для выполнения запросов анализаторов предусмотрен процессор 30 обработки запросов, имеющий доступ к кэш-памяти 28, индексатору 26 и хранилищу данных 18, как это описано ниже. Как составная часть уровня хранения данных системы 10 в системе могут быть реализованы очереди работ анализаторов, рассматриваемые ниже.
В хранилище данных 18 содержится довольно большой объем информации, например, данные Web-страниц, полученные от навигатора 12. В хранилище данных 18 также хранятся объекты, представляющие данные, на основе которых могут приниматься решения, что описано ниже. Такие объекты имеют соответствующие универсальные идентификаторы (UEID), кодирующие идентификацию и тип объекта, например, "Web-страница", "гиперссылка", "частное лицо", "корпорация", "статья". Объекты также могут содержать ключи с соответствующими значениями, которые присоединены к объектам описанными ниже анализаторами. Например, анализатор обрабатывает страничный объект и создает ключ, названный "Crawl:Content", который включает в себя HTTP-содержимое соответствующей Web-страницы (поэтому длина значения ключа относительно велика). В любом случае объекты могут быть сохранены в файловой системе, СУБД, такой как DB2, где они представлены в горизонтальных и вертикальных таблицах, или в другой системе хранения данных.
Индексатор 26, помимо прочих элементов, содержит индексы ключей и значения ключей, имеющихся в хранилище данных. Индексатор 26 может содержать булевы индексы, хранящие значения "да" или "нет" на запросы по форме "имеет ли ключ k значение v?". Кроме того, в индексаторе 26 могут содержаться интервальные индексы, хранящие интервалы значений ключей, например, координат географических областей, индексы текста, являющиеся обычными индексами для характеризующих объекты данных, а также при необходимости другие индексы.
В любом случае предпочтительно, чтобы индексы (и таблицы для хранения данных в случае, когда хранилище данных представляет собой базу данных) указывали не на возможное местоположение конкретного наименования или текста, а лишь на то, что конкретная страница имеет определенную характеристику, или на то, что в каком-то месте на этой странице находится конкретный текстовый элемент. Таким образом, благодаря довольно высокой степени структурированности системы 10 к хранилищу данных предъявляются меньшие требования по объему памяти, чем в противном случае, что облегчает практическую реализацию хранилища данных. Вместе с тем, при желании может быть указано, где именно на Web-странице может находиться конкретное наименование или текст.
Что касается дополнительных деталей, касающихся уровня хранения данных системы 10, в предпочтительном частном варианте изобретения индексатор 26 представляет собой обобщенное воплощение обычного текстового индексатора в виде инвертированного файла. В одном варианте выполнения он индексирует Web-документы и обеспечивает интерфейс прикладного программирования (API) для поиска документов по ключевым словам. Набор сопоставленных документу ключевых слов может представлять собой просто слова из документа, либо он может быть по необходимости пополнен - посредством описываемых ниже анализаторов - дополнительной информацией, относящейся, например, к имеющимся на странице географическим районам, собственным именам, ссылкам на продукцию или рестораны или иные известные системе 10 объекты, результаты семантического анализа страницы и тому подобное. В этом случае API-интерфейс поиска по ключевым словам допускает включение в запросы любого слова из подобных расширенных наборов ключевых слов.
В других вариантах реализации в индексаторе 26 содержатся определенные ключи, позволяющие осуществлять запросы в отношении конкретного объекта с применением булевой логики или позволяющие графическим данным поддерживать входящие и исходящие запросы, и тому подобное. Чтобы обеспечить такую универсальность, снабжение метками (tokenization) проводится отдельно от индексирования. В частности, индексатор 26 рассчитан на получение потока меток, а не потока документов. Соответственно, снабжение метками осуществляется перед индексированием. Для каждой индексированной метки положение метки (относительное положение метки в потоке) сохраняется вместе с определяемыми пользователем данными метки, которые могут быть произвольными. Такая упрощенная модель обеспечивает эффективное индексирование и обеспечивает универсальный API-интерфейс, применимый в разнообразных случаях. Кроме того, развязка снабжения данных метками и индексирования позволяет совместно индексировать метки, происходящие из разных вариантов реализации правил (например, из различных генераторов меток).
Несколько версий индексатора 26 могут выполняться одновременно. Для простоты "главным" текстовым индексатором считается индексатор, в котором хранятся метки, соответствующие всему набору просмотренных и отобранных страниц. Как указано ниже в отношении анализаторов согласно настоящему изобретению, анализаторы присоединяют "ключи" к объектам, хранящимся в хранилище данных 18. Генераторы меток, связанные с индексатором 26, действуют точно по тому же принципу. В частном варианте изобретения генератор текстовых меток может быть выполнен на основе генератора меток Text Analysis Framework (TAF), разработанного компаниями IBM Research и IBM Software (г.Беблинген). Такой генератор меток считывает данные страницы и записывает результат исходной разметки для каждой страницы. Затем задействуются другие генераторы меток, которые используют эти данные или, по своему выбору, необработанные данные страниц и сохраняют в хранилище данных другие метки. В частности, один генератор меток может сопоставлять собственные имена и тегировать (метить) их в качестве таковых, а другой генератор меток - считывать только выходные данные генератора меток собственных имен и записывать метки, содержащие метаданные, соотносящие собственные имена с конкретными известными объектами, находящимися в любом другом месте системы 10. Все эти генераторы меток регистрируются в главном индексаторе 26.
За подробным описанием предпочтительного частного варианта выполнения индексатора 26 следует рассмотрение процессора 30 обработки запросов. Для активизации процессора 30 обработки запросы потоков данных из хранилища данных 18 могут осуществляться описанными ниже анализаторами на расширяемом языке запросов. Принцип доступа к процессору 30 обработки запросов в точности совпадает с принципом доступа к индексатору 26, т.е. инициатор запроса направляет запрос на обслуживание (в данном случае постановку задачи на расширяемом языке запросов) и получает поток данных из процессора 30 обработки запросов. Запрос может предполагать объединение нескольких потоков с использованием стандартных операций комбинационной логики, объединяющие потоковые данные (булевых операторов, таких как И и ИЛИ, операторов соединения баз данных, таких как внутреннее и внешнее соединения, операторов сортировки и операторов, пополняющих поток дополнительной информацией за счет, например, дополнения каждого универсального идентификатора объекта UEID в потоке значением определенного ключа). Язык запроса может соединять любые произвольные потоки.
Как упомянуто выше, уровень анализа данных системы 10 включает библиотеку 32 анализаторов, в которой хранятся реализованные программно анализаторы, которые взаимодействуют с API-интерфейсом 20 уровня сбора данных и, следовательно, с уровнем хранения данных. В типичном частном варианте изобретения библиотека 32 анализаторов включает анализатор 34 ссылок, выдающий ссылки на определенную страницу и/или со страницы, фильтр 36 спама, выявляющий спам в хранилище данных 18, фильтр 38 порнографии, выявляющий в хранилище данных 18 порнографические страницы, анализатор-классификатор 42, который классифицирует страницы на основе наличия на страницах последовательностей терминов, анализатор 44 географических данных, выявляющий на Web-странице любую географическую информацию, анализатор 46 корпораций, анализатор 48 таксономии, выдающий страницы заданной таксономической категории, анализатор 50 регулярных выражений, выдающий поток страниц, содержащих определенное регулярное выражение, и так далее.
Под "анализатором" или "элементом анализа данных" понимается механизм анализа, который на основе набора правил генерирует выходные данные, в частности - выходные данные, которые могут содержать один или несколько ключей, представляющих характеристики объекта. Такие правила могут быть определены эвристически и могут включать статистически обоснованные правила. В качестве примера, анализатор 38, реализующий функцию фильтра порнографии, при помощи техники анализа изображений может определять, содержит ли Web-страница порнографию, и присоединять к странице ключ и булево значение ключа: "порно = да" или "порно = нет". Для примера, в таком анализаторе порнографии могут использоваться принципы, описанные в патенте US 6295559 на имя компании IBM. Или же анализатор 46 корпораций на основе правил взаимосвязи слов, анализа URL-адресов или иным способом может определять, является ли определенная страница страницей какой-либо корпорации, и затем присоединять к такой странице ключ, указывающий на результат проведенного анализа. Опять же, в анализаторе, реализующем фильтр 36 спама, могут использоваться, например, принципы, описанные в патенте US 6266692 на имя компании IBM. Такой анализатор может присоединять к Web-страницам или сообщениям, получаемым по электронной почте, ключи, указывающие на то, являются ли они спамом. Далее, анализатор 44 географических данных может присоединять к Web-странице ключ, представляющий интервалы градусов широты и долготы, относящиеся к теме страницы или ее автору, используя правила для извлечения такой информации. В частном примере выполнения изобретения в основу работы анализатора географических данных могут быть положены принципы, описанные в патенте US 6285996 на имя компании IBM. Следует учитывать, что конкретные типы анализаторов и конкретные правила, используемые каждым анализатором, могут различаться, не сказываясь на работоспособности и объеме настоящего изобретения.
В любом случае анализаторы представляют собой модульные компоненты, которые имеют определенные спецификации входных и выходных данных. Они могут быть написаны на любом языке и могут занимать, например, от нескольких строк на простом языке Perl для нахождения ключевых слов до десятков тысяч (или более) строк кода для выполнения сложных распределенных операций. Крупные задачи могут быть разбиты на более мелкие части, каждая из которых может быть легко решена отдельным анализатором данных или его разработчиком. Получаемые промежуточные результаты можно легко просматривать, проверять и отлаживать, при этом они могут представлять: самостоятельный интерес для других разработчиков анализаторов. Таким образом, анализаторы представляют собой эквивалент объектно-ориентированного проектирования, реализованные в архитектуре обслуживания широкого круга запросов. Анализаторы специфицируются с точки зрения данных, обычно указываемых посредством рассматриваемых ниже ключей, которые должны присутствовать при начале их работы, и данных (в том числе других ключей), которые они создают в процессе успешной обработки данных.
В частности, в предпочтительном варианте изобретения анализатор может снабжаться работой (заданиями) из управляемой системой очереди работ на основе одной или нескольких зависимостей, определенных этим анализатором. В качестве примера, некий анализатор ("анализатор А"), заинтересованный в обработке страниц, содержащих указания определенных персоналий или определенных географических районов, может зарегистрировать свою зависимость от анализатора 44 географических данных и анализатора персоналий. Тогда очередь работ для анализатора А будет непрерывно обновляться за счет включения объектов, которые были обработаны анализатором географических данных и анализатором персоналий, на что указывают ключи, присоединенные к этим объектам в хранилище данных анализатором географических данных и анализатором персоналий, но пока еще не анализатором А. После обработки таких объектов анализатор А может присоединить к обработанным объектам собственный ключ или ключи, используя при этом - в том случае, если хранилище данных представляет собой базу данных - существующие таблицы объектов, либо создать новые объекты (при помощи соответствующих таблиц, если хранилище данных реализовано в форме базы данных), при этом каждый ключ представляет определенную характеристику объекта. В таком режиме работают анализаторы, извлекающие ссылки на конкретные виды продукции, торговые наименования, людей, отрасли промышленности, актеров и так далее.
С другой стороны, анализатор может не брать работы из очереди работ, а вместо этого зарегистрировать свои требования к свежести данных в описанной далее системе управления, определяющей то, как часто и в какой среде должен использоваться анализатор. Другие анализаторы, которые, например, осуществляют еженедельные суммарные подсчеты, могут запросить описанную ниже систему управления инициировать один или несколько экземпляров такого анализатора, чтобы исполнить еженедельное формирование итоговой суммарной таблицы или структуры данных, также используя в качестве входных данных объекты, к которым присоединены соответствующие ключи.
Таким образом, анализаторы считывают из хранилища данных 18 долговременные и достоверные потоки необработанного содержимого (т.н. контента), а также обработанные данные, созданные другими анализаторами. Эти анализаторы, а также по сути дела многие анализаторы системы 10 потребляют и обрабатывают данные. Две рассмотренные выше модели осуществления доступа к данным включают в себя произвольный доступ к конкретному объекту или множеству объектов и потоковый доступ к перечню объектов. В случае произвольного доступа в хранилище данных 18 анализатор просто запрашивает релевантные части соответствующего объекта, используя универсальный идентификатор объекта UEID. Для получения потока данных инициируется составление перечня объектов путем запроса данных из хранилища данных 18 с использованием индексатора 26 или процессора 30 обработки запросов.
Например, анализаторы с более сложными требованиями к данным могут обращаться к процессору 30 обработки запросов со сложными запросами, возможно предусматривающими необходимость получения доступа к множеству компонентов, при этом обычными способами осуществляется оптимизация запросов, и в ответ генерируются потоки данных. Такие запросы могут повлечь за собой соединение баз данных по множеству таблиц, создание справочных таблиц индексов, включая поиск текста, запросы интервалов значений, географические справочные таблицы и сложение в системе меньших наборов результатов из множества различных источников. Независимо от того, выведены ли перечни из индексатора 26 или процессора 30 обработки запросов, эти перечни обеспечивают постоянство существования объектов, а доступ к ним может осуществляться последовательно или параллельно - в зависимости от характера обработки.
Результаты обработки, осуществленной анализаторами, сохраняются в хранилище данных 18 с возможностью доступа к ним других анализаторов и конечных пользователей. Как указано выше, для записи данных в хранилище данных 18 с возможностью доступа к ним других анализаторов анализатор просто создает новые ключи и значения, которые следует присоединить к объекту, после чего выполняет операцию записи в память.
Результаты запроса конкретного клиента на получение информации, предоставляемой анализаторами согласно настоящему изобретению, могут быть представлены на уровне 52 представления данных. Результаты могут быть распечатаны или представлены в аудиовизуальной форме или иной форме по желанию. Описанными выше уровнями управляет уровень 54 подсистемы управления кластером, что более подробно описано ниже. Для облегчения ввода данных и ответа на запросы клиентами информации, клиентский интерфейс 56 при необходимости может получать доступ к API-интерфейсу 20 уровня сбора данных и клиентским базам данных 58.
В рассматриваемом предпочтительном варианте осуществления уровень 54 подсистемы управления планирует, инициирует, контролирует и регистрирует операции, происходящие в различных компонентах. Конечные приложения берут результаты из визуализированных таблиц, хранилища данных 18 или анализаторов, обрабатывающих запросы в режиме реального времени.
В частном предпочтительном варианте изобретения система 10 и уровень 54 подсистемы управления поддерживаются большим кластером (многомашинной вычислительной системой). Помимо управления анализаторами система управления 54 обнаруживает отказы и сбои аппаратного и программного обеспечения кластера и по определенной программе восстанавливает работоспособность системы после сбоев, соответствующим образом уведомляя системных администраторов. Уровень 54 подсистемы управления также обеспечивает функциональные возможности, такие как перемещение, выравнивание и планирование нагрузки для каждого компонента программного обеспечения.
Все события в системе 10 стекаются на один информационный сервер, который отслеживает состояние системы, ведет статистику, регистрацию и получает коды ошибок из приложений и компонентов инфраструктуры. События генерируются разнообразными источниками и включают в себя классы ошибок, используемые компонентами программного обеспечения кластера, событие базы данных DB2 и диспетчер регистрации, связанный с хранилищем данных 18, системные и сетевые компоненты контроля и так называемые наблюдающие агенты ("няньки" - "Nanny"), которые являются частью уровня 54 подсистемы управления и выполняются на соответствующих ЭВМ кластера.
Предпочтительно, чтобы наблюдающие агенты инициировали, прекращали и контролировали процессы и отслеживали ресурсы соответствующих ЭВМ, на которых такие агенты установлены. Они предпринимают и/или контролируют переброску информации, использование диска, памяти, процессора, ресурсов ядра (процессов, сокетов и т.д.) и управление вычислительным процессом, включая команды "запустить", "остановить", "уничтожить все". Наблюдающие агенты также получают информацию о состоянии от отдельных анализаторов, действующих на соответствующих ЭВМ, на которых они установлены, в том числе зарегистрированные сообщения, сообщения об ошибках, статистику, число ожидающих документов, число документов, обработанных в секунду, фактическую скорость потока документов, скорость обработки в байтах или объектах в секунду и другую информацию о состоянии, характерную для анализаторов.
На фиг.2 представлена общая логика работы описанной выше системы 10. На шаге 60 навигатор 12 осуществляет поиск во всемирной паутине 14, чтобы пополнить данными хранилище данных 18. При желании пополнение хранилища данных 18 данными из базы 24 данных может быть осуществлено на шаге 62 при помощи инструмента 22 сбора данных.
После пополнения хранилища данных 18 данными на шаге 64 по меньшей мере те из анализаторов, которые могут рассматриваться как анализаторы более низкого уровня (низшего уровня), осуществляют доступ к данным и обрабатывают данные, как это описано выше. Анализаторы более низкого уровня записывают результаты обработки обратно в хранилище данных 18. Например, анализаторы-фильтры, такие как фильтр 36 спама и фильтр 38 порно могут обрабатывать все Web-страницы, находящиеся в хранилище данных 18, и присоединять к соответствующим объектам соответствующие ключи, указывающие на то, является ли соответствующий сайт источником спама или порнографии. Кроме того, на каждой странице может быть активизирован удаляющий теги анализатор, который при обработке страницы удаляет элементы разметки языка гипертекстовой разметки (HTML), оставляя лишь необработанный текст, и затем присоединяет к каждому соответствующему объекту указывающий на это ключ "без тегов".
Далее на шаге 66 могут приниматься запросы клиентов на предоставление информации. В ответ на шаге 68 могут быть записаны дополнительные анализаторы более низкого уровня или созданы анализаторы более высокого уровня (или высшего уровня), если они необходимы, но еще не разработаны. Под анализаторами более высокого уровня могут пониматься анализаторы, которые устанавливают для себя зависимость от выходных данных других анализаторов, т.е. которые требуют для обработки объекты, тегированные ключами, выданными анализаторами более низкого уровня.
Примером анализатора или механизма анализа более высокого уровня может служить анализатор, отвечающий на вышеупомянутый вопрос "каково мнение наших клиентов в северо-западных штатах Тихоокеанского побережья об оздоровительной продукции нашего конкурента с точки зрения узнаваемости и ценности ее товарного знака?". Такой анализатор может установить, что ему требуются лишь страницы из северо-западных штатов Тихоокеанского побережья, на что указывает географический ключ, присоединяемый к объектам анализатором географических данных, и только при условии, что объект содержит название компании-конкурента, на что указывает ключ, присоединенный к объекту анализатором собственных имен. Множество таких зависимостей можно сформулировать на основе гипотез, при этом предполагается, что специалист, устанавливающий зависимости для такого анализатора, использует эвристический метод согласно своим знаниям и опыту и может не знать того, каким образом специалист, создавший, например, анализатор географических данных, пришел к такому решению. На шаге 70 клиенту сообщают результаты и выставляют ему счет на основе цены одного запроса или стоимости подписки.
На фиг.3 и 4 показана схема горизонтальных и вертикальных таблиц, которые могут использоваться, когда - в качестве частного примера осуществления изобретения - хранилище данных реализовано в виде СУБД, такой как DB2. На фиг.3 показана горизонтальная таблица 72, каждая строка 74 которой отображает какой-либо объект. В каждой строке имеется столбец 76 универсальных идентификаторов объектов UEID, столбец 78 меток времени (если они требуются) и множество столбцов 80 ключей. В отличие от горизонтальной таблицы, показанная на фиг.4 вертикальная таблица 82 имеет множество строк 84, в каждой из которых имеется один столбец 86 ключей, столбец 88 универсальных идентификаторов объектов UEID, столбец 90 кодов ключей кодов, в котором указан тип ключа, и столбец 92 значений ключей, в котором указано значение ключа, например, булево значение, значение интервала и т.д. При необходимости может быть добавлен столбец 94 меток времени, в котором указано время ввода соответствующих данных в таблицу.
Из вышесказанного должно быть понятно, что хранилище данных 18 посредством реализованных в виде базы данных таблиц 72, 82 абстрагируется от формата реальных данных, что позволяет принимать решение относительно того, таблицы какого типа использовать для конкретного объекта, чтобы повысить эффективность тех схем доступа, которые, как предполагается, являются характерными для такого объекта. Предпочтительно, чтобы хранилище данных 18 также абстрагировалось от действующих в DB2 ограничений по длине строки, автоматически используя объекты с переменным числом символов (VARCHAR) или крупных двоичных объектов (BLOB) для запоминания значений, длина которых превышает максимальную длину строки. Для облегчения программистам прямого доступа к базе данных DB2 для написания кода, не зависящего от физического размещения данных, в предлагаемой системе предусмотрены API-интерфейсы.
Например, навигатор 12 записывает ключ Crawl:Content (поиск содержимого), ключ Crawl: Header (поиск заголовка) и ряд ключей извлеченных метаданных, таких как URL-адрес, данные задержки выборки, последняя дата изменения страницы, данные сервера, код возврата HTTP и так далее. Если хранилище данных 18 реализовано в виде базы данных, вся информация такого рода записывается в одну горизонтальную таблицу, в которой на каждый ключ навигатора предусмотрен один столбец. Записывается информация только навигатором 12, однако считывать ее может любой анализатор, имеющий разрешение. Анализаторы, которым требуется содержание страницы, должны лишь запросить значение ключа Crawl:Content, а хранилище данных 18 отображает соответствующую таблицу.
Для повышения эффективности таких вычислений в хранилище данных 18 при желании может быть создан словарь данных, содержащий информацию об установлении соответствия между определенным ключом и реальным местоположением в реляционной базе данных. Кроме того, в нем содержится вспомогательная информация, такая как тип и владелец ключа. Анализаторы, которые записывают множество ключей, могут записывать такие ключи в особую горизонтальную таблицу, при этом за одну операцию обновления строки может быть записано множество ключей.
Как было сказано выше, несколько анализаторов, в том числе навигатор 12, наиболее естественным образом работают на страничном уровне, создавая и потребляя постраничную информацию. Вместе с тем, другие анализаторы могут работать и с объектами, отличными от необработанных страниц. В частности, одни анализаторы, такие как фильтр 36 спама на основе ссылок, работают с целыми Web-сайтами, определяя, является ли весь сайт источником спама. Другие анализаторы могут работать с фразами, собственными именами, названиями компаний или названиями населенных пунктов, ресторанов, именами предпринимателей и т.д. Каждая такая категория данных представляет отдельный объект и для нее требуется собственный набор горизонтальных и вертикальных таблиц (или иная структура хранения данных) в хранилище данных 18. Соответственно, подобно тому, как навигатор 12 записывает данные в горизонтальную таблицу страничного объекта, находящегося в базе данных, анализатор 46 корпораций способен заполнять горизонтальную таблицу в отношении корпораций. Другие анализаторы, которые должны присоединять пары "ключ-значение" к корпорациям, могут получать доступ к ключам, присоединенным к объектам анализатором 46 корпораций, и затем записывать другие ключи в другую структуру данных объекта-корпорации.
На фиг.5 показана конкретная логическая блок-схема, применимая в том случае, когда на шаге 96 из навигатора 12 поступает Web-страница. На шаге 98 может быть активизирован удаляющий теги анализатор, который при обработке странице на шаге 100 удаляет разметку HTML, оставляя лишь необработанный текст, и присоединяет к объекту ключ "без тегов", содержащий соответствующее указание.
На шаге 102 объект в соответствии с вышеизложенными принципами может поступить в другие анализаторы, для чего система управления 54 на основе ключа "без тега" доставляет объект другим таким анализаторам. На шаге 104 эти другие анализаторы обрабатывают характеризующие объект данные и могут присоединять собственные ключи к элементам структуры данных объекта, например, и в горизонтальной таблице, представляющей объект, и в соответствующей вертикальной таблице, отображающей ключ, если хранилище данных реализовано в виде базы данных. Некоторые анализаторы также могут извлекать информацию, например, название корпорации, например, из страничного объекта и создавать структуры хранения дополнительных данных объекта (в виде файлов или таблиц), отображающие такие объекты, например, объекты-корпорации.
После завершения начальной обработки данных анализаторами осуществляется переход к обозначенному ромбом шагу 106 принятия решения, на котором устанавливается, запрашивались ли объекты с заданными ключами какими-либо еще анализаторами, например, n-м анализатором. Если объект содержит все ключи, затребованные n-м анализатором в качестве входных данных, на шаге 108 n-му анализатору предоставляется такой объект, например, путем помещения объекта в очередь работ анализатора. Затем n-й анализатор на шаге 110 осуществляет доступ к объекту путем, например, обращения к своей очереди работ, чтобы осуществить обработку объекта и/или обработку характеризующих объект данных. На шаге 112 n-ный анализатор выдает собственный ключ или ключи и вводит такие ключи в структуры данных объекта подходящим образом для связывания ключа или ключей с этим объектом. Далее на шаге 114 анализатор клиента может активизировать другие анализаторы и/или получить доступ к объектам соответствующим образом для создания базы данных, содержащей информацию, которую ищет клиент системы.
Описанная система 10 может применяться для решения множества конкретных задач в интересах клиентов. Одной из таких задач является создание ссылок на объекты/углубленных комментариев к объектам (action link/drill note), когда в систему поступает документ, и анализаторы системы на основе определенных правил выявляют в документе важные "объекты" или сущности (например, людей, места, события). Затем анализатор-компилятор системы 10 составляет досье или совокупность информации в иной форме о каждом из таких объектов. Далее такое досье (или его аналог) связывают с объектом в исходном документе.
Досье или его аналог может представлять собой мини-портал для такого объекта, например, может выглядеть как специальный справочник типа Yahoo для такого объекта. Соответственно, если объектом является какой-либо человек, для него могут быть созданы подкатегории, содержащие адреса, имеющие отношение к такому человеку, имена людей, имеющих отношение к такому человеку, местоположения, имеющие отношение к такому человеку, области деятельности, имеющие отношение к такому человеку, публикации о таком человеке и т.д. Выбор объектов для создания ссылок осуществляет анализатор-компилятор, предпочтительно, в соответствии с функцией перестраиваемого предпочтения или по иному правилу, которое может быть определено эвристически.
Другим частным примером применения системы 10 служит прикладная программа "поиска и формирования ссылок на правовые отношения", одним из компонентов которого является упомянутая выше система создания ссылок на объекты/углубленных комментариев к объектам и которое также осуществляет поиск вероятных связей между "объектами", при этом объекты хранятся в хранилище данных 18, а по меньшей мере некоторые искомые элементы связей могут в нем отсутствовать. В качестве примера, рассмотрим судебное дело, в котором в структуре данных объектов-персоналий указаны Джон Доу и Джейн Смит (объекты-персоналии), но данные, складированные в хранилище данных 18, не указывают на явную взаимосвязь между ними. Анализатор прикладной программы поиска и формирования ссылок на правовые отношения идентифицирует оба объекта как важные на основе набора определенных правил, после чего выясняет, существуют ли другие объекты, через эти два человека которые могут быть взаимосвязаны. Например, может оказаться, что оба названных человека являются членами правления какой-либо компании или благотворительной организации, могли совместно опубликовать какой-либо доклад, могли упоминаться в прессе как коллеги или партнеры по какой-либо сделке и т.д. В таких случаях связующий объект (например, компания, членами правления которой Джон и Джейн одновременно являются, доклад, который они опубликовали совместно) может рассматриваться как "соединяющий объект" и быть включен в запросы на выявление скрытых взаимосвязей.
Следовательно, фаза выявления скрытых взаимосвязей судебного дела может быть расширена и предусматривать не только запрос документов, имеющих непосредственное отношение к определенным темам, людям или событиям, но также поиск документов, релевантных для "соединяющих объектов", через внешние источники данных.
В другом частном примере возможностей использования системы 10 она реализована в виде прикладной программы по маркетингу конкурирующих товаров. В систему 10 может быть введена информация о ряде товаров и могут быть созданы анализаторы для однозначного выявления упоминаний товара и классификации таких упоминаний на основе контекста упоминания. Например, чтобы отличить моющее средство Tide от приливов (tide - англ.) как явления природы. Для классификации контекста упоминаний также используется анализатор-классификатор/профилировщик, который при классификации/определении характеристик упоминания, основанной на множестве ранее классифицированных/профилированных упоминаний, предпочтительно использует статистические средства. Кроме того, для определения соответствующих географических связей, имеющих отношение к источнику, в котором встречается упоминание, может использоваться анализатор географических данных. Затем рассматриваемая прикладная программа может быть настроена для выдачи точно дифференцированной меры "общественного внимания" или "хождения слухов" вокруг определенного ряда товаров по сравнению с "общественным вниманием" или "хождения слухов", которые вызывают конкурентные изделия. Такая информация может быть отображена на карте, например, различными цветами или уровнями яркости, соответствующими уровню "общественного внимания" или "хождения слухов". Она также может быть отслежена во времени, что помогает выявлять заслуживающие внимания положительные или отрицательные тенденции. В систему также могут быть введены сегментированные по географическому или демографическому признаку данные, отображающие затраты на рекламу или иную маркетинговую деятельность, имеющую отношение к изделию, а анализатор осуществляет проверку прямого соотношения между такой деятельности и "общественным вниманием" или "хождением слухов", за счет чего создается определенный критерий эффективности маркетинговой деятельности.
Хотя подробно рассмотренные выше основанная на знаниях система извлечения информации из данных и хранилище данных для нее способны в полной мере решать описанные выше задачи изобретения, следует иметь в виду, что это лишь предпочтительный на данный момент вариант осуществления изобретения, характеризующий широкое по своей сущности предложенное техническое решение. Под патентные притязания на настоящее изобретение целиком подпадают и другие варианты осуществления, которые могут быть очевидными для специалистов, и объем этих притязаний не ограничен ничем, кроме формулы изобретения, в которой упоминание какого-либо элемента в единственном числе, если только это не указано в прямой форме, означает не "один единственный", а "один или несколько". Все конструктивные и функциональные аналоги элементов описанного выше предпочтительного варианта осуществления, которые известны или станут известными впоследствии специалистам в данной области техники, считаются входящими в объем настоящих патентных притязаний. Кроме того, любое устройство или способ считаются входящими в объем настоящих патентных притязаний, даже если такое устройство или способ не призван решать абсолютно все задачи, которые должно решать настоящее изобретение. Более того, ни один элемент, компонент или шаг осуществления способа, упомянутый в настоящем описании, не предназначен для передачи в общественное пользование, независимо от того, упомянут ли в прямой форме такой элемент, компонент или шаг осуществления способа в формуле изобретения.

Claims (15)

1. Вычислительная система для интеллектуального анализа данных, включающая в себя по меньшей мере одно хранилище данных, в котором содержатся объекты, и следующие программные средства:
по меньшей мере один механизм анализа более низкого уровня, взаимодействующий с хранилищем данных и генерирующий в качестве своих выходных данных по меньшей мере один ключ, представляющий соответствующие характеристики объекта, с которым этот ключ соотнесен, на основе первого набора правил, реализованных в механизме анализа более низкого уровня;
по меньшей мере один механизм анализа более высокого уровня, принимающий выходные данные механизма анализа более низкого уровня и генерирующий в качестве своих выходных данных по меньшей мере один ключ, представляющий соответствующие характеристики объекта, с которым этот ключ соотнесен, на основе второго набора правил, реализованных в механизме анализа более высокого уровня, причем указанные выходные данные присоединяются к объектам, содержащимся в хранилище данных; и
индексатор, связанный с хранилищем данных и содержащий индексы ключей и значения ключей, имеющихся в хранилище данных, причем генерирование ключей в механизмах анализа и индексирование в индексаторе производятся раздельно.
2. Система по п.1, в которой в хранилище данных имеются вертикальные и горизонтальные таблицы, причем ввод данных в вертикальные таблицы осуществляется с использованием одного из ключей, а ввод данных в горизонтальные таблицы осуществляется с использованием идентификатора объекта.
3. Система по п.1, в которой хранилище данных представляет собой реляционную базу данных.
4. Система по п.1, в которой хранилище данных представляет собой файловую систему.
5. Система по п.4, содержащая также быстродействующую кэш-память на полупроводниках, связанную с индексатором и хранилищем данных.
6. Система по п.5, содержащая также процессор обработки запросов, имеющий доступ к одному или нескольким из следующих элементов: кэш-памяти, индексатору и хранилищу данных, для выполнения запросов по меньшей мере от одного механизма анализа.
7. Система по п.6, содержащая также по меньшей мере одну очередь работ, связанную по меньшей мере с одним механизмом анализа.
8. Система по п.1, в которой объекты идентифицируются посредством идентификаторов, кодирующих тип объекта.
9. Система по п.1, в которой индексатор содержит булевы индексы, хранящие значения "да" или "нет" на запросы по форме "имеет ли ключ k значение v?".
10. Система по п.1, в которой индексатор содержит интервальные индексы, хранящие интервалы значений ключей.
11. Система по п.1, в которой индексатор содержит индексы текста.
12. Система по п.1, в которой индексатор содержит индексы, а хранилище данных - таблицы, в которых отсутствует указание на местоположение конкретного наименования или текста в объекте, а имеется лишь указание на наличие у объекта определенной характеристики.
13. Система по п.1, в которой индексатор указывает на наличие в Web-документе определенного текстового элемента и обеспечивает интерфейс прикладного программирования (API) для поиска документов по ключевым словам.
14. Система по п.1, в которой индексатор содержит определенные ключи, позволяющие осуществлять запросы в отношении конкретного объекта с применением булевых операторов.
15. Способ хранения данных для поддержки системы интеллектуального анализа данных, заключающийся в том, что
по меньшей мере в одном хранилище данных сохраняют объекты,
взаимодействуют с хранилищем данных посредством по меньшей мере одного первого механизма анализа,
на основе первого набора правил, соответствующего первому механизму анализа, генерируют по меньшей мере один первый ключ, представляющий соответствующие характеристики объекта, с которым первый ключ соотнесен,
направляют первый ключ по меньшей мере в один второй механизм анализа,
на основе второго набора правил, соответствующего второму механизму анализа, генерируют по меньшей мере один второй ключ, представляющий соответствующие характеристики объекта, с которым второй ключ соотнесен,
присоединяют первый и второй ключи к объектам и
индексируют ключи и значения ключей, имеющиеся в хранилище данных, причем генерирование ключей в механизмах анализа и индексирование проводят раздельно.
RU2004136278/09A 2002-05-08 2003-04-28 Хранилище данных для основанной на знаниях системы извлечения информации из данных RU2297665C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/142,673 US6993534B2 (en) 2002-05-08 2002-05-08 Data store for knowledge-based data mining system
US10/142,673 2002-05-08

Publications (2)

Publication Number Publication Date
RU2004136278A RU2004136278A (ru) 2005-08-20
RU2297665C2 true RU2297665C2 (ru) 2007-04-20

Family

ID=29399964

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2004136278/09A RU2297665C2 (ru) 2002-05-08 2003-04-28 Хранилище данных для основанной на знаниях системы извлечения информации из данных

Country Status (9)

Country Link
US (1) US6993534B2 (ru)
EP (1) EP1502209A1 (ru)
JP (1) JP2005530224A (ru)
KR (1) KR100745483B1 (ru)
CN (1) CN1703696A (ru)
AU (1) AU2003224310A1 (ru)
IL (1) IL164723A (ru)
RU (1) RU2297665C2 (ru)
WO (1) WO2003096220A1 (ru)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2453919C1 (ru) * 2011-03-28 2012-06-20 Закрытое акционерное общество "Лаборатория Касперского" Способ выявления спама в растровом изображении
RU2459242C1 (ru) * 2011-08-09 2012-08-20 Олег Александрович Серебренников Способ создания и использования рекурсивного индекса поисковых машин
RU2471227C2 (ru) * 2007-06-22 2012-12-27 Майкрософт Корпорейшн Содействуемая обслуживающим узлом и одноранговая синхронизация
RU2493590C2 (ru) * 2007-08-27 2013-09-20 Лоджинд Б.В. Способ и система для службы контекста данных
RU2503058C2 (ru) * 2008-06-13 2013-12-27 Майкрософт Корпорейшн Оптимизация формата поискового индекса
RU2523051C1 (ru) * 2012-11-28 2014-07-20 Алексей Александрович Корзин Автоматизированная система мониторинга и управления сферой физической культуры и спорта региона
RU2598808C2 (ru) * 2010-11-16 2016-09-27 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Способы для аннотирования изображений вида улицы контекстной информацией
US9521193B2 (en) 2009-08-21 2016-12-13 Samsung Electronics Co., Ltd. Method and apparatus for providing and receiving contents via network, method and apparatus for backing up data via network, backup data providing device, and backup system
RU2611967C2 (ru) * 2011-06-14 2017-03-01 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Расширение ответов на обращения к базе данных, используя данные из внешних источников данных
RU2639940C2 (ru) * 2013-10-18 2017-12-25 Нью Йорк Эйр Брэйк, ЛЛСи Динамически измеряемая распределенная гетерогенная платформа реляционной базы данных
RU2666287C1 (ru) * 2017-03-31 2018-09-06 Александр Олегович Попов Способ разработки, хранения и использования компилированных в бинарное представление программ в таблицах баз данных
US10540349B2 (en) 2011-06-14 2020-01-21 Microsoft Technology Licensing, Llc Recommending data enrichments
US10721220B2 (en) 2011-06-14 2020-07-21 Microsoft Technology Licensing, Llc Data custodian and curation system

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7779117B2 (en) 2002-05-31 2010-08-17 Aol Inc. Monitoring digital images
US7305436B2 (en) * 2002-05-17 2007-12-04 Sap Aktiengesellschaft User collaboration through discussion forums
US7779247B2 (en) * 2003-01-09 2010-08-17 Jericho Systems Corporation Method and system for dynamically implementing an enterprise resource policy
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US7792828B2 (en) * 2003-06-25 2010-09-07 Jericho Systems Corporation Method and system for selecting content items to be presented to a viewer
US8042112B1 (en) 2003-07-03 2011-10-18 Google Inc. Scheduler for search engine crawler
US7725452B1 (en) * 2003-07-03 2010-05-25 Google Inc. Scheduler for search engine crawler
GB2409916A (en) * 2003-07-04 2005-07-13 Intellidos Ltd Joining query templates to query collated data
US8655911B2 (en) * 2003-08-18 2014-02-18 Oracle International Corporation Expressing frequent itemset counting operations
US7962526B2 (en) 2003-08-18 2011-06-14 Oracle International Corporation Frequent itemset counting using clustered prefixes and index support
US7720790B2 (en) 2003-08-18 2010-05-18 Oracle International Corporation Dynamic selection of frequent itemset counting technique
US7756853B2 (en) * 2003-08-18 2010-07-13 Oracle International Corporation Frequent itemset counting using subsets of bitmaps
US20050055231A1 (en) * 2003-09-08 2005-03-10 Lee Geoffrey C. Candidate-initiated background check and verification
US7552109B2 (en) * 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US7441044B2 (en) * 2003-11-05 2008-10-21 Overture Services, Inc. Countrytagging
US8301702B2 (en) * 2004-01-20 2012-10-30 Cloudmark, Inc. Method and an apparatus to screen electronic communications
US7349901B2 (en) 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US7428530B2 (en) * 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
US7987172B1 (en) 2004-08-30 2011-07-26 Google Inc. Minimizing visibility of stale content in web searching including revising web crawl intervals of documents
US7707498B2 (en) 2004-09-30 2010-04-27 Microsoft Corporation Specific type content manager in an electronic document
US7383253B1 (en) * 2004-12-17 2008-06-03 Coral 8, Inc. Publish and subscribe capable continuous query processor for real-time data streams
US7945590B2 (en) 2005-01-06 2011-05-17 Microsoft Corporation Programmability for binding data
US8396886B1 (en) 2005-02-03 2013-03-12 Sybase Inc. Continuous processing language for real-time data streams
JP4232746B2 (ja) * 2005-02-24 2009-03-04 ソニー株式会社 再生装置、表示制御方法
JP4815887B2 (ja) * 2005-06-17 2011-11-16 日産自動車株式会社 情報処理装置及び情報処理用表示装置
US20070016580A1 (en) * 2005-07-15 2007-01-18 International Business Machines Corporation Extracting information about references to entities rom a plurality of electronic documents
US7953696B2 (en) 2005-09-09 2011-05-31 Microsoft Corporation Real-time synchronization of XML data between applications
US7730013B2 (en) * 2005-10-25 2010-06-01 International Business Machines Corporation System and method for searching dates efficiently in a collection of web documents
US20090112583A1 (en) * 2006-03-07 2009-04-30 Yousuke Sakao Language Processing System, Language Processing Method and Program
US7739268B2 (en) * 2006-03-29 2010-06-15 Microsoft Corporation Optimization of performing query compilations
US20070266036A1 (en) * 2006-05-15 2007-11-15 Microsoft Corporation Unbounded Redundant Discreet Fact Data Store
WO2008002937A2 (en) * 2006-06-26 2008-01-03 Sourcelabs, Inc. Efficient software diagnostics
US7735009B2 (en) * 2006-07-27 2010-06-08 International Business Machines Corporation Conversion of plain text to XML
US7627432B2 (en) 2006-09-01 2009-12-01 Spss Inc. System and method for computing analytics on structured data
JP5264740B2 (ja) 2006-10-05 2013-08-14 スプランク インコーポレイテッド 時系列検索エンジン
WO2008046098A2 (en) * 2006-10-13 2008-04-17 Move, Inc. Multi-tiered cascading crawling system
AU2007314123B2 (en) * 2006-11-03 2009-09-03 Appen Limited Email document parsing method and apparatus
WO2008065593A1 (en) * 2006-11-29 2008-06-05 Koninklijke Philips Electronics N.V. Filter by example
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
US7917507B2 (en) 2007-02-12 2011-03-29 Microsoft Corporation Web data usage platform
US8429185B2 (en) * 2007-02-12 2013-04-23 Microsoft Corporation Using structured data for online research
US8046744B1 (en) 2007-04-27 2011-10-25 Sybase, Inc. System and method for measuring latency in a continuous processing system
US7720883B2 (en) 2007-06-27 2010-05-18 Microsoft Corporation Key profile computation and data pattern profile computation
WO2009004540A2 (en) * 2007-07-04 2009-01-08 Philips Intellectual Property & Standards Gmbh Network and method for initializing a trust center link key
CN100470549C (zh) * 2007-08-21 2009-03-18 南京新恺拓网络技术有限公司 一种表格定位的数据挖掘方法
US9135340B2 (en) * 2007-09-12 2015-09-15 Datalaw, Inc. Research system and method with record builder
US8146099B2 (en) * 2007-09-27 2012-03-27 Microsoft Corporation Service-oriented pipeline based architecture
KR100907283B1 (ko) * 2007-10-31 2009-07-13 연세대학교 산학협력단 지속적으로 발생되는 데이터 객체들로 구성되는 비한정적데이터 집합인 데이터 스트림으로부터 클러스터를 찾는방법 및 장치
US7962507B2 (en) * 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
US9542436B2 (en) * 2009-02-09 2017-01-10 The Boeing Company Employing associative memory for enhanced lifecycle management
CN105373613B (zh) * 2009-04-16 2019-05-14 泰必高软件公司 基于策略的储存结构分布
US8407241B2 (en) * 2009-06-12 2013-03-26 Microsoft Corporation Content mesh searching
RU2518675C2 (ru) * 2009-08-21 2014-06-10 Самсунг Электроникс Ко., Лтд. Способ и устройство для предоставления контента через сеть, способ и устройство для приема контента через сеть, способ и устройство для резервного копирования данных через сеть, устройство предоставления данных резервного копирования и система резервного копирования
CN102262630A (zh) * 2010-05-31 2011-11-30 国际商业机器公司 进行扩展化搜索的方法和装置
US8793215B2 (en) 2011-06-04 2014-07-29 Recommind, Inc. Systems and methods for publishing datasets
US8543582B1 (en) 2011-08-26 2013-09-24 Google Inc. Updateable metadata for media content
US9235803B2 (en) * 2012-04-19 2016-01-12 Microsoft Technology Licensing, Llc Linking web extension and content contextually
US20140278983A1 (en) * 2013-03-15 2014-09-18 Microsoft Corporation Using entity repository to enhance advertisement display
US10318541B2 (en) 2013-04-30 2019-06-11 Splunk Inc. Correlating log data with performance measurements having a specified relationship to a threshold value
US10353957B2 (en) 2013-04-30 2019-07-16 Splunk Inc. Processing of performance data and raw log data from an information technology environment
US10019496B2 (en) 2013-04-30 2018-07-10 Splunk Inc. Processing of performance data and log data from an information technology environment by using diverse data stores
US10346357B2 (en) 2013-04-30 2019-07-09 Splunk Inc. Processing of performance data and structure data from an information technology environment
US10614132B2 (en) 2013-04-30 2020-04-07 Splunk Inc. GUI-triggered processing of performance data and log data from an information technology environment
US10997191B2 (en) 2013-04-30 2021-05-04 Splunk Inc. Query-triggered processing of performance data and log data from an information technology environment
US10225136B2 (en) 2013-04-30 2019-03-05 Splunk Inc. Processing of log data and performance data obtained via an application programming interface (API)
JP2016170750A (ja) 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
US20180089316A1 (en) 2016-09-26 2018-03-29 Twiggle Ltd. Seamless integration of modules for search enhancement
CN107703383A (zh) * 2017-09-21 2018-02-16 国网上海市电力公司 一种信息采集***故障诊断知识库的建立方法
US20210166183A1 (en) * 2018-05-23 2021-06-03 Yroo Inc. Method and apparatus for decentralized information mining of online content
CN109325201A (zh) 2018-08-15 2019-02-12 北京百度网讯科技有限公司 实体关系数据的生成方法、装置、设备及存储介质
RU2711721C1 (ru) * 2019-03-26 2020-01-21 Федеральное Государственное Унитарное Предприятие "Всероссийский Научно-Исследовательский Институт Автоматики Им.Н.Л.Духова" (Фгуп "Внииа") Система и способ организации электронного архива технической документации
CN111522911B (zh) * 2020-04-16 2023-04-14 创新奇智(青岛)科技有限公司 实体链接方法、装置、设备及存储介质
US20230028044A1 (en) * 2021-07-23 2023-01-26 International Business Machines Corporation Environment change management and risk analysis
US11947536B2 (en) * 2022-05-26 2024-04-02 International Business Machines Corporation Identifying and processing poly-process natural language queries

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737592A (en) * 1995-06-19 1998-04-07 International Business Machines Corporation Accessing a relational database over the Internet using macro language files
EP0797161A3 (en) 1996-03-22 1998-05-27 Pilot Software Inc Computer system and computerimplemented process for applying database segment definitions to a database
US6148289A (en) * 1996-05-10 2000-11-14 Localeyes Corporation System and method for geographically organizing and classifying businesses on the world-wide web
US6134555A (en) * 1997-03-10 2000-10-17 International Business Machines Corporation Dimension reduction using association rules for data mining application
US6047284A (en) * 1997-05-14 2000-04-04 Portal Software, Inc. Method and apparatus for object oriented storage and retrieval of data from a relational database
US6038668A (en) * 1997-09-08 2000-03-14 Science Applications International Corporation System, method, and medium for retrieving, organizing, and utilizing networked data
US6799174B2 (en) * 1997-09-08 2004-09-28 Science Applications International Corporation Retrieving, organizing, and utilizing networked data using databases
CA2304517A1 (en) * 1997-09-26 1999-04-08 Robert A. Huebner Object model mapping and runtime engine for employing relational database with object oriented software
US6092064A (en) * 1997-11-04 2000-07-18 International Business Machines Corporation On-line mining of quantitative association rules
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6330563B1 (en) * 1999-04-23 2001-12-11 Microsoft Corporation Architecture for automated data analysis
US6839680B1 (en) * 1999-09-30 2005-01-04 Fujitsu Limited Internet profiling
DE19963123B4 (de) 1999-12-24 2004-09-16 Deutsche Telekom Ag Analytisches Informationssystem
US6606659B1 (en) * 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
US6430553B1 (en) * 2000-03-22 2002-08-06 Exactone.Com, Inc. Method and apparatus for parsing data
US20020091681A1 (en) * 2000-04-03 2002-07-11 Jean-Yves Cras Report then query capability for a multidimensional database model
US6768986B2 (en) * 2000-04-03 2004-07-27 Business Objects, S.A. Mapping of an RDBMS schema onto a multidimensional data model
US20020049773A1 (en) * 2000-05-19 2002-04-25 Jaramillo Kristin Madonna Method of providing a reference standard within a web site on an internet
US6941557B1 (en) * 2000-05-23 2005-09-06 Verizon Laboratories Inc. System and method for providing a global real-time advanced correlation environment architecture
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
US6754672B1 (en) * 2000-09-13 2004-06-22 American Management Systems, Inc. System and method for efficient integration of government administrative and program systems
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
WO2002052452A2 (en) * 2000-12-22 2002-07-04 Merchant & Gould P.C. Litigation management system and method
US6779122B2 (en) 2000-12-26 2004-08-17 Intel Corporation Method and apparatus for executing a long latency instruction to delay the restarting of an instruction fetch unit
US6839707B2 (en) * 2001-01-17 2005-01-04 General Electric Company Web-based system and method for managing legal information
US7057993B2 (en) * 2001-01-29 2006-06-06 Eastman Kodak Company Copy protection using multiple security levels on a programmable CD-ROM
US6684206B2 (en) * 2001-05-18 2004-01-27 Hewlett-Packard Development Company, L.P. OLAP-based web access analysis method and system
US6769016B2 (en) * 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US20020156779A1 (en) * 2001-09-28 2002-10-24 Elliott Margaret E. Internet search engine

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2471227C2 (ru) * 2007-06-22 2012-12-27 Майкрософт Корпорейшн Содействуемая обслуживающим узлом и одноранговая синхронизация
RU2493590C2 (ru) * 2007-08-27 2013-09-20 Лоджинд Б.В. Способ и система для службы контекста данных
US9070172B2 (en) 2007-08-27 2015-06-30 Schlumberger Technology Corporation Method and system for data context service
RU2503058C2 (ru) * 2008-06-13 2013-12-27 Майкрософт Корпорейшн Оптимизация формата поискового индекса
US8914380B2 (en) 2008-06-13 2014-12-16 Microsoft Corporation Search index format optimizations
US9521193B2 (en) 2009-08-21 2016-12-13 Samsung Electronics Co., Ltd. Method and apparatus for providing and receiving contents via network, method and apparatus for backing up data via network, backup data providing device, and backup system
US10389720B2 (en) 2009-08-21 2019-08-20 Samsung Electronics Co., Ltd. Method and apparatus for providing and receiving contents via network, method and apparatus for backing up data via network, backup data providing device, and backup system
US10291618B2 (en) 2009-08-21 2019-05-14 Samsung Electronics Co., Ltd. Method and apparatus for providing and receiving contents via network, method and apparatus for backing up data via network, backup data providing device, and backup system
US10200373B2 (en) 2009-08-21 2019-02-05 Samsung Electronics Co., Ltd. Method and apparatus for providing and receiving contents via network, method and apparatus for backing up data via network, backup data providing device, and backup system
RU2598808C2 (ru) * 2010-11-16 2016-09-27 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Способы для аннотирования изображений вида улицы контекстной информацией
RU2453919C1 (ru) * 2011-03-28 2012-06-20 Закрытое акционерное общество "Лаборатория Касперского" Способ выявления спама в растровом изображении
RU2611967C2 (ru) * 2011-06-14 2017-03-01 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Расширение ответов на обращения к базе данных, используя данные из внешних источников данных
US10540349B2 (en) 2011-06-14 2020-01-21 Microsoft Technology Licensing, Llc Recommending data enrichments
US10721220B2 (en) 2011-06-14 2020-07-21 Microsoft Technology Licensing, Llc Data custodian and curation system
RU2459242C1 (ru) * 2011-08-09 2012-08-20 Олег Александрович Серебренников Способ создания и использования рекурсивного индекса поисковых машин
RU2523051C1 (ru) * 2012-11-28 2014-07-20 Алексей Александрович Корзин Автоматизированная система мониторинга и управления сферой физической культуры и спорта региона
RU2639940C2 (ru) * 2013-10-18 2017-12-25 Нью Йорк Эйр Брэйк, ЛЛСи Динамически измеряемая распределенная гетерогенная платформа реляционной базы данных
RU2666287C1 (ru) * 2017-03-31 2018-09-06 Александр Олегович Попов Способ разработки, хранения и использования компилированных в бинарное представление программ в таблицах баз данных

Also Published As

Publication number Publication date
JP2005530224A (ja) 2005-10-06
US6993534B2 (en) 2006-01-31
AU2003224310A1 (en) 2003-11-11
IL164723A (en) 2009-11-18
CN1703696A (zh) 2005-11-30
IL164723A0 (en) 2005-12-18
RU2004136278A (ru) 2005-08-20
EP1502209A1 (en) 2005-02-02
WO2003096220A1 (en) 2003-11-20
US20030212699A1 (en) 2003-11-13
KR100745483B1 (ko) 2007-08-02
KR20040101425A (ko) 2004-12-02

Similar Documents

Publication Publication Date Title
RU2297665C2 (ru) Хранилище данных для основанной на знаниях системы извлечения информации из данных
US7010526B2 (en) Knowledge-based data mining system
US8214391B2 (en) Knowledge-based data mining system
US11809432B2 (en) Knowledge gathering system based on user's affinity
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
Chakrabarti et al. Focused crawling: a new approach to topic-specific Web resource discovery
US8260774B1 (en) Personalization search engine
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
Li [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm
Stojanovic et al. ONTOLOGER: a system for usage-driven management of ontology-based information portals
Ding et al. On-tourism: semantic e-tourism portal
Zhong et al. Efficient multi-event monitoring using built-in search engines
Gupta et al. Prospective terms based architecture for migrating crawler
Pujeri et al. Constraint based frequent pattern mining for generalized query templates from web log
Haigang Study of Application of Web Mining Techniques in E-Business
PATHAK et al. WEB PATTERN ANALYSIS USING PARTITIONING ALGORITHM IN HYPERLINK STRUCTURE
Rajdeepa et al. An Analysis of Web Mining and its types besides Comparison of Link Mining Algorithms in addition to its specifications
Zhang et al. Collective intelligence-based web page search: Combining folksonomy and link-based ranking strategy
Rumetshofer et al. Multi-level Data Mining-One way to sophisticated Web-based applications.
Chakrabarti et al. Indian Institute of Technology FX Palo Alto Laboratory IBM Almaden Research Center Bombay 400 076 3400 Hillview Ave, Bldg 4 650 Harry Rd
Htay et al. International Journal of Engineering Technology Research & Management
Fancy et al. A Review on Basics in Web Mining
Eunaicy et al. An Analysis on Recent Reviews Pertaining to Web Mining and Its Application Domains
Havaldar et al. Construction and Compression of the Social Inverted Index for Multiple Social Tagging Systems
Sane et al. Research on Web Data Mining

Legal Events

Date Code Title Description
TK4A Correction to the publication in the bulletin (patent)

Free format text: AMENDMENT TO CHAPTER -FG4A- IN JOURNAL: 11-2007 FOR TAG: (72)

MM4A The patent is invalid due to non-payment of fees

Effective date: 20150429