RU2443015C2 - Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением - Google Patents

Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением Download PDF

Info

Publication number
RU2443015C2
RU2443015C2 RU2009103140/08A RU2009103140A RU2443015C2 RU 2443015 C2 RU2443015 C2 RU 2443015C2 RU 2009103140/08 A RU2009103140/08 A RU 2009103140/08A RU 2009103140 A RU2009103140 A RU 2009103140A RU 2443015 C2 RU2443015 C2 RU 2443015C2
Authority
RU
Russia
Prior art keywords
asset
computer
document
query
search
Prior art date
Application number
RU2009103140/08A
Other languages
English (en)
Other versions
RU2009103140A (ru
Inventor
Уилльям Д. РЭМСИ (US)
Уилльям Д. РЭМСИ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2009103140A publication Critical patent/RU2009103140A/ru
Application granted granted Critical
Publication of RU2443015C2 publication Critical patent/RU2443015C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к средствам ранжирования документов в сети, использующим систему с инкрементным обновлением. Техническим результатом является сокращение времени поиска документов в сети с повышением соответствия результатов поиска поисковому запросу. В способе ранжирования документов в сети в ответ на введенный пользователем поисковый запрос, содержащий один или несколько термов поискового запроса, используют классификатор запроса с инкрементным обновлением на основе данных использования с отображением ранжированных документов с вычисленными значениями параметров просмотра, сохраненными для каждого из термов поискового запроса, при этом обновляют значения подсчета с использованием инкрементного обновления. 4 н. и 13 з.п. ф-лы, 6 ил.

Description

Предшествующий уровень техники
Известны функции ранжирования, которые ранжируют документы согласно их релевантности данному поисковому запросу. Во многих известных системах классификаторы запроса используются для увеличения результатов поиска функции ранжирования. Известные классификаторы запроса используют методики компьютерного обучения, например максимальную энтропию, наивный байесовский, условные случайные поля и методы опорных векторов, для моделирования работы пользователя. Как правило, процедура, используемая для создания и развертывания моделей, предполагает сбор множества данных, выполнение автономной обработки данных по всему диапазону данных, создание моделей и последующее развертывание моделей. Эти известные процедуры могут требовать больших вычислительных затрат. Кроме того, в этих процедурах, как правило, существует задержка от момента сбора данных до момента фактического использования данных в развернутых моделях.
В данной области техники продолжают прилагать усилия для разработки функций ранжирования и компонентов функции ранжирования, которые обеспечивают лучшие результаты поиска для данного поискового запроса по сравнению с результатами поиска, формируемыми поисковыми механизмами, использующими известные функции ранжирования и компоненты функции ранжирования.
Сущность изобретения
В этом документе, наряду с другим, описаны различные технологии для ранжирования документов в сети, использующие классификатор запроса с инкрементным обновлением. Классификатор запроса с инкрементным обновлением не требует больших вычислительных затрат, автономной обработки данных, а просто требует периодического обновления минимального количества переменных классификатора запроса. Классификатор запроса с инкрементным обновлением использует поисковый запрос пользователя в реальном времени и ответные данные, а также может содержать компонент временного затухания, который использует большие весовые коэффициенты для более поздних пользовательских событий, чем для ранних пользовательских событий. Классификатор запроса с инкрементным обновлением, один или в комбинации с другими компонентами функции ранжирования, может использоваться поисковым механизмом для ранжирования множества документов в порядке (как правило, в порядке убывания), основанном на релевантности документа термам запроса поиска.
Это краткое описание предоставлено для ознакомления читателя в целом с одной или несколькими концепциями выбора, описанными ниже в разделе "Подробное описание", в упрощенном виде. В этом кратком описании нет намерения выявлять ключевые и/или требуемые признаки заявленного предмета.
Описание чертежей
На фиг.1 представлена иллюстративная логическая блок-схема, изображающая иллюстративные этапы в способе создания ранжированных результатов поиска в ответ на поисковый запрос, введенный пользователем.
Фиг.2 - блок-схема некоторых основных компонентов иллюстративной операционной среды для реализации способов и процедур, раскрытых в этом документе.
На фиг.3A-3B представлена логическая блок-схема, изображающая иллюстративные этапы в иллюстративном способе создания ранжированных результатов поиска, использующем модель с инкрементным обновлением.
На фиг.4A-4B представлена логическая блок-схема, изображающая иллюстративные этапы в способе создания ранжированных результатов поиска, использующем модель с инкрементным обновлением, которая также содержит компонент временного затухания.
Подробное описание
Для улучшения понимания принципов способов и процедур, раскрытых в этом документе, далее описаны конкретные варианты осуществления, и для описания конкретных вариантов осуществления используется специальный язык. Однако следует понимать, что с использованием специального языка нет намерения ограничить объем раскрытых способов и процедур. Изменения, дальнейшие модификации и такие дальнейшие применения принципов раскрытых способов и обсуждаемых процедур рассматриваются как обычные для специалиста в области техники, к которой относятся раскрытые способы и процедуры.
Раскрыты способы ранжирования документов в сети, использующие классификатор запроса с инкрементным обновлением. Релевантность каждого документа данному поисковому запросу вычисляется с использованием классификатора запроса с инкрементным обновлением, который использует данные пользователя в реальном времени для каждой комбинации данных введенный запрос/выбранный результат. Релевантность документа для каждого документа, определенная одним только классификатором запроса или в комбинации с другими компонентами функции ранжирования, может использоваться для ранжирования документов в пределах данного сетевого пространства (например, пространства корпоративной интрасети или Интернета). Иллюстративная процедура поиска, в которой могут использоваться раскрытые способы, изображена как иллюстративная процедура 10 на фиг.1.
На фиг.1 изображена иллюстративная процедура 10 поиска, которая начинается с этапа 80 процедуры, на котором пользователь вводит поисковый запрос. От этапа 80 иллюстративная процедура 10 поиска переходит к этапу 200, на котором поисковый механизм ищет во всех документах в пределах сетевого пространства один или несколько термов поискового запроса. От этапа 200 иллюстративная процедура 10 поиска переходит к этапу 300, на котором функция ранжирования поискового механизма ранжирует документы в пределах сетевого пространства на основе релевантности каждого документа поисковому запросу, причем релевантность документа основана на вероятности выборки этого документа при условии поискового запроса на основе модифицированной наивной байесовской модели, описанной ниже. От этапа 300 иллюстративная процедура 10 поиска переходит к этапу 400, на котором пользователю представляются ранжированные результаты поиска, как правило, в порядке убывания, идентифицирующие документы в пределах сетевого пространства, которые наиболее релевантны поисковому запросу (т.е. имеют самую высокую вероятность выборки при условии конкретного поискового запроса).
Как более подробно обсуждается ниже, способы ранжирования документов содержат использование в реальном времени "данных реакции пользователя" или "данных использования документа", относящихся к фактическому использованию (например, просмотру) одного или нескольких документов в пределах сетевого пространства одним или несколькими пользователями. Данные использования документа формируются и сохраняются кодом приложения на web-сервере, который отделен от данного поискового механизма. Например, данные использования документа могут поддерживаться web-сайтом так, что каждый раз, когда пользователь запрашивает URL, сервер обновляет счетчик использования или значение счета. Счетчик использования может поддерживать связанные с документом данные, полученные за данный интервал времени, например, за прошлую неделю, за прошлый месяц, за прошлый год или за время существования данного документа или набора документов. Код приложения можно использовать для получения данных использования из web-сайта через (i) специальный интерфейс прикладного программирования (API), (ii) запрос web-службы или (iii) запрос web-страницы администрирования, которая возвращает данные использования для каждого URL на web-сайте.
Релевантность документа может использоваться для ранжирования документов в пределах сетевого пространства и предоставления ранжированных результатов поиска пользователю. Например, способ ранжирования документов в сети может содержать этапы определения релевантности документа для каждого документа в сети с использованием классификатора запроса с инкрементным обновлением, и ранжирования документов в требуемом порядке (как правило, в порядке убывания) на основе релевантности документа каждого документа относительно введенного пользователем поискового запроса.
Прикладные программы, использующие способы, раскрытые в этом документе, могут быть загружены и исполнены во многих компьютерных системах, содержащих множество аппаратных компонентов. Ниже описаны иллюстративная компьютерная система и иллюстративная операционная среда для применения способов, раскрытых в этом документе.
Иллюстративная операционная среда
На фиг.2 изображен пример подходящей вычислительной системной среды 100, в которой могут быть реализованы способы, раскрытые в этом документе. Вычислительная системная среда 100 является только одним примером подходящей вычислительной среды, и нет намерения каким-либо образом ограничивать объем использования или функциональных возможностей способов, раскрытых в этом документе. Также не следует считать, что вычислительная среда 100 каким-либо образом зависит от любого одного или комбинации компонентов, изображенных в иллюстративной операционной среде 100, или предъявляет какие-либо требования в отношении них.
Способы, раскрытые в этом документе, работают с множеством других универсальных или специализированных вычислительных системных сред или конфигураций. Примеры известных вычислительных систем, сред и/или конфигураций, которые могут подойти для использования со способами, раскрытыми в этом документе, включают в себя, например, персональные компьютеры, серверные компьютеры, наладонные или переносные устройства, многопроцессорные системы, системы на основе микропроцессора, телевизионные абонентские приставки, программируемую бытовую электронику, сетевые PC, миникомпьютеры, универсальные компьютеры, распределенные вычислительные среды, которые включают в себя любую из вышеупомянутых систем или устройств и т.п.
Способы и процедуры, раскрытые в этом документе, могут быть описаны в общем контексте исполнимых компьютером команд, например программных модулей, исполняемых компьютером. В общем, программные модули включают в себя процедуры, программы, объектные файлы, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Способы и процедуры, раскрытые в этом документе, также могут быть применены в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули могут находиться и на локальном и на удаленном носителе информации компьютера, в том числе на запоминающих устройствах.
Согласно фиг.2 иллюстративная система для реализации способов и процедур, раскрытых в этом документе, включает в себя универсальное вычислительное устройство в виде компьютера 110. Компоненты компьютера 110 могут содержать, например, блок 120 обработки, системную память 130 и системную шину 121, которая соединяет различные элементы системы, в том числе, например, системную память 130 с блоком 120 обработки. Системная шина 121 может относиться к любому из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, использующих любую из множества шинных архитектур. В качестве примера такие архитектуры включают в себя шину архитектуры промышленного стандарта (ISA), шину микроканальной архитектуры (MCA), шину расширенной архитектуры промышленного стандарта (EISA), локальную шину ассоциации по стандартизации в области видеотехники (VESA), шину межсоединения периферийных компонентов (PCI), также известную как шина расширения и т.д.
Компьютер 110, обычно, содержит множество компьютерночитаемых носителей. Компьютерночитаемыми носителями могут быть любые доступные носители, к которым может осуществить доступ компьютер 110 и которые содержат как энергозависимые, так и энергонезависимые носители, съемные и несъемные носители. В качестве примера компьютерночитаемые носители могут включать в себя носители хранения, среды связи и т.д. Компьютерные носители хранения включают в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, например, компьютерночитаемых команд, структур данных, программных модулей или других данных. Компьютерночитаемые носители хранения включают в себя, например, оперативное запоминающее устройство (RAM, ОЗУ), постоянное запоминающее устройство (ROM, ПЗУ), электрически стираемое программируемое ПЗУ (EEPROM), флеш-память или другую технологию памяти, компакт-диск (CD-ROM), универсальные цифровые диски (DVD) или другое хранилище на оптических дисках, магнитофонные кассеты, магнитную ленту, магнитное дисковое хранилище или другие магнитные устройства хранения, или любой другой носитель, который можно использовать для хранения требуемой информации и к которому может осуществлять доступ компьютер 110. Среды связи обычно воплощают компьютерночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, например в несущей, или другом транспортном механизме и включают в себя любые среды доставки информации. Термин "модулированный сигнал данных" означает сигнал, имеющий одну или более своих характеристик установленными или измененными таким образом, чтобы кодировать в этом сигнале информацию. В качестве примера среды связи включают в себя, например, такие проводные среды, как проводная сеть или прямое проводное соединение, и беспроводные среды, как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Комбинации любых приведенных выше носителей и сред также следует отнести к компьютерночитаемым носителям информации, используемым в этом документе.
Системная память 130 включает в себя компьютерночитаемые носители информации в виде энергозависимой и/или энергонезависимой памяти, например, постоянного запоминающего устройства (ROM, ПЗУ) 131 и оперативного запоминающего устройства (RAM, ОЗУ) 132. Базовая система 133 ввода/вывода (BIOS), содержащая основные процедуры, которые помогают передавать информацию между элементами в пределах компьютера 110, например во время запуска, обычно хранится в ROM 131. RAM 132 обычно содержит данные и/или программные модули, к которым осуществляется непосредственный доступ, и/или которыми в настоящее время управляет блок 120 обработки. В качестве примера на фиг.2 изображены, например, операционная система 134, прикладные программы 135, другие программные модули 136 и данные 137 программ.
Компьютер 110 может также содержать другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители хранения. Только в качестве примера на фиг.2 изображен накопитель 140 на жестких дисках, который осуществляет считывание с несъемных энергонезависимых магнитных носителей или запись на них, накопитель 151 на магнитных дисках, который осуществляет считывание со съемного энергонезависимого магнитного диска 152 или запись на него, накопитель 155 на оптических дисках, который осуществляет считывание со съемного энергонезависимого оптического диска 156, например, CD ROM или другого оптического носителя, или запись на него. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители хранения, которые можно использовать в иллюстративной рабочей среде, включают в себя, например, кассеты с магнитной лентой, карты флэш-памяти, универсальные цифровые диски, цифровую видеоленту, твердотельное ОЗУ (RAM), твердотельное ПЗУ (ROM) и т.п. Накопитель 141 на жестких дисках обычно соединен с системной шиной 121 через интерфейс несъемной памяти, например, интерфейс 140, а накопитель 151 на магнитных дисках и накопитель 155 на оптических дисках обычно соединяют с системной шиной 121 посредством интерфейса съемной памяти, например, интерфейса 150.
Накопители и связанные с ними компьютерные носители хранения, рассмотренные выше и изображенные на фиг.2, обеспечивают хранение компьютерночитаемых команд, структур данных, программных модулей и других данных для компьютера 110. На фиг.2, например, изображен накопитель 141 на жестких дисках как хранящий операционную систему 144, прикладные программы 145, другие программные модули 146 и данные 147 программ. Следует отметить, что эти компоненты могут либо быть идентичны операционной системе 134, прикладным программам 135, другим программным модулям 136 и данным 137 программ или отличаться от них. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и данным 147 программ здесь даны другие ссылочные позиции, чтобы, как минимум, показать, что они являются другими экземплярами.
Пользователь может вводить команды и информацию (например, один или несколько термов или слов поискового запроса) в компьютер 110 через устройства ввода, например, клавиатуру 162 и указательное устройство 161, обычно называемое мышью, трекболом или сенсорной панелью. Другие устройства ввода (не изображены) могут включать в себя микрофон, джойстик, игровой планшет, спутниковую тарелку, сканер или подобное. Указанные и другие устройства ввода часто соединяют с блоком 120 обработки через пользовательский интерфейс 160 ввода, который подключен к системной шине 121, но они могут быть подсоединены через другой интерфейс и другие шинные структуры, например, через параллельный порт, игровой порт или универсальную последовательную шину (USB). Монитор 191 или другой тип дисплея (например, для предоставления результатов поиска пользователю для просмотра) также подключен к системной шине 121 через интерфейс, например, видеоинтерфейс 190. Кроме монитора 191, компьютер 110 также может содержать другие периферийные устройства вывода, например, громкоговорители 197 и принтер 196, которые могут быть подсоединены через интерфейс 195 внешнего периферийного устройства вывода.
С использованием логических соединений с одним или большим количеством удаленных компьютеров, например, с удаленным компьютером 180, компьютер 110 может работать в сетевой среде. Удаленный компьютер 180 может быть персональным компьютером, сервером, маршрутизатором, сетевым PC, одноранговым устройством сети или другим обычным узлом сети и обычно содержит многие или все из описанных выше элементов компьютера 110, хотя на фиг.2 было изображено только запоминающее устройство 181. Логические соединения, изображенные на фиг.2, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут также содержать другие сети. Такие сетевые среды обычны для офисов, корпоративных вычислительных сетей, интрасетей и Интернета.
При использовании компьютера 110 в сетевой среде LAN его соединяют с LAN 171 через сетевой интерфейс или адаптер 170. Если компьютер 110 используют в сетевой среде WAN, то он обычно содержит модем 172 или другие средства для установления связи через WAN 173, например через Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через пользовательский интерфейс 160 ввода или другой соответствующий механизм. В сетевой среде изображенные программные модули компьютера 110 или их части могут храниться на удаленном запоминающем устройстве. В качестве примера на фиг.2, например, изображены удаленные прикладные программы 185 как находящиеся на запоминающем устройстве 181. Будет понятно, что изображенные сетевые соединения являются иллюстративными и могут быть использованы другие средства установления линии связи между компьютерами.
Способы и процедуры, раскрытые в этом документе, могут быть реализованы с использованием одной или нескольких прикладных программ, в том числе, например, серверного системного программного обеспечения (например, приложения программного обеспечения WINDOWS SERVER SYSTEM™), поискового ранжирующего приложения и приложения для формирования, поддержки и хранения данных использования документов в пределах сетевого пространства (например, приложения услуг WINDOWS® SHAREPOINT® Services), любое из которых может быть одной из множества прикладных программ, обозначенных как прикладные программы 135, прикладные программы 145 и удаленные прикладные программы 185 в иллюстративной системе 100.
Как упомянуто выше, специалистам в данной области техники будет понятно, что раскрытые способы ранжирования документов при условии конкретного поискового запроса могут быть реализованы в других конфигурациях компьютерной системы, в том числе наладонных устройствах, многопроцессорных системах, основанной на микропроцессорах или программируемой бытовой электронике, сетевых персональных компьютерах, миникомпьютерах, универсальных компьютерах и т.п. Раскрытые способы ранжирования документов также могут быть применены в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули могут находиться и на локальных, и на удаленных запоминающих устройствах.
Реализация иллюстративных вариантов осуществления
Как упоминалось выше, предоставлены способы ранжирования документов в сети, использующие классификатор запроса с инкрементным обновлением. Раскрытые способы ранжирования документов в сети используют модифицированную наивную байесовскую модель, описанную ниже.
Правило Байеса гласит, что вероятность A при условии B, P(A|B) связана с вероятностью B при условии A, P(B|A) и может быть выражена отношением
P(A|B)P(B) = P(B|A)P(A)
Если B состоит из множества "признаков" {f1...fN}, то наивная байесовская аппроксимация приводит к
Figure 00000001
В раскрытых способах ранжирования документов модель классификатора запроса использует аналогичную формулу, которая предсказывает появление "Ресурса" ("Asset") (например, выбранного документа или "хита") при условии поискового "Запроса" ("Query"), где признаки являются термами или словами в поисковом запросе. Модель классификатора запроса, используемая в этом документе, выражается формулой
Figure 00000002
где
Asset - возвращаемые ресурс или задача (например, документ),
Query - запрос пользователя, содержащий один или несколько термов поискового запроса,
NQ - количество термов в поисковом запросе,
V-NQ - количество термов, отсутствующих в поисковом запросе, где V - размер словаря,
P(wi∈Q|Asset) - вероятность присутствия терма в поисковом запросе и
P(wi∉Q|Asset) - вероятность отсутствия терма в поисковом запросе.
При взятии логарифма от обеих сторон, формула принимает вид
Figure 00000003
С суммированием вероятностей отсутствия термов данного поискового запроса по всем словам в словаре и с вычитанием суммы упомянутых вероятностей из термов, присутствующих в поисковом запросе, формула принимает вид
Figure 00000004
Так как вероятность отсутствия слова в данном поисковом запросе равна 1 минус вероятность присутствия слова в данном поисковом запросе, то формула принимает вид
Figure 00000005
С раскрытием каждого терма с использованием следующих уравнений
Figure 00000006
формула принимает вид
Figure 00000007
где
#(Asset) - количество раз, которое данный "Ресурс" ("Asset") (например, данный документ в сети) выбирается для просмотра любым пользователем,
#(T) - общее количество поисковых запросов, которые были зарегистрированы системой, и
#(wi, Asset) - количество раз, которое данный "Ресурс" ("Asset") (например, данный документ в сети) и терм поискового запроса, wi, из поискового запроса были сопоставлены любым пользователем.
При использовании аппроксимации рядом Тейлора для log(1-x)
Figure 00000008
аппроксимация первого порядка равна просто -x. Следовательно, с использованием аппроксимации первого порядка
Figure 00000009
и сумма принимает вид
Figure 00000010
Формула модели классификатора запроса, используемой в настоящее время в этом документе, принимает вид
Figure 00000011
где
∑#(wi, Asset) - сумма количества раз, которое данный "Ресурс" ("Asset") (например, данный документ в сети) и какой-либо терм поискового запроса, wi, из поискового запроса были сопоставлены любым пользователем.
Зная значения термов #(Asset), #(wi, Asset) и ∑#(wi, Asset) для каждого ресурса и каждой комбинации поисковый запрос/ресурс, можно вычислить значения log[#(Asset)] и log[#(wi, Asset)] и можно использовать вышеупомянутую формулу (I) для обеспечения оценок релевантности документов (т.е. вероятностей выборки данного ресурса или документа на основе данного поискового запроса) для документов в пределах сетевого пространства.
Как упоминалось выше, фактическое использование или данные реакции пользователя (например, значения термов #(Asset) и #(wi, Asset)) могут быть получены из одного или нескольких файлов, в которых хранятся данные фактического использования для одного или нескольких документов в сети. Данные фактического использования могут сохраняться вместе с документом как компонент документа или могут сохраняться в файле хранения данных отдельно от фактического документа. Выборку и хранение данных можно выполнять с использованием любого известного способа, в том числе, например, вызовов web-службы, систем языка структурированных запросов (SQL) и т.д. Например, можно использовать удаленную систему хранения для хранения данных фактического использования, в том числе, например, количество запросов к каждому документу в данной сети по всем пользователям.
На фиг.3A-3B представлена логическая блок-схема, изображающая иллюстративные этапы в иллюстративном способе создания ранжированных результатов поиска в ответ на поисковый запрос, введенный пользователем, причем этот способ использует данные реакции пользователя в системе с инкрементным обновлением. Как показано на фиг.3, иллюстративный способ 30 начинается с этапа 201 и переходит к этапу 202, на котором пользователь вводит поисковый запрос, например, отдельное слово или строку слов или термов. От этапа 202 иллюстративный способ 30 переходит к этапу 203, на котором компонент(ы) поискового запроса "разбиваются на лексемы." Как используется в этом документе, термин "разбитый на лексемы" относится к процедуре, в которой блок разбиения на слова используется для создания списка "лексем" из строки слов или термов. Например, поисковый запрос "печать проблемы цвет" разбивается на лексемы для формирования набора лексем/компонентов поискового запроса {"печать", "проблемы", "цвет"}. Каждая "лексема" в списке представляет каждый компонент поискового запроса wi, используемый в формуле классификатора запроса, описанной выше.
От этапа 203 иллюстративный способ 30 переходит к этапу 205, на котором предварительно вычисленные, сохраненные значения #(wi, Asset) и log[#(wi, Asset)] извлекаются из базы данных для каждого компонента запроса, wi (например, "печать", "проблемы" и "цвет"). От этапа 205, иллюстративный способ 30 переходит к этапу 208, на котором предварительно вычисленные, сохраненные значения #(Asset), log[#(Asset)] и ∑#(wi, Asset) извлекаются из базы данных хранения данных. От этапа 208 иллюстративный способ 30 переходит к этапу 209, на котором данные использования из этапов 205 и 208, а именно (1) значения #(wi, Asset) и log[#(wi, Asset)] для каждой комбинации терм/ресурс запроса и (2) значения #(Asset), log[#(Asset)] и ∑#(wi, Asset) для каждого ресурса используются в формуле (I), предоставленной выше, для определения релевантности документа каждого документа в сетевом пространстве относительно поискового запроса.
От этапа 209 иллюстративный способ 30 переходит к этапу 210, изображенному на фиг.3B, на котором все документы ранжируются в порядке убывания релевантности. Иллюстративный способ 30 далее переходит к этапу 211, на котором, по меньшей мере, часть результатов поиска выводится на экран пользователя. От этапа 211 иллюстративный способ 30 переходит к этапу 212, на котором пользователь выбирает (например, щелкает мышью) данный результат поиска (например, ресурс) для просмотра.
После выбора конкретного документа или результата поиска (например ресурса) для просмотра, иллюстративный способ 30 переходит к этапу 213, на котором значение подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) обновляются для отражения реакции пользователя. Следует отметить, что процедура обновления значений подсчета #(Asset), #(wi, Asset) и ∑#(wi, Asset) может происходить в любое время после выбора пользователем данного результата поиска (например ресурса). Например, значения подсчета могут обновляться сразу или в некоторый момент времени после фактического выбора данного результата поиска. Значения подсчета могут обновляться, например, каждый час или один раз в 24 часа. Если значения не обновляются сразу, то в течение данного периода времени (например, в течение 24 часов) ведется регистрационный журнал для временного хранения данных реакции пользователя за время этого периода. В конце каждого периода времени используется код приложения для обновления каждого значения подсчета.
От этапа 213 иллюстративный способ 30 переходит к этапу 214, на котором вычисляются значения log[#(Asset)] и log[#(wi, Asset)]. От этапа 214 иллюстративный способ 30 переходит к этапу 215, на котором обновленные значения из этапов 213 и 214 (т.е., #(Asset), #(wi, Asset), ∑#(wi, Asset), log[#(Asset)] и log[#(wi, Asset)]) сохраняются в базе данных, заменяя ранее сохраненные значения.
От этапа 215 иллюстративный способ 30 переходит к этапу 216 принятия решения, на котором пользователь принимает решение, просматривать ли другие результаты поиска, предоставленные на этапе 211. Если пользователь принимает решение просмотреть другие результаты поиска, предоставленные на этапе 211, то иллюстративный способ 30 переходит к этапу 216, на котором пользователь возвращается к результатам поиска, предоставленным на этапе 211. От этапа 217 иллюстративный способ 30 возвращается к этапу 212 и выполняется, как описано выше.
Возвращаясь к этапу 216 принятия решения, если на этапе 216 принятия решения пользователь принимает решение не просматривать другие результаты поиска, предоставленные на этапе 211, то иллюстративный способ 30 переходит к этапу 218 принятия решения. На этапе 218 принятия решения пользователь принимает решение, выполнять ли новый поиск. Если пользователь принимает решение выполнять новый поиск, то иллюстративный способ 30 переходит к этапу 219, на котором иллюстративный способ 30 возвращается к этапу 202 и выполняется, как описано выше. Если на этапе 216 принятия решения пользователь принимает решение не выполнять новый поиск, то иллюстративный способ 30 переходит к этапу 220, на котором иллюстративный способ 30 заканчивается.
Вышеописанный способ предоставления ранжированных результатов поиска пользователю в системе с инкрементным обновлением может также содержать компонент временного затухания, в котором более недавним данным запрос/ресурс дается больший вес при вычислении значений #(Asset), #(wi, Asset), ∑[#(wi, Asset)], log[#(Asset)] и log[#(wi, Asset)] по сравнению с более старыми данными запрос/ресурс. Например, терм запроса "троян" мог означать нечто совсем другое 2000 лет назад в отличие от того, что этот терм означал несколько лет назад, когда спортивная команда под названием "Троян" выиграла футбольный титул колледжа, и что этот терм означал недавно, когда вирус "Троянский конь" появился как компьютерный вирус. Наличие компонента временного затухания в раскрытых способах обеспечивает смещение к более недавним предпочтениям пользователей, а также к более поздним событиям.
При использовании компонента временного затухания, для взвешивания более поздних событий используется больший весовой коэффициент, чем для взвешивания ранних событий. Иллюстративный весовой множитель содержит λt, причем λ является числом, меньшим 1,0, и t является целым числом, представляющим возраст запроса и/или компонента значения подсчета ресурса (например, t может представлять данный 24-часовой период так, что t=0 представляет последний 24-часовой период, t=1 представляет предыдущий 24-часовой период, t=2 представляет 24-часовой период, предшествующий 24-часовому периоду при t=1, и т.д.). Вышеописанные значения подсчета, используемые в формуле (I), могут быть установлены равными следующим значениям
Figure 00000012
В каждом из вышеупомянутых значений подсчета, по мере увеличения t (т.е., увеличения возраста запроса и/или компонента ресурса), значение λt уменьшается, в результате чего более старым компонентам данного значения подсчета дается меньший вес, чем более новым компонентам значения подсчета. Например, в иллюстративном варианте осуществления, в котором частота является 24-часовым периодом, совершенно новым запросам (т.е. запросам за последний 24-часовой период) дается вес 1, в то время как запросу однодневной давности (т.е. запросам за предыдущий 24-часовой период) дается вес λ, а запросу 100-дневной давности дается вес λ100. С установкой λ в значение, например, 0,995 в вышеупомянутой модели, вес данного запроса постепенно уменьшается за двухлетний период.
Для обновления значений подсчета в конце данного периода времени (например, в конце 24-часового периода), значения подсчета просто должны быть пересчитаны следующим образом
Figure 00000013
Figure 00000014
где
#(Asset)(new), #(wi, Asset)(new) и ∑#(wi, Asset)(new) представляют значения с инкрементным обновлением для подсчетов #(Asset), #(wi, Asset) и ∑#(wi, Asset) соответственно,
#(Assef)(0), #(wi, Asset)(0) и ∑#(wi, Asset)(0) представляют количество событий за последний период времени (например, последний 24-часовой период) для подсчетов #(Asset), #(wi, Asset) и ∑#(wi, Asset) соответственно, и
#(Asset)(old), #(wi, Asset)(old) и ∑#(wi, Asset)(old) представляют совокупные значения подсчета до последнего периода времени (например, значения подсчета более 24-часовой давности), для подсчетов #(Asset), #(wi, Asset) и ∑#(wi, Asset) соответственно. Такой способ, использующий модель временного затухания с инкрементным обновлением, описан далее со ссылкой на фиг.4A-4B.
Как изображено на фиг.4A, иллюстративный способ 40 начинается с начального этапа 301 и переходит к этапу 302, на котором пользователь выбирает весовой коэффициент λt, причем λ является числом, меньшим 1,0, и t является целым числом, представляющим возраст запроса и/или компонента значения подсчета ресурса. От этапа 302 иллюстративный способ 40 переходит к этапу 303, на котором пользователь выбирает частоту, с которой обновляются все значения подсчета #(Asset), #(wi, Asset) и ∑#(wi, Asset). Как правило, все значения подсчета обновляются один раз в течение 24-часового периода (т.е. каждая единица времени, представляемая t, является 24-часовым периодом времени), однако пользователь может выбрать любую требуемую частоту, например, обновление значения подсчета каждый час (т.е. каждая единица времени, представляемая t, является одним часом).
От этапа 303 иллюстративный способ 40 переходит к этапу 305, на котором контролируются время и дата для датирования данного запроса и реакции пользователя. От этапа 305 иллюстративный способ 40 переходит к этапу 306, на котором значения подсчета инкрементно обновляются (например, обновляются в конце данного периода частоты), как описано выше. На этом этапе все, что требуется для инкрементного обновления каждого значения подсчета, - это добавить новые данные комбинации запрос/ресурс (т.е. данные #(Asset)(0), #(wi, Asset)(0) и ∑#(wi, Asset)(0)) с весом 1,0 к ранее сохраненному значению подсчета (т.е., #(Asset)(old), #(wi, Asset)(old) и ∑#(wi, Asset)(old)), затухающего со временем посредством множителя λ. Как упоминалось выше, обновленные значения подсчета равны:
Figure 00000013
Figure 00000015
От этапа 306 иллюстративный способ 40 переходит к этапу 307, на котором вычисляются значения log[#(Asset)] и log[#(wi, Asset), и все обновленные значения сохраняются в базе данных. От этапа 307 иллюстративный способ 40 переходит к этапу 308 принятия решения, как изображено на фиг.4B, на котором пользователь принимает решение, выполнять ли поиск. Если на этапе 308 принятия решения пользователь принимает решение выполнить поиск, то иллюстративный способ 40 переходит к этапу 318, на котором выполняются вышеописанные этапы 202 по 211 иллюстративного способа 30 (изображенного на фиг.3A-3B). От этапа 318, иллюстративный способ 40 переходит к этапу 309, на котором пользователь выбирает (например, щелкает мышью) данный результат поиска (например, ресурс) для просмотра.
После выбора конкретного документа или результата поиска (например, ресурса) для просмотра иллюстративный способ 40 переходит к этапу 310, на котором значения #(Asset)(0), #(wi, Asset)(0) и Σ#(wi, Asset)(0) обновляются для отражения реакции пользователя. Значения #(Asset)(0), #(wi, Asset)(0) и Σ#(wi, Asset)(0) временно сохраняются до конца периода частоты (например, конца 24-часового периода). Как упоминалось выше, упомянутый период частоты может быть любым требуемым отрезком времени, но, как правило, является 24-часовым периодом. В конце каждого периода времени для обновления каждого значения подсчета #(Asset), #(wi, Asset) и ∑#(wi, Asset) используется код приложения для предоставления значений подсчета #(Asset)(new), #(wi, Asset)(new) и ∑#(wi, Asset)(new) с инкрементным обновлением, как описано на этапе 306.
От этапа 310 иллюстративный способ 40 переходит к этапу 311 принятия решения, на котором пользователь принимает решение, рассматривать ли другие результаты поиска, предоставленные в 318 (т.е. на этапе 211 иллюстративного способа 30, который является компонентом этапа 318 иллюстративного способа 40). Если пользователь принимает решение просмотреть другие результаты поиска, обеспеченные на этапе 318, то иллюстративный способ 40 переходит к этапу 312, на котором пользователь возвращается к результатам поиска, обеспеченным на этапе 318. От этапа 312 иллюстративный способ 40 возвращается к этапу 309 и выполняется, как описано выше.
Возвращаясь к этапу 311 принятия решения, если на этапе 311 принятия решения пользователь принимает решение не просматривать другие результаты поиска, обеспеченные на этапе 318, то иллюстративный способ 40 переходит к этапу 313 принятия решения. На этапе 313 принятия решения пользователь принимает решение, выполнять ли новый поиск. Если пользователь принимает решение выполнять новый поиск, то иллюстративный способ 40 переходит к этапу 314, на котором иллюстративный способ 40 возвращается к этапу 318 и выполняется, как описано выше. Если на этапе 313 принятия решения пользователь принимает решение не выполнять новый поиск, то иллюстративный способ 40 переходит к этапу 315 принятия решения, на котором кодом приложения принимается решение, на основе выбранной частоты на этапе 303, требуется ли обновлять значения подсчета, #(Asset), #(wi, Asset) и ∑#(wi, Asset). Если кодом приложения принято решение, что значения подсчета должны быть обновлены (т.е. период времени частоты закончился), то иллюстративный способ 40 возвращается к этапу 306 и выполняется, как описано выше. Если на этапе 315 принятия решения кодом приложения принято решение, что значения подсчета не должны быть обновлены, то иллюстративный способ 40 возвращается к этапу 308 и выполняется, как описано выше.
Возвращаясь к этапу 308 принятия решения, если на этапе 308 принятия решения пользователь принимает решение не выполнять поиск, то иллюстративный способ 40 переходит к этапу 319, на котором иллюстративный способ 40 возвращается к этапу 315 принятия решения и выполняется, как описано выше.
Вышеописанные способы ранжирования документов в ответ на поисковый запрос с использованием системы с инкрементным обновлением с компонентом временного затухания или без него могут использоваться одни или в комбинации с другими компонентами функции ранжирования для предоставления ранжированных результатов поиска пользователю. При использовании в комбинации с другими компонентами функции ранжирования может использоваться любой известный компонент или компоненты функции ранжирования. Известные компоненты функции ранжирования могут включать в себя, например, (i) компонент функции ранжирования со взвешиванием поля, описанный в американской патентной заявке серийный № 10/804,326, озаглавленной "FIELD WEIGHTING IN TEXT DOCUMENT SEARCHING", поданной 18 марта 2004 г., предмет которой полностью включен в этот документ по ссылке, (ii) компонент функции ранжирования по количеству щелчков мышью, раскрытый в американской патентной заявке серийный номер 10/955,983, озаглавленной "SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE", поданной 30 августа 2004 г., предмет которой полностью включен в этот документ по ссылке, (iii) смещенный компонент функции ранжирования по количеству щелчков мышью, раскрытый в американской патентной заявке серийный номер 11/206,286, озаглавленной "RANKING FUNCTIONS USING A BIASED CLICK DISTANCE OF A DOCUMENT ON A NETWORK", поданной 15 августа 2005 г., предмет которой полностью включен в этот документ по ссылке, (iv) глубину URL документа или (v) любую комбинацию с (i) по (iv).
В этом документе также раскрыты вычислительные системы. Иллюстративная вычислительная система содержит, по меньшей мере, один модуль приложения, пригодный для использования в вычислительной системе, причем этот, по меньшей мере, один модуль приложения содержит код приложения, загружаемый в него, причем этот код приложения выполняет способ ранжирования документов в сети с использованием вышеописанного классификатора запроса с инкрементным обновлением с компонентом временного затухания или без него. Код приложения может быть загружен в вычислительную систему с использованием любого вышеописанного компьютерночитаемого носителя, содержащего исполнимые компьютером команды для ранжирования документов в сети с использованием вышеописанного классификатора запроса с инкрементным обновлением с компонентом временного затухания или без него, как описано выше.
Несмотря на то, что изобретение было подробно описано согласно конкретным вариантам его осуществления, понятно, что специалисты в данной области техники после достижения понимания вышеизложенного могут легко представить изменения к этим вариантам осуществления, их разновидности и эквиваленты. Соответственно, объем раскрытых способов, компьютерночитаемого носителя и вычислительных систем следует оценивать как объем прилагаемой формулы изобретения и любых ее эквивалентов.

Claims (17)

1. Машиночитаемый носитель информации, на котором сохранены машиноисполняемые команды, которые при их исполнении компьютером предписывают компьютеру:
ранжировать документы в сети в ответ на введенный пользователем поисковый запрос, содержащий один или несколько термов поискового запроса, используя классификатор запроса с инкрементным обновлением на основе данных использования;
отображать пользователю документы, ранжированные посредством упомянутого классификатора запроса на основе данных использования, содержащих заранее вычисленные значения #(wi, Asset) и log[#(wi, Asset)], сохраненные для каждого из термов поискового запроса, и заранее вычисленные значения #(Asset), log[#(Asset)] и Σ#(wi, Asset), сохраненные для каждого из документов;
обновлять данные использования в ответ на выбор пользователем документа для просмотра путем:
обновления значений подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset),
вычисления значений log[#(Asset)] и log[#(wi, Asset)],
сохранения обновленных данных использования, замещая упомянутые заранее вычисленные значения,
причем #(Asset) представляет количество раз, которое заданный документ в сети был выбран для просмотра,
log[#(Asset)] представляет логарифм #(Asset),
#(wi, Asset) представляет количество раз, которое было найдено соответствие между заданным документом в сети и термом поискового запроса, wi, из поискового запроса,
log[#(wi, Asset)] представляет логарифм #(wi, Asset) и
Σ#(wi, Asset) представляет сумму количества раз, которое было найдено соответствие между заданным документом в сети и термом поискового запроса, wi, из поискового запроса.
2. Машиночитаемый носитель информации по п.1, причем каждый документ в сети ранжируется на основе его релевантности поисковому запросу, и предоставляется оценка релевантности документа с использованием формулы (I):
Figure 00000016

где P(Asset|Query) представляет вероятность возвращения заданного документа. Asset, при условии конкретного введенного пользователем поискового запроса, Query,
NQ - количество термов в поисковом запросе,
V - размер словаря сети и
#(Т) - общее количество поисковых запросов, которые были обработаны.
3. Машиночитаемый носитель информации по п.1, причем классификатор запроса с инкрементным обновлением обновляется в конце каждого периода времени, причем упомянутый период времени равен по продолжительности 24 ч или меньше чем 24 ч.
4. Машиночитаемый носитель информации по п.3, причем обновление значений подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) содержит добавление новых данных, которые были собраны в течение упомянутого периода времени, к ранее сохраненным значениям подсчета #(Asset)(old), #(wi, Asset)(old) и Σ#(wi, Asset)(old).
5. Машиночитаемый носитель информации по п.1, причем классификатор запроса с инкрементным обновлением также содержит компонент временнóго затухания, причем поздним поисковым запросам и реакциям пользователя дается больший вес, чем ранним поисковым запросам и реакциям пользователя.
6. Машиночитаемый носитель информации по п.1, причем:
Figure 00000017

Figure 00000018

Figure 00000019

где λ - весовой множитель со значением меньше 1,0, и
t - целое число, представляющее возраст компонента значения подсчета.
7. Машиночитаемый носитель информации по п.6, причем обновление значений подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) содержит пересчет #(Asset), #(wi, Asset) и Σ#(wi, Asset) следующим образом:
#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)],
#(wi, Asset)(new)=#(wi, Asset)(0)+λ#(wi, Asset(old)], и
Σ#(wi, Asset)(new)=Σ#(wi, Asset)(0)+λ[Σ#(wi, Asset)(old)],
где #(Asset)(new), #(wi, Asset)(new) и Σ#(wi, Asset)(new) каждый независимо представляют инкрементно обновленные значения для значений подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) соответственно,
#(Asset)(0), #(wi, Asset)(0) и Σ#(wi, Asset)(0) каждый независимо представляют количество возникновений в пределах последнего периода времени соответственно, и
#(Asset)(old), #(wi, Asset)(old) и Σ#(wi, Asset)(old) каждый независимо представляют совокупные значения подсчета до последнего периода соответственно.
8. Машиночитаемый носитель информации по п.1, дополнительно содержащий исполняемые компьютером команды для принятия поискового запроса, введенного пользователем, ведения поиска документов в сети для формирования результатов поиска, содержащих множество документов, ранжирования множества документов из результатов поиска с использованием классификатора запроса с инкрементным обновлением, чтобы сформировать ранжированные результаты поиска, и отображения ранжированных результатов поиска пользователю.
9. Компьютерная система, содержащая машиночитаемый носитель информации по п.1 и исполняющая сохраненные на нем машиноисполняемые команды.
10. Компьютерно-реализуемый способ инкрементного обновления компонента классификатора запроса в поисковой машине компьютера, содержащий этапы, на которых:
определяют значения подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset), причем #(Asset) представляет количество раз, которое заданный документ в сети выбран для просмотра, #(wi, Asset) представляет количество раз, которое было найдено соответствие между заданным документом в сети и термом поискового запроса, wi, из поискового запроса, и Σ#(wi, Asset) представляет сумму количества раз, которое было найдено соответствие между заданным документом в сети и термом поискового запроса, wi, из поискового запроса;
вычисляют значения log[#(Asset)] и log[#(wi, Asset)], причем log[#(Asset)] представляет логарифм #(Asset) и log[#(wi, Asset)] представляет логарифм #(wi, Asset);
сохраняют значения подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) и вычисленные значения log[#(Asset)] и log[#(wi, Asset)] в базе данных компьютера, при этом значения #(wi, Asset) и log[#(wi, Asset)] сохраняются для термов поискового запроса, а значения #(Asset), log[#(Asset)] и Σ#(wi, Asset) сохраняются для документов;
отображают одному или более пользователям документы, ранжированные посредством упомянутого классификатора запроса на основе ранее сохраненных значений подсчета и вычисленных значений, в ответ на вводимые пользователями поисковые запросы, принимаемые поисковой машиной компьютера;
в течение периода времени получают реакции от этих одного или более пользователей, выбирающих документы для просмотра; и
обновляют сохраненные значения подсчета и вычисленные значения путем добавления новых данных, собранных в течение упомянутого периода времени, к ранее сохраненным значениям подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) и вычисленным значениям log[#(Asset)] и log[#(wi, Asset)].
11. Способ по п.10, в котором упомянутый период времени равен по продолжительности 24 ч или меньше чем 24 ч.
12. Способ по п.10, в котором при обновлении хранимых значений подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) выполняют пересчет #(Asset), #(wi, Asset) и Σ#(wi, Asset) следующим образом:
#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)],
#(wi, Asset)(new)=#(wi, Asset)(0)+λ#(wi, Asset(old)], и
Σ#(wi, Asset)(new)=Σ#(wi, Asset)(0)+λ[Σ#(wi, Asset)(old)],
где #(Asset)(new), #(wi, Asset)(new) и Σ#(wi, Asset)(new) представляют инкрементно обновленные значения для значений подсчета #(Asset), #(wi, Asset) и Σ#(wi, Asset) соответственно,
#(Asset)(0), #(wi, Asset)(0) и Σ#(wi, Asset)(0) представляют количество возникновений в пределах последнего периода времени соответственно,
#(Asset)(old), #(wi, Asset)(old) и Σ#(wi, Asset)(old) каждый независимо представляют совокупные значения подсчета до последнего периода соответственно, и
λ является весовым коэффициентом.
13. Способ по п.12, в котором λ имеет значение меньше 1,0.
14. Способ по п.10, дополнительно содержащий этап, на котором определяют оценку релевантности документа для документа в сети относительно введенного пользователем поискового запроса.
15. Способ по п.14, в котором оценка релевантности документа определяется с использованием формулы (I):
Figure 00000020

где P(Asset|Query) представляет вероятность возвращения заданного документа, Asset, при условии конкретного введенного пользователем поискового запроса, Query,
NQ - количество термов в поисковом запросе,
V - размер словаря сети, и
#(Т) - общее количество поисковых запросов, которые были обработаны.
16. Способ по п.14, дополнительно содержащий этап, на котором ранжируют документы в порядке убывания на основе оценок релевантности документа, определенных для каждого документа.
17. Машиночитаемый носитель информации, на котором сохранены машиноисполняемые команды, которые при их исполнении компьютером предписывают компьютеру выполнять способ по п.10.
RU2009103140/08A 2006-07-31 2007-07-20 Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением RU2443015C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/496,373 2006-07-31
US11/496,373 US7620634B2 (en) 2006-07-31 2006-07-31 Ranking functions using an incrementally-updatable, modified naïve bayesian query classifier

Publications (2)

Publication Number Publication Date
RU2009103140A RU2009103140A (ru) 2010-08-10
RU2443015C2 true RU2443015C2 (ru) 2012-02-20

Family

ID=38987659

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009103140/08A RU2443015C2 (ru) 2006-07-31 2007-07-20 Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением

Country Status (10)

Country Link
US (1) US7620634B2 (ru)
EP (1) EP2047388A4 (ru)
JP (1) JP2009545809A (ru)
CN (1) CN101496010A (ru)
AU (1) AU2007281641B2 (ru)
BR (1) BRPI0714938A2 (ru)
MX (1) MX2009000584A (ru)
NO (1) NO20085386L (ru)
RU (1) RU2443015C2 (ru)
WO (1) WO2008016494A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608886C2 (ru) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Ранжиратор результатов поиска
US10275418B2 (en) 2013-03-22 2019-04-30 National Research University Higher School of Economics (HSE) Method for selecting valid variants in search and recommendation systems (variants)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US8161045B2 (en) * 2007-02-01 2012-04-17 The Boeing Company Use of associate memory learning agent technology to identify interchangeable parts in parts catalogs
US7428522B1 (en) * 2007-09-27 2008-09-23 Yahoo! Inc. Real-time search term popularity determination, by search origin geographic location
US20100042613A1 (en) * 2008-08-14 2010-02-18 Yield Software, Inc. Method and system for automated search engine optimization
US8195669B2 (en) * 2008-09-22 2012-06-05 Microsoft Corporation Optimizing ranking of documents using continuous conditional random fields
US20100185661A1 (en) * 2008-12-30 2010-07-22 Yield Software, Inc. Method and System for Negative Keyword Recommendations
US20100169312A1 (en) * 2008-12-30 2010-07-01 Yield Software, Inc. Method and System for Negative Keyword Recommendations
US20100169356A1 (en) * 2008-12-30 2010-07-01 Yield Software, Inc. Method and System for Negative Keyword Recommendations
US9081857B1 (en) * 2009-09-21 2015-07-14 A9.Com, Inc. Freshness and seasonality-based content determinations
US8311792B1 (en) * 2009-12-23 2012-11-13 Intuit Inc. System and method for ranking a posting
US20110270815A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Extracting structured data from web queries
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US8713024B2 (en) * 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US8407211B1 (en) 2010-12-16 2013-03-26 Google Inc. Determining relevance scores for locations
US8751488B2 (en) * 2011-08-24 2014-06-10 Waypart, Inc. Part number search method and system
JP2014032532A (ja) * 2012-08-03 2014-02-20 Advanced Media Inc オペレータ支援システム
WO2014142986A1 (en) 2013-03-15 2014-09-18 Mcafee, Inc. Server-assisted anti-malware client
WO2014143000A1 (en) * 2013-03-15 2014-09-18 Mcafee, Inc. Server-assisted anti-malware
WO2014143012A1 (en) 2013-03-15 2014-09-18 Mcafee, Inc. Remote malware remediation
CN103235815A (zh) * 2013-04-25 2013-08-07 北京小米科技有限责任公司 一种应用软件的显示方法和设备
US9268823B2 (en) * 2013-05-10 2016-02-23 International Business Machines Corporation Partial match derivation using text analysis
US10223445B2 (en) * 2013-09-19 2019-03-05 Maluuba Inc. Hybrid natural language processor
CN103646207A (zh) * 2013-12-02 2014-03-19 北京奇虎科技有限公司 一种应用程序安全属性的管理方法和装置
US9305279B1 (en) 2014-11-06 2016-04-05 Semmle Limited Ranking source code developers
CN106339383B (zh) * 2015-07-07 2019-10-18 阿里巴巴集团控股有限公司 一种搜索排序方法及***
CN106919298B (zh) * 2015-12-24 2020-06-23 中移(杭州)信息技术有限公司 一种显示方法及终端
CN106933882B (zh) * 2015-12-31 2020-09-29 华为技术有限公司 一种大数据增量计算方法和装置
CN107045504A (zh) * 2016-02-05 2017-08-15 百度在线网络技术(北京)有限公司 提供与功能组件相关联的搜索建议项的方法与装置
CN107483420B (zh) * 2017-07-31 2019-12-24 北京百悟科技有限公司 信息审核装置及方法
CN109814976A (zh) * 2019-02-01 2019-05-28 中国银行股份有限公司 一种功能模块排布方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
RU2004125187A (ru) * 2003-09-25 2006-02-20 Майкрософт Корпорейшн (Us) Система и способ для клиент-обоснованного поиска веб-агентом
US7010508B1 (en) * 1984-05-24 2006-03-07 Lockwood Lawrence B Automated multimedia data processing network

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
CA2428545C (en) * 2000-11-20 2011-02-22 British Telecommunications Public Limited Company Method of managing resources
US6853998B2 (en) 2001-02-07 2005-02-08 International Business Machines Corporation Customer self service subsystem for classifying user contexts
US6748398B2 (en) 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US7673234B2 (en) 2002-03-11 2010-03-02 The Boeing Company Knowledge management using text classification
US7266559B2 (en) 2002-12-05 2007-09-04 Microsoft Corporation Method and apparatus for adapting a search classifier based on user queries
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
US20040249796A1 (en) 2003-06-06 2004-12-09 Microsoft Corporation Query classification
US7231375B2 (en) 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US20050131872A1 (en) 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US7424469B2 (en) 2004-01-07 2008-09-09 Microsoft Corporation System and method for blending the results of a classifier and a search engine
US7359898B1 (en) * 2004-02-26 2008-04-15 Yahoo! Inc. Scoring mechanism selection along multiple dimensions
WO2006034544A1 (en) 2004-09-29 2006-04-06 Panscient Pty Ltd Machine learning system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7010508B1 (en) * 1984-05-24 2006-03-07 Lockwood Lawrence B Automated multimedia data processing network
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
RU2004125187A (ru) * 2003-09-25 2006-02-20 Майкрософт Корпорейшн (Us) Система и способ для клиент-обоснованного поиска веб-агентом

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275418B2 (en) 2013-03-22 2019-04-30 National Research University Higher School of Economics (HSE) Method for selecting valid variants in search and recommendation systems (variants)
RU2608886C2 (ru) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Ранжиратор результатов поиска

Also Published As

Publication number Publication date
RU2009103140A (ru) 2010-08-10
AU2007281641B2 (en) 2011-09-08
BRPI0714938A2 (pt) 2013-05-21
US7620634B2 (en) 2009-11-17
WO2008016494A1 (en) 2008-02-07
JP2009545809A (ja) 2009-12-24
EP2047388A1 (en) 2009-04-15
AU2007281641A1 (en) 2008-02-07
NO20085386L (no) 2009-02-24
EP2047388A4 (en) 2012-07-04
US20080028010A1 (en) 2008-01-31
CN101496010A (zh) 2009-07-29
MX2009000584A (es) 2009-01-27

Similar Documents

Publication Publication Date Title
RU2443015C2 (ru) Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением
US7729901B2 (en) System for classifying words
US7681147B2 (en) System for determining probable meanings of inputted words
JP4698737B2 (ja) ドキュメント利用統計を用いたランキング関数
US9396436B2 (en) Method and system for providing targeted content to a surfer
US7085761B2 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US20100241647A1 (en) Context-Aware Query Recommendations
US20120221563A1 (en) Social Weight of Social Media Content
EP1862916A1 (en) Indexing Documents for Information Retrieval based on additional feedback fields
US20080243791A1 (en) Apparatus and method for searching information and computer program product therefor
WO2016107354A1 (zh) 提供用户个性化资源消息推送的方法和装置
US20070097420A1 (en) Method and mechanism for retrieving images
US20110184940A1 (en) System and method for detecting changes in the relevance of past search results
US20160055203A1 (en) Method for record selection to avoid negatively impacting latency
US20140304583A1 (en) Systems and Methods for Creating Web Pages Based on User Modification of Rich Internet Application Content
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP5663742B2 (ja) 画像検索サーバ及び画像検索サーバの画像情報管理方法
US10909210B2 (en) Method and system for defining a web site development strategy
JP2005352687A (ja) 文書検索用プログラム、文書検索システムおよび文書検索方法
JP2005267487A (ja) 文書需要予測プログラム、文書需要予測方法および文書需要予測装置

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130721