RU2018122689A

RU2018122689A - Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения

Info

Publication number: RU2018122689A
Application number: RU2018122689A
Authority: RU
Inventors: Валерий Иванович Дужик; Андрей Дмитриевич Дроздовский; Олег Павлович Найдин
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2019-12-24
Also published as: US11681713B2; US20190391982A1; RU2018122689A3; RU2731658C2

Claims

1. Исполняемый на компьютере способ ранжирования поисковых результатов с помощью первого алгоритма машинного обучения, причем способ выполняется сервером, на котором расположен второй алгоритм машинного обучения, который был обучен определять сходство запросов на основе их текстового содержимого, причем способ включает в себя:

получение вторым алгоритмом машинного обучения нового запроса;

извлечение вторым алгоритмом машинного обучения из базы данных поискового журнала, документа, который был введен на сервер поисковой системы;

вычисление вторым алгоритмом машинного обучения соответствующего параметра сходства между новым запросом и каждым запросом из множества поисковых запросов;

выбор вторым алгоритмом машинного обучения из множества поисковых запросов, данного прошлого запроса, связанного с наиболее высоким соответствующим параметром сходства;

извлечение вторым алгоритмом машинного обучения набора поисковых результатов, связанных с данным прошлым запросом, причем каждый поисковый результат из набора поисковых результатов связан с соответствующей аннотацией, включая:

по меньшей мере один соответствующий поисковый запрос, который был использован для получения доступа к соответствующему поисковому результату на сервере поисковой системы;

вычисление вторым алгоритмом машинного обучения для каждого из по меньшей мере одного соответствующего поискового запроса, который был использован для получения доступа к соответствующему поисковому результату, соответствующего второго параметра сходства; и

использование соответствующего второго параметра сходства в качестве фактора ранжирования первым алгоритмом машинного обучения для ранжирования связанных поисковых результатов в качестве поисковых результатов для нового запроса.

2. Способ по п. 1, дополнительно включающий в себя:

во время фазы обучения:

извлечение из базы данных поискового журнала множества поисковых запросов, которое было введено на сервер поисковой системы, причем множество поисковых запросов связано с соответствующим набором поисковых результатов, и каждый соответствующий поисковый результат соответствующего набора поисковых результатов связан по меньшей мере с одним соответствующим параметром пользовательского взаимодействия;

вычисление, для каждого запроса из множества поисковых запросов, соответствующего вектора запроса на основе по меньшей мере одного параметра пользовательского взаимодействия, связанного с каждым поисковым результатом из соответствующего набора поисковых результатов;

вычисление, для каждой возможной пары запросов из множества поисковых запросов, на основе соответствующих векторов запроса каждого запроса из пары запросов, соответствующего параметра сходства, причем соответствующий параметр сходства указывает на степень сходства между запросами в паре запросов;

создание набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя указание на соответствующий запрос из каждой из возможных пар запросов и соответствующий параметр сходства;

обучение второго алгоритма машинного обучения на наборе обучающих объектов для определения параметра сходства новой пары запросов, причем по меньшей мере один запрос из новой пары запросов не включен в набор обучающих объектов.

3. Способ по п. 2, в котором соответствующая аннотация дополнительно включает в себя:

по меньшей мере один соответствующий параметр пользовательского взаимодействия, причем по меньшей мере один соответствующий параметр пользовательского взаимодействия указывает на пользовательское поведение с соответствующим поисковым результатом по меньшей одного пользователя после ввода по меньшей мере одного соответствующего запроса в сервер поисковой системы.

4. Способ по п. 2, в котором во время фазы обучения, соответствующий параметр сходства вычисляется путем использования одного из: скалярного произведения или коэффициента Отиаи (косинусного коэффициента).

5. Способ по п. 3, в котором соответствующий второй параметр сходства вычисляется вторым алгоритмом машинного обучения на основе:

соответствующего параметра сходства между новым запросом и по меньшей мере одним соответствующим поисковым запросом, включенным в соответствующую аннотацию; и

по меньшей мере одного соответствующего параметра пользовательского взаимодействия, включенного в соответствующую аннотацию.

6. Способ по п. 5, в котором вычисление вторым алгоритмом машинного обучения для каждого из по меньшей мере одного соответствующего поискового запроса, который был использован для получения доступа к соответствующему поисковому результату, соответствующего второго параметра сходства включает в себя:

перемножение соответствующего параметра сходства и по меньшей мере одного соответствующего параметра пользовательского взаимодействия.

7. Способ по п. 4, в котором обучение второго алгоритма машинного обучения на наборе обучающих объектов для определения параметра сходства новой пары запросов основано по меньшей мере на соответствующем текстовом свойстве каждого запроса из новой пары запросов.

8. Способ по п. 7, в котором второй алгоритм машинного обучения представляет собой нейронную сеть.

9. Способ по п. 8, в котором первый алгоритмом машинного обучения является алгоритмом на основе дерева решений.

10. Способ по п. 9, в котором первый алгоритмом машинного обучения использует множество дополнительных факторов для ранжирования, и причем соответствующий второй параметр сходства добавляется ко множеству дополнительных факторов для ранжирования.

11. Способ по п. 1, в котором параметр пользовательского взаимодействия является по меньшей мере одним из: кликабельность или время простоя.

12. Способ по п. 3, в котором способ дополнительно включает в себя, до этапа получения нового запроса:

создание множества аннотаций, включающих в себя соответствующие аннотации; и

сохранение множества аннотаций в хранилище сервера.

13. Способ по п. 8, в котором создание множества аннотаций выполняется третьим алгоритмом машинного обучения.

14. Система ранжирования поисковых результатов с помощью первого алгоритма машинного обучения, причем система выполняется вторым алгоритмом машинного обучения на системе, и второй алгоритм машинного обучения был обучен определять сходство запросов на основе их текстового содержимого, причем система включает в себя:

процессор;

постоянный машиночитаемый носитель компьютерной информации, содержащий инструкции, процессор;

при выполнении инструкций, выполнен с возможностью осуществлять:

использование соответствующего второго параметра сходства в качестве фактора ранжирования первым алгоритмом машинного обучения для ранжирования соответствующих поисковых результатов в качестве поисковых результатов для нового запроса.

15. Система по п. 14, в которой процессор выполнен с дополнительной возможностью осуществлять:

во время фазы обучения:

16. Система по п. 14, в которой соответствующая аннотация дополнительно включает в себя:

17. Система по п. 15, в которой во время фазы обучения, соответствующий параметр сходства вычисляется путем использования одного из: скалярного произведения или коэффициента Отиаи (косинусного коэффициента).

18. Система по п. 16, в которой соответствующий второй параметр сходства вычисляется вторым алгоритмом машинного обучения на основе:

19. Система по п. 18, в которой для вычисления вторым алгоритмом машинного обучения для каждого из по меньшей мере одного соответствующего поискового запроса, который был использован для получения доступа к соответствующему поисковому результату, соответствующего второго параметра сходства, процессор выполнен с возможностью осуществлять:

20. Система по п. 17, в которой обучение второго алгоритма машинного обучения на наборе обучающих объектов для определения параметра сходства новой пары запросов основано по меньшей мере на соответствующем текстовом свойстве каждого запроса из новой пары запросов.

21. Система по п. 20, в которой облачный сервис является сервисом облачного хранения.

22. Система по п. 21, в которой классификатор реализуется как алгоритм машинного обучения на основе дерева решений.

23. Система по п. 22, в которой первый алгоритм машинного обучения использует множество дополнительных факторов для ранжирования, и причем соответствующий второй параметр сходства добавляется ко множеству дополнительных факторов для ранжирования.

24. Система по п. 14, в которой параметр пользовательского взаимодействия является по меньшей мере одним из: кликабельность или время простоя.

25. Система по п. 16, в которой процессор далее выполнен с возможностью, до этапа получения нового запроса, осуществлять:

сохранение множества аннотаций в хранилище системы.

26. Система по п. 21, в которой создание множества векторов аннотации производится с помощью третьего алгоритма машинного обучения.