RU2266560C1

RU2266560C1 - Method utilized to search for information in poly-topic arrays of unorganized texts

Info

Publication number: RU2266560C1
Application number: RU2004113072/09A
Authority: RU
Inventors: С.В. Попов (RU); С.В. Попов
Original assignee: Федеральное государственное унитарное предприятие "Институт промышленного развития "Информэлектро"
Priority date: 2004-04-28
Filing date: 2004-04-28
Publication date: 2005-12-20
Also published as: RU2004113072A

Abstract

FIELD: computer science.

SUBSTANCE: method includes assigning order names to query vector terms, performing search with recording numbers of documents in computer memory with at least one term of query vector, number of terms, matched by query terms, is recorded in computer memory, as well as order numbers of matching terms, documents are sorted in computer memory in accordance to classes with even number of matching terms. Additionally introduced is new criterion of documents dispensing, allowing for user to receive relevant documents, filled with new terms, necessary to perform further recursions. Efficiency of method does not depend on natural language of texts in database.

EFFECT: when used to search for information in extensive document databases, it is possible to reduce time required for finding needed information due to lesser number of recursive (repeated) queries.

4 cl, 2 dwg

Description

Изобретение относится к области информационных технологий, в частности к способам поиска информации в больших документальных базах данных (БД).The invention relates to the field of information technology, in particular to methods of searching for information in large documentary databases (DB).

Известен способ поиска информации путем анализа взаимной встречаемости терминов запроса и терминов в найденных документах, а также анализа мер сходства векторов документов, представленных на различных языках, так называемое семантическое векторное совпадение (US 6006221, G 06 F 17/30, опубл. 21.12.1999).There is a method of searching for information by analyzing the mutual occurrence of query terms and terms in documents found, as well as analyzing similarity measures of document vectors presented in different languages, the so-called semantic vector match (US 6006221, G 06 F 17/30, publ. 21.12.1999 )

Недостатком данного способа является сложность операций по построению и преобразованию (суммирование, нормализация) векторов.The disadvantage of this method is the complexity of the construction and transformation (summation, normalization) of vectors.

Известен способ автоматизированного поиска информации с расширением запроса путем построения статистического тезауруса (US 5926811, G 06 F 17/30, опубл. 20.07.1999).A known method of automated information retrieval with query expansion by constructing a statistical thesaurus (US 5926811, G 06 F 17/30, publ. 20.07.1999).

Недостатком указанного способа является то, что тезаурусы требуют частого обновления.The disadvantage of this method is that thesauri require frequent updates.

Наиболее близким аналогом к заявляемому способу поиска информации является способ поиска информации (US 4839853, G 06 F 15/40, опубл. 13.01.1989) с использованием латентно-семантической структуры. Согласно этому способу из найденных в ответ на первоначальный запрос пользователя документов выделяются значимые для данной темы термины, затем этим терминам присваиваются веса значимости, после этого строится вектор запроса и все документы исходной БД ранжируются по степени сходства с этим вектором на основании соответствующей меры близости - косинус угла между вектором запроса и вектором найденного документа.The closest analogue to the claimed method of searching for information is a method of searching for information (US 4839853, G 06 F 15/40, publ. 13.01.1989) using a latent-semantic structure. According to this method, the terms that are significant for a given topic are selected from the documents found in response to the user's initial request, then these terms are assigned weight of significance, after which the query vector is built and all documents of the original database are ranked by the degree of similarity with this vector based on the corresponding proximity measure - cosine the angle between the query vector and the document vector found.

По своей сути описанный способ является рекурсивным, то есть потенциально позволяющим на основе статистического анализа последующих выдач документов строить все более развитые векторы запросов.At its core, the described method is recursive, that is, potentially allowing on the basis of statistical analysis of subsequent issuance of documents to build more and more developed query vectors.

Недостатком этого способа является его низкая производительность вследствие того, что значения мер близости векторов запросов и документов (ранги документов) уменьшаются для каждой БД и каждого запроса слишком быстро, и следовательно, вместо "плавного" рекурсивного наращивания полноты поиска системам приходится выдавать пользователям только весьма небольшое множество документов самых высоких рангов, предварительно установив жесткое пороговое значение меры близости. Другими словами, настоящей рекурсии не получается из-за того, что все последующие (развитые) векторы запросов слишком зависят от лексического состава выдачи, полученной в ответ на первый, зачастую весьма неэффективный запрос пользователя. Это приводит к тому, что значительно увеличивается время, затрачиваемое на проведение поиска.The disadvantage of this method is its low performance due to the fact that the values of proximity measures of query and document vectors (document ranks) decrease for each database and each query too quickly, and therefore, instead of a “smooth” recursive increase in search completeness, systems have to give users only a very small many documents of the highest ranks, having previously set a hard threshold value for the proximity measure. In other words, this recursion fails due to the fact that all subsequent (developed) query vectors are too dependent on the lexical composition of the results obtained in response to the first, often very inefficient user request. This leads to the fact that significantly increases the time spent on the search.

Решаемой изобретением задачей является устранение указанного недостатка и усовершенствование информационно-поисковой системы (ИПС). Достигаемый технический результат заключается в сокращении времени поиска нужной информации за счет сокращения количества рекурсий (повторений запросов).The problem solved by the invention is to eliminate this drawback and improve the information retrieval system (IPS). The technical result achieved is to reduce the search time for the necessary information by reducing the number of recursions (repetitions of queries).

Указанный технический результат достигается тем, что вводится новый критерий выдачи документов, позволяющий пользователю получать релевантные документы, наполненные новыми терминами, необходимыми для проведения дальнейших рекурсий (повторений запросов).The specified technical result is achieved by introducing a new criterion for issuing documents, allowing the user to receive relevant documents filled with new terms necessary for further recursions (repetitions of requests).

А именно, в способе поиска информации с использованием информационно-поисковой системы, в котором терминам вектора запроса присваивают порядковые номера, затем осуществляют поиск с занесением в память компьютера номеров найденных документов, в которых присутствует хотя бы один термин вектора запроса, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем сортируют в памяти компьютера документы по классам с равным количеством совпавших терминов, согласно данному изобретению осуществляют формирование внутри всех классов - подклассов индекса i классов индекса j, характеризующихся полным совпадением номеров терминов, затем определение количества документов (n_ij) в подклассах индекса i классов индекса j, затем определение количества документов (n_j) класса j, затем определение вероятности принадлежности документа к подклассу i, при условии его принадлежности к классу j, как:Namely, in the method of searching for information using the information retrieval system, in which the terms of the query vector are assigned serial numbers, then a search is carried out with the numbers of the documents found in which at least one query vector term is present in the computer memory, then they are stored in the computer memory the number of matching terms with query terms and the serial numbers of matching terms, then sort documents in computer memory into classes with an equal number of matching terms, according to According to the invention, the formation of all classes — subclasses of index i of classes of index j, characterized by complete coincidence of the numbers of terms — is carried out, then the number of documents (n _ij ) in the subclasses of index i of classes of index j is determined, then the number of documents (n _j ) of class j is determined, then the probabilities of a document belonging to subclass i, provided that it belongs to class j, as:

затем определение критерия выдачи для каждого класса как:then determining the delivery criteria for each class as:

и далее расширение запроса, если в документах класса H_jmax, содержатся новые термины, которые относятся к тематике поиска. H_jmax - максимальное значение параметра характеризующего критерий выдачи классов документов.and further expansion of the query, if the documents of class H _jmax contain new terms that relate to the search topic. H _jmax is the maximum value of the parameter characterizing the criteria for issuing document classes.

Другой дополнительной особенностью данного способа может являться то, что в ИПС загружаются документы, представленные на естественном языке. При этом в ИПС для осуществления предлагаемого способа используется входной формат ASC11.Another additional feature of this method may be that documents submitted in natural language are loaded into the IPS. Moreover, in the IPS, the input format ASC11 is used to implement the proposed method.

Еще одной дополнительной особенностью данного способа может являться то, что формирование классов и подклассов документов осуществляется автоматически.Another additional feature of this method may be that the formation of classes and subclasses of documents is carried out automatically.

Еще одной дополнительной особенностью данного способа может являться то, что количество терминов вектора запроса находится в диапазоне от 10 до 1000.Another additional feature of this method may be that the number of terms of the query vector is in the range from 10 to 1000.

В данном случае под вектором запроса понимается набор ключевых слов, классификационных индексов, фраз или просто слов без присвоения им весов значимости.In this case, the query vector is understood as a set of keywords, classification indices, phrases, or just words without assigning significance weights to them.

Наиболее сложной задачей информационного поиска является обнаружение информации, обозначение которой пользователю неизвестно. Поэтому, прежде чем получить нужный документ, необходимо найти дескрипторы - слова, классификационные индексы, имена и.т.п., по которым информация может быть найдена.The most difficult task of information retrieval is the discovery of information whose designation is unknown to the user. Therefore, before obtaining the desired document, it is necessary to find descriptors - words, classification indices, names, etc., by which information can be found.

Это отнюдь не простая задача. Даже слова естественного языка не всегда легко подобрать для проведения эффективного сеанса поиска. Индексы различных классификаций и рубрикаторов, марки, названия фирм могут быть и вовсе не известны пользователю системы. Поэтому необходим механизм обнаружения таких терминов, по которым может быть найдена лексически удаленная, но необходимая пользователю информация.This is by no means an easy task. Even natural language words are not always easy to pick up for an effective search session. Indices of various classifications and rubrics, brands, company names may not be known at all to the system user. Therefore, a mechanism is needed to detect such terms by which lexically deleted, but necessary for the user information can be found.

Простейшим способом расширения запроса является отбор новых потенциально полезных терминов из документов, найденных в ответ на данный запрос.The easiest way to expand the query is to select new potentially useful terms from documents found in response to this query.

Если пользователь выбрал набор терминов t₁, t₂, t₃...t_k, то необходимо установить правило, по которому ему будут выдаваться другие документы из исходного поискового массива, содержащие эти термины. Обычная логика подсказывает, что чем больше терминов из выбранных содержит документ, тем выше вероятность, что его содержание соответствует тематике первоначального запроса, и, следовательно, этот документ должен быть выдан в первую очередь. С другой стороны, такой документ лексически похож на те документы, из которых были выбраны термины t₁, t₂, t₃...t_k, и следовательно, слишком мала вероятность того, что в этом документе могут быть найдены дополнительные, полезные термины для дальнейшего расширения запроса и продолжений рекурсивного поиска.If the user has chosen a set of terms t ₁ , t ₂ , t ₃ ... t _k , then it is necessary to establish a rule by which other documents from the original search array containing these terms will be returned to him. Conventional logic suggests that the more terms a document contains from the selected ones, the higher the likelihood that its content matches the subject of the initial request, and therefore this document should be issued first. On the other hand, such a document is lexically similar to those documents from which the terms t ₁ , t ₂ , t ₃ ... t _k were selected, and therefore, the likelihood that additional, useful terms can be found in this document to further expand the query and continue the recursive search.

Если произвести разбиение исходного поискового массива на классы документов с равным количеством терминов, совпавших с набором t₁, t₂, t₃...t_k и использовать в качестве критерия выдачи класса с индексом j количество совпавших терминов, то число отобранных новых полезных терминов на каждом шаге итерации будет в среднем в 2 раза меньше, чем при использовании критерия H_j(1), при одинаковом количестве просмотренных релевантных документов.If we divide the original search array into document classes with an equal number of terms that coincide with the set t ₁ , t ₂ , t ₃ ... t _k and use the number of matching terms as the criterion for issuing a class with index j, then the number of new useful terms is selected at each iteration step it will be on average 2 times less than when using the criterion H _j (1), with the same number of relevant documents viewed.

Изобретение поясняется чертежами.The invention is illustrated by drawings.

Заявленный способ может быть реализован с помощью системы поиска информацииThe claimed method can be implemented using the information retrieval system

На фигуре 1 представлена функциональная схема системы поиска информации.The figure 1 presents a functional diagram of an information retrieval system.

На фигуре 2 представлена блок схема алгоритма заявленного способа.The figure 2 presents a block diagram of the algorithm of the claimed method.

Система содержит блок формирования запроса 1, первый выход которого связан с входом блока памяти номеров документов 2, выход которого связан с первым входом блока поиска и сортировки 4, выход которого через соответствующие шины данных 9 и шины управления 10 связан с процессором 5, блоком воспроизведения 7, базой данных 6 и контроллером 8, причем второй вход блока поиска и сортировки 4 связан с выходом блока памяти номеров терминов 3, вход которого связан со вторым выходом блока формирования запроса 1.The system comprises a request generation unit 1, the first output of which is connected to the input of the document number memory block 2, the output of which is connected to the first input of the search and sorting unit 4, the output of which is connected via the corresponding data bus 9 and control bus 10 to the processor 5, playback unit 7 , a database 6 and a controller 8, wherein the second input of the search and sorting unit 4 is connected to the output of the term number memory block 3, the input of which is connected to the second output of the request generation unit 1.

Система для поиска информации согласно изобретению работает следующим образом.The system for searching for information according to the invention operates as follows.

Блок формирования запроса 1 может представлять собой стандартный блок ввода-вывода данных с клавиатурой и мышью, с возможностью отображения вводимой информации на экране блока воспроизведения 7, т.е. это может быть дисплей, экран монитора и.т.п. В то же время блок формирования запроса 1 может быть выполнен в виде формирователя сообщения о выборе базы данных для проведения поиска, которое передается в контроллер 8 для запуска программы поиска в выбранной базе данных.The request generation unit 1 may be a standard data input-output unit with a keyboard and mouse, with the ability to display the input information on the screen of the playback unit 7, i.e. it can be a display, monitor screen, etc. At the same time, the request generation unit 1 can be made in the form of a shaper of a message about choosing a database for searching, which is transmitted to controller 8 to start the search program in the selected database.

Поиск осуществляется следующим образом.The search is as follows.

При включении системы пользователю с помощью блока воспроизведения 7 предлагается меню, которое отображается на экране, на котором, в частности, представлен перечень названий имеющихся баз данных системы. Далее с помощью блока формирования запроса 1 пользователь формирует первоначальный запрос, сообщение об этом сразу попадает в контроллер 8.When the system is turned on, the user is offered a menu using the playback unit 7, which is displayed on the screen, which, in particular, presents a list of the names of the available system databases. Next, using the request generation unit 1, the user generates an initial request, a message about this immediately goes to the controller 8.

Далее пользователю системы предлагаются документы, выданные на первоначальный запрос, которые отображаются на экране, в которых ему предлагается выбрать новые термины, которые по его мнению могут относиться к интересующей его тематической области, причем терминам запроса присваивают порядковые номера с занесением их в блок памяти номеров документов 2 и далее в блок поиска и сортировки 4, который через шину данных 9 отправляет запрос в базу данных 6.Next, the user of the system is offered documents issued to the initial request, which are displayed on the screen, in which he is invited to select new terms that, in his opinion, may relate to the subject area of interest to him, and the query terms are assigned serial numbers with their entry in the document number memory block 2 and further to the search and sorting unit 4, which sends a request to the database 6 through the data bus 9.

С помощью блока воспроизведения 7 пользователь может ознакомиться с документами, найденными на запрос.Using the playback unit 7, the user can get acquainted with the documents found upon request.

Далее номера документов, содержащие термины, совпавшие с терминами запроса, заносятся в блок памяти номеров документов 2, после чего в блоке поиска и сортировки 4 осуществляют сортировку документов по классам с равным количеством совпавших терминов.Next, the document numbers containing terms that coincide with the query terms are entered in the document number memory unit 2, after which the documents are sorted into classes with equal number of matching terms in the search and sorting unit 4.

Далее внутри классов формируют подклассы, характеризующиеся полным совпадением номеров совпавших терминов. Затем процессор 5 проводит расчет характеристики Н_j для каждого класса документов.Next, subclasses are formed inside the classes, characterized by the complete coincidence of the numbers of the matching terms. Then, the processor 5 calculates the characteristic H _j for each class of documents.

Используя такую характеристику, пользователь системы может специальной командой с помощью блока формирования запроса 1 дополнить терминами (из документов класса с H_jmax) первоначальный запрос. Дальнейший поиск может быть также проведен с использованием сохраненных запросов в блоке памяти номеров терминов 3 и состоящих только из терминов, содержащихся в документах класса с H_jmax.Using this characteristic, the user of the system can supplement the initial request with terms (from class documents with H _jmax ) using a special request generation unit 1. A further search can also be carried out using stored queries in the memory block of the term numbers 3 and consisting only of the terms contained in the class documents with H _jmax .

По дополненному запросу ИПС позволяет найти необходимую пользователю, но лексически удаленную от первоначального запроса информацию.By an augmented request, the IPS allows you to find the information that is necessary for the user, but lexically removed from the initial request.

Указанная последовательность действий повторяется до тех пор, пока в найденных документах класса с H_jmax будут встречаться новые термины, относящиеся к исследуемой тематике.The indicated sequence of actions is repeated until new terms related to the subject under study are found in the found class documents with H _jmax .

Опыты показывают, что указанный технический результат может быть достигнут только взаимосвязанной совокупностью всех существенных признаков заявленного изобретения, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их не очевидностью - об изобретательском уровне, что было показано выше. Соответствие критерию "промышленная применимость" предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков.The experiments show that the specified technical result can be achieved only by an interconnected set of all the essential features of the claimed invention, reflected in the claims. The differences indicated in it give reason to conclude that the technical solution is new, and the totality of the claimed claims in connection with their non-obviousness is about the inventive step, which was shown above. Compliance with the criterion of "industrial applicability" of the proposed method is proved both by its implementation and by the absence in the claimed claims of any features that are practically not practicable on an industrial scale.

Claims

1. Способ поиска информации с использованием информационно-поисковой системы, заключающийся в том, что терминам вектора запроса присваивают порядковые номера, затем поиск осуществляют с занесением в память компьютера номеров документов, в которых присутствует хотя бы один термин вектора запроса, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем в памяти компьютера документы сортируют по классам с равным количеством совпавших терминов, отличающийся тем, что внутри каждого класса формируют подклассы индекса i класса индекса j, характеризующиеся полным совпадением номеров терминов, затем определяют количество документов (n_ij) в подклассе индекса i класса индекса j, затем определяют количество документов (n_j) класса j, затем определяют вероятность принадлежности документа к подклассу i при условии его принадлежности к классу j, как1. The method of searching for information using the information retrieval system, which consists in the fact that the terms of the query vector are assigned serial numbers, then the search is carried out with the numbers of documents in which at least one query vector term is present in the computer’s memory, and then stored in the computer’s memory the number of matching terms with the query terms and serial numbers of matching terms, then in the computer memory the documents are sorted into classes with an equal number of matching terms, characterized in that within each class formed subclasses index i class index j, characterized by a complete coincidence terms numbers, and then determining the number of documents (n _ij) in the subclass index i class index j, and then determine the number of documents (n _j) of class j, then determine the probability of the document belongs to subclass i, provided that it belongs to class j, as

затем определяют критерий выдачи для каждого класса какthen determine the criteria for delivery for each class as

и далее расширяют запрос, если в документах класса с H_jmax содержатся новые термины, которые относятся к тематике поиска.and further expand the query if the class documents with H _jmax contain new terms that relate to the search topic.

2. Способ по п. 1, отличающийся тем, что в информационно-поисковую систему загружаются документы, представленные на естественном языке.2. The method according to claim 1, characterized in that documents presented in natural language are loaded into the information retrieval system.

3. Способ по п. 2, отличающийся тем, что формирование классов и подклассов документов осуществляется автоматически.3. The method according to p. 2, characterized in that the formation of classes and subclasses of documents is carried out automatically.

4. Способ по п. 1, или 2, или 3, отличающийся тем, что количество терминов вектора запроса находится в диапазоне от 10 до 1000.4. The method according to p. 1, or 2, or 3, characterized in that the number of terms of the query vector is in the range from 10 to 1000.