RU2266560C1 - Method utilized to search for information in poly-topic arrays of unorganized texts - Google Patents
Method utilized to search for information in poly-topic arrays of unorganized texts Download PDFInfo
- Publication number
- RU2266560C1 RU2266560C1 RU2004113072/09A RU2004113072A RU2266560C1 RU 2266560 C1 RU2266560 C1 RU 2266560C1 RU 2004113072/09 A RU2004113072/09 A RU 2004113072/09A RU 2004113072 A RU2004113072 A RU 2004113072A RU 2266560 C1 RU2266560 C1 RU 2266560C1
- Authority
- RU
- Russia
- Prior art keywords
- terms
- documents
- search
- query
- class
- Prior art date
Links
Images
Abstract
Description
Изобретение относится к области информационных технологий, в частности к способам поиска информации в больших документальных базах данных (БД).The invention relates to the field of information technology, in particular to methods of searching for information in large documentary databases (DB).
Известен способ поиска информации путем анализа взаимной встречаемости терминов запроса и терминов в найденных документах, а также анализа мер сходства векторов документов, представленных на различных языках, так называемое семантическое векторное совпадение (US 6006221, G 06 F 17/30, опубл. 21.12.1999).There is a method of searching for information by analyzing the mutual occurrence of query terms and terms in documents found, as well as analyzing similarity measures of document vectors presented in different languages, the so-called semantic vector match (US 6006221, G 06 F 17/30, publ. 21.12.1999 )
Недостатком данного способа является сложность операций по построению и преобразованию (суммирование, нормализация) векторов.The disadvantage of this method is the complexity of the construction and transformation (summation, normalization) of vectors.
Известен способ автоматизированного поиска информации с расширением запроса путем построения статистического тезауруса (US 5926811, G 06 F 17/30, опубл. 20.07.1999).A known method of automated information retrieval with query expansion by constructing a statistical thesaurus (US 5926811, G 06 F 17/30, publ. 20.07.1999).
Недостатком указанного способа является то, что тезаурусы требуют частого обновления.The disadvantage of this method is that thesauri require frequent updates.
Наиболее близким аналогом к заявляемому способу поиска информации является способ поиска информации (US 4839853, G 06 F 15/40, опубл. 13.01.1989) с использованием латентно-семантической структуры. Согласно этому способу из найденных в ответ на первоначальный запрос пользователя документов выделяются значимые для данной темы термины, затем этим терминам присваиваются веса значимости, после этого строится вектор запроса и все документы исходной БД ранжируются по степени сходства с этим вектором на основании соответствующей меры близости - косинус угла между вектором запроса и вектором найденного документа.The closest analogue to the claimed method of searching for information is a method of searching for information (US 4839853, G 06 F 15/40, publ. 13.01.1989) using a latent-semantic structure. According to this method, the terms that are significant for a given topic are selected from the documents found in response to the user's initial request, then these terms are assigned weight of significance, after which the query vector is built and all documents of the original database are ranked by the degree of similarity with this vector based on the corresponding proximity measure - cosine the angle between the query vector and the document vector found.
По своей сути описанный способ является рекурсивным, то есть потенциально позволяющим на основе статистического анализа последующих выдач документов строить все более развитые векторы запросов.At its core, the described method is recursive, that is, potentially allowing on the basis of statistical analysis of subsequent issuance of documents to build more and more developed query vectors.
Недостатком этого способа является его низкая производительность вследствие того, что значения мер близости векторов запросов и документов (ранги документов) уменьшаются для каждой БД и каждого запроса слишком быстро, и следовательно, вместо "плавного" рекурсивного наращивания полноты поиска системам приходится выдавать пользователям только весьма небольшое множество документов самых высоких рангов, предварительно установив жесткое пороговое значение меры близости. Другими словами, настоящей рекурсии не получается из-за того, что все последующие (развитые) векторы запросов слишком зависят от лексического состава выдачи, полученной в ответ на первый, зачастую весьма неэффективный запрос пользователя. Это приводит к тому, что значительно увеличивается время, затрачиваемое на проведение поиска.The disadvantage of this method is its low performance due to the fact that the values of proximity measures of query and document vectors (document ranks) decrease for each database and each query too quickly, and therefore, instead of a “smooth” recursive increase in search completeness, systems have to give users only a very small many documents of the highest ranks, having previously set a hard threshold value for the proximity measure. In other words, this recursion fails due to the fact that all subsequent (developed) query vectors are too dependent on the lexical composition of the results obtained in response to the first, often very inefficient user request. This leads to the fact that significantly increases the time spent on the search.
Решаемой изобретением задачей является устранение указанного недостатка и усовершенствование информационно-поисковой системы (ИПС). Достигаемый технический результат заключается в сокращении времени поиска нужной информации за счет сокращения количества рекурсий (повторений запросов).The problem solved by the invention is to eliminate this drawback and improve the information retrieval system (IPS). The technical result achieved is to reduce the search time for the necessary information by reducing the number of recursions (repetitions of queries).
Указанный технический результат достигается тем, что вводится новый критерий выдачи документов, позволяющий пользователю получать релевантные документы, наполненные новыми терминами, необходимыми для проведения дальнейших рекурсий (повторений запросов).The specified technical result is achieved by introducing a new criterion for issuing documents, allowing the user to receive relevant documents filled with new terms necessary for further recursions (repetitions of requests).
А именно, в способе поиска информации с использованием информационно-поисковой системы, в котором терминам вектора запроса присваивают порядковые номера, затем осуществляют поиск с занесением в память компьютера номеров найденных документов, в которых присутствует хотя бы один термин вектора запроса, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем сортируют в памяти компьютера документы по классам с равным количеством совпавших терминов, согласно данному изобретению осуществляют формирование внутри всех классов - подклассов индекса i классов индекса j, характеризующихся полным совпадением номеров терминов, затем определение количества документов (nij) в подклассах индекса i классов индекса j, затем определение количества документов (nj) класса j, затем определение вероятности принадлежности документа к подклассу i, при условии его принадлежности к классу j, как:Namely, in the method of searching for information using the information retrieval system, in which the terms of the query vector are assigned serial numbers, then a search is carried out with the numbers of the documents found in which at least one query vector term is present in the computer memory, then they are stored in the computer memory the number of matching terms with query terms and the serial numbers of matching terms, then sort documents in computer memory into classes with an equal number of matching terms, according to According to the invention, the formation of all classes — subclasses of index i of classes of index j, characterized by complete coincidence of the numbers of terms — is carried out, then the number of documents (n ij ) in the subclasses of index i of classes of index j is determined, then the number of documents (n j ) of class j is determined, then the probabilities of a document belonging to subclass i, provided that it belongs to class j, as:
затем определение критерия выдачи для каждого класса как:then determining the delivery criteria for each class as:
и далее расширение запроса, если в документах класса Hjmax, содержатся новые термины, которые относятся к тематике поиска. Hjmax - максимальное значение параметра характеризующего критерий выдачи классов документов.and further expansion of the query, if the documents of class H jmax contain new terms that relate to the search topic. H jmax is the maximum value of the parameter characterizing the criteria for issuing document classes.
Другой дополнительной особенностью данного способа может являться то, что в ИПС загружаются документы, представленные на естественном языке. При этом в ИПС для осуществления предлагаемого способа используется входной формат ASC11.Another additional feature of this method may be that documents submitted in natural language are loaded into the IPS. Moreover, in the IPS, the input format ASC11 is used to implement the proposed method.
Еще одной дополнительной особенностью данного способа может являться то, что формирование классов и подклассов документов осуществляется автоматически.Another additional feature of this method may be that the formation of classes and subclasses of documents is carried out automatically.
Еще одной дополнительной особенностью данного способа может являться то, что количество терминов вектора запроса находится в диапазоне от 10 до 1000.Another additional feature of this method may be that the number of terms of the query vector is in the range from 10 to 1000.
В данном случае под вектором запроса понимается набор ключевых слов, классификационных индексов, фраз или просто слов без присвоения им весов значимости.In this case, the query vector is understood as a set of keywords, classification indices, phrases, or just words without assigning significance weights to them.
Наиболее сложной задачей информационного поиска является обнаружение информации, обозначение которой пользователю неизвестно. Поэтому, прежде чем получить нужный документ, необходимо найти дескрипторы - слова, классификационные индексы, имена и.т.п., по которым информация может быть найдена.The most difficult task of information retrieval is the discovery of information whose designation is unknown to the user. Therefore, before obtaining the desired document, it is necessary to find descriptors - words, classification indices, names, etc., by which information can be found.
Это отнюдь не простая задача. Даже слова естественного языка не всегда легко подобрать для проведения эффективного сеанса поиска. Индексы различных классификаций и рубрикаторов, марки, названия фирм могут быть и вовсе не известны пользователю системы. Поэтому необходим механизм обнаружения таких терминов, по которым может быть найдена лексически удаленная, но необходимая пользователю информация.This is by no means an easy task. Even natural language words are not always easy to pick up for an effective search session. Indices of various classifications and rubrics, brands, company names may not be known at all to the system user. Therefore, a mechanism is needed to detect such terms by which lexically deleted, but necessary for the user information can be found.
Простейшим способом расширения запроса является отбор новых потенциально полезных терминов из документов, найденных в ответ на данный запрос.The easiest way to expand the query is to select new potentially useful terms from documents found in response to this query.
Если пользователь выбрал набор терминов t1, t2, t3...tk, то необходимо установить правило, по которому ему будут выдаваться другие документы из исходного поискового массива, содержащие эти термины. Обычная логика подсказывает, что чем больше терминов из выбранных содержит документ, тем выше вероятность, что его содержание соответствует тематике первоначального запроса, и, следовательно, этот документ должен быть выдан в первую очередь. С другой стороны, такой документ лексически похож на те документы, из которых были выбраны термины t1, t2, t3...tk, и следовательно, слишком мала вероятность того, что в этом документе могут быть найдены дополнительные, полезные термины для дальнейшего расширения запроса и продолжений рекурсивного поиска.If the user has chosen a set of terms t 1 , t 2 , t 3 ... t k , then it is necessary to establish a rule by which other documents from the original search array containing these terms will be returned to him. Conventional logic suggests that the more terms a document contains from the selected ones, the higher the likelihood that its content matches the subject of the initial request, and therefore this document should be issued first. On the other hand, such a document is lexically similar to those documents from which the terms t 1 , t 2 , t 3 ... t k were selected, and therefore, the likelihood that additional, useful terms can be found in this document to further expand the query and continue the recursive search.
Если произвести разбиение исходного поискового массива на классы документов с равным количеством терминов, совпавших с набором t1, t2, t3...tk и использовать в качестве критерия выдачи класса с индексом j количество совпавших терминов, то число отобранных новых полезных терминов на каждом шаге итерации будет в среднем в 2 раза меньше, чем при использовании критерия Hj(1), при одинаковом количестве просмотренных релевантных документов.If we divide the original search array into document classes with an equal number of terms that coincide with the set t 1 , t 2 , t 3 ... t k and use the number of matching terms as the criterion for issuing a class with index j, then the number of new useful terms is selected at each iteration step it will be on average 2 times less than when using the criterion H j (1), with the same number of relevant documents viewed.
Изобретение поясняется чертежами.The invention is illustrated by drawings.
Заявленный способ может быть реализован с помощью системы поиска информацииThe claimed method can be implemented using the information retrieval system
На фигуре 1 представлена функциональная схема системы поиска информации.The figure 1 presents a functional diagram of an information retrieval system.
На фигуре 2 представлена блок схема алгоритма заявленного способа.The figure 2 presents a block diagram of the algorithm of the claimed method.
Система содержит блок формирования запроса 1, первый выход которого связан с входом блока памяти номеров документов 2, выход которого связан с первым входом блока поиска и сортировки 4, выход которого через соответствующие шины данных 9 и шины управления 10 связан с процессором 5, блоком воспроизведения 7, базой данных 6 и контроллером 8, причем второй вход блока поиска и сортировки 4 связан с выходом блока памяти номеров терминов 3, вход которого связан со вторым выходом блока формирования запроса 1.The system comprises a request generation unit 1, the first output of which is connected to the input of the document number memory block 2, the output of which is connected to the first input of the search and sorting unit 4, the output of which is connected via the corresponding data bus 9 and control bus 10 to the processor 5, playback unit 7 , a database 6 and a controller 8, wherein the second input of the search and sorting unit 4 is connected to the output of the term number memory block 3, the input of which is connected to the second output of the request generation unit 1.
Система для поиска информации согласно изобретению работает следующим образом.The system for searching for information according to the invention operates as follows.
Блок формирования запроса 1 может представлять собой стандартный блок ввода-вывода данных с клавиатурой и мышью, с возможностью отображения вводимой информации на экране блока воспроизведения 7, т.е. это может быть дисплей, экран монитора и.т.п. В то же время блок формирования запроса 1 может быть выполнен в виде формирователя сообщения о выборе базы данных для проведения поиска, которое передается в контроллер 8 для запуска программы поиска в выбранной базе данных.The request generation unit 1 may be a standard data input-output unit with a keyboard and mouse, with the ability to display the input information on the screen of the playback unit 7, i.e. it can be a display, monitor screen, etc. At the same time, the request generation unit 1 can be made in the form of a shaper of a message about choosing a database for searching, which is transmitted to controller 8 to start the search program in the selected database.
Поиск осуществляется следующим образом.The search is as follows.
При включении системы пользователю с помощью блока воспроизведения 7 предлагается меню, которое отображается на экране, на котором, в частности, представлен перечень названий имеющихся баз данных системы. Далее с помощью блока формирования запроса 1 пользователь формирует первоначальный запрос, сообщение об этом сразу попадает в контроллер 8.When the system is turned on, the user is offered a menu using the playback unit 7, which is displayed on the screen, which, in particular, presents a list of the names of the available system databases. Next, using the request generation unit 1, the user generates an initial request, a message about this immediately goes to the controller 8.
Далее пользователю системы предлагаются документы, выданные на первоначальный запрос, которые отображаются на экране, в которых ему предлагается выбрать новые термины, которые по его мнению могут относиться к интересующей его тематической области, причем терминам запроса присваивают порядковые номера с занесением их в блок памяти номеров документов 2 и далее в блок поиска и сортировки 4, который через шину данных 9 отправляет запрос в базу данных 6.Next, the user of the system is offered documents issued to the initial request, which are displayed on the screen, in which he is invited to select new terms that, in his opinion, may relate to the subject area of interest to him, and the query terms are assigned serial numbers with their entry in the document number memory block 2 and further to the search and sorting unit 4, which sends a request to the database 6 through the data bus 9.
С помощью блока воспроизведения 7 пользователь может ознакомиться с документами, найденными на запрос.Using the playback unit 7, the user can get acquainted with the documents found upon request.
Далее номера документов, содержащие термины, совпавшие с терминами запроса, заносятся в блок памяти номеров документов 2, после чего в блоке поиска и сортировки 4 осуществляют сортировку документов по классам с равным количеством совпавших терминов.Next, the document numbers containing terms that coincide with the query terms are entered in the document number memory unit 2, after which the documents are sorted into classes with equal number of matching terms in the search and sorting unit 4.
Далее внутри классов формируют подклассы, характеризующиеся полным совпадением номеров совпавших терминов. Затем процессор 5 проводит расчет характеристики Нj для каждого класса документов.Next, subclasses are formed inside the classes, characterized by the complete coincidence of the numbers of the matching terms. Then, the processor 5 calculates the characteristic H j for each class of documents.
Используя такую характеристику, пользователь системы может специальной командой с помощью блока формирования запроса 1 дополнить терминами (из документов класса с Hjmax) первоначальный запрос. Дальнейший поиск может быть также проведен с использованием сохраненных запросов в блоке памяти номеров терминов 3 и состоящих только из терминов, содержащихся в документах класса с Hjmax.Using this characteristic, the user of the system can supplement the initial request with terms (from class documents with H jmax ) using a special request generation unit 1. A further search can also be carried out using stored queries in the memory block of the term numbers 3 and consisting only of the terms contained in the class documents with H jmax .
По дополненному запросу ИПС позволяет найти необходимую пользователю, но лексически удаленную от первоначального запроса информацию.By an augmented request, the IPS allows you to find the information that is necessary for the user, but lexically removed from the initial request.
Указанная последовательность действий повторяется до тех пор, пока в найденных документах класса с Hjmax будут встречаться новые термины, относящиеся к исследуемой тематике.The indicated sequence of actions is repeated until new terms related to the subject under study are found in the found class documents with H jmax .
Опыты показывают, что указанный технический результат может быть достигнут только взаимосвязанной совокупностью всех существенных признаков заявленного изобретения, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их не очевидностью - об изобретательском уровне, что было показано выше. Соответствие критерию "промышленная применимость" предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков.The experiments show that the specified technical result can be achieved only by an interconnected set of all the essential features of the claimed invention, reflected in the claims. The differences indicated in it give reason to conclude that the technical solution is new, and the totality of the claimed claims in connection with their non-obviousness is about the inventive step, which was shown above. Compliance with the criterion of "industrial applicability" of the proposed method is proved both by its implementation and by the absence in the claimed claims of any features that are practically not practicable on an industrial scale.
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004113072/09A RU2266560C1 (en) | 2004-04-28 | 2004-04-28 | Method utilized to search for information in poly-topic arrays of unorganized texts |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004113072/09A RU2266560C1 (en) | 2004-04-28 | 2004-04-28 | Method utilized to search for information in poly-topic arrays of unorganized texts |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2004113072A RU2004113072A (en) | 2005-10-27 |
RU2266560C1 true RU2266560C1 (en) | 2005-12-20 |
Family
ID=35863516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2004113072/09A RU2266560C1 (en) | 2004-04-28 | 2004-04-28 | Method utilized to search for information in poly-topic arrays of unorganized texts |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2266560C1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2464630C2 (en) * | 2007-09-28 | 2012-10-20 | Майкрософт Корпорейшн | Two-pass hash extraction of text strings |
RU2503058C2 (en) * | 2008-06-13 | 2013-12-27 | Майкрософт Корпорейшн | Search index format optimisation |
-
2004
- 2004-04-28 RU RU2004113072/09A patent/RU2266560C1/en not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2464630C2 (en) * | 2007-09-28 | 2012-10-20 | Майкрософт Корпорейшн | Two-pass hash extraction of text strings |
RU2503058C2 (en) * | 2008-06-13 | 2013-12-27 | Майкрософт Корпорейшн | Search index format optimisation |
US8914380B2 (en) | 2008-06-13 | 2014-12-16 | Microsoft Corporation | Search index format optimizations |
Also Published As
Publication number | Publication date |
---|---|
RU2004113072A (en) | 2005-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7299247B2 (en) | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors | |
CN109829104B (en) | Semantic similarity based pseudo-correlation feedback model information retrieval method and system | |
US6665661B1 (en) | System and method for use in text analysis of documents and records | |
Robertson et al. | The TREC 2002 Filtering Track Report. | |
US6678677B2 (en) | Apparatus and method for information retrieval using self-appending semantic lattice | |
US6829605B2 (en) | Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
US6876998B2 (en) | Method for cross-linguistic document retrieval | |
US6523030B1 (en) | Sort system for merging database entries | |
US20070106499A1 (en) | Natural language search system | |
JPH09223161A (en) | Method and device for generating query response in computer-based document retrieval system | |
US5893094A (en) | Method and apparatus using run length encoding to evaluate a database | |
US20060080315A1 (en) | Statistical natural language processing algorithm for use with massively parallel relational database management system | |
US6505198B2 (en) | Sort system for text retrieval | |
US8380731B2 (en) | Methods and apparatus using sets of semantically similar words for text classification | |
Song et al. | Translation of natural language query into keyword query using a RNN encoder-decoder | |
JP3198932B2 (en) | Document search device | |
JP2003281183A (en) | Document information retrieval device, document information retrieval method and document information retrieval program | |
Ruambo et al. | Towards enhancing information retrieval systems: A brief survey of strategies and challenges | |
KR20020089677A (en) | Method for classifying a document automatically and system for the performing the same | |
JP5418138B2 (en) | Document search system, information processing apparatus, and program | |
RU2266560C1 (en) | Method utilized to search for information in poly-topic arrays of unorganized texts | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
JPH10254888A (en) | Information processor and its method | |
JP3249743B2 (en) | Document search system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20110429 |