WO2013022384A1 - Способ создания и использования рекурсивного индекса поисковых машин - Google Patents

Способ создания и использования рекурсивного индекса поисковых машин Download PDF

Info

Publication number
WO2013022384A1
WO2013022384A1 PCT/RU2012/000637 RU2012000637W WO2013022384A1 WO 2013022384 A1 WO2013022384 A1 WO 2013022384A1 RU 2012000637 W RU2012000637 W RU 2012000637W WO 2013022384 A1 WO2013022384 A1 WO 2013022384A1
Authority
WO
WIPO (PCT)
Prior art keywords
objects
value
search
named
index
Prior art date
Application number
PCT/RU2012/000637
Other languages
English (en)
French (fr)
Inventor
Олег Александрович СЕРЕБРЕННИКОВ
Original Assignee
Serebrennikov Oleg Aleksandrovich
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Serebrennikov Oleg Aleksandrovich filed Critical Serebrennikov Oleg Aleksandrovich
Priority to US14/238,667 priority Critical patent/US9679002B2/en
Publication of WO2013022384A1 publication Critical patent/WO2013022384A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present application describes a method for constructing and using an index of search engines and relates to the field of computer technology and information processing methods.
  • the present invention allows to implement the functionality of “pulling the text" from the search engine index from an arbitrary place in the text, as well as significantly reduce the complexity of the analysis of the joint occurrence of words in the text, which in turn allows us to make assumptions about implicit (causal, associative and other) relationships between objects in their sequences.
  • the invention expands the possibility of using search engines in the field of indexing and searching for information represented by a sequence of objects other than objects of textual information.
  • the industrial applicability of the invention is shown by examples of the creation and use of information encoded by the Search Engine Index Hits.
  • FIG. 1 Google Search Engine Hits Encoding as described in Anatomy of a Large-Scale Hypertextual Web Search Engine (1), Sergey Brin and Lawrence Page.
  • FIG. 2 Base hit.
  • FIG. 3 Extending Google Base Hit by adding the “Previous” and “Next” fields of the words and obtaining the Extended Hit in accordance with the present invention.
  • the serial numbers of the Previous and Next words are indicated.
  • FIG. 4 Advanced Hit in which the sequence numbers of the Previous and Next words are not specified. They are calculated, knowing the position value of the Basic Hit.
  • FIG. 5 Sample text for indexing.
  • FIG. 6 An example of the contents of the hits of the recursive Indexed Text Index shown in FIG. 5.
  • FIG. 8 Forward and Inverted Google indexes from (1).
  • FIG. 9 of the Expanded Hit in accordance with the present invention may describe the appearance of an object of any nature in the corresponding data array.
  • Adding a “etalD” index of access to metadata for example, a pointer may indicate the location of tagging information in ID3v2 format.
  • FIG. 11 An example of a joint occurrence table for several words in a language
  • FIG. 12 An example of “pulling” sentences from the Recursive Index through the word “TIGER”.
  • FIG. 13 Extended Base Hit table, phrase data type added.
  • FIG. 14 The initial view of the snippet, the word "convenient" is selected by the mouse cursor.
  • FIG. 15 View of the snippet after the mouse is “pulled” by the word “convenient”. This is the effect of “zooming” or “pulling” from the text index, the center of which is the previously chosen word “convenient”.
  • FIG. 16 Placing in the Advanced Hit timestamps and Timestamps.
  • FIG. 17 Advanced Index Hit with TimeStamp.
  • FIG. 18 Temporary Recursive Index.
  • FIG. 19 Temporary Recursive Index with location label Location.
  • FIG. 20 Advanced Hit of the Fractal Path Index (Location locations). . .
  • FIG. 21 Enhanced Recursive Path Index Hit (TimeStamp). Description
  • indexes of the Google search engine and other search engines used to search for information in unstructured text data located in a file system, local network or the Internet, text data containing text markup and objects included in the text - graphics, music, video and so on.
  • the prototype of the Search Engine Index is the paper book word index, which has been known since ancient times. Such an index of words is usually located at the end or beginning of a paper book and contains a list of keywords that are contained in the book. For each word, a list of the pages of the book on which the word occurs is provided.
  • the index of modern Internet search engines is similarly organized. The index contains a list (lexicon) of all known words in the language, each of which is assigned a wordlD identifier, a list of indexed documents each of which is assigned a document identifier docilD, and each of the occurrences of the wordlD in a particular document is represented by an Appearance or a Hit.
  • a hit is a record (Fig. 1) containing the sequence number (position) of the searched word (wordlD) in the document (doclD).
  • Hit Lists of (1) as follows: “There are two types of hits: complex hits (fancy) and simple hits (plain). Complex hits relate to URLs, titles, visible hyperlink text, or web page metadata. Simple hits apply to everything else.
  • a simple hit consists of a capital letter bit (sar: 1), font size (imp: 3) and 12 bits of the word position in the document (all positions above 4095 are indicated by 4096). The font size is presented relative to the rest of the document and uses three bits (in fact, only 7 values are used, since the value 111 is a complex hit flag).
  • a complex hit contains an uppercase bit (sar: 1), the font size is 7 (imp: 7), indicating that it is a complex hit, 4 bits encode the type of the complex hit and 8 bits are used for position.
  • 8 bits of the position are divided into 4 bits for the position in the anchor text and 4 bits for the hash of the doclD value in which the anchor hit was detected.
  • the hit of the Google search engine encodes information about only one specific word (wordlD), located at a specific position (position) of a particular document (doclD), and then we will call this hit “Basic” (Fig. . 2).
  • the main information recorded in the Basic hit is the serial number of the word in the indexed text (position), and we will continue to call it the word number (Position).
  • Basic Hit which depends on a set of variables (cap, type, size, doclD, wordlD, position), so Basic Hit can be conditionally represented by a function of the specified set of variables:
  • Base Hit function (cap, type, size, doclD, wordlD, position).
  • the present invention provides an Enhanced Hit, in which, in addition to the Basic Hit information, is placed (Fig. 3) at least the identifier value (wordlD) of two words: the “previous word”, whose position in the document is one less and equal to (position -1), and the “next word”, whose position in the document is one more and equal to (position + 1).
  • the DoclD document pointer for all three words remains the same by default, since all three words are consecutive words in the text of the same document with the DoclD identifier.
  • Advanced Hit function (cap, type, size, doclD, wordlD, position, Previous WordlD,
  • Advanced Hit function (Basic Hit, Previous WordlD, Next WordlD).
  • the present invention for the first time allows to implement a recursive “pulling” of text from an index starting from any StartHit hit.
  • Previous WordlD previously word
  • Next WordlD next word
  • StartHit Hit of the current word between the previous ⁇ WordlD-1> and the next ⁇ WordlD + 1> words
  • Step 1
  • PrevHit Advanced Hit ( ⁇ WordlD-1>, doclD, position-1, ⁇ WordlD-2>, ⁇ WordlD>))
  • Step 3 Repeat Step 1 and Step 2 for the PrevHit and / or NextHit entries by extracting ⁇ WordlD-3> and ⁇ WordlD- + 3>, go to the Extended Hits entries for ⁇ WordlD-3> and ⁇ WordlD-3 +> and so on to some numbers N and, respectively, ⁇ WordlD-N> and ⁇ WordlD- + N> or until some stop word StopWordlD.
  • a stop word can be, for example, the dot sign separating sentences, or the number N in the expression ⁇ position + -N> or another condition for stopping the "pulling" of source text from the index.
  • a stop word can also be, for example, a word starting with a capital letter (the flag of the Capital letter ⁇ sar>) located in the anchor text or a word that has another stop sign. Similarly, you can restore not one sentence, but an arbitrary number of sentences of the text. Any condition, which can be formulated for a search engine, can serve as a condition for stopping “Recovery”.
  • An important feature of the invention is that it allows not only text to be indexed, but also arrays of information of any nature represented by a numbered ⁇ position> value of a sequence of objects.
  • the presence of the Index of Previous and Next Objects in the Enhanced Hits allows the index to refer to itself to retrieve the next i-ro PreviousObject or i-ro NextObject, respectively having the numbers ⁇ position-i> and ⁇ position + i> in the numbered sequence of the Objects of the original array information.
  • the present invention proposes to use not identifiers of words (wordlD), but an identifier of an object of any nature, and libraries can consist not only of text documents , but also from video materials, pictures, sound files, coordinate information files and any other files.
  • the identifiers on which Hit depends in addition to doclD and WordlD, can be, for example, the type of library libraryD, instead of doclD, you can ⁇ use _, the identifier ...
  • FIG. 9 shows the Enhanced Hit encodings of objects of any nature (including text), where the Basic Hit encodes the current object, NextlD is the identifier of the object next to the current one in the chain and PrevlD is the identifier of the object preceding the current object in the chain (Fig. 9).
  • the present invention proposes the placement of a MetalD pointer in Extended Hit information (Fig. 10).
  • the meta data described by MetalD extends the format of the Basic Hit, supplementing the description of the object whose position contains the Basic Hit. Since the metadata files MPEG, MP3, MPEG4, karaoke and biometric data, and so on, may differ from each other, MetalD for example may contain pointers to the location of the metadata.
  • Advanced Search Engine Hit can have many uses, examples of which are: placing a list of queries to a search engine ranked by rating as metadata of the Recursive Temporary Index of Search Query Rating; placement in the Recursive Temporary Index of a cooking recipe in which metadata can serve as descriptions of ingredients, their weight or volume fractions, temperature, description of the utensils used and other features of the cooking process; placing in the Index a sequence of steps for conducting a chemical reaction or placing a sequence of cartographic points of roads or routes of movement, and so on ...
  • the phrase “Neuro-linguistic programming” can serve as such a concept.
  • the occurrence of words in the sequence ⁇ neuro SZlinguistic C1 programming> will be significantly higher than the words in the reverse sequence ⁇ programming ⁇ linguistic Pneiro>.
  • the phrase ⁇ neuro ⁇ linguistic D programming> forms the concept of "NLP".
  • the condition for stopping “pulling” is the “dot” sign
  • the stability of an arbitrary word combination Wordl DWord2 can be checked by “pulling” from the Recursive Index all word strings, the center of which in one of the cases will be, for example, the word Word (the word for which “pulled”, in the example shown in Fig. 12, was the word “Tiger”).
  • Wordl DWord2 In order to check the same phrase Wordl DWord2 for joint occurrence in the opposite direction of Wordl DWord2, you should “pull” the word Word2 from the index of the word chain and analyze in elongated word chains, cases when NextWord for Word2 is Wordl If, for example, the frequency of occurrence of the combination Wordl DWord2 will be significantly higher than the frequency of occurrence of the combination Word2dWord1, this will indicate that the combination of Wordl DWord2 is stable, and the combination of Word2DWord1 random.
  • Words such as “fire” and “smoke” may not form phrases, but they have a causal relationship, because of which their appearance in one text has a higher probability than there aren’t words . having a causal relationship. This circumstance allows us to expect that on large statistics of texts such a probability will give a surge in the joint occurrence of words that do not form stable phrases, but are connected by cause and effect relationships. It can also be expected that the occurrence of words may have a predominant direction, for example, the occurrence of “fire full” may be higher than reverse occurrence of “smokeOogon”, which may indicate a causal relationship between words or concepts.
  • the present invention proposes to use the Metal D metadata field, where a pointer to the file of objects associated with the Hit in the context of a specific document is entered.
  • a pointer to the file of objects associated with the Hit in the context of a specific document is entered.
  • the recursive index allows us to simplify the Search Engine User Interface (UI) and improve the usability of the search by allowing the user to “pull” the string of words from the Snippet in the list of search results with the cursor, pulling at any word located in snippet text.
  • UI Search Engine User Interface
  • the “elongated” text in this way allows the user with minimal effort to understand how relevant the search result presented by such a snippet is to the user's search query, without resorting to loading the web page whose snippet was shown in the search results.
  • the "zooming" of the text of snippets in the results of a search query to a search engine is shown in the figures below (Fig. 14, Fig. 15).
  • Zooming in this case we mean “pulling” the word selected in the text of the snippet with the cursor (in this case, the word “convenient”). “Zoom” causes the text to be “pulled” from the Recursive Index of words to the left and right of the selected word and the “zoomed” text is displayed in the viewing window.
  • the basic hit is not sensitive to location and time, since it takes into account only the position of the word in the text (Fig. 2). At the same time, for video and audio chronicles (live communication, speech and events recorded on video), time and place can be significant.
  • time stamps ⁇ TimeStamp> and coordinates ⁇ Location> should be used, for example, geodesics (Fig. 16).
  • TimeStamp or TimeOffset timestamp relative to some known TimeStamp time (for example, relative to the start time of recording audio or video).
  • Word hits for ... speech recognition results while “pulling” text from the Recursive Index, allows you to convey the rate of pronunciation of words over time.
  • the values of WordlD, NextlD and PrevlD can be the speaker’s words, codes of recognized video images or digital objects of other origin, the appearance of which is connected chronologically.
  • Recursive Index for indexing a picture of the world
  • the picture of the world for a person consists of information that enters the brain through the channels of the senses (vision, touch, hearing, smell, taste, thermoception and others).
  • the recording of information coming into each channel of human senses is of a chronometric nature and therefore can be represented by a Recursive Index of Sensations.
  • vision these are objects that fall into the field of view, and for the ear, this is a series of sounds that are caught by the ear and so on.
  • the text resulting from speech recognition can use the Extended Hits of the temporary recursive word index (FIG. 17) containing also links to the previous and next word ⁇ Next WordlD> and ⁇ Prev WordlD>.
  • the location label can be more general and contain geodetic or some relative coordinates, for example, the offset of the LocationOffset location relative to some known location Location (for example, from the location of the beginning of the route), as well as the identifier of the data source, such as the name of the TV channel.
  • the Extended Hit (Fig. 16) is shown not for the Word, but for any other Object, video image, chemical substance, location, and so on.
  • the Temporary Recursive Index contains TimeStamp instead of WordlD (Fig. 18).
  • the MetalD identifier indicates the location of the metadata related to the described TimeStamp, and the Prev TimeStamp and Next TimeStamp timestamps indicate the Previous timestamp and Next Timestamp, respectively. In the Timestamp Hit, it is possible to place the Location stamp (Fig. 19) or other necessary information.
  • the Recursive Index Since the property of the Recursive Index is to memorize the sequence of indexing objects, it becomes possible to recursively index sequences of geodetic coordinates and addresses representing, for example, traffic routes or cartographic information of the road network. In this case, the addresses or geodetic coordinates of route points are entered in the index instead of WordlD (Fig. 20 and Fig. 21).
  • PAPRI Recursive Index Analysis and Search Program
  • Recursive Indexing of a web site or data of a personal or network computer / site / file, followed by placing the received Recursive Index file on an indexed site / computer / file allows you to create a model of a distributed Recursive Index of a file system / computer / local network or the Internet, at which Recursive Index! '
  • Each WMnbTbtepa ⁇ or ⁇ ite ⁇ is located on the computer / site itself, which allows users to provide local Recursive search on the computer / site / file, without having to go to the network or Internet search engine.
  • the hardware implementation of PAPRI allows you to organize work with local files of the Recursive Index without resorting to the central search engine.
  • the ability to build a distributed Recursive Index allows you to create an Internet search engine with a distributed Recursive Index.
  • co-occurrence analysis in a recursive index can increase the relevance of search engine searches, including Internet search engines.
  • an exemplary text using query words can be entered into the search engine.
  • Such text is further indexed and a recursive index is created from it.
  • the search in the index of the search engine Hits searches for the occurrence of the words of the search query, and for the hits found analyzes the joint occurrence of the words of the search query with other words of the data arrays indexed by the search engine, as well as the analysis of the joint occurrence with other words of the search query.
  • sample results are compared with the results of the analysis of the joint occurrence of the words of the search query in the data arrays indexed by the search engine (Results of the machine) and if the measure of coincidence of the results. If the measure of coincidence of the Model results with the Results of the machine corresponds to the Selected Measure of Coincidence, then the hit found is considered a relevant search result.
  • One of the important applications can be the indexing of video information - films, video reports, video surveillance results, photographs, and so on. You can index video materials using either the Recursive Text Index or the Recursive Time Index. So creating a Recursive Index of subtitle text information, recognized speech or text (Speech or text recognition) in the metadata are recognized video images - people's faces or objects (face / object recognition). Conversely, for a Recursive Temporary Index of video material, video frame, recognized image, and text can serve as metadata.
  • Creating a Recursive Index of video materials will allow you to create a search engine for recognized images and text of the accompanying video, and also allow you to create a machine for indexing video reports and video materials in real time, which, in turn, will allow you to meet such a technology for indexing and searching for video data in cameras, camcorders, phones and other wearable devices capable of creating video, as well as computers and other devices capable of playing previously created video.
  • the technology for placing a running line of song text in “Karaoke” or subtitle text in video films is implemented using Timed Text technology or a similar technology described by the relevant industry or corporate standards for equipment manufacturers and media media.
  • ⁇ And indexing " in accordance with the present invention of recognized video objects, for the first time provides the ability to search for recognized objects and" pulling "events preceding the appearance of the recognized object or subsequent to the appearance of the recognized object. In turn, this allows to significantly reduce the complexity of the search by the search object in video surveillance materials.
  • Indexing the text of an electronic book in accordance with the present invention allows you to "pull" the text of the book from the recursive index starting with any word in the text, which allows you to use the recursive index as the source of text in the electronic book.
  • the Recursive Index provides the ability to search for text and video information in metadata for media files, including but not limited to audio formats CD, MP3, WMA, AAC, AIFF, M4A and video formats DVD, Blu-Ray , HD, MP4, AVI, MOV, RAM, SWF, WMV and other well-known media formats, as well as the ability to “pull out” part or full text and / or images of a work’s footage in their chronometric order, search in it, conduct mutual data analysis data incidence using techniques described herein.
  • Speech recognition speech recognition
  • text recognition optical character recognition or text recognition
  • face recognition face recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Настоящее изобретение позволяет реализовать функциональность «вытягивания текста» из индекса поисковой машины с произвольного места в тексте, а также существенно снизить трудоемкость анализа совместной встречаемости слов в тексте, что в свою очередь позволяет делать предположения о неявных (причинно-следственных, ассоциативных и прочих) связях между объектами в их последовательностях. Изобретение расширяет возможность применения поисковых машин в области индексирования и поиска информации, представленной последовательностью объектов, отличных от объектов текстовой информации. Настоящее изобретение предлагает в дополнение информации Базового Хита, размещать в Расширенном Хите по меньшей мере, wordID для двух слов: «предыдущего слова», позиция которого в документе на единицу меньше и равна (position-1), и «следующего слова», позиция которого в документе на единицу больше и равна (position+1).

Description

СПОСОБ СОЗДАНИЯ И ИСПОЛЬЗОВАНИЯ РЕКУРСИВНОГО ИНДЕКСА
ПОИСКОВЫХ МАШИН
Настоящая заявка описывает способ построения и использования индекса поисковых машин и относится к области компьютерной техники и способов обработки информации.
Настоящее изобретение позволяет реализовать функциональность «вытягивания текста» из индекса поисковой машины с произвольного места в тексте, а также существенно снизить трудоемкость анализа совместной встречаемости слов в тексте, что в свою очередь позволяет делать предположения о неявных (причинно-следственных, ассоциативных и прочих) связях между объектами в их последовательностях. Изобретение расширяет возможность применения поисковых машин в области индексирования и поиска информации, представленной последовательностью объектов, отличных от объектов текстовой информации. Промышленная применимость изобретения показана на примерах создания и использования информации закодированной Хитами Индекса поисковой машины.
Краткое описание чертежей
Настоящее изобретение лишь проиллюстрировано как примерами, а не как ограничениями применения, сопутствующими чертежами в которых нумерация относится к сходным элементам среди которых:
Фиг. 1 Кодирование Хитов поисковой машины Google как это описано в работе «Тле Anatomy of a Large-Scale Hypertextual Web Search Engine» (1), Sergey Brin and Lawrence Page.
Фиг. 2 Базовый хит.
Фиг. 3 Расширение Базового Хита Google путем добавления полей «предыдущего» (Previous) и «последующего» (Next) слов и получение Расширенного Хита в соответствии с настоящим изобретением. Порядковые номера Предыдущего и Следующего слов указаны.
Фиг. 4 Расширенный Хит в котором порядковые номера Предыдущего и Следующего слов не указаны. Их рассчитывают, зная значение position Базового Хита.
Фиг. 5 Пример текста для индексации. Фиг. 6 Пример содержания Хитов рекурсивного Индекса проиндексированного текста показанного на Фиг. 5.
Фиг. 7 Расширенный Хит, в основе которого лежит структура данных Базового Хита Google.
Фиг. 8 Прямой (Forward) и обратный (Inverted) индексы Google из работы (1).
Фиг. 9 Расширенного Хита в соответствии с настоящим изобретением может описывать появление объекта любой природы в соответствующем массиве данных.
Фиг. 10 Добавление указателя « etalD» доступа к метаданным, например указатель может указывать на местоположение маркировочной информации (tagging) формата ID3v2.
Фиг. 11 Пример таблицы совместной встречаемости нескольких слов языка.
Фиг. 12 Пример «вытягивания» из Рекурсивного Индекса предложений проходящих через слово «TIGER».
Фиг. 13 . Расширенная таблица Базового Хита, добавлен тип данных phrase.
Фиг. 14 Исходный вид сниппета, слово «удобный» выбрано курсором мыши.
Фиг. 15 Вид сниппета после того как мышью «потянули» за слово «удобный». Это эффект «зуммирования» или «вытягивания» из индекса текста, центром которого является выбранное ранее слово «удобный».
Фиг. 16 Размещение в Расширенном Хите меток времени (TimeStamp) и меток местоположения (Location).
Фиг. 17 Расширенный Хит индекса с меткой времени TimeStamp. Фиг. 18 Временной Рекурсивный Индекс.
Фиг. 19 Временной Рекурсивный Индекс с меткой местоположения Location.
Фиг. 20 Расширенный Хит Рекурсивного Путевого Индекса (местоположения Location). . .
Фиг. 21 Расширенный Хит Рекурсивного Путевого Индекса (метки времени TimeStamp). Описание
Известны индексы поисковой машины Google и других поисковых машин, используемые для поиска информации в неструктурированных текстовых данных, размещенных в файловой системе, локальной сети или интернет, текстовых данных содержащих разметку текста и включенные в текст объекты - графику, музыку, видео и прочее.
Прототипом Индекса поисковых машин является индекс слов бумажных книг, который известен издревле. Такой индекс слов располагается, как правило, в конце или начале бумажной книги и содержит список ключевых слов, которые содержатся в книге. Для каждого слова приводится перечень страниц книги, на которых это слово встречается. Аналогичным образом организован и индекс современных поисковых машин Интернет. В индексе содержится список (lexicon) всех известных слов языка каждому из которых присвоен идентификатор wordlD, список проиндексированных документов каждому из которых присвоен идентификатор документа docilD, а каждое из появлений слова wordlD в конкретном документе представлено Появлением или Хитом (hit). Хит является записью (Фиг. 1), содержащей порядковый номер (position) искомого слова (wordlD) в документе (doclD).
Известен патент США N25265244, G06F 17/30 (20060101); G06F 012/00, описывающий способы построения индекса, но не описывающий содержание статистической информации размещаемой в Хите индекса. Известен патент США NS6490579 (G06F 17/30 (20060101); G06F 017/30) поиска информации с учетом контекстной информации размещаемой в поисковом запросе. Известен патент США Νδ 7,925,641 (G06F 17/30 (20060101 ); G06F 7/00 (20060101)) описывающий способ индексирования web страниц и размещения в индексе поисковой машины атрибута URI и структуры контента сайта в дизайне, существующем на момент индексирования сайта.
Известна статья работе «The Anatomy of a Large-Scale Hypertextual Web Search Engine», авторов Sergey Brin и Lawrence Page (далее именуется «работа (1)» http://infolab.stanford.edu/~backrub/QOQQle.html). описывающая кодирование статистической информации Хитами индекса поисковой машины Google. Для обеспечения большей релевантности поиска в Интернете, поисковые машины Интернет размещают в Индексе признаки, связанные с разметкой языка HTML и использованием гипертекстовых ссылок. Рисунок (Фиг. 1), приведенный в работе (1), показывает, что Хит машины Google содержит порядковый номер position слова в нумерованном списке слов текста документа.
Кодирование хитов поясняется в разделе «4.2.5 Hit Lists» работы (1) так: «Существуют два типа хитов: сложные хиты (fancy) и простые хиты (plain). Сложные хиты относятся к URL, наименованиям, видимому тексту гиперссылки, или к метаданным вэб страницы. Простые хиты относятся ко всему остальному. Простой хит состоит из бита заглавной буквы (сар:1), размера фонта (imp:3) и 12 битов позиции слова в документе (все позиции выше 4095 обозначены 4096). Размер фонта представлен относительно остальной части документа и использует три бита (на самом деле используются только 7 значений, поскольку значение 111 является флагом сложного хита). Сложный хит содержит бит заглавной буквы (сар:1), размера фонта равен 7 (imp:7) сигнализируя, что это сложный хит, 4 бита кодируют тип (type) сложного хита и 8 битов используется для позиции (position). Для якорного хита (anchor) 8 битов позиции разбиты на 4 бита для позиции в якорном тексте и 4 бита для хеша (hash) значения doclD в котором якорный хит был обнаружен. Это предоставляет ограниченную поисковую функциональность, ограниченную некоторым числом появлений конкретного слова в якорных текстах. Мы собираемся обновить способ размещения якорных хитов с тем, чтобы предоставить большее разрешение для полей позиции и хеша doclD. Мы используем размер фонта относительно оставшейся части документа так как, когда ищем, мы не хотим ранжировать во всем остальном одинаковые документы как разные, только потому, что один документ использует больший размер фонта.».
Как видно из приведенного описания работы (1), Хит поисковой машины Google кодирует информацию только об одном конкретном слове (wordlD), расположенном в конкретной позиции (position) конкретного документа (doclD), и далее мы станем называть такой хит «Базовым» (Фиг. 2). Главной информацией, которую записывают в Базовый хит, является порядковый номер слова в индексируемом тексте (position), и мы продолжим называть ее номером слова (Position).
В общем, как было сказано выше, появление в тексте некоторого слова представлено в индексе Базовым Хитом, который зависит от набора переменных (cap, type, size, doclD, wordlD, position), таким образом Базовый Хит пожно условно представить функцией указанного набора переменных:
Базовый Хит = функция (cap, type, size, doclD, wordlD, position). Настоящее изобретение предлагает Расширенных Хит, в котором в дополнение к информации Базового Хита, размещается (Фиг. 3), по меньшей мере, значение идентификатора (wordlD) двух слов: «предыдущего слова», позиция которого в документе на единицу меньше и равна (position-1), и «следующего слова», позиция которого в документе на единицу больше и равна (position+1).
Несмотря на то, что в таблице Расширенного Хита (Фиг. 3) мы указали позицию предыдущего <Previous Position>=<position-1> и последующего <Next Position>=<position+1> слов в записи Расширенного Хита, как было показано выше эти позиции можно вычислить, что позволяет позиции слов next и previous в записи Расширенного Хита не указывать и тем самым уменьшить объем данных Расширенного Хита индекса (Фиг. 4).
Очевидно, что указатель документа DoclD для всех трех слов остается по умолчанию одинаковым, так как все три слова являются последовательными словами текста одного и того же документа, имеющего идентификатор DoclD.
Таким образом, в соответствии с настоящим изобретением появление некоторого слова в тексте было бы описано Расширенным Хитом как функцией набора переменных так:
Расширенный Хит = функция (cap, type, size, doclD, wordlD, position, Previous WordlD,
Next WordlD) или
Расширенный Хит = функция (Базовый Хит, Previous WordlD, Next WordlD).
Переход от Базового Хита индекса современных поисковых машин к Расширенному Хиту индексу в соответствии с настоящим изобретением позволяет сохранять исходных текст в индексе и восстанавливать исходных текст из индекса, а также повысить эффективность проведения анализа совместной встречаемости слов текста с использованием индекса, по сравнению с тем, как это было возможно, используя Базовый Хит индекса ранее. _ — В качестве иллюстрации для текста показанного на Фиг. 5, содержание Расширенных хитов Рекурсивного индекса с использованием Расширенных Хитов показано на Фиг. 6.
Рекурсивное вытягивание текста из Индекса
Для примера рассмотрим случай Расширенного Хита, в основе которого лежит Базовый Хит поисковой машины Google, а индекс построен для текстовой информации (Фиг. 7).
Настоящее изобретение впервые позволяет реализовать рекурсивное «вытягивание» текста из индекса начиная с любого стартового хита StartHit. Для краткости станем обозначать Previous WordlD (предыдущее слово) как <WordlD-1> и Next WordlD (последующее слово) как <WordlD+1>, имея в виду, что номер Предыдущего слова в тексте равен <position-1> и номер Следующего слова в тексте равен <position+1>. Тогда StartHit (Хит текущего слова, находящегося между предыдущим <WordlD-1 > и следующим <WordlD+1> словами) будет представлен следующей зависимостью:
StartHit = Расширенный Хит (WordlD, doclD, position, WordlD-1 , WordlD+1),
Далее опишем операцию «Восстановления» исходного текста из индекса, представленного Расширенными Хитами. «Восстановление» исходного текста представлено следующими шагами:
Шаг 1 :
Извлекаем из StartHit указатели <WordlD-1 > и/или <WordlD+1>. Шаг 2:
В списке Lexicon (Фиг 8) ищем входы <WordlD+1> и/или <WordlD-1> и переходя в Обратный Индекс (Inverted Barrels) находим Расширенные Хиты следующий (NextHit) и предыдущий (PrevHit) соответственно для <WordlD+1> и <WordlD-1> с номерами слов текста (position+1) и (position-1) для того же документа doclD, которые можно записать так:
- NextHit =~1^сши^-^ый Хит (<WordlD+i >, dodD, position+1 , WordlD, <WordlD+2>) или
PrevHit = Расширенный Хит (<WordlD-1>, doclD, position-1 , <WordlD-2>, <WordlD>))
Шаг 3: Повторяем Шаг 1 и Шаг 2 для записей PrevHit и/или NextHit извлекая <WordlD-3> и <WordlD-+3>, переходим к записям Расширенных Хитов для <WordlD-3> и <WordlD- +3> и так далее до некоторого номера N и соответственно <WordlD-N> и <WordlD- +N> или до некоторого стоп слова StopWordlD.
В результате N повторений Шагов 1 и 2 «Восстановления» получим цепочку слов <WordlD-N>D... D<WordlD-3>Q<WordlD-2>D<WordlD-1>D<WordlD>D<WordlD-+1>n <WordlD-+2>D<WordlD-+3>D... D<WordlD-+N>. Текст можно восстанавливать или до начала или до конца текста, а можно выбрать некоторое условие останова «вытягивания» исходного текста, обозначенное некоторым «стоп словом» (StopWord). В случае использования стоп слова получим цепочку <StorWord>D... D <WordlD-3>D<WordlD-2>D<WordlD-1>D<WordlD>D<WordlD-+1>D<WordlD-+2>D <WordlD-+3>D... D<StorWord>. Стоп словом может служить, например, знак «точка», разделяющая предложения, или номер N в выражении <position+-N> или другое условие останова «вытягивания» исходного текста из индекса. В случае, например, когда условием останова является конец предложения, «Восстановление» будет происходить пока не будут достигнуты начало и/или конец предложения. Стоп словом также может служить, например, слово, начинающееся с заглавной буквы (флаг Заглавной буквы <сар>), расположенное в якорном тексте или слово, имеющее другой признак останова. Точно также можно восстанавливать не одно предложение, а произвольное число предложений текста. Условием остановки «Восстановления» может служить любое, условие, которое можно сформулировать для поисковой машины.
Наличие в Индексе признаков «заглавной буквы» (cap) и других атрибутов форматирования текста, позволяет восстанавливать текст с той или иной степенью соответствия оригиналу. Расширение числа признаков до числа признаков форматирования, используемых в текстовых редакторах, позволило бы восстанавливать тексты без отличий от исходного оригинала, который был проиндексирован.
Важной особенностью изобретения является то, что оно позволяет индексировать не только текст, но также массивы информации любой природы, представленные нумерованной значением <position> последовательностью объектов.
Для объектов отличной от текста природы, цепочка восстановленных объектов будет выглядеть соответственно так: <Предыдущий Объект N> D С Предыдущий Объект 2> О <Предыдущий Объект
1> О <Предыдущий Объект> О <Объект> D <Следующий Объект 1> Ώ <Следующий Объект 2> D.... ^Следующий Объект N> или со стоп объектом так:
<Стоп Объект> D □<Предыдущий Объект 2> D <Предыдущий Объект 1> D
<Предыдущий Объект> Ώ <Объект> D <Следующий Объект 1> D <Следующий Объект 2> D .... СКСтоп Объект>.
Наличие в Расширенных Хитах индекса Предыдущего и Следующего Объектов, позволяет индексу обращаться к самому себе, для извлечения очередного i-ro PreviousObject или i-ro NextObject, имеющих соответственно номера <position-i> и <position+i> в нумерованной последовательности Объектов исходного массива информации.
Имея в виду свойство рекурсивного «восстановления» последовательности объектов из изобретенного индекса, далее мы станем называть изобретенный индекс Рекурсивным Индексом.
Возможность частичного или полного восстановления текста исходного документа или массива данных другой природы путем его «вытягивания» из Рекурсивного Индекса, делает возможным множество полезных применений настоящего изобретения в быту и технике. Ниже приведены некоторые из таких применений.
Индексирование объектов разной природы
Поскольку в современном Интернете помимо текстов присутствует геодезическая информация, медиа информация и множество других типов данных, число которых постоянно увеличивается, то настоящее изобретение предлагает использовать не идентификаторы слов (wordlD), а идентификатор объекта любой природы, а библиотеки могут состоять не только из текстовых документов, но также из видео материалов, картинок, звуковых файлов, файлов координатной информации и любых других файлов. В этой связи в число идентификаторов от которых зависит Хит помимо doclD и WordlD может быть например тип библиотеки librarylD , вместо doclD можно и^ользовать _ , идентификатор ... источника- sourcelD— а- вместо идентификатора слов WordlD можно использовать идентификатор объекта objectlD и так далее. Рисунок (Фиг. 9) показывает кодирования Расширенного Хита объектов любой природы (включая текст), где Базовый Хит кодирует текущий объект, NextlD является идентификатором объекта следующего в цепочке за текущим и PrevlD является идентификатором объекта предшествующего текущему объекту в цепочке (Фиг. 9).
Метаданные Рекурсивного Индекса
В настоящее время известно много форматов, в том числе медиа форматов, требующих размещения богатой мета информации. В частности это относится к ЮЗ tag для файлов МРЗ и к Metadata файлов MPEG4 (http://atomicparslev.sourceforqe.net/mpeg-4files.html). к данным бегущей текстовой строки для караоке, формату TimedText для фильмов с субтитрами и так далее.
Для расширения функциональности Рекурсивного индекса с целью поддержки индексирования медиа данных и других видов данных, настоящее изобретение предлагает размещение указателя «MetalD» в информации Расширенного Хита (Фиг. 10). Мета данные которые описывает MetalD расширяют формат Базового Хита, дополняя описание объекта, позицию которого содержит Базовый Хит. Поскольку файлы метаданных MPEG, МРЗ, MPEG4, караоке и биометрических данных и так далее могут отличаться друг от друга, то MetalD например может содержать указатели места размещения метаданных.
Расширенный Хит поисковой машины может иметь множество применений, примерами которых могут служить: размещение списка запросов к поисковой машине ранжированных по рейтингу в качестве метаданных Рекурсивного Временного Индекса рейтинга поисковых запросов; размещение в Рекурсивном Временном Индексе рецепта приготовления пищи в котором метаданными могут служить описания ингредиентов, их весовые или объемные доли, температурный режим, описание используемой посуды и другие особенности процесса приготовления; размещение в Индексе последовательности шагов проведения химической реакции или размещать последовательность картографических точек дорог или маршрутов движения и так далее...
Анализ совместной встречаемости объектов
Путем анализа совместной встречаемости слов языка можно установить какие из словосочетаний являются устойчивыми, а какие нет. Некоторые из устойчивых словосочетаний могут оказаться понятиями, для которых нет одного слова. Таким понятием, например, может служить словосочетание «Нейро-лингвистическое программирование». Очевидно, что встречаемость слов в последовательности <нейро СЗлингвистическое С1программирование> будет существенно выше чем слов обратной последовательности < программирование□лингвистическое Пнейро>. В приведенном примере словосочетание <нейро □лингвистическое D программирование> образует понятие «НЛП». Выявление различного веса прямой и обратной сочетаемости («анизотропия» сочетаемости) слов позволяет делать предположения об устойчивом сочетании слов, или позволяет сделать предположение о существовании неявных связей между словами и понятиями, включая причинно-следственные или ассоциативные связи. Так Таблица совместной встречаемости (Фиг. 11) содержит условный вес совместной встречаемости слов рассмотренного словосочетания «нейро-лингвистическое программирование» (Фиг. 11).
Предположим (Фиг. 11), словосочетания «нейро-лингвистическое» и «лингвистическое программирование» встречаются с одинаковой частотой 0,7. Вместе с тем, двумерная таблица не позволяет установить вес совместной встречаемости словосочетания трех слов «нейро-лингвистическое - программирование», для решения последней задачи пришлось бы строить трехмерную матрицу 3*3*3 слов.
Таким образом, решение задачи совместной встречаемости каждых двух слов из N слов языка, потребует создания двумерной таблицы N*N слов языка и занесения в нее рейтингов совместной встречаемости каждых двух слов на пересечении которых находится ячейка рейтинга совместной встречаемости. А для изучения совместной встречаемости трех слов, понадобилось бы построить уже куб размером N*N*N и так далее, что усложняет задачу экспоненциально.
Поскольку современные поисковые машины используют Базовый Хит содержащий позицию одного слова, то поиск сочетаний слов, а также анализ частоты взаимной встречаемости двух и более слов языка можно решать только путем построения таблицы NG, где G представляет собой число слов в одном сочетании. Как было показано выше решение задачи таким способом связано с высокой трудоемкостью и экспоненциальным ростом трудоемкости при увеличении числа слов в словосочетании. Этим объясняется то, что Google и другие поисковые машины не позволяют эффективно искать фразы, содержащие более трех слов.
Использование Рекурсивного Индекса позволяет существенно снизить трудоемкость решения задачи анализа совместной встречаемости сочетаний G слов из N слов языка, перейдя от анализа многомерной области NG слов языка к анализу ограниченной области с радиусом R слов языка, где R>=G как это показано ниже.
Решение задачи совместной встречаемости с использованием рекурсивного индекса
Для изучения совместной встречаемости, например, слова «лингвистическое» мы «вытягиваем» из Рекурсивного Индекса все цепочки слов в которых встречается слово «лингвистическое» ограничиваясь некоторым числом R слов до и после слова «лингвистическое». Здесь число R служит условием останова «вытягивания» исходного текста из рекурсивного индекса. Таким образом, если через слово «лингвистическое» проходит множество предложений одного документа или множество предложений разных документов, то в качестве результата «вытягивания» мы получаем сферу из слов с радиусом R слов, в центре которой находится слово «лингвистическое». Если условием останова «вытягивания» будет знак «точка», то мы сможем вытягивать слова до и после слова «лингвистическое» до знака «точка», означающего конец и начало предложения, в котором встретилось слово «лингвистическое». Пример такой сферы, ограниченной началом и концом предложения/ центром которой является слово Tiger, показан на Фиг. 12. В случае использования конца или начала предложения в качестве условия останова, радиусом Сферы будет не R слов, а одно или R предложений, центральное предложение сферы при этом, будет содержать слово, за которое мы «тянули». Далее мы можем проводить анализ совместной встречаемости слова «лингвистическое» с другими словами в объеме «вытянутых» цепочек текста. Понятно, что все словосочетания «нейро-лингвистическое программирование» попадут в поле нашего зрения, так как все они попадают в Сферу радиуса R=OAHO слово или R=oflHO предложение. Понятно также, что анализ всех предложений включающих такое словосочетания в указанном радиусе не представляют большой трудоемкости даже для настольного компьютера. Таким образом, Рекурсивный Индекс и его архитектура построенная на использовании Расширенного Хита позволяют решить задачу поиска и анализа совместной встречаемости слов с существенно большей эффективностью чем это позволяет делать индекс современных поисковых машин, включая Google и другие поисковые машины.
Проиллюстрируем вышесказанное еще на одном примере.
Фиг. 12 показывает цепочки слов, проходящие через слово «TIGER» «вытянутые» из Рекурсивного Индекса с R = одно предложение. Все приведенные предложения являются частью одного документа, но относятся к разным Хитам слова Tiger в этом документе, однако Рекурсивный Индекс содержащий Хиты из разных документов позволяет проводить анализ с такой же эффективностью по всему множеству доступных документов. Как видно в цепочках повторно встречаются различные формы слова «large», а также слова «big», «cat» из чего можно сделать вывод о возможной связи слова «tiger» со словами «big», «cat» и «large». Причем слова «big» и «cat» встречаются два раза вместе, что может указывать на существование устойчивого словосочетания «bigDcat». Устойчивость произвольного словосочетания Wordl DWord2 можно проверить «вытянув» из Рекурсивного Индекса все цепочки слов, центром которых в одном из случаев будет например слово Word (слово за которое «тянули», в приведенной на Фиг. 12 примере было слово «Tiger»). Для того чтобы проверить тоже самое словосочетание Wordl DWord2 на совместную встречаемость в обратном направлении Wordl DWord2, следует «потянуть» за слово Word2 из индекса цепочки слов и анализировать в вытянутых цепочках слов, случаи когда NextWord для Word2 является Wordl Если, например, частота встречаемости сочетания Wordl DWord2 окажется существенно больше частоты встречаемости сочетания Word2dWord1 , то это будет указывать на то, что сочетание Wordl DWord2 является устойчивым, а сочетание Word2DWord1 слуайным. Так, например, вытягивая цепочки слова «big» или Хит-слова «cat» и проводя анализ совместной встречаемости слов «big» и «cat» в вытянутых цепочках можно установить является ли словосочетание «big cat» устойчивым или случайным. На примере Фиг. 12 видно, что сочетание «big cab встречается чаще, чем «cat big» из чего можно сделать вывод о возмножной устойчивости словосочетания «big cat» и вероятном отсутствии словосочетания «cat big».
Совместную встречаемость слов (или других объектов) можно понимать и шире, чем образование словосочетаний (сочетаний объектов).
Такие слова как «огонь» и «дым» могут не образовывать словосочетания, но имеют причинно следственную связь, из-за которой их появление в одном тексте имеет более высокую вероятность, че слов, не. имеющих причинно-следственной связи. Это обстоятельство позволяет ожидать, что на большой статистике текстов такая вероятность даст всплеск совместной встречаемости слов, не образующих устойчивые словосочетания, но связанных причинно следственными связями. Можно также ожидать, что встречаемость слов может иметь преимущественное направление, например встречаемость «огонь глдым» может оказаться выше, чем обратная встречаемость «дымОогонь», что может указывать на причинно- следственную связь между словами или понятиями. Можно также ожидать, что исследуя словосочетания состоящие из трех слов и более, анализ совместной встречаемости позволит выявлять устойчивые словосочетания PreviousWord (i) D NextWordQ, что позволит делать заключения о наличии связи между словами PreviousWord(i) D NextWordQ). Можно предполагать, что если помимо сочетаемости Предыдущего слова с Текущим (PreviousWord(i) О CurrentWord) и Текущего слова со Следующим (CurrentWordDNextWord(j)) существует прямая сочетаемость слов Предыдущее слово ОСледую ее слово (PreviousWord(i) D NextWordQ), то такая связь является ассоциативной, поскольку такая связь обусловлена Текущим словом, но напрямую с ним не связана, а значит Текущее слово играет роль ассоциативной связи между Предыдущим словом и Следующим словом. Различие частоты прямой PreviousWord(i) D NextWordQ) и обратной сочетаемости NextWordfl) П PreviousWord(i) позволит сделать предположение о причинно следственной связи в ассоциативной цепочке слов или других объектов.
Индексирование выявленных понятий
Поскольку Базовый Хит современных поисковых машин описывает позицию одного слова, а не понятия, то в случаях, когда такое слово является частью устойчивого словосочетания, Базовый Хит не обеспечивает релевантности индексации и поиска информации, так как отдельные слова устойчивого словосочетания не имеют отдельного смысла и являются носителем смысла только когда используются совместно! Часто понятия обозначаются аббревиатурами, таким образом, для них появляется отдельное «слово» языка.
Аналогичная ситуация сложилась со словосочетаниями составляющими название торговой марки или рекламного слогана, названия песни или фильма на которые распространяются авторские права их обладателей. Такие словосочетания также становятся устойчивыми для идентификации продукции, фильма, песни или другого предмета авторских прав. Автоматическое выявление таких устойчивых словосочетаний также является трудоемким при использовании индекса Google и других поисковых машин. Как было показано выше, Рекурсивный Индекс позволяет эффективно проводить анализ совместной встречаемости слов и выявлять устойчивые словосочетания, представляющие понятие, слоган или наименование. Для выявленных устойчивых наименований Рекурсивный Индекс содержит Как было сказано выше, Google использует значение imp = 7 в качестве флага для индикации сложного хита. Фиг. 13 показывает одни из возможных способов расширения функциональности Базового Хита, путем кодирования устойчивых словосочетаний обозначенных «phrase», флагом для обозначения хита устойчивого словосочетания в качестве примера принято нулевое значение размера фонта imp = 0, type:2 кодирует число слов в словосочетании (до 4 слов) и 8 битов значения position относится к первому слову словосочетания.
Вместе с тем, понятно, что кодирование Базового Хита (Фиг. 2, Фиг. 13) не отражает сегодняшних реалий Интернета как с точки зрения объема информации (даже 12 битов значения position может оказаться недостаточно для кодирования позиции объекта), так и с точки зрения типов данных (plain, phrase, fancy, anchor), поэтому приведенное кодирование расширенной таблицы Базового Хита является лишь иллюстрацией описанного настоящим изобретением способа расширения функциональности индекса поисковых машин.
Индексирование выявленных неявных связей
Для индексирования объектов имеющих неявную связь с Базовым Хитом настоящее изобретение предлагает использовать поле метаданных Metal D, куда заносится указатель на файл объектов, ассоциативно/причинно-следственно связанный с Хитом в контексте конкретного документа. Таким образом, для каждого отдельного Хита одного и того же WordlD найденного в разных документах doclD содержание MetalD будет уникальным и отвечающим контексту использования WordlD конкретного Базового Хита.
Некоторые практические применения Рекурсивного Индекса
Рекурсивный Индекс текстов
Рекурсивный индекс, в частности, позволяет упростить Интерфейс пользователя (User Interface или UI) поисковой машины и улучшить «usability» поиска, позволив пользователю «вытягивать» курсором цепочки слов из Сниппета (snippet) в списке результатов поиска, потянув за любое слово, расположенное в тексте сниппета. «Вытянутый» таким образом текст позволяет пользователю с минимальными усилиями понять, насколько результат поиска представленный таким сниппетом релевантен поисковому запросу пользователя, не прибегая с загрузке web страницы сниппет которой был показан в результатах поиска. «Зуммирование» текста сниппетов в результатах поискового запроса к поисковой машине показано на рисунках ниже (Фиг. 14, Фиг. 15). Под «Зуммированием» в данном случае мы имеем в виду «вытягивание» курсором выбранного в тексте сниппета слово (в данном случае слово «удобный»). «Зуммирование» приводит к «вытягиванию» из Рекурсивного Индекса слов текста слева и справа от выбранного слова и вывод «зуммированного» текста в окно просмотра.
Рекурсивный Индекс времени и местоположения
Базовый Хит не является чувствительным к местоположению и времени, так как учитывает лишь положение слова в тексте (Фиг. 2). В то же время для видео и аудио хроники (живого общения, речи и событий записанных на видео) время и место может иметь существенное значение. Для индексации объектов чувствительных ко времени и местоположению наряду с номером появления <position> следует использовать метки времени <TimeStamp> и координаты <Location> например геодезические (Фиг. 16).
В такой индекс можно записывать, например, распознанные объекты появляющиеся в кадре при съемке видео камерой закрепленной, например, на движущемся автомобиле.
Размещение метки времени TimeStamp или метки сдвига по времени TimeOffset относительно некоторого известного времени TimeStamp (например, относительно времени начала записи звука или видео). в._. Хитах слов для ... результатов распознавания речи, при «вытягивании» текста из Рекурсивного Индекса позволяет передать темп произнесения слов во времени. В такой реализации значениями WordlD, NextlD и PrevlD могут являться слова говорящего, коды распознанных видео образов или цифровые объекты другого происхождения, появление которых связано хронологически. Рекурсивный Индекс для индексации картины мира
Известно, что картина мира для человека складывается из информации, попадающей в мозг через каналы чувств (зрение, осязание, слух, обоняние, вкус, термоцепция и другие). Фиксация поступающей в каждый канал чувств человека информации, имеет хронометрический характер и потому может быть представлена Рекурсивным Индексом ощущений. Для зрения это объекты, которые попадают в поле зрения, а для уха это ряд звуков которые улавливаются ухом и так далее. Таким образом, текст являющийся результатом распознавания речи, может использовать Расширенные Хиты временного рекурсивного индекса слов (Фиг 17) содержащий также ссылки на предыдущее и следующее слово <Next WordlD> и <Prev WordlD>.
Если учесть, что события реальной жизни связаны также с местоположением, то наличие в Расширенном Хите не только метки времени TimeStamp, но и метки местоположения Location (Фиг. 16), может оказаться важным. Метка местоположения может носить более общий характер и содержать геодезические или некие относительные координаты например смещение местоположения LocationOffset относительно некоторого известного местоположения Location (например от местоположения начала маршрута), а также идентификатор источника данных, как например наименование телеканала. Расширенный Хит (Фиг. 16) показан не для Слова, а для любого другого Объекта, видеообраза, химического вещества, местоположения и так далее.
В настоящее время в различных лабораториях проводятся работы по идентификации и синтезу запахов, а также по идентификации и воспроизведению других ощущений человека и можно представить, что через некоторое время медиа файлы будут содержать не только изображение, звук и строку субтитров, но также информацию о запахе, вкусе, тактильных ощущениях и прочее. Размещение таких данных в соответствующих Рекурсивных Индексах позволит осуществлять по ним поиск, «вытягивать» временные цепочки таких данных для использования, а также проводить анализ их взаимной встречаемости. Метки времени, размещенные в Рекурсивном Индексе, позволят синхронизировать воспроизведение данных из разных Рекурсивных индексов содержащих . информацию - разных-- каналов чувственного восприятия, а метки местоположения позволят делать геодезическую или другую привязку местоположения. Временной Рекурсивный Индекс
Временной Рекурсивный Индекс содержит вместо WordlD метки времени TimeStamp (Фиг. 18). Идентификатор MetalD указывает на место размещения метаданных, относящихся к описываемому моменту времени TimeStamp, а метки времени Prev TimeStamp и Next TimeStamp указывают соответственно на Предыдущую метку времени и на Следующую метку времени. В Хите метки времени возможно размещение метки местоположения Location (Фиг. 19) или другой необходимой информации.
Рекурсивный Путевой Индекс
Поскольку свойством Рекурсивного Индекса является запоминание последовательности следования объектов индексации, то становится возможным рекурсивное индексирование последовательностей геодезических координат и адресов, представляющих например маршруты движения или картографическую информацию дорожной сети. При этом адреса или геодезические координаты точек маршрута вносятся в индекс вместо WordlD (Фиг. 20 и Фиг. 21).
Аппаратная реализация работы с Рекурсивным Индексом
Создание поисковой системы, в которой файл Рекурсивного Индекса отделен от Программы анализа и поиска Рекурсивного Индекса (ПАПРИ) позволяет реализовать ПАПРИ в аппаратном виде и ускорить работу ПАПРИ, а также сделать чип, предназначенный для встраивания в различные устройства, связанные с обработкой информации. Последнее обстоятельство позволяет создать устройства, способные «на лету» индексировать распознанные видео образы, речь, поток данных поступающих через каналы связи и любые данные, мгновенно предоставляя возможность поиска в таких данных.
Распределенный Рекурсивный Индекс
Рекурсивная Индексация web сайта или данных персонального или сетевого компьютера/сайта/файла с последующим размещением полученного файла Рекурсивного Индекса на проиндексированном сайте/компьютере/файле, позволяет создать модель распределенного Рекурсивного Индекса файловой системы/компьютера/локальной сети или Интернет, при котором Рекурсивные Индексь!' каждого WMnbTbtepa ι или Ьайта~находятся на самом компьютере/сайте, что позволяет предоставить пользователям локальный Рекурсивный поиск по компьютеру/сайту/файлу, без необходимости обращаться к поисковой машине сети или Интернет. Аппаратная реализация ПАПРИ позволяет организовать работу с локальными файлами Рекурсивного Индекса не обращаясь к центральной поисковой машине. Ниже приведены некоторые примеры автономного размещения рекурсивного индекса. Возможность построения распределенного Рекурсивного Индекса позволяет создать поисковую машину Интернет с распределенным Рекурсивным Индексом.
Повышение релевантности работы поисковой машины
Использование анализа совместной встречаемости в рекурсивном индексе, позволяет повысить релевантность поиска поисковых машин, в том числе поисковых машин Интернет.
Для этого дополнительно к поисковому запросу, содержащему одно или несколько слов, в поисковую машину может быть введен образцовый текст с использования слов запроса. Такой текст далее индексируется и из него создается рекурсивный индекс.
Устанавливается некоторая теоретическая или эмпирическая Избранная Мера Совпадения результатов анализа совместной встречаемости появления одного и того же слова в разных массивах данных.
Для слов поискового запроса производится анализ совместной встречаемости слов запроса со словами образцового текста. Далее производится поиск в индексе поисковой машины Хитов появления слов поискового запроса, а для найденных Хитов производится анализ совместной встречаемости слов поискового запроса с другими словами массивов данных проиндексированных поисковой машиной, а также анализа совместной встречаемости с другими словами поискового запроса.
Полученные результаты анализа совместной встречаемости слов поискового запроса в образцовом тексте (Образцовые результаты) сравниваются с результатами анализа совместной встречаемости слов поискового запроса в массивах данных проиндексированных поисковой машиной (Результаты машины) и если мера совпадения результатов. Если мера совпадения Образцовых результатов с Результатами машины соответствует Избранной Мере Совпадения, то найденный Хит считается релевантным результатом поиска.
Некоторые примеры применений Рекурсивного Индекса - — ----
Одним из важных применений может служить индексирование видео информации - фильмов, видео репортажей, результатов видео наблюдения, фотографий и так далее. Индексировать видеоматериалы можно как с помощью Рекурсивного Текстового Индекса так и с помощью Рекурсивного Временного Индекса. Так создавая Рекурсивный Индекс текстовой информации субтитров, распознанной речи или текста (Speech or text recognition) в метаданными служат распознанные видео образы - лица людей или объекты (face/object recognition). Наоборот, для Рекурсивного Временного Индекса видеоматериала метаданными может служить видео кадр, распознанное изображение и текст. Создание Рекурсивного Индекса видеоматериалов позволит создать механизм поиска распознанных изображений и текста сопровождающего видео, а также позволит создать машину индексирования видеорепортажей и видеоматериалов в реальном времени, что, в свою очередь, позволит встретить такую технологию индексации и поиска видео данных в фотоаппараты, видеокамеры, телефоны и другие носимые устройства способные создавать видео, а также компьютеры и другие устройства способные проигрывать ранее созданное видео.
Пример1. Размещение рекурсивного индекса данных в медиа файлах
Технология размещения бегущей строки текста песни в «Караоке» или текста субтитров в видео фильмах реализуется с помощью технологии Timed Text или аналогичной технологии, описанной соответственными индустриальными или корпоративными стандартами производителей оборудования и носителей медиа данных.
Применение технологий распознавания лиц и объектов (face и object recognition), распознавание текста (text recognition), а также распознавание речи (speech recognition) позволяет преобразовывать видео данные и звуковые данные видеозаписей (включая фильмы) и потокового видео в уникальные цифровые коды лиц, объектов и текст оптически распознанного текста и речи. Поскольку распознанные лица, объекты и текст, а также текст распознанной речи представляют собой временную последовательность объектов представленных в видео материалах в машиночитаемом цифровом виде, то после распознавания речи и видео образов становится возможной их индексация рекурсивным индексом и позволяет предложить хронометрический поиск по распознанным объектам для видео материалов, а также хронометрический поиск и позиционирование по тексту речи и поиск появившихся в видео материале объектов и лиц.
~ И ндексирован ие" в соответствии с настоящим изобретением распознанных объектов видеосъемки впервые предоставляет возможность поиска распознанных объектов и «вытягивание» событий предшествующих появлению распознанного объекта или последующих за появлением распознанного объекта. В свою очередь это позволяет многократно снизить трудоемкость поиска объектом поиска в материалах видеонаблюдения.
Телефон в настоящее время позволяет просто разговаривать, а также осуществлять видео звонки. Индексирование в соответствии с настоящим изобретением распознанной речи и лиц позволяет создать технологию автоматического стенографирования телефонных переговоров, с возможностью поиска распознанного текста и видео объектов в их хронологической последовательности.
Для медиа файлов форматов МРЗ, а также MPEG4 отраслевыми стандартами предусмотрено размещение маркировочной информации в маркировочной системе ЮЗ (tagging system) и других маркировочных системах (http://atomicparslev.sourceforqe.net mpeq-4files.html). В частности система ID3v2 http://www.id3.ora/ID3v2Easv. способна содержать до 256 мегабайт информации любого содержания, содержащей метаданные медиа файла МРЗ или MPEG4. Это позволяет размещать в метаданных ID3v2 полные Рекурсивные Индексы текста субтитров фильма на всех языках, рекурсивные индексы песен, книг, а также рекурсивный индекс распознанных видео образов, распознанный текст и текст распознанной речи.
Индексирование текста электронной книги в соответствии с настоящим изобретением позволяет «вытягивать» текст книги из рекурсивного индекса начиная с любого слова текста, что позволяет использовать рекурсивный индекс в качестве источника текста электронной книги.
Размещенный в маркировочной системе (ЮЗ или другой) Рекурсивный Индекс предоставляет возможность поиска текстовой и видео информации в метаданных для медиа файлов, включая, но не ограничиваясь аудио форматами CD, МРЗ, WMA, ААС, AIFF, М4А и видео форматами DVD, Blu-Ray, HD, МР4, AVI, MOV, RAM, SWF, WMV и другими известными медиа форматами, а также возможность «вытягивания» части или полного текста и/или образов видеоряда произведения в их хронометрическом порядке, осуществления в нем поиска, проведение анализа данных взаимной встречаемости данных с помощью техники описанной в настоящей заявке. Размещение . Рекурсивного. Индекса. в_ метаданных ЮЗ. медиа файлов, и в . _ метаданных любого другого формата, позволяет реализовать функции «вытягивания» данных, поиска в них, анализа данных на предмет совместной встречаемости и выявление возможных ассоциативных и причинно-следственных связей, независимо от используемого формата, создает основу для индексации и поиска данных любого происхождения и содержания. Пример 2. Тексты электронных книг
Известно множество открытых и корпоративных форматов электронных книг e-books http://en.wikipedia.org/wiki/Comparison of e-book formats. Вместе с тем, использование Рекурсивного Индекса для публикации электронных книг позволяет «вытягивать» текст книги непосредственно из Рекурсивного индекса и одновременно предоставить пользователю функцию поиска в тексте и анализа текста с помощью Рекурсивного Индекса.
Пример 3. Рекурсивный индекс картографической информации.
Размещая в файле Рекурсивного индекса геодезические координаты точки, можно индексировать маршруты движения или схему дорог с учетом разрешенного направления движения.
Пример 4. Рекурсивный Индекс новостей и RSS лент
Новости поступают в разное время, маркеры которого могут использоваться вместо слов для индексирования в Рекурсивном Временном Индексе, Рекурсивный Текстовый Индекс.
Бизнес модели
Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в электронных книгах.
Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в аудиокнигах.
Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в электронных источниках картографической информации, в том числе геодезической.
Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в устройствах навигации.
Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в устройствах связи.
Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в компьютерах, в том числе мобильных. Взимание оплаты за создание и/или размещение и/или использование Рекурсивного Индекса в телефонах, смартфонах, навифонах и медиа устройствах таких как iPod и другие.
Взимание оплаты за создание и/или запись и/или считывание Рекурсивного Индекса с носителей видео информации, таких как CD, DVD, Blu-Ray и любых других форматов уже известных и тех которые будут использоваться в будущем, включая, но не ограничиваясь аудио форматами МРЗ, W A, ААС, AIFF, М4А и видео форматами МР4, AVI, MOV, RAM, SWF, WMV.
Взимание оплаты за создание и/или запись и/или считывание Рекурсивного Индекса web сайта или ссылки на такой Рекурсивный Индекс web сайта в мета данных web сайта или в структуре данных Semantic Web названного сайта.
Взимание оплаты за создание и/или запись и/или считывание Рекурсивного Индекса в структуре данных Semantic Web.
Взимание оплаты за создание и/или запись и/или считывание Рекурсивного Индекса поисковой машины в локальной сети.
Взимание оплаты за создание и/или запись и/или считывание Рекурсивного Индекса поисковой машины в сети Интернет.
Взимание оплаты за создание и/или запись и/или считывание Рекурсивного Индекса поисковой машины в произвольной сети коммуникаций.
Взимание оплаты за создание и/или размещение и/или показ рекламы контекстно или по другому связанной с данными извлеченными из Рекурсивного Индекса.
Взимание оплаты за проектирование и/или создание и/или распространение и/или использование программного обеспечения способного создавать Расширенные Хиты рекурсивного Индекса, содержащие информацию о Следующем Объекте или Предыдущем Объекте.
Взимание оплаты за проектирование и/или создание и/или распространение и/или использование программного обеспечения способного извлекать из Расширенных Хитов Рекурсивного Индекса информацию о Следующем Объекте или Предыдущем Объекте.
Взимание оплаты за проектирование и/или создание и/или распространение и/или использование программного обеспечения способного создавать Расширенные Хиты Рекурсивного Индекса содержащие Предыдущий или Следующий Объекты распознавания, распознанные программой распознавания речи (speech recognition), распознавания текста (optical character recognition или text recognition), распознавания лица (face recognition) или распознавания любого другого зрительного объекта или объекта другой природы (химического, геодезического и так далее).
Взимание оплаты за проектирование и/или создание и/или распространение и/или использование аппаратного обеспечения (чипа, контроллера, процессора и так далее) способного создавать Расширенные Хиты рекурсивного Индекса, содержащие информацию о Следующем Объекте или Предыдущем Объекте, извлекать из Расширенных Хитов Рекурсивного Индекса информацию о Следующем Объекте или Предыдущем Объекте, проводить анализ совместной встречаемости Объектов.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ индексирования, поиска и извлечения из индекса цифровой информации, при котором цифровая информация представлена множеством машиночитаемых массивов данных, каждый из которых является нумерованной последовательностью Объектов, а каждый из Объектов представлен уникальным машиночитаемым значением Объекта, причем при индексировании массивов данных в индекс для каждого появления уникального Объекта в индексируемом уникальном массиве данных, записывают группу данных (Хит) и Хит содержит, по меньшей мере, порядковый номер появления Объекта в нумерованной последовательности Объектов уникального массива данных, имеющий значение <position>, а при поиске появлений уникального Объекта в проиндексированных массивах данных с использованием устройств ввода вводят значение Объекта поиска, извлекают Хиты появления Объекта поиска в массивах данных содержащие, по меньшей мере, значение <position> номера появления Объекта поиска в нумерованной последовательности Объектов соответствующего массива данных, а извлеченные Хиты появления Объекта поиска в массиве данных используются в качестве результата поиска отличающийся тем, что при индексировании массивов данных дополнительно в группу данных названного Хита записывают, по меньшей мере, значение Предыдущего Объекта, номер появления которого в нумерованной последовательности Объектов названного уникального массива данных имеет значение на единицу меньшее значения <position> Объекта поиска и/или в группу данных Хита записывают значение Следующего Объекта, номер которого в нумерованной последовательности Объектов названного уникального массива данных имеет значение на единицу большее значения <position> Объекта поиска, а дополнительно к операции поиска появления Объекта поиска в массивах данных делают доступной операцию извлечения значения Предыдущего Объекта и/или извлечение значения Следующего Объекта из группы данных Хита Объекта поиска, а также делают доступной операцию вычисления значений <previous position>=<position-1> и/или <next position>=<position+1> соответственно номера Предыдущего Объекта и/или Следующего Объекта в нумерованной последовательности Объектов названного массива данных.
2. Способ по п. 1 при котором в группу данных Хита Объекта поиска дополнительно записывают значения <previous position>=<position-1> и <next position>=<position+1> в качестве значений соответственно номера Предыдущего Объекта и/или Следующего Объекта, а вместо операции вычисления значений <previous position>=<position-1> и/или <next position>=<position+1> соответственно номера Предыдущего Объекта и/или Следующего Объекта в нумерованной последовательности Объектов названного массива данных, делают доступной операцию извлечения названных значений <previous position> и/или <next position> из группы данных Хита.
3. Способ по п.1 дополнительно включающий следующие шаги Восстановления Будущего:
— присваивают переменной N значение 1, а переменной Start присваивают значение <position> Хита Объекта поиска и выполняют Цикл:
о из Хита Объекта поиска извлекают значение Следующего Объекта и значение его номера <next position> в нумерованной последовательности Объектов названного массива данных и используют извлеченные значения 8 качестве N-ro Результата Восстановления Будущего нумерованной последовательности Объектов названного массива данных;
о в индексе осуществляют поиск Хита Объекта поиска названного массива данных, значение которого совпадает со значением Следующего Объекта из N-ro Результата Восстановления Будущего, а значение <position> номера появления которого в нумерованной последовательности Объектов названного массива данных равно значению <Start+N>;
о из группы данных найденного Хита Объекта поиска названного массива данных извлекают значение Следующего Объекта, а также рассчитывают или извлекают значение номера <next position>=<Start+N+1> названного Следующего Объекта в упорядоченной последовательности объектов названного массива данных;
о присваивают переменной N значение (N+1) и выполняют Цикл, пока не будет выполнено некоторое условие останова выполнения Цикла; — извлекают из каждого N-ro Результата Восстановления Будущего значение Следующего Объекта и значение <position> номера появления Следующего Объекта в названном массиве данных, располагают извлеченные Следующие Объекты в порядке следования их номеров <position> а полученную нумерованную последовательность Объектов используют в качестве результата Будущее операции Восстановления Будущего.
4. Способ по п.1, дополнительно включающий следующие шаги Восстановления Прошлого:
— присваивают переменной N значение 1 , а переменной Start присваивают значение <position> Хита Объекта поиска и выполняют Цикл:
о из Хита Объекта поиска извлекают значение Предыдущего Объекта и значение его номера <previous position> в нумерованной последовательности Объектов названного массива данных и используют извлеченные значения в качестве N-ro Результата Восстановления Прошлого нумерованной последовательности Объектов названного массива данных;
о в индексе осуществляют поиск Хита Объекта поиска названного массива данных, значение которого совпадает со значением Предыдущего Объекта из N-ro Результата Восстановления Прошлого, а значение <position> номера появления которого в нумерованной последовательности Объектов названного массива данных равно значению <Start - N>;
о из группы данных найденного Хита названного массива данных извлекают значение Предыдущего Объекта, а также рассчитывают или извлекают значение номера <previous position>=<Start-N-1> названного Предыдущего Объекта в упорядоченной последовательности объектов названного массива данных;
о присваивают переменной N значение (N-1) и выполняют Цикл, пока не будет выполнено некоторое условие останова выполнения Цикла.
— извлекают из каждого N-ro Результата Восстановления Прошлого значение Предыдущего Объекта и значение <position> номера появления Предыдущего Объекта в названном массиве данных, располагают извлеченные Предыдущие Объекты в порядке следования их номеров <position>, а полученную нумерованную последовательность Объектов используют в качестве результата Прошлое операции Восстановления Прошлого.
5. Способ по п.З, включающий следующие шаги:
— осуществляют операцию поиска Объекта поиска в одном или нескольких машиночитаемых массивах данных представляющих собой нумерованную последовательность Объектов, в качестве результата поиска получают ограниченное множество Хитов, появления Объекта поиска в названных массивах данных;
— создают некоторое условие останова выполнения Цикла операции Восстановления Будущего и осуществляют операцию Восстановления Будущего для каждого Хита названного ограниченного множества Хитов с учетом названного условия останова выполнения Цикла и получают ограниченное множество Объектов Будущего;
— одним из известных способов осуществляют анализ совместной встречаемости Объектов в ограниченном множестве Объектов Будущего.
6. Способ по п.4, включающий следующие шаги:
— осуществляют операцию поиска Объекта поиска в одном или нескольких машиночитаемых массивах данных представляющих собой нумерованную последовательность Объектов, в качестве результата поиска получают ограниченное множество Хитов, появления Объекта поиска в названных массивах данных;
— создают некоторое условие останова выполнения Цикла операции Восстановления Прошлого и осуществляют операцию Восстановления Прошлого для каждого Хита названного ограниченного множества Хитов с учетом названного условия останова выполнения Цикла и получают ограниченное множество Объектов Прошлого;
— одним из известных способов осуществляют анализ совместной встречаемости Объектов в ограниченном множестве Объектов Прошлого.
7. Способ по п. 5, при котором с использованием известных методов осуществляют анализ совместной встречаемости Объектов в ограниченном множестве Объектов Будущего.
8. Способ по п. 6, при котором с использованием известных методов осуществляют анализ совместной встречаемости Объектов в ограниченном множестве Объектов Прошлого.
9. Способ по п. 5-6, при котором с использованием известных методов осуществляют анализ совместной встречаемости Объектов одновременно в ограниченном множестве Объектов Будущего и в ограниченном множестве Объектов Прошлого.
10. Способ по п. 7-8, при котором дополнительно вводят Образцовый Массив Данных (ОМД) или указывают адрес доступа к ОМД и вводят, по меньшей мере, один Ключевой Объект ОМД, причем Образцовому Массиву Данных или Ключевому Объекту сопоставляют Адрес Перехода, индексируют ОМД, а при проведении поиска Хитов для каждого Объекта поиска проводят анализ совместной встречаемости Объекта поиска с другими Объектами, по меньшей мере, одного из проиндексированных массивов данных, а при использовании результатов поиска Объекты поиска сравнивают с Ключевыми Объектами ОМД, и при совпадения Объекта поиска с Ключевым Объектом ОМД, проводят для Ключевого Объекта ОМД анализ совместной встречаемости с другими Объектами ОМД, причем устанавливают Меру Совпадения результатов анализа совместной встречаемости для сравниваемых Хита Объекта поиска и Хита Ключевого Объекта ОМД, дополнительно сравнивают результаты анализа совместной встречаемости Объекта поиска с результатами анализа совместной встречаемости Ключевого Объекта ОМД, проводят оценку меры совпадения результатов анализа совместной встречаемости Объекта поиска с результатами анализа совместной встречаемости Ключевого Объекта ОМД и, если названная оценка соответствует установленной Мере Совпадения, то в качестве результатов поиска используют Хиты Объекта поиска и/или Хиты Ключевого Объекта и/или, по меньшей мере, один Ключевой Объект ОМД и/или ОМД и/или Адрес Перехода.
11. Способ по п.1 , при котором в Хите дополнительно записывают, по меньшей мере, значение времени TimeStamp и/или значение смещения во времени TimeQffset, а при поиске, и восстановлении дополнительно извлекают- значение времени TimeStamp и/или смещения во времени TimeOffset и учитывают хронологию появления Объектов поиска.
12. Способ по п. 1, при котором в Хите дополнительно записывают, по меньшей мере, значение местоположения Location и/или значение смещения местоположения LocationOffset, а при поиске и извлечении дополнительно извлекают значение местоположения Location и/или значение смещения местоположения LocationOffset для учета местоположения появления Объектов поиска.
13. Способ по п. 1 , при котором в Хите дополнительно записывают, по меньшей мере, указатель MetalD хранения метаданных Объекта поиска, а при поиске и извлечении дополнительно извлекают значение указателя MetalD для осуществления доступа к метаданным Объектов поиска.
14. Способ по п. 1 , при котором значением Объекта является значение времени TimeStamp или значение смещения во времени TimeOffset, а нумерованная последовательность Объектов представлена нумерованной последовательностью значений меток времени TimeStamp или значений смещения во времени TimeOffset.
15. Способ по п.1 , при котором значением Объекта является значение местоположения Location или значение смещения местоположения LocationOffset, а нумерованная последовательность Объектов представлена нумерованной последовательностью значений меток местоположения Location или значений смещения местоположения LocationOffset.
16. Способ по п.1 , при котором машиночитаемые массивы данных представлены файлами и/или потоками данных, содержащими последовательность Объектов распознавания, а перед индексированием массивов данных выполняют следующие шаги:
— осуществляют распознавание Объектов распознавания с использованием соответствующей известной технологии распознавания;
— каждому из полученных в процессе распознавания Объектов распознавания присваивают номер;
— используя присвоенные Объектам распознавания номера, множество Объектов распознавания упорядочивают в виде нумерованной последовательности Объектов
— нумерованную последовательность Объектов используют для индексирования, поиска и извлечения цифровой информации.
17. Способ по п. 16, при котором названные файлы и/или потоки данных представляют собой видео файлы или аудио файлы или потоки аудио или потоки видео данных, Объектами распознавания являются слова речи и/или звуки и/или совокупность звуков и/или лица и/или объекты и/или совокупность объектов и/или множество точек и/или символы и/или буквы и/или цифры и/или слова текста, а известной технологией распознавания является speech recognition и/или sound recognition и/или face recognition и/или object recognition и/или optical character recognition и/или text recognition или другие известные технологии распознавания.
18. Способ по п. 17, при котором машиночитаемые массивы данных представлены в аудио формате CD или МРЗ или WMA или ААС или AIFF или М4А или в другом известном аудио формате или в видео формате MPEG4 или AVI или MOV или RAM или SWF или WMV или DVD или B!u-Ray или в другом известном видео формате.
19. Способ по п. 18, при котором индексирование, поиск и извлечение информации из индекса осуществляют одновременно с воспроизведением или одновременно с записью машиночитаемых массивов данных.
20. Способ по п. 18, при котором индекс записывают в маркировочный файл ID3 или маркировочный файл другого известного формата.
21. Способ по п. 18, при котором индекс записывают на носитель информации или в носимое устройство памяти или в память устройства записи и/или воспроизведения машиночитаемых массивов данных или в память устройства связи.
22. Способ по п. 21, при котором индекс записывают вместе с машиночитаемыми массивами данных.
23. Способ по п. 21, при котором носителем информации является CD диск или DVD диск или Blu-Ray диск или диск другого известного аудио и/или видео формата или другой известный съемный носитель информации.
24. Способ по п. 16, при котором Объектами распознавания являются геодезические и/или относительные координаты местоположения, а значением Объекта является значение местоположения Location и/или смещения местоположения LocationOffset.
25. Способ по п. 16, при которо использование... известной технологии распознавания позволяет вычислить значение геодезических координат местоположения Location и/или относительных координат местоположения LocationOffset, а способ далее включает шаги: — в Хите дополнительно размещают, по меньшей мере, значение местоположения Location и/или значение смещения местоположения LocationOffset, а при операциях поиска и восстановления извлекают значение местоположения Location и/или значение смещения местоположения LocationOffset для учета местоположения появления Объектов поиска;
— вычисляют значения названных координат местоположения с использованием известной технологии распознавания;
— выявляют Объекты распознавания, появление которых в массиве данных связано с вычисленным значением названных координат местоположения;
— присваивают вычисленное значение названных координат местоположения полю Location в Хитах выявленных Объектов распознавания.
26. Способ по п. 16, при котором использование известной технологии позволяет извлечь или вычислить значение меток времени TimeStamp и/или меток смещения времени TimeOffset, а способ далее включает шаги:
— в Хите дополнительно размещают, по меньшей мере, значение времени TimeStamp и/или значение смещения во времени TimeOffset, а при операциях поиска и восстановления извлекают значение времени TimeStamp и/или смещения во времени TimeOffset для учета хронологии появления Объектов поиска;
— вычисляют или извлекают значения названных меток с использованием известной технологии;
— выявляют Объекты распознавания, появление которых в массиве данных связано с вычисленным или полученным значением названных меток;
— присваивают вычисленное значение названных меток времени полю TimeStamp или значение названных меток смещения времени полю TimeOffset в Хитах выявленных Объектов распознавания.
27. Способ по п.1, при котором индекс записывают на CD диск или на DVD диск или на Blu-Ray диск или на другой съемный носитель информации или индекс записывают в память устройства.
28. Процессор, способный индексировать, искать и извлекать из индекса цифровую информацию, как это указано в пунктах формулы с 1 по 27.
29. Способ взимания оплаты за индексирование, поиск и извлечение из индекса цифровой информации, как это указано в пунктах формулы с 1 по 27 и за создание архитектуры процессора или производство процессора или использование процессора по п.28.
30. Способ по п.29, при котором оплату дополнительно взимают, по меньшей мере, за создание или распространение или исполнение программы процессора, содержащую одну или более цепочку команд, понуждающих процессор выполнять одну или более цепочку операций, приводящих к индексированию, поиску и извлечению из индекса цифровой информации.
31. Способ по п.29, при котором массив данных представлен нумерованной последовательностью Объектов текста электронной книги.
32. Способ по п.29, при котором массив данных представлен файлом или потоком данных аудиокниги, а нумерованной последовательностью распознанных Объектов являются Объекты распознавания речи или звуков или комбинации звуков.
33. Способ по п.29, при котором массив данных представлен нумерованной последовательностью геодезических координат маршрута движения или карты, причем последовательности геодезических координат индексируют, а индекс размещают на носителе информации или в носимом устройстве памяти или в памяти устройства визуализации, анализа совместной встречаемости или другого использования названных геодезических координат, а оплату взимают, по меньшей мере, за названное размещение индекса или за поиск или извлечение или анализ совместной встречаемости названных геодезических координат.
34. Способ по п.29, при котором массив данных представлен нумерованной последовательностью адресов маршрутов движения или карты, причем адреса индексируют, а индекс размещают на носителе информации или в носимом устройстве памяти или в памяти устройства визуализации, поиска, извлечения, анализа совместной встречаемости или другого использования названных адресов, а оплату взимают, по меньшей мере, за названное размещение индекса или за поиск или извлечение или анализ совместной встречаемости названных адресов.
35. Способ по п.29, при котором массив данных представлен нумерованной последовательностью Объектов страниц web сайта, а индекс записывают способом, позволяющим осуществлять поиск и извлечение информации из индекса, как при просмотре web сайта, так и без просмотра web сайта, а оплату взимают, по меньшей мере, за одну из названных операций размещения индекса, поиска, извлечения или анализа совместной встречаемости названных Объектов страниц web сайта.
36. Способ по п.35, при котором индекс записан в структуре данных Semantic Web.
37. Способ по п.29, при котором массивы данных представлены массивами данных локальной сети или сети Интернет, а индекс записывают или в памяти компьютеров поисковой машины названной сети или на устройстве пользователя или на устройстве где размещен проиндексированный массив данных.
38. Способ по п.29, при котором оплату взимают, по меньшей мере, за одну из операций: ввод Ключевого Объекта ОМД, ввод ОМД, проведение анализа совместной встречаемости Ключевого Объекта ОМД с Объектами ОМД, устанавливание Меры Совпадения, проведение названной оценки совпадения результатов анализа совместной встречаемости, предоставление доступа к использованию Хитов Объекта поиска, Хитов Ключевого Объекта ОМД, ОМД или Адрес Перехода, или за использование названных Хитов, ОМД или Адреса Перехода.
39. Способ по п.38, при котором ОМД является web сайтом или web страницей, а Адрес Перехода является адресом Интернет.
PCT/RU2012/000637 2011-08-09 2012-08-07 Способ создания и использования рекурсивного индекса поисковых машин WO2013022384A1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/238,667 US9679002B2 (en) 2011-08-09 2012-08-07 Method for producing and using a recursive index of search engines

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2011133310 2011-08-09
RU2011133310/08A RU2459242C1 (ru) 2011-08-09 2011-08-09 Способ создания и использования рекурсивного индекса поисковых машин

Publications (1)

Publication Number Publication Date
WO2013022384A1 true WO2013022384A1 (ru) 2013-02-14

Family

ID=46936787

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2012/000637 WO2013022384A1 (ru) 2011-08-09 2012-08-07 Способ создания и использования рекурсивного индекса поисковых машин

Country Status (3)

Country Link
US (1) US9679002B2 (ru)
RU (1) RU2459242C1 (ru)
WO (1) WO2013022384A1 (ru)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715515B2 (en) * 2014-01-31 2017-07-25 Microsoft Technology Licensing, Llc External data access with split index
US10545915B2 (en) * 2015-02-02 2020-01-28 Quantum Corporation Recursive multi-threaded file system scanner for serializing file system metadata exoskeleton
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
US10176175B2 (en) * 2015-08-19 2019-01-08 International Business Machines Corporation System and method for identifying candidates for back-of-book index
EA202191759A1 (ru) * 2019-04-04 2021-12-15 Олег Александрович СЕРЕБРЕННИКОВ Иерархическая память последовательностей

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
US20060253518A1 (en) * 2005-04-15 2006-11-09 Argentar David R Hybrid method of discovering patterns in sequences of symbols using position indices in combination with binary arrays
WO2009108459A2 (en) * 2008-02-26 2009-09-03 Microsoft Corporation Indexing large-scale gps tracks
US20100121856A1 (en) * 2008-11-11 2010-05-13 Nec (China) Co., Ltd. Method and apparatus for generating index as well as search method and search apparatus
US20100332511A1 (en) * 2009-06-26 2010-12-30 Entanglement Technologies, Llc System and Methods for Units-Based Numeric Information Retrieval

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745889A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for parsing information of databases records using word-location pairs and metaword-location pairs
US5968109A (en) * 1996-10-25 1999-10-19 Navigation Technologies Corporation System and method for use and storage of geographic data on physical media
US6490579B1 (en) * 1998-07-16 2002-12-03 Perot Systems Corporation Search engine system and method utilizing context of heterogeneous information resources
US7031969B2 (en) * 2002-02-20 2006-04-18 Lawrence Technologies, Llc System and method for identifying relationships between database records
US6993534B2 (en) * 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
RU2272879C2 (ru) 2004-02-17 2006-03-27 Благодарная Елена Михайловна Узел крепления составных облицовочных конструкций
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US20060294049A1 (en) * 2005-06-27 2006-12-28 Microsoft Corporation Back-off mechanism for search

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
US20060253518A1 (en) * 2005-04-15 2006-11-09 Argentar David R Hybrid method of discovering patterns in sequences of symbols using position indices in combination with binary arrays
WO2009108459A2 (en) * 2008-02-26 2009-09-03 Microsoft Corporation Indexing large-scale gps tracks
US20100121856A1 (en) * 2008-11-11 2010-05-13 Nec (China) Co., Ltd. Method and apparatus for generating index as well as search method and search apparatus
US20100332511A1 (en) * 2009-06-26 2010-12-30 Entanglement Technologies, Llc System and Methods for Units-Based Numeric Information Retrieval

Also Published As

Publication number Publication date
RU2459242C1 (ru) 2012-08-20
US20140214852A1 (en) 2014-07-31
US9679002B2 (en) 2017-06-13

Similar Documents

Publication Publication Date Title
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
Aubert et al. Advene: active reading through hypervideo
US20080306925A1 (en) Method and apparatus for automatic multimedia narrative enrichment
US20130332450A1 (en) System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
Repp et al. Browsing within lecture videos based on the chain index of speech transcription
WO2015199842A1 (en) Contextual search on multimedia content
CN102027467A (zh) 视频数据的非线性表征
RU2459242C1 (ru) Способ создания и использования рекурсивного индекса поисковых машин
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
Sack et al. Integrating Social Tagging and Document Annotation for Content-Based Search in Multimedia Data.
Bolettieri et al. Automatic metadata extraction and indexing for reusing e-learning multimedia objects
Sack et al. Automated annotations of synchronized multimedia presentations
Akasaki et al. Early discovery of emerging entities in microblogs
de Jong et al. Multimedia search without visual analysis: the value of linguistic and contextual information
Strobel et al. Metadata for scientific audiovisual media: current practices and perspectives of the TIB| AV-Portal
Christel Automated metadata in multimedia information systems
Hürst et al. Searching in recorded lectures
Ashok Kumar et al. An efficient scene content-based indexing and retrieval on video lectures
CN104516941A (zh) 相关文档检索装置、方法及程序
Phang et al. Tools and technologies for enhancing access to audiovisual archives: The Singapore journey
CN112765194B (zh) 一种数据检索方法及电子设备
US20220342924A1 (en) Method and system for editorializing digital audiovisual or audio recording content of an oral presentation
Azaiez et al. An approach of a semantic annotation and thematisation of AV documents
Rigamonti et al. Browsing multimedia archives through intra-and multimodal cross-documents links

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12822006

Country of ref document: EP

Kind code of ref document: A1

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14238667

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12822006

Country of ref document: EP

Kind code of ref document: A1