Claims (41)
1. Способ организации поиска в корпусах электронных текстов для компьютерной системы, заключающийся в том, что, по меньшей мере, один раз производят следующую последовательность действий:1. The method of organizing a search in electronic text cases for a computer system, which consists in the fact that at least once the following sequence of actions is performed:
- предварительно осуществляют семантико-синтаксический анализ корпуса текстов с определением значений лингвистических параметров предложений, их сохранением в памяти и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов,- preliminarily carry out semantic and syntactic analysis of the corpus of texts with the determination of the values of the linguistic parameters of sentences, their storage in memory and the construction of semantic structures of sentences that make up the texts of the corpus of texts, and their subsequent indexing and preservation of indices,
- осуществляют поиск фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу,- they search for fragments in pre-indexed cases of electronic texts that satisfy the request,
- производят оценку релевантности результатов,- evaluate the relevance of the results,
- ранжируют результаты поиска в соответствии со степенью релевантности.- rank the search results in accordance with the degree of relevance.
2. Способ по п.1, где семантико-синтаксический анализ корпуса текстов для каждого предложения корпуса текстов включает:2. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts for each sentence of the corpus of texts includes:
- генерацию всех потенциальных связей между элементами предложения и их сохранении в памяти,- the generation of all potential relationships between the elements of the proposal and their preservation in memory,
- построение графа обобщенных составляющих,- construction of a graph of generalized components,
- генерацию из графа обобщенных составляющих, по крайней мере, одного синтаксического дерева,- generation of generalized components from the graph of at least one syntax tree,
- установление недревесных связей и построение на основе синтаксического дерева синтаксической структуры предложения и ее сохранение в памяти,- the establishment of non-wood relationships and the construction on the basis of the syntax tree of the syntactic structure of the sentence and its storage in memory,
- генерацию универсальной семантической структуры предложения на основе его синтаксической структуры и ее сохранении в памяти.- the generation of a universal semantic structure of a sentence based on its syntactic structure and its storage in memory.
3. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает лексический выбор и выбор лучшей синтаксической структуры предложения.3. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes lexical selection and selection of the best syntactic structure of the sentence.
4. Способ по п.3, где лексический выбор состоит в выборе наиболее вероятного лексического значения слова из множества возможных лексических значений этого слова с учетом априорных и вычисляемых интегральных оценок.4. The method according to claim 3, where the lexical choice is to select the most probable lexical meaning of the word from the set of possible lexical meanings of the word, taking into account a priori and calculated integral estimates.
5. Способ по п.3, где лексический выбор заключается в приписывании слову некоторого множества возможных лексических значений, каждый с соответствующей оценкой вероятности вхождения этого лексического значения в предложение.5. The method according to claim 3, where the lexical choice is ascribing to the word a certain set of possible lexical meanings, each with a corresponding estimate of the probability of occurrence of this lexical meaning in the sentence.
6. Способ по п.1, где семантико-синтаксический анализ корпуса текстов включает определение и извлечение значений морфологических, лексических, синтаксических и семантических параметров элементов корпуса текстов.6. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts includes determining and extracting the values of the morphological, lexical, syntactic and semantic parameters of the elements of the corpus of texts.
7. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает атрибутирование элементов корпуса текстов понятиями модели предметной области (онтологии).7. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes attributing the elements of the corpus of texts with concepts of the domain model (ontology).
8. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает восстановление референциальных связей между предложениями.8. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes restoring the referential relations between sentences.
9. Способ по п.1, где индексирование заключается в построении индекса лексических значений и записи его в память системы.9. The method according to claim 1, where the indexing is to build an index of lexical values and write it to the system’s memory.
10. Способ по п.1, где индексирование заключается в построении индекса значений, по крайней мере, одного лингвистического параметра и записи его в память системы.10. The method according to claim 1, where the indexing is to build an index of the values of at least one linguistic parameter and write it to the system’s memory.
11. Способ по п.1, где индексирование заключается в построении индекса синтаксических структур и записи его в память системы.11. The method according to claim 1, where the indexing is to build an index of syntactic structures and write it to the system memory.
12. Способ по п.1, где индексирование заключается в построении индекса семантических структур и записи его в память системы.12. The method according to claim 1, where the indexing is to build an index of semantic structures and write it to the system’s memory.
13. Способ по п.1, где элементами запроса являются лексические значения.13. The method according to claim 1, where the elements of the query are lexical values.
14. Способ по п.13, где запрос представляет собой комбинацию лексических значений с помощью булевских операторов "И", "ИЛИ", "НЕ".14. The method according to item 13, where the query is a combination of lexical values using the Boolean operators "AND", "OR", "NOT".
15. Способ по п.13 и 14, где лексические значения элементов запроса выбираются пользователем посредством выбора соответствующего семантического класса из списка возможных семантических классов.15. The method according to item 13 and 14, where the lexical values of the query elements are selected by the user by selecting the appropriate semantic class from the list of possible semantic classes.
16. Способ по п.12 и 13, где лексические значения элементов запроса выбираются пользователем посредством выбора соответствующего толкования из списка возможных толкований.16. The method according to item 12 and 13, where the lexical values of the query elements are selected by the user by selecting the appropriate interpretation from the list of possible interpretations.
17. Способ по п.13, где лексические значения элементов запроса определяются автоматически с учетом вероятностных оценок.17. The method according to item 13, where the lexical values of the elements of the query are determined automatically taking into account probability estimates.
18. Способ по п.13, где лексические значения элементов запроса определяются автоматически на основе прагматического и контекстного анализа.18. The method according to item 13, where the lexical values of the elements of the query are determined automatically based on pragmatic and contextual analysis.
19. Способ по п.13, где для определения лексических значений элементов запроса производят семантико-синтаксический разбор запроса, включающий, по крайней мере, синтаксический анализ, фиксацию лексических значений элементов запроса, распознавание семантической структуры запроса.19. The method according to item 13, where to determine the lexical values of the query elements produce semantic-syntactic analysis of the query, including at least parsing, fixing the lexical values of the query elements, recognition of the semantic structure of the query.
20. Способ по п.1, где элементом запроса является синтаксическая структура.20. The method according to claim 1, where the query element is a syntax structure.
21. Способ по п.1, где элементом запроса является семантическая структура.21. The method according to claim 1, where the query element is a semantic structure.
22. Способ по п.1, где запрос формулируется в виде предложения на естественном языке.22. The method according to claim 1, where the request is formulated as a sentence in a natural language.
23. Способ по п.22, где запрос формулируется в виде вопросительного предложения на естественном языке.23. The method according to item 22, where the request is formulated as an interrogative sentence in a natural language.
24. Способ по п.22, где запрос в виде предложения на естественном языке содержит переменную (лакуну).24. The method according to item 22, where the request in the form of a sentence in a natural language contains a variable (lacuna).
25. Способ по п.1, где элемент запроса атрибутируется понятием модели предметной области (онтологии).25. The method according to claim 1, where the request element is attributed to the concept of a domain model (ontology).
26. Способ по п.25, где атрибуция элемента запроса понятием модели предметной области (онтологии) выполняется автоматически.26. The method according A.25, where the attribution of the query element by the concept of the domain model (ontology) is performed automatically.
27. Способ по п.1, где поиск выполняется с учетом восстановленных референциальных связей между предложениями.27. The method according to claim 1, where the search is performed taking into account the restored referential connections between sentences.
28. Способ по п.1, где поиск включает также поиск лексических значений, близких по значению к элементам запроса.28. The method according to claim 1, where the search also includes searching for lexical values that are close in value to the query elements.
29. Способ по п.1, где поиск состоит в нахождении идентичных запрашиваемым или похожих синтаксических структур.29. The method according to claim 1, where the search consists in finding identical to the requested or similar syntactic structures.
30. Способ по п.1, где поиск состоит в нахождении идентичных запрашиваемым или похожих семантических структур.30. The method according to claim 1, where the search consists in finding identical to the requested or similar semantic structures.
31. Способ по п.1, где оценка релевантности каждого найденного фрагмента производится с учетом "меры схожести" каждого элемента запроса с соответствующим элементом в найденном фрагменте.31. The method according to claim 1, where the relevance of each found fragment is evaluated taking into account the "measure of similarity" of each request element with the corresponding element in the found fragment.
32. Способ по п.1, где оценка релевантности каждого найденного фрагмента производится с учетом вероятности искомого лексического значения в данном фрагменте, определенной при лексическом выборе в процессе предварительного анализа корпуса текстов.32. The method according to claim 1, where the relevance of each found fragment is assessed taking into account the probability of the desired lexical meaning in this fragment, which was determined by the lexical choice in the process of preliminary analysis of the text corpus.
33. Способ по п.1, где результаты поиска содержат информацию о лексических значениях элементов запроса в тексте найденных фрагментов.33. The method according to claim 1, where the search results contain information about the lexical values of the query elements in the text of the fragments found.
34. Система организации поиска в корпусах электронных текстов, включающая:34. A system for organizing searches in electronic text buildings, including:
- один или более процессоров;- one or more processors;
- одно или более устройств памяти;- one or more memory devices;
- программные инструкции для вычислительного устройства, записанные в одно или более устройств памяти, которые при выполнении на одном или более процессорах управляют системой для:- software instructions for a computing device recorded in one or more memory devices that, when executed on one or more processors, control the system for:
- предварительного осуществления семантико-синтаксического анализа корпуса текстов с определением значений лингвистических параметров предложений, их сохранением в памяти и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов,- preliminary implementation of the semantic-syntactic analysis of the corpus of texts with the determination of the values of the linguistic parameters of sentences, their storage in memory and the construction of semantic structures of sentences that make up the texts of the corpus of texts, and their subsequent indexing and preservation of indices,
- поиска фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу- search for fragments in pre-indexed cases of electronic texts that satisfy the request
- оценки релевантности результатов,- assessment of the relevance of the results,
- ранжирования результаты поиска в соответствии со степенью релевантности.- ranking the search results according to the degree of relevance.
35. Система по п.34, где семантико-синтаксический анализ корпуса текстов для каждого предложения корпуса текстов включает:35. The system according to clause 34, where the semantic-syntactic analysis of the corpus of texts for each sentence of the corpus of texts includes:
- генерацию всех потенциальных связей между элементами предложения и их сохранении в памяти,- the generation of all potential relationships between the elements of the proposal and their preservation in memory,
- построение графа обобщенных составляющих,- construction of a graph of generalized components,
- генерацию из графа обобщенных составляющих, по крайней мере, одного синтаксического дерева,- generation of generalized components from the graph of at least one syntax tree,
- установление недревесных связей и построение на основе синтаксического дерева синтаксической структуры предложения и ее сохранение в памяти,- the establishment of non-wood relationships and the construction on the basis of the syntax tree of the syntactic structure of the sentence and its storage in memory,
- генерацию универсальной семантической структуры предложения на основе его синтаксической структуры и ее сохранении в памяти.- the generation of a universal semantic structure of a sentence based on its syntactic structure and its storage in memory.
36. Система по п.34, где семантико-синтаксический анализ корпуса текстов дополнительно включает лексический выбор и выбор лучшей синтаксической структуры предложения.36. The system of claim 34, wherein the semantic-syntactic analysis of the corpus of texts further includes lexical selection and selection of the best syntactic structure of the sentence.
37. Система по п.34, где индексирование заключается в построении индекса лексических и/или синтаксических и/или семантических значений и записи его в память системы.37. The system according to clause 34, where the indexing is to build an index of lexical and / or syntactic and / or semantic values and write it to the system’s memory.
38. Система по п.34, где элементами запроса являются лексические значения и/или синтаксическая структура и/или семантическая структура.38. The system of claim 34, wherein the query elements are lexical meanings and / or syntactic structure and / or semantic structure.
39. Система по п.34, где запрос формулируется в виде предложения на естественном языке.39. The system of claim 34, wherein the request is formulated as a sentence in a natural language.
40. Система по п.34, где элемент запроса атрибутируется понятием модели предметной области (онтологии).40. The system according to clause 34, where the request element is attributed to the concept of a domain model (ontology).
41. Система по п.34, где оценка релевантности каждого найденного фрагмента производится с учетом "меры схожести" и/или с учетом вероятности искомого лексического значения каждого элемента запроса с соответствующим элементом в найденном фрагменте.
41. The system according to clause 34, where the relevance of each found fragment is evaluated taking into account the “measure of similarity” and / or taking into account the probability of the desired lexical meaning of each query element with the corresponding element in the found fragment.