RU2013132622A - SYSTEM AND SEMANTIC SEARCH METHOD - Google Patents

SYSTEM AND SEMANTIC SEARCH METHOD Download PDF

Info

Publication number
RU2013132622A
RU2013132622A RU2013132622/08A RU2013132622A RU2013132622A RU 2013132622 A RU2013132622 A RU 2013132622A RU 2013132622/08 A RU2013132622/08 A RU 2013132622/08A RU 2013132622 A RU2013132622 A RU 2013132622A RU 2013132622 A RU2013132622 A RU 2013132622A
Authority
RU
Russia
Prior art keywords
semantic
texts
lexical
corpus
sentence
Prior art date
Application number
RU2013132622/08A
Other languages
Russian (ru)
Other versions
RU2563148C2 (en
Inventor
Константин Алексеевич Зуев
Татьяна Владимировна Даниэлян
Эльмира Монировна Рахматулина
Original Assignee
Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби ИнфоПоиск" filed Critical Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority to RU2013132622/08A priority Critical patent/RU2563148C2/en
Priority to US14/142,701 priority patent/US9645993B2/en
Publication of RU2013132622A publication Critical patent/RU2013132622A/en
Application granted granted Critical
Publication of RU2563148C2 publication Critical patent/RU2563148C2/en

Links

Landscapes

  • Machine Translation (AREA)

Abstract

1. Способ организации поиска в корпусах электронных текстов для компьютерной системы, заключающийся в том, что, по меньшей мере, один раз производят следующую последовательность действий:- предварительно осуществляют семантико-синтаксический анализ корпуса текстов с определением значений лингвистических параметров предложений, их сохранением в памяти и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов,- осуществляют поиск фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу,- производят оценку релевантности результатов,- ранжируют результаты поиска в соответствии со степенью релевантности.2. Способ по п.1, где семантико-синтаксический анализ корпуса текстов для каждого предложения корпуса текстов включает:- генерацию всех потенциальных связей между элементами предложения и их сохранении в памяти,- построение графа обобщенных составляющих,- генерацию из графа обобщенных составляющих, по крайней мере, одного синтаксического дерева,- установление недревесных связей и построение на основе синтаксического дерева синтаксической структуры предложения и ее сохранение в памяти,- генерацию универсальной семантической структуры предложения на основе его синтаксической структуры и ее сохранении в памяти.3. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает лексический выбор и выбор лучшей синтаксической структуры предложения.4. Способ по п.3, где лексический выбор состоит в выборе наиболее вероятного лексического значения слова1. A method of organizing a search in electronic text cases for a computer system, which consists in the following sequence of actions being performed at least once: - semantically-syntactically analyze the text body with determining the values of the linguistic parameters of sentences and storing them in memory and the construction of semantic sentence structures that make up the texts of the corpus of texts, and their subsequent indexing and preservation of indices, - search for fragments in advance If the indexes of electronic texts that satisfy the request are indexed, then they evaluate the relevance of the results, and rank the search results according to the degree of relevance. 2. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts for each sentence of the corpus of texts includes: - generating all potential relationships between the elements of the sentence and storing them in memory, - constructing a graph of generalized components, - generating from the graph of generalized components, at least , of one syntax tree, - the establishment of non-wood relationships and the construction on the basis of the syntax tree of the syntactic structure of the sentence and its storage in memory, - the generation of a universal semantic structure of pre sentences based on its syntactic structure and its storage in memory. 3. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes lexical selection and selection of the best syntactic structure of the sentence. The method according to claim 3, where the lexical choice consists in choosing the most likely lexical meaning of the word

Claims (41)

1. Способ организации поиска в корпусах электронных текстов для компьютерной системы, заключающийся в том, что, по меньшей мере, один раз производят следующую последовательность действий:1. The method of organizing a search in electronic text cases for a computer system, which consists in the fact that at least once the following sequence of actions is performed: - предварительно осуществляют семантико-синтаксический анализ корпуса текстов с определением значений лингвистических параметров предложений, их сохранением в памяти и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов,- preliminarily carry out semantic and syntactic analysis of the corpus of texts with the determination of the values of the linguistic parameters of sentences, their storage in memory and the construction of semantic structures of sentences that make up the texts of the corpus of texts, and their subsequent indexing and preservation of indices, - осуществляют поиск фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу,- they search for fragments in pre-indexed cases of electronic texts that satisfy the request, - производят оценку релевантности результатов,- evaluate the relevance of the results, - ранжируют результаты поиска в соответствии со степенью релевантности.- rank the search results in accordance with the degree of relevance. 2. Способ по п.1, где семантико-синтаксический анализ корпуса текстов для каждого предложения корпуса текстов включает:2. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts for each sentence of the corpus of texts includes: - генерацию всех потенциальных связей между элементами предложения и их сохранении в памяти,- the generation of all potential relationships between the elements of the proposal and their preservation in memory, - построение графа обобщенных составляющих,- construction of a graph of generalized components, - генерацию из графа обобщенных составляющих, по крайней мере, одного синтаксического дерева,- generation of generalized components from the graph of at least one syntax tree, - установление недревесных связей и построение на основе синтаксического дерева синтаксической структуры предложения и ее сохранение в памяти,- the establishment of non-wood relationships and the construction on the basis of the syntax tree of the syntactic structure of the sentence and its storage in memory, - генерацию универсальной семантической структуры предложения на основе его синтаксической структуры и ее сохранении в памяти.- the generation of a universal semantic structure of a sentence based on its syntactic structure and its storage in memory. 3. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает лексический выбор и выбор лучшей синтаксической структуры предложения.3. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes lexical selection and selection of the best syntactic structure of the sentence. 4. Способ по п.3, где лексический выбор состоит в выборе наиболее вероятного лексического значения слова из множества возможных лексических значений этого слова с учетом априорных и вычисляемых интегральных оценок.4. The method according to claim 3, where the lexical choice is to select the most probable lexical meaning of the word from the set of possible lexical meanings of the word, taking into account a priori and calculated integral estimates. 5. Способ по п.3, где лексический выбор заключается в приписывании слову некоторого множества возможных лексических значений, каждый с соответствующей оценкой вероятности вхождения этого лексического значения в предложение.5. The method according to claim 3, where the lexical choice is ascribing to the word a certain set of possible lexical meanings, each with a corresponding estimate of the probability of occurrence of this lexical meaning in the sentence. 6. Способ по п.1, где семантико-синтаксический анализ корпуса текстов включает определение и извлечение значений морфологических, лексических, синтаксических и семантических параметров элементов корпуса текстов.6. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts includes determining and extracting the values of the morphological, lexical, syntactic and semantic parameters of the elements of the corpus of texts. 7. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает атрибутирование элементов корпуса текстов понятиями модели предметной области (онтологии).7. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes attributing the elements of the corpus of texts with concepts of the domain model (ontology). 8. Способ по п.1, где семантико-синтаксический анализ корпуса текстов дополнительно включает восстановление референциальных связей между предложениями.8. The method according to claim 1, where the semantic-syntactic analysis of the corpus of texts further includes restoring the referential relations between sentences. 9. Способ по п.1, где индексирование заключается в построении индекса лексических значений и записи его в память системы.9. The method according to claim 1, where the indexing is to build an index of lexical values and write it to the system’s memory. 10. Способ по п.1, где индексирование заключается в построении индекса значений, по крайней мере, одного лингвистического параметра и записи его в память системы.10. The method according to claim 1, where the indexing is to build an index of the values of at least one linguistic parameter and write it to the system’s memory. 11. Способ по п.1, где индексирование заключается в построении индекса синтаксических структур и записи его в память системы.11. The method according to claim 1, where the indexing is to build an index of syntactic structures and write it to the system memory. 12. Способ по п.1, где индексирование заключается в построении индекса семантических структур и записи его в память системы.12. The method according to claim 1, where the indexing is to build an index of semantic structures and write it to the system’s memory. 13. Способ по п.1, где элементами запроса являются лексические значения.13. The method according to claim 1, where the elements of the query are lexical values. 14. Способ по п.13, где запрос представляет собой комбинацию лексических значений с помощью булевских операторов "И", "ИЛИ", "НЕ".14. The method according to item 13, where the query is a combination of lexical values using the Boolean operators "AND", "OR", "NOT". 15. Способ по п.13 и 14, где лексические значения элементов запроса выбираются пользователем посредством выбора соответствующего семантического класса из списка возможных семантических классов.15. The method according to item 13 and 14, where the lexical values of the query elements are selected by the user by selecting the appropriate semantic class from the list of possible semantic classes. 16. Способ по п.12 и 13, где лексические значения элементов запроса выбираются пользователем посредством выбора соответствующего толкования из списка возможных толкований.16. The method according to item 12 and 13, where the lexical values of the query elements are selected by the user by selecting the appropriate interpretation from the list of possible interpretations. 17. Способ по п.13, где лексические значения элементов запроса определяются автоматически с учетом вероятностных оценок.17. The method according to item 13, where the lexical values of the elements of the query are determined automatically taking into account probability estimates. 18. Способ по п.13, где лексические значения элементов запроса определяются автоматически на основе прагматического и контекстного анализа.18. The method according to item 13, where the lexical values of the elements of the query are determined automatically based on pragmatic and contextual analysis. 19. Способ по п.13, где для определения лексических значений элементов запроса производят семантико-синтаксический разбор запроса, включающий, по крайней мере, синтаксический анализ, фиксацию лексических значений элементов запроса, распознавание семантической структуры запроса.19. The method according to item 13, where to determine the lexical values of the query elements produce semantic-syntactic analysis of the query, including at least parsing, fixing the lexical values of the query elements, recognition of the semantic structure of the query. 20. Способ по п.1, где элементом запроса является синтаксическая структура.20. The method according to claim 1, where the query element is a syntax structure. 21. Способ по п.1, где элементом запроса является семантическая структура.21. The method according to claim 1, where the query element is a semantic structure. 22. Способ по п.1, где запрос формулируется в виде предложения на естественном языке.22. The method according to claim 1, where the request is formulated as a sentence in a natural language. 23. Способ по п.22, где запрос формулируется в виде вопросительного предложения на естественном языке.23. The method according to item 22, where the request is formulated as an interrogative sentence in a natural language. 24. Способ по п.22, где запрос в виде предложения на естественном языке содержит переменную (лакуну).24. The method according to item 22, where the request in the form of a sentence in a natural language contains a variable (lacuna). 25. Способ по п.1, где элемент запроса атрибутируется понятием модели предметной области (онтологии).25. The method according to claim 1, where the request element is attributed to the concept of a domain model (ontology). 26. Способ по п.25, где атрибуция элемента запроса понятием модели предметной области (онтологии) выполняется автоматически.26. The method according A.25, where the attribution of the query element by the concept of the domain model (ontology) is performed automatically. 27. Способ по п.1, где поиск выполняется с учетом восстановленных референциальных связей между предложениями.27. The method according to claim 1, where the search is performed taking into account the restored referential connections between sentences. 28. Способ по п.1, где поиск включает также поиск лексических значений, близких по значению к элементам запроса.28. The method according to claim 1, where the search also includes searching for lexical values that are close in value to the query elements. 29. Способ по п.1, где поиск состоит в нахождении идентичных запрашиваемым или похожих синтаксических структур.29. The method according to claim 1, where the search consists in finding identical to the requested or similar syntactic structures. 30. Способ по п.1, где поиск состоит в нахождении идентичных запрашиваемым или похожих семантических структур.30. The method according to claim 1, where the search consists in finding identical to the requested or similar semantic structures. 31. Способ по п.1, где оценка релевантности каждого найденного фрагмента производится с учетом "меры схожести" каждого элемента запроса с соответствующим элементом в найденном фрагменте.31. The method according to claim 1, where the relevance of each found fragment is evaluated taking into account the "measure of similarity" of each request element with the corresponding element in the found fragment. 32. Способ по п.1, где оценка релевантности каждого найденного фрагмента производится с учетом вероятности искомого лексического значения в данном фрагменте, определенной при лексическом выборе в процессе предварительного анализа корпуса текстов.32. The method according to claim 1, where the relevance of each found fragment is assessed taking into account the probability of the desired lexical meaning in this fragment, which was determined by the lexical choice in the process of preliminary analysis of the text corpus. 33. Способ по п.1, где результаты поиска содержат информацию о лексических значениях элементов запроса в тексте найденных фрагментов.33. The method according to claim 1, where the search results contain information about the lexical values of the query elements in the text of the fragments found. 34. Система организации поиска в корпусах электронных текстов, включающая:34. A system for organizing searches in electronic text buildings, including: - один или более процессоров;- one or more processors; - одно или более устройств памяти;- one or more memory devices; - программные инструкции для вычислительного устройства, записанные в одно или более устройств памяти, которые при выполнении на одном или более процессорах управляют системой для:- software instructions for a computing device recorded in one or more memory devices that, when executed on one or more processors, control the system for: - предварительного осуществления семантико-синтаксического анализа корпуса текстов с определением значений лингвистических параметров предложений, их сохранением в памяти и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов,- preliminary implementation of the semantic-syntactic analysis of the corpus of texts with the determination of the values of the linguistic parameters of sentences, their storage in memory and the construction of semantic structures of sentences that make up the texts of the corpus of texts, and their subsequent indexing and preservation of indices, - поиска фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу- search for fragments in pre-indexed cases of electronic texts that satisfy the request - оценки релевантности результатов,- assessment of the relevance of the results, - ранжирования результаты поиска в соответствии со степенью релевантности.- ranking the search results according to the degree of relevance. 35. Система по п.34, где семантико-синтаксический анализ корпуса текстов для каждого предложения корпуса текстов включает:35. The system according to clause 34, where the semantic-syntactic analysis of the corpus of texts for each sentence of the corpus of texts includes: - генерацию всех потенциальных связей между элементами предложения и их сохранении в памяти,- the generation of all potential relationships between the elements of the proposal and their preservation in memory, - построение графа обобщенных составляющих,- construction of a graph of generalized components, - генерацию из графа обобщенных составляющих, по крайней мере, одного синтаксического дерева,- generation of generalized components from the graph of at least one syntax tree, - установление недревесных связей и построение на основе синтаксического дерева синтаксической структуры предложения и ее сохранение в памяти,- the establishment of non-wood relationships and the construction on the basis of the syntax tree of the syntactic structure of the sentence and its storage in memory, - генерацию универсальной семантической структуры предложения на основе его синтаксической структуры и ее сохранении в памяти.- the generation of a universal semantic structure of a sentence based on its syntactic structure and its storage in memory. 36. Система по п.34, где семантико-синтаксический анализ корпуса текстов дополнительно включает лексический выбор и выбор лучшей синтаксической структуры предложения.36. The system of claim 34, wherein the semantic-syntactic analysis of the corpus of texts further includes lexical selection and selection of the best syntactic structure of the sentence. 37. Система по п.34, где индексирование заключается в построении индекса лексических и/или синтаксических и/или семантических значений и записи его в память системы.37. The system according to clause 34, where the indexing is to build an index of lexical and / or syntactic and / or semantic values and write it to the system’s memory. 38. Система по п.34, где элементами запроса являются лексические значения и/или синтаксическая структура и/или семантическая структура.38. The system of claim 34, wherein the query elements are lexical meanings and / or syntactic structure and / or semantic structure. 39. Система по п.34, где запрос формулируется в виде предложения на естественном языке.39. The system of claim 34, wherein the request is formulated as a sentence in a natural language. 40. Система по п.34, где элемент запроса атрибутируется понятием модели предметной области (онтологии).40. The system according to clause 34, where the request element is attributed to the concept of a domain model (ontology). 41. Система по п.34, где оценка релевантности каждого найденного фрагмента производится с учетом "меры схожести" и/или с учетом вероятности искомого лексического значения каждого элемента запроса с соответствующим элементом в найденном фрагменте. 41. The system according to clause 34, where the relevance of each found fragment is evaluated taking into account the “measure of similarity” and / or taking into account the probability of the desired lexical meaning of each query element with the corresponding element in the found fragment.
RU2013132622/08A 2006-10-10 2013-07-15 System and method for semantic search RU2563148C2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013132622/08A RU2563148C2 (en) 2013-07-15 2013-07-15 System and method for semantic search
US14/142,701 US9645993B2 (en) 2006-10-10 2013-12-27 Method and system for semantic searching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013132622/08A RU2563148C2 (en) 2013-07-15 2013-07-15 System and method for semantic search

Publications (2)

Publication Number Publication Date
RU2013132622A true RU2013132622A (en) 2015-01-20
RU2563148C2 RU2563148C2 (en) 2015-09-20

Family

ID=53280805

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013132622/08A RU2563148C2 (en) 2006-10-10 2013-07-15 System and method for semantic search

Country Status (1)

Country Link
RU (1) RU2563148C2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052340A (en) * 2020-08-10 2020-12-08 深圳数联天下智能科技有限公司 Data model construction method and device and electronic equipment
CN116910086A (en) * 2023-09-13 2023-10-20 北京理工大学 Database query method and system based on self-attention syntax sensing

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2635257C1 (en) * 2016-07-28 2017-11-09 Общество с ограниченной ответственностью "Аби Продакшн" Sentiment analysis at level of aspects and creation of reports using machine learning methods
RU2691836C1 (en) * 2018-06-07 2019-06-18 Игорь Петрович Рогачев Method of transforming a structured data array comprising main linguistic-logic entities

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008292779B2 (en) * 2007-08-31 2012-09-06 Microsoft Technology Licensing, Llc Coreference resolution in an ambiguity-sensitive natural language processing system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052340A (en) * 2020-08-10 2020-12-08 深圳数联天下智能科技有限公司 Data model construction method and device and electronic equipment
CN116910086A (en) * 2023-09-13 2023-10-20 北京理工大学 Database query method and system based on self-attention syntax sensing
CN116910086B (en) * 2023-09-13 2023-12-01 北京理工大学 Database query method and system based on self-attention syntax sensing

Also Published As

Publication number Publication date
RU2563148C2 (en) 2015-09-20

Similar Documents

Publication Publication Date Title
US9448995B2 (en) Method and device for performing natural language searches
US10025819B2 (en) Generating a query statement based on unstructured input
US10061766B2 (en) Systems and methods for domain-specific machine-interpretation of input data
US9727637B2 (en) Retrieving text from a corpus of documents in an information handling system
Zhang et al. Entity linking leveraging automatically generated annotation
WO2016112679A1 (en) Method, system and storage medium for realizing intelligent answering of questions
WO2015135455A1 (en) Natural language question answering method and apparatus
US20130268519A1 (en) Fact verification engine
US20140032574A1 (en) Natural language understanding using brain-like approach: semantic engine using brain-like approach (sebla) derives semantics of words and sentences
JP2009087347A (en) Information search system
KR20160124742A (en) Method for disambiguating features in unstructured text
CN108197116B (en) Method and device for segmenting Chinese text, segmentation equipment and storage medium
US9087122B2 (en) Corpus search improvements using term normalization
US20220083549A1 (en) Generating query answers from a user's history
RU2013132622A (en) SYSTEM AND SEMANTIC SEARCH METHOD
Sukumar et al. Semantic based sentence ordering approach for multi-document summarization
Subiksha Improvement in analyzing healthcare systems using deep learning architecture
Li DeepFCA: Matching biomedical ontologies using formal concept analysis embedding techniques
RU2672393C2 (en) Method and system of thesaurus automatic formation
Shiang et al. Spoken question answering using tree-structured conditional random fields and two-layer random walk
JP2014191777A (en) Word meaning analysis device and program
KR101593214B1 (en) Method and system for searching by using natural language query
Sahu et al. Analytical study on intelligent information retrieval system using semantic network
Zhang et al. Naxi sentence similarity calculation based on improved chunking edit-distance
Holzmann et al. Named entity evolution recognition on the Blogosphere

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20170630

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311