RU2592395C2 - Разрешение семантической неоднозначности при помощи статистического анализа - Google Patents

Разрешение семантической неоднозначности при помощи статистического анализа Download PDF

Info

Publication number
RU2592395C2
RU2592395C2 RU2013156494/08A RU2013156494A RU2592395C2 RU 2592395 C2 RU2592395 C2 RU 2592395C2 RU 2013156494/08 A RU2013156494/08 A RU 2013156494/08A RU 2013156494 A RU2013156494 A RU 2013156494A RU 2592395 C2 RU2592395 C2 RU 2592395C2
Authority
RU
Russia
Prior art keywords
word
concept
semantic
values
words
Prior art date
Application number
RU2013156494/08A
Other languages
English (en)
Other versions
RU2013156494A (ru
Inventor
Константин Алексеевич Зуев
Дарья Николаевна Богданова
Original Assignee
Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби ИнфоПоиск" filed Critical Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority to RU2013156494/08A priority Critical patent/RU2592395C2/ru
Priority to US14/509,355 priority patent/US9740682B2/en
Publication of RU2013156494A publication Critical patent/RU2013156494A/ru
Application granted granted Critical
Publication of RU2592395C2 publication Critical patent/RU2592395C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к способам автоматической обработки текста на естественном языке. Техническим результатом является повышение точности синтаксического и семантического анализа, выражающейся в распознавании смысла текста, точности машинного перевода, релевантности результатов информационного поиска. Технический результат достигается за счет возможности динамически в автоматическом режиме пополнять словари, реестры слов, семантические описания языка новыми словами, вследствие чего повышается эффективность систем, решающих задачи автоматической обработки текста. Компьютерное устройство получает текст, содержащий слово. Слово сравнивается со словами из реестра значений. Реестр значений содержит слова и соответствующие им понятия. При соотнесении слова со словом из реестра значений выявляется соответствующее понятие для слова путем сравнения каждого понятия, относящегося к слову из реестра, со словом. При выявлении соответствующего понятия для слова это понятие назначается для слова. При невыявлении соответствующего понятия для слова для данного слова добавляется новое понятие в реестр значений на основе этого слова. 3 н. и 18 з.п. ф-лы, 18 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к способам автоматической обработки текста на естественном языке.
УРОВЕНЬ ТЕХНИКИ
[001] Во многих естественных языках есть омонимы, т.е. слова, имеющие несколько значений. Когда человек находит такое слово в тексте, он может безошибочно выбрать правильное значение в зависимости от контекста и интуиции. Совсем другая ситуация - когда текст анализируется с помощью компьютерной системы. Существующие системы для разрешения неоднозначности в тексте в основном базируются на лексических ресурсах, таких как словари. Для конкретного слова такие способы извлекают из лексического ресурса все возможные значения этого слова. После этого могут применяться различные способы определения того, какое из этих значений слова является релевантным. Большинство таких способов являются статистическими, т.е. основанными на анализе больших корпусов текста, в то время как некоторые другие основаны на использовании информации из словаря (например, учитывающих степень "пересечения" между толкованием в словаре и локальным контекстом, в котором используется слово). Для конкретного слова, для которого должна быть разрешена неоднозначность, такие способы, как правило, основаны на решении задачи классификации (т.е. возможные значения слова рассматриваются в качестве категорий, и слово должно быть отнесено к одной из них).
[002] Существующие способы решают проблему разрешения неоднозначности многозначных слов и омонимов, считая многозначными словами и омонимами те слова, которые появляются несколько раз в используемом реестре значений. Ни один из способов не работает со словами, которые вообще не появляются в используемом лексическом ресурсе. Реестры значений, используемые существующими способами, не позволяют вносить изменения и не отражают изменения, происходящие в языке. Есть только несколько способов, которые основаны на использовании значений из Википедии, но эти способы не вносят никаких изменений в реестр значений.
[003] В настоящее время мир быстро меняется, появляется много новых технологий и продуктов, при этом соответственно изменяется и язык. Появляются новые слова для обозначения новых понятий, а также появляются новые значения для некоторых существующих слов. Поэтому способы устранения неоднозначности текста -обеспечивать возможность эффективно обрабатывать новые слова, которые отсутствуют в используемом реестре значений, добавлять эти понятия в реестр значений и использовать их во время дальнейшего анализа.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[004] Один пример реализации изобретения относится к способу. Способ включает в себя, без ограничения, любую комбинацию этапов, на которых происходит: получение с помощью вычислительного устройства текста, включающего некоторое слово; сравнивание с помощью процессора вычислительного устройства слова в тексте со словами из реестра значений, при этом реестр значений содержит, по меньшей мере, одно слово реестра и, по меньшей мере, одно понятие, соответствующее по меньшей мере одному слову из реестра; при совпадении слова со словом из реестра значений выявление понятия для слова путем сравнения каждого понятия, связанного со словами из реестра, с этим словом; при выявлении релевантного понятия для слова назначение этого понятия для слова; и при невыявлении релевантного понятия для слова добавление нового понятия в реестр значений для слова из реестра.
[005] Другой пример реализации относится к системе. Система включает в себя один или более процессоров данных. Система также включает в себя одно или более устройств памяти, хранящих инструкции, которые, будучи исполненными одним или более процессорами данных, воздействуют на один или более процессоров данных для выполнения операций, содержащих: прием с помощью вычислительного устройства текста, включающего слово; сравнивание с помощью процессора вычислительного устройства слова в тексте со словами из реестра значений, при этом реестр значений содержит по меньшей мере одно слово реестра и по меньшей мере одно понятие, соответствующее по меньшей мере одному слову из реестра; при совпадении слова со словом из реестра значений выявление понятия для слова путем сравнения каждого понятия, связанного со словом из реестра, с этим словом; при выявлении релевантного понятия для слова назначение этого понятия для слова; и при невыявлении релевантного понятия для слова добавление нового понятия в реестр значений для слова из реестра. Еще один пример реализации относится к машиночитаемому носителю данных, имеющему хранящиеся на нем машинные инструкции, причем процессор исполняетинструкции для выполнения операций, содержащих: прием с помощью вычислительного устройства текста, включающего слово; сравнивание с помощью процессора вычислительного устройства слова в тексте со словами из реестра значений, при этом реестр значений содержит по меньшей мере одно слово реестра и по меньшей мере однопонятие, соответствующее по меньшей мере одному слову из реестра; при совпадении
слова со словом из реестра значений выявление понятия для слова путем сравнения каждого понятия, связанного со словом из реестра, с этим словом; при выявлении релевантного понятия для слова назначение этого понятия для слова; и при невыявлении релевантного понятия для слова добавление нового понятия в реестр значений для слова из
реестра.
[006] Технический результат от внедрения изобретения состоит в возможности динамически, в автоматическом режиме, пополнять словари, реестры слов, семантические описания языка новыми словами, и вследствие этого повысить эффективность систем, решающих задачи автоматической обработки текста. Под эффективностью таких систем понимается точность синтаксического и семантического анализа, выражающаяся в распознавании смысла текста, точности машинного перевода, релевантности результатов информационного поиска и т.п.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[007] Описания одного или более вариантов реализации изложены в сопутствующих рисунках и представленном ниже описании. Другие отличительные признаки, аспекты и преимущества описания предмета изобретения станут очевидны из описания, рисунков и формулы изобретения, где:
[008] на Фиг. 1 представлена блок-схема способа разрешения семантической неоднозначности в соответствии с одним или более вариантами реализации;
[009] на Фиг. 2 представлена блок-схема способа исчерпывающего анализа в соответствии с одним или более вариантами реализации;
[010] на Фиг. 3 представлена блок-схема анализа предложения в соответствии с одним или более вариантами реализации;
[011] на Фиг. 4 представлен пример семантической структуры, полученной для примера предложения;
[012] на Фиг. 5A-5D представлены фрагменты или части семантической иерархии;
[013] на Фиг. 6 представлена диаграмма, демонстрирующая описания языка в соответствии с одним примером реализации;
[014] на Фиг. 7 представлена диаграмма, демонстрирующая морфологические описания в соответствии с одним или более вариантами реализации;
[015] на Фиг. 8 представлена диаграмма, демонстрирующая синтаксические описания в соответствии с одним или более вариантами реализации; [016] на Фиг. 9 представлена диаграмма, демонстрирующая семантические описания в соответствии с одним или более примерами реализации;
[017] на Фиг. 10 представлена диаграмма, демонстрирующая лексические описания в соответствии с одним или более вариантами реализации;
[018] на Фиг. 11 представлена блок-схема способа разрешения семантической неоднозначности с использованием параллельных текстов в соответствии с одним или более вариантами реализации;
[019] на Фиг. 12А-В представлены семантические структуры совмещенных предложений в соответствии с одним или более вариантами реализации;
[020] на Фиг. 13 представлена блок-схема способа разрешения семантической неоднозначности с использованием методик классификации в соответствии с одним или более вариантами реализации; и
[021] на Фиг. 14 представлен пример аппаратного обеспечения для реализации компьютерной системы в соответствии с одним вариантом реализации.
[022] Аналогичные номера и обозначения на различных рисунках указывают на аналогичные элементы.
ПОДРОБНОЕ ОПИСАНИЕ
[023] В последующем описании для целей пояснения изложено множество конкретных деталей реализации, чтобы обеспечить глубокое понимание понятий, лежащих в основе описанных вариантов реализации изобретения. Однако для специалистов в данной области будет очевидно, что описанные варианты реализации могут быть реализованы на практике без некоторых или всех из этих конкретных особенностей. В других случаях структуры и устройства показаны только в виде блок-схемы во избежание затруднения понимания описанных вариантов реализации. Некоторые этапы процесса не описаны подробно во избежание затруднения понимания лежащего в основе понятия.
[024] В соответствии с различными вариантами реализации изобретения, описанными в настоящем документе, предложены способ и система для разрешения семантической неоднозначности в тексте, основанные на использовании реестра значений с иерархической структурой, или семантической иерархии, а также способ добавления понятий к семантической иерархии. Семантические классы (как часть лингвистических описаний) группируются в семантическую иерархию, в которой существуют связи «родительский объект - дочерний объект». Как правило, дочерний семантический класс наследует многие или большинство свойств своего непосредственного родительского класса и всех унаследованных семантических классов. Например, семантический класс SUBSTANCE является дочерним классом семантического класса ENTITY, но в то же время он является родительским классом для семантических классов GAS, LIQUID, METAL, WOOD_MATERIAL и т.д.
[025] Каждый семантический класс в семантической иерархии сопровождается глубинной моделью. Глубинная модель семантического класса представляет собой набор глубинных позиций. Глубинные позиции отражают семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции выражают семантические отношения междусоставляющими, включающими, например, такиесоставляющие, как «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель своего непосредственного родительского семантического класса.
[026] По меньшей мере, некоторые из вариантов реализации используют технологию исчерпывающего анализа текста, которая использует широкий спектр лингвистических описаний, представленных в патенте США №8,078,450. Анализ включает в себя лексико-морфологический, синтаксический и семантический анализ, в результате создаются независимые от языка семантические структуры, в которых каждое слово сопоставлено с соответствующим семантическим классом.
[027] На Фиг.1 представлена блок-схема способа разрешения семантической неоднозначности в соответствии с одним или более вариантами реализации. Для данного текста и реестра значений 102 с иерархической структурой для каждого слова 101 в тексте в данном способе выполняются следующие шаги. Если слово появляется только один раз в реестре значений (105), способ проверяет (107), является ли такое вхождение экземпляром значения данного слова. Это может быть сделано с помощью одного из существующих статистических способов: если контекст слова аналогичен контексту слов в этом значении в корпусах, а также если контексты аналогичны, то слову в тексте назначается (109) соответствующее понятие из реестра. Если не найдено слово, которое является экземпляром этого объекта в реестре значений, в реестр значений вводится новое понятие (104) и слово, связанное с этим новым понятием. Родительский объект понятия, которое должно быть введено, может быть выявлен путем статистического анализа каждого уровня иерархии, начиная от корня и выбора наиболее вероятного узла на каждом этапе. Вероятность каждого узла, который должен быть связан со словом, основана на анализе корпусов текстов.
[028] Если слово встречается два или более раз в реестре значений, принимается решение (106), какое из значений, если они есть, является правильным для слова 101. Это может быть сделано путем применения любого существующего способа разрешения неоднозначности слова. Если оказывается, что одно из значений является правильным для слова, то это слово отождествляется с соответствующим понятием из реестра значений 108. В ином случае новое значение добавляется в реестр значений 104. Родительский объект значения, которое должно быть введено, может быть выявлен путем статистического анализа каждого уровня иерархии, начиная от корня и выбора наиболее вероятного узла на каждом этапе. Вероятность каждого узла основана на анализе корпусов текстов.
[029] Если слово совсем не появляется в реестре значений, соответствующее значение вставляется в реестр значений 104. Родительский объектзначения, которое должно быть введено, может быть выявлен путем статистического анализа каждого уровня иерархии, начиная от корня и выбора наиболее вероятного узла на каждом этапе. Вероятность каждого узла основана на корпусах текстов. В другом варианте реализации способ может устранить неоднозначность только для одного слова или для нескольких слов в контексте, в то время как другие слова рассматриваются только в качестве контекста, и для них не требуется снимать неоднозначность.
[030] В одном варианте реализации могут использоваться способы исчерпывающего анализа. На Фиг.2 представлена блок-схема способа исчерпывающего анализа в соответствии с одним или более вариантами реализации. Как показано на Фиг.2, лингвистические описания могут включать в себя лексические описания 203, морфологические описания 201, синтаксические описания 202 и семантические описания 204. Каждый из этих компонентов лингвистических описаний показан либо как воздействующий, либо как используемый в качестве входных данных на этапах, показанных на блок-схеме 200. Способ включает в себя получение исходного предложения 205. Исходное предложение 205 анализируется (206), как показано более подробно на Фиг.3. Затем формируется независимая от языка семантическая структура (Language-Independent Semantic Structure - LISS) (207). LISS представляет смысл исходного. Затем индексируются исходное предложение, синтаксическая структура и LISS (208). Результатом является набор полученных индексов 209.
[031] Индекс может содержать таблицу или может быть представлен в виде таблицы, в которой каждое значение элемента (например, слова, выражения или фразы) в документе сопровождается списком номеров или адресов его вхождения в этом документе. В некоторых вариантах реализации морфологические, синтаксические, лексические и семантические признаки могут быть проиндексированы таким же способом, как индексируется каждое слово в документе. В одном варианте реализации индексы могут быть получены для индексации всех или, по меньшей мере, одного значения морфологических, синтаксических, лексических и семантических признаков (параметров). Эти параметры или значения генерируются в процессе двухступенчатого семантического анализа, описанного ниже более подробно. Индекс можно использовать для упрощения таких операций обработки естественного языка, как устранение неоднозначности слов в документах.
[032] На Фиг.3 представлена блок-схема анализа предложения в соответствии с одним или более вариантами реализации. Как показано на Фиг.2 и Фиг.3, при анализе (206) значения исходного предложения 205 определяется лексико-морфологическая структура 322. Затем выполняется синтаксический анализ, реализованный по алгоритму двухэтапного анализа (например, «грубого» синтаксического анализа и «точного» синтаксического анализа), с использованием лингвистических моделей и знаний на различных уровнях для вычисления оценок вероятности и создания наиболее вероятной синтаксической структуры, например, наилучшей синтаксической структуры.
[033] Таким образом, проводится грубый синтаксический анализ исходного предложения для создания графа 332 обобщенных составляющих, используемого для дальнейшего синтаксического анализа. Применяются все возможные поверхностные синтаксические модели для каждого элемента лексико-морфологической структуры, а также формируются и обобщаются все возможные составляющие для представления всех возможных вариантов синтаксического разбора предложения.
[034] После грубого синтаксического анализа выполняется точный синтаксический анализ на графе обобщенных составляющих для получения одного или более синтаксических деревьев 342, представляющих исходное предложение. В одном варианте реализации создание одного или более синтаксических деревьев 342 включает в себя выбор между лексическими значениями и выбор между отношениями из графов. Многие априорные и статистические оценки могут быть использованы в процессе выбора между лексическими вариантами, а также при выборе между отношениями из графа. Априорные и статистические оценки также могут быть использованы для оценки частей созданного дерева и всего дерева. В одном варианте реализации одно или более синтаксических деревьев могут быть созданы или упорядочены в порядке убывания оценки. Таким образом, в первую очередь может создаваться наилучшее синтаксическое дерево 346. В это время также может выполняться проверка и установление недревесных связей для каждого синтаксического дерева. Если не удается выбрать первое созданное синтаксическое дерево, например, из-за невозможности установления недревесных связей, в качестве лучшего может быть выбрано второе синтаксическое дерево и т.д.
[035] На этапах анализа могут извлекаться многие лексические, грамматические, синтаксические, прагматические и семантические характеристики. Например, система может извлекать и хранить лексическую информацию и информацию о лексических единицах, принадлежащих к семантическим классам, информацию о грамматических формах и линейном порядке, о синтаксических отношениях и поверхностных позициях, об использовании синтформ, аспектность, признаки тональности, такие как положительная или отрицательная тональность, глубинные позиции, недревесные связи, семантемы и т.д. Как показано на Фиг.3, такой двухэтапный подход к синтаксическому анализу обеспечивает, предтавление значения исходного предложения наилучшей синтаксической структурой 346, выбранной из одного или более синтаксических деревьев. Такой двухэтапный анализ следует принципу целостного и целенаправленного распознавания, т.е. гипотезы о структуре части предложения проверяются с помощью всех доступных лингвистических описаний в рамках гипотезы о структуре всего предложения. Такой подход позволяет избежать необходимости анализа множества заведомо бесперспективных вариантов разбора предложения. В некоторых ситуациях такой подход снижает объем вычислительных ресурсов, необходимым для обработки предложения.
[036] Способы анализа обеспечивают достижение максимальной точности при передаче или понимании смысла предложения. На Фиг.4 представлен пример семантической структуры, полученной для предложения «This boy is smart, he′ll succeed in life.». Как показано на Фиг.4, эта структура содержит всю синтаксическую и семантическую информацию, такую как семантические классы, семантемы, семантические отношения (глубинные позиции), недревовидные ссылки и т.д. Независимая от языка семантическая структура (LISS) 352 (сформированная в блоке 207 на Фиг.2) предложения может быть представлена в виде ациклического графа (дерева, дополненного недревесными связями), в котором каждое слово конкретного языка замещено его универсальными (независимыми от языка) семантическими понятиями или семантическими объектами, называемыми в настоящем документе «семантическими классами». Семантический класс является семантическим признаком, который может быть извлечен и использован для задач классификации, кластеризации и фильтрации текстовых документов, написанных на одном или множестве языков. Другими признаками, используемыми для такой задачи, могут быть семантемы, так как они могут отражать не только семантические, но и синтаксические, грамматические и другие особенности конкретного языка в независимых от языка структурах.
[037] На Фиг.4 представлен пример синтаксического дерева 400, полученного в результате точного синтаксического анализа предложения «This boy is smart, he′ll succeed in life». Это дерево содержит полную или по существу полную семантическую информацию, такую как лексические значения, части речи, синтаксические роли, грамматические значения, синтаксические отношения (позиции), синтаксические модели, типы недревовидных ссылок и т.д. Например, установлено, что «he» относится к «boy» как субъект анафорической модели 410. Установлено, что «boy» является субъектом 420 глагола «be», «he» - субъектом 430 «succeed», a «smart» относится к «парень» с помощью «управления-дополнения» 440.
[038] На Фиг.5A-5D представлены фрагменты семантической иерархии в соответствии с одним вариантом реализации. Как показано, наиболее распространенные понятия находятся на верхних уровнях иерархии. Например, в отношении типов документов, как показано на Фиг.5 В и 5С, семантические классы PRINTED_MATTER (502), SCINTIFIC_AND_LITERARY_WORK (504), TEXT_AS_PART_OF_CREATIVE_WORK (505) и другие являются дочерними классами семантического класса TEXT_OBJECTS_AND_DOCUMENTS (501), a PRINTED_MATTER (502) в свою очередь является родительским классом для семантического класса EDITION_AS_TEXT(503), который включает в себя классы PERIODICAL и NONPERIODICAL, причем PERIODICAL в свою очередь является родительским классом для ISSUE, MAGAZINE, NEWSPAPER и других классов. Для деления на классы можно использовать различные подходы. В некоторых вариантах реализации при определении классов в первую очередь учитывается семантика использования понятий, которая является неизменной для всех языков.
[039] Каждый семантический класс в семантической иерархии может сопровождаться глубинной моделью. Глубинная модель семантического класса представляет собой набор глубинных позиций. Глубинные позиции отражают семантические роли дочерних компонентов в различных предложениях с объектами семантического класса в качестве основы родительского компонента и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции выражают семантические отношения между компонентами, включающими в себя, например, «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и регулирует глубинную модель своего непосредственного родительского семантического класса.
[040] На Фиг.6 представлена диаграмма описания языка 610 согласно одному примеру реализации. Как показано на Фиг.6, описания языка 610 включают в себя морфологические описания 201, синтаксические описания 202, лексические описания 203 и семантические описания 204. Описания языка 610 объединены в одно общее понятие. На Фиг.7 представлены морфологические описания 201, а на Фиг.8 представлены синтаксические описания 202. На Фиг.9 представлены семантические описания 204.
[041] Как показано на Фиг.6 и Фиг.9, семантическая иерархия 910, являясь частью семантических описаний 204, представляет собой элемент описаний языка 610, который соединяет независимые от языка семантические описания 204 и лексические описания конкретного языка 203, как показано двойной стрелкой 623, морфологические описания 201 и синтаксические описания 202, как показано двойной стрелкой 624. Семантическая иерархия может быть создана один раз, а затем ее можно заполнить данными для каждого конкретного языка. Семантический класс для конкретного языка включает в себя лексические значения с их моделями.
[042] Семантические описания 204 не зависят от языка. Семантические описания 204 могут обеспечить описания глубинных компонентов, а также могут содержать семантическую иерархию, описания глубинных позиций, систему семантем и прагматические описания.
[043] Как показано на Фиг.6, морфологические описания 201, лексические описания 203, синтаксические описания 202, а также семантические описания 204 могут быть связаны. Лексическое значение может иметь одну или более поверхностных (синтаксических) 10 моделей, которые могут сопровождаться семантемами и прагматическими характеристиками. Синтаксические описания 202 и семантические описания 204 также могут быть связаны. Например, диатезы синтаксического описания 202 можно рассматривать как «интерфейс» между поверхностными моделями конкретного языка и независимыми от языка глубинными моделями семантического описания 204.
[044] На Фиг.7 представлен пример морфологических описаний 201. Как показано, компоненты морфологических описаний 201 включают в себя, без ограничений, описание словоизменения 710, грамматическую систему (например, граммемы) 720 и описание словообразования 730. В одном варианте реализации грамматическая система 720 включает в себя набор грамматических категорий, таких как «часть речи», «падеж», «род», «число», «одушевленность», «возвратность», «время», «аспект» и т.д., а также их значения, далее именуемые «граммемы». Например, граммемы частей речи могут включать в себя «прилагательное», «существительное», «глагол» и т.д.; граммемы падежей могут включать в себя «именительный», «винительный», «родительный» и т.д.; а граммемы категории рода могут включать в себя «женский», «мужской», «средний» и т.д.
[045] Как показано на Фиг.7, описание словоизменения 710 может описывать, как может изменяться основная форма слова в соответствии с его падежом, родом, числом, временем и т.д., и включает в себя практически все возможные формы данного слова. Описание словообразования 730 может описывать, какие новые слова могут быть созданы с использованием данного слова. Граммемы являются единицами грамматических систем 720 и, как показано ссылкой 722 и ссылкой 724, граммемы могут использоваться для построения описания изменения формы слова 710, а также описания словообразования 730.
[046] На Фиг.8 представлен пример синтаксических описаний 202. Компоненты синтаксических описаний 202 могут включать поверхностные модели 810, описания поверхностных позиций 820, описания референциального и структурного контроля 856, описания управления и согласования 840, описания недревесного синтаксиса 850 и правила анализа 860. Синтаксические описания 202 используются для создания возможных синтаксических структур предложения на данном исходном языке с учетом свободного линейного порядка слов, недревовидного синтаксического явления (например, согласования, эллипсиса и т.д.), референтных отношений, а также других факторов. Все эти компоненты используются в процессе синтаксического анализа, который может быть выполнен в соответствии с технологией исчерпывающего анализа языка, подробно описанной в патенте США №8,078,450.
[047] Поверхностные модели 810 представляют собой наборы из одной или более синтаксических форм («синтформ» 812) для описания возможных синтаксических структур предложений, как показано в синтаксическом описании 102. В общем случае, лексическое значение языка связано с его поверхностными (синтаксическими) моделями 810, которые представляют возможные составляющие с данным лексическоим значением в качестве ядра и, помимо прочего, включают в себя набор поверхностных позиций дочерних элементов, описание линейного порядка, диатезы.
[048] Поверхностные модели 810 представлены синтформами 812. Каждая синтформа 812 может включать в себя определенное лексическое значение, которое функционирует в качестве ядра составляющей и может дополнительно включать в себя набор поверхностных позиций 815 своих дочерних компонентов, описание линейного порядка 816, диатезы 817, грамматические значения 814, описания управления и согласования 840, коммуникативные описания 880, в том числе в связи с ядром составляющей.
[049] Описания поверхностных позиций 820 как части синтаксических описаний 102 используются для задания общих свойств поверхностных позиций 815, которые используются в поверхностных моделях 810 различных лексических значений в исходном языке. Поверхностные позиции 815 используются для выражения синтаксических отношений между компонентами предложения. Примеры поверхностных позиций 815 могут включать в себя, помимо прочего, «субъект», «прямое_дополнение», «косвенное_дополнение», «определительное придаточное предложение».
[050] При синтаксическом анализе модель составляющих использует множество поверхностных позиций 815 дочерних компонентов и их описания линейного порядка 816, а также описывает грамматические значения 814 возможных заполнителей этих поверхностных позиций 815. Диатезы 817 представляют соответствия между поверхностными позициями 815 и глубинными позициями 514 (как показано на рисунке 5). Диатезы 817 представлены связью 624 между синтаксическими описаниями 202 и семантическими описаниями 204. Коммуникативные описания 880 описывают коммуникативный порядок в предложении.
[051] Синтаксические формы (синтформы) 812 представляют собой набор поверхностных позиций 815, связанных с описанием линейного порядка 816. Одна или болеесоставляющих, возможных для лексического значения словоформы в исходном предложении, могут быть представлены поверхностными синтаксическими моделями, такими как поверхностные модели 810. Каждая составляющая рассматривается как реализация некоторой модели составляющей путем выбора соответствующей синтформы 812. Выбранные синтаксические формы (синтформы) 812 представляют собой наборы поверхностных позиций 815 с указанным линейным порядком. Каждая поверхностная позиция в синтформе может иметь грамматические и семантические ограничения для своих заполнителей.
[052] Описание линейного порядка 816 представлено в виде выражений линейного порядка, которые представляют последовательность, в которой различные поверхностные позиции 815 могут встречаться в предложении. Выражения линейного порядка могут включать имена переменных, имена поверхностных позиций, скобки, граммемы, оценки, а также оператор «или» и т.д. Например, описание линейного порядка простого предложения «Boys play football» может быть представлено в виде «Subject Core Object_Direct» (т.е. «Субъект Ядро Прямое_дополнение»), где « Subject, Object_Direct» представляют собой имена поверхностных позиций 815, соответствующих порядку слов. Заполнители поверхностных позиций 815, указанные символами элементов предложения, присутствуют в том же порядке для элементов выражений линейного порядка.
[053] Различные поверхностные позиции 815 могут находиться в отношении строгого и/или нестрогого порядка в синтформе 812. Например, скобки можно использовать для построения выражений линейного порядка и описывать отношения строгого линейного порядка между различными поверхностными позициями 815. SurfaceSlot1 SurfaceSlot2 или (SurfaceSlot1 SurfaceSlot2) означает, что обе поверхностных позиции расположены в том же выражении линейного порядка, но возможен только один порядок следования этих поверхностных позиций относительно друг друга, при котором SurfaceSlot2 следует за SurfaceSlot1.
[054] В другом примере можно использовать квадратные скобки для построения выражений линейного порядка и описания отношения нестрогого линейного порядка между различными поверхностными позициями 815 синтформ 812. Таким образом, [SurfaceSlot1 SurfaceSlot2] указывает, что обе поверхностных позиции принадлежат той же переменной линейного порядка, а их порядок относительно друг друга не имеет значения.
[055] Выражения линейного порядка в описании линейного порядка 816 могут содержать грамматические значения 814, выраженные граммемами, которым соответствуют дочерние компоненты. Кроме того, два выражения линейного порядка могут быть объединены оператором | (т.е. «ИЛИ»). Например: (Subject Core Object) | [Subject Core Object].
[056] Коммуникативные описания 880 описывают порядок слов в синтформе 812 с точки зрения коммуникативных актов, которые необходимо представить в виде выражений коммуникативного порядка, которые аналогичны выражениям линейного порядка. Описание подчиненности и согласования 840 содержит правила и ограничения грамматических значений окружающих компонентов, которые используются в процессе синтаксического анализа.
[057] Описания недревесного синтаксиса 850 связаны с обработкой различных лингвистических явлений, таких как эллипсис и координация, и используются в трансформациях синтаксических структур, которые создаются на различных этапах анализа в соответствии с вариантами реализации настоящего изобретения. Описания недревесного синтаксиса 850 включают в себя, помимо прочего, описание эллипсиса 852, описание координации 854, а также описания референциального и структурного контроля 830.
[058] Правила анализа 860 (как часть синтаксических описаний 202) могут включать в себя, без ограничений, правила вычисления семантем 862 и правила нормализации 864. Хотя правила анализа 860 используются на этапе семантического анализа 150, правила анализа 860, как правило, описывают свойства конкретного языка и связаны с синтаксическими описаниями 102. Правила нормализации 864 по существу используются в виде правил преобразования для описания трансформаций семантических структур, которые могут быть различными в разных языках.
[059] На Фиг.9 представлен пример семантических описаний. Компоненты семантических описаний 204 не зависят от языка и могут включать в себя, без ограничений, семантическую иерархию 910, описание глубинных позиций 920, систему семантем 930 и прагматические описания 940.
[060] Семантическая иерархия 910 состоит из смысловых понятий (семантических объектов), называемых семантическими классами, организованных в соответствии с иерархическими отношениями «родительский объект-дочерний объект», которые аналогичны дереву. Как правило, дочерний семантический класс наследует большинство свойств своего непосредственного родителя и все унаследованные семантические классы. Например, семантический класс SUBSTANCE является дочерним классом семантического класса ENTITY и родителем семантических классов GAS, LIQUID, METAL, WOOD_MATERIAL и т.д.
[061] Каждый семантический класс в семантической иерархии 910 сопровождается глубинной моделью 912. Глубинная модель 912 семантического класса представляет собой набор глубинных позиций 914, которые отражают семантические роли дочерних составляющих в различных предложениях с объектами семантического класса в качестве ядра родительской составляющей и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции 914 выражают семантические отношения, включающие, например, «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель 912 своего непосредственного родительского семантического класса
[062] Описание глубинных позиций 920 используется для описания общих свойств глубинных позиций 914 и отражает семантические роли дочерних составляющих в глубинных моделях 912. Описание глубинных позиций 920 также содержит грамматические и семантические ограничения для заполнителей глубинных позиций 914. Свойства и ограничения для глубинных позиций 914 и их возможных заполнителей очень похожи и часто идентичны для различных языков. Таким образом, глубинные позиции 914 являются независимыми от языка.
[063] Система семантем 930 представляет набор семантических категорий и семантем, которые представляют значения семантических категорий. Например, семантическая категория DegreeOfComparison может использоваться для описания степени сравнения, и ее семантемами, помимо прочего, могут быть, например. Positive (т.е. положительная степень,), ComparativeHigherDegree (сравнительная степень,), SuperlativeHighestDegree (превосходная степень,). В качестве другого примера, семантическая категория RelationToReferencePoint может использоваться для описания нахождения как до, так и после референта, а ее семантемы могут быть Previous и Subsequent, соответственно, при этом порядок может анализироваться в пространстве или времени в широком смысле этих слов. В качестве еще одного примера семантическая категория EvaluationObjective может использоваться для описания объективной оценки, например, Bad, Good и т.д.
[064] Система семантем 930 включает независимые от языка семантические атрибуты, которые выражают не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы можно использовать для выражения единичного значения, которое находит регулярное грамматическое и/или лексическое выражение в языке. По своему назначению и использованию система семантем 930 может быть разделена на различные типы, включающие в себя, без ограничений, грамматические семантемы 932, лексические семантемы 934 и классифицирующие грамматические (дифференцирующие) семантемы 936.
[065] Грамматические семантемы 932 используются для кодирования грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы 934 описывают конкретные свойства объектов (например, «быть плоским» или «быть жидким») и используются при описании глубинных позиций 920 в качестве ограничения для заполнителей глубинных позиций (например, для глаголов «облицовывать» и «заливать» соответственно). Классифицирующие грамматические (дифференцирующие) семантемы 936 выражают дифференцирующие свойства объектов в пределах одного семантического класса, например, в семантическом классе HAIRDRESSER семантеме «RelatedToMen» назначено лексическое значение «цирюльник», в отличие от других лексических значений, которые также относятся к этому классу, например, «парикмахер», «стилист по прическам» и т.д.
[066] Прагматическое описание 940 позволяет системе назначить соответствующую тему, стиль или жанр для текстов и объектов семантической иерархии 910. Например, «Экономическая политика», «Внешняя политика», «Юстиция», «Законодательство», «Торговля», «Финансы» и т.д. Прагматические свойства также может быть выражены семантемами. Например, прагматический контекст может учитываться в процессе семантического анализа.
[067] На Фиг.10 представлена диаграмма, иллюстрирующая лексические описания 203 в соответствии с одним примером реализации. Как показано, лексические описания 203 включают в себя лексико-семантический словарь 1004, который включает в себя набор лексических значений 1012, организованный с их семантическими классами в семантическую иерархию, в которой каждое лексическое значение может включать, без ограничений, свою глубинную модель 912, поверхностную модель 810, грамматическое значение 1008 и семантическое значение 1010. Лексическое значение может объединять различные производные (например, слова, выражения, фразы), которые выражают смысл с помощью разных частей речи или разных словоформ, например, однокоренных слов. В свою очередь семантический класс объединяет лексические значения слов или выражений в разных языках с очень близкой семантикой.
[068] Кроме того, любой элемент описания языка 610 может быть извлечен в процессе исчерпывающего анализа текстов, и любой элемент может быть проиндексирован (создан индекс для признака). Индексы или указатели могут быть сохранены и использованы для решения задач классификации, кластеризации и фильтрации текстовых документов, написанных на одном или более языках. Индексация семантических классов важна и востребована для решения этих задач. Синтаксические структуры и семантические структуры также могут быть проиндексированы и сохранены для использования при семантическом поиске, классификации, кластеризации и фильтрации.
[069] Описанные методики включают в себя способы добавления новых понятий в семантическую иерархию. Это может быть необходимо для обработки конкретной терминологии, которая не включена в иерархию. Например, семантическую иерархию можно использовать для машинного перевода технических текстов, которые включают конкретные редкие термины. В этом примере может быть целесообразно добавить эти термины в иерархию перед ее использованием в переводе.
[070] В одном варианте реализации процесс добавления термина в иерархию может осуществляться вручную, т.е. опытному пользователю может быть разрешено вводить термин в конкретном месте и необязательно указывать грамматические свойства введенного термина. Это может осуществляться, например, путем указания родительского семантического класса термина. Например, когда может потребоваться добавить новое слово Netangin, которое представляет собой препарат для лечения тонзиллита, в иерархию, пользователь может указать MEDICINE в качестве родительского семантического класса. В некоторых случаях слова могут быть добавлены в несколько семантических классов. Например, некоторые препараты могут быть добавлены в класс MEDICINE, а также в класс SUBSTANCE, так как их названия могут относиться к препаратам или к соответствующим активным веществам.
[071] В одном варианте реализации пользователю может быть предоставлен графический интерфейс пользователя для упрощения процесса добавления новых терминов. Такой графический интерфейс пользователя может предоставлять пользователю список возможных родительских семантических классов для нового термина. Такой предоставляемый список может быть или создан заранее, или может создаваться для данного слова путем поиска наиболее вероятных семантических классов для такого нового термина. Такой поиск возможных семантических классов может выполняться путем анализа структуры слова. В одном варианте реализации анализ структуры слова может предполагать создание символьного представления n-грамм слов и/или вычисления сходства слов. Символьная n-грамма представляет собой последовательность п символов, например, слово Netangin может быть представлено в виде следующего набора двойных символов (биграмм): [Ne, et, ta, an, ng, gi, in]. В другом варианте реализации анализ структуры слова может включать в себя выявление морфем слова (например, его окончание, префиксы и суффиксы). Например, окончание "-in" является общим для препаратов и русских фамилий. Поэтому в указанном списке могут быть, по меньшей мере, два семантических класса, соответствующих этим двум понятиям.
[072] В одном варианте реализации указанный интерфейс может позволять пользователю выбирать слова, аналогичные тому, которое необходимо добавить. Это может быть сделано для упрощения процесса добавления новых понятий. Пользователь может видеть некоторые списки известных экземпляров семантических классов. В некоторых случаях список понятий может представлять семантический класс лучше, чем его название. Например, пользователь, читающий предложение «Petrov was born in Moscow in 1971 (т.е. Петров родился в Москве в 1971 году)», возможно, не знает, что «-ов» является типичным окончанием русских фамилий у мужчин. Кроме того, он может не знать, является «Иванов» именем или фамилией человека. Пользователю может быть предоставлен список, включающий слова «Иванов», «Сидоров», «Большов», которые представлены фамилиями, а также список имен, которые не имеют одинаковых окончаний, при этом пользователю будет легче принять правильное решение.
[073] В одном варианте реализации пользователю может быть предоставлен графический интерфейс пользователя, позволяющий добавлять новые понятия непосредственно в иерархию. Пользователь может просматривать иерархию и с помощью графического интерфейса пользователя может определять места, в которые необходимо добавить понятия. В другом варианте реализации пользователю может быть предложено выбрать дочерний узел узла иерархии, начиная от корня, пока не будет найден правильный узел.
[074] В одном варианте реализации семантическая иерархия имеет ряд семантических классов, позволяющих вставлять новые понятия. Это может быть либо целая иерархия (т.е. все семантические классы, которые в нее входят), либо подмножество понятий. Список обновляемых семантических классов может быть либо заранее определенным (например, список возможных типов именованных объектов, например, PERSON, ORGANIZATION и т.д.), либо он может создаваться в соответствии со словом, которое необходимо добавить. В одном варианте реализации пользователю может быть предоставлен графический интерфейс пользователя, спрашивающий пользователя о том, является ли добавляемое слово экземпляром конкретного семантического класса.
[075] В одном варианте реализации семантическая иерархия имеет ряд семантических классов, позволяющих вставлять новые понятия. Это может быть либо целая иерархия (т.е. все семантические классы, которые в нее входят), либо подмножество понятий. Список обновляемых семантических классов может быть либо заранее определенным (например, список возможных типов именованных объектов, например, PERSON, ORGANIZATION и т.д.), либо он может создаваться в соответствии со словом, которое необходимо добавить.
[076] Добавляемые термины могут быть сохранены в дополнительном файле, который затем пользователь может добавить в семантическую иерархию. В другом варианте реализации эти термины могут отображаться как часть иерархии.
[077] Поскольку семантическая иерархия может не зависеть от языка, описанные методики позволяют обрабатывать слова и тексты на одном или множестве языков.
[078] На Фиг.11 представлена блок-схема способа разрешения семантической неоднозначности на основе корпусов параллельных или сравнимых текстов (т.е. корпусов c, по меньшей мере, частичным выравниванием) в соответствии с одним вариантом реализации. В одном варианте реализации способ включает в себя: рассматривается текст 1101 с, по меньшей мере, одним неизвестным словом, при этом выявляются (1103) все неизвестные слова (т.е. слова, которые отсутствуют в реестре значений). Текст 1101 может быть на любом языке, который может быть проанализирован с помощью вышеуказанного анализатора, основанного на технологии исчерпывающего анализа текста, который использует лингвистические описания, описанные в патенте США 8,078,450. Анализ включает в себя лексико-морфологический, синтаксический и семантический анализ. Это означает, что система может использовать для анализа все необходимые независимые от языка и отражающие специфику конкретного языка лингвистические описания в соответствии с Фиг.6, 7, 8, 9, 10. Но часть, отражающая специфику языка, связанная с первым языком указанной семантической иерархии, может быть неполной. Например, в лексиконе могут быть пробелы, т.е. некоторые лексические значения могутотсутствовать. Таким образом, некоторые слова не могут быть найдены в семантической иерархии и для них нет соответствующих лексических и синтаксических моделей.
[079] Поскольку, по меньшей мере, одно неизвестное слово в первом языке было обнаружено на этапе 1104, выбирается параллельный корпус. Выбирается, по меньшей мере, один второй язык, отличающийся от первого языка (1104). Параллельный корпус должен быть корпусом или текстами на этих двух языках и быть, по меньшей мере, частично выравненным. Выравнивание может быть выполнено на уровне предложений, то есть каждому предложению на первом языке соответствует предложение на втором языке. Это может быть, например, память переводов (translation memory, TM) или другие ресурсы. Выравненные параллельные тексты могут быть получены любым способомвыравнивания, например, путем использования двуязычного словаря или путем использования способа, описанного в заявке на патент США №13/464,447. В некоторых вариантах реализации единственным требованием к выбору второго языка может быть то, что второй язык также может быть проанализирован с помощью вышеуказанного анализатора, основанного на технологии исчерпывающего анализа текстов, благодаря чему существуют и могут быть использованы для анализа все необходимые и отражающие специфику конкретного языка лингвистические описания в соответствии с Фиг.6, 7, 8, 9, 10.
[080] Для каждого второго языка получена пара текстов с, по меньшей мере, частичным выравниванием (1105). Указанные ранее найденные неизвестные слова ищутся (1106) в части текстов на первом языке. Для предложений, содержащих неизвестные слова и совмещенных с ними предложений на других языках, создаются и сравниваются (1107) независимые языковые семантические структуры. Независимая от языка семантическая структура (LISS) предложения представлена ациклическим графом (деревом, дополненным недревовидными связями), в котором каждое слово на конкретном языке замещено его универсальными (независимыми от языка) семантическими понятиями, т.е. семантическими объектами, которые в настоящем документе именуются «семантическими классами». Кроме того, отношения между членами предложения отражены с помощью независимых от языка понятий - глубинных позиций 914. Семантическая структура, построенная в результате исчерпывающего синтаксического и семантического анализа, также подробно описана в патенте США №8,078,450. Таким образом, например, если два предложения на двух разных языках имеют тот же смысл (значение), то они являются результатом точного и тщательного перевода друг друга, поэтому их семантические структуры должно быть идентичными или очень похожими.
[081] На Фиг.12А-12В представлены примеры предложений, которые могут присутствовать в выравненных текстах. На Фиг.12А представлена семантическая структура предложения на русском языке «Монблан значительно выше, чем любой другой пик в Альпах», где слово «Монблан» определено как неизвестное понятие. Это предложение соответствует следующему предложению на английском языке: «Mont Blanc is significantly higher than any other peak in Alps». Его семантическая структура представлена на Фиг.12В.
[082] Считается, что семантические структуры найденных пар предложений идентичны, если они имеют одинаковую конфигурацию с одинаковыми семантическими классами в узлах, за исключением узлов, соответствующих неизвестным словам, и с теми же глубинными позициями в качестве дуг.
[083] Для каждого неизвестного слова находят один или более семантических классов слова (слов), с которыми оно сопоставлено (1108). Как показано на Фиг.12А и 12В, так как семантические структуры имеют одинаковую конфигурацию и узлы, за исключением 1201 и 1202, в которых слово «Монблан» в русскоязычной части показано на Фиг.12А как #Unknown_word:UNKNOWN_SUBSTANTIVE, имеют одинаковые семантические классы, узлы 1201 и 1202 сравниваются и сопоставляются.
[084] Таким способом для всех неизвестных слов находятся (1109) соответствующие семантические классы. Если такое соответствие установлено, становится возможным сопоставить и добавить неизвестное слово в соответствующий семантический класс с семантическими свойствами, которые могут быть извлечены из соответствующего лексического значения на другом языке. Это означает, что лексическое значение «Монблан» будет добавлено в русскоязычную часть семантической иерархии 910 в семантический класс MONTBLANC, поскольку оно соответствует англоязычному лексическому значению «Mont Blanc» и унаследует синтаксическую модель и другие атрибуты его родительского семантического класса MOUNTAIN.
[085] Как также показано на Фиг.11, при наличии сопоставленных предложений 1101 на двух или более языках, в которых все слова в одном предложении имеют соответствующие лексические классы в иерархии, а некоторые другие предложения содержат неизвестные слова, описанный способ сопоставляет неизвестные слова с семантическими классами, соответствующими словам, сопоставленных с ними.
[086] На Фиг.12А-12В представлены примеры предложений, которые могут присутствовать в выравненных текстах. На Фиг.12А представлена семантическая структура предложения на русском языке «Монблан значительно выше, чем любой другой пик в Альпах», в котором слово «Монблан» является неизвестным. Это предложение совмещено со следующим предложением на английском языке: «Mont Blanc is significantly higher than any other peak in Alps.» Его семантическая структура представлена на Фиг.12В. В результате сравнения семантической структуры русскоязычного предложения на Фиг.12А с семантической структурой англоязычного предложения на Фиг.12В, которые могут иметь одинаковые структуры, как показано, можно сделать вывод о соответствии слова «Монблан» на русском языке слову (группе слов) «Mont Blanc» на английском языке. В этом случае сопоставленным с русским словом «Монблан» будет слово «Mont Blanc», и существует соответствующий объект семантической иерархии. Следовательно, русское слово «Монблан» можно сопоставить с тем же семантическим классом MONTBLANC и можно добавить в качестве русскоязычного лексического класса с такими же семантическими свойствами, что и «Mont Blanc» в английском языке.
[087] На Фиг.13 представлена блок-схема способа разрешения семантической неоднозначности на основе методик машинного обучения в соответствии с одним или более вариантами реализации. В одном варианте реализации проблема разрешения семантической неоднозначности может быть решена как задача "обучения с учителем" (например, классификация). Получено слово в контексте 1301. Для определения семантического класса слова в описанном способе сначала получают все возможные семантические классы 1303 из реестра значений 1302, которые могут быть назначены для данного слова 1301.
[088] Список семантических классов может быть задан заранее. Например, новые понятия могут быть допустимы только в семантических классах PERSON, LOCATION и ORGANIZATION. В данном примере эти семантические классы являются категориями. Список семантических классов может быть создан способом, который выбирает наиболее вероятные классы из всех классов в семантической иерархии, что, в свою очередь, может быть выполнено с использованием методик машинного обучения. Классы могут быть ранжированы по вероятности того, что заданное слово является экземпляром такого класса. Ранжирование может проводиться управляемым способом на основе корпусов текстов. Затем выбирается top-k, где k может представлять собой значение, заданное пользователем, или оптимальное значение, найденное статистическими способами. Эти заранее заданные или найденные семантические классы представляют категории, одной или многим из которых должно быть назначено слово. Затем строится классификатор (1305) с использованием корпусов текстов 1304 (например. Naive Bayes классификатор). Слово классифицируют (1306) в одну или более возможных категорий (т.е. семантических классов 1303). Наконец, слово добавляют (1307) в иерархию как экземпляр найденного семантического класса (классов).
[089] В одном варианте реализации разрешение неоднозначности может осуществляться в форме проверки гипотезы. Во-первых, для заданного неизвестного слова все семантические классы могут быть ранжированы по вероятности того, что данное неизвестное слово является объектом этого семантического класса. Затем выдвигается гипотеза о том, что неизвестное слово является экземпляром первого ранжированного семантического класса. Затем эту гипотезу проверяют путем статистического анализа корпусов текстов. Это возможно выполнить с помощью индексов 209. Если гипотеза отклонена, может быть сформулирована новая гипотеза о том, что неизвестное слово является экземпляром второго ранжированного семантического класса. И так далее до тех пор, пока гипотеза не будет принята. В другом варианте реализации семантический класс для слова может быть выбран с использованием существующих методик разрешения неоднозначности значений слов..
[090] На Фиг.14 представлен пример аппаратного обеспечения для реализации методик и систем, описанных в настоящем документе, в соответствии с одним вариантом реализации настоящего описания. Как показано на Фиг.14, пример аппаратного обеспечения 1400 включает, по меньшей мере, один процессор 1402, связанный с памятью 1404. Процессор 1402 может представлять собой один или более процессоров (например, микропроцессоров), а память 1404 может представлять собой оперативные запоминающие устройства (ОЗУ), представляющее собой главное устройство памяти аппаратного обеспечения 1400,а также любые дополнительные уровни памяти (например, кэш-память, энергонезависимую память или резервные запоминающие устройства, такие как программируемая или флэш-память) ПЗУ и т.п. Кроме того, память 1404 может включать в себя запоминающие устройства, физически расположенные в другом месте аппаратного обеспечения 1400, например, любая кэш-память в процессоре 1402, а также любые запоминающие устройства, используемые в качестве виртуальной памяти, например, съемные запоминающие устройства 1410.
[091] Аппаратное обеспечение 1400 может иметь ряд входов и выходов для обмена информацией с внешними устройствами. Для работы с пользователем или оператором аппаратное обеспечение 1400 может включать в себя одно или более устройств пользовательского ввода 1406 (например, клавиатуру, мышь, устройство, формирующее изображения, сканер, микрофон и т.п.) и одно или более устройств вывода 1408 (например, жидкокристаллический дисплей (ЖКД), устройство воспроизведения звука (динамик)). Для реализации настоящего изобретения аппаратное обеспечение 1400 может включать по меньшей мере одно устройство с экраном.
[092] В качестве дополнительного устройства памяти аппаратное обеспечение 1400 также может включать одно или более съемных запоминающих устройств 1410, например, помимо прочего, накопитель на гибких магнитных или иных съемных дисках, накопитель на жестком магнитном диске, устройство хранения с прямым доступом (DASD), оптический привод (например, привод компакт-дисков (CD), компакт-дисков в формате DVD) и/или ленточный накопитель. Более того, аппаратное обеспечение 1400 может включать в себя интерфейс для взаимодействия с одной или более сетями 1412 (например, помимо прочего, локальной сетью (LAN), глобальной сетью (WAN), беспроводной сетью и/или Интернетом) для обеспечения обмена информацией с другими компьютерами, подключенными к сетям. Следует принимать во внимание, что аппаратное обеспечение 1400, как правило, включает в себя подходящие аналоговые и/или цифровые интерфейсы между процессором 1402 и каждым из компонентов 1404, 1406, 1408 и 1412, что хорошо известно специалистам в данной области.
[093] Аппаратное обеспечение 1400 работает под управлением операционной системы 1414, и на нем выполняются различные компьютерные программные приложения, компоненты, программы, объекты, модули и т.п., с целью реализации вышеописанных методик. Более того, различные приложения, компоненты, программы, объекты и т.п.в совокупности указанные как прикладное ПО 1416 на Фиг.14, также могут выполняться на одном или более процессорах другого компьютера, соединенного с аппаратным обеспечением 1400 через сеть 1412, например, в среде распределенных вычислений, причем вычисления, необходимые для реализации функций компьютерной программы, могут быть распределены по множеству компьютеров в сети.
[094] Как правило, подпрограммы, выполняемые для реализации вариантов реализации настоящего описания, могут быть реализованы в виде части операционной системы или конкретного приложения, компонента, программы, объекта, модуля или последовательности инструкций, именуемых «компьютерной программой». Компьютерная программа, как правило, содержит один или более наборов инструкций, которые находятся в разное время в различных устройствах памяти и хранения в компьютере, и которые, при считывании и исполнении одним или более процессорами компьютера, воздействуют на компьютер для выполнения операций, необходимых для исполнения элементов, вовлекающих различные аспекты изобретения. Более того, поскольку настоящее изобретение описано в контексте полностью функциональных компьютеров и компьютерных систем, и специалистам в данной области будет понятно, что различные варианты реализации настоящего изобретения можно распространять в виде программного продукта в различных формах, а также что настоящее изобретение в равной мере применяется для фактического воздействия на распространение независимо от конкретного типа используемого машиночитаемого носителя. Примеры машиночитаемых носителей включают в себя, без ограничений, носители с возможностью записи, такие как, помимо прочего, устройства оперативной и энергонезависимой памяти, накопители на гибких магнитных и других съемных дисках, накопители на жестких магнитных дисках, оптические диски (например, ПЗУ на компакт-дисках (CD-ROM), компакт-диски в формате DVD, флэш-память и т.п.). Также можно применять другие типы распространения, такие как загрузка из сети Интернет.
[095] Хотя некоторые примеры реализации описаны и представлены на прилагаемых рисунках, следует понимать, что такие варианты реализации являются лишь иллюстрирующими, но не ограничивающими, и что настоящее описание не ограничено конкретными показанными и описанными схемами и комбинациями, поскольку обычному специалисту в данной области после изучения настоящего описания будут очевидны и различные другие модификации. В подобной технологической области, где рост происходит быстро, и дальнейшие улучшения предвидеть непросто, описанные варианты реализации можно легко подвергать модификациям или перегруппировке по одной или более особенностям, чему будут способствовать технологические достижения, и это не будет считаться отклонением от принципов настоящего описания.
[096] Варианты реализации объекта изобретения и операций, изложенных в настоящем описании, могут быть реализованы в цифровой электронной схеме, компьютерном программном обеспечении, встроенном программном обеспечении или аппаратном обеспечении, включая структуры, изложенные в настоящем описании, а также их структурные эквиваленты, или в комбинации одного или более из них. Варианты реализации объекта изобретения, изложенные в настоящем описании, могут быть реализованы в виде одной или более компьютерных программ, т.е. одного или более модулей с инструкциями компьютерной программы, закодированных на одном или более компьютерных носителях данных для исполнения на устройстве для обработки данных или для управления работой такого аппарата. Альтернативно или дополнительно программные инструкции могут быть закодированы в искусственном сгенерированном распространяющемся сигнале, например, машиногенерируемом электрическом, оптическом или электромагнитном сигнале, который генерируется для кодирования информации с целью ее передачи в подходящий аппарат приема для исполнения аппаратом для обработки данных. Компьютерный носитель данных может представлять собой или может входить в состав машиночитаемого устройства хранения, машиночитаемого субстрата хранения, массива или устройства памяти со случайным или последовательным доступом или комбинации одного или более из них. Более того, хотя компьютерный носитель данных не является распространяемым сигналом, компьютерный носитель данных может быть источником или пунктом назначения для инструкций компьютерной программы, закодированных в искусственно сгенерированном распространяемом сигнале. Компьютерный носитель данных также может представлять собой или может входить в состав одного или более компонентов или носителей (например, множества CD, дисков или иных устройств хранения). Соответственно, компьютерный носитель данных может быть вещественным и не носящим временного характера.
[097] Операции, изложенные в настоящем описании, могут быть реализованы в виде операций, выполняемых устройством для обработки данных, применительно к данным, хранящимся на одном или более машиночитаемых устройствах хранения или полученных из других источников.
[098] Термин «клиент» или «сервер» включает различные аппараты, устройства и машины для обработки данных, включая, в качестве примера, программируемый процессор, компьютер, систему на микросхеме или множество вышеописанных устройств или их комбинаций. Аппарат может включать в себя логическую схему особого назначения, например, ППВМ (программируемая пользователем вентильная матрица) или СИС (специализированная интегральная схема). Аппарат также может включать, в дополнение к аппаратному обеспечению, код, создающий среду для выполнения необходимой компьютерной программы, например, код, представляющий встроенное программное обеспечение процессора, стек протоколов, систему управления базами данных, операционную систему, межплатформенную среду исполнения, виртуальную машину или комбинацию одной или более из них. В аппарате и среде исполнения могут быть реализованы различные инфраструктуры модели вычисления, такие как веб-службы, инфраструктура распределенных и сетевых распределенных вычислений.
[099] Компьютерная программа (также именуемая программой, программным обеспечением, программным приложением, скриптом или кодом) может быть написана на любой форме языка программирования, включая компилируемые или интерпретируемые языки, декларативные или процедурные языки, и может быть установлена в любой форме, включая в виде автономной программы или в виде модуля, компонента, подпрограммы, объекта или любой другой единицы, подходящей для использования в вычислительной среде. Компьютерная программа может, но не должна, соответствовать файлу в файловой системе. Программа может храниться в части файла, в котором хранятся другие программы или данные (например, один или более скриптов, хранящихся в документе на языке разметки), в отдельном файле, предназначенном для требуемой программы, или во множестве скоординированных файлов (например, в файлах, хранящих один или более модулей, подпрограмм или частей кода). Компьютерная программа может быть исполнена на одном компьютере или на множестве компьютеров, расположенных в одном месте или распределенных по множеству мест и взаимосвязанных сетью передачи данных.
[0100] Процессы и логические схемы, изложенные в настоящем описании, могут исполняться одним или более программируемыми процессорами, исполняющими одну или более компьютерных программ для выполнения действий путем работы с входными данными и создания выходных данных. Процессы и логические схемы также могут выполняться при помощи логической схемы особого назначения, и аппарат может быть реализован в виде логической схемы особого назначения, например, ППВМ (программируемой пользователем вентильной матрицы) или СИС (специализированной интегральной схемы).
[0101] К процессорам, подходящим для исполнения компьютерной программы, относятся, для примера, микропроцессоры общего и особого назначения и один или более процессоров цифрового компьютера любого типа. Как правило, процессор принимает инструкции и данные из постоянного запоминающего устройства, оперативного запоминающего устройства или обоих. Важными элементами компьютера являются процессор для выполнения действий в соответствии с инструкциями и одно или более устройств памяти для хранения инструкций и данных. Как правило, компьютер также включает в себя или функционально связан с одним или более съемных запоминающих устройств для хранения данных, например, магнитными, магнитооптическими или оптическими дисками, для приема с них данных, передачи на них данных или обоих. Однако наличие таких устройств в компьютере не обязательно. Более того, компьютер может быть встроен в другое устройство, например, мобильный телефон, карманный компьютер (PDA), мобильный аудио- или видеоплеер, игровую консоль или портативное устройство хранения (например, флэш-накопитель на основе универсальной последовательной шины (USB)). Устройства, подходящие для хранения инструкций компьютерной программы и данных, включают в себя все формы энергонезависимой памяти, носителей и устройств памяти, включая, для примера, полупроводниковые устройства памяти, например, ЭППЗУ, ЭСППЗУ и устройства флэш-памяти; магнитные диски, например, внутренние жесткие диски или съемные диски; магнитооптические диски; а также диски CD-ROM и DVD-ROM. Процессор и память могут быть оснащены или могут иметь встроенные логические схемы особого назначения.
[0102] Для обеспечения взаимодействия с пользователем варианты реализации объекта изобретения, изложенные в настоящем описании, могут быть реализованы на компьютере, имеющем устройство отображения, например, на основе ЭЛТ (электронной-лучевой трубки), ЖКД (жидкокристаллического дисплея), ОСД (органического светодиода), ТПТ (тонкопленочного транзистора), плазменной или другой гибкой конфигурации, или любой другой монитор для отображения информации для пользователя и клавиатуру, указательное устройство, например, мышь, трекбол и т.п., или сенсорный экран, тачпад и т.п., при помощи которого пользователь может вводить информацию в компьютер. Для взаимодействия с пользователем также могут использоваться другие типы устройств. Например, обратная связь, предоставляемая пользователю, может иметь любую осязаемую форму, например, визуальная обратная связь, слуховая обратная связь или тактильная обратная связь, а также вводимая пользователем информация может получаться в любой форме, включая в виде акустического, речевого или тактильного ввода. Кроме того, компьютер может взаимодействовать с пользователем путем отправки документов и приема документов от устройства, используемого пользователем. Например, путем отправки веб-страниц веб-браузеру на клиентском устройстве пользователя в ответ на запросы, получаемые от веб-браузера.
[0103] Варианты реализации объекта изобретения, изложенные в настоящем описании, могут быть реализованы в компьютерной системе, которая включает дополнительный компонент, например, сервер данных, или которая включает компонент промежуточного программного обеспечения, например, сервер приложений, или которая включает компонент предварительной обработки данных, например, клиентский компьютер с графическим интерфейсом пользователя или веб-браузер, с помощью которого пользователь может взаимодействовать с вариантом реализации объекта изобретения, изложенным в настоящем описании, или любую комбинацию одного или более таких дополнительных, промежуточных компонентов или компонентов предварительной обработки данных. Компоненты системы могут быть взаимосвязаны любой формой или средой для цифровой передачи данных, например, сетью передачи данных. Примеры сетей передачи данных включают в себя локальную сеть (LAN), глобальную сеть (WAN), объединенную сеть (например, Интернет) и одноранговые сети (например, специальные одноранговые сети).
[0104] Хотя данное описание содержит много конкретных аспектов реализации, их не следует расценивать как ограничения сферы действия любых изобретений и пунктов формулы изобретения, но следует считать описаниями особенностей, которые являются специфичными для конкретных вариантов реализации конкретных изобретений. Некоторые особенности, изложенные в настоящем описании в контексте отдельных вариантов реализации, также могут быть реализованы в комбинации в одном варианте реализации. Напротив, различные особенности, описанные в контексте одного варианта реализации, также могут быть реализованы во множество вариантов реализации по отдельности или в любой подходящей подкомбинации. Более того, хотя особенности могут быть описаны выше как работающие в некоторых комбинациях или даже исходно заявляемые в таковом качестве, одна или более особенностей из заявленной комбинации могут в некоторых случаях быть извлечены из комбинации, а заявленная комбинация может быть направлена на подкомбинацию или вариант подкомбинации.
[0105] Аналогично, хотя операции на рисунках представлены в конкретном порядке, не следует считать, что такие операции должны выполняться в данном конкретном показанном порядке, в последовательном порядке, или что для достижения желаемых результатов требуется выполнить все представленные операции. В некоторых обстоятельствах благоприятной является многозадачная и параллельная обработка. Более того, разделение различных компонентов системы в вышеописанных вариантах реализации не следует считать обязательным для всех вариантов реализации, а следует считать, что описанные программные компоненты и системы могут быть по существу интегрированы вместе в один программный продукт или могут входить в пакеты множества программных продуктов.
[0106] Таким образом, описаны конкретные варианты реализации объекта изобретения. Другие варианты реализации входят в сферу действия приведенной ниже формулы изобретения. В некоторых случаях действия, перечисленные в пунктах формулы изобретения, могут выполняться в другом порядке и при этом достигать желаемых результатов. Кроме того, для достижения желаемых результатов процессы, показанные на прилагаемых рисунках, не обязательно должны выполняться в показанном конкретном порядке или в последовательном порядке. В некоторых вариантах реализации можно использовать многозадачность или параллельную обработку.

Claims (21)

1. Осуществляемый на компьютере способ разрешения семантической неоднозначности в задачах автоматической обработки естественного языка, содержащий:
получение, с помощью вычислительного устройства, текста, включающего слово;
сравнение, с помощью процессора вычислительного устройства, слова в тексте со словами из реестра значений, при этом реестр значений содержит по меньшей мере одно слово реестра и по меньшей мере одно понятие, соответствующее по меньшей мере одному слову из реестра;
при совпадении слова со словом из реестра значений производится выявление соответствующего понятия для слова путем сравнения каждого понятия из реестра, предположительно соответствующего слову, с этим словом;
при выявлении соответствующего понятия для слова назначение этого понятия для слова; и
при невыявлении соответствующего понятия для слова добавление для данного слова нового понятия в реестр значений на основе этого слова.
2. Способ по п. 1, дополнительно включающий предварительное выполнение статистического анализа слов и их контекстов в корпусах текстов.
3. Способ по п. 1, в котором выявление соответствующего понятия для слова состоит в сопоставлении контекста слова с контекстами слов, относящихся к этому понятию, в корпусах текстов.
4. Способ по п. 1, в котором реестр значений дополнительно содержит семантическую иерархию с отношениями «родительский объект - дочерний объект» между семантическими классами, и причем каждый семантический класс содержит глубинную модель, определяющую семантическое поведение объектов семантического класса и отношение между родительским семантическим классом и дочерним семантическим классом.
5. Способ по п. 4, в котором дочерний семантический класс наследует и уточняет глубинную модель своего непосредственного родительского семантического класса.
6. Способ по п. 1, в котором добавление в реестр значений нового понятия, соответствующего слову в реестре значений, включает статистический анализ каждого уровня семантической иерархии, связанного с реестром значений, начиная от корня иерархии, для определения вероятности наличия понятия для этого слова, и причем новое понятие содержит наиболее вероятное понятие.
7. Способ по п. 6, в котором вероятность наличия понятия для слова основана на анализе корпусов текстов.
8. Система разрешения семантической неоднозначности в задачах автоматической обработки естественного языка, содержащая:
один или более процессоров данных; и
одно или более устройств хранения, хранящих инструкции, которые, будучи исполненными одним или более процессорами данных, воздействуют на один или более процессоров данных для выполнения операций, содержащих:
получение, с помощью вычислительного устройства, текста, включающего слово;
сравнение, с помощью процессора вычислительного устройства, слова в тексте со словами из реестра значений, при этом реестр значений содержит по меньшей мере одно слово реестра и по меньшей мере одно понятие, соответствующее по меньшей мере одному слову из реестра;
при совпадении слова со словом из реестра значений производится выявление соответствующего понятия для слова путем сравнения каждого понятия из реестра, предположительно соответствующего слову, с этим словом;
при выявлении соответствующего понятия для слова назначение этого понятия для слова; и
при невыявлении соответствующего понятия для слова добавление для данного слова нового понятия в реестр значений на основе этого слова.
9. Система по п. 8, дополнительно включающая предварительное выполнение статистического анализа слов и их контекстов в корпусах текстов.
10. Система по п. 8, в которой выявление соответствующего понятия для слова состоит в сопоставлении контекста слова с контекстами слов, относящихся к этому понятию, в корпусах текстов.
11. Система по п. 8, в которой реестр значений дополнительно содержит семантическую иерархию с отношениями «родительский объект - дочерний объект» между семантическими классами, и причем каждый семантический класс содержит глубинную модель, определяющую семантическое поведение объектов семантического класса и отношение между родительским семантическим классом и дочерним семантическим классом.
12. Система по п. 11, в которой дочерний семантический класс наследует и уточняет глубинную модель своего непосредственного родительского семантического класса.
13. Система по п. 8, в которой добавление в реестр значений нового понятия, соответствующего слову в реестре значений, включает статистический анализ каждого уровня семантической иерархии, связанного с реестром значений, начиная от корня иерархии, для определения вероятности наличия понятия для этого слова, и причем новое понятие содержит наиболее вероятное понятие.
14. Система по п. 13, в которой вероятность наличия понятия для слова основана на анализе корпусов текстов.
15. Машиночитаемый носитель данных для разрешения семантической неоднозначности в задачах автоматической обработки естественного языка, имеющий хранящиеся на нем машинные инструкции, причем процессор исполняет инструкции для выполнения операций, содержащих:
получение, с помощью вычислительного устройства, текста, включающего слово;
сравнение, с помощью процессора вычислительного устройства, слова в тексте со словами из реестра значений, при этом реестр значений содержит по меньшей мере одно слово реестра и по меньшей мере одно понятие, соответствующее по меньшей мере одному слову из реестра;
при совпадении слова со словом из реестра значений производится выявление соответствующего понятия для слова путем сравнения каждого понятия из реестра, предположительно соответствующего слову, с этим словом;
при выявлении соответствующего понятия для слова назначение этого понятия для слова; и
при невыявлении соответствующего понятия для слова добавление для данного слова нового понятия в реестр значений на основе этого слова.
16. Машиночитаемый носитель данных по п. 15, дополнительно включающий предварительное выполнение статистического анализа слов и их контекстов в корпусах текстов.
17. Машиночитаемый носитель данных по п. 15, в котором выявление соответствующего понятия для слова состоит в сопоставлении контекста слова с контекстами слов, относящихся к этому понятию, в корпусах текстов.
18. Машиночитаемый носитель данных по п. 15, в котором реестр значений дополнительно содержит семантическую иерархию с отношениями «родительский объект - дочерний объект» между семантическими классами, и причем каждый семантический класс содержит глубинную модель, определяющую семантическое поведение объектов семантического класса и отношение между родительским семантическим классом и дочерним семантическим классом.
19. Машиночитаемый носитель данных по п. 18, в котором дочерний семантический класс наследует и уточняет глубинную модель своего непосредственного родительского семантического класса.
20. Машиночитаемый носитель данных по п. 15, в котором добавление в реестр значений нового понятия, соответствующего слову в реестре значений, включает статистический анализ каждого уровня семантической иерархии, связанного с реестром значений, начиная от корня иерархии, для определения вероятности наличия понятия для этого слова, и причем новое понятие содержит наиболее вероятное понятие.
21. Машиночитаемый носитель данных по п. 20, в котором вероятность наличия понятия для слова основана на анализе корпусов текстов.
RU2013156494/08A 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи статистического анализа RU2592395C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013156494/08A RU2592395C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи статистического анализа
US14/509,355 US9740682B2 (en) 2013-12-19 2014-10-08 Semantic disambiguation using a statistical analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013156494/08A RU2592395C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи статистического анализа

Publications (2)

Publication Number Publication Date
RU2013156494A RU2013156494A (ru) 2015-06-27
RU2592395C2 true RU2592395C2 (ru) 2016-07-20

Family

ID=53400219

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013156494/08A RU2592395C2 (ru) 2013-12-19 2013-12-19 Разрешение семантической неоднозначности при помощи статистического анализа

Country Status (2)

Country Link
US (1) US9740682B2 (ru)
RU (1) RU2592395C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2621869C1 (ru) * 2016-11-17 2017-06-07 Федеральное казенное учреждение здравоохранения "Российский научно-исследовательский противочумный институт "Микроб" Федеральной службы по надзору в сфере защиты прав потребителей и благополучия человека ("РосНИПЧИ "Микроб") Способ подвидовой дифференциации штаммов возбудителя чумы методом полимеразной цепной реакции с гибридизационно-флуоресцентным учетом результатов в режиме реального времени

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824084B2 (en) * 2015-03-19 2017-11-21 Yandex Europe Ag Method for word sense disambiguation for homonym words based on part of speech (POS) tag of a non-homonym word
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US10331659B2 (en) 2016-09-06 2019-06-25 International Business Machines Corporation Automatic detection and cleansing of erroneous concepts in an aggregated knowledge base
JP6810757B2 (ja) * 2016-12-27 2021-01-06 シャープ株式会社 応答装置、応答装置の制御方法、および制御プログラム
CN109271621B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN108320808A (zh) * 2018-01-24 2018-07-24 龙马智芯(珠海横琴)科技有限公司 病历分析方法和装置、设备、计算机可读存储介质
US10956677B2 (en) 2018-02-05 2021-03-23 International Business Machines Corporation Statistical preparation of data using semantic clustering
US20220164678A1 (en) * 2018-09-26 2022-05-26 Entigenlogic Llc Curing a deficiency of a knowledge database
US11481554B2 (en) 2019-11-08 2022-10-25 Oracle International Corporation Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing
US11494559B2 (en) * 2019-11-27 2022-11-08 Oracle International Corporation Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
US11507747B2 (en) * 2019-11-27 2022-11-22 Oracle International Corporation Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN112528670B (zh) * 2020-12-01 2022-08-30 清华大学 字词词义处理方法、装置、电子设备及存储介质
US11494557B1 (en) * 2021-05-17 2022-11-08 Verantos, Inc. System and method for term disambiguation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
CN102306144A (zh) * 2011-07-18 2012-01-04 南京邮电大学 一种基于语义词典的词语消歧方法
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和***

Family Cites Families (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4864503A (en) 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
EP0361570B1 (en) 1988-09-15 1997-08-06 Océ-Nederland B.V. A system for grammatically processing a sentence composed in natural language
SE466029B (sv) 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
NL8900587A (nl) 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
JP3114181B2 (ja) 1990-03-27 2000-12-04 株式会社日立製作所 異言語交信用翻訳方法およびシステム
US5301109A (en) 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5418717A (en) 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5175684A (en) 1990-12-31 1992-12-29 Trans-Link International Corp. Automatic text translation and routing system
US5497319A (en) 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5475587A (en) 1991-06-28 1995-12-12 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US5559693A (en) 1991-06-28 1996-09-24 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
GB9209346D0 (en) 1992-04-30 1992-06-17 Sharp Kk Machine translation system
US6278967B1 (en) 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6760695B1 (en) 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
ES2143509T3 (es) 1992-09-04 2000-05-16 Caterpillar Inc Sistema integrado de edicion y traduccion.
US5678051A (en) 1992-12-24 1997-10-14 Matsushita Electric Industrial C., Ltd. Translating apparatus with special display mode for supplemented words
ES2101613B1 (es) 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
NL9300310A (nl) 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
GB2279164A (en) 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5873056A (en) 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5510981A (en) 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
JP2618832B2 (ja) 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US5752051A (en) 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
JP3960562B2 (ja) 1994-09-30 2007-08-15 株式会社東芝 機械翻訳の学習方法
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JPH08101837A (ja) 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
GB2295470A (en) 1994-11-28 1996-05-29 Sharp Kk Machine translation system
US5995920A (en) 1994-12-22 1999-11-30 Caterpillar Inc. Computer-based method and system for monolingual document development
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
JP3066274B2 (ja) 1995-01-12 2000-07-17 シャープ株式会社 機械翻訳装置
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5737617A (en) 1995-06-06 1998-04-07 International Business Machines Corporation Method and system for English text analysis
US5721938A (en) 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
EP0834139A4 (en) 1995-06-07 1998-08-05 Int Language Engineering Corp COMPUTER-ASSISTED TRANSLATION TOOLS
US5794177A (en) 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
AU6849196A (en) 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5787410A (en) 1996-02-20 1998-07-28 Oracle Corporation Method and apparatus for storing and retrieving data in multiple languages simultaneously using a fully-populated sub-table
US6470306B1 (en) 1996-04-23 2002-10-22 Logovista Corporation Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US6161083A (en) 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US6233544B1 (en) 1996-06-14 2001-05-15 At&T Corp Method and apparatus for language translation
US5884247A (en) 1996-10-31 1999-03-16 Dialect Corporation Method and apparatus for automated language translation
JP3466857B2 (ja) 1997-03-06 2003-11-17 株式会社東芝 辞書更新方法および辞書更新システム
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6233546B1 (en) 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
JP3001460B2 (ja) 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US6356864B1 (en) 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6463404B1 (en) 1997-08-08 2002-10-08 British Telecommunications Public Limited Company Translation
US6081774A (en) 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US6182028B1 (en) 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6260008B1 (en) 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
ITUD980032A1 (it) 1998-03-03 1998-06-03 Agostini Organizzazione Srl D Sistema di traduzione a macchina e rispettivo tradsistema di traduzione a macchina e rispettivo traduttore che comprende tale sistema uttore che comprende tale sistema
US7020601B1 (en) 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
EP0962873A1 (en) 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6243670B1 (en) 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6285978B1 (en) 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6349276B1 (en) 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
US6275789B1 (en) 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6381598B1 (en) 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
US6243689B1 (en) 1998-12-29 2001-06-05 Robert G. Norton System and method for authorizing electronic funds transfer at a point of sale
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
WO2000046701A1 (en) 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6901402B1 (en) 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
US6393389B1 (en) 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6721697B1 (en) 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6928448B1 (en) 1999-10-18 2005-08-09 Sony Corporation System and method to match linguistic structures using thesaurus information
US6330530B1 (en) 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
US6778949B2 (en) 1999-10-18 2004-08-17 Sony Corporation Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US6529865B1 (en) 1999-10-18 2003-03-04 Sony Corporation System and method to compile instructions to manipulate linguistic structures into separate functions
CN1302030B (zh) 1999-12-24 2010-04-21 纽昂斯通讯公司 词义消歧的机器翻译方法和***
JP2003529845A (ja) 2000-03-31 2003-10-07 アミカイ・インコーポレイテッド ネットワーク経由の多言語翻訳を提供する方法と装置
US20010029442A1 (en) 2000-04-07 2001-10-11 Makoto Shiotsu Translation system, translation processing method and computer readable recording medium
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
JP2004501429A (ja) 2000-05-11 2004-01-15 ユニバーシティ・オブ・サザン・カリフォルニア 機械翻訳技法
US7062483B2 (en) 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US6965857B1 (en) 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
US6622123B1 (en) 2000-06-23 2003-09-16 Xerox Corporation Interactive translation system and method
US6986104B2 (en) 2000-06-26 2006-01-10 Silver Creek Systems, Inc. Method and apparatus for normalizing and converting structured content
US7085708B2 (en) 2000-09-23 2006-08-01 Ravenflow, Inc. Computer system with natural language to machine language translator
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7263488B2 (en) 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
KR20020045343A (ko) 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
US6983240B2 (en) 2000-12-18 2006-01-03 Xerox Corporation Method and apparatus for generating normalized representations of strings
US7860706B2 (en) 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US7132445B2 (en) 2001-04-16 2006-11-07 Schering Corporation 3,4-Di-substituted cyclobutene-1,2-diones as CXC-chemokine receptor ligands
US7050964B2 (en) 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
CA2464932A1 (en) 2001-10-29 2003-05-08 Stephen Clifford Appleby Machine translation
EP1306775A1 (en) 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
JP3906356B2 (ja) 2001-12-27 2007-04-18 独立行政法人情報通信研究機構 構文解析方法及び装置
US7177799B2 (en) 2002-01-14 2007-02-13 Microsoft Corporation Semantic analysis system for interpreting linguistic structures output by a natural language linguistic analysis system
JP2003223437A (ja) 2002-01-29 2003-08-08 Internatl Business Mach Corp <Ibm> 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
AT6920U1 (de) 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
JP2003242136A (ja) 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法
JP3726263B2 (ja) 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
AU2003228288A1 (en) 2002-03-04 2003-09-22 University Of Southern California Sentence generator
US7526424B2 (en) 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
EP1351158A1 (en) 2002-03-28 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company Machine translation
EP1349079A1 (en) 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US6928407B2 (en) 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7490034B2 (en) 2002-04-30 2009-02-10 Microsoft Corporation Lexicon with sectionalized data and method of using the same
AU2003272202A1 (en) 2002-06-21 2004-01-06 The Trustees Of Columbia University In The City Of New York Systems and methods for de-blurring motion blurred images
US7353165B2 (en) 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7409404B2 (en) 2002-07-25 2008-08-05 International Business Machines Corporation Creating taxonomies and training data for document categorization
US7466334B1 (en) 2002-09-17 2008-12-16 Commfore Corporation Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7356457B2 (en) 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US8055669B1 (en) 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
KR100515641B1 (ko) 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP4410486B2 (ja) 2003-05-12 2010-02-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳装置及びプログラム
US7475390B2 (en) 2004-01-12 2009-01-06 International Business Machines Corporation System and method for automatic natural language translation during information transfer
US20040261016A1 (en) 2003-06-20 2004-12-23 Miavia, Inc. System and method for associating structured and manually selected annotations with electronic document contents
WO2005020093A1 (en) 2003-08-21 2005-03-03 Idilia Inc. Internet searching using semantic disambiguation and expansion
US7475015B2 (en) 2003-09-05 2009-01-06 International Business Machines Corporation Semantic language modeling and confidence measurement
US7739102B2 (en) 2003-10-08 2010-06-15 Bender Howard J Relationship analysis system and method for semantic disambiguation of natural language
EP1685555B1 (en) * 2003-11-12 2009-01-14 Philips Intellectual Property & Standards GmbH Assignment of semantic tags to phrases for grammar generation
US7657420B2 (en) 2003-12-19 2010-02-02 Palo Alto Research Center Incorporated Systems and methods for the generation of alternate phrases from packed meaning
US7478033B2 (en) 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
JP2007532995A (ja) * 2004-04-06 2007-11-15 デパートメント・オブ・インフォメーション・テクノロジー 疑似インターリングア及び交雑アプローチを用いた英語からヒンディ語及びその他のインド諸語への複数言語機械翻訳システム
US7949590B2 (en) 2004-04-16 2011-05-24 Goldman Sachs & Co. Apparatus, method and system for designing and trading macroeconomic investment views
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US7596485B2 (en) 2004-06-30 2009-09-29 Microsoft Corporation Module for creating a language neutral syntax representation using a language particular syntax tree
JP2006099296A (ja) 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム
US7970600B2 (en) 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US7200550B2 (en) 2004-11-04 2007-04-03 Microsoft Corporation Projecting dependencies to generate target language dependency structure
US7461056B2 (en) 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
US7672830B2 (en) 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
JP2006268375A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳メモリシステム
JP4263181B2 (ja) 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4050755B2 (ja) 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20110055188A1 (en) 2009-08-31 2011-03-03 Seaton Gras Construction of boolean search strings for semantic search
US20130091113A1 (en) 2005-05-06 2013-04-11 Seaton Gras Hierarchical information retreival and boolean search strings
US7840589B1 (en) 2005-05-09 2010-11-23 Surfwax, Inc. Systems and methods for using lexically-related query elements within a dynamic object for semantic search refinement and navigation
US7451124B2 (en) 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
JP4064413B2 (ja) 2005-06-27 2008-03-19 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
GB2428508B (en) 2005-07-15 2009-10-21 Toshiba Res Europ Ltd Parsing method
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7672831B2 (en) 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
JP4047885B2 (ja) 2005-10-27 2008-02-13 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CA2669236C (en) 2005-11-16 2016-05-24 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
JP5011751B2 (ja) 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置
US8626486B2 (en) 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US9471562B2 (en) * 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8214199B2 (en) 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9047275B2 (en) * 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US7895030B2 (en) 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
US8949214B1 (en) * 2007-04-24 2015-02-03 Wal-Mart Stores, Inc. Mashup platform
US7987176B2 (en) 2007-06-25 2011-07-26 Sap Ag Mixed initiative semantic search
US8209321B2 (en) 2007-08-31 2012-06-26 Microsoft Corporation Emphasizing search results according to conceptual meaning
US8229730B2 (en) 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8527260B2 (en) 2007-09-06 2013-09-03 International Business Machines Corporation User-configurable translations for electronic documents
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8260049B2 (en) 2007-09-28 2012-09-04 Abbyy Software Ltd. Model-based method of document logical structure recognition in OCR systems
US8301633B2 (en) 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US8010539B2 (en) 2008-01-25 2011-08-30 Google Inc. Phrase based snippet generation
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
CA2639438A1 (en) 2008-09-08 2010-03-08 Semanti Inc. Semantically associated computer search index, and uses therefore
US20100082324A1 (en) 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
WO2010107327A1 (en) 2009-03-20 2010-09-23 Syl Research Limited Natural language processing method and system
US8112436B2 (en) 2009-09-21 2012-02-07 Yahoo ! Inc. Semantic and text matching techniques for network search
US8676565B2 (en) * 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US8688690B2 (en) 2010-04-15 2014-04-01 Palo Alto Research Center Incorporated Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
US8300949B2 (en) 2010-05-18 2012-10-30 Sharp Laboratories Of America, Inc. Edge detection technique having improved feature visibility
EP2400400A1 (en) 2010-06-22 2011-12-28 Inbenta Professional Services, S.L. Semantic search engine using lexical functions and meaning-text criteria
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
US8285728B1 (en) 2010-08-24 2012-10-09 The United States Of America As Represented By The Secretary Of The Navy Knowledge discovery and dissemination of text by mining with words
KR101192439B1 (ko) 2010-11-22 2012-10-17 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
US20120131060A1 (en) 2010-11-24 2012-05-24 Robert Heidasch Systems and methods performing semantic analysis to facilitate audio information searches
US20120197628A1 (en) 2011-01-28 2012-08-02 International Business Machines Corporation Cross-language spell checker
KR101950529B1 (ko) 2011-02-24 2019-02-20 렉시스넥시스, 어 디비젼 오브 리드 엘서비어 인크. 전자 문서를 검색하는 방법 및 전자 문서 검색을 그래픽적으로 나타내는 방법
US8548951B2 (en) 2011-03-10 2013-10-01 Textwise Llc Method and system for unified information representation and applications thereof
US9824138B2 (en) 2011-03-25 2017-11-21 Orbis Technologies, Inc. Systems and methods for three-term semantic search
US9678992B2 (en) 2011-05-18 2017-06-13 Microsoft Technology Licensing, Llc Text to image translation
US8892488B2 (en) 2011-06-01 2014-11-18 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
US9176949B2 (en) 2011-07-06 2015-11-03 Altamira Technologies Corporation Systems and methods for sentence comparison and sentence-based search
US8533188B2 (en) 2011-09-16 2013-09-10 Microsoft Corporation Indexing semantic user profiles for targeted advertising
RU2487403C1 (ru) 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
US9323746B2 (en) 2011-12-06 2016-04-26 At&T Intellectual Property I, L.P. System and method for collaborative language translation
US8909648B2 (en) 2012-01-18 2014-12-09 Technion Research & Development Foundation Limited Methods and systems of supervised learning of semantic relatedness
US8886639B2 (en) 2012-04-19 2014-11-11 Sap Ag Semantically enriched search of services
US20130318095A1 (en) 2012-05-14 2013-11-28 WaLa! Inc. Distributed computing environment for data capture, search and analytics
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
CN102306144A (zh) * 2011-07-18 2012-01-04 南京邮电大学 一种基于语义词典的词语消歧方法
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2621869C1 (ru) * 2016-11-17 2017-06-07 Федеральное казенное учреждение здравоохранения "Российский научно-исследовательский противочумный институт "Микроб" Федеральной службы по надзору в сфере защиты прав потребителей и благополучия человека ("РосНИПЧИ "Микроб") Способ подвидовой дифференциации штаммов возбудителя чумы методом полимеразной цепной реакции с гибридизационно-флуоресцентным учетом результатов в режиме реального времени

Also Published As

Publication number Publication date
US20150178268A1 (en) 2015-06-25
RU2013156494A (ru) 2015-06-27
US9740682B2 (en) 2017-08-22

Similar Documents

Publication Publication Date Title
RU2592395C2 (ru) Разрешение семантической неоднозначности при помощи статистического анализа
RU2579699C2 (ru) Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры
Affolter et al. A comparative survey of recent natural language interfaces for databases
RU2564629C1 (ru) Способ кластеризации результатов поиска в зависимости от семантики
US9069750B2 (en) Method and system for semantic searching of natural language texts
RU2579873C2 (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
US9588962B2 (en) System and method for generating and using user ontological models for natural language processing of user-provided text
US9727553B2 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
US9098489B2 (en) Method and system for semantic searching
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
Ehsan et al. Grammatical and context‐sensitive error correction using a statistical machine translation framework
Goutte Learning machine translation
US9075864B2 (en) Method and system for semantic searching using syntactic and semantic analysis
Bikel et al. Multilingual natural language processing applications: from theory to practice
Chen et al. Feature assembly method for extracting relations in Chinese
Palagin et al. Distributional semantic modeling: A revised technique to train term/word vector space models applying the ontology-related approach
RU2563148C2 (ru) Система и метод семантического поиска
Malik et al. NLP techniques, tools, and algorithms for data science
Gerlach Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums
Kunilovskaya et al. Translationese and register variation in English-to-Russian professional translation
Ather The fusion of multilingual semantic search and large language models: A new paradigm for enhanced topic exploration and contextual search
Sukhareva et al. Combining ontologies and neural networks for analyzing historical language varieties: A case study in Middle Low German
Seretan et al. Syntactic concordancing and multi-word expression detection
Özateş et al. A Hybrid Deep Dependency Parsing Approach Enhanced With Rules and Morphology: A Case Study for Turkish
Mazzeo et al. Question Answering on RDF KBs using controlled natural language and semantic autocompletion

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20170630

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311