RU2684578C2 - Языконезависимая технология исправления опечаток, с возможностью верификации результата - Google Patents

Языконезависимая технология исправления опечаток, с возможностью верификации результата Download PDF

Info

Publication number
RU2684578C2
RU2684578C2 RU2017125468A RU2017125468A RU2684578C2 RU 2684578 C2 RU2684578 C2 RU 2684578C2 RU 2017125468 A RU2017125468 A RU 2017125468A RU 2017125468 A RU2017125468 A RU 2017125468A RU 2684578 C2 RU2684578 C2 RU 2684578C2
Authority
RU
Russia
Prior art keywords
text
words
classification
terms
list
Prior art date
Application number
RU2017125468A
Other languages
English (en)
Other versions
RU2017125468A (ru
RU2017125468A3 (ru
Original Assignee
Общество с ограниченной ответственностью "Лаборатория ИнфоВотч"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" filed Critical Общество с ограниченной ответственностью "Лаборатория ИнфоВотч"
Priority to RU2017125468A priority Critical patent/RU2684578C2/ru
Publication of RU2017125468A publication Critical patent/RU2017125468A/ru
Publication of RU2017125468A3 publication Critical patent/RU2017125468A3/ru
Application granted granted Critical
Publication of RU2684578C2 publication Critical patent/RU2684578C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к области обработки данных, а именно к классификации текстовых данных. Технический результат - более точная классификация текстовых данных путем исправления случайных опечаток и преднамеренных искажений слов (например, замена кириллических букв аналогичными латинскими). Данный результат достигается за счет создания сравнительно быстрого и универсального способа, который позволил бы повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым будет повышена полнота и точность работы классификатора, улучшены результаты работы классификатора, уменьшены или полностью исключены доли полученных опечаток в набираемых человеком текстах и преодолены недостатки известных решений. В заявляемом изобретении опечатки исправляются «на лету» в потоке поступающего на анализ текста. 2 з.п. ф-лы.

Description

В современном мире остро стоит проблема классификации текстовых данных. В области DLP (Data Leak Prevention) - технологий по предотвращению утечек конфиденциальной информации из информационной системы вовне, классификация данных необходима для упорядочивания текстовой информации, а так же для предотвращения утечек информации на заданные темы, например, секретных документов, корпоративной информации и иных конфиденциальных документов (баз данных клиентов, выгрузок баз из корпоративных систем, персональных данных клиентов, сотрудников, контрагентов, коммерческая тайна, ноу-хау, производственные секреты, медицинская тайна и т.д.).
В текстах, набранных человеком, обычно довольно значимая доля опечаток. Например, по исследованиям Яндекса (https://yandex.ru/company/researches/2009/ya_search_2009/#toc7) доля опечаток в поисковых запросах - 13% и это с учетом подсказок поисковика. В поисковиках без подсказок - около 18%.
Для более точной классификации текстовых данных необходим способ исправления случайных опечаток и преднамеренных искажений слов (например, замена кириллических букв аналогичными латинскими). Предлагаемое решение позволяет повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым повысить полноту и точность работы классификатора.
Известен способ проверки орфографии в сети (патент США «Network-based spell checker», US 20020194229 А1, дата публикации 19.12.2001). Указанный способ определяет незнакомое слово, генерирует, по меньшей мере, одно альтернативное написание незнакомого слова, чтобы создать вариант слова, учитывая незнакомое слово и вариант, по меньшей мере, одного слова в поисковой системе, выполненный с возможностью поиска частоты использования незнакомого слова и, по меньшей мере, один вариант слова и представляет результаты поиска слова для пользователя.
Указанный способ определяет возможность выявления орфографических ошибок в тексте и замену неправильных слов на «условно правильные», существующие в базе данных слов или в Интернете, или добавлять свой вариант правильного написания слова в базу данных, не осуществляет замену кириллических букв латинскими и наоборот.
В данном способе опечатки ищутся для всех слов, в заявляемом способе - только для слов, которые используются как термины для классификации, т.е. в заявленном способе заявитель мы не производит лишней работы, что в итоге приводит к тому, что заявленный алгоритм для решения поставленных задач работает быстрее.
Известен способ фоновой проверки орфографии в документе (патент США «Method for background spell checking a word processing document», US 5649222, дата публикации 15.07.1997). Указанный способ выполняет проверку орфографии в документе в фоновом режиме во время периодов ожидания, когда текстовый процессор находится в режиме редактирования (т.е. когда пользователь не печатает или не выполняет команды).
Для работы данного изобретения нужен текстовый процессор, кроме того метод ориентирован на статический текст. В заявляемом изобретении опечатки исправляются «на лету» в потоке поступающего на анализ текста.
Таким образом, существует потребность в улучшении качества классификации текстовых данных за счет создания сравнительно быстрого и универсального способа, который позволил бы повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым повысить полноту и точность работы классификатора, улучшить результаты работы классификатора, уменьшить или полностью исключить доли полученных опечаток в набираемых человеком текстах, и преодолеть недостатки известных решений.
Для работы заявленного алгоритма необходимы следующие данные:
1. Список слов (и/или терминов) используемых при классификации - онтология, которая необходима для реализации эффективного поиска.
2. Желательно, но не обязательно морфологические словари различных языков.
Шаги алгоритма следующие:
1. На вход в систему анализа поступает текст.
2. Текст разбивают на лексемы (по небуквенным символам). Лексема - слово, выражение, оборот речи, в лингвистике - слово как абстрактная единица морфологического анализа. В одну лексему объединяются разные парадигматические формы (словоформы) одного слова.
3. Для каждой лексемы выполняют следующие действия:
1) Проверяют словарность лексемы, т.е. ищут данное сочетание букв во всех морфологических словарях. Если словарей нет, то пропускают этот шаг.
2) Если предложенной лексемы нет ни в одном морфологическом словаре, либо в систему не загружены словари, то переходят к п. 3, иначе заканчивают обработку.
3) Из онтологии выбирают все термины, длина которых на 1 меньше, равна, либо на 1 больше длинны предложенной лексемы.
4) Для каждого термина из п. 3.3 считают Расстояние Левенштейна до текущей лексемы. Это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.
5) Если Расстояние Левенштейна равно 1, то данный термин помещают в список найденных терминов.
4. На выходе алгоритма получают список терминов, для которых в анализируемом тексте есть лексемы, отстающие от них на Расстояние Левенштейна, равное 1 и не являющиеся словарными формами данного языка.
Полученный результат можно использовать для повышения качества классификации текстов, уменьшения или полного исключения доли полученных опечаток в набираемых человеком текстах.
Кроме того, так же сказывается и окружение данных. В мессенджерах опечаток может быть еще больше, так как пользователи не считают эту переписку деловой и относятся к ней без должного внимания. Т.е. данный способ применим и для классификации текста в мессенджерах. При этом, например, в системах DLP довольно часто нужно классифицировать и переписку в мессенджерах.

Claims (11)

1. Способ выделения из анализируемого текста слов и/или терминов, используемых при классификации текстов, состоящий из следующих этапов:
- создание списка слов и/или терминов, используемых при классификации;
- получение текста в систему анализа;
- идентификация текста в системе анализа;
- разбивка текста по небуквенным символам на лексемы;
- из списка слов и/или терминов выбирают все термины, длина которых на 1 меньше, равна либо на 1 больше длины предложенной лексемы;
- для каждого термина из списка считают Расстояние Левенштейна до текущей лексемы;
- если Расстояние Левенштейна равно 1, то данный термин помещают в список найденных терминов;
- получают список терминов, для которых в тексте есть лексемы, отстающие от них на Расстояние Левенштейна, равное 1, и не являющиеся словарными формами данного языка.
2. Способ по п. 1, в котором используют морфологические словари различных языков.
3. Способ по пп. 1, 2, в котором поиск сочетания букв осуществляют во всех присутствующих в системе морфологических словарях.
RU2017125468A 2017-07-17 2017-07-17 Языконезависимая технология исправления опечаток, с возможностью верификации результата RU2684578C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2017125468A RU2684578C2 (ru) 2017-07-17 2017-07-17 Языконезависимая технология исправления опечаток, с возможностью верификации результата

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017125468A RU2684578C2 (ru) 2017-07-17 2017-07-17 Языконезависимая технология исправления опечаток, с возможностью верификации результата

Publications (3)

Publication Number Publication Date
RU2017125468A RU2017125468A (ru) 2019-01-17
RU2017125468A3 RU2017125468A3 (ru) 2019-01-17
RU2684578C2 true RU2684578C2 (ru) 2019-04-09

Family

ID=65013918

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017125468A RU2684578C2 (ru) 2017-07-17 2017-07-17 Языконезависимая технология исправления опечаток, с возможностью верификации результата

Country Status (1)

Country Link
RU (1) RU2684578C2 (ru)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040034649A1 (en) * 2002-08-15 2004-02-19 Czarnecki David Anthony Method and system for event phrase identification
KR100771311B1 (ko) * 2006-06-23 2007-10-29 호서대학교 산학협력단 개인정보 기반의 스팸 메일 차단 방법 및 그 개인 정보검색방법
RU2395117C2 (ru) * 2008-07-23 2010-07-20 Общество с ограниченной ответственностью "Фирма "АРТИ" Способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤***
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040034649A1 (en) * 2002-08-15 2004-02-19 Czarnecki David Anthony Method and system for event phrase identification
KR100771311B1 (ko) * 2006-06-23 2007-10-29 호서대학교 산학협력단 개인정보 기반의 스팸 메일 차단 방법 및 그 개인 정보검색방법
RU2395117C2 (ru) * 2008-07-23 2010-07-20 Общество с ограниченной ответственностью "Фирма "АРТИ" Способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤***
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Also Published As

Publication number Publication date
RU2017125468A (ru) 2019-01-17
RU2017125468A3 (ru) 2019-01-17

Similar Documents

Publication Publication Date Title
USRE49576E1 (en) Standard exact clause detection
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
US9910886B2 (en) Visual representation of question quality
Bontcheva et al. Twitie: An open-source information extraction pipeline for microblog text
US10588003B2 (en) Notification of potentially problematic textual messages
US20170083825A1 (en) Customisable method of data filtering
US11086913B2 (en) Named entity recognition from short unstructured text
US20200125799A1 (en) Mitigation of conflicts between content matchers in automated document analysis
US20240028650A1 (en) Method, apparatus, and computer-readable medium for determining a data domain associated with data
Dutta et al. Text normalization in code-mixed social media text
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
US9436677B1 (en) Linguistic based determination of text creation date
Ganfure et al. Design and implementation of morphology based spell checker
Nooralahzadeh et al. Part of speech tagging for french social media data
Peng et al. An empirical study of Chinese name matching and applications
Attia et al. Gwu-hasp: Hybrid arabic spelling and punctuation corrector
Riyadh et al. Joint approach to deromanization of code-mixed texts
Carvalho et al. Introducing UWS-A fuzzy based word similarity function with good discrimination capability: Preliminary results
US10984191B2 (en) Experiential parser
RU2684578C2 (ru) Языконезависимая технология исправления опечаток, с возможностью верификации результата
Choudhury et al. Context-sensitive spelling checker for assamese language
US20220270589A1 (en) Information processing device, information processing method, and computer program product
Hladek et al. Unsupervised spelling correction for Slovak
KS et al. Automatic error detection and correction in malayalam
Banerjee et al. Named entity recognition on code-mixed cross-script social media content