RU2722571C1 - Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети - Google Patents

Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети Download PDF

Info

Publication number
RU2722571C1
RU2722571C1 RU2019117529A RU2019117529A RU2722571C1 RU 2722571 C1 RU2722571 C1 RU 2722571C1 RU 2019117529 A RU2019117529 A RU 2019117529A RU 2019117529 A RU2019117529 A RU 2019117529A RU 2722571 C1 RU2722571 C1 RU 2722571C1
Authority
RU
Russia
Prior art keywords
neural network
word
text
probability
named entities
Prior art date
Application number
RU2019117529A
Other languages
English (en)
Inventor
Ян ЧЖОУ
Бин ЛЮ
Чжаою ХАНЬ
Чжонцю ВАН
Original Assignee
Чайна Юниверсити Оф Майнинг Энд Текнолоджи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Чайна Юниверсити Оф Майнинг Энд Текнолоджи filed Critical Чайна Юниверсити Оф Майнинг Энд Текнолоджи
Application granted granted Critical
Publication of RU2722571C1 publication Critical patent/RU2722571C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к области вычислительной техники. Техническим результатом является обеспечение распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети. Раскрыт способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети, включающий: выполнение разбиения на слова на неразмеченном корпусе текстов с использованием модели Word2Vec для выделения вектора слова, преобразование эталонных корпусов текстов в матрицу признаков слова, выполнение обработки методом окна, построение глубокой нейронной сети для обучения, добавление функции Softmax в выходной слой нейронной сети и выполнение нормализации для получения матрицы вероятностей категории именованных сущностей, соответствующей каждому слову; выполнение повторной обработки матрицы вероятностей методом окна и использование модели условных случайных полей для устранения неоднозначности для получения окончательного тега именованной сущности. 6 з.п. ф-лы, 3 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к обработке и анализу сетевого текста, в частности, к способу распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети.
УРОВЕНЬ ТЕХНИКИ
Сети подняли скорость и масштаб сбора и распространения информации на беспрецедентный уровень, сделали реальным глобальное распространение и обмен информацией и стали незаменимой инфраструктурой в информационном сообществе. Современные технологии коммуникации и распространения значительно повысили скорость и широту распространения информации. Однако существуют сопутствующие проблемы и «побочные эффекты»: иногда люди путаются в хаотичной информации, и бывает очень сложно быстро и точно выделить конкретную требуемую информацию из огромного объема информации. Это является предпосылкой для анализа и получения именованных сущностей, таких как люди, места, организации и т.д., интересующих пользователей Интернета, из массива сетевого текста для предоставления важной справочной информации для различных приложений верхнего уровня, таких как интернет-маркетинг, анализ эмоций группы и т.д. Соответственно, распознавание именованных сущностей сетевого текста стало важной базовой технологией обработки и анализа сетевых данных.
В исследовании рассматриваются два способа распознавания именованных сущностей, а именно, способ на основе правил и способ на основе статистики. Поскольку теория машинного обучения постоянно совершенствуется и скорость вычислений значительно улучшается, способу на основе статистики отдается все большее предпочтение.
В настоящее время статистические модели и способы, применяемые в распознавании именованных сущностей, в основном включают: скрытую марковскую модель, решающее дерево, модель максимальной энтропии, модель опорных векторов, условное случайное поле и искусственную нейронную сеть. Искусственная нейронная сеть может достичь лучшего результата в распознавании именованных сущностей, чем условное случайное поле, модель максимальной энтропии и другие модели, но модель условного случайного поля и максимальной энтропии по-прежнему являются доминирующими практическими моделями. Например, в Патентном документе № CN 201310182978.X предложен способ распознавания именованных сущностей и устройство для микроблогового текста на основе условного случайного поля и библиотеки именованных сущностей. В Патентном документе № CN 200710098635.X предложен способ распознавания именованных сущностей, который использует признаки слова и применяет модель максимальной энтропии для моделирования. Искусственную нейронную сеть сложно использовать на практике, поскольку она часто требует преобразования слов в векторы в пространстве векторов слов в области распознавания именованных сущностей. Вследствие этого, искусственная нейронная сеть не может применяться в крупномасштабных практических приложениях, потому что она не способна получать соответствующие векторы для новых слов.
Вследствие вышеупомянутой существующей ситуации при распознавании именованных сущностей для сетевого текста в основном существуют следующие проблемы: во-первых, невозможно обучить пространство векторов слов, содержащее все слова, чтобы обучить нейронную сеть, потому что в сетевом тексте существует много сетевых слов, новых слов и неправильно написанных или искаженных символов; во-вторых, точность распознавания именованных сущностей для сетевых текстов ухудшается в результате существующих в сетевом тексте явлений, таких как произвольные языковые формы, нестандартные грамматические конструкции, неправильно написанные или искаженные символы и т.д.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Задача изобретения состоит в преодолении недостатков предшествующего уровня техники, настоящее изобретение предоставляет способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети, который выделяет признаки слова в пошаговом режиме без переобучения нейронной сети и выполняет распознавание путем устранения неоднозначности вероятности. Способ получает матрицу прогнозирования вероятности для названной категории именованной сущности слова из нейронной сети посредством обучения нейронной сети и выполняет устранение неоднозначностей на матрице прогнозирования, выведенной из нейронной сети в вероятностной модели, и тем самым повышает точность и правильность распознавания именованных сущностей сетевого текста.
Техническая схема: для достижения задачи, описанной выше, техническая схема, используемая настоящим изобретением, является следующей:
Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети выполняет разбиение на слова на неразмеченном корпусе текстов, используя Word2Vec для выделения вектора слова, преобразует эталонные корпуса текстов в матрицу признаков слова и выполняет обработку методом окна, выполняет построение глубокой нейронной сети для обучения, добавляет функцию Softmax в выходной слой нейронной сети и выполняет нормализацию для получения матрицы вероятностей категории именованных сущностей, соответствующих каждому слову; выполняет повторную обработку матрицы вероятностей методом окна и применяет модель условных случайных полей для устранения неоднозначностей для получения окончательного тега именованной сущности.
В частности, способ включает следующие этапы:
этап 1: получение неразмеченного корпуса текстов при помощи поискового робота, получение эталонных корпусов текстов с тегами именованных сущностей из базы данных корпусов текстов и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;
этап 2: выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;
этап 3: преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec (векторного представления слов), выполнение обработки вектора слова методом окна и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа (с одним активным состоянием) и использование их в качестве выходных данных нейронной сети; выполнение нормализации на выходном слое нейронной сети с помощью функции Softmax (многопеременная логистическая функция), так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности, выполнение корректировки структуры, глубины, количества узлов, длины шага, функции активации и параметров начальных значений в нейронной сети и выбор функции активации для обучения нейронной сети;
этап 4: выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию, в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;
этап 5: в процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и если модель Word2Vec не содержит соответствующего обучающего слова, выполняется преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д., выполняют обработку вектора слова методом окна и используют двумерную матрицу, полученную умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; затем выполняют повторную обработку методом окна матрицы прогнозирования, полученной из нейронной сети, выполняют устранение неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получают окончательный тег именованной сущности текста, подлежащего распознаванию.
Предпочтительно, параметры инструмента Word2Vec являются следующими: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, минимальная длина шага: 0,0001 и выбрана модель CBOW.
Предпочтительно, параметры нейронной сети являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета (batchSize): 40, функция активации: сигмоидальная функция.
Предпочтительно, преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа выполняют следующим способом: выполняют преобразование тегов "/о", "/n" и "/р" в эталонных корпусах текстов в теги именованной сущности "/Org-B", "Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I", соответственно, и последующее выполняют преобразование тегов именованной сущности в форму для быстрого доступа.
Предпочтительно, размер окна для выполнения обработки вектора слова методом окна равен 5.
Предпочтительно, при обучении нейронной сети, одна десятая слов выделяется из эталонных данных и исключается из обучения нейронной сети, но используется в качестве критерия оценки для нейронной сети.
По сравнению с предшествующим уровнем техники настоящее изобретение обеспечивает следующие полезные эффекты:
Векторы слов без переобучения нейронной сети можно выделять в пошаговом режиме, прогнозирование можно выполнять с помощью нейронной сети и устранение неоднозначностей можно выполнять с помощью вероятностной модели, так что способ достигает лучшей выполнимости, точности и правильности при распознавании именованных сущностей сетевого текста. В задаче распознавания именованных сущностей сетевого текста настоящее изобретение предусматривает способ пошагового обучения вектора слова без изменения структуры нейронной сети в соответствии с особенностью существования сетевых слов и новых слов, и использует модель устранения неоднозначности вероятности для решения проблем, заключающихся в том, что сетевые тексты имеют нестандартную грамматическую конструкцию и содержат много неправильно написанных или искаженных символов. Таким образом, способ, предоставленный в настоящем изобретении, обеспечивает высокую точность в задачах распознавания именованных сущностей сетевого текста.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
На фиг. 1 представлена блок-схема обучения устройства для распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети согласно настоящему изобретению;
На фиг. 2 представлена блок-схема преобразования слова в признаки слова согласно настоящему изобретению;
На фиг. 3 представлена принципиальная схема обработки текста и архитектуры нейронной сети согласно настоящему изобретению.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Далее настоящее изобретение будет дополнительно подробно описано в соответствии с вариантами осуществления со ссылкой на прилагаемые чертежи. Следует понимать, что данные варианты осуществления представлены только для описания настоящего изобретения и не должны рассматриваться как создающие какое-либо ограничение объема настоящего изобретения. После прочтения данного раскрытия модификации настоящего изобретения в различных эквивалентных формах, сделанные специалистами в данной области техники, будут считаться входящими в защищаемый объем, как определено прилагаемой формулой изобретения в данной заявке.
Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети выполняет разбиение на слова на неразмеченном корпусе текстов, используя модель Word2Vec для выделения вектора слова, преобразует эталонные корпуса текстов в матрицу признаков слова и выполняет обработку методом окна (windowing), создает глубокую нейронную сеть для обучения, добавляет функцию Softmax в выходной слой нейронной сети и выполняет нормализацию для получения матрицы вероятностей категории именованных сущностей, соответствующих каждому слову; выполняет повторную обработку матрицы вероятностей методом окна и применяет модель условных случайных полей для устранения неоднозначности для получения окончательного тега именованной сущности.
В частности, способ включает следующие этапы:
этап 1: Получение неразмеченного корпуса текстов при помощи поискового робота, загрузка корпуса текстов с тегами именованной сущности в качестве эталонных корпусов текстов из базы данных корпусов текстов, и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;
этап 2: Выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;
этап 3: Преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec, и использование вектора слова в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа и использование их в качестве выходных данных нейронной сети. Ввиду того, что в задаче обработки текста именованная сущность может быть разделена на несколько слов, тегирование выполняют в шаблоне 10 В, чтобы гарантировать, что распознанная именованная сущность имеет целостность.
К какой названной категории сущности относится слово, следует оценивать не только на основе самого слова, но и дополнительно оценивать в соответствии с контекстной информацией о слове. Таким образом, при построении нейронной сети вводится понятие «окна», то есть при оценке слова, как слово, так и характерная информация контента в виде его фиксированной длины принимаются в качестве входных данных для нейронной сети; таким образом, входной информацией в нейронную сеть больше не является длина d вектора признака слова, а вместо этого представляет собой двумерную матрицу, полученную умножением окна w на длину d вектора признака слова.
Выходной слой нейронной сети нормализируется при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности. Структура, глубина, количество узлов, длина шага, функция активации, параметры начальных значений в нейронной сети настраиваются и для обучения нейронной сети выбирается функция активации.
этап 4: Выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания (ЕМ algorithm) для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;
этап 5: В процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и если модель Word2Vec не содержит соответствующего обучающего слова, выполняют преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д.
(1) сопоставление с эталоном слова, подлежащего преобразованию, в пространстве векторов слов;
(2) преобразование слова, подлежащего преобразованию, непосредственно в соответствующий вектор слова, если слову найдено соответствие в пространстве векторов слов;
(3) если модель Word2Vec не содержит соответствующего слова, выполняется резервное копирование пространства векторов слов для предотвращения снижения точности модели нейронной сети, вызванного отклонением пространства слов, созданного при пошаговом обучении, загрузка модели Word2Vec, получение предложения, в котором существует несоответствующее слово, ввод предложения в модель Word2Vec и выполнение пошагового обучения, получение вектора слова данного слова и использование резервного пространства векторов слов для выполнения обратного отслеживания модели;
выполнение обработки вектора слова методом окна, и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; последующее выполнение повторной обработки методом окна матрицы прогнозирования, полученной из нейронной сети, выполнение устранения неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получение окончательного тега именованной сущности текста, подлежащего распознаванию.
Пример
Сетевой текст получен при помощи поискового робота на веб-сайте Sogou News (http://news.sogou.com/), корпуса текстов с тегами именованной сущности загружены из базы данных корпусов текстов Datatang (http://www.datatang.com/) в качестве эталонных корпусов текстов, разбиение на слова выполнено на полученном сетевом тексте при помощи естественно-языкового инструмента, обучение векторного пространства слов выполнено на сегментированном корпусе текстов и эталонном корпусе текстов при помощи пакета genism-библиотек Питон с использованием модели Word2Vec, использующей следующие параметры: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, и минимальная длина шага: 0,0001, и выбрана модель CBOW.
Текст в эталонных корпусах текстов преобразован в вектор слов, представляющий признаки слов в соответствии с обученной моделью Word2Vec, и в случае, если модель Word2Vec не содержит соответствующего обучающего слова, слово преобразуется в вектор слова посредством пошагового обучения, извлечения вектора слова и обратного отслеживания пространства векторов слов и т.д., в качестве признаков слова. Теги "/о", "/n" и "/р" в эталонных корпусах текстов, полученных из Datatang, преобразованы в теги именованной сущности "/Org-B", "/Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I" и т.д. соответственно, и последующие теги именованной сущности преобразованы в форму для быстрого доступа в качестве выходных данных нейронной сети.
Размер окна установлен равным 5, то есть при рассмотрении категории именованных сущностей текущего слова признаки слова данного слова, и двух слов перед словом и двух слов после слова, используются в качестве входных данных для нейронной сети; информацией, вводимой в нейронную сеть является вектор с размером пакета*1000; одна десятая слов извлечена из эталонных данных и исключена из обучения нейронной сети, но использована в качестве критерия оценки для нейронной сети; выходной слой нейронной сети нормализован при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности; максимальное значение вероятности временно принимается в качестве окончательного результата категоризации. Параметры в нейронной сети, такие как структура, глубина, количество узлов, длина шага, функция активации и начальное значение и т.д. настроены для обеспечения высокой точности нейронной сети; окончательные параметры являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета: 40, функция активации: сигмоидальная; таким образом может быть получен хороший эффект категоризации, точность может достигать 99,83%, а значения F наиболее типичных личных имен, географических названий и названий организаций могут составлять 93,4%, 84,2% и 80,4% соответственно.
Этап получения максимального значения матрицы прогнозирования, выведенной из нейронной сети в виде конечного результата категоризации, удален, выполнена прямая обработка матрицы вероятностей методом окна, информация, прогнозирующая контекст слова, подлежащего тегированию, использована в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, для расчета ожидаемых значений использован алгоритм максимизации оценивания на всех сторонах условного случайного поля в соответствии с обучающими корпусами текстов, и выполнено обучение соответствующей модели условных случайных полей; после устранения неоднозначностей с использованием условного случайного поля, значения F личных имен, географических названий и названий организаций могут быть улучшены до 94,8%, 85,0% и 82,0% соответственно.
Из описанного выше варианта осуществления видно, что по сравнению с обычным контролируемым способом распознавания именованных сущностей, в способе распознавания в тексте именованных сущностей на основе устранения неоднозначности вероятности в нейронной сети, представленном в настоящем изобретении, используется способ преобразования векторов слов, который можно использовать для выделения признаков слов в пошаговом режиме, не вызывая отклонения пространства векторов слов; таким образом, нейронная сеть может применяться к сетевому тексту, который содержит много новых слов и неправильно написанных или искаженных символов. Кроме того, в настоящем изобретении выполняется повторная обработка методом окна матрицы вероятностей, выводимой из нейронной сети, и выполняется устранение неоднозначностей контекста с применением модели условных случайных полей, чтобы решить проблему, когда сетевой текст содержит много неправильно написанных или искаженных символов и нестандартные грамматические конструкции.
Хотя настоящее изобретение описано выше в виде некоторых предпочтительных вариантов осуществления, следует отметить, что специалисты в данной области техники могут вносить различные улучшения и модификации, не отступая от принципа настоящего изобретения, и эти улучшения и модификации следует рассматривать как подпадающие под объем защиты настоящего изобретения.

Claims (12)

1. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети, включающий: выполнение разбиения на слова на неразмеченном корпусе текстов с использованием модели Word2Vec для выделения вектора слова, преобразование эталонных корпусов текстов в матрицу признаков слова, выполнение обработки методом окна, построение глубокой нейронной сети для обучения, добавление функции Softmax в выходной слой нейронной сети и выполнение нормализации для получения матрицы вероятностей категории именованных сущностей, соответствующей каждому слову; выполнение повторной обработки матрицы вероятностей методом окна и использование модели условных случайных полей для устранения неоднозначности для получения окончательного тега именованной сущности.
2. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, включающий следующие этапы:
этап 1: получение неразмеченного корпуса текстов при помощи поискового робота, получение эталонных корпусов текстов с тегами именованных сущностей из базы данных корпусов текстов и выполнение разбиения на слова на неразмеченном корпусе текстов при помощи естественно-языкового инструмента;
этап 2: выполнение обучения пространства векторов слов на сегментированном неразмеченном корпусе текстов и эталонных корпусах текстов при помощи инструмента Word2Vec;
этап 3: преобразование текста в эталонных корпусах текстов в вектор слова, представляющий признаки слова в соответствии с обученной моделью Word2Vec, выполнение обработки вектора слова методом окна и использование двумерной матрицы, полученной умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; преобразование тегов в эталонных корпусах текстов в форму для быстрого доступа и использование их в качестве выходных данных нейронной сети; выполнение нормализации на выходном слое нейронной сети при помощи функции Softmax, так что результат категоризации, выдаваемый нейронной сетью, соответствует вероятности того, относится ли слово к неименованной сущности или именованной сущности, корректировка структуры, глубины, количества узлов, длины шага, функции активации и параметров начальных значений в нейронной сети и выбор функции активации для обучения нейронной сети;
этап 4: выполнение повторной обработки методом окна матрицы прогнозирования, выведенной из нейронной сети, с использованием информации, прогнозирующей контекст слова, подлежащего тегированию, в качестве точки корреляции с фактической категорией слова, подлежащего тегированию, в модели условных случайных полей, использование алгоритма максимизации оценивания для расчета ожидаемых значений по всем сторонам в соответствии с обучающими корпусами текстов и обучение соответствующей модели условных случайных полей;
этап 5: в процессе распознавания вначале выполняют преобразование текста, подлежащего распознаванию, в вектор слова, который отображает признаки слова в соответствии с обученной моделью Word2Vec, и, если модель Word2Vec не содержит соответствующего слова, выполняется преобразование слова в вектор слова посредством пошагового обучения, извлечение вектора слова и обратное отслеживание пространства векторов слов и т.д., выполняют обработку вектора слова методом окна и используют двумерную матрицу, полученную умножением окна w на длину d вектора слова, в качестве данных, вводимых в нейронную сеть; затем выполняют повторную обработку методом окна матрицы прогнозирования, полученной из нейронной сети, выполняют устранение неоднозначностей на матрице прогнозирования в обученной модели условных случайных полей и получают окончательный тег именованной сущности текста, подлежащего распознаванию.
3. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором параметры инструмента Word2Vec являются следующими: длина вектора слова: 200, число итераций: 25, начальная длина шага: 0,025, минимальная длина шага: 0,0001 и выбрана модель CBOW.
4. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором параметры нейронной сети являются следующими: количество скрытых слоев: 2, количество скрытых узлов: 150, длина шага: 0,01, размер пакета: 40, функция активации: сигмоидальная функция.
5. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором теги в эталонных корпусах текстов преобразуются в форму для быстрого доступа следующим способом: преобразование тегов "/о", "/n" и "/р" в эталонных корпусах текстов в теги именованной сущности "/Org-B", "/Org-I", "/Per-B", "/Per-I", "/Loc-B" и "/Loc-I", соответственно, и последующее преобразование тегов именованных сущностей в форму для быстрого доступа.
6. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором размер окна для выполнения обработки вектора слова методом окна равен 5.
7. Способ распознавания именованных сущностей сетевого текста на основе устранения неоднозначности вероятности в нейронной сети по п. 1, в котором при обучении нейронной сети одна десятая слов выделяется из эталонных данных и исключается из обучения нейронной сети, но используется в качестве критерия оценки для нейронной сети.
RU2019117529A 2017-05-27 2017-06-20 Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети RU2722571C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710390409.2 2017-05-27
CN201710390409.2A CN107203511B (zh) 2017-05-27 2017-05-27 一种基于神经网络概率消歧的网络文本命名实体识别方法
PCT/CN2017/089135 WO2018218705A1 (zh) 2017-05-27 2017-06-20 一种基于神经网络概率消歧的网络文本命名实体识别方法

Publications (1)

Publication Number Publication Date
RU2722571C1 true RU2722571C1 (ru) 2020-06-01

Family

ID=59905476

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019117529A RU2722571C1 (ru) 2017-05-27 2017-06-20 Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети

Country Status (5)

Country Link
CN (1) CN107203511B (ru)
AU (1) AU2017416649A1 (ru)
CA (1) CA3039280C (ru)
RU (1) RU2722571C1 (ru)
WO (1) WO2018218705A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2760637C1 (ru) * 2020-08-31 2021-11-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система извлечения именованных сущностей
WO2023204724A1 (ru) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Способ анализа юридического документа

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107832289A (zh) * 2017-10-12 2018-03-23 北京知道未来信息技术有限公司 一种基于lstm‑cnn的命名实体识别方法
CN107967251A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的命名实体识别方法
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107943788B (zh) * 2017-11-17 2021-04-06 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
CN110019648B (zh) * 2017-12-05 2021-02-02 深圳市腾讯计算机***有限公司 一种训练数据的方法、装置及存储介质
CN108121702B (zh) * 2017-12-26 2020-11-24 浙江讯飞智能科技有限公司 数学主观题评阅方法及***
CN108052504B (zh) * 2017-12-26 2020-11-20 浙江讯飞智能科技有限公司 数学主观题解答结果的结构分析方法及***
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108563626B (zh) * 2018-01-22 2022-01-25 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及***、计算机程序
CN108763192B (zh) * 2018-04-18 2022-04-19 达而观信息科技(上海)有限公司 用于文本处理的实体关系抽取方法及装置
CN108805196B (zh) * 2018-06-05 2022-02-18 西安交通大学 用于图像识别的自动增量学习方法
RU2699687C1 (ru) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение текстовых полей с использованием нейронных сетей
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及***
CN109241520B (zh) * 2018-07-18 2023-05-23 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及***
CN109255119B (zh) * 2018-07-18 2023-04-25 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及***
CN109299458B (zh) * 2018-09-12 2023-03-28 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109657238B (zh) * 2018-12-10 2023-10-13 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、***、终端及介质
CN109710927B (zh) * 2018-12-12 2022-12-20 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置
CN109858025B (zh) * 2019-01-07 2023-06-13 鼎富智能科技有限公司 一种地址标准化语料的分词方法及***
CN109767817B (zh) * 2019-01-16 2023-05-30 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN111563380A (zh) * 2019-01-25 2020-08-21 浙江大学 一种命名实体识别方法及其装置
CN109800437B (zh) * 2019-01-31 2023-11-14 北京工业大学 一种基于特征融合的命名实体识别方法
CN109992629B (zh) * 2019-02-28 2021-08-06 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及***
CN109858041B (zh) * 2019-03-07 2023-02-17 北京百分点科技集团股份有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109933801B (zh) * 2019-03-25 2022-03-29 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN110083778A (zh) * 2019-04-08 2019-08-02 清华大学 学习分离表征的图卷积神经网络构建方法及装置
CN110245242B (zh) * 2019-06-20 2022-01-18 北京百度网讯科技有限公司 医学知识图谱构建方法、装置以及终端
CN110298043B (zh) * 2019-07-03 2023-04-07 吉林大学 一种车辆命名实体识别方法及***
CN110750992B (zh) * 2019-10-09 2023-07-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN110781646B (zh) * 2019-10-15 2023-08-22 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN111008271B (zh) * 2019-11-20 2022-06-24 佰聆数据股份有限公司 一种基于神经网络的关键信息提取方法及***
CN110993081B (zh) * 2019-12-03 2023-08-11 济南大学 一种医生在线推荐方法及***
CN111091003B (zh) * 2019-12-05 2023-10-10 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111209748B (zh) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN113139382A (zh) * 2020-01-20 2021-07-20 北京国双科技有限公司 命名实体识别方法及装置
CN111368545B (zh) * 2020-02-28 2024-04-30 北京明略软件***有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111477320B (zh) * 2020-03-11 2023-05-30 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建***、治疗效果预测***及终端
CN111523323B (zh) * 2020-04-26 2022-08-12 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和***
CN111581957B (zh) * 2020-05-06 2022-04-12 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111476022B (zh) * 2020-05-15 2023-07-07 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、***及介质
CN111859937A (zh) * 2020-07-20 2020-10-30 上海汽车集团股份有限公司 一种实体识别方法及装置
CN112101041B (zh) * 2020-09-08 2022-02-15 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112765983A (zh) * 2020-12-14 2021-05-07 四川长虹电器股份有限公司 一种基于结合知识描述的神经网络的实体消歧的方法
CN112487816B (zh) * 2020-12-14 2024-02-13 安徽大学 一种基于网络分类的命名实体识别方法
CN112905742B (zh) * 2021-02-20 2022-07-29 厦门吉比特网络技术股份有限公司 基于语义模型神经网络识别新词汇的方法、装置
CN113343690B (zh) * 2021-06-22 2024-03-12 北京语言大学 一种文本可读性自动评估方法及装置
CN114218924A (zh) * 2021-07-27 2022-03-22 广东电力信息科技有限公司 一种基于bert模型的文本意图及实体联合识别方法
CN113849597B (zh) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN114036948B (zh) * 2021-10-26 2024-05-31 天津大学 一种基于不确定性量化的命名实体识别方法
CN114048749B (zh) * 2021-11-19 2024-02-02 北京第一因科技有限公司 一种适用于多领域的中文命名实体识别方法
CN114510943B (zh) * 2022-02-18 2024-05-28 北京大学 一种基于伪样本重放的增量式命名实体识别方法
CN115587594B (zh) * 2022-09-20 2023-06-30 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及***
CN115905456B (zh) * 2023-01-06 2023-06-02 浪潮电子信息产业股份有限公司 一种数据识别方法、***、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US20120089620A1 (en) * 2010-10-07 2012-04-12 Castellanos Maria G Extracting data
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的***和方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
CN103455581B (zh) * 2013-08-26 2016-05-04 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN104809176B (zh) * 2015-04-13 2018-08-07 中央民族大学 藏语实体关系抽取方法
CN105740349B (zh) * 2016-01-25 2019-03-08 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105868184B (zh) * 2016-05-10 2018-06-08 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106202032B (zh) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其***
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US20120089620A1 (en) * 2010-10-07 2012-04-12 Castellanos Maria G Extracting data
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的***和方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2760637C1 (ru) * 2020-08-31 2021-11-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система извлечения именованных сущностей
WO2023204724A1 (ru) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Способ анализа юридического документа

Also Published As

Publication number Publication date
CA3039280C (en) 2021-07-20
WO2018218705A1 (zh) 2018-12-06
CA3039280A1 (en) 2018-12-06
CN107203511B (zh) 2020-07-17
CN107203511A (zh) 2017-09-26
AU2017416649A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
RU2722571C1 (ru) Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110704576A (zh) 一种基于文本的实体关系抽取方法及装置
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN109948160B (zh) 短文本分类方法及装置
US11551114B2 (en) Method and apparatus for recommending test question, and intelligent device
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及***
CN104809105A (zh) 基于最大熵的事件论元及论元角色的识别方法及***
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN112528658A (zh) 层次化分类方法、装置、电子设备和存储介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
JP2017102599A (ja) 推定装置、パラメタ学習装置、方法、及びプログラム
Odumuyiwa et al. A systematic review on hidden markov models for sentiment analysis
CN112860919B (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113656531B (zh) 一种电网地址结构化的处理方法及装置
Godewithana et al. Intelligent Hybrid Chatbot Solution for Archaeological Sites Tracking