RU2596600C2 - Способы и системы обработки изображений математических выражений - Google Patents

Способы и системы обработки изображений математических выражений Download PDF

Info

Publication number
RU2596600C2
RU2596600C2 RU2014135842/08A RU2014135842A RU2596600C2 RU 2596600 C2 RU2596600 C2 RU 2596600C2 RU 2014135842/08 A RU2014135842/08 A RU 2014135842/08A RU 2014135842 A RU2014135842 A RU 2014135842A RU 2596600 C2 RU2596600 C2 RU 2596600C2
Authority
RU
Russia
Prior art keywords
image
path
mathematical expression
character recognition
blocking
Prior art date
Application number
RU2014135842/08A
Other languages
English (en)
Other versions
RU2014135842A (ru
Inventor
Дмитрий Сергеевич Исупов
Антон Андреевич Масалович
Original Assignee
Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Девелопмент" filed Critical Общество с ограниченной ответственностью "Аби Девелопмент"
Priority to RU2014135842/08A priority Critical patent/RU2596600C2/ru
Priority to US14/679,219 priority patent/US9858506B2/en
Publication of RU2014135842A publication Critical patent/RU2014135842A/ru
Application granted granted Critical
Publication of RU2596600C2 publication Critical patent/RU2596600C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

Изобретение относится к системе, способу и модулю памяти для оптического распознавания символов. Технический результат заключается в повышении достоверности оптического распознавания математических выражений. В способе выполняют разбиение на блоки изображения, содержащего математическое выражение, и последующее оптическое распознавание блоков для разложения изображения математического выражения на множество вариантов оптического распознавания символов, упорядоченное согласно весовому значению по OCR, выбор наиболее вероятного пути на основе весового значения для пути среди потенциально возможных путей, где путь соответствует группировке символов на изображении математического выражения и упорядоченному множеству вариантов распознавания символов на данном изображении, использование наиболее вероятного пути и упорядоченного множества вариантов распознавания символов для порождения представления в цифровом виде математического выражения, содержащегося на изображении, где наиболее вероятный путь, отобранный на основе весового значения, содержит информацию о группировке символов и вариантах их распознавания, и сохранение представленного в цифровом виде математического выражения в модуле памяти. 3 н. и 17 з.п. ф-лы, 37 ил.

Description

СПОСОБЫ И СИСТЕМЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ МАТЕМАТИЧЕСКИХ ВЫРАЖЕНИЙ
ОБЛАСТЬ ТЕХНИКИ
Настоящий документ относится к автоматической обработке изображений отсканированного документа и других содержащих текст изображений, а в частности к способам и системам преобразования изображений и фрагментов изображений документов, содержащих математические выражения, в электронные документы.
УРОВЕНЬ ТЕХНИКИ
Печатные, машинописные и рукописные документы на протяжении долгого времени используются для записи и хранения информации. Несмотря на текущие тенденции отказа от бумажного делопроизводства, печатные документы продолжают широко использоваться в коммерческих организациях, учреждениях и в домашних условиях. С развитием современных компьютерных систем формирование, хранение, поиск и передача электронных документов превратились, наряду с постоянным использованием печатных документов, в чрезвычайно эффективный и экономически рентабельный альтернативный носитель записи информации и хранения информации. Вследствие подавляющих преимуществ в отношении эффективности и экономической рентабельности, обеспечиваемых современными средствами хранения и передачи электронных документов, печатные документы часто преобразуют в электронные документы с помощью многообразия способов и систем, включая конвертацию печатных документов в цифровые изображения отсканированных документов с использованием электронных оптико-механических сканирующих устройств, цифровых камер, а также других устройств и систем, и последующую автоматическую обработку изображений отсканированных документов для получения электронных документов, преобразованных в цифровую форму в соответствии с одним или несколькими стандартами кодирования электронных документов. В качестве одного примера, в настоящее время возможно использовать настольный сканер и сложные программы оптического распознавания символов (OCR), запускаемые на персональном компьютере для преобразования печатного документа на бумажном носителе в соответствующий электронный документ, который можно отображать и редактировать с использованием текстового редактора. Изображения документов также содержатся на веб-страницах и в различных дополнительных источниках. Изображения документов, полученные из этих источников, также преобразуются в электронные документы с использованием OCR-способов.
Хотя современные OCR-программы эволюционировали до такой степени, что позволяют автоматически преобразовывать в электронные документы изображения сложных документов, которые включают картинки, рамки, линии границ и другие нетекстовые элементы, а также текстовые символы любого из множества распространенных алфавитных языков, остаются нерешенными проблемы в отношении преобразования изображений документа, содержащих математические выражения.
В патенте США 7181068 раскрыта система распознавания математических выражений, способ распознавания математических изображений, система распознавания символов и метода распознавания символов. Устройство распознавания математических выражений включает модуль, который распознает символы на изображении документа, словарь, хранящий пару оценочных баллов для каждого типа слова, балл, отображающий вероятность принадлежности к тексту и балл, отражающий вероятность его принадлежность к математическому выражению, оценочный модуль, который получает оценочные баллы, отображающие вероятность принадлежности к тексту и и балл, отражающий вероятность его принадлежность к математическому выражению для каждого из слов, включенных в распознанные символы с ссылкой на словарь, и модуль обнаружения математического выражения, который ищет оптимальный путь, соединяющий слова путем выбора одного из текста и математического выражения на основе формативной грамматики и оценочных баллов, отображающий вероятность принадлежности к тексту и его принадлежности математическому выражению, тем самым детектируя символы, принадлежащие математическому выражению. Элементы математического выражения проверяются на факт того, являются ли они символами на базовой линии, надстрочными символами или подстрочными символами. Диаграмма рассеяния размеров символов, которая предоставляет данные, отображает размер нормализации последовательных символов и распределение их возможных центральных позиций.
В предлагаемом способе происходит итерационное разделение изображения математического выражения документа на составляющие выражения и последующее распознавание этих составляющих. Отличительным признаком является использование рекурсивно-блочного и основанного на графе подхода к распознаванию математических выражений во время OCR-обработки изображения документа, что позволяет выбрать наиболее оптимальный вид компановки результатов распознавания в математическое выражение на основе оценки каждого из путей данного графа, где путь представляет собой группировку символов в строку и учитывает варианты распознавания каждого из символов.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Настоящий документ относится к способам и системам, преобразующим изображения документа, содержащие математическое выражение, в соответствующие электронные документы. В одном из способов реализации изображение или фрагмент изображения, содержащий математическое выражение, рекурсивно разделяют на блоки, отделенные белыми полосами пробелов. К изображению или фрагменту изображения, содержащему математическое выражение, попеременно и рекурсивно применяют горизонтальное и вертикальное разбиение до тех пор, пока полученные при разбиении блоки низшего уровня не будут соответствовать символам, распознаваемым способами распознавания символов. Анализ распознанных символов в виде графа обеспечивает основу для преобразования эквивалентного представления математического выражения, содержащегося на изображении или фрагменте изображения, в цифровую форму.
Техническим результатом работы раскрываемых способа и системы, обрабатывающих при помощи технологии оптического распознавания символов (OCR) изображения и фрагменты изображений документа, содержащих математические выражения, является преобразования изображений математических выражений в электронные представления. В качестве общепринятого электронного представления может быть использования стандарт Юникод. Способы обработки изображений и фрагментов изображений математических выражений, к которым относится настоящий документ, включают рекурсивное попеременное применение методик разбиения изображения на блоки для иерархического разделения изображений или фрагментов изображений, содержащих математическое выражение, на элементарные блоки, каждый из которых соответствует конкретным символам. Рекурсивно-блочный и основанный на графе подход к распознаванию математических выражений во время OCR-обработки изображения документа позволяет выбрать наиболее оптимальный вид компановки результатов распознавания в математическое выражение.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
На Фиг. 1А-В проиллюстрирован печатный документ.
На Фиг. 2 проиллюстрирован типичный настольный сканер и персональный компьютер, которые вместе используются для преобразования печатных документов в оцифрованные электронные документы, хранящиеся на запоминающих устройствах и/или в модулях электронной памяти.
На Фиг. 3 проиллюстрировано функционирование оптических компонентов настольного сканера, изображенного на Фиг. 2.
На Фиг. 4 представлена общая архитектурная схема различных типов компьютеров и других устройств, управляемых процессором.
На Фиг. 5 проиллюстрированное цифровое представление отсканированного документа.
На Фиг. 6А-С проиллюстрирован один подход к преобразованию изображения документа в электронный документ, который используется в некоторых доступных в настоящее время OCR-системах.
На Фиг. 7 альтернативно представлен способ преобразования изображения документа в электронный документ, используемый в различных доступных в настоящее время OCR-способах и системах.
На Фиг. 10А-В проиллюстрирован подход к распознаванию символов, используемый OCR-системой, путем наложения эталона.
На Фиг. 11А-В проиллюстрированы различные аспекты объектов множеств символов для естественных языков.
На Фиг. 12 проиллюстрирован ряд дополнительных типов распознавания символов, который можно использовать для распознавания символов в пределах изображений и фрагментов изображений текстовых документов.
На Фиг. 13А-В проиллюстрирован тип классификатора, который можно использовать для порождения гипотез в отношении разбиения изображения текстовой строки в последовательность изображений символов.
На Фиг. 14А-В представлен ряд примеров математических выражений, а также указаний на элементы в математических выражениях, которые являются сложными и представляют трудности для используемых в настоящее время OCR-способов, применяемых к фрагментам изображений, содержащим математические выражения.
На Фиг. 15A-F проиллюстрирован один из способов разбиения на блоки математического выражения, который разделяет изображение или фрагмент изображения, содержащий математическое выражение, на блоки или разбиения более низкого уровня.
На Фиг. 16А-В проиллюстрированы рекурсивно-блочный и основанный на графе подходы к распознаванию математических формул в процессе OCR-обработки изображения документа.
На Фиг. 17А-С представлены блок-схемы, иллюстрирующие один из способов обработки изображения документа, содержащего математическое выражение, к которому относится настоящий документ.
На Фиг. 18А-С проиллюстрировано применение обработки на основе графа для распознавания фрагментов математических выражений и полных математических выражений.
На Фиг. 19 представлены результаты анализа в форме дерева, сгенерированные с помощью рекурсивно-блочного подхода, исходно представленного на Фиг. 16В, с дугами правильного пути для математического выражения 1406, изображенного на Фиг. 14А.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Настоящий документ относится к способам и системам, преобразующим изображения документа, содержащие математические выражения, в соответствующие электронные документы. В первом подразделе представленного ниже описания описаны изображения отсканированных документов, электронные документы и доступные в настоящее время OCR-способы и системы. Во втором подразделе описаны проблемы в отношении преобразования изображений документа, содержащих математические выражения. И, наконец, в третьем подразделе представлено подробное описание способов и систем, к которым относится настоящий документ.
Изображения отсканированных документов и электронные документы
На Фиг. 1А-В проиллюстрирован печатный документ. На Фиг. 1А представлен первоначальный документ с текстом на японском языке. Печатный документ 100 включает фотографию 102 и пять разных содержащих текст участков (104-108), включающих японские символы. Данный пример документа используется в представленном ниже описании способа и систем для определения ориентации, к которым относится настоящий документ. Текст на японском языке может быть написан слева направо, вдоль горизонтальных строк, как текст на английском языке, но альтернативно может быть написан способом сверху вниз в пределах вертикальных столбцов. Например, участок 107 явно содержит вертикально написанный текст, тогда как текстовый блок 108 включает текст, написанный горизонтальными строками. На Фиг. 1В печатный документ, проиллюстрированный на Фиг. 1А, показан переведенным на английский язык.
Печатные документы можно преобразовать в оцифрованные изображения отсканированных документов с помощью различных средств, включая электронные оптико-механические устройства сканирования и цифровые камеры. На Фиг. 2 проиллюстрированы типичный настольный сканер и персональный компьютер, которые вместе используются для преобразования печатных документов в оцифрованные электронные документы, которые можно хранить на запоминающих устройствах и/или в модулях электронной памяти. Настольное сканирующее устройство 202 включает прозрачный стеклянный планшет 204, на который лицевой стороной вниз помещают документ 206. Активация сканера приводит к генерированию оцифрованного изображения отсканированного документа, которое можно передать на персональный компьютер (ПК) 208 для хранения на запоминающем устройстве. Программа отображения отсканированного документа может отобразить оцифрованное изображение отсканированного документа на дисплей 210 устройства отображения ПК 212.
На Фиг. 3 проиллюстрировано функционирование оптических компонентов настольного сканера, изображенного на Фиг. 2. Оптические компоненты данного ПЗС-сканера находятся под прозрачным стеклянным планшетом 204. Фронтально перемещаемый источник яркого света 302 освещает фрагмент сканируемого документа 304, свет от которого, в свою очередь, повторно излучается и отражается вниз. Свет повторно излучается и отражается от фронтально перемещаемого зеркала 306 на неподвижное зеркало 308, которое отражает излучаемый свет на массив ПЗС-элементов 310, порождающих электрические сигналы пропорционально интенсивности света, падающего на каждый из ПЗС-элементов. Цветные сканеры могут включать три отдельных строки или массива ПЗС-элементов с красным, зеленым и синим фильтрами. Фронтально перемещаемый источник яркого света и фронтально перемещаемое зеркало перемещаются вместе вдоль документа для генерирования изображения отсканированного документа. Другой тип сканера, в котором используется контактный датчик изображения, называется CIS-сканером. В CIS-сканере подсветка документа осуществляется перемещаемыми цветными светодиодами (LED), причем отраженный свет светодиодов воспринимается массивом фотодиодов, который перемещается вместе с цветными светодиодами.
На Фиг. 4 представлена общая архитектурная схема различных типов компьютеров и других устройств, управляемых процессором. Архитектурная схема высокого уровня может описывать современную компьютерную систему, такую как ПК, изображенный на Фиг. 2, в которой программы отображения отсканированного документа и программы оптического распознавания символов хранятся на запоминающих устройствах для передачи в модуль электронной памяти и исполнения одним или более процессорами. Компьютерная система содержит один или несколько центральных процессоров (ЦП) 402-405, один или более модулей электронной памяти 408, взаимно соединенных с ЦП с помощью шины подсистемы ЦП/память 410 или нескольких шин, первый мост 412, который соединяет шину подсистемы ЦП/память 410 с дополнительными шинами 414 и 416, или другими средствами высокоскоростного взаимодействия, включая несколько высокоскоростных последовательных соединений. Эти шины или последовательные соединения, в свою очередь, соединяют ЦП и модуль памяти со специализированными процессорами, такими как графический процессор 418, а также с одним или более дополнительными мостами 420, взаимно соединенными с высокоскоростными последовательными каналами или с несколькими контроллерами 422-427, такими как контроллер 427, которые обеспечивают доступ к многообразию типов устройств памяти 428, электронным дисплеям, устройствам ввода и другим таким компонентам, подкомпонентам и вычислительным ресурсам.
На Фиг. 5 проиллюстрировано цифровое представление отсканированного документа. На Фиг. 5 небольшой дискообразный фрагмент 502 примера печатного документа 504 представлен в увеличенном виде 506. Соответствующий фрагмент оцифрованного изображения отсканированного документа 508 также представлен на Фиг. 5. Оцифрованный отсканированный документ включает данные, которые представляют двухмерный массив кодировок значений пикселей. В представлении 508 каждая ячейка сетки под символами, такая как ячейка 509, представляет квадратную матрицу пикселей. Небольшой фрагмент 510 сетки представлен с еще большим увеличением (512 на Фиг. 5), на котором отдельные пиксели представлены в виде элементов матрицы, таких как элемент матрицы 514. При таком уровне увеличения края символов кажутся зазубренными, поскольку пиксель является наименьшим элементом детализации, который можно контролировать для излучения света указанной интенсивности. В файле оцифрованного отсканированного документа каждый пиксель представлен фиксированным количеством бит, причем кодирование пикселей осуществляется последовательно. Файл содержит заголовок с информацией, указывающей тип кодирования пикселя, размеры отсканированного изображения и другую информацию, позволяющую программе отображения оцифрованного отсканированного документа извлекать данные кодировки пикселя и отдавать команды на устройство отображения или принтер для воспроизведения кодировок пикселей в виде двухмерного представления первоначального документа. В оцифрованных изображениях отсканированного документа по монохромной шкале оттенков серого широко используют 8-разрядную или 16-разрядную кодировки пикселя, тогда как в цветных изображениях отсканированного документа можно использовать 24 бита или более для кодирования каждого пикселя в соответствии с множеством стандартов кодирования цвета. В качестве одного примера, в широко используемом стандарте RGB для представления интенсивности красного, зеленого и синего света используют три 8-битных значения, закодированных в 24-битном значении. Таким образом, оцифрованное отсканированное изображение по существу представляет документ таким же способом, которым цифровые фотографии представляют визуальные образы. Кодировки пикселей представляют информацию об интенсивности света в конкретных крошечных участках изображения, а в цветных изображениях дополнительно представляет информацию о цвете. В оцифрованном изображении отсканированного документа отсутствует какое-либо указание на значение кодировок пикселей, такое как указания на то, что небольшая двухмерная область смежных пикселей представляет текстовый символ.
В отличие от этого, типичный электронный документ, созданный с помощью текстового редактора, содержит различные типы команд рисования линий, ссылки на представления изображений, такие как оцифрованные фотографии, а также оцифрованные текстовые символы. Одним широко используемым стандартом кодирования текстовых символов является стандарт Юникод. В стандарте Юникод широко используют 8-разрядные байты для кодирования символов Американского стандартного кода для обмена информацией (ASCII) и 16-битный слова для кодирования символов и знаков многих языков. Большая часть вычислительной работы, которую выполняет OCR-программа, представляет собой распознавание изображений текстовых символов, полученных из оцифрованного изображения отсканированного документа, и преобразование изображений символов в соответствующие кодировки Юникод. Очевидно, что для хранения текстовых символов Юникод требуется гораздо меньше места, чем для хранения растровых изображений текстовых символов. Более того, текстовые символы, закодированные по стандарту Юникод, можно редактировать, повторно форматировать с использованием различных шрифтов и обрабатывать множеством дополнительных способов, используемых в текстовых редакторах, тогда как оцифрованные изображения отсканированного документа можно изменять только с помощью специальных программ редактирования изображений.
На исходной стадии преобразования изображения отсканированного документа в электронный документ печатный документ, такой как пример документа 100, представленный на Фиг. 1, анализируется для определения множества участков в пределах документа. Во многих случаях участки могут быть логически упорядочены в виде иерархического нециклического дерева, в котором корень дерева представляет документ как единое целое, промежуточные узлы дерева представляют участки, содержащие меньшие участки, а листья графа представляют наименьшие обнаруженные участки. Участки можно обнаружить, используя на области изображения множество методик, включая множество типов статистического исследования распределений кодировок пикселей или значений пикселей. Например, в цветном документе фотографию можно выделить по большему изменению цвета в области фотографии, а также по более частым изменениям значений интенсивности пикселей по сравнению с участками, содержащими текст. Подробности того, как выполняют анализ изображения отсканированного документа для обнаружения множества участков, таких как участки, изображенные на Фиг. 6, выходят за рамки области настоящего документа.
После того как исходная стадия анализа определила множество участков на изображении отсканированного документа, те участки, которые, вероятно, содержат текст, дополнительно обрабатываются подпрограммами OCR для обнаружения текстовых символов и преобразования текстовых символов в Юникод или любой другой стандарт кодировки символов. Чтобы подпрограммы OCR обработали содержащие текст участки, необходимо определить исходную ориентацию содержащего текст участка, поэтому в подпрограммах OCR могут эффективно использоваться различные способы наложения эталона для обнаружения текстовых символов.
По существу после обнаружения содержащего текст участка изображение участка, содержащего текст, преобразуется из изображения пикселей в растровое изображение в рамках процесса, который называется «бинаризацией», в котором каждый пиксель представлен либо значением бита «0» (указывающим на то, что пиксель отсутствует в пределах фрагмента текстового символа), либо значением бита «1» (указывающим на то, что пиксель присутствует в пределах участка текстового символа). Таким образом, например, на участке черно-белого изображения отсканированного документа, содержащего текст, где текст отпечатан черным цветом на белом фоне, пиксели со значениями менее порогового значения, соответствующими темным участкам изображения, переводятся в биты со значением «1», тогда как пиксели со значениями, меньшими или равными пороговому значению, соответствующему фону, переводятся в биты со значением «0». Условное обозначение значения бита является, конечно же, произвольным, и можно применять противоположные условные обозначения, когда значение «1» указывает на фон, а значение «0» указывает на символ. Растровое изображение можно сжимать с использованием метода кодировки длинами серий для более эффективного хранения.
На Фиг. 6А-С проиллюстрирован один из подходов к преобразованию изображения документа в электронный документ, который используется в некоторых доступных в настоящее время OCR-системах. Данный подход является в сущности иерархическим, и его можно понять и реализовать рекурсивно, нерекурсивно или частично рекурсивно. После исходного определения ориентации изображение документа 602 обрабатывают для разбиения изображения документа на фрагменты или элементы высокого уровня 604-606. В примере, представленном на Фиг. 6А, изображение документа включает картинку 610, первый текстовый блок 612 и второй текстовый блок 614. Это элементы изображения документа высокого уровня, из которых в результате разбиения получают соответствующее изображение первого текстового блока 604, соответствующее изображение второго текстового блока 605 и соответствующую картинку 606. В этом случае картинка является основным элементом изображения документа и не может быть дополнительно разбита. Однако на втором уровне разбиения изображение первого текстового блока 604 разбивается на изображения отдельных текстовых строк 616-620, а изображение второго текстового блока 605 дополнительно разбивается на изображения текстовых строк 622-623. На последнем уровне разбиения каждое изображение текстовой строки, такое как изображение текстовой строки 623, дополнительно разбивается на отдельные символы, такие как изображения символов 626-634, соответствующие изображению текстовой строки 623. В некоторых способах реализации разбиение изображений текстовых строк на изображения символов может включать по меньшей мере частичное исходное разбиение изображений текстовой строки на изображения слов для тех языков, в которых символы алфавита объединяются в слова.
Как проиллюстрировано на Фиг. 6А, в некоторых OCR-способах и системах сначала изображение документа 602 разбивается на изображения символов, такие как изображения символов 626-634, до построения электронного документа, соответствующего изображению документа. Во многих из этих систем изображение символа является наименьшим элементом детализации разбиения, выполняемого OCR-способами и системами в отношении изображений текста.
Затем, как представлено на Фиг. 6В, эти OCR-способы и системы порождают электронный документ, соответствующий изображению документа, обратным иерархическим методом. Изображения символов, такие как изображение символа 640, объединяются в слова, такие как слово 642, для тех языков, в которых символы алфавита объединяются в слова. На следующем уровне построения электронного документа слова объединяются с генерированием текстовых строк, таких как текстовая строка 644, содержащая слово 642. На другом дополнительном уровне построения электронного документа текстовые строки объединяются для генерирования текстовых блоков, таких как текстовый блок 646, содержащий текстовую строку 644. И, наконец, все элементы документа высшего уровня, такие как картинка 606, текстовый блок 648 и текстовый блок 650, объединяются для генерирования электронного документа 652, соответствующего изображению документа 602. Как описано выше, электронный документ по существу содержит представления символов алфавита, знаков и различных типов управляющих последовательностей для порождения рамок, границ и других элементов электронного документа в формате Юникод. Таким образом, символ алфавита 640 по существу представляет оцифрованный символ, такой как символ Юникод, соответствующий изображению символа 633, представленному на Фиг. 6А. Аналогичным образом картинка 645 по существу представляет тип сжатого файла изображения, соответствующего картинке 606, отсканированной в виде части изображения документа. Иными словами, если рассматривать разбиение изображения документа на элементы изображения документа в виде дерева, как показано на Фиг. 6А, то наименьшие возможные элементы дерева преобразуются из отсканированных изображений в соответствующие цифровые представления информации, содержащейся в отсканированных изображениях, а затем цифровые представления повторно объединяются в рамках процесса, представленного на Фиг. 6В, для генерирования оцифрованного электронного документа.
На Фиг. 6А-В разбиение изображения документа на элементы и построение электронного документа из цифровых представлений этих элементов для простоты проиллюстрировано с использованием соответствий типа один-ко-многим от элементов более высокого уровня к элементам более низкого уровня и от элементов более низкого уровня к элементам более высокого уровня. На обеих схемах все элементы заданного уровня объединяются с генерированием одного элемента более высокого уровня на следующем высшем уровне. Однако, как правило, OCR-способы и системы во время обработки изображений документов сталкиваются с разными неоднозначностями и неопределенностями, что приводит к порождению на стадии разбиения нескольких возможных разбиений от элемента более высокого уровня до нескольких множеств элементов более низкого уровня, а на стадии построения электронного документа множество элементов более низкого уровня может объединяться разными способами, что приводит к разным элементам более высокого уровня.
На Фиг. 6С представлен один пример порождения нескольких гипотез во время разбиения изображения документа. На Фиг. 6С исходное изображение документа 602 в соответствии с одной гипотезой, представленной стрелкой 660, разбивается на три компонента 604-606 более низкого уровня, описанных выше со ссылкой на Фиг. 6А. Однако в соответствии со второй гипотезой 662 текстовое изображение может быть альтернативно разбито на один текстовый блок 664 и картинку 606. В этом случае граница между первым текстовым блоком 612 и вторым текстовым блоком 614 может быть нечеткой или может полностью отсутствовать, и в этом случае OCR-способам и системам, возможно, потребуется проверять две альтернативные гипотезы. Порождение ветвления с многовариантной гипотезой как на стадии разбиения, так и на стадии построения при преобразовании изображений документа в электронные документы может приводить к буквально тысячам, десяткам тысяч, сотням тысяч, миллионам или более возможных альтернативных вариантов преобразований. Как правило, для ограничения порождения многовариантных гипотез, обеспечения точной и эффективной навигации по потенциально огромному пространству состояний разбиений и построений электронного документа для определения одного наиболее вероятного электронного документа, соответствующего изображению документа, в OCR-способах и системах используется статистическая оценка, широкое множество типов показателей и широкое множество типов автоматических методик проверки гипотезы.
На Фиг. 7 альтернативно представлен способ преобразования изображения документа в электронный документ, используемый множеством доступных в настоящее время OCR-способов и систем. Изображение документа 702 разбивается на множества элементов высшего уровня изображения 704 и 706 с использованием двух альтернативных гипотез 708 и 710 соответственно. На следующем уровне разбиения изображения текстовых блоков в первом исходном разбиении 704 и изображение единственного тестового блока во втором исходном разбиении 706 разбиваются на изображения текстовых строк в соответствии с тремя гипотезами 712-714 для первого разбиения высшего уровня 704 и двумя гипотезами 716-717 для второго разбиения высшего уровня 706. Затем на следующем уровне разбиения происходит дополнительное разбиение каждого из этих пяти разбиений второго уровня на изображения отдельных символов в соответствии с несколькими гипотезами с порождением в итоге 12 разбиений на наименьшие возможные элементы, таких как разбиение на наименьшие возможные элементы 718. На второй стадии преобразования изображения документа в электронный документ каждое разбиение на наименьшие возможные элементы строит по существу несколько возможных электронных документов, таких как электронные документы 722, соответствующие разбиению на наименьшие возможные элементы 718. На Фиг. 7 проиллюстрировано потенциальное множество электронных документов, которое можно сгенерировать с помощью альтернативных гипотез в рамках способа преобразования, хотя фактически различные альтернативные промежуточные гипотезы и альтернативные электронные документы отфильтровываются в рамках процесса таким образом, что итоговый наиболее высоко оцениваемый электронный документ выбирается среди целесообразного количества альтернатив на итоговых стадиях построения электронного документа. Иными словами, хотя потенциальное пространство состояний возможных электронных документов большое, фильтрация и отсечение происходят на протяжении стадий разбиения и построения так, что в процессе преобразования фактически изучается лишь относительно небольшая часть подпространства.
На Фиг. 8-9 проиллюстрирован один вычислительный подход к определению идентичности и ориентации символа в пределах изображения символа. На Фиг. 8 символ 802 представлен наложенным на прямолинейную сетку 804. Как и на участке 508, изображенном на Фиг. 5, каждый элемент сетки или ячейка представляет собой матрицу пиксельных элементов, в результате чего края символа кажутся гладкими. При большем увеличении, как и на участке 512, изображенном на Фиг. 5, края символа будут казаться зазубренными. Как описано выше, этим пикселям присваивается одно из двух битовых значений - «0» или «1», которые указывают на то, соответствует ли пиксель фрагменту фона или фрагменту символа соответственно. Доля пикселей в пределах каждого столбца элементов сетки представлена на гистограмме 806, показанной поверх прямолинейной сетки 804. На данной гистограмме представлено горизонтальное пространственное распределение пикселей символа в пределах прямолинейной сетки, что представляет фрагмент изображения отсканированного документа, содержащего один символ. Аналогичным образом, на гистограмме 808 представлено пространственное распределение пикселей символа в вертикальном направлении. Гистограмма 810 и гистограмма 806 зеркально симметричны; гистограмма 812 и гистограмма 808 так же зеркально симметричны. Данные гистограммы являются сигнатурами или характерными признаками обнаружения и определения ориентации символа.
На Фиг. 9 проиллюстрирован числовой показатель, который можно вычислить на основе двух из четырех гистограмм, представленных на Фиг. 8. На этом чертеже вычисляется показатель ориентации, называемый «гистограммным показателем», или «h-показателем», по верхней гистограмме и правой гистограмме 806 и 808, вычисляемым для конкретного символа в конкретной ориентации. Каждая гистограмма разделена на четыре участка вертикальными пунктирными линиями, такими как вертикальная пунктирная линия 902. Каждому участку присваивается значение «0» или «1» в зависимости от того, достигает ли столбец гистограммы в пределах участка порогового значения, такое как 0,5. Данные битовые значения упорядочивают таким же способом, что и разбиения. Таким образом, например, в случае гистограммы 806 на разбиениях 904 и 906 отсутствует столбец, который превышает пороговое значение или высоту 0,5, тогда как на разбиениях 908 и 910 присутствует по меньшей мере один столбец гистограммы, который превышает пороговое значение или высоту 0,5. Таким образом, битовые значения, присвоенные разбиениям, порождают четырехбитовый полубайт «0110» 912. Аналогичные вычисления для правой гистограммы 808 порождают четырехбитовый полубайт «0011» 914. Данные два четырехбитовых полубайта можно конкатенировать для порождения восьмибитового h-показателя 916.
Данный h-показатель является примером вычисленной числовой характеристики, которую OCR-система может использовать для сравнения изображений символа с эталонными символами алфавита или множеством символов для обнаружения изображений символа. Существует много примеров таких характеристик элемента или параметров элемента, которые можно вычислить и сравнить с характеристиками элемента или параметрами элемента стандартного множества символов для выбора стандартного символа, наиболее аналогичного изображению символа. Другие примеры включают отношение количества белых пикселей к количеству черных пикселей на участке двоичного изображения символа, относительные длины наиболее длинных вертикальных, горизонтальных и диагональных линий черных пикселей в пределах двоичного изображения символа и другие такие вычисляемые показатели.
На Фиг. 10А-В проиллюстрирован подход к распознаванию символов, используемый в OCR-системе, путем наложения эталона. На Фиг. 10А-В представлен эталонный символ, наложенный на участок двоичного изображения документа 1002, содержащий изображение символа во множестве ориентаций. Для каждой ориентации доля пикселей в эталонном символе, перекрывающихся с черными пикселями на участке двоичного изображения документа, содержащего изображение символа, генерирует показатель перекрывания, или o-показатель. Перед вычислением o-показателей для разных ориентаций эталонного символа в отношении изображения символа выполняют операцию масштабирования, чтобы обеспечить, что эталонный символ и изображение символа имеют приблизительно одинаковый размер. Заданное изображение символа можно сравнить с множеством эталонных символов во множестве ориентаций и выбрать наилучшим образом совпадающий эталонный символ в качестве эталонного символа с наибольшим сгенерированным значением о-показателя. Например, на Фиг. 10В наложение 1004 генерирует перекрывание 100%. Для большей точности можно вычислить двусторонний о-показатель комбинированного перекрывания эталонного символа в отношении изображения символа и для изображения символа в отношении эталонного изображения. Это один пример методик наложения эталона, которые можно использовать для выбора для изображения символа наилучшим образом совпадающего эталона по стандартизованным изображениям символов алфавита или множеству символов.
На Фиг. 11А-В проиллюстрированы различные объекты множества символов для естественных языков. На Фиг. 11А представлен столбец из различных форм символа во множестве символов. В столбце 1104 для первой формы символа 1102 из множества символов представлены разные формы символа в разных стилях текста. Во многих естественных языках могут быть разные стили текста, а также альтернативные письменные формы для заданного символа.
На Фиг. 11В представлено множество концепций, связанных с символами естественного языка. На Фиг. 11В конкретный символ естественного языка представлен узлом 1110 на графе 1112. Конкретный символ может иметь множество общих письменных или печатных форм. Для целей OCR каждая из этих общих форм составляет графему. В некоторых случаях конкретный символ может содержать две или более графем. Например, китайские символы могут содержать комбинацию из двух или более графем, каждая из которых присутствует в дополнительных символах. Корейский язык фактически основан на алфавите, причем в нем используются корейские морфослоговые блоки, содержащие ряд символов алфавита в разных положениях. Таким образом, корейский морфослоговой блок может представлять собой символ более высокого уровня, состоящий из нескольких компонентов графемы. Для символа 1110, представленного на Фиг. 11В, существуют шесть разных графем 1114-1119. Дополнительно существует одно или более разных печатных или письменных отображений графемы, причем каждое отображение представлено эталоном. На Фиг. 11В каждая из графем 1114 и 1116 имеет два альтернативных отображения, представленных эталонами 1120-1121 и 1123-1124 соответственно. Каждая из графем 1115 и 1117-1119 связана с одним эталоном, эталонами 1122 и 1125-1127 соответственно. Например, символ 1102 может быть связан с тремя графемами. Первая из графем охватывает отображения 1102, 1124, 1125 и 1126, вторая - отображения 1128 и 1130, третья - отображение 1132. В этом случае первая графема имеет прямые горизонтальные элементы, вторая графема имеет горизонтальные элементы с короткими вертикальными элементами с правой стороны, а третья графема включает изогнутые, а не прямые, элементы. Альтернативно все отображения символа 1102, 1128, 1124, 1132, 1125, 1126 и 1130 можно представить в виде эталонов, связанных с одной графемой для символа. В некоторой степени выбор графем является несколько условным. В некоторых типах символьно-ориентированных языков может быть тысячи разных графем. Эталоны можно считать альтернативными отображениями или изображениями, и они могут быть представлены множеством пар «параметр/значение параметра», как описано ниже.
Фактически, хотя отношения между символами, графемами и эталонами представлены на Фиг. 11В как строго иерархические, причем каждая графема связана с одним конкретным родительским символом, фактические отношения могут быть не столь просто структурированы. На Фиг. 11С проиллюстрировано несколько более сложное множество отношений, в которых оба из двух символов 1130 и 1132 являются родительским для двух разных графем 1134 и 1136. В качестве одного примера можно привести следующие символы английского языка: строчная буква «о», прописная буква «0», цифровое обозначение нуля «0» и символ градуса «°», все из которых могут быть связаны с кольцеобразной графемой. Отношения альтернативно можно представить в виде графов или сетей. В некоторых случаях графемы (в отличие от или в дополнение к символам) могут быть представлены на высших уровнях в пределах представления. Обнаружение символов, графем, выбор эталонов для конкретного языка, а также обнаружение отношений между ними по существу осуществляются в большой степени произвольно.
На Фиг. 12 проиллюстрирован ряд дополнительных типов распознавания символов, который можно использовать для распознавания символов в пределах изображений и фрагментов изображений текстовых документов. На Фиг. 12 представлено изображение буквы «А» 1202. Описанные выше методики распознавания путем наложения эталона и на основе параметров можно непосредственно применить к изображению 1202. Альтернативно изображение символа 1202 можно исходно обработать с генерированием структуры символа 1204 или контура символа 1206. Структуру символа 1204 можно вычислить как множество прямых и кривых, представляющих своего рода набор локальных центров масс изображения символа. Контур символа 1206 представляет собой набор прямых и кривых, представляющий внешние и внутренние границы символа. Затем методики признакового распознавания или распознавания путем наложения эталона, такие как описанные выше, можно применить либо к структуре символа 1204, либо к контуру символа 1206 с использованием структурных или контурных распознавателей соответственно.
На Фиг. 13А-В проиллюстрирован тип классификатора, который можно использовать для порождения гипотез в отношении разбиения изображения текстовой строки на последовательность изображений символов. Данный тип классификатора абстрактно проиллюстрирован на Фиг. 13А-В. В верхней части Фиг. 13А в виде горизонтальной заштрихованной полосы представлено изображение текстовой строки 1302. На первом этапе, выполняемом классификатором третьего типа, в пределах битовой карты, соответствующей текстовой строке, обнаруживаются смежные не относящиеся к символу биты, выровненные по ширине текстовой строки. Они представлены в виде пробелов 1304-1318. Затем классификатор может рассмотреть все возможные пути, ведущие от начала текстовой строки до конца текстовой строки через обнаруженные пробелы. Например, первый путь, который пересекает все обнаруженные пробелы, проиллюстрирован в отношении текстовой строки 1320, где путь состоит из серии дуг, таких как дуга 1322. Проиллюстрированный применительно к текстовой строке 1320 путь имеет 15 пробелов (1304-1318) и, следовательно, 15 разных дуг. С другой стороны, существует путь, состоящий из одной дуги 1324, проиллюстрированной в отношении текстовой строки 1326. Три дополнительных пути проиллюстрированы в отношении текстовых строк 1328-1330. Каждый возможный путь представляет разную гипотезу в отношении группировки участков изображения текстовой строки в элементы более высокого уровня. Граф, содержащий множество путей пересечения пробелов, называется «графом линейного деления».
Для контроля потенциального комбинаторного взрыва, который может возникнуть, если рассматривать каждую возможную гипотезу, или путь, как отдельное разбиение в процессе преобразования изображения документа, возможным путям по существу присваиваются баллы, а в качестве гипотезы выбирается только путь с наибольшим числом баллов или некоторое количество путей с наибольшим числом баллов. На Фиг. 13В проиллюстрировано присвоение баллов пути. В подходе, представленном на Фиг. 13В, с каждой дугой, такой как дуга 1340, связывают весовое значение, например, с дугой 1340 связано весовое значение 0,28 1342. Существует много способов вычисления весового значения дуги. В одном примере весовое значение дуги 1344 вычисляется как ширина пробела у основания текстовой строки, на которую указывает дуга 1346, умноженная на величину, обратную абсолютному значению разности между интервалом, представленным дугой 1348, и средним значением интервала для текстовой строки, текстового блока, включающего текстовую строку, или какого-либо другого элемента изображения более высокого уровня. В данном конкретном расчете весового значения дуги 1344 предполагается, что чем шире пробел, тем выше вероятность того, что пробел представляет границу между символами или словами и что длины символов или слов попадают в среднюю длину. Данный классификатор третьего типа в одном случае можно использовать для разбиения текстовых строк на символы, а в другом случае - для разбиения текстовых строк на слова. Функция определения весовых значений, определяющая весовые значения дуги, может изменяться в зависимости от того, разбивается ли текстовая строка на символы или на слова. Итоговое число баллов для гипотезы, представленной конкретным путем, пересекающим пробелы, таким как путь, представленный дугами в текстовой строке 1350 на Фиг. 13В, вычисляется как сумма весовых значений отдельных дуг 1352.
Проблемы, связанные с обработкой изображений математических выражений
На Фиг. 14А-В представлен ряд примеров математических выражений, а также указаний элементов в математических выражениях, которые являются сложными и представляют трудности для используемых в настоящее время OCR-способов, применяемых к фрагментам изображений документа, содержащим математические выражения. На Фиг. 11А представлены пять математических уравнений 1402-1410, выбранных из различных учебников по математике. Например, выражение 1402 взято из учебника по математическому анализу, уравнение 1406 взято из учебника по тензорному исчислению, а уравнения 1408 и 1410 взяты из учебника по квантовым вычислениям. Читатель, знакомый с курсами математики и физики на уровне колледжа, легко интерпретирует все уравнения, представленные на Фиг. 14А. Однако с точки зрения автоматических OCR-методологий распознавания этих математических выражений на изображениях и фрагментах изображений документов представляет множество проблем.
На Фиг. 14В проиллюстрированы некоторые из проблем, возникающих при применении автоматических OCR-способов к математическим выражениям, представленным на Фиг. 14А. В качестве одного примера, достаточно часто в математических выражениях заданный тип символа может иметь множество начертаний, или образцов, в разных выражениях. Например, рассмотрим символ интеграла 1412 и символ двойного интеграла 1414 в выражении 1402. Символ интеграла может встречаться один или несколько раз в зависимости от размерности интегрирования, которое представляет символ или символы интеграла. С символом интеграла могут быть связаны нижний и верхний пределы интегрирования, как в случае символа интеграла 1412 в уравнении 1402. Однако положения нижнего и верхнего пределов относительно символа интеграла ∫ в разных выражениях могут различаться.. В некоторых случаях пределы могут быть под и над символом интеграла, а в других случаях они могут появляться справа от верхнего и нижнего фрагментов символа интеграла, как в случае символа интеграла 1412 в выражении 1402. В случае неопределенных интегралов ни нижний, ни верхний пределы интегрирования в символ не включены. В других случаях, таких как двойной интеграл 1414 в выражении 1402, пределы интегрирования представлены более абстрактно, в этом случае - заглавной буквой которая появляется под парой символов интеграла. Как правило, пределы интегрирования выражаются с использованием размеров шрифта, которые существенно меньше размера шрифта символа интеграла, но в разных математических выражениях различие шрифтов может быть разным. Пределы интегрирования могут представлять собой отдельные символы или могут составлять целые математические выражения. Простые способы признакового распознавания и распознавания путем наложения эталона сложно применять к математическим выражениям, в которых используются наборы символов с хорошо определенными значениями, но во множестве разных потенциальных образцов.
Другой проблемой математических выражений является наличие подстрочных и надстрочных символов. Например, обозначение функции 1416 в уравнении 1404 представлено функцией ƒk, которая принимает один параметр z. Однако существуют и дополнительные возможные интерпретации. Например, выражение может означать умножение числа ƒk на заключенное в скобки выражение z или альтернативно оно может быть интерпретировано как произведение трех чисел ƒ, k и z. Во многих случаях разница в размерах шрифта между основным символом и надстрочным написание этого символа в разных выражениях может варьироваться в широких пределах, и это же относится к относительным положениям основного символа и надстрочного символа. Еще большие сложности могут возникать, когда подстрочные и надстрочные написания основных символов сами по себе представляют математические выражения. Например, подстрочный символ «E» 1418 в уравнении 1404 в качестве подстрочного символа имеет выражение qk-1. Однако автоматической OCR-системе может быть неизвестно, является ли все данное выражение подстрочным, или же подстрочным является q, а значение k-1 представляет собой множитель «E» или потенциально каким-либо образом связано со следующим символом (z). Элементы матриц, такие как элемент 1420 в уравнении 1406, также могут создавать проблемы для автоматической OCR-системы. Элемент матрицы 1420 представляет собой дробь и является элементом матрицы 2×2, причем дробь включает знаменатель с надстрочным символом х. Автоматическая OCR-система, неспособная распознать данную дробь как элемент матрицы, вместо этого может учитывать множество возможных ролей этих символов, включая выражение, в котором дробь 1420 умножается на элемент матрицы слева от нее или сама по себе является знаменателем дроби более высокого уровня с числителем «0». В пределах математических выражений может быть произвольное число уровней вложения фрагментов выражений, которые легко интерпретируются людьми, но представляют сложность для анализа автоматическими OCR-способами, которые не могут учитывать полный математический контекст, в котором используются отдельные символы. Другим примером нескольких уровней вложения является подстрочное выражение 1422 числа е в выражении 1408, которое является дробью, содержащей другую дробь в качестве ее знаменателя. Следует отметить, что дробь более высокого уровня имеет горизонтальную черту дроби, тогда как дробь более низкого уровня имеет диагональную черту дроби. В этом уравнении фигурная скобка 1424 появляется без соответствующей закрывающей скобки. Зачастую в математических выражениях фигурные скобки, квадратные скобки и круглые скобки встречаются парами, но иногда это не так. Во многих областях символы могут иметь конкретные специфичные для данной области значения. Например, в уравнении 1410 обозначение 1426 относится к вектору, а обозначение 1428 указывает на побитовое сложение по модулю 2. Без знания контекста выражения автоматическая OCR-система может неверно интерпретировать такие символы.
Указанные выше примеры представляют собой лишь небольшую часть из множества проблем, создаваемых математическими выражениями для OCR-системы. Математические выражения по существу имеют произвольное число уровней вложения, в них используется множество типов специальных символов, имеющих разные значения и использования в разных контекстах, и применяется множество специфических условных обозначений для представления конкретных концепций. Когда математические символы представлены в пределах электронных документов, например, с использованием средств Microsoft Equation Editor, Math Type Equation Editor или LaTeX, необходимо понимать точное значение каждого символа, а также уровни вложения, на которых находятся символы. В качестве одного примера, во многих системах представления математических выражений в цифровом виде парные квадратные, фигурные или круглые скобки указываются путем одного исходного ввода, причем символы появляются в пределах парных квадратных, фигурных или круглых скобок после ввода пары скобок. Чтобы правильно представить символ, OCR-система должна распознать парные фигурные, квадратные или круглые скобки на каждом уровне вложения.
Способы и системы, к которым относится настоящий документ
Настоящий документ относится к способам и системам, включая подсистемы в автоматических OCR-системах, которые обрабатывают изображения и фрагменты изображений документа, содержащие математические выражения, для преобразования изображений математических выражений в электронные представления математических выражений. Как описано выше применительно к Фиг. 11А-С и 12, при OCR-обработке изображений документа изображение документа разбивается на блоки или фрагменты изображений различных типов, которые затем обрабатываются в соответствии со способами обработки подходящими для данных типов. Математические выражения представляют собой еще один тип блока или фрагмента изображения, обрабатываемого описанными здесь способами и системами, которые преобразуют изображения математических выражений в соответствующие электронные представления.
Способы обработки изображений и фрагментов изображений математических выражений, к которым относится настоящий документ, включают рекурсивное попеременное применение методик разбиения изображения на блоки для иерархического разделения изображений или фрагментов изображений, содержащих математическое выражение, на элементарные блоки, каждый из которых соответствует конкретным символам. На Фиг. 15A-F проиллюстрирован один из способов разбиения на блоки математического выражения, который разделяет изображение или фрагмент изображения, содержащий математическое выражение, на блоки или разбиения более низкого уровня. На Фиг. 15А представлено уравнение 1402, изображенное на Фиг. 14А, на которое наложено множество вертикальных параллельных линий. Данные вертикальные линии, такие как вертикальная линия 1502, делят изображение математического выражения 1402 на множество смежных параллельных вертикальных полос. Для ясности иллюстрации степень детализации разбиения на полосы, или ширина полос, в представленном на Фиг. 14А примере относительно большая. Однако в некоторых способах реализации можно использовать полосы шириной в один или два пикселя. В способе разбиения на блоки после разбиения изображения уравнения на вертикальные полосы можно учесть количество пикселей в пределах каждой полосы, соответствующей символам, чтобы построить гистограмму в отношении последовательных интервалов вдоль горизонтальной оси изображения выражения, которая показывает количество пикселей, соответствующих символам для каждого интервала оси x, представляя область пересечения вертикальной полосы с горизонтальной осью или альтернативно долю пикселей, соответствующих символам, в каждой вертикальной полосе. Затем в способе обнаруживаются все одиночные вертикальные полосы и смежные множества вертикальных полос, в которых количество пикселей, соответствующих символам, меньше порогового количества пикселей, в качестве потенциальных границ разбиения. В случае бинарного изображений в одном из способов разбиения на блоки подсчитывается количество пикселей со значением «1» в пределах каждой вертикальной полосы. Вместо вычисления всей гистограммы способ разбиения на блоки может альтернативно подсчитывать количество пикселей, соответствующих символам, в каждой вертикальной полосе относительно порогового значения, обнаруживая те вертикальные полосы, в которых количество пикселей, соответствующих символам, меньше порогового количества символов, как вертикальные полосы со значением «0», а оставшиеся вертикальные полосы - как вертикальные полосы со значением «1». Иными словами, необходимо вычислить не всю гистограмму, а лишь бинарную гистограмму, различающую вертикальные полосы, в которых количество соответствующих символам пикселей меньше порогового количества пикселей, от вертикальных полос, в которых количество соответствующих символам пикселей больше или равно пороговому количеству пикселей. Каждое множество одной или более смежных вертикальных полос, имеющих количество соответствующих символам пикселей меньше порогового количества пикселей, представляет собой потенциальную границу разбиения для разбиения математического выражения на блоки более низкого уровня. Данные потенциальные границы разбиения также называются «вертикальными белыми полосами». Вместо пикселей можно использовать другие методики определения процентного содержания области полосы, соответствующей одному или более символам.
На Фиг. 15А множества смежных вертикальных полос с количеством пикселей, соответствующих символам, меньшим порогового количества пикселей показаны с помощью направленных U-образных меток, таких как U-образная метка 1504. Как показано на Фиг. 15А, разбиение на полосы с крупной детализацией позволяет обнаружить лишь фрагмент потенциальных вертикальных границ разбиения, которые визуально можно обнаружить как разделяющие математическое выражение 1402 на отдельные символы или группы символов вдоль горизонтальной оси. Например, потенциальная вертикальная граница разбиения находится между надстрочной цифрой 2 (1506 на Фиг. 15А) и символом дифференциала 1508, и ее можно было бы обнаружить способами на основе построения гистограммы, в которых сетка параллельных вертикальных линий несколько смещена горизонтально по отношению к математическому выражению. При использовании разбиения на вертикальные полосы с малой детализацией данная и многие дополнительные потенциальные границы разбиения находятся способом на основе построения гистограммы. Альтернативно разбиение на вертикальные полосы с меньшей степенью детализации, как представлено на Фиг. 15А, можно использовать несколько раз со систематическим смещением относительных положений вертикальных линий в отношении математического выражения влево или вправо при каждом использовании. Таким образом, потенциальные вертикальные границы разбиения, такие как потенциальная вертикальная граница разбиения, пролегающая между надстрочной цифрой 2 (1506 на Фиг. 15А) и символом дифференциала 1508, обнаруживаются во время по меньшей мере одного использования способа на основе построения гистограммы. В любом случае использование строго вертикальных линий может не выявить всех возможных логических линий разбиения. Например, было бы логично разделить символ дифференциала 1510 и следующий символ переменной «r» 1511. Однако поскольку основа символа дифференциала 1510 не является вертикальной, верхняя часть основы перекрывается с крайней левой частью символа «r» 1511 в вертикальной проекции на горизонтальную ось. Следовательно, невозможно построить такую вертикальную белую полосу (пробелов) между этими двумя символами, которая не содержала бы пикселей по меньшей мере одного из символов. Для нахождения потенциальных границ разбиения данных типов можно использовать множество параллельных линий под разным наклоном, образующих полосы. На Фиг. 15В линии из множества параллельных линий не перпендикулярны горизонтальной оси, а расположены под некоторым наклоном. В результате этого при несколько меньшей детализации наклонной полосы 1514 полоса не содержит соответствующие символам пиксели и, таким образом, может быть обнаружена как потенциальная граница разбиения.
Следовательно, для проведения разбиения на блоки вдоль горизонтальной оси в способе разбиения на блоки по существу применяется ряд этапов, в каждом из которых на изображение математической формулы в качестве потенциальных границ разбиения накладывают логическое множество параллельных линий, причем на каждом этапе варьируют относительные положения линий и/или их направления. Наложение является логическим в том смысле, что линии представляют собой логические конструкции, определяющие границы потенциальных разбиений, а не фактически рисуются на или включаются в изображение или фрагмент изображения математического выражения. Например, можно использовать ряд этапов с изменением направлений линии от 70° до 110°, с интервалами в пять градусов или десять градусов и со сдвигом относительных положений параллельных линий на небольшую величину на каждом этапе. Потенциальные границы разбиения, обнаруженные на каждом этапе, накапливаются, и из итогового множества границ разбиения выбирается накопленное множество потенциальных границ разбиения.
На Фиг. 15С проиллюстрирован выбор разбиений из множества потенциальных разбиений. В примере, представленном на Фиг. 15С, длинная двусторонняя горизонтальная стрелка 1530 представляет горизонтальную ось, или ось x, изображения математического выражения. Четыре этапа выбора потенциальных границ разбиения представлены четырьмя рядами символов коротких стрелок 1532-1535. Каждый символ короткой стрелки, такой как символ короткой стрелки 1538, включает стрелку, которая указывает направление линий множества параллельных линий, описывающих полосы, логически наложенные на этапе выбора потенциального разбиения на изображение математической формулы, и горизонтальную линию основания, которая указывает на ширину множества одной или более полос, в которых количество соответствующих символам пикселей меньше порогового количества пикселей. Если два или более потенциальных разбиения, такие как потенциальные разбиения 1538-1540, перекрываются вдоль оси x 1530, то сегменты линий основания для всех потенциальных разбиений, имеющих такое же направление, соединяются и после соединения потенциальных разбиений с таким же направлением наиболее широкое соединенное потенциальное разбиение или, иными словами, соединенное потенциальное разбиение с наиболее длинной линией основания, выбирают в качестве разбиения. Потенциальные разбиения, не перекрывающиеся с другими потенциальными разбиениями, также выбираются в качестве разбиений. На Фиг. 15С представленная область изображения математической формулы 1542 разделена разбиениями, выбранными из потенциальных разбиений рядов 1532-1535, в результате чего получается множество блоков 1544-1557, представляющих собой результаты разбиения изображения математического выражения на блоки или разбиения более низкого уровня. В некоторых способах реализации две потенциальные границы разбиения могут быть образованы с перекрыванием, либо когда они физически пересекаются, либо когда линейный сегмент, соединяющий точки на каждой из двух потенциальных границ разбиения, короче порогового расстояния.
На Фиг. 15D проиллюстрировано горизонтальное разбиение первого уровня изображения математического выражения 1402, изображенного на Фиг. 14А, с использованием способа, представленного выше применительно к Фиг. 15А-С. Линии разбиения, такие как линия разбиения 1560, центрированы в пределах фрагментов изображения, через которые можно построить вертикальные или наклонные белые полосы (пробелов). В некоторых случаях, таких как в случае разбиений 1562 и 1564, каждое разбиение, или блок, содержит одиночный символ. В других случаях, например при разбиении 1566, в результате горизонтального разбиения не могут быть получены одиночные символы из-за наличия горизонтальной дробной черты
Figure 00000001
.
Как представлено на Фиг. 15Е, аналогичный способ разбиения или разбиения на блоки можно использовать для вертикального разбиения изображения или фрагмента изображения, включающего математическое выражение. На Фиг. 15Е фрагмент изображения 1570, содержащий дробь,
Figure 00000001
можно вертикально разделить на три разбиения 1572-1574. Применение этапа вертикального разбиения к разбиению 1566, полученному при горизонтальном разбиении первоначального изображения, позволяет образовать разбиения второго уровня, два из которых включают одиночные символы, а один 1574 включает два символа. Затем горизонтальное разбиение разбиения второго уровня 1574 позволяет образовать два разбиения третьего уровня, каждый из которых содержит одиночный символ. Таким образом, попеременное рекурсивное применение горизонтального и вертикального разбиения, или разбиения на блоки, можно использовать для рекурсивного разбиения изображения или фрагмента изображения, содержащего математическое выражение, на иерархическое множество блоков изображения, причем наименьший блок всегда содержит одиночный символ.
На Фиг. 15F представлена блок-схема для одного из способов разбиения на блоки, который разделяет изображение, содержащее математическое выражение, на блоки вдоль указанного направления. В способах и системах обработки математического выражения, к которым относится настоящий документ, разбиение на блоки применяется либо в горизонтальном направлении с использованием вертикальных или близких к вертикальным полос, либо в вертикальном направлении с использованием горизонтальных или близких к горизонтальным полос. В блок-схеме, представленной на Фиг. 15F, описано как вертикальное, так и горизонтальное разбиение на блоки. На этапе 1580 подпрограмма «разбиение на блоки» получает в качестве двух аргументов направление разбиения на блоки, либо горизонтальное, либо вертикальное, и изображение или фрагмент изображения, содержащий математическое выражение или формулу. Подпрограмма «разбиение на блоки» инициализирует структуру данных белых полос (пробелов) для хранения указаний всех обнаруженных множеств одной или более смежных полос, перпендикулярных направлению разбиения на блоки, в каждой из которых количество соответствующих символам пикселей в пределах полученного изображения или фрагмента изображения меньше порогового количества пикселей. Во вложенных циклах for на этапах 1582-1586 подпрограмма «разбиение на блоки» выполняет серию этапов по выбору потенциального разбиения, как описано выше применительно к Фиг. 15А-В. Внешний цикл for на этапах 1582-1586 выполняет перебор серий ориентаций параллельных линий от угла -a до +a приблизительно в направлении, перпендикулярном направлению разбиения на блоки. Например, если направление разбиения на блоки является горизонтальным, то серия ориентаций может начинаться от 80° и заканчиваться на 100°, захватывая по 10° с обеих сторон от вертикального направления 90° градусов. Приращение угла может составлять некоторое количество градусов, например, пять градусов, на каждую следующую итерацию внешнего цикла for. Во внутреннем цикле for на этапах 1583-1585 выполняется итерация некоторого количества последовательных изменений положений полос, перпендикулярных или близких к перпендикулярным направлению разбиения на блоки в отношении направления разбиения на блоки. При разбиении на полосы с очень малой детализацией внутренний цикл for может быть необязательным. При разбиении на полосы с более крупной детализацией, как проиллюстрировано на Фиг. 15А-В, ширину полосы можно разделить на целое число, такое как четыре, чтобы получить приращение, и количество итераций внутреннего цикла for равно целому числу, а после каждой итерации будет происходить смещение положений полос на вычисленное значение приращения в выбранном направлении вдоль направления разбиения на блоки. После того как ряд потенциальных разбиений был выбран во вложенных циклах for на этапах 1582-1586 и сохранен в структуре данных белых полос (пробелов), выполняют разбиение перекрывающихся белых (полос) пробелов на этапе 1588, как описано выше применительно к Фиг. 15С, и оставшиеся после разбиения белые (полосы) пробелов используют для разбиения изображения формулы на блоки на этапе 1590, как описано выше применительно к Фиг. 15C-D.
Для обработки математической формулы описанное выше горизонтальное и вертикальное разбиение на блоки применяют рекурсивно до тех пор, пока математическая формула не будет сведена к графемам, распознаваемым как символы описанными выше OCR-подходами. Затем каждое множество распознанных символов, полученное во время рекурсивного разбиения на блоки, обрабатывают, используя этап обработки на основе графа, для преобразования последовательности распознанных символов в представление математической формулы в виде графа.
На Фиг. 16А-В проиллюстрированы рекурсивно-блочный и основанный на графе подход к распознаванию математических формул во время OCR-обработки изображения документа. В верхней части Фиг. 16А повторно представлено выражение 1406, изображенное на Фиг. 14А. На первом этапе, представленном стрелкой 1602 и обозначенном символом «Н», фрагмент изображения документа, содержащего данное выражение, подвергают горизонтальному разбиению на блоки. После горизонтального разбиения на блоки к каждому блоку применяют OCR-способы, такие как описанные выше, для распознавания одного или более символов в пределах блока. На Фиг. 16А в строке 1604 представлены результаты горизонтального разбиения на блоки и применения OCR-способов к каждому блоку. Те блоки, для которых в результате применения OCR-способов были сгенерированы распознанные символы, указаны распознанными символами. Например, при горизонтальном разбиении на блоки сгенерирован блок, содержащий знак равенства 1606. При применении OCR-способов к данному блоку сгенерирован распознанный символ знака равенства. Следовательно, блок представлен на Фиг. 16А знаком равенства 1608. Те блоки, для которых в результате применения OCR-способов не были сгенерированы распознанные символы, представлены в ряду 1604 на Фиг. 16А в виде пунктирных прямоугольников, таких как пунктирный прямоугольник 1610. В случае блока 1610 OCR-способы не позволяют распознать заглавную букву «U» с вертикально расположенной чертой над заглавной буквой «U». Далее те блоки, для которых в результате применения OCR-способов не были сгенерированы распознанные символы, подвергают рекурсивному вертикальному разбиению на блоки, как указано стрелками, обозначенными буквой «V», такими как стрелка 1612. В случае блока 1610 при вертикальном разбиении на блоки были сгенерированы символ штриха, представленный в пунктирном прямоугольнике 1614, и символ U, представленный в прямоугольнике 1616. Однако в случае блока 1618 рекурсивное вертикальное разбиение на блоки генерирует три символа 1620-1622, а также блок 1624, из которого в результате применения OCR-способов не был получен распознанный символ. Таким образом, после вертикального разбиения на блоки к каждому полученному блоку применяются OCR-способы, в результате которых генерируются либо распознанные символы, либо блоки более низкого уровня, к которым затем рекурсивно применяют горизонтальное разбиение на блоки. На Фиг. 16А изогнутые стрелки, обозначенные буквой «Н», такие как стрелка 1626, указывают на рекурсивно применяемое горизонтальное разбиение на блоки к тем блокам, из которых в результате применения OCR-способов не были сгенерированы символы. В итоговом ряду 1630, представленном на Фиг. 16А, каждый отдельный символ в уравнении, содержащийся на изображении уравнения 1406, был распознан путем применения OCR-способов. Таким образом, в случае изображения уравнения 1406 требуется три рекурсивно примененных уровня разбиения на блоки, чтобы разделить изображение уравнения на фрагменты изображения, каждый из которых содержит графему, распознаваемую OCR-способами в качестве символа.
На Фиг. 16В проиллюстрировано рекурсивное применение разбиения на блоки к фрагменту изображения уравнения 1406, представленному на Фиг. 16А, с использованием другого множества иллюстративных условных обозначений. На Фиг. 16В содержащий выражение фрагмент изображения документа, содержащийся на фрагменте изображения 1406 на Фиг. 16А, представлен в виде корневого узла 1640. Рекурсивное применение разбиения на блоки позволяет сгенерировать дерево 1642, в котором листья, такие как лист 1644, соответствуют более мелким фрагментам изображения, каждое из которых содержит графему, распознаваемую OCR-способами в качестве символа.
На Фиг. 17А-С представлены блок-схемы, иллюстрирующие один из способов обработки изображения документа, содержащего математическое выражение, к которому относится настоящий документ. На Фиг. 17А представлена блок-схема для подпрограммы «математическое выражение», которая в качестве аргумента принимает фрагмент изображения документа, содержащего математическое выражение, и в результате генерирует представление математического выражения, содержащегося на фрагменте изображения, в виде графа. На этапе 1702 подпрограмма «математическое выражение» принимает фрагмент изображения, содержащий математическое выражение. Фрагмент изображения может быть указан ссылкой на бинарное изображение документа, а также обозначениями точек в пределах бинарного изображения документа, которые указывают на прямоугольник или многоугольник, содержащий фрагмент изображения, содержащий математическое выражение. На этапе 1704 подпрограмма «математическое выражение» присваивает локальной переменной направление «горизонтальное», а для локальной переменной список - нулевое значение. На этапе 1706 подпрограмма «математическое выражение» вызывает подпрограмму «рекурсивное разбиение на блоки» для выполнения рекурсивного разбиения на блоки полученного фрагмента изображения, как описано выше применительно к Фиг. 16А-В. Подпрограмма «рекурсивное разбиение на блоки» также преобразует списки фрагментов изображений, содержащих символы, в представления в виде графа фрагментов выражения в пределах математического выражения и возвращает итоговое представление в виде графа всего математического выражения. На этапе 1708 представление математического выражения в виде графа, возвращенное подпрограммой «рекурсивное разбиение на блоки», используется для порождения представления математического выражения в цифровом виде, соответствующего математическому выражению, которое содержится в полученном фрагменте изображения.
На Фиг. 17В представлена блок-схема подпрограммы «рекурсивное разбиение на блоки», вызываемой на этапе 1706, представленном на Фиг. 17А. На этапе 1710 подпрограмма «рекурсивное разбиение на блоки» принимает фрагмент изображения s, направление d и ссылку на список l. На этапе 1712 подпрограмма «рекурсивное разбиение на блоки» присваивает локальной переменной localL нуль. На этапе 1714 подпрограмма «рекурсивное разбиение на блоки» вызывает подпрограмму «разбиение на блоки», описанную выше применительно к Фиг. 15F, для проведения разбиения фрагмента изображения на блоки в направлении, указанном полученным аргументом d. Как описано выше, d может указывать либо на горизонтальное, либо на вертикальное разбиение на блоки. Затем в цикле for на этапах 1716-1722 рассматривается каждый блок, сгенерированный подпрограммой «разбиение на блоки». На этапе 1717 текущий рассматриваемый блок b подвергается распознаванию символов с помощью OCR. Если распознавание символов с помощью OCR успешно распознает символ в блоке b, как определено на этапе 1718, то на этапе 1720 подпрограмма «рекурсивное разбиение на блоки» формирует одноэлементный список, который включает один элемент, представляющий распознанный символ. В ином случае на этапе 1719 подпрограмма «рекурсивное разбиение на блоки» рекурсивно вызывает саму себя для проведения следующего уровня разбиения на блоки в направлении разбиения на блоки, противоположном направлению разбиения на блоки, полученном в качестве аргумента d, указанного на Фиг. 17В обозначением
Figure 00000002
. Иными словами, когда аргумент d имеет значение «горизонтальное», то
Figure 00000002
имеет противоположное значение «вертикальное», а когда аргумент d имеет значение «вертикальное», то
Figure 00000002
имеет противоположное значение «горизонтальное». Список, сгенерированный на этапе либо 1720, либо 1719, добавляется на этапе 1721 к списку, на который ссылается локальная переменная localL. После того как все блоки, сгенерированные в результате вызова подпрограммы «разбиение на блоки» на этапе 1714, были рассмотрены в циклах for на этапах 1716-1722, подпрограмма «рекурсивное разбиение на блоки» вызывает на этапе 1724 подпрограмму «обработка на основе графа» для проведения на основе графа обработки списка, на который ссылается локальная переменная localL. Наконец, на этапе 1726 список, на который ссылается локальная переменная localL, добавляется к списку, на который ссылается аргумент l.
На Фиг. 17С представлена блок-схема подпрограммы «обработка на основе графа», вызываемой на этапе 1724 (Фиг. 17В). На этапе 1730 подпрограмма «обработка на основе графа» принимает список l элементов, каждый из которых представляет символ, распознанный во время рекурсивного разбиения на блоки, присваивает локальной переменной best нуль и присваивает локальной переменной bestW большое число. Затем в цикле for на этапах 1732-1737 подпрограмма «обработка на основе графа» рассматривает возможные пути, полученные путем добавления дуг к списку элементов, на который ссылается локальная переменная l. Графы линейного деления описаны ранее в контексте распознавания символа применительно к Фиг. 13А-В. Обработка на основе графа, используемая в подпрограмме «обработка на основе графа», может быть аналогична способам распознавания символа на основе графов линейного деления, описанным ранее, и описана ниже со структурами данных, которые можно использовать для представления списков и путей в некоторых способах реализации. На этапе 1734 текущий рассматриваемый путь оценивается для получения весового значения w для графа. Если w меньше bestW, как определено на этапе 1735, то на этапе 1736 переменной best присваивается значение текущему рассматриваемому пути, а локальной переменной bestW присваивается w. Подпрограмма «обработка на основе графа» возвращает наилучший, или имеющий наименьшее весовое значение, путь, построенный в отношении полученного списка. Не все возможные пути необходимо рассматривать в цикле for на этапах 1732-1737. Можно применять различные эвристические способы для выбора наиболее вероятных потенциальных путей для рассмотрения. Более того, во время оценки потенциального пути на этапе 1734 оценку можно прекратить, как только совокупное весовое значение достигнет текущего значения, сохраненного в локальной переменной bestW.
На Фиг. 18А-С проиллюстрировано применение обработки на основе графа для распознавания фрагментов математических выражений и целых математических выражений. На Фиг. 18А представлено изображение простого математического выражения 1802. Данное выражение может представлять собой фрагмент выражения в пределах более крупного математического выражения. При горизонтальном разбиении на блоки генерируется множество вариантов графемы, причем применение OCR к ним позволяет сгенерировать множество возможных символов 1804, представленное в пределах многорядной структуры данных. Символы, представленные в первом ряду структуры данных, представляют собой символы, которые OCR-способы рассматривают в качестве наиболее вероятных символов, содержащихся на изображении математического выражения 1802. В некоторых случаях вместо одного символа применение OCR-способов позволяет сгенерировать столбец из возможных вариантов символа, такой как столбец 1808. В случае столбца 1808, например, путем применения OCR-способов определяется, что символ 1810 на изображении выражения 1802 может представлять собой либо заглавную букву «S» 1812, либо греческую букву «δ» 1814. Затем множество распознанных символов 1804 преобразуется в структуру данных в виде графа 1816. Структура данных в виде графа включает два типа элементарных структур данных, которые связаны, обеспечивая основу структуры данных для представления одного или более путей.
На Фиг. 18А первый тип элементарной структуры данных 1817 в структуре данных на основе графа проиллюстрирован на вставке 1818. Этот первый тип элементарной структуры данных 1817 включает ссылку на структуру данных 1820, которая связывает элементарную структуру данных с элементарной структурой следующего, второго, типа в пределах структуры данных в виде графа. Первый тип элементарной структуры данных 1817 дополнительно включает несколько подструктур пути, таких как подструктура пути 1822. Каждая подструктура пути включает ссылку на путь 1824, весовое значение дуги 1826 и индекс варианта символа 1828. Значение, хранящееся в ссылке на путь 1824, если оно не нулевое, представляет ссылку на другой из первых типов элементарных структур данных и представляет дугу в пределах пути структуры данных в виде графа. Весовое значение дуги 1826 представляет собой весовое значение, присвоенное дуге, представленной содержимым ссылки на путь 1824. Весовое значение дуги обеспечивает указание на вероятность того, что дуга представляет верную гипотезу группировки символов для математического выражения. В текущем представленном способе реализации чем ниже весовое значение, тем выше вероятность гипотезы. Конечно, в альтернативных способах реализации можно использовать другие условные обозначения. Индекс варианта символа 1828 указывает на то, какой из вариантов символа в столбце вариантов символа, таком как в столбцец 1808, описанном выше, встречается в конкретном пути. Например, индекс варианта символа со значением «0» указывает на то, что в пути встречается символ первого ряда вариантов, представленный одним или более элементарными структурами данных второго типа, как описано ниже. В структуре данных в виде графа 1816, представленной на Фиг. 18А, все верхние элементарные структуры данных 1830-1844 представляют собой элементарную структуру первого типа, проиллюстрированную на вставке 1818. Они представляют возможные узлы и дуги одного или более путей, построенных для множества символов.
Второй тип элементарной структуры данных используется для представления вариантов символа. Например, элементарная структура данных 1846 представляет вариант символа δ 1814. Этот второй тип элементарной структуры данных проиллюстрирован на вставке 1848. Второй тип элементарной структуры данных также включает ссылку на структуру данных 1850, представление знака или символа 1852, весовое значение по OCR 1854, указывающее на вероятность того, что вариант символа фактически представляет соответствующий символ математического выражения или фрагмента выражения, и ссылку на символьную структуру данных, или S-ссылку, 1856, которая позволяет связывать элементарные структуры данных второго типа для образования столбцов, например, связанные структуры данных 1858 и 1846 образуют столбец 1808 в проиллюстрированном выше множестве вариантов символа 1804. Кроме того, во втором типе элементарной структуры данных могут храниться многие другие значения, включая уровень рекурсивного разбиения на блоки, на котором был распознан символ, положение, информацию о типе и размере шрифта символа, а также другую такую информацию, которую можно сделать доступной в процессе применения OCR-способов.
На Фиг. 18В проиллюстрирован первый возможный путь, соответствующий выражению или фрагменту выражения 1802, представленного на Фиг. 18А. Путь указан изогнутыми стрелками, такими как изогнутая стрелка 1860 в выражении в верхней части Фиг. 18В 1802. Каждая дуга отмечена заключенным в кружок целым числом. Каждая дуга представляет группу из одного или более вариантов символа, которые вместе представляют осмысленную группировку символов в пределах математического выражения. Например, первая дуга 1860 указывает на то, что символы «1», «0» и «0» вместе представляют целое число 100. Нижнее выражение 1862 на Фиг. 18В указывает на математическую интерпретацию пути, представленного на Фиг. 18В. Точки, такие как точка 1864, введены для указания на подразумеваемое умножение. Следует отметить, что в пути, представленном на Фиг. 18В, из пути для символов 1866 и 1868 выбраны вторые варианты символов. На Фиг. 18В к подструктурам пути в пределах первого типа элементарных структур данных были добавлены значения, представляющие путь, проиллюстрированный дугами, добавленными к выражению 1802. Например, дуга 1860 представлена ссылкой, которая сохранена в ссылке на путь 1870, на элементарную структуру данных 1833. Весовое значение данной дуги 15 (1872 на Фиг. 18В) сохранено в поле весового значения подструктуры ссылки на путь. Указатель 0 (1874 на Фиг. 18В) указывает на то, что в пути используется первый вариант символа из связанного списка элементарных структур данных второго типа, на который ссылается ссылка на структуру данных. Как представлено выражением 1876 в нижней части Фиг. 18В, весовое значение пути вычисляется как сумма весовых значений дуги для дуг пути и в случае пути, проиллюстрированного на Фиг. 18В, имеет числовое значение 67.
На Фиг. 18С проиллюстрирован второй возможный путь для выражения 1802, изображенного на Фиг. 18А. Данный путь имеет четыре дуги, проиллюстрированные изогнутыми стрелками, такими как изогнутая стрелка 1878. На Фиг. 18С для иллюстрации используются такие же условные обозначения, что и на Фиг. 18В. Полям в пределах подструктур пути в элементарных структурах данных первого типа структуры данных в виде графа 1816 присваиваются значения, представляющие данный второй путь. Весовое значение второго пути представлено выражением 1880 в нижней части Фиг. 18С и имеет значение 36. Следует отметить, что данный второй путь можно считать правильной группировкой символов для математического выражения 1802 на Фиг. 18А. Первая дуга 1878 указывает на группировку символов, представляющих целое число 100, вторая дуга 1882 представляет набор символов «Sin(a+b)», который представляет собой функцию синусаот суммы a+b, третья дуга 1884 представляет собой символ умножения, а четвертая дуга 1886 представляет группу символов «c2».
На Фиг. 19 представлены результаты анализа в форме дерева, сгенерированные при рекурсивном разбиении на блоки, исходно представленном на Фиг. 16В, с дугами корректного пути для математического выражения 1406, изображенного на Фиг. 14А. Корректный путь включает первую дугу 1902 для
Figure 00000003
, вторую дугу 1904 для знака равенства, третью дугу 1906 для первой матрицы, четвертую дугу 1908 для второй матрицы и пятую дугу 1910 для третьей матрицы.
По заданному выражению можно построить большое количество возможных путей. Однако, как описано выше, можно применять множество типов эвристических способов и способов построения для порождения лишь относительного небольшого числа потенциально возможных путей для последовательности распознанных символов. Например, последовательность десятичных цифр, такая как «100», с высокой вероятностью представляет одно целое число, а не отдельные десятичные цифры. В качестве другого примера последовательность символов «Sin» может быть распознана как распространенное сокращение для функции синуса путем нахождения «Sin» в словаре общеизвестных математических функций. Многие символы могут встречаться парами с заключенными между ними фрагментами выражений, включая круглые скобки и квадратные скобки. Путям, в которых данные пары символов сгруппированы одной дугой, могут присваиваться подходящие весовые значения, поскольку они с высокой вероятностью указывают на вложенные фрагменты выражений. Многие из путей для фрагментов выражений, порожденных во время рекурсивного разбиения на блоки, могут быть напрямую соотнесены с деревьями анализа математического выражения, и такие соотнесения могут обеспечивать основу для мощных эвристических способов выбора корректных потенциально возможных путей. Размер шрифта и положение символа зачастую указывают на подстрочные и надстрочные выражения и обеспечивают дополнительную ценную эвристическую информацию для распознавания надстрочных и подстрочных выражений в математических выражениях. Аналогичные эвристические способы можно использовать для распознавания пределов определенных интегралов и пределов суммирования. Уровень рекурсии при разбиении на блоки, на котором распознан символ, также может служить хорошим указанием на логический уровень фрагмента выражения в пределах математического выражения. Весовые значения, связанные с дугами, вычисляются на основе эвристических способов, использованных для порождения дуг, а также на основе весовых значений, связанных с вариантами символа, охваченными дугами.
Хотя настоящее изобретение описано в отношении конкретных вариантов реализации, предполагается, что настоящее изобретение не ограничено данными вариантами реализации. Специалистам в данной области будут очевидны модификации в пределах сущности настоящего изобретения. Например, любой из множества способов обработки изображений и фрагментов изображений математических выражений, к которым относится настоящий документ, можно получить путем варьирования любого из множества параметров конфигурации и способов реализации, включая язык программирования, аппаратную платформу, операционную систему, структуры управления, модульную организацию, структуры данных и другие такие параметры. В разных способах реализации можно использовать разные типы рекурсивного разложения, генерирующие разные типы структур поддеревьев для различных группировок математических символов. Можно использовать множество типов узловых структур данных и кодировок дерева. В некоторых способах реализации вместо построения иерархического дерева информация, необходимая для порождения гипотезы, может передаваться в качестве параметров в рекурсивные вызовы и, следовательно, может временно храниться в стеке, а не в структуре данных в форме дерева. Для представления в цифровом виде математического выражения, полученного при разложении на символы изображения или фрагмента изображения, содержащего представление математического выражения, можно использовать любую из множества подсистем электронного представления.
Следует понимать, что описанные ранее варианты осуществления предоставлены для того, чтобы позволить любому специалисту в данной области реализовать или использовать настоящее изобретение. Специалистам в данной области будут очевидны различные возможные модификации этих вариантов осуществления, причем общие принципы, описанные в настоящем описании, могут применяться к другим вариантам осуществления без отступления от сущности или объема изобретения. Таким образом, настоящее изобретение не ограничено показанными в настоящем описании вариантами осуществления, но должно соответствовать наиболее широкому объему задач, соответствующих принципам и инновационным элементам, описанным в настоящем документе.

Claims (20)

1. Система оптического распознавания символов, содержащая:
один или более процессоров;
один или более модулей памяти; и
компьютерные команды, хранящиеся в одном или более из одного или более модулей памяти, которые, будучи исполненными одним или более из одного или более процессоров, управляют системой оптического распознавания символов для обработки изображения, содержащего математическое выражение, путем
разбиения на блоки изображения, содержащего математическое выражение, и последующего оптического распознавания блоков для разложения изображения математического выражения на упорядоченное множество вариантов оптического распознавания символов, где множество вариантов оптического распознавания символа упорядочено согласно весовому значению по OCR,
выбора наиболее вероятного пути на основе весового значения для пути среди потенциально возможных путей, где путь соответствует группировке символов на изображении математического выражения и упорядоченному множеству вариантов распознавания символов на данном изображении и,
использования наиболее вероятного пути и упорядоченного множества вариантов распознавания символов для порождения представления в цифровом виде математического выражения, эквивалентного математическому выражению, которое содержится на изображении, где наиболее вероятный путь, отобранный на основе весового значения, содержит информацию о группировке символов и вариантах их распознавания, и
сохранения представленного в цифровом виде математического выражения в одном или более из одного или более модулей памяти.
2. Система оптического распознавания символов по п. 1, в которой применение разбиения на блоки к изображению, содержащему математическое выражение, для разложения изображения на упорядоченное множество вариантов распознавания символов дополнительно содержит:
установление указания на направление разбиения изображения на блоки в качестве указания на горизонтальное разбиение на блоки, где установление указания на направления разбиения основано на выборе среди потенциальных границ разбиения с изменением направлений линии потенциальной границы;
горизонтальное разбиение изображения на фрагменты изображения на первом уровне; и
рекурсивно
для каждого фрагмента изображения на текущем уровне
применение одного или более способов распознавания символов к текущему рассматриваемому фрагменту изображения, и,
если с помощью одного или более способов распознавания символов не удается обнаружить фрагмент изображения в качестве фрагмента изображения, содержащего один символ, установление указания на направление разбиения на блоки, противоположное текущему направлению разбиения на блоки, представленному указанием на направление разбиения на блоки, продвижение указания текущего уровня и рекурсивное применение разбиения на блоки к фрагменту изображения с использованием указания на направление разбиения на блоки и указания текущего уровня.
3. Система оптического распознавания символов по п. 1, в которой каждый потенциально возможный путь, соответствующий упорядоченному множеству вариантов распознавания символа, содержит одну или более дуг, причем каждая дуга охватывает подмножество упорядоченного множества вариантов распознавания символа, где подмножество упорядоченного множества вариантов распознавания символа представляет группу из одного или более вариантов символа, которые вместе представляют осмысленную группировку символов в пределах математического выражения.
4. Система оптического распознавания символов по п. 3, в которой с каждой дугой каждого потенциально возможного пути связано весовое значение.
5. Система оптического распознавания символов по п. 4, в которой весовое значение для каждого потенциально возможного пути вычисляется как сумма весовых значений, связанных с дугами потенциально возможного пути.
6. Система оптического распознавания символов по п. 5,
в которой меньшему весовому значению, вычисленному для потенциального пути, соответствует более вероятный потенциально возможный путь; и
в которой выбор наиболее вероятного пути среди потенциально возможных путей, соответствующих упорядоченному множеству вариантов символа, дополнительно включает выбор потенциально возможного пути, имеющего наименьшее вычисленное весовое значение, в качестве наиболее вероятного пути.
7. Система оптического распознавания символов по п. 5,
в которой большему весовому значению, вычисленному для потенциально возможного пути, соответствует более вероятный потенциально возможный путь; и
в которой выбор наиболее вероятного пути среди потенциально возможных путей, соответствующих упорядоченному множеству вариантов символа, дополнительно включает выбор потенциально возможного пути, имеющего наибольшее вычисленное весовое значение, в качестве наиболее вероятного пути.
8. Система оптического распознавания символов по п. 1, в которой разбиение на блоки применяется к изображению или фрагменту изображения путем:
обнаружения белых полос с направлениями, совпадающими с направлением, перпендикулярным направлению разбиения на блоки, или находящимися в пределах порогового углового смещения относительно направления, перпендикулярного направлению разбиения на блоки;
соединения перекрывающихся белых полос во множестве обнаруженных белых полос для генерирования множества неперекрывающихся белых полос; и
использования неперекрывающихся белых полос в качестве границ блока для разбиения изображения или фрагмента изображения на два или более блоков вдоль направления разбиения на блоки.
9. Система оптического распознавания символов по п. 8, в которой каждая белая полоса с направлениями, совпадающими с направлением, перпендикулярным направлению разбиения на блоки, или находящимися в пределах порогового углового смещения относительно направления, перпендикулярного направлению разбиения на блоки, дополнительно содержит:
полосу с параллельными сторонами, причем стороны имеют направления, совпадающие с углом пересечения с указанным направлением разбиения на блоки, которое охватывает изображение или фрагмент изображения, содержащий количество пикселей меньшее порогового количества пикселей или площадь меньшую порогового значения площади, соответствующей символам в пределах изображения.
10. Система оптического распознавания символов по п. 8, в которой соединение перекрывающихся белых полос во множестве обнаруженных белых полос для генерирования множества неперекрывающихся белых полос дополнительно содержит:
обнаружение одной или более групп из двух или более белых полос, которые взаимно пересекаются или каждая из которых отделена от другой белой полосы из группы расстоянием меньше порогового расстояния;
соединение пересекающихся белых полос из каждой группы, имеющих одинаковое направление; и
выбор из каждой группы белой полосы, имеющей направление, совпадающее с направлением одной или более белых полос с наибольшей общей площадью в группе.
11. Способ для обработки изображения документа, содержащего математическое выражение, реализуемый с помощью одного или более процессоров, исполняющих программу, хранящуюся в одном или более модулях памяти системы оптического распознавания символов, которые преобразует изображение или фрагмент изображения, содержащий математическое выражение, в математическое выражение в цифровом виде, эквивалентное математическому выражению, которое содержится на изображении или фрагменте изображения, причем способ включает:
разбиение на блоки изображения, содержащего математическое выражение, и последующее оптическое распознавание блоков для разложения изображения математического выражения на упорядоченное множество вариантов оптического распознавания символов, где множество вариантов оптического распознавания символа упорядочено согласно весовому значению по OCR,
выбор наиболее вероятного пути на основе весового значения для пути среди потенциально возможных путей, где путь соответствует группировке символов на изображении математического выражения и упорядоченному множеству вариантов распознавания символов на данном изображении и,
использование наиболее вероятного пути и упорядоченного множества вариантов распознавания символов для порождения представления в цифровом виде математического выражения, эквивалентного математическому выражению, которое содержится на изображении, где наиболее вероятный путь, отобранный на основе весового значения, содержит информацию о группировке символов и вариантах их распознавания, и
сохранение представленного в цифровом виде математического выражения в одном или более из одного или более модулей памяти.
12. Способ по п. 11, в котором применение разбиения на блоки к изображению, содержащему математическое выражение, для разложения изображения на упорядоченное множество вариантов распознавания символа дополнительно содержит:
установление указания на направление разбиения изображения на блоки в качестве указания на горизонтальное разбиение на блоки, где установление указания на направления разбиения основано на выборе среди потенциальных границ разбиения с изменением направлений линии потенциальной границы;
горизонтальное разбиение изображения на фрагменты изображения на первом уровне; и
рекурсивно
для каждого фрагмента изображения на текущем уровне
применение одного или более способов распознавания символов к текущему рассматриваемому фрагменту изображения, и,
если с помощью одного или более способов распознавания символов не удается обнаружить фрагмент изображения в качестве фрагмента изображения, содержащего один символ, установление указания на направление разбиения на блоки, противоположное текущему направлению разбиения на блоки, представленному указанием на направление разбиения на блоки, продвижение указания текущего уровня и рекурсивное применение разбиения на блоки к фрагменту изображения с использованием указания на направление разбиения на блоки и указания текущего уровня.
13. Способ по п. 11, в котором каждый потенциально возможный путь, соответствующий упорядоченному множеству вариантов распознавания символа, содержит одну или более дуг, причем каждая дуга охватывает подмножество упорядоченного множества вариантов распознавания символа, где подмножество упорядоченного множества вариантов символа представляет группу из одного или более вариантов символа, которые вместе представляют осмысленную группировку символов в пределах математического выражения.
14. Способ по п. 13,
в котором с каждой дугой каждого потенциально возможного пути связано весовое значение; и
в котором весовое значение каждого потенциально возможного пути вычисляется как сумма весовых значений, связанных с дугами потенциально возможного пути.
15. Способ по п. 14,
в котором меньшему весовому значению, вычисленному для потенциально возможного пути, соответствует более вероятный потенциально возможный путь; и
в котором выбор наиболее вероятного пути среди потенциально возможных путей, соответствующих упорядоченному множеству вариантов символа, дополнительно включает выбор потенциально возможного пути, имеющего наименьшее вычисленное весовое значение, в качестве наиболее вероятного пути.
16. Способ по п. 14,
в котором большему весовому значению, вычисленному для потенциально возможного пути, соответствует более вероятный потенциально возможный путь; и
в котором выбор наиболее вероятного пути среди потенциально возможных путей, соответствующих упорядоченному множеству вариантов символа, дополнительно включает выбор потенциально возможного пути, имеющего наибольшее вычисленное весовое значение, в качестве наиболее вероятного пути.
17. Способ по п. 11, в котором разбиение на блоки применяется к изображению или фрагменту изображения путем:
обнаружения белых полос с направлениями, совпадающими с направлением, перпендикулярным направлению разбиения на блоки, или находящимися в пределах порогового углового смещения относительно направления, перпендикулярного направлению разбиения на блоки;
соединения перекрывающихся белых полос во множестве обнаруженных белых полос для генерирования множества неперекрывающихся белых полос; и
использования неперекрывающихся белых полос в качестве границ блока для разбиения изображения или фрагмента изображения на два или более блоков вдоль направления разбиения на блоки.
18. Способ по п. 17, в котором каждая белая полоса с направлениями, совпадающими с направлением, перпендикулярным направлению разбиения на блоки, или находящимися в пределах порогового углового смещения относительно направления, перпендикулярного направлению разбиения на блоки, дополнительно содержит:
полосу с параллельными сторонами, причем стороны имеют направления, совпадающие с углом пересечения с указанным направлением разбиения на блоки, которое охватывает изображение или фрагмент изображения, содержащий количество пикселей меньшее порогового количества пикселей или площадь меньше порогового значения площади, соответствующей символам в пределах изображения.
19. Способ по п. 17, в котором соединение перекрывающихся белых полос во множестве обнаруженных белых полос для генерирования множества неперекрывающихся белых полос дополнительно содержит:
обнаружение одной или более групп из двух или более белых полос, которые взаимно пересекаются или каждая из которых отделена от другой белой полосы из группы расстоянием меньше порогового расстояния;
соединение пересекающихся белых полос из каждой группы, имеющих одинаковое направление; и
выбор из каждой группы белой полосы, имеющей направление, совпадающее с направлением одной или более белых полос с наибольшей общей площадью в группе.
20. Один или более модулей памяти системы оптического распознавания символов, хранящие компьютерные команды,
дополнительно включающей один или более процессоров, которые, будучи исполненными одним или более из одного или более процессоров, преобразуют изображение или фрагмент изображения, содержащий математическое выражение, в представленное в цифровом виде математическое выражение, эквивалентное математическому выражению, которое содержится на изображении или фрагменте изображения, путем:
разбиения на блоки изображения, содержащего математическое выражение, и последующего оптического распознавания блоков для разложения изображения математического выражения на упорядоченное множество вариантов оптического распознавания символов, где множество вариантов оптического распознавания символа упорядочено согласно весовому значению по OCR,
выбора наиболее вероятного пути на основе весового значения для пути среди потенциально возможных путей, где путь соответствует группировке символов на изображении математического выражения и упорядоченному множеству вариантов распознавания символов на данном изображении и,
использования наиболее вероятного пути и упорядоченного множества вариантов распознавания символов для порождения представления в цифровом виде математического выражения, эквивалентного математическому выражению, которое содержится на изображении, где наиболее вероятный путь, отобранный на основе весового значения, содержит информацию о группировке символов и вариантах их распознавания, и
сохранения представленного в цифровом виде математического выражения в одном или более из одного или более модулей памяти.
RU2014135842/08A 2014-09-02 2014-09-02 Способы и системы обработки изображений математических выражений RU2596600C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014135842/08A RU2596600C2 (ru) 2014-09-02 2014-09-02 Способы и системы обработки изображений математических выражений
US14/679,219 US9858506B2 (en) 2014-09-02 2015-04-06 Methods and systems for processing of images of mathematical expressions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014135842/08A RU2596600C2 (ru) 2014-09-02 2014-09-02 Способы и системы обработки изображений математических выражений

Publications (2)

Publication Number Publication Date
RU2014135842A RU2014135842A (ru) 2016-03-20
RU2596600C2 true RU2596600C2 (ru) 2016-09-10

Family

ID=55402856

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014135842/08A RU2596600C2 (ru) 2014-09-02 2014-09-02 Способы и системы обработки изображений математических выражений

Country Status (2)

Country Link
US (1) US9858506B2 (ru)
RU (1) RU2596600C2 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2640296C1 (ru) * 2016-12-06 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения пригодности документа для оптического распознавания символов (ocr) на сервере
RU2680765C1 (ru) * 2017-12-22 2019-02-26 Общество с ограниченной ответственностью "Аби Продакшн" Автоматизированное определение и обрезка неоднозначного контура документа на изображении

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014204338A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llc Methods and systems that use a hierarchically organized data structure containing standard feature symbols in order to convert document images to electronic documents
JP6355908B2 (ja) * 2013-09-30 2018-07-11 国立大学法人広島大学 シンボル認識装置および車両用標識認識装置
US11144777B2 (en) * 2016-06-30 2021-10-12 Rakuten Group, Inc. Image processing apparatus, image processing method, and image processing program for clipping images included in a large image
US20190139280A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Augmented reality environment for tabular data in an image feed
CN110059628A (zh) * 2019-04-18 2019-07-26 广东小天才科技有限公司 图像识别方法、装置、设备及存储介质
CN117473096B (zh) * 2023-12-28 2024-03-15 江西师范大学 一种融合latex标签的知识点标注方法及其模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256770A (ja) * 2002-03-06 2003-09-12 Toshiba Corp 数式認識装置および数式認識方法
US7181068B2 (en) * 2001-03-07 2007-02-20 Kabushiki Kaisha Toshiba Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
US7561737B2 (en) * 2004-09-22 2009-07-14 Microsoft Corporation Mathematical expression recognition
US7885456B2 (en) * 2007-03-29 2011-02-08 Microsoft Corporation Symbol graph generation in handwritten mathematical expression recognition
RU2421810C2 (ru) * 2005-07-01 2011-06-20 Майкрософт Корпорейшн Грамматический разбор визуальных структур документа

Family Cites Families (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4864503A (en) 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
EP0361570B1 (en) 1988-09-15 1997-08-06 Océ-Nederland B.V. A system for grammatically processing a sentence composed in natural language
SE466029B (sv) 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
NL8900587A (nl) 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
JP3114181B2 (ja) 1990-03-27 2000-12-04 株式会社日立製作所 異言語交信用翻訳方法およびシステム
US5301109A (en) 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5418717A (en) 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5175684A (en) 1990-12-31 1992-12-29 Trans-Link International Corp. Automatic text translation and routing system
US5497319A (en) 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5559693A (en) 1991-06-28 1996-09-24 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US5475587A (en) 1991-06-28 1995-12-12 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
GB9209346D0 (en) 1992-04-30 1992-06-17 Sharp Kk Machine translation system
US6278967B1 (en) 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6760695B1 (en) 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
ES2143509T3 (es) 1992-09-04 2000-05-16 Caterpillar Inc Sistema integrado de edicion y traduccion.
US5678051A (en) 1992-12-24 1997-10-14 Matsushita Electric Industrial C., Ltd. Translating apparatus with special display mode for supplemented words
ES2101613B1 (es) 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
NL9300310A (nl) 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US5873056A (en) 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5510981A (en) 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5752051A (en) 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
JP3960562B2 (ja) 1994-09-30 2007-08-15 株式会社東芝 機械翻訳の学習方法
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JPH08101837A (ja) 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
GB2295470A (en) 1994-11-28 1996-05-29 Sharp Kk Machine translation system
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
JP3066274B2 (ja) 1995-01-12 2000-07-17 シャープ株式会社 機械翻訳装置
US5737617A (en) 1995-06-06 1998-04-07 International Business Machines Corporation Method and system for English text analysis
EP0834139A4 (en) 1995-06-07 1998-08-05 Int Language Engineering Corp COMPUTER-ASSISTED TRANSLATION TOOLS
US5721938A (en) 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US5794177A (en) 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
AU6849196A (en) 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5787410A (en) 1996-02-20 1998-07-28 Oracle Corporation Method and apparatus for storing and retrieving data in multiple languages simultaneously using a fully-populated sub-table
US6470306B1 (en) 1996-04-23 2002-10-22 Logovista Corporation Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US6161083A (en) 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US6233544B1 (en) 1996-06-14 2001-05-15 At&T Corp Method and apparatus for language translation
US5884247A (en) 1996-10-31 1999-03-16 Dialect Corporation Method and apparatus for automated language translation
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6233546B1 (en) 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6356864B1 (en) 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US6463404B1 (en) 1997-08-08 2002-10-08 British Telecommunications Public Limited Company Translation
US6081774A (en) 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US6182028B1 (en) 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6260008B1 (en) 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
ITUD980032A1 (it) 1998-03-03 1998-06-03 Agostini Organizzazione Srl D Sistema di traduzione a macchina e rispettivo tradsistema di traduzione a macchina e rispettivo traduttore che comprende tale sistema uttore che comprende tale sistema
US7020601B1 (en) 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
EP0962873A1 (en) 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6243670B1 (en) 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6285978B1 (en) 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6275789B1 (en) 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6381598B1 (en) 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
US6243689B1 (en) 1998-12-29 2001-06-05 Robert G. Norton System and method for authorizing electronic funds transfer at a point of sale
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6901402B1 (en) 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6393389B1 (en) 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6721697B1 (en) 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6928448B1 (en) 1999-10-18 2005-08-09 Sony Corporation System and method to match linguistic structures using thesaurus information
US6330530B1 (en) 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
US6778949B2 (en) 1999-10-18 2004-08-17 Sony Corporation Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
CN1302030B (zh) 1999-12-24 2010-04-21 纽昂斯通讯公司 词义消歧的机器翻译方法和***
JP2003529845A (ja) 2000-03-31 2003-10-07 アミカイ・インコーポレイテッド ネットワーク経由の多言語翻訳を提供する方法と装置
US20010029442A1 (en) 2000-04-07 2001-10-11 Makoto Shiotsu Translation system, translation processing method and computer readable recording medium
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
JP2004501429A (ja) 2000-05-11 2004-01-15 ユニバーシティ・オブ・サザン・カリフォルニア 機械翻訳技法
US6965857B1 (en) 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
US6622123B1 (en) 2000-06-23 2003-09-16 Xerox Corporation Interactive translation system and method
US6986104B2 (en) 2000-06-26 2006-01-10 Silver Creek Systems, Inc. Method and apparatus for normalizing and converting structured content
US7085708B2 (en) 2000-09-23 2006-08-01 Ravenflow, Inc. Computer system with natural language to machine language translator
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7263488B2 (en) 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
KR20020045343A (ko) 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
US6983240B2 (en) 2000-12-18 2006-01-03 Xerox Corporation Method and apparatus for generating normalized representations of strings
US7860706B2 (en) 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US7050964B2 (en) 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
CA2464932A1 (en) 2001-10-29 2003-05-08 Stephen Clifford Appleby Machine translation
EP1306775A1 (en) 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
JP3906356B2 (ja) 2001-12-27 2007-04-18 独立行政法人情報通信研究機構 構文解析方法及び装置
US7177799B2 (en) 2002-01-14 2007-02-13 Microsoft Corporation Semantic analysis system for interpreting linguistic structures output by a natural language linguistic analysis system
AT6920U1 (de) 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
JP2003242136A (ja) 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法
AU2003228288A1 (en) 2002-03-04 2003-09-22 University Of Southern California Sentence generator
JP4181327B2 (ja) 2002-03-06 2008-11-12 株式会社東芝 数式認識装置および数式認識方法
US7526424B2 (en) 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
EP1351158A1 (en) 2002-03-28 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company Machine translation
EP1349079A1 (en) 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7490034B2 (en) 2002-04-30 2009-02-10 Microsoft Corporation Lexicon with sectionalized data and method of using the same
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7356457B2 (en) 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
KR100515641B1 (ko) 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP4410486B2 (ja) 2003-05-12 2010-02-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳装置及びプログラム
US7475390B2 (en) 2004-01-12 2009-01-06 International Business Machines Corporation System and method for automatic natural language translation during information transfer
WO2005020093A1 (en) 2003-08-21 2005-03-03 Idilia Inc. Internet searching using semantic disambiguation and expansion
US7475015B2 (en) 2003-09-05 2009-01-06 International Business Machines Corporation Semantic language modeling and confidence measurement
US7739102B2 (en) 2003-10-08 2010-06-15 Bender Howard J Relationship analysis system and method for semantic disambiguation of natural language
US7478033B2 (en) 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7949590B2 (en) 2004-04-16 2011-05-24 Goldman Sachs & Co. Apparatus, method and system for designing and trading macroeconomic investment views
US7596485B2 (en) 2004-06-30 2009-09-29 Microsoft Corporation Module for creating a language neutral syntax representation using a language particular syntax tree
US7929767B2 (en) 2004-09-22 2011-04-19 Microsoft Corporation Analyzing subordinate sub-expressions in expression recognition
US7561739B2 (en) 2004-09-22 2009-07-14 Microsoft Corporation Analyzing scripts and determining characters in expression recognition
JP2006099296A (ja) 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム
US7970600B2 (en) 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US7200550B2 (en) 2004-11-04 2007-04-03 Microsoft Corporation Projecting dependencies to generate target language dependency structure
JP4263181B2 (ja) 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4050755B2 (ja) 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4064413B2 (ja) 2005-06-27 2008-03-19 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
GB2428508B (en) 2005-07-15 2009-10-21 Toshiba Res Europ Ltd Parsing method
JP4047885B2 (ja) 2005-10-27 2008-02-13 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CA2669236C (en) 2005-11-16 2016-05-24 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US8214199B2 (en) 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8078450B2 (en) 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8009915B2 (en) 2007-04-19 2011-08-30 Microsoft Corporation Recognition of mathematical expressions
US8830241B1 (en) * 2009-11-30 2014-09-09 Amazon Technologies, Inc. Image conversion of text-based images
US8300949B2 (en) 2010-05-18 2012-10-30 Sharp Laboratories Of America, Inc. Edge detection technique having improved feature visibility
US20140115447A1 (en) * 2012-10-22 2014-04-24 Apple Inc. Centering Mathematical Objects in Documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181068B2 (en) * 2001-03-07 2007-02-20 Kabushiki Kaisha Toshiba Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
JP2003256770A (ja) * 2002-03-06 2003-09-12 Toshiba Corp 数式認識装置および数式認識方法
US7561737B2 (en) * 2004-09-22 2009-07-14 Microsoft Corporation Mathematical expression recognition
RU2421810C2 (ru) * 2005-07-01 2011-06-20 Майкрософт Корпорейшн Грамматический разбор визуальных структур документа
US7885456B2 (en) * 2007-03-29 2011-02-08 Microsoft Corporation Symbol graph generation in handwritten mathematical expression recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2640296C1 (ru) * 2016-12-06 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения пригодности документа для оптического распознавания символов (ocr) на сервере
RU2680765C1 (ru) * 2017-12-22 2019-02-26 Общество с ограниченной ответственностью "Аби Продакшн" Автоматизированное определение и обрезка неоднозначного контура документа на изображении

Also Published As

Publication number Publication date
RU2014135842A (ru) 2016-03-20
US9858506B2 (en) 2018-01-02
US20160063323A1 (en) 2016-03-03

Similar Documents

Publication Publication Date Title
RU2596600C2 (ru) Способы и системы обработки изображений математических выражений
RU2631168C2 (ru) Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа
RU2598300C2 (ru) Способы и системы автоматического распознавания символов с использованием дерева решений
RU2643465C2 (ru) Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
US10339378B2 (en) Method and apparatus for finding differences in documents
RU2640322C2 (ru) Способы и системы эффективного автоматического распознавания символов
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
US9014479B2 (en) Method and system for text-image orientation
US20160034441A1 (en) Systems, apparatuses and methods for generating a user interface
US9633256B2 (en) Methods and systems for efficient automated symbol recognition using multiple clusters of symbol patterns
US8483499B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
US9589185B2 (en) Symbol recognition using decision forests
JPH0713995A (ja) 自動テキスト特徴決定装置
RU2571616C1 (ru) Способ и система оптического распознавания символов, которые сокращают время обработки изображений, потенциально не содержащих символы
RU2626656C2 (ru) Способ и система определения ориентации изображения текста
RU2625533C1 (ru) Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
RU2625020C1 (ru) Устройства и способы, которые порождают параметризованные символы для преобразования изображений документов в электронные документы
RU2582064C1 (ru) Способы и системы эффективного автоматического распознавания символов с использованием леса решений
US20050238235A1 (en) Run length based connected components and contour following for enhancing the performance of circled region extraction algorithm
CN112801046B (zh) 图像处理方法、装置、电子设备和计算机存储介质
JP4409678B2 (ja) 罫線抽出方式
KR100470346B1 (ko) 이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를고속으로 입력 및 교정하는 방법
JP2582611B2 (ja) マルチフオント辞書の作成法
JPH03268181A (ja) 文書読み取り装置
RU2519445C2 (ru) Способ алфавитного представления изображения

Legal Events

Date Code Title Description
QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311