RU2520407C1

RU2520407C1 - Способ и система улучшения текста при цифровом копировании печатных документов

Info

Publication number: RU2520407C1
Application number: RU2012148763/08A
Authority: RU
Inventors: Илья Васильевич Курилин; Илья Владимирович Сафонов
Original assignee: Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд."
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2014-06-27
Also published as: RU2012148763A; KR20140063378A

Abstract

Изобретение относится к средствам копирования текстовых документов. Техническим результатом является уменьшение степени деградации текста при многократном копировании печатного документа. В способе сканируют печатный документ, получают сканированное изображение, выявляют связные области символов, определяют характерные цвета для групп связных областей символов, аппроксимируют контуры указанных областей с помощью последовательностей отрезков линий и сегментов кривых, выполняют растеризацию аппроксимированных контуров с заполнением их внутренней области соответствующими характерными цветами, печатают модифицированное изображение. 2 н. и 6 з.п. ф-лы, 11 ил.

Description

Заявляемое изобретение относится к области обработки цифровой информации, а более конкретно - к способам цифрового копирования печатных документов.

Из практики известно, что копирование печатных документов приводит к ухудшению качества получаемой копии в сравнении с оригиналом, особенно для текста. Наиболее заметен этот эффект при многократном последовательном копировании, когда полученная на предшествующем этапе копия копируется еще раз. В качестве основных причин ухудшения качества цветного и черно-белого текста, можно назвать следующие: размытие изображения в процессе сканирования, растрирование (halftoning) текстовых областей в процессе печати и появление эффекта цветной окантовки (color fringing). В результате процесса копирования, контрастный четкий текст на исходном печатном документе заменяется на менее четкую, растрированную копию с изменившимся цветом.

Наиболее распространенным подходом к решению проблемы улучшения качества копируемого документа считается обнаружение на сканированном изображении таких категорий визуальной информации, как текст, растрированные фотографии и фон. Результатом такого обнаружения является выделение областей изображения (связных групп пикселей), которым в соответствие ставится одна из выбранных категорий. Далее, обнаруженные области на сканированном изображении обрабатываются различным, наиболее подходящим для данной категории области способом. Например, для областей текста часто применяются методы подчеркивания границ и локального улучшения контраста. Для растрированных фотографий применяется адаптивное сглаживание. Однако подобные подходы имеют ряд недостатков, заметных на полученной копии, как, например: изменение цвета внутри символа, особенно заметное для маленьких по площади символов, нарушение формы символов в ходе многократного копирования исходного печатного документа и т.д.

Способ, описанный в патенте США №7557963 [1], касается одного из методов улучшения сканированного изображения для последующей печати его высококачественной копии. В частности, на сканированном изображении идентифицируются и размечаются области в соответствии с их предопределенными категориями: текст, изображение, граничные пиксели и фон. Далее, для каждой из выделенных областей выполняется ее улучшение в соответствии с категорией. Например, для области изображения, определенной как текст, может быть выполнено подчеркивание границ области за счет применения процедуры нечеткой маски (unsharp mask).

В патенте РФ №2308166 [2] раскрыт способ улучшения качества копии изображения путем предварительного сканирования объекта с низким разрешением, записи отсканированного изображения в память компьютера, определения параметров улучшения качества копии, сканирования с высоким разрешением изображения объекта с корректировкой посредством процессора обработки изображения с применением списка процедур и параметров улучшения качества копии.

Способ, описанный в патенте США №8,169,661 [3], предусматривает раздельную обработку цветных и черно-белых областей изображения, причем черно-белая часть изображения подвергается максимальному сжатию, за счет чего получают копию с высоким качеством и с малым размером файла.

Способ, раскрытый в патенте США №7177049 [4], предусматривает реконструирование цифрового изображения, включая обнаружение текста и его улучшение. Способ улучшения текста ориентирован на обработку черного текста на белом фоне, увеличивая резкость и контраст такого текста за счет перераспределения яркости между темными и светлыми пикселями в пределах предопределенной маски.

Наиболее близкими признаками к заявляемому изобретению обладает техническое решение, представленное в патенте США №7079686 [5], который описывает систему, основанную на классификации пикселей изображения печатного документа с последующим улучшением этого изображения в соответствии с результатами выполненной классификации. Для этого каждому пикселю изображения ставится в соответствие вектор признаков, на основе которого выполняется классификация. Дальнейшая обработка может включать в себя применения фильтра усиления резкости границ для пикселей, классифицированных как текст, и применение сглаживающего фильтра для пикселей, классифицированных как изображение.

Описанные выше патенты позволяют сделать текст на сканированном изображении более четким и резким. Однако значения пикселей в пределах текстовых символов остаются распределеными неравномерно. Более того, структура и форма символов, представленных в виде растровых массивов пикселей, нарушается при растрировании растровым процессором, что соответственно может приводить к искажению текста на результирующей копии.

Задача, на решение которой направлено заявляемое изобретение, состоит в том, что, бы разработать способ, позволяющий снизить степень деградации (нарушения формы и смещения цвета заполнения) текста в результате многократного копирования печатного документа и обеспечить воссоздание формы символов и цвета заполнения символов как можно ближе к оригиналу. Причем в первую очередь речь идет именно о тексте, поскольку в отношении других областей изображений могут успешно применяться подходы, отличающиеся от заявляемого.

Технический результат достигается за счет разработки усовершенствованного способа улучшения качества копий (или сохранения близкого к оригиналу качества) печатных документов при многократном копировании. При этом заявляемый способ улучшения текста при цифровом копировании печатных документов предусматривает выполнение следующих операций:

- сканируют печатный документ, получая сканированное изображение;

- выявляют на сканированном изображении связные области символов;

- определяют характерные цвета для групп связных областей символов;

- аппроксимируют контуры связных областей символов с помощью последовательностей отрезков линий и сегментов кривых;

- выполняют на сканированном изображении растеризацию аппроксимированных контуров с заполнением их внутренней области соответствующими характерными цветами;

- печатают модифицированное изображение.

Основными преимуществами заявляемого метода в сравнении с существующим уровнем техники являются:

Улучшение формы копируемого текста за счет векторизации его контура. Растрирование символов, представленных набором векторизованных контуров, позволяет обеспечить качество печати текста, близкое к исходному копируемому печатному документу. Это достигается за счет того, что векторизованный символ обладает, по сути, неограниченным разрешением и, соответственно, может предоставить для растрирования больше данных, чем содержится в сканированном изображении. Кроме того, большинство современных процессоров растровых изображений (RIP) поддерживают высококачественную печать векторной графики, представляя в этом случае напечатанный символ в виде объекта с четкими непрерывными границами.

- Равномерный и одинаковый цвет заполнения для групп символов, в том числе для символов малого размера. Это достигается за счет увеличения выборки для оценивания цвета путем группировки близкорасположенных символов и их дальнейшей кластеризации по цвету.

Таким образом, заявляемый способ включает пять этапов. На первом этапе выполняют сканирование копируемого печатного документа. На втором этапе осуществляют сегментацию сканированного изображения на две предопределенные категории: связные области символов и область фона. Области символов включают в себя текст, а также линии, таблицы и т.п. Область фона включает в себя белый или цветной фон, а также растрированные фотографии и рисунки. На третьем этапе выполняют группировку связных областей символов по предопределенным признакам и вычисляют характерные цвета для каждой из групп. На четвертом этапе выделяют контурные пиксели символов и осуществляют их аппроксимацию замкнутыми последовательностями векторных функций. На пятом этапе растрируют аппроксимированные контуры на сканированном изображении и заполняют их внутреннюю область соответствующим характерным цветом. В завершение, осуществляют печать модифицированного сканированного изображения.

Для реализации заявляемого способа разработана система улучшения текста при цифровом копировании печатных документов, которая включает в себя:

- сканирующий модуль, выполненный с возможностью сканирования исходного печатного документа и подачи на выходы сканированного изображения, причем один выход сканирующего модуля соединен с входом модуля сегментации, а второй выход сканирующего модуля соединен с входами модуля определения характерных цветов и модуля растрирования;

модуль сегментации текста, выполненный с возможностью создания маркерного бинарного изображения, определяющего текстовые и нетекстовые области на сканированном изображении поступающего на три выхода модуля сегментации текста, причем один выход модуля сегментации текста соединен со вторым входом модуля определения характерных цветов, второй выход модуля сегментации текста соединен с входом модуля векторизации, а третий выход модуля сегментации текста соединен с одним из четырех входов модуля растрирования;

- модуль определения характерных цветов, выполненный с возможностью выявления (обнаружения) групп связных областей символов, отличающихся цветом на величину, не более предопределенного значения, и с возможностью определения характерных цветов для указанных групп; выход модуля определения характерных цветов соединен с одним из четырех входов модуля растрирования;

- модуль векторизации, выполненный с возможностью аппроксимации контуров связных областей символов на маркерном бинарном изображении с помощью последовательностей отрезков линий и сегментов кривых; выход модуля векторизации соединен с одним из четырех входов модуля растрирования;

- модуль растрирования, выполненный с возможностью растеризации на сканированном изображении аппроксимированных контуров с заполнением их внутренних областей соответствующими характерными цветами; выход модуля растрирования соединен с входом модуля печати;

- модуль печати, выполненный с возможностью печати модифицированного изображения.

Далее существо заявляемого изобретения поясняется с привлечением графических материалов.

Фиг.1. Иллюстрация улучшения копируемого текста заявляемым способом в сравнении с известным уровнем техники.

Фиг.2. Блок-схема основных этапов заявленного способа улучшения текста при цифровом копировании печатных документов.

Фиг.3. Блок-схема системы, реализующей способ улучшения текста при цифровом копировании печатных документов.

Фиг.4. Иллюстрация процесса выявления областей символов на сканированном изображении.

Фиг.5. Блок-схема проведения оценки характерных цветов для связных областей символов.

Фиг.6. Иллюстрация определения среднего цвета для отдельной связной области символа.

Фиг.7. Иллюстрация этапов объединения близкорасположенных областей символов в группу.

Фиг.8. Иллюстрация создания групп близкорасположенных связных области символов, отличающихся цветом на величину, не более предопределенного значения.

Фиг.9. Иллюстрация процесса кластеризации характерных цветов близкорасположенных областей символов.

Фиг.10. Блок-схема основных этапов векторизации контуров связных областей символов.

Фиг.11. Иллюстрация векторизации контуров связных областей символов.

Пример работы заявляемого изобретения в сравнении с известным уровнем техники проиллюстрирован на рисунке Фиг.1, где представлен фрагмент 102 сканированного текста, полученного путем сканирования исходного печатного документа с разрешением сканирования 300 точек на дюйм (dpi). Исходный печатный документ в данном случае получен посредством печати электронного документа с фрагментом 101 исходного текста, набранным в текстовом редакторе.

Фрагмент 103 текста получен с помощью традиционной процедуры копирования, соответствующей известному уровню техники. В данном случае процесс копирования на цифровом копире, известный из уровня техники, включает в себя выполнение следующих операций:

- сканируют печатный документ с предпочтительным разрешением копирования; результатом данного этапа является цифровое изображение печатного документа;

- подготавливают сканированное изображение к печати посредством осуществления необходимых преобразований, которые, например, могут включать в себя: повышение контраста сканированного изображения, гамма-коррекцию, трансформацию из цветового пространства RGB в CMYK, коррекцию цвета, растрирование и т.д.;

- печатают результирующее изображение на печатающем устройстве.

Фрагмент 104 текста иллюстрирует пример копирования печатного документа посредством реализации заявляемого способа. Последующие копии при традиционном копировании имеют еще более существенную деградацию фрагмента 105 текста по сравнению с результатом 106 копирования посредством предложенного способа.

Фиг.2 иллюстрирует основные этапы осуществления заявленного изобретения. На шаге 201 получают сканированное изображение копируемого печатного документа. Специалисту понятно, что для этой цели может быть использовано любое устройства, подходящее для захвата/регистрации или получения растрового изображения. Результатом указанного шага является цифровое изображение в виде массива пикселей. Каждый пиксель, в свою очередь, представлен триплетом RGB компонент для цветного изображения или одной компонентой для полутонового (в шкале серого) изображения. Сканированное изображение анализируется на шаге 202 для обнаружения связных областей символов, включающих в себя текстовые символы, линии, таблицы, и т.п. Остальные области изображения, не отнесенные к связным областям символов, относятся к фону, в том числе элементы растровой графики с текстурным или неоднородным заполнением, рисунки, растрированные фотографии и т.п. В данном случае под областью изображения понимается группа связных пикселей (точек) растрового изображения, локализованных в некоторой части сканированного изображения. На шаге 203 выполняют группировку связных областей символов по предопределенным признакам и определяют характерные цвета для каждой из найденных групп. Характерный цвет для группы связных областей символов подразумевает цвет заполнения, одинаковый для всех символов, входящих в группу, например, цвет всех символов параграфа или строки текста. На шаге 204 определяют контурные пиксели связных областей символов и осуществляют их аппроксимацию замкнутыми последовательностями отрезков прямых и сегментов кривых. На шаге 205 растрируют аппроксимированные контуры на сканированном изображении и заполняют их внутреннюю область соответствующим характерным цветом. В завершение осуществляют печать модифицированного сканированного изображения (шаг 206).

Заявляемый способ обеспечивает эффективное копирование печатных документов с точки зрения снижения величины деградации (нарушения формы и смещения цвета заполнения/заливки) символов в ходе копирования документа, особенно заметного в результате многократного копирования печатного документа. Указанный эффект сохранения формы символов достигается за счет векторизации его контура. В этом случае, при растрировании символов, представленных набором векторизованных контуров, процессор растровых изображений (RIP) в устройствах печати располагает, по сути, неограниченным разрешением указанных символов. Кроме того, большинство современных процессоров растровых изображений поддерживают высококачественную печать векторной графики, представляя в этом случае напечатанный символ в виде объекта с четкими непрерывными границами. Эффект сохранения цвета заполнения символов достигается за счет заполнения внутренней области растрируемых контуров символов, входящих в одну группу, одинаковым характерным цветом. При этом оценивание характерного цвета производится по всей группе символов и соответственно более объективно и устойчиво за счет относительно большой выборки в сравнении с оценкой цвета, выполняемой для отдельных символов независимо друг от друга.

Фиг.3 схематически иллюстрирует систему, реализующую заявленный способ. Система улучшения текста при цифровом копировании печатных документов включает в себя: модуль 301 сканирования, выполненный с возможностью сканирования исходного печатного документа и передачи сканированного изображения в модуль сегментации, в модуль определения характерных цветов и в модуль растрирования; модуль 302 сегментации текста, выполненный с возможностью создания маркерного бинарного изображения, определяющего текстовые и нетекстовые области на сканированном изображении; на вход модуля подается сканированное изображение от сканирующего модуля; на выход модуля поступает указанное бинарное изображение, которое передается в модуль определения характерных цветов, модуль векторизации и модуль растрирования; модуль 303 определения характерных цветов, выполненный с возможностью обнаружения групп связных областей символов, отличающихся цветом на величину, не более предопределенного значения, и возможностью определения характерных цветов для указанных групп; на вход модуля поступает маркерное бинарное изображение от модуля сегментации и сканированное изображение от модуля сканирования; на выход модуля поступают значения характерных цветов для соответствующих групп связных областей символов, которые передаются на вход модуля растрирования; модуль 304 векторизации, выполненный с возможностью аппроксимации контуров связных областей символов на маркерном бинарном изображении с помощью последовательностей отрезков линий и сегментов кривых; на вход модуля поступают маркерное бинарное изображение от модуля сегментации текста; на выход модуля поступает аппроксимирующие последовательности отрезков линий и сегментов кривых, которые передаются на вход модуля растрирования; модуль 305 растрирования, выполненный с возможностью растеризации на сканированном изображении аппроксимированных контуров с заполнением их внутренних областей соответствующими характерными цветами; на вход модуля поступает сканированное изображение от модуля сканирования, последовательности отрезков линий и сегментов кривых от модуля векторизации, характерные цвета для соответствующих связных областей символов от модуля определения характерных цветов; на выход модуля поступает модифицированное изображение, которое далее передается в модуль 306 печати, предназначенный для печати данного изображения.

Все перечисленные модули могут быть выполнены в виде систем на кристалле (SoC), программируемых логических матриц (FPGA), или в виде специализированных интегральных схем (ASIC). Функционирование модулей понятно из их описания и описания соответствующего способа.

Фиг.4 иллюстрирует пример сканированного изображения, содержащего две категории визуальной информации: фон 401, включающий в себя рисунок или фотографию 403 и области символов, представленные текстом 402 и таблицей 404. Результатом шага 202, на котором выполняют обнаружение связных областей символов, т.е. сегментацию сканированного изображения на две указанные выше категории, является создание маркерного бинарного изображения 405, ненулевые пиксели которого соответствуют пикселям текста на сканированном изображении. Шаг 202 может быть осуществлен любым, подходящим для этой цели способом, известным из уровня техники. Например, для этой цели может быть использован метод, описанный в статье «А.М. Vil'kin, I.V. Safonov, М.А. Egorova, "Bottom-up Document Segmentation Method Based on Textural Features", Pattern Recognition and Image Analysis, vol. 21, No. 3, pp.565-568, 2011» [6] или способ сегментации сканированных изображений, описанный в работе «Jonghyon Yi; Sunghyun Lim; Document image enhancement algorithm for digital color copier. Proc. SPIE 5293, Color Imaging IX: Processing, Hardcopy, and Applications, 57 (December 18, 2003) » [7].

Фиг.5 иллюстрирует основные этапы шага 203, на котором осуществляется определение характерных цветов для групп связных областей символов. На этапе 501 размечают связные области символов, описываемые маркерным бинарным изображением. Для этого выделяют связные области пикселей на бинарном изображении и ставят им в соответствие уникальную идентификационную метку, обозначающую их принадлежность области данного символа. Кроме того, на указанном этапе определяют такие параметры каждой размеченной области, как ограничивающий прямоугольник и ее площадь. На этапе 502 оценивают средние значения цвета каждой выделенной связной области символов, независимо от других областей. На этапе 503 комбинируют близкорасположенные связные области символов в группы. На этапе 504 оценивают средний цвет для каждой группы. Если группа близкорасположенных областей символов характеризуется несколькими цветами, тогда такая группа разделяется на группы меньшего размера. В простейшем случае, когда на исходном печатном документе присутствует одноцветный текст, тогда каждая группа близкорасположенных областей символов будет определяться одним значением цвета. Результатом этапа 504 являются группы близкорасположенных связанных областей символов и среднее значение цвета, соответствующее каждому символу. На этапе 505 в выбранном цветовом пространстве выполняют объединение групп посредством кластеризации соответствующих средних значений цвета в компактные кластеры. На этапе 506 выбирают центры полученных кластеров в качестве характерных цветов для групп связных областей символов, соответствующих этим кластерам.

На Фиг.6 показано выполнение этапа 502, на котором осуществляется оценка среднего цвета для анализируемой связной области символа. Из сканированного изображения 601 извлекаются значения пикселей, принадлежащих анализируемой размеченной связной области 602 в соответствии с бинарным маркерным изображением. Результат извлечения пикселей символа из сканированного изображения проиллюстрирован фрагментом 603, он содержит только пиксели области символа, исключая фон. Оценивание цвета символа осуществляется только по его внутренней части. Такой подход позволяет уменьшить ошибку оценивания цвета за счет отбрасывания граничных пикселей наиболее подверженных появлению негативных эффектов, таких как, например, размытие пикселя в результате сканирования и появления цветной окантовки. Для определения внутренних пикселей символа может использоваться наиболее подходящий для этой цели способ, например применение морфологической операции эрозии с заданным структурирующим элементом к связной области символа на маркерном бинарном изображении. В предпочтительном варианте реализации заявленного способа внутренние пиксели символа выделяются посредством следующих операций:

- определяют общий признак цвета символа как темный символ на светлом фоне или светлый символ на темном фоне за счет сравнения средних значений яркостей пикселей символа и пикселей фона в пределах ограничивающего прямоугольника, соответствующего анализируемой области символа. Если средняя яркость пикселей символа меньше, чем средняя яркость пикселей фона, тогда определяют общий признак цвета анализируемого символа как темный символ на светлом фоне, иначе как светлый символ на темном фоне;

- для цветного сканированного изображения выполняют преобразование в полутоновое. Причем для символов, имеющих общий признак цвета символа как темный символ на светлом фоне, используют преобразование Y-min{R, G, B}, где min - операция выбора минимального значения, R,G,B - цветовые компоненты значения цвета, представленного в RGB-пространстве, Y- яркость пикселя полутонового изображения. Для символов, имеющих общий признак цвета символа как светлый символ на темном фоне, используют преобразование Y=max{R, G, B}, где max - операция выбора максимального значения;

- далее разделяют преобразованные значения пикселей области символа на группы темных и светлых пикселей посредством их сравнения с порогом. В предпочтительном варианте осуществления заявленного изобретения порог вычисляется с помощью метода Оцу (N.Otsu, "А threshold selection method from grey level histogram", IEEE Transactions on System Man Cybernetics, vol. 9 no. 1, 1979, pp.62-66.) [8];

- для области символа, имеющей общий признак цвета как темный символ на светлом фоне, определяют внутренние пиксели символа, как соответствующие группе темных пикселей. Выделение внутренних пикселей символа проиллюстрировано на Фиг.6 фрагментом 604. Для символа, имеющего общий признак цвета как светлый символ на темном фоне, определяют внутренние пиксели символа, как соответствующие группе светлых пикселей.

В соответствии с иллюстрацией, оценка среднего цвета 605 для анализируемой связной области символа получается усреднением пикселей сканированного изображения, выделенных как внутренние пиксели 604 этой области.

Фиг.7 иллюстрирует этап 503, на котором комбинируют близкорасположенные связные области символов в группы. Создание каждой группы близкорасположенных областей символов начинается с первой (стартовой) области 701, выбранной случайным образом или в соответствии с предопределенным правилом. В предпочтительном варианте осуществления заявленного способа в качестве стартовой области символа, с которой начинается создание группы, выбирают область с наибольшей площадью. Далее вычисляют евклидово расстояние 702, 704 между ближайшими вершинами ограничивающих прямоугольников соседних областей символов. Если указанное расстояние меньше предопределенного порогового значения, тогда области объединяют в одну группу. В соответствии с иллюстрацией, к текущей группе на данном этапе присоединяются близлежащие области 703 и 705. На следующем этапе объединения, эти вновь присоединенные области 706, 708 выбирают в качестве стартовых и для них аналогично определяют ближайшие соседние области символов 707, 709, расстояние до которых меньше порогового. Процедуру повторяют до тех пор, пока не останется областей символов, находящихся ближе к символам группы, чем указанное пороговое расстояние. После этого создают новую группу. Так продолжается до тех пор, пока не останется ни одной области символов, не включенной в одну из групп.

Пример создания групп близлежащих областей символов приведен на Фиг.8. Для фрагмента 802 текста определено пять групп областей символов. Количество указанных групп может быть другим в зависимости от выбранного порогового значения, определяющего максимальное расстояние между областями символов для объединения их в группу. Каждая из групп предоставляет достаточно выборочных данных для оценивания среднего цвета, включенных в группу символов, на этапе 504 по сравнению с оцениванием среднего цвета отдельных символов. В простейшем случае, когда на исходном печатном документе присутствует одноцветный текст, каждая группа близкорасположенных областей символов будет определяться одним средним значением цвета, характерным для этой группы. В данном случае под характерным цветом группы понимается среднее значение RGB компонентов цвета областей символов, входящих в одну группу, и евклидово расстояние в цветовом пространстве RGB между которыми не более предопределенного значения. Для определения ситуации, когда близкорасположенные области символов, составляющие группу, могут характеризоваться различным средним цветом, т.е. имеют несколько характерным цветов, на этапе 504 выполняют следующие операции: выбирают связную область символа, включенную в текущую группу и обладающую максимальной площадью среди остальных областей группы; характерный цвет группы полагают равным среднему значению цвета указанной области; выбирают следующую связную область текущей группы для сравнения ее среднего цвета с характерным цветом группы посредством вычисления между ними евклидова расстояния в цветовом пространстве RGB и его проверки на превышение предопределенного порога Т1. Если порог не превышен, тогда полагают, что выбранная для сравнения область символа соответствует характерному цвету группы. В этом случае характерный цвет группы обновляется путем усреднения средних цветов каждой из областей символов, отнесенных к характерному цвету группы. Если порог превышен, тогда полагают, что текущей группе соответствует более одного характерного цвета, и в этом случае группа областей символов разбивается на группы меньшего размера. Такое дробление исходной группы близкорасположенных областей символов на меньшие продолжается до тех пор, пока каждой из групп меньшего размера не будет поставлен в соответствие только один характерный цвет. На Фиг.8 иллюстрируется пример разделения групп близкорасположенных областей символов. Фрагменты групп, относящиеся к разным характерным цветам группы, обозначены на рисунке закрашенными прямоугольниками разной яркости. Так, например, группа 801 разделяется на две группы 804 и 805.

При других вариантах осуществления заявленного способа этапы 504 и 505 могут быть объединены в один, следовательно, определение близкорасположенных областей символов и проверка их соответствия одному характерному цвету будет производиться одновременно.

Фиг.9 иллюстрирует этап 505, на котором осуществляют кластеризацию характерных цветов групп и вычисление характерных цветов для связных областей символов. Группы представлены на рисунке окружностями, яркость заполнения которых выбрана аналогично отображению групп областей символов на Фиг.8. Радиус окружностей пропорционален количеству областей символов в соответствующих группах. Процесс кластеризации начинается с группы, включающей в себя максимальное количество областей символов. На иллюстрации кластеризация начинается со значения характерного цвета 902, соответствующей группе 807. Кластеризация выполняется посредством вычисления евклидова расстояния между сравниваемыми характерными цветами групп в выбранном цветовом пространстве. Если вычисленное расстояние меньше предопределенного порога Т2, тогда сравниваемые цвета объединяются в один кластер. В предпочтительном варианте осуществления заявленного способа значение порога Т1 превышает значение порога Т2. Согласно иллюстрациям Фиг.8 и Фиг.9, характерный цвет 903 группы 805 является ближайшим к стартовому значению характерного цвета 902 группы 807. Процедура кластеризации продолжается до тех пор, пока все характерные цвета групп, удаленные друг от друга менее чем на пороговое расстояние Т2, не будут объединены в один кластер. Для предотвращения избыточного разрастания кластеров, максимальный размер каждого кластера 905 ограничен расстоянием до его центра 904. Центр кластера вычисляется как среднее значение цвета всех связных областей символов, группы которых включены в указанный кластер, и это значение обновляется при каждом изменении кластера. В завершение этапа 505 центры полученных кластеров выбирают в качестве характерных цветов для связных областей символов, соответствующих этим кластерам.

Фиг.10 схематически иллюстрирует основные этапы шага 204, на котором определяют контурные пиксели связных областей символов и осуществляют их аппроксимацию замкнутыми последовательностями отрезков прямых и сегментов кривых. Для выполнения шага 204 используют маркерное бинарное изображение, описывающее связные области символов. На этапе 1001 осуществляется отслеживание каждого контура анализируемой замкнутой области символа, включая внешний и внутренние контуры. Процедура отслеживания (трассировки) контура начинается из некоторой стартовой точки контура и продолжается вдоль контура в предопределенном направлении до тех пор, пока стартовая точка не встретится снова. Область символа может быть ограничена только одним внешним контуром. Внутренних контуров может быть несколько, или они могут отсутствовать. На данном этапе контур представляет собой замкнутую последовательность точек, соединенных отрезками длиной в один пиксель, то есть может рассматриваться как полигон. После отслеживания контуров анализируемой области на этапе 1002 выполняется уменьшение количества элементов контуров (вершин полигона) посредством определения их наиболее значимых точек перегиба контура. Процедура нахождения точек перегиба соответствует нахождению оптимальной полигональной аппроксимации контура в соответствии с заданной ошибкой аппроксимации. Ошибка аппроксимации вычисляется как сумма квадратов расстояний от каждой точки аппроксимируемого участка контура к соответствующей аппроксимирующей линии. На этапе 1003 упрощенный контур, представленный полигоном, аппроксимируется последовательностью отрезков прямых и сегментов кривых. В предпочтительном варианте осуществления заявленного способа в качестве аппроксимирующих кривых используются кубические кривые Безье. В общем случае, аппроксимация отрезками прямых включает в себя определение координат их начала и конца, аппроксимация сегментами кривых, описанных кривыми Безье, включает в себя координаты двух контрольных точек и точек начала и конца этих сегментов. Фиг.11 иллюстрирует пример аппроксимации фрагмента связной области символа. Вершина аппроксимирующего полигона 1103, находящаяся между соответствующими ребрами полигона 1101-1103 и 1103-1106, может быть аппроксимирована с помощью сегмента 1105 кубической кривой Безье, ограниченной точками 1102 и 1104, соответствующих серединам ребер полигона. Пример аппроксимации связной области символа 1107 проиллюстрирован фигурой 1108.

Растрирование результирующего изображения на печатающем устройстве включает в себя следующие этапы: ретушируют области символов на исходном сканированном изображении в соответствии с маркерным бинарным изображением посредством оценки среднего значения цвета фона, окружающего текущую область символа и замены пикселей сканированного изображения на указанное значение цвета; растрируют модифицированное сканированное изображение в соответствии с установками и параметрами принтера; растрируют на указанном изображении аппроксимированные контуры областей символов с заполнением их внутренней области соответствующими характерными цветами.

Заявленное изобретение предназначается для реализации в черно-белых и цветных многофункциональных печатающих устройствах и цифровых копирах. Также способ может быть реализован в составе программного обеспечения сканирующих устройств.

Специалистам ясно, что возможны разные варианты осуществления, добавления и замены, не выходящие за рамки объема и смысла настоящего изобретения, раскрытого в прилагаемой формуле изобретения.

Claims

1. Способ улучшения текста при цифровом копировании печатных документов, предусматривающий выполнение следующих операций:
- сканируют печатный документ, получая сканированное изображение;
- выявляют на сканированном изображении связные области символов;
- определяют характерные цвета для групп связных областей символов;
- аппроксимируют контуры связных областей символов с помощью последовательностей отрезков линий и сегментов кривых;
- выполняют на сканированном изображении растеризацию аппроксимированных контуров с заполнением их внутренней области соответствующими характерными цветами;
- печатают модифицированное изображение.

2. Способ по п.1, отличающийся тем, что по результатам выявления на сканированном изображении связных областей символов создают маркерное бинарное изображение, определяющее связные области символов на сканированном изображении.

3. Способ по п.1, отличающийся тем, что определяют характерные цвета для связных областей символов посредством выполнения следующих операций:
- размечают связные области на маркерном бинарном изображении;
- определяют на сканированном изображении цвет областей символов, соответствующих размеченным связным областям на маркерном бинарном изображении;
- группируют близкорасположенные связные области символов, отличающиеся цветом на величину, не более предопределенного значения;
- определяют среднее значение цвета для каждой из указанных групп связных областей символов;
- объединяют группы посредством кластеризации средних значений цвета указанных групп;
- выбирают центры полученных кластеров в качестве характерных цветов для групп связных областей символов, соответствующих этим кластерам.

4. Способ по п.1, отличающийся тем, что аппроксимируют контуры связных областей символов с помощью последовательностей отрезков линий и сегментов кривых посредством выполнения следующих операций:
- отслеживают точки внешнего и внутренних контуров каждой связной области на маркерном бинарном изображении;
- упрощают контуры связных областей за счет выделения точек перегиба каждого контура;
- аппроксимируют упрощенные контуры связных областей символов с помощью последовательностей отрезков линий и сегментов кривых.

5. Способ по любому из пп.1-3, отличающийся тем, что группируют близкорасположенные связные области символов, отличающиеся цветом на величину, не более предопределенного значения, посредством выполнения следующих операций:
- вычисляют евклидово расстояние в цветовом пространстве RGB между средними значениями компонентов цвета сравниваемых связных близкорасположенных областей символов;
- группируют указанные области символов, если евклидово расстояние между средними значениями цвета этих областей не превышает предопределенного значения.

6. Способ по любому из пп.1-3, отличающийся тем, что объединяют группы посредством кластеризации средних значений цвета указанных групп за счет выполнения следующих операций:
- выбирают группу близкорасположенных связных областей символов, обладающую наибольшим количеством пикселей сканированного изображения, содержащихся в указанных областях;
- принимают средний цвет выбранной группы за центр кластера;
- включают в текущий кластер еще одну группу близкорасположенных связных областей символов, для которой евклидово расстояние между ее средним цветом и центром кластера не превышает предопределенного значения;
- корректируют центр кластера посредством вычисления нового среднего значения цвета групп, составляющих кластер;
- повторяют указанные операции до тех пор, пока все группы близкорасположенных связных областей символов не будут включены в соответствующие кластеры.

7. Способ по пп.1-4 отличающийся тем, что аппроксимируют упрощенные контуры связных областей символов с помощью последовательностей отрезков линий и сегментов кривых посредством определения координат начала и конца для отрезков линий и координат двух контрольных точек и точек начала и конца сегментов кривых, описанных кубическими кривыми Безье.

8. Система улучшения текста, реализующая способ по п.1, включающая в себя:
- сканирующий модуль, выполненный с возможностью сканирования исходного печатного документа и подачи на выходы сканированного изображения, причем один выход сканирующего модуля соединен с входом модуля сегментации, а второй выход сканирующего модуля соединен с входами модуля определения характерных цветов и модуля растрирования;
- модуль сегментации текста, выполненный с возможностью создания маркерного бинарного изображения, определяющего текстовые и нетекстовые области на сканированном изображении поступающего на три выхода модуля сегментации текста, причем один выход модуля сегментации текста соединен со вторым входом модуля определения характерных цветов, второй выход модуля сегментации текста соединен с входом модуля векторизации, а третий выход модуля сегментации текста соединен с одним из четырех входов модуля растрирования;
- модуль определения характерных цветов, выполненный с возможностью выявления групп связных областей символов, отличающихся цветом на величину, не более предопределенного значения, и с возможностью определения характерных цветов для указанных групп; выход модуля определения характерных цветов соединен с одним из четырех входов модуля растрирования;
- модуль векторизации, выполненный с возможностью аппроксимации контуров связных областей символов на маркерном бинарном изображении с помощью последовательностей отрезков линий и сегментов кривых; выход модуля векторизации соединен с одним из четырех входов модуля растрирования;
- модуль растрирования, выполненный с возможностью растеризации на сканированном изображении аппроксимированных контуров с заполнением их внутренних областей соответствующими характерными цветами; выход модуля растрирования соединен с входом модуля печати;
- модуль печати, выполненный с возможностью печати модифицированного изображения.