RU2656708C1

RU2656708C1 - Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering

Info

Publication number: RU2656708C1
Application number: RU2017123057A
Authority: RU
Inventors: Валерий Валерьевич Анисимовский
Original assignee: Самсунг Электроникс Ко., Лтд.
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2018-06-06
Also published as: KR20190002328A; KR102569816B1

Abstract

FIELD: image processing means.

SUBSTANCE: invention relates to analysis and processing of document images. Method for separating texts and illustrations in images of document pages comprises the steps of: receiving images of document pages; segmenting images of document pages into areas of interest; extracting a feature vector for each area of interest; and classifying each of the extracted feature vectors into one of two classes: text or illustration; wherein the extraction of the feature vector comprises sub-steps of: changing a size of the area of interest while remaining the ratio of its sides; extracting connectivity components from the area of interest of a changed size and calculating their centroids; determining the nearest neighbors for each centroid; constructing a two-dimensional histogram of normalized distances and angles for all pairs consisting of a centroid and each of its five nearest neighboring centroids; and transforming the two-dimensional histogram into a feature vector.

EFFECT: increased accuracy of separating texts and illustrations in images of documents and minimized errors of said separation.

16 cl, 21 dwg, 5 tbl

Description

Область техникиTechnical field

[0001] Настоящее изобретение относится к анализу и обработке изображений документов. Более конкретно, настоящее изобретение относится к разделению на области текста и области иллюстраций изображений документов, как например научных статей, патентных документов, бизнес-документов, которые помимо простого текста содержат схематические чертежи, блок-схемы, схемы, графики, химические формулы и любые другие виды бизнес-графики, которые могут также содержать текстовые части. После выполнения разделения изображений документов на области текста и области иллюстраций, области текста могут быть использованы, например, в оптическом распознавании символов (OCR) для целей обработки естественного языка (NLP) и текстового поиска, области иллюстраций могут быть использованы, например, для целей поиска изображений, распознавания изображений, или сжатия изображений.[0001] The present invention relates to analysis and image processing of documents. More specifically, the present invention relates to the division into areas of text and areas of illustration of images of documents, such as scientific articles, patent documents, business documents, which in addition to simple text contain schematic drawings, flowcharts, diagrams, graphs, chemical formulas and any other Types of business graphics that may also contain text parts. After performing the separation of document images into text areas and illustration areas, text areas can be used, for example, in optical character recognition (OCR) for natural language processing (NLP) and text search, illustration areas can be used, for example, for search purposes images, image recognition, or image compression.

Уровень техникиState of the art

[0002] Проблема разделения текста и изображений имеет значение для различных задач анализа и обработки изображений документов, например, индексирование и поиск документов, обнаружение и распознавание объектов документа, OCR, сжатие документов и многое другое. Корректная классификация областей интереса (ROI) в один из двух классов - текст или иллюстрация, имеет большое значение в таких задачах, поскольку она может значительно уменьшить объем данных, подлежащих обработке на последующих этапах, путем удаления нерелевантных областей (например, нетекстовых областей для OCR или текстовых областей для индексации или поиска изображений).[0002] The problem of separating text and images is important for various tasks of analyzing and processing images of documents, for example, indexing and searching for documents, detection and recognition of document objects, OCR, document compression, and much more. Correct classification of areas of interest (ROI) into one of two classes — text or illustration — is of great importance in such tasks, since it can significantly reduce the amount of data to be processed in subsequent steps by removing irrelevant areas (for example, non-text areas for OCR or text areas for indexing or image search).

[0003] Большинство подходов, предлагаемых для решения этой проблемы, полагаются на продуманное конструирование построенного вручную дескриптора ROI, создающего легко различимые признаковые векторы для текстовых и нетекстовых областей. Такие подходы часто демонстрируют высокую частоту ошибочной классификации на таких классах иллюстраций, которые не полностью соответствуют принципам, лежащим в основе признаков таких дескрипторов (или эвристик, используемых для классификации этих признаков).[0003] Most of the approaches proposed to solve this problem rely on the thoughtful design of a hand-built ROI descriptor that creates easily distinguishable feature vectors for text and non-text areas. Such approaches often demonstrate a high frequency of erroneous classification in classes of illustrations that do not fully comply with the principles underlying the attributes of such descriptors (or heuristics used to classify these attributes).

[0004] Еще одно семейство подходов опирается на алгоритмы машинного обучения с учителем, обучаемые на наборах размеченных вручную данных. Эффективность классификации в таких подходах в значительной степени зависит от репрезентативности обучающего набора данных, получение которого становится очень трудным, если необходима обработка очень разнообразного набора сильно изменчивых классов иллюстраций.[0004] Another family of approaches relies on machine learning algorithms with a teacher trained on sets of manually labeled data. The effectiveness of the classification in such approaches largely depends on the representativeness of the training data set, which becomes very difficult to obtain if processing a very diverse set of highly variable classes of illustrations is necessary.

[0005] Способ разделения текстов и иллюстраций в соответствии с настоящим изобретением сочетает в себе сильные стороны обоих семейств подходов, пытаясь устранить или смягчить их недостатки. Благодаря этому достигается повышенная точность разделения текстов и иллюстраций, а также минимизация ошибок такого разделения. Кроме того, благодаря настоящему изобретению можно избежать уменьшения объема релевантных данных, подлежащих обработке на последующих этапах, тем самым обеспечив повышенную эффективность таких последующих этапов обработки. Для этих целей в настоящем изобретении алгоритмы машинного обучения без учителя применяются к основанным на форме признакам, извлекаемым из областей интереса документов, с последующей классификацией согласно операции логического вывода разметки или операции распространения разметки с частичным привлечением учителя.[0005] The method for separating texts and illustrations in accordance with the present invention combines the strengths of both families of approaches, trying to eliminate or mitigate their shortcomings. Due to this, increased accuracy of separation of texts and illustrations, as well as minimization of errors of such separation is achieved. In addition, thanks to the present invention, it is possible to avoid reducing the amount of relevant data to be processed in subsequent steps, thereby providing increased efficiency of such subsequent processing steps. For these purposes, in the present invention, teacherless machine learning algorithms are applied to form-based features extracted from areas of interest of documents, followed by classification according to markup inference or markup propagation operation with partial involvement of the teacher.

Описание связанных документов уровня техникиDescription of Related Prior Art Documents

[0006] Одно из самых популярных семейств способов разделения текст или не текст основано на извлечении простых признаков из ROI, а затем классификации этих признаков с помощью нескольких продуманных, построенных вручную эвристик, направленных на отделение текстовых областей от нетекстовых областей. Типичные признаки, используемые в таких подходах, основаны на компонентах связности, статистике по длинам серий, взаимной корреляции между линиями сканирования, проекционных профилях или распределении пикселей черного цвета. Одним экземпляром такого семейства подходов является патент США US 6,937,766, опубликованный 30 августа 2005 года, в котором текст извлекают из видеопоследовательности (см. реферат патента `766). Такие подходы являются быстрыми и эффективными для такого материала, в котором иллюстрациями являются фотографии, картины, кадры видеопоследовательности или другие виды красочных изображений, которые существенно отличаются от текста по своей структуре. Однако, для схематических чертежей, особенно текстовых блок-схем, электрических схем и подобного материала, такие подходы часто демонстрируют гораздо более худшую точность. Одним из их основных недостатков является то, что их эвристики обычно выводятся из наблюдений, относящихся к иллюстрациям, принадлежащим некоторому конкретному классу (или классам), и могут плохо обобщаться для других классов, что является особенно проблематичным для документов, содержащих очень разнообразный набор классов иллюстраций (например, для иллюстраций в патентных документах), в которых некоторые из классов не полностью соответствуют таким эвристикам. В качестве примера, способы, основанные на гистограммах длин серий, могут неправильно классифицировать в качестве текстовых областей блок-схемы, содержащие большие объемы текста.[0006] One of the most popular families of methods for separating text or non-text is based on extracting simple features from the ROI, and then classifying these features using a few thoughtful, hand-crafted heuristics designed to separate text areas from non-text areas. Typical features used in such approaches are based on connectivity components, statistics on series lengths, cross-correlation between scan lines, projection profiles, or black pixel distribution. One instance of this family of approaches is US Pat. No. 6,937,766, published August 30, 2005, in which text is extracted from a video sequence (see `766 patent abstract). Such approaches are quick and effective for a material in which the illustrations are photographs, paintings, frames of video sequences or other types of colorful images that differ significantly from the text in their structure. However, for schematic drawings, especially text block diagrams, electrical circuits, and similar material, such approaches often exhibit much worse accuracy. One of their main drawbacks is that their heuristics are usually inferred from observations related to illustrations belonging to a particular class (or classes), and can be poorly generalized for other classes, which is especially problematic for documents containing a very diverse set of illustration classes. (for example, for illustrations in patent documents), in which some of the classes do not fully correspond to such heuristics. By way of example, methods based on histograms of series lengths may incorrectly classify flowcharts containing large amounts of text as text areas.

[0007] Этот недостаток решается другим семейством подходов, основанных на алгоритмах машинного обучения с учителем, применяемых либо к признакам того же типа, что и описан выше, или к данным пикселей изображения. Поскольку задача разделения текста и иллюстраций может быть сформулирована как проблема бинарной классификации, подходы этого семейства обычно используют обучение на наборе размеченных вручную данных, чтобы изучить различие между текстовыми и нетекстовыми областями. В данном семействе подходов применяется классификация основанных на форме признаков, использующая классификатор k-ближайших соседей (KNN), многослойный перцептрон (MLP) или классификатор по методу опорных векторов (SVM), использующий основанный на градиенте дескриптор T-HOG. Одним экземпляром такого семейства подходов является патент США US 7,570,816, для корректного обучения классификатора которого требуется большой набор размеченных вручную данных (см. абзац [0008] патента `816).[0007] This drawback is solved by another family of approaches based on machine learning algorithms with a teacher, applied either to features of the same type as described above, or to image pixel data. Since the task of separating text and illustrations can be formulated as a problem of binary classification, the approaches of this family usually use training on a set of manually labeled data to study the difference between text and non-text areas. This family of approaches uses feature-based classification using the k-nearest neighbor classifier (KNN), multi-layer perceptron (MLP), or support vector classifier (SVM) using a gradient-based T-HOG descriptor. One instance of this family of approaches is US patent US 7,570,816, for the correct training of the classifier which requires a large set of manually marked data (see paragraph [0008] of the `816 patent).

[0008] Такие подходы могут по-прежнему страдать от недостаточной различающей способности построенных вручную признаков, которая не может быть компенсирована классификатором. Таким образом, были разработаны более эффективные подходы в работе с данными пикселей изображения или низкоуровневыми признаками. Один заметный подход такого рода основан на методах разреженного кодирования. Например, был предложен анализ морфологическиx компонент (MCA), использующий два предварительно построенных различающих переопределенных словаря (curvelet-преобразование для графики и вейвлет-преобразование для текста).[0008] Such approaches may still suffer from a lack of discriminating ability of hand-built features that cannot be compensated by the classifier. Thus, more effective approaches were developed in working with image pixel data or low-level features. One notable approach of this kind is based on sparse coding techniques. For example, an analysis of morphological components (MCA) was proposed, using two pre-built distinguishing redefined dictionaries (curvelet transform for graphics and wavelet transform for text).

[0009] Тем не менее, основанные на обучении с учителем алгоритмы часто являются чрезмерно медленными на больших наборах данных (что имеет место в случае, например, патентных документов, содержащих миллионы областей), и они лучше всего работают, когда в обучающем наборе данных все релевантные классы иллюстраций представлены в достаточной степени так, чтобы алгоритм обучения знал, как отличить каждый из указанных классов от текста. Такой обучающий набор данных может не быть легкодоступным для многих видов документов, например, когда классы иллюстраций настолько многочисленны и обладают очень высокой изменчивостью внутри класса, создание такого набора данных с помощью ручной разметки (маркировки областей) было бы непомерно трудоемким (см., например, абзац [0008] патента `816). Чтобы устранить необходимость в обучающем наборе размеченных вручную данных были разработаны основанные на обучении без учителя способы, в которых в частности может быть использован алгоритм k-средних для кластеризации статистических признаков, вычисляемых с использованием, например, высокочастотных вейвлет-коэффициентов или карт краев. Такие способы описаны в работах C. Liu, C. Wang и R. Dai «Text detection in images based on unsupervised classification of edge-based features» (2005 год) и J. Gallavata, R. Ewerth и B. Freisleben «Text detection in images based on unsupervised classification of high-frequency wavelet coefficients» (2004 год). Далее в этой заявке будет продемонстрированно, что алгоритм k-средних сам по себе неспособен работать с невыпуклыми, вложенными и удлиненными кластерами, а также обладает рядом недостатков в вопросе разделения текста и иллюстраций, особенно при использовании Евклидова расстояния. Вследствие этого, эти способы также не приспособлены для разделения текста и схематических чертежей, особенно текстовых блок-схем, электрических схем или подобной бизнес-графики.[0009] However, teacher-based algorithms are often excessively slow on large data sets (as is the case, for example, in patent documents containing millions of domains), and they work best when everything in a training data set The relevant illustration classes are presented sufficiently so that the learning algorithm knows how to distinguish each of these classes from the text. Such a training data set may not be readily available for many types of documents, for example, when illustration classes are so numerous and have very high variability within the class, creating such a data set using manual marking (marking areas) would be prohibitively time-consuming (see, for example, paragraph [0008] of the patent `816). To eliminate the need for a training set of manually labeled data, methods based on learning without a teacher were developed, in particular, the k-means algorithm can be used to cluster statistical features calculated using, for example, high-frequency wavelet coefficients or edge maps. Such methods are described in C. Liu, C. Wang, and R. Dai “Text detection in images based on unsupervised classification of edge-based features” (2005) and J. Gallavata, R. Ewerth, and B. Freisleben “Text detection in images based on unsupervised classification of high-frequency wavelet coefficients ”(2004). Later in this application, it will be demonstrated that the k-means algorithm itself is unable to work with non-convex, nested and elongated clusters, and also has several drawbacks in the separation of text and illustrations, especially when using the Euclidean distance. Because of this, these methods are also not suitable for separating text and schematic drawings, especially text flowcharts, electrical circuits, or similar business graphics.

[0010] Наконец, в отношении ранее разработанных способов и настоящего изобретения необходимо отметить следующую важную информацию: большинство из ранее разработанных способов сконцентрированы особенно на задаче извлечения текста, в то время как настоящее изобретение сконцентрировано на извлечении иллюстраций из изображений документов. Кроме того, большинство вышеописанных способов обычно работают над естественными сценами (фотографиями или видеопоследовательностями). Тем не менее, такой тип данных сильно отличаются по своей структуре и свойствам содержащейся в них графики от структуры и свойств иллюстраций, например, схематических чертежей, возможно также имеющих некоторый текст в своем составе, в документах, подобных патентным документам, которые находятся в центре настоящего изобретения. Также необходимо обратить внимание на то, что во многих предыдущих работах используются хорошо известные наборы данных UW-III и ICDAR 2009 для создания построенных вручную признаков или обучения классификаторов, что может отрицательно повлиять на возможности обобщения как признаков, так и классификаторов в контексте задачи настоящего изобретения, поскольку эти наборы данных содержат только небольшое подмножество классов иллюстраций, присутствующих в документах, подобных патентным документам.[0010] Finally, with regard to previously developed methods and the present invention, the following important information should be noted: most of the previously developed methods are especially focused on the task of extracting text, while the present invention is focused on extracting illustrations from document images. In addition, most of the above methods usually work on natural scenes (photographs or video sequences). However, this type of data is very different in structure and properties of the graphics contained in them from the structure and properties of illustrations, for example, schematic drawings, possibly also having some text in their composition, in documents similar to patent documents that are at the center of this inventions. It is also necessary to pay attention to the fact that in many previous works, the well-known UW-III and ICDAR 2009 datasets are used to create manually-created features or to train classifiers, which can negatively affect the ability to generalize both features and classifiers in the context of the task of the present invention because these datasets contain only a small subset of the illustration classes present in documents like patent documents.

[0011] Различные другие реализации известны в данной области техники, но, насколько можно разумно установить из их доступной документации, эти реализации не могут адекватно решить все проблемы, решаемые описанным в данной заявке изобретением.[0011] Various other implementations are known in the art, but, as far as reasonably possible to establish from their available documentation, these implementations cannot adequately solve all the problems solved by the invention described in this application.

Сущность изобретенияSUMMARY OF THE INVENTION

[0012] В предпочтительном варианте осуществления настоящего изобретения предложен способ разделения текстов и иллюстраций в изображениях страниц документов, содержащий этапы, на которых получают изображения страниц документов; сегментируют изображения страниц документов на области интереса; извлекают признаковый вектор для каждой области интереса; и классифицируют каждый из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация.[0012] In a preferred embodiment of the present invention, there is provided a method for separating texts and illustrations in images of document pages, comprising the steps of obtaining image pages of documents; segment images of pages of documents into areas of interest; extracting a feature vector for each region of interest; and classifying each of the extracted feature vectors into one of two classes: text or illustration.

[0013] В этом предпочтительном варианте осуществления способа сегментирование изображения страниц документов на области интереса содержит подэтапы, на которых заполняют серии пикселей фона, длины которых ниже некоторого порогового значения, как в горизонтальном, так и в вертикальном направлениях и выбирают ограничительные рамки полученных в результате компонент связности как области интереса.[0013] In this preferred embodiment of the method, the segmentation of the image of the pages of documents into areas of interest comprises sub-steps that fill in a series of background pixels whose lengths are below a certain threshold value, both in the horizontal and vertical directions, and select the bounding boxes of the resulting components connectivity as an area of interest.

[0014] Кроме того, в этом предпочтительном варианте осуществления способа извлечение признакового вектора для каждой области интереса содержит подэтапы, на которых: изменяют размер области интереса до размера 500×500 пикселей с сохранением соотношения ее сторон; извлекают компоненты связности из области интереса измененного размера и вычисляют их центроиды; находят ближайших соседей для каждого центроида; строят двумерную гистограмму нормализованных расстояний и углов для всех пар, состоящих из центроида и каждого из его пяти ближайших соседних центроидов; и переформировывают двумерную гистограмму в признаковый вектор.[0014] In addition, in this preferred embodiment of the method, extracting the feature vector for each region of interest comprises sub-steps in which: the region of interest is resized to a size of 500 × 500 pixels while maintaining its aspect ratio; removing the connected components from the region of interest of the resized one and calculating their centroids; find the nearest neighbors for each centroid; constructing a two-dimensional histogram of normalized distances and angles for all pairs consisting of a centroid and each of its five nearest neighboring centroids; and transform the two-dimensional histogram into a feature vector.

[0015] Наконец, в этом предпочтительном варианте осуществления способа классификация каждого из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация, содержит подэтапы, на которых: осуществляют аппроксимирующее ядро преобразование признаковых векторов; осуществляют кластеризацию первого уровня преобразованных признаковых векторов с использованием алгоритма мини-пакетных k-средних для получения кластеров преобразованных признаковых векторов и их центроидов; осуществляют кластеризацию второго уровня центроидов кластеров, полученных на предшествующем подэтапе, с использованием усовершенствованного алгоритма кластеризации для получения соответствующих им суперкластеров; и проверяют, больше ли число полученных суперкластеров, чем два: если нет - используют операцию логического вывода разметки (S103.4.1) для классификации каждого из этих двух суперкластеров в один из двух классов: текст или иллюстрация; или если да - используют операцию распространения разметки с частичным привлечением учителя для классификации каждого из этих более двух суперкластеров в один из двух классов: текст или иллюстрация.[0015] Finally, in this preferred embodiment of the method, the classification of each of the extracted feature vectors into one of two classes: text or illustration, contains sub-steps in which: the approximating core transforms the feature vectors; clustering the first level of the transformed feature vectors using the mini-packet k-means algorithm to obtain clusters of transformed feature vectors and their centroids; clustering the second level of the centroids of the clusters obtained in the previous sub-step using an advanced clustering algorithm to obtain their corresponding superclusters; and check whether the number of received superclusters is greater than two: if not, use the markup inference operation (S103.4.1) to classify each of these two superclusters into one of two classes: text or illustration; or if so, use the markup distribution operation with a partial involvement of the teacher to classify each of these more than two superclusters into one of two classes: text or illustration.

[0016] Такой способ разделения текстов и иллюстраций согласно настоящему изобретению сочетает в себе сильные стороны подходов, известных из уровня техники, тем самым устраняя или смягчая их недостатки. В свете этого настоящим способом достигается повышенная точность разделения текстов и иллюстраций, а также минимизация ошибок такого разделения.[0016] This method of separating texts and illustrations according to the present invention combines the strengths of approaches known from the prior art, thereby eliminating or mitigating their disadvantages. In light of this, the present method achieves increased accuracy of the separation of texts and illustrations, as well as minimizing errors of such separation.

Краткое описание чертежейBrief Description of the Drawings

[0017] Другие благоприятные эффекты настоящего изобретения станут очевидны обычному специалисту в данной области техники после ознакомления с нижеследующим подробным описанием различных вариантов его осуществления, а также с чертежами, на которых:[0017] Other beneficial effects of the present invention will become apparent to those of ordinary skill in the art after reviewing the following detailed description of various embodiments thereof, as well as the drawings in which:

[Фиг. 1] Фигура 1 иллюстрирует предпочтительный вариант осуществления способа разделения текстов и иллюстраций в изображениях страниц документов.[FIG. 1] Figure 1 illustrates a preferred embodiment of a method for separating texts and illustrations in page images of documents.

[Фиг. 2] Фигура 2 иллюстрирует подэтапы этапа сегментирования (S101) изображения страниц документов на области интереса согласно предпочтительному варианту осуществления настоящего изобретения.[FIG. 2] FIG. 2 illustrates the sub-steps of the segmentation step (S101) of image pages of documents in a region of interest according to a preferred embodiment of the present invention.

[Фиг. 3] Фигура 3 иллюстрирует подэтапы этапа извлечения (S102) признакового вектора для каждой области интереса согласно предпочтительному варианту осуществления настоящего изобретения.[FIG. 3] Figure 3 illustrates the sub-steps of the step of extracting (S102) a feature vector for each region of interest according to a preferred embodiment of the present invention.

[Фиг. 4] Фигура 4 иллюстрируют подэтапы этапа классифицирования (S103) каждого из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация согласно предпочтительному варианту осуществления настоящего изобретения.[FIG. 4] Figure 4 illustrates the sub-steps of the classification step (S103) of each of the extracted feature vectors into one of two classes: text or illustration according to a preferred embodiment of the present invention.

[Фиг. 5] Фигура 5(а) иллюстрирует оригинальную страницу патента с пятью иллюстрациями; Фигура 5(б) иллюстрирует результат применения алгоритма RLSO к странице, показанной на фигуре 5(а): заполненные пиксели фона окрашены серым цветом, компоненты связности выделены четырехугольными ограничительными рамками.[FIG. 5] Figure 5 (a) illustrates the original page of a patent with five illustrations; Figure 5 (b) illustrates the result of applying the RLSO algorithm to the page shown in figure 5 (a): filled background pixels are grayed out, connectivity components are highlighted with quadrangular bounding boxes.

[Фиг. 6] Фигура 6 иллюстрирует области интереса, извлекаемые посредством алгоритма RLSO из изображения страницы патента, в содержимом которой имеются как текст, так и иллюстрации.[FIG. 6] Figure 6 illustrates areas of interest extracted by the RLSO algorithm from an image of a patent page, the contents of which contain both text and illustrations.

[Фиг. 7] Фигура 7 иллюстрирует пары ближайших соседних центроидов компонент связности типичной ROI иллюстрации.[FIG. 7] Figure 7 illustrates pairs of the nearest neighboring centroids of the connected components of a typical ROI illustration.

[Фиг. 8] Фигура 8 иллюстрирует пары ближайших соседних центроидов компонент связности типичной ROI текста.[FIG. 8] Figure 8 illustrates pairs of the nearest neighboring centroids of the connected components of a typical text ROI.

[Фиг. 9] Фигуры 9(а)-(б) иллюстрируют используемые в настоящем изобретении Docstrum-дескрипторы: Docstrum-дескриптор (гистограмма слева - Фигура 9(а)) ROI иллюстрации; Docstrum-дескриптор (гистограмма справа - Фигура 9(б)) ROI текста. Данные Docstrum-дескрипторы вычислялись для областей интереса (ROI), размер которых составлял 500×500 пикселей, с использованием 64 бинов углов и 20 бинов расстояния.[FIG. 9] Figures 9 (a) - (b) illustrate the Docstrum descriptors used in the present invention: Docstrum descriptor (bar graph on the left - Figure 9 (a)) ROI illustrations; Docstrum descriptor (bar graph on the right - Figure 9 (b)) ROI of the text. Docstrum descriptor data was calculated for areas of interest (ROI) that were 500 × 500 pixels in size using 64 angle bins and 20 distance bins.

[Фиг. 10] Фигуры 10(а)-(б) иллюстрируют используемые в настоящем изобретении Docstrum-дескрипторы: Docstrum-дескриптор (гистограмма слева - Фигура 10(а)) ROI иллюстрации и Docstrum-дескриптор (гистограмма справа - Фигура 10(б)) ROI текста. Данные Docstrum-дескрипторы вычислялись для областей интереса (ROI), размер которых составлял 300×300 пикселей, с использованием 16 бинов углов и 20 бинов расстояния.[FIG. 10] Figures 10 (a) - (b) illustrate the Docstrum descriptors used in the present invention: Docstrum descriptor (histogram on the left - Figure 10 (a)) ROI illustrations and Docstrum descriptor (histogram on the right - Figure 10 (b)) ROI text. Docstrum descriptor data was computed for areas of interest (ROIs) of 300 × 300 pixels using 16 angle bins and 20 distance bins.

[Фиг. 11] Фигура 11 иллюстрирует подэтапы этапа классифицирования (S103) каждого из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация, с добавленной ветвью оценки качества классификации.[FIG. 11] Figure 11 illustrates the sub-steps of the classification step (S103) of each of the extracted feature vectors in one of two classes: text or illustration, with the added branch of the classification quality assessment.

[Фиг. 12] Фигура 12 иллюстрирует архитектуру сиамской нейронной сети, используемой для обучения отображения признаков для аппроксимации ядра Жаккара.[FIG. 12] Figure 12 illustrates the architecture of the Siamese neural network used to train feature mapping for approximating the Jacquard core.

[Фиг. 13] Фигура 13 иллюстрирует примеры кластеров, получаемых в результате выполнения подэтапа (S103.2) способа, на котором осуществляют кластеризацию первого уровня преобразованных признаковых векторов с использованием алгоритма мини-пакетных k-средних.[FIG. 13] Figure 13 illustrates examples of clusters obtained by performing the sub-step (S103.2) of the method in which the first level clustering of the transformed feature vectors is performed using the mini-packet k-means algorithm.

[Фиг. 14] Фигуры 14(а)-(б) иллюстрируют кривые точность - полнота для варианта с аппроксимированным ядром раскрытого способа. Фигура 14(а): кривые точность - полнота для разных алгоритмов кластеризации второго уровня. Фигура 14(б): кривые точность - полнота для разных аппроксимированных ядер. Маркеры указывают лучшие точки F₁.[FIG. 14] Figures 14 (a) - (b) illustrate accuracy-completeness curves for a variant with an approximated core of the disclosed method. Figure 14 (a): accuracy – completeness curves for different second-level clustering algorithms. Figure 14 (b): accuracy-completeness curves for different approximated kernels. Markers indicate the best points F ₁ .

[Фиг. 15] Фигуры 15(а)-(б) иллюстрируют кривые точность - полнота для варианта с точным ядром раскрытого способа. Фигура 15(а): кривые точность - полнота для разных алгоритмов кластеризации второго уровня. Фигура 15(б): кривые точность - полнота для разных ядер. Маркеры указывают лучшие точки F₁.[FIG. 15] Figures 15 (a) - (b) illustrate the accuracy-completeness curves for the variant with the exact core of the disclosed method. Figure 15 (a): accuracy-completeness curves for different second-level clustering algorithms. Figure 15 (b): accuracy-completeness curves for different cores. Markers indicate the best points F ₁ .

[Фиг. 16] Фигура 16 иллюстрирует точечную диаграмму компонент t-SNE, вычисленных для Docstrum-признаковых векторов ROI, классифицированных как ROI текста и ROI иллюстраций согласно раскрытому способу.[FIG. 16] Figure 16 illustrates a scatter plot of the t-SNE components calculated for Docstrum-sign ROI vectors classified as text ROI and illustration ROI according to the disclosed method.

Подробное описание вариантов осуществления изобретенияDetailed Description of Embodiments

[0018] Предпочтительные варианты осуществления настоящего изобретения теперь будут описаны более подробно со ссылкой на чертежи, на которых идентичные элементы на разных фигурах, по возможности, идентифицируются одинаковыми ссылочными позициями. Эти варианты осуществления представлены посредством пояснения настоящего изобретения, которое, однако, не следует ими ограничивать. Специалисты в данной области техники поймут после ознакомления с настоящим подробным описанием и чертежами, что могут быть сделаны различные модификации и варианты.[0018] Preferred embodiments of the present invention will now be described in more detail with reference to the drawings, in which identical elements in different figures, if possible, are identified by the same reference position. These embodiments are presented by way of explanation of the present invention, which, however, should not be limited to them. Specialists in the art will understand after reading this detailed description and drawings that various modifications and variations can be made.

[0019] Поскольку изображения страниц патентных документов обладают вышеупомянутыми свойствами (крупномасштабный набор данных с очень разнообразным набором классов иллюстраций с очень высокой изменчивостью внутри класса), в нижеследующем подробном описании возможности, работа и реализации конкретных этапов раскрытого способа объясняются и демонстрируются на примере работы с изображениями страниц, извлеченными из случайно выбранного подмножества патентов из патентной базы данных USPTO. Однако, специалист поймет, что раскрытый способ подходит для других классов документов, содержащих бизнес-иллюстрации, аналогичные тем, которые используются в патентах.[0019] Since images of pages of patent documents have the aforementioned properties (a large-scale data set with a very diverse set of illustration classes with very high variability within the class), in the following detailed description of the possibility, operation and implementation of specific steps of the disclosed method are explained and demonstrated by the example of working with images pages retrieved from a randomly selected subset of patents from the USPTO patent database. However, one skilled in the art will understand that the disclosed method is suitable for other classes of documents containing business illustrations similar to those used in patents.

[0020] Поскольку разделение текста и иллюстраций обычно используется в качестве стадии предварительной обработки для подготовки данных для последующих гораздо более сложных стадии, специалист в данной области поймет, что в идеале такой способ разделения должен быть относительно быстрым и легким (по сравнению с последующими стадиями, которыми, например, могут быть OCR или механизм индексирования и поиска изображений). Это требование подразумевает использование легкого алгоритма извлечения глобального дескриптора (а не более дорогостоящую агрегацию локальных дескрипторов, таких как VLAD или Fisher Vector для SIFT-дескрипторов), создающего низкоразмерные признаковые векторы. В случае черно-белых (бинарных) изображений документов (например, патентов) также вполне логично использовать алгоритм извлечения дескриптора, специально предназначенный для и приспособленный под изображения документов, содержащих области текста и иллюстраций, возможно, по меньшей мере частично, также наполненных текстом.[0020] Since the separation of text and illustrations is usually used as a pre-processing step to prepare data for subsequent much more complex stages, one skilled in the art will understand that, ideally, such a separation method should be relatively quick and easy (compared to subsequent steps, which, for example, may be OCR or an indexing and image retrieval mechanism). This requirement implies the use of a lightweight global descriptor retrieval algorithm (rather than the more expensive aggregation of local descriptors such as VLAD or Fisher Vector for SIFT descriptors), which creates low-dimensional feature vectors. In the case of black-and-white (binary) images of documents (e.g. patents), it is also quite logical to use a descriptor extraction algorithm specially designed for and adapted to images of documents containing areas of text and illustrations, possibly at least partially also filled with text.

[0021] Другое требование, связанное с огромным количеством (миллионы) доступных патентов, заключается в том, что алгоритм классификации должен быть подходящим для обработки крупномасштабных наборов данных. Из-за отсутствия достаточно репрезентативного размеченного набора данных для иллюстраций из патентов классификационный алгоритм должен обеспечивать либо операцию распространения разметки с частичным привлечением учителя (при которой только небольшую часть признаковых векторов размечают и используют для распространения меток на неразмеченные данные), либо операцию логического вывода разметки (при которой разметка набора данных не требуется вовсе).[0021] Another requirement associated with the huge number (millions) of patents available is that the classification algorithm should be suitable for processing large-scale data sets. Due to the lack of a sufficiently representative labeled dataset for illustrations from patents, the classification algorithm should provide either the operation of distributing the markup with a partial involvement of the teacher (in which only a small part of the characteristic vectors are labeled and used to distribute the labels to the unallocated data), or the operation of the logical output of the markup ( at which markup of the data set is not required at all).

[0022] Наконец, для того, чтобы последующая обработка областей текста или иллюстраций, была полной и эффективной, необходим алгоритм разделения текста и иллюстраций, который обеспечивает высокий уровень полноты (recall) и хорошую точность (precision). Поскольку основной акцент в настоящем изобретении делается на выделение иллюстраций из изображений документов для их последующей индексации и использования в поиске, автор настоящего изобретения установил минимальные уровни для показателя полноты ROI иллюстраций на ~ 90%, а для показателя точности на ~ 75%, что означает, что теряется не более 10% иллюстраций, содержащихся во всех обрабатываемых заявленным способом изображениях документов, и допустимым является не более 25% насыщенности текстом в некотором выбранном наборе ROI. Поддержание как показателя полноты, так и показателя точности, по меньшей мере, на таком высоком уровне имеет решающее значение для задачи поиска иллюстраций, поскольку низкий показатель полноты приведет в результате к тому, что слишком много иллюстраций не будет проиндексировано, тогда как низкий показатель точности значительно увеличит избыточные вычисления, выполненные для текстовых ROI. Далее приведены детали способа разделения текстов и иллюстраций в изображениях страниц документов в соответствии с настоящим изобретением.[0022] Finally, in order for the subsequent processing of areas of text or illustrations to be complete and efficient, an algorithm for separating text and illustrations is needed, which provides a high level of recall (recall) and good accuracy (precision). Since the main emphasis in the present invention is on extracting illustrations from document images for subsequent indexing and use in the search, the author of the present invention has set the minimum levels for the completeness of the ROI of illustrations at ~ 90%, and for the accuracy indicator at ~ 75%, which means that no more than 10% of the illustrations contained in all document images processed by the claimed method are lost, and no more than 25% of the text saturation in some selected ROI set is acceptable. Maintaining both the completeness index and the accuracy index at least at such a high level is crucial for the task of searching for illustrations, since a low completeness index will result in too many illustrations not being indexed, while a low accuracy index will significantly will increase redundant calculations performed for text ROIs. The following are details of a method for separating texts and illustrations in images of document pages in accordance with the present invention.

[0023] Фигура 1 иллюстрирует предпочтительный вариант осуществления способа разделения текстов и иллюстраций в изображениях страниц документов. Далее по тексту заявки наряду с подробным описанием каждого этапа и подэтапа будут описаны основные требования к каждому из этапов и подэтапов способа, которые мотивировали выбор автором настоящего изобретения алгоритмов, используемых на этих этапах.[0023] Figure 1 illustrates a preferred embodiment of a method for separating texts and illustrations in images of document pages. Hereinafter, along with a detailed description of each step and sub-step, the basic requirements for each of the steps and sub-steps of the method will be described, which motivated the author of the present invention to choose the algorithms used in these steps.

[0024] На этапе (S100) способа получают изображения страниц документов. Данный этап может быть реализован любым известным из уровня техники способом.[0024] In step (S100) of the method, images of document pages are obtained. This step can be implemented by any method known in the art.

[0025] На этапе (S101) способа сегментируют изображения страниц документов на области интереса (ROI). Поскольку страницы патентного документа представляют собой черно-белые (бинарные) изображения документов, которые обычно используют Манхэттенскую схему размещения текста и иллюстраций, в предпочтительном варианте осуществления данного этапа может быть использован алгоритм сегментации, использующий сглаживание по длинам серий с операцией логическое ИЛИ (RLSO). Подходящий для настоящего изобретения алгоритм RLSO может быть вариантом алгоритма сглаживания по длинам серий (RLSA). Детали подэтапов данного этапа ниже будут подробно описаны и проиллюстрированы со ссылкой на фигуры 2, 5(a), 5(б), 6.[0025] In step (S101) of the method, images of pages of documents are segmented into areas of interest (ROI). Since the pages of a patent document are black-and-white (binary) images of documents that usually use the Manhattan layout of text and illustrations, in a preferred embodiment of this step, a segmentation algorithm using smoothing over series lengths with a logical OR operation (RLSO) can be used. A suitable RLSO algorithm for the present invention may be a variant of a series length smoothing algorithm (RLSA). The details of the sub-steps of this step will be described in detail below and illustrated with reference to figures 2, 5 (a), 5 (b), 6.

[0026] На этапе (S102) способа извлекают признаковый вектор для каждой области интереса (ROI). Для ROI изображений, извлеченных с помощью упрощенного алгоритма RLSO, были опробованы несколько глобальных дескрипторов изображений, предназначенных для черно-белых изображений документов: моменты Ху (Hu), признаки Харалика (Haralick), дескриптор контекста формы (SCD), гистограмма длин серий (RLH), локальные бинарные шаблоны (LBP), адаптивная иерархическая гистограмма плотности (AHDH) и дескриптор спектра документа (далее упоминаемый как Docstrum-дескриптор). В результате было определено, что наиболее отчетливое и стойкое различие между признаковыми векторами для областей текста и иллюстраций из анализируемого набора данных обеспечивается Docstrum-дескриптором. Этот результат вполне оправдан, поскольку моменты Ху, признаки Харалика и LBP разрабатывались в основном для классификации текстур, SCD направлен на сопоставление форм, а RLH и AHDH хорошо подходят для поиска документов, тогда как Docstrum-дескриптор предназначен для анализа разметки и компоновки страницы в содержащих только текст документах. Таким образом, Docstrum-дескриптор может быть использован на данном этапе (S102) для извлечения признакового вектора для каждой ROI согласно предпочтительному варианту осуществления настоящего изобретения. Однако, специалисту будет понятно, что в других вариантах осуществления данного этапа (S102) любой из вышеперечисленных глобальных дескрипторов может быть использован вместо или вместе с Docstrum-дескриптором для извлечения признакового вектора, хоть и не столь эффективно. Использование Docstrum-дескриптора приводит в результате к тому, что для нетекстовых областей этап (S102) извлекает более ʺхаотичныеʺ признаковые векторы, делая их легко отличимыми от более «регулярных» признаковых векторов, извлекаемых для текстовых областей. Детали подэтапов данного этапа ниже будут подробно описаны и проиллюстрированы со ссылкой на фигуры 3, 7, 8, 9(а), 9(б), 10(а), 10(б).[0026] In step (S102) of the method, a feature vector for each area of interest (ROI) is retrieved. For global ROI images extracted using the simplified RLSO algorithm, several global image descriptors designed for black-and-white document images were tested: Hu moments, Haralick attributes, shape context descriptor (SCD), series length histogram (RLH ), local binary patterns (LBP), adaptive hierarchical density histogram (AHDH), and a document spectrum descriptor (hereinafter referred to as a Docstrum descriptor). As a result, it was determined that the most distinct and persistent difference between feature vectors for text areas and illustrations from the analyzed data set is provided by the Docstrum descriptor. This result is fully justified, since the Hu moments, the characteristics of Haralik and LBP were mainly developed for texture classification, SCD is aimed at matching forms, and RLH and AHDH are well suited for searching documents, while the Docstrum descriptor is designed to analyze page layout and layout in containing only text documents. Thus, the Docstrum descriptor can be used at this step (S102) to retrieve the feature vector for each ROI according to a preferred embodiment of the present invention. However, one skilled in the art will understand that in other embodiments of this step (S102), any of the above global descriptors can be used instead of or together with a Docstrum descriptor to retrieve a feature vector, although not as efficiently. Using the Docstrum descriptor results in step (S102) for non-text areas extracting more “chaotic” feature vectors, making them easily distinguishable from more “regular” feature vectors extracted for text areas. The details of the sub-steps of this step will be described in detail below and illustrated with reference to figures 3, 7, 8, 9 (a), 9 (b), 10 (a), 10 (b).

[0027] Фигура 2 иллюстрирует подэтапы этапа сегментирования (S101) изображения страниц документов на области интереса согласно предпочтительному варианту осуществления настоящего изобретения.[0027] Figure 2 illustrates the sub-steps of the segmentation step (S101) of image pages of documents on areas of interest according to a preferred embodiment of the present invention.

[0028] На подэтапе (S101.1) способа заполняют цветом переднего плана горизонтальные серии пикселей фона, длины которых ниже некоторого предварительно установленного порогового значения.[0028] In the sub-step (S101.1) of the method, a horizontal series of background pixels whose lengths are below a certain predetermined threshold value are filled with the foreground color.

[0029] На подэтапе (S101.2) способа заполняют цветом переднего плана вертикальные серии пикселей фона, длины которых ниже некоторого предварительно установленного порогового значения. На подэтапе (S101.3) способа применяют операцию логическое ИЛИ к изображениям, полученным в результате упомянутых заполнений. На подэтапе (S101.4) способа извлекают компоненты связности из изображения, полученного в результате применения операции логическое ИЛИ.[0029] In the sub-step (S101.2) of the method, the vertical series of background pixels whose lengths are below a certain predetermined threshold value are filled with the foreground color. In the sub-step (S101.3) of the method, a logical OR operation is applied to the images obtained as a result of said fillings. In the sub-step (S101.4) of the method, the connected components are extracted from the image obtained as a result of applying the logical OR operation.

[0030] На подэтапе (S101.5) способа выбирают ограничительные рамки полученных в результате компонент связности в качестве областей интереса. Слишком маленькие ROI, площадь которых (в пикселях) менее 0,1% от всей площади изображения, но без ограничения упомянутым значением процента, могут быть отброшены.[0030] In the sub-step (S101.5) of the method, the bounding boxes of the resulting connected components are selected as areas of interest. Too small ROIs, whose area (in pixels) is less than 0.1% of the total image area, but without being limited to the percent value mentioned, can be discarded.

[0031] Используемый в предпочтительном варианте осуществления данных подэтапов алгоритм RLSO отличается от известного алгоритма RLSA тем, что первый использует логическую операцию ИЛИ между сглаженными по горизонтали и по вертикали изображениями вместо логической операции И. Таким образом, используемая в предпочтительном варианте осуществления настоящего изобретения модификация RLSO еще больше упрощает данные подэтапы, заменяя сложную оценку пороговых значений сглаживания вычислением 90-го и 80-го процентилей длин серий пикселей фона, соответственно, для горизонтального и вертикального сглаживания. Однако, специалист поймет, что в других вариантах осуществления вместо вышеуказанный процентилей могут быть использованы другие процентили длин серий пикселей фона, соответственно, для горизонтального и вертикального сглаживания, без выхода за рамки настоящего раскрытия.[0031] The RLSO algorithm used in the preferred embodiment of these sub-steps differs from the known RLSA algorithm in that the former uses a logical OR operation between horizontally and vertically smoothed images instead of logical operation I. Thus, the RLSO modification used in the preferred embodiment of the present invention simplifies these sub-steps even further, replacing the complex estimate of the smoothing thresholds by calculating the 90th and 80th percentile of the background pixel series lengths, respectively essentially for horizontal and vertical smoothing. However, one skilled in the art will understand that in other embodiments, instead of the above percentiles, other percentiles of the series of background pixels can be used, respectively, for horizontal and vertical smoothing, without going beyond the scope of the present disclosure.

[0032] Пример применения алгоритма RLSO к иллюстрациям патента проиллюстрирован на фигурах 5(а), 5(б), а на фигуре 6 проиллюстрированы области интереса (ROI), извлеченные из изображения страницы патента, в содержимом которой имеются как текст, так и иллюстрации. В целях иллюстрации на фигуре 5(б) позицией 501 показана компонента связности, а позицией 502 ограничительная рамка. В целях иллюстрации на фигуре 6 позицией 601 показана область интереса.[0032] An example of applying the RLSO algorithm to patent illustrations is illustrated in Figures 5 (a), 5 (b), and Figure 6 illustrates areas of interest (ROIs) extracted from an image of a patent page that contains both text and illustrations. . For purposes of illustration, in FIG. 5 (b), a connectivity component is shown at 501, and a bounding box at 502. For purposes of illustration, in figure 6, reference numeral 601 shows an area of interest.

[0033] Фигура 3 иллюстрирует подэтапы этапа извлечения (S102) признакового вектора для каждой области интереса согласно предпочтительному варианту осуществления настоящего изобретения.[0033] Figure 3 illustrates the sub-steps of the step of extracting (S102) a feature vector for each area of interest according to a preferred embodiment of the present invention.

[0034] На подэтапе (S102.1) способа изменяют размер области интереса до размера 500×500 пикселей с сохранением соотношения ее сторон. Другими словами, в предпочтительном варианте осуществления настоящего изобретения размер ROI изменяется на размер 500×500 пикселей, но без ограничения упомянутым значением размера, при сохранении пропорций такой ROI, то есть сначала ROI изменяют таким образом, чтобы больший размер (либо ширина, либо высота) был равен 500 пикселей, а затем по меньшему размеру область интереса (ROI) дополнялась до 500 пикселей, используя значение пикселя фона.[0034] In the sub-step (S102.1) of the method, the size of the region of interest is resized to a size of 500 × 500 pixels while maintaining its aspect ratio. In other words, in a preferred embodiment of the present invention, the ROI size is changed to a size of 500 × 500 pixels, but without limiting said size value, while maintaining the proportions of such ROI, that is, the ROI is first changed so that a larger size (either width or height) was 500 pixels, and then the smaller the area of interest (ROI) was padded to 500 pixels using the background pixel value.

[0035] На подэтапе (S102.2) способа извлекают компоненты связности из области интереса измененного размера и вычисляют их центроиды. Данный подэтап может включать в себя дополнительную операцию, на которой отфильтровывают компоненты связности, у которых ширина или высота ограничительных рамок менее 1%, но без ограничения упомянутым значением процента, от соответствующей размерности ROI измененного размера.[0035] In the sub-step (S102.2) of the method, the connected components are extracted from the region of interest of the resized size and their centroids are calculated. This sub-step may include an additional operation, on which connectivity components are filtered out, in which the width or height of the bounding boxes is less than 1%, but without limiting the mentioned percentage, of the corresponding dimension of the ROI of the resized size.

[0036] На подэтапе (S102.3) способа находят ближайших соседей для каждого центроида, а на подэтапе (S102.4) способа строят двумерную гистограмму нормализованных расстояний и углов для всех пар, состоящих из центроида и каждого из его пяти ближайших соседних центроидов. Двумерная гистограмма нормализованных расстояний и углов пар ближайших соседних центроидов отражает структуру взаимного расположения областей связности. В качестве расстояния между двумя центроидами используется евклидово расстояние между точками на двумерной плоскости, угол для пары центроидов вычисляется как угол между прямой, соединяющим эти центроиды и горизонтальной линией. Количество используемых на данных подэтапах ближайших соседей центроидов может изменяться. Однако, если количество центроидов слишком мало (скажем ниже 4), используется, по существу, равномерно распределенная гистограмма. В предпочтительном варианте осуществления данных подэтапов расстояния нормализуют путем деления на среднее расстояние всех пар ближайших соседних центроидов.[0036] In the sub-step (S102.3) of the method, the closest neighbors are found for each centroid, and in the sub-step (S102.4) of the method, a two-dimensional histogram of normalized distances and angles is constructed for all pairs consisting of the centroid and each of its five nearest neighboring centroids. The two-dimensional histogram of the normalized distances and angles of pairs of the nearest neighboring centroids reflects the structure of the mutual arrangement of the connected areas. As the distance between two centroids, the Euclidean distance between points on a two-dimensional plane is used, the angle for a pair of centroids is calculated as the angle between the straight line connecting these centroids and a horizontal line. The number of nearest centroids used in these sub-steps can vary. However, if the number of centroids is too small (say below 4), a substantially uniformly distributed histogram is used. In a preferred embodiment, these sub-steps are normalized by dividing by the average distance all pairs of the nearest neighboring centroids.

[0037] На подэтапе (S102.5) способа переформировывают двумерную гистограмму в Docstrum - признаковый вектор. На данном подэтапе двумерная гистограмма может быть дополнительно нормализована так, чтобы ее L₁-норма была равна 1. Docstrum - признаковый вектор, получаемый из двумерной гистограммы путем разворачивания ее в вектор на данном подэтапе и, в одном варианте осуществления, нормировки по L₁-норме может альтернативно именоваться Docstrum-дескриптором в целях кратности и ясности.[0037] In the sub-step (S102.5) of the method, the two-dimensional histogram is transformed into Docstrum, the feature vector. In this sub-step, the two-dimensional histogram can be additionally normalized so that its L ₁ -norm is equal to 1. Docstrum is a feature vector obtained from the two-dimensional histogram by expanding it into a vector in this sub-step and, in one embodiment, normalizing to L ₁ - Normally, it can alternatively be called a Docstrum descriptor for the sake of multiplicity and clarity.

[0038] Важно отметить, что изменение размера области интереса на подэтапе (S102.1) способа и нормализация расстояний при построении двумерной гистограммы на подэтапе (S102.4) способа отличает используемую в настоящем изобретении версию Docstrum-дескриптора от известного оригинального алгоритма, описанного в работе L. O'Gorman, «The Document Spectrum for Page Layout Analysis» IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 15, no. 11, pp. 1162-1173, 1993. Эти подэтапы используются в предпочтительном варианте осуществления заявленного способа для следующего: изменение размера ROI используется, чтобы уменьшить вычислительную сложность способа (поскольку большинство ROI имеют размеры намного больше, чем 500×500 пикселей), нормализация расстояний используется, чтобы сделать дескриптор инвариантным к масштабированию. Кроме того, сохранение соотношения сторон ROI при изменении ее размера на подэтапе (S102.1) способа используется для предотвращения перекоса распределения расстояний и углов вследствие неизотропного изменения размера ROI. Целевой размер ROI (в предпочтительном варианте осуществления - 500×500 пикселей) для использования на подэтапе изменения размера может быть выбран как компромисс между вычислительной сложностью дескриптора и сохранением деталей иллюстраций. Также может быть использован размер ROI 300×300 или любой размер ROI NxN, выбираемый из диапазона размеров ROI от 300×300 пикселей до 500×500 пикселей. Для того, чтобы построить двумерную гистограмму расстояний и углов в предпочтительном варианте осуществления способа используют 64 бина угла и 20 бинов расстояния, что приводит в результате к 1280-мерному признаковому вектору. «Бин» может быть определен как интервал гистограммы. Эти параметры могут быть выбраны как компромисс между размерностью дескриптора и его различающей способностью для различения текста и иллюстраций в изображениях документов.[0038] It is important to note that changing the size of the region of interest in the sub-step (S102.1) of the method and normalizing the distances when building a two-dimensional histogram in the sub-step (S102.4) of the method distinguishes the version of the Docstrum descriptor used in the present invention from the known original algorithm described in L. O'Gorman, “The Document Spectrum for Page Layout Analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence , vol. 15, no. 11, pp. 1162-1173, 1993. These sub-steps are used in a preferred embodiment of the inventive method for the following: resizing the ROI is used to reduce the computational complexity of the method (since most ROIs are much larger than 500 × 500 pixels), distance normalization is used to make handle invariant to scaling. In addition, maintaining the aspect ratio of the ROI when changing its size in the sub-step (S102.1) of the method is used to prevent distortion of the distribution of distances and angles due to non-isotropic change in the size of the ROI. The target ROI size (in the preferred embodiment, 500 × 500 pixels) for use in the resizing sub-step can be selected as a compromise between the computational complexity of the descriptor and the preservation of the details of the illustrations. A ROI size of 300 × 300 or any ROI NxN size selected from a range of ROI sizes from 300 × 300 pixels to 500 × 500 pixels may also be used. In order to construct a two-dimensional histogram of distances and angles in a preferred embodiment of the method, 64 angle bins and 20 distance bins are used, which results in a 1280-dimensional feature vector. A “bin” can be defined as a histogram interval. These parameters can be chosen as a compromise between the dimension of the descriptor and its distinguishing ability to distinguish between text and illustrations in images of documents.

[0039] Примеры пар ближайших соседних центроидов компонент связности для типичной ROI иллюстрации и типичной ROI текста показаны, соответственно, на фигурах 7 и 8. В целях иллюстрации на фигуре 7 позицией 701 показана пара ближайших соседних центроидов, а позициями 702 показаны соответствующие ей компоненты связности. В целях иллюстрации на фигуре 8 позицией 801 показана пара ближайших соседних центроидов, а позициями 802 показаны соответствующие ей компоненты связности.[0039] Examples of pairs of nearby neighboring centroids of connected components for a typical illustration ROI and typical text ROI are shown in figures 7 and 8, respectively. For purposes of illustration, figure 701 shows a pair of nearby neighboring centroids, and the corresponding connected components are shown at 702. . For purposes of illustration, in FIG. 8, reference numeral 801 shows a pair of nearest adjacent centroids, and reference numerals 802 show corresponding connected components.

[0040] Docstrum-дескрипторы (изображенные как одномерные гистограммы), вычисленные с использованием вышеуказанных предпочтительных параметров для тех же самых типичной ROI иллюстрации и типичной ROI текста с фигур 7 и 8 показаны, соответственно, на фигурах 9(а) и 9(б). Как можно видеть на фигурах 9(а) и 9(б), гистограмма для типичной ROI текста демонстрирует регулярно-разнесенные пики, в отличие от гистограммы для типичной ROI иллюстрации, которая выглядит намного более хаотичной.[0040] Docstrum descriptors (depicted as one-dimensional histograms) calculated using the above preferred parameters for the same typical ROI of the illustration and typical ROI of the text from figures 7 and 8 are shown, respectively, in figures 9 (a) and 9 (b) . As can be seen in figures 9 (a) and 9 (b), the histogram for a typical ROI text shows regularly spaced peaks, in contrast to the histogram for a typical ROI illustration, which looks much more chaotic.

[0041] Кроме того, в других вариантах осуществления настоящего изобретения размерность дескриптора может быть уменьшена (и, следовательно, вычислительная сложность вычисления и обработки дескриптора может быть уменьшена) путем дальнейшего уменьшения размера ROI и размерности гистограммы в бинах. Например, в варианте осуществления настоящего изобретения, в котором используют 16 бинов углов и 20 бинов расстояния, могут быть получены 320-мерные признаковые векторы. Docstrum-дескрипторы, использующие такие параметры и вычисленные для тех же самых типичных ROI, размер которых составляет 300×300 пикселей, проиллюстрированы на фигурах 10(а) и 10(б). Несмотря на то, что различающая способность таких дескрипторов с такими альтернативными параметрами видится ухудшенной (т.е. гистограмма для ROI текста имеет менее регулярную структуру), гистограммы по-прежнему являются достаточно подходящими для задачи отделения текста от иллюстраций согласно настоящему изобретению.[0041] In addition, in other embodiments of the present invention, the dimension of the descriptor can be reduced (and therefore the computational complexity of computing and processing the descriptor can be reduced) by further reducing the size of the ROI and the dimension of the histogram in bins. For example, in an embodiment of the present invention in which 16 angle bins and 20 distance bins are used, 320-dimensional feature vectors can be obtained. Docstrum descriptors using such parameters and calculated for the same typical ROIs, whose size is 300 × 300 pixels, are illustrated in figures 10 (a) and 10 (b). Despite the fact that the distinguishing ability of such descriptors with such alternative parameters seems to be degraded (i.e., the histogram for the text ROI has a less regular structure), the histograms are still quite suitable for the task of separating text from illustrations according to the present invention.

[0042] Фигура 4 иллюстрируют подэтапы этапа классифицирования (S103) каждого из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация согласно предпочтительному варианту осуществления настоящего изобретения. В общем, в предпочтительном варианте осуществления раскрытого способа этот этап (S103) осуществляют следующим образом: сначала, признаковые векторы дескриптора преобразуют с помощью аппроксимирующего ядро (kernel, скалярное произведение) отображения признаков, затем осуществляют кластеризацию полученных в результате преобразованных признаковых векторов, используя алгоритм мини-пакетных k-средних, затем осуществляют кластеризацию центроидов кластеров, полученных в результате выполнения предшествующего подэтапа, используя один из возможных более сложных алгоритмов кластеризации. Полученные в результате кластеры центроидов, по сути, агрегируют кластеры, соответствующие таким центроидам (выходные данные с кластеризации 1-го уровня), в суперкластер (который может именоваться как «больший кластер»). Наконец, полученные суперкластеры классифицируют посредством либо операции логического вывода разметки (Zero-Shot Label Inference), либо операции распространения разметки с частичным привлечением учителя (Semi-Supervised Label Propagation), которая использует подмножество размеченных признаковых векторов.[0042] Figure 4 illustrates the sub-steps of the classification step (S103) of each of the extracted feature vectors into one of two classes: text or illustration according to a preferred embodiment of the present invention. In general, in a preferred embodiment of the disclosed method, this step (S103) is carried out as follows: first, the attribute descriptor vectors are transformed using an approximating kernel (kernel, scalar product) of the attribute mapping, then the resultant transformed attribute vectors are clustered using the mini algorithm -batch k-means, then cluster the centroids of the clusters obtained as a result of the previous sub-stage, using one of the possible s more sophisticated algorithms for clustering. The resulting clusters of centroids, in fact, aggregate the clusters corresponding to such centroids (output from level 1 clustering) into a supercluster (which may be referred to as a “larger cluster”). Finally, the resulting superclusters are classified by either a Zero-Shot Label Inference or a semi-supervised Label Propagation that uses a subset of labeled feature vectors.

[0043] Для оценки качества классификации в настоящем изобретении к блок-схеме с фигуры 4 может быть добавлена параллельная ветвь оценки качества классификации как показано на фигуре 11. Более подробное описание этой ветви оценки качества классификации и результатов этой оценки приведено ниже со ссылкой на фигуру 11.[0043] In order to evaluate the classification quality in the present invention, a parallel branch of the classification quality assessment can be added to the flowchart of Figure 4 as shown in Figure 11. A more detailed description of this classification quality assessment branch and the results of this assessment is given below with reference to Figure 11 .

[0044] Ниже по тексту приводится подробное описание вариантов осуществления подэтапов этапа (S103).[0044] The following is a detailed description of embodiments of the sub-steps of step (S103).

[0045] На подэтапе (S103.1) способа осуществляют аппроксимирующее ядро преобразование признаковых векторов. Под «ядром» здесь понимается обобщенное действительное скалярное произведение, т.е. действительнозначная функция, определенная на парах признаковых векторов, являющаяся симметричной и положительно-определенной, но не обязательно линейной. Этот подэтап хоть и не является обязательным, но отличает способ классификации дескрипторов согласно настоящему изобретению от способов классификации дескрипторов, известных из уровня техники. Поскольку Docstrum-дескриптор представляет собой гистограмму, Евклидовы расстояния (или скалярные произведения), используемые на последующих подэтапах этапа (S103) не являются достаточно адекватными в качестве меры схожести признаковых векторов. Популярными ядрами [от англ. «a kernel»] для основанных на гистограммах дескрипторов, которые широко используются в областях машинного зрения и машинного обучения, являются ядра Хеллингера, χ², пересечения [от англ. «Intersection»] и Дженсена-Шеннона. Эти ядра описаны в работе A. Vedaldi, и A. Zisserman, «Efficient Additive Kernels via Explicit Feature Maps», IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 3, pp. 480-492, 2012 (Далее упоминаемая как «Vedaldi»). Упомянутые ядра вместе с соответствующими им расстояниями определены в таблице 1, в которую также включена мера Жаккара (адаптированная для гистограмм), которая, насколько известно автору настоящего изобретения, не является широко используемой в областях машинного зрения, но, как будет показано далее, заслуживает внимания в контексте целей настоящей заявки.[0045] In the sub-step (S103.1) of the method, the approximating core transforms the feature vectors. The “core" here refers to the generalized real scalar product, i.e. a real-valued function defined on pairs of feature vectors that is symmetric and positive definite, but not necessarily linear. This sub-step, although not required, distinguishes the method for classifying descriptors according to the present invention from the methods for classifying descriptors known in the art. Since the Docstrum descriptor is a histogram, the Euclidean distances (or scalar products) used in the subsequent sub-steps of step (S103) are not adequate enough as a measure of the similarity of feature vectors. Popular nuclei [from the English. “A kernel”] for histogram-based descriptors, which are widely used in the fields of machine vision and machine learning, are the Hellinger kernels, χ ² , intersections [from English "Intersection"] and Jensen-Shannon. These cores are described in A. Vedaldi, and A. Zisserman, Efficient Additive Kernels via Explicit Feature Maps, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 3, pp. 480-492, 2012 ( hereinafter referred to as “Vedaldi”). The cores mentioned along with their corresponding distances are defined in Table 1, which also includes the Jacquard measure (adapted for histograms), which, as far as the author of the present invention is known, is not widely used in the fields of machine vision, but, as will be shown below, deserves attention in the context of the purposes of this application.

Таблица 1Table 1 ^1one

Ориентированные на гистограммы ядра и расстоянияHistogram-oriented kernels and distances

¹Используется аддитивная версия χ²ядра.
KL - дивергенция Кульбака-Лейблера. ^{1 The} additive version of the χ ² core is used.
KL - Kullback-Leibler divergence.

[0046] Однако, поскольку последующий подэтап кластеризации первого уровня (S103.2)- с использованием мини-пакетных k-средних, в состоянии использовать только Евклидовы расстояния между признаковыми векторами, в способе необходимо осуществлять преобразование Docstrum-признаковых векторов, используя подходящее аппроксимирующее ядро отображение признаков. Такое отображение признаков может быть определено как следующее отображение Ψ: ℜ^D → ℜ^N, такое, что для любых x, y ∈ℜ^D: K (x, y) ≈〈Ψ(x), Ψ(y)〉, то есть линейное (Евклидово) скалярное произведение в преобразованном признаковом пространстве ℜ^N аппроксимирует нелинейное ядро K (x, y) в исходном признаковом пространстве ℜ^D. Поскольку положительно определенное ядро K (x, y) соответствует расстоянию D (x, y), заданному D² (x, y)=K (x, x)+K (y, y) - 2K (x, y), легко понять, что для любых x, y ∈ℜ^D: D²(x, y) ≈║ Ψ(x), Ψ(y)║², где ║·║² - квадрат Евклидова расстояния в ℜ^N, поэтому расстояние, соответствующее ядру, также аппроксимируется тем же самым отображением признаков.[0046] However, since the subsequent first-level clustering sub-step (S103.2), using mini-packet k-means, is able to use only Euclidean distances between feature vectors, it is necessary to convert Docstrum-feature vectors using a suitable approximating kernel display of signs. Such a mapping of features can be defined as the following mapping Ψ: ℜ^D → ℜ^Nsuch that for any x, y ∈ℜ^D: K (x, y) ≈ 〈Ψ (x), Ψ (y)〉, i.e., a linear (Euclidean) scalar product in the transformed attribute space ℜ^N approximates the nonlinear kernel K (x, y) in the original attribute space ℜ^D. Since the positive definite kernel K (x, y) corresponds to the distance D (x, y) given by D² (x, y) = K (x, x) + K (y, y) - 2K (x, y), it is easy to see that for any x, y ∈ℜ^D: D²(x, y) ≈║ Ψ (x), Ψ (y) ║²where ║ · ║² is the square of the Euclidean distance in ℜ^N, therefore, the distance corresponding to the core is also approximated by the same feature map.

[0047] Поскольку ядра Хеллингера, χ², пересечения и Дженсена-Шеннона являются аддитивными и γ-однородными, аппроксимирующие их отображения признаков могут быть выведены в аналитическом виде. Для ядра Хеллингера используется точное сохраняющее размерность отображение, которое берет квадратный корень каждой компоненты вектора, тогда как для ядер χ², пересечения и Дженсена-Шеннона используются аппроксимирующие отображения из вышеуказанной работы Vedaldi с 5 компонентами, что в результате приводит к отображению следующего вида Ψ: ℜ¹²⁸⁰→ ℜ⁶⁴⁰⁰ (5 раз 1280). Для признаковых векторов в используемом наборе данных такие отображения обеспечивают точность аппроксимации расстояния 6%.[0047] Since the Hellinger kernels, χ ² , intersections, and Jensen-Shannon are additive and γ-homogeneous, approximating their feature mappings can be derived in an analytical form. For the Hellinger kernel, an exact dimension-preserving mapping is used that takes the square root of each component of the vector, while for the kernels χ ² , intersection and Jensen-Shannon, approximating mappings from the above Vedaldi work with 5 components are used, which results in a mapping of the following form Ψ: ℜ ¹²⁸⁰ → ℜ ⁶⁴⁰⁰ (5 times 1280). For feature vectors in the used data set, these mappings provide a distance approximation accuracy of 6%.

[0048] В сравнении с другими ориентированными на гистограммы ядрами, ядро Жаккара не является ни аддитивным, ни γ-однородным (или стационарным), поэтому получение аппроксимирующего отображения признаков для него в аналитическом виде является гораздо более сложным. Таким образом, в настоящем изобретении для ядра Жаккара может быть использована сиамская нейронная сеть для обучения аппроксимирующего отображения признаков для этого ядра. Архитектура такой нейронной сети, используемой для обучения отображения признаков для аппроксимации ядра Жаккара, показана на фигуре 12. Заштрихованные слои сети на этой фигуре имеют разделяемые весовые коэффициенты и составляют отображение Ψ признаков, обученное этой сетью. Там, где имеет место размерность вывода слоя на фигуре 12, такая размерность приводится в круглых скобках.[0048] Compared to other histogram-oriented kernels, the Jacquard core is neither additive nor γ-homogeneous (or stationary), therefore, obtaining an approximate mapping of features for it in an analytical form is much more complicated. Thus, in the present invention, a Siamese neural network can be used for the Jacquard core to train an approximate mapping of features for this core. The architecture of such a neural network used to train feature mapping for approximating the Jacquard core is shown in Figure 12. The shaded network layers in this figure have shared weights and make up the feature map trained by this network. Where there is a dimension of the output layer in figure 12, this dimension is given in parentheses.

[0049] На вход сети подают два случайно выбранных Docstrum-признаковых вектора x и y (каждый из которых является 1280-мерным). Каждый из этих двух векторов подается на свой собственный полносвязный (FC) слой, имеющий в качестве активации параметрическое усеченное линейное преобразование (PReLU) и 5000 выходов. Активация PReLU может быть реализована в соответствии с работой K. He, X. Zhang, S. Ren и J. Sun, «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification» Proceedings of the IEEE International Conference on Computer Vision, pp. 1026-1034, 2015. Оба слоя FC+PReLU разделяют все весовые коэффициенты во время обучения, поэтому каждый из них фактически выполняет одно и то же отображение признаков Ψ: ℜ¹²⁸⁰→ ℜ⁵⁰⁰⁰, обучение которого проводится этой сетью. Выходы слоев FC+PReLU, Ψ(x) и Ψ(y), подаются на слой вычисления L₂-расстояния, который вычисляет квадрат Евклидова расстояния ║Ψ(x) - Ψ(y)║²и не содержит обучаемых параметров. Полученный в результате квадрат расстояния является выходом сети. Этот квадрат D²(x, y) расстояния ядра Жаккара используется в качестве целевого выхода во время обучения, тогда как средняя абсолютная ошибка в процентах (MAPE) используется в качестве функции потерь. Весовые коэффициенты FC-слоя могут быть инициализированы с помощью равномерной инициализации по методу Глоро, параметры PReLU могут быть инициализированы в нуль, а в качестве алгоритма оптимизации может быть использован Nesterov ADAM. После обучения в течение 300 эпох с использованием размера пакета, равного 10000 пар признаковых векторов, сеть достигает тестовой точности 7% (MAPE) в аппроксимации расстояния Жаккара, что сопоставимо с точностью аппроксимации других ядер.[0049] Two randomly selected Docstrum-sign vectors x and y (each of which is 1280-dimensional) are fed to the network input. Each of these two vectors is fed to its own fully connected (FC) layer, which has as its activation a parametric truncated linear transformation (PReLU) and 5000 outputs. PReLU activation can be implemented in accordance with the work of K. He, X. Zhang, S. Ren and J. Sun, "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification" Proceedings of the IEEE International Conference on Computer Vision , pp. 1026-1034, 2015. Both FC + PReLU layers share all weights during training, so each of them actually performs the same display of signs Ψ: ℜ ¹²⁸⁰ → ℜ ⁵⁰⁰⁰ , which is trained by this network. The outputs of the FC + PReLU layers, Ψ (x) and Ψ (y), are fed to the L ₂ -distance calculation layer, which calculates the square of the Euclidean distance ║Ψ (x) - Ψ (y) ║ ² and does not contain trained parameters. The resulting squared distance is the output of the network. This square D ² (x, y) of the Jacquard core distance is used as the target output during training, while the average absolute percentage error (MAPE) is used as a loss function. FC layer weights can be initialized using uniform initialization according to the Gloro method, PReLU parameters can be initialized to zero, and Nesterov ADAM can be used as an optimization algorithm. After training for 300 epochs using a packet size of 10,000 pairs of feature vectors, the network achieves a test accuracy of 7% (MAPE) in approximating the Jacquard distance, which is comparable to the accuracy of approximating other cores.

[0050] Важно отметить, что в настоящем изобретении по-прежнему используется Евклидово расстояние (которое также может именоваться «линейным ядром») для последующих подэтапов обработки признаковых векторов, наряду с другими вышеупомянутыми ядрами, и в случае с ним данный этап аппроксимации ядра не используется. Другими словами, вместе с перечисленными выше нелинейными ядрами используется обычное евклидово скалярное произведение (и соответствующее ему евклидово расстояние), оно же «линейное ядро». При его использовании этап аппроксимации не нужен.[0050] It is important to note that the present invention still uses the Euclidean distance (which may also be referred to as the "linear core") for subsequent sub-steps for processing feature vectors, along with the other cores mentioned above, and in the case of this, the kernel approximation step is not used . In other words, together with the non-linear kernels listed above, the usual Euclidean scalar product (and the corresponding Euclidean distance) is used, it is also the “linear core”. When using it, the approximation step is not needed.

[0051] На подэтапе (S103.2) способа осуществляют кластеризацию первого уровня преобразованных признаковых векторов с использованием алгоритма мини-пакетных k-средних для получения кластеров преобразованных признаковых векторов и их центроидов. Алгоритм мини-пакетных k-средних выбран для предпочтительного варианта осуществления данного подэтапа из-за его высокой производительности, пригодности для крупномасштабной обработки и, как правило, хорошего качества результирующей кластеризации.[0051] In the sub-step (S103.2) of the method, the first level of the transformed feature vectors is clustered using the mini-packet k-means algorithm to obtain clusters of the transformed feature vectors and their centroids. The mini-batch k-means algorithm has been selected for the preferred embodiment of this sub-step because of its high performance, suitability for large-scale processing, and, as a rule, the good quality of the resulting clustering.

[0052] Однако, этот алгоритм, как и стандартный алгоритм k-средних, не способен правильно обрабатывать невыпуклые или удлиненные кластеры, которые вполне могут образовываться при реализации поставленной в настоящем изобретении задачи. Эта гипотеза может быть проверена посредством запуска кластеризации по k-средним, выполненной с настройкой на вывод небольшого количества кластеров (от 2 до 10) в отношении преобразованных Docstrum-дескрипторов, и визуального осмотра ROI, соответствующих признаковым векторам получаемых в результате кластеров. Такая проверка демонстрирует, что получаемые в результате кластеры содержат смесь как ROI текста, так и ROI иллюстраций без явного преобладания одного из этих классов. Однако, при увеличении числа кластеров до 20 и выше, в выводимых кластерах начинают преобладать либо ROI текста, либо ROI иллюстраций, что подтверждает вышеописанную гипотезу, поскольку большее количество запрошенных кластеров позволяет алгоритму k-средних разделить невыпуклые или удлиненные кластеры текста или иллюстраций на меньшие выпуклые и изотропные субкластеры без значительного их смешения. Путем варьирования числа запрошенных кластеров от 2 до 1000 и визуального осмотра результатов, было обнаружено, что 100 кластеров являются оптимальным компромиссом между чистотой кластера и вычислительной сложностью кластеризации по k-средним. Таким образом, в предпочтительном варианте осуществления подэтапа (S103.2) способа кластеризацию первого уровня преобразованных признаковых векторов с использованием алгоритма мини-пакетных k-средних осуществляют для получения 100 соответствующих им кластеров и их центроидов.[0052] However, this algorithm, like the standard k-means algorithm, is not capable of correctly processing non-convex or elongated clusters, which may well be formed when implementing the task of the present invention. This hypothesis can be verified by starting k-means clustering, configured to output a small number of clusters (from 2 to 10) with respect to the converted Docstrum descriptors, and by visual inspection of the ROI corresponding to the characteristic vectors resulting from the clusters. This verification demonstrates that the resulting clusters contain a mixture of both the text ROI and the illustration ROI without the apparent predominance of one of these classes. However, when the number of clusters increases to 20 and higher, either text ROI or illustration ROI begin to prevail in the displayed clusters, which confirms the above hypothesis, since a larger number of requested clusters allows the k-means algorithm to divide non-convex or elongated clusters of text or illustrations into smaller convex and isotropic subclusters without significant mixing. By varying the number of requested clusters from 2 to 1000 and visual inspection of the results, it was found that 100 clusters are the optimal compromise between cluster purity and the computational complexity of clustering by k-means. Thus, in a preferred embodiment of the sub-step (S103.2) of the method, the clustering of the first level of the transformed feature vectors using the mini-packet k-means algorithm is performed to obtain 100 clusters corresponding to them and their centroids.

[0053] Как указано выше, на данном подэтапе алгоритм мини-пакетных k-средних, выполненный с возможностью вывода 100 кластеров с размером мини-пакета, составляющим 1000 признаковых векторов, за период в 100 эпох используется до тех пор, пока инерция мини-пакетов, усредненная по нескольким последним мини-пакетам, перестает существенно улучшаться.[0053] As indicated above, in this sub-step, the mini-packet k-means algorithm, configured to output 100 clusters with a mini-packet size of 1000 feature vectors, is used for a period of 100 eras until the inertia of the mini-packets , averaged over the last few mini-packages, ceases to improve significantly.

[0054] Примеры получаемых в результате кластеров (составленных из отдельных ROI, соответствующих признаковым векторам кластеров) показаны на фигуре 13. На фигуре 13 представлены три вида типичных кластеров: текстовый кластер, кластер иллюстраций и смешанный кластер. Видно, что текстовый кластер и кластер иллюстраций почти на 100% чисты (содержат ROI только одного класса - текст или иллюстрацию), в то время как в типичном смешанном кластере преобладает один класс и содержится не более 30% примеси из другого класса. Автором настоящего изобретения был проведен ручной анализ таких смешанных кластеров, который показал, что они содержат менее 10% всех признаковых векторов иллюстративного набора данных, поэтому общий процент примесей составляет менее 3%, чем можно безопасно пренебречь в контексте задачи настоящего изобретения. Таким образом, для дальнейшей обработки и анализа считаем, что кластеризация первого уровня выводит, по существу, чистые текстовые кластеры и кластеры иллюстраций.[0054] Examples of the resulting clusters (composed of separate ROIs corresponding to the feature vectors of the clusters) are shown in Figure 13. Figure 13 shows three types of typical clusters: a text cluster, an illustration cluster, and a mixed cluster. It can be seen that the text cluster and the cluster of illustrations are almost 100% pure (they contain the ROI of only one class - text or illustration), while in a typical mixed cluster one class predominates and contains no more than 30% admixture from another class. The author of the present invention carried out a manual analysis of such mixed clusters, which showed that they contain less than 10% of all the characteristic vectors of the illustrative data set, therefore, the total percentage of impurities is less than 3%, which can be safely neglected in the context of the task of the present invention. Thus, for further processing and analysis, we believe that first-level clustering results in essentially pure text clusters and illustration clusters.

[0055] Также следует отметить, что наименьшая примесь достигается при использовании ядра Жаккара, при использовании ядер χ² и Дженсена-Шеннона достигается значительно более высокая примесь, тогда как ядро пересечения и линейное ядро являются наихудшими с точки зрения кластерных примесей. Что касается ядра Хеллингера, так как оно обеспечивает результаты кластеризации даже хуже, чем у линейного ядра (не предлагая при этом никаких преимуществ по производительности), это ядро не используется для дальнейших подэтапов способа согласно настоящему изобретению (за исключением варианта осуществления заявленного способа с точным ядром).[0055] It should also be noted that the smallest impurity is achieved using the Jacquard core, when using the χ ² and Jensen-Shannon nuclei, a significantly higher impurity is achieved, while the intersection core and linear core are the worst in terms of cluster impurities. As for the Hellinger core, since it provides clustering results even worse than that of a linear core (without offering any performance advantages), this core is not used for further sub-steps of the method according to the present invention (with the exception of the embodiment of the inventive method with exact core).

[0056] На подэтапе (S103.3) способа осуществляют кластеризацию второго уровня центроидов кластеров, полученных на предшествующем подэтапе (S103.2), с использованием усовершенствованного алгоритма кластеризации для получения соответствующих им суперкластеров. Суперкластер именуется так, поскольку его размер превышает размер любого кластера, полученного на предшествующем подэтапе (S103.2).[0056] In the sub-step (S103.3) of the method, the second level of the centroids of the clusters obtained in the previous sub-step (S103.2) is clustered using an improved clustering algorithm to obtain their corresponding superclusters. The supercluster is named so because its size exceeds the size of any cluster obtained in the previous sub-step (S103.2).

[0057] Поскольку кластеризация по k-средним выдает выпуклые кластеры, которые имеют тенденцию быть изотропными и такая геометрия кластера, вероятнее всего, не соответствует геометрии кластеров Docstrum-признаковых векторов, которые соответствуют ROI текста и иллюстраций, необходимо агрегировать кластеры, полученные в результате кластеризации первого уровня, в суперкластеры с помощью алгоритма кластеризации, способного обрабатывать невыпуклые неизотропные кластеры. Поскольку большинство таких алгоритмов плохо масштабируется под наборы данных большого объема, автор настоящего изобретения решил применить их к центроидам кластеров, выдаваемых в результате кластеризации первого уровня, а не к гораздо более многочисленным фактическим признаковым векторам. Поскольку число таких центроидов составляет 100 (или менее), такое техническое решение позволяет избежать ограничения требованием пригодности для крупномасштабной обработки.[0057] Since k-means clustering yields convex clusters that tend to be isotropic, and such cluster geometry most likely does not match the cluster geometry of the Docstrum-feature vectors that correspond to the ROI of the text and illustrations, it is necessary to aggregate the clusters resulting from the clustering level one, into superclusters using a clustering algorithm capable of processing non-convex non-isotropic clusters. Since most of these algorithms do not scale well for large data sets, the author of the present invention decided to apply them to the centroids of clusters generated as a result of first-level clustering, and not to much more numerous actual feature vectors. Since the number of such centroids is 100 (or less), this technical solution avoids the limitation on the requirement of suitability for large-scale processing.

[0058] Для выполнения данного подэтапа (S103.3) было опробовано несколько алгоритмов кластеризации второго уровня: k-средних с инициализацией по k-средних++ (см., например, D. Arthur, and S. Vassilvitskii, ʺk-means++: The Advantages of Careful Seeding,ʺ Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, Society for Industrial and Applied Mathematics, pp. 1027-1035, 2007), распространение близости (см., например, B.J. Frey, and D. Dueck, ʺClustering by Passing Messages Between Data Points,ʺ Science, vol. 315, no. 5814, pp. 972-976, 2007), сдвиг среднего [ от англ. ʺmean shiftʺ] (см., например, D. Comaniciu, and P. Meer, ʺMean Shift: A Robust Approach toward Feature Space Analysis,ʺ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 5, pp. 603-619, 2002), спектральная кластеризация (см., например, A.Y. Ng, M.I. Jordan, and Y. Weiss, ʺOn Spectral Clustering: Analysis and an Algorithm,ʺ Advances in Neural Information Processing Systems, vol. 2, pp. 849-856, 2002), агломеративная кластеризация с использованием нескольких методов связи (см., например, D. Müllner, ʺModern Hierarchical, Agglomerative Clustering Algorithmsʺ, arXiv preprint arXiv:1109.2378, 2011), DBSCAN (см., например, M. Ester, H.P. Kriegel, J. Sander, and X. Xu, ʺA Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise,ʺ Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, vol. 96, no. 34, pp. 226-231, 1996.), иерархический DBSCAN (HDBSCAN) (см., например, R. J. Campello, D. Moulavi, и J. Sander, ʺDensity-Based Clustering Based on Hierarchical Density Estimatesʺ, Pacific-Asia Conference on Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp. 160-172, 2013), BIRCH (см., например, T. Zhang, R. Ramakrishnan и M. Livny, ʺBIRCH: An Efficient Data Clustering Method for Very Lange Databasesʺ, ACM Sigmod Record, vol. 25, no. 2, pp. 103-114, ACM, 1996) и одноклассовый SVM (см., например, B. Schölkopf, J.C. Platt, J. Shawe-Taylor, A.J. Smola, и R.C. Williamson, ʺEstimating the Support of a High-Dimensional Distribution,ʺ Neural Computation, vol. 13, no. 7, pp. 1443-1471, 2001) с использованием линейного, RBF- и сигмоидного ядер (которые фактически объединены с одним из ориентированных на гистограмму ядер, приведенных в Таблице 1, вследствие выполнения на подэтапе (S103.1) аппроксимирующего ядро признакового отображения). Следует отметить, что последний алгоритм из вышеперечисленных на самом деле является алгоритмом обнаружения новизны, который требует чистого набора данных для обучения, но было обнаружено, что он все же неплохо работает для задачи настоящего изобретения. Кроме того, также был опробован еще один алгоритм обнаружения новизны и выбросов, заключающийся в построении эллиптической огибающей для данных с использованием метода оценки минимального определителя ковариационной матрицы (P.J. Rousseeuw, and K.V. Driessen, ʺA Fast Algorithm for the Minimum Covariance Determinant Estimator,ʺ Technometrics, vol. 41, no. 3, pp. 212-223, 1999), однако, он не сработал, поскольку распределение данных в иллюстративном наборе не унимодальное и не симметричное.[0058] To perform this sub-step (S103.3), several second-level clustering algorithms were tested: k-means with initialization by k-means ++ (see, for example, D. Arthur, and S. Vassilvitskii, ʺk-means ++: The Advantages of Careful Seeding, ʺ Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms , Society for Industrial and Applied Mathematics, pp. 1027-1035, 2007), proximity propagation (see, e.g., BJ Frey, and D. Dueck, "Clustering by Passing Messages Between Data Points, "Science, vol. 315, no. 5814, pp. 972-976, 2007), middle shift [from eng. ʺMean shiftʺ] (see, for example, D. Comaniciu, and P. Meer, ʺMean Shift: A Robust Approach toward Feature Space Analysis, ʺ IEEE Transactions on Pattern Analysis and Machine Intelligence , vol. 24, no. 5, pp. 603 -619, 2002), spectral clustering (see, for example, AY Ng, MI Jordan, and Y. Weiss, nOn Spectral Clustering: Analysis and an Algorithm, ʺ Advances in Neural Information Processing Systems , vol. 2, pp. 849- 856, 2002), agglomerative clustering using several communication methods (see, e.g., D. Müllner, dernModern Hierarchical, Agglomerative Clustering Algorithmsʺ, arXiv preprint arXiv: 1109.2378 , 2011), DBSCAN (see, for example, M. Ester, HP Kriegel, J. Sander, and X. Xu, ʺA Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, ʺ Proceedings of the 2nd International Conference on Knowledge Discovery an d Data Mining , vol. 96, no. 34, pp. 226-231, 1996.), hierarchical DBSCAN (HDBSCAN) (see, e.g., RJ Campello, D. Moulavi, and J. Sander, ensDensity-Based Clustering Based on Hierarchical Density Estimatesʺ, Pacific-Asia Conference on Knowledge Discovery and Data Mining , Springer Berlin Heidelberg, pp. 160-172, 2013), BIRCH (see, e.g., T. Zhang, R. Ramakrishnan and M. Livny, ʺBIRCH: An Efficient Data Clustering Method for Very Lange Databasesʺ, ACM Sigmod Record , vol. 25, no. 2, pp. 103-114, ACM, 1996) and a single-class SVM (see, e.g., B. Schölkopf, JC Platt, J. Shawe-Taylor, AJ Smola, and RC Williamson, st Estimating the Support of a High-Dimensional Distribution, ʺ Neural Computation , vol. 13, no. 7, pp. 1443-1471, 2001) using linear, RBF- and sigmoidal nuclei (which are actually combined with one of the histogram-oriented nuclei shown in Table 1, due to the execution in a sub-stage ( S103.1) approximating the core of the feature map). It should be noted that the last algorithm of the above is actually a novelty detection algorithm that requires a clean dataset for training, but it was found that it still works well for the task of the present invention. In addition, another novelty and outlier detection algorithm was also tested, which consists in constructing an elliptical envelope for data using the method of estimating the minimum determinant of the covariance matrix (PJ Rousseeuw, and KV Driessen, ʺA Fast Algorithm for the Minimum Covariance Determinant Estimator, ʺ Technometrics , vol. 41, no. 3, pp. 212-223, 1999), however, it did not work, because the distribution of data in the illustrative set is not unimodal and not symmetrical.

[0059] Необходимо отметить, что поскольку для ядер χ², пересечения, Дженсена-Шеннона и Жаккара размерность преобразованного признакового пространства в несколько раз превышает размерность исходного Docstrum-дескриптора, кластеризация первого уровня для этих ядер, которая является самой затратной по времени в раскрытом способе, занимает в 2-3 раза больше времени, чем для линейного ядра (т.е. для исходных Docstrum-признаковых векторов). Таким образом, одним из очевидных способов улучшить вычислительную производительность раскрытого способа является пропуск подэтапа (S103.1) способа, на котором осуществляют аппроксимирующее ядро преобразование признаковых векторов, но использование одного из ориентированных на гистограмму ядер во время кластеризации второго уровня на описываемом в данный момент подэтапе (S103.3). Этого можно достичь с помощью алгоритма кластеризации, который может принимать на вход матрицу ядер (или матрицу расстояний для основанных на расстояниях алгоритмов) вместо признаковых векторов, поскольку такая матрица для центроидов кластеров, выдаваемых в результате кластеризации первого уровня, существенно меньше (всего 100×100), чем для крупномасштабного набора данных, подаваемого на вход подэтапа кластеризации первого уровня (который может содержать миллионы векторов). Такие алгоритмы могут включать в себя распространение близости, агломеративную кластеризацию с использованием методов одиночной, полной, средней и взвешенной связи, DBSCAN, HDBSCAN, одноклассовый SVM и спектральную кластеризацию. Тут необходимо отметить, что в варианте осуществления с точным ядром могут использоваться все те же ядра, что и в варианте с аппроксимированным ядром. В случае варианта осуществления с точным ядром матрица ядер/расстояний может быть вычислена напрямую, как матрица (точных) попарных ядер/расстояний для всех пар центроидов, полученных методом мини-пакетных k-средних (то есть K_ij=K(c_i, c_j), где K_ij - элемент матрицы ядер/расстояний на пересечении i-ой строки и j-го столбца, K(c_i, c_j) -ядро/расстояние между i-ым и j-ым центроидами), затем эта матрица может подаваться на вход алгоритма кластеризации второго уровня: размер ее может составлять, но без ограничения упомянутым значением, 100×100, а перечисленные выше алгоритмы выполнены с возможностью использования этой матрицы, точнее, часть из упомянутых алгоритмов может использовать матрицу ядер (все, кроме DBSCAN, HDBSCAN), остальные - матрицу расстояний (DBSCAN, HDBSCAN). До этапа аппроксимации ядра варианты с точным и аппроксимированным ядром полностью идентичны, т.е. точно так же извлекаются признаковые вектора. Поскольку в этом варианте осуществления используются точные ядра и расстояния, применяемые к парам Docstrum-признаковых векторов, а не их приближения, данный вариант осуществления именуется в дальнейшем «вариант с точным ядром», в отличие от «варианта с аппроксимированным ядром», который был описан выше. В настоящем изобретении могут быть использованы как «вариант с точным ядром», так и «вариант с аппроксимированным ядром». Результаты работы и сравнение характеристик этих вариантов будут приведены ниже.[0059] It should be noted that since for the χ ² nuclei, the intersection, Jensen-Shannon and Jacquard, the dimension of the transformed feature space is several times higher than the dimension of the original Docstrum descriptor, the first level clustering for these nuclei, which is the most time-consuming in the disclosed method , takes 2-3 times longer than for a linear core (i.e., for the original Docstrum-sign vectors). Thus, one of the obvious ways to improve the computing performance of the disclosed method is to skip the sub-step (S103.1) of the method in which the approximating kernel transforms the feature vectors, but using one of the histogram-oriented kernels during second-level clustering in the currently described sub-step (S103.3). This can be achieved using the clustering algorithm, which can take an input matrix of nuclei (or a distance matrix for distance-based algorithms) instead of feature vectors, since such a matrix for centroids of clusters produced as a result of first-level clustering is much smaller (only 100 × 100 ) than for a large-scale data set fed to the input of the first-level clustering sub-stage (which may contain millions of vectors). Such algorithms may include proximity propagation, agglomerative clustering using single, full, medium, and weighted communication methods, DBSCAN, HDBSCAN, single-class SVM, and spectral clustering. It should be noted here that in the embodiment with the exact core all the same kernels can be used as in the embodiment with the approximated core. In the case of an embodiment with an exact kernel, the kernel / distance matrix can be directly calculated as a matrix of (exact) pairwise kernels / distances for all pairs of centroids obtained by the mini-packet k-means method (i.e., K _ij = K (c _i , c _j ), where K _ij is the element of the kernel / distance matrix at the intersection of the i-th row and the j-th column, K (c _i , c _j ) is the core / distance between the i-th and j-th centroids), then this matrix can be fed to the input of a second-level clustering algorithm: its size can be, but without limitation by the mentioned value, 100 × 100, and the listed the above algorithms are made with the possibility of using this matrix, more precisely, some of the mentioned algorithms can use the kernel matrix (all except DBSCAN, HDBSCAN), the rest - the distance matrix (DBSCAN, HDBSCAN). Prior to the kernel approximation stage, the variants with the exact and approximated kernels are completely identical, i.e. in the same way feature vectors are extracted. Since this embodiment uses exact kernels and distances applied to pairs of Docstrum-sign vectors rather than their approximations, this embodiment is hereinafter referred to as the “exact kernel variant”, as opposed to the “approximated kernel variant” that has been described above. In the present invention, both the “exact kernel variant” and the “approximated kernel variant” can be used. The results of the work and a comparison of the characteristics of these options will be given below.

[0060] Для каждого из алгоритмов кластеризации второго уровня автор настоящего изобретения варьировал самые важные параметры в широком диапазоне, чтобы найти комбинации значений параметров, обеспечивающих наилучшую производительность в отношении точности, полноты и F₁-показателей. Нижеследующая таблица 2 иллюстрирует эти варьируемые параметры и диапазоны их значений для алгоритмов кластеризации второго уровня. Также необходимо обратить внимание, что для агломеративной кластеризации использовались как неструктурированные, так и структурированные варианты, причем в последнем из упомянутых использовалась матрица связности, вычисленная по графу k-соседей.[0060] For each of the second level clustering algorithms, the author of the present invention varied the most important parameters over a wide range to find combinations of parameter values that provide the best performance in terms of accuracy, completeness and F ₁ indicators. The following table 2 illustrates these variable parameters and their ranges of values for second level clustering algorithms. It is also necessary to pay attention that both unstructured and structured variants were used for agglomerative clustering, with the connectivity matrix calculated from the k-neighbor graph being used in the last of the mentioned ones.

Таблица 2table 2

Варьируемые параметры алгоритмов кластеризации второго уровняVariable Level 2 Clustering Algorithm Parameters

АлгоритмAlgorithm ПараметрParameter ДиапазонRange ОписаниеDescription Распространение близостиProximity spread DFDf 0,5 ÷ 10.5 ÷ 1 Коэффициент затуханияAttenuation coefficient Агломеративная кластеризация² Agglomerative clustering ² N_clusters N _clusters 2 ÷ 1002 ÷ 100 Число кластеров для поискаThe number of clusters to search K_neighbors K _neighbors 1 ÷ 201 ÷ 20 Число ближайших соседей для вычисления матрицы связностиThe number of nearest neighbors to calculate the connectivity matrix BIRCHBirch RTRT 10^-4 ÷ 0,510 ^-4 ÷ 0.5 Пороговое значение радиуса субкластера для создания нового субкластераThreshold value of the radius of the subcluster to create a new subcluster BFBf 2 ÷ 202 ÷ 20 Максимальное число субкластеров в каждом узлеMaximum number of subclusters per node N_clusters N _clusters 2 ÷ 502 ÷ 50 Число кластеров после финальной стадии кластеризацииThe number of clusters after the final stage of clustering DBSCANDBSCAN ɛɛ 10^-3 ÷ 110 ^-3 ÷ 1 Радиус окрестностиNeighborhood radius N_samples N _samples 1 ÷ 301 ÷ 30 Число точек в окрестности базовой точкиThe number of points in the vicinity of the base point HDBSCANHDBSCAN N_minsize N _minsize 2 ÷ 302 ÷ 30 Минимальный размер кластераMinimum Cluster Size N_samples N _samples 1 ÷ 301 ÷ 30 Число точек в окрестности базовой точкиThe number of points in the vicinity of the base point k-среднихk-means N_clusters N _clusters 2 ÷ 502 ÷ 50 Число кластеровNumber of clusters Сдвиг среднегоAverage shift BWBw 10^-4 ÷ 110 ^-4 ÷ 1 Ширина полосы, используемая в RBF-ядреBandwidth used in RBF core Одноклассовый SVM³ Class One SVM ³ νν 0,05 ÷ 0,50.05 ÷ 0.5 Верхняя граница доли ошибок обученияThe upper limit of the share of learning errors γγ 0,2 ÷ 0,80.2 ÷ 0.8 Коэффициент ядра для RBF- и сигмоидного ядерKernel coefficient for RBF and sigmoid nuclei Спектральная кластеризация⁴ Spectral Clustering ⁴ N_clusters N _clusters 2 ÷ 502 ÷ 50 Размерность подпространства проекцииProjection subspace dimension ²Используемые методы связи: одиночный, полный, средний, взвешенный, Уорда, центроидный и медианный.
³Используемые SVM-ядра: линейное, RBF- и сигмоидное.
⁴Используемые стратегии назначения меток: k-средних и дискретизация. ² Communication methods used: single, full, medium, weighted, ward, centroid and median.
³ Used SVM kernels: linear, RBF and sigmoid.
⁴ Labeling strategies used: k-means and discretization.

[0061] На подэтапе (S103.4) способа проверяют, больше ли число полученных суперкластеров, чем два.[0061] In the sub-step (S103.4) of the method, it is checked whether there are more than two superclusters obtained.

[0062] На подэтапе (S103.4.1) способа если число полученных суперкластеров равно двум, используют операцию логического вывода разметки для классификации каждого из этих двух суперкластеров в один из двух классов: текст или иллюстрация.[0062] In the sub-step (S103.4.1) of the method, if the number of received superclusters is two, the markup inference operation is used to classify each of these two superclusters into one of two classes: text or illustration.

[0063] Или на подэтапе (S103.4.2) способа если число полученных суперкластеров больше двух, используют операцию распространения разметки с частичным привлечением учителя для классификации каждого из этих суперкластеров в один из двух классов: текст или иллюстрация.[0063] Or in a sub-step (S103.4.2) of the method, if the number of received superclusters is more than two, use the markup distribution operation with a partial involvement of the teacher to classify each of these superclusters into one of two classes: text or illustration.

[0064] Подэтап (S103.3) кластеризации второго уровня как правило выдает небольшое число суперкластеров. Чтобы классифицировать эти суперкластеры в класс «текст» или «иллюстрация», в настоящем изобретении используется дополнительный источник информации об этих классах. В зависимости от вывода с подэтапа (S103.3) кластеризации второго уровня в раскрытом способе используются два режима назначения разметки суперкластера: 1) режим логического вывода разметки (S103.4.1) используют, когда два суперкластера выведено с подэтапа (S103.3), 2) иначе используют режим распространения разметки с частичным привлечением учителя (S103.4.2) (т.е. когда с подэтапа (S103.3) выведено более 2 суперкластеров). Число выведенных суперкластеров может быть проверено на (опциональном) подэтапе (S103.4) способа, на котором проверяют, больше ли число полученных суперкластеров кластеров, чем два.[0064] The second-level clustering sub-step (S103.3) typically produces a small number of superclusters. To classify these superclusters into a text or illustration class, the present invention uses an additional source of information about these classes. Depending on the output from the second-level clustering sub-step (S103.3), the disclosed method uses two supercluster layout assignment modes: 1) the layout logical output mode (S103.4.1) is used when two super-clusters are withdrawn from the sub-step (S103.3), 2 ) otherwise, use the markup distribution mode with partial involvement of the teacher (S103.4.2) (i.e. when more than 2 superclusters are removed from the sub-step (S103.3)). The number of deduced superclusters can be checked in the (optional) sub-step (S103.4) of the method in which it is checked whether the number of obtained superclusters of clusters is greater than two.

[0065] В режиме логического вывода разметки используют общую статистическую информацию о классах: например, в случае ROI из патентных документов используют наблюдение, что ROI текста количественно преобладают, таким образом, больший из двух суперкластеров может быть классифицирован как текстовый суперкластер, в то время как меньший из этих двух суперкластеров будет соответствовать суперкластеру иллюстраций.[0065] In markup inference mode, general class statistics are used: for example, in the case of ROIs from patent documents, it is observed that the ROIs of the text are quantitatively predominant, so the larger of the two superclusters can be classified as a text supercluster, while the smaller of the two superclusters will correspond to the illustration supercluster.

[0066] В режиме распространения разметки с частичным привлечением учителя может быть использовано небольшое размеченное подмножество набора исходных данных, полученное из наблюдения, что имеется некоторое число патентных документов без иллюстраций (фигур), которые могут быть с легкостью идентифицированы по отсутствию в их полнотекстовых версиях выражений ʺfigʺ, ʺфигʺ, ʺdrawingʺ, ʺчертежʺ, ʺ##strʺ, но без ограничения упомянутыми выражениями. Все ROI (и их соответствующие Docstrum-признаковые векторы) из таких патентов размечают как текстовые. Затем для каждого суперкластера может быть вычислена его «насыщенность текстом», то есть доля его ROI, которые принадлежат к этому размеченному как текст подмножеству. Классификацию суперкластера затем выполняют как разметку суперкластеров, имеющих насыщенность текстом выше некоторого порогового значения, как соответствующих ROI текста, и разметку оставшихся суперкластеров как соответствующих ROI иллюстраций (тем самым осуществляют распространение текстовой разметки с упомянутого небольшого размеченного подмножества на весь суперкластер, имеющий высокую насыщенность текстом). Значение упомянутого порогового значения может быть вычислено как процентиль насыщенностей текстом всех суперкластеров, тогда как само значение процентиля может варьироваться от 0 до 100% вместе с параметрами алгоритма кластеризации второго уровня (см. подробное описание подэтапа S103.3 выше). Поскольку содержащие только текст патентные документы содержат ROI текста, которые являются достаточно репрезентативными для всего набора ROI текста патентных документов, то есть содержат все классы текстовых областей, специфичных для патентных документов (текст заголовка, текст таблицы, регулярные текстовые поля и т. д.), такое распространение разметки демонстрирует хорошие результаты в контексте решения задачи настоящего изобретения.[0066] In the markup distribution mode with partial involvement of the teacher, a small marked-up subset of the source data set obtained from the observation that there are a number of patent documents without illustrations (figures) that can be easily identified by the absence of expressions in their full-text versions can be used ʺFigʺ, ʺfigʺ, ʺdrawingʺ, ʺDrawingʺ, ʺ ## strʺ, but without limitation by the above expressions. All ROIs (and their corresponding Docstrum-tag vectors) from such patents are marked as textual. Then for each supercluster its “text saturation” can be calculated, that is, the proportion of its ROI that belong to this subset marked as text. The classification of the supercluster is then performed as markup of superclusters having text saturation above a certain threshold value, as corresponding text ROI, and markup of the remaining superclusters as corresponding ROI of illustrations (thereby distributing text markup from the said small marked subset to the entire supercluster having high text saturation) . The value of the mentioned threshold value can be calculated as the percentile of text saturations of all superclusters, while the percentile value itself can vary from 0 to 100% together with the parameters of the second level clustering algorithm (see the detailed description of sub-step S103.3 above). Since text-only patent documents contain text ROIs that are representative enough for the entire set of text patent ROIs, that is, they contain all classes of text areas specific to patent documents (heading text, table text, regular text fields, etc.) , such distribution of markup demonstrates good results in the context of solving the problem of the present invention.

[0067] Следует отметить, что режим логического вывода разметки вообще не использует никаких размеченных данных, а только общую априорную информацию о распределении ROI текста и иллюстраций в наборе данных. Режим же распространения разметки с частичным привлечением учителя использует лишь небольшое подмножество (менее 1% всех данных) набора данных, размеченное как данные, принадлежащие некоторому одному классу (ROI текста в вышеописанном предпочтительном варианте), с использованием дополнительной побочной информации. Следует отметить, что режим распространения разметки именно с частичным привлечением учителя, а не с полным привлечением учителя, именуется так, поскольку в нем применяются размеченные данные только для одного класса из двух интересуемых.[0067] It should be noted that the markup inference mode does not use any tagged data at all, but only general a priori information about the distribution of text ROI and illustrations in the data set. The distribution mode of the markup with the partial involvement of the teacher uses only a small subset (less than 1% of all data) of the data set, marked as data belonging to a single class (text ROI in the preferred option described above), using additional collateral information. It should be noted that the distribution mode of the markup precisely with the partial involvement of the teacher, and not with the full involvement of the teacher, is called so, since it uses marked-up data for only one class of the two interested.

[0068] Фигура 11 иллюстрирует подэтапы этапа классифицирования (S103) каждого из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация, с добавленной ветвью оценки качества классификации. Данная фигура 11 соответствует фигуре 4, за исключением того, что к ней добавлена ветвь оценки качества классификации, обеспечиваемая подэтапами S103.5 и S103.6. Таким образом, повторное описание подэтапов S103.1 - S103.4 здесь приводиться не будет в целях ясности и краткости. На подэтапе (S103.5) способа размечают кластер вручную. На подэтапе (S103.6) способа сравнивают разметку, предсказанную способом, с разметкой, обеспеченной вручную, и вычисляют на основе этого сравнения показатель полноты, показатель точности и F₁-показатель. Далее приведены и подробно описаны результаты оценки качества классификации раскрытым в настоящей заявке способом.[0068] Figure 11 illustrates the sub-steps of the classification step (S103) of each of the extracted feature vectors in one of two classes: text or illustration, with the added branch of the classification quality assessment. This figure 11 corresponds to figure 4, except that it added a branch of the classification quality assessment provided by the sub-steps S103.5 and S103.6. Thus, a repeated description of the sub-steps S103.1 to S103.4 will not be provided here for purposes of clarity and conciseness. In the sub-step (S103.5) of the method, manually cluster the cluster. In the sub-step (S103.6) of the method, the markings predicted by the method are compared with the markings provided manually, and the completeness index, the accuracy index and the F ₁ parameter are calculated based on this comparison. The following are presented and described in detail the results of evaluating the quality of classification disclosed in this application method.

[0069] Чтобы количественно оценить качество разделения текста и иллюстраций, обеспечиваемое в различных вариантах осуществления настоящего изобретения, необходима однозначно истинная разметка набора данных. Классификация всех страниц патентных документов в виде либо текстовых, либо содержащих иллюстрации, доступная в USPTO или Google Patents, не обеспечивает точной разметки ROI, поскольку страница патентного документа может содержать ROI обоих классов: например, страницы иллюстраций содержат текстовые элементы (номера патентов, позиционные обозначения, подписи и т. д.), а страницы текста патентных документов, связанных с химией, часто содержат иллюстрации химических составов, смешанные с текстовыми областями. Другая мотивация не использовать внешнюю разметку заключается в том, что может отсутствовать внешний источник такой разметки для других классов документов, требующих разделения текста и иллюстраций согласно настоящему изобретению.[0069] In order to quantify the quality of the separation of text and illustrations provided in various embodiments of the present invention, uniquely true markup of the data set is necessary. Classification of all pages of patent documents as either textual or containing illustrations, available in the USPTO or Google Patents, does not provide accurate ROI marking, since a page of a patent document can contain both classes of ROI: for example, illustration pages contain text elements (patent numbers, reference designations , signatures, etc.), and pages of text of patent documents related to chemistry often contain illustrations of chemical compositions mixed with text areas. Another motivation not to use external markup is that there may be no external source of such markup for other classes of documents requiring the separation of text and illustrations according to the present invention.

[0070] Таким образом, для целей оценки качества классификации используется правильная разметка, полученная вручную путем визуального осмотра и разметки случайных подмножеств ROI для каждого из кластеров, полученных в результате выполнения подэтапа (S103.2) кластеризации первого уровня (это становится возможно из-за относительно небольшого количества кластеров, выводимых с данного подэтапа). Поскольку, как упомянуто выше, в большинстве этих кластеров преобладают ROI одного класса (текст или иллюстрация), все ROI таких кластеров размечают как принадлежащие к упомянутому преобладающему классу этого кластера. Как отмечено ранее, такой подход будет страдать от неточной разметки в приемлемо малой степени (менее нескольких процентов ошибочно размеченных ROI).[0070] Thus, for the purpose of assessing the quality of classification, the correct markup is used, obtained manually by visual inspection and marking up random subsets of ROI for each of the clusters obtained as a result of the first-stage clustering sub-step (S103.2) (this becomes possible due to relatively small number of clusters deduced from this sub-step). Since, as mentioned above, the majority of these clusters are dominated by the ROI of one class (text or illustration), all ROIs of such clusters are labeled as belonging to the said prevailing class of this cluster. As noted earlier, this approach will suffer from inaccurate markup to an acceptably small degree (less than a few percent of the erroneously labeled ROIs).

[0071] Вручную разметив все ROI в наборе данных, оценивают качество разделения текста и иллюстраций с использованием широко используемых метрик качества классификации, таких как полнота, точность и F₁-показатель, вычисляемых путем сравнения меток, предсказанных раскрытым способом, и меток, обеспеченных ручной маркировкой (далее ROI иллюстраций рассматриваются как положительные образцы и ROI текста как отрицательные). Однако, следует отметить, что представленные ниже результаты по упомянутым метрикам являются приблизительными в силу вышеупомянутой неточной разметки, хоть и в приемлемо малой степени.[0071] Manually marking all the ROIs in the data set, the quality of the separation of text and illustrations is estimated using widely used classification quality metrics, such as completeness, accuracy, and F ₁ score, calculated by comparing the marks predicted by the disclosed method and the marks provided by manual labeling (hereinafter, the ROI of the illustrations are considered as positive patterns and the ROI of the text as negative). However, it should be noted that the results presented below for the mentioned metrics are approximate due to the aforementioned inaccurate marking, albeit in an acceptably small degree.

[0072] Следует отметить, что ручная маркировка использовалась только для оценки качества классификации и для поиска оптимальных параметров заявленного способа, тогда как сам способ является полностью автоматическим и не полагается на какую-либо ручную работу.[0072] It should be noted that manual marking was used only to assess the quality of classification and to search for the optimal parameters of the claimed method, while the method itself is fully automatic and does not rely on any manual work.

Условия проведения экспериментовExperimental conditions

[0073] Использовалась реализация способа на языке Python с применением пакетов NumPy и SciPy. Scikit-learn и fastcluster использовались для реализации этапов аппроксимации ядра и кластеризации, а Keras использовался для построения и обучения сиамской нейронной сети, тогда как данные изображения и дескриптора были сохранены в формате HDF5 с использованием пакета PyTables. Scikit-image использовался для операций обработки изображений.[0073] An implementation of the Python method was used using the NumPy and SciPy packages. Scikit-learn and fastcluster were used to implement the stages of kernel approximation and clustering, while Keras was used to build and train the Siamese neural network, while the image and descriptor data were saved in HDF5 format using the PyTables package. Scikit-image was used for image processing operations.

[0074] В тестовой системе использовался 8-ядерный процессор AMD FX-8350 и графический процессор NVIDIA GeForce GTX 780 (использовался для обучения нейронной сети).[0074] The test system used an 8-core AMD FX-8350 processor and an NVIDIA GeForce GTX 780 graphics processor (used to train a neural network).

[0075] Набор данных, используемый для этих экспериментов, состоял из 12100 случайно выбранных патентов, загруженных с сайта USPTO (без каких-либо ограничений по теме). Патенты были взяты за период с 2005 по 2013 год. Такой подход привел к весьма разнообразному набору патентных иллюстраций из самых разных областей (электроника, строительство, оборудование, химия и т. д.). В общей сложности 1,1 миллиона ROI было извлечено из страниц этих патентов в результате выполнения этапа S101 раскрытого способа. Из этих 12100 патентов только 197 были только текстовыми патентами, из которых были извлечены 10458 ROI текста (менее 1% от всех ROI).[0075] The data set used for these experiments consisted of 12,100 randomly selected patents downloaded from the USPTO website (without any restriction on the subject). Patents were taken from 2005 to 2013. This approach has led to a very diverse set of patent illustrations from a wide range of fields (electronics, construction, equipment, chemistry, etc.). A total of 1.1 million ROI was extracted from the pages of these patents as a result of step S101 of the disclosed method. Of these 12,100 patents, only 197 were text-only patents, of which 10,458 text ROIs were extracted (less than 1% of all ROIs).

Время работы отдельных этапов, подэтапов и их реализацийThe operating time of individual stages, sub-stages and their implementations

[0076] Самая трудоемкая часть раскрытого способа заключалась в обучении сиамской нейронной сети для получения аппроксимирующего ядро отображения для ядра Жаккара (более 20 часов). Вычисление Docstrum-дескриптора и преобразование Docstrum-признаковых векторов с использованием аппроксимирующего ядро признакового отображения заняло около 1,5 часов. Кроме того, подэтап (S103.2) кластеризации первого уровня занял около 3 часов для линейного ядра, около 7 часов для каждого из ядер χ², пересечения, Дженсена-Шеннона и около 10,5 часов для ядра Жаккара. Все последующие подэтапы (кластеризация второго уровня (S103.2) и классификация суперкластеров (S103.4, S103.4.1, S103.4.2) заняли пренебрежимо малое время (несколько секунд) по сравнению с предыдущими подэтапами. Таким образом, большая часть времени потреблялась кластеризацией первого уровня (особенно при использовании нелинейного ядра).[0076] The most time-consuming part of the disclosed method was to train the Siamese neural network to obtain an approximating mapping core for the Jacquard core (more than 20 hours). The calculation of the Docstrum descriptor and the conversion of the Docstrum tag vectors using an approximating core of the tag mapping took about 1.5 hours. In addition, the first level clustering sub-step (S103.2) took about 3 hours for the linear core, about 7 hours for each of the χ ² nuclei, the intersection, Jensen-Shannon, and about 10.5 hours for the Jacquard core. All subsequent sub-steps (second-level clustering (S103.2) and classification of superclusters (S103.4, S103.4.1, S103.4.2) took a negligible time (several seconds) compared to the previous sub-steps. Thus, most of the time was consumed by clustering first level (especially when using a nonlinear core).

[0077] Такое распределение времени обработки подтверждает решение автора настоящего изобретения разбить кластеризацию на два отдельных подэтапа, выполняемых различными алгоритмами (быстрый алгоритм мини-пакетных k-средних для кластеризации первого уровня и один из более сложных алгоритмов для кластеризации второго уровня), поскольку в противном случае кластеризация была бы запредельно медленной для любого из эффективно работающих алгоритмов.[0077] This distribution of processing time confirms the decision of the author of the present invention to split the clustering into two separate sub-steps performed by various algorithms (a fast mini-packet k-means algorithm for first-level clustering and one of the more complex algorithms for second-level clustering), since otherwise In this case, clustering would be prohibitively slow for any of the efficiently running algorithms.

Результаты варианта с аппроксимированным ядромApproximate Kernel Results

[0078] Автор настоящего изобретения оценил качество классификации варианта осуществления способа с аппроксимированным ядром для всех комбинаций значений варьируемых параметров, участвующих в подэтапах кластеризации второго уровня (см. Таблицу 2) и классификации суперкластеров. Общее количество опробованных комбинаций значений параметров для данного варианта составило 406665.[0078] The author of the present invention evaluated the classification quality of an embodiment of an approximated core method for all combinations of variable parameter values involved in second-level clustering sub-steps (see Table 2) and classification of superclusters. The total number of tested combinations of parameter values for this option was 406665.

[0079] В нижеследующей Таблице 3 приведены результаты оценки качества классификации для этого варианта: каждая ячейка таблицы содержит результаты (F₁, точность и полноту) для комбинации значений параметров, которая обеспечивает наивысшую F₁-оценку для соответствующей пары алгоритма кластеризации второго уровня и аппроксимированного ядра (которые указаны, соответственно, в строках и столбцах Таблицы 3). Для каждого алгоритма кластеризации второго уровня лучший результат (исходя из F₁-оценки) обозначен жирным шрифтом.[0079] The following Table 3 shows the results of the classification quality assessment for this option: each cell of the table contains the results (F ₁ , accuracy and completeness) for a combination of parameter values that provides the highest F ₁ score for the corresponding pair of the second level clustering algorithm and the approximated kernels (which are indicated, respectively, in the rows and columns of Table 3). For each second level clustering algorithm, the best result (based on the F ₁ score) is indicated in bold.

Таблица 3Table 3 ⁵⁵

Результаты оценки качества классификации для варианта с аппроксимированным ядромClassification Quality Assessment Results for the Approximated Kernel Option

⁵Каждая ячейка содержит значения для F₁ (верхняя), точности (внизу слева) и полноты (внизу справа). Также в таблице указаны методы связи для агломеративной кластеризации и тип ядра для одноклассового SVM. ⁵ Each cell contains values for F ₁ (upper), accuracy (lower left) and completeness (lower right). The table also shows the communication methods for agglomerative clustering and the kernel type for a single-class SVM.

[0080] Из этой таблицы видно, что из числа опробованных ядер наилучшие результаты обеспечиваются ядрами Жаккара, пересечения и χ², тогда как из числа алгоритмов кластеризации второго уровня наилучшие результаты обеспечиваются агломеративной кластеризацией, BIRCH, DBSCAN, HDBSCAN и спектральной кластеризацией. В целом лучший результат достигается комбинацией DBSCAN с ядром пересечения. Эта комбинация может использоваться в предпочтительном варианте осуществления способа с аппроксимацией ядра.[0080] From this table it can be seen that among the tested kernels, the best results are provided by the Jacquard, intersection, and χ ² kernels, while among the second level clustering algorithms, the best results are provided by agglomerative clustering, BIRCH, DBSCAN, HDBSCAN, and spectral clustering. In general, the best result is achieved by combining DBSCAN with the intersection core. This combination can be used in a preferred embodiment of the kernel approximation method.

[0081] Следует обратить внимание, что результаты для линейного ядра существенно хуже, чем результаты для нелинейных ядер для всех используемых алгоритмов кластеризации второго уровня, что подтверждает правильность выбора автором настоящего изобретения использования преобразования, аппроксимирующего одно из нелинейных ядер, в качестве первого подэтапа (S103.1) этапа (S103) классифицирования каждого из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация.[0081] It should be noted that the results for a linear core are significantly worse than the results for nonlinear kernels for all used second-level clustering algorithms, which confirms that the author of the present invention has chosen to use a transformation approximating one of the nonlinear kernels as the first sub-step (S103 .1) a step (S103) for classifying each of the extracted feature vectors into one of two classes: text or illustration.

[0082] Для визуализации результатов точность-полнота использовался следующий подход: для каждого алгоритма кластеризации второго уровня (или каждого аппроксимированного ядра) вычисляли выпуклую оболочку всех точек точности-полноты, связанных с этим алгоритмом (или ядром), и строили верхние правые сегменты этой выпуклой оболочки (которые соответствуют лучшим результатам, т.е. как более высокая точность, так и более высокая полнота). Фигуры 14(а)-(б) иллюстрируют кривые точности-полноты, показанные с использованием этого подхода для варианта с аппроксимированным ядром раскрытого способа. Эти кривые наглядно подтверждают выводы, сделанные в отношении результатов оценки, приведенных выше в отношении Таблицы 3.[0082] To visualize the accuracy-completeness results, the following approach was used: for each second-level clustering algorithm (or each approximated kernel), the convex hull of all precision-completeness points associated with this algorithm (or kernel) was calculated, and the upper right segments of this convex were constructed shells (which correspond to better results, i.e., both higher accuracy and higher completeness). Figures 14 (a) - (b) illustrate the accuracy-completeness curves shown using this approach for the approximated core variant of the disclosed method. These curves vividly confirm the conclusions made regarding the evaluation results given above with respect to Table 3.

[0083] Для дальнейшего анализа были выбраны три наилучших результата (они подчеркнуты в вышеприведенной Таблице 3): DBSCAN с ядром пересечения, спектральная кластеризация с ядром χ²и агломеративная кластеризация с методом полной связи и ядром χ². Несмотря на то, что некоторые другие комбинации значений параметров обеспечивают лучшую F₁-оценку, чем последние два из выбранных результатов, они не обеспечивают никакого улучшения по сравнению с результатом DBSCAN с ядром пересечения по точности и полноте, тогда как агломеративная кластеризация с ядром χ²демонстрирует лучший показатель полноты (ценой худшей точности), а спектральная кластеризация с ядром χ²обеспечивает хороший компромисс между ними.[0083] Three best results were selected for further analysis (they are highlighted in Table 3 above): DBSCAN with intersection core, spectral clustering with χ ² core, and agglomerative clustering with full coupling and χ ² core. Although some other combinations of parameter values provide a better F ₁ score than the last two of the selected results, they do not provide any improvement over the DBSCAN result with intersection core in accuracy and completeness, while agglomerative clustering with χ ² core shows the best completeness (at the cost of worse accuracy), and spectral clustering with a χ ² core provides a good compromise between them.

Результаты варианта с точным ядромExact Kernel Results

[0084] Для варианта раскрытого способа с точным ядром общее число опробованных комбинаций значений параметров составило 438170. В нижеследующей Таблице 4 показаны результаты оценки качества классификации для этого варианта.[0084] For a variant of the disclosed method with an exact kernel, the total number of combinations of parameter values tested was 438170. The following Table 4 shows the results of the classification quality assessment for this variant.

Таблица 4Table 4 ⁶⁶

Результаты оценки качества классификации для варианта с точным ядромClassification Quality Assessment Results for the Exact Kernel Option

⁶ Каждая ячейка содержит значения для F₁ (верхняя), точности (внизу слева) и полноты (внизу справа). Также в таблице указаны методы связи для агломеративной кластеризации. ⁶ Each cell contains values for F_one (top), accuracy (bottom left) and completeness (bottom right). The table also shows the communication methods for agglomerative clustering.

[0085] Из этой таблицы видно, что из числа ядер наилучшие результаты демонстрируют ядра Жаккара и χ² (как и для варианта с аппроксимированным ядром), а также ядра Хеллингера и Дженсена-Шеннона. Из числа алгоритмов кластеризации второго уровня наилучшие результаты демонстрируют алгоритмы агломеративной кластеризации, DBSCAN и спектральной кластеризации (как и для варианта с аппроксимированным ядром). Фигуры 15(а)-(б) иллюстрируют кривые точности-полноты для варианта с точным ядром.[0085] From this table it is seen that among the cores, the best results are demonstrated by the Jacquard and χ ² kernels (as for the variant with the approximated nucleus), as well as the Hellinger and Jensen-Shannon kernels. Among the second-level clustering algorithms, the best results are demonstrated by the agglomerative clustering, DBSCAN, and spectral clustering algorithms (as for the approximated kernel version). Figures 15 (a) - (b) illustrate the accuracy-completeness curves for the exact core variant.

[0086] Из показанных результатов ясно, что этот вариант является жизнеспособной альтернативой гораздо более сложному по вычислениям варианту с аппроксимированным ядром, поскольку наиболее затратный по времени подэтап S103.2 (кластеризация первого уровня) для линейного ядра более, чем в два раза быстрее, чем для любого из нелинейных ядер.[0086] From the results shown, it is clear that this option is a viable alternative to the much more computationally difficult approximated kernel option, since the most time-consuming sub-step S103.2 (first-level clustering) for a linear core is more than two times faster than for any of the nonlinear cores.

Описание лучших конфигураций раскрытого способаDescription of the best configurations of the disclosed method

[0087] Поскольку кластеризация первого уровня, использующая линейное ядро (используемая в варианте с точным ядром) выдает большее число смешанных кластеров (тем самым обеспечивая менее чистое разделение), чем при использовании нелинейных ядер, автор настоящего изобретения выбрал для последующего анализа три лучшие конфигурации из всех конфигураций, опробованных для варианта с аппроксимированным ядром.[0087] Since first-level clustering using a linear core (used in the exact kernel version) produces a larger number of mixed clusters (thereby providing less clean separation) than using non-linear kernels, the present inventor has selected three best configurations for subsequent analysis all configurations tested for the approximated core option.

[0088] Сводка значений параметров алгоритма кластеризации второго уровня, а также значений параметров классификации суперкластеров (значение процентиля), обеспечивающих наилучшие результаты в варианте с аппроксимированным ядром, приведена в нижеследующей Таблице 5.[0088] A summary of the values of the parameters of the second level clustering algorithm, as well as the values of the classification parameters of superclusters (percentile value) that provide the best results in the approximated core version, are shown in Table 5 below.

Таблица 5Table 5

Сводка по лучшим конфигурациямBest Configuration Summary

Алгоритм кластеризации второго уровняLevel 2 Clustering Algorithm Аппроксимированное ядроApproximated core Параметры кластеризации второго уровняLevel 2 Clustering Options Выбранные ROI иллюстраций, %Selected ROI of illustrations,% Значение процен-тиля, %Percentile value,% F₁ F ₁ ТочностьAccuracy ПолнотаCompleteness Агломеративная кластеризацияAgglomerative Clustering χ² χ ² N_clusters=2N _clusters = 2 2828 00 0,860.86 Полная связьFull connection 0,750.75 1,001.00 Спектральная кластеризацияSpectral clustering χ² χ ² N_clusters=10N _clusters = 10 2323 12,512.5 0,880.88 Стратегия назначения меток: k-среднихTagging Strategy: K-Means 0,820.82 0,950.95 DBSCANDBSCAN ПересечениеIntersection ɛ=0,43
(N_clusters=5)ɛ = 0.43
(N _clusters = 5) 18eighteen 00 0,940.94 N_samples=5N _samples = 5 1,001.00 0,890.89

[0089] Из этой таблицы видно, что с точки зрения эффективности по точности и полноте эти три варианта обеспечивают два крайних случая и компромисс между ними: один из этих крайних случаев - неструктурированная агломеративная кластеризация с ядром χ² _,демонстрирующая 100% полноту (и 75% точность), другой из этих крайних случаев - DBSCAN с ядром пересечения, демонстрирующий 100% точность (и 89% полноту), тогда как спектральная кластеризация с ядром χ² достигает промежуточные 82% точности и 95% полноты.[0089] From this table it can be seen that, in terms of efficiency in terms of accuracy and completeness, these three options provide two extreme cases and a compromise between them: one of these extreme cases is unstructured agglomerative clustering with a χ ² core _{, which} demonstrates 100% completeness (and 75 % accuracy), another of these extreme cases is DBSCAN with the intersection core, demonstrating 100% accuracy (and 89% completeness), while spectral clustering with χ ² core achieves an intermediate 82% accuracy and 95% completeness.

[0090] Для агломеративной кластеризации с ядром χ² оптимальное количество (супер)кластеров равно двум, что позволяет использовать эту конфигурацию для классификации c логическим выводом разметки (см. подэтап S103.4.1) [от англ. ʺzero-shot classificationʺ]. Этот результат вполне закономерен для алгоритма агломеративной кластеризации с методом полной связи, который известен своим поведением «богатые становятся богаче», приводящим к небольшому количеству кластеров неравномерного размера. Для двух оставшихся конфигураций количество выходных суперкластеров составляет 10 (спектральная кластеризация) и 5 (DBSCAN), что не позволяет использовать режим логического вывода разметки для их классификации.[0090] For agglomerative clustering with a χ ² core, the optimal number of (super) clusters is two, which allows you to use this configuration for classification with a logical marking output (see sub-step S103.4.1) [from English ʺZero-shot classificationʺ] . This result is quite natural for the agglomerative clustering algorithm with the full connection method, which is known for its “rich get richer” behavior, which leads to a small number of clusters of uneven size. For the two remaining configurations, the number of output superclusters is 10 (spectral clustering) and 5 (DBSCAN), which does not allow the use of markup inference mode for their classification.

[0091] Важной обеспокоенностью специалиста в данной области может стать возможная зависимость оптимальных значений параметров, приведенных в Таблице 5 выше, от свойств конкретного набора данных, для которого их получают, и, следовательно, применимость этих оптимальных значений параметров в общем случае для других наборов данных. Для первой конфигурации (с использованием агломеративной кластеризации) оптимальные значения параметров включают в себя задание числа кластеров, равным двум, и использование метода полной связи. Обе эти настройки являются идеально общими для решения задачи настоящего изобретения, поскольку цель раскрытого способа состоит в разделении двух разных кластеров, один из которых является преобладающим, поэтому метод полной связи, способствующий поведению «богатые становятся богаче», здесь является естественным выбором. Для третьей конфигурации (с использованием кластеризации DBSCAN) оптимальные настройки включают настройку радиуса окрестности (который определяется свойствами Docstrum-дескриптора, используемого ядра и разделяемых классов, а не свойствами набора данных) и числа точек в окрестности некоторой точки, необходимого, чтобы можно было рассматривать ее как базовую точку (для этого числа общее значение по умолчанию, равное 5, представляется оптимальным). Общий параметр для всех конфигураций - значение процентиля для первой и третьей конфигураций, равное нулю, означает, что один суперкластер, имеющий минимальную насыщенность текстом, помечают как суперкластер иллюстраций, что также можно рассматривать в качестве довольно общей настройки. Чтобы подтвердить теоретические рассуждения, изложенные выше, раскрытый способ был применен, используя оптимальные значения параметров из Таблицы 5 (для первой и третьей конфигураций), к случайным подмножествам приемлемого размера из набора данных, и его вывод был проверен путем визуального осмотра. Этот эксперимент показал хорошее разделение текста и иллюстраций для разных видов патентных иллюстраций и текстовых областей, что подтвердило применимость указанных в Таблице 5 оптимальных настроек для общего случая.[0091] An important concern of a person skilled in the art may be the possible dependence of the optimal parameter values given in Table 5 above on the properties of the particular data set for which they are obtained, and therefore the applicability of these optimal parameter values in the general case to other data sets . For the first configuration (using agglomerative clustering), the optimal parameter values include setting the number of clusters to two, and using the full communication method. Both of these settings are ideally common for solving the problem of the present invention, since the purpose of the disclosed method is to separate two different clusters, one of which is predominant, so the full communication method that promotes the “rich get richer” behavior is a natural choice here. For the third configuration (using DBSCAN clustering), the optimal settings include setting the radius of the neighborhood (which is determined by the properties of the Docstrum descriptor, the used kernel and shared classes, and not the properties of the dataset) and the number of points in the neighborhood of a certain point necessary to consider it as a base point (for this number, the total default value of 5 seems optimal). A common parameter for all configurations - the percentile value for the first and third configurations, equal to zero, means that one supercluster with minimal text saturation is marked as a supercluster of illustrations, which can also be considered as a fairly general setting. To confirm the theoretical considerations described above, the disclosed method was applied, using the optimal values of the parameters from Table 5 (for the first and third configurations), to random subsets of an acceptable size from the data set, and its output was checked by visual inspection. This experiment showed a good separation of text and illustrations for different types of patent illustrations and text areas, which confirmed the applicability of the optimal settings shown in Table 5 for the general case.

[0092] Однако, для второй конфигурации (с использованием спектральной кластеризации) оптимальные значения параметров (N_clusters=10 и значение процентиля=12,5%) не демонстрируют такой стабильности для разных подмножеств использованного набора данных, а также не имеют убедительного теоретического обоснования их универсальности, поскольку N_clusters, которое выше двух, в действительности может указывать на число подклассов основных классов, представленных в конкретном наборе данных (например, различные виды ROI текста или иллюстраций). Таким образом, эта конфигурация должна быть использована с осторожностью на наборах данных, которые существенно отличаются от набора данных ROI патентных документов, который использовался в данном раскрытии в качестве иллюстративного набора данных.[0092] However, for the second configuration (using spectral clustering), the optimal parameter values (N _clusters = 10 and percentile value = 12.5%) do not demonstrate such stability for different subsets of the data set used, and they also have no convincing theoretical justification for them universality, since N _clusters , which is higher than two, can actually indicate the number of subclasses of the main classes represented in a particular data set (for example, various types of ROI text or illustrations). Therefore, this configuration should be used with caution on datasets that are significantly different from the patent document ROI dataset, which was used in this disclosure as an illustrative dataset.

[0093] Наконец, следует отметить, что вышеуказанные результаты сравнения эффективности классификации для алгоритмов кластеризации второго уровня хорошо коррелируют с поведением различных алгоритмов кластеризации, проиллюстрированных в работе Scikit-learn developers, ʺComparing Different Clustering Algorithms on Toy Datasets,ʺ Scikit-learn User Guide, http://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html. 2016: только три алгоритма кластеризации были способны правильно обрабатывать оба тестовых набора данных с невыпуклыми кластерами (один из которых также содержит вложенные кластеры): агломеративная кластеризация, спектральная кластеризация и DBSCAN, эти алгоритмы кластеризации и являются тремя наиболее эффективными алгоритмами кластеризации второго уровня в варианте раскрытого способа с аппроксимированным ядром. Это наблюдение позволяет предположить, что использованный в настоящем раскрытии набор данных может иметь подобную геометрию суперкластеров (невыпуклую и, возможно даже, вложенную). Чтобы получить более точное представление о геометрии кластеров текста и иллюстраций, нелинейное сокращение размерности было выполнено над Docstrum-признаковыми векторами, преобразованными посредством отображения, аппроксимирующего ядро пересечения, используя метод t-SNE, и полученное в результате двумерное вложенное пространство было использовано для визуализации облаков точек, соответствующих признаковым векторам, помеченным как «текст» и «иллюстрация» раскрытым способом с использованием третьей конфигурации из Таблицы 5 (лучшая конфигурация по F₁-оценке). Точечная диаграмма этих облаков точек в двумерном вложенном пространстве проиллюстрирована на фигуре 16.[0093] Finally, it should be noted that the above results of comparing classification efficiency for second-level clustering algorithms correlate well with the behavior of the various clustering algorithms illustrated in Scikit-learn developers, ʺ Comparing Different Clustering Algorithms on Toy Datasets, ʺ Scikit-learn User Guide , http://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html. 2016: only three clustering algorithms were able to correctly process both test data sets with non-convex clusters (one of which also contains nested clusters): agglomerative clustering, spectral clustering and DBSCAN, these clustering algorithms are the three most efficient clustering algorithms of the second level in the variant disclosed approximated core method. This observation suggests that the data set used in the present disclosure may have a similar geometry of superclusters (non-convex and, possibly, even embedded). To get a more accurate idea of the geometry of text clusters and illustrations, a nonlinear dimension reduction was performed on Docstrum-feature vectors transformed by means of a map approximating the intersection core using the t-SNE method, and the resulting two-dimensional nested space was used to visualize point clouds corresponding to the characteristic vectors marked as “text” and “illustration” by the disclosed method using the third configuration from Table 5 (best conf iguration by F ₁ -valuation). A scatter plot of these point clouds in a two-dimensional nested space is illustrated in Figure 16.

[0094] На фигуре 16 видно, что «текстовые» точки образуют несколько кластеров, некоторые из которых имеют сложную невыпуклую геометрию и находятся довольно далеко друг от друга, в то время как большинство точек «иллюстраций» образует плотный хорошо локализованный кластер, окруженный кластерами текста. Хотя это вложенное пространство может и не давать полного представления об оригинальной геометрии кластеров, показанный на фигуре 16 график все же может быть использован для поддержки правильности сделанного выше предположения и, следовательно, выбора лучших алгоритмов кластеризации второго уровня. Эта сложная геометрия кластеров также может быть ответственной за низкую эффективность классификации конфигураций, использующих одноклассовый SVM. Поскольку одноклассовый SVM является методом обнаружения новизны, он также является естественным выбором для решения задачи настоящего изобретения; в раскрытых примерах изобретения использовалось обучающее подмножество для текстового класса и целью являлась идентификация класса иллюстраций как выбросов по отношению к текстовому классу. Однако, даже при использовании обобщенных RBF и сигмоидных ядер (посредством комбинации ориентированного на гистограмму ядра на подэтапе аппроксимирующего ядро признакового отображения и RBF или сигмоидного ядра в самом SVM), одноклассовый SVM не может обеспечить эффективность классификации алгоритмов, которые являются особенно эффективными в обработке кластеров сложной геометрии (например, DBSCAN или агломеративная кластеризация).[0094] Figure 16 shows that the “text" points form several clusters, some of which have complex non-convex geometry and are quite far apart, while most of the "illustration" points form a dense well-localized cluster surrounded by clusters of text . Although this nested space may not give a complete picture of the original geometry of the clusters, the graph shown in Figure 16 can still be used to support the correctness of the above assumption and, therefore, the choice of the best second-level clustering algorithms. This complex cluster geometry may also be responsible for the low classification efficiency of configurations using single-class SVMs. Since a single-class SVM is a novelty detection method, it is also a natural choice for solving the problem of the present invention; in the disclosed examples of the invention, a training subset for the text class was used and the aim was to identify the class of illustrations as outliers in relation to the text class. However, even when using generalized RBFs and sigmoid kernels (through a combination of a histogram-oriented kernel in a sub-step approximating the core of the feature map and RBF or sigmoidal nucleus in the SVM itself), a single-class SVM cannot provide the efficiency of classification of algorithms that are especially effective in processing clusters of complex geometry (for example, DBSCAN or agglomerative clustering).

Выводыfindings

[0095] Предложен новый способ разделения текста и иллюстраций для черно-белых изображений документов, содержащих очень разнообразный набор классов иллюстраций (например, как в патентных документах). Предложенный способ дает значительные преимущества по сравнению с подходами из уровня техники: он может разделять многие классы иллюстраций, ошибочно классифицируемые как текст более простыми способами, подходит для обработки крупномасштабных наборов данных и способен работать либо в режиме логического вывода разметки (используя лишь общую априорную информацию о распределении текста и иллюстраций в наборе данных) или в режиме с частичным привлечением учителя (используя небольшое подмножество данных, размеченных как текст). Эти преимущества проистекают из использования Docstrum-дескриптора, аппроксимирующих ядра отображений признаков для различных ориентированных на гистограмму ядер (в том числе ядер χ², пересечения и Жаккара) и эффективной двухуровневой кластеризации (с использованием алгоритмов мини-пакетных k-средних, агломеративной кластеризации и DBSCAN).[0095] A new method for separating text and illustrations for black and white images of documents containing a very diverse set of illustration classes (for example, as in patent documents) is proposed. The proposed method provides significant advantages compared to approaches from the prior art: it can separate many classes of illustrations that are erroneously classified as text in simpler ways, suitable for processing large-scale data sets, and can work either in markup inference mode (using only general a priori information about distribution of text and illustrations in a data set) or in a mode with partial involvement of a teacher (using a small subset of data marked up as text). These advantages stem from the use of a Docstrum descriptor that approximates the feature mapping kernels for various histogram-oriented kernels (including χ ² kernels, intersections, and Jacquard) and efficient two-level clustering (using mini-packet k-means, agglomerative clustering, and DBSCAN )

[0096] Показана эффективность раскрытого способа на очень большом и разнообразном наборе данных изображений страниц патентных документов, где он достигает значений F₁-оценки 0,86 при логическом выводе разметки и 0,94 при режиме с частичным привлечением учителя. Оптимальные значения параметров для различных подэтапов раскрытого способа получены с использованием расширенной оптимизации параметров, выполненной на этом наборе данных. Экспериментальные результаты использования раскрытого способа были проанализированы и лучшие его конфигурации были обоснованы как теоретическими рассуждениями, так и экспериментальными доказательствами.[0096] The effectiveness of the disclosed method is shown on a very large and varied set of image data for pages of patent documents, where it reaches F ₁ -values of 0.86 for markup inference and 0.94 for a mode involving partial involvement of a teacher. The optimal parameter values for the various sub-steps of the disclosed method are obtained using the advanced parameter optimization performed on this data set. The experimental results of using the disclosed method were analyzed and its best configurations were substantiated by both theoretical considerations and experimental evidence.

[0097] Раскрытый способ может быть использован в качестве этапа предварительной обработки для различных задач обработки изображений документов: индексация и поиск документов, обнаружение и распознавание объектов документа, OCR, сжатие документов и многое другое, что станет очевидным для обычного специалиста в данной области после ознакомления с данным раскрытием.[0097] The disclosed method can be used as a preliminary processing step for various tasks of processing document images: indexing and searching for documents, detecting and recognizing document objects, OCR, document compression, and much more, which will become apparent to an ordinary person skilled in the art after reviewing with this disclosure.

[0098] Хотя данное изобретение было описано с определенной степенью детализации, следует понимать, что настоящее раскрытие было сделано только в качестве иллюстрации и что к многочисленным изменениям в деталях и компоновке этапов способа можно прибегать, не выходя за рамки объема изобретения, который определяется нижеследующей формулой изобретения.[0098] Although the present invention has been described with a certain degree of detail, it should be understood that the present disclosure was made only as an illustration and that numerous changes in the details and layout of the steps of the method can be resorted to without departing from the scope of the invention, which is defined by the following claims inventions.

Промышленная применимостьIndustrial applicability

[0099] Раскрытое изобретение является промышленно применимым. Настоящее изобретение может быть применено при поиске документов. Для этого может быть обеспечено облачное окружение, содержащее по меньшей мере облачный сервер, механизм поиска документов, базу текстовых данных, базу данных иллюстраций. Множество пользовательских устройств может взаимодействовать с облачным сервером для отправки на него запроса на поиск документа(ов) как по его тексту, так и по его иллюстрациям. Документ может быть передан облачным сервером в механизм поиска документов, который реализует способ согласно настоящему раскрытию для обработки изображения документа, содержащегося в упомянутом запросе, для получения текстовых областей и областей иллюстраций этого документа. Затем, механизм поиска документов способен проводить поиск отдельно по текстовым областям и областям иллюстраций упомянутого документа и передавать на пользовательские устройства результаты поиска через облачный сервер. Пользовательским устройством может быть любое устройство, например, но без ограничения упомянутыми устройствами, компьютер, принтер, устройство мобильной связи, вычислительное устройство, планшет, сканер и т.д. При такой реализации обеспечивается быстрый отклик на запрос, экономия питания на осуществляемые вычисления, улучшенная релевантность результатов поиска.[0099] The disclosed invention is industrially applicable. The present invention can be applied when searching for documents. For this, a cloud environment may be provided, comprising at least a cloud server, a document retrieval mechanism, a text database, and a database of illustrations. Many user devices can interact with a cloud server to send a request to it to search for document (s) both in its text and in its illustrations. The document may be transmitted by the cloud server to a document search engine that implements the method according to the present disclosure for processing an image of a document contained in said request to obtain text areas and illustration areas of this document. Then, the document search engine is able to search separately for text areas and illustration areas of the said document and transmit search results to user devices via a cloud server. A user device can be any device, for example, but not limited to, a computer, printer, mobile communication device, computing device, tablet, scanner, etc. With such an implementation, a quick response to a query is provided, power saving on the performed calculations, improved relevance of the search results.

[0100] Кроме того, настоящее изобретение может быть применено для разделения текстов и иллюстраций в изображениях страниц документов на пользовательском устройстве для последующих OCR, обработки изображений, или поиска по тексту или иллюстрациям. Для этого пользовательское устройство может быть реализовано с возможностью осуществления раскрытого в данном документе способа. Такая реализация может быть выполнена с использованием традиционного аппаратного обеспечения пользовательского устройства, включающего в себя процессор, постоянную память, оперативную память, экран, камеру, батарею, а также инструкций, записанных в памяти и реализующих заявленный способ с привлечением процессора, экрана и камеры пользовательского устройства. Пользовательским устройством может быть любое устройство, например, но без ограничения упомянутыми устройствами, компьютер, принтер, устройство мобильной связи, вычислительное устройство, планшет, сканер и т.д. При такой реализации обеспечивается ускорение обработки изображений страниц документов, а также более длительный срок службы батареи пользовательского устройства.[0100] In addition, the present invention can be applied to separate texts and illustrations in images of document pages on a user device for subsequent OCR, image processing, or searching through text or illustrations. To this end, the user device may be implemented with the possibility of implementing the method disclosed herein. Such an implementation can be performed using traditional hardware of the user device, which includes a processor, read-only memory, random access memory, screen, camera, battery, as well as instructions recorded in the memory and implementing the claimed method involving the processor, screen, and camera of the user device . A user device can be any device, for example, but not limited to, a computer, printer, mobile communication device, computing device, tablet, scanner, etc. With this implementation, acceleration of image processing of document pages is provided, as well as a longer battery life of the user device.

[0101] Настоящее изобретение также может быть применено для поиска по иллюстрациям или рукописным вводам на пользовательском устройстве или для автоматизированной категоризации документов на пользовательском устройстве или любом другом устройстве, хранящем эти документы. Другие возможные области применения раскрытого в данном документе способа и соответствующие реализации станут очевидными для обычного специалиста в данной области после изучения данного раскрытия.[0101] The present invention can also be applied to search for illustrations or handwriting on a user device or for automatically categorizing documents on a user device or any other device that stores these documents. Other possible applications of the method disclosed herein and corresponding implementations will become apparent to one of ordinary skill in the art after studying this disclosure.

Claims

1. Способ разделения текстов и иллюстраций в изображениях страниц документов, содержащий этапы, на которых:1. The method of separation of texts and illustrations in the images of pages of documents, containing stages in which:

получают (S100) изображения страниц документов;receive (S100) image pages of documents;

сегментируют (S101) изображения страниц документов на области интереса;segmenting (S101) image pages of documents into areas of interest;

извлекают (S102) признаковый вектор для каждой области интереса; иextracting (S102) a feature vector for each region of interest; and

классифицируют (S103) каждый из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация,classify (S103) each of the extracted feature vectors into one of two classes: text or illustration,

при этом этап, на котором извлекают (S102) признаковый вектор для каждой области интереса, содержит подэтапы, на которых:wherein the step of retrieving (S102) the feature vector for each region of interest comprises sub-steps in which:

изменяют (S102.1) размер области интереса до размера 300×300 или 500×500 пикселей с сохранением соотношения ее сторон;changing (S102.1) the size of the region of interest to a size of 300 × 300 or 500 × 500 pixels while maintaining the aspect ratio;

извлекают (S102.2) компоненты связности из области интереса измененного размера и вычисляют их центроиды;extracting (S102.2) connected components from the region of interest of the resized size and calculating their centroids;

находят (S102.3) ближайших соседей для каждого центроида;find (S102.3) the nearest neighbors for each centroid;

строят (S102.4) двумерную гистограмму нормализованных расстояний и углов для всех пар, состоящих из центроида и каждого из его пяти ближайших соседних центроидов; иconstructing (S102.4) a two-dimensional histogram of normalized distances and angles for all pairs consisting of a centroid and each of its five nearest neighboring centroids; and

переформировывают (S102.5) двумерную гистограмму в Docstrum - признаковый вектор.reformat (S102.5) the two-dimensional histogram in Docstrum - a feature vector.

2. Способ по п. 1, в котором этап, на котором сегментируют (S101) изображения страниц документов на области интереса, содержит подэтапы, на которых:2. The method of claim 1, wherein the step of segmenting (S101) the image of the pages of documents into areas of interest comprises sub-steps in which:

заполняют (S101.1) цветом переднего плана горизонтальные серии пикселей фона, длины которых ниже некоторого порогового значения;fill (S101.1) with a foreground color a horizontal series of background pixels whose lengths are below a certain threshold value;

заполняют (S101.2) цветом переднего плана вертикальные серии пикселей фона, длины которых ниже некоторого порогового значения;fill (S101.2) with a foreground color a vertical series of background pixels whose lengths are below a certain threshold value;

применяют (S101.3) операцию логическое ИЛИ к изображениям, полученным в результате упомянутых заполнений;apply (S101.3) a logical OR operation to images obtained as a result of said fillings;

извлекают (S101.4) компоненты связности из изображения, полученного в результате применения операции логическое ИЛИ; иextracting (S101.4) connectivity components from an image obtained as a result of applying the logical OR operation; and

выбирают (S101.5) ограничительные рамки полученных в результате компонент связности в качестве областей интереса.select (S101.5) the bounding box of the resulting connected components as areas of interest.

3. Способ по п. 2, в котором отбрасывают области интереса, площадь которых в пикселях меньше некоторого порогового значения от всей площади сегментируемого изображения страницы документа.3. The method according to p. 2, which discard areas of interest, the area of which in pixels is less than a certain threshold value from the entire area of the segmented image of the document page.

4. Способ по п. 1, в котором изменение (S102.1) размера области интереса до размера 300×300 или 500×500 пикселей с сохранением соотношения ее сторон содержит:4. The method according to p. 1, in which changing (S102.1) the size of the region of interest to a size of 300 × 300 or 500 × 500 pixels while maintaining the aspect ratio contains:

изменение размера области интереса таким образом, чтобы ее больший размер по одному из ширины или высоты равнялся 300 или 500 пикселям, а ее меньший размер по другому из ширины или высоты дополнялся до 300 или 500 пикселей соответственно.resizing a region of interest so that its larger size in one of its width or height is 300 or 500 pixels, and its smaller size in another of its width or height is supplemented to 300 or 500 pixels, respectively.

5. Способ по п. 1, в котором извлечение (S102.2) компонент связности из области интереса измененного размера и вычисление их центроидов дополнительно содержит5. The method of claim 1, wherein extracting (S102.2) the connected components from the region of interest of the resized size and calculating their centroids further comprises

отфильтровывание компонент связности, ширина или высота ограничительных рамок которых меньше некоторого порогового значения.filtering off connected components whose width or height of the bounding box is less than a certain threshold value.

6. Способ по п. 1, в котором нормализацию расстояний при построении (S102.4) двумерной гистограммы осуществляют путем деления каждого расстояния на среднее расстояние всех пар ближайших соседних центроидов.6. The method according to claim 1, wherein the normalization of the distances when constructing (S102.4) a two-dimensional histogram is carried out by dividing each distance by the average distance of all pairs of the nearest neighboring centroids.

7. Способ по п. 1, в котором переформировывание (S102.5) двумерной гистограммы в признаковый вектор дополнительно содержит7. The method according to claim 1, in which the reformation (S102.5) of the two-dimensional histogram into a feature vector further comprises

нормализацию двумерной гистограммы так, чтобы ее L₁-норма была равна 1.normalization of the two-dimensional histogram so that its L ₁ -norm is equal to 1.

8. Способ по п. 1, в котором двумерную гистограмму нормализованных расстояний и углов для всех пар строят (S102.4) c использованием 64 бинов угла и 20 бинов расстояния, обеспечивая в результате переформирования (S102.5) такой двумерной гистограммы 1280-мерный признаковый вектор.8. The method according to claim 1, in which a two-dimensional histogram of normalized distances and angles for all pairs is constructed (S102.4) using 64 angle bins and 20 distance bins, resulting in a 1280-dimensional histogram as a result of reforming (S102.5) sign vector.

9. Способ по п. 1, в котором этап, на котором классифицируют (S103) каждый из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация, содержит подэтапы, на которых:9. The method of claim 1, wherein the step of classifying (S103) each of the extracted feature vectors into one of two classes: text or illustration, contains sub-steps in which:

осуществляют аппроксимирующее ядро преобразование (S103.1) признаковых векторов;an approximating kernel transforms (S103.1) feature vectors;

осуществляют кластеризацию первого уровня (S103.2) преобразованных признаковых векторов с использованием алгоритма мини-пакетных k-средних для получения кластеров преобразованных признаковых векторов и их центроидов;clustering the first level (S103.2) of the transformed feature vectors using the mini-packet k-means algorithm to obtain clusters of transformed feature vectors and their centroids;

осуществляют кластеризацию второго уровня (S103.3) центроидов кластеров, полученных на предшествующем подэтапе, с использованием усовершенствованного алгоритма кластеризации для получения соответствующих им суперкластеров; иclustering the second level (S103.3) of the centroids of the clusters obtained in the previous sub-step using an advanced clustering algorithm to obtain their corresponding superclusters; and

проверяют (S103.4), больше ли число полученных суперкластеров, чем два:check (S103.4) whether the number of received superclusters is greater than two:

если число полученных суперкластеров равно двум, используют операцию логического вывода разметки (S103.4.1) для классификации каждого из этих двух суперкластеров в один из двух классов: текст или иллюстрация; илиif the number of received superclusters is two, use the markup inference operation (S103.4.1) to classify each of these two superclusters into one of two classes: text or illustration; or

если число полученных суперкластеров больше двух, используют операцию распространения разметки с частичным привлечением учителя (S103.4.2) для классификации каждого из этих более двух суперкластеров в один из двух классов: текст или иллюстрация.if the number of received superclusters is more than two, use the markup distribution operation with the partial involvement of a teacher (S103.4.2) to classify each of these more than two superclusters into one of two classes: text or illustration.

10. Способ по п. 9, в котором аппроксимируемым ядром во время осуществления аппроксимирующего ядро преобразования (S103.1) признаковых векторов является одно из ядра Хеллингера, ядра χ², ядра пересечения и ядра Дженсена-Шеннона, при этом10. The method according to claim 9, in which the approximated core during the approximation of the transformation kernel (S103.1) of the feature vectors is one of the Hellinger core, χ ² core, intersection core, and Jensen-Shannon core,

когда аппроксимируемым ядром является ядро Хеллингера, используют точное сохраняющее размерность отображение, илиwhen the approximated kernel is the Hellinger kernel, use an exact dimension-preserving map, or

когда аппроксимируемым ядром является одно из ядра χ², ядра пересечения и ядра Дженсена-Шеннона, используют отображение с 5 компонентами.when the approximated core is one of the χ ² kernels, the intersection kernels, and the Jensen-Shannon kernels, a mapping with 5 components is used.

11. Способ по п. 9, в котором аппроксимируемым ядром во время осуществления аппроксимирующего ядро преобразования (S103.1) признаковых векторов является ядро Жаккара, при этом11. The method according to p. 9, in which the approximated core during the approximation of the core transformation (S103.1) of the feature vectors is the Jacquard core, wherein

для обучения аппроксимирующего отображения признаков для этого ядра Жаккара используют сиамскую нейронную сеть.To train an approximate mapping of features for this Jacquard core, a Siamese neural network is used.

12. Способ по п. 9, в котором кластеризацию первого уровня (S103.2) преобразованных признаковых векторов с использованием алгоритма мини-пакетных k-средних осуществляют для получения 100 кластеров преобразованных признаковых векторов и их центроидов, при этом12. The method of claim 9, wherein the first level clustering (S103.2) of the transformed feature vectors using the mini-packet k-means algorithm is performed to obtain 100 clusters of transformed feature vectors and their centroids, wherein

размер мини-пакета составляет 1000 признаковых векторов.the size of the mini-package is 1000 feature vectors.

13. Способ по п. 9, в котором осуществление кластеризации второго уровня (S103.3) центроидов кластеров с использованием усовершенствованного алгоритма кластеризации агрегирует 100 центроидов кластеров, полученных в результате кластеризации первого уровня, в суперкластеры, при этом13. The method of claim 9, wherein the second level clustering (S103.3) of the cluster centroids using the advanced clustering algorithm aggregates 100 cluster centroids from the first level clustering into superclusters, wherein

усовершенствованный алгоритм кластеризации выбирают из группы, состоящей из распространения близости, агломеративной кластеризации, BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies, сбалансированные итеративные сокращения и кластеризация с использованием иерархий), DBSCAN (Density-Based Spatial Clustering of Applications with Noise, основанная на плотности пространственная кластеризация приложений с шумом), HDBSCAN (Hierarchical DBSCAN, иерархическая DBSCAN), сдвига среднего, одноклассового SVM (Support Vector Machine, метод опорных векторов), спектральной кластеризации,the advanced clustering algorithm is selected from the group consisting of proximity propagation, agglomerative clustering, BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies, balanced iterative reduction and clustering using hierarchies), DBSCAN (Density-Based Spatial Clustering of Applications with Noise, based on density spatial clustering of applications with noise), HDBSCAN (Hierarchical DBSCAN, hierarchical DBSCAN), mid-shift, single-class SVM (Support Vector Machine, support vector method), spectral clustering,

используемый в агломеративной кластеризации метод связи выбирают из группы, состоящей из одиночного, полного, среднего, взвешенного, Уорда, центроидного и медианного,the communication method used in agglomerative clustering is selected from the group consisting of single, full, medium, weighted, ward, centroid and median,

используемое в одноклассовом SVM SVM-ядро выбирают из группы, состоящей из линейного ядра, RBF (Radial Basis Function, радиальная базисная функция)-ядра и сигмоидного ядра, иthe SVM core used in a single-class SVM is selected from the group consisting of a linear core, RBF (Radial Basis Function) core, and sigmoid core, and

используемую в спектральной кластеризации стратегию назначения меток выбирают из группы, состоящей из k-средних и дискретизации.The labeling strategy used in spectral clustering is selected from the group consisting of k-means and discretization.

14. Способ по п. 9, в котором операцию логического вывода разметки осуществляют на основе общей статистической информации, размечая больший суперкластер как текстовый суперкластер или суперкластер иллюстраций в зависимости от того, что из текста или иллюстраций преобладает в типе документа, изображения страниц которого разделяют на текст и иллюстрации данным способом.14. The method of claim 9, wherein the markup inference operation is performed based on general statistical information, marking up a larger supercluster as a text supercluster or a supercluster of illustrations, depending on which of the text or illustrations prevails in the type of document whose page images are divided into text and illustrations in this way.

15. Способ по п. 9, в котором операцию распространения разметки с частичным привлечением учителя осуществляют с использованием размеченного подмножества набора изображений страниц документа, которые разделяют на текст и иллюстрации данным способом,15. The method according to p. 9, in which the operation of distributing the markup with a partial involvement of the teacher is carried out using a marked-up subset of the set of images of the pages of the document, which are divided into text and illustrations in this way,

причем размеченное подмножество набора изображений страниц документа получают, идентифицируя по отсутствию в полнотекстовых версиях этих документов некоторых выражений и размечая все области интереса таких документов как текстовые, затемmoreover, a marked subset of the set of images of the pages of the document is obtained by identifying the absence of certain expressions in the full-text versions of these documents and marking out all areas of interest of such documents as text, then

для каждого суперкластера вычисляют его насыщенность текстом, отражающую долю его областей интереса, которые принадлежат к упомянутому размеченному как текст подмножеству, иfor each supercluster, its text saturation is calculated, which reflects the fraction of its areas of interest that belong to the subset labeled as text, and

классифицируют суперкластеры, выполняя разметку суперкластеров, имеющих насыщенность текстом выше некоторого порогового значения, как соответствующих областям интереса текста, и разметку оставшихся суперкластеров как соответствующих областям интереса иллюстраций.classify superclusters by marking up superclusters having text saturation above a certain threshold value, corresponding to areas of interest of the text, and marking up the remaining superclusters as corresponding to areas of interest of illustrations.

16. Способ разделения текстов и иллюстраций в изображениях страниц документов, содержащий этапы, на которых:16. A method of separating texts and illustrations in images of pages of documents, containing stages in which:

получают изображения страниц документов;receive images of pages of documents;

сегментируют изображения страниц документов на области интереса;segment images of pages of documents into areas of interest;

извлекают признаковый вектор для каждой области интереса; иextracting a feature vector for each region of interest; and

классифицируют каждый из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация,classify each of the extracted feature vectors into one of two classes: text or illustration,

при этом этап, на котором классифицируют каждый из извлеченных признаковых векторов в один из двух классов: текст или иллюстрация, содержит подэтапы, на которых:wherein the stage at which each of the extracted feature vectors is classified into one of two classes: text or illustration, contains sub-stages in which:

осуществляют кластеризацию первого уровня признаковых векторов с использованием алгоритма мини-пакетных k-средних для получения кластеров признаковых векторов и их центроидов;clustering the first level of feature vectors using the algorithm of mini-packet k-means to obtain clusters of feature vectors and their centroids;

вычисляют матрицу попарных ядер/расстояний для всех пар центроидов, полученных в результате кластеризации первого уровня;calculating a matrix of pairwise nuclei / distances for all pairs of centroids obtained as a result of clustering of the first level;

осуществляют кластеризацию второго уровня центроидов кластеров по вычисленной матрице попарных ядер/расстояний для всех пар центроидов с использованием усовершенствованного алгоритма кластеризации, способного работать с матрицей ядер/расстояний, для получения соответствующих им суперкластеров; иclustering the second level of the centroids of the clusters according to the calculated matrix of pairwise nuclei / distances for all pairs of centroids using an advanced clustering algorithm that can work with the matrix of nuclei / distances to obtain their corresponding superclusters; and

проверяют, больше ли число полученных суперкластеров, чем два:check if the number of received superclusters is greater than two:

если число полученных суперкластеров равно двум, используют операцию логического вывода разметки для классификации каждого из этих двух суперкластеров в один из двух классов: текст или иллюстрация, илиif the number of received superclusters is two, use the markup inference operation to classify each of these two superclusters into one of two classes: text or illustration, or

если число полученных суперкластеров больше двух, используют операцию распространения разметки с частичным привлечением учителя для классификации каждого из этих более двух суперкластеров в один из двух классов: текст или иллюстрация.if the number of received superclusters is more than two, use the markup distribution operation with partial involvement of a teacher to classify each of these more than two superclusters into one of two classes: text or illustration.