RU2661327C1 - Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation - Google Patents

Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation Download PDF

Info

Publication number
RU2661327C1
RU2661327C1 RU2017134770A RU2017134770A RU2661327C1 RU 2661327 C1 RU2661327 C1 RU 2661327C1 RU 2017134770 A RU2017134770 A RU 2017134770A RU 2017134770 A RU2017134770 A RU 2017134770A RU 2661327 C1 RU2661327 C1 RU 2661327C1
Authority
RU
Russia
Prior art keywords
fragment
fragments
document
documents
processing
Prior art date
Application number
RU2017134770A
Other languages
Russian (ru)
Inventor
Николай Николаевич Анищенко
Сергей Васильевич Баландюк
Дмитрий Рудольфович Щербачев
Original Assignee
Общество с ограниченной ответственностью "Электронный архив"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Электронный архив" filed Critical Общество с ограниченной ответственностью "Электронный архив"
Priority to RU2017134770A priority Critical patent/RU2661327C1/en
Application granted granted Critical
Publication of RU2661327C1 publication Critical patent/RU2661327C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: data processing.
SUBSTANCE: invention relates to the documents digitizing method, electronic archive and machine-readable medium. Method consists of the stages: in the documents digitizing server, documents are received for processing, fragments generation unit divides the original document into plurality of constituent fragments, the generated fragments are placed into the encoding database (DB), each fragment is assigned with the fragment identifier, in the encoding DB creating the source document encoding table, in which the corresponding fragment identifier and to which document each fragment belongs to indication are stored, sending each fragment for processing to the external system operator's automated workstation (AWS), receiving the fragments processing results in the XML format, under condition of all original fragments components processing, performing the returned fragments processing results automatic assembly into the single record using the coding table in the DB.
EFFECT: technical result consists in enabling of the documents digitization, to which additional confidentiality requirements are imposed.
23 cl, 4 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Изобретение относится к аппаратно-программным средствам многопользовательского взаимодействия, более конкретно к средствам обеспечения межсетевого взаимодействия пользователей для оцифровывания документов на бумаге или любом ином твердом носителе. Изобретение позволяет выполнять разделение конфиденциального документа на составляющие фрагментов, каждый из которых не позволяет судить о содержании исходного документа. При этом, после оцифровывания составляющих фрагментов, сведения оцифровывания объединяются для формирования распознанного конфиденциального документа.The invention relates to hardware and software for multi-user interaction, and more particularly to means for providing interconnection of users for digitizing documents on paper or any other solid medium. The invention allows the separation of a confidential document into components of fragments, each of which does not allow to judge the content of the original document. In this case, after the digitization of the component fragments, the digitization information is combined to form a recognized confidential document.

УРОВЕНЬ ТЕХНИКИBACKGROUND

Известно техническое решение по патенту RU 2355043 С2 от 20.02.2014, МПК G09F 15/16, «МНОГОПОЛЬЗОВАТЕЛЬСКОЕ СЕТЕВОЕ СОТРУДНИЧЕСТВО». Изобретение относится к области многопользовательского сетевого сотрудничества. Техническим результатом является повышение эффективности обработки документов. Раскрыты способы, которые позволяют пользователям дистанционно сотрудничать по поводу документов с использованием соответствующих браузеров. Эти способы предусматривают передачу представлений фрагментов данного документа браузерам и связывание фрагментов документа с конкретными пользователями. Браузеры могут принимать представления команд, обеспеченные пользователями, и могут определять, выполнять ли команды на браузере.A technical solution is known according to the patent RU 2355043 C2 dated 02.20.2014, IPC G09F 15/16, "MULTIPLE USER NETWORK COOPERATION". The invention relates to the field of multi-user network collaboration. The technical result is to increase the efficiency of processing documents. Disclosed are methods that allow users to remotely collaborate on documents using appropriate browsers. These methods include transmitting the representations of fragments of this document to browsers and associating fragments of the document with specific users. Browsers can accept command views provided by users, and can determine whether to execute commands on a browser.

Достоинством способа является эффективная обработка документов.The advantage of this method is the efficient processing of documents.

Недостатком является недопустимость использования известного решения для работы с конфиденциальными документами, т.к. при обращении с конфиденциальными или секретными документами необходимо следовать дополнительным мерам, обеспечивающим режим секретности.The disadvantage is the inadmissibility of using a well-known solution for working with confidential documents, because when handling confidential or secret documents, additional measures must be followed to ensure the secrecy regime.

Предлагаемые система и способ имеют преимущество по сравнению с известным аналогом, поскольку не содержат указанных недостатков.The proposed system and method have an advantage over the known analogue, since they do not contain the indicated disadvantages.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Технический результат изобретения заключается в выполнении оцифровывания документов с соблюдением требований по обеспечению режима работы с документами.The technical result of the invention is to perform the digitization of documents in compliance with the requirements for ensuring the mode of work with documents.

Поставленная задача достигается следующим образом.The task is achieved as follows.

Способ реализуется при помощи сервера оцифровывания конфиденциальных документов и автоматизированных рабочих мест пользователя (АРМ). Сервер оцифровывания конфиденциальных документов осуществляет выделение в исходном отсканированном конфиденциальном документе элементарных составляющих фрагментов, таких как одно слово или словосочетание, каждый из которых не способен передать смысловое значение исходного документа. Составляющие фрагменты передают на АРМ пользователя для распознавания человеком. Посредством интерфейса пользователя принимают ввод пользователя в ответ на отображение составляющего фрагмента. Посредством вычислительной сети ввод пользователя передают на сервер распознавания конфиденциальных документов. Каждому составляющему фрагменту документа соответствует идентификатор, например, случайное число, или хэш-сумма от составляющего фрагмента. Идентификатор составляющего фрагмента обеспечивает дополнительную защиту конфиденциального документа от неправомерных попыток восстановления исходного документа путем сбора всех составляющих фрагментов на множестве автоматизированных рабочих мест пользователей.The method is implemented using a server for digitizing confidential documents and automated workstations of the user (AWP). The server for digitizing confidential documents extracts elementary component fragments in the original scanned confidential document, such as one word or phrase, each of which is not able to convey the semantic meaning of the original document. Component fragments are transmitted to the user's workstation for human recognition. Through the user interface, user input is received in response to the display of the constituent fragment. Through the computer network, user input is transmitted to a confidential document recognition server. Each constituent fragment of the document corresponds to an identifier, for example, a random number, or a hash sum from the constituent fragment. The identifier of the constituent fragment provides additional protection for the confidential document from unlawful attempts to restore the original document by collecting all the constituent fragments at the set of user workstations.

В одном из вариантов реализации изобретения идентификатор составляющего документа вместе с вводом пользователя принимают в сервере распознавания конфиденциальных документов. По идентификатору составляющего фрагмента документа сервер распознавания конфиденциальных документов запрашивает в базе данных местоположений составляющих фрагментов данные об исходном конфиденциальном документе, в которому относится каждый конкретный фрагмент. Когда все составляющие фрагменты исходного документа распознаны, выполняют сборку распознанной версии исходного конфиденциального документа.In one embodiment of the invention, the identifier of the constituent document, together with the user input, is received in the confidential document recognition server. By the identifier of the constituent fragment of the document, the confidential document recognition server requests in the database of the locations of the constituent fragments data on the source confidential document in which each particular fragment belongs. When all the constituent fragments of the source document are recognized, the assembly of the recognized version of the source confidential document is assembled.

Предложенное решение обеспечивает обработку документов ограниченного доступа с использованием большого количества внешних операторов без риска нежелательного или несанкционированного доступа к информации. При этом исключается необходимость найма и подготовки штатных операторов для обработки информации, и обеспечивается необходимый уровень ограниченного доступа к конфиденциальным документам за счет обработки операторами «обезличенной» и «фрагментированной» информации и привлечения к обработке информации «внешних» профессиональных операторов и организаций без реализации комплекса мер по защите информации.The proposed solution provides the processing of documents with limited access using a large number of external operators without the risk of unwanted or unauthorized access to information. This eliminates the need for hiring and training full-time operators to process information, and ensures the necessary level of limited access to confidential documents by processing operators of “depersonalized” and “fragmented” information and involving “external” professional operators and organizations in the processing of information without implementing a set of measures to protect information.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Фиг. 1 схематически отображает информационное взаимодействие между основными узлами системы.FIG. 1 schematically displays the information interaction between the main nodes of the system.

Фиг. 2 представляет примерный вариант графического интерфейса создания шаблонов.FIG. 2 is an example of a graphical user interface for creating templates.

Фиг. 3 схематически отображает этапы способа обработки конфиденциального документа.FIG. 3 schematically illustrates the steps of a method for processing a confidential document.

Фиг. 4 отображает базу данных, содержащую обезличенные фрагменты с присвоенными кодированными идентификаторами.FIG. 4 displays a database containing anonymized fragments with assigned coded identifiers.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

Нижеследующее описание описывает технологии взаимодействия некоторого количества пользователей для решения одной задачи. При этом для обеспечения взаимодействия аппаратно-программных средств применяют прикладные программы в компьютерных системах. Программные модули под управлением операционной системы побуждают аппаратные средства выполнять этапы способа поточной обработки конфиденциальны документов. Программные модули включают в себя процедуры, программы, компоненты, структуры данных и другие типы структур, которые выполняют конкретные задачи или реализуют те или иные абстрактные типы данных. Кроме того, специалистам в данной области техники очевидно, что описанное здесь изобретение можно осуществлять на практике в других конфигурациях компьютерной системы, включая карманные устройства, многопроцессорные системы, микропроцессорные или программируемые бытовые электронные приборы, миникомпьютеры, универсальные компьютеры.The following description describes the interaction technologies of a number of users to solve one problem. Moreover, to ensure the interaction of hardware and software, applied programs in computer systems are used. Software modules under the control of the operating system prompt the hardware to perform the steps of the method for stream processing confidential documents. Software modules include procedures, programs, components, data structures, and other types of structures that perform specific tasks or implement particular abstract data types. In addition, it will be apparent to those skilled in the art that the invention described herein can be practiced in other computer system configurations, including handheld devices, multiprocessor systems, microprocessor or programmable household electronic devices, minicomputers, and universal computers.

Далее разобраны примеры реализации изобретения со ссылками на фигуры чертежей для пояснения основных принципов предлагаемого решения.The following are examples of implementation of the invention with reference to the figures of the drawings to explain the basic principles of the proposed solution.

В соответствии с Фиг. 1 система условно может быть разделена на открытую зону 101 и зону ограниченного доступа 121, при этом взаимодействие основных элементов системы электронного архива фрагментов 131 обеспечивает разделение скан-образов документов 124 на фрагменты 103, не имеющие смысловой нагрузки, но достаточные для ввода данных операторами внешней системы 102. Такая разрезка скан-образов документов 124 на отдельные обезличенные части 123 снимает ограничения конфиденциальности и открывает возможность эффективного перевода конфиденциальных сведений из скан-образов документов 124 в формат базы данных (БД) 122, в том числе с привлечением внешнего исполнителя 102. При этом полностью исключается утечка информации из-за того, что оператор внешней системы 102 производит обработку конфиденциальной информации, но не будет понимать ее смысловое значение.In accordance with FIG. 1, the system can conditionally be divided into an open zone 101 and a restricted access zone 121, while the interaction of the main elements of the electronic archive of fragments 131 system ensures the separation of scan images of documents 124 into fragments 103 that do not have a semantic load but are sufficient for data entry by external system operators 102. Such a cutting of scan images of documents 124 into separate anonymized parts 123 removes confidentiality restrictions and opens the possibility of efficient transfer of confidential information from a scan image in 124 documents in a database format (DB) 122, including with the involvement of external executor 102. This completely eliminates data leakage due to the fact that the operator of the external system 102 is processing confidential information, but will not understand its meaning.

Аппаратно-программный комплекс поточной обработки конфиденциальных документов обеспечивает различные способы обработки электронных образов документов:The hardware-software complex for stream processing of confidential documents provides various ways of processing electronic images of documents:

Реализованы механизмы выделения фрагментов для индексирования 132 любых структурированных документов с помощью создания графических шаблонов, указывающих области присутствия сведений на документе;Implemented mechanisms for extracting fragments for indexing 132 any structured documents by creating graphic templates indicating the area of presence of information on the document;

Для слабоструктурированных документов реализованы механизмы фрагментирования путем выделения необходимых слов, словосочетаний и смысловых сущностей в тексте, например, ФИО, адрес, наименование и т.п.;For poorly structured documents, fragmentation mechanisms are implemented by highlighting the necessary words, phrases and semantic entities in the text, for example, name, address, name, etc .;

Обеспечивается обезличивание фрагментов по ключу кодирования, то есть превращение электронного образа документа в набор частичных изображений, связанных друг с другом только по ключу заказчика (база ключей кодирования остается на территории заказчика) и отправка в закодированном виде 133.Anonymization of the fragments by the encoding key is provided, that is, the conversion of the electronic image of the document into a set of partial images related to each other only by the customer’s key (the encoding key database remains on the customer’s territory) and sending in encoded form 133.

Полученные фрагменты документов могут обрабатываться любым удобным способом: аппаратно-программно, вручную, внутри организации или на внешней территории, с привлечением любого количества собственных сотрудников или заказом услуг подрядчиков. Возможно, как распознавание документов с верификацией, так и полностью ручной ввод силами операторов внешней системы 102. При обработке электронным архивом фрагментов 131 обеспечивается контроль обработки и получение результатов 134.The received fragments of documents can be processed in any convenient way: hardware-software, manually, internally or externally, with the involvement of any number of own employees or by ordering the services of contractors. It is possible both recognition of documents with verification, and completely manual input by the operators of the external system 102. When processing fragments 131 using the electronic archive, processing control and obtaining the results 134 are ensured.

В соответствии с Фиг. 2, на котором представлен примерный вариант графического интерфейса создания шаблонов, может быть выполнена разрезка скан-образов формализованных документов с помощью шаблонов, доступ к котором предоставляется через интерфейс аппаратно-программных средств электронного архива фрагментов 201.In accordance with FIG. 2, which shows an exemplary version of the graphical interface for creating templates, the scan images of formalized documents can be cut using templates, access to which is provided through the hardware and software interface of the electronic fragment archive 201.

На Фиг. 2 представлен вид готового шаблона «Паспорт» 211 для одного из распространенных типов формализованных документов. Графический интерфейс пользователя позволяет осуществлять быстрое создание шаблона; производить выделение областей документа 202, в том числе произвольной формы (например, нажатием комбинации клавиш Ctrl+); назначение имен и создание групп извлекаемых данных 212. Созданный или измененный шаблон 211 может быть сохранен, экспортирован, импортирован.In FIG. Figure 2 presents the finished template "Passport" 211 for one of the common types of formalized documents. Graphical user interface allows quick template creation; select areas of the document 202, including any shape (for example, by pressing the key combination Ctrl +); naming and creating groups of extracted data 212. Created or modified template 211 can be saved, exported, imported.

Графический механизм создания шаблонов позволяет быстро с помощью мышки настроить правила выделения фрагментов 202 в формализованных документах, назначить имена и типы данных 212, которые должны быть извлечены с каждого фрагмента.The graphical mechanism for creating templates allows you to quickly use the mouse to configure the rules for selecting fragments 202 in formalized documents, and to assign names and data types 212 that must be extracted from each fragment.

Интеллектуальное выделение фрагментов неформализованных документов с заданными сущностями (отдельные фрагменты на ФИО, наименования, адреса, ИНН, …) на основе анализа распознанного текста.Intelligent selection of fragments of informal documents with specified entities (individual fragments in the name, name, address, TIN, ...) based on the analysis of the recognized text.

Предусмотрены варианты использования шаблонов. Использование готовых настроек позволяет отметить из уже сохраненных или входящих в стандартную поставку шаблонов требуемые сущности. Встроенная OCR система распознавания позволяет динамически формировать новые шаблоны при обработке документа. Так же предусмотрен гибридный метод для повышения качества, который предусматривает автоматическое выделение нужной сущности в заданном районе документа.Options for using templates are provided. Using ready-made settings allows you to mark required entities from already saved or included in the standard delivery templates. Built-in OCR recognition system allows you to dynamically generate new templates when processing a document. A hybrid method for improving quality is also provided, which provides for the automatic selection of the desired entity in a given area of the document.

Система электронного архива фрагментов предусматривает кодирование и выгрузку; обезличивание фрагментов путем присвоения кодированных ID-имен; выгрузку на носители; передачу онлайн или оффлайн во внешние системы индексирования.The system of electronic archive of fragments provides for coding and downloading; depersonalizing fragments by assigning coded ID names; unloading to media; Transfer online or offline to external indexing systems.

В соответствии с Фиг. 3, на котором представлены этапы одного из вариантов способа обработки конфиденциального документа, предусмотрено выполнение аппаратно-программными средствами электронного архива фрагментов следующих этапов в автоматическом режиме.In accordance with FIG. 3, which shows the stages of one of the variants of the method for processing a confidential document, it is envisaged that the hardware of the electronic archive of fragments of the following steps will be executed automatically.

После подготовки аппаратно-программного комплекса электронного архива фрагментов 300, принимают документы с различными уровнями секретности для обработки 305. Электронный архив фрагментов принимает отсканированные документы в любом известном графическом формате 310. Модуль формирования фрагментов выполняет разделение исходного документа на множество составляющих фрагментов 315. В базу данных (БД) кодирования помещают сформированные фрагменты, каждому фрагменту ставится в соответствие идентификатор, т.е. ключ кодирования 320. В БД кодирования создают кодировочную таблицу исходного документа 325, в которую сохраняют соответствующий идентификатор фрагмента - ключ кодирования и указание о том, к какому документу относится каждый фрагмент.After preparing the hardware-software complex of the electronic archive of fragments 300, documents with various levels of secrecy are accepted for processing 305. The electronic archive of fragments accepts scanned documents in any known graphic format 310. The fragment generation module performs the separation of the source document into many component fragments 315. To the database (DB) coding place the generated fragments, each fragment is assigned an identifier, i.e. encoding key 320. In the encoding database, create the encoding table of the source document 325, in which the corresponding fragment identifier is stored - the encoding key and an indication of which document each fragment belongs to.

Каждый сформированный фрагмент отправляют на автоматизированное рабочее место оператора внешней системы для обработки 330. При этом, если отправленный фрагмент не обработан оператором за отведенное время, то тот же самый фрагмент отправляют на одно из других АРМ оператора, и так до тех пор, пока фрагмент не будет успешно распознан. В одном из вариантов реализации один фрагмент может быть отправлен на несколько АРМ операторов для целей контроля качества распознавания фрагментов разными операторами. Один и тот же фрагмент могут отправлять одному оператору несколько раз для проверки добросовестности выполнения распознавания исходя из анализа стабильности результата распознавания на одних и тех же распознаваемых фрагментах.Each generated fragment is sent to the automated workstation of the external system operator for processing 330. Moreover, if the sent fragment is not processed by the operator in the allotted time, then the same fragment is sent to one of the other operator workstations, and so on until the fragment will be recognized successfully. In one embodiment, a single fragment may be sent to several workstations of operators for the purpose of monitoring the quality of recognition of fragments by different operators. The same fragment can be sent to the same operator several times to verify the integrity of the recognition based on the analysis of the stability of the recognition result on the same recognized fragments.

Результаты обработки фрагментов принимают в XML-формате на этапе 335. На этапе 340, при условии обработки всех составляющих исходный документ фрагментов, выполняют автоматическую сборку возвращенных результатов обработки фрагментов в единую запись (карточку документа) с помощью кодировочной таблицы в БД.The results of processing fragments are accepted in XML format at step 335. At step 340, subject to processing of all fragments that make up the source document, the returned results of processing fragments are automatically assembled into a single record (document card) using the encoding table in the database.

Результаты распознавания исходного документа сохраняют в средстве хранения, соединенном с сервером оцифровывания документов.Recognition results of the original document are stored in a storage medium connected to the document digitization server.

В одном из вариантов работы уполномоченный сотрудник вносит правки в настройки аппаратно-программных средств для корректировки и для эффективной работы системы.In one of the work options, an authorized employee makes corrections to the hardware and software settings for adjustments and for the effective operation of the system.

Фиг. 4 отображает базу данных, содержащую обезличенные фрагменты 401 с присвоенными кодированными идентификаторами 405, и принятые результаты обработки в XML-формате 410.FIG. 4 displays a database containing anonymized fragments 401 with assigned encoded identifiers 405, and received processing results in XML format 410.

Аппаратно-программное обеспечение, воплощающее настоящее изобретение содержит вычислительные системы, объединенные вычислительными сетями, каждая из которых работает под управлением операционной системы и дополнительного специализированного программного обеспечения. Эти системы включают в себя одну или несколько серверных систем, причем допустимо использование любого количества внешних и/или внутренних дополнительных серверов и сервисов для повышения качества работы системы и реализуемых сервисов. Серверы включают в себя один или несколько процессоров. Процессоры подключают к одной или нескольким шинным системам, выбранным для совместимости с процессорами.The hardware-software embodying the present invention contains computing systems connected by computer networks, each of which is running an operating system and additional specialized software. These systems include one or more server systems, and it is permissible to use any number of external and / or internal additional servers and services to improve the quality of the system and the services being implemented. Servers include one or more processors. Processors are connected to one or more bus systems selected for compatibility with processors.

Серверы включают в себя один или несколько машиночитаемых носителей данных, которые подключены к шинным системам. Системные шины обеспечивают считывание процессором машиноисполняемых инструкций и данных с машиночитаемых носителей. Машиночитаемый носитель представляет элементы хранения, выполненные по любой известной технологии хранения данных, например, реализованные с применением полупроводников, магнитных материалов, и д.р. К системной шине подключены по меньшей мере такие машиночитаемые носители как ОЗУ, ПЗУ, флэш или другие типы, и также предусмотрена возможность подключения жестких дисков, съемных носителей.Servers include one or more computer-readable storage media that are connected to bus systems. System buses enable the processor to read computer-executable instructions and data from computer-readable media. A machine-readable medium represents storage elements made by any known data storage technology, for example, implemented using semiconductors, magnetic materials, etc. At least computer-readable media such as RAM, ROM, flash or other types are connected to the system bus, and it is also possible to connect hard drives, removable media.

Носители данных могут включать в себя один или несколько модулей инструкций, которые, при загрузке в процессор и выполнении, предписывают серверу осуществлять этапы способа оцифровывания документов, к работе с которыми предъявляют дополнительные требования конфиденциальности. В частности, носители данных включают в инструкции, которые реализуют серверные функции системы электронного архива фрагментов или клиентские функции АРМ оператора.Storage media may include one or more instruction modules, which, when loaded into the processor and executed, instruct the server to carry out the steps of the method of digitizing documents, which require additional confidentiality requirements. In particular, data carriers are included in instructions that implement server functions of an electronic fragment archive system or client functions of an operator workstation.

Носители данных содержат хранилище исходных документов, фрагментов документов, баз данных и др. Хранилище документов содержит документы, которые предназначены для распознавания, подготовлены к отправке на АРМ операторов, или полученных результатов распознавания от АРМ операторов. Хотя хранилище документов и программное обеспечение для серверных и клиентских служб могут быть расположены на одном носителе данных, но так же для целей обеспечения качества предоставляемого сервиса указанные данные и программное обеспечение может быть сохранено в распределенном хранилище, например, на некотором количестве вычислительных узлов в сети, или в облачном хранилище информации. Хранилище документов и коллективные клиентские службы могут располагаться на разных узлах сети и в отдельных системах или физических устройствах.Data carriers contain a repository of source documents, fragments of documents, databases, etc. A document repository contains documents that are intended for recognition, prepared for sending to AWP operators, or received recognition results from AWP operators. Although the storage of documents and software for server and client services can be located on the same storage medium, but also for the purpose of ensuring the quality of the service provided, these data and software can be stored in a distributed storage, for example, on a number of computing nodes in the network, or in a cloud storage of information. Document storage and collective client services can be located on different network nodes and in separate systems or physical devices.

В одном из примеров реализации серверная система является централизованной вычислительной системой, которая взаимодействует с одной или более АРМ оператора. АРМ операторов могут быть персональными компьютерами, переносными или мобильными вычислительными системами, смартфонами, карманными персональными компьютерами с возможностью беспроводной связи (КПК) или другие пригодные системы. Однако описанное здесь изобретение предусматривает и другие формы серверных и клиентских систем.In one example implementation, the server system is a centralized computing system that interacts with one or more operator workstations. Workstations of operators can be personal computers, portable or mobile computing systems, smartphones, handheld personal computers with wireless capability (PDA), or other suitable systems. However, the invention described herein provides other forms of server and client systems.

В одном из вариантов реализации изобретения электронный архив содержит аппаратно-программные средства сервера оцифровывания документов, которые посредством вычислительной сети соединены с, одним или более, автоматизированным рабочим местом (АРМ) оператора, при этом сервер оцифровывания документов содержит: модуль приема документов для обработки; модуль формирования фрагментов, выполненный с возможностью разделять исходный документ на множество составляющих фрагментов; базу данных (БД) кодирования, выполненную с возможностью хранения сформированных фрагментов и каждому фрагменту ставят в соответствие идентификатор фрагмента; БД кодирования выполнена с возможностью хранения кодировочной таблицы исходного документа, в которой сохраняют соответствующий идентификатор фрагмента и указание о том, к какому документу относится каждый фрагмент, при этом таблицу кодирования создают командой из сервера оцифровывания документов; модуль отправки фрагментов, выполненный с возможностью отправки каждого фрагмента на АРМ оператора внешней системы для обработки; модуль приема результатов обработки в XML-формате; модуль автоматической сборки возвращенных результатов обработки фрагментов в единую запись с применением кодировочной таблицы в БД; модуль записи результатов автоматической сборки обработки фрагментов в виде распознанного документа в средстве хранения, которое соединено с сервером оцифровывания документов.In one embodiment of the invention, the electronic archive contains hardware and software of a document digitization server, which are connected via a computer network to one or more operator workstations (AWS), the document digitizing server comprising: a document receiving module for processing; a fragment generation module configured to divide an original document into a plurality of component fragments; an encoding database (DB) configured to store the generated fragments and each fragment is assigned a fragment identifier; The encoding database is configured to store the encoding table of the source document, which stores the corresponding fragment identifier and an indication of which document each fragment belongs to, and the encoding table is created by a command from the document digitization server; a fragment sending module configured to send each fragment to the AWP of an external system operator for processing; a module for receiving processing results in XML format; a module for automatic assembly of returned results of processing fragments into a single record using an encoding table in the database; a module for recording the results of an automatic assembly of processing fragments in the form of a recognized document in a storage medium that is connected to a document digitization server.

Оцифровка конфиденциальных документов - всегда сложный процесс, особенно в случае большого объема и сжатых сроков. Основной риск связан с тем, что для извлечения данных доступ к документам необходимо дать большому количеству временных сотрудников, операторов ввода, на территории заказчика. Причем необходимость проверки данных операторами остается даже в случае автоматического распознавания текстов. Электронный архив фрагментов позволяет минимизировать риски неправомерного доступа к конфиденциальной информации при обработке документов.Digitizing confidential documents is always a difficult process, especially in the case of a large volume and short deadlines. The main risk is associated with the fact that to extract data access to documents must be given to a large number of temporary employees, input operators, on the territory of the customer. Moreover, the need for data verification by operators remains even in the case of automatic text recognition. An electronic archive of fragments minimizes the risks of unauthorized access to confidential information when processing documents.

Ввиду вышеизложенного, заявленное изобретение имеет существенные отличия по сравнению с упомянутыми аналогами, оно является значительно более совершенным технологически, так как все технические решения, положенные в его основу, предусматривают максимальный уровень автоматизации процесса функционирования системы, минимизируют участие «человеческого фактора» и связанные с ним неизбежные ошибки в процессе функционирования системы.In view of the foregoing, the claimed invention has significant differences compared with the aforementioned analogues, it is significantly more advanced technologically, since all the technical solutions underlying it provide the maximum level of automation of the process of functioning of the system, minimize the involvement of the "human factor" and related inevitable errors in the functioning of the system.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенный формулой. Специалисту в данной области должно быть ясно, что существуют альтернативные варианты осуществления изобретения, соответствующие сущности настоящего изобретения. В силу чего прилагаемая формула изобретения, содержащая совокупность признаков, характеризующих изобретение, не должна трактоваться в узком смысле раскрытых в описании примеров реализации, но в то же время раскрывает объем правовой охраны, предоставляемой патенту на изобретение.In conclusion, it should be noted that the information provided in the description are examples that do not limit the scope of the present invention defined by the formula. One skilled in the art will appreciate that alternative embodiments of the invention exist that are consistent with the spirit of the present invention. Therefore, the attached claims containing a set of features characterizing the invention should not be interpreted in the narrow sense of the examples of implementation disclosed in the description, but at the same time it discloses the scope of legal protection granted to a patent for an invention.

Claims (45)

1. Способ оцифровывания документов, к работе с которыми предъявляют дополнительные требования конфиденциальности, который состоит из этапов:1. A method of digitizing documents that require additional confidentiality requirements, which consists of the following steps: в сервере оцифровывания документов принимают документы для обработки;in the document digitization server, documents are received for processing; модуль формирования фрагментов выполняет разделение исходного документа на множество составляющих фрагментов;the fragment generation module performs the separation of the source document into a plurality of component fragments; в базу данных (БД) кодирования помещают сформированные фрагменты, каждому фрагменту ставят в соответствие идентификатор фрагмента;formed fragments are placed in the coding database (DB), each fragment is assigned a fragment identifier; создают в БД кодирования кодировочную таблицу исходного документа, в которую сохраняют соответствующий идентификатор фрагмента и указание о том, к какому документу относится каждый фрагмент;create in the encoding database the encoding table of the source document, into which the corresponding fragment identifier and an indication of which document each fragment belongs to are stored; отправляют каждый фрагмент на автоматизированное рабочее место (АРМ) оператора внешней системы для обработки;send each fragment to an automated workstation (AWP) of an external system operator for processing; результаты обработки фрагментов принимают в XML-формате;fragment processing results are received in XML format; при условии обработки всех составляющих исходный документ фрагментов, выполняют автоматическую сборку возвращенных результатов обработки фрагментов в единую запись с помощью кодировочной таблицы в БД.subject to processing of all the fragments that make up the source document, they automatically assemble the returned fragments processing results into a single record using the encoding table in the database. 2. Способ по п. 1, в котором результаты распознавания исходного документа сохраняют в средстве хранения, которое соединено с сервером оцифровывания документов.2. The method of claim 1, wherein the recognition results of the original document are stored in a storage medium that is connected to a document digitization server. 3. Способ по п. 1, в котором уполномоченный сотрудник вносит правки в настройки аппаратно-программных средств для корректировки и для эффективной работы системы.3. The method according to p. 1, in which an authorized employee makes changes to the settings of the hardware and software for adjustment and for the effective operation of the system. 4. Способ по п. 1, в котором прием документов выполняют средствами сервера оцифровывания документов, при этом принимают отсканированные документы в любом известном графическом формате.4. The method according to p. 1, in which the reception of documents is performed by means of a server for digitizing documents, while receiving scanned documents in any known graphic format. 5. Способ по п. 1, в котором если отправленный фрагмент не обработан оператором за отведенное время, то тот же самый фрагмент отправляют на одно из других АРМ оператора.5. The method according to p. 1, in which if the sent fragment is not processed by the operator in the allotted time, then the same fragment is sent to one of the other operator workstations. 6. Способ по п. 5, в котором повторяют отправку на АРМ оператора до тех пор, пока фрагмент не будет успешно распознан.6. The method according to claim 5, in which the sending of the operator to the AWP is repeated until the fragment is successfully recognized. 7. Способ по п. 1, в котором один фрагмент может быть отправлен на несколько АРМ операторов для целей контроля качества распознавания фрагментов разными операторами.7. The method according to claim 1, in which one fragment can be sent to several AWP operators for the purpose of monitoring the quality of recognition of fragments by different operators. 8. Способ по п. 1, в котором один и тот же фрагмент могут отправлять одному оператору несколько раз для проверки добросовестности выполнения распознавания исходя из анализа стабильности результата распознавания на одних и тех же распознаваемых фрагментах.8. The method according to claim 1, in which the same fragment can be sent to the same operator several times to verify the integrity of the recognition based on the analysis of the stability of the recognition result on the same recognized fragments. 9. Электронный архив содержит аппаратно-программные средства сервера оцифровывания документов, которые посредством вычислительной сети соединены с, одним или более, автоматизированным рабочим местом (АРМ) оператора, при этом сервер оцифровывания документов содержит:9. The electronic archive contains hardware and software of the document digitization server, which are connected via a computer network to one or more operator workstations (AWS), while the document digitization server contains: модуль приема документов для обработки;a module for receiving documents for processing; модуль формирования фрагментов, выполненный с возможностью разделять исходный документ на множество составляющих фрагментов;a fragment generation module configured to divide an original document into a plurality of component fragments; базу данных (БД) кодирования, выполненную с возможностью хранения сформированных фрагментов и каждому фрагменту ставят в соответствие идентификатор фрагмента;an encoding database (DB) configured to store the generated fragments and each fragment is assigned a fragment identifier; БД кодирования выполнена с возможностью хранения кодировочной таблицы исходного документа, в которой сохраняют соответствующий идентификатор фрагмента и указание о том, к какому документу относится каждый фрагмент, при этом таблицу кодирования создают командой из сервера оцифровывания документов;The encoding database is configured to store the encoding table of the source document, which stores the corresponding fragment identifier and an indication of which document each fragment belongs to, and the encoding table is created by a command from the document digitization server; модуль отправки фрагментов, выполненный с возможностью отправки каждого фрагмента на АРМ оператора внешней системы для обработки;a fragment sending module configured to send each fragment to the AWP of an external system operator for processing; модуль приема результатов обработки в XML- формате;a module for receiving processing results in XML format; модуль автоматической сборки возвращенных результатов обработки фрагментов в единую запись с применением кодировочной таблицы в БД;a module for automatic assembly of returned results of processing fragments into a single record using an encoding table in the database; модуль записи результатов автоматической сборки обработки фрагментов в виде распознанного документа в средстве хранения, которое соединено с сервером оцифровывания документов.a module for recording the results of an automatic assembly of processing fragments in the form of a recognized document in a storage medium that is connected to a document digitization server. 10. Электронный архив п. 9, в котором уполномоченный сотрудник вносит правки в настройки аппаратно-программных средств для корректировки и для эффективной работы системы.10. The electronic archive of clause 9, in which the authorized employee makes changes to the settings of the hardware and software for adjustment and for the effective operation of the system. 11. Электронный архив п. 9, в котором прием документов выполняют средствами сервера оцифровывания документов, при этом принимают отсканированные документы в любом известном графическом формате.11. The electronic archive of clause 9, in which the reception of documents is performed by means of a server for digitizing documents, while receiving scanned documents in any known graphic format. 12. Электронный архив п. 9, в котором если отправленный фрагмент не обработан оператором за отведенное время, то тот же самый фрагмент отправляют на одно из других АРМ оператора.12. The electronic archive of clause 9, in which if the sent fragment is not processed by the operator in the allotted time, then the same fragment is sent to one of the other AWPs of the operator. 13. Электронный архив п. 12, в котором повторяют отправку на АРМ оператора до тех пор, пока фрагмент не будет успешно распознан.13. The electronic archive of clause 12, in which the sending of the operator to the AWP is repeated until the fragment is successfully recognized. 14. Электронный архив п. 9, в котором один фрагмент может быть отправлен на несколько АРМ операторов для целей контроля качества распознавания фрагментов разными операторами.14. The electronic archive of claim 9, in which one fragment can be sent to several AWP operators for the purpose of monitoring the quality of recognition of fragments by different operators. 15. Электронный архив п. 9, в котором один и тот же фрагмент могут отправлять одному оператору несколько раз для проверки добросовестности выполнения распознавания исходя из анализа стабильности результата распознавания на одних и тех же распознаваемых фрагментах.15. The electronic archive of claim 9, in which the same fragment can be sent to the same operator several times to verify the integrity of the recognition based on an analysis of the stability of the recognition result on the same recognized fragments. 16. Машиночитаемый носитель, содержащий машиноисполняемые инструкции, которые при исполнении инструкций процессором побуждают процессор выполнять этапы способа оцифровывания документов, к работе с которыми предъявляют дополнительные требования конфиденциальности, указанные инструкции обеспечивают выполнение этапов, на которых:16. A machine-readable medium containing computer-executable instructions, which, when executed by a processor, prompts the processor to perform the steps of the method of digitizing documents, which require additional confidentiality requirements, the instructions provide the steps in which: в сервере оцифровывания документов принимают документы для обработки;in the document digitization server, documents are received for processing; модуль формирования фрагментов выполняет разделение исходного документа на множество составляющих фрагментов;the fragment generation module performs the separation of the source document into a plurality of component fragments; в базу данных (БД) кодирования помещают сформированные фрагменты, каждому фрагменту ставят в соответствие идентификатор фрагмента;formed fragments are placed in the coding database (DB), each fragment is assigned a fragment identifier; создают в БД кодирования кодировочную таблицу исходного документа, в которую сохраняют соответствующий идентификатор фрагмента и указание о том, к какому документу относится каждый фрагмент;create in the encoding database the encoding table of the source document, into which the corresponding fragment identifier and an indication of which document each fragment belongs to are stored; отправляют каждый фрагмент на автоматизированное рабочее место (АРМ) оператора внешней системы для обработки;send each fragment to an automated workstation (AWP) of an external system operator for processing; результаты обработки фрагментов принимают в XML-формате;fragment processing results are received in XML format; при условии обработки всех составляющих исходный документ фрагментов, выполняют автоматическую сборку возвращенных результатов обработки фрагментов в единую запись с помощью кодировочной таблицы в БД.subject to processing of all the fragments that make up the source document, they automatically assemble the returned fragments processing results into a single record using the encoding table in the database. 17. Машиночитаемый носитель по п. 16, в котором результаты распознавания исходного документа сохраняют в средстве хранения, которое соединено с сервером оцифровывания документов.17. The computer-readable medium of claim 16, wherein the recognition results of the source document are stored in a storage medium that is connected to a document digitizing server. 18. Машиночитаемый носитель по п. 16, в котором уполномоченный сотрудник вносит правки в настройки аппаратно-программных средств для корректировки и для эффективной работы системы.18. Machine-readable medium according to claim 16, in which the authorized employee makes changes to the settings of the hardware and software for adjustment and for the effective operation of the system. 19. Машиночитаемый носитель по п. 16, в котором прием документов выполняют средствами сервера оцифровывания документов, при этом принимают отсканированные документы в любом известном графическом формате.19. Machine-readable medium according to claim 16, in which the reception of documents is performed by means of a server for digitizing documents, while receiving scanned documents in any known graphic format. 20. Машиночитаемый носитель по п. 16, в котором если отправленный фрагмент не обработан оператором за отведенное время, то тот же самый фрагмент отправляют на одно из других АРМ оператора.20. The computer-readable medium of claim 16, wherein if the sent fragment is not processed by the operator in the allotted time, then the same fragment is sent to one of the other operator workstations. 21. Машиночитаемый носитель по п. 20, в котором повторяют отправку на АРМ оператора до тех пор, пока фрагмент не будет успешно распознан.21. Machine-readable medium according to claim 20, in which the sending of the operator to the AWP is repeated until the fragment is successfully recognized. 22. Машиночитаемый носитель по п. 16, в котором один фрагмент может быть отправлен на несколько АРМ операторов для целей контроля качества распознавания фрагментов разными операторами.22. Machine-readable medium according to claim 16, in which one fragment can be sent to several workstations of operators for the purpose of monitoring the quality of recognition of fragments by different operators. 23. Машиночитаемый носитель по п. 16, в котором один и тот же фрагмент могут отправлять одному оператору несколько раз для проверки добросовестности выполнения распознавания исходя из анализа стабильности результата распознавания на одних и тех же распознаваемых фрагментах.23. The machine-readable medium of claim 16, wherein the same fragment can be sent to the same operator several times to verify the integrity of the recognition based on an analysis of the stability of the recognition result on the same recognized fragments.
RU2017134770A 2017-10-04 2017-10-04 Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation RU2661327C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2017134770A RU2661327C1 (en) 2017-10-04 2017-10-04 Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017134770A RU2661327C1 (en) 2017-10-04 2017-10-04 Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation

Publications (1)

Publication Number Publication Date
RU2661327C1 true RU2661327C1 (en) 2018-07-13

Family

ID=62917104

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017134770A RU2661327C1 (en) 2017-10-04 2017-10-04 Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation

Country Status (1)

Country Link
RU (1) RU2661327C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2802549C1 (en) * 2022-12-20 2023-08-30 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for depersonalization of confidential data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090235181A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Web-based multiuser collaboration
US20110243478A1 (en) * 2007-03-06 2011-10-06 Ecompex, Inc. System for document digitization
US20130318593A1 (en) * 2012-05-23 2013-11-28 Box, Inc. Methods, architectures and security mechanisms for a third-party application to access content in a cloud-based platform
WO2015106358A1 (en) * 2014-01-20 2015-07-23 Yp-It Ltd. Content digitization and digitized content characterization systems and methods
US9652445B2 (en) * 2013-05-29 2017-05-16 Xerox Corporation Methods and systems for creating tasks of digitizing electronic document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110243478A1 (en) * 2007-03-06 2011-10-06 Ecompex, Inc. System for document digitization
US20090235181A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Web-based multiuser collaboration
RU2507567C2 (en) * 2008-03-14 2014-02-20 Майкрософт Корпорейшн Multiuser network collaboration
US20130318593A1 (en) * 2012-05-23 2013-11-28 Box, Inc. Methods, architectures and security mechanisms for a third-party application to access content in a cloud-based platform
US9652445B2 (en) * 2013-05-29 2017-05-16 Xerox Corporation Methods and systems for creating tasks of digitizing electronic document
WO2015106358A1 (en) * 2014-01-20 2015-07-23 Yp-It Ltd. Content digitization and digitized content characterization systems and methods

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2804747C1 (en) * 2022-12-09 2023-10-04 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for depersonalization of confidential data
RU2802549C1 (en) * 2022-12-20 2023-08-30 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for depersonalization of confidential data

Similar Documents

Publication Publication Date Title
CN101739441B (en) Method of image information input and system thereof
US7940929B1 (en) Method for processing documents containing restricted information
AU2021266282A1 (en) Dynamic referencing of term definitions within a document
US9507758B2 (en) Collaborative matter management and analysis
US8806656B2 (en) Method and system for secure and selective access for editing and aggregation of electronic documents in a distributed environment
US8204949B1 (en) Email enabled project management applications
US20170052944A1 (en) Content digitization and digitized content characterization systems and methods
US9977788B2 (en) Methods and systems for managing files in an on-demand system
DE112013002542T5 (en) Cloud-based application resource files
US20210327190A1 (en) Computer-implemented system for image processing of documents associated with elections and methods thereof
CN106775713B (en) File auditing method and device and file submitting control system
CN109271410A (en) Extracting method, device and the computer readable storage medium of bank receipt
CN112330299A (en) Business process management method, device, equipment and storage medium
EP3217282B1 (en) System for using login information and historical data to determine processing for data received from various data sources
RU2661327C1 (en) Confidentiality ensuring method during the paper documents continuous electronic processing by operator and software for its implementation
Khan et al. Document management system: An explicit knowledge management system
Miksa et al. Defining requirements for machine-actionable data management plans.
CN1591448A (en) Data management apparatus, data management method and program thereof
CN109857748B (en) Contract data processing method and device and electronic equipment
JP7098986B2 (en) Information processing equipment, programs and information processing systems
US20090177510A1 (en) System and method of generating a business plan
JP6423699B2 (en) Work application processing device, work application processing method, and program
KR20190040537A (en) Electronic form generation and sharing system and method for performance reporting
CN114219420A (en) Processing method and device for handling guaranteed housing based on AI and RPA
US20160117401A1 (en) Network-based gathering of background information

Legal Events

Date Code Title Description
PD4A Correction of name of patent owner