KR20200068073A - Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning - Google Patents

Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning Download PDF

Info

Publication number
KR20200068073A
KR20200068073A KR1020180148706A KR20180148706A KR20200068073A KR 20200068073 A KR20200068073 A KR 20200068073A KR 1020180148706 A KR1020180148706 A KR 1020180148706A KR 20180148706 A KR20180148706 A KR 20180148706A KR 20200068073 A KR20200068073 A KR 20200068073A
Authority
KR
South Korea
Prior art keywords
ocr
processing
lstm
symbols
character recognition
Prior art date
Application number
KR1020180148706A
Other languages
Korean (ko)
Inventor
박장식
송종관
윤병우
Original Assignee
경성대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경성대학교 산학협력단 filed Critical 경성대학교 산학협력단
Priority to KR1020180148706A priority Critical patent/KR20200068073A/en
Publication of KR20200068073A publication Critical patent/KR20200068073A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • G06K9/20
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/186Extraction of features or characteristics of the image by deriving mathematical or geometrical properties from the whole image
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)

Abstract

The present invention relates to a method of increasing drawing character recognition performance through deep learning pre-processing and, more specifically, to an LSTM OCR combined with mathematical morphology pre-processing for efficiently recognizing characters and numbers on a service component drawing of a mechanical industry. According to the present invention, the method of increasing drawing character recognition performance through deep learning pre-processing includes: a pre-processing step of separating only symbols by performing mathematical morphology filtering on a component drawing including component figures, leader lines and symbols (characters or numbers); and a step of deriving an OCR result about the symbols by inputting the symbols separated in the pre-processing step into a learnt LSTM and synthesizing the symbols with the component figures and the leader lines. F1 criteria of an OCR, to which only the LSTM and an OCR, suggested in the present invention, is applied, are 90.06 and 83.67, respectively, which means an improvement is by approximately 6.37%. Moreover, as a result of comparing OCR consumption times, the average time for processing one sheet of service component drawing is experimentally confirmed to be improved by approximately 3.01 seconds when compared to an existing method.

Description

심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법{Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning}{Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning}

본 발명은 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법에 관한 것으로, 구체적으로는 기계산업의 서비스 부품 도면의 문자와 숫자를 효율적인 인식을 위하여 수학적 형태학 전처리와 결합한 LSTM OCR에 관한 것이다. The present invention relates to a method of improving drawing character recognition performance through in-depth learning pre-processing, and more particularly, to an LSTM OCR combined with mathematical morphological pre-processing for efficient recognition of characters and numbers in service parts drawings of the machinery industry.

알려진 바와 같이, 광학 문자 인식(OCR, optical character recognition)은 필기체 또는 인쇄된 문서에서 문자 또는 숫자를 인식하는 기술이다. OCR은 차량 번호판, 영수증, 여권, 수표 인식 등 다양 분야에서 활용되고 있다. As is known, optical character recognition (OCR) is a technique for recognizing letters or numbers in handwritten or printed documents. OCR is used in various fields such as license plates, receipts, passports, and check recognition.

최근에는 AR(augmented reality)와 연계하여 거리의 간판 문자 인식 등의 응용에도 적용되고 있다. Recently, it has been applied to applications such as recognition of street signage characters in connection with augmented reality (AR).

또한, 기계 산업 분야에서 보다 효율적인 수리 및 부품 공급을 위하여 서비스 부품 도면(Parts book)의 문자 인식이 필요하다. 종래의 OCR 연구는 형태를 특징으로 하는 통계적인 기법을 적용하였으며, HMM(hidden markov model)과 SVM(support vector machine)이 널리 활용되었다. In addition, in the mechanical industry, character recognition of service parts drawings is necessary for more efficient repair and parts supply. In the conventional OCR study, a statistical technique characterized by morphology was applied, and a hidden markov model (HMM) and a support vector machine (SVM) were widely used.

최근에는 다양한 심층학습 모델이 적용되고 있다.Recently, various in-depth learning models have been applied.

심층학습의 응용으로 LeCun이 1989년 필기체 문자 인식에 처음 CNN(convolutional neural network)을 도입하였다[1]. 초기에는 성능이 상대적으로 우수하지는 않았지만, 데이터베이스를 보완하고, 개선된 모델들이 제안되면서 OCR의 발전에 현저히 기여하고 있다.As an application of in-depth learning, LeCun first introduced a convolutional neural network (CNN) in handwritten character recognition in 1989 [1]. Initially, performance was not relatively good, but the database was supplemented and improved models were proposed, contributing significantly to the development of OCR.

Wankhede와 Mohod는 OCR을 보다 쉽게 접근할 수 있는 오픈 소스 라이브러리(Open source library)인 Tesseract을 제안하였다[2]. Wankhede and Mohod proposed Tesseract, an open source library that makes OCR more accessible [2].

Tesseract OCR은 입력 데이터에 대하여 자유로우며 획득된 결과는 다양한 데이터로 저장 할 수 있다. 저장된 데이터를 검색하기 위해서는 Boyer-Moore 문자열 검색 알고리즘을 사용한다[3].Tesseract OCR is free for input data and the obtained results can be saved as various data. To search the stored data, Boyer-Moore string search algorithm is used [3].

Rawls 등은 필기체 인식 성능 향상을 위하여 CNN 딥러닝 모델과 LSTM 심층학습 모델을 결합한 연구를 하였다[4]. 필기체 문자열 추출을 위하여 CNN 모델을 사용하고, 문자열 순서(sequential modeling)를 모델링하기 위하여 양방향 LSTM(bi-directional LSTM)을 적용한다. 디코딩을 위하여 가중치 유한 상태 변환기(WFST, weighted finite state transduce)를 사용하는 방법을 제안하였다.Rawls et al. studied a combination of CNN deep learning model and LSTM deep learning model to improve handwriting recognition performance [4]. The CNN model is used to extract handwritten character strings, and bi-directional LSTM (LSTM) is applied to model sequential modeling. We proposed a method using weighted finite state transduce (WFST) for decoding.

상업적인 용도로는 마이크로소프트(Microsoft) 사에서 개발한 광학 문자 인식 Microsoft Office Document Imaging(OCR MODI)는 기존 기술에 비하여 높은 인식률을 보여주고 있지만 영상의 잡음, 문자의 크기 등에 따라 낮은 인식률을 보이고 있다. 특히, 본 발명에서 다루고자 하는 도면에서의 문자 또는 숫자 인식 성능은 도면 속의 도형과 지시선에 의하여 인식률이 현저히 저하되었다.For commercial use, Microsoft Office Document Imaging (OCR MODI), developed by Microsoft Corporation, shows a high recognition rate compared to the existing technology, but shows a low recognition rate depending on the noise of the image and the size of characters. In particular, in the figures to be dealt with in the present invention, the recognition rate of letters or numbers in the drawings is significantly lowered by figures and leaders in the drawings.

본 발명에서는 기계 부품의 서비스 도면에서의 문자와 숫자 인식을 위하여 심층학습을 적용한 OCR을 제안한다. 제안하는 OCR은 부품 도면에 대한 전처리 과정과 숫자 인식을 위한 LSTM 심층학습 모델로 구성된다. 전처리 과정은 심층학습을 적용한 추론 단계에서 부품 도면의 도형과 지시선에 의한 오검출 및 오인식을 감소시키기 위한 것이다. 전처리 과정은 수학적 형태학적 필터링(mathematical morphology filtering)을 적용하여 지시선과 숫자와 유사한 모양을 제거한다. 숫자 검출과 인식을 위한 학습과 추론은 LSTM 모델을 적용한다. The present invention proposes an OCR to which deep learning is applied for recognition of letters and numbers in service drawings of mechanical parts. The proposed OCR consists of an LSTM deep learning model for pre-processing of parts drawings and numerical recognition. The pre-processing process is to reduce misdetection and misrecognition by the figure and the leader line of the part drawing in the inference step applying in-depth learning. The pretreatment process removes the shape similar to the leader line and numbers by applying mathematical morphology filtering. For learning and inference for numeric detection and recognition, the LSTM model is applied.

제안하는 OCR에 대한 성능 평가 결과, LSTM 만을 적용한 결과에 비하여 F1 척도(F1 measurement)로 6.39% 개선됨을 확인하였다. 또한 전처리를 통하여 처리속도도 개선되었다.As a result of the performance evaluation for the proposed OCR, it was confirmed that the improvement was 6.39% with the F1 measurement (F1 measurement) compared to the result of applying only LSTM. In addition, the processing speed was improved through pretreatment.

먼저, 광학적 문자 인식과 LSTM 심층학습에 대하여 설명하기로 한다First, optical character recognition and LSTM deep learning will be explained.

1. 광학적 문자 인식1. Optical character recognition

광학 문자 인식, OCR은 필기체 또는 인쇄된 문서를 입력으로 받아 컴퓨터가 이해할 수 있는 데이터로 변환하는데 사용된다. OCR의 응용 분야로 차량 번호판, 영수증, 여권, 수표 등의 인식 등과 같은 다양한 분야에 적용하고 있다. 초기의 OCR은 하나의 글꼴만을 인식 할 수 있었지만 기계 학습(machine learning)과 영상 처리(image processing)의 발전으로 인식 가능한 글꼴과 영상 형식이 급증했다.Optical character recognition, OCR, is used to take handwritten or printed documents as input and convert them into data that a computer can understand. As an application field of OCR, it is applied to various fields such as recognition of license plates, receipts, passports, checks, etc. In the early days, OCR was able to recognize only one font, but the recognition of fonts and image formats increased rapidly due to advances in machine learning and image processing.

OCR은 문자 패턴의 표현 방법과 분류 방법에 따라 탬플릿 매칭template matching) 방법, 통계적 방법 등으로 나누어진다. 심층학습 방법이 적용되기 이전 널리 사용되었다.OCR is divided into template matching, statistical method, etc. according to the expression and classification methods of character patterns. It was widely used before in-depth learning methods were applied.

탬플릿 매칭은 문자의 패턴을 배열 형태로 분류하여 원형 패턴과 비교하며 가장 유사한 형태를 찾아내는 방법이다 이 방법은 초기에 많이 사용하였으나 주로 하나의 고정된 형식의 문자에 대해서만 사용가능하다는 문제점으로 인해 현재는 사용 빈도가 낮다.Template matching is a method of classifying a pattern of characters into an array type and comparing them with a circular pattern to find the most similar form. This method was used a lot in the early stages, but it is mainly used for only one fixed type of character. The frequency of use is low.

통계적 문자 인식 방법은 인식 대상에서 특징 벡터를 추출하여 문자인식을 하는 것이다. 구조 분석적 문자 인식 방법은 문자의 구성 원리에 입각하여 자획 등과 같은 문자를 구성하는 기본 요소와 그들의 연관성을 추출하여 문자를 인식하는 것이다 이 방법은 이론적인 정립이 잘 되어 있고 방법이 단순한 장점을 가지고 있으나 특징 문자에 대한 규칙이 활자체에 따라 매우 다양해져서 인식 시간이 오래 걸린다는 단점이 있다.The statistical character recognition method is to recognize a character by extracting a feature vector from a recognition target. Structural analytic character recognition is based on the principle of the composition of characters and recognizes characters by extracting the basic elements constituting characters such as strokes and their associations. This method is well established in theory and has a simple method. The rule for feature characters is very diverse depending on the typeface, so it takes a long time to recognize.

이런 다양한 종래의 문제를 해결하기 위하여 심층학습 OCR 모델들이 제안되고 있고 있으며, 의미 있는 성능 개선이 이루어 지고 있다[6]. In order to solve these various conventional problems, in-depth learning OCR models have been proposed, and significant performance improvement has been made [6].

도 1은 서비스 도면 인식을 예로 심층학습 OCR의 기본적인 구조이다. 1 is a basic structure of deep learning OCR taking service drawing recognition as an example.

일반적인 심층학습은 문자 또는 숫자 학습용 DB를 활용하여 컨벌루션 필터(convolution filter)와 신경망(neural network)을 학습(training)을 하고, 학습된 결과를 이용하여 추론(inference) 또는 인식 처리를 한다.In general deep learning, a convolution filter and a neural network are trained by using a DB for learning letters or numbers, and inference or recognition processing is performed using the learned results.

2. LSTM 심층학습2. LSTM Deep Learning

심층학습을 통하여 OCR을 수행할 대는 CNN 또는 순환 신경망(RNN, Recursive neural network)을 이용한다. CNN[7]은 기계학습에서 영상을 처리하기 위해 가장 많이 쓰이는 방법 중 하나이다. CNN은 문자 객체 추출에는 성능이 뛰어나나 연속 된 데이터에 따른 변화를 감지하지 못하여 문자가 이어지는 경우에도 문자를 하나씩 인식한다. When performing OCR through in-depth learning, a CNN or a recursive neural network (RNN) is used. CNN[7] is one of the most used methods for processing images in machine learning. CNN has excellent performance in extracting character objects, but does not detect changes due to continuous data, so it recognizes characters one by one even if characters are continued.

RNN은 도 2와 같은 구조로 연속 된 데이터의 변화를 위해 만들어진 심층학습으로 연속되어 인식되는 문자를 하나의 단어 또는 숫자라고 인식 할 수 있다.RNN is a structure as shown in FIG. 2 and can be recognized as a single word or a number of characters that are continuously recognized as in-depth learning made for continuous data change.

RNN은 시계열 데이터를 효율적으로 처리하기 위하여 제안되었다. 이는 현재의 학습 네트워크에서 이전 네트워크에서 정보를 받아 학습하는 것을 말하게 된다. 하지만 기존의 순환 신경망은 기울기 소멸(vanishing gradient) 문제가 있는데, 이는 전달 받은 정보가 학습에 미치는 영향이 감소하다 결국 소멸하는 것을 의미한다. 입력값이 처음에는 영향력을 끼치나 새로운 입력값이 들어옴에 따라 영향력이 감소한다. RNN was proposed to process time series data efficiently. This refers to learning by receiving information from the previous network in the current learning network. However, the existing circulatory neural network has a problem of vanishing gradient, which means that the effect of the received information on learning decreases and eventually disappears. The input value initially has an influence, but the influence decreases as new input values come in.

이를 해결하기 위해서 제안된 것이 LSTM(Long Short-Term Memory) 모델이다. LSTM은 순환 신경망의 은닉층을 입력게이트(input gate), 출력 게이트(output gate), 망각 게이트(forget gate)라는 세 가지 게이트로 구성된 기억 블록(memory block) 구조를 활용하여 기울기 소멸 문제를 도 3과 같이 해결한다[7]. To solve this, the proposed LSTM (Long Short-Term Memory) model. LSTM utilizes a memory block structure composed of three gates, the input gate, the output gate, and the forget gate, for the hidden layer of the circulating neural network. Solve together [7].

은닉층(hidden layer)에 ○은 게이트가 열려 있고, - 는 게이트가 닫혀 있음을 의미한다. 각 게이트에 대한 개방과 폐쇠 제어를 통하여 입력 데이터의 영향력을 정할 수 있다.○ indicates that the gate is open in the hidden layer, and-the gate is closed. The influence of input data can be determined through the opening and closing control of each gate.

기억 블록의 각 게이트의 관계는 도 4와 같다.The relationship of each gate of the memory block is shown in FIG. 4.

입력층(input layer)로부터 입력되는 데이터

Figure pat00001
는 입력 게이트, 출력 게이트, 망각 게이트의 3 가지 게이트와 기억 블록의 입구로 전달된다. 그리고 기억 블록의 출력은 다음 셀 즉 메모리 블록의 입력 게이트, 출력 게이트 그리고 망각 게이트로 전달된다. Data input from the input layer
Figure pat00001
Are passed to the three gates of the input gate, the output gate, and the oblivion gate and the entrance to the memory block. Then, the output of the memory block is transferred to the next cell, that is, the input gate, output gate, and forgetting gate of the memory block.

이런 절차를 통하여 순차적인 데이터(sequential data)에 대한 학습과 추론을 진행할 수 있다.Through this procedure, learning and reasoning of sequential data can be performed.

[1] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel, “Backpropagation Applied to Handwritten Zip Code Recognition,” Neural Computing, vol. 1, no. 4, pp. 541-551, Dec., 1989. [1] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel, “Backpropagation Applied to Handwritten Zip Code Recognition,” Neural Computing, vol. 1, no. 4, pp. 541-551, Dec., 1989. P. A. Wankhede and S. W. Mohod, “A Different Image Content-based Retrievals Using OCR Techniques”, International Conference of Electronics, Communication and Aerospace Technology, April 2017. P. A. Wankhede and S. W. Mohod, “A Different Image Content-based Retrievals Using OCR Techniques”, International Conference of Electronics, Communication and Aerospace Technology, April 2017. R. S. Boyer and J. S. Moore, “A Fast String Searching Algorithm”, Association for Computing Machinery, vol. 20, no. 10, pp. 762-772, Oct. 1977. R. S. Boyer and J. S. Moore, “A Fast String Searching Algorithm”, Association for Computing Machinery, vol. 20, no. 10, pp. 762-772, Oct. 1977. [4] GK Starkweather, "Document imaging and indexing system", US Patent 8,380,012, 2013[4] GK Starkweather, "Document imaging and indexing system", US Patent 8,380,012, 2013 S. Rawls, H. Cao, S. Kumar and P. Natarajan, “Combining Convolutional Neural Networks and LSTMs for Segmentation-Free OCR”, IAPR International Conference on Document Analysis and Recognition, vol. 10, no. 1109, pp. 155-160, Nov. 2017. S. Rawls, H. Cao, S. Kumar and P. Natarajan, “Combining Convolutional Neural Networks and LSTMs for Segmentation-Free OCR”, IAPR International Conference on Document Analysis and Recognition, vol. 10, no. 1109, pp. 155-160, Nov. 2017. Asma Naseer, Kashif Zafar “Meta features-based scale invariant OCR decision making using LSTM-RNN”, Computational and Mathematical Organization Theory, 2018. Asma Naseer, Kashif Zafar “Meta features-based scale invariant OCR decision making using LSTM-RNN”, Computational and Mathematical Organization Theory, 2018. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner “Gradient-Based Learning Applied to Document Recognition”, Proceedings of the IEEE, 86(11): pp.2278-2324, Nov. 1998. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner “Gradient-Based Learning Applied to Document Recognition”, Proceedings of the IEEE, 86(11): pp.2278-2324, Nov. 1998. [8] P J Jino, Jomy John, Kannan Balakrishnan "Offline handwritten Malayalam character recognition using stacked LSTM", International Conference on Intelligent Computing, Instrumentation and Control Technologies 2017.[8] P J Jino, Jomy John, Kannan Balakrishnan "Offline handwritten Malayalam character recognition using stacked LSTM", International Conference on Intelligent Computing, Instrumentation and Control Technologies 2017. [9] Hong Zheng, Li Pan, Li Li “A Morphological Neural Network Approach for Vehicle Detection from High Resolution Satellite Imagery”, ICONIP, Neural Information Processing pp 99-106, 2006[9] Hong Zheng, Li Pan, Li Li “A Morphological Neural Network Approach for Vehicle Detection from High Resolution Satellite Imagery”, ICONIP, Neural Information Processing pp 99-106, 2006

본 발명은 기계산업의 서비스 부품 도면의 문자와 숫자를 효율적인 인식을 위하여 수학적 형태학 전처리와 결합한 LSTM OCR을 제안하고자 한다.The present invention is to propose an LSTM OCR combined with mathematical morphological pre-processing for efficient recognition of letters and numbers in service parts drawings of the machinery industry.

본 발명은 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법으로서, The present invention is a method of improving drawing character recognition performance through in-depth learning pre-processing,

부품 도형, 지시선 및 기호(문자 또는 숫자)를 포함하여 구성되는 부품 도면에 대하여 수학적 형태학 필터링을 수행하여 기호만을 별도 분리하는 전처리 단계;A pre-processing step of separately separating only symbols by performing mathematical morphological filtering on the parts drawings including part figures, leaders, and symbols (characters or numbers);

상기 전처리 단계에서 분리된 상기 기호를 학습된 LSTM에 입력하여 상기 부품 도형, 지시선에 합체하여 상기 기호에 대한 OCR 결과를 도출하는 단계로 이루어지는 것을 특징으로 한다.Characterized in that it comprises the step of deriving the OCR results for the symbols by incorporating the part figure and the leader line into the learned LSTM by inputting the symbols separated in the pre-processing step.

본 발명은 기계산업의 서비스 부품 도면의 문자와 숫자를 효율적인 인식을 위하여 수학적 형태학 전처리와 결합한 LSTM OCR에 관한 것으로, 제안하는 OCR과 LSTM 만을 적용한 OCR의 F1 척도는 각각 90.06, 83.67로 약 6.37% 개선되었다. The present invention relates to LSTM OCR combined with mathematical morphological pre-processing for efficient recognition of letters and numbers in service parts drawings of the machinery industry, and the proposed OCR and OCR using only LSTM improve the F1 scale of 90.06 and 83.67, respectively, by about 6.37%. Became.

또한 OCR 소요시간을 비교한 결과 1장의 서비스 부품 도면 평균 처리 시간도 종래의 방법에 비하여 약 3.01초 정도 개선되는 것을 실험을 통하여 확인하였다. In addition, as a result of comparing the OCR time, it was confirmed through experiments that the average processing time of one service part drawing was improved by about 3.01 seconds compared to the conventional method.

도 1은 심층학습 기반 도면의 OCR 개념도이다.
도 2는 순환 신경망의 기본적인 구조이다.
도 3은 LSTM의 게이트 개방/폐쇠 제어를 통한 기울기 소멸 문제 해결을 보여주는 도면이다.
도 4는 LSTM의 Memory Block을 나타낸다
도 5는 본 발명에 제안하는 전처리를 결합한 LSTM OCR 흐름도이다.
도 6 은 수학적 형태학 필터링 처리를 한 예로, 침식 연산의 결과이다.
도 7은 수학적 형태학 필터링 처리를 한 예로, 팽창 연산의 결과이다.
도 8은 일반적으로 사용되는 마스크의 형태이다.
도 9는 서비스 부품 도면 OCR 결과이다.
도 10은 수학적 형태학 필터링 적용 결과 (a)원본 영상, (b) 수학적 형태학적 필터링 결과이다.
도 11은 수학적 형태학 전처리 후 OCR 결과이다.
도 12는 본 발명에서 제안하는 전처리와 결합한 LSTM OCR 결과에 관한 것으로, 각각 (a) 원본 영상, (b) 전처리 결과, (c) OCR 결과를 나타낸다.
1 is an OCR conceptual diagram of a deep learning-based drawing.
2 is a basic structure of a circulatory neural network.
3 is a view showing the resolution of the tilt disappearance through the gate opening / closing control of the LSTM.
4 shows a memory block of LSTM
5 is an LSTM OCR flow chart incorporating the preprocessing proposed in the present invention.
6 is an example of a mathematical morphological filtering process, and is a result of erosion calculation.
7 is an example of a mathematical morphological filtering process, and is a result of an expansion operation.
8 is a form of a commonly used mask.
9 is a service part drawing OCR result.
10 is a result of applying mathematical morphological filtering (a) an original image, and (b) a result of mathematical morphological filtering.
11 shows the OCR results after mathematical morphological pretreatment.
FIG. 12 relates to LSTM OCR results combined with the pre-processing proposed in the present invention, respectively (a) original image, (b) pre-processing result, and (c) OCR result.

이하, 도면 등을 참조하여 본 발명에서 제안하는 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법에 대하여 설명하기로 한다.Hereinafter, a method of improving drawing character recognition performance through deep learning preprocessing proposed by the present invention will be described with reference to the drawings.

본 발명에서 제안하는 전처리와 결합한 심층학습 OCR 구조는 다음과 같다. The deep learning OCR structure combined with the pre-treatment proposed in the present invention is as follows.

1. 제안하는 OCR 구조1. Proposed OCR structure

기계 도면은 설계 단계의 도면과 유지 보수를 위한 서비스 도면으로 나누어진다. 기계 설계 도면은 제품의 중요한 요소로써 외부로 유출되기를 희망하지 않는다. 따라서 대부분의 기업은 기계 도면을 대신하여 서비스 도면을 유지 보수 기관 또는 인력에게 전달한다. 따라서, 기계 도면과 별개로 서비스 도면이 만들어지게 된다. 최근 인터넷을 통한 기계 부품에 대한 주문, 생산과 배송이 이루어지고 있어 원활한 기계 부품에 대한 수급을 위하여 서비스 도면에서 요소 부품과 기능을 표시하는 문자와 숫자의 인식이 필요하다.Mechanical drawings are divided into design drawings and service drawings for maintenance. Mechanical design drawings are an important element of the product and do not hope to leak out. Therefore, most companies transfer service drawings to maintenance agencies or personnel instead of machine drawings. Thus, a service drawing is created separately from the machine drawing. Order, production, and delivery of mechanical parts through the Internet have recently been performed, so it is necessary to recognize letters and numbers indicating element parts and functions in service drawings in order to supply and receive smooth mechanical parts.

일반 문서에서의 문자 또는 숫자 인식과는 달리 서비스 부품 도면에서의 OCR은 부품의 도형 또는 지시선 등을 숫자로 오검출(fault detection)하고 오인식(false recognition)하는 문제가 발생하고 있다. 일반 문서용 상용 OCR을 서비스 부품 도면을 인식하는 실험을 수행한 결과 현저히 낮은 인식률을 보였다. Unlike the recognition of letters or numbers in a general document, OCR in service parts drawings has a problem of fault detection and false recognition of parts' figures or leaders. As a result of conducting an experiment for recognizing service parts drawings, commercial OCR for general documents showed a significantly low recognition rate.

본 발명에서는 부품 도형과 지시선을 포함하는 도면에서 숫자와 문자의 오검출을 줄이고, 인식률을 개선하고 위하여 다음 도 5와 같은 전처리와 결합한 심층학습 OCR을 제안한다. 제안한 OCR에서의 학습은 LSTM을 기반으로 한다. 서비스 부품 도면에서 숫자를 추출하여 학습용 데이터베이스를 제작하고, 이를 LSTM 학습을 한다. The present invention proposes in-depth learning OCR combined with pre-processing as shown in FIG. 5 in order to reduce erroneous detection of numbers and characters and improve recognition rates in drawings including part figures and leaders. The learning in the proposed OCR is based on LSTM. A number is extracted from the service parts drawing to produce a learning database, and LSTM learning is performed.

추론 과정에서는 수학적 형태학 필터링을 이용하여 입력된 서비스 부품 도면에 대하여 전처리를 수행한다. 전처리 과정을 통하여 도형과 지시선을 제거한다. In the inference process, preprocessing is performed on the input service part drawing using mathematical morphological filtering. Figures and leaders are removed through the pre-treatment process.

2. 수학적 형태학적 필터링 전처리2. Mathematical morphological filtering pretreatment

형태학 연산은 형태소 마스크(Mask)를 이용하여 반복적으로 영역을 확장 및 축소하여 특정 객체의 형태를 변형 시키는 용도로 사용되는 영상처리 연산이다. 수학적 형태학 연산은 침식(erosion), 팽창(dilation)과 이를 기본으로 한 복합 연산으로 구성되어 있다.Morphological operation is an image processing operation that is used to transform the shape of a specific object by repeatedly expanding and contracting a region using a morphological mask. Mathematical morphological operations consist of erosion, dilation, and complex operations based on them.

침식 연산은 객체의 크기를 배경과 관련하여 일정하게 축소시키는 연산이다. 연산을 수행하게 되면 객체의 크기는 줄어들고, 배경은 확대된다. 영상의 객체와 배경 사이에 잡음이 있을 때, 잡음을 제거하거나 임의의 작은 객체를 제거하는데 응용되며 영상에서의 외부 돌출부는 감소시키고, 내부 돌출부는 증가시켜 객체 분리에도 유용하며 최소값 필터의 역할을 수행하는 연산이다.Erosion is an operation that reduces the size of an object with respect to the background. When performing the operation, the size of the object is reduced, and the background is enlarged. When there is noise between the object and the background of the image, it is applied to remove noise or to remove any small object. It reduces the external protrusions in the image and increases the internal protrusions, which is useful for object separation and also serves as a minimum value filter. Is an operation.

팽창 연산은 객체의 내부 돌출부는 감소하고 외부 돌출부는 증가시켜 객체의 크기를 확장하고 배경은 축소하는 연산이다. 객체 내부에 발생한 구멍과 같은 공간을 채우거나 짧게 끊어진 영역을 다시 연결하는데 사용되며 최대값 필터의 역할을 수행하는 연산이다. The expansion operation is an operation that expands the size of an object and shrinks the background by increasing the internal projection of the object and increasing the external projection. This is used to fill a space, such as a hole in an object, or to reconnect a short broken area, and acts as a maximum value filter.

도 6과 7은 수학적 형태학 필터링 처리를 한 예이다. 도 6은 침식 연산의 결과이며, 도 7은 팽창 연산의 결과이다.6 and 7 are examples of mathematical morphological filtering processing. 6 is a result of the erosion operation, and FIG. 7 is a result of the expansion operation.

다른 모든 연산은 침식과 팽창을 수행하는 방법에 따라 나뉘게 되는데 열림 연산(opening)은 축소 연산 후 팽창 연산을 수행하는 것이고 닫힘 연산(closing)은 팽창 연산 후 축소 연산을 수행하는 것이다[9].All other operations are divided according to the method of performing erosion and expansion. The opening operation is the expansion operation after the reduction operation and the closing operation is the reduction operation after the expansion operation [9].

형태학적 연산의 마스크는 십자모양, 타원, 직사각형 등 다양한 형태와 크기를 가지고 적용되어 이 마스크에 따라 연산의 결과 달라진다. 가장 보편적으로 사용되는 마스크는 도 8과 같이 십자모양, 직사각형, 타원이다.The morphological operation mask is applied in various shapes and sizes such as cross shape, ellipse, and rectangle, and the result of the operation varies depending on the mask. The most commonly used masks are cross-shaped, rectangular, and elliptical as shown in FIG. 8.

서비스 부품 도면은 도 9와 같이 기계 부품의 각 요소를 설명하기 위하여 지시선과 문자 또는 숫자를 포함한다. The service parts drawing includes leader lines and letters or numbers to describe each element of the mechanical parts as shown in FIG. 9.

도 9는 LSTM을 이용하여 숫자를 검출하고 인식한 결과이다. 사각형으로 표시된 것이 실제 숫자가 있는 것이지만, 없는 것은 잠소 검출되어 오인식된 결과이다. 상당히 많은 부분이 오검출된 것을 볼 수 있다. 지시선을 “1” 또는 “7”로 검출 및 인식하고, 둥근 형상에 대하여 “0”으로 오인식한다.9 is a result of detecting and recognizing a number using LSTM. The square is the actual number, but the missing is the result of false detection. You can see that quite a lot has been misdetected. The leader line is detected and recognized as “1” or “7”, and is misrecognized as “0” for a round shape.

도 10은 수학적 형태학 전처리를 한 결과이다. (a)은 서비스 부품 도면의 원 이미지이며, (b)는 전처리를 한 결과이다. 대부분의 지시선과 도형이 제거된 것을 확인할 수 있다. 10 shows the results of mathematical morphological pretreatment. (a) is the original image of the service parts drawing, and (b) is the result of pre-treatment. You can see that most of the leaders and figures have been removed.

도 11은 수학적 형태학 전처리를 한 후 LSTM을 통하여 OCR를 수행한 결과이다. 지시선과 도형 영역의 오검출 및 오인식이 제거된 것을 볼 수 있다.11 shows the results of performing OCR through LSTM after pre-processing mathematical morphology. It can be seen that the misdetection and misrecognition of the leader line and the figure area are removed.

본 발명의 실험 환경 및 결과는 다음과 같았다. The experimental environment and results of the present invention were as follows.

1. 실험 환경1. Experimental environment

심층학습 모델에 대한 학습 및 추론 그리고 수학적 형태학 전처리를 결과 확인을 위하여 Windows 10 64비트, NVIDIA Titan X 12GB를 사용하고, Visual Studio C#, Tesseract.NET 4.0 그리고 OpenCV 3.4.1 버전를 이용하여 구현하였다. OCR은 Tesseract 4.0 이용하여 LSTM 학습과 추론에 활용하였다.For learning and inference of the deep learning model and preprocessing of mathematical morphology, Windows 10 64-bit, NVIDIA Titan X 12GB was used, and Visual Studio C#, Tesseract.NET 4.0 and OpenCV 3.4.1 were implemented. OCR used Tesseract 4.0 for LSTM learning and reasoning.

서비스 부품 도면 2,192장을 활용하여 학습 및 추론 실험을 한다. 추론에 사용한 영상의 해상도는 3,000×1,800, 3,200×1,900 이다.Conduct learning and inference experiments using 2,192 service parts drawings. The resolution of the image used for inference is 3,000×1,800, 3,200×1,900.

2. 실험 결과2. Experimental results

도 12는 제안하는 전처리와 결합한 LSTM OCR를 적용한 결과이다. 12 is a result of applying the LSTM OCR combined with the proposed pre-treatment.

도 12의 (a)는 원본 영상이며, (b)는 전처리 결과이고, (c)는 OCR 결과이다.12(a) is an original image, (b) is a preprocessing result, and (c) is an OCR result.

도 12의 (b)에서 제안하는 전처리에 의하여 도형과 지시선이 상당히 제거된 것을 확인할 수 있다. It can be seen that the figures and the leader lines were significantly removed by the pre-treatment proposed in FIG. 12B.

도 12의 (c)에서 빨간색 사각형으로 표시된 부분이 GT(Ground Truth)이고 파란색 사각형으로 표시 된 부분은 제안하는 OCR에 의하여 인식된 결과를 나타내고 있다. 오검출 없이 상당히 정확하게 인식하는 것을 확인할 수 있다.In (c) of FIG. 12, the part indicated by the red square is GT (Ground Truth), and the part indicated by the blue square represents the result recognized by the proposed OCR. It can be confirmed that the recognition is fairly accurate without false detection.

2,192 장의 서비스 부품 도면 영상으로 성능 평가를 위하여 TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)을 계수하여 식 (1), (2)와 같이 인식률(recall)과 정확도(precision)를 계산한다. 그리고, 인식률과 정확도의 조화 평균으로 F1 척도를 식 (3)과 같이 계산하여 비교한다. For performance evaluation with 2,192 service parts drawing images, TP (True Positive), TN (True Negative), FP (False Positive), and FN (False Negative) are counted and the recognition rate (recall as in Equations (1) and (2)) ) And precision. Then, the F1 scale is calculated as a harmonized average of recognition rate and accuracy as shown in equation (3) and compared.

표 1은 LSTM만을 적용한 OCR과 제안하는 전처리 방법과 결합한 LSTM OCR의 성능을 비교한 결과이다.Table 1 shows the results of comparing the performance of the LSTM OCR combined with the proposed pre-processing method and the OCR using only the LSTM.

Figure pat00002
(1)
Figure pat00002
(One)

Figure pat00003
(2)
Figure pat00003
(2)

Figure pat00004
(3)
Figure pat00004
(3)

표 1과 같이 인식률과 정확도가 LSTM만 적용한 결과에 비하여 개선된 것을 볼 수 있으며, F1 척도는 LSTM OCR과 제안하는 전처리와 결합한 LSTM OCR이 약 6.39 % 개선되었다.As shown in Table 1, it can be seen that the recognition rate and accuracy are improved compared to the results of applying only LSTM, and the LSTM OCR combined with LSTM OCR and the proposed pre-processing is improved by about 6.39%.

[표 1. LSTM과 제안한 전처리와 결합한 LSTM OCR 성능 비교][Table 1. LSTM and LSTM OCR performance comparison with proposed pre-treatment]

LSTM onlyLSTM only LSTM with preprocessingLSTM with preprocessing RecallRecall 75.49 %75.49% 85.44 %85.44% PrecisionPrecision 91.85 %91.85% 94.68 %94.68% F1 MeasurementF1 Measurement 83.67 %83.67% 90.06 %90.06%

2,192장의 서비스 부품 도면에 대한 제안하는 전처리를 포함한 OCR 추론 시간을 측정한 결과 약 1시간 26분이 소요되었으며, LSTM 만 적용한 결과는 3시간 16분이 소요되었다. 서비스 부품 도면의 복잡도에 따라서 처리하는 시간이 다르지만, 제안하는 OCR이 1장의 도면을 처리하는데 2.35초 소요되고, LSTM OCR은 5.36초가 소요되어 제안하는 OCR에 의하여 처리 속도도 3.01초 빠르게 처리할 수 있음을 확인하였다. As a result of measuring the OCR inference time including the proposed pre-processing for 2,192 service parts drawings, it took about 1 hour and 26 minutes, and the result of applying LSTM only took 3 hours and 16 minutes. The processing time varies depending on the complexity of the service part drawing, but the proposed OCR takes 2.35 seconds to process one drawing, and the LSTM OCR takes 5.36 seconds, so the processing speed can be processed by the proposed OCR as fast as 3.01 seconds. Was confirmed.

이상에서 설명한 바와 같이, 본 발명은 기계산업의 서비스 부품 도면의 문자와 숫자를 효율적인 인식을 위하여 수학적 형태학 전처리와 결합한 LSTM OCR을 제안한다. As described above, the present invention proposes an LSTM OCR combined with a mathematical morphological preprocessing for efficient recognition of letters and numbers in service parts drawings of the machinery industry.

제안하는 OCR과 LSTM 만을 적용한 OCR의 F1 척도는 각각 90.06, 83.67로 약 6.37% 개선되었다. 또한 OCR 소요시간을 비교한 결과 1장의 서비스 부품 도면 평균 처리 시간도 종래의 방법에 비하여 약 3.01초 정도 개선되는 것을 실험을 통하여 확인하였다. The F1 scale of OCR using only the proposed OCR and LSTM was improved by about 6.37% to 90.06 and 83.67, respectively. In addition, as a result of comparing the OCR time, it was confirmed through experiments that the average processing time of one service part drawing was improved by about 3.01 seconds compared to the conventional method.

Claims (1)

심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법으로서,
부품 도형, 지시선 및 기호(문자 또는 숫자)를 포함하여 구성되는 부품 도면에 대하여 수학적 형태학 필터링을 수행하여 기호만을 별도 분리하는 전처리 단계;
상기 전처리 단계에서 분리된 상기 기호를 학습된 LSTM에 입력하여 상기 부품 도형, 지시선에 합체하여 상기 기호에 대한 OCR 결과를 도출하는 단계로 이루어지는 것을 특징으로 하는 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법.
As a method of improving drawing character recognition performance through in-depth learning pre-processing,
A pre-processing step of separately separating only symbols by performing mathematical morphological filtering on the parts drawings including part figures, leaders, and symbols (characters or numbers);
A method of improving drawing character recognition performance through in-depth learning pre-processing, comprising inputting the symbols separated in the pre-processing step into the learned LSTM and merging them into the part shapes and leaders to derive OCR results for the symbols. .
KR1020180148706A 2018-11-27 2018-11-27 Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning KR20200068073A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180148706A KR20200068073A (en) 2018-11-27 2018-11-27 Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180148706A KR20200068073A (en) 2018-11-27 2018-11-27 Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning

Publications (1)

Publication Number Publication Date
KR20200068073A true KR20200068073A (en) 2020-06-15

Family

ID=71081905

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180148706A KR20200068073A (en) 2018-11-27 2018-11-27 Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning

Country Status (1)

Country Link
KR (1) KR20200068073A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220060162A (en) 2020-11-04 2022-05-11 고등기술연구원연구조합 Automatic recognition system of text information based on deep learning model and automatic recognition method
US20220398562A1 (en) * 2021-06-09 2022-12-15 Bank Of America Corporation Automatic Alerting Communications Systems and Methods
US11776287B2 (en) 2021-04-27 2023-10-03 International Business Machines Corporation Document segmentation for optical character recognition

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
[1] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel, "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computing, vol. 1, no. 4, pp. 541-551, Dec., 1989.
[4] GK Starkweather, "Document imaging and indexing system", US Patent 8,380,012, 2013
[8] P J Jino, Jomy John, Kannan Balakrishnan "Offline handwritten Malayalam character recognition using stacked LSTM", International Conference on Intelligent Computing, Instrumentation and Control Technologies 2017.
[9] Hong Zheng, Li Pan, Li Li "A Morphological Neural Network Approach for Vehicle Detection from High Resolution Satellite Imagery", ICONIP, Neural Information Processing pp 99-106, 2006
Asma Naseer, Kashif Zafar "Meta features-based scale invariant OCR decision making using LSTM-RNN", Computational and Mathematical Organization Theory, 2018.
P. A. Wankhede and S. W. Mohod, "A Different Image Content-based Retrievals Using OCR Techniques", International Conference of Electronics, Communication and Aerospace Technology, April 2017.
R. S. Boyer and J. S. Moore, "A Fast String Searching Algorithm", Association for Computing Machinery, vol. 20, no. 10, pp. 762-772, Oct. 1977.
S. Rawls, H. Cao, S. Kumar and P. Natarajan, "Combining Convolutional Neural Networks and LSTMs for Segmentation-Free OCR", IAPR International Conference on Document Analysis and Recognition, vol. 10, no. 1109, pp. 155-160, Nov. 2017.
Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner "Gradient-Based Learning Applied to Document Recognition", Proceedings of the IEEE, 86(11): pp.2278-2324, Nov. 1998.

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220060162A (en) 2020-11-04 2022-05-11 고등기술연구원연구조합 Automatic recognition system of text information based on deep learning model and automatic recognition method
US11776287B2 (en) 2021-04-27 2023-10-03 International Business Machines Corporation Document segmentation for optical character recognition
US20220398562A1 (en) * 2021-06-09 2022-12-15 Bank Of America Corporation Automatic Alerting Communications Systems and Methods
US11823162B2 (en) * 2021-06-09 2023-11-21 Bank Of America Corporation Automatic alerting communications systems and methods

Similar Documents

Publication Publication Date Title
CN105760891A (en) Chinese character verification code recognition method
Hossain et al. Recognition and solution for handwritten equation using convolutional neural network
KR20200068073A (en) Improvement of Character Recognition for Parts Book Using Pre-processing of Deep Learning
Rosyda et al. A review of various handwriting recognition methods
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
Essa et al. Enhanced technique for Arabic handwriting recognition using deep belief network and a morphological algorithm for solving ligature segmentation
Santa et al. Bangladeshi hand sign language recognition from video
Shitole et al. Recognition of handwritten Devanagari characters using linear discriminant analysis
Lee et al. Recognition of slab identification numbers using a fully convolutional network
Mandal et al. Multi-lingual date field extraction for automatic document retrieval by machine
Zhang et al. OCR with the Deep CNN Model for Ligature Script‐Based Languages like Manchu
Naseer et al. Meta‐feature based few‐shot Siamese learning for Urdu optical character recognition
Ali et al. Different handwritten character recognition methods: a review
Zhou et al. Morphological Feature Aware Multi-CNN Model for Multilingual Text Recognition.
Gao et al. Complex Labels Text Detection Algorithm Based on Improved YOLOv5
Salau et al. Image-based number sign recognition for ethiopian sign language using support vector machine
Patil et al. Deep learning-based approach for indian license plate recognition using optical character recognition
Khosravi A sliding and classifying approach towards real time Persian license plate recognition
Xin et al. Comic text detection and recognition based on deep learning
Mamoun et al. Efficient analysis of vertical projection histogram to segment arabic handwritten characters
Islam et al. Rule Based Filtering Approach for Detection and Localization of Bangla Text from Scene Images
Taqi et al. Comparison between feature based and deep learning recognition systems for handwriting Arabic numbers
Shinde et al. Identification of Handwritten Complex Mathematical Equations
Jaiswal Handwritten devanagari character recognition model using neural network
Pujari et al. A survey on odia character recognition

Legal Events

Date Code Title Description
E601 Decision to refuse application