KR20220043824A - 문자 구조화 추출 방법, 장치, 기기 및 저장 매체 - Google Patents

문자 구조화 추출 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220043824A
KR20220043824A KR1020210029549A KR20210029549A KR20220043824A KR 20220043824 A KR20220043824 A KR 20220043824A KR 1020210029549 A KR1020210029549 A KR 1020210029549A KR 20210029549 A KR20210029549 A KR 20210029549A KR 20220043824 A KR20220043824 A KR 20220043824A
Authority
KR
South Korea
Prior art keywords
character
line
feature
relationship
row
Prior art date
Application number
KR1020210029549A
Other languages
English (en)
Other versions
KR102610518B1 (ko
Inventor
위린 리
샤멍 친
청췐 장
준위 한
얼루이 딩
티엔 우
하이펑 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20220043824A publication Critical patent/KR20220043824A/ko
Application granted granted Critical
Publication of KR102610518B1 publication Critical patent/KR102610518B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/629
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • G06T3/0006
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명의 실시예는 문자 구조화 추출 방법, 장치, 기기 및 저장 매체를 개시하고, 컴퓨터 비전, 딥러닝, 자연어 처리 등 수동 스마트 분야에 관한 것이다. 상기 방법의 일 구체적 실시형태는 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하는 단계; 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하는 단계; 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하는 단계; 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하는 단계; 및 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축하는 단계를 포함한다. 상기 실시형태는 대규모 및 자동화 처리에 적합하고, 적용 범위가 넓으며, 범용성이 강한 타입 및 관계 추리에 기반한 문자 구조화 추출 방법을 제공한다.

Description

문자 구조화 추출 방법, 장치, 기기 및 저장 매체{TEXT STRUCTURED EXTRACTION METHOD, APPARATUS, EQUIPMENT AND STORAGE MEDIUM}
본 발명의 실시예는 컴퓨터 기술 분야에 관한 것이며, 구체적으로 컴퓨터 비전, 딥러닝, 자연어 처리 등 인공 지능분야에 관한 것이다.
현대 사회에서 정보 유통 및 전달 효율을 가속화하기 위해, 구조화된 텍스트는 자연어를 대체하여 일상적인 생산에서 주류 정보 담체로 되고, 디지털 및 자동화의 사무 흐름에 많이 적용된다. 글로벌 정보 전자화의 성과가 점점 뚜렷해지고 있지만, 실질적으로 여전히 대량의 엔티티 텍스트가 기록, 검토 및 전자화를 거쳐야 하는 상황이 존재한다. 예를 들면 재무 부서에서, 결산 보고를 위해 매일 수동으로 대량의 엔티티 영수증을 여러번 입력해야 한다. 은행에서도 많은 개인 업무는 신분증을 등기하여 신원 정보를 바인딩해야 한다. OCR(Optical Character Recognition, 광학 문자 인식) 기술을 통해, 사람들은 엔티티 텍스트를 인식 및 전자화할 수 있다. 또한 이러한 구조화되지 않은 텍스트를 저장 가능한 구조화된 텍스트로 처리하여, 텍스트의 구조화된 정보 추출을 구현하고, 기업의 사무 처리 스마트화를 지원하며, 정보 전자화의 프로세스를 촉진한다.
문자 구조화 정보 추출 기술은 엔티티 텍스트 이미지의 시맨틱 콘텐츠를 추출하고, 구조화된 텍스트로 전환하여, 구조화된 정보의 추출을 구현한다. 현재에는 주로 아래의 세가지 해결수단을 사용하여 해결한다.
(1) 수동 입력: 상기 방법은 사람이 수동으로 입력한다.
(2)템플릿 매칭에 기반한 방법: 상기 방법은 일반적으로 구조가 단순한 증명서를 대상으로 한다. 그 인식할 영역은 일반적으로 고정된 기하학적 형식을 구비한다. 표준 템플릿 텍스트를 제작하여, 지정된 위치에서 대응되는 텍스트 콘텐츠를 추출하고, OCR 기술을 이용하여 문자의 인식을 구현한다.
(3)키 심볼 위치에 기반한 전략 검색: 상기 방법은 키 심볼을 위치 결정하여, 주변 진행 영역에서 정보를 검색한다. 예를 들면 키 심볼 "날짜"의 주변에서, 전략을 통해 텍스트 "2020년 12월 12일"을 검색하고, "날짜" 필드의 속성값으로 한다.
한국공개특허 제2019-0123790호
본 발명의 실시예는 문자 구조화 추출 방법, 장치, 기기 및 저장 매체를 제시한다.
제1 양태에 따르면, 본 발명의 실시예는 문자 구조화 추출 방법을 제시하되, 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하는 단계; 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하는 단계; 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하는 단계; 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하는 단계; 및 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축하는 단계를 포함한다.
제2 양태에 따르면, 본 발명의 실시예는 문자 구조화 추출 장치를 제시하되, 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하도록 구성되는 검출 모듈; 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하도록 구성되는 추출 모듈; 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하도록 구성되는 융합 모듈; 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하도록 구성되는 추리 모듈; 및 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축하도록 구성되는 구축 모듈을 포함한다.
제3 양태에 따르면, 본 발명의 실시예는 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하는 전자 기기를 제시하되, 메모리에 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 명령은 적어도 하나의 프로세서에 의해 실행되어 적어도 하나의 프로세서가 제1 양태 중 어느 한 구현 방식에 따른 방법을 수행할 수 있도록 한다.
제4 양태에 따르면, 본 발명의 실시예는 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제시하고, 컴퓨터 명령은 컴퓨터가 제1 양태 중 어느 한 실시형태에 따른 방법을 수행하도록 한다.
본 부분에서 설명된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 나타내기 위한 것이 아니며, 본 발명의 범위를 한정하지 않음을 이해해야 한다. 본 발명의 다른 특징은 아래의 발명의 설명을 통해 쉽게 이해될 것이다.
본 발명의 실시예에서 제공되는 문자 구조화 추출 방법, 장치, 기기 및 저장 매체는, 우선 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하고; 다음 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하며; 그 다음 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하고; 다음 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하며; 마지막으로 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축한다. 대규모 및 자동화 처리에 적합하고, 적용 범위가 넓으며, 범용성이 강한 관계 추리에 기반한 문자 구조화 추출 방법을 제공한다.
아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명백해질 것이다. 도면은 본 해결수단을 보다 잘 이해하기 위한 것이며, 본 발명을 한정하지 않는다.
도 1은 본 발명이 적용 가능한 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 문자 구조화 추출 방법의 일 실시예의 흐름도이다.
도 3은 도 2의 문자 검출 단계의 분해 흐름도이다.
도 4는 도 2의 다변량 정보 추출 단계의 분해 흐름도이다.
도 5는 다변량 정보 추출의 응용 장면이다.
도 6은 도 2의 타입 및 관계 추리 단계의 분해 흐름도이다.
도 7은 그래프 신경망층 구축도이다.
도 8은 도 2의 구조화된 정보 구축 단계의 분해 흐름도이다.
도 9는 본 발명에 따른 문자 구조화 추출 장치의 일 실시예의 구조 모식도이다.
도 10은 본 발명의 실시예에 따른 문자 구조화 추출 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 도면과 결부시켜 본 발명의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 이하 첨부 도면을 참조하고 실시예를 결부시켜 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명에 따른 문자 구조화 추출 방법 또는 문자 구조화 추출 장치를 구현할 수 있는 실시예의 예시적 시스템 아키텍처(100)이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 단말 기기(101)와 서버(103) 사이에서 통신 링크의 매체를 제공한다. 네트워크(102)는 다양한 연결 타입을 포함할 수 있는바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
사용자는 단말 기기(101)를 사용하여 네트워크(102)를 통해 서버(103)와 인터랙션 함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101)에는 다양한 클라이언트 애플리케이션이 설치될 수 있는바, 예를 들면 텍스트 스마트 처리 애플리케이션, 이미지 처리 애플리케이션 등이다.
단말 기기(101)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101)가 하드웨어인 경우, 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿PC, 휴대형 랩톱 및 데스크톱 등을 포함하나 이에 한정되는 것은 아니다. 단말 기기(101)가 소프트웨어인 경우, 상기 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(103)는 다양한 서비스를 제공할 수 있다. 예를 들면, 서버(103)는 단말 기기(101)로부터 획득한 엔티티 텍스트 이미지 등 데이터에 대해 분석 등 처리를 진행하고, 처리 결과(예를 들면 구조화된 정보)를 생성한다.
설명해야 할 것은, 서버(103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 서버(103)가 하드웨어인 경우, 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
설명해야 할 것은, 본 발명의 실시예가 제공하는 문자 구조화 추출 방법은 일반적으로 서버(103)에 의해 수행되고, 상응하게, 문자 구조화 추출 장치는 일반적으로 서버(103)에 설치된다.
도 1 중의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실시 필요에 따라, 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있다는 것을 이해해야 한다. 서버(103)에 엔티티 텍스트 이미지가 저장된 경우, 시스템 아키텍처(100)는 단말 기기(101) 및 네트워크(102)를 구비하지 않을 수 있다.
계속해서 도 2를 참조하면, 도 2는 본 발명에 따른 문자 구조화 추출 방법의 일 실시예의 흐름(200)이다. 상기 문자 구조화 추출 방법은 아래의 단계를 포함한다.
단계(201)에서, 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득한다.
본 실시예에서, 문자 구조화 추출 방법의 수행주체(예를 들면 도 1에 도시된 서버(103))는 엔티티 텍스트 이미지를 획득하고, OCR 등 문자 검출 기술을 이용하여 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득할 수 있다. 여기서, 엔티티 텍스트 이미지는 엔티티 텍스트를 촬영, 스캔 등을 하여 획득한 이미지일 수 있고, 흔히 볼 수 있는 것은 다양한 카드, 증명서 및 영수증 등 이미지이다. 문자 행은 엔티티 텍스트 이미지에서 문자 영역일 수 있고, 그 형상은 일반적으로 사각형이다. 따라서, 문자 행의 위치는 일반적으로 그 네 꼭짓점의 좌표로 표시한다. 문자 행의 콘텐츠는 문자 콘텐츠일 수 있다.
단계(202)에서, 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출한다.
본 실시예에서, 상기 수행주체는 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출할 수 있다. 여기서, 다변량 정보는 문자 행의 다양한 타입의 정보를 포함할 수 있는바, 예를 들면 기하학적 특징, 시각적 특징, 시맨틱 특징 등이다. 기하학적 특징 및 시각적 특징은 문자 행의 위치에 기반하여 획득한다. 기하학적 특징은 문자 행의 위치를 표시한다. 시각적 특징은 문자 행의 이미지 시각적 정보를 표시한다. 시맨틱 특징은 문자 행의 콘텐츠에 기반하여 획득하고, 문자 행의 의미를 표시한다.
단계(203)에서, 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득한다.
본 실시예에서, 상기 수행주체는 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득할 수 있다. 여기서, 멀티모달 융합 특징은 문자 행의 다변량 정보를 스티칭하여 획득한 문자 행의 다변량 정보도 포함한다.
단계(204)에서, 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득한다.
본 실시예에서, 상기 수행주체는 우선 문자 행의 멀티모달 융합 특징에 기반하여, 문자 행의 타입 및 관계를 결정하고, 그 다음 문자 행의 타입 및 관계에 기반하여 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득할 수 있다. 여기서, 엔티티 텍스트 이미지의 문자 행은 일반적으로 필드의 속성, 필드의 값, 테이블의 헤더 및 테이블의 유닛 등 4가지 타입으로 나뉜다. 문자 행의 관계는 2개의 문자 행 사이의 관계일 수 있다. 필드의 속성과 값은 필드 대응 관계를 나타낼 수 있다. 필드의 속성은 필드의 값과 일대일의 관계를 가진다. 테이블의 헤더와 유닛은 테이블 대응 관계를 나타낼 수 있다. 테이블의 헤더는 테이블의 유닛과 일대다의 관계를 가진다. 관계 확률 행렬은 2개의 문자 행 사이에 관계가 존재하는 확률을 표시할 수 있다.
단계(205)에서, 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축한다.
본 실시예에서, 상기 수행주체는 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축할 수 있다. 여기서, 구조화된 정보는 문자 행의 타입, 및 2개의 문자 행 사이에 존재하는 관계를 표시할 수 있다. 예를 들면, 상이한 색상의 직사각형을 사용하여 상이한 타입의 문자 행을 프레임하고, 상이한 색상의 직선을 사용하여 상이한 관계의 2개의 문자 행을 연결한다.
본 발명의 실시예에서 제공하는 문자 구조화 추출 방법은, 우선 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하고; 다음 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하며; 그 다음 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하고; 다음 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하며; 마지막으로 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축한다. 대규모 및 자동화 처리에 적합하고, 적용 범위가 넓으며, 범용성이 강한 타입 및 관계 추리에 기반한 문자 구조화 추출 방법을 제공한다.
이해가 쉽도록, 아래 도 2에서 제공한 문자 구조화 추출 방법의 각 단계에 대해 각각 상세히 설명한다. 설명해야 할 것은, 아래의 분해 방법은 예시로서, 구제적으로 한정하지 않으며, 다른 수행 가능한 분해 방법도 동일하게 적용된다.
또한 도 3을 참조하면, 도 3은 도 2의 문자 검출 단계의 분해 흐름(300)이다. 상기 문자 검출 단계는 아래와 같이 분해할 수 있다.
단계(301)에서, 엔티티 텍스트 이미지를 장면(scenario) 문자 검출 모델에 입력하여, 문자 행의 사각점 좌표를 출력한다.
본 실시예에서, 상기 수행주체는 엔티티 텍스트 이미지를 장면 문자 검출 모델에 입력하여, 문자 행의 사각점 좌표를 출력할 수 있다.
여기서, 장면 문자 검출 모델은 예를 들면 EAST(an EfFicient and Accuracy Scene Text detection pipeline, 효율적이고 정확한 장면 텍스트 인식 파이프 라인)일 수 있고, 엔티티 텍스트 이미지 중 임의의 방향 및 직사각형 형상의 문자 행을 직접 예측할 수 있으며, 단일 신경망을 통해 예를 들면 후보 통합 및 단어 분할 등 불필요한 중간 단계를 생략할 수 있다. EAST에서 출력된 문자 행의 사각점 좌표는 시계방향으로 배열될 수 있다. 모든 문자 행의 사각점 좌표로 조성된 집합은 P={pi;i∈N*}로 나타낼 수 있다. 여기서, i 번째 문자 행의 네 꼭짓점은 pi={(xj,yj);j∈(1,4)}로 나타낼 수 있다.
단계(302)에서, 문자 행의 사각점 좌표에 대해 아핀 변환을 진행하여, 문자 행의 정사각형 사각점 좌표를 생성한다.
본 실시예에서, 문자 행의 콘텐츠를 계속 획득하기 위해, 상기 수행주체는 문자 행의 사각점 좌표에 대해 아핀 변환을 진행하여, 엔티티 텍스트 이미지의 왜곡된 변형 및 인쇄 오프셋으로 인한 간섭을 생략하고, 문자 행의 정사각형 사각점 좌표를 생성할 수 있다. 여기서, i 번째 문자 행의 사각점 좌표 pi에 있어서, 그 정사각형 사각점 좌표는
Figure pat00001
로 나타낼 수 있다.
단계(303)에서, 문자 행의 정사각형 사각점 좌표에 기반하여, 엔티티 텍스트 이미지에서 문자 행의 이미지 조각을 잘라낸다.
본 실시예에서, 상기 수행주체는 우선 엔티티 텍스트 이미지에서 문자 행의 정사각형 사각점 좌표에 대응되는 점을 조회하고, 그 다음 점을 연결하여 둘러싸인 ROI 영역(관심 영역)을 잘라내어, 문자 행의 이미지 조각을 획득할 수 있다. 여기서, i 번째 문자 행에 있어서, 그 정사각형 사각점 좌표
Figure pat00002
를 기반으로, 엔티티 텍스트 이미지에서 대응 영역의 이미지 조각을 잘라낸 것을 Ii로 나타낼 수 있다.
단계(304)에서, 문자 행의 이미지 조각을 순환 컨벌루션 신경망에 입력하여, 문자 행의 콘텐츠를 출력한다.
본 실시예에서, 상기 수행주체는 문자 행의 이미지 조각을 RCNN(Regions with CNN features, 순환 컨벌루션 신경망)에 입력하여, 문자 행의 콘텐츠를 출력할 수 있다. 여기서, i 번째 문자 행의 이미지 조각 Ii에 있어서, i 번째 문자 행의 콘텐츠는 ci로 나타낼 수 있다.
여기서, RCNN는 CNN(Convolutional Neural Network, 컨벌루션 신경망) 방법을 타깃 검출 문제에 적용하고, CNN의 우수한 특징 추출 및 분류 성능을 활용하여, RegionProposal(영역 생성) 방법을 통해 타깃 검출 문제의 전환을 구현한다. RCNN는 후보 영역 선택, CNN 특징 추출 및 분류 및 경계 회귀 등 여러 단계를 포함할 수 있다.
본 발명의 실시예에서 제공하는 문자 검출 방법은, 우선 엔티티 텍스트 이미지를 장면 문자 검출 모델에 입력하여, 문자 행의 사각점 좌표를 출력하고; 다음 문자 행의 사각점 좌표에 대해 아핀 변환을 진행하여, 문자 행의 정사각형 사각점 좌표를 생성하며; 그 다음 문자 행의 정사각형 사각점 좌표에 기반하여, 엔티티 텍스트 이미지에서 문자 행의 이미지 조각을 잘라내고; 마지막으로 문자 행의 이미지 조각을 순환 컨벌루션 신경망에 입력하여, 문자 행의 콘텐츠를 출력한다. 엔티티 텍스트 이미지에서 문자 행의 위치 및 콘텐츠를 획득하는 방법을 제공한다. 또한, 문자 행의 콘텐츠를 획득하기 이전에, 문자 행의 사각점 좌표를 정사각형 사각점 좌표로 아핀 변환하여, 엔티티 텍스트 이미지의 왜곡된 변형 및 인쇄 오프셋으로 인한 간섭을 생략함으로써, 문자 검출의 정확도를 향상시킬 수 있다.
구조화 해석을 쉽게 하기 위해, 엔티티 텍스트 이미지의 일반성 관계 구조는 기 정의되어, 상응한 수학 형태를 시사할 수 있다. 그 다음, 구조화된 알고리즘을 이용하여 엔티티 텍스트 이미지의 관계 구조를 예측한다. 마지막으로, 관계 정의를 통해 효과적인 관계 구조를 필터링하고, 구조화된 정보를 출력한다.
일반적으로, 엔티티 텍스트 이미지는 필드 및 테이블로 구축된다. 그 형식 구조를 더 잘 해석하기 위해, 구조화된 텍스트를 필드의 속성, 필드의 값, 테이블의 헤더 및 테이블의 유닛 등 4가지 타입으로 나눈다. 또한, 필드의 속성과 값에 대응 관계가 존재한다고 가정하면, 동렬의 테이블의 헤더와 유닛에 대응 관계가 존재하고 이외에 다른 형태의 관계 조합은 존재하지 않는다. 상기 규칙에 따라, 엔티티 텍스트 이미지에 대한 구조 정의는 아래와 같다.
Figure pat00003
여기서, R은 필드 대응 관계의 집합을 나타내고, 필드의 속성과 값으로 나타내며, M은 테이블 대응 관계의 집합을 나타내고, 테이블의 헤더와 유닛으로 나타내며, T는 모든 4가지 타입의 원소 집합을 나타내고, K, V, H, C는 각각 필드의 속성, 필드의 값, 테이블의 헤더 및 테이블의 유닛 등 4가지 타입을 나타낸다.
나아가, 엔티티 텍스트 이미지의 구조를 위해 하나의 무방향 그래프 G=(V,E)를 정의한다. 여기서, 정점 V=T이고, 다시 말해서, 문자 행은 무방향 그래프의 정점을 나타내며, 아래에서 모두 문자행이라 한다. 변집합 E=(R∪M)이고, 다시 말해서, 필드 대응 관계 및 테이블 대응 관계는 무방향 그래프의 가장자리를 나타낸다. 무방향 그래프 정의에 따라, (vi, vj)=(vj, vi)를 알 수 있고, vi는 i 번째 문자 행이고, vj는 j 번째 문자 행(정점)이다.
또한, E에 대해 하나의 2차원 관계 확률 행렬 A∈N2;Aij∈{0,1}을 구성하여, 대응되는 문자 행(정점) 사이에 관계가 존재하는지 여부를 나타낸다. 여기서, 1은 관계가 존재함을 나타내고, 0은 관계가 존재하지 않음을 나타낸다. G가 무방향 그래프이기에, A는 대칭 행렬이다. 관계 확률 행렬 A의 정의는 아래와 같다.
Figure pat00004
.
종합해보면, 엔티티 텍스트 이미지의 구조화된 형태 V 및 A를 정의하고, 아래의 과정에서 모델 알고리즘을 통해 학습 및 예측한다.
또한 도 4를 참조하면, 도 4는 도 2의 다변량 정보 추출 단계의 분해 흐름(400)이다. 상기 다변량 정보 추출 단계는 아래와 같이 분해할 수 있다.
단계(401)에서, 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 결정한다.
본 실시예에서, 상기 수행주체는 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 결정할 수 있다.
여기서, 문자 행의 입력 3-튜플은 문자 행의 사각점 좌표, 콘텐츠 및 이미지 조각을 포함할 수 있다. 2개의 문자 행 간의 관계의 입력 3-튜플은 2개의 문자 행의 사각점 좌표의 차이값, 2개의 문자 행의 중심점의 각도 차이 및 2개의 문자 행의 중심점의 유클리드 거리를 포함할 수 있다.
본 발명의 실시예는, 다변량 정보 융합을 통해, 문자 행의 타입 V 및 관계 확률 행렬 A를 예측하는 그래프에 기반한 딥러닝 알고리즘을 제시하고, 알고리즘의 입력은 문자 검출의 결과에 기반하여 결정된다. 구체적으로, 각 문자 행 vi의 입력 3-튜플을 문자 행의 사각점 좌표, 콘텐츠 및 이미지 조각을 포함하는 (pi,ci,Ii)로 정의한다. 또한, 2개의 문자 행 간의 관계 (vi,vj)의 입력 3-튜플 (dij ,rij ,uij)을 정의하며, 그 형식은 아래와 같다.
Figure pat00005
여기서, dij는 2차원 좌표에서 문자 행 vi과 문자 행 vj의 사각점 좌표의 차이값이고, rij는 문자 행 vi과 문자 행 vj의 중심점의 각도 차이를 나타내며, r∈[-π,π]이고, eij는 문자 행 vi과 문자 행 vj의 중심점의 유클리드 거리를 나타낸다.
다음, 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 멀티모달 특징 추출 알고리즘의 입력으로서, 문자 행의 다변량 정보를 추출한다. 구체적으로 단계(402)내지 단계(405)에 도시된 바와 같다.
단계(402)에서, 문자 행의 사각점 좌표를 문자 행의 기하학적 특징으로 결정한다.
본 실시예에서, 상기 수행주체는 문자 행의 사각점 좌표를 문자 행의 기하학적 특징으로 결정할 수 있다. 여기서, i 번째 문자 행 vi에 있어서, 그 기하학적 특징은 pi로 나타낼 수 있다.
단계(403)에서, 엔티티 텍스트 이미지를 컨벌루션 신경망에 입력하여, 시각적 2차원 특징 맵을 출력한다.
본 실시예에서, 상기 수행주체는 엔티티 텍스트 이미지를 CNN에 입력하고, CNN이 엔티티 텍스트 이미지에 대해 컨벌루션 연산을 진행하여, 시각적 2차원 특징 맵을 출력할 수 있다.
단계(404)에서, 문자 행의 사각점 좌표에 기반하여, 시각적 2차원 특징 맵에서 문자 행의 영역을 산출하고, 관심 영역 좌표 변환 동작을 사용하여 문자 행의 시각적 특징을 분할한다.
본 실시예에서, 상기 수행주체는 우선 시각적 2차원 특징 맵에서 문자 행의 사각점 좌표에 대응되는 점을 조회하여, 점으로 둘러싸인 영역을 획득하고; 그 다음 관심 영역 좌표 변환(Transform ROI) 동작을 사용하여 문자 행의 시각적 특징을 분할할 수 있다. 여기서, i 번째 문자 행 vi에 있어서, 그 시각적 특징은 (Fi)v로 나타낼 수 있다.
단계(405)에서, 문자 행의 콘텐츠를 사전 훈련 모델에 입력하고 시맨틱 정보 추출을 진행하여, 문자 행의 시맨틱 특징을 획득한다.
본 실시예에서, 상기 수행주체는 문자 행의 콘텐츠를 사전 훈련 모델에 입력하고 시맨틱 정보 추출을 진행하여, 문자 행의 시맨틱 특징을 획득할 수 있다.
여기서, 사전 훈련 모델은 예를 들면 구체적으로 일정 지식 분야(예를 들어 영수증, 카드, 증명서 또는 법률 계약 텍스트 등)에서 사전 훈련된 ERNIE등 시맨틱 정보를 추출할 수 있다. ERNIE는 문자 행에 대해 어휘, 문법 및 시맨틱을 충분히 표시하여, 이해력이 높은 시맨틱 특징을 획득할 수 있음으로, ERNIE에 포함되는 광의 언어 지식 영역을 문자 구조화로 전이하여, 장면 지식 및 텍스트 시맨틱에 대해 더 강력한 이해력을 갖도록 구현한다. ERNIE가 지식에 대한 이해를 향상시켜, 다양한 장면의 영수증, 카드, 증명서 및 텍스트 등 수직 타입의 구조화된 해석을 더 쉽게 해결할 수 있다. 여기서, i 번째 문자 행 vi에 있어서, 그 콘텐츠 ci에 대해 시맨틱 정보 추출을 진행하여, 획득한 시맨틱 특징은 (Fi)s로 나타낼 수 있다.
또한, 상기 수행주체는 문자 행의 기하학적 특징, 시각적 특징 및 시맨틱 특징에 대해 멀티모달 스티칭 융합을 진행하여, 문자 행의 멀티모달 특징을 생성하고; 2개의 문자 행의 조합에 있어서, 대응되는 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계의 입력 3-튜플을 스티칭하여, 2개의 문자 행 간의 관계 특징을 생성함으로써, 다변량 정보 융합 방법을 제공할 수 있다. 여기서, i 번째 문자 행 vi에 있어서, 기하학적 특징 pi, 시각적 특징 (Fi)v 및 시맨틱 특징 (Fi)s에 대해 멀티모달 스티칭 융합을 진행하여, 문자 행의 멀티모달 특징 Fi를 생성한다. i 번째 문자 행 vi 및 j 번째 문자 행 vj에 있어서, 그 2개의 문자 행 간의 관계 특징은 Eij=(Fi, Fj, dij, rij, uij)로 나타낼 수 있다.
계속해서 도 5를 참조하면, 도 5는 다변량 정보 추출의 응용 장면(scenario)이다. 도 5에 도시된 바와 같이, 의료 영수증에 대해 OCR 인식을 진행하여, 기하학적 정보, 시각적 정보 및 문자 정보를 획득한다. 기하학적 정보는 직접 기하학적 특징으로 할 수 있고, 시각적 정보는 CNN을 통해 시각적 특징을 획득할 수 있고, 문자 정보는 ERNIE를 통해 시맨틱 특징을 획득할 수 있다. 기하학적 특징, 시각적 특징 및 시맨틱 특징을 융합하여, 멀티모달 특징을 획득할 수 있다. 멀티모달 특징에 기반하여 관계 확률 행렬 A를 획득할 수 있다. 관계 확률 행렬 A를 기반으로 무방향 그래프의 노드 및 가장자리를 업데이트하여, 노드 분류 및 연결 상태를 확인할 수 있다.
본 발명의 실시예에서 제공하는 다변량 정보 추출 방법은, 우선 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 결정하고; 다음 문자 행의 사각점 좌표를 문자 행의 기하학적 특징으로 결정하며; 그 다음 엔티티 텍스트 이미지를 컨벌루션 신경망에 입력하여, 시각적 2차원 특징 맵을 출력하고, 문자 행의 사각점 좌표에 기반하여, 시각적 2차원 특징 맵에서 문자 행의 영역을 산출하며, 관심 영역 좌표 변환 동작을 사용하여 문자 행의 시각적 특징을 분할하고; 마지막으로 문자 행의 콘텐츠를 사전 훈련 모델에 입력하고 시맨틱 정보 추출을 진행하여, 문자 행의 시맨틱 특징을 획득한다. 딥러닝 방법을 기반으로 문자 행의 다변량 정보를 추출하여, 다변량 정보의 추출 효율 및 정확도를 향상시킨다.
실제 응용에서, 문자 행의 타입 및 관계 확률 행렬은 그래프 신경망을 이용하여 산출할 수 있다. 다변량 정보를 이용하고, 대규모 시맨틱 학습 모델에 기반하여, 딥러닝 네트워크를 구축하여 문자 행 간의 관계 분포를 추리한다.
구체적으로, 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 그래프 신경망에 입력하여, 문자 행의 타입 및 관계 확률 행렬을 출력한다. 그래프 신경망에 기반하여 타입 및 관계 추리를 진행하고, 문자 행의 타입 및 관계를 자동 학습하여, 학습 효율을 향상시킨다.
여기서, 그래프 신경망의 구조는 여러 동일한 그래프 신경망층을 쌓아 구축될 수 있다. 예를 들면, 그래프 신경망은 N 개의 그래프 신경망층을 포함할 수 있다. 이때, 그래프 신경망의 제L 계층에 대해, 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 제L 계층에 입력하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 획득할 수 있다. 여기서, N는 양의 정수이고, 1≤L<N이며, L은 양의 정수이다.
또한 도 6을 참조하면, 도 6은 도 2의 타입 및 관계 추리 단계의 분해 흐름(600)이다. 상기 타입 및 관계 추리 단계는 아래와 같이 분해할 수 있다.
단계(601)에서, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징을 다층 퍼셉트론 모델에 입력하여, 제L 계층에서 출력된 관계 확률 행렬을 획득한다.
본 실시예에서, 그래프 신경망의 제L 계층에 대해, 이는 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 E[L-1] 및 2개의 문자 행 간의 관계 특징 E[L-1]로 입력되고, 문자 행의 멀티모달 특징 F[L] 및 2개의 문자 행 간의 관계 특징 E[L]로 출력된다.
구체적으로, 상기 수행주체는 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 E[L-1]을 MLP(Multilayer Perceptron, 다층 퍼셉트론 모델)에 입력하여, 제L 계층에서 출력된 관계 확률 행렬 A[L]을 획득할 수 있다. 여기서, MLP는 수동신경망(ArtiFicial Neural Network, ANN)이라고도 하며, 입력 계층 및 출력 계층 외에, 그 사이에는 여러 숨겨진 계층이 있을 수 있고, 가장 단순한 MLP는 하나의 숨겨진 계층만 포함한다. MLP 계층과 계층 사이는 완전히 연결되고, 즉 상위 계층의 임의의 한 뉴런은 아래 계층의 모든 뉴런과 모두 연결된다.
단계(602)에서, 제L-1 계층에서 출력된 문자 행의 멀티모달 특징을 제L 계층에서 출력된 관계 확률 행렬과 곱하고, 문자 행 및 문자 행과 관련된 문자 행에 대해 제L 계층에서 출력된 관계 확률 행렬의 확률 분포에 따라 특징 통합을 진행하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 획득한다.
본 실시예에서, 상기 수행주체는 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 E[L-1]을 제L 계층에서 출력된 관계 확률 행렬 A[L]과 행렬 곱셈하여, 문자 행 및 문자 행과 관련된 문자 행에 대해 제L 계층에서 출력된 관계 확률 행렬 A[L]의 확률 분포에 따라 특징 통합을 진행하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L]을 획득할 수 있다.
단계(603)에서, 제L 계층에 숨겨진 문자 행의 멀티모달 특징, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징의 전치를 곱하고, 다층 퍼셉트론 모델을 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징을 획득한다.
본 실시예에서, 상기 수행주체는 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L], 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 E[L-1] 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L]의 전치에 대해 3차 행렬 곱셈을 진행하고, MLP를 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징 E[L]을 획득할 수 있다.
단계(604)에서, 단일 게이트 순환 유닛을 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 제L-1 계층에서 출력된 문자 행의 멀티모달 특징으로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징을 획득한다.
본 실시예에서, 상기 수행주체는 단일 GRU(Gated Recurrent Unit, 게이트 순환 유닛)를 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L]을 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 E[L-1]로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 F[L]을 획득할 수 있다.
여기서, L=N일 경우, 제L 계층은 그래프 신경망의 마지막 층을 의미하고, 제L 계층에서 출력된 관계 확률 행렬 A[L]은 문자 행의 관계 확률 행렬 A'이며, 제L 계층에서 출력된 문자 행 특징 F[L]은 문자 행의 타입 V'이다.
계속해서 도 7을 참조하면, 도 7은 그래프 신경망층 구축도이다. 도 7에 도시된 바와 같이, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 E[L-1]을 MLP에 입력하여, 제L 계층에서 출력된 관계 확률 행렬 A[L]을 획득한다. 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 E[L-1]을 제L 계층에서 출력된 관계 확률 행렬 A[L]과 행렬 곱셈하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L]을 획득한다. 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L], 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 E[L-1] 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L]의 전치에 대해 3차 행렬 곱셈을 진행하고, MLP를 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징 E[L]을 획득한다. 단일 GRU를 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징 A[L]을 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 E[L-1]으로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 F[L]을 획득한다.
본 발명의 실시예에서 제공하는 타입 및 관계 추리 방법은, 우선 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징을 다층 퍼셉트론 모델에 입력하여, 제L 계층에서 출력된 관계 확률 행렬을 획득하고; 그 다음 제L-1 계층에서 출력된 문자 행의 멀티모달 특징을 제L 계층에서 출력된 관계 확률 행렬과 곱하며, 문자 행 및 문자 행과 관련된 문자 행에 대해 제L 계층에서 출력된 관계 확률 행렬의 확률 분포에 따라 특징 통합을 진행하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 획득하고; 그 다음 제L 계층에 숨겨진 문자 행의 멀티모달 특징, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징의 전치를 곱하며, 다층 퍼셉트론 모델을 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징을 획득하고; 마지막으로 단일 게이트 순환 유닛을 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 제L-1 계층에서 출력된 문자 행의 멀티모달 특징으로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징을 획득한다. 그래프 신경망을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계를 자동 학습하고, 학습 효율을 향상시킨다.
또한 도 8을 참조하면, 도 8은 도 2의 구조화된 정보 구축 단계의 분해 흐름(800)이다. 상기 구조화된 정보 구축 단계는 아래와 같이 분해할 수 있다.
단계(801)에서, 문자 행을 순회하여, i 번째 문자 행의 타입을 결정한다.
본 실시예에서, 상기 수행주체는 문자 행 V'를 순회하여, i 번째 문자 행의 타입을 결정할 수 있다.
단계(802)에서, 문자 행의 관계 확률 행렬의 i 번째 행으로부터 기 설정된 임계값보다 큰 원소 집합을 추출하고, 원소 아래 첨자를 통해 문자 행 관계 집합 후보를 조회한다.
본 실시예에서, 상기 수행주체는 임계값 t를 기 설정하고 t∈(0,1)이며, 그 다음 문자 행의 관계 확률 행렬 A'의 i 번째 행으로부터 기 설정된 임계값 t보다 큰 원소 집합 {A'ij}을 추출하고, 원소 아래 첨자를 통해 문자 행 관계 집합 후보{(vi ,vj)}를 조회할 수 있다.
단계(803)에서, 문자 행 관계 집합 후보로부터 필드 관계 또는 테이블 관계에 속하는 관계 집합을 선별한다.
본 실시예에서, 상기 수행주체는 우선 필드 관계 R 또는 테이블 관계 M의 합집합 (R∪M)을 결정하고, 그 다음 문자 행 관계 집합 후보 {(vi, vj)}으로부터 (R∪M)에 속하는 관계 집합 (R', M')을 선별할 수 있다.
단계(804)에서, i 번째 문자 행에 한 세트 이상의 관계가 존재할 경우, 문자 행의 타입에 기반하여 새 관계 집합을 추출한다.
본 실시예에서, i 번째 문자 행에 한 세트 이상의 관계가 존재할 경우, 상기 수행주체는 문자 행의 타입에 기반하여 새 관계 집합 (R'',M'')을 추출할 수 있다.
일부 실시예에서, i 번째 문자 행 vi가 필드의 속성 K, 필드의 값 V 및 테이블의 유닛 C 세 집합의 합집합에 속할 경우, 즉 vi∈(K∪V∪C)이면, 문자 행의 관계 확률 행렬 A'의 i 번째 행 {A'i *}에서 확률값이 가장 큰 원소에 대응되는 문자 행을 선택하여, i 번째 문자 행과의 대응 관계를 나타내고; i 번째 문자 행 vi가 테이블의 헤더 H에 속할 경우, 즉, vi∈H이면, 관계 집합의 모든 원소 {A'i *}를 유지하여, i 번째 문자 행과의 대응 관계를 나타낸다. 관계 집합에서 문자 행 및 관계를 업데이트하여, 새 관계 집합을 생성할 수 있다.
단계(805)에서, 새 관계 집합 중의 필드 관계와 테이블 관계의 매핑을 통해, i 번째 문자 행의 위치 및 콘텐츠를 결합하여, i 번째 문자 행의 필드 및 테이블의 구조화된 정보를 출력한다.
본 실시예에서, 상기 수행주체는 새 관계 집합 (R'', M'')에서 필드 관계 R''와 테이블 관계 M''의 매핑을 통해, i 번째 문자 행의 위치 및 콘텐츠를 결합하여, i 번째 문자 행의 필드 및 테이블의 구조화된 정보를 출력할 수 있다.
본 발명의 실시예에서 제공하는 구조화된 정보 구축 방법은, 우선 문자 행을 순회하여, i 번째 문자 행의 타입을 결정하고; 다음 문자 행의 관계 확률 행렬의 i 번째 행으로부터 기 설정된 임계값보다 큰 원소 집합을 추출하며, 원소 아래 첨자를 통해 문자 행 관계 집합 후보를 조회하고; 그 다음 문자 행 관계 집합 후보로부터 필드 관계 또는 테이블 관계에 속하는 관계 집합을 선별하며, i 번째 문자 행에 한 세트 이상의 관계가 존재할 경우, 관계 집합에 기반하여 새 관계 집합을 획득하고; 마지막으로 새 관계 집합 중의 필드 관계와 테이블 관계의 매핑을 통해, i 번째 문자 행의 위치 및 콘텐츠를 결합하여, i 번째 문자 행의 필드 및 테이블의 구조화된 정보를 출력한다. 타입 및 관계 추리에 기반하여 수행하는 문자 구조화 추출 방법은, 적용 범위가 넓고, 범용성이 강하다.
또한 도 9를 참조하면, 상기 각 도면에서 도시된 방법에 대한 구현으로서, 본 발명은 문자 구조화 추출 장치의 일 실시예를 제공하는바, 상기 장치의 실시예는 도 2에 도시된 방법의 실시예에 대응되고, 상기 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.
도 9에 도시된 바와 같이, 본 실시예의 문자 구조화 추출 장치(900)는 검출 모듈(901), 추출 모듈(902), 융합 모듈(903), 추리 모듈(904) 및 구축 모듈(905)을 포함할 수 있다. 여기서, 검출 모듈(901)은, 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하도록 구성되고; 추출 모듈(902)은, 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하도록 구성되며; 융합 모듈(903)은, 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하도록 구성되고; 추리 모듈(904)은, 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하도록 구성되며; 구축 모듈(905)은, 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축하도록 구성된다.
본 실시예에서, 문자 구조화 추출 장치(900)에서 검출 모듈(901), 추출 모듈(902), 융합 모듈(903), 추리 모듈(904) 및 구축 모듈(905)의 구체적 처리 및 그로 인한 기술적 효과는 도 2에 대응되는 실시예에서 단계(201) 내지 단계(205)의 관련 설명을 각각 참조할 수 있는바, 여기서는 일일이 설명하지 않기로 한다.
본 실시예의 일부 선택 가능한 실시형태에서, 검출 모듈(901)은 엔티티 텍스트 이미지를 장면 문자 검출 모델에 입력하여, 문자 행의 사각점 좌표를 출력하고; 문자 행의 사각점 좌표에 대해 아핀 변환을 진행하여, 문자 행의 정사각형 사각점 좌표를 생성하며; 문자 행의 정사각형 사각점 좌표에 기반하여, 엔티티 텍스트 이미지에서 문자 행의 이미지 조각을 커팅하고; 문자 행의 이미지 조각을 순환 컨벌루션 신경망에 입력하여, 문자 행의 콘텐츠를 출력하도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 추출 모듈(902)은 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 결정하고, 여기서, 문자 행의 입력 3-튜플은 문자 행의 사각점 좌표, 콘텐츠 및 이미지 조각을 포함하며, 2개의 문자 행 간의 관계의 입력 3-튜플은 2개의 문자 행의 사각점 좌표의 차이값, 2개의 문자 행의 중심점의 각도 차이 및 2개의 문자 행의 중심점의 유클리드 거리를 포함하도록 구성되는 결정 서브 모듈; 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 멀티모달 특징 추출 알고리즘의 입력으로서, 문자 행의 다변량 정보를 추출하도록 구성되는 추출 서브 모듈을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 추출 서브 모듈은 문자 행의 사각점 좌표를 문자 행의 기하학적 특징으로 결정하고; 엔티티 텍스트 이미지를 컨벌루션 신경망에 입력하여, 시각적 2차원 특징 맵을 출력하며; 문자 행의 사각점 좌표에 기반하여, 시각적 2차원 특징 맵에서 문자 행의 영역을 산출하고, 관심 영역 좌표 변환 동작을 사용하여 문자 행의 시각적 특징을 분할하며 문자 행의 콘텐츠를 사전 훈련 모델에 입력하고 시맨틱 정보 추출을 진행하여, 문자 행의 시맨틱 특징을 획득하도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 융합 모듈(903)은 문자 행의 기하학적 특징, 시각적 특징 및 시맨틱 특징에 대해 멀티모달 스티칭 융합을 진행하여, 문자 행의 멀티모달 특징을 생성하고; 2개의 문자 행의 조합에 있어서, 대응되는 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계의 입력 3-튜플을 스티칭하여, 2개의 문자 행 간의 관계 특징을 생성하도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 추리 모듈(904)은 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 그래프 신경망에 입력하여, 문자 행의 타입 및 관계 확률 행렬을 출력하도록 구성되는 출력 서브 모듈을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 그래프 신경망은 N 개의 그래프 신경망층을 포함하고 N는 양의 정수이며, 출력 서브 모듈은 그래프 신경망의 제L 계층에 대해, 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 제L 계층에 입력하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 획득하도록 구성되는 출력 유닛을 포함하고, 1≤L<N이며 L은 양의 정수이다.
본 실시예의 일부 선택 가능한 실시형태에서, 출력 유닛은 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징을 다층 퍼셉트론 모델에 입력하여, 제L 계층에서 출력된 관계 확률 행렬을 획득하고; 제L-1 계층에서 출력된 문자 행의 멀티모달 특징을 제L 계층에서 출력된 관계 확률 행렬과 곱하며, 문자 행 및 문자 행과 관련된 문자 행에 대해 제L 계층에서 출력된 관계 확률 행렬의 확률 분포에 따라 특징 통합을 진행하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 획득하고; 제L 계층에 숨겨진 문자 행의 멀티모달 특징, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징의 전치를 곱하며, 다층 퍼셉트론 모델을 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징을 획득하고; 단일 게이트 순환 유닛을 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 제L-1 계층에서 출력된 문자 행의 멀티모달 특징으로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징을 획득하도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, L=N일 경우, 제L 계층에서 문자 행의 타입 및 관계 확률 행렬을 출력한다.
본 실시예의 일부 선택 가능한 실시형태에서, 구축 모듈(905)은 문자 행을 순회하여, i 번째 문자 행의 타입을 결정하도록 구성되는 순회 서브 모듈 - i는 양의 정수임 - ; 문자 행의 관계 확률 행렬의 i 번째 행으로부터 기 설정된 임계값보다 큰 원소 집합을 추출하고, 원소 아래 첨자를 통해 문자 행 관계 집합 후보를 조회하도록 구성되는 조회 서브 모듈; 문자 행 관계 집합 후보로부터 필드 관계 또는 테이블 관계에 속하는 관계 집합을 선별하도록 구성되는 선별 서브 모듈; i 번째 문자 행에 한 세트 이상의 관계가 존재할 경우, 문자 행의 타입에 기반하여 새 관계 집합을 추출하도록 구성되는 획득 서브 모듈; 새 관계 집합 중의 필드 관계와 테이블 관계의 매핑을 통해, i 번째 문자 행의 위치 및 콘텐츠를 결합하여, i 번째 문자 행의 필드 및 테이블의 구조화된 정보를 출력하도록 구성되는 매핑 서브 모듈을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 획득 서브 모듈은 i 번째 문자 행이 필드의 속성, 필드의 값 및 테이블의 유닛의 세 집합의 합집합에 속할 경우, 문자 행의 관계 확률 행렬의 i 번째 행에서 확률값 가장 큰 원소에 대응되는 문자 행을 선택하여, i 번째 문자 행과의 대응 관계를 나타내고; i 번째 문자 행이 테이블의 헤더에 속할 경우, 관계 집합의 모든 원소에 대응되는 문자 행을 유지하여, i 번째 문자 행과의 대응 관계를 나타내며; 대응 관계에 기반하여, 새 관계 집합을 생성하도록 구성된다.
본 실시예의 일부 선택 가능한 실시형태에서, 문자 행의 타입은 필드의 속성, 필드의 값, 테이블의 헤더 및 테이블의 유닛 중 적어도 하나를 포함하고, 필드의 속성과 값은 필드 대응 관계를 나타내며, 테이블의 헤더와 유닛은 테이블 대응 관계를 나타내고, 문자 행은 무방향 그래프의 정점을 나타내며, 필드 대응 관계 및 테이블 대응 관계는 무방향 그래프의 가장자리를 나타내고, 관계 확률 행렬은 무방향 그래프의 가장자리 구조에 기반하여, 대응되는 정점 사이에 관계가 존재하는지 여부를 나타낸다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.
도 10에 도시된 바와 같이, 본 발명의 실시예에 따른 문자 구조화 추출 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 10에 되시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(1001), 메모리(1002), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중프로세서 시스템)을 제공한다. 도 10에서 하나의 프로세서(1001) 를 예로 든다.
메모리(1002)는 본 발명에서 제공하는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행되는 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서가 본 발명에서 제공하는 문자 구조화 추출 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 상기 컴퓨터 명령은 컴퓨터가 본 발명에서 제공하는 문자 구조화 추출 방법을 수행하도록 한다.
메모리(1002)는 비 일시적 컴퓨터 판독 가능한 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능한 프로그램, 및 본 발명의 실시예의 문자 구조화 추출 방법에 대응되는 프로그램 명령/모듈(예를 들면, 도면9에 도시된 검출 모듈(901), 추출 모듈(902), 융합 모듈(903), 추리 모듈(904) 및 구축 모듈(905))과 같은 모듈을 저장할 수 있다. 프로세서(1001)는 메모리(1002)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 문자 구조화 추출 방법을 구현한다.
메모리(1002)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 문자 구조화 추출 방법의 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이 밖에, 메모리(1002)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(1002)는 프로세서(1001)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 문자 구조화 추출 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
문자 구조화 추출 방법의 전자 기기는 입력 장치(1003) 및 출력 장치(1004)를 더 포함할 수 있다. 프로세서(1001), 메모리(1002), 입력 장치(1003) 및 출력 장치(1004)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 10에서 버스를 통해 연결되는 것을 예로 든다.
입력 장치(1003)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 문자 구조화 추출 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(1004)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체" 및 "컴퓨터 판독 가능한 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 발명의 기술적 해결수단에 따르면, 우선 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하고; 다음 문자 행의 위치 및 콘텐츠에 기반하여, 문자 행의 다변량 정보를 추출하며; 그 다음 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 문자 행의 멀티모달 융합 특징을 획득하고; 다음 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 문자 행의 타입 및 관계 확률 행렬을 획득하며; 마지막으로 문자 행의 타입 및 관계 확률 행렬에 기반하여, 엔티티 텍스트 이미지의 구조화된 정보를 구축한다. 대규모 및 자동화 처리에 적합하고, 적용 범위가 넓으며, 범용성이 강한 타입 및 관계 추리에 기반한 문자 구조화 추출 방법을 제공한다.
위에서 설명한 다양한 형태의 흐름을 사용하여, 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 속해야 한다.

Claims (27)

  1. 문자 구조화 추출 방법으로서,
    엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 상기 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하는 단계;
    상기 문자 행의 위치 및 콘텐츠에 기반하여, 상기 문자 행의 다변량 정보를 추출하는 단계;
    상기 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 상기 문자 행의 멀티모달 융합 특징을 획득하는 단계;
    상기 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 상기 문자 행의 타입 및 관계 확률 행렬을 획득하는 단계; 및
    상기 문자 행의 타입 및 관계 확률 행렬에 기반하여, 상기 엔티티 텍스트 이미지의 구조화된 정보를 구축하는 단계를 포함하는 문자 구조화 추출 방법.
  2. 제1항에 있어서,
    상기 엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 상기 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하는 단계는,
    상기 엔티티 텍스트 이미지를 장면 문자 검출 모델에 입력하여, 상기 문자 행의 사각점 좌표를 출력하는 단계;
    상기 문자 행의 사각점 좌표에 대해 아핀 변환을 진행하여, 상기 문자 행의 정사각형 사각점 좌표를 생성하는 단계;
    상기 문자 행의 정사각형 사각점 좌표에 기반하여, 상기 엔티티 텍스트 이미지에서 상기 문자 행의 이미지 조각을 분할하는 단계; 및
    상기 문자 행의 이미지 조각을 순환 컨벌루션 신경망에 입력하여, 상기 문자 행의 콘텐츠를 출력하는 단계를 포함하는 문자 구조화 추출 방법.
  3. 제2항에 있어서,
    상기 문자 행의 위치 및 콘텐츠에 기반하여, 상기 문자 행의 다변량 정보를 추출하는 단계는,
    상기 문자 행의 위치 및 콘텐츠에 기반하여, 상기 문자 행의 입력 3-튜플(Tuple) 및 2개의 문자 행 간의 관계의 입력 3-튜플을 결정하는 단계 - 상기 문자 행의 입력 3-튜플은 상기 문자 행의 사각점 좌표, 콘텐츠 및 이미지 조각을 포함하고, 상기 2개의 문자 행 간의 관계의 입력 3-튜플은 2개의 문자 행의 사각점 좌표의 차이값, 2개의 문자 행의 중심점의 각도 차이 및 2개의 문자 행의 중심점의 유클리드(Euclidean) 거리를 포함함 -; 및
    상기 문자 행의 입력 3-튜플 및 상기 2개의 문자 행 간의 관계의 입력 3-튜플을 멀티모달 특징 추출 알고리즘의 입력으로서, 상기 문자 행의 다변량 정보를 추출하는 단계를 포함하는 문자 구조화 추출 방법.
  4. 제3항에 있어서,
    상기 문자 행의 입력 3-튜플 및 상기 2개의 문자 행 간의 관계의 입력 3-튜플을 멀티모달 특징 추출 알고리즘의 입력으로서, 상기 문자 행의 다변량 정보를 추출하는 단계는,
    상기 문자 행의 사각점 좌표를 상기 문자 행의 기하학적 특징으로 결정하는 단계;
    상기 엔티티 텍스트 이미지를 컨벌루션 신경망에 입력하여, 시각적 2차원 특징 맵을 출력하는 단계;
    상기 문자 행의 사각점 좌표에 기반하여, 상기 시각적 2차원 특징 맵에서 상기 문자 행의 영역을 산출하고, 관심 영역 좌표 변환 동작을 사용하여 상기 문자 행의 시각적 특징을 잘라내는 단계; 및
    상기 문자 행의 콘텐츠를 사전 훈련 모델에 입력하여 시맨틱(Semantic) 정보 추출을 진행하여, 상기 문자 행의 시맨틱 특징을 획득하는 단계를 포함하는 문자 구조화 추출 방법.
  5. 제4항에 있어서,
    상기 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 상기 문자 행의 멀티모달 융합 특징을 획득하는 단계는,
    상기 문자 행의 기하학적 특징, 시각적 특징 및 시맨틱 특징에 대해 멀티모달 스티칭 융합을 진행하여, 상기 문자 행의 멀티모달 특징을 생성하는 단계; 및
    2개의 문자 행의 조합에 있어서, 대응되는 문자 행의 멀티모달 특징 및 상기 2개의 문자 행 간의 관계의 입력 3-튜플을 스티칭하여, 2개의 문자 행 간의 관계 특징을 생성하는 단계를 포함하는 문자 구조화 추출 방법.
  6. 제5항에 있어서,
    상기 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 상기 문자 행의 타입 및 관계 확률 행렬을 획득하는 단계는,
    상기 문자 행의 멀티모달 특징 및 상기 2개의 문자 행 간의 관계 특징을 그래프 신경망에 입력하여, 상기 문자 행의 타입 및 관계 확률 행렬을 출력하는 단계를 포함하는 문자 구조화 추출 방법.
  7. 제6항에 있어서,
    상기 그래프 신경망은 N 개의 그래프 신경망층을 포함하고, N는 양의 정수이며;
    상기 문자 행의 멀티모달 특징 및 상기 2개의 문자 행 간의 관계 특징을 그래프 신경망에 입력하여, 상기 문자 행의 타입 및 관계 확률 행렬을 출력하는 단계는,
    상기 그래프 신경망의 제L 계층에 대해, 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 제L 계층에 입력하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 획득하는 단계를 포함하고, 1≤L<N이고, L은 양의 정수인 문자 구조화 추출 방법.
  8. 제7항에 있어서,
    상기 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 제L 계층에 입력하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 획득하는 단계는,
    제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징을 다층 퍼셉트론 모델에 입력하여, 제L 계층에서 출력된 관계 확률 행렬을 획득하는 단계;
    제L-1 계층에서 출력된 문자 행의 멀티모달 특징을 제L 계층에서 출력된 관계 확률 행렬과 곱하고, 제L 계층에서 출력된 관계 확률 행렬의 확률 분포에 따라, 상기 문자 행 및 문자 행과 관련된 문자 행에 대해 특징 통합을 진행하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 획득하는 단계;
    제L 계층에 숨겨진 문자 행의 멀티모달 특징, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징의 전치를 곱하고, 상기 다층 퍼셉트론 모델을 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징을 획득하는 단계; 및
    단일 게이트 순환 유닛을 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 상기 제L-1 계층에서 출력된 문자 행의 멀티모달 특징으로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징을 획득하는 단계를 포함하는 문자 구조화 추출 방법.
  9. 제8항에 있어서,
    L=N일 경우, 제L 계층에서 상기 문자 행의 타입 및 관계 확률 행렬을 출력하는 문자 구조화 추출 방법.
  10. 제1항에 있어서,
    상기 문자 행의 타입 및 관계 확률 행렬에 기반하여, 상기 엔티티 텍스트 이미지의 구조화된 정보를 구축하는 단계는,
    상기 문자 행을 순회(Traversal)하여, i 번째 문자 행의 타입을 결정하는 단계 - i는 양의 정수임 -;
    상기 문자 행의 관계 확률 행렬의 i 번째 행으로부터 기 설정된 임계값보다 큰 원소 집합을 추출하고, 원소 아래 첨자를 통해 문자 행 관계 집합 후보를 조회하는 단계;
    상기 문자 행 관계 집합 후보로부터 필드 관계 또는 테이블 관계에 속하는 관계 집합을 선별하는 단계;
    i 번째 문자 행에 한 세트 이상의 관계가 존재할 경우, 문자 행의 타입에 기반하여 새 관계 집합을 추출하는 단계; 및
    상기 새 관계 집합 중의 필드 관계와 테이블 관계의 매핑을 통해, i 번째 문자 행의 위치 및 콘텐츠를 결합하여, i 번째 문자 행의 필드 및 테이블의 구조화된 정보를 출력하는 단계를 포함하는 문자 구조화 추출 방법.
  11. 제10항에 있어서,
    상기 관계 집합에 기반하여 새 관계 집합을 획득하는 단계는,
    i 번째 문자 행이 필드의 속성, 필드의 값 및 테이블의 유닛의 세 집합의 합집합에 속할 경우, 상기 문자 행의 관계 확률 행렬의 i 번째 행에서 확률값이 가장 큰 원소에 대응되는 문자 행을 선택하여, i 번째 문자 행과의 대응 관계를 나타내는 단계;
    i 번째 문자 행이 테이블의 헤더에 속할 경우, 관계 집합의 모든 원소에 대응되는 문자 행을 유지하여, i 번째 문자 행과의 대응 관계를 나타내는 단계; 및
    상기 대응 관계에 기반하여, 상기 새 관계 집합을 생성하는 단계를 포함하는 문자 구조화 추출 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    문자 행의 타입은 필드의 속성, 필드의 값, 테이블의 헤더 및 테이블의 유닛 중 적어도 하나를 포함하고, 필드의 속성과 값은 필드 대응 관계를 나타내며, 테이블의 헤더와 유닛은 테이블 대응 관계를 나타내고, 문자 행은 무방향 그래프의 정점을 나타내며, 필드 대응 관계 및 테이블 대응 관계는 무방향 그래프의 가장자리를 나타내고, 관계 확률 행렬은 무방향 그래프의 가장자리 구조에 기반하여, 대응되는 정점 사이에 관계가 존재하는지 여부를 나타내는 문자 구조화 추출 방법.
  13. 문자 구조화 추출 장치로서,
    엔티티 텍스트 이미지에 대해 문자 검출을 진행하여, 상기 엔티티 텍스트 이미지의 문자 행의 위치 및 콘텐츠를 획득하도록 구성되는 검출 모듈;
    상기 문자 행의 위치 및 콘텐츠에 기반하여, 상기 문자 행의 다변량 정보를 추출하도록 구성되는 추출 모듈;
    상기 문자 행의 다변량 정보에 대해 특징 융합을 진행하여, 상기 문자 행의 멀티모달 융합 특징을 획득하도록 구성되는 융합 모듈;
    상기 문자 행의 멀티모달 융합 특징을 기반으로 타입 및 관계 추리를 진행하여, 상기 문자 행의 타입 및 관계 확률 행렬을 획득하도록 구성되는 추리 모듈; 및
    상기 문자 행의 타입 및 관계 확률 행렬에 기반하여, 상기 엔티티 텍스트 이미지의 구조화된 정보를 구축하도록 구성되는 구축 모듈을 포함하는 문자 구조화 추출 장치.
  14. 제13항에 있어서,
    상기 검출 모듈은 또한,
    상기 엔티티 텍스트 이미지를 장면 문자 검출 모델에 입력하여, 상기 문자 행의 사각점 좌표를 출력하고;
    상기 문자 행의 사각점 좌표에 대해 아핀 변환을 진행하여, 상기 문자 행의 정사각형 사각점 좌표를 생성하며;
    상기 문자 행의 정사각형 사각점 좌표에 기반하여, 상기 엔티티 텍스트 이미지에서 상기 문자 행의 이미지 조각을 잘라내고;
    상기 문자 행의 이미지 조각을 순환 컨벌루션 신경망에 입력하여, 상기 문자 행의 콘텐츠를 출력하도록 구성되는 문자 구조화 추출 장치.
  15. 제14항에 있어서,
    상기 추출 모듈은,
    상기 문자 행의 위치 및 콘텐츠에 기반하여, 상기 문자 행의 입력 3-튜플 및 2개의 문자 행 간의 관계의 입력 3-튜플을 결정하고, 상기 문자 행의 입력 3-튜플은 상기 문자 행의 사각점 좌표, 콘텐츠 및 이미지 조각을 포함하며, 상기 2개의 문자 행 간의 관계의 입력 3-튜플은 2개의 문자 행의 사각점 좌표의 차이값, 2개의 문자 행의 중심점의 각도 차이 및 2개의 문자 행의 중심점의 유클리드 거리를 포함하도록 구성되는 결정 서브 모듈; 및
    상기 문자 행의 입력 3-튜플 및 상기 2개의 문자 행 간의 관계의 입력 3-튜플을 멀티모달 특징 추출 알고리즘의 입력으로서, 상기 문자 행의 다변량 정보를 추출하도록 구성되는 추출 서브 모듈을 포함하는 문자 구조화 추출 장치.
  16. 제15항에 있어서,
    상기 추출 서브 모듈은 또한,
    상기 문자 행의 사각점 좌표를 상기 문자 행의 기하학적 특징으로 결정하고;
    상기 엔티티 텍스트 이미지를 컨벌루션 신경망에 입력하여, 시각적 2차원 특징 맵을 출력하며;
    상기 문자 행의 사각점 좌표에 기반하여, 상기 시각적 2차원 특징 맵에서 상기 문자 행의 영역을 산출하고, 관심 영역 좌표 변환 동작을 사용하여 상기 문자 행의 시각적 특징을 잘라내며;
    상기 문자 행의 콘텐츠를 사전 훈련 모델에 입력하여 시맨틱 정보 추출을 진행하여, 상기 문자 행의 시맨틱 특징을 획득하도록 구성되는 문자 구조화 추출 장치.
  17. 제16항에 있어서,
    상기 융합 모듈은 또한,
    상기 문자 행의 기하학적 특징, 시각적 특징 및 시맨틱 특징에 대해 멀티모달 스티칭 융합을 진행하여, 상기 문자 행의 멀티모달 특징을 생성하고;
    2개의 문자 행의 조합에 있어서, 대응되는 문자 행의 멀티모달 특징 및 상기 2개의 문자 행 간의 관계의 입력 3-튜플을 스티칭하여, 2개의 문자 행 간의 관계 특징을 생성하도록 구성되는 문자 구조화 추출 장치.
  18. 제17항에 있어서,
    상기 추리 모듈은,
    상기 문자 행의 멀티모달 특징 및 상기 2개의 문자 행 간의 관계 특징을 그래프 신경망에 입력하여, 상기 문자 행의 타입 및 관계 확률 행렬을 출력하도록 구성되는 출력 서브 모듈을 포함하는 문자 구조화 추출 장치.
  19. 제18항에 있어서,
    상기 그래프 신경망은 N 개의 그래프 신경망층을 포함하고, N는 양의 정수이며;
    상기 출력 서브 모듈은,
    상기 그래프 신경망의 제L 계층에 대해, 제L-1 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 제L 계층에 입력하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징 및 2개의 문자 행 간의 관계 특징을 획득하도록 구성되는 출력 유닛을 포함하고, 1≤L<N이며, L은 양의 정수인 문자 구조화 추출 장치.
  20. 제19항에 있어서,
    상기 출력 유닛은 또한,
    제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징을 다층 퍼셉트론 모델에 입력하여, 제L 계층에서 출력된 관계 확률 행렬을 획득하고;
    제L-1 계층에서 출력된 문자 행의 멀티모달 특징을 제L 계층에서 출력된 관계 확률 행렬과 곱하며, 제L 계층에서 출력된 관계 확률 행렬의 확률 분포에 따라, 상기 문자 행 및 문자 행과 관련된 문자 행에 대해 특징 통합을 진행하여, 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 획득하고;
    제L 계층에 숨겨진 문자 행의 멀티모달 특징, 제L-1 계층에서 출력된 2개의 문자 행 간의 관계 특징 및 제L 계층에 숨겨진 문자 행의 멀티모달 특징의 전치를 곱하며, 상기 다층 퍼셉트론 모델을 통해, 제L 계층에서 출력된 2개의 문자 행 간의 관계 특징을 획득하고;
    단일 게이트 순환 유닛을 이용하여 제L 계층에 숨겨진 문자 행의 멀티모달 특징을 상기 제L-1 계층에서 출력된 문자 행의 멀티모달 특징으로 업데이트하여, 제L 계층에서 출력된 문자 행의 멀티모달 특징을 획득하도록 구성되는 문자 구조화 추출 장치.
  21. 제20항에 있어서,
    L=N일 경우, 제L 계층에서 상기 문자 행의 타입 및 관계 확률 행렬을 출력하는 문자 구조화 추출 장치.
  22. 제13항에 있어서,
    상기 구축 모듈은,
    상기 문자 행을 순회하여, i 번째 문자 행의 타입을 결정하도록 구성되는 순회 서브 모듈 - i는 양의 정수임 -;
    상기 문자 행의 관계 확률 행렬의 i 번째 행으로부터 기 설정된 임계값보다 큰 원소 집합을 추출하고, 원소 아래 첨자를 통해 문자 행 관계 집합 후보를 조회하도록 구성되는 조회 서브 모듈;
    상기 문자 행 관계 집합 후보로부터 필드 관계 또는 테이블 관계에 속하는 관계 집합을 선별하도록 구성되는 선별 서브 모듈;
    i 번째 문자 행에 한 세트 이상의 관계가 존재할 경우, 문자 행의 타입에 기반하여 새 관계 집합을 추출하도록 구성되는 획득 서브 모듈; 및
    상기 새 관계 집합 중의 필드 관계와 테이블 관계의 매핑을 통해, i 번째 문자 행의 위치 및 콘텐츠를 결합하여, i 번째 문자 행의 필드 및 테이블의 구조화된 정보를 출력하도록 구성되는 매핑 서브 모듈을 포함하는 문자 구조화 추출 장치.
  23. 제22항에 있어서,
    상기 획득 서브 모듈은 또한,
    i 번째 문자 행이 필드의 속성, 필드의 값 및 테이블의 유닛의 세 집합의 합집합에 속할 경우, 상기 문자 행의 관계 확률 행렬의 i 번째 행에서 확률값이 가장 큰 원소에 대응되는 문자 행을 선택하여, i 번째 문자 행과의 대응 관계를 나타내고;
    i 번째 문자 행이 테이블의 헤더에 속할 경우, 관계 집합의 모든 원소에 대응되는 문자 행을 유지하여, i 번째 문자 행과의 대응 관계를 나타내며;
    상기 대응 관계에 기반하여, 상기 새 관계 집합을 생성하도록 구성되는 문자 구조화 추출 장치.
  24. 제13항 내지 제23항 중 어느 한 항에 있어서,
    문자 행의 타입은 필드의 속성, 필드의 값, 테이블의 헤더 및 테이블의 유닛 중 적어도 하나를 포함하고, 필드의 속성과 값은 필드 대응 관계를 나타내며, 테이블의 헤더와 유닛은 테이블 대응 관계를 나타내고, 문자 행은 무방향 그래프의 정점을 나타내며, 필드 대응 관계 및 테이블 대응 관계는 무방향 그래프의 가장자리를 나타내고, 관계 확률 행렬은 무방향 그래프의 가장자리 구조에 기반하여, 대응되는 정점 사이에 관계가 존재하는지 여부를 나타내는 문자 구조화 추출 장치.
  25. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하고,
    상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제12항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 전자 기기.
  26. 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제12항 중 어느 한 항에 따른 방법을 수행하도록 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
  27. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제12항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램.
KR1020210029549A 2020-09-29 2021-03-05 문자 구조화 추출 방법, 장치, 기기 및 저장 매체 KR102610518B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011049097.7 2020-09-29
CN202011049097.7A CN112001368A (zh) 2020-09-29 2020-09-29 文字结构化提取方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
KR20220043824A true KR20220043824A (ko) 2022-04-05
KR102610518B1 KR102610518B1 (ko) 2023-12-05

Family

ID=73475005

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210029549A KR102610518B1 (ko) 2020-09-29 2021-03-05 문자 구조화 추출 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210201182A1 (ko)
EP (1) EP3839818A3 (ko)
JP (1) JP7335907B2 (ko)
KR (1) KR102610518B1 (ko)
CN (1) CN112001368A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024043602A1 (ko) * 2022-08-26 2024-02-29 삼성전자 주식회사 이미지로부터 텍스트를 획득하는 방법 및 서버

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403488B2 (en) * 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout
CN112699234A (zh) * 2020-12-08 2021-04-23 上海深杳智能科技有限公司 一种通用文档识别方法、***、终端及存储介质
CN113553892A (zh) * 2020-12-31 2021-10-26 内蒙古卫数数据科技有限公司 一种基于深度学习和ocr的检验、体检报告单结果提取方法
CN112949415B (zh) * 2021-02-04 2023-03-24 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112966522B (zh) * 2021-03-03 2022-10-14 北京百度网讯科技有限公司 一种图像分类方法、装置、电子设备及存储介质
CN113033534B (zh) * 2021-03-10 2023-07-25 北京百度网讯科技有限公司 建立票据类型识别模型与识别票据类型的方法、装置
CN113205041B (zh) * 2021-04-29 2023-07-28 百度在线网络技术(北京)有限公司 结构化信息提取方法、装置、设备和存储介质
CN113297975B (zh) * 2021-05-25 2024-03-26 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113326766B (zh) * 2021-05-27 2023-09-29 北京百度网讯科技有限公司 文本检测模型的训练方法及装置、文本检测方法及装置
CN113343982B (zh) * 2021-06-16 2023-07-25 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113435331B (zh) * 2021-06-28 2023-06-09 平安科技(深圳)有限公司 图像文字识别方法、***、电子设备及存储介质
CN113568965A (zh) * 2021-07-29 2021-10-29 上海浦东发展银行股份有限公司 一种结构化信息的提取方法、装置、电子设备及存储介质
CN113779934B (zh) * 2021-08-13 2024-04-26 远光软件股份有限公司 多模态信息提取方法、装置、设备及计算机可读存储介质
CN113657274B (zh) * 2021-08-17 2022-09-20 北京百度网讯科技有限公司 表格生成方法、装置、电子设备及存储介质
CN113641746B (zh) * 2021-08-20 2024-02-20 科大讯飞股份有限公司 文档结构化方法、装置、电子设备和存储介质
CN113849577A (zh) * 2021-09-27 2021-12-28 联想(北京)有限公司 数据增强方法及装置
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法
CN114092949A (zh) * 2021-11-23 2022-02-25 支付宝(杭州)信息技术有限公司 类别预测模型的训练、界面元素类别的识别方法及装置
CN114239598A (zh) * 2021-12-17 2022-03-25 上海高德威智能交通***有限公司 文本元素阅读顺序确定方法、装置、电子设备及存储介质
WO2023128348A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법
CN114299522B (zh) * 2022-01-10 2023-08-29 北京百度网讯科技有限公司 图像识别方法装置、设备和存储介质
CN114419304A (zh) * 2022-01-18 2022-04-29 深圳前海环融联易信息科技服务有限公司 一种基于图神经网络的多模态文档信息抽取方法
CN114417875A (zh) * 2022-01-25 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、可读存储介质及程序产品
CN114443916B (zh) * 2022-01-25 2024-02-06 中国人民解放军国防科技大学 一种面向试验数据的供需匹配方法及***
CN114821622B (zh) * 2022-03-10 2023-07-21 北京百度网讯科技有限公司 文本抽取方法、文本抽取模型训练方法、装置及设备
CN114332872B (zh) * 2022-03-14 2022-05-24 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN114820211B (zh) * 2022-04-26 2024-06-14 中国平安人寿保险股份有限公司 理赔资料质检核验方法、装置、计算机设备及存储介质
CN116266259A (zh) * 2022-06-22 2023-06-20 中移(苏州)软件技术有限公司 图像文字结构化输出方法、装置、电子设备和存储介质
CN115270718B (zh) * 2022-07-26 2023-10-10 中国医学科学院阜外医院 一种疾病编码的自动编目方法及***
CN115270645B (zh) * 2022-09-30 2022-12-27 南昌工程学院 一种基于ernie-dpcnn模型的设计方法及***
CN115545671B (zh) * 2022-11-02 2023-10-03 广州明动软件股份有限公司 一种法律法规结构化处理的方法、***
CN116071740B (zh) * 2023-03-06 2023-07-04 深圳前海环融联易信息科技服务有限公司 ***识别方法、计算机设备及存储介质
CN117351324B (zh) * 2023-12-04 2024-03-01 支付宝(杭州)信息技术有限公司 通过神经网络模型进行文档图像处理的方法及装置
CN117831056A (zh) * 2023-12-29 2024-04-05 广电运通集团股份有限公司 票据信息提取方法、装置及票据信息提取***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190123790A (ko) 2017-03-22 2019-11-01 드릴링 인포 인코포레이티드 전자 문서로부터 데이터 추출
CN111709339A (zh) * 2020-06-09 2020-09-25 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504781B (zh) * 2009-03-10 2011-02-09 广州广电运通金融电子股份有限公司 有价文件识别方法及装置
JP6080580B2 (ja) * 2013-02-07 2017-02-15 三菱電機株式会社 パターン認識装置
US10430455B2 (en) * 2017-06-09 2019-10-01 Adobe Inc. Sketch and style based image retrieval
CN108614898B (zh) * 2018-05-10 2021-06-25 爱因互动科技发展(北京)有限公司 文档解析方法与装置
JP2019215647A (ja) * 2018-06-12 2019-12-19 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム。
CN109711464B (zh) * 2018-12-25 2022-09-27 中山大学 基于层次化特征关系图构建的图像描述方法
CN110046355B (zh) * 2019-04-25 2023-02-24 讯飞智元信息科技有限公司 一种标题段落检测方法及装置
CN110321918A (zh) * 2019-04-28 2019-10-11 厦门大学 基于微博的舆论机器人***情感分析和图像标注的方法
CN110209721A (zh) * 2019-06-04 2019-09-06 南方科技大学 判决文书调取方法、装置、服务器及存储介质
CN110609891B (zh) * 2019-09-18 2021-06-08 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
US11403488B2 (en) * 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout
CN111598093B (zh) * 2020-05-25 2024-05-14 深圳前海微众银行股份有限公司 图片中文字的结构化信息生成方法、装置、设备及介质
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190123790A (ko) 2017-03-22 2019-11-01 드릴링 인포 인코포레이티드 전자 문서로부터 데이터 추출
CN111709339A (zh) * 2020-06-09 2020-09-25 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024043602A1 (ko) * 2022-08-26 2024-02-29 삼성전자 주식회사 이미지로부터 텍스트를 획득하는 방법 및 서버

Also Published As

Publication number Publication date
KR102610518B1 (ko) 2023-12-05
JP7335907B2 (ja) 2023-08-30
JP2022056316A (ja) 2022-04-08
US20210201182A1 (en) 2021-07-01
CN112001368A (zh) 2020-11-27
EP3839818A2 (en) 2021-06-23
EP3839818A3 (en) 2021-10-06

Similar Documents

Publication Publication Date Title
KR102610518B1 (ko) 문자 구조화 추출 방법, 장치, 기기 및 저장 매체
US11854246B2 (en) Method, apparatus, device and storage medium for recognizing bill image
US11836996B2 (en) Method and apparatus for recognizing text
US20210264190A1 (en) Image questioning and answering method, apparatus, device and storage medium
US11847164B2 (en) Method, electronic device and storage medium for generating information
US11887388B2 (en) Object pose obtaining method, and electronic device
WO2022257578A1 (zh) 用于识别文本的方法和装置
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
US11893708B2 (en) Image processing method and apparatus, device, and storage medium
US20210209401A1 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US11610389B2 (en) Method and apparatus for positioning key point, device, and storage medium
EP4016477A1 (en) Method and apparatus for character recognition, electronic device, and storage medium
US11921276B2 (en) Method and apparatus for evaluating image relative definition, device and medium
WO2023020176A1 (zh) 图像识别方法和装置
CN114566233A (zh) 分子筛选的方法、装置、电子设备及存储介质
US20210312173A1 (en) Method, apparatus and device for recognizing bill and storage medium
US20220351495A1 (en) Method for matching image feature point, electronic device and storage medium
CN111507265B (zh) 表格关键点检测模型训练方法、装置、设备以及存储介质
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach
CN116244447A (zh) 多模态图谱构建、信息处理方法、装置、电子设备及介质
CN115761036A (zh) 基于多视图信息融合的教育领域图像场景图生成方法
CN116152819A (zh) 文本关系检测、模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant