KR102612295B1

KR102612295B1 - 어음 이미지 인식 방법, 장치, 기기 및 저장 매체

Info

Publication number: KR102612295B1
Application number: KR1020210032197A
Authority: KR
Inventors: 유린 리; 주 후앙; 시아멩 친; 준유 한
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-06-09
Filing date: 2021-03-11
Publication date: 2023-12-12
Also published as: CN111709339A; US20210383107A1; JP2021197154A; EP3836016A1; CN111709339B; US11854246B2; JP7230081B2; KR20210152931A

Abstract

본 출원은 어음 이미지 인식 방법, 장치, 기기 및 저장 매체를 개시하며, 이는 인공 지능 딥 러닝 및 이미지 처리 분야에 관한 것이다. 구체적인 구현 방안은, 어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정하고, 상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하고, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라 상기 어음 이미지의 구조화 어음 데이터를 추출한다. 본 출원의 실시예의 방안은, 여러가지 상이한 버전의 어음 이미지를 자동으로 인식하는 것을 지지하고, 인식 과정에 템플릿의 도움이 필요하지 않아, 어음 이미지 인식의 범용성 및 정확성을 향상시킬 수 있다.

Description

어음 이미지 인식 방법, 장치, 기기 및 저장 매체{BILL IMAGE RECOGNITION METHOD, DEVICE, APPARATUS, AND STORAGE MEDIUM}

본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 특히 인공 지능 딥 러닝 및 이미지 처리 분야에 관한 것이다.

어음（BILL）은 중요한 구조화 정보의 텍스트 매체로서, 각종의 상업화 정경에 광범위하게 적용되고, 관련 부서에서 어음에 대해 심의를 진행할 경우, 통상적으로 그중에 기재된 정보에 대해 인위적인 심의를 진행하여야 하므로, 비용이 높고 효율이 낮으며, 인공 지능 기술이 발전됨에 따라, 어음 이미지를 자동으로 인식하여 어음 정보를 추출하는 기술들이 점차적으로 나타나고 있다. 현재에, 기존의 기술은 통상적으로 템플릿 매칭의 방식을 기반으로 어음의 고정 위치에서 어음 정보를 추출하는 것이다. 그러나, 어음의 판식이 일치하지 않고 구조가 서로 상이하여, 각 판식의 어음에 대해 모두 한가지 템플릿으로 유지시키는 것을 실현하기 어려우며, 확장성과 범용성이 상대적으로 낮아, 어음 정보 추출의 정확성에 영향을 미치게 된다.

어음 이미지 인식 방법, 장치, 기기 및 저장 매체를 제공한다.

제1 양태에 의하면, 어음 이미지 인식 방법을 제공하며, 해당 방법은, 어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정하는 단계와, 상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 단계와, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라 상기 어음 이미지의 구조화 어음 데이터를 추출하는 단계를 포함한다.

제2 양태에 의하면, 어음 이미지 인식 장치를 제공하며, 해당 장치는, 어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정하도록 구성되는 텍스트 검출 모듈과, 상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 정보 추리 모듈과, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라 상기 어음 이미지의 구조화 어음 데이터를 추출하도록 구성되는 어음 데이터 추출 모듈을 포함한다.

제3 양태에 의하면, 전자 기기를 제공하며, 해당 전자 기기는, 적어도 하나의 프로세서와, 상기 적어도 하나의 프로세서와 통신 연결되는 메모리 장치를 포함하되, 상기 메모리 장치에 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 본 출원의 임의의 일 실시예의 어음 이미지 인식 방법을 수행할 수 있도록 한다.

제4 양태에 의하면, 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능한 저장 매체를 제공한다. 상기 컴퓨터 명령은 상기 컴퓨터가 본 출원의 임의의 일 실시예의 어음 이미지 인식 방법을 수행하도록 한다.

본 출원의 실시예에 따른 기술은, 기존의 기술이 고정된 템플릿을 기반으로 어음 이미지 인식을 진행하여, 확장성과 범용성이 상대적으로 낮아, 인식 정확성이 상대적으로 낮은 문제점을 해결한다.

본 부분에 설명된 내용은 본 개시의 실시예의 관건적인 또는 중요한 특징을 표식하기 위한 것이 아니며, 본 개시의 범위를 한정하기 위한 것도 아니다. 본 개시의 기타의 특징은 아래의 명세서를 통해 용이하게 이해할 수 있을 것이다.

첨부된 도면은 당해 방안을 보다 잘 이해시키기 위한 것이며, 본 출원에 대한 한정을 구성하지 않는다.
도 1a는 본 출원의 실시예에 따라 제공하는 일 어음 이미지 인식 방법의 흐름도이다.
도 1b 내지 도 1c는 본 출원의 실시예에 따라 제공하는 어음 인식의 시각적 효과의 개략도이다.
도 2는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이다.
도 3a는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이다.
도 3b는 본 출원의 실시예에 따라 제공하는 일 특징 인식 네트워크의 작업 원리의 개략도이다.
도 4a는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이다.
도 4b는 본 출원의 실시예에 따라 제공하는 일 서브 예측 네트워크의 작업 원리의 개략도이다.
도 5는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이다.
도 6은 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이다.
도 7은 본 출원의 실시예에 따라 제공하는 일 어음 이미지 인식 장치의 구조의 개략도이다.
도 8은 본 출원의 실시예의 어음 이미지 인식 방법을 구현하기 위한 전자 기기의 블록도이다.

아래에 첨부된 도면을 결부하여 본 출원의 시범적인 실시예에 대해 설명을 진행하되, 이해를 돕기 위해 본 출원의 실시예의 각종의 세부 사항을 포함하며, 이는 단지 시범적인 것으로 시인되어야 한다. 따라서, 본 출원의 범위 및 사상을 위배하지 않고서, 여기서 설명되는 실시예에 대해 각종의 변화 및 수정을 진행할 수 있음을 당해 기술분야에서 통상의 지식을 가진 자는 자명할 것이다. 마찬가지로, 명확하고 간결함을 위하여, 공지의 기능 및 구조에 대한 설명은 아래의 설명으로부터 생략된다.

도 1a는 본 출원의 실시예에 따라 제공하는 일 어음 이미지 인식 방법의 흐름도이고, 도 1b 내지 도 1c는 본 출원의 실시예에 따라 제공하는 어음 인식의 시각적 효과의 개략도이고, 본 실시예는 어음 이미지에 대해 인식을 진행하는 경우에 적용되고, 특히는 여러가지 판식이 고정되지 않은 어음 이미지에 대해 인식을 진행하는 경우에 적용된다. 해당 실시예는 전자 기기에 배치된 어음 이미지 인식 장치에 의해 수행될 수 있으며, 해당 장치는 소프트웨어 및/또는 하드웨어를 이용하여 구현될 수 있다. 도 1a 내지 도 1c에 도시된 바와 같이, 해당 방법은 아래와 같은 단계들을 포함한다.

단계(S101)에서, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정한다.

여기서, 본 출원의 실시예 중의 어음은 일정한 판식에 따라 결제 금액이 적혀진 증명서로서, 이는 송장, 입금 영수증, 환어음, 수표 등일 수 있다. 텍스트 박스는 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지에서 텍스트 문자열이 표식되는 박스일 수 있다. 예를 들어, 도 1b는 어음 이미지에 대해 텍스트 검출을 진행하여 표식된 텍스트 박스의 시각적 효과의 개략도를 나타내며, 여기서, 텍스트 문자열을 둘러 선택하기 위한 각 박스는 모두 어음 이미지 중의 텍스트 박스에 해당된다. 본 출원의 실시예는 바람직하게 어음 이미지에 다수의 텍스트 박스가 존재할 때 다수의 텍스트 박스 사이의 구조 관계를 추리하여 구조화된 어음 데이터를 추출하는 경우에 이용되는 것을 설명하고자 한다.

선택적으로, 텍스트 박스의 속성 정보 집합은 어음 이미지 중의 각 텍스트 박스 내의 텍스트 문자열 자체의 속성의 관련 정보를 나타내도록 이용될 수 있으며, 텍스트 박스의 위치 좌표, 이미지 영역 및 텍스트 내용을 포함할 수 있으나, 이에 한정되지 않는다. 여기서, 텍스트 박스의 위치 좌표는 텍스트 박스의 네 개의 각 점의 위치 좌표일 수 있다. 이미지 영역은 어음 이미지 상에서 각 텍스트 박스에 대응되는 영역일 수 있다. 텍스트 내용은 텍스트 박스에 의해 둘러져 선택되는 텍스트 문자열의 내용일 수 있다. 텍스트 박스의 관계 정보 집합은 어음 이미지 중의 상이한 텍스트 박스 사이의 상호 관계를 나타내기 위한 정보일 수 있으며, 이는 각 텍스트 박스와 기타 텍스트 박스 사이의 위치 좌표 차이값, 중심점 각도 차이값 및 중심점 유클리드 거리를 포함할 수 있으나, 이에 한정되지 않는다.

선택적으로, 본 출원의 실시예는, 광학 문자 인식(Optical Character Recognition, OCR) 기술과 같은 텍스트 검출 기술을 이용하여 걸출을 진행하여, 먼저 어음 이미지 중의 각 텍스트 박스의 속성 정보 집합을 확정하고, 이어서 다시 각 텍스트 박스의 속성 정보 집합에 따라 각 텍스트 박스와 기타 텍스트 박스 사이의 관계 정보 집합을 확정할 수 있다.

구체적으로, 텍스트 검출 기술을 이용하여 어음 이미지 중의 각 텍스트 박스의 속성 정보 집합을 확정할 경우, 기정의 알고리즘에 따라 구현할 수 있다. 예를 들어, 먼저 텍스트 영역 검출 알고리즘을 통해 어음 이미지 중의 각 텍스트 문자열의 위치를 표식하여, 적어도 두 개의 텍스트 박스를 획득하고, 이어서 각 텍스트 박스의 네 개의 각 점의 좌표를 해당 텍스트 박스의 위치 좌표로 이용하며, 어음 이미지에서 텍스트 박스 영역에 대응되는 이미지를 절취하여 해당 텍스트 박스의 이미지 영역으로 이용하고, 문자 내용 검출 알고리즘을 통해 텍스트 박스 중의 텍스트 내용을 인식할 수 있다. 사전에 트레이닝된 신경망 모델을 기반으로 구현될 수도 있으며, 예를 들어, 어음 이미지를 사전에 트레이닝된 대상 문자 검출 모델(예컨대, EAST 모델)에 입력하되, 해당 대상 문자 검출 모델은 딥 러닝 알고리즘을 기반으로 텍스트 박스를 통해 어음 이미지 중의 각 텍스트 문자열의 위치를 표식하여, 텍스트 박스의 네 개의 각 점 좌표를 출력하고, 시계 방향으로 순서 배열을 진행하여, 모든 텍스트 박스 집합P={p_i; i∈N^*}을 획득할 수 있다. 여기서, 제i 텍스트 박스 p_i={x_n, y_n; n∈(1,4)}이다. 이어서, 각 텍스트 박스의 위치 좌표를 기반으로, 어음 이미지에서 텍스트 박스가 위치하는 영역의 이미지 섹션을 절취하여 이미지 영역 I_i으로 이용한다. 마지막으로, 각 이미지 영역을 사전에 트레이닝된 텍스트 내용 인식 모델(예컨대, 컨볼루션 신경망 CRNN 모델)에 입력하되, 해당 텍스트 내용 인식 모델은 딥 러닝 알고리즘을 기반으로 이미지 영역 중의 문자 내용c_i을 예측하며, 즉, 각 텍스트 박스의 속성 정보 집합은 (p_i, I_i, c_i)이다.

선택적으로, 본 출원의 실시예는, 아래와 같은 공식(1) 내지 공식(3)에 따라, 각 텍스트 박스의 속성 정보 집합에 따라 각 텍스트 박스와 기타 각 텍스트 박스 사이의 관계 정보 집합(d_ij, r_ij, u_ij)을 확정할 수 있다.

d_ij = p_i - p_j(1)

r_ij = rot(p_i, p_j) (2)

u_ij = Euclidean(p_i, p_j) (3)

여기서, p_i는 제i 텍스트 박스의 위치 좌표이고, p_j는 제j 텍스트 박스의 위치 좌표이고, d_ij는 제i 텍스트 박스와 제j 텍스트 박스의 네 개의 각 점의 위치 좌표 차이값이고, r_ij는 제i 텍스트 박스와 제j 텍스트 박스 사이의 중심점 각도 차이값이며, r_ij∈［-π,π］이고, rot()는 각도 차이 산출 알고리즘이고, u_ij는 제i 텍스트 박스와 제j 텍스트 박스 사이의 중심점 유클리드 거리이고, Euclidean()는 유클리드 거리 산출 함수이다.

단계(S102)에서, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

여기서, 본 출원의 실시예는 어음 구조를 사전에 정의할 수 있으며, 즉, 텍스트 박스의 유형을 텍스트 박스 중의 텍스트 문자열의 유형으로 정의하며, 이는 필드 속성 유형 K, 필드 값 유형 V, 테이블 헤더 유형 H 또는 테이블 유닛 유형C를 포함할 수 있다. 필드 속성 유형 K과 상기 필드 값 유형 V의 텍스트 박스에는 필드 구조 관계 R가 존재하고, 상기 테이블 헤더 유형 H과 테이블 유닛 유형C의 텍스트 박스에는 테이블 구조 관계 M가 존재한다. 이러한 정의를 기반으로, 본 출원의 실시예는 어음 이미지를 위해 하나의 무향 그래프 G=(Y, E)를 정의할 수 있으며, 여기서, 각 텍스트 박스는 무향 그래프 중의 하나의 정점 Y을 대표하고, 해당 텍스트 박스의 유형은 K, V, H, V 또는 C 중의 하나에 해당되고, 무향 그래프 중의 두 개의 정점(Y_i 및 Y_j)에 구조 관계가 존재하면, 예컨대, Y_i및 Y_j의 유형은 K 및 V이거나, 또는 H 및 C이며, 이러할 경우, 양자의 대응되는 변E은 필드 구조 관계 R 또는 테이블 구조 관계 M에 해당된다. 무향 그래프를 기반으로 (Y_i,Y_j)=(Y_j,Y_i)를 정의하고, 무향 그래프의 쌍쌍으로 상이한 정점 Y_i 및 Y_j(즉, 쌍쌍으로 상이한 텍스트 박스)에 대해 관련 확률 A_ij을 산출할 수 있으며, 여기서, A_ij∈{0, 1}이고, A_ij=1일 경우, 두 개의 정점 Y_i 및 Y_j에 구조 관계가 존재하는 것을 표시하고, A_ij=0일 경우, 두 개의 정점 Y_i 및 Y_j에 구조 관계가 존재하지 않는 것을 표시한다. G가 무향 그래프이므로, 하나의 어음 이미지 중의 각 텍스트 박스를 기반으로 설명하면, 쌍쌍으로 상이한 텍스트 박스 사이의 관계 확률은 2 차원 확률 행렬을 통해 표시할 수 있으며, 해당 2 차원 확률 행렬은 대칭 행렬이며, 즉 하기와 같다.

선택적으로, 본 출원의 실시예는, 상술한 정의된 어음 구조를 기반으로, 어음 이미지 중의 각 텍스트 박스의 속성 정보 집합 및 해당 텍스트 박스와 기타 텍스트 박스의 관계 정보 집합에 따라 해당 텍스트 박스가 상술한 정의된 K, V, H, C 중의 어느 유형에 해당되는 지 및 해당 텍스트 박스와 테이블 구조 관계 또는 필드 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

구체적인 구현 과정은, 기정의 추리 알고리즘을 기반으로 각 텍스트 박스의 속성 정보 집합 및 해당 텍스트 박스와 기타 텍스트 박스의 관계 정보 집합에 대해 분석을 진행하여, 해당 텍스트 박스의 유형을 추리하고, 어음 이미지 중의 해당 텍스트 박스와 테이블 구조 관계 또는 필드 구조 관계가 존재하는 관련 텍스트 박스를 추리할 수 있다. 어음 이미지 중의 각 텍스트 박스의 속성 정보 집합 및 각 텍스트 박스와 기타 텍스트 박스의 관계 정보 집합을 사전에 트레이닝된 추리 모델에 입력할 수도 있으며, 추리 모델은 딥 러닝 알고리즘을 기반으로 속성 정보 집합 및 관계 정보 집합에 대해 분석을 진행하여, 각 텍스트 박스의 유형 및 각 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 출력한다.

예시적으로, 도 1c은 어음 이미지 중의 텍스트 박스 유형 및 구조 관계에 대해 추리한 후 표식되는 시각적 효과도를 나타낸다. 도면에서, 직각 실선 박스에 대응되는 텍스트 박스 유형은 필드 속성 유형 K이고, 직각 점선 박스에 대응되는 텍스트 박스 유형은 필드 값 유형 V이고, 라운드 코너 직선 박스에 대응되는 텍스트 박스 유형은 테이블 헤더 유형 H이고, 라운드 코너 점선 박스에 대응되는 텍스트 박스 유형은 테이블 유닛 유형 C이다. 여기서, 각 텍스트 박스에 있어서, 이와 관련 텍스트 박스 사이는 직선을 통해 연결되며, 예를 들어, 필드 구조 관계가 존재하는 필드 속성 유형의 "이름" 텍스트 박스와 필드 값 유형의 "장모모" 텍스트 박스는 연결되고, 테이블 헤더 유형의 "요금 항목" 텍스트 박스와 테이블 유닛 유형의 "서양약 비용" 텍스트 박스는 연결된다.

필드 구조 관계에 대해, 하나의 필드 속성 유형의 텍스트 박스는 하나의 필드 값 유형의 텍스트 박스에 대응되고, 테이블 구조 관계에 대해, 하나의 테이블 헤더 속성 유형의 텍스트 박스는 적어도 하나의 테이블 유닛 유형의 텍스트 박스에 대응될 수 있으나, 하나의 테이블 유닛 유형의 텍스트 박스는 단지 하나의 테이블 헤더 유형의 텍스트 박스에 대응되는 것을 설명하고자 한다. 본 출원의 실시예의 방안은, 추리 방식을 통해 각 텍스트 박스의 유형 및 텍스트 박스 사이의 구조 관계를 확정하고, 기존의 기술에 비해, 템플릿을 기반으로 고정된 위치에서 어음 데이터를 추출하는 방안은, 어음 데이터에 프린트 위치 오류가 존재할 경우에도 텍스트 박스 사이의 구조 관계를 정확하게 확정할 수 있으며, 예를 들어, 도 1c에 도시된 바와 같이, 어음 데이터에 프린트 위치 오류가 존재할 경우에도 "수금인"과 "92974"에 대해 양자 사이에 필드 구조 관계가 존재하는 것을 정확하게 표식할 수 있다.

단계(S103)에서, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라, 어음 이미지의 구조화 어음 데이터를 추출한다.

선택적으로, 상술한 단계(S102)의 조작을 경유하여, 어음 이미지에서 각 텍스트 박스의 유형 및 각 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 획득할 수 있다. 이때, 각 그룹의 구조 관계가 존재하는 두 개의 텍스트 박스 중의 텍스트 내용을 일 그룹의 구조화 어음 데이터로 추출할 수 있다. 예시적으로, 도 1c에 도시된 바와 같이, 그중의 각 실선 직각 박스와 이에 연결되는 점선 직각 박스 중의 내용을 일 그룹의 필드 구조 어음 데이터로 이용하고, 예컨대 "업무 일련 번호"와 "2540000"는 즉 한 그룹의 필드 구조 어음 데이터이고, "업무 일련 번호"는 필드 속성 유형이고, "2540000"는 필드 값 유형이며, 각 실선 라운드 코너 박스와 이에 연결되는 점선 라운드 코너 박스 중의 내용을 일 그룹의 테이블 구조 어음 데이터로 이용하고, 예컨대 "요금 항목"과 "서양약 비용"은 즉 일 그룹의 테이블 구조 어음 데이터이고, "요금 항목"은 테이블 헤더 유형이고, "서양약 비용"은 테이블 유닛 유형이다.

본 출원의 실시예의 기술적 방안은, 어음 이미지에서 각 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 검출하여, 각 텍스트 박스의 유형 및 각 텍스트 박스와 관련 관계가 존재하는 관련 텍스트 박스를 추리함으로써, 어음 이미지에서 구조화 어음 데이터를 추출한다. 본 출원의 방안은 템플릿 위치 매칭 방식을 통하지 않고서도 어음 이미지에서 필드 구조 관계 및 테이블 구조 관계가 존재하는 구조화 어음 데이터를 정확하게 추리할 수 있다. 어음 판식의 제한을 받지 않고, 여러가지 상이한 버전의 어음 이미지를 자동으로 인식하는 것을 지지하고, 인식 과정에 템플릿의 도움이 필요하지 않아, 어음 이미지 인식의 범용성 및 정확성을 향상시킬 수 있다.

도 2는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이고, 본 실시예는 상술한 실시예를 기초로 진일보로 최적화를 진행하여, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 구체적인 경우에 대한 소개를 제공한다. 도 2에 도시된 바와 같이, 해당 방법은 아래와 같은 단계들을 포함한다.

단계(S201)에서, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정한다.

단계(S202)에서, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정한다.

여기서, 본 출원의 실시예에 있어서, 텍스트 박스의 속성 특징 집합은 텍스트 박스의 속성 정보에서 추출된 텍스트 박스 속성 정보를 나타내기 위한 관련 특징일 수 있다. 마찬가지로, 텍스트 박스의 관계 특징은 텍스트 박스의 관계 정보 집합에서 추출된 텍스트 박스 관계 정보를 나타내기 위한 관련 특징일 수 있다.

선택적으로, 본 출원의 실시예에 있어서, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정할 경우, 기정의 특징 추출 알고리즘을 기반으로 어음 이미지 중의 모든 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 대해 분석을 진행하여, 이로부터 각 텍스트 박스 속성을 나타낼 수 있는 속성 특징 집합 및 텍스트 박스 관계를 표식하는 관계 특징 집합을 추출할 수 있다. 단계(S201)에서 확정한 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 사전에 트레이닝된 추리 모델의 특징 추출 네트워크에 입력할 수도 있으며, 해당 특징 추출 네트워크는 딥 러닝 알고리즘을 기반으로 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 대해 분석을 진행하여, 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 출력한다.

단계(S203)에서, 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정한다.

여기서, 본 출원의 실시예에 있어서, 텍스트 박스의 유형 확률은 텍스트 박스가 사전에 정의된 필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 및 테이블 유닛 유형에 해당되는 확률일 수 있다. 상이한 텍스트 박스 사이의 관계 확률은 쌍쌍으로 상이한 텍스트 사이에 구조 관계가 존재하는 확률일 수 있으며, 해당 구조 관계는 필드 구조 관계일 수 있으며, 테이블 구조 관계일 수도 있다. 선택적으로, 본 출원의 실시예에 있어서, 확정된 상이한 텍스트 박스 사이의 관계 확률은, 상이한 텍스트 박스 사이에 관계가 존재하는 지 예측하되, 어떠한 구조 관계가 존재하는 지 구체적으로 예측하지 않을 수 있다.

선택적으로, 본 출원의 실시예에 있어서, 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라 텍스트 박스의 유형 확률을 확정할 경우, 사전에 설정된 유형 확률 예측 알고리즘을 기반으로 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 대해 분석을 진행하여, 각 텍스트 박스가 각각 정의된 네 가지 유형(즉, 필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 및 테이블 유닛 유형)에 해당되는 확률을 예측할 수 있다. 사전에 설정된 구조 관계 예측 알고리즘을 기반으로 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 대해 분석을 진행하여, 어음 이미지 중의 쌍쌍으로 상이한 텍스트 박스에 구조 관계가 존재하는 확률값을 예측한다. 단계(S202)에서 확정된 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 사전에 트레이닝된 추리 모델의 확률 예측 네트워크에 입력할 수도 있으며, 해당 확률 예측 네트워크는 딥 러닝 알고리즘을 기반으로 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 대해 분석을 진행하여, 어음 이미지 중의 각 텍스트 박스가 각각 정의된 네 가지 유형에 해당되는 확률 및 그중의 쌍쌍으로 상이한 텍스트 박스에 구조 관계가 존재하는 확률값을 출력한다. 본 출원의 실시예는 대량의 샘플 데이터로 트레이닝된 확률 예측 네트워크를 통해 본 단계의 조작을 수행하여, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정하는 정확성을 향상시킬 수 있다.

단계(S204)에서, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

선택적으로, 본 출원의 실시예는 텍스트 박스의 유형 확률에 따라 텍스트 박스의 유형을 확정할 수 있다. 구체적으로, 단계(S203)에서 이미 어음 이미지 중의 각 텍스트 박스가 정의된 네 가지 유형에 해당되는 확률을 예측하였으며, 이때, 각 텍스트 박스를 상대로, 이가 네 가지 유형에 해당되는 확률에서 최고의 확률에 대응되는 유형을 해당 텍스트 박스의 유형으로 이용할 수 있다. 예를 들어, 임의의 텍스트 박스가 필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 및 테이블 유닛 유형에 해당되는 확률이 각각 0.1, 0.05, 0.08 및 0.77이면, 해당 텍스트 박스의 유형을 테이블 유닛 유형으로 확정할 수 있다.

선택적으로, 본 출원의 실시예는, 각 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정할 경우, 상이한 텍스트 박스 사이의 관계 확률 및 확률 임계값에 따라, 구조 관계가 존재하는 후보 텍스트 박스 쌍을 확정하고, 상기 후보 텍스트 박스 쌍 및 상기 텍스트 박스의 유형에 따라, 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정할 수 있다. 구체적으로, 상이한 텍스트 박스 사이의 관계 확률은 상이한 텍스트 박스에 구조 관계가 존재하는 확률을 대표하고, 확률값이 높을 수록, 양자에 구조 관계가 존재하는 가능성이 큰 것을 설명하고, 각 관계 확률이 모두 두 개의 상이한 텍스트 박스에 대응되므로, 본 출원의 실시예는, 텍스트 박스에 구조 관계가 존재하는 지 가늠하는 하나의 관계 확률 임계값(예컨대, 80%)을 사전에 설정하고, 이어서, 단계(S203)에서 예측된 모든 상이한 텍스트 박스 사이의 관계 확률에서 확률 임계값보다 큰 각 관계 확률을 선별하고, 선별된 확률 임계값보다 큰 각 관계 확률에 대응되는 두 개의 텍스트 박스를 일 그룹의 후보 텍스트 박스 쌍으로 이용하고, 이어서 이미 확정된 각 텍스트 박스의 유형을 기반으로 각 후보 텍스트 박스 쌍 중의 두 개의 텍스트 박스의 유형이 테이블 구조 유형 또는 필드 구조 유형에 해당되는 지 판단하고, 해당될 경우, 이러한 두 개의 텍스트 박스를 서로 간의 관련 텍스트 박스로 이용할 수 있다. 예를 들어, 도 1b에 도시된 바와 같이, "이름" 텍스트 박스와 "장모모" 텍스트 박스 사이의 관계 확률을 92%로 가정하고, "이름" 텍스트 박스와 "서양약 비용" 텍스트 박스 사이의 관계 확률을 85%로 가정하며, 92%와 85%는 모두 확률 임계값 80%보다 크므로, 이때, "이름" 텍스트 박스와 "장모모" 텍스트 박스를 일 그룹의 후보 텍스트 박스로 이용할 수 있으며, "이름" 텍스트 박스와 "서양약 비용" 텍스트 박스도 일 그룹의 후보 텍스트 박스로 이용할 수 있으며, "이름" 텍스트 박스의 유형이 필드 속성 유형이고, "장모모" 텍스트 박스의 유형이 필드 값 유형이고, "서양약 비용" 텍스트 박스의 유형이 테이블 유닛 유형이며, 필드 속성 유형과 필드 값 유형이 필드 구조 관계에 대응되므로, "이름" 텍스트 박스의 관련 텍스트 박스를 "장모모" 텍스트 박스로 확정하고, "장모모" 텍스트 박스의 관련 텍스트 박스를 "이름" 텍스트 박스로 확정할 수 있다.

단계(S205)에서, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라, 어음 이미지의 구조화 어음 데이터를 추출한다.

본 출원의 실시예의 기술적 방안은, 어음 이미지에서 각 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 검출하고, 먼저 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 검출하며, 검출된 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 통해 각 텍스트 박스의 유형 확률 및 상이한 텍스트 박스에 구조 관계가 존재하는 관계 확률을 예측함으로써, 유형 확률 및 관계 확률을 기반으로 각 텍스트 박스의 유형 및 각 텍스트 박스와 관련 관계가 존재하는 관련 텍스트 박스를 추출하여, 어음 이미지에서 구조화 어음 데이터를 추출하는 것을 구현한다. 본 출원의 방안은, 각 텍스트 박스 유형 및 이의 관련 텍스트 박스를 추리할 경우, 특징 추출 및 확률 예측 방식을 통해 텍스트 박스 유형 및 관련 텍스트 박스를 추리하여, 텍스트 박스 유형 및 관련 텍스트 박스 확정의 정확성을 향상시킨다. 어음을 정확하게 인식하여, 어음 데이터의 추출을 완료할 수 있도록 확보한다.

도 3a는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이고, 도 3b는 본 출원의 실시예에 따라 제공하는 일 특징 인식 네트워크의 작업 원리의 개략도이다. 본 실시예는 상술한 실시예를 기초로 진일보로 최적화를 진행하여, 상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정하는 구체적인 경우에 대한 소개를 제공한다. 도 3a 내지 도 3b에 도시된 바와 같이, 해당 방법은 아래와 같은 단계들을 포함한다.

단계(S301)에서, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정한다.

단계(S302)에서, 텍스트 박스의 속성 정보 집합 중의 이미지 영역에 따라 텍스트 박스의 시각 특징을 확정한다.

선택적으로, 텍스트 박스의 시각 특징은 텍스트 박스로부터 어음 이미지에서 이미지 영역에 대응되게 검출된 특징이므로, 본 단계는 단계(S301)에서 확정된 각 텍스트 박스의 속성 정보 집합에서 텍스트 박스의 이미지 영역을 추출하고, 이미지 영역에 대해 분석을 진행하여, 텍스트 박스의 시각 특징을 확정할 수 있다.

선택적으로, 본 출원의 실시예가 특징 추출 알고리즘을 기반으로 텍스트 박스의 관련 특징(즉, 속성 특징 집합 및 관계 특징 집합)을 확정하는 것이면, 이때 기정의 이미지 특징 추출 알고리즘을 기반으로 각 텍스트 박스의 이미지 영역에 대해 특징 추출을 진행하여, 각 이미지 영역에 대응되는 시각 특징을 획득할 수 있다. 본 출원의 실시예가 특징 추출 네트워크를 기반으로 텍스트 박스의 관련 특징을 확정하는 것이면, 이때 본 단계는 특징 추출 네트워크 중의 시각 특징 추출 계층을 기반으로 텍스트 박스의 시각 특징을 확정할 수 있다. 구체적으로, 각 텍스트 박스의 속성 정보 집합 중의 이미지 영역을 해당 시각 특징 추출 계층에 입력하여, 각 텍스트 박스의 시각 특징을 획득할 수 있다. 선택적으로, 해당 시각 특징 추출 계층은 적어도 컨볼루션 신경망 계층을 포함한다. 예시적으로, 도 3b에 도시된 바와 같이, 제i 텍스트 박스를 상대로, 이의 속성 정보 집합 중의 이미지 영역 Ii을 특징 추출 네트워크의 컨볼루션 신경망 계층 CNN에 입력하여, 제i 텍스트 박스의 시각 특징 (F_i)_v을 획득할 수 있다.

단계(S303)에서, 텍스트 박스의 속성 정보 집합 중의 텍스트 내용에 따라 텍스트 박스의 시맨틱 특징을 확정한다.

선택적으로, 텍스트 박스의 시맨틱 특징은 텍스트 박스 중의 텍스트 내용에서 검출된 특징이므로, 본 단계는, 단계(S301)에서 확정된 각 텍스트 박스의 속성 정보 집합에서 텍스트 박스의 텍스트 내용을 추출하고, 이어서 텍스트 내용을 텍스트 벡터 시퀀스로 인코딩하고 분석을 진행하여, 텍스트 박스의 시맨틱 특징을 확정할 수 있다. 구체적으로, 본 출원의 실시예에서 텍스트 내용을 텍스트 벡터 시퀀스로 인코딩하는 방식은 여러가지가 있으며, 예를 들어, 자전을 조회하여 텍스트 내용을 텍스트 벡터 시퀀스로 인코딩할 수 있다.

선택적으로, 본 출원의 실시예가 특징 추출 알고리즘을 기반으로 텍스트 박스의 관련 특징(즉, 속성 특징 집합 및 관계 특징 집합)을 확정하는 것이면, 이때 먼저 각 텍스트 박스의 텍스트 내용을 텍스트 벡터 시퀀스로 인코딩한 후, 기정의 텍스트특징 추출 알고리즘을 기반으로 각 텍스트 박스의 텍스트 벡터 시퀀스에 대해 특징 추출을 진행하여, 각 텍스트 박스의 시맨틱 특징을 획득할 수 있다. 본 출원의 실시예가 특징 추출 네트워크를 기반으로 텍스트 박스의 관련 특징을 확정하는 것이면, 이때 본 단계는 특징 추출 네트워크 중의 시맨틱 특징 추출 계층을 기반으로 텍스트 박스의 시맨틱 특징을 확정할 수 있으며, 구체적으로, 각 텍스트 박스의 속성 정보 집합 중의 텍스트 내용을 해당 시맨틱 특징 추출 계층에 입력하여, 각 텍스트 세그먼트의 시맨틱 특징을 획득할 수 있다. 선택적으로, 해당 시맨틱 특징 추출 계층은 적어도 단어 벡터 코딩 계층, 단어 임베딩 네트워크 계층 및 장단기 기억 네트워크 계층을 포함한다. 예시적으로, 도 3b에 도시된 바와 같이, 제i 텍스트 박스를 상대로, 이의 속성 정보 집합 중의 텍스트 내용 c_i을 단어 벡터 코딩 계층의 입력으로 이용하여, 텍스트 단어 벡터 시퀀스를 획득하여 단어 임베딩 네트워크 계층 Word Embedding에 입력하여, 출력 결과를 획득하여 다시 장단기 기억 네트워크 계층 LSTM에 입력하여, 제i 텍스트 박스의 시맨틱 특징 (F_i)_s을 획득할 수 있다.

단계(S304)에서, 시각 특징, 시맨틱 특징 및 속성 정보 집합 중의 위치 좌표를 텍스트 박스의 속성 특징 집합으로 이용한다.

선택적으로, 본 출원의 실시예는, 상술한 단계(S302) 내지 단계(S303)에서 추출된 각 텍스트 박스의 시각 특징과 시맨틱 특징 및 각 텍스트 박스의 속성 정보 집합 중의 위치 좌표를 병합시켜, 각 텍스트 박스의 속성 특징 집합을 획득할 수 있다.

선택적으로, 본 출원의 실시예가 특징 추출 네트워크를 기반으로 텍스트 박스의 관련 특징을 확정하는 것이면, 이때 본 단계는 특징 추출 네트워크 중의 제1 데이터 병합 계층을 기반으로 각 텍스트 박스의 시각 특징, 시맨틱 특징 및 위치 좌표에 대해 병합을 진행하여, 텍스트 박스의 속성 특징 집합을 획득할 수 있다. 예시적으로, 도 3b에 도시된 바와 같이, 제i 텍스트 박스의 시각 특징 (F_i)_v, 시맨틱 특징 (F_i)_s및 제i 텍스트 박스의 위치 좌표 p_i를 데이터 병합 계층1에 입력하고, 데이터 병합 계층1을 통해 입력된 데이터에 대해 병합을 진행하여, 제i 텍스트 박스의 속성 특징 집합 Fi을 획득할 수 있으며, 즉, F_i=(p_i,(F_i)_v,(F_i)_s)이다.

단계(S305)에서, 속성 특징 집합 및 관계 정보 집합에 따라 텍스트 박스의 관계 특징 집합을 확정한다.

선택적으로, 본 출원의 실시예의 텍스트 박스의 관계 특징 집합은 속성 특징 집합 및 관계 정보 집합에 따라 확정된 것이며, 구체적으로, 각 관계 정보 집합에서 이에 대응되는 텍스트 박스의 속성 특징 집합을 추가할 수 있으며, 이로써 텍스트 박스의 관계 특징 집합을 획득할 수 있다. 예를 들어, 제i 텍스트 박스의 속성 특징 집합을 F_i로 가정하고, 제j 텍스트 박스의 속성 특징 집합을 F_j로 가정하고, 제i 텍스트 박스와 제j 텍스트 박스 사이의 관계 정보 집합을 (d_ij,r_ij,u_ij)으로 가정하면, 제i 텍스트 박스와 제j 텍스트 박스 사이의 관계 특징 집합은 (F_i,F_j,d_ij,r_ij,u_ij)이다.

선택적으로, 본 출원의 실시예가 특징 추출 네트워크를 기반으로 텍스트 박스의 관련 특징을 확정하는 것이면, 이때 본 단계는, 특징 추출 네트워크 중의 제2 데이터 병합 계층을 기반으로 쌍쌍으로 상이한 텍스트 박스의 속성 특징 집합과 이러한 두 개의 상이한 텍스트 박스 사이의 관계 정보 집합에 대해 병합을 진행하여, 이러한 두 개의 상이한 텍스트 박스의 관계 특징 집합을 획득할 수 있다. 예시적으로, 도 3b에 도시된 바와 같이, 제i 텍스트 박스의 속성 특징 집합 F_i, 제j 텍스트 박스의 속성 특징 집합 F_j 및 제i 텍스트 박스와 제j 텍스트 박스 사이의 관계 정보 집합 (d_ij,r_ij,u_ij)을 데이터 병합 계층2에 입력하여, 데이터 병합 계층2을 통해 입력되는 데이터에 대해 병합을 진행하여, 제i 텍스트 박스와 제j 텍스트 박스 사이의 관계 특징 집합이 E_ij인 것을 획득할 수 있다.

단계(S306)에서, 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정한다.

단계(S307)에서, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

단계(S308)에서, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라, 어음 이미지의 구조화 어음 데이터를 추출한다.

본 출원의 실시예의 기술적 방안은, 어음 이미지에서 검출된 각 텍스트 박스의 이미지 영역 및 텍스트 내용을 기반으로 각각 각 텍스트 박스의 시각 특징과 시맨틱 특징을 확정하고, 이어서 각 텍스트 박스의 시각 특징, 시맨틱 특징 및 위치 좌표를 각 텍스트 박스의 속성 특징 집합으로 이용하고, 속성 특징 집합을 대응되는 관계 정보 집합에 추가시켜, 각 텍스트 박스의 관계 특징 집합을 획득하고, 검출된 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 통해 각 텍스트 박스의 유형 확률 및 상이한 텍스트 박스에 구조 관계가 존재하는 관계 확률을 예측함으로써, 각 텍스트 박스의 유형 및 각 텍스트 박스와 관련 관계가 존재하는 관련 텍스트 박스를 추출하여, 어음 이미지에서 구조화 어음 데이터를 추출하는 것을 구현한다. 본 출원의 방안은, 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 추출할 경우, 시각 특징, 시맨틱 특징 및 위치 관계 등의 다차원으로부터 감안하여, 검출된 속성 특징 집합 및 관계 특징 집합이 더욱 정확하고, 이로써 텍스트 박스 유형 및 관련 텍스트 박스 확정의 정확성을 향상시킨다. 어음을 정확하게 인식하여, 어음 데이터의 추출을 완료할 수 있도록 확보한다.

도 4a는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이고, 도 4b는 본 출원의 실시예에 따라 제공하는 일 서브 예측 네트워크의 작업 원리의 개략도이다. 본 실시예는 상술한 실시예를 기초로 진일보로 최적화를 진행하여, 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확률 예측 네트워크에 입력하여, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 획득하는 구체적인 경우에 대한 소개를 제공한다.

본 출원의 확률 예측 네트워크는 사전에 대량의 샘플 데이터에 대해 트레이닝을 진행하여 획득한 것이며, 해당 확률 예측 네트워크는 수미가 상접되는 적어도 하나의 서브 예측 네트워크로 구성될 수 있다. 도 4b는 일 서브 예측 네트워크의 작업 원리의 개략도를 나타내며, 본 출원 중의 예측 네트워크가 다수의 서브 예측 네트워크로 구성될 경우, 각 서브 예측 네트워크의 제1 감지 MLP의 출력 결과를 이의 다음 서브 예측 네트워크의 제1 감지 MLP의 입력으로 이용하고, 각 서브 예측 네트워크의 장단기 기억 네트워크 계층 LSTM의 출력 결과를 이의 다음 서브 예측 네트워크의 장단기 기억 네트워크 계층 LSTM 및 제1 은닉 계층의 입력으로 이용한다.

구체적으로, 도 4a 내지 도 4b에 도시된 바와 같이, 해당 방법은 아래와 같은 단계들을 포함한다.

단계(S401)에서, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정한다.

단계(S402)에서, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정한다.

단계(S403)에서, 텍스트 박스의 관계 특징 집합을 현재 서브 예측 네트워크의 제1 퍼셉트론에 입력하여, 현재 감지 확률을 획득한다.

여기서, 본 출원의 실시예 중의 현재 서브 예측 네트워크는 확률 예측 네트워크에서 현재에 진행 중인 서브 예측 네트워크일 수 있으며, 이는 확률 예측 네트워크 중의 임의의 하나의 서브 예측 네트워크일 수 있다.

선택적으로, 도 4b에 도시된 바와 같이, 본 출원의 실시예는 현재 서브 예측 네트워크 l의 이전의 서브 예측 네트워크 l-1의 제2 퍼셉트론 MLP에서 출력한 텍스트 박스의 관계 특징 집합 E[l-1]을 현재 서브 예측 네트워크 l의 제1 퍼셉트론 MLP에 입력하고, 제1 퍼셉트론 MLP는 텍스트 박스의 관계 특징 집합 E[l-1]에 대해 다중 계층의 감지를 진행하여 현재 감지 확률을 획득할 수 있으며, 선택적으로, 해당 현재 감지 확률은 현재 서브 예측 네트워크에서 감지된 상이한 텍스트 박스 사이의 관계 확률이다.

선택적으로, 현재 서브 예측 네트워크가 확률 예측 네트워크의 첫번째 서브 예측 네트워크이면, 이때 현재 서브 예측 네트워크의 제1 퍼셉트론에 입력되는 텍스트 박스의 관계 특징 집합은 단계(S402)에서 확정된 어음 이미지의 각 텍스트 박스의 관계 특징 집합일 수 있다.

단계(S404)에서, 현재 감지 확률 및 텍스트 박스의 속성 특징 집합을 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득한다.

선택적으로, 본 출원의 실시예는 현재 서브 예측 네트워크 l의 이전의 서브 예측 네트워크 l-1의 장단기 기억 네트워크 계층 LSTM에서 출력되는 텍스트 박스의 속성 특징 집합 F[l-1], 현재 서브 예측 네트워크 l의 제1 퍼셉트론 MLP에서 출력되는 현재 감지 확률을 현재 서브 예측 네트워크l의 제1 은닉 계층에 입력하고, 해당 제1 은닉 계층은 입력되는 속성 특징 집합 F[l-1] 및 현재 감지 확률에 대해 산출을 진행하며, 예컨대 곱셈 연산을 진행하여 제1 은닉 텍스트 특징 H1[l]을 획득할 수 있다.

선택적으로, 현재 서브 예측 네트워크가 확률 예측 네트워크의 첫번째 서브 예측 네트워크이면, 이때 현재 서브 예측 네트워크의 제1 은닉 계층에 입력되는 텍스트 박스의 속성 특징 집합은 단계(S402)에서 확정된 어음 이미지의 각 텍스트 박스의 속성 특징 집합일 수 있다.

단계(S405)에서, 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크인 지 판단하고, 아니면, 단계(S406)를 수행하고, 마지막 서브 예측 네트워크이면, 단계(S409)를 수행한다.

선택적으로, 본 출원의 실시예에 있어서, 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크가 아니면, 현재 예측 서브 네트워크가 최종의 텍스트 박스의 유형 확률 및 상이한 텍스트 박스의 관계 확률을 제공할 필요가 없는 것을 설명하고, 이때 현재 서브 예측 네트워크는 단계(S406) 내지 단계(S408)의 조작을 수행할 수 있으며, 자체 내부의 각 네트워크 계층을 기반으로 당해 서브 예측 네트워크로 해석된 속성 특징 집합 및 관계 특징 집합을 획득하여 다음 서브 예측 네트워크에 입력할 수 있다. 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크이면, 현재 예측 서브 네트워크는 단계(S409)의 조작을 수행하여야 하며, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스의 관계 확률을 예측한다.

단계(S406)에서, 제1 은닉 텍스트 특징 및 속성 특징 집합을 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 텍스트 박스의 업데이트된 속성 특징 집합을 획득하고, 업데이트된 속성 특징 집합을 다음 서브 예측 네트워크에 입력한다.

선택적으로, 현재 서브 예측 네트워크 l가 마지막 서브 예측 네트워크가 아니면, 현재 서브 예측 네트워크 l의 제1 은닉 계층에서 출력되는 제1 은닉 텍스트 특징 H1[l] 및 현재 서브 예측 네트워크l의 이전의 서브 예측 네트워크 l-1의 장단기 기억 네트워크 계층 LSTM에서 출력되는 텍스트 박스의 속성 특징 집합 F[l-1]을 현재 서브 예측 네트워크 l의 장기 기억 네트워크 계층 LSTM에 입력하며, 해당 장기 기억 네트워크 계층 LSTM은 딥 러닝 알고리즘을 기반으로 입력되는 텍스트 박스의 속성 특징 집합 F[l-1]에 대해 업데이트를 진행하여 텍스트 박스의 속성 특징 집합 F[l]을 획득하여 현재 서브 예측 네트워크 l의 다음 서브 예측 네트워크 l+1에 입력하며, 즉, 각각 다음 서브 예측 네트워크l+1의 제1 은닉 계층 및 장단기 기억 네트워크 계층 LSTM에 입력한다.

선택적으로, 현재 서브 예측 네트워크가 확률 예측 네트워크의 첫번째 서브 예측 네트워크이면, 이때 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력되는 텍스트 박스의 속성 특징 집합은 단계(S402)에서 확정된 어음 이미지의 각 텍스트 박스의 속성 특징 집합일 수 있다.

단계(S407)에서, 제1 은닉 텍스트 특징 및 관계 특징 집합을 현재 서브 예측 네트워크의 제2 은닉 계층에 입력하여, 제2 은닉 텍스트 특징을 획득한다.

선택적으로, 현재 서브 예측 네트워크 l가 마지막 서브 예측 네트워크가 아니면, 현재 서브 예측 네트워크 l의 이전의 서브 예측 네트워크 l-1의 제2 퍼셉트론 MLP에서 출력되는 텍스트 박스의 관계 특징 집합 E[l-1], 현재 서브 예측 네트워크l의 제1 은닉 계층에서 출력되는 제1 은닉 텍스트 특징 H1[l] 및 제1 은닉 텍스트 특징의 전치H1[l]^T를 현재 서브 예측 네트워크 l의 제2 은닉 계층에 입력하여야 하며, 해당 제2 은닉 계층은 입력되는 관계 특징 집합 E[l-1], 제1 은닉 텍스트 특징 H1[l] 및 이의 전치H1[l]^T에 대해 산출을 진행하며, 예컨대 3 항 행렬 곱셈 연산을 진행하여 제2 은닉 텍스트 특징 H2[l]을 획득한다.

선택적으로, 현재 서브 예측 네트워크가 확률 예측 네트워크의 첫번째 서브 예측 네트워크이면, 이때 현재 서브 예측 네트워크의 제2 은닉 계층에 입력되는 텍스트 박스의 관계 특징 집합은 단계(S402)에서 확정된 어음 이미지의 각 텍스트 박스의 관계 특징 집합일 수 있다.

단계(S408)에서, 제2 은닉 텍스트 특징을 현재 서브 예측 네트워크의 제2 퍼셉트론에 입력하여, 텍스트 박스업데이트된 관계 특징 집합을 획득하고, 업데이트된 관계 특징 집합을 다음 서브 예측 네트워크에 입력한다.

선택적으로, 본 출원의 실시예는, 현재 서브 예측 네트워크 l의 제2 은닉 계층에서 획득된 제2 은닉 텍스트 특징 H2[l]을 현재 서브 예측 네트워크 l의 제2 퍼셉트론 MLP에 입력하고, 제2 퍼셉트론은 제2 은닉 텍스트 특징 H2[l]에 대해 다중 계층의 감지를 진행하여 현재 서브 예측 네트워크 l로 업데이트된 관계 특징 집합 E[l]을 획득하고, 해당 관계 특징 집합 E[l]을 현재 서브 예측 네트워크 l의 다음 서브 예측 네트워크 l+1에 입력하며, 즉, 다음 서브 예측 네트워크 l+1의 제1 퍼셉트론 MLP에 입력한다.

마지막 서브 예측 네트워크로 각 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률이 예측될 때까지, 현재 서브 예측 네트워크 l의 다음 서브 예측 네트워크 l+1는 마찬가지로 본 출원의 실시예의 단계(S403) 내지 단계(S409)의 방법에 따라 조작을 진행하는 것을 설명하고자 한다.

단계(S409)에서, 제1 은닉 텍스트 특징 및 속성 특징 집합을 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 텍스트 박스의 유형 확률을 획득하고, 현재 감지 확률을 상이한 텍스트 박스 사이의 관계 확률로 이용한다.

선택적으로, 현재 서브 예측 네트워크 l가 마지막 서브 예측 네트워크이면, 현재 서브 예측 네트워크 l는 각 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 예측할 필요가 있다. 이때, 현재 서브 예측 네트워크 l의 제1 은닉 계층에서 출력되는 제1 은닉 텍스트 특징 H1[l] 및 현재 서브 예측 네트워크 l의 이전의 서브 예측 네트워크 l-1의 장단기 기억 네트워크 계층 LSTM에서 출력되는 텍스트 박스의 속성 특징 집합 F[l-1]을 현재 서브 예측 네트워크 l의 장기 기억 네트워크 계층 LSTM에 입력할 수 있다. 장기 기억 네트워크 계층 LSTM은 딥 러닝 알고리즘을 기반으로 입력되는 데이터에 대해 분석을 진행하여 각 텍스트 박스가 네 가지 정의된 유형(필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 및 테이블 유닛 유형)에 해당되는 확률을 획득한다. 상이한 텍스트 박스 사이의 관계 확률에 대해, 본 실시예는 마지막 서브 예측 네트워크의 제1 퍼셉트론 MLP에서 출력되는 현재 감지 확률을 최종 예측된 상이한 텍스트 박스 사이의 관계 확률로 이용할 수 있다.

단지 트레이닝된 후, 마지막 서브 예측 네트워크와 기타 서브 예측 네트워크의 장단기 기억 네트워크 계층의 기능이 상이할 뿐, 마지막 서브 예측 네트워크와 기타 서브 예측 네트워크의 네트워크 구조는 동일하며, 마지막 서브 예측 네트워크의 장단기 기억 네트워크 계층의 기능은 각 텍스트 박스의 유형 확률을 예측하도록 이용되고, 기타 서브 예측 네트워크의 장단기 기억 네트워크 계층의 기능은 텍스트 박스의 속성 특징 집합에 대해 업데이트를 진행하는 것을 설명하고자 한다.

단계(S410)에서, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

단계(S411)에서, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라, 어음 이미지의 구조화 어음 데이터를 추출한다.

본 출원의 실시예의 기술적 방안은, 어음 이미지를 기반으로 각 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 검출하고, 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 추출한 후, 수미가 상접되는 적어도 하나의 서브 예측 네트워크를 기반으로 확률 예측 네트워크를 구성하여 각 텍스트 박스의 유형 확률 및 상이한 텍스트 박스에 구조 관계가 존재하는 관계 확률을 추출하고 예측함으로써, 각 텍스트 박스의 유형 및 각 텍스트 박스와 관련 관계가 존재하는 관련 텍스트 박스를 추출하여, 어음 이미지에서 구조화 어음 데이터를 추출하는 것을 구현한다. 본 출원의 방안은, 텍스트 박스의 유형 확률 및 텍스트 박스 사이의 관계 확률을 예측할 경우, 다중 계층의 수미가 상접되는 서브 예측 네트워크를 기반으로 예측을 진행하여, 예측 결과의 정확성을 대폭으로 향상시키고, 텍스트 박스 유형 및 관련 텍스트 박스를 정확하게 확정하는 것에 기초를 확립하여, 어음 이미지를 인식하고 어음 데이터 검출의 정확성을 확보한다.

도 5는 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이며, 본 실시예는 상술한 실시예를 기초로 진일보로 최적화를 진행하여, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 구체적인 경우에 대한 소개를 제공한다. 도 5에 도시된 바와 같이, 해당 방법은 아래와 같은 단계들을 포함한다.

단계(S501)에서, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정한다.

단계(S502)에서, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정한다.

단계(S503)에서, 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정한다.

단계(S504)에서, 텍스트 박스의 유형 확률에 따라 텍스트 박스의 유형을 확정한다.

선택적으로, 단계(S503)는 이미 어음 이미지 중의 각 텍스트 박스의 유형 확률을 확정하였으며, 이때 각 텍스트 박스를 상대로, 이가 네 가지 유형에 해당되는 확률에서 최고의 확률에 대응되는 유형을 해당 텍스트 박스의 유형으로 이용할 수 있다. 예시적으로, 도 1b 중의 각 텍스트 박스의 유형 확률에 따라 각 텍스트 박스의 유형을 확정하고, 이어서 필드 속성 유형 K에 해당되는 텍스트 박스를 직각 실선 박스로 표식하고, 필드 값 유형 V에 해당되는 텍스트 박스를 직각 점선 박스로 표식하고, 테이블 헤더 유형 H에 해당되는 텍스트 박스를 라운드 코너 직선 박스로 표식하고, 테이블 유닛 유형C에 해당되는 텍스트 박스를 라운드 코너 점선 박스로 표식하며, 시각적 효과는 도 1c에 도시된 바와 같다.

단계(S505)에서, 상이한 텍스트 박스 사이의 관계 확률 및 확률 임계값에 따라, 구조 관계가 존재하는 후보 텍스트 박스 쌍을 확정한다.

단계(S506)에서, 후보 텍스트 박스 쌍 및 텍스트 박스의 유형에 따라, 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

단계(S507)에서, 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스가 한개인 지 판단하고, 아니면, 단계(S508)를 수행하고, 한개이면, 단계(S510)를 수행한다.

선택적으로, 단계(S506)는, 각 텍스트 박스로 확정된 관련 텍스트 박스에는 하나의 텍스트 박스에 다수의 관련 텍스트 박스가 있는 경우가 존재할 수 있으며, 다수의 관련 텍스트 박스에 잘못된 판단이 존재하는 경우를 방지하기 위하여, 본 출원은 각 텍스트 박스를 상대로 순차적으로 단계(S506)에서 확정된 이와 구조 관계가 존재하는 관련 텍스트 박스의 수량이 한개인 지 판단하고, 한개이면, 단계(S510)에서 어음 이미지의 구조화 어음 데이터를 추출하는 조작을 수행하고, 아니면, 단계(S508)를 수행하여 진일보로 다수의 관련 텍스트 박스에 판단이 잘못된 경우가 존재하는 지 판단할 수 있다.

단계(S508)에서, 해당 텍스트 박스가 기정의 유형인 지 판단하고, 기정의 유형이면, 단계(S509)를 수행하고, 아니면, 단계(S510)를 수행한다.

선택적으로, 본 출원의 실시예에 있어서, 상이한 텍스트 박스에 존재하는 구조 관계에 있어서, 필드 속성 유형, 필드 값 유형 또는 테이블 유닛 유형의 텍스트 박스에 대해, 이의 관련 텍스트 박스는 유일한 것이어야 하며, 테이블 헤더 유형의 텍스트 박스에 대해, 이의 관련 텍스트 박스는 다수 개 존재할 수 있다. 따라서, 본 출원의 실시예 중의 기정의 유형은 필드 속성 유형, 필드 값 유형 및 테이블 유닛 유형일 수 있다. 단계(S507)에서 하나의 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스가 적어도 두 개인 것으로 판단되면, 해당 텍스트 박스가 필드 속성 유형, 필드 값 유형 및 테이블 유닛 유형 중의 하나인 지 판단하고, 필드 속성 유형, 필드 값 유형 및 테이블 유닛 유형 중의 하나이면, 해당 텍스트 박스의 다수의 관련 텍스트 박스 중의 단 하나가 정확한 것인 것을 설명하고, 이때 단계(S509)를 수행하여 해당 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스를 확정하여야 한다. 아니면, 해당 텍스트 박스가 테이블 헤더 유형에 해당되는 것을 설명하고, 이에 다수의 관련 텍스트 박스가 존재하는 것은 정상적인 현상이며, 예를 들어, 도 1c에서 "요금 항목"의 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스는 두 개가 있으며, 즉, "서양약 비용" 텍스트 박스 및 "치료 비용" 텍스트 박스이다. 해당 텍스트 박스에 관련된 다수의 관련 텍스트 박스를 모두 보류하고, 직접적으로 단계(S510)에서 어음 이미지의 구조화 어음 데이터를 추출하는 조작을 수행할 수 있다.

단계(S509)에서, 적어도 두 개의 관련 텍스트 박스 중 해당 텍스트 박스와의 관계 확률이 가장 높은 관련 텍스트 박스를 해당 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 이용한다.

선택적으로, 하나의 텍스트 박스의 관련 텍스트 박스가 여러 개 있고, 해당 텍스트 박스가 기정의 유형에 해당되면, 이때 본 단계는 다수의 관련 텍스트 박스로부터 하나를 선택하여, 해당 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 이용하여야 한다. 구체적인 조작 과정은, 단계(S503)에서 확정된 상이한 텍스트 박스 사이의 관계 확률로부터, 순차적으로 해당 텍스트 박스와 각 관련 텍스트 박스 사이의 관계 확률을 조회하고, 관계 확률이 가장 높은 관련 텍스트 박스를, 해당 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 이용할 수 있다. 예시적으로, 도 1b에 도시된 바와 같이, 단계(S506)에서 "업무 일련 번호" 텍스트 박스의 관련 텍스트 박스가 두 개(즉 "254000" 텍스트 박스 및 "2020년 1월 1일" 텍스트 박스)인 것으로 확정하는 것으로 가정하면, "업무 일련 번호" 텍스트 박스의 유형이 필드 속성 유형이고 기정의 유형에 해당되므로, 본 단계는 "업무 일련 번호" 텍스트 박스와 "254000" 텍스트 박스 사이의 제1 관계 확률 및 "업무 일련 번호" 텍스트 박스와 "2020년 1월 1일" 텍스트 박스 사이의 제2 관계 확률을 조회할 수 있고, 제1 관계 확률이 98%이고, 제2 관계 확률이 88%이면, 관계 확률이 상대적으로 높은 "254000" 텍스트 박스를 "업무 일련 번호" 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 선택할 수 있다.

단계(S510)에서, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라, 어음 이미지의 구조화 어음 데이터를 추출한다.

본 출원의 실시예의 기술적 방안은, 어음 이미지에 따라 각 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 검출하고, 각 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 추출하여, 각 텍스트 박스의 유형 확률 및 상이한 텍스트 박스에 구조 관계가 존재하는 관계 확률을 예측하고, 각 텍스트 박스의 유형 및 각 텍스트 박스와 관련 관계가 존재하는 관련 텍스트 박스를 추출하며, 하나의 텍스트 박스의 관련 텍스트 박스가 다수 개이고 해당 텍스트 박스가 기정의 유형에 해당되면, 해당 텍스트 박스와 각 관련 텍스트 박스 사이의 관계 확률을 기반으로 해당 텍스트 박스를 위해 유일한 관련 텍스트 박스를 확정하고, 어음 이미지에서 구조화 어음 데이터를 추출하는 것을 구현한다. 본 출원의 방안은, 각 텍스트 박스의 관련 텍스트 박스를 확정한 후, 테이블 헤더 유형의 텍스트 박스에 대해, 이의 모든 관련 텍스트 박스를 보류하고, 기타 유형의 텍스트 박스에 대해, 이로부터 관련 확률이 가장 높은 관련 텍스트 박스를 선택하여, 관련 텍스트 박스에 잘못된 판단이 발생하는 경우를 대폭으로 저감시켜, 관련 텍스트 박스 확정의 정확성을 향상시킨다. 본 출원이 어음을 인식하고 어음 데이터를 추출하는 정확성을 확보한다.

도 6은 본 출원의 실시예에 따라 제공하는 다른 일 어음 이미지 인식 방법의 흐름도이다. 본 실시예는 상술한 실시예를 기초로 진일보로 최적화를 진행하여, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합을 확정하는 구체적인 경우에 대한 소개를 제공한다. 도 6에 도시된 바와 같이, 해당 방법은 아래와 같은 단계들을 포함한다.

단계(S601)에서, 어음 이미지에 대해 텍스트 검출을 진행하여, 어음 이미지 중의 적어도 두 개의 텍스트 박스의 위치 좌표를 획득한다.

단계(S602)에서, 적어도 두 개의 텍스트 박스의 위치 좌표에 대해 왜곡 보정을 진행한다.

선택적으로, 어음 이미지에 있어서, 이의 촬영 각도가 상이하고, 어음 배치 방식 및 어음 평탄도가 상이하면, 촬영된 어음 이미지에는 일정한 왜곡이 존재할 수 있다. 그러나, 텍스트 검출 기술을 기반으로 어음 이미지의 텍스트 내용에 대해 검출을 진행할 경우, 통상적으로 동일한 행에 해당되는 텍스트 문자열을 하나의 텍스트 박스에 표식하므로, 촬영된 어음 이미지에 왜곡이 존재할 경우, 텍스트 내용 검출에 오류를 초래할 수 있다. 해당 문제점을 상대로, 본 출원의 실시예는, 어음 이미지에 대해 텍스트 검출을 진행하여 어음 이미지 중의 각 텍스트 박스의 위치 좌표를 획득한 후, 해당 위치 좌표에 대해 왜곡 보정을 진행할 수 있으며, 구체적인 수행 과정은 아핀 변환을 통해 단계(S601)에서 확정된 각 텍스트 박스의 위치 좌표에 대해 왜곡 보정을 진행할 수 있으며, 보정된 위치 좌표는 정 사각형 배열을 나타낸다. 신경망 모델을 통해 위치 좌표에 대해 교정을 진행할 수도 있으며, 본 실시예는 이에 대한 한정을 진행하지 않는다.

단계(S603)에서, 보정된 적어도 두 개의 텍스트 박스의 위치 좌표에 따라 적어도 두 개의 텍스트 박스의 이미지 영역 및 텍스트 내용을 확정한다.

단계(S604)에서, 텍스트 박스의 속성 정보 집합에 따라 텍스트 박스의 관계 정보 집합을 확정한다.

단계(S605)에서, 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정한다.

단계(S606)에서, 텍스트 박스의 유형 및 해당 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라, 어음 이미지의 구조화 어음 데이터를 추출한다.

본 출원의 실시예의 기술적 방안은, 어음 이미지 중의 각 텍스트 박스의 속성 정보를 확정할 경우, 검출괸 각 텍스트 박스의 위치 좌표에 대해 왜곡 보정을 진행한 후, 다시 이미지 영역 및 텍스트 내용을 확정하여, 텍스트 박스 속성 정보 집합의 정확성을 확보하고, 후속적으로 해당 속성 정보 집합을 기반으로 관계 정보 집합을 확정하고, 각 텍스트 박스의 유형 및 각 텍스트 박스와의 관련 텍스트 박스를 정확하게 추리하는 것에 기초를 확립하여, 어음 이미지에서 추출되는 구조화 어음 데이터의 정확성을 확보한다.

도 7은 본 출원의 실시예에 따라 제공하는 일 어음 이미지 인식 장치의 구조의 개략도이며, 본 실시예는 어음 이미지에 대해 인식을 진행하는 경우에 적용되고, 특히는 여러가지 판식이 고정되지 않은 어음 이미지에 대해 인식을 진행하는 경우에 적용된다. 해당 장치는 본 출원의 임의의 실시예의 어음 이미지 인식 방법을 구현할 수 있다. 해당 장치(700)은 구체적으로, 어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정하도록 구성되는 텍스트 검출 모듈(701)과, 상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 정보 추리 모듈(702)과, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라 상기 어음 이미지의 구조화 어음 데이터를 추출하도록 구성되는 어음 데이터 추출 모듈(703)을 포함한다.

나아가, 상기 텍스트 박스의 유형은 필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 또는 테이블 유닛 유형을 포함하고, 상기 필드 속성 유형과 상기 필드 값 유형의 텍스트 박스에 필드 구조 관계가 존재하고, 상기 테이블 헤더 유형과 테이블 유닛 유형의 텍스트 박스에는 테이블 구조 관계가 존재한다.

나아가, 상기 정보 추리 모듈(702)은, 상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정하도록 구성되는 특징 확정 유닛과, 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정하도록 구성되는 확률 확정 유닛과, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 유형 관계 확정 유닛을 포함한다.

나아가, 상기 특징 확정 유닛은 구체적으로, 상기 텍스트 박스의 속성 정보 집합 중의 이미지 영역에 따라 상기 텍스트 박스의 시각 특징을 확정하고, 상기 텍스트 박스의 속성 정보 집합 중의 텍스트 내용에 따라 상기 텍스트 박스의 시맨틱 특징을 확정하고, 상기 시각 특징, 상기 시맨틱 특징 및 상기 속성 정보 집합 중의 위치 좌표를 상기 텍스트 박스의 속성 특징 집합으로 하고, 상기 속성 특징 집합 및 상기 관계 정보 집합에 따라 상기 텍스트 박스의 관계 특징 집합을 확정하도록 구성된다.

나아가, 상기 확률 확정 유닛은 구체적으로, 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확률 예측 네트워크에 입력하여, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 획득하도록 구성된다.

나아가, 상기 확률 예측 네트워크는 수미가 상접되는 적어도 하나의 서브 예측 네트워크를 포함하되, 상기 확률 확정 유닛은 구체적으로, 상기 텍스트 박스의 관계 특징 집합을 현재 서브 예측 네트워크의 제1 퍼셉트론에 입력하여, 현재 감지 확률을 획득하고, 상기 현재 감지 확률 및 상기 텍스트 박스의 속성 특징 집합을 상기 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득하고, 상기 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크이면, 상기 제1 은닉 텍스트 특징 및 상기 속성 특징 집합을 상기 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 상기 텍스트 박스의 유형 확률을 획득하고, 상기 현재 감지 확률을 상이한 텍스트 박스 사이의 관계 확률로 이용하도록 구성된다.

나아가, 상기 확률 확정 유닛은, 상기 현재 감지 확률 및 상기 텍스트 박스의 속성 특징 집합을 상기 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득한 후, 상기 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크가 아니면, 상기 제1 은닉 텍스트 특징 및 상기 속성 특징 집합을 상기 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 상기 텍스트 박스의 업데이트된 속성 특징 집합을 획득하고, 상기 업데이트된 속성 특징 집합을 다음 서브 예측 네트워크에 입력하고, 상기 제1 은닉 텍스트 특징 및 상기 관계 특징 집합을 상기 현재 서브 예측 네트워크의 제2 은닉 계층에 입력하여, 제2 은닉 텍스트 특징을 획득하고, 상기 제2 은닉 텍스트 특징을 상기 현재 서브 예측 네트워크의 제2 퍼셉트론에 입력하여, 상기 텍스트 박스업데이트된 관계 특징 집합을 획득하고, 상기 업데이트된 관계 특징 집합을 다음 서브 예측 네트워크에 입력하도록 더 구성된다.

나아가, 상기 유형 관계 확정 유닛은, 상기 텍스트 박스의 유형 확률에 따라 상기 텍스트 박스의 유형을 확정하도록 구성되는 텍스트 박스 유형 확정 서브 유닛과, 상이한 텍스트 박스 사이의 관계 확률 및 확률 임계값에 따라, 구조 관계가 존재하는 후보 텍스트 박스 쌍을 확정하도록 구성되는 텍스트 박스 쌍 확정 서브 유닛과, 상기 후보 텍스트 박스 쌍 및 상기 텍스트 박스의 유형에 따라, 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 관련 텍스트 박스 확정 서브 유닛을 포함한다.

나아가, 상기 유형 관계 확정 유닛은, 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스가 적어도 두 개이면, 상기 텍스트 박스가 기정의 유형인 지 확정하도록 구성되는 텍스트 박스 유형 판단 서브 유닛과, 상기 텍스트 박스가 기정의 유형이면, 상기 적어도 두 개의 관련 텍스트 박스에서 상기 텍스트 박스와의 관계 확률이 가장 높은 관련 텍스트 박스를 상기 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 하도록 구성되는 관련 텍스트 박스 선별 서브 유닛을 더 포함한다.

나아가, 상기 텍스트 박스의 속성 정보 집합은 상기 텍스트 박스의 위치 좌표, 이미지 영역 및 텍스트 내용을 포함하고, 상기 텍스트 박스의 관계 정보 집합은 상기 텍스트 박스와 기타 텍스트 박스 사이의 위치 좌표 차이값, 중심점 각도 차이값 및 중심점 유클리드 거리를 포함한다.

나아가, 상기 텍스트 검출 모듈(701)은, 어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 위치 좌표를 획득하도록 구성되는 위치 확정 서브 유닛과, 상기 적어도 두 개의 텍스트 박스의 위치 좌표에 대해 왜곡 보정을 진행하도록 구성되는 위치 보정 서브 유닛과, 보정된 적어도 두 개의 텍스트 박스의 위치 좌표에 따라 상기 적어도 두 개의 텍스트 박스의 이미지 영역 및 텍스트 내용을 확정하도록 구성되는 도문 확정 서브 유닛을 포함한다.

본 출원의 실시예에 의하면, 본 출원은 전자 장치 및 판독 가능한 저장 매체를 더 제공한다.

도 8에 도시된 바와 같이, 이는 본 출원의 실시예에 따른 어음 이미지 인식의 전자 장치의 블록도이다. 전자 장치는 각종 형식의 디지털 컴퓨터, 예컨대 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 어시스턴트, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터를 가리키고자 한다. 전자 장치는 각종 형식의 이동 장치, 예컨대, 개인 디지털 처리 장치, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치를 가리킬 수도 있다. 본원에 도시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본 원에 설명된 및/또는 요구되는 본 출원의 구현을 한정하고자 하지 않는다.

도 8에 도시된 바와 같이, 해당 전자 장치는, 하나 또는 다수의 프로세서(801), 메모리 장치(802), 및 고속 인터페이스와 저속 인터페이스를 포함하여 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되며, 공동 메인 보드에 장착되거나 수요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 장치 내에서 실행되는 명령에 대해 처리를 진행할 수 있으며, 메모리 장치에 또는 메모리 장치 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 연결된 표지 장치) 상에서 GUI를 나타내는 도형 정보의 명령을 포함한다. 기타의 실시예에 있어서, 필요할 경우, 다수의 프로세서 및/또는 다수의 버스와 다수의 메모리 장치를 다수의 메모리 장치와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 장치를 연결할 수 있으며, 각 전자 장치는 일부의 필요한 조작(예컨대, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 8에서는 하나의 프로세서(801)를 예로 든다.

메모리 장치(802)는 즉 본 출원에서 제공하는 비 일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 상기 메모리 장치에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서로 본 출원에서 제공하는 어음 이미지 인식 방법을 실행한다. 본 출원의 비 일시적 컴퓨터 판독 가능한 저장 매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터로 본 출원에서 제공하는 어음 이미지 인식 방법을 실행시키도록 구성된다.

메모리 장치(802)는 비 일시적 컴퓨터 판독 가능한 저장 매체로서, 본 출원의 실시예 중의 어음 이미지 인식 방법에 대응되는 프로그램 명령/모듈(예컨대, 도 7에 도시된 텍스트 검출 모듈(701), 정보 추리 모듈(702) 및 어음 데이터 추출 모듈(703))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터로 실행 가능한 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(801)는 메모리 장치(802)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행시킴으로써, 서버의 각종의 기능 응용 및 데이터 처리를 실행하며, 즉, 상술한 방법 실시예 중의 어음 이미지 인식 방법을 구현한다.

메모리 장치(802)는 프로그램 저장 구간 및 데이터 저장 구간을 포함할 수 있으며, 여기서, 프로그램 저장 구간은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며, 데이터 저장 구간은 어음 이미지 인식 방법의 전자 장치의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 또한, 메모리 장치(802)는 고속 랜덤 액세스 메모리 장치를 포함할 수 있으며, 비 일시적 메모리 장치, 예컨대, 적어도 하나의 자기 디스크 메모리 소자, 플래시 소자 또는 기타 비 일시적 솔리드 스테이트 메모리 소자를 더 포함할 수 있다. 일부의 실시예에 있어서, 메모리 장치(802)는 선택적으로 프로세서(801)에 대해 원격으로 설치된 메모리 장치를 포함하며, 이러한 원격 메모리 장치는 네트워크를 통해 어음 이미지 인식 방법의 전자 장치에 연결될 수 있다. 상술한 네트워크의 예시는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하나, 이에 한정되지 않는다.

어음 이미지 인식 방법의 전자 기기는 입력 장치(803) 및 출력 장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리 장치(802), 입력 장치(803) 및 출력 장치(804)는 버스 또는 기타의 방식으로 연결될 수 있으며, 도 8에서는 버스를 통해 연결되는 것을 예로 든다.

입력 장치(803)는 입력되는 디지털 또는 문자 정보를 수신하고, 어음 이미지 인식 방법의 전자 장치의 사용자 설정 및 기능 제어에 관련된 키 신호 입력을 발생할 수 있으며, 예컨대, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 지시 레버, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조작 레버 등의 입력 장치이다. 출력 장치(804)는 표시 장치, 보조 조명 장치(예컨대, LED) 및 터치 피드백 장치(예컨대, 진동 모터) 등을 포함할 수 있다. 해당 표시 장치는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라즈마 표시 장치를 포함할 수 있으나, 이에 한정되지 않는다. 일부의 실시예에 있어서, 표시 장치는 터치 스크린일 수 있다.

본 원에 설명된 시스템 및 기술의 각종의 실시예는 디지털 전자 회로 시스템, 집적 회로 시스템, 특정 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 각종의 실시예는, 하나 또는 다수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래밍 가능한 프로세서는 특정 또는 범용 프로그래밍 가능한 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령은 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치에 전송된다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로도 지칭됨)은 프로그래밍 가능한 프로세서의 기계 명령을 포함하고, 고급 공정 및/또는 객체 지향의 프로그래밍 언어 및/또는 편집/기계 언어를 이용하여 컴퓨팅 프로그램을 실시할 수 있다. 본 원에 사용되는 바와 같이, 용어 "기계 판독 가능한 매체" 및 "컴퓨터 판독 가능한 매체"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예컨대, 자기 디스크, 광학 디스크, 메모리 장치, 프로그래밍 가능한 논리 장치(PLD))를 가리키며, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 상호 작용을 제공하기 위하여, 컴퓨터 상에서 본 원에 설명된 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 나타내기 위한 표시 장치(예컨대, CRT(음극관) 또는 LCD(액정 표시 장치) 모니터), 및 키보드 및 지향 장치(예컨대, 마우스 또는 트랙볼)를 구비하며, 사용자는 해당 키보드 및 해당 지향 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 사용자와의 상호 작용을 제공하도록 더 구성될 수 있으며, 예를 들어, 사용자에게 제공하는 피드백은 임의의 형식의 감지 피드백(예컨대, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 임의의 형식(음향 입력, 음성 입력 또는 터치 입력)으로 사용자의 입력을 수신할 수 있다.

본 원에 설명된 시스템 및 기술은 백 엔드 부재를 포함하는 컴퓨팅 시스템(예컨대, 데이터 서버로서) 또는 중간 부재를 포함하는 컴퓨팅 시스템(예컨대, 응용 서버) 또는 프런트 엔드 부재를 포함하는 컴퓨팅 시스템(예컨대, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 웹 브라우저를 통해 본 원에 설명된 시스템 및 기술의 실시예를 통해 상호 작용을 진행할 수 있음) 또는 이러한 백 엔드 부재, 중간 부재 또는 프런트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 부재는 임의의 형식 또는 매체의 디지털 데이터 통신(통신망)를 통해 서로 연결될 수 있다. 통신망의 예시는 근거리 통신망(LAN), 광역 통신망(WAN), 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 측 및 서버를 포함할 수 있다. 클라이언트 측과 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신망을 통해 상호 작용을 진행한다. 클라이언트 측과 서버의 관계는 상응한 컴퓨터 상에서 운행되고 서로 클라이언트 측-서버 관계를 구비하는 컴퓨터 프로그램을 통해 발생한다.

본 출원의 실시예의 기술적 방안에 의하면, 어음 이미지에서 각 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 검출하여, 각 텍스트 박스의 유형 및 각 텍스트 박스와 관련 관계가 존재하는 관련 텍스트 박스를 추리함으로써, 어음 이미지에서 구조화 어음 데이터를 추출한다. 본 출원의 방안은 템플릿 위치 매칭 방식을 통하지 않고서도 어음 이미지에서 필드 구조 관계 및 테이블 구조 관계가 존재하는 구조화 어음 데이터를 정확하게 추리할 수 있다. 어음 판식의 제한을 받지 않고, 여러가지 상이한 버전의 어음 이미지를 자동으로 인식하는 것을 지지하고, 인식 과정에 템플릿의 도움이 필요하지 않아, 어음 이미지 인식의 범용성 및 정확성을 향상시킬 수 있다.

앞서 도시된 각종 형식의 흐름을 사용하거나, 단계에 대한 재 배열, 추가 또는 삭제를 진행할 수 있음을 이해하여야 한다. 예를 들어, 본 출원에 개시된 기술적 방안의 원하는 결과를 실현할 수만 있다면, 본 출원에 기재된 각 단계는 병렬로 실행될 수 있으며, 순차적으로 실행될 수도 있으며, 상이한 순서로 실행될 수도 있으며, 본 출원에서 이에 대한 한정을 진행하지 않는다.

상술한 구체적은 실시예는 본 출원의 보호 범위에 대한 한정을 구성하지 않는다. 설계 요구 및 기타의 요소에 따라 각종의 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 당해 기술 분야의 당업자는 자명할 것이다. 본 출원의 사상 및 원칙 내에서 진행하는 임의의 수정, 균등한 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

어음 이미지 인식 방법에 있어서,
어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정하는 단계와,
상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정하는 단계와,
상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정하는 단계와,
상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 단계와,
상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라 상기 어음 이미지의 구조화 어음 데이터를 추출하는 단계를 포함하고,
상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정하는 단계는,
상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확률 예측 네트워크에 입력하여, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 획득하는 단계를 포함하고,
상기 확률 예측 네트워크는 수미가 상접되는 적어도 하나의 서브 예측 네트워크를 포함하되,
상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확률 예측 네트워크에 입력하여, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 획득하는 단계는,
상기 텍스트 박스의 관계 특징 집합을 현재 서브 예측 네트워크의 제1 퍼셉트론에 입력하여, 현재 감지 확률을 획득하는 단계와,
상기 현재 감지 확률 및 상기 텍스트 박스의 속성 특징 집합을 상기 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득하는 단계와,
상기 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크이면, 상기 제1 은닉 텍스트 특징 및 상기 속성 특징 집합을 상기 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 상기 텍스트 박스의 유형 확률을 획득하고, 상기 현재 감지 확률을 상이한 텍스트 박스 사이의 관계 확률로 하는 단계를 포함하는 어음 이미지 인식 방법.
제1항에 있어서,
상기 텍스트 박스의 유형은 필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 또는 테이블 유닛 유형을 포함하고,
상기 필드 속성 유형과 상기 필드 값 유형의 텍스트 박스에 필드 구조 관계가 존재하고,
상기 테이블 헤더 유형과 테이블 유닛 유형의 텍스트 박스에 테이블 구조 관계가 존재하는 어음 이미지 인식 방법.
삭제
제1항에 있어서,
상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정하는 단계는,
상기 텍스트 박스의 속성 정보 집합 중의 이미지 영역에 따라 상기 텍스트 박스의 시각 특징을 확정하는 단계와,
상기 텍스트 박스의 속성 정보 집합 중의 텍스트 내용에 따라 상기 텍스트 박스의 시맨틱 특징을 확정하는 단계와,
상기 시각 특징, 상기 시맨틱 특징 및 상기 속성 정보 집합 중의 위치 좌표를 상기 텍스트 박스의 속성 특징 집합으로 하는 단계와,
상기 속성 특징 집합 및 상기 관계 정보 집합에 따라 상기 텍스트 박스의 관계 특징 집합을 확정하는 단계를 포함하는 어음 이미지 인식 방법.
삭제
삭제
제1항에 있어서,
상기 현재 감지 확률 및 상기 텍스트 박스의 속성 특징 집합을 상기 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득하는 단계 이후,
상기 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크가 아니면, 상기 제1 은닉 텍스트 특징 및 상기 속성 특징 집합을 상기 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 상기 텍스트 박스의 업데이트된 속성 특징 집합을 획득하고, 상기 업데이트된 속성 특징 집합을 다음 서브 예측 네트워크에 입력하는 단계와,
상기 제1 은닉 텍스트 특징 및 상기 관계 특징 집합을 상기 현재 서브 예측 네트워크의 제2 은닉 계층에 입력하여, 제2 은닉 텍스트 특징을 획득하는 단계와,
상기 제2 은닉 텍스트 특징을 상기 현재 서브 예측 네트워크의 제2 퍼셉트론에 입력하여, 상기 텍스트 박스의 업데이트된 관계 특징 집합을 획득하고, 상기 업데이트된 관계 특징 집합을 다음 서브 예측 네트워크에 입력하는 단계를 더 포함하는 어음 이미지 인식 방법.
제1항에 있어서,
상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 단계는,
상기 텍스트 박스의 유형 확률에 따라 상기 텍스트 박스의 유형을 확정하는 단계와,
상이한 텍스트 박스 사이의 관계 확률 및 확률 임계값에 따라, 구조 관계가 존재하는 후보 텍스트 박스 쌍을 확정하는 단계와,
상기 후보 텍스트 박스 쌍 및 상기 텍스트 박스의 유형에 따라, 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 단계를 포함하는 어음 이미지 인식 방법.
제8항에 있어서,
상기 후보 텍스트 박스 쌍 및 상기 텍스트 박스의 유형에 따라, 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하는 단계 이후,
상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스가 적어도 두 개이면, 상기 텍스트 박스가 기정의 유형인 지 확정하는 단계와,
상기 텍스트 박스가 기정의 유형이면, 상기 적어도 두 개의 관련 텍스트 박스에서, 상기 텍스트 박스와의 관계 확률이 가장 높은 관련 텍스트 박스를 상기 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 하는 단계를 더 포함하는 어음 이미지 인식 방법.
제1항, 제2항, 또는 제4항 중 임의의 한 항에 있어서,
상기 텍스트 박스의 속성 정보 집합은 상기 텍스트 박스의 위치 좌표, 이미지 영역 및 텍스트 내용을 포함하고,
상기 텍스트 박스의 관계 정보 집합은 상기 텍스트 박스와 기타 텍스트 박스 사이의 위치 좌표 차이값, 중심점 각도 차이값 및 중심점 유클리드 거리를 포함하는 어음 이미지 인식 방법.
제1항에 있어서,
어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합을 확정하는 단계는,
어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 위치 좌표를 획득하는 단계와,
상기 적어도 두 개의 텍스트 박스의 위치 좌표에 대해 왜곡 보정을 진행하는 단계와,
보정된 적어도 두 개의 텍스트 박스의 위치 좌표에 따라 상기 적어도 두 개의 텍스트 박스의 이미지 영역 및 텍스트 내용을 확정하는 단계를 포함하는 어음 이미지 인식 방법.
어음 이미지 인식 장치에 있어서,
어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 속성 정보 집합 및 관계 정보 집합을 확정하도록 구성되는 텍스트 검출 모듈과,
상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 정보 추리 모듈과,
상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스에 따라 상기 어음 이미지의 구조화 어음 데이터를 추출하도록 구성되는 어음 데이터 추출 모듈을 포함하고,
상기 정보 추리 모듈은,
상기 텍스트 박스의 속성 정보 집합 및 관계 정보 집합에 따라 상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확정하도록 구성되는 특징 확정 유닛과,
상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합에 따라, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 확정하도록 구성되는 확률 확정 유닛과,
상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률에 따라, 상기 텍스트 박스의 유형 및 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 유형 관계 확정 유닛을 포함하고,
상기 확률 확정 유닛은,
상기 텍스트 박스의 속성 특징 집합 및 관계 특징 집합을 확률 예측 네트워크에 입력하여, 상기 텍스트 박스의 유형 확률 및 상이한 텍스트 박스 사이의 관계 확률을 획득하도록 구성되고,
상기 확률 예측 네트워크는 수미가 상접되는 적어도 하나의 서브 예측 네트워크를 포함하되,
상기 확률 확정 유닛은,
상기 텍스트 박스의 관계 특징 집합을 현재 서브 예측 네트워크의 제1 퍼셉트론에 입력하여, 현재 감지 확률을 획득하고,
상기 현재 감지 확률 및 상기 텍스트 박스의 속성 특징 집합을 상기 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득하고,
상기 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크이면, 상기 제1 은닉 텍스트 특징 및 상기 속성 특징 집합을 상기 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 상기 텍스트 박스의 유형 확률을 획득하고, 상기 현재 감지 확률을 상이한 텍스트 박스 사이의 관계 확률로 하도록 구성되는 어음 이미지 인식 장치.
제12항에 있어서,
상기 텍스트 박스의 유형은 필드 속성 유형, 필드 값 유형, 테이블 헤더 유형 또는 테이블 유닛 유형을 포함하고,
상기 필드 속성 유형과 상기 필드 값 유형의 텍스트 박스에 필드 구조 관계가 존재하고,
상기 테이블 헤더 유형과 테이블 유닛 유형의 텍스트 박스에 테이블 구조 관계가 존재하는 어음 이미지 인식 장치.
삭제
제12항에 있어서,
상기 특징 확정 유닛은,
상기 텍스트 박스의 속성 정보 집합 중의 이미지 영역에 따라 상기 텍스트 박스의 시각 특징을 확정하고,
상기 텍스트 박스의 속성 정보 집합 중의 텍스트 내용에 따라 상기 텍스트 박스의 시맨틱 특징을 확정하고,
상기 시각 특징, 상기 시맨틱 특징 및 상기 속성 정보 집합 중의 위치 좌표를 상기 텍스트 박스의 속성 특징 집합으로 하고,
상기 속성 특징 집합 및 상기 관계 정보 집합에 따라 상기 텍스트 박스의 관계 특징 집합을 확정하도록 구성되는 어음 이미지 인식 장치.
삭제
삭제
제12항에 있어서,
상기 확률 확정 유닛은, 상기 현재 감지 확률 및 상기 텍스트 박스의 속성 특징 집합을 상기 현재 서브 예측 네트워크의 제1 은닉 계층에 입력하여, 제1 은닉 텍스트 특징을 획득한 후,
상기 현재 서브 예측 네트워크가 마지막 서브 예측 네트워크가 아니면, 상기 제1 은닉 텍스트 특징 및 상기 속성 특징 집합을 상기 현재 서브 예측 네트워크의 장단기 기억 네트워크 계층에 입력하여, 상기 텍스트 박스의 업데이트된 속성 특징 집합을 획득하고, 상기 업데이트된 속성 특징 집합을 다음 서브 예측 네트워크에 입력하고,
상기 제1 은닉 텍스트 특징 및 상기 관계 특징 집합을 상기 현재 서브 예측 네트워크의 제2 은닉 계층에 입력하여, 제2 은닉 텍스트 특징을 획득하고,
상기 제2 은닉 텍스트 특징을 상기 현재 서브 예측 네트워크의 제2 퍼셉트론에 입력하여, 상기 텍스트 박스의 업데이트된 관계 특징 집합을 획득하고, 상기 업데이트된 관계 특징 집합을 다음 서브 예측 네트워크에 입력하도록 더 구성되는 어음 이미지 인식 장치.
제12항에 있어서,
상기 유형 관계 확정 유닛은,
상기 텍스트 박스의 유형 확률에 따라 상기 텍스트 박스의 유형을 확정하도록 구성되는 텍스트 박스 유형 확정 서브 유닛과,
상이한 텍스트 박스 사이의 관계 확률 및 확률 임계값에 따라, 구조 관계가 존재하는 후보 텍스트 박스 쌍을 확정하도록 구성되는 텍스트 박스 쌍 확정 서브 유닛과,
상기 후보 텍스트 박스 쌍 및 상기 텍스트 박스의 유형에 따라, 상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스를 확정하도록 구성되는 관련 텍스트 박스 확정 서브 유닛을 포함하는 어음 이미지 인식 장치.
제19항에 있어서,
상기 유형 관계 확정 유닛은,
상기 텍스트 박스와 구조 관계가 존재하는 관련 텍스트 박스가 적어도 두 개이면, 상기 텍스트 박스가 기정의 유형인 지 확정하도록 구성되는 텍스트 박스 유형 판단 서브 유닛과,
상기 텍스트 박스가 기정의 유형이면, 상기 적어도 두 개의 관련 텍스트 박스에서, 상기 텍스트 박스와의 관계 확률이 가장 높은 관련 텍스트 박스를 상기 텍스트 박스와 구조 관계가 존재하는 최종 관련 텍스트 박스로 하도록 구성되는 관련 텍스트 박스 선별 서브 유닛을 더 포함하는 어음 이미지 인식 장치.
제12항, 제13항, 또는 제15항 중의 임의의 한 항에 있어서,
상기 텍스트 박스의 속성 정보 집합은 상기 텍스트 박스의 위치 좌표, 이미지 영역 및 텍스트 내용을 포함하고,
상기 텍스트 박스의 관계 정보 집합은 상기 텍스트 박스와 기타 텍스트 박스 사이의 위치 좌표 차이값, 중심점 각도 차이값 및 중심점 유클리드 거리를 포함하는 어음 이미지 인식 장치.
제12항에 있어서,
상기 텍스트 검출 모듈은,
어음 이미지에 대해 텍스트 검출을 진행하여, 상기 어음 이미지 중의 적어도 두 개의 텍스트 박스의 위치 좌표를 획득하도록 구성되는 위치 확정 서브 유닛과,
상기 적어도 두 개의 텍스트 박스의 위치 좌표에 대해 왜곡 보정을 진행하도록 구성되는 위치 보정 서브 유닛과,
보정된 적어도 두 개의 텍스트 박스의 위치 좌표에 따라 상기 적어도 두 개의 텍스트 박스의 이미지 영역 및 텍스트 내용을 확정하도록 구성되는 도문 확정 서브 유닛을 포함하는 어음 이미지 인식 장치.
적어도 하나의 프로세서와,
상기 적어도 하나의 프로세서와 통신 연결되는 메모리 장치를 포함하는 전자 기기에 있어서,
상기 메모리 장치에 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되고,
상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 제1항, 제2항, 제4항, 또는 제7항 내지 제9항 중 임의의 한 항의 어음 이미지 인식 방법을 수행하도록 구성되는 전자 기기.
컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능한 저장 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항, 제2항, 제4항, 또는 제7항 내지 제9항 중 임의의 한 항의 어음 이미지 인식 방법을 수행하도록 구성되는 비 일시적 컴퓨터 판독 가능한 저장 매체.
컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항, 제2항, 제4항, 또는 제7항 내지 제9항 중 임의의 한 항의 어음 이미지 인식 방법을 구현하도록 하는 컴퓨터 프로그램.