KR20140062563A - Apparatus and method for converting pdf document - Google Patents

Apparatus and method for converting pdf document Download PDF

Info

Publication number
KR20140062563A
KR20140062563A KR1020120127668A KR20120127668A KR20140062563A KR 20140062563 A KR20140062563 A KR 20140062563A KR 1020120127668 A KR1020120127668 A KR 1020120127668A KR 20120127668 A KR20120127668 A KR 20120127668A KR 20140062563 A KR20140062563 A KR 20140062563A
Authority
KR
South Korea
Prior art keywords
information
intersection
point
single line
line
Prior art date
Application number
KR1020120127668A
Other languages
Korean (ko)
Other versions
KR101449725B1 (en
Inventor
신용주
최기석
김재수
이홍로
이규철
차승준
최규진
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020120127668A priority Critical patent/KR101449725B1/en
Publication of KR20140062563A publication Critical patent/KR20140062563A/en
Application granted granted Critical
Publication of KR101449725B1 publication Critical patent/KR101449725B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed in the present invention are a method for automatically converting a PDF document file and a device thereof. According to the present invention, tables in a requested PDF document file are analyzed according to standard operation of the conversion-requested PDF document file; the analyzed tables are converted into a standard document based on predefined reference data and extracted as a cell-level data image instead of text; and the converted standard document is converted into an XML document according to an XML letter conversion format to be XML-structured. As the tables inserted in the PDF document file are accurately converted into and provided as an XML document file, the quality of document format conversion is fundamentally improved.

Description

PDF 문서 파일을 자동 변환하는 장치 및 방법{APPARATUS AND METHOD FOR CONVERTING PDF DOCUMENT}[0001] APPARATUS AND METHOD FOR CONVERTING PDF DOCUMENT [0002]

본 발명은 PDF 문서 파일을 자동 변환하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 PDF 문서에 포함된 표를 셀 범위 정보로 재설정한 후 설정된 셀 범위 정보를 XML 데이터로 변환할 수 있도록 한 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for automatically converting a PDF document file, and more particularly, to an apparatus and method for converting a set of cell range information into XML data after resetting a table included in a PDF document to cell range information, ≪ / RTI >

최근 들어, e-비즈니스와 IT 등에 대한 기술이 급속도로 발전함에 따라 기업 간의 업무처리에 있어서도, 종이로 된 문서를 교환하여 처리하는 방식에서 벗어나 전자적으로 정보를 처리하여 이를 토대로 기업 간에 업무를 처리하고 있다.In recent years, as technologies for e-business and IT have been developed rapidly, it is necessary to deal with the business between companies based on the processing of electronic information by exchanging paper documents and processing them. have.

즉, 사업 주체 간의 거래 활동에 있어서 전자 문서를 사용함으로써 업무처리비용의 절감, 거래시간 단축, 기업 경영의 효율성 및 경쟁력 강화 등의 효과를 얻기 위한 노력들이 있어왔다.In other words, there have been efforts to obtain effects such as reduction of business processing cost, reduction of transaction time, efficiency of enterprise management and strengthening of competitiveness by using electronic documents in business activities among business entities.

하지만, 이러한 전자 문서 사용의 효과에도 불구하고, 여전히 국내외적으로는 오프라인 형태의 종이 서류를 전자 문서와 병행하여 이용하고 있는 상황이다.However, in spite of the effectiveness of such electronic documents, domestic and foreign offline paper forms are being used in parallel with electronic documents.

또한, 종래에 전자 문서들은 매우 다양한 형태 또는 포맷의 전자 문서가 존재하고 있는데, 이러한 전자 문서의 다양한 형태 또는 포맷은 전자 문서의 원활한 교환과 이를 통한 업무 처리에 장애가 되는 요인으로 작용할 수 있으며, 시스템 간의 호환성 문제를 발생시켜 시스템 변경 및 추가 등의 불필요한 상호운용 비용을 발생시킬 수 있는 문제점도 있다.Conventionally, electronic documents exist in a wide variety of formats or formats, and various types or formats of electronic documents can interfere with smooth exchange of electronic documents and work processes through them, There arises a problem that unnecessary interoperability costs such as system changes and additions may be generated.

특히 종래에 PDF(Portable Document Format) 파일을 XML(eXtensible Markup Language) 문서 파일로 변환하여 저장하기 위해, 변환 엔진을 실행하는 경우 상기 PDF 문서 파일에 삽입된 그림, 도표, 각주와 같은 비텍스트에 의해 텍스트가 분리되는 현상이 빈번하게 발생하였다. In particular, when a conversion engine is executed to convert a PDF (Portable Document Format) file into an XML (eXtensible Markup Language) document file and store it, conventionally, a non-text such as a picture, Text separation often occurred.

이러한 이유로 PDF 문서 파일을 XML 문서 파일로 서식 변환하는 경우 변환하고자 하는 표가 보존되지 않는 현상이 발생하여 원문 자체에 텍스트 오류가 발생하게 되고, 그에 따라 서식 변환 품질이 낮아지는 문제점이 발생한다.For this reason, when a PDF document file is converted into an XML document file, a table to be converted is not preserved, and a text error occurs in the original document itself, thereby causing a problem that the format conversion quality is lowered.

본 발명은 상기 문제점을 해결하기 위하여 안출한 것으로, 본 발명의 목적은 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출하는 표준 문서 생성부와, XML 서식 변환 정보가 입력되면 상기 표준 문서를 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성부와, 상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공부를 포함하는 PDF 문서 파일을 자동 변환하는 장치를 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 문서의 서식 변환 품질을 근본적으로 증가할 수 있게 된다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above problems, and it is an object of the present invention to provide an image processing apparatus, an image processing method, A standard document generation unit for extracting cell range information based on the intersection information, deriving intersection information from the singular line information, and extracting cell range information based on the intersection information; And an XML document providing unit for providing the XML document file in response to the converted document request, thereby automatically converting the PDF document file into a PDF document file You can accurately convert the inserted table into an XML document file to fundamentally increase the format conversion quality of the document. The.

본 발명의 다른 목적은, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출하는 표준 문서 생성 단계와, XML 서식 변환 정보가 입력되면 상기 표준 문서를 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성 단계와, 상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공 단계를 포함하는 PDF 문서 파일을 자동 변환하는 방법을 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 문서의 서식 변환 품질을 근본적으로 증가할 수 있게 된다. Another object of the present invention is to extract table information analyzed according to a standard operation of a PDF document file requested to be converted from single line information having a start point and an end point based on predefined reference information, And generating an XML document file by converting the standard document according to the XML format conversion format information when the XML format conversion information is input, And an XML document providing step of providing the XML document file in response to a conversion document request, thereby converting the table inserted in the PDF document file into an XML document file So that the format conversion quality of the document can be fundamentally increased.

상기 목적을 달성하기 위한 본 발명의 제1 관점에 다른 기술적 과제는, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고, 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하며, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하는 장치로 구비되고, 이러한 장치는,  According to a first aspect of the present invention, there is provided a method of analyzing a table of a requested PDF document file according to a standard operation of a PDF document file requested to be converted, And converting the converted standard document into an XML document according to an XML correspondence format, the apparatus comprising:

변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환부와, Extracting single line information having a start point and an end point based on predefined reference information, analyzing the analyzed table information according to a standard operation of the PDF document file requested to be converted, and extracting, from the single line information, at least one common starting point or end point A standard document conversion unit for deriving information and extracting and storing cell range information based on the intersection information;

XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성부와, An XML document generation unit for generating an XML document file by converting a standard document having the cell range information according to the predefined XML format conversion format information when an XML format conversion request is input;

상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공부를 포함하는 것을 특징으로 한다.And an XML document providing unit for providing the XML document file in response to the converted document request.

바람직하게, 상기 표준 문서 변환부는,Preferably, the standard document conversion unit includes:

변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 도출된 각 시작점과 끝점에 대한 각 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출부와,A single line extracting unit for extracting single line information having coordinate information for each starting point and ending point derived on the basis of predefined reference information, table information analyzed according to the standard operation of the PDF document file requested to be converted,

상기 단일 선 정보로부터 단일 선들이 교차하는 교점 정보를 도출하는 교점 도출부와,An intersection deriving unit for deriving intersection information from which the single lines intersect from the single line information;

상기 교점 정보를 토대로 단일 선의 집합으로 생성된 셀 범위 정보를 추출하는 셀 범위 추출부를 포함하는 것을 특징으로 한다.And a cell range extracting unit for extracting cell range information generated as a set of single lines based on the intersection information.

바람직하게, 상기 단일 선 추출부는,Preferably, the single-

이미 정의된 표를 구성하는 각 선에 대한 시작점의 좌표 정보(x, y)과 끝점의 좌표 정보(x, y')을 가지는 단일 선 정보를 각각 추출하는 것을 특징으로 한다.Line information having coordinate information (x, y) of a starting point and coordinate information (x, y ') of an end point for each line constituting a table already defined.

바람직하게 상기 교점 도출부는,Preferably, the crossing-

상기 끝점의 좌표 정보 중 X축의 값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)과 상기 시작점의 좌표 정보 중 X 축 값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)을 설정하고,(A) of the horizontal line having the same value of the X-axis value (y) among the coordinate information of the end point and a single vertical line having the same value of the X-axis value (x) Sets a set of line information (b)

상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 한다. (X, y) (x ', y) of the set of single line information of the horizontal line and the first single line information (P, q) from the second point (M (p, q) (p, q ').

바람직하게, 상기 교점 도출부는,Preferably, the crossing-

상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q')을 토대로 두 제1 단일 선 정보 중 공통값을 가지는 교차점의 좌표 정보(p, y)를 도출하고,Based on the first single line information M (p, q) (p, q ') of the first single line information L (x, y) (x', y) Coordinate information (p, y) of an intersection point having a common value among the two first single-line information is derived,

도출된 교차점의 좌표 정보(p, y)가 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위(x, x', q, q') 내에 존재하는 경우 집합(a)(b)의 각 제1 단일 선으로부터 생성된 교점으로 판정하여 교점 리스트(N)에 교점 정보(p, y)를 추가하도록 구비되는 것을 특징으로 한다.When the derived coordinate information (p, y) of the intersection exists within each predetermined range (x, x ', q, q') derived from the first singular value information of each set (a) (b), and adds the intersection information (p, y) to the intersection list (N).

바람직하게 상기 교점 도출부는, Preferably, the crossing-

상기 도출된 교차점의 좌표 정보(p, y)가 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,If the coordinate information (p, y) of the derived intersection point does not exist within each predetermined range derived from the first singleton information of each set (a) (b), the first singleton information (P, q ') (p, q ") of L (x, y) (x', y)

추출된 집합(b)의 제2 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))로부터 제2 교점을 도출하도록 구비되는 것을 특징으로 한다.(X, y) of the set (a) and the second single-line information (b) of the set (b) (P, q ") from the second point of intersection (M (p, q ')).

바람직하게 상기 교점 도출부는,Preferably, the crossing-

상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,If the second singular value information of the set (b) is the last singular value, the second singular value information L (x ', y) (x ", y) 1 singular ray information (M (p, q) (p, q '))

추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 한다.(X ', y) (x ", y) of the set (a) if the second singular value information of the extracted set (a) is not the last singular value information of the set (a) And the first singular line information M (p, q) (p, q ') of the set (b).

바람직하게, 상기 셀 범위 정보 도출부는,Preferably, the cell range information deriving unit comprises:

상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 한다. (A) and a first intersection (L) of the set (a) based on the coordinate information of each intersection point of the intersection point list, and a second intersection point And a cell range extraction and storage based on the first intersection (M) of the intersection set (b).

바람직하게, 상기 셀 범위 정보 도출부는,Preferably, the cell range information deriving unit comprises:

상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)의 옆에 위치한 제2 교점(N)을 설정하고,When the X-axis coordinate value of the first intersection L of the set (a) and the X-axis coordinate value of the first intersection M of the set (b) coincide with each other, Two intersection points N are set,

설정된 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 지를 판단하며,Determines whether single line information passing through the set second intersection N exists,

판단 결과 제2 교점을 지는 단일 선 정보가 존재하는 경우 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장하고,(X), N (x) and L (y) of the set (a) and the second intersection N (x) ) And the second intersection N (x), M (y) of the set b and the second intersection N (x), M (y)

상기 집합(a)의 제1 교점(L)을 제2 교점(N)으로 업데이트하며,Updates the first intersection (L) of the set (a) to the second intersection (N)

상기 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 경우 집합(a)의 하단에 위치한 집합을 집합(a)으로 업데이트한 후 상기 업데이트된 집합(a)이 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 한다.And determines whether the updated first intersection point L1 is the last intersection point of the set a. If the updated first intersection point L1 is the last intersection point of the set a, And repeatedly extracts and stores cell range information until the updated set (a) reaches the last set after updating the set to the set (a).

본 발명의 다른 관점에 따른 기술적 과제에 따른 PDF 문서 파일을 자동 변환하는 방법은, According to another aspect of the present invention, there is provided a method of automatically converting a PDF document file,

변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환 과정과, Extracting single line information having a start point and an end point based on predefined reference information, analyzing the analyzed table information according to a standard operation of the PDF document file requested to be converted, and extracting, from the single line information, at least one common starting point or end point Extracting and storing cell range information based on the intersection information,

XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성 과정과, An XML document generation step of generating an XML document file by converting a standard document having the cell range information according to the previously defined XML format conversion format information when an XML format conversion request is input;

변환 문서 요청에 응답하여 상기 XML 문서 파일을 제공하는 XML 문서 제공과정을 포함하는 것을 특징으로 한다.And an XML document providing step of providing the XML document file in response to the converted document request.

바람직하게, 상기 표준 문서 생성 과정은,Preferably, the standard document generation step includes:

변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 각 시작점과 끝점의 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출 단계와,A single line extraction step of extracting single line information having coordinate information of each starting point and an ending point based on the table information analyzed according to the standard operation of the PDF document file requested to be converted,

상기 단일 선 정보로부터 상기 교점 정보를 도출하는 교점 도출 단계와,An intersection deriving step of deriving the intersection information from the singular line information;

상기 교점 정보를 토대로 셀 범위 정보를 추출하는 셀 범위 추출 단계를 포함하는 것을 특징으로 한다.And a cell range extracting step of extracting cell range information based on the intersection information.

바람직하게, 상기 단일 선 추출 단계는,Preferably, the single line extracting step includes:

이미 정의된 표를 구성하는 각 선에 대한 시작점의 좌표 정보(x, y)과 끝점의 좌표 정보(x, y')을 가지는 단일 선 정보를 각각 추출하는 것을 특징으로 한다.Line information having coordinate information (x, y) of a starting point and coordinate information (x, y ') of an end point for each line constituting a table already defined.

바람직하게 상기 교점 도출 단계는,Preferably, the step of deriving an intersection includes:

상기 끝점의 좌표 정보 중 Y축 좌표값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점의 좌표 정보 중 X축 좌표값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정하고,(A) of the horizontal line having the same Y-axis coordinate value (y) among the coordinate information of the end point and a vertical line having the same X-axis coordinate value (x) among the coordinate information of the starting point (B) of the singular line information of the set < RTI ID = 0.0 >

상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 한다. (X, y) (x ', y) of the set of single line information of the horizontal line and the first single line information (P, q) from the second point (M (p, q) (p, q ').

바람직하게, 상기 교점 도출 단계는,Preferably, the step of deriving an intersection includes:

상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q')을 토대로 두 제1 단일 선 정보 중 공통값을 가지는 교차점(p, y)를 도출하고,Based on the first single line information M (p, q) (p, q ') of the first single line information L (x, y) (x', y) The intersection point (p, y) having a common value among the two first single-line information is derived,

도출된 교차점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하는 경우 교점으로 판정하여 교점 리스트(N)에 추가하도록 구비되는 것을 특징으로 한다.And when the derived intersection point (p, y) exists within each predetermined range derived from the first singular line information of each set (a) (b), it is determined to be an intersection and added to the intersection list N do.

바람직하게 상기 교점 도출 단계는, Preferably, the step of deriving an intersection includes:

상기 도출된 교차점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,If the derived intersection point (p, y) does not exist within each predetermined range derived from the first singleton information of each set (a) (b), the first singlet line information L (x (p, q ') (p, q ") of the set (b), y (x', y)

추출된 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 지를 판단하고 판단 결과 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))으로부터 교점을 도출하도록 구비되는 것을 특징으로 한다.Determining whether the second singular value information of the extracted set (b) is the last singular value information, and if the second singular value information of the result set (b) is not the last singular value information, (P, q ') (p, q ") of the line information L (x, y) (x', y) and the second single line information M .

바람직하게 상기 교점 도출 단계는,Preferably, the step of deriving an intersection includes:

상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,If the second singular value information of the set (b) is the last singular value, the second singular value information L (x ', y) (x ", y) 1 singular ray information (M (p, q) (p, q '))

추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 한다.(X ', y) (x ", y) of the set (a) if the second singular value information of the extracted set (a) is not the last singular value information of the set (a) And the first singular line information M (p, q) (p, q ') of the set (b).

바람직하게, 상기 셀 범위 도출 단계는,Preferably, the cell range deriving step includes:

상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 한다. (A) and a first intersection (L) of the set (a) based on the coordinate information of each intersection point of the intersection point list, and a second intersection point And a cell range extraction and storage based on the first intersection (M) of the intersection set (b).

바람직하게, 상기 셀 범위 도출 단계는,Preferably, the cell range deriving step includes:

상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)의 옆에 위치한 제2 교점(N)을 설정하고,When the X-axis coordinate value of the first intersection L of the set (a) and the X-axis coordinate value of the first intersection M of the set (b) coincide with each other, Two intersection points N are set,

설정된 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 지를 판단하며,Determines whether single line information passing through the set second intersection N exists,

판단 결과 제2 교점을 지는 단일 선 정보가 존재하는 경우 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장하고,(X), N (x) and L (y) of the set (a) and the second intersection N (x) ) And the second intersection N (x), M (y) of the set b and the second intersection N (x), M (y)

상기 집합(a)의 제1 교점(L)을 제2 교점(N)으로 업데이트하며,Updates the first intersection (L) of the set (a) to the second intersection (N)

상기 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 경우 집합(a)의 하단에 위치한 집합을 집합(a)로 업데이트한 후 상기 업데이트된 집합(a)가 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 한다.And determines whether the updated first intersection L is the last intersection of the set a and if the updated first intersection L is the last intersection of the set a, And then repeatedly extracts and stores the cell range information until the updated set (a) reaches the last set after updating the set to the set (a).

상술한 바와 같이 본 발명에 따르면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상시킬 수 있는 효과를 얻는다. As described above, according to the present invention, the table of the requested PDF document file is analyzed according to the standard operation of the PDF document file requested to be converted, and the analyzed table is converted into the standard document based on the predefined reference information, Instead, it extracts the image of the cell range information, converts the converted standard document into an XML document according to the XML correspondence format, and provides the converted XML document as an XML structure. Accordingly, the table inserted in the PDF document file is converted into an XML document file Thus, the effect of fundamentally improving the quality of format conversion of the document is obtained.

도 1은 본 발명의 실시 예에 따른 PDF 문서 파일을 자동 변환하는 장치의 구성을 보인 도이다.
도 2는 본 발명의 실시 예에 따라 표준 문서 변환부의 구성을 보인 예시도이다.
도 3은 본 발명의 실시 예에 적용되는 PDF 문서 파일에 삽입된 표와 그 표의 표준 오퍼레이션을 보인 예시도이다.
도 4는 본 발명의 실시 예에 따라, PDF 문서 파일의 표로부터 추출된 단일 선 정보를 보인 예시도이다.
도 5는 본 발명의 실시 예에 따라, 추출된 단일 선 정보로부터 도출된 교점을 보인 예시도이다.
도 6은 본 발명의 실시 예에 따라, 도출된 교점으로부터 추출된 셀 범위 정보를 보인 예시도이다.
도 7은 본 발명의 다른 실시 예에 따른 PDF 문서 파일을 자동 변환하는 과정을 보인 흐름도이다.
도 8은 본 발명의 실시 예에 따라, PDF 문서 파일에 저장된 표준 오퍼레이션을 토대로 도출된 단일 선 정보로부터 교점을 도출하는 과정을 보인 흐름도이다.
도 9는 본 발명의 실시 예에 따른 교점 정보로부터 셀 범위 정보 추출하는 과정을 보인 흐름도이다.
FIG. 1 is a diagram illustrating a configuration of an apparatus for automatically converting a PDF document file according to an embodiment of the present invention.
2 is an exemplary diagram showing a configuration of a standard document conversion unit according to an embodiment of the present invention.
3 is an exemplary diagram showing a table inserted in a PDF document file applied to an embodiment of the present invention and a standard operation of the table.
4 is an exemplary diagram showing single line information extracted from a table of a PDF document file according to an embodiment of the present invention.
5 is an exemplary diagram showing an intersection derived from extracted single line information according to an embodiment of the present invention.
6 is an exemplary diagram showing cell range information extracted from the derived intersection according to an embodiment of the present invention.
7 is a flowchart illustrating a process of automatically converting a PDF document file according to another embodiment of the present invention.
8 is a flowchart illustrating a process of deriving an intersection from single line information derived based on standard operations stored in a PDF document file according to an embodiment of the present invention.
9 is a flowchart illustrating a process of extracting cell range information from intersection information according to an embodiment of the present invention.

본 발명과 본 발명의 동작상의 잇점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다. For a better understanding of the present invention and its operational advantages and the objects attained by the practice of the present invention, reference should be made to the accompanying drawings and the accompanying drawings which illustrate preferred embodiments of the present invention.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, the present invention will be described in detail with reference to the preferred embodiments of the present invention with reference to the accompanying drawings. Like reference symbols in the drawings denote like elements.

하기 설명에서 구체적인 특정 사항들을 나타내고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해 제공된 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.In the following description, specific details are set forth in order to provide a more thorough understanding of the present invention. In the following description of the present invention, detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

도 1은 본 발명의 실시 예에 따른 PDF 문서 파일을 자동 변환하는 장치의 구성을 보인 도이고, 도 2는 도 1에 도시된 PDF 문서 파일을 자동 변환하는 장치의 표준 문서 변환부의 구성을 보다 구체적으로 보인 도이다.FIG. 1 is a diagram illustrating a configuration of an apparatus for automatically converting a PDF document file according to an embodiment of the present invention. FIG. 2 is a block diagram illustrating a configuration of a standard document conversion unit of an apparatus for automatically converting a PDF document file shown in FIG. As shown in FIG.

본 발명의 실시 예에 따른 PDF 문서 파일을 자동 변환하는 장치는, 도 1및 도 2에 도시한 바와 같이, 표준 분서 변환부(10), XML 문서 생성부(30), 및 XML 문서 제공부(50)를 포함한다. 1 and 2, the apparatus for automatically converting a PDF document file according to an embodiment of the present invention includes a standard specification converting unit 10, an XML document generating unit 30, and an XML document providing unit 50).

여기서, 상기 표준 문서 변환부(10)는, 도 2에 도시된 바와 같이 단일 선 추출부(11), 교점 도출부(13), 및 셀 범위 도출부(15)를 포함한다.Here, the standard document conversion unit 10 includes a single line extraction unit 11, an intersection derivation unit 13, and a cell range derivation unit 15 as shown in FIG.

상기 단일 선 추출부(11)는 PDF 문서 파일에 저장된 표를 표준 오퍼레이션에 따라 분석하고, 분석된 표 정보를 미리 정의된 기준 정보를 토대로 각 시작점과 끝점에 대한 좌표로 설정된 단일 선 정보로 추출하도록 구비된다.The single line extracting unit 11 analyzes the table stored in the PDF document file according to the standard operation and extracts the analyzed table information as single line information set as coordinates for each starting point and ending point based on the predefined reference information Respectively.

즉, 도 3의 a)에 도시된 바와 같은 PDF 문서 파일에 첨부된 표가 삽입된 경우 표준 오퍼레이션을 통해 도 3의 b)에 도시된 바와 같은 표 정보가 저장된다.That is, if a table attached to the PDF document file as shown in FIG. 3A is inserted, table information as shown in FIG. 3B is stored through standard operation.

상기 단일 선 추출부(11)는 도 3의 b)에 도시된 표 정보와 이미 정의된 기준 정보를 토대로 죄표계로 위치가 설정된 각 시작점(x, y)과 끝점(x', y)을 가지는 단일 선 정보를 추출한다. 이때 상기 단일 선 정보는 도 4에 도시된 바와 같다.The single line extracting unit 11 extracts a single line having each start point (x, y) and end point (x ', y) set in the pen table based on the tabular information shown in FIG. 3 b and the already- Extracts line information. At this time, the single line information is as shown in FIG.

그리고, 상기 단일 선 정보는, 교점 도출부(13)로 제공된다.Then, the single line information is provided to the intersection deriving unit 13.

상기 교점 도출부(13)는 각 좌표계로 표시된 시작점과 끝점을 가지는 단일 선 정보로부터 각 단일 선에 대한 교점을 도출하도록 구비된다.The intersection derivation unit 13 is configured to derive an intersection point for each single line from single line information having a start point and an end point indicated by respective coordinate systems.

즉, 상기 교점 도출부(13)는, 상기 끝점(y)가 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점(x)가 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정하고, 상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')로부터 제1 교점(p, y)을 도출한다.That is, the intersection derivation unit 13 determines that the set (a) of the single line information of the horizontal line having the same value of the end point (y) and the single line information of the vertical line having the same starting point (X, y) (x ', y) of a set of single line information of the horizontal line and a set of single line information of the vertical line (p, q) from the first single line information M (p, q) (p, q '

예를 들어, 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q')을 토대로 두 제1 단일 선 정보 중 공통값을 가지는 교차점(p, y)이 도출되고, 도출된 교차점(p, y)이 각 집합(a)(b)의 각 제1 단일 선 정보L((x,y)(x', y), M(p, q)(p, q'))로부터 도출된 각 소정 범위 내에 존재하는 경우 교점으로 판정하여 교점 리스트(N)에 추가된다.For example, the first singular line information M (p, q) (p, q) of the set (a) and the first singular line information L (x, y) (P, y) having the common value among the first single-line information is derived based on the first single-line information L (t), and the derived intersection point (p, y) (x, y) (x ', y) and M (p, q) (p, q').

한편, 상기 도출된 교차점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출하고, 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))으로부터 교점이 도출된다.On the other hand, when the derived intersection point (p, y) does not exist within each predetermined range derived from the first single line information of each set (a) (b), the first singlet line information L (p, q ')) of the set (b, x) and the second singular line information M (p, q' (X, y) and the second single-line information M (p, q) of the set (b) in the set (a) ') (p, q' ')).

또한 상기 교점 도출부(13)는, 상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출하고, 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출한다.(X ', y) (x', y ') of the set (a) when the second singular value information of the set (b) is the last singular value, (p, q ') of the set (a) and the first singular line information M (p, q') of the set (X, y) (x ", y) and the first singular line information M (p, q) of the set (b) of the set (a) (p, q ')).

상기의 교점 도출부(13)의 교점의 도출하는 일련의 과정은 집합(a)과 집합(b)에 속하는 모든 단일 선 정보가 완료될 때 까지 반복 실행된다.The sequence of deriving the intersection of the intersection derivation unit 13 is repeated until all the singles information belonging to the set (a) and the set (b) is completed.

상기의 일련의 과정을 통해 도출된 교점 정보는 도 5에 도시된 바와 같다.The intersection information derived through the above-described series of processes is as shown in FIG.

본 발명의 실시 예에서, 집합(a)의 제1 단일 선 정보와 집합(b)의 제1 단일 선 정보를 토대로 제1 교점을 도출한 후 집합(a)의 열 방향으로 이동하여 다음 교점을 도출한 후 행 방향으로 이동하여 다음 교점을 도출하는 것으로 설명하였으나, 제1 교점 추출 후 행 방향으로 이동하여 다음 교점을 도출한 후 열 방향을 이동하여 다음 교점을 도출할 수 있으며, 제1 교점 추출 후 행 방향으로 이동하여 다음 교점을 도출한 후 열 방향을 이동하여 다음 교점을 도출하는 과정은 당업자에 의해 자명한 사항이므로 이에 대한 상세한 설명은 생략한다.In the embodiment of the present invention, the first intersection point is derived based on the first singleton information of the set (a) and the first singleton information of the set (b), and then moves in the column direction of the set (a) It is possible to derive the next intersection point by deriving the next intersection point after moving from the first intersection point to the row direction and extracting the next intersection point, The process of moving in the rearward direction to derive the next intersection point and then moving the column direction to derive the next intersection point will be obvious to those skilled in the art, and thus a detailed description thereof will be omitted.

한편, 각 단일 선 정보를 토대로 모든 교점의 추출이 완료되면 상기 교점 정보는 셀 범위 추출부(15)로 제공된다.On the other hand, when the extraction of all the intersection points is completed on the basis of the single line information, the intersection information is provided to the cell range extraction unit 15.

상기 셀 범위 추출부(15)는 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비된다.The cell range extractor 15 aligns the set of intersection points (a) located at the upper end and the first intersection (L) of the set (a) after arranging based on the coordinate information of each intersection point of the intersection point list, Extracts and stores the cell range based on the intersection point (b) located at the lower end and the first intersection (M) of the intersection point (b) based on the intersection point (L).

즉, 상기 셀 범위 도출부(15)는, 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 정렬된 교점으로부터 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 추출한다.That is, the cell range derivation unit 15 arranges the cell range derivation unit 15 on the basis of the coordinate information for each intersection point of the intersection point list, (B) of the intersection points located at the lower end with respect to the first intersection point (L), and the first intersection point (M) of the intersection point (b) are extracted.

그리고, 상기 셀 범위 도출부(15)는 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)의 옆에 위치한 제2 교점(N)을 추출하고, 추출된 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 지를 판단하며, 판단 결과 제2 교점을 지는 단일 선 정보가 존재하는 경우 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장한다. 상기의 일련의 과정을 통해 도출된 셀 범위 정보는 도 6에 도시된 바와 같다.If the X-axis coordinate value of the first intersection L of the set (a) and the X-axis coordinate value of the first intersection M of the set (b) are coincident with each other A second intersection N positioned next to the first intersection L is extracted and it is determined whether single line information passing through the extracted second intersection N exists. (X) and N (y) of the set (a) and the second intersection (N (x), N (X (x), M (y)) and the second intersection (N (x), M (y)). The cell range information derived through the above process is as shown in FIG.

또한, 상기 셀 범위 도출부15)는, 상기 집합(a)의 제1 교점(L)을 제2 교점(N)으로 업데이트하고, 상기 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 경우 집합(a)의 하단에 위치한 집합을 집합(a)로 업데이트한 후 상기 업데이트된 집합(a)가 마지막 집합에 도달할 때 까지 셀 범위 정보 추출 및 저장을 반복 실행한다.The cell range derivation unit 15 updates the first intersection L of the set a to the second intersection N and updates the updated first intersection L to the end of the set a, And if the updated first intersection L is the last intersection of the set a, update the set located at the lower end of the set a to the set a, ) Repeatedly extracts and stores cell range information until the last set is reached.

본 발명의 실시 예에서, 집합(a)의 제1 교점과 집합(b)의 제1 교점을 토대로 셀 범위 정보를 도출한 후 집합(a)의 열 방향으로 이동하여 다음 셀 범위 정보 도출한 후 행 방향으로 이동하여 다음 셀 범위 정보를 도출하는 것으로 설명하였으나, 집합(a)의 제1 교점과 집합(b)의 제1 교점을 토대로 셀 범위 정보를 도출한 후행 방향으로 이동하여 다음 셀 범위를 도출한 후 열 방향을 이동하여 다음 셀 범위를 도출할 수 있으며, 셀 범위 추출 후 행 방향으로 이동하여 다음 셀 범위를 도출한 후 열 방향을 이동하여 다음 셀 범위를 도출하는 과정은 당업자에 의해 자명한 사항이므로 이에 대한 상세한 설명은 생략한다.In the embodiment of the present invention, the cell range information is derived based on the first intersection of the set (a) and the first intersection of the set (b), and then moved in the column direction of the set (a) The cell range information is derived from the first intersection of the set (a) and the first intersection of the set (b) to move to the next cell range, The process of deriving the next cell range by deriving the next cell range by moving in the row direction after extracting the cell range, and then moving the column direction to derive the next cell range can be performed by a person skilled in the art Therefore, a detailed description thereof will be omitted.

그리고, 상기 셀 범위 도출부(15)의 셀 범위 정보는 XML 문서 생성부(30)로 제공되며, 상기 XML 문서 생성부(30)는, XML 서식 변환 정보가 입력되면 셀 범위 정보를 포함하는 상기 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하고,생성된 XML 문서 파일은 XML 문서 제어부(50)로 제공된다.The cell range information of the cell range derivation unit 15 is provided to the XML document generation unit 30. When the XML format conversion information is input, the XML document generation unit 30 generates the cell range information The standard document is converted according to the predefined XML format conversion format information to generate an XML document file, and the generated XML document file is provided to the XML document control unit 50.

상기 XM 문서 제어부(50)는 변환 문서 요청에 응답하여 상기 XML 문서 파일을 미리 정의된 XML 구조화하여 제공한다.The XM document control unit 50 provides the XML document file in a predefined XML structure in response to the converted document request.

변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공하는 일련의 과정을 도 7 내지 도 9을 참조하여 보다 구체적으로 설명한다.The table of the requested PDF document file is analyzed according to the standard operation of the PDF document file requested to be converted, the analyzed table is converted into the standard document based on the predefined reference information, the table is extracted as the image of the cell range information instead of the text , And converting the converted standard document into an XML document according to the XML correspondence conversion format, and providing the XML document as an XML structure will be described in more detail with reference to FIGS. 7 to 9. FIG.

도 7은 도 1 및 도 2에 도시된 PDF 문서 파일을 자동 변환하는 장치의 동작 과정을 보인 흐름도이고 도 8은 도 7의 교점 도출 과정을 보다 구체적으로 보인 흐름도이며, 도 9는 도 7의 셀 범위 도출 과정을 보인 흐름도이다, 도 3 내지 도 9을 참조하여 본 발명의 다른 실시 예에 따른 PDF 문서 파일을 자동 변환하는 과정을 설명한다.FIG. 7 is a flowchart illustrating an operation of an apparatus for automatically converting a PDF document file shown in FIG. 1 and FIG. 2. FIG. 8 is a flowchart illustrating a process of deriving an intersection of FIG. FIG. 3 is a flowchart illustrating a process of deriving a range of a PDF document file according to another embodiment of the present invention.

우선, 상기 표준 문서 변환부(10)는 단계(100)를 통해 변환 요청된 PDF 문서 파일을 수신하고 수신된 PDF 문서 파일의 표 정보를 분석한다(단계 200).First, the standard document converter 10 receives the PDF document file requested to be converted through step 100 and analyzes the table information of the received PDF document file (step 200).

그리고, 상기 분석된 표 정보와 이미 정의된 기준 정보를 토대로 PDF 문서 파일의 표에 대한 단일 선 정보를 도출한다(단계 300).Then, the single line information for the table of the PDF document file is derived based on the analyzed table information and the previously defined reference information (step 300).

즉, 단일 선 정보는, 도 4에 도시된 바와 같이, 이미 정의된 표를 구성하는 각 선에 대한 시작점의 좌표(x, y)과 끝점의 좌표(x, y')을 가진다.That is, the single line information has coordinates (x, y) of the starting point and coordinates (x, y ') of the end point for each line constituting the already defined table, as shown in Fig.

이러한 단일 선 정보는 표준 문서 변환부(10)의 교점 도출부(13)에 제공된다.Such singularity information is provided to the intersection derivation unit 13 of the standard document conversion unit 10. [

상기 교점 도출부(13)는 단계(400)를 통해 단일 선 정보를 토대로 각 선의 교차점인 교점을 도출한다.The intersection derivation unit 13 derives an intersection point, which is an intersection point of each line, based on the single line information through step 400. [

이하 도 8을 참조하여 교점 도출부(13)에서 교점 정보를 도출하는 과정을 설명한다.Hereinafter, the process of deriving the intersection information at the intersection derivation unit 13 will be described with reference to FIG.

상기 교점 도출부(13)는 단계(401)를 통해 상기 끝점(y)가 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점(x)가 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정한다.The intersection derivation unit 13 determines in step 401 whether the set a of the single line information of the horizontal line having the same value of the end point y and the single set of the vertical line having the same starting point x Set a set of line information (b).

그리고, 상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')에 대한 제1 교점을 도출한다.(X, y) (x ', y) of the set of single-line information (a) of the horizontal line and the first single The first intersection point for the line information M (p, q) (p, q ') is derived.

즉, 교점 도출부(13)는 단계(403) 및 단계(405)를 통해 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')을 추출하고, 단계(407)를 통해 추출된 두 집합(a)(b)의 제1 단일 선 정보에 대한 공통값인 교차점(N(p, y))를 도출한 후 도출된 교차점이 교점 인지를 판단한다.That is, the intersection derivation unit 13 obtains the first singular line information L (x, y) (x ', y) of the set (a) of single line information of the horizontal line through the steps 403 and 405, (P, q ') among the set of linear information of the vertical line (b) and the first single line information M (p, q) (p, y), which is a common value for the first single-line information of the first single-line information of b), and determines whether the derived intersection is an intersection.

여기서, 교점은 상기 단계(407)에서 도출된 교차점(N(p, y))의 X 축 값과 Y 축값이 소정 범위(x<= p<=x' 이고, p<=y<=p') 이내에 존재하는 지에 따라 판정된다.In this case, the intersection point is set such that the X-axis value and the Y-axis value of the intersection N (p, y) derived in step 407 are within a predetermined range (x <= p <= x 'and p <= y <= p' ) Of the present invention.

즉, 상기 단계(407)의 판단 결과 교차점(N(p, y))의 X 축 값과 Y 축값이 소정 범위 내에 존재하는 경우 단계(409)를 통해 교점(N(p,y))으로 판정한 후 교점 정보가 교점 리스트에 존재하는 지를 판단하며(단계 411), 판단 결과 교점 정보(N(p, y))가 존재하지 아니한 경우 교점 리스트에 교점 정보(N(p, y))를 추가한다(단계 413).If the X axis value and the Y axis value of the intersection point N (p, y) are within the predetermined range as a result of the determination in step 407, the process proceeds to step 409 to determine the intersection point N (p, y) (P, y) is added to the intersection list when it is determined that the intersection information does not exist in the intersection list (step 411) (Step 413).

그리고, 상기 단계(407)의 판단 결과, 교차점(N(p, y))의 X 축 값과 Y 축값이 상기 소정 범위 내에 존재하지 아니한 경우 상기 교점 도출부(13)는 단계(415)를 통해 행 방향의 집합(b)의 제2 단일선 정보(M(p, q')(p, q")를 추출하고, 추출된 제2 단일 선 정보가 상기 집합(b)의 마지막 단일 선 정보인 지를 판단하며(단계 417), 단계(417)의 판단 결과 추출된 제2 단일 선 정보가 상기 집합(b)의 마지막 단일 선 정보가 아닌 경우 상기 단계(407)로 진행하여, 집합(a)의 제1 단일선 정보(L(x,y)(x', y))와 집합(b)의 제2 단일 선 정보(M(p, q')(p,q"))의 공통점인 제2 교점을 도출한다.If the X axis value and the Y axis value of the intersection point N (p, y) do not exist within the predetermined range as a result of the determination in step 407, the intersection derivation unit 13 proceeds to step 415 Extracts second singular line information M (p, q ') (p, q ") in the row direction set b and outputs the extracted second singular line information as the last singlet line information (Step 417). If it is determined in step 417 that the extracted second single-line information is not the last single-line information in the set (b), the process proceeds to step 407, (P, q ')) of the first singular line information L (x, y) (x', y) Derive an intersection.

한편, 상기 단계(417)에서 추출된 제2 단일 선 정보가 상기 집합(b)의 마지막 단일 선 정보가 인 경우 상기 교점 도출부(13)는 단계(419)를 통해 열 방향의 집합(a)의 제2 단일 선 정보(L(x', y)(x", y)를 추출하고, 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보인 지를 판단하며(단계 421), 단계(421)의 판단 결과 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보인 경우 메인 로직으로 리턴한다.If the second single-line information extracted in step 417 is the last single-line information of the set (b), the intersection derivation unit 13 determines the set of column directions (a) through step 419, (X ', y) (x ", y) of the set (a) and determines whether the second single-line information of the extracted set (a) is the last single- (Step 421). If the second singular value information of the set (a) extracted as the determination result of step 421 is the last singular value information of the set (a), it returns to the main logic.

한편, 상기 단계(421)의 판단 결과 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 단계(405)로 진행하여 집합(b)의 제1 단일선 정보와 공통점인 교점을 도출한다.On the other hand, if it is determined in step 421 that the second single-line information of the extracted set a is not the last single-line information of the set a, the process proceeds to step 405, Derive an intersection that is common to single line information.

이때 각 집합(a)(b)의 단일선 정보에 대해 도출된 교점은 도 5에 도시된 바와 같다.At this time, the intersection point derived for the single line information of each set (a) and (b) is as shown in FIG.

그리고, 상기 단계(400)에서 도출된 교점 정보는 셀 범위 도출부(15)로 제공되며, 셀 범위 도출부(15)는 단계(500)를 통해 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장한다.The intersection information derived in the step 400 is provided to the cell range derivation unit 15 and the cell range derivation unit 15 calculates the intersection point based on the coordinate information for each intersection point of the intersection point list (A) of the set (a), a set of intersections (b) located at the lower end with respect to the first intersection (L), and an intersection set and extracts and stores the cell range based on the first intersection (M) of b).

상기 셀 범위 도출부(15)에서 교점 정보를 토대로 셀 범위 정보를 도출하는 과정은 도 9를 참조하여 설명한다.The process of deriving the cell range information based on the intersection information in the cell range derivation unit 15 will be described with reference to FIG.

즉, 도 9에 도시된 바와 같이, 셀 범위 도출부(15)는, 단계(501)를 통해 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 이어 단계(503) 내지 단계(509)를 통해 정렬된 교점 정보의 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 추출한다.9, the cell range derivation unit 15 aligns on the basis of the coordinate information for each intersection point of the intersection list through step 501, and then proceeds to steps 503 to 509, A set of intersections located at the upper end of the intersection information arranged through the first intersection L and a first intersection L of the set a and a set of intersections located at the lower end based on the first intersection L, And the first intersection (M) of the intersection set (b).

그리고 셀 범위 도출부(15)는 단계(511)를 통해 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 지를 판단한다.The cell range derivation unit 15 then outputs the X axis coordinate value of the first intersection point L of the set a and the X axis coordinate value X of the first intersection point M of the set a through the step 511, Are coincident with each other.

상기 단계(511)의 판단 결과 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 상기 셀 범위 도출부(15)는 단계(513)를 통해 제1 교점(L)의 옆에 위치한 제2 교점(N)을 추출한다.If it is determined in step 511 that the X axis coordinate value of the first intersection L of the set a matches the X axis coordinate value of the first intersection M of the set b, The derivation unit 15 extracts a second intersection N positioned next to the first intersection L through step 513. [

그리고, 상기 셀 범위 도출부(15)는 단계(515)를 통해 상기 추출된 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 지를 판단하며, 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 경우 단계(517)를 통해 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장한다.The cell range derivation unit 15 determines whether single line information passing through the extracted second intersection N exists in step 515. If the single line information passes through the second intersection N, L (y) and the second intersection N (x), N (y)) of the set (a) through step 517, (X) and M (y) of the set (b) and the second intersection (N (x), M (y)).

또한, 상기 셀 범위 도출부(15)는, 단계(519)를 통해 상기 집합(a)의 제1 교점(L)을 제2 교점(N)으로 업데이트하고, 단계(521)를 통해 상기 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 지를 판단한다.The cell range derivation unit 15 also updates the first intersection L of the set a with the second intersection N via step 519 and updates the updated It is determined whether or not the first intersection point L1 is the last intersection point of the set (a).

여기서, 상기 단계(521)의 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점이 아닌 경우 상기 단계(507)로 진행하여 업데이터된 제1 교점(L1)과 집합(b)의 제1 교점(M)을 토대로 셀 범위 정보를 추출한다.If the updated first intersection point L1 is not the last intersection point of the set a as a result of the determination in step 521, the flow proceeds to step 507 to update the updated first intersection point L1 and the set b, The cell range information is extracted on the basis of the first intersection M of the cell.

상기 단계(521)의 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 경우 상기 셀 범위 도출부(15)는 단계(523)를 통해 집합(a)의 하단에 위치한 집합(a1)을 집합(a)로 업데이트한 후 단계(525)을 통해 상기 업데이트된 집합(a)가 마지막 집합인 지를 판단한다.If the updated first intersection point L1 is the last intersection of the set a as a result of the determination in step 521, the cell range derivation unit 15 determines in step 523, (a1) to the set (a), and then, in step 525, determines whether the updated set (a) is the last set.

상기 단계(525)의 판단 결과 업데이트된 집합(a)이 마지막 집합이 아닌 경우 상기 단계(505)로 진행하여 업데이트된 집합(a)의 제1 교점과 업데이트된 집합(a)의 인접된 하단에 위치한 교점 들의 집합(b)의 제1 교점(M)을 토대로 셀 범위 정보를 추출한다.If it is determined in step 525 that the updated set a is not the last set, the process proceeds to step 505 to update the first intersection of the updated set a and the adjacent lower end of the updated set a. And cell range information is extracted based on the first intersection M of the set of intersection points (b) located.

그러나, 상기 단계(525)의 판단 결과 업데이트된 집합(a)가 마지막 집합인 경우 본 프로그램을 종료한다. However, if it is determined in step 525 that the updated set (a) is the last set, the program is terminated.

또한, 상기 단계(511)의 판단 결과, 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하지 아니한 경우 상기 셀 범위 도출부(15)는 단계(527)를 통해 집합(b)의 하단에 위치한 집합을 집합(b)로 업데이터한다.If it is determined in step 511 that the X axis coordinate value of the first intersection L of the set a does not match the X axis coordinate value of the first intersection M of the set b, The cell range derivation unit 15 updates the set located at the lower end of the set (b) to the set (b) through step 527. [

한편, 상기 단계(515)의 판단 결과, 상기 추출된 제2 교점(N)을 통과하는 단일 선 정보가 존재하지 아니한 경우 셀 범위 도출부(15)는 단계(529)를 통해 상기 제2 교점(N)에 인접한 옆 교점을 제2 교점으로 업데이트한다.On the other hand, if it is determined in step 515 that there is no single line information passing through the extracted second intersection N, the cell range derivation unit 15 determines whether the second intersection (N) N) to the second intersection.

상기의 과정을 통해 도출된 셀 범위 정보는 도 6에 도시된 바와 같다.The cell range information derived through the above process is as shown in FIG.

상기 셀 범위 도출부(15)에서 도출된 셀 범위 정보를 포함하는 표준 문서는 XML 문서 생성부(30)로 제공된다.The standard document including the cell range information derived from the cell range derivation unit 15 is provided to the XML document generation unit 30.

상기 XML 문서 생성부(30)는 단계(600)를 통해 XML 서식 변환 정보가 입력되면 상기 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하고, 생성된 XML 문서 파일은 XML 문서 제공부(50)로 제공된다.If the XML format conversion information is input through step 600, the XML document generation unit 30 generates an XML document file by converting the standard document according to the previously defined XML format conversion format information, The file is provided to the XML document providing unit 50.

즉, 상기 XML 문서 제공부(50)는 단계(700)를 통해 변환된 문서 요청이 접수되면, 단계(800)를 통해 변환 문서 요청에 응답하여 XML 문서 생성부(30)에서 변환된 XML 문서 파일을 XML 구조화하여 제공한다.That is, when the converted document request is accepted in step 700, the XML document providing unit 50 transmits the converted XML document file in the XML document generating unit 30 in response to the converted document request in step 800 As XML structured.

본 발명의 실시 예에 따르면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상시킬 수 있게 된다.According to an embodiment of the present invention, a table of a requested PDF document file is analyzed according to the standard operation of the PDF document file requested to be converted, and the analyzed table is converted into a standard document based on the predefined reference information, After extracting the image of the cell range information and converting the converted standard document into an XML document according to the XML correspondence conversion format and providing the XML structure, the table inserted in the PDF document file is converted into an XML document file and provided , It is possible to fundamentally improve the format conversion quality of the document.

여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied in a form of program instructions, which may be performed via a variety of computing means, and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims.

본 발명에 따른 PDF 문서 파일을 자동 변환하는 장치 및 방법에 의하면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상하는 전자 서식 변환 환경에 제공할 수 있다는 점에서 전자 서식 변환 시스템과 같은 기존의 기술과 접목될 수 있으며, 관련 기술에 대한 이용과 적용의 대상이 되는 장치를 현실적으로 실시할 수 있는 정도이므로 산업상 이용 가능성이 충분한 발명이다.According to an apparatus and method for automatically converting a PDF document file according to the present invention, a table of a requested PDF document file is analyzed according to the standard operation of a PDF document file requested to be converted, Standard document, extracts the table as an image of the cell range information instead of the text, converts the converted standard document into an XML document according to the XML correspondence conversion format, and provides the XML structure, thereby converting the table inserted in the PDF document file into XML It can be combined with existing technologies such as an electronic format conversion system in that it can provide an electronic format conversion environment that fundamentally improves the format conversion quality of a document as it is converted and provided to a document file accurately, It is possible to carry out the device which is the object of use and application realistically, so it is possible to use it industrially The invention.

10 : 표준 문서 변환부
11 : 단일 선 도출부
13 : 교점 도출부
15 : 셀 범위 도출부
30 : XML 문서 파일 생성부
50 : XML 문서 제공부
10: Standard document conversion unit
11: single line lead portion
13:
15: Cell range derivation unit
30: XML document file generation unit
50: XML document preparation

Claims (18)

변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환부와,
XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성부와,
상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공부를 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
Extracting single line information having a start point and an end point based on predefined reference information, analyzing the analyzed table information according to a standard operation of the PDF document file requested to be converted, and extracting, from the single line information, at least one common starting point or end point A standard document conversion unit for deriving information and extracting and storing cell range information based on the intersection information;
An XML document generation unit for generating an XML document file by converting a standard document having the cell range information according to the predefined XML format conversion format information when an XML format conversion request is input;
And an XML document providing unit for providing the XML document file in response to the converted document request.
제1항에 있어서, 상기 표준 문서 변환부는,
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 도출된 각 시작점과 끝점에 대한 각 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출부와,
상기 단일 선 정보로부터 단일 선들이 교차하는 교점 정보를 도출하는 교점 도출부와,
상기 교점 정보를 토대로 단일 선의 집합으로 생성된 셀 범위 정보를 추출하는 셀 범위 추출부를 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
The apparatus as claimed in claim 1,
A single line extracting unit for extracting single line information having coordinate information for each starting point and ending point derived on the basis of predefined reference information, table information analyzed according to the standard operation of the PDF document file requested to be converted,
An intersection deriving unit for deriving intersection information from which the single lines intersect from the single line information;
And a cell range extracting unit for extracting cell range information generated as a single line set based on the intersection information.
제2항에 있어서, 상기 단일 선 추출부는,
이미 정의된 표를 구성하는 각 선에 대한 시작점의 좌표 정보(x, y)과 끝점의 좌표 정보(x, y')을 가지는 단일 선 정보를 각각 추출하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
3. The apparatus of claim 2, wherein the single-
Line information having coordinate information (x, y) of a starting point for each line constituting a table which is already defined and coordinate information (x, y ') of an end point are respectively extracted, .
제3항에 있어서, 상기 교점 도출부는,
상기 끝점의 좌표 정보 중 X축의 값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)과 상기 시작점의 좌표 정보 중 X 축 값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)을 설정하고,
상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
4. The apparatus of claim 3,
(A) of the horizontal line having the same value of the X-axis value (y) among the coordinate information of the end point and a single vertical line having the same value of the X-axis value (x) Sets a set of line information (b)
(X, y) (x ', y) of the set of single line information of the horizontal line and the first single line information (P, q) from the first point (M (p, q) (p, q ').
제4항에 있어서, 상기 교점 도출부는,
상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q')을 토대로 두 제1 단일 선 정보 중 공통값을 가지는 교차점의 좌표 정보(p, y)를 도출하고,
도출된 교차점의 좌표 정보(p, y)가 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위(x, x', q, q') 내에 존재하는 경우 집합(a)(b)의 각 제1 단일 선으로부터 생성된 교점으로 판정하여 교점 리스트(N)에 교점 정보(p, y)를 추가하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
5. The apparatus according to claim 4,
Based on the first single line information M (p, q) (p, q ') of the first single line information L (x, y) (x', y) Coordinate information (p, y) of an intersection point having a common value among the two first single-line information is derived,
When the derived coordinate information (p, y) of the intersection exists within each predetermined range (x, x ', q, q') derived from the first singular value information of each set (a) (b), and adds the intersection information (p, y) to the intersection list (N).
제5항에 있어서, 상기 교점 도출부는,
상기 도출된 교차점의 좌표 정보(p, y)가 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,
추출된 집합(b)의 제2 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))로부터 제2 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
6. The apparatus according to claim 5,
If the coordinate information (p, y) of the derived intersection point does not exist within each predetermined range derived from the first singleton information of each set (a) (b), the first singleton information (P, q ') (p, q ") of L (x, y) (x', y)
(X, y) of the set (a) and the second single-line information (b) of the set (b) (P, q ")) of the second document (M (p, q ')).
제6항에 있어서, 상기 교점 도출부는,
상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,
추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
7. The apparatus of claim 6,
If the second singular value information of the set (b) is the last singular value, the second singular value information L (x ', y) (x ", y) 1 singular ray information (M (p, q) (p, q '))
(X ', y) (x ", y) of the set (a) if the second singular value information of the extracted set (a) is not the last singular value information of the set (a) (P, q ') of the set (b) and the first singular line information of the set (b).
제7항에 있어서, 상기 셀 범위 도출부는,
상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
8. The apparatus of claim 7, wherein the cell-
(A) and a first intersection (L) of the set (a) based on the coordinate information of each intersection point of the intersection point list, and a second intersection point (B) of a set of intersections, and a first intersection (M) of an intersection set (b).
제8항에 있어서, 상기 셀 범위 정보 도출부는,
상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)의 옆에 위치한 제2 교점(N)을 설정하고,
설정된 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 지를 판단하며,
판단 결과 제2 교점을 지는 단일 선 정보가 존재하는 경우 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장하고,
상기 집합(a)의 제1 교점(L)을 제2 교점(N)으로 업데이트하며,
상기 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 경우 집합(a)의 하단에 위치한 집합을 집합(a)으로 업데이트한 후 상기 업데이트된 집합(a)이 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
9. The apparatus of claim 8, wherein the cell range information deriving unit comprises:
When the X-axis coordinate value of the first intersection L of the set (a) and the X-axis coordinate value of the first intersection M of the set (b) coincide with each other, Two intersection points N are set,
Determines whether single line information passing through the set second intersection N exists,
(X), N (x) and L (y) of the set (a) and the second intersection N (x) ) And the second intersection N (x), M (y) of the set b and the second intersection N (x), M (y)
Updates the first intersection (L) of the set (a) to the second intersection (N)
And determines whether the updated first intersection point L1 is the last intersection point of the set a. If the updated first intersection point L1 is the last intersection point of the set a, And to repeatedly extract and store cell range information until the updated set (a) reaches the last set after updating the set to the set (a).
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환 과정과,
XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성 과정과,
변환 문서 요청에 응답하여 상기 XML 문서 파일을 제공하는 XML 문서 제공과정을 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
Extracting single line information having a start point and an end point based on predefined reference information, analyzing the analyzed table information according to a standard operation of the PDF document file requested to be converted, and extracting, from the single line information, at least one common starting point or end point Extracting and storing cell range information based on the intersection information,
An XML document generation step of generating an XML document file by converting a standard document having the cell range information according to the previously defined XML format conversion format information when an XML format conversion request is input;
And providing the XML document file in response to the conversion document request.
제10항에 있어서, 상기 표준 문서 생성 과정은,
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보를 미리 정의된 기준 정보를 토대로 각 시작점과 끝점의 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출 단계와,
상기 단일 선 정보로부터 상기 교점 정보를 도출하는 교점 도출 단계와,
상기 교점 정보를 토대로 셀 범위 정보를 추출하는 셀 범위 추출 단계를 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
11. The method of claim 10,
A single line extraction step of extracting single line information having coordinate information of each starting point and an ending point based on the table information analyzed according to the standard operation of the PDF document file requested to be converted,
An intersection deriving step of deriving the intersection information from the singular line information;
And a cell range extracting step of extracting cell range information based on the intersection information.
제11항에 있어서, 상기 단일 선 추출 단계는,
이미 정의된 표를 구성하는 각 선에 대한 시작점의 좌표 정보(x, y)과 끝점의 좌표 정보(x, y')을 가지는 단일 선 정보를 각각 추출하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
12. The method according to claim 11,
Line information having coordinate information (x, y) of a starting point for each line constituting a table which is already defined and coordinate information (x, y ') of an end point are respectively extracted, How to.
제12항에 있어서, 상기 교점 도출 단계는,
상기 끝점의 좌표 정보 중 Y축 좌표값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점의 좌표 정보 중 X축 좌표값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정하고,
상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y)와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q')로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
13. The method of claim 12,
(A) of the horizontal line having the same Y-axis coordinate value (y) among the coordinate information of the end point and a vertical line having the same X-axis coordinate value (x) among the coordinate information of the starting point (B) of the singular line information of the set &lt; RTI ID = 0.0 &gt;
(X, y) (x ', y) of the set of single line information of the horizontal line and the first single line information (P, y) is derived from the first intersection (p, q) (p, q ').
제13항에 있어서, 상기 교점 도출 단계는,
상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q')을 토대로 두 제1 단일 선 정보 중 공통값을 가지는 교차점(p, y)를 도출하고,
도출된 교차점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하는 경우 교점으로 판정하여 교점 리스트(N)에 추가하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
14. The method according to claim 13,
Based on the first single line information M (p, q) (p, q ') of the first single line information L (x, y) (x', y) The intersection point (p, y) having a common value among the two first single-line information is derived,
And when the derived intersection point (p, y) exists within each predetermined range derived from the first singular line information of each set (a) (b), it is determined to be an intersection and added to the intersection list N How to automatically convert PDF document files.
제14항에 있어서, 상기 교점 도출 단계는,
상기 도출된 교차점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,
추출된 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 지를 판단하고 판단 결과 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))으로부터 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
15. The method of claim 14,
If the derived intersection point (p, y) does not exist within each predetermined range derived from the first singleton information of each set (a) (b), the first singlet line information L (x (p, q ') (p, q ") of the set (b), y (x', y)
Determining whether the second singular value information of the extracted set (b) is the last singular value information, and if the second singular value information of the result set (b) is not the last singular value information, (P, q ') (p, q ") of the line information L (x, y) (x', y) and the second single line information M How to Automatically Convert PDF Document Files to.
제15항에 있어서, 상기 교점 도출 단계는,
상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,
추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
16. The method of claim 15,
If the second singular value information of the set (b) is the last singular value, the second singular value information L (x ', y) (x ", y) 1 singular ray information (M (p, q) (p, q '))
(X ', y) (x ", y) of the set (a) if the second singular value information of the extracted set (a) is not the last singular value information of the set (a) (P, q ') of the set (b) and the first singlet information (M (p, q) (p, q')) of the set (b).
제16항에 있어서, 상기 셀 범위 도출 단계는,
상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 상단에 위치한 교점의 집합(a)와 상기 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 교점 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
17. The method of claim 16,
(A) and a first intersection (L) of the set (a) based on the coordinate information of each intersection point of the intersection point list, and a second intersection point A set of intersection points (b), and a first intersection (M) of intersection set (b).
제17항에 있어서, 상기 셀 범위 도출 단계는,
상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)의 옆에 위치한 제2 교점(N)을 설정하고,
설정된 제2 교점(N)을 통과하는 단일 선 정보가 존재하는 지를 판단하며,
판단 결과 제2 교점을 지는 단일 선 정보가 존재하는 경우 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장하고,
상기 집합(a)의 제1 교점(L)을 제2 교점(N)으로 업데이트하며,
상기 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 경우 집합(a)의 하단에 위치한 집합을 집합(a)로 업데이트한 후 상기 업데이트된 집합(a)가 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
18. The method of claim 17,
When the X-axis coordinate value of the first intersection L of the set (a) and the X-axis coordinate value of the first intersection M of the set (b) coincide with each other, Two intersection points N are set,
Determines whether single line information passing through the set second intersection N exists,
(X), N (x) and L (y) of the set (a) and the second intersection N (x) ) And the second intersection N (x), M (y) of the set b and the second intersection N (x), M (y)
Updates the first intersection (L) of the set (a) to the second intersection (N)
And determines whether the updated first intersection L is the last intersection of the set a and if the updated first intersection L is the last intersection of the set a, And to repeatedly extract and store the cell range information until the updated set (a) reaches the last set after updating the set to the set (a).
KR1020120127668A 2012-11-12 2012-11-12 Apparatus and method for converting pdf document KR101449725B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120127668A KR101449725B1 (en) 2012-11-12 2012-11-12 Apparatus and method for converting pdf document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120127668A KR101449725B1 (en) 2012-11-12 2012-11-12 Apparatus and method for converting pdf document

Publications (2)

Publication Number Publication Date
KR20140062563A true KR20140062563A (en) 2014-05-26
KR101449725B1 KR101449725B1 (en) 2014-10-16

Family

ID=50890740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120127668A KR101449725B1 (en) 2012-11-12 2012-11-12 Apparatus and method for converting pdf document

Country Status (1)

Country Link
KR (1) KR101449725B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210066470A (en) * 2019-11-28 2021-06-07 한국과학기술정보연구원 Documents conversion apparatus, and control method thereof
CN112925747A (en) * 2021-03-31 2021-06-08 浙江太美医疗科技股份有限公司 File format conversion method and device and computer storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1722307A1 (en) * 2005-05-09 2006-11-15 Amadeus s.a.s Dynamic method for XML documents generation from a database

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210066470A (en) * 2019-11-28 2021-06-07 한국과학기술정보연구원 Documents conversion apparatus, and control method thereof
CN112925747A (en) * 2021-03-31 2021-06-08 浙江太美医疗科技股份有限公司 File format conversion method and device and computer storage medium

Also Published As

Publication number Publication date
KR101449725B1 (en) 2014-10-16

Similar Documents

Publication Publication Date Title
JP6710483B2 (en) Character recognition method for damages claim document, device, server and storage medium
WO2021088400A1 (en) Document review method, apparatus and system, device, and storage medium
KR101319966B1 (en) Apparatus and method for converting format of electric document
US9495347B2 (en) Systems and methods for extracting table information from documents
US20130181995A1 (en) Handwritten character font library
US20130174024A1 (en) Method and device for converting document format
CN112507806B (en) Intelligent classroom information interaction method and device and electronic equipment
CN109934227A (en) System for recognizing characters from image and method
CN105677716A (en) Computer data acquisition, processing and analysis system
CN104216952A (en) Universal report generation method and universal report generation system based on XML (extensive markup language) technology
AU2019419891B2 (en) System and method for spatial encoding and feature generators for enhancing information extraction
CN106599001A (en) Webpage content acquisition method and system
WO2017090475A1 (en) Information processing system, function creation method, and function creation program
JP2022088602A (en) Table generation method, device, electronic apparatus, storage medium and program
CN115828874A (en) Industry table digital processing method based on image recognition technology
CN112286907A (en) Database configuration method and device, electronic equipment and readable storage medium
KR101449725B1 (en) Apparatus and method for converting pdf document
CN111045654A (en) Vue-based method and device for quickly generating common instructions, computer equipment and storage medium
Chen et al. UI layers merger: merging UI layers via visual learning and boundary prior
US20140310248A1 (en) Verification support program, verification support apparatus, and verification support method
CN104317600B (en) A kind of configurable curve drawing generating method and system
Jain et al. TSR-DSAW: table structure recognition via deep spatial association of words
JP2021064123A (en) Data input support system, data input support method, and program
CN106909570B (en) Data conversion method and device
JP2011197844A (en) Difference detection system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180809

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 6