KR20050048658A - 화상 보정 장치 및 화상 보정 방법 - Google Patents

화상 보정 장치 및 화상 보정 방법 Download PDF

Info

Publication number
KR20050048658A
KR20050048658A KR1020057005441A KR20057005441A KR20050048658A KR 20050048658 A KR20050048658 A KR 20050048658A KR 1020057005441 A KR1020057005441 A KR 1020057005441A KR 20057005441 A KR20057005441 A KR 20057005441A KR 20050048658 A KR20050048658 A KR 20050048658A
Authority
KR
South Korea
Prior art keywords
image
pixel
row
character element
column
Prior art date
Application number
KR1020057005441A
Other languages
English (en)
Inventor
요시유키 마츠야마
마사토 니시자와
치히로 유에키
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002286766A external-priority patent/JP2004126741A/ja
Priority claimed from JP2002308254A external-priority patent/JP2004145517A/ja
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20050048658A publication Critical patent/KR20050048658A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

복수의 문자 요소행을 포함하는 화상이 입력되는 화상 입력부와, 복수의 문자 요소행으로부터 소정의 문자 요소행을 검출하는 행검출부와, 소정의 문자 요소행에 대해서 화소열마다 행방향의 위치 보정량을 산출하는 보정량 산출부와, 소정 방향의 화소열마다 산출된 위치 보정량에 근거하여 화상의 각 화소열의 위치를 열방향으로 이동시키도록 보정하는 위치 보정부를 구비하였다.

Description

화상 보정 장치 및 화상 보정 방법{IMAGE CORRECTION DEVICE AND IMAGE CORRECTION METHOD}
본 발명은 문서 등의 원고를 핸드 스캐너 등으로 촬영한 화상에서 발생하는 문자행 등의 경사 또는 사행(蛇行)을 보정하는 화상 보정 장치 및 화상 보정 방법에 관한 것이다.
종래부터, 문서 등의 원고를 스캐너 등으로 촬영하고, 촬영된 화상을 이용하여 OCR(Optical Character Recognition) 처리를 실행하여 문자 인식을 실행하기 위한 여러 가지의 기술이 제안되고 있다.
특히, 핸드 스캐너 등의 비교적 소형의 스캐너를 이용하여 사용자가 원고상을 투사해서 화상을 촬영한다고 하는 방식의 장치에서는, 사용자의 사용 방법에 따라서는 촬영할 때의 주사 방향을 원고의 문자 등의 배열 방향에 대해서 일정 방향으로 스캔하는 것은 어려웠다. 이 때문에, 결과적으로 촬영되는 화상에는 원고와 비교해서 경사나 사행이 발생하는 경우가 있었다. 그 결과, 그 경사나 사행의 정도가 큰 경우에는, 문자를 정확하게 잘라낼 수 없어 문자 인식률이 저하한다고 하는 문제가 있었다.
이러한 화상의 경사나 사행을 보정하는 방법으로서, 예를 들면 문자 화상을, 2차원으로 배치된 화소(픽셀)의 집합체로 이루어지는 화상 데이터로서, 화소마다의 휘도값을 2치화하여 2차원의 2치화 화상 데이터로 하고, 각 화소에 대하여 서로 평행한 다수의 주사선을 설정해서 주사를 실행하여, 2치화 화상 데이터의 문자 화상을 나타내는 데이터를 주사선마다 누적시키고, 그 누적값에 관하여 주사선과 직교하는 방향의 분포를 구하는 것에 의해 투영 프로파일을 작성하여, 이 투영 프로파일의 분산값에 근거하여 회전 보정량을 구하는 방법이 제안되어 왔다(예를 들면, 일본 특허 제3108979호 공보 참조).
그러나, 전술한 바와 같은 화상 보정 방법에서는, 문자 요소 단위로 시프트를 하기 위해서 문자마다의 사행은 보정할 수 있지만, 문자 요소 자체의 왜곡을 보정할 수 없어, 결과적으로 다음의 OCR 등의 처리에서 적절한 문자 인식을 할 수 없다고 하는 문제가 있었다.
발명의 개시
본 발명은 이러한 과제를 감안하여, 문자 요소행의 사행 또는 경사를 보정할 수 있고, 또한, 문자 요소 자체의 왜곡도 보정할 수 있는 화상 보정 방법을 제공하는 것을 목적으로 한다.
본 발명의 화상 보정 장치는, 복수의 문자 요소행을 포함하는 화상이 입력되는 화상 입력부와, 복수의 문자 요소행으로부터 소정의 문자 요소행을 검출하는 행검출부와, 소정의 문자 요소행에 대해서 화소열마다 열방향의 위치 보정량을 산출하는 보정량 산출부와, 소정 방향의 화소열마다 산출된 위치 보정량에 근거하여 화상의 각 화소열의 위치를 열방향으로 이동시키도록 보정하는 위치 보정부를 구비한 것을 특징으로 하고 있다.
이러한 구성에 의해, 화상을 구성하는 모든 화소열에 대해서 열방향으로 이동시키는 보정을 실행하기 때문에, 문자 요소행의 사행이나 경사를 보정할 수 있을 뿐만 아니라, 각 문자 요소의 왜곡도 보정하는 것이 가능해진다.
또한, 행검출부는 화상의 행방향의 적산 히스토그램을 작성하는 히스토그램 작성부를 갖고, 적산 히스토그램에 근거하여 최장의 문자 요소행을 검출하는 구성이어도 된다.
이러한 구성에 의해, 화상의 적산 히스토그램을 산출한다고 하는 간이한 처리에 의해서, 연산부의 부하를 억제하면서 위치 보정량을 산출해야 하는 소정의 문자 요소행의 선택이 가능해진다.
또한, 행검출부는 히스토그램 작성부에서 작성된 적산 히스토그램의 값이 최대로 되는 화소 위치를 추출하는 화소 위치 추출부를 갖고, 화소 위치에 근거하여 최장의 문자 요소행을 검출하는 구성이어도 된다.
이러한 구성에 의해, 적산 히스토그램의 값이 최대로 되는 화소 위치를 포함하는 문자 요소행을 검출하여, 소정의 문자 요소행을 검출할 수 있다.
또한, 행검출부는 화소 위치 추출부에서 추출된 화소 위치로부터, 적산 히스토그램의 값이 소정의 범위내로 되는 화소 위치의 범위를 최장의 문자 요소행으로서 특정하는 범위 특정부를 갖는 구성이어도 된다.
이러한 구성에 의하면, 미리 소정의 범위를 정해 두는 것에 의해, 간이하고 또한 명확하게 소정의 문자 요소행을 특정하는 것이 가능해진다.
또한, 보정량 산출부는 소정의 문자 요소행의 문자 요소마다, 열방향의 단부 위치를 검출하는 단부 위치 검출부를 갖고, 문자 요소마다의 단부 위치의 편차량에 근거하여 위치 보정량을 산출하는 구성이어도 된다.
이러한 구성에 의하면, 소정의 문자 요소행에 대해서 각 문자 요소마다 그 열방향의 단부 위치를 검출하는 처리를 실행하기 때문에, 화상내의 모든 문자 요소행에 대해서 연산 처리를 실행하는 경우와 비교해서 연산부의 부하를 저감할 수 있다.
또한, 보정량 산출부는 단부 위치 검출부가 검출한 단부 위치를 문자 요소마다 연결한 포락선에 근거하여, 편차량을 산출하는 구성이어도 된다.
이러한 구성에 의하면, 소정의 문자 요소행에 대해서 각 문자 요소마다 포락선을 산출한다고 하는 간이한 처리를 실행하는 것에 의해, 편차량을 산출하는 것이 가능해진다.
또한, 본 발명의 화상 보정 장치는, 복수의 문자 요소행을 포함하는 화상이 입력되는 화상 입력부와, 화상의 행방향의 적산 히스토그램을 작성하는 히스토그램 작성부와, 히스토그램 작성부에서 작성된 적산 히스토그램의 값이 최대로 되는 화소 위치를 추출하는 화소 위치 추출부와, 화소 위치 추출부에서 추출된 화소 위치로부터, 적산 히스토그램의 값이 소정의 범위내로 되는 화소 위치의 범위를 최장의 문자 요소행의 범위로서 특정하는 범위 특정부와, 최장의 문자 요소행의 문자 요소마다, 화상에서의 열방향의 단부 위치를 검출하는 단부 위치 검출부와, 단부 위치 검출부가 검출한 단부 위치를 문자 요소마다 연결한 포락선에 근거하여 단부 위치의 문자 요소마다의 편차량을 위치 보정량으로서 산출하는 위치 보정량 산출부와, 위치 보정량에 근거하여 화상을 화소열마다 열방향으로 이동시키도록 보정하는 위치 보정부를 구비한 구성이어도 된다.
이러한 구성에 의해서도, 문자열의 사행이나 경사를 보정할 수 있을 뿐만 아니라, 각 문자 요소의 왜곡도 보정하는 것이 가능해진다.
다음에, 본 발명의 화상 보정 장치는, 복수의 문자 요소행을 포함하는 제 1 화상이 입력되는 화상 입력부와, 제 1 화상을 행방향으로 팽창시켜 복수의 팽창행을 포함하는 제 2 화상을 생성하는 팽창행 생성부와, 제 2 화상의 화소열마다, 팽창행의 열방향의 개시 위치를 검출하는 개시 위치 검출부와, 제 2 화상의 화소열마다, 열방향의 위치 보정량을 산출하는 보정량 산출부와, 위치 보정량에 근거하여 제 1 화상의 각 화소열의 위치를 열방향으로 이동시키도록 보정하는 위치 보정부를 구비한 것을 특징으로 한다.
이러한 구성에 의하면, 팽창행의 열방향의 개시 위치를 검출하여 문자 요소행을 구성하는 화소 위치의 범위를 결정하기 때문에, 문자 전체의 존재 범위를 검출하는 경우와 비교해서 문자 요소행끼리가 겹칠 가능성이 적어, 높은 정밀도로 문자 요소행을 분리할 수 있다. 이 때문에, 다소 문자 요소행이 기울여서 촬영된 경우이더라도, 사행과 합쳐서 경사도 동시에 보정하는 것이 가능하다.
또한, 제 2 화상은 휘도값이 0 또는 1의 값으로 나타내어진 2치화 화상인 구성이어도 무방하다.
이러한 구성에 의하면, 메모리의 사용량 등을 삭감하여 처리를 신속하게 실행할 수 있고, 또한, 연산부의 부담을 작게 할 수 있기 때문에, 휴대형의 정보 기기 등으로의 탑재를 용이하게 할 수 있다.
또한, 개시 위치 검출부는 팽창행의 열방향의 개시 위치의 검출을, 화소열마다 열방향으로 주목 화소를 이동하면서 주목 화소에 대한 휘도값을 검지하고, 휘도값이 0인 화소가 소정수 이상 연속한 경우에, 최초에 휘도값이 O인 화소를 검지한 위치를 개시 위치로 하는 구성이어도 된다.
이러한 구성에 의해, 오염 등에 의한 노이즈 정보를 문자 요소로 간주할 가능성을 낮게 할 수 있기 때문에, 보다 적절한 화상 보정을 실행하는 것이 가능해진다.
또한, 개시 위치 검출부는 팽창행의 열방향의 개시 위치의 검출을 복수의 팽창행 각각에 대해서 실행하고, 보정량 산출부는 복수의 팽창행 각각의 열방향의 개시 위치 분포의 평균값에 근거하여 위치 보정량을 산출하는 구성이어도 된다.
이러한 구성에 의하면, 「j」나 「p」 등의 다른 문자보다도 아래로 튀어나온 문자의 영향을 받기 어려워져, 보다 적절한 화상 보정을 하는 것이 가능해진다.
다음에, 본 발명의 화상 보정 장치는 복수의 문자 요소행을 포함하는 2치화된 제 1 화상이 입력되는 화상 입력부와, 제 1 화상을 행방향으로 팽창시켜 복수의 팽창행을 포함하는 제 2 화상을 생성하는 팽창행 생성부와, 제 2 화상의 화소열마다, 열방향으로 주목 화소를 이동하면서 주목 화소에 대한 휘도값을 검지하고, 휘도값이 0인 화소가 소정수 이상 연속한 경우에, 최초에 휘도값이 0인 화소를 검지한 위치를 팽창행의 개시 위치로서 검출하는 개시 위치 검출부와, 복수의 팽창행의 열방향의 개시 위치 분포의 평균값에 근거하여 제 2 화상의 화소열마다의 위치 보정량을 산출하는 보정량 산출부와, 위치 보정량에 근거하여 제 1 화상을 화소열마다 열방향으로 이동시키도록 보정하는 위치 보정부를 구비한 것을 특징으로 한다.
이러한 구성에 의해서도, 팽창행의 개시 위치를 검출하여 문자 요소행의 하단 위치의 범위를 결정하기 때문에, 문자 전체의 존재 범위를 검출하는 경우와 비교해서 문자행끼리가 겹칠 가능성이 적어, 높은 정밀도로 문자 요소행을 분리할 수 있다. 이 때문에, 다소 문자 요소행이 기울여서 촬영된 경우이더라도 사행과 합쳐서 경사도 동시에 보정하는 것이 가능하다.
다음에, 본 발명의 화상 보정 장치를 구비한 정보 장치나 휴대 전화 장치를 구성해도 된다.
이러한 구성에 의하면, 경사나 사행, 또한 문자 요소의 왜곡이 화상 보정된, 문자 인식 등을 실행하기 쉬운 문자 등을 입력할 수 있기 때문에, 특히 OCR 기능 등의 문자 인식 기능을 탑재한 정보 장치나 휴대 전화 장치에서, 그 문자 판독의 정밀도를 높게 하는 것이 가능하다.
다음에, 본 발명의 화상 보정 방법은, 복수의 문자 요소행을 포함하는 화상으로부터 소정의 문자 요소행을 검출하는 제 1 단계와, 소정의 문자 요소행의 화소열마다 위치 보정량을 산출하는 제 2 단계와, 위치 보정량에 근거하여 화상을 화소열마다 열방향으로 이동시키도록 보정하는 제 3 단계를 구비한 것을 특징으로 한다.
이러한 방법에 의하면, 화상을 구성하는 모든 화소열에 대해서 열방향으로 이동시키는 보정을 실행하기 때문에, 문자열의 사행이나 경사를 보정할 수 있을 뿐만 아니라, 각 문자 요소의 왜곡도 보정하는 것이 가능해진다.
또한, 본 발명의 화상 보정 방법은, 복수의 문자 요소행을 포함하는 제 1 화상을 행방향의 팽창행을 포함하는 제 2 화상을 생성하는 제 1 단계와, 제 2 화상의 화소열마다 팽창행의 열방향의 개시 위치를 검출하는 제 2 단계와, 팽창행의 열방향의 개시 위치의 정보에 근거하여 팽창행의 열방향의 개시 위치가 갖추어지도록, 제 1 화상의 위치를 보정하는 제 3 단계를 구비한 구성이어도 된다.
이러한 방법에 의해, 팽창행의 개시 위치를 검출하여 문자 요소행을 구성하는 하단 위치의 범위를 결정하기 때문에, 문자 전체의 존재 범위를 검출하는 경우와 비교해서 문자 요소행끼리가 겹칠 가능성이 적어, 높은 정밀도로 문자 요소행을 분리할 수 있다. 이 때문에, 다소 문자 요소행이 기울여서 촬영된 경우이더라도 사행과 합쳐서 경사도 동시에 보정하는 것이 가능해진다.
도 1은 본 발명의 실시예 1에서의 화상 보정 방법의 처리 단계를 나타내는 흐름도,
도 2는 본 발명의 실시예 1에서의 화상 보정 장치의 구성의 일례를 나타내는 블록도,
도 3(a)는 본 발명의 실시예 1에서의 원래 화상의 일례를 나타내는 도면,
도 3(b)는 본 발명의 실시예 1에서의 경사 보정된 화상의 일례를 나타내는 도면,
도 4는 본 발명의 실시예 1에서의 수평 방향 적산 히스토그램의 일례를 나타내는 도면,
도 5는 본 발명의 실시예 1에서의 흑(黑)화소 하단 위치의 검출 결과의 일례를 나타내는 도면,
도 6은 본 발명의 실시예 1에서의 수직 위치 편차량의 검출 결과의 일례를 나타내는 도면,
도 7은 본 발명의 실시예 1에서의 사행 보정된 화상을 나타내는 도면,
도 8은 본 발명의 실시예 2에서의 화상 보정 장치의 처리 순서를 나타내는 흐름도,
도 9는 본 발명의 실시예 2에서의 화상 보정 장치의 구성의 일례를 나타내는 블록도,
도 10은 본 발명의 실시예 2에서의 원래 화상의 일례를 나타내는 도면,
도 11은 본 발명의 실시예 2에서의 2치화 화상의 일례를 나타내는 도면,
도 12는 본 발명의 실시예 2에서의 수평 팽창 처리의 단계를 나타내는 흐름도,
도 13은 본 발명의 실시예 2에서의 수평 팽창 처리의 내용을 설명하는 개략도,
도 14는 본 발명의 실시예 2에서의 수평 팽창 화상의 일례를 나타내는 도면,
도 15는 본 발명의 실시예 2에서의 팽창 문자행의 개시 위치 검출 처리의 단계를 나타내는 흐름도,
도 16은 본 발명의 실시예 2에서의 팽창 문자행의 개시 위치의 히스토그램을 나타내는 도면,
도 17은 본 발명의 실시예 2에서의 팽창 문자행의 개시 위치의 분포를 나타내는 도면,
도 18은 본 발명의 실시예 2에서의 팽창 문자행의 개시 위치의 상대 편차량 분포를 나타내는 도면,
도 19는 본 발명의 실시예 2에서의 보정된 화상의 일례를 나타내는 도면,
도 20(a)는 본 발명의 실시예 3에서의 화상 보정 장치를 탑재한 휴대 전화 장치의 정면도,
도 20(b)는 본 발명의 실시예 3에서의 휴대 전화 장치의 화상 보정 장치가 탑재된 단부를 나타내는 요부 사시도이다.
발명을 실시하기 위한 최선의 형태
이하, 본 발명의 실시예에 대해서 도면을 이용하여 상세하게 설명한다.
(실시예 1)
먼저, 실시예 1로서 본 발명의 화상 보정 장치 및 화상 보정 방법에 대해서 설명한다.
도 1은 본 발명의 실시예 1에서의 화상 보정 방법의 처리 단계를 나타내는 흐름도이다. 또한, 도 2는 본 발명의 실시예 1에서의 화상 보정 방법을 실행하기 위한 화상 보정 장치(40)의 구성의 일례를 나타낸다.
도 2에 나타낸 바와 같이, 본 발명의 실시예 1에서의 화상 보정 장치(40)는 문자나 도형 등의 원고를 판독하여, 그 화상의 입력을 실행하는 화상 입력부(1), 화상 입력부(1)에 접속되며 화상 입력부(1)에 입력된 화상에 근거하여 후술하는 각종 처리를 실행하는 CPU(2), 화상 입력부(1)에 입력된 화상의 기억을 실행하는 프레임 메모리 등의 기억 수단(3), 및, CPU(2)에 접속되며 각종 연산된 결과 정보나 필요한 정보를 사용자에 대하여 표시하는 표시부(5)를 구비한다.
화상 입력부(1)로서는 광학적인 디바이스 등, 공지의 핸드 스캐너 등에 이용되는 디바이스로부터 선택한 것을 이용할 수 있다.
기억 수단(3)은 CPU(2)에 접속되어 있으며, 그 기억 매체로서는 공지의 플래쉬 메모리 등을 이용할 수 있다.
표시부(5)는 공지의 디스플레이 디바이스, 예를 들면 LCD(Liquid Crystal Display), EL(Electro-Luminescent) 및 CRT(Cathode Ray Tube) 등으로부터 임의로 고를 수 있다.
다음에, 본 발명의 실시예 1에서의 화상 보정 방법의 처리 단계에 대해서 도 1에 따라서 설명한다.
먼저, 화상 입력부(1)에서 촬영된 화상(이하, 원래 화상으로 기록함)이 CPU(2)를 거쳐서 기억 수단(3)에 로드(전개)된다(S1).
이 원래 화상(10)의 일례를 도 3(a)에 나타낸다. 도 3(a)에 나타낸 원래 화상(10)은 화상 입력부(1)에서 촬영된 부분 화상을 합성해서 얻어진 화상이며, 사용자가 수동으로 스캔했을 때의 스캔 방향과 문자의 행방향이 이루는 각도의 차에 크게 영향을 미쳐서, 문자행의 방향이 경사해 버리고 있다. 또한, 화상 입력부(1)에서 원고상에 투사했을 때의 궤적이 문자행 방향에 대하여 사행했기 때문에, 도 3(a)에 나타낸 원래 화상(10)은 사행해 버리고 있다. 또한, 본 실시예에서 원래 화상(10)은 2차원으로 배치된 화소의 집합체이며, 각각의 화소의 휘도값이 다치(多値)(256계조)의 흑백 화상이다.
또한, 본 실시예에서는 화상 입력부(1)에서의 화상 촬영 수단으로서, 256×16 화소의 CCD를 이용하였다. 또한, 화상을 전개하기 위한 기억 수단(3)으로서는, 도 3(a)의 지면에 대하여 수평 방향(가로)×지면에 대하여 수직 방향(세로)=1000×400 화소의 프레임 메모리를 이용하였다.
다음에, CPU(2)는 기억 수단(3)에 기억된 원래 화상(10)에 대하여 전체의 화상의 경사를 보정하는 처리를 실행한다(S2). 본 발명은 이 경사를 보정하는 처리에 대해서 조금도 한정하는 것은 아니고, 공지의 방법을 이용할 수 있다. 예를 들면, 일본 특허 공개 평성 제1-156887호 공보에는 복수의 각도에 원래 화상(10)을 회전시켜 행방향의 히스토그램를 산출하고, 그 히스토그램의 폭이 가장 작아지는 각도를, 원래 화상(10)을 회전시켜야 되는 각도로서 결정하여, 원래 화상(10)을 회전시키는 방법이 개시되어 있다. 이러한 방법을 이용하는 것도 가능하고, 다른 공지의 어떠한 방법을 이용해도 된다.
도 3(b)에 이러한 경사를 보정하는 처리를 실행한, 경사 보정된 화상(11)의 일례를 나타낸다. 여기서는, 경사 보정된 화상(11)은 농도값이 「1」인 흑(黑)화소와, 농도값이 「0」인 백화소로 구성된, 이른바 2치화된 화상인 예를 나타낸다. 경사 보정된 화상(11)은 4개의 문자행(도 3(b)내의 A~D)을 갖고 있다. 또한, 본 명세서 중에서, 문자행이란, 문자가 기재된 방향(예를 들면, 도 3(b)내에서는 X축 방향)의 문자 요소의 관계를 말한다.
경사 보정된 화상(11)과 원래 화상(10)을 비교하면, 화상 전체의 경사는 보정되어 있지만, 전술한 사행은 잔존해 있는 것을 알 수 있다. 이하, 본 실시예에서의 화상의 사행을 보정하는 방법에 대해서 설명한다.
다시 도 1을 참조하면, CPU(2)는 행방향(도 3(b)에서의 X축 방향)으로 가장 긴 문자행을 검출하기 위해서, 기억 수단(3)에 기억된 경사 보정된 화상(11)에 대해서, 도 3(b)내의 각 수직 화소 위치에 대해서 각 수평 라인마다 수평 방향의 흑화소의 수를 카운트하여(농도값을 가산하여), 적산 히스토그램를 산출한다(S3).
또한, 본 명세서 중에서는, 원래 화상(10)을 구성하는 화상 데이터에서의 수평 방향의 화소의 연속을 수평 라인으로 기록하고, 수직 방향의 화소의 연속을 수직 라인으로 기록한다.
도 4는 도 3(b)에 나타낸 경사 보정된 화상(11)에 대해서, 수평 방향의 적산 히스토그램을 산출한 결과이다. 도 4에서는, 가로축에 화상의 수직 방향의 화소의 위치를 나타내고(도 3(b)에서의 지면을 향해서 오른쪽 위의 모퉁이를 원점 O로 한 예를 나타냄), 세로축에는 흑화소의 수를 플롯한 것이다.
도 4로부터 알 수 있는 바와 같이, 본 실시예에서는, 산출된 흑화소의 히스토그램은 4개의 산부(山部)(A~D)로 나뉘어져 있는 것을 알 수 있다. 이들 산부는 각각 도 3(b)에 나타낸 경사 보정된 화상(11)의 전술한 4개의 문자행(A~D)에 대응하고 있다.
계속해서 CPU(2)는 전술한 단계 S3에서 산출된 수평 방향의 적산 히스토그램으로부터 흑화소수가 최대로 되는 수직 방향의 화소 위치를 산출하여, 최대값을 포함하는 산부를 길이가 최장의 문자행이라고 간주한다(S5). 본 실시예에서는, 산부 B가, 흑화소수가 최대값으로 되는 수직 방향의 화소 위치를 포함하기 때문에, 문자행 B가 최장의 문자행이라고 간주된다.
또한, CPU(2)는 길이가 최대로 간주된 산부 B에 대해서 대응하는 문자행의 수직 방향의 폭을 결정한다(S5). 구체적으로는, 흑화소수가 최대값에 대하여 소정의 비율, R%로 되는 수직 방향의 화소 위치 범위(도 4에서, W로 표시되는 범위)를 최장 문자행 범위 W로서 결정한다. R은 인접하는 문자행과 분리할 수 있는 값으로 설정한다. 실용적으로는 R=30% 정도로 설정함으로써, 확실히 문자행의 분리를 실행하는 것이 가능하다.
여기까지의 처리 단계에 의해서, 사행 보정해야 하는 양을 결정하기 위한 수직 방향의 최장 문자행 범위 W를 결정할 수 있다.
다음에, 최장 문자행 범위 W로서 결정된 수직 방향의 화소 위치 범위에서, CPU(2)는 도 3(b)에 나타낸 경사 보정된 화상(11)상을 원점으로부터 X축 방향으로 순차적으로 수직 1라인마다, 도 3(b)에서의 지면을 향해서 하측으로부터 스캔하여 흑화소가 처음에 검출된 위치를 흑화소 하단 위치로서 결정한다. 이 처리를 모든 수직 라인에 대해서 실행한다(S6).
도 5는 도 3(b)에 나타낸 경사 보정된 화상(11)의 모든 수직 라인에 대해서 흑화소 하단 위치를 검출한 결과를 나타내는 도면이다. 설명을 간단히 하기 위해서, 도 5에는 경사 보정된 화상(11)을 중첩 표시하고 있다.
도 5를 보고 알 수 있는 바와 같이, 문자행 B(엄밀히 말하면 최장 문자행 범위 W)에 대해서, 문자행을 구성하는 각 문자 요소마다, 가장 하단의 흑화소 하단 위치가 검출되어 있는 것을 알 수 있다.
도 1을 참조하면, 다음에 CPU(2)는 도 5에 나타낸 산출 결과 중, 흑화소 하단 위치의 지면을 향해서 가장 하측의 점을 연결하는 포락선을 산출하여, 수직 위치 편차량으로서 결정한다(S7). 구체적으로는 흑화소 하단 위치가 「0」으로 되는 수직 라인에서 끼워진 영역을 1문자 요소이라고 가정하고, 각 문자 요소를 구성하는 영역마다 가장 하측의 흑화소 하단 위치를 검출하여, 인접하는 각 문자마다의 흑화소 하단 위치끼리를 직선으로 연결하고, 각 수직 라인마다 수직 방향으로 보정해야 하는 수직 위치 편차량을 산출한다. 도 6에 수직 위치 편차량의 검출 결과의 일례를 나타낸다.
다음에, CPU(2)는 도 6에 나타낸 수직 위치 편차량에 근거하여 각 수직 라인마다 수직 방향으로 옮겨야 되는 양을 산출하고, 기억 수단(3)에 기억된 각 수직 라인마다 수직 방향으로 옮겨서 처리를 종료한다(S8). 또한, 이 단계 다음에, 표시부(5)가 사행 보정된 화상을 사용자에 대하여 표시하는 구성이어도 된다.
이와 같이, 본 실시예의 화상 보정 방법 또는 화상 보정 장치에 의하면, 1문자로 간주되는 영역마다 흑화소 하단 위치를 검출하여, 인접하는 문자 요소마다의 흑화소 하단 위치끼리를 연결하는 포락선을 작성하고, 이 수직 위치 편차량에 근거하여 모든 수직 라인에 대해서 옮기는 보정을 실행하기 때문에, 문자 요소 자체의 왜곡도 개선할 수 있다.
또한, 전술한 설명에서는, 단계 S2로부터 단계 S8까지의 각 처리 단계가 소프트웨어에 의해서 실현되는 예를 나타내었다. 그러나, 본 발명은 이에 한정되는 일 없이, 단계 S1로부터 단계 S8까지 중 적어도 하나의 단계가 각각의 단계의 기능을 갖는 하드웨어로 실현되고 있어도 무방하다.
도 7에 본 실시예에 나타낸 화상 보정 장치 및 화상 보정 방법에 근거하여 처리를 실행한 사행 보정된 화상(13)을 나타낸다. 도 7을 보고 알 수 있는 바와 같이, 도 3(b)에 나타낸 경사 보정된 화상(11)과 비교해서 그 문자행의 사행의 정도가 대폭 경감해 있다. 본 실시예에 나타낸 바와 같이, 가장 긴 문자행에 근거하여 보정해야 하는 양을 결정하고, 모든 화상을 구성하는 수직 라인에 대해서 보정을 실행하는 것에 의해, 화상 전체의 사행을 보정할 수 있는 것을 확인할 수 있었다.
이와 같이, 본 실시예의 화상 보정 장치 또는 화상 보정 방법에 의하면, 가장 긴 문자행을 수평 방향의 히스토그램 산출에 의해서 검출하고, 그 문자행에 대해서 보정해야 하는 편차량을 검출하여, 모든 화상에 대해서 보정을 실행하기 때문에, 화상을 구성하는 모든 문자행에 대해서 편차 보정을 실행하는 경우와 비교해서 처리를 신속하게 실행하는 것이 가능해진다.
다음에, 본 실시예의 화상 보정 장치 또는 화상 보정 방법에 의해, 원고의 문자 인식 정밀도가 향상한 구체예를 나타낸다.
정독률(正讀率)의 산출은 기억 수단(3)에 기억된 화상에 근거하여 CPU(2)에서 OCR 처리를 실행하고, 그 결과 정확하게 인식된 문자의 비율을 산출하는 것에 의해 실행한다. 샘플로서는, 랜덤하게 명함 20장을 이용하여 인식을 실행하였다. 촬영하여 OCR에 제공한 문자수는 전화번호 390문자, 메일 어드레스 및 URL은 1026문자이다.
먼저, 명함내의 전화번호의 경우, 보정을 실행하지 않는 경우의 정독률에 반하여, 본 실시예의 화상 보정 장치 또는 화상 보정 방법에 의해 약 20% 정독률을 향상할 수 있었다.
또한, 명함내의 메일 어드레스 및 URL에 대해서도 보정을 실행하지 않는 경우의 정독률에 반하여, 본 실시예의 화상 보정 장치 또는 화상 보정 방법에 의해 약 25% 정독률이 향상하고 있어, 보다 높은 정독률을 얻을 수 있었다.
또한, 전화번호, 메일 어드레스, URL 전체에서도 보정을 실행하지 않는 경우의 정독률에 반하여, 본 발명의 화상 보정을 실행한 경우에는 정독률을 약 23% 향상할 수 있었다. 이는, 본 발명의 화상 보정 장치 또는 화상 보정 방법에 의하면, 문자행의 사행을 보정할 수 있고, 또한, 문자 자체의 화상의 왜곡도 보정할 수 있는 것이 가능하기 때문이라고 생각된다.
(실시예 2)
다음에, 본 발명의 실시예 2로서 본 발명의 화상 보정 장치 또는 화상 보정 방법의 다른 예에 대해서 설명한다.
도 8은 본 발명의 실시예 2에서의 화상 보정 방법의 처리 순서를 나타내는 흐름도이다. 또한, 도 9는 본 발명의 실시예 2에서의 화상 보정 방법을 실현하는 화상 보정 장치(130)의 구성의 일례를 나타내는 블록도이다.
도 9에 나타낸 바와 같이, 본 발명의 실시예 2에서의 화상 보정 장치(130)는 문자나 도형 등의 원고를 판독하여 그 화상의 입력을 실행하는 화상 입력부(101), 화상 입력부(101)에 접속되며 화상 입력부(101)에 입력된 화상에 근거하여 후술하는 각종 처리를 실행하는 연산부인 CPU(102), 화상 입력부(101)에 입력된 화상을 2차원으로 배치된 화소의 화상 정보로서 기억하는 제 1 기억 수단(103), 또한, CPU(102)에 의해서 각종 연산 처리된 결과, 얻어진 화상을 저장, 기억하는 제 2 기억 수단(104), 또한, CPU(102)에 접속되며 각종 연산된 결과 정보나 필요한 정보를 사용자에 대해서 표시하는 표시부(105)를 구비한다.
또한, 본 발명에서의 화소의 화상 정보란, 화상을 구성하는 화소에 대한 휘도 정보, 색 정보 및 농도 정보 등의 각종 정보가 바람직하고, 본 실시예에서는 화소의 휘도 정보를 이용한다.
화상 입력부(101)로서는 광학적인 디바이스 등, 공지의 핸드 스캐너 등에 이용되는 디바이스로부터 임의로 선택되는 것을 이용할 수 있다.
제 1 기억 수단(103) 및 제 2 기억 수단(104)은 각각 프레임 메모리이며, 그 기억 매체로서는 플래쉬 메모리 등 공지의 매체를 임의로 이용할 수 있다.
표시부(105)는 공지의 디스플레이 디바이스, 예를 들면 LCD(Liquid Crystal Display), EL(Electro-Luminescent) 및 CRT(Cathode Ray Tube) 등으로부터 임의로 선택할 수 있다.
다음에, 본 발명의 실시예에서의 화상 보정 장치(130)가 화상 보정 처리를 실행할 때의 처리 단계에 대해서 도 8에 따라서 설명한다.
먼저, 화상 입력부(101)에서 촬영된 화상(이하, 원래 화상으로 기록함)(110)이 CPU(102)를 거쳐서 제 1 기억 수단(103)에 2차원으로 배치된 화소의 화상 정보인 휘도 정보로서 전개된다(S10).
이 원래 화상(110)의 일례를 도 10에 나타낸다. 도 10에 나타낸 원래 화상(110)은 화상 입력부(101)에서 촬영된 부분 화상을 합성해서 얻어진 화상이며, 화상 입력부(101)를 이용하여 원고상에 투사했을 때의 궤적이 문자행의 방향에 대하여 사행했기 때문에, 도 10에 나타낸 원래 화상(110)은 사행해 버리고 있다.
또한, 본 실시예에서 원래 화상(110)은, 전술한 바와 같이, 2차원으로 배치된 화소의 집합체이며, 각각의 화소의 휘도값이 다치(예를 들면, 256계조)의 흑백 화상이다.
또한, 본 실시예에서는, 화상 입력부(101)의 촬영 수단으로서 256×16 화소의 CCD를 이용하고, 화상을 전개하기 위한 제 1 기억 수단(103)으로서는 도 10에서 지면에 대하여 수평 방향(가로)×지면에 대하여 수직 방향(세로)=1000×400 화소의 프레임 메모리를 이용하였다.
다음에, CPU(102)는 제 1 기억 수단(103)에 기억된 원래 화상(110)에 대하여 공지의 방법을 이용하여 화소마다 0(흑) 또는 1(백)의 어느 쪽의 값을 휘도 정보로서 저장하는 2치화 처리를 실행한다(S11). 이 2치화 처리를 실행하는 것에 의해, 메모리 사용량의 삭감 및 처리의 고속화가 가능하여 CPU(102)로의 부하를 억제할 수 있다.
도 11에 이러한 2치화 처리를 실행한 2치화 화상(111)의 일례를 나타낸다. 검게 보이는 화소는 휘도 정보로서 휘도값 「0」이 저장된 화소이며, 하얗게 보이는 화소는 휘도 정보로서 휘도값 「1」이 저장된 화소의 부분이다. 또한, 본 발명은 이 화상의 2치화 처리의 방법에 대해서는 공지의 어떠한 방법을 이용하는 것도 가능하며, 조금도 한정하는 것은 아니다.
도 8을 참조하면, 다음에, CPU(102)는 제 1 기억 수단(103)에 기억된 2치화 화상(111)에 대하여 화상의 흑색의 화소 부분에 대해서 수평 방향으로 팽창시키는 수평 팽창 처리를 실행한다(S12).
이 수평 팽창 처리에 대하여 더 설명한다. 도 12는 수평 팽창 처리(팽창행 생성 수단)의 단계를 나타낸 흐름도이다.
도 12에서, 먼저 CPU(102)는 제 1 기억 수단(103)의 임의의 화소를 주목 화소로 한다. 실용상은, 2치화 화상(111)의 가장 단부, 즉 도 11의 지면에서의 왼쪽 위의 원점 O에 위치하는 화소를 주목 화소로 한다. 그리고, 주목 화소의 휘도값을 검지한다(S21).
계속해서, CPU(102)는 주목 화소의 휘도값이 0(흑)인지 여부를 판정하여(S22), 휘도값이 0(흑)인 경우에는 제 2 기억 수단(104)에서의 대응하는 주목 화소의 처리 방향으로 전후하는 소정 범위의 화소의 휘도값을 0(흑)으로 한다(S23). 한편, 주목 화소의 휘도값이 0이 아닌(1인) 경우에는 이 처리를 실행하지 않는다.
단계 S23에 대해서 도 13을 이용하여 설명한다. 도 13에서, 제 1 기억 수단(103)에서의 어떤 주목 화소 A의 휘도값이 0(흑)인 경우에는, 처리 방향으로 전후하는 소정 범위의 화소(본 실시예에서는, 앞뒤 20화소씩, 주목 화소를 포함하여 합계 41화소)에 대해서 제 2 기억 수단(104)의 대응하는 화소의 휘도값을 원래의 휘도값에 관계없이 전부 일률적으로 휘도값=O(흑)로 한다. 또한, 이 소정 범위는 실용상 앞뒤 20화소 정도가 바람직하다.
도 12를 참조하면, 계속해서 CPU(102)는 제 1 기억 수단(103)을 구성하는 모든 화소에 대한 처리가 종료했는지 여부를 판정하고(S24), 모든 화소에 대한 처리가 종료한 경우에는 처리를 종료한다. 한편, 모든 화소에 대한 처리가 종료하고 있지 않은 경우에는, 주목 화소를 도 11에서의 처리 방향으로 이동하고 (S25), 주목 화소의 휘도값을 검지하는 단계(S21)로 되돌아간다.
이러한 처리를 실행하는 것에 의해서, 도 14에 나타낸 바와 같은 수평 팽창 화상(13)을 제 2 기억 수단(104)상에 얻을 수 있다. 도 14는 본 실시예에서의 수평 팽창 화상(113)의 일례를 나타내는 도면이다.
도 14에 나타낸 바와 같이, 수평 팽창 화상(113)은 복수의 팽창 문자행을 갖는다. 또한, 여기서, 팽창 문자행(팽창행)이란, 휘도값이 O인 화소, 즉 흑화소의 연속한 블록인 것을 말한다. 본 실시예에서는, 수평 팽창 화상(113)의 4개의 팽창 문자행 LA~LD가 2치화 화상(111)에서의 4개의 문자행 A~D의 각각에 대응하고 있다.
여기서, 도 8을 참조하면, CPU(102)는 수평 팽창 처리(S12)의 후, 각 팽창 문자행에 대하여 수직 방향의 흑화소의 개시 위치를 검출한다(S13). 즉, CPU(102)는 수평 팽창 화상(113)의 도 14에서의 지면을 향해서 가장 좌측의 수직 화소열(화상에서의 수직 방향(열방향)의 화소의 연속을 말함)로부터, 각 수직 화소열마다 도 14 중 하측으로부터 Y축 방향으로 스캔을 실행하여, 흑화소(휘도값=O의 화소)의 연속이 소정의 수보다도 많이 계속된 경우, 흑화소가 처음으로 검출된 화소의 위치(이하, 개시 위치라고 기록함)를 각 팽창 문자행마다 검출한다. 즉, 본 실시예의 수평 팽창 화상(113)에서는, 4개의 팽창 문자행 LA~LD의 개시 위치가 각 수직 화소열마다 검출되게 된다.
이 팽창 문자행의 검출 방법에 대해서 도 15를 이용하여 설명한다. 도 15는 본 발명의 실시예에서의 팽창 문자행의 개시 위치 검출 처리(개시 위치 검출 수단)의 단계를 나타내는 흐름도이다.
도 15에서, 먼저 CPU(102)는 제 2 기억 수단(104)에 기억된 수평 팽창 화상(113)의 임의의 수직 화소열에 대해서 주목 화소를 설정하고, 주목 화소를 이동시키면서 각 주목 화소에 대한 휘도값을 검지한다(S31). 또한, 이 주목 화소의 설정은 실용상 도 14 중 가장 하측의 화소로부터 시작한다.
다음에, CPU(102)는 흑화소가 소정수 이상 연속해서 검출되었는지 여부를 판정하여(S32), 소정수 이상 연속해서 검출된 경우에는, 최초에 흑화소가 개시된 화소의 위치를 그 팽창 문자행의 개시 위치로서 기억한다(S34). 한편, 흑화소의 연속이 소정수 미만일 때에는, 그 연속은 팽창 문자행이 아니라 노이즈 정보이라고 간주하여 주목 화소를 이동하고(S36), 다음 팽창 문자행의 개시 위치 검출 처리로 진행한다. 또한, 이 소정수는 실용적으로는 20전후로 설정하는 것이 바람직하다.
그리고, 주목 화소가 수직 화소열의 상단에 도달했는지 여부의 판정(S35)을 실행하여, 도달한 경우에는 처리를 종료한다.
전술한 바와 같은 처리를, 수평 팽창 화상(113)을 구성하는 모든 수직 화소열(모든 화면)에 대해서 실행한다. 이러한 처리를 실행하는 것에 의해서, 짧은 흑화소의 연속은 노이즈 정보로 간주되기 때문에, 문자행으로 구성되는 팽창 문자행의 정보만을 취출하여 처리하는 것이 가능하며, 노이즈 정보의 영향을 받기 어려운 구성을 실현할 수 있다.
전술한 바와 같은 팽창 문자행의 개시 위치 검출 처리를 모든 수직 화소열에 대하여 실행한 결과, 얻어진 모든 팽창 문자행의 개시 위치에 대하여, 수직 방향 위치와 각 수직 방향 위치에서의 개시 위치의 수를 누적한 적산값을 플롯한 결과(히스토그램)를 도 16에 나타낸다. 도 16은 본 발명의 실시예에서의 팽창 문자행 개시점의 분포를 나타내는 것이며, 문자행의 하단 위치의 범위를 나타내고 있다.
도 8을 참조하면, CPU(102)는 도 16에 나타낸 관계를 이용하여, 각 문자행의 하단 위치의 범위(일례로서 도 16에서의 범위 W)를 결정한다. 이 처리(행 분리 수단)는 도 16에 나타낸 히스토그램으로부터, 면적이 있는 소정값 이상의 산의 폭을 검출함으로써 구해진다(이하, 이 처리를 그룹핑으로 기록함)(S14). 본 실시예에서는, 도 16에 나타낸 바와 같이, 4개의 산부가 존재하지만, 이들이 각각 팽창 문자행 LA~LD의 개시 위치의 존재 범위에 대응하고 있다.
또한, 이 단계 S14에서, 히스토그램의 산의 면적이 소정의 값보다도 작은 경우에는 노이즈 정보라고 하여, 그 적산값의 정보를 무시하는 구성이다. 이러한 구성에 의해, 노이즈 정보의 영향이 적은 적절한 팽창 문자행의 개시 위치 검출을 실행할 수 있다.
도 17은 본 발명의 실시예에서의 팽창 문자행의 개시 위치의 그룹핑을 실행하여, 팽창 문자행마다의 개시 위치의 분포를 나타내는 도면이다. 가로축은 도 14의 팽창 화상의 수평 방향 위치를 나타내고, 세로축은 수직 방향 위치를 나타내고 있다. 이와 같이, 위부터 순서대로 팽창 문자행 LD, LC, LB 및 LA의 4개의 팽창 문자행의 개시 위치즉 하단 위치의 분포를 나타내고 있다.
이와 같이, 본 발명의 화상 보정 방법 및 화상 보정 장치에 의하면, 팽창 문자행의 개시 위치의 그룹핑을 실행하는 것에 의해, 문자의 하단 위치의 범위가 겹치지 않고 분리하기 쉽기 때문에, 높은 정밀도로 문자행의 분리를 실행할 수 있다.
도 8을 참조하면, 다음에 CPU(102)는 도 14의 4개의 팽창 문자행 LA~LD의 각각 대하여 수직 방향으로 보정해야 하는 편차량을 모든 수직 화소열에 대해서 산출한다(S15). 그리고, 4개의 팽창 문자행 LA~LD의 편차량 평균값을 산출한다(S16).
도 18은 본 발명의 실시예에서의 각 수직 화소열의 상대 편차량 분포를 나타내는 도면이다. 가로축에 수평 방향 위치, 세로축에 모든 문자행에 대해서 평균값을 산출한 상대 편차량을 나타낸다. 이 도 18에 나타낸 관계로부터, 각 수직 화소열에 대해서 수직 방향으로 보정해야 하는 편차량이 결정된다.
도 8에서, CPU(102)(이동 연산부)는 이 편차량 평균값에 근거하여 제 1 기억 수단(103)에 저장된 2치화 화상(111)의 각 수직 화소열을 편차량만큼 수직 방향으로 이동시켜 처리를 종료한다(S17).
도 19에, 본 발명의 실시예에서의 화상 보정 장치(130)에 의해서, 원래 화상(110)에 대하여 화상 보정을 실행한 결과의 보정된 화상(115)의 일례를 나타낸다.
도 19로부터 알 수 있는 바와 같이, 원래 화상(110)과 비교해서 그 문자행의 경사와, 사행 정도의 쌍방이 보정되어 있는 것을 알 수 있다. 이와 같이, 본 발명의 화상 보정 장치를 이용하면, 경사 및 사행이 보정되기 때문에, 이후의 OCR 등의 처리에서의 인식률의 저하를 억제하는 것이 가능해진다.
또한, 전술한 설명에서는, 단계 S11로부터 단계 S17까지의 각 처리 단계가 소프트웨어에 의해서 실현되는 예를 나타내었다. 그러나, 본 발명은 이에 한정되는 일 없이, 단계 S10으로부터 단계 S17까지 중 적어도 하나의 단계가 각각의 단계의 기능을 갖는 하드웨어로 실현되고 있어도 무방하다.
본 발명의 화상 보정 장치에 의하면, 그 보정해야 하는 편차량은 각 문자행에 대해서 산출된 편차량의 평균값을 이용하기 때문에, 예를 들면 어떤 문자행에서 「j」, 「p」등의 아래로 돌출한 문자 요소가 있더라도, 행이 그 문자 요소의 악영향을 받는 것이 적은 구성을 실현할 수 있다.
또한, 본 발명의 화상 보정 장치 또는 화상 보정 방법은 본 실시예에 나타낸 구성에 한정되지 않는다. 예를 들면, 도 16에 나타낸 팽창 문자행의 개시 위치의 히스토그램에 근거하여, 가장 큰 적산값을 포함하는 문자행에 대해서 산출된, 보정해야 하는 편차량만을 참조하여 화상을 구성하는 모든 수직 화소열에 대해서 보정을 실행하는 구성이더라도 무방하다. 이는, 가장 큰 적산값을 포함하는 문자행은, 통상은 가장 긴 문자행을 의미하기 때문에, 그 문자행에 대해서 보정해야 하는 편차량을 검출하여 보정을 실행함으로써, 화상 전체의 대부분을 보정할 수 있기 때문이다. 실용적으로는 이러한 구성에 의해서도, 양호하게 화상의 경사 및 사행을 보정하는 것이 가능하다. 또한, 화상을 구성하는 모든 문자행에 대해서 개시 위치를 산출하고, 그 평균값에 근거하여 편차 보정을 하는 경우와 비교해서 처리를 신속하게 실행하는 것이 가능해진다.
본 발명의 실시예에서의 화상 보정 장치(130) 또는 화상 보정 방법을 이용하여, 샘플로서 랜덤한 명함 20장을 이용하여 화상 보정을 실행하였다. 또한, OCR에 제공한 문자수는 전화번호 390문자, 메일 어드레스 및 URL은 1026문자이다. 화상 보정한 후에, 제 1 기억 수단(103)에 기억된 화상에 근거하여 CPU(102)에서 OCR 처리를 실행하고, 그 결과 올바르게 인식된 문자의 비율을 산출한 결과, 명함내의 전화번호, 메일 어드레스, URL 전체에서 보정을 실행하지 않는 경우의 정독률에 반하여, 본 발명의 화상 보정을 실행한 경우에는 사행 보정 및 경사 보정의 효과에 의해 정독률을 약 25% 향상할 수 있었다.
또한, 본 발명의 실시예에서는, 표시부(105)의 기능에 대해서 특별히 설명하지 않았지만, 사용자에 대하여 취득된 원래 화상이나 2치화 화상 등을 표시하거나, 에러 메시지나 필요한 입력 내용의 메시지 등을 표시시키는 구성으로 하면, 보다 사용자가 사용하기 쉬운 장치 구성을 실현할 수 있다.
또한, 본 발명의 실시예 1 또는 실시예 2에서는, 화상 보정 장치가 판독한 화상상의 각 문자나 숫자 등의 경사나 사행을 보정하는 예를 나타냈지만, 본 발명의 화상 보정 장치가 보정 가능한 화상은 이에 한정되지 않는다. 예를 들면, 본 발명의 화상 보정 장치 또는 화상 보정 방법은 문자나 숫자 등을 대신하여, 또는, 부가하여 바코드나 도형 등의 정보(이들 정보를 총칭하여, 본 명세서내에서 문자 요소로 기록함)가 화면상의 한 방향으로 나열한 원고에 대해서 판독한 화상의 경사, 사행 또는 왜곡 등에 대해서도 보정할 수 있는 것은 말할 필요도 없다.
(실시예 3)
다음에, 본 발명의 실시예 3으로서 본 발명의 화상 보정 장치 또는 화상 보정 방법을 구비한 정보 장치에 대해서 설명한다.
본 발명의 화상 보정 장치 또는 화상 보정 방법을 이용하면, 메모리 사용량을 삭감하여 처리를 신속하게 실행할 수 있어, 연산부(CPU)의 부담을 작게 할 수 있기 때문에, 휴대형의 정보 기기 등으로의 탑재도 용이하게 된다. 이러한 본 발명의 화상 보정 장치(40, 130)를 휴대 전화 장치 등의 정보 장치에 탑재한 예를 도 20에 나타낸다.
도 20은 화상 보정 장치(130)를 탑재한 휴대 전화 장치(150)의 외관도이며, 도 20(a)는 그 정면도, 도 20(b)는 화상 보정 장치(130)가 탑재된 단부를 나타내는 요부 사시도이다.
휴대 전화 장치(150)는 안테나부(151), 스피커부(152), LCD 등의 표시부(105), 키부(154) 및 마이크부(155) 등의 공지의 휴대 전화 장치에 화상 보정 장치(130)를 내장한 구성이다.
본 발명의 화상 보정 장치를 탑재하는 것에 의해, 휴대 전화 장치(150)의 하면에 화상 보정 장치(130)의 화상 입력부(101)의 문자나 도형 등의 짙음 옅음으로 나타내어진 정보를 판독하는 면을 마련하는 것에 의해, 상당히 사용자에게 있어서 쓰기 쉬운 화상 보정 장치(130) 내장형의 휴대 전화 장치(150)를 제공할 수 있다.
또한, 본 실시예에서는, 휴대 전화 장치(150)에 실시예 2에서 설명한 화상 보정 장치(130)를 탑재한 예를 나타냈지만, 실시예 1에서 설명한 화상 보정 장치(40)를 탑재하더라도 마찬가지의 효과를 나타낼 수 있는 것은 말할 필요도 없다.
이렇게 본 발명의 화상 보정 장치를 탑재한 휴대 전화 장치에 의해, URL이나 2차원 바코드 등의 문서 정보를 판독하여 OCR 등의 처리에 제공할 수 있기 때문에, 종래에 없는 다기능의 휴대 전화 장치 등의 정보 장치를 제공할 수 있다.
또한, 여기서 정보 장치란, 전술한 휴대 전화 장치에 한정되지 않고, 디지털 카메라, 소형 퍼스널 컴퓨터 및 PDA(personalㆍdigitalㆍassistant) 등, 공지의 각종 정보 장치를 포함하는 것은 말할 필요도 없다.
이상 설명한 바와 같이, 본 발명에 따른 화상 보정 장치 및 화상 보정 방법은 문자행의 경사 또는 사행을 보정할 수 있고, 또한, 문자 요소 자체의 왜곡도 보정할 수 있다고 하는 효과를 갖고, 문서 등의 원고를 핸드 스캐너 등으로 촬영한 화상에서 발생하는 문자행 등의 경사 또는 사행을 보정하는 화상 보정 장치 및 화상 보정 방법 등으로서 유용하다.

Claims (16)

  1. 복수의 문자 요소행을 포함하는 화상이 입력되는 화상 입력부와,
    상기 복수의 문자 요소행으로부터 소정의 문자 요소행을 검출하는 행검출부와,
    상기 소정의 문자 요소행에 대해서 화소열마다 열방향의 위치 보정량을 산출하는 보정량 산출부와,
    상기 소정 방향의 화소열마다 산출된 위치 보정량에 근거하여, 상기 화상의 각 화소열의 위치를 상기 열방향으로 이동시키도록 보정하는 위치 보정부
    를 구비한 것을 특징으로 하는 화상 보정 장치.
  2. 제 1 항에 있어서,
    상기 행검출부는 상기 화상의 행방향의 적산 히스토그램를 작성하는 히스토그램 작성부를 갖고, 상기 적산 히스토그램에 근거하여 최장의 문자 요소행을 검출하는 것
    을 특징으로 하는 화상 보정 장치.
  3. 제 2 항에 있어서,
    상기 행검출부는 상기 히스토그램 작성부에서 작성된 상기 적산 히스토그램의 값이 최대로 되는 화소 위치를 추출하는 화소 위치 추출부를 갖고, 상기 화소 위치에 근거하여 상기 최장의 문자 요소행을 검출하는 것
    을 특징으로 하는 화상 보정 장치.
  4. 제 3 항에 있어서,
    상기 행 검출부는 상기 화소 위치 추출부에서 추출된 상기 화소 위치로부터 상기 적산 히스토그램의 값이 소정의 범위내로 되는 화소 위치의 범위를 상기 최장의 문자 요소행의 범위로서 특정하는 범위 특정부를 갖는 것
    을 특징으로 하는 화상 보정 장치.
  5. 제 1 항에 있어서,
    상기 보정량 산출부는 상기 소정의 문자 요소행의 문자 요소마다 상기 열방향의 단부 위치를 검출하는 단부 위치 검출부를 갖고, 상기 문자 요소마다의 상기 단부 위치의 편차량에 근거하여 상기 위치 보정량을 산출하는 것
    을 특징으로 하는 화상 보정 장치.
  6. 제 5 항에 있어서,
    상기 보정량 산출부는 상기 단부 위치 검출부가 검출한 상기 단부 위치를 상기 문자 요소마다 연결한 포락선에 근거하여 상기 편차량을 산출하는 것
    을 특징으로 하는 화상 보정 장치.
  7. 복수의 문자 요소행을 포함하는 화상이 입력되는 화상 입력부와,
    상기 화상의 행방향의 적산 히스토그램를 작성하는 히스토그램 작성부와,
    상기 히스토그램 작성부에서 작성된 상기 적산 히스토그램의 값이 최대로 되는 화소 위치를 추출하는 화소 위치 추출부와,
    상기 화소 위치 추출부에서 추출된 상기 화소 위치로부터 상기 적산 히스토그램의 값이 소정의 범위내로 되는 화소 위치의 범위를 최장의 문자 요소행의 범위로서 특정하는 범위 특정부와,
    상기 최장의 문자 요소행의 문자 요소마다 상기 화상에서의 열방향의 단부 위치를 검출하는 단부 위치 검출부와,
    상기 단부 위치 검출부가 검출한 상기 단부 위치를 상기 문자 요소마다 연결한 포락선에 근거하여 상기 단부 위치의 상기 문자 요소마다의 편차량을 위치 보정량으로서 산출하는 위치 보정량 산출부와,
    상기 위치 보정량에 근거하여 상기 화상을 화소열마다 상기 열방향으로 이동시키도록 보정하는 위치 보정부
    를 구비한 것을 특징으로 하는 화상 보정 장치.
  8. 복수의 문자 요소행을 포함하는 제 1 화상이 입력되는 화상 입력부와,
    상기 제 1 화상을 상기 행방향으로 팽창시켜 복수의 팽창행을 포함하는 제 2 화상을 생성하는 팽창행 생성부와,
    상기 제 2 화상의 화소열마다 상기 팽창행의 상기 열방향의 개시 위치를 검출하는 개시 위치 검출부와,
    상기 제 2 화상의 화소열마다 상기 열방향의 위치 보정량을 산출하는 보정량 산출부와,
    상기 위치 보정량에 근거하여 상기 제 1 화상의 각 화소열의 위치를 상기 열방향으로 이동시키도록 보정하는 위치 보정부
    를 구비한 것을 특징으로 하는 화상 보정 장치.
  9. 제 8 항에 있어서,
    상기 제 2 화상은 휘도값이 0 또는 1의 값으로 나타내어진 2치화 화상인 것을 특징으로 하는 화상 보정 장치.
  10. 제 9 항에 있어서,
    상기 개시 위치 검출부는 상기 팽창행의 상기 열방향의 개시 위치의 검출을, 상기 화소열마다 상기 열방향으로 주목 화소를 이동하면서 상기 주목 화소에 대한 휘도값을 검지하여, 휘도값이 0인 화소가 소정의 수 이상 연속한 경우에, 최초에 휘도값이 0인 화소를 검지한 위치를 상기 개시 위치로 하는 것
    을 특징으로 하는 화상 보정 장치.
  11. 제 10 항에 있어서,
    상기 개시 위치 검출부는 상기 팽창행의 상기 열방향의 개시 위치의 검출을 복수의 팽창행 각각 대해서 실행하고,
    상기 보정량 산출부는 상기 복수의 팽창행 각각의 상기 열방향의 개시 위치 분포의 평균값에 근거하여 상기 위치 보정량을 산출하는 것
    을 특징으로 하는 화상 보정 장치.
  12. 복수의 문자 요소행을 포함하는 2치화된 제 1 화상이 입력되는 화상 입력부와,
    상기 제 1 화상을 행방향으로 팽창시켜 복수의 팽창행을 포함하는 제 2 화상을 생성하는 팽창행 생성부와,
    상기 제 2 화상의 화소열마다 열방향으로 주목 화소를 이동하면서 상기 주목 화소에 대한 휘도값을 검지하여, 휘도값이 O인 화소가 소정의 수 이상 연속한 경우에, 최초에 휘도값이 0인 화소를 검지한 위치를 상기 팽창행의 개시 위치로서 검출하는 개시 위치 검출부와,
    상기 복수의 팽창행의 상기 열방향의 개시 위치 분포의 평균값에 근거하여, 상기 제 2 화상의 화소열마다의 위치 보정량을 산출하는 보정량 산출부와,
    상기 위치 보정량에 근거하여 상기 제 1 화상을 상기 화소열마다 상기 열방향으로 이동시키도록 보정하는 위치 보정부
    를 구비한 것을 특징으로 하는 화상 보정 장치.
  13. 청구항 1 내지 청구항 12 중 어느 한 항에 기재된 화상 보정 장치를 구비한 것을 특징으로 하는 정보 장치.
  14. 청구항 1 내지 청구항 12 중 어느 한 항에 기재된 화상 보정 장치를 구비한 것을 특징으로 하는 휴대 전화 장치.
  15. 복수의 문자 요소행을 포함하는 화상으로부터 소정의 문자 요소행을 검출하는 제 1 단계와,
    상기 소정의 문자 요소행의 화소열마다 위치 보정량을 산출하는 제 2 단계와,
    상기 위치 보정량에 근거하여 상기 화상을 상기 화소열마다 열방향으로 이동시키도록 보정하는 제 3 단계
    를 구비한 것을 특징으로 하는 화상 보정 방법.
  16. 복수의 문자 요소행을 포함하는 제 1 화상을 행방향으로 팽창시켜 복수의 팽창행을 포함하는 제 2 화상을 생성하는 제 1 단계와,
    상기 제 2 화상의 화소열마다 상기 팽창행의 열방향의 개시 위치를 검출하는 제 2 단계와,
    상기 팽창행의 열방향의 개시 위치의 정보에 근거하여 상기 팽창행의 열방향의 개시 위치가 갖추어지도록, 상기 제 1 화상의 위치를 보정하는 제 3 단계
    를 구비한 것을 특징으로 하는 화상 보정 방법.
KR1020057005441A 2002-09-30 2003-09-30 화상 보정 장치 및 화상 보정 방법 KR20050048658A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002286766A JP2004126741A (ja) 2002-09-30 2002-09-30 画像補正方法
JPJP-P-2002-00286766 2002-09-30
JP2002308254A JP2004145517A (ja) 2002-10-23 2002-10-23 画像補正装置
JPJP-P-2002-00308254 2002-10-23

Publications (1)

Publication Number Publication Date
KR20050048658A true KR20050048658A (ko) 2005-05-24

Family

ID=32044655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057005441A KR20050048658A (ko) 2002-09-30 2003-09-30 화상 보정 장치 및 화상 보정 방법

Country Status (6)

Country Link
US (1) US20050129333A1 (ko)
EP (1) EP1465105A1 (ko)
KR (1) KR20050048658A (ko)
CN (1) CN1623164A (ko)
AU (1) AU2003268699A1 (ko)
WO (1) WO2004029867A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160971A1 (en) * 2006-01-12 2007-07-12 Caldera Paul F Method for Automated Examination Testing and Scoring
JP4902568B2 (ja) 2008-02-19 2012-03-21 キヤノン株式会社 電子文書生成装置、電子文書生成方法、コンピュータプログラム、および記憶媒体
JP5132470B2 (ja) 2008-08-01 2013-01-30 三洋電機株式会社 画像処理装置
KR101733792B1 (ko) * 2010-11-10 2017-05-24 삼성전자주식회사 위치 보정 방법 및 장치
US8873642B2 (en) * 2010-12-22 2014-10-28 Verizon Patent And Licensing Inc. Video content analysis methods and systems
CN102789658B (zh) * 2012-03-02 2015-02-18 成都三泰电子实业股份有限公司 紫外防伪支票真伪验证方法
JP6056319B2 (ja) * 2012-09-21 2017-01-11 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP6010870B2 (ja) * 2013-12-24 2016-10-19 カシオ計算機株式会社 画像補正装置、及び画像補正方法、プログラム
KR102224742B1 (ko) * 2014-06-10 2021-03-09 삼성디스플레이 주식회사 영상 표시 방법
CN106961534A (zh) * 2016-01-11 2017-07-18 深圳市安普盛科技有限公司 一种具有扫描功能的移动通信终端及其扫描方法
CN107038440B (zh) * 2016-02-04 2020-04-28 株式会社理光 图像倾斜校正装置、图像处理***以及图像倾斜校正方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6023392B2 (ja) * 1981-09-22 1985-06-07 富士通株式会社 ハンド走査形図形入力方式
JPH01213768A (ja) * 1988-02-22 1989-08-28 Oki Electric Ind Co Ltd 文字行検出装置
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
JP3046652B2 (ja) * 1991-07-16 2000-05-29 シャープ株式会社 文字原稿の傾き補正方法
JP3108979B2 (ja) * 1994-07-28 2000-11-13 セイコーエプソン株式会社 画像処理方法および画像処理装置

Also Published As

Publication number Publication date
WO2004029867A1 (ja) 2004-04-08
US20050129333A1 (en) 2005-06-16
EP1465105A1 (en) 2004-10-06
CN1623164A (zh) 2005-06-01
AU2003268699A1 (en) 2004-04-19

Similar Documents

Publication Publication Date Title
US6754369B1 (en) License plate reading apparatus and method
JP4848427B2 (ja) 動画イメージコード、動画イメージコードを生成または復号する装置及びその方法
US7006708B1 (en) Image processor, image processing method, and medium on which image processing program is recorded
US7855731B2 (en) Image vibration-compensating apparatus and method thereof
KR20060050729A (ko) 카메라로 촬영된 문서 영상 처리 방법과 장치
US8619098B2 (en) Methods and apparatuses for generating co-salient thumbnails for digital images
JPH07192086A (ja) 画像傾き検出方法
KR20070008652A (ko) 촬영된 이미지로부터 원 데이터를 추출하는 방법
US20080195958A1 (en) Visual recognition of user interface objects on computer
US8538191B2 (en) Image correction apparatus and method for eliminating lighting component
JP2002135592A (ja) 画像処理装置及び記録媒体
KR101018310B1 (ko) 전자 문서 생성장치, 전자 문서 생성방법, 및 기억매체
KR20050048658A (ko) 화상 보정 장치 및 화상 보정 방법
US20100246972A1 (en) Image processing apparatus, image processing method, and recording medium
JP5870745B2 (ja) 画像処理装置、二値化閾値算出方法及びコンピュータプログラム
EP1574991A1 (en) Similar image extraction device, similar image extraction method, and similar image extraction program
US8768058B2 (en) System for extracting text from a plurality of captured images of a document
US8908970B2 (en) Textual information extraction method using multiple images
JP4177325B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP2004341977A (ja) 文字認識装置及び携帯情報端末
US11525671B2 (en) High contrast structured light patterns for QIS sensors
JP2004128643A (ja) 画像の傾き補正方法
JP2004145517A (ja) 画像補正装置
JP2000276581A (ja) 画像処理装置および画像処理方法ならびに画像処理プログラムを記録した記録媒体
US20140160232A1 (en) Apparatus and method for scanning and recognizing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application