KR20040005671A - 문자인식 장치 및 방법 - Google Patents

문자인식 장치 및 방법 Download PDF

Info

Publication number
KR20040005671A
KR20040005671A KR1020030046276A KR20030046276A KR20040005671A KR 20040005671 A KR20040005671 A KR 20040005671A KR 1020030046276 A KR1020030046276 A KR 1020030046276A KR 20030046276 A KR20030046276 A KR 20030046276A KR 20040005671 A KR20040005671 A KR 20040005671A
Authority
KR
South Korea
Prior art keywords
recognition
character
recognizing
result
range
Prior art date
Application number
KR1020030046276A
Other languages
English (en)
Other versions
KR100578188B1 (ko
Inventor
이케다히로아키
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20040005671A publication Critical patent/KR20040005671A/ko
Application granted granted Critical
Publication of KR100578188B1 publication Critical patent/KR100578188B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

복수의 언어를 포함한 문서 화상의 문자인식 정확성을 증가시키는 문자인식을 행하는 문자 인식장치이다. 제 1의 인식 유닛을 이용하여 인식한 결과에 의거하여, 재인식 범위를 설정하고, 상기 설정된 범위 내에서 제 2의 인식 유닛에 의한 문자인식을 행한다. 상기 재인식 범위에서, 재인식한 결과, 제 1의 인식 유닛보다 유사도가 높게된 경우에는, 제 1의 인식 유닛에 의한 인식 결과를, 제 2의 인식 유닛에 의한 인식 결과로 대체한다.

Description

문자인식 장치 및 방법{CHARACTER RECOGNITION APPARATUS AND METHOD}
본 발명은 원고를 광학적으로 판독하여 문자를 인식하는 문자인식, 보다 상세하게는, 영어단어를 포함한 일본어 문서등 복수의 언어를 포함한 문서 화상에 대한 문자인식에 관한 것이다.
광학적 문자인식 장치(OCR 장치)에서는, 농도 투영(히스토그램)에 의해 문자 행을 잘라내고(문자 행의 추출), 또 1 문자단위의 문자블록을 잘라낸다(문자화상의 추출). 문자블록을 잘라내면, 문자 행 방향으로 농도 투영을 취하고, 농도 투영 값의 변화에 의거하여 문자 행을 분리한다. 또, 각 문자 행의 문자행 방향에 수직 방향으로 농도 투영을 취함으로써, 각 문자블록을 추출한다. 또한 1개의 문자가 복수개의 문자블록으로 분리되는 경우에는, 표준적인 문자사이즈, 문자피치의 추정 값 및 문자 행과 수직 방향으로 농도 투영 값 등을 포함하는 정보에 의거하여, 1문자단위의 문자 화상으로 최종 문자블록을 생성하도록 문자블록을 결합한다. 상기 문자의 절단과 문자블록 생성이 적절하게 실행되면, 고정밀도의 문자인식이 가능하다.
그러나, 제 1언어가 제 2언어를 포함하는 문서에서는, 문자블록 생성이 적절하게 수행되지 않는 경우가 있다. 예를 들면, 영어단어를 포함한 일본어 문서에서, 특히 영어단어가 비례적으로 할당된 일본어 문서에서는, 영어단어 부분의 문자 폭,문자피치가 불균일 하기 때문에, 추정 값과 크게 다르게 되어, 문자블록의 추출이 잘못 수행된다. 이 경우에, 인식정도가 저하된다.
영어단어를 포함하는 일본어 문서에서 높은 인식 정도를 얻기 위해서, 일본국 특개평5-101220호 공보, 동 9-167206호 공보, 동 6-301822호 공보의 다음 방법이 제안되어 있다.
(1) 일본국 특개평5-101220호 공보(종래예 1)
추정한 문자사이즈 보다 작은 문자를 반각 후보 문자로 결정한다. 연속한 반각후보 문자가 있고, 반각 후보 문자열의 전 또는 뒤에 여백 부분이 존재하는 경우, 상기 문자열을 영어단어 후보로서 결정한다. 인접하는 1쌍의 반각 후보 문자의 사이즈를 한계 값과 비교하여 영어단어 후보가 영어문자가 아닌 것으로 결정된 반각 후보 문자를 포함한 경우는, 상기문자를 영어단어 후보에서 제외한다. 최종적으로 영어단어 후보라고 결정된 반각 후보 문자를 반각 영숫자로서 문서 화상으로부터의 추출한다. 한편, 영어단어 후보가 아닌 것으로 결정된 반각후보 문자를 인접한 반각후보 문자와 재결합하여 상기 결합된 문자를 추출한다.
(2) 일본국 특개평9-167206호 공보(종래예 2)
일단, 문서 화상 전체의 문자인식을 행하고, 인식 결과로부터 영숫자 열을 추출하고, 각 영숫자 열마다 피치 포맷을 결정한다. 비례하는 피치에 대한 공간 검출처리 또는 고정된 피치에 대한 공간 검출처리는 피치 포맷에 대응하여 적용되고, 이에 의해 고정도로 상기 공간을 검출한다.
(3) 일본국 특개평6-301822호공보(종래예 3)
공백문자, 구두점, 괄호 등의 구분 문자의 위치에 의거하여, 단일의 단어로서 문자열의 비교 범위를 결정하고, 단어사전과의 비교를 실시하는 후처리를 실행한다.
그러나, 종래예 1에서, 문자블록 추출 처리는 인접한 한쌍의 반각 후보 문자의 사이즈에 의거하여 영어단어 후보의 결정에 의해 절단 위치를 결정한다. 비례적인 피치의 영어단어 등에서 일부의 문자 사이에 접촉이 발견되는 경우는, 영어단어 후보의 각각의 문자가 분리되지 못한다. 이 경우에, 영어단어 후보를 적절하게 인식 할 수 없다. 또한, 재인식을 행할 수 없다.
종래예 2에서, 영숫자로서 인식된 부분인지의 여부가 결정된다. 상기 문자인식 처리가 잘못된 경우에, 영숫자로서 인식되지 않은 부분에 대해서는 비례적인가의 결정조차도 실시되지 않는다. 또한, 재인식도 실시되지 않는다.
종래예 3에서는, 구분 문자를 이용하여 단어를 추출하므로, 구분 문자를 인식 할 수 없었던 경우는 단어 비교를 행할 수 없다.
도 1은 본 발명의 실시예에 의한 문자인식 장치를 도시한 블록도.
도 2는 본 발명의 제 1실시예에 의한 문자인식 방법을 도시한 플로차트.
도 3은 도 2의 스텝 S203에서의 처리를 나타내는 플로차트.
도 4는 본 발명의 제 2실시예에 의한 문자인식 방법을 도시한 플로차트.
도 5는 도 4의 스텝 S406에서의 처리의 예를 도시한 플로차트.
도 6은 도 4의 스텝 S409에서의 처리의 예를 도시한 플로차트.
도 7은 도 5 및 도 6의 처리에 대한 대안 처리의 예를 도시한 플로차트.
도 8은 도 1의 문자인식 장치에 의해 행해지는 각종 데이터처리 프로그램을 기억하는 일예의 기억매체의 메모리 맵.
도 9는 본 발명에 의한 문자인식 방법을 복수의 기기에 의해 행하는 문자인식 시스템의 구성의 예를 도시한 블록도.
<간단한 도면 부호의 설명>
101 : CPU 102 : ROM
103 : RAM 104 : 보조메모리
105 : 디스플레이 106 : 신호키 보드
107 : 포인팅디바이스 108 : 이미지스캐너
109 : 네트워크 인터페이스
본 발명에 일측면에 의하면, 제 1언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 수단과; 제 2언어의 문자 화상을 문자인식하기에 적합한 제 2인식 수단과; 상기 제 1인식 수단을 이용함으로써 문서 화상에 포함되는 복수의 문자 화상을 문자인식 한 결과에서, 상기 제 1인식 수단에 의해 상기 제 2언어로서 인식된 문자 화상에 인접하는 인식 결과에 의거하여, 상기 제 2인식 수단을 이용함으로써재인식시키기 위한 재인식 범위를 설정하는 재인식 범위 설정 수단을 포함하는 문자인식 장치가 제공된다.
본 발명에 또 다른 측면에 의하면, 제 1언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 절차를 이용하여 문서 화상에 포함되는 복수의 문자 화상의 문자인식을 행하는 스텝과; 상기 제 1인식 절차에 의해 제 2언어로서 인식된 문자 화상에 인접한 문자 화상의 인식 결과에 의거하여 제 2언어의 문자 화상을 문자인식 하기에 적합한 제 2인식 절차를 이용하여 재인식을 행하기 위한 재인식 범위를 설정하는 스텝과; 상기 제 2인식 절차를 이용하여 상기 설정된 재인식 범위의 재인식을 행하는 스텝을 포함하는 문자인식 방법을 제공한다.
본 발명의 기타 특징 및 이점은 첨부하는 도면과 관련하여 주어진 다음의 설명으로부터 명백해질 것이며, 도면에서의 동일한 참조 문자는 그 도면의 처음부터 끝가지 동일한 명칭 또는 동일한 부분을 나타낸다.
본 명세서에 포함되고, 일부분을 구성하는 상기 첨부도면은 상세한 설명과 함께 본 발명의 실시예를 설명하고, 본 발명의 원리를 설명하는 역할을 한다.
[발명의 실시의 형태]
본 발명의 바람직한 실시예를 상기 첨부도면에 따라서 상세하게 설명한다.
[문자인식 장치]
도 1은 본 발명에 의한 광학적 문자인식 장치(OCR 장치)등의 문자인식 장치를 도시한 블록도 이다.
자기 디스크 등의 외부 기억유닛(104) 및 이미지 스캐너(108)를 가진 문자인식 장치는, 원고의 화상 데이터를 외부 기억유닛(104)르로부터 판독하거나 또는 원고를 직접 이미지 스캐너(108)로 판독한다. 문자인식 장치는 전체 제어를 위한 CPU(101)를 가지며, CPU(101)의 제어프로그램은 ROM(l02)에 기억되어있다. 이미지 스캐너(108)로부터 입력된 화상은 RAM(103)에 유지되고, ROM(l02)내의 제어프로그램에 따라서 문자인식을 위한 처리를 행한다. 문자인식을 위한 인식 사전은 제어프로그램과 함께 ROM(102)에 기억되거나 또는 필요한 문자종류에 따라서, 외부 기억유닛(104)으로부터 RAM(103)으로 판독된다.
제어프로그램은 복수의 언어, 예를 들면 일본어, 영어에 대응하여 각각의 언어에 적절한 제 1인식 유닛, 제 2인식 유닛으로서 기능 한다.
필요에 따라, 문자인식에 앞서 노이즈제거 등의 전처리를 행하는 것에 유의해야한다.
도 1에서, (105)는 디스플레이, (106)은 키보드, (107)은 마우스등의 포인팅 디바이스를 나타내고, (109)는 도시되지 않은 원격 장치와 통신하고 프로그램, 인식사전, 데이터 등을 송수신 할 수 있는 네트워크 인터페이스이다.
다음에, 문자인식 장치에서 수행되는 문자인식 방법을 설명한다.
[문자인식 방법]
<제 1실시예>
도 2, 도 3은, 본 발명의 제 1실시예에 의한 도 1의 문자인식 장치에 의해 수행되는 문자인식 방법을 도시한 플로차트이다.
제 1실시예에서는, 일본어 문자의 인식에 적절한 제 1문자인식 유닛에 의해문자인식을 행하고, 다음에 인식 결과로부터 유사도가 낮은 문자 등에 대해서, 영문자의 인식에 적절한 제 2문자인식 유닛에 의한 재인식을 행한다.
도 2의 플로차트는, 제 1실시예에 의한 전체의 흐름을 도시한다.
스텝 S201 : 우선 스캐너(108)에 의해 판독된 화상 또는 외부기억유닛(104)에 기억된 화상을 입력하고, 공정은 스텝 S202로 진행한다.
스텝 S202 : 입력 된 화상을 일본어용 제 1인식 유닛에 의해 문자인식을 한다. 문자블록 추출은 일본어 문자를 추출하는데 적합한 문자 추출 방법을 사용하여 수행되는 것에 유의해야 한다. 문자인식에서는, 종래의 기술에서 설명된 바와 같이 행 방향으로 투영하여, 행을 추출하고, 행방향과 수직방향으로 투영함으로써 문자블록을 추출하고, 추출된 문자블록을 이용하여 문자폭이나 문자피치를 추정한다. 1 개의 문자가 복수개의 블록으로 분리된 경우에는, 추정된 문자폭이나 문자 피치를 이용하여 상기 블록이 1문자로 결합된다. 그 후, 문자에 의해 특징추출을 행하고, 상기 특징을 미리 준비된 다양한 문자종류 데이터와 비교하여, 가장 유사도가 높은 문자종류를 그 문자의 인식 결과로서 결정한다. 상기 제 1인식 유닛에 의한 일본어용 문자인식에서는, 문자 피치의 변동이 적고, 또한 문자의 종횡비가 대략 정방형인 것으로 가정하여 문자블록을 추출한다. 제 1인식 유닛에 의해 일본어 문서에서 종종 사용되는 표준 폰트의 알파벳은 인식 가능하지만, 많은 기타 폰트의 알파벳은 인식이 불가능하다. 화상의 모든 문자에 대해서 문자인식이 완료되면, 공정은 스텝 S203으로 진행한다.
스텝 S203 : 스텝 S202의 인식 결과에 대해서, 각 행으로부터 유사도가 낮은문자를 포함한 화상 영역을 재인식 범위로서 추출한다. 재인식 범위의 추출은 후술한다. 재인식 범위는 1행 이내의 화상 영역 또는 복수행에 걸치는 화상 영역이다.
스텝 S204 : 스텝 S203에서 재인식 범위가 1개 이상 추출되는지의 여부를 결정한다. 추출된 경우에는, 공정은 스텝 S205로 진행한다. 추출되지 않은 경우에는, 공정을 종료한다.
스텝 S205 : 재인식 범위에 대해서, 영어용 제 2인식 유닛에 의해 문자인식을 한다. 재인식 범위가 복수행에 걸쳐 있을 경우에는, 제 1인식 유닛의 경우와 마찬가지로 행을 추출하고, 그 후 문자블록을 추출하여, 문자단위로 유사도를 조사한다. 재인식 범위가 1행 이내의 화상 영역인 경우에는, 상기 화상 영역으로부터 문자블록을 추출하고, 문자단위로 유사도를 조사한다. 문자블록 추출로서, 영문자를 추출하는데 적합한 문자 추출 방법을 사용한다.
영어단어는 문자간의 접촉 또는 오버랩(커닝)(kerning)을 포함할 수도 있다. 제 1인식 유닛과 다른 제 2인식 유닛은, 화소의 히스토그램이 낮은 부분 등에서 문자의 분리를 행한다. 따라서, 제 1인식 유닛에 의해 분리되지 않은 문자가 분리 가능하게 된다. 또한, 제 1인식 유닛에 대한 영어폰트보다 보다 많은 영어의 폰트에 대해서 인식 사전이 준비되어 있다. 따라서, 인식 정도가 향상된다.
스텝 S206 : 스텝 S205로 재인식한 결과, 제 1인식 유닛에 의한 유사도 보다 높은 유사도를 얻을 수 있는 경우에는, 제 1인식 유닛에 의한 인식 결과를 상기 재인식 범위의 제 2인식 유닛에 의한 인식결과로 대체한다. 이와 같이, 인식의 정도가 향상된다.
제 1실시에에 의하면, 영어단어를 포함한 일본어 문서에서, 일본어 문자 및 영문자는 상기 처리에 의해 높은 인식 정도로 인식될 수 있다. 또한, 재인식을 행하는 제 2인식 수단은 제 1인식 수단과는 독립적으로 동작 가능하므로, 인식 유닛을 일본어나 영어 이외가 다른 언어에 적절한 인식 유닛으로 대체 가능하다. 따라서, 제 1 및 제 2인식 유닛을 이용함으로써 다양한 언어의 조합을 취급할 수 있다.
다음에, 스텝 S203에서 재인식 범위의 설정은 도 3의 플로차트에 관련하여 더욱 상세하게 설명한다.
스텝 S301 : 한계 값 T1 및 한계 값 T2를 설정하고, 공정은 스텝 S302로 진행한다. 재인식 범위가 제 1인식 유닛에 의해 추출된 문자의 전후의 문자를 포함한 영역으로 확대하는지 여부의 결정을 위해 한계 값 T1이 사용된다. 설정된 재인식 범위에 대해서 상기 제 2인식 유닛에 의한 재인식을 행하는지 여부의 결정을 위해 한계 값 T2가 사용된다.(7/1)
스텝 S302 : 스텝 S303 및 그 이하 스텝의 처리의 종료 판단을 행한다. 도 2의 스텝 S202에서 추출된 모든 문자에 대해서 스텝 S303 및 그 이하 스텝의 처리가 완료했을 경우는, 그 처리를 종료한다. 도 2의 스텝 S202에서 완료하지 않았을 경우, 그 공정은 스텝 S303으로 진행한다.
스텝 S303 : 일본어용의 제 1인식 유닛에 의해서, 알파벳, 또는 알파벳과 숫자의 조합(alphanumeric)(알파 뉴메릭)의 검출되는지의 여부를 결정한다. 일본어 문서에 영어단어가 포함되지 않았을 경우에는, 모든 문자가 일본어로서 인식되고, 영어단어가 포함되어 있을 경우에는, 영숫자가 검출된다.
스텝 S304: 스텝 S303에서 영숫자가 검출되는지의 여부를 결정한다. 검출되지 않았을 경우는, 스텝 S302로 돌아와서 체크되지 않은 결과의 존재여부를 결정한다. 영숫자가 검출되었을 경우에는, 공정은 스텝 S305로 진행한다. 스텝 S305~S308에서는 재인식 범위를 설정한다.
스텝 S305 : 재인식 범위를 후방으로 확대하는 조건을 결정한다. 초기상태에서, 재인식 범위는 제 1인식 유닛에 의해 검출된 영숫자의 범위이다. 소정의 조건을 만족하는 경우에, 스텝 S306에서 재인식 범위를 다음 문자로 확대한다. 재인식 범위를 확대하는 조건으로서, 재인식 범위의 다음의 문자가 알파 뉴메릭인 경우, 또는 재인식 범위의 다음의 문자의 인식 결과로서 유사도가 한계 값 T1 보다 작은 경우에는, 그 공정은 스텝 S306으로 진행한다. 그렇지 않으면, 재인식 범위의 다음의 문자가 어느 조건도 만족하지 않을 경우, 또는 다음의 문자가 존재하지 않을 경우는, 그 공정은 스텝 S307로 진행한다. 재인식 범위가 행의 종단에 위치 결정되는 경우에는, 다음 문자는 다음 행의 최초의 문자가 되는 것에 유의해야 한다. 재인식 범위가 다음 행까지 확대되는 경우에, 상기 재인식 범위는 복수 행에 걸치게 된다.
스텝 S306 : 재인식 범위의 다음 문자를 재인식 범위에 포함하여 재인식 범위를 확대한다. 그 후, 공정은 스텝 S305로 복귀한다.
스텝 S307 : 초기상태의 재인식 범위 또는 스텝 S306에서 후방으로 확대된 재인식 범위에 대해, 상기 재인식 범위를 전방으로 확대하는 조건을 결정한다. 재인식 범위를 전방으로 확대하는 조건으로서, 재인식 범위의 전의 문자가 영숫자인경우, 또는 재인식 범위의 전의 문자의 인식 결과로서 유사도가 한계 값 T1보다 작은 경우에, 공정은 스텝 S308로 진행한다. 그렇지 않으면, 상기 재인식 범위의 전의 문자가 어느 조건도 만족하지 않을 경우, 또는 상기 재인식 범위의 전의 문자가 존재하지 않을 경우에는, 공정은 스텝 S309로 진행한다. 재인식 범위가 행의 서두에 위치결정 되는 경우는, 상기 이전의 문자는 전행의 마지막 문자가 되는 것에 유의해야 한다. 상기 재인식 범위가 전 행까지 확대되는 경우에, 재인식 범위는 복수 행에 걸친다.
스텝 S308 : 상기 재인식 범위 이전의 문자를 재인식 범위에 포함하여 재인식 범위를 확대한다. 그 후, 공정은 스텝 S307로 복귀한다.
스텝 S309 : 스텝 S305내지 S308로 설정된 재인식 범위에서 유사도가 한계값 T2 이하인 문자가 존재하는지의 여부를 결정한다. 유사도가 한계값 T2이하인 문자가 존재하는 경우, 제 1인식 유닛에 의한 인식 결과의 신뢰성에 문제가 있다고 결정하고, 공정은 스텝 S311로 진행한다. 유사도가 한계값 T2이하인 문자가 존재하지 않을 경우는, 재인식 범위의 문자가 비교적 유사도가 높은 영숫자인 것으로 결정한다. 이것은 재인식 범위의 문자에 대한 인식 결과의 신뢰성이 높은 것을 의미하므로, 공정은 스텝 S310으로 진행한다. 예를 들면, 어떤 경우에, 고정피치에서 쓰여진 영숫자는 일본어용 문자인식에서 충분한 고정도로 인식될 수 있어, 상기 유사도는 한계값 T2보다 크게 된다. 한편, 가변피치에서 쓰여졌을 경우, 상기 유사도는 한계값 T2이하가 되어, 자주 인식이 잘못 된다.
스텝 S310 : 스텝 S309에서 문자인식 결과의 유사도가 한계값 T2보다 크다고결정된 재인식 범위를 재인식을 행하는 재인식 범위로부터 제외하고, 공정은 스텝 S302로 복귀한다. 영어단어의 경우에도, 인식이 잘못될 가능성이 낮은 범위에 대해서는 재인식의 처리를 행하지 않는다. 따라서, 불필요한 처리를 생략할 수 있어 전체의 처리 속도를 높일 수 있다.
스텝 S311 : 스텝 S309에서 문자인식 결과의 유사도가 한계값 T2이하인 문자가 존재한다고 결정된 재인식 범위를, 재인식 범위로서 설정하고, 공정은 스텝 S302로 복귀한다.
상기 제 1실시예에 의하면, 오인식의 가능성이 높은 영어단어의 범위를, 재인식 범위로서 자동적으로 추출할 수 있어 인식 정도를 높일 수 있다.
한계 값 T1, T2는 실험적으로 얻은 값을 이용하여 미리 설정된 값으로 설정해도 되고 또는 문자종류 등에 의해 다른 값으로 설정해도 된다. 예를 들면, 히라가나, 카타카나, 한자, 영숫자등 인식 결과의 문자종류에 따라서 한계 값을 선택해도 된다.
상기 제 1실시예에서는, 영어단어를 포함한 일본어 문서의 예를 설명했지만, 영어, 라틴어 등의 다른 문자배열의 단어를 포함한 중국어 문서, 한국어 문서 등의 다른 언어의 문서에도 마찬가지의 효과를 얻을 수 있다.
< 제 2실시예>
도 4 및 도 5는 본 발명의 제 2실시예에 의한 도 1의 문자인식 장치에 의해 수행되는 문자인식 방법을 도시한 플로차트이다.
제 2의 실시예에서는, 제 1문자인식 유닛에 의한 인식 결과에 대해서 제 2인식 유닛에 의한 재인식의 처리를 행하고, 또한 제 2문자인식 유닛에 의한 인식 결과에 대해서 제 3인식 유닛에 의한 재인식의 처리를 행한다.
도 4의 플로차트는 제 2실시예에 의한 전체의 흐름을 도시한다.
스텝 S401 : 제 1실시예의 스텝 S201의 경우와 같이, 화상을 입력한다.
스텝 S402 : 제 1실시예의 스텝 S202의 경우와 같이, 입력된 화상을 제 1의 인식 유닛에 의해 문자인식을 한다.
스텝 S403 : 제 1실시예의 스텝 S203의 경우와 같이, 재인식 범위를 설정한다.
스텝 S404 : 제 1실시예의 스텝 S203의 경우와 같이, 재인식 범위가 1개 이상 추출되는지의 여부를 결정한다. 재인식 범위가 추출되는 경우에는, 공정은 스텝 S405로 진행하는 반면에, 재인식 범위가 추출되지 않은 경우에는, 그 처리를 종료한다.
스텝 S405 : 재인식 범위에 대해서, 제 2인식 유닛에 의해 문자인식을 행하고, 문자단위로 유사도를 조사한다. 필요에 따라서, 행 추출 및 문자블록 추출을 행한다.
스텝 S406 : 제 2인식 유닛에 의한 문자인식 결과를 이용할지의 여부를 결정한다. 결정 방법은 후술한다. 제 2인식 유닛에 의한 인식 결과를 이용하는 것으로 결정한 경우에는, 공정을 스텝 S407로 진행하는 반면에, 제 2인식 유닛에 의한 인식 결과를 이용하지 않는 것으로 결정한 경우에는, 공정은 스텝 S408로 진행한다.
스텝 S407 : 제 1인식 유닛에 의한 문자인식 결과에서, 재인식 범위를 제 2인식 유닛에 의한 재인식의 인식 결과로 대체한다.
스텝 S408 : 재인식 범위를 제 3인식 유닛에 의해 문자인식을 하고, 공정은 스텝 S409로 진행한다.
스텝 S409 : 제 3의 인식 유닛에 의한 문자인식 결과가 이용되는지의 여부를 결정한다. 결정 방법은 스텝 S406의 판정 방법과 마찬가지이고, 후술한다. 제 3의 인식 유닛에 의한 인식 결과를 이용한다고 결정한 경우에는, 상기 공정은 스텝 S410으로 진행하는 반면에, 제 3인식 유닛에 의한 인식 결과를 이용하지 않는다고 결정한 경우에는, 처리를 종료한다.
스텝 S410 : 제 1인식 유닛에 의한 문자인식 결과에서, 재인식 범위를 제 3인식 유닛에 의한 재인식의 인식 결과로 대체한다.
도 5는 스텝 S406에서의 결정 방법을 도시한 플로차트이다.
스텝 S501 : 재인식 범위의 인식 결과인 유사도로부터 평균값을 얻는다.
스텝 S502 : 상기 평균값을 소정의 한계 값 T3와 비교한다. 상기 평균값이 한계 값 T3이하인 경우에는, 공정은 스텝 S503으로 진행하는 반면에, 한계 값 T3 보다 큰 경우에는, 공정은 스텝 S504로 진행한다.
스텝 S503 : 제 2인식 유닛에 의한 재인식의 인식 결과를 이용하지 않고, 제 1인식 유닛에 의한 인식 결과를 이용한다.
스텝 S504 : 제 1인식 유닛에 의한 인식 결과를 제 2인식 유닛에 의한 재인식의 인식 결과로 대체한다.
도 6은 스텝 S409에서 결정 방법을 도시한 플로차트이다.
스텝 S601 : 도 5의 스텝 S501의 경우와 같이, 유사도의 평균치를 얻는다.
스텝 S602 : 평균치를 소정의 한계 값 T4와 비교한다. 상기 평균값이한계 값 T4이하인 경우에는, 상기 공정은 스텝 S603으로 진행하는 반면에, 상기 평균값이 한계 값 T4보다 큰 경우에는, 공정은 스텝 S604로 진행한다.
스텝 S603 : 제 3인식 유닛에 의한 재인식의 인식 결과를 이용하지 않고, 제 1인식 유닛에 의한 인식 결과를 이용한다.
스텝 S604 : 제 1인식 유닛에 의한 인식 결과를 제 3인식 유닛에 의한 재인식의 인식 결과로 대체한다.
상기 한계 값 T3 및 한계값 T4는 동일해도 되고 또는 경험칙, 실험결과 등에 의거하여 다른 값으로 설정해도 된다.
도 7은 도 5에 도시한 결정 방법의 또 다른 측면을 도시한 플로차트이다.
스텝 S701 : 인식 결과로서 제 1인식 유닛에 의한 유사도로부터 평균값 M1을 얻는다.
스텝 S702 : 인식 결과로서 제 2인식 유닛에 의한 유사도의 평균값 M2를 얻는다.
스텝 S703 : 상기 평균값 M1과 평균값 M2를 서로 비교하여 평균값 M1이 M2 이상인 경우에는, 공정은 스텝 S704로 진행하는 반면에, 평균값 M2가 M1 보다 큰 경우에는, 공정은 스텝 S705로 진행한다.
스텝 S704 : 제 2의 인식 유닛에 의한 재인식의 인식 결과를 이용하지 않고, 제 1인식 유닛에 의한 인식 결과를 이용한다.
스텝 S705 : 제 1인식 유닛에 의한 인식 결과를 제 2인식 유닛에 의한 재인식의 인식 결과로 대체한다.
또한 도 7의 결정 방법은 제 1인식 유닛에 의한 인식 처리와 제 3인식 유닛에 의한 인식 처리를 비교하여, 선택할 수 있다는 것에 유의해야 한다.
제 2실시예에서는, 유사도의 평균값에 의해 인식 결과의 신뢰성을 결정하므로, 인식의 정확도를 포괄적으로 평가할 수 있다. 또한 복수의 인식 유닛에 의한 문자인식을 순차적으로 적용하고, 그 결과를 서로 비교하므로, 다양한 언어, 문자종류를 취급할 수 있고, 복수의 인식 결과로부터 최적 인식 결과를 선택할 수 있다.
[프로그램]
도 1의 문자인식 장치에서 제어 프로그램은 문자인식 방법의 제 1실시예 및/또는 제 2실시예를 행하기 위한 프로그램이 포함된다. 제 1실시예를 행하기 위한 프로그램은 스텝 S201 내지 스텝 S206 및 스텝 S301 내지 스텝 S311에서의 처리를 행하는 모듈을 포함한다. 제 2실시예를 실행하기 위한 프로그램은 스텝 S401내지 스텝S410, 스텝 S501 내지 스텝 S504, 스텝 S601 내지 스텝 S604 및 스텝 S701내지 스텝 S705에서의 처리를 행하는 모듈을 포함한다.
[기억매체]
본 발명에 의한 문자인식 방법은 도 1의 문자인식 장치 이외의 장치, 예를 들면 일반 컴퓨터에서도 실시 가능하다. 이러한 경우에, 기억매체 등으로 제공되는 제어프로그램을 일반 컴퓨터의 외부 기억유닛에 세트하고, 오퍼레이터 등의 지시에따라서 CPU 등에 의해 상기 프로그램을 실행한다.
도 8은 문자인식 방법의 제 1실시예 및 제 2실시를 행하기 위한 프로그램을 기억한 기억매체의 메모리 맵을 도시한다.
도 8에서, 어드레스 A0 내지 A1에는 디렉토리정보가 기억된다. A1 다음의 어드레스로부터 어드레스 A2까지의 영역에 제 1실시예에서 도 2의 플로차트를 행하기 위한 프로그램이 기억된다. A2 다음의 어드레스로부터 어드레스 A3까지의 영역에 제 1실시예에서 도 3의 플로차트를 행하기 위한 프로그램이 기억된다. A3 다음의 어드레스로부터 어드레스 A4까지의 영역에 제 2실시예에서 도 4의 플로차트를 행하기 위한 프로그램이 기억된다. A4 다음의 어드레스로부터 어드레스 A5까지의 영역에 제 2실시예에서 도 5의 플로차트를 행하기 위한 프로그램이 기억된다. A5 다음의 어드레스로부터 어드레스 A6까지의 영역에 제 2실시예에서 도 6의 프로 차트를 행하기 위한 프로그램이 기억된다. A6 다음의 어드레스로부터 어드레스 A7까지의 영역에 도 7의 플로차트를 행하기 위한 프로그램이 기억된다.
특별히 도시하지 않지만, 각종 프로그램에 종속되는 데이터도 디렉토리정보로서 관리할 수 있고, 또한, 각종 프로그램을 컴퓨터에 인스톨하기 위한 프로그램 등을 디렉토리정보에 기억해도 된다.
[문자인식 시스템]
도 9는 본 발명에 의한 문자인식 방법을 복수의 기기에 의해 행하는 문자인식 시스템의 일 실시예를 도시한 블럭도이다.
이 실시예에서는, 인터넷 서비스제공자의 문자인식 사전을 포함한 프로그램이 서버(SV1)에 기억된다. 상기 인터넷 서비스 제공자는 통신 수단을 개재하여 인터넷에 접속되고, 복수의 유저는 인터넷으로부터 서버(SV1)에 액세스함으로써, 문자인식 프로그램을 이용할 수 있다.
유저는 퍼스널 컴퓨터(PC1)를 가동하여 스캐너(SC1)에 의해 판독한 원고의 화상을 서버(SV1)에 송신한다. 서버에서는, 원고의 화상을 입력화상 으로서 상술한 제 1실시예 또는 제 2실시예에 의한 문자인식의 처리를 행하고, 그 인식한 결과를 퍼스널컴퓨터(PC1)에 회신한다.
인식 사전은 반드시 문자인식 프로그램과 동일한 컴퓨터에 존재 할 필요는 없지만, 통신 수단 등을 통하여 참조할 수 있으면 상기 인식사전은 어디에 있어도 된다는 것에 유의해야 한다. 예를 들면, 문자인식 프로그램을 서버(SV1)에 설치하고, 인식 사전을 별개의 서버(SV2)에 설치하여 별개의 서비스로 하도록 준비하는 것도 가능하다. 이 경우에, 문자인식 프로그램의 보유자 및 인식 사전의 보유자는 지적 자산 즉 프로그램, 사전을 내부에 보유할 수 있어 불법 복사 등을 방지 할 수 있다.
본 발명에 의하면, 복수의 언어로 기재된 문서 화상의 문자인식 정도를 높일 수 있다
본 발명은 상기 실시예에 제한되지 않고, 본 발명의 사상과 범위 내에서 다양한 변경 및 수정이 가능하다. 따라서, 본 발명의 범위를 공중에 알리기 위해서 다음의 청구항을 작성한다.

Claims (13)

  1. 제 1 언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 수단과;
    제 2 언어의 문자 화상을 문자인식 하기에 적합한 제 2인식 수단과;
    상기 제 1인식 수단을 이용함으로써 문서 화상에 포함되는 복수의 문자 화상을 문자인식 한 결과에 대해서, 상기 제 1인식 수단에 의해 상기 제2 언어로서 인식된 문자 화상에 인접하는 문자화상을 인식한 결과에 의거하여, 상기 제2 인식 수단을 이용함으로써 재인식시키기 위한 재인식 범위를 설정하는 재인식 범위 설정 수단과;
    를 포함하는 것을 특징으로 하는 문자인식 장치.
  2. 제 1항에 있어서,
    상기 재인식 범위에 인접한 문자화상이 제 2 언어에 있을 경우에, 상기 재인식 범위 설정 수단은 상기 재인식 범위를 상기 인접한 문자까지 확대하는 것을 특징으로 하는 문자인식 장치.
  3. 제 1항에 있어서,
    상기 재인식 범위에 인접한 문자를 상기 제 1인식 수단에 의해 인식한 결과의 유사도가 소정치 이하인 경우에, 상기 재인식 범위 설정 수단은상기 재인식 범위를 상기 인접한 문자까지 확대하는 것을 특징으로 하는 문자인식 장치.
  4. 제 1항에 있어서,
    재인식 범위에서 상기 제 1인식 수단에 의해 문자 인식한 결과의 유사도가 소정치 이하인 경우에, 상기 재인식 범위 설정수단은 재인식을 하기 위한 범위로서 상기 재인식 범위를 결정하는 반면에, 상기 유사도가 소정치 보다 큰 경우에, 상기 재인식 범위 설정수단은 상기 재인식 범위를 재인식을 하기 위한 범위로부터 제외하는 것을 특징으로 하는 문자인식 장치.
  5. 제 1항에 있어서,
    상기 제 1인식 수단에 의한 인식 결과 또는 상기 제 2인식 수단에 의한 인식 결과를 선택하기 위한 인식결과 선택수단을 부가하여 포함하는 것을 특징으로 하는 문자인식 장치.
  6. 제 5항에 있어서,
    재인식 범위에서 상기 제 2인식 수단에 의해 문자 인식한 결과의 유사도가 소정치 이하인 경우에, 상기 재인식결과 선택수단은 상기 제 1인식 수단에 의한 인식결과를 선택하는 반면에, 상기 유사도가 소정치 보다 큰 경우에, 상기 제 2인식 수단에 의한 인식결과를 선택하는 것을 특징으로 하는 문자인식 장치.
  7. 제 5항에 있어서,
    상기 재인식 범위의 문자 인식 결과에 대해서 상기 제 2인식 수단에 의해 유사도의 평균치가 소정치 이하인 경우에, 상기 인식 결과 선택 수단은 제 1인식 수단에 의한 인식결과를 선택하는 반면에, 상기 유사도의 평균치가 소정치 보다 큰 경우에, 상기 제 2인식 수단에 의한 인식결과를 선택하는 것을 특징으로 하는 문자인식 장치.
  8. 제 5항에 있어서,
    상기 인식 결과 선택 수단은, 제 1인식 수단에 의해 인식한 결과에 대한 유사도의 평균값과 제 2인식 수단에 의해 인식한 결과에 대한 유사도의 평균값을 비교하여, 상기 제 1인식 수단에 의해 인식한 결과의 유사도의 평균값이 제 2인식 수단에 의해 인식한 결과의 유사도의 평균값 이하인 경우에, 제 1인식 수단에 의해 인식한 결과를 선택하는 반면에, 상기 제 1인식 수단에 의해 인식한 결과의 유사도의 평균값이 제 2인식 수단에 의해 인식한 결과의 유사도의 평균값 보다 큰 경우에, 제 2인식 수단에 의해 인식한 결과를 선택하는 것을 특징으로 하는 문자인식 장치.
  9. 제 1항에 있어서,
    외부 장치로부터 네트워크를 통하여 상기 문서 화상을 수신하는 수신 수단과;
    상기 제 1인식 수단, 상기 제 2인식 수단 및 상기 재인식 범위설정 수단을이용하여 문자인식 결과를 상기 외부 장치에 송신하는 송신 수단과;
    를 포함하는 것을 특징으로 하는 문자인식 장치.
  10. 제 1 언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 절차를 이용하여 문서 화상에 포함되는 복수의 문자 화상의 문자인식을 행하는 스텝과;
    상기 제 1인식 절차에 의해 제 2 언어로서 인식된 문자 화상에 인접 한 문자화상을 인식한 결과에 의거하여 제 2 언어의 문자 화상을 문자인식 하기에 적합한 제 2인식 절차를 이용하여 재인식을 행하기 위한 재인식 범위를 설정하는 스텝과;
    상기 제 2 절차를 이용하여 상기 설정된 재인식 범위의 재인식을 행하는 스텝과;
    를 포함하는 것을 특징으로 하는 문자인식 방법.
  11. 컴퓨터로 실행 가능한 문자인식용 소프트웨어 코드로서,
    상기 코드는,
    제 1 언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 절차를 이용하여 문서 화상에 포함되는 복수의 문자 화상의 문자 인식을 행하기 위한 코드와;
    상기 제 1인식 절차에 의해 제 2 언어로서 인식된 문자화상에 인접 한 문자 화상의 인식 결과에 의거하여, 상기 제 2 언어의 문자 화상의 문자인식 하기에 적합한 제 2인식 절차를 이용하여 재인식을 행하기 위한 재인식 범위를 설정하는 코드와;
    상기 제 2인식 절차를 이용하여 설정된 재인식 범위의 재인식을 행하는 코드와;
    를 포함하는 것을 특징으로 하는 소프트웨어 코드.
  12. 문자인식을 위해 프로그램된 컴퓨터로서,
    컴퓨터로 수행 가능한 프로그램 코드를 저장하기 위한 적어도 하나의 영역을 가지는 메모리와;
    상기 메모리에 저장된 상기 프로그램코드를 행하기 위한 프로세서와; 를 포함한 컴퓨터에 있어서,
    상기 프로그램 코드는,
    제 1 언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 절차를 이용하여 문서 화상에 포함되는 복수의 문자 화상의 문자 인식을 행하기 위한 코드와;
    상기 제 1인식 절차에 의해 제 2 언어로서 인식된 문자화상에 인접 한 문자 화상을 인식한 결과에 의거하여, 상기 제 2 언어의 문자 화상의 문자인식 하기에 적합한 제 2인식 절차를 이용하여 재인식을 행하기 위한 재인식 범위를 설정하는 코드와;
    상기 제 2인식 절차를 이용하여 설정된 재인식 범위의 재인식을 행하는 코드와;
    를 포함하는 것을 특징으로 하는 컴퓨터.
  13. 컴퓨터로 실행 가능한 문자인식용 소프트웨어 코드를 기억한 컴퓨터 판독가능 매체로서,
    상기코드는,
    제 1 언어의 문자 화상을 문자인식 하기에 적합한 제 1인식 절차를 이용하여 문서 화상에 포함되는 복수의 문자 화상을 문자 인식하기 위한 코드와;
    상기 제 1인식 절차에 의해 제 2 언어로서 인식된 문자화상에 인접 한 문자 화상의 인식 결과에 의거하여, 상기 제 2 언어의 문자 화상의 문자인식 하기에 적합한 제 2인식 절차를 이용하여 재인식을 행하기 위한 재인식 범위를 설정하는 코드와;
    상기 제 2인식 절차를 이용하여 설정된 재인식 범위의 재인식을 행하는 코드와;
    를 포함하는 것을 특징으로 하는 컴퓨터 판독가능 매체.
KR1020030046276A 2002-07-09 2003-07-09 문자인식 장치 및 방법 KR100578188B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002199505A JP3919617B2 (ja) 2002-07-09 2002-07-09 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JPJP-P-2002-00199505 2002-07-09

Publications (2)

Publication Number Publication Date
KR20040005671A true KR20040005671A (ko) 2004-01-16
KR100578188B1 KR100578188B1 (ko) 2006-05-11

Family

ID=30112466

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030046276A KR100578188B1 (ko) 2002-07-09 2003-07-09 문자인식 장치 및 방법

Country Status (5)

Country Link
US (1) US7162086B2 (ko)
JP (1) JP3919617B2 (ko)
KR (1) KR100578188B1 (ko)
CN (1) CN1269069C (ko)
TW (1) TWI231920B (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100357957C (zh) * 2004-08-10 2007-12-26 富士通株式会社 用于识别图像中的字符的字符识别装置和字符识别方法
JP4759963B2 (ja) * 2004-09-22 2011-08-31 沖電気工業株式会社 複数の認識辞書を利用した文字認識装置
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
JP4750802B2 (ja) * 2006-01-13 2011-08-17 富士通株式会社 帳票処理プログラムおよび帳票処理装置
JP2007219867A (ja) * 2006-02-17 2007-08-30 Hitachi Ltd 文字列読取り方法
CN101256631B (zh) * 2007-02-26 2011-06-01 富士通株式会社 一种字符识别的方法、装置
JP4906685B2 (ja) * 2007-11-14 2012-03-28 キヤノン株式会社 撮像装置、その制御方法及びプログラム
JP5258313B2 (ja) 2008-01-31 2013-08-07 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム
JP5116608B2 (ja) * 2008-08-20 2013-01-09 キヤノン株式会社 情報処理装置、制御方法、及びプログラム
KR101220709B1 (ko) * 2010-02-03 2013-01-10 삼성전자주식회사 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법
JP5672003B2 (ja) * 2010-12-28 2015-02-18 富士通株式会社 文字認識処理装置及びプログラム
CN103310209A (zh) * 2012-03-09 2013-09-18 富士通株式会社 识别图像中的字符串的方法和装置
WO2014146718A1 (de) * 2013-03-22 2014-09-25 Deutsche Post Ag Identifikation von packstücken
CN104462068B (zh) * 2013-09-12 2017-11-07 北大方正集团有限公司 字符转换***和字符转换方法
JP6545013B2 (ja) 2015-06-17 2019-07-17 キヤノン株式会社 画像形成方法、画像形成装置、および画像形成プログラム
JP6655331B2 (ja) * 2015-09-24 2020-02-26 Dynabook株式会社 電子機器及び方法
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP6523988B2 (ja) * 2016-02-18 2019-06-05 株式会社東芝 文字認識装置、文字認識方法、およびプログラム
CN105809170B (zh) * 2016-03-04 2019-04-26 东软集团股份有限公司 字符识别方法和装置
JP6911914B2 (ja) * 2017-02-28 2021-07-28 日本電気株式会社 点検支援装置、点検支援方法およびプログラム
GB2571530B (en) * 2018-02-28 2020-09-23 Canon Europa Nv An image processing method and an image processing system
JP2019159374A (ja) * 2018-03-07 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7274322B2 (ja) * 2019-03-25 2023-05-16 東芝テック株式会社 プログラム及び文字認識方法
JP7317612B2 (ja) 2019-07-18 2023-07-31 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN110928216B (zh) * 2019-11-14 2020-12-15 深圳云天励飞技术有限公司 人工智能装置
CN113313114B (zh) * 2021-06-11 2023-06-30 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101220A (ja) 1991-10-08 1993-04-23 Sumitomo Electric Ind Ltd 文字認識装置
JPH06119497A (ja) * 1992-10-01 1994-04-28 Matsushita Electric Ind Co Ltd 文字認識方法
JPH06150061A (ja) * 1992-11-04 1994-05-31 Sharp Corp 文書認識装置
JPH06301822A (ja) 1993-04-15 1994-10-28 Nec Corp 文字認識後処理方式
US5377280A (en) * 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
JPH07239913A (ja) 1994-02-28 1995-09-12 Toshiba Corp 文字認識装置
JPH08167005A (ja) * 1994-12-15 1996-06-25 Ricoh Co Ltd 文字認識装置
JPH09114931A (ja) * 1995-10-18 1997-05-02 Canon Inc 文字認識装置及びその方法
US6137905A (en) 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
JP3537570B2 (ja) 1995-12-18 2004-06-14 株式会社リコー 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
US6094484A (en) * 1996-10-16 2000-07-25 Convey Corporation Isomorphic pattern recognition
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition

Also Published As

Publication number Publication date
US20040008889A1 (en) 2004-01-15
JP2004046315A (ja) 2004-02-12
TWI231920B (en) 2005-05-01
US7162086B2 (en) 2007-01-09
TW200407796A (en) 2004-05-16
CN1472695A (zh) 2004-02-04
CN1269069C (zh) 2006-08-09
KR100578188B1 (ko) 2006-05-11
JP3919617B2 (ja) 2007-05-30

Similar Documents

Publication Publication Date Title
KR100578188B1 (ko) 문자인식 장치 및 방법
EP0844583B1 (en) Method and apparatus for character recognition
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
US7219052B2 (en) Document based character ambiguity resolution
EP1743275B1 (en) Apparatus and method for handwriting recognition
US20060217959A1 (en) Translation processing method, document processing device and storage medium storing program
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
US20220222292A1 (en) Method and system for ideogram character analysis
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US20030156754A1 (en) Method and system for extracting title from document image
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
US20020181779A1 (en) Character and style recognition of scanned text
JPH10177623A (ja) 文書認識装置および言語処理装置
JP2002063197A (ja) 検索装置、記録媒体およびプログラム
JPH0883280A (ja) 文書処理装置
JPH0528324A (ja) 英文字認識装置
JPH087046A (ja) 文書認識装置
JP6528927B2 (ja) 文書処理装置及びプログラム
JP2005208687A (ja) 多言語文書処理装置及びプログラム
JP2010015502A (ja) 情報処理装置、その制御方法、制御プログラム、および記録媒体
JP2004287992A (ja) 文書情報処理装置並びにプログラム
JPH0756924A (ja) 対訳装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130425

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140424

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150424

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160425

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170424

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180425

Year of fee payment: 13