MX2008011002A

MX2008011002A - Metodo de ajuste de distorsion y aparato basado en el modelo.

Info

Publication number: MX2008011002A
Application number: MX2008011002A
Authority: MX
Inventors: Minghui Wu; Rongfeng Li; Wenxin Li; Edward P Heaney Jr; Karl Chan; Kurt A Rapelje
Original assignee: Compulink Man Ct Inc
Priority date: 2006-03-02
Filing date: 2007-03-02
Publication date: 2008-09-08
Also published as: US7697776B2; EP1989632A2; US7330604B2; CN101460937A; US20150347837A1; WO2007103251A3; US8406476B2; US20130230254A1; IL193428A; KR20090004904A; US20080144971A1; BRPI0708452A2; IL193428A0; ZA200807717B; CN101460937B; US20070206877A1; KR101399709B1; US9805281B2; EP1989632A4; WO2007103251A2

Abstract

Se describe un aparato y método para procesar una imagen digitalizada y, más particularmente, para procesar una imagen capturada que comprende un documento. En una modalidad, se describe un aparato que comprende una cámara para capturar documentos. En otra modalidad, se describe un método para procesar una imagen capturada que incluye un documento comprende los pasos de distinguir un documento digitalizado de su fondo, ajustar la imagen capturada para reducir las deformaciones producidas del uso de una cámara y orientar apropiadamente el documento.

Description

METODO DE AJUSTE DE DISTORSION Y APARATO BASADO EN EL MODELO CAMPO DE LA INVENCION Un aparato y método para procesar una imagen capturada y, más particularmente, para procesar una imagen capturada que comprende un documento . ANTECEDENTES DE LA INVENCION Los documentos se almacenan cada vez más en imagen, o pixel, formato en lugar de código ASCII puesto que los medios de almacenamiento, tales como CD-ROM, se están volviendo menos costosos. Estos documentos digitalizados pueden ser utilizados para referencia, búsqueda, o distribución. La imagen almacenada de los documentos es capturada generalmente por un dispositivo de entrada tal como un escáner o una cámara digital. Sin embargo, la deformación de imagen es un problema cuando el contenido del documento en la imagen es capturado por un escáner o, incluso peor, por una cámara digital. La figura 1A es un diagrama de bloque que representa los componentes típicos de un escáner. Un escáner típicamente es utilizado para capturar una imagen de un documento 110. Un documento 110 se coloca sobre la placa del escáner 112. Una cabeza de escáner 120, la cual es generalmente comprendida de un subsistema óptico 122 y un dispositivo acoplado por carga ("CCD") 124, se mueve a través del documento 110. Aunque la figura IA representa solamente una visión de dos dimensiones, Ref.: 195654 la cabeza del escáner 120 se puede mover a través del documento en ambas la dirección ilustrada por la flecha 114 y en una dirección ortogonal a la flecha 114. El subsistema óptico 122 enfoca la luz reflejada del documento 110 sobre un CCD 124. El CCD 124 frecuentemente es implementado como un arreglo de dos dimensiones de elementos capacitivos fotosensibles. Cuando la luz es incidente en los elementos fotosensibles del CCD 124, la carga es atrapada en una región de reducción de los elementos semiconductores . La cantidad de carga asociada con los elementos capacitivos fotosensibles se relaciona con la intensidad de luz incidente sobre los elementos respectivos recibidos durante un periodo de muestreo. Por lo tanto, la imagen es capturada determinando la intensidad de luz incidente en los elementos capacitivos fotosensibles respectivos por medio del muestreo de los elementos . La información análoga producida por los elementos capacitivos fotosensibles es convertida a información digital por un convertidor (A/D) analógico-digital 130. Un convertidor A/D 130 puede convertir la información análogica recibida del CCD 124 en ya sea de una manera serial o paralela. La información digital convertida puede ser almacenada en la memoria 140. La información digital entonces es procesada por un procesador 150 de conformidad con el programa computacional de control almacenado en el ROM 180. El usuario puede controlar los parámetros de escaneo vía la interfaz de usuario 170 y la imagen escaneada es transmitida al exterior a través del puerto de salida 160. Un diagrama de bloque de una cámara digital se representa en la figura IB. Un subsistema óptico 122 de una cámara digital puede ser utilizado para enfocar la luz reflejada de un documento 110 sobre un CCD 124, tanto como en el escáner. En otras cámaras digitales, los dispositivos con excepción de un CCD son utilizados para capturar la luz reflejada de la imagen, tales como sensores CMOS. En el contexto de una cámara digital, a diferencia de un escáner, el subsistema óptico 122 no se mueve a lo largo de la superficie del documento, como en un escáner. Más bien, en una cámara, el sistema óptico 122 es generalmente estacionario con respecto al objeto, tal como un documento, a ser digitalizado . Además de las cámaras digitales, las fotografías capturadas de cámaras basadas en película también pueden ser digitalizadas. Las cámaras ofrecen ventajas significativas sobre los escáneres para capturar imágenes de documentos y otras imágenes. Por ejemplo, las cámaras son generalmente más portables que los escáneres. Además, debido a que los escáneres requieren una imagen capturada para ser colocada en la placa de escáner, las cámaras son capaces de capturar un arreglo más amplio de imágenes que los escáneres. Sin embargo, el uso de cámaras produce dificultades en capturar la imagen que no existe cuando se utiliza un escáner. Por ejemplo, las condiciones de luz varían cuando se utiliza una cámara, mientras que las condiciones de luz se controlan generalmente en los escáneres. Además, el uso de una cámara introduce deformaciones de imagen, que pueden depender de diferentes variables, tales como el ángulo de la cámara en relación a la imagen, la lente utilizada por la cámara y su distancia de la imagen, si la imagen que incluye un documento que está colocada en una superficie plana o curvada y otros factores. Debido a que el escáner utiliza una cabeza de escáner móvil, a una distancia fija de un documento a ser digitalizado, estas deformaciones no ocurren generalmente en escáneres. Se ha realizado mucha investigación para solucionar el problema de la deformación de imagen. Brown y Seales propusieron un algoritmo que ajusta la distorsión de imagen general para documentos distorsionados arbitrariamente basado en imágenes de 3D. ("Image Restoration Arbitrarily arped Documents," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol . , no. 10, (2004) .) Zhang, et al. desarrolló un algoritmo de profundidad de la escena para procesar las imágenes del documento capturadas por un escáner plano. ("Restoration of curved Document Images Through 3D Shape Modeling" , Proc . the 6th International Conference on Document Analysis and Recognition, pp . 10-15 (2004) .) Pero esta técnica es altamente dependiente de la condición de iluminación y, por lo tanto, no es apropiada para imágenes capturadas con una cámara digital. Reconocer que las cámaras digitales son dispositivos de entrada más convenientes comparados con los escáneres, los investigadores ha desarrollado modelos para reducir problemas en la deformación de imagen en las imágenes capturadas por cámaras digitales. Por ejemplo, Cao, et al. desarrolló un modelo paramétrico para estimar la forma cilindrica de un libro abierto. ("Rectifying the Bound Document Image Captured by the Camera: A Model Based Aproach" , "Proc. of the international Conference on Document Analysis and Recognition, pp. 71 - 75 ( 2 003 ) . ) Una limitación importante de usar esta técnica es que el modelo solamente trabaja cuando el plano de la lente de la lente de la cámara es paralelo a la superficie del libro digitalizado . Liang, et al. han desarrollado una superficie desarrollable para modelar la superficie de la página de un libro y explotar las propiedades (paralelismo y espaciamiento de línea igual) del contenido textual impreso en la página para recuperar la forma superficial. ("Flattering Curved Documents in Images," Internacional Conference on Computer Vision and Pattern Recognition, pp . 33 8 - 345 (junio de 2005 ) . ) Usando esta técnica, el plano de la lente de la lente de la cámara no requiere ser más paralelo a la superficie de un libro. Sin embargo, los modelos usados por ambos Cao y Liang para corregir la deformación en un documento digitalizado se basan en la información de la línea de texto.

Es decir, estos modelos son altamente dependientes de la existencia de las líneas de texto en el libro digitalizado. Si una página de un libro tiene muchas fotos o ecuaciones en lugar de líneas de texto, los modelos de Cao y Liang no trabajarán bien. Por lo tanto, continúa existiendo una necesidad para un aparato y un método mejorados para capturar imágenes de documentos que pueden utilizar las ventajas de la cámaras sobre los escáneres, aún se reduce la deformación presentada típicamente al capturar imágenes del documento por medio de una cámara en comparación con un escáner. Preferiblemente, el aparato y el método deben ser capaces de reducir la deformación en una imagen capturada independiente de si las líneas de texto están presentes en el documento digitalizado, de este modo permitiendo la corrección de la deformación en una imagen de documento capturada con fotos y ecuaciones . Además, el aparato y método preferiblemente no deben ser restringidos a las imágenes se generan cuando el plano de la lente de una lente de cámara es paralelo a la superficie de un libro. SUMARIO DE LA INVENCION Se describen un aparato y un método para procesar una imagen capturada que comprende un documento digitalizado. En una modalidad, el aparato comprende una cámara estacionaria, que es utilizada para capturar el documento digitalizado. En otra modalidad, se utiliza una cámara móvil para capturar los documentos digitalizados . En aún otra modalidad, un método para procesar una imagen capturada que incluye un documento comprende los pasos de distinguir el documento digitalizado de su fondo, ajustar la imagen capturada para reducir las deformaciones producidas por el uso de una cámara y orientar apropiadamente el documento. En aún una modalidad adicional, se proporcionan un aparato y un método para ajuste de distorsión de una imagen capturada de un documento curvado. BREVE DESCRIPCION DE LAS FIGURAS La Figura 1A representa un escáner de documentos del arte previo . La Figura IB representa una cámara digital del arte previo . La Figura 2 representa un diagrama de flujo general de un método preferido para procesar una imagen capturada. La Figura 3 representa un diagrama de flujo de otra modalidad de un método para procesar una imagen capturada. La Figura 4 representa un diagrama de flujo de un método para realizar una segmentación de conformidad con una de las implementaciones del método de procesamiento de imagen de un documento descrito aquí. La Figura 5 representa un diagrama de flujo de un método para realizar el paso de consenso de la muestra escogida al azar ilustrado en la Figura 4.

La Figura 6 representa un diagrama de flujo de un método para realizar el paso de eliminación del valor at pico ilustrado en la Figura 4. La Figura 7 representa un diagrama de flujo para otro método para realizar la segmentación de conformidad con el método de procesamiento de imagen de un documento descrito aguí . La Figura 8 representa un diagrama de flujo de un método para realizar los pasos de eliminación de deformación ilustrados en la Figura 2 y Figura 3. La Figura 9 representa un diagrama de flujo de un método para realizar el paso de las líneas de texto ilustradas en la Figura 3. La Figura 10 representa un diagrama de flujo de un método para determinar si un documento está orientado correctamente de una manera vertical de conformidad con una implementación del método de procesamiento de imagen que un documento descrito aquí . La Figura 11 representa una modalidad de un aparato para capturar y procesar una imagen incluyendo un documento digitalizado . La Figura 12 representa un diagrama de flujo de un método para determinar si un documento está orientado de una manera vertical de conformidad con una implementación del método de procesamiento de imagen de un documento descrito aquí.

La Figura 13 representa una modalidad de un sistema para procesar una imagen capturada. La Figura 14 representa un diagrama de flujo de un método para realizar un ajuste de distorsión de imagen de conformidad con la presente invención. La Figura 15 representa un diagrama de flujo de un método para generar una red de coordenadas curvas para una imagen de un documento distorsionado. La Figura 16 representa un diagrama de flujo de un método para realizar el paso de mejora de dirección local ilustrado en la Figura 15. La Figura 17 representa una imagen original segmentada a ser corregida por la técnica de ajuste de distorsión de imagen de la Figura 14 e ilustra un método alternativo de aplicar una red de coordenadas curvas a una imagen de un documento distorsionado . La Figura 18 representa un ejemplo de una imagen de una página de documento distorsionada con una red de coordenadas curvas . La Figura 19 representa una imagen de un documento con una red rectangular no-proporcional estirada, producida después del paso de estiramiento de la Figura 14. La Figura 20 representa un diagrama de proyección en 3D para ilustrar el modelo utilizado en una modalidad preferida de la presente invención para realizar el paso de estiramiento de la Figura 14. La Figura 21 representa una red rectangular después del paso de ajuste de la Figura 14. La Figura 22 representa un diagrama de proyección para ilustrar adicionalmente un modelo preferido para realizar el paso de estiramiento de la Figura 14. La Figura 23 representa una vista lateral de un libro abierto para ilustrar un modelo preferido para realizar el paso de ajuste de la Figura 14. La Figura 24 representa un diagrama de proyección para ilustrar adicionalmente un método para realizar el paso de ajuste de la Figura 14. La Figura 25 representa una imagen miniatura para ilustrar adicionalmente un método para realizar el paso de segmentación del área de texto de la Figura 15. La Figura 26A representa un segmento pequeño de la imagen de texto para ilustrar adicionalmente un método para realizar el paso de detección de distancia de la línea de texto de la Figura 16. La Figura 26B representa una imagen miniatura para ilustrar adicionalmente un método para realizar el paso de detección de distancia la línea de texto de la Figura 16. Las Figuras 27A-27F representan seis plantillas direccionales 9x9 que pueden ser utilizadas en la realización del cálculo y mejorar el paso de la matriz de dirección de la Figura 16. La Figura 28A representa una imagen capturada de un documento incluyendo las líneas de texto utilizadas para ilustrar adicionalmente un método para realizar el paso de mejoramiento basado en la matriz de dirección de la Figura 16.

La Figura 28B representa una imagen del esqueleto de las líneas de texto que pueden ser generadas de las líneas de texto en la imagen de la Figura 28A después del paso de mejoramiento basado en la matriz de dirección de la Figura 16. La Figura 29A representa una imagen de esqueletos de líneas de texto utilizada para ilustrar adicionalmente un método para realizar el paso de extracción de la línea de texto de la Figura 15. La Figura 29B representa un ejemplo de un esqueleto de las líneas de texto adelgazadas que pueden ser generadas de la imagen en la Figura 29B durante un método del paso de extracción de la línea de texto de la Figura 15. La Figura 30 representa una banda de detección vertical que puede ser utilizada durante un método para extraer las líneas de texto de la imagen de la Figura 29B durante el paso de extracción de la línea de texto de la Figura 15. Las Figuras 31A-31B representan la imagen de las líneas de texto para ilustrar adicionalmente otro método para realizar el paso de extracción de la línea de texto de la Figura 15.

La Figura 32 representa un ejemplo de una imagen extraída de la imagen segmentada de la Figura 17 para utilizar en una técnica de ajuste de distorsión de imagen de conformidad con la Figura 14. La Figura 33 representa una imagen de las líneas de bordes extraídas generadas de la imagen de la Figura 32 para utilizarse en una técnica de ajuste de distorsión de imagen de la Figura 14. DESCRIPCION DETALLADA DE LA INVENCION Las modalidades descritas aquí son operables para procesar una imagen capturada de una cámara que comprende un documento. Las modalidades descritas aquí son operables para identificar la imagen de documento capturada de su fondo. Después la imagen de documento capturada es aislada de su fondo, las modalidades descritas aquí son operables para reducir o eliminar deformaciones de la imagen de documento capturada. Las modalidades descritas aquí también son operables para rotar la imagen de documento capturada a su orientación apropiada. Adicionalmente, las modalidades descritas aquí proporcionan al usuario una evaluación del logro de implementar cada uno de los pasos en sus diferentes.

La Figura 2 representa un diagrama de flujo general de un método preferido para procesar una imagen digital capturada. Después del inicio 210, una imagen digital es recibida en el paso 220. La imagen recibida en el paso 220 comprende una imagen de documento. La imagen digital puede ser recibida de varias fuentes. Por ejemplo, en una modalidad, la imagen puede ser recibida de una cámara digital. En otra modalidad, la imagen puede ser recibida de una unidad estacionaria que comprende una cámara digital. En aún otra modalidad, la imagen puede ser recibida de una fotografía de película que se ha digitalizado . En situaciones en donde la imagen ha sido capturada previamente por un dispositivo electrónico de procesamiento de imagen, la imagen también puede ser recibida de cualquiera de los medios de almacenamiento conocidos para archivos electrónicos. El paso 230 funciona para identificar la imagen de documento capturada del resto de la imagen, o el fondo. El paso 23 0 es referido como segmentación. Este paso 230 puede funcionar para detectar los bordes de la imagen del documento capturada. Este paso 230 también puede funcionar para recortar el fondo de la imagen de la imagen de documento capturada para separar el documento de su fondo. El paso 240 , designado como eliminación de deformación, funciona para reducir o eliminar las deformaciones de la imagen del documento capturado. Algunas de las deformaciones que este paso 240 puede operar para corregir son deformaciones de perspectiva, deformaciones de la lente, distorsión y deformaciones de luz. Otras deformaciones también pueden ser corregidas en este paso 240 . El paso 250 opera para corregir la orientación del documento.

Este paso 250 puede operar para determinar si la imagen de documento capturada debe estar en una orientación de retrato o paisaje y en consecuencia rotar la imagen de documento capturada. Este paso 250 también puede operar para determinar si la imagen de documento capturada está al revés y en consecuencia para rotar la imagen de documento capturada. En el paso 260 la imagen de documento procesada es transmitida al exterior. La imagen de documento procesada puede ser transmitida al exterior 260 a través de varios medios, tal como presentar una imagen de la imagen de documento procesada en un monitor, guardando la imagen de documento procesada en un archivo de computadora, transmitiendo electrónicamente la imagen de documento, o imprimiendo la imagen de documento procesada . En algunas modalidades, puede ser deseable realizar pocos de los pasos reflejados en la Figura 2 o invertir la orden de ciertos pasos. Por ejemplo, algunas modalidades pueden incluir solamente eliminación de la deformación, o segmentación y eliminación de la deformación. En otras implementaciones , puede ser deseable realizar solamente los pasos de eliminación de la deformación y orientación. La Figura 3 representa un diagrama de flujo 300 de otra modalidad de un método para procesar una imagen capturada. Después del inicio 305, la imagen es recibida en el paso 310. En el paso 315 la imagen recibida es convertida en un mapa de bits independiente de dispositivo. En el paso 320 , la segmentación se realiza utilizando un proceso de segmentación basado en bordes . El proceso de segmentación basado en bordes 320 identifica los bordes del documento de imagen capturada para distinguir la imagen de documento capturada de su fondo.

La Figura 4 representa un diagrama de flujo de una modalidad de un proceso de segmentación basado en bordes 320 . En esta modalidad, son colocados los puntos de borde horizontales y verticales. Esto se hace buscando los puntos de borde. Los puntos de borde son determinados identificando las porciones de la imagen recibida que contienen una transición de la porción de fondo de la imagen recibida a la porción de documento de la imagen recibida. En una modalidad, la imagen recibida es escaneada inicialmente con el centro de la imagen recibida 41 0 y también escaneada iniciando de las orillas de la imagen recibida 420 . En una modalidad, se asume que la imagen del documento ocupa el centro de la imagen recibida. En otra modalidad, se asume que la porción sin texto de la imagen de documento capturada tiene una intensidad de pixel mayor que la de su fondo. En el inicio del escaneo del centro de la imagen recibida 410 , después de encontrar un área que puede ser identificada como pixeles de documento, se busca la transición a pixeles de fondo a lo largo del escaneo. En el inicio del escaneo de la orilla de la imagen recibida 420 , un área es identificada como pixeles de fondo y se identifica la transición a los pixeles de la imagen de documento. El proceso puede ser realizado utilizando ya sea uno o ambos de estos escaneos 410, 420. En una modalidad, la imagen recibida es escaneada 410, 420 en ambas dirección horizontal y vertical. Después se realiza un paso de consenso de la muestra aleatoria 430. La Figura 5 representa una modalidad del paso de consenso de la muestra aleatoria. En esta modalidad, el consenso de la muestra aleatoria 430 es ejecutado seleccionando dos puntos aleatorios 510 de los puntos de borde seleccionados en el paso 410 y 420. Después se calcula la línea que conecta estos dos puntos seleccionados aleatoriamente 520. En una modalidad, se utilizan las coordenadas ángulo-distancia, en donde el valor del ángulo corresponde al ángulo del segmento de línea alrededor del centro de la imagen recibida y el valor de la distancia corresponde a la distancia del centro de la imagen recibida al punto más cercano en el segmento de línea. En otras modalidades, pueden ser utilizados otros sistemas de coordenadas, incluyendo, por ejemplo, coordenadas cartesianas o coordenadas polares. Estos valores después son almacenados. El proceso de seleccionar dos puntos aleatorios de los puntos de borde obtenidos en 410 y 420 se repite para obtener un grupo de muestra suficiente 530. En una modalidad, este proceso se repite cinco mil veces, aunque pueden ser utilizados diferentes tamaños de muestra. Después del muestreo, los pares de puntos los cuales todos están en la misma línea se agrupan en binarios . Si los puntos iniciales de borde seleccionados en 410 y 420 representan exactamente los bordes del documento en la imagen recibida, aproximadamente un cuarto de los puntos será distribuido en cuatro intervalos pequeños que corresponden a los cuatro bordes del documento, mientras que los puntos restantes serán separados generalmente uniformemente sobre el resto de las coordenadas posibles. Los cuatro conjuntos de segmentos de línea agrupados que tienen los segmentos de línea más agrupados 540 y cumplen con un umbral mínimo de segmentos de línea agrupados son identificados como representación de los cuatro bordes del documento en la imagen recibida 550. En una modalidad, esta colección de segmentos de línea después son determinados para ser los bordes izquierdos, derechos, superiores e inferiores de conformidad con sus posiciones relativas en la imagen recibida . Después de que se realiza el consenso de la muestra aleatoria 430, en una modalidad, se realiza un paso de eliminación de valor atípico 440 entre la colección de puntos del borde para refinar adicionalmente la identificación de los bordes de documento. En una modalidad, representado en la Figura 6, esto se realiza al conducir una regresión lineal entre la colección de puntos del borde que corresponden a uno de los bordes de la imagen de documento recibida. En una técnica de regresión lineal, una línea es trazada intentando conectar lo más exactamente posible la colección de puntos de borde 610 . Si se determina que el punto más lejos de esta línea de regresión lineal es una distancia suficientemente lejos de la línea de regresión lineal 620 , el punto es eliminado 63 0 y se realiza una nueva regresión lineal. Este proceso se repite hasta que el punto más lejano de la línea de regresión lineal está dentro de un valor umbral y se determina que la línea de regresión lineal que resulta es la línea de borde. Esto es realizado en cada una de las cuatro colecciones de puntos de borde que representan los cuatro bordes del documento de la imagen recibido. Con referencia nuevamente a la Figura 3 , en el paso 325 , se determina un cálculo de la exactitud de la identificación de las líneas de borde de la segmentación basada en el borde 320 . Este paso 325 puede ser referido como el cálculo de confianza. En una modalidad, la confianza se calcula para cada borde de la imagen de documento recibida y se determina que el valor más bajo es la confianza total. En otra modalidad, se determina que el valor más alto de confianza entre las líneas de borde es la confianza total . En aún otra modalidad, se utiliza una combinación de la confianza de las líneas de borde, tal como por ejemplo un promedio de la confianza para los bordes de línea, para determinar la confianza total. Una modalidad para calcular la confianza de la determinación de un borde de línea particular es calcular la proporción entre el número de los puntos de pixel restantes en la colección de ese borde después de la eliminación del valor atípico 440 y el número total de puntos de pixel que se habrían podido encontrar en ese borde. La determinación de confianza puede ser utilizada para mejorar la eliminación de la deformación 240 , 350 de la imagen de documento recibida y también puede ser utilizada para informar a un usuario de la exactitud del funcionamiento del sistema para una imagen recibida particular. En una modalidad, si los bordes de un documento y de un texto en la imagen no pueden ser encontrados, el procesador es programado para suponer que la imagen es una imagen sin documento y la deja sin cambiar. La ventaja de usar esta modalidad es la capacidad de detectar cuando no hay documento en la imagen proporcionada en absoluto. Esto es útil debido a que esta modalidad puede ser utilizada para procesar una serie de imágenes que contienen una mezcla de fotos de los documentos y el tipo de fotos para las cuales la gente utiliza en otro caso sus cámaras diario, tal como fotos de gente o paisaje. La detección de la ausencia de un documento significa que esas fotos no serán deformadas. En el paso 33 0 , si la confianza en el paso de segmentación basada en bordes 320 no es suficientemente alta, entonces también puede ser realizada una segmentación basada en el contenido del paso 335 .

Alternativamente, la segmentación basada en el contenido puede ser el único tipo de segmentación realizada. El paso de segmentación basada en el contenido 335 utiliza el texto del documento de imagen capturada para calcular el borde del documento de la imagen capturada en relación al texto. Una modalidad de un proceso de segmentación basado en el contenido es representado en la Figura 7. En el proceso de segmentación basado en el contenido de la Figura 7, la segmentación se logra identificando los componentes conectados en la imagen de documento recibida 710 y encontrando al vecino más próximo para aquellos componentes 720. Un componente conectado se refiere a un conjunto de pixeles en la imagen en donde cada pixel es negro u oscuro y cada uno está adyacente a por lo menos otro pixel en el conjunto. Los centros de los componentes conectados entonces están conectados en las líneas 730, las cuales entonces se utilizan para determinar la orilla del texto 740. De estas orillas, se agrega un margen 750 con el fin de identificar la ubicación del borde de la imagen de documento recibida. Aunque el tamaño del margen puede variar, en una modalidad, un margen estándar se agrega en el paso 750. Con referencia nuevamente a la Figura 3, en el paso 340 se calculan las esquinas de la imagen de documento capturada. En una modalidad, las esquinas pueden ser calculadas de la intersección de las líneas de borde.

De acuerdo a lo descrito previamente, los pasos de eliminación de deformación 240, 350 pueden implicar una variedad de ajustes a la imagen recibida. En una modalidad, el paso de eliminación de deformación 240, 350 ajustará la imagen de documento recibida para corregir con respecto a las deformaciones de perspectiva en la imagen recibida. Por ejemplo, en situaciones en donde la foto no se toma en un ángulo directamente arriba y centrado sobre el documento, habrá una deformación de perspectiva de la imagen de documento recibida. Una modalidad para ajustar la imagen para corregir con respecto a la deformación de perspectiva se representa en la Figura 8. Esta modalidad implica mapear un conjunto de coordenadas de imagen 810, por ejemplo (x, y), a un nuevo conjunto de coordenadas de imagen, por ejemplo (u, v) . Después del paso de segmentación 230, 320, 335, se determinan las cuatro esquinas del documento 340. Típicamente, en un documento que contiene deformación de perspectiva, estas cuatro esquinas corresponderán a un trapezoide, mientras que un documento generalmente debe tener la forma de un rectángulo. Así, en una modalidad, el mapeo 810 se realiza entre el trapezoide recibido hasta el rectángulo deseado. Una modalidad para lograr este mapeo 810 es utilizar una transformación homogénea entre las coordenadas de pixel no deformadas y las coordenadas de pixel deformadas por medio de una matriz homogénea que representa la transformada de la coordenada de pixel deformada hasta la coordenada de pixel no deformada, que se conoce en el arte previo. La transformada puede ser calculada comparando las cuatro esquinas determinadas durante la segmentación 230, 320, 335 con las dimensiones corregidas de la imagen de documento recibida no deformada. En una modalidad, la necesidad de calcular la transformada en cada punto de pixel puede ser evitada simplemente calculando la transformada para cada línea y utilizando interpolación lineal para calcular las nuevas coordenadas de pixel . Después del mapeo nuevas coordenadas corresponden a un documento que tiene una deformación de perspectiva reducida, se realiza un re-muestreo de los pixeles 815. Otro aspecto de la imagen recibida que puede ser ajustado en los pasos de eliminación de deformación 240, 350 es un ajuste para deformaciones causadas por la lente de la cámara 820. La distorsión causada por una lente de cámara fotográfica puede crear por otra parte líneas rectas a curvas. Esta deformación depende de la lente particular utilizada y la distancia de la cámara de la imagen capturada. La curvatura producida por la distorsión de la lente generalmente será radial y, por lo tanto, se puede realizar un ajuste radial uniforme para la deformación de la lente utilizando un parámetro que se aproxima al grado de deformación de la lente.

Este parámetro se puede calcular ya sea por el sistema o ingresado por el usuario. Aún otro aspecto de la imagen recibida que puede ser ajustada en los pasos de eliminación de deformación 240, 350 es un ajuste para más de una de las deformaciones. Por ejemplo, si el documento digitalizado es una página de un libro de acuerdo a lo mostrado en la Fig. 18, la página digitalizada pueden tener una superficie curvada, que resulta en una curvatura o una deformación de distorsión. También, puede haber una deformación de perspectiva cuando el documento digitalizado es capturado en un ángulo oblicuo a la página. Estas deformaciones ambas pueden ser corregidas en los pasos de eliminación de deformación 240, 350. Una descripción detallada de una modalidad preferida para las imágenes capturadas de ajuste de distorsión de libros y otros documentos y, si se requiere, eliminar la deformación de perspectiva de tales imágenes, se describe en relación a las figuras 14-22 abajo. Otras deformaciones también pueden ser corregidas y la descripción de tipos particulares de distorsión aquí no se intenta limitar los tipos de deformación que pueden ser reducidos o eliminados. En el paso 365, un proceso de umbralización se realiza en la imagen producida en el paso 360. El proceso de umbralización 365 reduce la profundidad de color de la imagen y tiene la ventaja potencial de reducir la deformación creada por un flash que puede ser utilizado al fotografiar la imagen. En una modalidad, el proceso de umbralización 365 reduce las imágenes de color de veinticuatro bits a las imágenes blancas y negras de un bit. Las ventajas potenciales de reducir las imágenes a blanco y negro son la reducción de los efectos introducidos por el flash de la cámara y la reducción de la cantidad de información requerida por el sistema 300 para procesar. La umbralización 365 puede ser realizada en un número de formas. Una modalidad puede utilizar una técnica de interpolación, que se conoce en el arte previo. Un ejemplo de una técnica de interpolación se puede encontrar en un programa computacional de imagen existente, tal como la SNOWBOU D® IMAGE LIBRARY por Snobound Software Corporation. Un defecto de utilizar una técnica de interpolación, sin embargo, es la introducción de ruido en la imagen. Otra modalidad para la umbralización 365 implica seleccionar un umbral global para una imagen. En tal técnica, se selecciona un valor umbral. Aquellos pixeles que tienen una intensidad mayor que el valor umbral son considerados blancos y los pixeles restantes se consideran negros . El valor umbral se puede seleccionar en un número de formas. En una modalidad, el valor umbral es seleccionado y aplicado a todas las imágenes recibidas. Esta técnica tiene el defecto de no explicar las condiciones de iluminación variadas en las imágenes recibidas . En otra modalidad, el valor umbral es calculado de un análisis de la imagen recibida, tal como su histograma. En una modalidad que involucra el análisis de la imagen recibida, se hace una suposición que la imagen recibida contiene dos picos en su histograma de intensidad que corresponde al primer plano y al fondo de la imagen recibida del documento. Esta modalidad puede no realizarse bien para aquellas imágenes a las cuales la suposición no se aplica. Otra modalidad para la umbralización 365 es seleccionar un valor umbral separado para cada pixel en la imagen recibida. Esta modalidad tiene la ventaja de responder a las condiciones de cambio dentro del documento, tal como cambios de iluminación o contrastes de fondo. Una modalidad de esta técnica es referida como umbralización adaptativa. En esta modalidad, los valores de pixel anteriores son considerados mientras que cada nuevo pixel es analizado para la determinación del valor umbral. Una forma para lograr esto es mediante el cálculo del promedio pesado de cada pixel mientras que cada pixel progresivo de la imagen recibida es analizado. Un defecto potencial de esta modalidad es la introducción de ruido si la imagen recibida comprende un documento coloreado . En el paso 370, se realiza el paso de las líneas de texto. En este paso 370, el sistema determina las líneas de texto en la imagen de documento recibida. La Figura 9 representa una modalidad de las líneas de texto 370. En una modalidad, el sistema asume que los pixeles que corresponden al texto en la imagen de documento recibida tienen una intensidad inferior que la de los pixeles de fondo de la imagen de documento recibida. En esta modalidad, se calcula la suma de las intensidades de todos los pixeles dentro de cada una de las filas de la imagen de documento recibida 910. Estas sumas entonces son utilizadas para identificar picos y valles locales en la intensidad de pixel 920. Estos picos y valles entonces son analizados para determinar las líneas de texto en el documento. Por ejemplo, si la imagen de documento recibida tiene líneas negras de texto con un fondo blanco, las líneas de pixeles que son completamente blancas tienen las intensidades totales más altas y las líneas que contienen el texto negro tendrán intensidad de pixel substancialmente más baja. Estas diferencias en intensidad entonces pueden ser calculadas y las líneas de texto de este modo pueden ser determinadas. En una modalidad preferida, el paso de las líneas de texto 370 es ejecutado tanto horizontalmente y verticalmente a través de la imagen de documento recibida. Otra modalidad para realizar el paso de las líneas de texto 370 es realizar una búsqueda similar para las líneas de texto como la realizada en el paso 335. En una modalidad, el texto de la imagen de documento capturada es identificada y formada en líneas. Esto se puede lograr identificando los componentes conectados en la imagen de documento capturada y encontrando el vecino más próximo a esos componentes . Un componente conectado se refiere a un conjunto de pixeles en la imagen en donde cada pixel es negro u oscuro y cada uno está adyacente a por lo menos a otro pixel en el conjunto. Los centros de los componentes conectados entonces están conectados en líneas. Este proceso es similar al descrito en los pasos 710, 720 y 730 de la Figura 7. El paso 375 determina si la imagen de documento capturada debe estar en un formato de paisaje o retrato. En una modalidad, esto se logra mediante la determinación si los componentes conectados adyacentes forman predominantemente líneas de texto verticales u horizontales. El proceso se ejecuta una vez en donde las líneas de texto se pierden de los componentes conectados, en ya sea las direcciones horizontales o verticales, dependiendo de la dirección de los componentes conectados adyacentes. En una modalidad, la dirección que resulta con el mayor número de líneas se determina para definir la orientación de la imagen de documento recibida. Por ejemplo, en una imagen de documento recibida que tiene una altura mayor que su anchura, si las líneas de texto 370 en la dirección vertical producen un mayor número de líneas que las líneas de texto 370 en la dirección horizontal, entonces el documento de imagen recibido es determinado para tener la orientación del paisaje. Como otro ejemplo, si en la misma imagen de documento recibida las líneas de texto 370 en la dirección horizontal produce un mayor número de líneas que las líneas de texto 370 en la dirección vertical, entonces el documento de imagen recibida se determina que tiene una orientación de retrato. El paso 380 determina la orientación vertical del documento. La Figura 10 representa una modalidad para determinar si la imagen de documento recibida está correctamente orientada vertical. En una modalidad, cada línea del texto es analizada. Un menor número de líneas de texto puede ser analizado, pero esto puede resultar en un resultado menos confiable. En una modalidad, cada línea de texto está dividida en tres secciones en el paso 1010: una sección ascendente, una sección central y una sección descendente. Los caracteres de la lengua inglesa contienen ciertas características estadísticas inherentes que puedan ser utilizadas en ciertas modalidades para determinar la orientación vertical de la imagen de documento recibida. Por ejemplo, el alfabeto de la lengua inglesa tiene solamente cinco caracteres que descienden debajo del .límite inferior de una oración (en este caso g, j, p, q e y) y tiene muchos más caracteres que ascienden sobre el límite superior de una oración (por ejemplo b, d f, h, i, k, 1 y t). En una modalidad, esta característica de los caracteres de la lengua inglesa puede ser considerada cuando se calcula el número respectivo de pixeles contenidos en la sección ascendente y la sección descendente 1020 y comparando esas densidades de pixel 1030 , 1040 . Por ejemplo, una imagen de documento recibida que tiene caracteres de la lengua inglesa que tiene más pixeles de carácter ascendente que pixeles de carácter descendentes está probablemente en la posición vertical y no necesita ser rotada, mientras que si el mismo documento tiene más pixeles de carácter descendente que los pixeles de carácter ascendente, el documento probablemente necesita ser rotado cien y ochenta grados en el paso 1050 . En otras modalidades, también pueden ser consideradas otras características de los caracteres de la lengua inglesa. Por ejemplo, pueden ser consideradas las características de ubicación de pixel en la dirección horizontal. Además, métodos no estadísticos también pueden ser utilizados para determinar la orientación vertical del documento, tal como reconocimiento de caracteres ópticos ("OCR"). Otra modalidad podría utilizar un acercamiento de red neural . Además, las características inherentes similares pueden ser utilizadas para los documentos no Ingleses. Por ejemplo, los caracteres de la lengua española son similares a los de inglés y tendrán características inherentes similares. Como otro ejemplo, los caracteres de la lengua árabe contienen un mayor número de caracteres descendentes y por lo tanto las modalidades se pueden ajustar para esas características . La Figura 12 representa otra modalidad para realizar el paso 380 y determinar si la imagen de documento recibida está orientada vertical apropiadamente. En una modalidad, los componentes conectados son utilizados para determinar cada letra de la línea de texto. Cada componente es clasificado por la altura en dos categorías, pequeñas y grandes 1210. El centro de las líneas de texto entonces son determinadas en el paso 1220. En una modalidad, las alturas de las letras pequeñas se utilizan para determinar el centro de la línea de texto 1220. Esto puede mejorar la estimación del centro de la línea de texto si se deforma, tal como si se curva a través de la página. Las letras grandes entonces se emparejan contra el centro de las líneas de texto, y se agrupan como ascendentes o descendentes con base en la ubicación relativa a este centro en el paso 1230. El número total de letras ascendentes y descendentes entonces se calcula en el paso 1240. En un documento típico de la lengua inglesa, los caracteres grandes ascenderán hacia la parte superior de la página. Por lo tanto, en una modalidad, si el número de caracteres grandes ascendentes es mayor que el número de los descendentes, entonces el documento no necesita ser rotado en el paso 385 antes de salir en el paso 390. Si, sin embargo, el número de caracteres grandes descendentes es mayor que el número de caracteres grandes ascendentes, entonces el documento se rota en el paso 385 antes de salir en el paso 390. La imagen entonces se rota en el paso 385 de conformidad con las determinaciones de los pasos 380 y 375. La imagen de documento nueva es entonces transmitida al exterior en el paso 390. De acuerdo a lo discutido arriba, los documentos digitalizados del sistema pueden ser capturados ya sea en una cámara de película o cámara digital. Como una alternativa a estos dispositivos de formato libre, un sistema de cámara estacionaria puede ser empleado para capturar los documentos digitalizados. La Figura 11 representa una modalidad para un sistema de cámara estacionaria para capturar una imagen de documento. En esta modalidad, el documento 1110 se coloca en la base 1120 del sistema. En una modalidad preferida, la base 1120 del sistema es de un color predeterminado, que puede tener la ventaja de facilitar el proceso de segmentación, discutido arriba. La ampliación de la base 1120 es el soporte 1130, que puede alojar una cámara 1140 e iluminación 1150. La cámara y la iluminación pueden estar alojadas permanentemente en el soporte 1130 o pueden ser separables o ajustables. La iluminación se puede poner en cualquier parte en la base 1120 o el soporte 1130. En otra modalidad, ninguna iluminación adicional está incluida en la base 1120 o el soporte 1130. En aún otra modalidad, la iluminación está separada de la base 1120 o el soporte 1130. El sistema estacionario entonces se acopla a una computadora 1160 para realizar el procesamiento descrito anteriormente del de la imagen de documento recibida.

En otra modalidad, la computadora también puede estar integrada en el aparato. En aún otra modalidad, la imagen de documento capturada simplemente puede ser almacenada ya sea en la cámara digital 1140 o en otra fuente de memoria y después acoplada a una computadora para procesamiento. Tal sistema de cámara estacionaria puede ser colocado como parte de un sitio de trabajo de un usuario en, por ejemplo, una oficina. Hay varias ventajas de utilizar un sistema de cámara estacionaria a diferencia de una cámara de forma libre. Por ejemplo, en la utilización de un sistema de cámara estacionaria, la cantidad de deformación de perspectiva puede ser reducida, puesto que el documento es mas probable que sea perpendicular y centrado con respecto a la lente de la cámara. Además, otra ventaja puede ser permitir que el sistema se ajuste mejor a favor de la deformación de la lente, puesto que la distancia entre la cámara y la lente utilizada será conocida, de este modo reduciendo la necesidad de calcular o aproximar estos parámetros. Otra ventaja potencial sería reducir las deformaciones producidas por un flash de cámara. En una modalidad preferida la iluminación 1150 del sistema estacionario sería colocado para reducir el reflejo y otras deformaciones producidas por los flashes de la cámara. Aunque el uso de un sistema de cámara estacionaria puede ser deseable, tales sistemas no serán siempre prácticos o disponibles para muchas necesidades del procesamiento de imágenes de documento. Asi, un método para eliminar la deformación de imagen causada por una superficie distorsionada de un documento o libro digitalizado aun cuando la imagen es capturada en un ángulo oblicuo seria extremadamente útil. El proceso de ajuste de distorsión descrito más adelante con respecto a las Figuras 14 -22 proporciona tal proceso de eliminación de deformación. Una descripción detallada de una modalidad preferida para el ajuste de distorsión de imágenes capturadas de libros y otros documentos y, si es necesario, eliminar la deformación de perspectiva de tales imágenes, se describe con respecto a las Figuras 14 -22 a continuación. El proceso de ajuste de distorsión de la Figura 14 puede ser utilizado para los pasos de eliminación de deformación 240 , 350 descritos arriba en las Figuras 2 y 3 . Alternativamente, puede ser utilizado como una técnica de procesamiento de procesamiento de imágenes independiente, o combinado con los pasos seleccionados de los métodos descritos con respecto a las Figuras 2 y 3 , incluyendo uno o más de los pasos de segmentación y orientación de la imagen. El proceso de ajuste de distorsión mostrado en la Figura 14 comprende tres pasos, que transforman colectivamente una imagen de un documento distorsionado a una imagen correspondiente del documento aplanado. Esto se logra transformando el documento digitalizado de un sistema de coordenads curvado a un sistema de coordenadas cartesianas. En el paso 10 de este proceso de ajuste de distorsión basado en el modelo, una red de coordenadas curvas 132, de acuerdo a lo mejor visto en la Figura 18, se aplica a una imagen 131 del documento distorsionado que debe ser transformado. En el paso 11, la red de coordenadas curvas 132 se estira para formar una red de coordenadas rectangulares 134 de acuerdo a lo mostrado en la Figura 19. En el paso 12, la red de coordenadas rectangulares 134 en la Figura 19 se ajusta para generar una red de coordenadas rectangulares ajustada 136 de acuerdo a lo mostrado en la Figura 21. La red de coordenadas rectangulares 136 está preferiblemente bien proporcionada de manera que la deformación de imagen causada por la distorsión del documento originalmente digitalizado y o debido a la perspectiva de la cámara es reducida, preferiblemente substancialmente reducida, y más preferiblemente completamente eliminada. La Red de coordenadas curvas 132 en la Figura 18 comprende segmentos de línea 33, 34, 37-39 y el eje-y 32. Los segmentos de línea 33, 34, 37-39 son una porción de una serie de líneas rectas paralelas mas que concurrentes, que generalmente se extienden en la dirección del eje-y 32, pero que se intersecan en un punto de desvanecimiento común que no se muestra puesto que está fuera de la figura. Así, en la modalidad ilustrada, los segmentos de línea concurrentes 33, 34, 37-39 están más separados uno de otro en sus porciones inferiores y están espaciados más cerca uno de otro en sus porciones superiores. Además, debido a que el grado de curvatura es mayor cerca del eje-y 32, que corresponde al centro del libro digitalizado, el espacio entre los segmentos de linea es mayor además de los que están lejos del eje-y 32. Asi, el espacio entre los segmentos de linea 33 y 37 es mayor que el espacio entre el eje y 32 y el segmento de línea 38. Aunque hay un número de métodos que pueden ser utilizados para aplicar una red de coordenadas curvas apropiada 132 a una imagen 131 de un documento distorsionado, se describen abajo dos métodos preferidos con respecto a las figuras 15-17. En una modalidad, los segmentos de línea concurrente 33, 34, 37-39 y el eje y 32 de la red de coordenadas curvas 132 son determinados de los coordenadas de las esquinas de las páginas de libro digitalizadas . La ventaja de esta técnica es que es independiente del texto en la imagen capturada y de este modo permite páginas que incluyen imágenes o fórmulas que están sin distorsión . Para cada punto en la Figura 18, su coordenada correspondiente en un sistema de coordenadas cartesianas se puede decidir encontrando su coordenada x y y, respectivamente, en la red de coordenadas curvas 132. Además, cada punto en el mismo segmento de línea (por ejemplo, segmento de línea P'Q'39) en la Figura 18 a lo largo del eje y 32, debe tener la misma coordenada x cuando es recuperado en una imagen no deformada. También, cada punto en el mismo segmento de línea curvada a lo largo del eje-x 31 en la Figura 18, debe tener la misma coordenada-y en una imagen no deformada. En una modalidad, la coordenada x de cada pixel en la página digitalizada se decide trazando una línea del punto de desvanecimiento a través de ese pixel e intersecándose con el borde inferior 35 de la página de libro en la imagen 131. La distancia entre la intersección y el eje-y 32 es entonces la coordenada-x de ese pixel. Sin embargo, es más complejo determinar la coordenada-y de cada pixel en la red de coordenadas curvas 132. Un método que puede ser utilizado es dividir cada uno de los segmentos de línea recta concurrentes 33, 34, 37-39 que se extienden en la dirección del eje-y 32 en muchas secciones pequeñas. Las figuras 20 y 22 son útiles en explicar este proceso. La Figura 20 que representa una proyección de la imagen del libro en la imagen 131 (mostrada en la Figura 18) sobre la superficie de la página 142 del libro fue digitalizada. Aunque los puntos P(x) y Q(x) están colocados en dos de las esquinas contrarias de la superficie de página 142, se debe entender que P(x) se puede colocar en cualquier punto en el borde curvado superior 144 y Q(x) está colocado en la intersección del segmento de línea en la cual se encuentran P(x) y el borde curvado inferior 146 de la superficie de página 142. Lo mismo aplica para P' (x) y Q' (x) mostrados en la imagen 131. La Figura 22 es una vista lateral de la proyección para el segmento de línea P'Q' 39 en la red de coordenadas curvas 132 en la Figura 18 para corresponder al segmento de línea P'Q' 49 en la superficie de página 142 del libro digitalizado . Así, el segmento de línea P'Q' 39 en la Figura 22 está en el plano de la imagen 67 y se extiende en la dirección del eje-y 32 y el segmento de línea PQ 49 es la proyección de P'Q' 39 en la superficie de página 142. Se debe observar que el segmento de línea PQ 49 sobre la superficie de página 142 en la Figura 22 también corresponde al segmento de línea PQ 49 en la red rectangular 134 en la Figura 19 . En el diagrama de proyección de la Figura 22 , S corresponde a la lente 66 que se utiliza para capturar la imagen 131 de la superficie de página 142 del libro digitalizado. El eje óptico de la lente 66 , que corresponde al eje-z 65 en la Figura 22 , interseca el plano de imagen 67 en O y la superficie de página 142 en R. H e I son los puntos de pie de P y Q en el eje-z 65 , respectivamente. Así, si < PRH = T, por geometría, se pueden derivar las ecuaciones siguientes : 5O _ O SO _ Q'O SH ~ PH y SI ~ QI Para resolver para P'O SO PH_ _ SO Rsen T _ SO - PRsen O SH ~ SR + RH ~~ SR : + PR eos T además, estableciendo SO=f, SR=d, P'0=yp-, que es la coordenada-y del punto P' en la Figura 18, PR = yp, que es la coordenada-y del punto P en la Figura 19, entonces la ecuación (1) pueden ser reescrita como d + y eos T Aquí f, d, y T pueden ser considerados constantes si se asume que la distancia de la lente de la cámara 66 para cada punto en el libro es la misma. Por lo tanto, la ecuación (2) puede ser simplificada dejando Sustituyendo a y b en la ecuación (2) resulta en la ecuación (3) abajo. _ yp oí y? a + by La ecuación (3) es la función de transformada para coordenada-y entre P y P'. Análogamente, al establecer Q'O QR=yq, entonces una ecuación para Q y Q' puede ser derivada: y„' = a + byg Con referencia nuevamente a la Figura 19, dejando P0, Pi , P2, ...Pn ser n+1 puntos eventualmente separados en el segmento de línea PQ 49. Cada punto Pi tiene una coordenada y que puede ser representada por las coordenadas y del punto P y punto Q.

Para cada punto Pi, tenemos: y¡ = yq + - {yP - yq ) n en donde i es 0, 1, 2,... n. Combinando con la ecuación (4) , ahora tenemos todas las coordenadas y en el plano de imagen P0 ' , Pi ' , P2 ' , ...Pn ' : a + by¡ Utilizando la ecuación (5) el segmento de línea P'Q'39 se divide en secciones n. Dividir todos los segmentos de línea a lo largo del eje-y, la red rectangular desproporcional 134 en la Figura 19 es establecida por el mapeo pixel a pixel de la red de coordenadas curvas 132 de la Figura 18. Aunque la red rectangular 134 en la Figura 19 tiene segmentos de línea vertical paralela 43-44, 47-49 y segmentos de línea horizontal paralela 45, 46, el espacio entre los segmentos de línea 43 y 47 es más grande que el espacio entre el eje-y 42 y el segmento de línea 48. Por lo tanto, el siguiente paso 12 en el proceso de ajuste de distorsión es para ajustar la anchura entre los segmentos de línea vertical paralela 43, 44, 47-49 de la red rectangular desproporcional 134. Con referencia a la Figura 23, se considera la superficie del libro de la página como una superficie parecida a cilindro, si el libro se ve del lado inferior, debe tener una superficie de página curvada derecha 91 y una superficie de página curvada izquierda 92. En la Figura 23, la espina del libro 80 está situada en el origen y el libro está ubicado en el plano x-y. Los bordes del lado de libro 83, 84 se muestran como puntos de la vista lateral. El segmento de línea PaQa 89 también se muestran como un punto que tiene una distancia bpq 86 de PQ 90 (también mostrado como un punto) en el eje-x 81. Para considerar la página derecha y la página izquierda por separado, utilizamos una función indeterminada b(x) 82 que puede ser utilizada para representar cada punto en la superficie de la página de libro curvada derecha 91. Por lo tanto, en el punto de origen 80, b(0) = 0. Con referencia a la Figura 24 para una descripción detallada del ajuste para la lente a distancia del objeto. En la Figura 24, PaQa 78 es un segmento de línea en la superficie de la página curvada 142 y Ra es el punto en la intersección de PaQa 78 y el eje-z 75. PaQa 78 y el eje-z 75 forman un ángulo T de 71. El segmento de línea ajustado PaQa 78 es paralelo a PQ 74 en donde el segmento de línea PQ 74 interseca el eje-z 75 en R. La distancia entre el segmento de línea PQ 74 y el segmento de línea PaQa 78 es bpq 72. Por lo tanto, por trigonometría, la longitud del segmento de línea RaR 73 es bpq/ senG . Con referencia nuevamente a la Figura 22, ahora podemos ajustar la distancia de la lente 66 a la superficie de la página 142 restando b(x)/sen0 de SR puesto que hay una distancia desde la superficie de la página 142 a la tabla excepto en la espina del libro y los bordes laterales del libro. Consecuentemente, d(x) = d(0) -b(x)/sin9. Sustituyendo esta ecuación en la ecuación (2), produce: d(0) + cos0 fy senO fypsent d(0) + yp eose- b{x)l sen 9 d(0) + yp cos<9 (d(0) + yp eos 0)(d(O) + yp eos T - b{x) I sen T) asumiendo que b (x) «d + ypcos9, JyPb(x) (d(0) + yp eos 0)(</(O) + yp eos T) yp x) - yp 0) = C - b(x) (6) en donde C es una constante puesto que f , d(0) , T y yp son todas constantes una vez que la imagen es capturada. Y yp> (x) es la función de la linea del borde superior 36 lo cual se ha decidido en el paso 320, 335. Aplicando la ecuación (6), uno ahora puede resolver para b(x) . Con referencia nuevamente a la Figura 23, el eje-x 81 puede ser dividido en muchos segmentos pequeños . Para cada segmento pequeño ?? 87 en el eje-x 81, hay un arco correspondiente 88 en la superficie de página 91. La longitud del arco 88 aproximado a un valor AArc el cual es igual a (??2 + Ab2(x))1/2 si ?? es muy pequeño. De este modo, permitiendo que j (x) corresponda a la longitud de un arco del origen 80 a cualquier punto en la superficie de página 91, entonces la siguiente ecuación puede ser escrita: j(x) = ^AArc = ^\ + d(b(x) - b(x))/dx - dx Una fórmula similar puede ser escrita para la superficie de la página 92. Cuando se obtiene (x) , la red rectangular 134 en la Figura 19 puede ser ajustada a una red rectangular bien proporcionada 136 de acuerdo a lo mostrado en la Figura 21. En la Figura 21, la página del libro muestra el resultado de una transformada de ajuste de distorsión de la página de libro en la Figura 18. Estos resultados fueron obtenidos usando una imagen con una resolución de 2304 x 1704 y directamente 200 dpi. La distancia entre la lente y la superficie de la página fue aproximadamente 50 cm. El ángulo entre la lente y la superficie del libro fue menos de 30 grados. Además, el índice OCR resultante fue aproximadamente 90% . Mientras que el proceso de ajuste de distorsión descrito anteriormente trabaja mejor cuando el fondo es un color oscuro, pueden ser empleados otros fondos. La modalidad de ajuste de distorsión precisamente descrita es muy útil para eliminar deformaciones de un documento digitalizado que tiene tanto deformaciones de perspectiva y de curvatura, aun cuando el documento digitalizado comprende relativamente pocas lineas de texto. Un método preferido para generar la red de coordenadas curvas 132 ahora se describe con respecto a las Figuras 15 y 16. Cuando se abre un libro, las superficies de la página típicamente no están planas, particularmente cuando el libro es grueso, y, consecuentemente, las líneas de texto se curvan. En el método de la Figura 15, se colocan las líneas de texto más largas en una página digitalizada. Una transformada basada en las líneas de texto más largas lo más extensamente separadas, es entonces realizada, la cual a su vez puede ser utilizada para generar la red de coordenadas curvas 132. El método para generar la red de coordenadas curvas 132 mostrada en la Figura 15 incluye cuatro pasos principales. Primero, un paso de segmentación del área de texto 1 es utilizado para separar el área en una imagen almacenada de una página de libro que contiene el texto. En segundo lugar, un paso de mejora de dirección local 2 es utilizado para revelar las líneas de texto ocultas. Tercero, una paso de extracción de línea de texto 3 es utilizado para estimar una curva de esqueleto para cada línea de texto. El último paso es la colección de líneas de texto 4, que se utiliza para seleccionar una función polinomial apropiada para representar las líneas de texto.

En una modalidad, el área de texto de un documento digital izado se asume que comprende un área grande de espacio de luz con algunos caracteres o figuras oscuras en esta. Con el fin de separar el área de texto en el paso 1, se genera una imagen miniatura de tamaño pequeño de la imagen original. Cada pixel la imagen miniatura se establece al negro si todos los pixeles que representa en la imagen original son oscuros, de lo contrario ese pixel se asigna blanco. Con la imagen miniatura, es entonces posible buscar fácilmente los pixeles blancos más grandes conectados, que corresponderán al área de la página del libro o documento digitalizado . Este proceso separa la imagen de la página de libro o documento de su fondo, y asi constituye un método alternativo de realizar los pasos de segmentación 230, 335. Una vez que la página de libro o documento es separada de su fondo, se identifica el área de texto en la página digi talizada . Para lograr esto, otra imagen miniatura puede ser generada, preferiblemente usando un método de muestreo inverso, es decir, cada pixel en la imagen miniatura se establece al blanco si está en el área de la página digitalizada y el área que cubre en la imagen original tiene una variación de intensidad alta y por lo menos un pixel oscuro. Consecuentemente, las áreas blancas en esta imagen miniatura representan las áreas de texto en la imagen original. En otra modalidad ilustrada en la Figura 25 se genera una imagen miniatura 450 en donde cada pixel en la imagen miniatura 450 se establece a negro si está en el área de la página y el área que la cubre en la imagen original tiene una variación de intensidad alta y por lo menos un pixel oscuro. Consecuentemente, las áreas negras en esta imagen miniatura 450 representan las áreas de texto en la imagen original . Después de que se obtiene el área de texto, el paso de segmentación del área de texto 1 está listo ser realizado. Esto es especialmente útil cuando se trata con una imagen de un libro abierto, que típicamente comprenderá dos páginas. Esto también es útil para columnas de segmentación de texto en una página digitalizada . En una modalidad, la segmentación es realizada escaneando la imagen miniatura 450 a lo largo de las líneas verticales 454 del área de la página en la imagen miniatura 450 para identificar los espacios entre las siguientes áreas de texto detectando si cada pixel de la misma línea vertical es un pixel blanco (o pixel oscuro si se utiliza el método de muestreo inverso) . Si la respuesta es positiva, entonces la línea vertical completa se encuentra en un espacio entre el área de texto. Un umbral apropiado separará la mayoría de las áreas de texto (por ejemplo, una página digitalizada de otra página digitalizada cuando dos páginas de un libro son capturadas en la misma imagen y/o algunas columnas de texto en la misma página digitalizada) . En el paso 2, se realiza preferiblemente una mejora de dirección local. Aunque la gente lee libros "línea por línea," no hay líneas geométricas en una línea de texto. En cambio, la gente entiende que dos diferentes caracteres pertenecen a la misma línea de texto debido a las densidades de caracteres, sus direcciones, y los significados del texto. Sin embargo, una computadora no sabe la dirección de caracteres y sus significados. La única información disponible para un procesador de imagen es la dirección local de caracteres basada en sus densidades. En una modalidad, el paso de mejora de dirección local 2 es realizado para revelar las líneas de texto ocultas calculando las densidades de cada carácter. La Figura 16 muestra un diagrama de flujo de un proceso para realizar el paso de mejora de dirección local 2, que contiene adicionalmente cuatro sub-pasos. Primero, un paso de detección de distancia de la línea de texto 5 se realiza preferiblemente para detectar la altura de las líneas de texto. La altura de las líneas de texto es un factor importante en determinar el índice de compresión para el siguiente paso 6. En el paso 6, la imagen de entrada se comprime y se convierte en una imagen binaria. Después, en el paso 7 se utiliza un proceso para calcular y mejorar una matriz de dirección, que representa la dirección local de cada pixel en una imagen. En una modalidad, se utilizan dieciséis plantillas direccionales predefinidas para estimar la dirección para cada pixel. Después de que la matriz de dirección se calcula para cada pixel, se utiliza un algoritmo de suavizamiento para eliminar ruido en la matriz. En el paso 8, se realiza una mejora basada en la matriz de dirección. La matriz de dirección y la imagen original se utilizan para hacer la mejora de dirección local para eliminar cualquier espacio entre las palabras en la misma línea de texto y de este modo generar una línea de texto continua. Una imagen de escala de grises se obtiene del proceso de mejora descrito arriba, que es procesado posteriormente en el paso de extracción de la línea de texto 3 de la Figura 15. En el paso de extracción de la línea de texto 3, la imagen del paso 2 se convierte en una imagen binaria. Se proporciona más adelante una descripción en detalle para cada uno de los sub-pasos 5,6,7,8 del paso de mejora de dirección local 2. Preferiblemente el paso de detección de la distancia de la línea de texto 5 de la Figura 16 se realiza generando una imagen miniatura similar a la utilizada en el paso de detección del área de texto 1. En una modalidad, se utiliza una imagen en miniatura que es cuatro veces superior en la resolución vertical que la del paso 1. El área de texto entonces se divide en una pluralidad de segmentos más pequeños. Esto es ilustrado usando las Figuras 26A y 26B. La Figura 26A representa un segmento pequeño 460 de una imagen de texto. La Figura 26B representa una imagen miniatura de la imagen en la Figura 26A. Para cada imagen miniatura 464 que corresponde a un segmento 460 del área de texto, una franja rectangular de pixeles 462 en la porción central de la imagen miniatura 464 es seleccionada. Esta franja rectangular de pixeles 462 se establece preferiblemente para tener la misma altura que el segmento 460 del área de texto está siendo analizada, pero preferiblemente ocupa solamente 1/32 de la anchura del segmento completo 460 . Cada franja rectangular 462 entonces es escaneada verticalmente desde la parte superior hasta el fondo cuando se escanea cada franja rectangular 46 . Si hay un pixel que es considerado para constituir el texto, cada pixel en el mismo nivel horizontal del escaneo también puede ser tratado como texto. Por lo tanto, muchas áreas rectangulares 466 pueden ser generadas dentro de la franja 462. Basado en el escaneo de la franja 462, se cuentan el número de líneas de pixel L con por lo menos un pixel negro. Además, se cuenta el número total de líneas de texto C. Por lo tanto, una altura aproximada de las líneas de texto H0 para cada área de texto es igual a L/C para esa área de texto. Para hacer la valoración más exacta, el cálculo de la altura puede ser repetido en tanto filtrar aquellas líneas con un valor L/C mayor que 2H0. Este paso de filtración puede ser utilizado para deshacerse de elementos tales como fotografías. El resultado final de este análisis es la altura del texto H. De manera similar, se puede calcular el espacio promedio S entre las líneas de texto. Finalmente la distancia, entre las líneas del texto es simplemente la suma de S y H. En el paso 6 de la Figura 16, se realiza un proceso para comprimir la imagen de entrada y para convertirla preferiblemente en un mapa binario. Con base en la distancia calculada entre diferentes líneas de texto del paso 5, es posible seleccionar un índice de compresión de manera que la imagen de entrada puede ser comprimida de modo que los caracteres en la misma línea se conecten juntos, pero los caracteres que no están en la misma línea son separados. En una modalidad, después se realiza un algoritmo binario local. Primero, la imagen de entrada está dividida en ventanas pequeñas de conformidad con un índice de compresión deseado. Entonces, para cada ventana, se identifica el pixel más oscuro. Si el valor de gris del pixel más oscuro es mayor que un valor umbral, o mayor que un segundo valor umbral más el valor gris promedio de la ventana pequeña, entonces el valor de gris para cada pixel en la misma ventana se establece a 255. Por otra parte, cada pixel de la ventana se fija a 0. En el paso 7 de la Figura 16, se realiza un proceso para calcular y suavizar una matriz de dirección. En una modalidad, dieciséis plantillas direccionales 9x9 predeterminadas pueden ser utilizadas para estimar la dirección en cada pixel. Las Figuras 27A - 27F representan seis fuera de las dieciséis plantillas direccionales 9x9 que pueden ser utilizadas para realizar el paso 7 de la Figura 16. En las Figuras 27A-27F, el bloque negro 474 en el centro de la plantilla direccional 9x9 470 representa el pixel central mientras que los ocho bloques de gris 472 describen una dirección del pixel central. Así, por ejemplo, la Figura 27A representa una línea de texto con una dirección vertical mientras que la Figura 27E representa una inclinación de línea de texto de 45 grados a la horizontal. Los patrones de las otras diez plantillas direccionales que pueden ser utilizadas en la realización del paso 7 pueden ser derivadas de la tendencia de las primeras seis plantillas direccionales de acuerdo a lo mostrado en las Figuras. 27A-27F (en este caso, los bloques de grises cambian en sentido de las manecillas del reloj uno por uno) . Con estas dieciséis plantillas direccionales 9x9, puede ser realizado el paso 7 de calcular la matriz de dirección. Primero, para cada pixel en la página digitalizada, se calculan dieciséis sumas de valores de niveles de grises en todas las dieciséis direcciones proporcionadas por las dieciséis plantillas direccionales 9x9. Después la suma máxima, mínima, y promedio de los valores de niveles de grises, que son denotados por sum_max, sum_min, y sum_avg son determinadas. Cada suma de valores de nivel de grises es representada por la suma del pixel central (bloque oscuro) y ocho pixeles (bloques grises) definida por una de las dieciséis plantillas direccionales. El valor de sum_max representa la más grande de las dieciséis sumas de valores de nivel de grises. El valor de sum_min es el más pequeño de las dieciséis sumas de valores de nivel de grises . El valor de sum_avg es el promedio de todas las dieciséis sumas de valores de nivel de grises. La dirección indicada por la plantilla direccional la cual produce a la sum_min implica que el pixel central está colocado en una línea de texto y una dirección de pixel central es representada por esa plantilla direccional . Por la misma razón, la dirección indicada por la plantilla direccional la cual produce a la sum_max implica que el pixel central no está colocado sobre una línea de texto y una dirección de pixel central es representada por esa plantilla direccional. De esto, la dirección de cada pixel puede ser determinada . En una modalidad, la dirección de un pixel se establece comparando el valor de grises del pixel (ij) (gray_value (i , j ) ) como sigue: Si 9*gray_value (i,j) + sum_max + sum-min > 3*sum_avg, que la dirección en el pixel se fija a la dirección de la plantilla direccional 9x9 la cual dio sum_max, de lo contrario, la dirección del pixel se fija a la dirección de la plantilla direccional 9x9 que dio sum_min. La dirección estimada en cada pixel forma una matriz de dirección. Sin embargo, debido a la complejidad de caracteres en la imagen de libro, las direcciones de algunos pixeles no pueden ser corregidas. Por ejemplo, la dirección de un bloque blanco es inservible para las líneas de texto reveladoras. Por lo tanto, en una modalidad, un algoritmo de suavizado se utiliza para establecer la dirección de cada pixel en la misma línea vertical para tener la misma dirección. Esto puede ser hecho realizando un proceso de votación, que significa que la dirección más común entre los pixeles en cualquier línea vertical debe convertirse en la dirección de cada pixel en la misma línea vertical. En el paso 8 de la Figura 16, se realiza un proceso para realizar la matriz de dirección con base en la mejora. Las Figuras 28 A y 28 B son útiles para ilustrar una modalidad de la matriz de dirección con base en el paso de mejoramiento 8 de la Figura 16. La Figura 28A representa una imagen de texto. La Figura 28B representa la matriz de dirección generada de la imagen mostrada en la Figura 28A que sigue realizando la matriz de dirección con base en los pasos de mejoramiento de la Figura 16. Conociendo la dirección de cada pixel, los espacios 480 entre los caracteres que pertenecen a la misma línea de texto pueden ser eliminados. Esto se puede lograr haciendo un promedio del valor de grises de cada pixel con sus pixeles vecinos y utilizar el valor de grises promediado para representar el pixel. Entonces, el valor de grises se establece a ya sea un 0 o 255 dependiendo del valor umbral. En una modalidad, los valores de grises se promedian con ocho pixeles más cercanos a este. Después de este proceso, la mayoría de los espacios entre los caracteres vecinos se llenan y se generan los esqueletos de las líneas de texto 482 , de este modo resultando la imagen mejorada mostrada en la Figura 28B . Con referencia nuevamente a la Figura 15, el paso de extracción de la línea de texto 3 ahora se utiliza para estimar la curva de esqueleto para cada línea de texto revelada en el paso anterior. Con referencia a la Figura 29 A, las líneas de texto 490 reveladas en el paso anterior son demasiado gruesas para extraer. Por lo tanto, un proceso de adelgazamiento se realiza preferiblemente en las líneas de texto 490 para generar las líneas de texto mejoradas 492 mostradas en la Figura 29B . El proceso de adelgazamiento se realiza para hacer la altura de cada línea de texto mejorada 492 para ser el tamaño de un pixel . Esto puede ser lograr escaneando verticalmente en dirección al pixel en los esqueletos de las líneas 490 del texto en la Figura 29A. Por ejemplo, cuando se encuentra un pixel oscuro, su coordenada-y puede ser registrada como y_start. Entonces los pixeles debajo de esta son escaneados uno por uno hasta que se encuentra un pixel blanco. Un y_end puede ser registrado para el pixel justo sobre el pixel blanco. Por lo tanto, la coordenada-y para la línea de adelgazamiento extraída puede ser establecida como (y_start + y_end) 12. El resultado de este proceso de adelgazamiento es líneas de texto mejoradas 492 de acuerdo a lo mostrado en la Figura 29B. Un proceso de trazado de línea de texto que incluye los siguientes sub-pasos entonces preferiblemente es realizado para completar el paso 3. La Figura 30 representa esqueletos de las líneas de texto adelgazadas 492 con una banda de detección vertical 492 que puede ser utilizada para realizar el proceso de trazado de la línea de texto. En una modalidad, cada línea de texto adelgazada 492 se detecta estableciendo una banda de detección vertical 642. en el centro de la página. Esto detectará la mayor parte de las líneas de texto largas 646. Detectando si los valores de gris en los pixeles en la banda de detección son negros, el punto medio de cada línea de texto puede ser recogido. Después de conseguir cada punto medio de las líneas de texto, cada línea de texto del punto medio se traza en ambas direcciones izquierdas y derechas. Para trazar una línea de texto en la dirección izquierda, una línea de trazo de la pendiente K (a partir de 0) para trazar 0 hasta 12 pixeles a la izquierda. Si hay un pixel negro dentro de 3 pixeles arriba o abajo de esta línea de trazo, este punto es considerado como un punto de la línea de texto. Este punto es registrado y se determina el punto siguiente en la línea. Cuando se encuentra el nuevo punto, se calcula una nueva inclinación para el propósito de continuar el proceso de trazado. Una nueva inclinación K puede ser decidido por la ecuación de K = 10*K_previous /ll + 10* (y_new - y_previous/ (x_new x_previous) , cuando _previous y y_previous son la coordenada x y y del punto recogido previamente en una línea de texto y x_new y y_new son la coordenada x y y del punto recogido actualmente en una línea de texto. Este proceso puede ajustar la dirección de trazar y ajustará las variedades de la distorsión de las líneas de texto. El proceso se repite hasta encontrarse con el borde de la línea de texto o pasar fuera de los puntos . Mientras que el proceso anterior es para trazar la parte izquierda de una línea de texto, el trazo para la parte derecha es simétrico. Si todavía hay algunas líneas de texto no continuas después de este proceso, un algoritmo de recopilación auto adaptativo puede ser utilizado para trazar cada línea de texto. El Paso 4 en la Figura 15 comprende el paso de selección de líneas de texto y el cálculo de un polinomio para generar la red de coordenadas curvas 132. Las Figuras 31A y 31B son útiles para ilustrar un método para realizar este paso. La Figura 31A representa una imagen de línea de texto y la Figura 31B representa una imagen de línea de texto con una línea de texto extraída revistiéndola. En el paso 4, se eliminan las líneas de texto 650 que son más cortas que una cantidad predefinida de las líneas de texto más largas 644, 648. Preferiblemente se eliminan aquellas que son menos de la mitad de la longitud de las líneas más largas 644, 648. Además, también se eliminan preferiblemente las lineas 656 con sangría izquierda. Se seleccionan dos de las líneas restantes más largas 644 , 648 . En una modalidad, se utilizan dos de las líneas más separadas. Los puntos finales 632 , 634 , 636 , 638 de estas dos líneas 644 , 648 determinan los dos bordes de texto en el lado izquierdo 652 y el lado derecho 654 del documento digitalizado . La línea de borde izquierdo 652 y la línea de borde derecho 654 deben intersecarse en un punto que se desvanece que está fuera de la figura y no se muestra. Finalmente, una función polinomial puede ser utilizada para modelar las líneas de texto seleccionadas 644 , 648 . En una modalidad, la función polinomial se establece al quinto orden.

Una vez que se obtiene la función polinomial para estas líneas de texto, la red de coordenadas curvas 132 puede ser generada para realizar el proceso de ajuste de distorsión de la Figura 14 . En una modalidad, una vez que es obtenida la función polinomial para estas líneas de texto, se realiza un proceso de extensión de línea para extender las líneas de texto seleccionadas 644 , 648 a su izquierda y derecha para guardar un margen en cada lado del área de texto. El grado de extensión puede ser expresado como una fórmula con base en la anchura del área de texto. Las líneas extendidas también pueden ser ajustadas en la función polinomial obtenida previamente. Los dos extremos derechos de las líneas extendidas definen una línea que debe pasar el punto de desvanecimiento y los dos extremos izquierdos de las líneas extendidas también definen una línea que también debe pasar el punto de desvanecimiento. Una vez que se obtienen las líneas extendidas, la red de coordenadas curvas 132 puede ser generada para realizar el proceso de ajuste de distorsión de la Figura 14. Otro método preferido para generar la red de coordenadas curvas 132 ahora se describe con respecto la Figura 17. El método de la Figura 17 puede extraer las esquinas y lo más importante, las funciones de los bordes superiores e inferiores curvados de una superficie de página curvada de un libro. Con referencia a la Figura 17, las seis esquinas 21-26 de las páginas de un libro digitalizado pueden ser calculadas encontrando los puntos que se intersecan de las líneas del borde 19, 20, 27-30. Observar que en la Figura 17, los bordes superiores 27, 28 son líneas curvadas y lo mismo son los bordes inferiores 29, 30. Dos bordes laterales 19, 20 son líneas rectas. En una modalidad, el cálculo de las seis esquinas 21-26 y las líneas de borde 19, 20, 27-30 se determina de acuerdo a lo descrito más adelante y se ilustra en las figuras 32 y 33. Primero, la resolución de la imagen original es reducida, preferiblemente a 100x100 y después convertida en una imagen blanco y negro 676 usando un umbral de nivel de grises. El área gris 660 representa el fondo y el área blanca 674 representa un área de página. En segundo lugar, se encuentran las orillas 670-673 del área blanca y los vértices 662, 664, 666, 668 de las cuatro orillas 670-673 especificadas. Tercero, la orilla superior 672 y la orilla inferior 670 se utilizan como pautas para abrir una serie de ventanas pequeñas a lo largo de la orilla superior 672 y orilla inferior 670. Cuarto, una detección de borde de Canny se realiza en las ventanas pequeñas y el resultado de la detección se combina dentro de dos imágenes curvadas, una para el borde superior 684 y una para el borde inferior 682. Estas dos imágenes curvadas 684, 682 deseablemente tienen una anchura igual que la anchura de la ventana pequeña mencionada arriba. Quinto, los bordes de las imágenes son trazados para tener bordes curvados superiores 686, 687 y bordes curvados inferiores 688, 689. Con referencia nuevamente a la Figura 17, los bordes curvados superiores son 27, 28 y los bordes curvados inferiores son 29, 30. Los puntos finales del borde curvado superior y del borde curvado inferior definen las cuatro esquinas 21-24. Conectar las dos esquinas derechas 22, 24 producirá un borde derecho 19 del libro y conectar las dos esquinas izquierdas 21, 23 producirán un borde izquierdo 20 del libro. El punto de curvatura máxima 25, 26 en cada uno del borde curvado superior 27, 28 y borde curvado inferior 29, 30 se convierte en las dos otras esquinas 25, 26 y una conexión entre estas dos esquinas 25, 26 comprende la espina del libro y eje-y en la red de coordenadas curvas 132. Las proyecciones del borde derecho 19 y del borde izquierdo 20 se pueden utilizar para encontrar el punto de desvanecimiento y por lo tanto generar la red de coordenadas curvas 132. Los acercamientos descritos aquí para procesar una imagen capturada son aplicables para cualquier tipo de aplicación de procesamiento y (sin limitación) son particularmente bien apropiados para las aplicaciones computarizadas para procesar imágenes capturadas. Los acercamientos descritos aquí pueden ser implementados en circuitos de equipo físico, en programas informáticos de computadora, o una combinación de circuitos de equipo físico y programas informáticos de computadora y no se limitan a una implementación de equipo físico y programas informáticos particulares. La Figura 13 es un diagrama de bloque que ilustra un sistema computacional 1300 sobre el cual las modalidades descritas anteriormente de la invención pueden ser implementadas . El sistema computacional 1300 incluye un bus 1345 u otro mecanismo de comunicación para comunicar información, y un procesador 1335 acoplado con el bus 1345 para procesar la información. El sistema computacional 1300 también incluye una memoria principal 1320, tal como la memoria de acceso aleatorio (RAM) u otro dispositivo de almacenamiento dinámico, acoplado al bus 1345 para almacenar la información e instrucciones para ser ejecutadas por el procesador 1335. La memoria principal 1320 también puede ser utilizada para almacenar las variables temporales u otra información intermedia durante la ejecución de las instrucciones a ser ejecutadas por el procesador 1335. El sistema computacional 1300 incluye además una memoria de solo lectura (ROM) u otro dispositivo de almacenamiento estático acoplado al bus 1345 para almacenar información estática e instrucciones para el procesador 1335. Un dispositivo de almacenamiento 1330, tal como un disco magnético o disco óptico, se proporciona y se acopla al bus 1345 para almacenar la información e instrucciones. El sistema computacional 1300 puede ser acoplado vía el bus 1345 a una pantalla 1305, tal como un tubo de rayos catódicos (CRT, por sus siglas en inglés), para mostrar información a un usuario de computadora. Un dispositivo de entrada 1310, incluyendo teclas alfanuméricas y otras, se acopla al bus 1345 para comunicar información y selecciones de comandos al procesador 1335. Otro tipo de dispositivo de entrada de usuario es el control de cursor 1315, tal como un ratón, una bola de rastreo, o teclas de dirección de cursor para la comunicación de información de dirección y selecciones de comando al procesador 1335 y para controlar el movimiento del cursor de la pantalla 1305. Este dispositivo de entrada tiene típicamente dos grados de libertad en dos ejes, un primer eje (por ejemplo x) y un segundo eje (por ejemplo y) , que permite que el dispositivo especifique posiciones en un plano . Los métodos descritos aquí se relacionan con el uso del sistema computacional 1300 para procesar una imagen capturada. De conformidad con una modalidad, el proceso de la imagen capturada es proporcionado por el sistema computacional 1300 en respuesta al procesador 1335 que ejecuta una o más secuencias de una o más instrucciones contenidas en la memoria principal 1320. Tales instrucciones pueden ser leídas en la memoria central 1320 desde otro medio legible por computadora, tal como un dispositivo de almacenamiento 1330. La ejecución de las secuencias de las instrucciones contenidas en la memoria principal 1320 produce que el procesador 1335 realice los pasos del proceso descrito aquí . Uno o más procesadores en un arreglo de procesamiento múltiple también puede ser empleado para ejecutar las secuencias de instrucciones contenidas en la memoria principal 1320. En modalidades alternativas, el circuito de cable se puede utilizar en lugar de o en combinación con la instrucciones del programa computacional para implementar las modalidades descritas aquí. Así, las modalidades descritas aquí no se limitan a ninguna combinación específica del circuito de equipo físico y programas informáticos. El término "medio legible por computadora" de acuerdo a como se utiliza aquí se refiere a cualquier medio que participa en proporcionar instrucciones al procesador 1335 para ejecución. Tal medio puede tomar muchas formas, incluyendo, pero limitado a, medios no volátiles, medios volátiles, y medios de transmisión. Los medios no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, tales como el dispositivo de almacenamiento 1330. Los medios volátiles incluyen memoria dinámica, tal como memoria central 1320. Los medios de transmisión incluyen cables coaxiales, alambre de cobre y fibra óptica, incluyendo los alambres que comprenden el bus 1345. Los medios de transmisión también pueden tomar la forma de ondas acústicas o de luz, tales como aquellas generadas durante la onda de radio y comunicaciones de datos infrarrojos . Las formas comunes de medios legibles por computadora incluyen, por ejemplo, un disquete, un disco flexible, disco duro, cinta magnética, o cualquier otro medio magnético, un CD-ROM, cualquier otro medio óptico, tarjetas perforadas, cinta de papel, cualquier otro medio físico con patrones de orificios, una RAM, una PROM, y EPROM, un FLASH-EPROM, cualquier otro chip o cartucho de memoria, un portador de onda de acuerdo a lo descrito más adelante, o cualquier otro medio en el cual una computadora pueda leer. Las diferentes formas de medios legibles por computadora pueden estar involucradas en llevar una o más secuencias de una o más instrucciones al procesador 1335 para la ejecución.

Por ejemplo, las instrucciones inicialmente pueden ser llevadas en un disco magnético de una computadora a distancia. La computadora a distancia puede cargar las instrucciones en su memoria dinámica y enviar las instrucciones en una línea telefónica usando un módem. Un módem local para el sistema computacional 1300 puede recibir los datos en la línea telefónica y utilizar un transmisor infrarrojo para convertir los datos a una señal infrarroja. Un detector infrarrojo acoplado al bus 1345 puede recibir datos portados en la señal infrarroja y coloca los datos en el bus 1345. El bus 1345 transporta los datos a la memoria principal 1320, de los cuales el procesador 1335 recupera y ejecuta las instrucciones . Las instrucciones recibidas por la memoria principal 1320 pueden ser almacenadas opcionalmente en el dispositivo de almacenamiento 1330 ya sea antes o después de la ejecución mediante el procesador 1335. El sistema computacional 1300 también incluye una interfaz de comunicación 1340 acoplado al bus 1345. La interfaz de comunicación 1340 proporciona una comunicación de datos de dos vías que se acopla a una conexión de red 1375 que está conectada con una red local 1355. Por ejemplo, la interfaz de comunicación 1340 puede ser una tarjeta o módem de red digital de servicios integrados (ISDN, por sus siglas en inglés) para proporcionar una comunicación de datos a un tipo correspondiente de líneas telefónicas. Como otro ejemplo, la interfaz de comunicación 1340 puede ser una tarjeta de red de área local (LAN, por sus siglas en inglés) para proporcionar una conexión de comunicación de datos a un LAN compatible. Las conexiones inalámbricas también pueden ser implementadas . En cualquier implementación, la interfaz de comunicación 1340 envía y recibe las señales eléctricas, electromagnéticas u ópticas que llevan las cadenas de datos digitales que representan varios tipos de información. La conexión de red 1375 proporciona típicamente la comunicación de datos a través de una o más redes a otros servicios de datos. Por ejemplo, la conexión de red 1375 puede proporcionar una conexión a través de la red local 1355 a una computadora huésped 1350 o al equipo de datos operados por un Proveedor de Servicios de Internet (ISP) 1365. El ISP 1365 a su vez proporciona servicios de comunicación de datos a través de la red de comunicaciones mundial de datos empaquetados designada comúnmente como "Internet" 1360. La red local 1355 e Internet 1360 ambos utilizan señales eléctricas, electromagnéticas u ópticas que transportan secuencias de datos digitales. La señal a través de las diferentes redes y las señales en la conexión de red 1375 y a través del interfaz de comunicación 1340, que porta los datos digitales a y desde el sistema computacional 1300, son formas ejemplares de ondas portadoras que transportan la información. El sistema computacional 1300 puede enviar mensajes y recibir datos, incluyendo código del programa, a través de la rede(s), conexión de red 1375 e interfaz de comunicación 1340. En el ejemplo de Internet, un servidor 1370 pudo transmitir el código requerido para un programa de aplicación a través del Internet 1360, ISP 1365, la red local 1355 y la comunicación interconectada 1340. De conformidad con la invención, tal aplicación de descargada se proporciona para procesar imágenes capturadas como las descritas aquí . El código recibido puede ser ejecutado por el procesador 1335 como se recibe, y/o se almacena en el dispositivo de almacenamiento 1330, u otro almacenamiento no volátil para ejecutar después. De este modo, el sistema computacional 1300 puede obtener un código de aplicación en la forma de onda portadora . Se hace constar que con relación a esta fecha, el mejor método conocido por el solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES
Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un método para procesar una imagen capturada que comprende un documento digitalizado; caracterizado porque comprende : detectar información gráfica en la imagen capturada que relaciona a la transición entre el documento digitalizado y el resto de la imagen capturada; seleccionar una o más lineas de la información gráfica que corresponde a los bordes del documento digitalizado; calcular las esquinas del documento digitalizado con base en la intersección de una o más líneas que corresponden a los bordes del documento digitalizado; aislar el documento digitalizado del fondo de la imagen capturada con base en las una o más líneas que corresponden a los bordes del documento digitalizado, establecer una red de coordenadas curvas para el documento digitalizado; extender la red de coordenadas curvas a una red de coordenadas rectangulares; y ajusfar la red de coordenadas rectangulares a una red de coordenadas rectangulares bien-proporcionadas. 2. El método de conformidad con la reivindicación 1, caracterizado porque además comprende los pasos de: mapear coordenadas de pixeles del documento digitalizado a las coordenadas que corresponden a una perspectiva no deformada del documento digitalizado con base en una desviación calculada.
3. El método de conformidad con la reivindicación 2, caracterizado porque además comprende los pasos de: rotar el documento digitalizado no deformado de conformidad con una determinación de formato del documento digitalizado no deformado.
4. El método de conformidad con la reivindicación 1, caracterizado porque la red de coordenadas curvas define coordenadas para cada pixel que forma el documento digitalizado .
5. El método de conformidad con la reivindicación 4, caracterizado porque además comprende los pasos de: mapear coordenadas de pixeles del documento digitalizado a coordenadas que corresponden a una perspectiva no deformada del documento digitalizado con base en la desviación calculada.
6. El método de conformidad con la reivindicación 5, caracterizado porque además comprende los pasos de: rotar el documento digitalizado no deformado de conformidad con la determinación de formato de documento digitalizado no deformado.
7. Un sistema para procesar una imagen digitalizada, la imagen capturada comprende un documento digitalizado, caracterizado porque comprende: un medio para seleccionar una o más líneas de la información gráfica que corresponde a los bordes del documento digitalizado; un medio para calcular las esquinas del documento digitalizado con base en la intersección de una o más líneas que corresponden a los bordes del documento digitalizado; un medio para aislar el documento digitalizado del fondo de la imagen capturada con base en una o más líneas que corresponden a los bordes del documento digitalizado; un medio para establecer una red de coordenadas curvas para el documento digitalizado; un medio para estirar la red curvada a una red de coordenadas rectangulares; y un medio para ajustar la red de coordenadas rectangulares para una red de coordenadas bien proporcionadas .
8. Un sistema computacional para procesar una imagen capturada, el sistema computacional transporta una o más secuencias de una o más instrucciones caracterizado porque cuando es ejecutado por uno o más procesadores, provoca que el uno o más procesadores ejecuten los pasos implementados-computacionales de: detectar información gráfica en la imagen capturada que relaciona a la transición entre el documento digitalizado y el resto de la imagen capturada; seleccionar una o más lineas de la información gráfica que corresponde a los bordes del documento digitalizado; calcular las esquinas del documento digitalizado con base en la intersección de una o más lineas que corresponden a los bordes del documento digitalizado; aislar el documento digitalizado del fondo de la imagen capturada con base en las una o más líneas que corresponden a los bordes del documento digitalizado, establecer una red de coordenadas curvas para el documento digitalizado; extender la red de coordenadas curvas a una red de coordenadas rectangulares ; y ajustar la red de coordenadas rectangulares a una red de coordenadas rectangulares bien-proporcionadas.
9. El sistema computacional de conformidad con la reivindicación 8, caracterizado porque la una o más secuencias de una o más instrucciones además provoca que el uno o más procesadores ejecuten los pasos implementados-computacionales de: mapear las coordenadas de pixeles del documento digitalizado a las coordenadas que corresponden a una perspectiva no deformada del documento digitalizado con base en la desviación calculada.
10. El sistema computacional de conformidad con la reivindicación 9, caracterizado porque una o más secuencias de una o más instrucciones además provocan que el uno o más procesadores ejecuten los pasos implementados-computacionales de: rotar el documento digitalizado no deformado de conformidad con la determinación de formato del documento digitalizado no deformado.
11. Un método para procesar una imagen capturada que comprende un documento digitalizado; caracterizado porque comprende: aislar el documento digitalizado del fondo de la imagen capturada con base en una o más líneas que corresponden a los bordes del documento digitalizado; establecer una red de coordenadas curvas para el documento digitalizado; calcular la desviación entre la red de coordenadas curvas y una red de coordenadas rectangulares; y ajustar la red de coordenadas rectangulares a una red de coordenadas rectangulares bien proporcionadas .
12. El método de conformidad con la reivindicación 11, caracterizado porque además comprende los pasos de: mapear las coordenadas de pixeles del documento digitalizado a coordenadas que corresponden a una perspectiva no deformada del documento digitalizado con base en la desviación calculada.
13. El método de conformidad con la reivindicación 11, caracterizado porque la red de coordenadas curvas define las coordenadas para cada pixel que forma el documento digitalizado .