MX2008010554A

MX2008010554A - Metodo y sistema para la verificacion de palabras reconocidas de manera incierta en un sistema ocr.

Info

Publication number: MX2008010554A
Application number: MX2008010554A
Authority: MX
Inventors: Hans Christian Meyer; Mats Stefan Carlin; Knut Tharald Fosseide
Original assignee: Lumex As
Priority date: 2006-02-17
Filing date: 2007-02-15
Publication date: 2008-10-29
Also published as: IL193223A; WO2007094684A2; RU2008137125A; RU2417435C2; CA2642217C; IL193223A0; AU2007215636B2; US20090067756A1; CN101443787B; CN101443787A; EP1987471A2; ZA200806779B; BRPI0707800A2; US8315484B2; CA2642217A1; WO2007094684A3; AU2007215636A1

Abstract

La presente invención proporciona un método y sistema para confirmar palabras reconocidas de manera incierta como las reportadas por un proceso de Reconocimiento de Caracteres Ópticos usando alternativas de ortografía como argumentos de búsqueda como un motor o máquina de búsqueda en la Internet. El número medido de aciertos para cada alternativa de ortografía es usado para proporcionar una medida de confirmación para la alternativa de ortografía más probable. Cuando la medida de confirmación no es concluyente, se usa una pluralidad de estrategias de búsqueda para lograr un resultado medido que comprenda cero aciertos, excepto por una alternativa de ortografía que sea usada como la alternativa correcta.

Description

METCDO Y SISTEMA, PARA LA VERIFICACION DE PALABRAS RECONOCIDAS DE MANERA INCIERTA EN UN SISTEMA OCR CAMPO DE LA INVENCION La presente invención se relaciona de manera general con sistemas de reconocimiento de caracteres ópticos (OCR) y especialmente con un método para la verificación automática de la versión más probable de palabras reconocidas de manera incierta de acuerdo a lo reportado por un proceso de reconocimiento.

ANTECEDENTES DE LA INVENCION Existen muchas propuestas en la técnica anterior para proporcionar el reconocimiento de caracteres ópticos sobre la base de imágenes de texto. Los sistemas de Reconocimiento' de Caracteres Opticos implican un (OCR) trabajan bien con documentos de papel de alta calidad explorados pero típicamente fallan en exploraciones de baja calidad o caracteres alfanuméricos extraños. También existen algunas veces errores de ortografía en los documentos capturados por (OCR) componentes de sistema. Para poder publicar nuevamente los documentos, para poder buscar los documentos electrónicamente (registros médicos por ejemplo, búsqueda de palabras clave, etc., catálogos electrónicos, bases de datos con documentos e información histórica) , la conversión de imágenes de texto a la forma ejecutable en computadora (conversión del texto a texto codificado ASCII) deben proporcionarse medios que trabajen con documentos en una forma muy cara, como es sabido por un experto en la técnica. Por lo tanto, existe la necesidad de una mejor calidad en el resultado de los componentes del sistema OCR para poder utilizar completamente todas las posibilidades con el manejo de documentos electrónicos. La introducción de la Internet también ha sido un factor que incrementa la demanda de una mayor calidad del proceso OCR como tal. Las imágenes de texto almacenadas en computadora en formato PDF por ejemplo pueden ser buscadas por buscadores de la Internet. Sin embargo, el texto comprendido en los archivos puede ser convertido a formato digital legible por computadora para poder ser buscado. Los sistemas de programa y sistemas de programación o software de reconocimiento de caracteres ópticos (OCR) pueden ser diseñados para adaptarse a la calidad del texto y los caracteres alfanuméricos explorado real. El OCR adaptable se limita a aquellos caracteres que se saben son casos de reconocimiento de caracteres robusto, estadísticas conocidas y/o se encuentran en listas de palabras o diccionarios. Algunos de los caracteres que siguen siendo inciertos después de un proceso de reconocimiento serán caracteres que raramente ocurran, o que son fácilmente confundidos con otros caracteres en el proceso de reconocimiento que proporciona un conjunto de caracteres interpretativos del carácter. Esos caracteres pueden no ser reconocidas (o verificados) dentro de las estructuras de la técnica anterior existentes para OCR. Por ejemplo, muchos de esos caracteres no pueden pertenecer a palabras en un diccionario especifico del lenguaje puesto que pueden ser nombres propios, palabras o expresiones extranjeras, o- simplemente ser de otro lenguaje. La salida del sistema OCR es general es una secuencia de caracteres que representa el texto como un texto digital. La información acerca del carácter alfanumérico, tamaño y posición también puede ser incluida para poder recrear el estilo del documento original, por ejemplo cuando se publique nuevamente el documento. Además, la mayoría de los sistemas de programación o software OCR usan una probabilidad o- valor de puntaje de carácter individual para identificar caracteres o palabras reconocidas de manera incierta, y un verificador de ortografía que proporciona palabras alternativas para esas palabras reconocidas de manera incierta. En la técnica anterior existen algunos ejemplos de uso de la Internet como una fuente para documentos de información acerca de objetos etc. para establecer un método para corregir errores en documentos procesados por el OCR.

El Articulo "Using the Web to Obtain Frecuencies for Unseen Bigrams por Frank Keller y Mirella Lapta, 2003 Association for Computacional Linguistics" comprende una investigación y un método para superar la dispersión de datos para palabras difíciles en un proceso OCR. Una de las cuestiones discutidas en este artículo es si las frecuencias en la red son adecuadas para el modelaje probabilí stico . El artículo "Text Correction Using Domain Dependent Bigram Models from Web Crawls" de Christoffer Ringsletter et . al., AND 2007, describe como pueden ser usadas las frecuencias en la red como un valor de puntaje para modificar una clasificación existente de candidatas en una estrategia de corrección existente. Los ejemplos descritos en el artículo la red es usada como un diccionario como es sabido por un experto en la técnica. El artículo "Precise and Efficient Text Correction using Levenshtein Autómata, Dynamic Web Dictionaries and Optimized Correction Models" por Stoyan Mihov et. al., Bulgarian Academy of Sciences, 2004, describe un método para construir un diccionario local relacionado con el tema del documento bajo procesamiento OCR a partir de buscadores de la red. La conclusión es que todos los diccionarios locales pequeños proporcionan el mejor resultado.

Ninguno de los documentos citados en la técnica anterior proporciona un método completo mejorado para corregir las salidas del OCR. Por lo tanto existe la necesidad de una mejor funcionalidad OCR que proporcione la confirmación de la versión más probable de palabras reconocidas de manera incierta en sistemas OCR.

SUMARIO DE LA INVENCION De acuerdo a un aspecto de la presente invención, los motores de búsqueda de la Internet pueden proporcionar la confirmación justamente midiendo el número de aciertos medidos usando una palabra incierta como un argumento de búsqueda en un motor de búsqueda de Internet. De acuerdo a éste aspecto de la presente invención, los argumentos de búsqueda que proporciona cero aciertos son considerados como cierta confirmación de que la palabra reconocida de manera incierta no es la versión particular de la palabra bajo investigación. Si el número medido de aciertos para una palabra incierta es muy alto es ciertamente posible que esta sea una versión correcta. Sin embargo, de acuerdo a un aspecto mas de la presente invención, las búsquedas deberán ser efectuadas con palabras y/o combinaciones de palabras alternativas, de modo que el número de aciertos medidos sea cero para todas las palabras y/o combinaciones excepto para una palabra y/o una combinación. Entonces la versión más probable de las palabras reconocidas de manera incierta es esta palabra particular identificada en esta serie de mediciones con una medición que es diferente de cero. De acuerdo a un aspecto de la presente invención, esos pasos del método pueden ser implementados en un programa en una computadora interconectada que se comunique con la Internet a través de una interfaz de Programa de Aplicación (API) que se comunique con sitios de la Internet . De acuerdo a este aspecto de la presente invención, el programa implementado recibe una entrada acerca de palabras reconocidas de manera incierta de un programa OCR, efectúa búsquedas a través de la API por ejemplo, y entonces mide el número ciertos reportados por el buscador a- través de la API. La medición para las diferentes alternativas ortográficas es entonces usada para evaluar la palabra más probable o es usada para iniciar mediciones adicionales de alternativas ortográficas, usando una sola palabra, una combinación de palabras múltiples, frases y/o en combinación con tarjetas como argumentos de búsqueda adicionales que son medidos. De acuerdo a un ejemplo de la modalidad de la presente invención, es posible establecer una medida de confirmación para palabras reconocidas de manera incierta. En un ejemplo de modalidad donde son efectuadas búsquedas en la Internet de acuerdo a la presente invención, el número de aciertos medidos es totalmente renormalizado de modo que el número relativo de aciertos pueda ser comparado. En modalidades alternativas de la presente invención, se proporcionan mediciones y niveles de umbral mas elaborados usados para aceptar o rechazar alternativas ortográficas. La medición de confirmación basada en esos números relativos también puede ser comparada con un umbral de confirmación más alto y con un umbral de confirmación mas bajo. De acuerdo a este ejemplo de modalidad, cuando una medición de confirmación para una palabra reconocida de manera incierta se encuentra por encima del umbral de confirmación mas alto, se considera como identificada con certidumbre. Si la medida de confirmación es inferior al umbral de confirmación es inferior, al umbral de confirmación más bajo, se considera con certidumbre que ésta no es una versión particular de la palabra. Si la medida de confirmación cae entre el umbral de confirmación más alto y más bajo, es necesaria una investigación adicional de la palabra reconocida de manera incierta efectuando búsquedas y mediciones adicionales. De acuerdo a oto aspecto de la presente invención, pueden ser usada varias estrategias para proporcionar alternativas de palabra para la palabra reconocida de manera incierta, por ejemplo, sobre la base de alternativas para un carácter reconocido de manera incierta reportado por una función OCR, estadísticas de letra, etc., y combinando la palabra bajo investigación con otras palabras reconocidas con certidumbre en el texto como argumentos de búsqueda. De acuerdo a un ejemplo de modalidad de la presente invención, esas palabras y/o combinaciones de palabras alternativas son investigadas estableciendo una medida de confirmación de acuerdo a la presente invención para todos los resultados de búsqueda reportados y entonces usa esta medida como se explicó anteriormente, y se repiten búsquedas con argumentos de búsqueda alternativos hasta que se logra una respuesta de la versión más probable de la palabra bajo investigación (todas cero excepto una) . De acuerdo a otro ejemplo de modalidad de la presente invención, el umbral de confirmación más alto y el umbral de confirmación mas bajo pueden ser ajustados de manera cooperativa o independiente entre si para proporcionar una afinación del criterio para categorizar la palabra, reconocida de manera incierta bajo investigación De acuerdo a una modalidad de la presente invención, una función OCR reporta una lista de caracteres reconocidos de manera incierta y las palabras en las cuales los caracteres reconocidos de manera incierta se encontraron. Además, las alternativas que son posibles para cada versión posible de los caracteres también son reportadas. Sobre la base de esos caracteres alternativos, .se crean varias palabras candidatas como la versión correcta posible de la palabra, donde cada palabra candidata comprende uno de los caracteres alternativos, respectivamente. De acuerdo a un aspecto de la presente invención, la identificación de la palabra candidata correcta mas probable puede ser lograda usando cada palabra candidata como un argumento de búsqueda en el motor de búsqueda de la Internet (usando una API, por ejemplo), y el número medido de aciertos de cada palabra forma la base para decidir la versión mas probable de la palabra. De acuerdo a otro ejemplo de la modalidad de la presente invención, la medida de confirmación es basada anteriormente es usada en el proceso de decisión. De acuerdo a otro ejemplo de modalidad de la presente invención, cuando la medición de aciertos proporciona una estimación entre candidatas, por ejemplo número de aciertos entre dos candidatas, las palabras candidatas son combinadas primero con la palabra previa relacionada con la palabra incierta bajo investigación, y entonces las palabras combinadas son usadas como argumento de búsqueda en la Internet, en segundo lugar al menos una palabra sucesiva relacionada con la palabra bajo investigación sobre la misma linea de texto es usada en una forma similar. Además, una combinación de al menos una palabra previa, la palabra bajo investigación y al menos una palabra sucesiva es también usada como un argumento de búsqueda. El número de aciertos de cada combinación es usado en un proceso de confirmación para decidir la versión más probable de las palabras. De acuerdo a otro ejemplo más de modalidad de la presente invención, cuando las combinaciones de palabras proporcionan una respuesta inconcluyente , la palabra bajo investigación es combinada con una palabra previa además de la palabra bajo investigación. De acuerdo al presente ejemplo de modalidad, la gama de palabras que pueden ser seleccionadas como una combinación puede limitarse a una ubicación a una distancia predeterminada, por ejemplo de 5 palabras de la palabra bajo investigación. En una forma similar, los mismos pasos son efectuados con palabras posteriores, por ejemplo, limitadas a la quinta palabra sucesiva. Sin embargo, puede ser usada cualquier distancia de la palabra bajo investigación, la cual es una característica de diseño de la presente invención. De acuerdo a otra característica de diseño de la presente invención, la ubicación desde donde es calculada la distancia deberá necesariamente ser la palabra bajo investigación en sí, siendo que la distancia puede relacionarse con un área cercana a la palabra bajo investigación, por ejemplo. Los aciertos medidos resultantes de esas búsquedas son entonces usados como una base para decidir la versión más probable de la palabra. De acuerdo a otro ejemplo más de modalidad de la presente invención, las palabras precedentes y las palabras posteriores que sean detectadas a ser combinadas con la palabra bajo investigación únicamente se basan en la ubicación con relación a la palabra bajo investigación, sino también en el número de caracteres que comprende la palabra. De acuerdo a un aspecto de la invención, las palabras largas (por ejemplo de mas 8 caracteres de longitud, pero puede ser usada cualquier longitud y puede ser predefinida o seleccionable por el usuario) , son preferidas como un calificador de las palabras bajo investigación, como se describió anteriormente. De acuerdo a otro ejemplo más de modalidad de la presente invención, al menos una palabra precedente y al menos una palabra posterior relacionadas con la palabra bajo investigación son seleccionadas sobre la base de la frecuencia de ocurrencia en un lenguaje especifico. Las palabras frecuentes son usualmente "palabras pequeñas" como "y", "la", "en", "de", etc., y puede comprenderse fácilmente que no contribuyen al proceso de verificación. Por lo tanto es preferible usar palabras precedentes o posteriores con baja frecuencia de ocurrencia. En un ¦ejemplo de modalidad de la presente invención, el número de ocurrencias de una palabra particular se reporta de la función del OCR, y un proceso de acuerdo a la presente invención verifica este número contra un umbral. El número reportado de ocurrencia y el umbral puede ser renormalizado como es sabido para un experto en la técnica para proporcionar una medida relativa de ocurrencia. Sin embargo, palabras con altas frecuencias en el documento, pero que proporcionan bajos porcentajes medidos en búsquedas en la Internet, son buenas candidatas para usarse en combinación con búsquedas con alternativas ortográficas para la palabra bajo investigación. De acuerdo a otro ejemplo más de modalidad de la presente invención, los nombres propios pueden ser reconocidos como tales sobre una base de combinación de varios nombres propios identificados en el texto. De •acuerdo a este ejemplo de modalidad de la presente invención, todas las palabras que comienzan con letra mayúscula son -tratadas como un nombre propio en tanto en carácter precedente no sea una marca de puntuación que finalice en una frase, como ".!?:". Combinando al menos dos nombre propios encontrados en el texto, el proceso de confirmación puede regresar una respuesta correcta. De acuerdo a este ejemplo de modalidad de la presente •invención, la función OCR reporta todas las candidatas posibles de ser nombres propios al proceso de confirmación cuando se efectúa el proceso de reconocimiento. De acuerdo a otro aspecto más de la presente invención, los sistemas OCR son usados con frecuencia en un contexto especifico, por ejemplo en un sistema de archivo en un hospital. Los diarios de pacientes son hoy en día con frecuencia registrados y almacenados electrónicamente, pero los viejos diarios con frecuencia se basan en papel y necesitan por lo tanto ser explorados para ser integrados en la versión electrónica del sistema. De acuerdo a un ejemplo de modalidad de la presente invención, los sitios en la Internet que son usados para configurar en el proceso de confirmación son seleccionables . Por ejemplo, en un caso son diarios de hospitales, los sitios de la Internet que comprenden la información médica son la mejor elección de sitios a ser buscados.. De acuerdo a otro aspecto de la presente invención, cualquier tipo de conocimiento de contexto relacionado con el documento a ser explorado en un sistema OCR puede ser usado como calificadores de palabras. El contexto médico como se describió anteriormente puede ser definido además como especialidades médicas como la ortopedia, etc. Otros ejemplos pueden ser la historia familiar, donde un nombre familiar especial es predominante. Otros ejemplos pueden ser de ciencia, agricultura, etc. Común a todo este "conocimiento" es que es fácil convertir este "conocimiento" en direcciones para máquinas de búsqueda que comprendan información relevante relacionada con el contexto de páginas del documento a ser reconocidas. Los enlaces o vínculos con esas páginas son entonces usados cuando se busca en la red diferentes palabras candidatas de palabras reconocidas de manera incierta, y los números de aciertos para las diferentes alternativas son entonces usados como base para seleccionar la palabra más probable. De acuerdo a un ejemplo de modalidad de la presente invención, la Copernic Agent Professional es usada como la máquina o motor de búsqueda donde el criterio de búsqueda a ser usado es seleccionado de acuerdo al contenido de las páginas a ser reconocidas. En este ejemplo de motor de búsqueda, es posible seleccionar sitios de acuerdo a la ley, recursos humanos, gobierno, ciencias, etc. De acuerdo a otro aspecto más de la presente invención, aún cuando una palabra es reconocida de manera incierta debido a caracteres reconocidos de manera incierta en la palabra, partes de esas palabras pueden aún ser una palabra reconocida válida. Por ejemplo, "housekeeper" comprende dos palabras "house" y "keeper". Si la parte reconocida de manera incierta de la palabra se relaciona con la parte "keeper" de la palabra, la búsqueda con combinaciones que comprendan "house" simplificarían el proceso de confirmación. De acuerdo a un ejemplo de modalidad de la presente invención, se usa un diccionario para extraer parte principales identificables de palabras reconocidas de manera incierta. Esto es logrado tomando la primera letra de la palabra como un argumento para el proceso de búsqueda en el diccionario, y tomando entonces la primera letra con la siguiente letra hasta que la combinación más larga posible de letras de la palabra que proporciona un resultado del proceso de búsqueda en el diccionario es identificada. Esta parte de la palabra es entonces usada en el proceso de búsqueda como un calificador para el resto de la palabra que necesite ser confirmada como la palabra más probable. Si el resultado del proceso de búsqueda en el diccionario es concluyente, el proceso continúa de acuerdo a uno de los ejemplos de las modalidades descritas anteriormente. De acuerdo a otro aspecto más de la presente invención, los mismos pasos de un método de acuerdo a la presente invención pueden ser utilizados en un proceso de verificación de ortografía. Los algoritmos de verificación de ortografía serán en muchos casos capaces de verificar la ortografía de aquellas palabras que son parte del diccionario específico del lenguaje. Algunas clases de palabras como palabras en lenguajes extranjeros y nombres propios no pueden ser expresadas como encontradas en un diccionario especifico del lenguaje puesto que existen con frecuencia limitaciones en cuanto al tamaño y consistencia del diccionario. Utilizando los aspectos de la presente invención como se expuso anteriormente, un método que comprenda los pasos de la presente invención puede resolver palabras escritas de manera incorrecta. De acuerdo a otro aspecto más de la presente invención, las palabras reconocidas de manera incierta son con frecuencia encontradas en sistemas de reconocimiento de voz también. Cuando un proceso de reconocimiento, que es un proceso de reconocimiento óptico o reconocimiento de frecuencia vocal etc., reporta palabras reconocidas de manera incierta, se establecen entonces posibles variaciones de la palabra incierta, por ejemplo, a través de sugerencias de alternativas de carácter para un carácter reconocido de manera incierta como es propuesto para el proceso de reconocimiento en si, o identificando palabras reales como parte de una palabra como se describió anteriormente, la búsqueda en la red puede proporcionar un proceso que identifique la palabra más probable como el reconocimiento correcto de la palabra. De acuerdo a otro aspecto de la invención, los caracteres reconocidos de manera incierta pueden ser combinaciones de dos o más caracteres. Por ejemplo, el carácter "m" puede ser una combinación de "r" y n", u otra forma redonda. Es decir que, una incertidumbre reconoce "r" y "n" como si fueran una "m" . Por lo tanto está dentro del alcance de la presente invención proporcionar soluciones con un número variable de caracteres reconocidos de manera incierta .

BREVE DESCRIPCION DE LAS FIGURAS La Figura 1 ilustra un ejemplo de una palabra difícil "Helligolav". La Figura 2 ilustra un ejemplo de reconocimiento dudoso de las letras "N" y "H"; La Figura 3 ilustra una imagen de un barco encontrado cuando se busca en la Internet. La Figura 4 ilustra un ejemplo del resultado de búsqueda usando las frases de búsqueda "Helligolav" y "Nelligolav" . La Figura 5 ilustra otro ejemplo de palabra reconocible difícil. La Figura 6 describe un diagrama de flujo de un ejemplo de método de acuerdo a la presente invención; La Figura 7 ilustra un ejemplo de una salida de un programa OCR existente.

DESCRIPCION DETALLADA DE LAS MODALIDADES PREFERIDAS DE LA INVENCION De acuerdo a un aspecto de la presente invención, el proceso de confirmación es efectuado en tres pasos principales. El proceso de reconocimiento, por ejemplo un proceso de reconocimiento óptico (OCR) , identifica primero caracteres reconocidos de manera incierta junto con alternativas de clasificación de caracteres para este carácter. La Figura 7 ilustra un ejemplo de salida de un programa OCR comercialmente disponible. Un ejemplo del proceso OCR seria que el carácter "i" puede tener las alternativas "1" y "j". En segundo lugar, la palabra o frase de la que el carácter es parte se usa como entrada para un motor de búsqueda de la red que forma una búsqueda para cada combinación de carácter alternativo de esa palabra o frase particular. Por ejemplo, con las alternativas "i", "1" y "j", son usadas tres alternativas para la palabra bajo investigación. En tercer lugar, los resultados del motor de búsqueda en la red son analizados con respecto al número de ocurrencias o la probabilidad de cada combinación de carácter alternativa, y se selecciona la alternativa más probable. De acuerdo a un ejemplo de modalidad de la presente invención, un programa efectúa los pasos del método anterior comunicándose con la Internet a través de una API para un buscador en la Internet, proporcionando las alternativas ortográficas como argumentos de búsqueda, y medidas de aciertos para las alternativas ortográficas. Las alternativas ortográficas como se describe en la Figura 7 también pueden ser reportadas como un archivo que puede ser comunicado al programa de acuerdo a la presente invención, como es sabido por un experto en la técnica. Un ejemplo que ilustra la aplicación de una modalidad de acuerdo a la presente invención se tomó de una carta escrita en 1926, y la cual se almacenó en los Archivos Nacionales de Noruega ( Riksarkivet ) . El contenido de la carta se- relaciona con el embarque de renos a través del Océano Atlántico con los buques de vapor Helligolav y Stavangerfj ord . Los nombres propios de esos dos barcos no pueden ser encontrados en ningún diccionario en inglés existente. Además, en este ejemplo de procesamiento OCR, el carácter "N" y "H" como se ilustra en la figura 2 es difícil de distinguir. Una frase de la carta de 1926 se ilustra en la figura 1. Por lo tanto, existen dos alternativas de acuerdo a lo reportado de la función OCR, "Helligolav" y "Nelligolav". No existe preferencia estadística por ninguna de las alternativas en las estadísticas de frecuencia de la carta. Sin embargo, si usados las dos alternativas "Helligolav" y "Nelligolav" como consultas en un motor de búsqueda en la red, existen 65 páginas en la red que contienen la palabra "Helligolav" y ninguna que contenga la palabra sin sentido "Nelligolav" , una clara verificación que seria reconocida como "Helligolav". Uno de los resultados de la búsqueda es una imagen del barco que se ilustra en la Figura 3. De acuerdo a otro aspecto de la presente invención, el conocimiento acerca del contenido en un documento a ser reconocido puede ser usado en el proceso de combinación. En el ejemplo anterior, el conocimiento de que la carta comprende contenido relacionado con barcos, animales, etc., puede ser utilizado de modo que las consultas sean presentadas a los sitios de la Internet que comprenden información relacionada con barcos, animales, etc. El retorno de una imagen de unas galería de imágenes que comprenden ilustraciones de barcos es entonces una identificación fuerte acerca del significado de la palabra. La forma de identificar una imagen es identificando la extensión del archivo que es por ejemplo ".BMP" ".JPG", etc . Otro ejemplo de uso de una modalidad de la presente invención comprende una frase del libro popular "Dark Fire" del autor C.J. Sansom escrita en caracteres alfanuméricos negros raros, como se describe en la Figura 4. La calidad de la imagen explorada de esta frase es de excelente calidad, y por lo tanto la mayoría del texto puede ser descodificado comparando símbolos similares y efectuando un descifrado de los símbolos como un codificador de sustitución monoalfabética , como es bien sabido por un experto en las técnicas usadas en análisis criptográfico . Las palabras indescifrables restantes son palabras como el nombre propio "Vaughan", puesto que la "V" es indescifrable debido a que no existe otra letra mayúscula "V" en el texto y la palabra "Vaughan" no es encontrada en un diccionario. Por las estadísticas de frecuencia de letras como es sabido por un experto en la técnica, las posibilidades de alternativas de confusión de "V" se limitan a las letras mayúsculas consonantes "BCDFGHJKLMNPQRSTVWX". Los resultados medidos de las consultas de búsqueda en la red con esas hipótesis alternativas se listan en la Tabla 1 a continuación.

Tabla 1 Pregunta Dudosa Resultados de la Consulta (número de páginas en la red) Baughan 629 000 páginas Caughan 12 300 páginas Daughan 3 030 páginas Tabla 1 Aún cuando Vaughan es la más probable con casi 90% del número total de aciertos a la consulta, no puede tomarse una decisión concluyente directamente sobre la base de esos resultados. Es posible considerar "Xaughan" y "Qaughan" como muy probables debido al muy bajo número de aciertos, pero existe aún una probabilidad del 10% de una clasificación errónea si se selecciona la alternativa "Vaughan" . Sin embargo, si usamos la frase de búsqueda "Vaughan livery", únicamente encontramos 4 páginas que contienen la frase con una "V" al principio, y ninguna de las otras combinaciones de caracteres regresa ningún acierto de medición de consulta. La explicación de esos resultados es que mientras la familia Vaughan es parte de la vieja aristocracia Inglesa y en consecuencia tenia sirvientes en "Vaughan livery", ninguna de las otras familias Baughan, Caughan, Maughan, etc. tenia sirvientes en su caballeriza puesto que ninguna son parte de la nobleza. Usando el conocimiento acerca del contexto del texto a ser reconocido, la palabra más probable puede ser identificada. En este ejemplo, la palabra "livery" es la primera palabra posterior después de la palabra bajo investigación. Por lo tanto, combinando esta palabra con todas las otras alternativas posibles, elementos de búsqueda, la palabra combinada revela el significado del contenido, y en consecuencia la versión más probable de la palabra bajo investigación. En la Figura 5, se describe un texto tomado del Aenid of Vergil, en el cual una de las palabras reconocidas de manera incierta es Oanae con la ortografía alternativa Danac. No se encuentra ninguna palabra en el diccionario. En el mismo texto hemos reconocido con certidumbre las palabras Latinus, Turnus, Rutulian, Argos y Long.

Tabla 2 Con referencia a la Tabla 2, la relación de aciertos de búsqueda de consulta en la red entre Danae y Danac es de 96% a favor de Danae, algo que puede ser visto como no concluyente. Una posible estrategia es usar la búsqueda en la red combinando las palabras de búsqueda con otras palabras reconocidas de manera certera. La palabra Long es muy común y únicamente 0.1 por millar de todos los documentos que contienen la palabra Long contienen Danae o Danac y la relación de aciertos es del 93%. Las palabras Argos, Turnus, y Latinus regresan todas relaciones de acierto combinada con Danae y Danac que favorecen a Danae (>99%), pero la concurrencia relativa de la palabra es aún pequeña. La palabra menos común es Rutulian que únicamente da como resultado 880 aciertos únicamente, lo que conduce a un argumento concluyente. Rutulian nunca se combina con Danac, pero en el 27% de los documentos que contienen la palabra Rutulian, también encontraremos la palabra Danae, indicando una fuerte concurrencia de palabra. La generalización de este principio es que palabras reconocidas con certidumbre con baja frecuencia de conteos en las consultas de búsqueda en la red que ocurren con una de las palabras alternativas proporcionan la respuesta más confiable que las palabras reconocidas con certidumbre con alta frecuencia. Generalmente, un aspecto de acuerdo a la presente invención es que es posible identificar con certidumbre lo que no es una palabra. Generalmente, un aspecto de acuerdo a la presente invención es que es posible identificar con certidumbre lo que no es una palabra. Esto se logra identificando alternativas que regresan aciertos de medición de 0 de la búsqueda en la red. Generalmente, el número de aciertos medidos o ingresados puede caer dentro de tres categorías: 1) El número resultante de aciertos medidos es superior a un umbral superior predefinido para una de las alternativas. Entonces esta alternativa es seleccionada. 2) El número de aciertos medidos es inferior a un umbral inferior. Entonces esta alternativa es desechada. 3) El número de aciertos medidos cae entre el umbral superior e inferior. Entonces la alternativa es investigada aún más. De acuerdo a un ejemplo de modalidad de la presente invención, esas tres categorías pueden ser usadas como una medida de confirmación de la versión robada de una palabra bajo .investigación. De acuerdo a una modalidad alternativa de la presente invención, el umbral superior y el umbral inferior pueden variar de manera cooperativa, o independiente hacia arriba o hacia abajo. Por ejemplo, el 100% de los aciertos totales puede ser dividido en tres secciones definidas por un 10% por encima del umbral superior, un 10% por debajo del umbral inferior, lo cual implica que el 80% de los aciertos caen entre los umbrales. De acuerdo a la modalidad alternativa, el intervalo puede ser dividido como 5%, 90%, 5%, respectivamente, o como 10%, 70%, 30%, respectivamente. Cualquier división está dentro del alcance de la presente invención. De acuerdo a un ejemplo de modalidad de la presente invención, un método que comprende pasos para conformar la versión más probable de una palabra reconocida de manera incierta comprende los siguientes pasos: a) .Cuando un proceso de reconocimiento reporta un carácter reconocido de manera incierta, la palabra que comprende este carácter es registrada de modo que las alternativas de versión del carácter sean insertadas en la posición del carácter en la palabra, creando por lo tanto una lista que comprende alternativas de palabra. Una función OCR como es sabido por aquellos expertos en la técnica proporciona esa información. b) Las palabras en la lista son entonces usadas como consultas en un buscador de Internet como es sabido por un experto en la técnica. Los resultados de la búsqueda son medidos y almacenados en una lista, por ejemplo. c) El siguiente paso es entonces investigar el resultado en la lista de reporte. El proceso de selección de confirmación se basa en la observación de aquellas búsquedas que realizan resultados de cero proporcionan cierta información a cerca de lo que no es una palabra. Por lo tanto el proceso investigará únicamente además aquellos listados que proporcionen un resultado de búsqueda diferente de cero. Sin embargo, la interpretación del número de aciertos no se relaciona únicamente con el número más grande de aciertos en la Internet sino como un porcentaje de 'acierto relativo con relación a los otros aciertos. Si el porcentaje de aciertos relativos superior a un umbral predefinido superior para una alternativa especifica, esta alternativa es seleccionada como la palabra más probable. d) Si el porcentaje de aciertos relativos se encuentra por debajo del umbral superior, el porcentaje de acierto relativo se encuentra por encima del umbral de porcentaje de aciertos inferior, se efectúa una investigación adicional. Si la palabra alternativa tiene un porcentaje de aciertos relativo fuera del umbral superior e inferior, la alternativa es tratada como si no fuera con certidumbre la palabra. e) Además, la investigación de la palabra reconocida d manera incierta comprende pasos para verificar si la palabra tiene una letra mayúscula, y por lo tanto es un nombre propio probable. Si el proceso de reconocimiento regresa a otros nombres propios probables, al menos dos nombres propios son usados como una consulta de búsqueda combinada. Nuevamente, la combinación de palabras aunque regresa a cero aciertos es descartadas como candidatas. Los resultados restantes son entonces probados de acuerdo al intervalo de confianza, ya sea estando encima de un umbral superior o debajo de un umbral inferior, o como candidatas para una investigación adicional cuando están dentro de los limites de los umbrales superior e inferior . f) Si la prueba de nombre propio falla, un paso adicional es efectuar una combinación de al menos una palabra precedente y una posterior encontradas en el texto con relación a' la palabra bajo investigación. Se efectúa la misma prueba de confianza. g) Si las pruebas de palabras combinadas en el paso f) fallan, entonces al menos una palabra precedente o al menos una posterior que comprenda un número de caracteres por encima de un umbral predefinido se selecciona para ser combinada con la palabra bajo investigación. La prueba de confianza es entonces efectuada sobre los resultados reportados. Usando únicamente palabras por encima de una cierta longitud, palabras que pequeñas como "a", "the", "and" etc. son evitadas como elementos de búsqueda . h) Si la prueba de confianza en el paso e) falla, entonces se efectúa un conteo de frecuencia relativa de al menos una palabra precedente o al menos una posterior, y únicamente aquellas palabras con un conteo de frecuencia relativo bajo es usada en el paso g) . La medición para las diferentes alternativas de ortografía son entonces usadas para evaluar la palabra más probable, o son usadas para iniciar mediciones adicionales de alternativas de ortografía, usando una sola palabra, combinación de palabras múltiples, frases y/o en combinación con tarjetas silvestres como argumentos de búsqueda adicionales que son medidos . j) Si cualquiera de los pasos c) a i) regresa respuestas no concluyentes para la palabra bajo investigación, el umbral superior y el umbral inferior son cambiados en pasos operativos un número de veces predefinidas, y se repiten los pasos de confirmación c)-i). k) Si el paso j) también falla, se usan selecciones aleatorias de umbrales superior e inferior, y se repiten los pasos de confirmación c) a i). 1) Si la prueba de confianza falla en el paso k) , se selecciona la alternativa que tiene el porcentaje de acierto mayor de los resultados de búsqueda en el paso d) como la palabra más probable. En el ejemplo de modalidad de la presente invención como se describió anteriormente, el carácter reconocido de manera incierta puede ser dos o más caracteres que sean difíciles de distinguir. Por ejemplo, el carácter "m" puede ser una combinación de "r" y "n", por ejemplo, pero la función OCR tiene problemas en distinguir cada carácter respectivo. También existe la posibilidad de que la función OCR interprete una combinación de "r" y "m" de manera distinta, pero el carácter es realmente "m" . Todas las modalidades de la presente invención, cualquier referencia a un carácter reconocido de manera incierta puede comprender uno o más caracteres reconocidos de manera incierta como se ilustra aquí. En este contexto, la expresión "alternativa de ortografía" comprende la sustitución de un carácter reconocido de manera incierta con una o más posibles sustituciones de un carácter con una combinación de otros dos caracteres, o viceversa.

De acuerdo a otro aspecto de la presente invención, los valores umbral usados para determinar la aceptación de una alternativa de ortografía se relaciona con mediciones de posibles alternativas de ortografía como se describió anteriormente. Sin embargo, el número total de aciertos que sean medidos será en algún sentido influenciado por el nivel real de los umbrales que sean usados. De acuerdo a un ejemplo de modalidad de la presente invención, el nivel de aceptación para una alternativa de ortografía y, denotada como aceptación (i) puede ser expresado como: #aciertos, aceptación{i) ¾=> — > #aciertos) L¿=1 #aciertosí Donde i denota una de las alternativas de ortografía i, #aciertoSi es el número total de mediciones de aciertos de todas las alternativas de ortografía, y {^aciertos) es el nivel umbral que es la función del número de aciertos.

En otro ejemplo de la modalidad de la presente invención, la aceptación ( i ) se define como: . , ... # aciertos , ^ .„ . aceptacionyi) <=> > ?(# aciertos), max(# aciertos j)j?i Donde max ( ^aciertosj ) j?i es el número total medido aciertos para todas las alternativas de ortografía sin incluir la alternativa de ortografía para i, y los otros parámetros son como se definieron anteriormente. En un ejemplo de modalidad de la presente invención, ? es uno de los valores posibles, uno por cada número alto de aciertos y otro de otro modo. En otro ejemplo más de modalidad de la presente invención existen ? diferentes para frases, palabras solas y palabras múltiples, si la búsqueda comprende cartas silvestres etc., y cuando una alternativa de ortografía es medida como una sola palabra, como parte de búsquedas de palabras múltiples, o como en la frase, los diferentes niveles de umbral son usados respectivamente para verificar la alternativa de ortografía más probable. Otra forma de valor de aceptación podría ser mantener la métrica en el intervalo de [0,1], un ejemplo de umbral puede entonces ser: rMejor(i) > r(#aciertos) acier sj t max ffac er osj Donde los parámetros son como se definieron anteriormente. La definición del umbral es también denotada como rMejor (i) usado como argumento en una función de mérito definida más adelante. De acuerdo a otro aspecto de la presente invención, también es posible medir y hacer comparaciones con niveles de umbral para rechazar una alternativa de ortografía, por ejemplo usando: #aciertoSj rechazo{i) <=> — = rMejor(i) = ? (^aciertos) #aciertoSj -5- max (#aciertoS)xi Donde los parámetros son como se definieron anteriormente, mientras que el nivel de umbral inferior como función del número de aciertos es denotado como K {^aciertos) .

En un ejemplo de modalidad de la presente invención, ? es uno de los valores posibles, uno para cada número alto de aciertos y otro de otro modo. En otro ejemplo más de modalidad de la presente invención existen diferentes ? para frases, palabra solas y palabras múltiples, si la búsqueda comprende tarjetas silvestres, etc., y cuando. una alternativa de ortografía es medida como una palabra sola, como parte de búsquedas de palabras múltiples, o como una frase, etc., los diferentes niveles de umbral son usados respectivamente para verificar la alternativa de ortografía más probable.

Como es sabido por un experto en la técnica, los programas OCR también pueden reportar probabilidades de carácter o valores de puntaje, denotados como valor de CRS, el cual puede ser usado para diseñar una función de mérito que incluya ambos CRS y #aciertos de las búsquedas en la red. Esas funciones de mérito pueden ser usadas como valores de aceptación o valores de rechazo, respectivamente. De acuerdo a un aspecto de la presente invención, la palabra más probable es la que maximiza la función de mérito, para la palabra i: #aciertos* punta) etotal(Q = CRS Mbr&(i)+ b max(#aciertos) -¾.

Donde a+b = 1, CRSpaiabra ( i ) es el valor del puntaje del carácter del proceso OCR relacionado con la alternativa de ortografía i, max ( üa ci ertosj ) j?¿ es el número total medido de aciertos para todas las alternativas de ortografía, sin incluir la alternativas de ortografía para i. Los factores de peso a y b pueden ser usados para regular la importancia o contribución relativa al valor de la función del valor de CRS y el número de aciertos, respectivamente .

Una función de mérito aún más complicada podría ser : !_ _ T.ncsr UCRS ¦ ¦punta) etotal(i) = o'C/?5_elafcro (í) + b' (l -min(CRSt)) - cf ¾=1 + ncar d'f rM ejor l fraMe, rMejar(i)peMr mtafl rM ejor(C}patebrvt m&itipiei) Donde el segundo término es el CRS mínimo para todos los caracteres en la palabra, y el tercer término es la suma de la diferencia de CRS entre el CRS más alto para cada carácter y el CRS usando la palabra (i) . La función f es una función mínima o máxima, respectivamente, de los diferentes niveles de aceptación como se definió anteriormente relacionados con una sola palabra i, el nivel de aceptación para las frases que comprenden la palabra i, y las búsquedas de palabras múltiples que comprenden la palabra i. En la función a' +b' +c' +d' =1, i se usa para regular la contribución de cada elemento, ncar es el número de caracteres en la palabra i. De acuerdo a un aspecto de la presente invención, la frase "nivel de umbral" incluye, pero no se limita a: un número seleccionado, un número renormalizado, un nivel de aceptación, un valor de puntaje total o un nivel de rechazo . El método de acuerdo a la presente invención como se describió anteriormente puede ser implementado como rutinas de programas y sistemas de programación o software en un sistema OCR existente, como de sabido por un experto en la técnica.- El único prerrequisito es que la función de reconocimiento reporte los caracteres reconocidos de manera incierta y las palabras que comprenden esos caracteres. Además, la función de reconocimiento deberá reportar las alternativas para el carácter reconocido de manera incierta. Además, los otros pasos de confirmación no necesariamente tienen que ser efectuados como se describió anteriormente, es decir que el paso i) puede ser efectuado antes que el paso h) , como es comprendido por un experto en la técnica.

De acuerdo a modalidades de la presente invención, cuando un alimento de búsqueda es combinado con otras palabras, también pueden ser usadas partes de palabras. Además, la operación de elementos combinados para proporcionar un argumento de búsqueda incluye, pero no se limita a, usar operaciones de búsqueda bien conocidas, por ejemplo "house AND keeper", donde AND es el operador como argumento de búsqueda, y el cual es bien conocido por un experto en la técnica. Además, debe comprenderse que también es posible omitir ciertos tipos de archivos en la búsqueda usando operadores de búsqueda específicos. Por ejemplo, proporcionando un "-PDF" después el argumento de búsqueda omite todos los tipos de archivos PDF, los cuales muy frecuentemente comprenden imágenes de texto exploradas. Usando esa orden, el proceso de búsqueda evita investigar documentos que comprendan los tipos de errores típicos que el proceso de búsqueda pretende corregir, calificando por lo tanto los documentos usados como base para la verificación como documentos "limpios". Ejemplos adicionales de modalidades de la presente invención comprenden un proceso de confirmación que identifica primero el número de aciertos de palabras precedentes y palabras posteriores proporcionadas cuando se usan como argumentos de búsqueda en un motor de búsqueda. Aquellas palabras posteriores con bajo porcentaje de acierto y diferente de cero (por debajo de un primer umbral), y que no comprenden un número alto de caracteres (por encima de un segundo) umbral, son usadas en combinación con la palabra bajo investigación como una alternativa de ortografía para el proceso de confirmación. De acuerdo a otro ejemplo de modalidad de la presente invención, el umbral de confirmación más alto y el umbral de confirmación mas bajo pueden ser cambiados de manera cooperativa o independiente entre sí para proporcionar una afinación del criterio para categorizar la palabra reconocida de manera incierta bajo investigación. De acuerdo a este ejemplo de modalidad, cuando los umbrales son cambiados, se inicia una nueva búsqueda, y el proceso se repite hasta su finalización, ya sea cuando un resultado exceda el umbral superior, o cuando un resultado no concluyente, donde la alternativa de ortografía elegida que proporcione el número más alto de aciertos es seleccionada como la versión más probable de la palabra bajo investigación . De acuerdo a otro ejemplo más de modalidad de la presente invención, un usuario puede seleccionar una gama de sitios que el motor de búsqueda va a usar cuando efectúe el proceso de confirmación. De acuerdo a esta modalidad de la presente invención, no únicamente los sitios en la Internet son seleccionables, también pueden ser seleccionadas computadoras conectadas a Intranets, VPR o redes similares. De acuerdo a este ejemplo de modalidad, todas las autentificaciones y asociaciones necesarias son efectuadas sobre la base de la información contenida en la lista seleccionada por el usuario cuando se haga referencia a esas computadoras, como es sabido por un experto en la técnica. También es importante señalar que las fuentes de información no necesariamente se limitan a la información almacenada en computadoras conectadas a redes, sino que el motor de búsqueda de acuerdo a la presente invención también puede buscar en un disco duro conectado localmente o de manera remota que comprenda información como se expone en los principios de la presente invención. Es decir, que cualquier sistema o método de archivos para montar un sistema de archivos que resida en computadoras locales o computadoras en una red es visto como dentro del alcance de la presente invención, como sitios buscables. Un experto en la técnica puede comprender fácilmente que los mismos métodos y sistemas de toda la presente invención pueden ser utilizados en cualquier tipo de sistema de reconocimiento, por ejemplo sistemas de reconocimiento de frecuencia vocal. El proceso de conformación puede basarse en fonemas, más que en caracteres solos como alternativas de confusión. Además, también es fácilmente comprendido por un experto en la técnica que pueden ser efectuados pasos similares de acuerdo a la presente invención en un ambiente de verificación de ortografía. La Figura 6 ilustra un ejemplo de modalidad de un sistema de acuerdo a la presente invención, un diagrama de flujo de un programa de computadora que efectúa los pasos de un método de acuerdo a la presente invención que proporciona una confirmación de la palabra más probable de una palabra reconocida de manera incierta en un sistema OCR con el que esta modalidad se está comunicando. Un documento de texto 10 es una entrada a un motor de reconocimiento 11 que reporta palabras inciertas 12 como una lista de caracteres reconocidos de manera incierta junto con las palabras donde esos caracteres han sido encontrados. Las alternativas o hipótesis de ortografía se construyen en 13. Las alternativas de ortografía son entonces usadas como consultas en búsquedas en la red en 17. De manera alternativa, las palabras reconocidas de manera apropiada son registradas en 15. En 16 se efectúa un proceso de agregar palabras o frases o tema/contenido al documento. Junto con las alternativas de ortografía de 18, esas combinaciones son usadas como argumento de búsqueda en 17. El análisis 19 que comprende los pasos de confirmación de acuerdo a la presente invención es ejecutado sobre los resultados de búsqueda proporcionados de 17. El proceso de selección en 21 puede usar la medición de confirmación como se describió anteriormente para hacer la selección real. Sin embargo, puede ser implementado cualquier proceso de selección de acuerdo a la presente invención. Si el proceso de selección no es concluyente, el proceso regresa los resultados no concluyentes a 16, y el proceso continúa hasta que ha sido alcanzado un resultado concluyente, o el número de iteraciones posibles de estrategias y/o ajustes de umbral se agotó. Entonces el proceso de selección 21 termina el proceso seleccionando la alternativa para la palabra bajo investigación proporcionando la medición de combinación más alta, y reportando esta alternativa nuevamente al motor de OCR que proporciona un texto completo que comprende todas las palabras reconocidas de manera incierta confirmadas sustituidas con la alternativa más probable para cada una. De acuerdo a otro aspecto de la presente invención, un carácter en blanco también se observa como un carácter que puede ser un carácter reconocido de manera incierta. Esta es una situación donde una palabra está divida de manera errónea en dos mitades, por ejemplo. Está dentro del alcance de la presente invención formar alternativas de ortografía que comprendan remover un carácter de una palabra o frase.

Claims

NOVEDAD DE LA INVENCION Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes:
REIVINDICACIONES 1. Un método para resolver datos de salida contradictorios de un sistema de reconocimiento de caracteres ópticos (OCR) , donde los datos de salida comprenden al menos una palabra con al menos un carácter reconocido de manera incierta, donde al menos un carácter reconocido de manera incierta es reportado en los datos de salida junto con las alternativas probables para al menos un carácter reconocido de manera incierta, y las palabras donde este carácter reconocido de manera incierta ha sido encontrado al menos en una imagen de un texto que está siendo procesado por el sistema OCR, el método se caracteriza porque comprende los pasos de: usar un motor o máquina de búsqueda de Internet con argumentos de búsqueda establecidos de acuerdo a una estrategia de búsqueda que comprende: a) 'proporcionar argumentos de búsqueda iniciales formando alternativas de ortografía para las palabras que comprenden al menos un carácter reconocido de manera incierta con las alternativas probables reportadas para al menos un carácter, uno por uno y si es posible combinaciones de cada palabra encontrada, o removiendo un carácter, formando por lo tanto una pluralidad de alternativas de ortografía, y midiendo y registrando entonces números de aciertos para los resultados de búsqueda de cada alternativa de ortografía respectiva que haya sido formada de esta manera, b) comparar el número medido de aciertos de cada una de las alternativas de ortografía con un nivel umbral relativo predefinido superior y un nivel umbral relativo predefinido inferior, donde cada unas de las comparaciones respectivas de la pluralidad de mediciones cae en uno de tres resultados posibles: i) si la medición de una alternativa de ortografía se encuentra por encima del nivel umbral superior relativo predefinido, la alternativa de ortografía correspondiente para esta medición es la alternativa de ortografía correcta para la palabra, y termina la búsqueda en la Internet, ii) si la medición de una alternativa de ortografía se encentra por debajo del nivel umbral relativo predefinido anterior, la alternativa de ortografía correspondiente para esta medición se considera no existente, y la palabra en esta alternativa se desecha de investigaciones adicionales, y se continúa con las otras alternativas de ortografía que hayan sido formadas como elementos de búsqueda para el motor de búsqueda en la Internet , iii) si la medición de una alternativa de ortografía cae entre el nivel umbral relativo superior y el nivel umbral relativo inferior, se sale del motor o máquina de búsqueda de la Internet y se modifica la estrategia de búsqueda proporcionando argumentos de búsqueda adicionales como una combinación de miembros de las alternativas de ortografía restantes y otras palabras encontradas en el documento, otras alternativas de carácter para al menos un carácter reconocido de manera incierta, frases, adaptación del nivel umbral relativo superior, adaptación del nivel umbral relativo inferior, y/u otra información relacionada con los datos de salida del sistema OCR, antes de continuar usando la estrategia de búsqueda que proporciona mediciones y comparaciones adicionales para resolver los datos de salida contradictorios, c) continuar el paso de procesamiento b) un número de veces predefinido, o hasta que exista únicamente una alternativa de ortografía, lo que ocurra primero, proporcionando una iteración entre una pluralidad de diferentes elementos de búsqueda usados en la estrategia de búsqueda antes de terminar el paso b) , y usar la alternativa de ortografía restante que tenga la medición más alta por encima del nivel más relativo superior como la alternativa de ortografía correcta. 2. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende sustituir al menos un carácter reconocido de manera incierta con una combinación de al menos dos caracteres cuando se formen las alternativas de ortografía .
3. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende sustituir dos o más de al menos un carácter reconocido de manera incierta con un solo carácter cuando se formen las alternativas de ortografía.
4. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende identificar si la alternativa de ortografía bajo investigación es un nombre propio, y si es así identificar en el proceso OCR otras palabras reconocidas que sean nombre propios, proporcionando entonces como una alternativa de ortografía una combinación de la palabra bajo investigación junto con al menos otro nombre propio reconocido de manera apropiada.
5. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende usar al menos una palabra preferente relacionada con la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
6. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende usar al menos una palabra posterior relacionada con la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
7. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende usar al menos una palabra precedente más lejana con relación a la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
8. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende usar al menos una palabra posterior más lejana con relación a la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
9. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende usar al menos una palabra precedente más lejana con relación a la palabra bajo investigación, la cual comprende un número de caracteres por encima de un umbral predefinido en combinación con la palabra bajo investigación como alternativa de ortografía.
10. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende usar al menos una palabra posterior más lejana con relación a la palabra bajo investigación, la cual comprende un número de caracteres por encima de un umbral predefinido en combinación con la palabra bajo investigación como alternativa de ortografía.
11. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende los pasos de: i) obtener un conteo de ocurrencia de palabras encontradas en la imagen de texto en el proceso OCR, ii) usar al menos una palabra precedente manejada con relación a la palabra bajo investigación que tenga un número bajo de ocurrencias debajo un umbral predefinido en combinación con la palabra bajo investigación como la alternativa de ortografía.
12. El método de conformidad con la reivindicación 11, caracterizado porque la estrategia de búsqueda comprende además en el paso ii: usar al menos una palabra posterior más lejana con relación a la palabra bajo investigación que tenga un número bajo de ocurrencias por debajo de un umbral predefinido en combinación con la palabra bajo investigación como la alternativa de ortografía.
13. El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende los pasos de: i) obtener un control de ocurrencia de palabras encontradas en la imagen de texto en el proceso OCR, ii) usar al menos una palabra precedente manejada con relación a la palabra bajo investigación que tenga un número alto de ocurrencias por encima de un primer un umbral predefinido y que comprenda un número alto de caracteres en la palabra por encima de un segundo umbral predefinido en combinación con la palabra bajo investigación como la alternativa de ortografía.
14. El método de conformidad con la reivindicación 13, caracterizado porque la estrategia de búsqueda comprende además en el paso ii) : usar al menos una palabra posterior más lejana con relación a la palabra bajo investigación que tenga un número alto de ocurrencias por encima de un primer umbral predefinido y que comprenda un número alto de caracteres en la palabra por encima de un segundo umbral en combinación con la palabra bajo investigación como la alternativa de ortografía .
15. .El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende los pasos de: i) seleccionar palabras preferentes con relación a la palabra bajo investigación una por una y listar aquellas palabras procedentes que comprendan un número de caracteres por encima del umbral predefinido; ii) usar las palabras seleccionadas de i) como argumentos de búsqueda en un motor de máquina de búsqueda en la Internet e identificar la palabra que proporcione un número más bajo de aciertos diferente de cero, y usar esa palabra en combinación con la palabra bajo investigación como la alternativa de ortografía.
16. El método de conformidad con la reivindicación- 1, caracterizado porque la estrategia de búsqueda comprende los pasos de: i) seleccionar palabras posteriores y más lejanas con relación a la palabra bajo investigación una por una y listar aquellas palabras posteriores que comprendan un número de caracteres por encima del umbral predefinido; ii) usar las palabras seleccionadas listadas en i) como argumentos de búsqueda en un motor de búsqueda en la Internet e identificar la palabra que proporcione un número más bajo de aciertos diferente de cero, y usar esa palabra en combinación con la palabra bajo investigación como la alternativa de ortografía.
17. El método de conformidad con la reivindicación- 1, caracterizado porque la comparación con el umbral superior y la comparación con el umbral inferior se basa en una renormalización de los umbrales y el número total reportado de aciertos .
18. El método de conformidad con la reivindicación 1, caracterizado porque los umbrales superior e inferior se cambian incrementándose hacia arriba y hacia debajo de manera cooperativa, y cuando se efectúan cambios de umbral, iniciar una nueva búsqueda y proceso de confirmación .
19. El método de conformidad con la reivindicación 1, donde los umbrales superior e inferior se cambian de manera crecente hacia arriba y hacia abajo independientemente, y cuando se efectúa un cambio de umbrales, iniciar un nuevo proceso de búsqueda y confirmación .
20. "El método de conformidad con la reivindicación 1, caracterizado porque la estrategia de búsqueda comprende los pasos de: seleccionar caracteres delanteros uno por uno de la palabra bajo investigación, combinar esos caracteres en un número creciente de caracteres delanteros, usar cada uno de los casos del número creciente de caracteres como un argumento para una búsqueda de diccionario, y si el diccionario regresa una palabra cierta de la búsqueda del diccionario, usar esta palabra en combinación con la palabra bajo investigación como la alternativa de ortografía.
21. El método de conformidad con cualquiera de las reivindicaciones precedentes, caracterizado porque el motor de búsqueda, como una alternativa o además de efectuar búsquedas en la Internet, hace búsquedas en otras fuentes de información no accesibles vía la Internet, pero que son accesibles vía una Intranet, Red Privada Virtual, o redes similares o directamente buscando en una unidad de disco duro conectada que comprende información.
22. El método de conformidad con la reivindicación 21, caracterizado porque un usuario puede seleccionar de una lista cuales sitios de información van a ser buscados durante el proceso de información.
23. El método de conformidad con la reivindicación 1, caracterizado porque el umbral superior es definido como aceptacion(i ) <=> — > 7(#aciertos) ??=i #aci.ertosi Donde i denota una de las alternativas de ortografía, üaciertosi es el número medido de aciertos para la alternativa de ortografía i, el denominador es el número total medido de aciertos para todas las alternativas de ortografía, y- {taciertos) es un nivel umbral que es función del número de aciertos.
24. El método de conformidad con la reivindicación 1, caracterizado porque el umbral superior es definido como . , ... # aciertos, , .. aceptacion(i) = > ?(# aciertos), max(# aciertos . ) J?¡ donde i denota una de las alternativas de ortografía, %aciertoSi es- el número medido de aciertos para la alternativa de ortografía i, donde max ( taciertosj) j?± es el número total medido de aciertos para todas las alternativas de ortografía sin incluir la alternativa de ortografía para i, y y {^aciertos) es un nivel umbral que es función del número de aciertos.
25. El método de conformidad con la reivindicación 1, caracterizado porque el umbral superior es rechazo(i) : ~ — = rMejor(i) < ? (#aciertos) #aciertos¡ - max (#a cierto Sj)J¾ donde %aciertoSi es el número medido de aciertos de la alternativa de ortografía i, max (üaciertosj) j?i es el número total medido de aciertos para todas las alternativas de ortografía sin incluir la alternativa de ortografía para i, y K.{#aciertos) es un nivel umbral que es función del número de aciertos.
26. El método de conformidad con la reivindicación 1, caracterizado porque se usa una función de mérito para definir una medición del número de aciertos como #aciertos, punta jetot l (i) = aCRS,palabra mo (#aciertos;) a+b = 1, CRSpaiabra ( i ) es el valor del puntaje del carácter del proceso OCR relacionado con la alternativa de ortografía i, max (#aciertoSj) j?± es el número total medido de aciertos para todas las alternativas de ortografía, sin incluir la alternativas de ortografía para i.
27. El método de conformidad con la reivindicación 1, caracterizado porque se usa una función de mérito para definir una medición del número de aciertos como puntajetotal{i) — a CRS labra(i) + b (1 — min(CRSl ') — li d'f{rM ejor(i) frase, rMejor({)palahrasola , rMejor(í)paiabrasmü,ti?eg)
CRSpa la ra ( i ) es el valor del puntaje del carácter del proceso OCR relacionado con la alternativa de ortografía i, el segundo término es el CRS mínimo para todos los caracteres en la palabra, y el tercer término es la suma de la diferencia de CRS entre el CRS más alto para cada carácter y el CRS usando la palabra (i) , f es una función mínima o máxima, de los diferentes niveles de aceptación como se definió en la reivindicación 23, y ncar es el número de caracteres en la palabra i. 28. El método de conformidad con cualquiera de las reivindicaciones 1-27, caracterizado porque el sistema OCR es un sistema de reconocimiento de frecuencia vocal, y al menos un carácter reconocido de manera incierta es una interpretación incierta de un fonema.
29. Un sistema para resolver datos de salida contradictorios de un sistema de Reconocimiento de Caracteres ópticos (OCR) , donde los datos de salida comprenden al menos una palabra con al menos un carácter reconocido de manera incierta, donde al menos un carácter reconocido de manera incierta es reportado en los datos de salida junto con alternativas probables para al menos un carácter reconocido de manera incierta, y las palabras donde éste carácter reconocido de manera incierta ha sido encontrado al menos en una imagen de un texto que está siendo procesado por el sistema OCR, el sistema se caracteriza porque comprende: un componente de sistema que usa un motor o máquina de búsqueda de la Internet con argumentos de búsqueda establecidos de acuerdo a una estrategia de búsqueda que comprende: a) el componente del sistema proporciona argumentos de búsqueda iniciales formando alternativas de ortografía para las palabras que comprenden al menos un carácter reconocido de manera incierta sustituyendo al menos un carácter reconocido de manera incierta con las alternativas probables reportadas para al menos un carácter, uno por uno y si es posible combinaciones de cada palabra encontrada, o removiendo un carácter, formando por lo tanto una pluralidad de alternativas de ortografía, y midiendo y registrando entonces números de aciertos para los resultados de búsqueda de cada alternativa de ortografía respectiva que haya sido formada de esta manera, b) el componente del sistema compara el número medido de aciertos de cada una de las alternativas de ortografía con un nivel umbral relativo predefinido superior y un nivel umbral relativo predefinido inferior, donde cada unas de las comparaciones respectivas de la pluralidad de mediciones cae en uno de tres resultados posibles : i) si la medición de una alternativa de ortografía se encuentra por encima del nivel umbral superior relativo predefinido, la alternativa de ortografía correspondiente para esta medición es la alternativa de ortografía correcta para la palabra, y termina la búsqueda en la Internet, ii) si la medición de una alternativa de ortografía se encentra por debajo del nivel umbral relativo predefinido inferior, la alternativa de ortografía correspondiente para esta medición se considera no existente, y la palabra en esta alternativa se desecha de investigaciones adicionales, y se continúa con las otras alternativas de ortografía que hayan sido formadas como elementos de búsqueda para el motor de búsqueda en la Internet, iii) si la medición de una alternativa de ortografía cae entre el nivel umbral relativo superior y el nivel umbral relativo inferior, se sale del motor o máquina de búsqueda de la Internet y se modifica la estrategia de búsqueda proporcionando argumentos de búsqueda adicionales como una combinación de miembros de las alternativas de ortografía restantes y otras palabras encontradas en el documento, otras alternativas de carácter para al menos un carácter reconocido de manera incierta, frases, adaptación del nivel umbral relativo superior, adaptación del nivel umbral relativo inferior, y/u otra información relacionada con los datos de salida del sistema OCR, antes de continuar usando la estrategia de búsqueda que proporciona mediciones y comparaciones adicionales para resolver los datos de salida contradictorios, c) el componente del sistema es el paso de procesamiento b) un número de veces predefinido, o hasta que exista únicamente una alternativa de ortografía, lo que ocurra primero, proporcionando una iteración entre una pluralidad de diferentes elementos de búsqueda usados en la estrategia de búsqueda antes de terminar el paso b) , y usar la alternativa de ortografía restante que tenga la medición más alta por encima del nivel umbral relativo superior como la alternativa de ortografía correcta.
30. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende sustituir al menos un carácter reconocido de manera incierta con una combinación de al menos dos caracteres cuando se formen las alternativas de ortografía.
31. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende sustituir dos o más de al menos un carácter reconocido de manera incierta con un solo carácter cuando se formen las alternativas de ortografía.
32. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que identifica si la alternativa de ortografía bajo investigación es un nombre propio, y si es así efectuar una consulta al proceso OCR que identifica otras palabras reconocidas que sean nombre propios, y entonces combina al menos uno de los otros nombres propios reconocidos de manera apropiada con el nombre propio bajo investigación como el nombre propio como la alternativa de ortografía.
33. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que usa al menos una palabra preferente relacionada con la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
34. -El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que usa al menos una palabra posterior relacionada con la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
35. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que usa al menos una palabra precedente más lejana con relación a la palabra bajo investigación en combinación con la palabra bajo investigación como la alternativa de ortografía.
36. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que usa al menos una palabra posterior más lejana con relación a la palabra bajo investigación * en combinación con la palabra bajo investigación como la alternativa de ortografía.
37. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que usa al menos una palabra precedente más lejana con relación a la palabra bajo investigación, ' la cual comprende un número de caracteres por encima de un umbral predefinido en combinación con la palabra bajo investigación como alternativa de ortografía.
38. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que usa al menos una palabra posterior más lejana con relación a la palabra bajo investigación cual comprende un número de caracteres por encima de un * umbral predefinido en combinación con la palabra bajo investigación como alternativa de ortografía.
39. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que: i) obtiene un control de ocurrencia de palabras encontradas en la imagen de texto en el proceso OCR, y almacena el número de ocurrencias, ii) 'selecciona al menos una palabra precedente manejada con relación a la palabra bajo investigación que tenga un número bajo de ocurrencias de i) por debajo de un umbral predefinido en combinación con la palabra bajo investigación como la alternativa de ortografía.
40. El sistema de conformidad con la reivindicación 39, caracterizado porque el componente del sistema comprende además una unidad que: selecciona al menos una palabra posterior más lejana con relación a la palabra bajo investigación que tenga un número bajo de ocurrencias por debajo de un umbral predefinido y combina esta palabra bajo investigación como la alternativa de ortografía.
41. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que: i) obtiene un control de ocurrencia de palabras encontradas en la imagen de texto en el proceso OCR, y almacena el número de ocurrencias, ii) selecciona al menos una palabra precedente manejada con relación a la palabra bajo investigación que tenga un número alto de ocurrencias por encima de un primer umbral predefinido y que comprende un número alto de caracteres en la palabra por encima de un segundo umbral en combinación con la palabra bajo investigación como la alternativa de ortografía.
42. El sistema de conformidad con la reivindicación 41, caracterizado porque el componente del sistema comprende además una unidad que: selecciona al menos una palabra posterior más lejana con relación a la palabra bajo investigación que tenga un número alto de ocurrencias por encima de un primer umbral predefinido y que comprenda un número alto de caracteres en la palabra por encima de un segundo umbral en combinación con la palabra bajo investigación como la alternativa de ortografía.
43. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que: i) selecciona palabras preferentes más lejanas con relación a la palabra bajo investigación una por una y almacena aquellas palabras precedentes que comprendan un número de caracteres por encima del umbral predefinido; ii) usa las palabras almacenadas de i) como argumentos de búsqueda en un motor de búsqueda en la Internet e identifica la palabra que proporcione un número más bajo de aciertos diferente de cero, y usa esa palabra en combinación con la palabra bajo investigación como la alternativa de ortografía.
44. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema comprende una unidad que: i) selecciona palabras posteriores más lejanas con relación a la palabra bajo investigación una por una y almacena aquellas palabras posteriores que comprenden un número de caracteres por encima del umbral predefinido; ii) usa las palabras almacenadas listadas de i) como argumentos de búsqueda en un motor de búsqueda en la Internet e identifica la palabra que proporcione un número más bajo de aciertos diferente de cero, y usa esa palabra en combinación con la palabra bajo investigación como la alternativa de ortografía.
45. El sistema de conformidad con la reivindicación 29, caracterizado porque función que proporciona la comparación con el umbral superior y la comparación con el umbral inferior se basa en una renormalización de los umbrales y el número total medido de aciertos .
46. El sistema de conformidad con la reivindicación 29, caracterizado porque los umbrales superior e inferior se cambian incrementándose hacia arriba y hacia debajo de manera cooperativa.
47. El sistema de conformidad con cualquiera de las reivindicaciones 29, caracterizado porque los umbrales superior e inferior se cambian de manera creciente hacia arriba y hacia abajo independientemente.
48. El sistema de conformidad con la reivindicación 29, caracterizado porque una alternativa de ortografía no es concluyente, proporcionando el resultado de la ortografía un número más alto de aciertos relativos (renormalizados) seleccionados como la alternativa de ortografía más probable.
49. El sistema de conformidad con la reivindicación 29, caracterizado porque el componente del sistema, como una alternativa o además de efectuar búsquedas en la Internet, no busca en otras fuentes de información no accesibles vía la Internet, pero que son accesibles vía una Intranet, VPR, o redes similares o directamente buscando en una unidad de disco duro conectada que comprende información.
50. El sistema de conformidad con la reivindicación 49, caracterizado porque un usuario puede seleccionar de una lista una gama de sitios de información a ser buscados durante el proceso de confirmación por el componente del sistema.
51. El sistema de conformidad con la reivindicación 29, caracterizado porque el umbral superior es definido como . , , .x # aciertos, ^ ,„ . aceptacion(i) => > ?(# aciertos), max(# acierto ; ) j?i donde' i denota una de las alternativas de ortografía, ftaciertosi es el número medido de aciertos para la alternativa de ortografía i, el denominador es el número total medido de aciertos para todas las alternativas de ortografía, y y (^aciertos) es un nivel umbral que es función del número de aciertos.
52. El sistema de conformidad con la reivindicación 29, caracterizado porque el umbral superior es definido como . , ... # aciertos , ^ .„ . aceptacwn(i) <= > ?(# aciertos), max(# aciertos . donde i denota una de las alternativas de ortografía, üaciertosi es el número medido de aciertos para la alternativa de ortografía i, donde max {üaciertoSj) j?i es el número total medido de aciertos para todas las alternativas de ortografía sin incluir la alternativa de ortografía para i, y·' ? (^aciertos) es un nivel umbral que es función del número de aciertos.
53. El sistema de conformidad con la reivindicación 29, caracterizado porque el umbral inferior Inciertos* se reckazo( „ , . , mtw ' , . e . = rMeior(i) = ? (#aclertos) Donde üaciertosi es el número medido de aciertos de la alternativa de ortografía i, max (üaciertosj) j?i es el número total" medido de aciertos para todas las alternativas de ortografía sin incluir la alternativa de ortografía para i, y K(#aciertos) es un nivel umbral que es función del número de aciertos.
54. El sistema de conformidad con la reivindicación 29, caracterizado porque se usa una función de mérito para definir una medición del número de aciertos como ¿¿aciertos* punta] etotal(i) — aCRSpa¡ab max(#aciertosj a+b = 1, CRSpaiabra (i) es el valor del puntaje del carácter del proceso OCR relacionado con la alternativa de ortografía i, max (^aciertosj) j?i es el número total medido de aciertos para todas las alternativas de ortografía, sin incluir la alternativas de ortografía para i.
55. El sistema de conformidad con la reivindicación 29, caracterizado porque se usa una función de mérito para definir una medición del número de aciertos como puntajetotctl(i) = a'CRS labra(0 d'f(rM ejor(í)frase, rM ejor(i)ps¡cbrasolaí, rM ejor(í)pBlabrss múlti?es) Donde a' +b' +c' +d' =1, CRSpaiabra (i) es el valor del puntaje del carácter del proceso OCR relacionado con la alternativa de ortografía i, el segundo término es el CRS mínimo para todos los caracteres en la palabra, y el tercer término es la suma de la diferencia de CRS entre el CRS más alto para cada carácter y el CRS usando la palabra (i) , f es una función mínima o máxima, de los diferentes niveles de aceptación como se definió en la reivindicación 23, y ncar es el número de caracteres en la palabra i.
56. El sistema de conformidad con cualquiera de las reivindicaciones 29-55, caracterizado porque el sistema OCR es un sistema de reconocimiento de frecuencia vocal, y al menos un carácter reconocido de manera incierta es una interpretación* incierta de un fonema.